[font=宋体][size=4][size=5] [color=#660000][b]声纹鉴定:还杰克逊一个“清白”
[/b][/color][/size][color=#660000] 苏木七发表于2011-04-14 21:58:53
[/color][/size][/font]
[font=宋体][size=4][color=#660000][color=#000000][size=3]“迈克尔•杰克逊的新歌里面,唱歌的真的是他吗?要想揪出电话那头的诈骗犯,用什么办法可以排查嫌疑人呢?本•拉登又发布了一段录音,会不会是李代桃僵呢?好啦,不如让声音来帮忙——看看声纹分析的厉害! ”
[/size][/color] [/color][/size][/font]
[font=宋体][size=4][color=#660000] 古龙笔下,陆小凤说,这世上可以让他完全信赖的东西只有十二样,其中有一样就是花满楼的耳朵。不过,在这个什么都可以被仿制得惟妙惟肖的时代,就算是花满楼的耳朵也不管用了。好在我们可以进行声纹分析——将声音可视化,一切微小差别都变得一览无余。
[/color][/size][/font]
[font=宋体][size=4][color=#660000][b]假唱门
[/b] 去年11月,为了给即将推出的迈克尔•杰克逊(Michael Jackson)的新专辑预热,索尼音乐提前发布了主打歌《爆炸新闻》(Breaking News)的试听。不料此曲一出,众议纷纷,许多人公开质疑该歌的真实性,就连杰克逊的妈妈和孩子也表示,那不是他的声音。
为了弄清这一“假唱门”的真相,杰克逊遗产公司和索尼音乐分别请来了两位法庭音乐鉴定家(Forensic Musicologist)对歌曲进行鉴定。通过波形分析,他们比较了《爆炸新闻》的清唱版和杰克逊以前作品的清唱版,结果显示,歌曲没有造假,里面的确有杰克逊的声音。而之所以人耳听起来不太像,是由于歌曲中掺入了太多的和声、配乐,以及另一位歌手的声音。
这首歌侵权了吗?
说起法庭音乐鉴定家,他们可能是听歌听得最仔细的一帮人了。除了上述的验明真声,他们最主要工作就是运用各种手段,分析一首歌曲是否抄袭了已有的创作,造成侵权。这也是声纹鉴定的应用之一。
正如没有两个人的指纹完全一样,人们的声音也是独一无二的。不同的人(以及不同的乐器),他们的声音的强度、长度、频率、音色都不同,这四者在语言学中被称为语音四要素。
在实际分析中,鉴定家要对多种图谱进行定性观察和定量检测,包括波形图、振幅曲线、基频曲线、宽带和窄带谱、过零率曲线、功率谱等诸多谱图。即使有人故意尖声尖气或粗声粗气或嗲声嗲气或妖声妖气地说话或唱歌,也总有一些特征是自己改变不了的。鉴定家和声纹专家可以通过辨认这些每个人独有的特征,来鉴别声源,故声音分析也被形象地称为声纹鉴定。
现在音乐界抄袭案件越来越多,其中一些我们可以明显地听出来,比如花儿乐队的《喜刷刷》和日本组合Puffy的《K2G奔向你》惊人地相似;而另一些由于经过各种处理,人耳听起来比较晦涩模糊,此时就需要借助声纹鉴定了。
电话那端是谁?
现在电话犯罪层出不穷,罪犯以为在电话上既看不见又摸不着,就可以随心所欲地进行各种敲诈勒索辱骂猥亵。而运用声纹鉴定技术,不管在电话中装成什么样,也能揭露出声音的本质。在电话犯罪案件中,拿到语音录音资料后,可以收集嫌疑人的语音进行声纹鉴定,从而排除或确定罪犯。目前,许多国家都已将声纹鉴定作为辨认犯罪嫌疑人的重要手段。
除了辨认嫌疑人,声纹鉴定也广泛应用于鉴定录音材料的真伪。FBI对本•拉登就是采取这一套——每当有所谓的本•拉登发布的录像或录音时,FBI的声学实验室就会用他们的一套 “自动声纹识别系统”(forensic automatic speaker recognition,FASR)来检测片子中的声音,判断此本•拉登是否是彼本•拉登。
鸡尾酒效应及其它
不过和其他的法医鉴定手段一样,声纹鉴定也面临着诸多问题:在嘈杂的人群中,我们可以和朋友们畅谈,而忽视掉其他的噪声,这就是所谓的“鸡尾酒效应”。但现在的声纹鉴定系统就没有这种声音选择能力,不会只展现我们感兴趣的声音,而是不管是信号还是噪声通通呈现。因此如果背景噪声太强,信噪比太低,就会大大干扰目标语音的分析。这也是为什么法庭音乐鉴定家在鉴定歌曲时通常会使用清唱版,以避免伴奏的干扰。
此外,进行声纹鉴定,一个前提假设就是:特定个体声音的变异小于不同个体声音的差别。可实际上,人的声音不是一成不变的,会受年龄、生理状态、情绪等影响。所以,当特定个体声音的变异过大,超过不同个体声音的差别,声纹鉴定也就失效了。另外,声音在记录、压缩、传输的过程中还会产生畸变和失真,有可能损失对鉴定工作至关重要的信息。
正因为如此,目前声纹并不能像真正的指纹那样作为辨识身份的唯一手段,而必须和其他证据综合使用。
澳洲组合Savage Garden在《Santa Monica》一歌中唱到:“on the telephone line I am anyone/ I am anything I want to be/ I could be a supermodel or Norman Mailer/ And you wouldn't know the difference.”(在电话里我可以扮成任何人,扮成任何我想装扮的人,我可以是一个超级名模,也可以是一个普通的诺曼第邮差,而你能察觉到其中的不同吗?)嘿,如果有声纹鉴定,扮成谁都没用~
[/color][color=#0000ff]本文版权属于果壳网,转载请注明出处。商业使用请联系果壳网。[/color][/size][/font]
[font=宋体][color=#0000ff][size=4][/size][/color][/font]
[align=center][font=宋体][color=#ff0000][size=6][b]背景知识:声纹介绍[/b][/size][/color][/font][/align][font=宋体][color=#660000][size=4][b][/b][/size][/color][/font]
[font=宋体][color=#ff00cc][size=4][b]相关概念:[/b][/size][/color][/font]
[font=宋体][color=#660000][size=4][b][/b][/size][/color][/font]
[font=宋体][color=#660000][size=4][b]声纹识别[/b],生物识别技术的一种。也称为说话人识别,有两类,即说话人辨认和说话人确认。不同的任务和应用会使用不同的声纹识别技术,如缩小刑侦范围时可能需要辨认技术,而银行交易时则需要确认技术。[/size][/color][/font]
[font=宋体][color=#660000][size=4][/size][/color][/font]
[font=宋体][color=#660000][size=4][b]所谓声纹[/b](Voiceprint),是用电声学仪器显示的携带言语信息的声波频谱。
人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程,人在讲话时使用的发声器官--舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大,所以任何两个人的声纹图谱都有差异。每个人的语音声学特征既有相对稳定性,又有变异性,不是绝对的、一成不变的。这种变异可来自生理、病理、心理、模拟、伪装,也与环境干扰有关。尽管如此,由于每个人的发音器官都不尽相同,因此在一般情况下,人们仍能区别不同的人的声音或判断是否是同一人的声音。[/size][/color][/font]
[font=宋体][color=#660000][size=4][/size][/color][/font]
[font=宋体][color=#660000][size=4][color=#ff00cc][b]优缺点:
[/b][/color] 声纹识别的应用有一些缺点,比如同一个人的声音具有易变性,易受身体状况、年龄、情绪等的影响;比如不同的麦克风和信道对识别性能有影响;比如环境噪音对识别有干扰;又比如混合说话人的情形下人的声纹特征不易提取;……等等。[/size][/color][/font]
[font=宋体][color=#660000][size=4] 尽管如此,与其他生物特征相比,声纹识别的应用有一些特殊的优势:[/size][/color][/font]
[font=宋体][color=#660000][size=4](1)蕴含声纹特征的语音获取方便、自然,声纹提取可在不知不觉中完成,因此使用者的接受程度也高;[/size][/color][/font]
[font=宋体][color=#660000][size=4](2)获取语音的识别成本低廉,使用简单,一个麦克风即可,在使用通讯设备时更无需额外的录音设备;[/size][/color][/font]
[font=宋体][color=#660000][size=4](3)适合远程身份确认,只需要一个麦克风或电话、手机就可以通过网路(通讯网络或互联网络)实现远程登录;[/size][/color][/font]
[font=宋体][color=#660000][size=4](4)声纹辨认和确认的算法复杂度低;[/size][/color][/font]
[font=宋体][color=#660000][size=4]([/size][/color][/font][font=宋体][color=#660000][size=4]5)配合一些其他措施,如通过语音识别进行内容鉴别等,可以提高准确率;……等等。这些优势使得声纹识别的应用越来越收到系统开发者和用户青睐,声纹识别的世界市场占有率15.8%,仅次于手指和手的生物特征识别,并有不断上升的趋势。[/size][/color][/font]
[font=宋体][color=#660000][size=4][/size][/color][/font]
[color=#660000][size=4][b][color=#ff00cc]分类:
[/color][/b] 声纹识别(Voiceprint Recognition, VPR),也称为说话人识别(Speaker Recognition),有两类,即[b]说话人辨认[/b](Speaker Identification)和[b]说话人确认[/b](Speaker Verification)。前者用以判断某段语音是若干人中的哪一个所说的,是“多选一”问题;而后者用以确认某段语音是否是指定的某个人所说的,是“一对一判别”问题。不同的任务和应用会使用不同的声纹识别技术,如缩小刑侦范围时可能需要辨认技术,而银行交易时则需要确认技术。不管是辨认还是确认,都需要先对说话人的声纹进行建模,这就是所谓的“训练”或“学习”过程。
[color=#ff00cc][b][/b][/color][/size][/color]
[color=#660000][size=4][color=#ff00cc][b]文本相关:
[/b][/color] 从另一方面,声纹识别有[b]文本相关[/b]的(Text-Dependent)和[b]文本无关[/b]的(Text-Independent)两种。与文本有关的声纹识别系统要求用户按照规定的内容发音,每个人的声纹模型逐个被精确地建立,而识别时也必须按规定的内容发音,因此可以达到较好的识别效果,但系统需要用户配合,如果用户的发音与规定的内容不符合,则无法正确识别该用户。而与文本无关的识别系统则不规定说话人的发音内容,模型建立相对困难,但用户使用方便,可应用范围较宽。根据特定的任务和应用,两种是有不同的应用范围的。比如,在银行交易时可以使用文本相关的声纹识别,因为用户自己进行交易时是愿意配合的;而在刑侦或侦听应用中则无法使用文本相关的声纹识别,因为你无法要求犯罪嫌疑人或被侦听的人配合。
[/size][/color][color=#660000][size=4][b][color=#ff00cc]背景模型:
[/color][/b] 在说话人辨认方面,根据待识别的说话人是否在注册的说话人集合内,说话人辨认可以分为[b]开集[/b](open-set)辨认和[b]闭集[/b](close-set)辨认。前者假定待识别说话人可以在集合外,而后者假定待识别说话人在集合内。显然,开集辨认需要有一个对集外说话人的“拒识问题”,而且闭集辨认的结果要好于开集辨认结果。本质上讲,说话人确认和开集说话人辨认都需要用到拒识技术,为了达到很好的拒识效果,通常需要训练一个假冒者模型或背景模型,以便拒识时有可资比较的对象,阈值容易选定。而建立背景模型的好坏直接影响到拒识甚至声纹识别的性能。一个好的背景模型,往往需要通过预先采集好的若干说话人的数据,通过某种算法去建立。 如果技术达到一定的水平,可以把文本相关识别并入文本无关识别,把闭集辨认并入开集辨认,从而提供更为方便的使用方法。比如北京得意音通技术有限公司的“得意”身份证就是文本无关的、开集方式的说话人辨认和确认,“得意”身份证SDK还提供建立背景模型的工具。
[b][color=#ff00cc][font=宋体][/font][/color][/b][/size][/color]
[color=#660000][size=4][b][color=#ff00cc][font=宋体]关键问题: [/font][/color][/b][/size][/color]
[color=#660000][size=4] 声纹识别可以说有两个关键问题,一是[b]特征提取[/b],二是[b]模式匹配[/b](模式识别)。
[/size][/color]
[color=#660000][size=4][b]特征提取
[/b] 特征提取的任务是提取并选择对说话人的声纹具有可分性强、稳定性高等特性的声学或语言特征。与语音识别不同,声纹识别的特征必须是“个性化”特征,而说话人识别的特征对说话人来讲必须是“共性特征”。虽然目前大部分声纹识别系统用的都是声学层面的特征,但是表征一个人特点的特征应该是多层面的,包括:(1)与人类的发音机制的解剖学结构有关的声学特征(如频谱、倒频谱、共振峰、基音、反射系数等等)、鼻音、带深呼吸音、沙哑音、笑声等;(2)受社会经济状况、受教育水平、出生地等影响的语义、修辞、发音、言语习惯等;(3)个人特点或受父母影响的韵律、节奏、速度、语调、音量等特征。从利用数学方法可以建模的角度出发,声纹自动识别模型目前可以使用的特征包括:(1)声学特征(倒频谱);(2)词法特征(说话人相关的词n-gram,音素n-gram);(3)韵律特征(利用n-gram描述的基音和能量“姿势”);(4)语种、方言和口音信息;(5)通道信息(使用何种通道);等等。 根据不同的任务需求,声纹识别还面临一个特征选择或特征选用的问题。例如,对“信道”信息,在刑侦应用上,希望不用,也就是说希望弱化信道对说话人识别的影响,因为我们希望不管说话人用什么信道系统它都可以辨认出来;而在银行交易上,希望用信道信息,即希望信道对说话人识别有较大影响,从而可以剔除录音、模仿等带来的影响。 总之,较好的特征,应该能够有效地区分不同的说话人,但又能在同一说话人语音发生变化时保持相对的稳定;不易被他人模仿或能够较好地解决被他人模仿问题;具有较好的抗噪性能;……。当然,这些问题也可以通过模型方法去解决。
[/size][/color]
[color=#660000][size=4][b]模式识别
[/b] 对于模式识别,有以下几大类方法: [/size][/color]
[color=#660000][size=4](1)模板匹配方法:利用动态时间弯折(DTW)以对准训练和测试特征序列,主要用于固定词组的应用(通常为文本相关任务); [/size][/color]
[color=#660000][size=4](2)最近邻方法:训练时保留所有特征矢量,识别时对每个矢量都找到训练矢量中最近的K个,据此进行识别,通常模型存储和相似计算的量都很大; [/size][/color]
[color=#660000][size=4](3)神经网络方法:有很多种形式,如多层感知、径向基函数(RBF)等,可以显式训练以区分说话人和其背景说话人,其训练量很大,且模型的可推广性不好; [/size][/color]
[color=#660000][size=4](4)隐式马尔可夫模型(HMM)方法:通常使用单状态的HMM,或高斯混合模型(GMM),是比较流行的方法,效果比较好; [/size][/color]
[color=#660000][size=4](5)VQ聚类方法(如LBG):效果比较好,算法复杂度也不高,和HMM方法配合起来更可以收到更好的效果; [/size][/color]
[color=#660000][size=4](6)多项式分类器方法:有较高的精度,但模型存储和计算量都比较大; [/size][/color]
[color=#660000][size=4](7)…… [/size][/color]
[color=#660000][size=4] 声纹识别需要解决的关键问题还有很多,诸如:短话音问题,能否用很短的语音进行模型训练,而且用很短的时间进行识别,这主要是声音不易获取的应用所需求的;声音模仿(或放录音)问题,要有效地区分开模仿声音(录音)和真正的声音;多说话人情况下目标说话人的有效检出;消除或减弱声音变化(不同语言、内容、方式、身体状况、时间、年龄等)带来的影响;消除信道差异和背景噪音带来的影响;……此时需要用到其他一些技术来辅助完成,如去噪、自适应等技术。 对说话人确认,还面临一个两难选择问题。通常,表征说话人确认系统性能的两个重要参数是错误拒绝率和错误接受率,前者是拒绝真正说话人而造成的错误,后者是接受集外说话人而造成的错误,二者与阈值的设定相关。在现有的技术水平下,两者无法同时达到最小,需要调整阈值来满足不同应用的需求,比如在需要“易用性”的情况下,可以让错误拒绝率低一些,此时错误接受率会增加,从而安全性降低;在对“安全性”要求高的情况下,可以让错误接受率低一些,此时错误拒绝率会增加,从而易用性降低。前者可以概括为“宁错勿漏”,而后者可以“宁漏勿错”。我们把真正阈值的调整称为“操作点”调整。好的系统应该允许对操作点的自由调整。
[b][color=#ff00cc][/color][/b][/size][/color]
[color=#660000][size=4][b][color=#ff00cc]应用:
[/color][/b] 声纹识别可以应用的范围很宽,可以说声纹识别几乎可以应用到人们日常生活的各个角落。比如下面举几个例子。 [/size][/color]
[color=#660000][size=4](1)信息领域。比如在自动总机系统中,把“得意”身份证之声纹辨认和“得意”关键词检出器结合起来,可以在姓名自动拨号的同时向受话方提供主叫方的身份信息。前者用于身份认证,后者用于内容认证。同样,声纹识别技术可以在呼叫中心(Call Center)应用中为注册的常客户提供友好的个性化服务。 [/size][/color]
[color=#660000][size=4](2)银行、证券。鉴于密码的安全性不高,可以用声纹识别技术对电话银行、远程炒股等业务中的用户身份进行确认,为了提供安全性,还可以采取一些其他措施,如密码和声纹双保险,如随机提示文本用文本相关的声纹识别技术进行身份确认(随机提示文本保证无法用事先录好的音去假冒),甚至可以把交易时的声音录下来以备查询。 [/size][/color]
[color=#660000][size=4](3)公安司法。对于各种电话勒索、绑架、电话人身攻击等案件,声纹辨认技术可以在一段录音中查找出嫌疑人或缩小侦察范围;声纹确认技术还可以在法庭上提供身份确认的旁证。 [/size][/color]
[color=#660000][size=4](4)军队和国防。声纹辨认技术可以察觉电话交谈过程中是否有关键说话人出现,继而对交谈的内容进行跟踪(战场环境监听);在通过电话发出军事指令时,可以对发出命令的人的身份进行确认(敌我指战员鉴别)。目前该技术在国外军事方面已经有所应用,据报道,迫降在我国海南机场的美军EP-3侦察机中就载有类似的声纹识别侦听模块。 [/size][/color]
[color=#660000][size=4](5)保安和证件防伪。如机密场所的门禁系统。又如声纹识别确认可用于信用卡、银行自动取款机、门、车的钥匙卡、授权使用的电脑、声纹锁以及特殊通道口的身份卡,把声纹存在卡上,在需要时,持卡者只要将卡插入专用机的插口上,通过一个传声器读出事先已储存的暗码,同时仪器接收持卡者发出的声音,然后进行分析比较,从而完成身份确认。同样可以把含有某人声纹特征的芯片嵌入到证件之中,通过上面所述的过程完成证件防伪。[/size][/color]
[color=#660000][size=4][/size][/color]
[b][color=#ff0066][/color][/b]