快捷搜索:

声纹识别未来的研究方向会是往哪里

走出实验室的声纹识别技巧因其广阔的利用处景和代价,从特定领域到夷易近用领域,在国内外正迎来第一波商用化浪潮。 而与此同时,关于声纹识别技巧钻研的成熟度以及安然靠得住性,不停是利用领域评论争论的重点,本文基于时下声纹识别技巧钻研的前沿不雅点,总结出五大年夜成长趋势:

1、 声纹识别钻研朝着深度进修和端到端偏向成长

语音作为说话的声音体现形式,不仅包孕了说话语义信息,同时也传达了措辞人语种、性别、年岁、感情、信道、嗓音、病理、心理、生理等多种富厚的副说话语音属性信息。以上这些说话语音属性识别问题从整体来看,其核心都是针对禁绝时长文本无关的句子层面语音旌旗灯号的有监督进修问题,只是要识别的属性标注有不合。

近年来,声纹识别的钻研趋势正在快速朝着深度进修和端到端偏向成长,此中最范例的便是基于句子层面的做法。在收集布局设计、数据增强、丧掉函数设计等方面还有很多事情去做,还有很大年夜的提升空间。

2、 提升声纹识别系统的短时语音环境

在实际利用中,因为对基于语音的造访节制需求的赓续增长,提升声纹识别系统在短时语音环境下的机能变得尤为迫切。短时语音中措辞人信息不够以及注册和测试语音的文本内容不匹配,对付主流的基于统计建模的声纹识别系统是一个严酷的寻衅。

3、 改进现有的深度措辞人进修措施

今朝采纳的深度措辞人识别措施首先使用神经收集提取前真个帧级特性,然后经由过程池化映射得到可以表示措辞人特点的段级向量,着末采纳 LDA/PLDA 等后端建模措施进行度量谋略。

相对付传统的 i-vector 天生历程,基于深度进修的措辞人识别措施上风主要体现在区分性练习和使用多层收集布局对局部多帧声学特性的有效表示上。若何进一步改进现有的深度措辞人进修措施是现阶段的一个钻研热点。

4、 深度抗衡进修在声纹识别技巧中的利用

天生式抗衡收集 (GAN) 的主要目的是用在数据天生、降噪、等很多场景里面。它还被用在领域自适应里面,形成一个新的散播。第三个广泛的利用是天生抗衡样本,这会对分类系统孕育发生大年夜的困扰。很多钻研者用抗衡样本进击机械进修的系统,在原始数据上增添一些扰动,天生样本,颠末神经收集之后就有可能识别成完全不合的结果。这个思惟在图像处置惩罚领域异常生动,会造成差错识别,引起了自动驾驶,安然等领域的钻研职员的广泛关注。

在语音领域,GAN 可以用在语音识别、口音自适应上,经由过程多义务进修和梯度反转层来进行口音或信道的自适应,然后加上其他措施可以获得较好的效果。声纹识别也存在各类不匹配的问题,在声纹识别上也可以应用这一思惟。同样的思惟也用在了 TTS 语音合成领域,目的是把不合的音素解耦成措辞人,风格等,去除噪声对建模的影响。

5、 深度嵌入进修是进行声纹识别和反诈骗的一个紧张道路

措辞人识别和诈骗检测近年来受到学术界和业界的广泛关注,人们盼望在实际利用中设计出高机能的系统。基于深度进修的措施在该领域获得了广泛的利用,在措辞人识别和反诈骗方面取得了新的里程碑。然而,在真实繁杂的场景下,面对短语音、噪声的破坏、信道掉配、大年夜规模等艰苦,开拓一个鲁棒的系统仍旧是异常艰苦的。深度嵌入进修是进行措辞人识别和反诈骗的一个紧张道路,在这方面已有一些闻名的钻研成果。如之前的 d-vector 特性和当前普遍应用的 x-vector 特性。

结语:

今朝,指纹识别、人脸识别已经被大年夜众所熟知,但同样作为生物识别的声纹识别,还处于技巧寻衅的前沿地带。据声纹识别企业快商通阐发,当下举世生物识别财产规模宏大年夜,仅声纹识别这一细分偏向的市场规模就将近百亿美元,估计2020年更是有望跨越200亿美元(合1346亿元人夷易近币),占全部生物识别市场的22.4%。

以海内公共安然领域为例,公安部面向全国推广声纹技巧,与指纹库、DNA库类似,声纹库扶植是一项有侧紧张实战代价的事情,详细表现在声纹特性具有非打仗式采集的优点,和已有DNA库、指纹库相结合,可形成立体生物特性库,建成后直接为多警种办事,是使用高科技手段在侦破案件和诉讼活动中利用的一个新的增长点,将能有效前进公安机关侦查破案的效率和能力,成为落实科技强警的紧张实践之一。今朝,公安部已在声纹库扶植方面进行了重点结构,并选择快商通等经由过程公安部标准检测的厂商作为声纹采集设备供给方,力争双发合营完成这项专业技巧性强、利用领域广、扶植难度大年夜的系统工程。

滥觞:安防常识网

您可能还会对下面的文章感兴趣: