科大讯飞发布新一代FSMN语音识别系统,引领人工智能迈向更精准语音理解时代
这些年,人工智能同人类生活关联越发紧密,人们脑海始终有着在周边出现个实实在在贾维斯的念头,期待有那日计算机真能似人般既能听又会说,还能理解且会思考。而达成这个目标的关键前提是计算机能够精准无误地听懂人类所说的话,换句话讲高度精确的语音识别系统是绝对不可或缺的。
科大讯飞是,国内智能语音与人工智能产业里的领导者,其始终引领着,中文语音识别技术不停地进步。去年12月21日,在北京国家会议中心召开的,以“AI复始,万物更新”作为主题的年度发布会上,科大讯飞提出了,以前馈型序列记忆网络(FSMN?Feed - )当作代表的新一代语音识别系统,这让众人眼前一亮。
经过更深入的研究,我们基于FSMN,又一次推出全新的语音识别框架,把语音识别问题创新性地重新确定为“看语谱图”的问题,借助引入图像识别里主流的深度卷积神经网络(CNN, )达成了对语谱图的全新剖析,同时终止了传统深度语音识别系统对DNN和RNN等网络结构的依靠,最终把识别准确度提升到了新的水准。今天我们要揭开它神秘的面罩。
上一期文章里,我们对FSMN做了详细介绍,此处在请点击阅读原文的前提下,我们进行简单回顾,。
在FSMN被提出以前,学术界与工业界里最好的语音识别系统运用的是双向递归神经网络(BRNN, Bi - ) , 这种网络可以针对语音复杂的长时相关性开展建模 , 进而达成提高识别正确率的效果 。 然而双向递归神经网络存有训练复杂度高的情况 , 存在训练不稳定的状况 , 以及解码时延非常高的问题 , 很难实现实用化 。

FSMN的提出将上述缺陷很好地加以解决在了。FSMN是通过于传统DNN结构的隐层旁边增添一个“记忆模块”的方式,来存储当前语音帧周边的历史信息以及未来信息状况的。FSMN的模型结构呈现为如图(a)所示的样子,图(b)给出的是FSMN的记忆模块记忆当前语音帧左右各1帧信息时的时序展开结构状态呐。因为FSMN的结构当中不存在递归现象,所以能够避免RNN的不够稳定情况,同时又因为采用了记忆模块能够对语音的长时相关性很不错地进行建模操作来着。
FSMN的成功给予了我们一个相当不错的启发,那就是,针对语音的长时相关性进行建模,并非一定要观察整个句子,它也不一定非得使用递归结构,只要能够把足够长的语音上下文信息予以良好的表达,便能够为当前帧的决策提供足够的助力,而卷积神经网络CNN同样是可以达成这一点的。
最早在2012年时,CNN已被运用到语音识别系统当中,一直以来,有不少研究人员积极参与基于CNN的语音识别系统的研究工作,然而始终未曾有重大突破。最主要的缘由在于,他们没有跳出传统前馈神经网络运用固定长度的帧拼接当作输入的思维僵化模式,进而没办法看到足够长的语音上下文资讯。另外一个不足之处是,他们仅仅把CNN看作是一种特征提取器,所以所采用的卷积层数很少,通常只有一到二层,如此这般的卷积网络表达能力相当有限。具体而言,针对这些特定问题,结合在研发FSMN期间所积累的经验,我们成功推出了全新的深度全序列卷积神经网络语音识别框架,此框架名为Deep Fully , DFCNN,它运用大量的卷积层,直接针对整句语音信号展开建模,从而更好地表达了语音的长时相关性,相比学术界以及工业界中最好的双向RNN语音识别系统,其识别率提升幅度超出了15%。接下来,我们将对DFCNN语音识别框架进行具体介绍。
DFCNN的结构呈图(c)那样,DFCNN把一句语音径直转化成一张图像当作输入,也就是先针对每帧语音予以傅里叶变换,接着把时间与频率当作图像的两个方面,随后借助相当多的卷积层以及池化()层二者的组合,对整句语音开展建模,输出单元直接跟最终的识别结果像音节或者汉字相互对应。

DFCNN的工作机理,仿佛是一位备受敬重的语音学专家,借助“观看”语谱图,就能知晓语音里所表达的内容,对于众多读者而言,初听时也许会认为写的是科幻小说呢,然而听完我们接下来的分析,相信大家都会觉得这种架构是那般自然。
图(c):DFCNN结构图
首先,就输入端而言,传统语音特征经傅里叶变换后,运用各种人工设计的滤波器组去提取特征,这致使频域上出现信息损失,其中在高频区域的信息损失格外显著,并且传统语音特征因计算量的考量,必须采用极大的帧移,毫无疑问造成了时域上的信息损失,在说话人语速较快之际表现得更为突出。所以,DFCNN 直接把语谱图当作输入,相较于其他将传统语音特征作为输入的语音识别框架,具有天然的优势。其次,从模型结构方面来看,DFCNN跟传统语音识别里的CNN做法不一样,它借鉴了图像识别中那个效果最佳的网络配置,每个卷积层采用3x3的小卷积核,并且在多个卷积层之后再添加上池化层,如此一来大大增强了CNN的表达能力,与此同时,凭借累积数量众多的这种卷积池化层对,DFCNN能够看到极为长的历史以及未来信息,有这两点便确保了DFCNN能够出色地表达语音的长时相关性,相较于RNN网络结构在鲁棒性上反倒更为出色。最后,从输出端的角度而言,DFCNN能够与近期热度颇高的序列短时分类(CTC)方案进行完美融合,实现整个模型的端到端训练,并且其含有的池化层等特殊结构,能够让上述端到端训练变得更为稳定。
和其他多个技术点相结合之后,讯飞DFCNN的语音识别框架,在内部数千小时的中文语音短信听写任务当中,取得了相较于当下业界最佳的语音识别框架,也就是双向RNN - CTC系统,15%的性能提升佳绩,并且,结合讯飞的HPC平台以及多GPU并行加速技术,其训练速度也比传统的双向LSTM CTC系统更优越。DFCNN的问世,开创了语音识别全新的领域,在此基础上,后续基于DFCNN框架,我们会开展更多相关研究工作,比如,双向LSTM和DFCNN都能够实现对长时历史以及未来信息的表达,然而,这两种表达间是否存在互补性,是值得思索的问题。相信伴随研究持续深入,科大讯飞的语音识别系统会不断迈向新的高度!

欢迎 你 发表评论: