科大讯飞语音识别技术突破,支持22种方言准确率高达98%
22种方言一样能识别
2017年11月7日,中国国际工业博览会(简称为工博会)于上海举办,在工博会首次设立的人工智能专区里,科大讯飞展示了晓译翻译机,还展示了讯飞听见系统。
展台上,有一台笔记本,该笔记本装有讯飞听见智能会议系统,它正在持续记录讲解员的话语,从现场演示呈现的效果来看,它不但能够同步进行记录,而且准确率是比较高的,就连简单的英文它也能够翻译出来。据讲解员讲,这套系统的语音识别准确率超过了95% 。科大讯飞相关人士告知《IT时报》记者,拿讯飞输入法来说,其通用语音识别准确率达到了98% ,并且能够识别22种方言。针对少部分口音不标准的用户或者讲方言的用户,它还可行使个性化识别 。
这是一家从事人工智能之中智能语音、以及智能图像、还有语义理解等技术的公司,在总经理武卫东的看法里,语音识别于通用领域平均准确率能达到95%以上,在一些特定行业应用范畴,准确率能够高达97%。“多数做语音识别的公司,基础都是构建于深度神经网络之上的,运用机器学习、搭建基础模型,并无极大差异性。相互彼此之间的区别呈现于解码器技术、大数据基础、并行网络等方面,这些差异会形成行业内的差异化竞争。”武卫东这样讲道。
在这些存在差异的各个因素里头,最为重要的乃是大数据基础,按照武卫东所讲,那便是,“深度神经网络所具备的方法,是依靠大量的语音数据来进行的,如此这般才够训练出高精度的声学层面的模型以及语言方面的模型,进而实现提升识别率的目的,数据量对语音识别的准确率可以决定,同时也能够促使领域覆盖度得到提升。”一般而言,数据的来源主要是在云端App所产生出来的数据以及处于行业应用中的实际场景里的数据。
训练计算机学会自我分辨
将语音迅速转变为文字呢,在极短的时段之间,机器里头的语音识别系统已然历经了一回格外繁杂的分析过程。
当您对着手机讲话之际,目标语音最先会被数字化,而后被送入系统的前端模块,前端模块主要涵盖语音信号处理以及语音特征处理这两部分。信号处理部分是为了改进识别效果受环境噪声、信道畸变等因素的作用,特征处理却是将输入的语音给予某种贴合语音识别需求的“转变”,也就是让手机听得懂“人话”。由科大讯飞相关人士作出解释,在明确了上述提及的语音特征处理等规则之后,紧接着要开展的便是模型训练,这又细分为声学模型训练与语言模型训练,教会机器掌握“哪个字词发怎样的音、该以何种方式连在一起读”以及“什么样的命令或文字组合是合乎情理的”。另外,解码引擎的运算效率具有极其关键的作用,会对用户体验产生直接影响。当下,科大讯飞的解码引擎能够于用户讲完话40毫秒之内给出相应结果。

当下于语音识别领域,多数公司所开展动作的皆为无监督/半监督训练。通俗来讲,便是使机器于无人为干预情形下,执行模型训练。像在用户运用机器之际,机器会依据用户个性化的发音特性,对模型予以优化,进而提高识别率。武卫东朝着《IT时报》记者作出解释表明 。
就业内人士的观点而言,每一次使得准确率提升一个百分点,都属于质的跨越,这不但需要具备相当完备的数据库,而且要达成这样的准确率,还必须拥有效率较高的识别提取算法以及自学习系统,。
可落地商业生态还不多
如今,语音识别于应用落地层面也在进行着力,比如说,在消费娱乐范畴,VR游戏在引入语音识别技术之下,玩家能够抛弃游戏手柄,切实达成沉浸式体验。在对AI需求旺盛的智能家居领域,情形更是这样,越来越多的家居增添了对话功能,以此实现提升生活智能化的目标,甚至在解锁、支付等方面,能够确认说话人身份的声纹识别也正流行。
语音识别聚焦的行业有,金融领域,医疗领域,客服等B端领域,智能手机领域,PC领域,移动应用等C端领域,公共服务领域,智慧城市项目等G端领域。易观国际分析师王京京认为,当下语音识别技术落地存有一定困难,举例来说,B端市场应用核心是降本增效或解决痛点,要是语音识别及语音交互没办法显著为企业降低成本、提高效率或解决某些痛点,企业便缺少应用动力;C端市场落地取决于交互体验、使用习惯与商业生态,当前语音识别效果和效率尚未达到十分完美,在一定程度上对用户体验造成了影响。并且,在多数场景当中,用户原先的交互习惯已然成形,唯有类似车载那般对语音交互存有刚性需求的环境,方可达成相对较高的渗透率。
BAT和初创公司都有机会
从技术层面来讲,当下,在市场之上已经存在的语音识别公司之间的差异并不是很大,王京京向《IT时报》记者透露这一情况。若想构建差异化竞争态势,则需要在某些细分应用领域当中深入扎根下去,借助提供完整的行业解决方案来实现增加获客数量、完善生态体系这样的目的,进而形成行业壁垒。
在AI热潮涌动的当下,只要是归属AI领域范畴的细分市场,均受到创业企业的极力追捧,就连BAT也不会轻易放过。拿语音助理来说,布局力度最大的是阿里巴巴,紧随其后的是百度推出的度秘,最晚出现的是今年5月腾讯所发布的叮当。百度在近些年来于人工智能方向投入了巨额资金,尝试探寻下一个能够带来机遇的关键点,其语音技术已然集成了如语音识别、语义理解、深度问答、多轮对话、情感分析以及语音合成等一系列能力,并且语音交互能力在搜索、地图等各类产品当中均有彰显。

BAT这般的互联网巨头进入会不会给别的企业带来影响呀?在好些业内人士眼里,当下还不太显著呢。武卫东是这么觉得的:人工智能产业不是一家公司能够独自包揽全部的,一定要构建产业生态,不会造就寡头的。
在王京京的认知里,尽管BAT于语音识别范畴投入精力,然而语音识别创业公司存有更优条件深入钻研细分应用范畴,去供应一体化解决办法,BAT的核心要点更多地是置于偏向通用型的语音技术以及服务自身业务的布局方面。
有了市场,便会吸引投资者前来,语音识别这个领域同样如此。实际上,语音识别这个领域的投资在很早的时候就已然开启,最近几年的投资热度与计算机视觉/人脸识别相比毫不逊色。从整体的角度而言,语音基础设施层面的投资布局已然基本构建完成,接下来资本将会更多地聚焦于细分以及存在差异化的语音应用领域。武卫东表明,“当前,资本方面对于技术并非十分重视,主要看重的是变现的能力以及商业模式” 。
相关链接
生物识别做唯一密码要当心
当生物识别成为密码之时,便意味着存在被窃取,甚至是被攻破的可能性。声纹识别与语音识别最大的差异在于,语音识别的目标是,电脑自动把人类语音内容转化为相应文字,然而却无法确认说话人的身份,声纹识别的目标却是,要确认说话人的身份。
在支付、安全等特定领域运用声纹识别,对声纹识别准确率要求极高,误解率需控制在万分之一乃至百万分之一。然而武卫东也表明,单一的生物识别验证必然存在被攻克的可能性,所以,捷通华声在开展生物特征验证时,采用多项生物特征交叉验证的形式,达成融合。就好比声纹、人脸以及证件,在用户体验方面,所要达成的便是将这几个步骤融合为一体,举例来说,当开展声纹验证之际,摄像头会自动开启,用以进行人脸识别,尽可能地缩减验证流程,最大程度地实现安全与便捷的平衡。
不过呢,在身为信息安全身份认证资深专家、众人科技创始人的谈剑峰看来,生物特征具备的唯一性,恰恰就是它最为不安全的根源所在,“当下大家所考虑的全都是终端安全,觉得在终端之上运用自身唯一的声纹、人脸实施验证是极为安全的,然而却没有考虑到这些生物特征在被采集后是会存储于服务器之上的,一旦服务器遭遇攻击,那风险可就极大了。密码学当中存在着一个原理是可更换的,但是生物特征有着不可再生性,仅仅能够应用于抓取罪犯等特殊场景之中。”。
欢迎 你 发表评论: