语言多模态应用普及改变生活，AI语音交互技术赋予机器温度

作者：每日干货分享

发布时间：2025-11-06 11:53:17 浏览量：1 0

人们生活中习以为常的技术，不知不觉间已成为语言的多模态应用，一句简单的语音识别转写，一次短暂的智能客服答疑，这些都是AI语音交互技术应用给人们生活带来的便利，与此同时，其社会价值与意义也在被重新估判......

1 人机交互，机器的声音越来越需要“温度”

语言声音方面的此项技术从根源上对人类和机器二者之间的关系予以了改变，还将我们同软件进行交流互动的方式彻底予以了改变，这一技术主要被划分成语音识别，也就是把语音转化成文字，或者称作 to Text，还有语音合成，也就是把文字转化成语音，或者称作Text to ，以及自然语言处理这几个类别，其中语音合成技术的发展时间最早，并且其应用已经是比较广泛普遍的。

作为当今时代信息产业里，重要竞争市场的一项内容，是让计算机具备跟人差不多的说话能力。语音合成技术借助机器，把文字信息自动转变成语音，这就如同给机器配备了人工嘴巴。完美的人机交互体验之中，“说”这个环节是不能被忽视的，所以，语音合成的重要性愈发明显。

始于早期的机械化语音合成一路发展至今，语音合成的应用场景历经了颇为显著的转变，先前语音合成应用处于相对单一的场景之中，如今这般应用场景变得更为繁杂多样，在智能助手、智能机器人以及文学阅读等众多不同领域里，均能瞧见语音合成技术的踪迹。

当语音合成技术应用持续深入时，已有的商业模式，对场景优化，提出了更高要求。举例来说，于有声读物范畴，用户的需求愈发呈现出个性化倾向，单纯单调的机械之声全然无法满足；在机场以及车站广播这类服务行业当中，温柔且甜美的音质更能够有效拉近与乘客之间的距离；当人们处于听新闻内容的情境之时，往往期盼着一个具备威信且沉稳庄重的声音；而在客服助理的场景之下，人员又期望这个声音能够更为热情亲切，善于理解他人心意......所以，怎样使得合成出来的声音听起来自然并且饱含情感，乃是语音合成领域的一项主要发展趋向。

2 利用基于深度神经网络的语音合成系统增强语音交互真实感

在传统语音合成技术里头，波形拼接合成方法无疑占据着重要的位置。其基本原理是依据输入文本的信息，从人工录制并标注的语料库当中挑选适宜的基元，一般是音素或者音节，去进行少量的调整，接着采用波形拼接的方式获取与待合成文本相对应的语音序列。然而波形拼接合成方法需要准备海量的高质量语料，同时，此方法也不具备扩展性，无法面向需求适应到不同的应用场景。

出于提升合成语音自然度的目的，为了降低语音生成对语料库的依赖程度，并且要增加语音合成系统的可扩展性，研究者们再度提出了参数化的合成方法。在同等数据规模的状况之下，参数合成的方法能够产出相较于拼接合成方法自然度更佳的合成语音。然而，此方法依旧存在着颇为显著的局限性，比如在字边界的位置会存有明显的拼接痕迹，致使其合成语音与自然语音存在着较大的差异，无法契合人们对自然语音合成的期望。

近些年，伴随机器学习技术持续成熟，于语音合成领域，基于深度神经网络的建模办法渐被研究者采用。微软是最早参与语音合成技术研发及生产的公司当中的一个，凭借30年技术积累率先在2018年于全球推出端到端深层剖析神经语音成全服务（Text to，TTS），把合成语音的质量跟自然尺度提升至与人类相近状况。

该系统借助深度神经网络，去克服传统文本到语音转换系统的局限，匹配口语里的语音顿挫、语调模式以及韵律，还把语音单元合成为计算机语音。由其合成的语音，在节奏、语调以及顿挫感方面均几乎与真人无异，拥有人类语音那般的自然韵律以及词汇清晰度。这能够在人类与AI系统交互之际，极大减轻听觉疲劳，是语音合成领域的重大突破。

当下，微软所拥有的AI语音技术服务，对全球将近50种语言给出支持，其范围历经遍布有140个国家与地区。当中，端到端神经网络这一语音合成技术，已然对5种语言予以支持，这5种语言分别是英文、中文、德语、葡萄牙语、意大利语，该技术正为教育教学、业务出海、有声书之类领域，提供着稳固的技术支撑。

2019年1月31日，微软AI智能女声“晓晓”亮相了，在央视新闻联合微软AI推出的互动融媒体产品《你的生活AI为你唱作》里正式登场，这是由基于微软Azure云的端到端深度神经网络语音模型的语音合成服务构成的成果之一，。，拥有该语音合成服务的微软晓晓，在语气、语音、语调等多种方面无限地接近真人所呈现出的效果，还能够运用带有不同“情感”的声音效果去满足各种各样不同的场景需求。

晓晓（新闻）

2019年2月20日，小米正式发布了人工智能语音手机小米9，其内置的人工智能版王源成为一大亮点，不同于以往提前录制好的语音服务，通过与微软AI语音合作，它实时、在线合成王源声音，随时向用户问好，陪用户聊天并送上节日祝福，这让“米粉们”欣喜不已。

王源合成语音

将时间回溯到 2019 年 11 月，微软朝着更深入的方向迈进，推出了基于深度神经网络语音合成技术的声音定制服务 Voice 的预览版本。此项服务具备这样的能力，即凭借尽可能少得为数不多的声音样本，定制出各种各样的、高度仿真的人工智能声音，还有就是其塑造的效果相较于其他更加自然逼真句号。

实际情况是，不管是在AI这个行业范围之内，还是在用户所构成的群体当中，AI语音定制所具备的能力一直以来都被给予了相当高的期待值。经由AI行为去模拟人类的声音，不但能够往其中注入陪伴、记忆等诸多带有社会属性的情感方面的因素内容，而且还能够凭借用户所熟知的声音来引发更多关于应用方面的想象情形。然而像微软的Voice，它可以把制作一个具备高品质的声音所需要的训练数据规模降低到十分之一的程度，甚至还要更加低一些，这也就使得与AI语音定制化相关的这件事情，用不着去耗费过多的时间以及资源，能够以一种更为简便的方式就能够毫不费力地像寻常普通百姓家中一样普及覆盖了。

3 不忘爱与责任，微软赋予 AI 语音真正的“人情味”

当微软在为普通群体供给智能且先进的技术产品之际，其也凭借自身先进的AI语音技术，为残障人士的生活给予便利。对视障人士来说，他们只能凭借触摸与听觉去感知世界，阅读成了一种奢望，他们常常借助触摸来阅读盲文书籍，这所耗费的时间是健全人的数倍，又或者依靠读屏软件或是其他技术，通过语音来获取信息。为了能让视障人士拥有更佳的阅读体验，微软展开合作，探索研究运用AI技术把文字合成电子有声读物。

在2014年之际，微软跟红丹丹一块儿对视障人士于Azure上构建了云端有声图书馆，也就是心目图书馆，给盲人朋友予以那样子便捷的有声图书阅读方面的服务，去丰富他们如此的文化生活，助力他们持续不断地学习以及进步。至当下，这个图书馆已然覆盖了全国105所盲校，有越来越多的人借助有声图书从而感知到世界这般的精彩。

2019年，微软人工智能，名为“晓晓”的中文女声，借助自动合成有声读物的方式，对红丹丹进行协助，从而极大提高了制作有声内容的效率。微软的深度神经网络声音定制服务名为Voice，是以红丹丹带出来的全国首位视障播音员董丽娜老师的语音数据当作原型，为红丹丹打造了一个发音规范、情感充沛且盲人朋友们熟悉的人工智能声音，还提供了一套基于AI语音的智能有声内容创作平台，能让红丹丹及其志愿者们经界面化操作，迅速用不同音色生成有声内容，处理了先前人工有声内容创作周期长以及传统TTS合成声音情感单一这类问题，显著改进了视障人士有声读物稀缺且读物声音机械、空洞的阅读感受。

丽娜合成语音

他日，微软会依旧不断去更新智能化的技术，使得AI语音变成视障人士用以感知世间、深入认识文化的牢固桥梁。

4 写到最后

伴随语音合成技术飞快发展，机器产出的语音注定会愈发自然生动，也会愈发具备情感表现力。身为全球最早投身人工智能研究的企业，微软还会在一回回升级与迭代进程里，持续突破技术原本的阻碍，满足愈发多样的不同用户需求。借技术变革生活，凭声音传达温度，微软切实地以自身行动履行着其使命——助力全球每一个人、每一个组织成就非凡标点符号。

在语音识别这个领域当中，微软所拥有的智能语音识别这项技术，也已经能够支持差不多 40 种语言了，此技术覆盖了像是实时语音识别、批量语音转写以及后语音质检等多种不同的场景。依据了解到的情况，微软呼叫中心语音服务已经在科技、保险、通讯等行业的许多家世界五百强企业中落地了，这其中包括好事达（）、毕马威（KPMG）、中国移动、联合利华（）。

大会彩蛋

4月17日至18日，微软在线技术峰会为期两天，在18日当天特意设置了全天的【AI&IoT】专场，届时，将会在这个专场下进行关于【微软AI语音云圆桌会议：如何利用语音技术应对复杂对话识别和情感声音合成等多种挑战】的内容分享，经由技术迈向场景应用，集中介绍微软于AI语音方面的最新成果，扫描下方二维码就能报名参与。

点个在看少个 bug