成立两年的TTS科技创企倒映有声开启新一轮融资
刚过去不到半年时间,那家仅仅成立两年的TTS也就是语音合成科技创企倒映有声,又一次开启新一轮融资了 。
当下,电子书以及广播剧等凭借声音作为载体的“耳朵经济”迅速兴起了,其中存在部分有着堪比专业播音员那般声音的情况,而实际上那些声音是通过人工智能也就是AI合成出来的 。
AI语音合成技术,相较于真人播音员,不仅能极大地缩减配音所需时间,还能进一步节省制作成本以及人力成本。倒映有声,是以奉献语音合成系统以及解决方案作为起始点的,正在做着这样的事情。
在过去的一年当中 的时候 ,有一个倒映有声上线的有声读物制作平台 ,在其中人工智能扮演主播角色 ,这个平台里的AI主播每日单机生产速度已经超过了500万字 ,并且录制成本能够节约超过90% 。今年3月 ,这个平台与中央广播电视总台音频客户端“云听”APP达成了合作 ,开始开展基于央广总台IP和融媒体领域的AI产品研发 ,这也就意味着它的业务已经成功打入“国家队” 。
倒映有声核心团队成员,大多来自百度 ,还有微软、阿里等公司 ,早期小爱同学语音产品底层技术构建 ,有这群技术专家 ,小度智能音箱语音产品底层技术构建 ,也有这群技术专家 ,百度语音导航语音产品底层技术构建 ,同样有这群技术专家 ,百度呼叫中心语音产品底层技术构建 ,还是有这群技术专家 。
以端到端神经网络以及深度学习合成器为依据,倒映有声自己研发出了情绪和情感控制模块,在音色模拟这个方面达到了行业领先水平,在情感展现这个方面也达到了行业领先水平,在定制化服务这个方面同样达到了行业领先水平,在多语种这个方面还是达到了行业领先水平。
融资在快速推进,此前这家创企完成了2019年5月300万元的天使轮融资,今年5月完成了千万级人民币的Pre - A轮融资,且正在启动A轮融资,目标规模为2000 - 3000万元,目的是加快技术研发,加速垂直场景的产品落地。
在北京建外SOHO的一间办公室当中,有一家新兴企业,其团队规模不足20人,正谋划着一场围绕语音合成领域的新一轮抢占位置的竞赛。
近日,智东西踏入他们位于北京的总部,经由和其创始团队开展深度交流,我们知悉了更多关于这家公司的诞生历程以及成长故事,还目睹了诸多他们对于AI语音技术创新所进行的探索与坚持。
自左边起始依次是,倒映有声联合创始者兼CTO的李骁,倒映有声创始者兼CEO的肖朔,倒映有声联合创始者兼CMO的何培成。
01.
助推百度小米智能音箱诞生
倒映有声的起航
2013年前后,肖朔硕士毕业于北京航空航天大学云计算专业,之后加入百度语音技术部工作,同期加入的,还有刚从英国帝国理工大学人工智能专业硕士毕业回国的李骁,此时百度的人工智能(AI)业务才刚刚开始起步。
身处百度那段时期,肖朔所属团队,以及李骁身为成员的那个团队,开发出国内首个情感语言合成系统,之后先后搞了小度智能音箱、百度呼叫中心等产品,为往后百度智能语音生态之构建与丰富奠定了关键基础。
此外,二人还曾 于猎豹移动投资的 AI 创企担任职务,这家创企是猎户星空 ,在一年的时间里面 ,与初创团队一起 ,参与了小米首款小爱智能音箱的开发项目 。
在这几年摸爬滚打的进程当中,存在两段从0到1构建技术方案的经历,肖朔与李骁正是基于此,渐渐萌生了创业的念头。恰好有在猎户星空打拼的过往,这亦使他们接触到诸多创意方面的知识以及经验,“消除了对于创业的那种恐惧感。”
2019年,百度语音技术步入成熟发展正轨,其语音技术战略重点不再于语音合成,更多是聚焦到语音交互,与此同时,硬件设施完善,算力增强,深度学习应用场景进一步拓展,曾一直处于早期发展阶段的语音合成技术终于有了变革性突破。
因此,肖朔决定离开百度,李骁也决定离开百度,他们开启创业生涯。2019年3月,倒映有声于杭州正式注册成立,跟随他们一同出来创业的有不少原百度团队的伙伴,这些伙伴选择将公司总部“落户”北京,倒映有声在成立两个月后拿下300万人民币的天使轮融资。
肖朔和李骁的创业之旅正式起航,倒映有声的挑战也才刚刚开始。
02.
押注有声书和AI新闻播报
语音合成想象空间巨大

然而,AI语音所涉及的赛道这般广阔,倒映有声究竟缘何笃定地选定语音合成赛道呢,?
从肖朔的角度来看,语音识别属于最早爆发的语音技术,科大讯飞、云知声等公司已进行多年深入钻研,打造出智能医疗、智能翻译笔以及智能会议录入系统等成熟的产品,为新玩家所留下的市场机会并不多。
在技术层面,李骁觉得当下语音识别技术已然步入了仅单纯较量识别准确率的成熟时期,相较之,语音合成仍存在诸多有待挖掘的细分场景了,广播剧,有声书,游戏配音,甚至亚文化里的虚拟偶像等,这些通通都是此后的落地方向,想象空间极为巨大 。
比如说呢,往日里有声书、广播剧这类长音频作品于制作进程当中,得要人工针对大量文字脚本开展前期画本,可以进行前期画本工作,还要做中期配音工作,接着是后期剪辑等工作,这一整套流程要耗费几个月的时间,并且还涉及到不少的人工成本呢。然而要是运用语音合成技术的话啊,它能够极大程度地压缩各个环节里面的时间以及财务成本,仅仅只需几天,其实甚至几个小时就足够了,就能够完成一个长音频作品的制作啦。
再比如说存在于影视以及游戏配音之中,为了要促使能够确保用户的观影以及游戏体验得以实现达成,制作团队是务必要花费大量的时间去筛选适配适合于此类角色的配音员的状态情况,与此同时还需要进一步去考虑思索配音员的休息时间的设定调整、作品第二部第三部等续集声音以及连贯性等连贯性方面的层面因素,这些种种情况也同样是对给使得其作品的制作周期带来了许多的不确定性的影响发生。要是采用运用语音的合成技术手段方式,只需要仅仅输入脚本就干脆能够快速迅速生成相适配适应于其人设人物形象以及作品具体某部需求的声音声响。
然而,鉴于用户对于语音合成技术所具备的体感要求是极为高的,要是技术没办法达成能够相比拟真人这样的效果水准,那就会非常难以存在有用户愿意去进行付费,与此同时,用户付费的意愿跟技术效果的提升呈现出成正比的关系 。
肖朔评价,因此,语音合成技术,是整个语音交互技术链路,上最后爆发的赛道,一旦爆发,市场空间,会更大。
当下,倒映有声重点将有声书以及AI新闻播报这两个场景当作切入点,给创作者、版权方还有融媒体平台等诸多客户,给予拥有高产能、具备低成本特点的音频制作服务 。
对于有声书而言,倒映有声,主要是去提供一个有声读物的交易制作平台,借助这个平台,用户能够达成,从涵盖文稿画本开始,到配音录制,再到音频剪辑的全流程云端制作,并且还能够自行选择全自动或者半自动制作方式,以及纯 AI 主播、AI 人声加上真人主播录制等方式 。
在前期处理阶段,平台能做到对文稿的挑选与清理,要是属于广播剧水准的内容,还能够针对相关内容开展更深层次的转变,涵盖配音的角色区分、性格描绘塑造、情绪风格等方面,从而将其改编为适宜收听的文本。
AI新闻播报领域,倒映有声同中央广播电视总台音频客户端“云听”APP开展合作,致力于打造AI新闻主播,为用户供给音频内容服务的一站式解决办法。相较于国内其他AI新闻主播,倒映有声所呈现的播音效果,其情绪更为饱满、自然,于音色模拟、情感展现以及多语种等层面,均已达到业内领先水准。
倒映有声语音合成技术在云听APP上的应用实例
03.
背后的技术城池构建
语音合成的三大优势
不是有声书,也不是AI新闻播报背后所处的状况,都无法脱离映照出有声于语音合成范畴之内的技术积攒以及创新 。
曾有李骁谈过这事儿,往昔传统的语音合成技术存在主要的两种方式,它们分别是拼接法以及参数法。就像起初的小米小爱同学运用的是拼接法,差不多是借助真人的声音片段来做算法拼接组合那么操作,其优势体现为音色以及自然度等方面的效果良好,然而缺点是操作复杂度极其高,对于数据量的需求同样非常大 。
李骁说,当时,为打磨小爱同学,我们让配音员录制,时间将近半年时候,前后加起来时长上百个小时,最终才达到一个非常好的水平 。
伴随着端到端深度学习,一步步向着语音合成领域去拓展了,语音合成技术,取得了质的飞跃。
其一,基于深度学习的语音合成技术,其内部计算模块更为复杂,其网络构建更为复杂,不管是参数量,还是技术复杂度,都远远超过以往水平;其二,内部结构复杂,模型搭建完成后,后续使用会变得非常简单,无需再用大量数据做底层支撑。
智能语音合成结构(图源:头豹研究院)
整体来看,倒映有声的语音合成技术主要拥有三方面核心优势。
首先是拟真度,它属于语音合成技术的核心部分。可以看到语音合成一般会涵盖如有声绘本、有声读物、新闻播报、呼叫中心等多个应用场景,在这些不同场景里,其技术表达方式不相同,操作逻辑也不一样,而且像小孩儿、成年人、老年人等不同音色以及模拟各种不同动物、怪兽的发音,都构成一项具有较大难度的课题 。
若是倒映有声,那么便能极大程度减少语音合成跟真人表达之间所存在的差异性,进而拉近合成声同真人之间的距离,合成之后的声音采样率达到48kHz,其更趋近于是真人处于录音棚中录制出来的声音,然而市场之上主流合成采样率是16kHz 。

于多情感范畴之中,倒映有声的语音合成技术可把情感予以更精准的表达,且能表达得细腻,亦能表示丰富。在此同时,该技术支持英文合成,还支持中英文混合合成,其跨语种定制有着较低的成本。
二是定制化能力,基于过去两年的数据积累,倒映有声在自己平台上沉淀了上千位真人主播,其具备语音合成定制化能力,只需200句话,约30分钟时长就能几乎100%还原一个人的声音,并且能够达到商业化落地的水平。
甚至,用户只需录制10至15句话,倒映有声便能够把声音以90%的相似度“克隆”下来,然而,“克隆”下来的主要是声线,句子数量非常少,所以,在情绪还原方面还需要其他算法技术来进行弥补。
其三是语音合成技术具备结合性,除去单纯的语音合成这一单个技术之外,倒映有声对与之有着强力关联的上下游技术要点予以高度关注,像是在有声读物场景之中,倒映有声已然实现了全自动画本能力,每句话选用哪一个音库,采用何种情感风格,均与语音合成技术存在着高度相关的绑定联系。
04.
有声书行业高速发展背后
倒映有声的下一步规划
从2019年3月成立开始算,直到如今,倒映有声大概耗费将近一年多时长做底层技术的打磨以及积累了,一直到2020年5月才正式开启商业化进程。在2020年间,9月时他们使得有声书赛道运行成功了,12月又进入到广电融媒体赛道了……这里面最大的变化是联合创始人兼CMO何培成加入进来了。
从一家纯粹的技术输出型公司,转变成产品服务公司,是何校长补齐了我们的市场商务团队,肖朔提到,在这个转变里,公司针对几个垂直场景构成了完整的产品服务,在打开市场局面之际进一步扩充了公司营收。
“去年,公司主要把重点放在技术以及产品阶段,营收的基数处于较低水平。”何培成说道,今年,公司营收呈现出显著的爆发态势,预计会有高达大几百万的收入,与相比同比增长幅度为700%。
今年,倒映有声的主要目标集中于技术与市场这两个方面,其一,要夯实已切入的有声书市场以及AI新闻播报市场,做出标杆客户,在实现更大规模收入之际提升市场占有率,这是今年他们最为核心的目标,其二,期望凭借自身的语音合成技术,延伸至更多商业场景。
至于技术方面,李骁觉得当下语音合成的关键难题乃是怎样使情绪传达更为细腻,他表示这会是持续深入挖掘的要点,唯有攻克此点,才存在让语音合成技术进入更多场景的可能性,他还讲道,怎样强化语音合成在长音频里的自然与流畅感亦是一个难点,毕竟目前语音合成依旧聚焦于单句的合成上。
简言之,当下语音合成技术的最大阻碍并非在于算力方面,而是语音合成技术自身,怎样能够借助更优良的数学模型去阐释人们发音的生理结构以及原理,或许这便是语音合成技术接下来最为关键突出的突破要点 。
所以倒映有声后续技术研发的方向,一方面会从深度着手,不断探寻情感更为细腻的呈现方式,更好地把控长文本中连贯的渐强、渐弱的自然表现。与此同时,成本更低的定制化亦是重点所在。
另一方面从广度着手,强化与语音合成紧密相关的上下游技术链路,涵盖自然语言处理即NLP方面的自动角色划分、文本级情感预测等要点,李骁觉得,继续往后续发展也存在诸多需借助音频驱动的场景,像诸如语音驱动虚拟人物的面部表情又或者肢体表达 。
从整体方面去看,语音合成于有声书方向的落地清晰了,在融媒体方向的落地也是清晰的,然而真正存在的挑战是去开拓增量场景。肖朔谈着,在未来他们会向东南亚地区,还会向俄罗斯、日本、韩国等并非英文为母语的国家提供服务,以此进一步去拓展海外业务所涵盖的范围。
05.
结语:语音合成技术爆发潜力巨大
当下发展得如烈火烹油般热烈的智能语音技术,是各产业智能化进程里不可缺少的关键工具,特别是语音交互技术与语音识别技术,已渗透到人们生活以及工作的各个方面,然而,语音合成技术的确尚未抵达全面爆发的阶段 。
但当下于语音合成赛道里,有声书行业的市场规模正维持着高速增长态势。依据市场研究机构艾媒咨询的数据,中国有声书行业规模自2016年的23.7亿元增长到了2019年的63.6亿元,连续三年增速超过30%,预计2020年大约将抵达95亿元 。
倒映有声实现成立,这无疑为语音合成技术于更多领域当中,带来了一个可供借鉴的商业样本。这支着手创业的团队,让我们得以瞧见语音合成技术所具备的更广阔开拓想象空间,像从有声书领域,再到AI新闻播报范畴,又从游戏方面,直至影视剧情形层面,接着从机器人领域,延伸至虚拟主播领域等等,好像处于一切存在视听内容输出情形场景里,都存在着数量不少的潜在机会 。
在后来的日子当中,伴随语音合成技术,往逐步进入爆发阶段的方向发展,我们亦是满心期待,它可以给各个行业领域,带来相较于以往更多的,具备创新性的相应突破,以及发生蜕变。


欢迎 你 发表评论: