让AI说话 | 拆解“说”与“话”的两条技术路径

首席数字观科技领域内容创作者

2022-04-02 19:22

北京

美国传播学家艾伯特·梅拉比安提出过这样一个公式：

信息的全部表达=7%语调+38%声音+55%表情

语音、语调在沟通中的重要性和地位由此可见一斑。事实上，让AI 读出单词甚至句子，都不是难事了，但语调、语流，乃至在语境里语气的意义，才是现在AI技术突破的重点。

这点对于汉语言来说尤为重要，因为与英语音调只区分情绪不同，汉语的声调是区分意义的。

「说」的技术思考：

语音、语调快慢轻重的配置和变化

从技术视角来看，AI 说话，其实涉及两个不同的技术领域。一是「说」，即关注语音、语调、语流，让AI 根据文本像人一样发声。一般而言，技术界会从三个层级来评价AI「说」的能力。

·基础性能

起评标准在于发音正确率的把握，表现为发音不重不漏，断句不出错，正确识别汉语多音字，不出现明显噪音、异响、啸叫等现象，首字节生成不延迟，语速可调节但不是后期加速后的明显畸变，自由切换中英文混读、或多语言自然混读场景。

·进阶性能

以中文为例，无论是拼音还是文本都能自然流畅地发音，无论是在线还是本地都能无缝切换确保音色一致，支持超长文本批量合成、支持实时流式输入输出。甚至，就像演出现场调音一样，AI也能实时在线边说边调音。

·扩展性能

更深一层，方言也不能落下，粤语、闽南语、台湾普通话、客家语……不止于中文，英式发音、美式发音，甚至……魔性的印度英语都可支持可定制。同一声音支持全球主要语言、触达全球主要经济区。同时，根据语义匹配准确的情感表达，例如开心、难过、惊讶、怀疑、恐惧、不屑……听着很自然，传递的情感把文本绘声绘色地演绎出来。

AI掌握语言的要义，在于捕捉人类语音的丰富性，让谈吐变得栩栩如生，并能将这种高级语言模型应用于各种用例，解锁更多的语言场景。我们可以像指挥配音演员一样，让周迅的AI声音去配漫威的黑寡妇，让木村拓哉的AI声音去配粤语版无间道。

当然，AI的能力远超于配音范畴——文本语音之间的灵活转换可为有听力障碍的人提供帮助，可以让游戏、书籍、视频中的人物变得有血有肉，可以帮助我们用自己的声音输出不同语言的叙述。甚至……可以重现标志性歌手表演，不仅匹配歌曲的旋律，还能匹配人声背后的情感表达。

「话」的技术思考：

从已有事实、反馈中持续学习

解决了技巧层面拟人化的构想，只是最基本的层面，类似于让小婴儿开口说话。但离小婴儿写诗，还有一大段路要走。

《红楼梦》里林黛玉教香菱写诗，让香菱从李杜王看起，从茫茫然一无所知的一个小土丘开始，一个又一个土丘的叠加，开始慢慢想象山是什么样子，攀上了一个山顶又见到了更高的山……为了学习和理解，香菱依赖于先天的、语言前的悟性，结合后天汲取的相关知识，逐渐建立学习的框架和方法，随后通过与现实的碰撞得到反馈提升认知，周而复始不断完善下去。

婴儿如此，香菱如此，AI亦如此。或者我们永远无法赋予AI人类先天而来的感知，但伴随着海量知识的有意识植入，伴随着消化吸收知识-分类-深度学习-反馈-再汲取的正向循环，终有一天，AI能理解语言、理解世界。

试想一下，未来AI创造力的场景——AI主播根据突发性新闻的有效内容，结合事件背景，几乎即时产生评论，并以正确的语气传达给受众；AI律师在接收咨询时，迅速搜索相关法律条文，为客户提供合理、及时的建议，并总结客户阐述要点汇总给相关律师；公司里的任何人，无论他们的编程经验如何，AI程序员都能在几分钟内通过概念验证将他们的创意变为现实……

当AI以一种非凡的方式解锁创新和想法时，我们需要做什么？

基于AI超强的能力，我们可以腾出更多精力完成后续额外的任务，通常是微调，以实现更高的准确性。最重要的是，AI的智慧结晶间接让我们站在了巨人的肩膀上，我们更有灵感延伸更多智慧。当然，我们需要负责任地实施AI，需要用能力和工具来确保AI只生成适合其应用的内容，并防止误用。

微妙的变化往往付出的技术是巨大的。真正开发出智能并能使用常识推理得出结论的AI，仍有很长的路要走。

也许有一天，你会收到AI打来的电话，它模仿人类说话的语音语调，以及节奏快慢，你甚至能从它的发音中感受到细微情绪波动。自然的语音交流，或聊天攀谈提醒你放松一下，或专业的意见指导，你知道它是AI，但你不再把它当工具，而是共创的伙伴。

主笔：史星

研究：InTech 科技组

视觉：Legon

美术总监：Francis Fan

特别声明

本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问https://renzheng.thepaper.cn。