让AI说话 | 拆解“说”与“话”的两条技术路径

2022-04-02 19:22
北京

美国传播学家艾伯特·梅拉比安提出过这样一个公式:

信息的全部表达=7%语调+38%声音+55%表情

语音、语调在沟通中的重要性和地位由此可见一斑。事实上,让AI 读出单词甚至句子,都不是难事了,但语调、语流,乃至在语境里语气的意义,才是现在AI技术突破的重点。

这点对于汉语言来说尤为重要,因为与英语音调只区分情绪不同,汉语的声调是区分意义的

「说」的技术思考:

语音、语调快慢轻重的配置和变化

从技术视角来看,AI 说话,其实涉及两个不同的技术领域。一是「说」,即关注语音、语调、语流,让AI 根据文本像人一样发声。一般而言,技术界会从三个层级来评价AI「说」的能力。

·基础性能

起评标准在于发音正确率的把握,表现为发音不重不漏,断句不出错,正确识别汉语多音字,不出现明显噪音、异响、啸叫等现象,首字节生成不延迟,语速可调节但不是后期加速后的明显畸变,自由切换中英文混读、或多语言自然混读场景。

·进阶性能

以中文为例,无论是拼音还是文本都能自然流畅地发音,无论是在线还是本地都能无缝切换确保音色一致,支持超长文本批量合成、支持实时流式输入输出。甚至,就像演出现场调音一样,AI也能实时在线边说边调音。

·扩展性能

更深一层,方言也不能落下,粤语、闽南语、台湾普通话、客家语……不止于中文,英式发音、美式发音,甚至……魔性的印度英语都可支持可定制。同一声音支持全球主要语言、触达全球主要经济区。同时,根据语义匹配准确的情感表达,例如开心、难过、惊讶、怀疑、恐惧、不屑……听着很自然,传递的情感把文本绘声绘色地演绎出来。

AI掌握语言的要义,在于捕捉人类语音的丰富性,让谈吐变得栩栩如生,并能将这种高级语言模型应用于各种用例,解锁更多的语言场景。我们可以像指挥配音演员一样,让周迅的AI声音去配漫威的黑寡妇,让木村拓哉的AI声音去配粤语版无间道。

当然,AI的能力远超于配音范畴——文本语音之间的灵活转换可为有听力障碍的人提供帮助,可以让游戏、书籍、视频中的人物变得有血有肉,可以帮助我们用自己的声音输出不同语言的叙述。甚至……可以重现标志性歌手表演,不仅匹配歌曲的旋律,还能匹配人声背后的情感表达。

「话」的技术思考:

从已有事实、反馈中持续学习

解决了技巧层面拟人化的构想,只是最基本的层面,类似于让小婴儿开口说话。但离小婴儿写诗,还有一大段路要走。

《红楼梦》里林黛玉教香菱写诗,让香菱从李杜王看起,从茫茫然一无所知的一个小土丘开始,一个又一个土丘的叠加,开始慢慢想象山是什么样子,攀上了一个山顶又见到了更高的山……为了学习和理解,香菱依赖于先天的、语言前的悟性,结合后天汲取的相关知识,逐渐建立学习的框架和方法,随后通过与现实的碰撞得到反馈提升认知,周而复始不断完善下去。

婴儿如此,香菱如此,AI亦如此。或者我们永远无法赋予AI人类先天而来的感知,但伴随着海量知识的有意识植入,伴随着消化吸收知识-分类-深度学习-反馈-再汲取的正向循环,终有一天,AI能理解语言、理解世界。

试想一下,未来AI创造力的场景——AI主播根据突发性新闻的有效内容,结合事件背景,几乎即时产生评论,并以正确的语气传达给受众;AI律师在接收咨询时,迅速搜索相关法律条文,为客户提供合理、及时的建议,并总结客户阐述要点汇总给相关律师;公司里的任何人,无论他们的编程经验如何,AI程序员都能在几分钟内通过概念验证将他们的创意变为现实……

当AI以一种非凡的方式解锁创新和想法时,我们需要做什么?

基于AI超强的能力,我们可以腾出更多精力完成后续额外的任务,通常是微调,以实现更高的准确性。最重要的是,AI的智慧结晶间接让我们站在了巨人的肩膀上,我们更有灵感延伸更多智慧。当然,我们需要负责任地实施AI,需要用能力和工具来确保AI只生成适合其应用的内容,并防止误用。

微妙的变化往往付出的技术是巨大的。真正开发出智能并能使用常识推理得出结论的AI,仍有很长的路要走。

也许有一天,你会收到AI打来的电话,它模仿人类说话的语音语调,以及节奏快慢,你甚至能从它的发音中感受到细微情绪波动。自然的语音交流,或聊天攀谈提醒你放松一下,或专业的意见指导,你知道它是AI,但你不再把它当工具,而是共创的伙伴。

主笔:史星

研究:InTech 科技组

视觉:Legon

美术总监:Francis Fan

    特别声明
    本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问https://renzheng.thepaper.cn。