豆包语音大模型首家引领级通过中国信通院语音大模型评估

近日,豆包大语音模型成为首家“引领级”通过中国信通院语音大模型能力评估的产品,经相关标准和评估测试显示,火山引擎在语音合成、复刻、识别分析等方面能力突出,豆包语音大模型在行业中已占据领先地位。

近年来,随着人工智能技术的快速发展,语音大模型作为语音理解和生成技术的关键技术,正不断赋能各行业的智能化转型。从智能客服、智能家居到车载语音助手、医疗诊断,语音大模型在多个领域展现出广阔的应用前景。同时,随着数据规模的增加和算法的不断优化,语音大模型的技术能力也日趋复杂和多样化,对标准化和技术规范的需求愈加迫切。

在此背景下,中国信通院联合火山引擎等企业制定《语音大模型技术能力要求》标准,从语音合成能力、语音识别与分析能力、多模态处理能力、场景化能力、基础功能以及服务成熟度等多个功能和性能层面全面规范语音大模型技术能力水平,旨在为行业提供技术参考和规范,提升语音大模型技术能力的可操作性和标准化水平。

《语音大模型技术能力要求》标准介绍

标准共包含两大评估板块:

能听

精准的语音识别能力(ASR):具备高准确率,能够精准识别不同场景语音输入,包括噪声环境中的语音、方言和口音。

多语种与跨语言处理:支持多语种语音识别,适配全球化应用场景。

感知语境变化:能区分语气、情感变化,捕捉说话者意图和语义。

会说

自然语音合成(TTS),实现接近真人语音的合成,支持情感化表达和多种语言发声。

多样化语音风格:支持多种音色、语速和语调的自定义输出,满足个性化需求。

实时生成能力:毫秒级响应时间,支持实时语音交互。

够懂

深度语义理解:能准确理解语音输入中的复杂语义、上下文关联和用户意图。

多任务协同处理:能同时完成语音识别、情感分析、语言翻译等多任务。

个性化适配:根据用户历史数据调整语音交互方式,实现个性化推荐或对话内容定制。

好用

广泛的应用场景支持:从个人助手到行业解决方案,覆盖家居、医疗、教育、金融等领域。

轻量化与边缘部署:优化模型适配终端设备,在低算力环境中实现高性能。

高效开发与标准化接口:支持快速集成和跨平台应用,降低开发与部署成本。

豆包语音大模型首家引领级通过中国信通院语音大模型评估

在本次评估中,豆包语音大模型全部满足23项功能评估、在4项性能评估得分表现优秀,支持20余项服务能力,成为国内首家引领级通过评估的产品,具备优异的语音合成、复刻、识别、分析等能力。

语音内容合成:

豆包语音大模型在语音质感、多语种支持、情绪模仿、拟人度、场景化音效、效果声和情景声、发音正确度及MOS人工评分等方面表现优异

语音识别与分析

豆包语音大模型在语义理解、上下文理解、多语种识别、情感检测、非语言识别、语音唤醒、低延时语音等方面具备优异表现

语音检索

豆包语音大模型在标签和元数据检索、自然语言查询、多模型检索等方面具备优异表现

语音复刻

豆包语音大模型在即时克隆、声音还原度、跨语种迁移等方面具备优异表现

服务成熟度

豆包语音大模型具备完善且成熟的服务配套能力

豆包语音大模型全新升级

抖音、飞书、番茄小说、剪映...在字节跳动内部,有超过50个语音相关的业务场景,这要求必须拥有一个强悍的语音大模型,支撑真实业务场景应用发展。豆包语音大模型正在通过全新升级,向用户提供丰富的语音能力,其中包括超自然语音合成、5秒极速声音克隆和能上下文推理的语音识别等,显著提升了语音交互媲美真人的体验感。

豆包语音识别

超高识别率:在多个公开测试集中,与国内公开发布的语音识别大模型相比,错误率降低了 10%-40%

上下文感知:豆包语音识别利用一系列上下文信息(包括历史对话、视频编辑历史和会议参与详细信息等)进行推理,能带来超过 15% 的召回率提升。

多方言支持:在保持高准确率的同时,豆包语音识别支持一个模型识别普通话和多种中国方言,包括上海话、闽南语,四川、陕西、粤语等。

豆包语音合成-超自然音色合成

超自然:依托新一代语音大模型能力,豆包语音合成模型在口语自然度、连贯性、音质、韵律、气口、等各方面表现堪比真人。

多情绪:豆包语音合成可以根据上下文,深度理解文本内容情节和角色、呈现对应的喜怒哀乐等情绪,让AI演绎更加生动饱满。

多场景:提供26个精品超自然音色,包括趣味口音、角色扮演等类型,以满足不同用户的个性化需求,适配趣味聊天、视频剪辑、有声阅读等多个场景。

豆包声音复刻-极速复刻

极速复刻:仅需5秒即可复制一个高保真音色

高度还原:高度还原真人音色特点、说话风格、口音和声学环境,对于高表现力声音,如口音、特色音色等,还原度进一步提升。

跨语种迁移:录制一个语种的声音,可支持中文、英文、日语、西班牙语(墨西哥口音)、葡萄牙语(巴西口音)、印尼语多个语种的合成,让声音轻松说外语

业务联系人:

中国信通院 云计算与大数据研究所

陈传志 18811767492 chenchuanzhi@caict.ac.cn

李昂 13651208710 liang3@caict.ac.cn继续滑动看下一个轻触阅读原文

云计算与大数据研究所向上滑动看下一个

原标题:《豆包语音大模型首家引领级通过中国信通院语音大模型评估》