MiniMax举行首次伙伴日大会，发布视频、音乐生成模型

澎湃新闻记者喻琰实习生王春

2024-09-01 15:32

来源：澎湃新闻

在一场科技与音乐结合的Liveshow中，8月31日，AI独角兽企业MiniMax上海稀宇科技有限公司（以下简称MiniMax）举办的“MiniMaxLink伙伴日”拉开帷幕。当日，MiniMax正式发布视频模型—video-01以及音乐模型music-01。

多模态模型只是一个开始

多模态模型已经成为大模型企业的必答题，其中以视频模型内卷最为明显，已经有多家AI企业早先发布了大模型视频，包括智谱AI推出的视频生成模型“清影”、爱诗科技的PixVerse V2、生数科技的Vidu，快手的“可灵AI”等。

据了解，MiniMax此次发布的video-01主打原生高分辨率高帧率视频生成，输入提示词可生成五秒钟视频时长，用户可登录MiniMax官网体验该产品。

MiniMax正式发布视频模型—video-01

有产品设计师测评视频模型video-01后认为，“整体效果非常不错，物理正确、动态幅度以及稳定性都不错，对科幻以及奇幻概念响应也相对准确，但是塑料感很重。美学表现相对差，画质和画面细节差一些。”

对此，Minimax创始人兼首席执行官闫俊杰表示，目前对外展示的只是产品的初版，未来会逐步推出更新版本。

也是基于这个原因，该视频模型将会先免费提供给用户使用一段时间，直到产品更新到满意的状态，才会考虑商业化。“未来的商业化主要分为两种形式，一类是基于公司的开放平台，以及公司积累的2000多家客户合作伙伴，很多知名公司用户也愿意使用声音识别能力，另一类则计划在自有产品中引入广告机制。”

据介绍，MiniMax当下的多模态模型矩阵产品还包括music-01多功能端到端音乐生成大模型、speech-01新一代生成式语音合成大模型等。“这只是一个开始，接下来将在模型速度和效果方面继续改进，将会进一步发布相应产品。”闫俊杰表示。

提升模型性能的关键

“作为一家科技公司，技术始终是最核心的要素。”闫俊杰说，现阶段MiniMax关注的重点并不是商业化。

闫俊杰介绍说，目前MiniMax的模型处理着超过30亿次的客户交互。一年之前，MiniMax交互时长仅为ChatGPT的3%；现在这一比例已提升至53%；但即便如此，连接的用户还没有达到全球人口的1%，只有是0.8%。要从1%增⻓到100%，最重要的是提高AI产品在用户中的渗透率和使用深度。

MiniMax用户交互数据

这其中很多技术难关需要攻克，其中最重要的三个优化方向是：如何让模型的错误率持续降低，无限⻓的输入和输出，以及多模态。“从生活中不难发现，文字交互只是很小的一部分，更多的是语音和视频交互。多模态的内容，比如声音，图文和视频，已经成为信息传递的主流。为了能够提高渗透率，多模态就是必经之路。”闫俊杰说，要攻克这些难关，“快”是MiniMax底层大模型的核心技术研发目标。“在两个性能类似的模型中，训练和推理更快的那个，可以更有效地利用算力资源迭代更多的数据，从而能够有一个更好的模型能力。”

据介绍，MiniMax在过往经历了两次关键的底层技术变革，包括MOE（混合专家架构）和Linear Attention（线性注意力）。今年4月，该公司研发出的新一代基于MOE+ Linear Attention的模型，被视为可以比肩GPT-4o的水平。在处理10万token时，新模型的处理效率可提升达2-3倍，并且随着⻓度越⻓，模型效率提升越明显。

据了解，采用新一代技术的abab7系列文本模型将于未来数周内正式发布。

公开报道显示，成立于2021年12月的MiniMax 此前已完成3轮融资，投资方包括腾讯、米哈游等，当前估值已经超过25亿美元。

责任编辑：宦艳红

图片编辑：蒋立冬

校对：施鋆