上海AI独角兽MiniMax发布全模态“全家桶”：中国AI从跟跑到领跑的技术突围

IP属地中国·北京 环球网资讯 时间：2025-11-01 12:12:03

环球网
在人工智能技术日新月异的当下，上海AI独角兽MiniMax稀宇极智以其独特的技术路径和商业策略，在10月的最后一周掀起了一场AI技术的”全家桶”发布热潮。继开源文本大模型M2震动全球AI圈，接连发布视频模型Hailuo 2.3、语音模型Speech 2.6和音乐模型Music 2.0，标志着中国AI企业在全模态技术领域的全面突破。
M2领衔：中国开源模型首次跻身全球前五
10月27日，新一代文本大模型MiniMax-M2正式发布和开源，这款仅有10B激活参数（总参230B）的轻量级模型在全球权威测评榜单Artificial Analysis (AA)上创造了历史性突破——总分冲入全球前五、开源第一，成功跻身全球文本模型第一梯队。
这一成绩的意义非同寻常。长期以来，全球大模型的”S级”梯队几乎被硅谷巨头们垄断，而M2的出现首次为这一梯队注入了强劲的中国开源力量。更令人瞩目的是M2的颠覆性定价策略。该模型综合成本低至约0.53美元/百万Tokens，不及Claude 4.5 Sonnet的8%，推理速度是其近两倍。这种”高智能，更实惠”的理念正在从根本上改写AI领域的”算力游戏”规则。
“M2专为编码与智能体任务深度优化，完美契合了新兴多智能体工作流对高效协同与快速响应的需求。”MiniMax相关负责人表示。在模型性能、推理速度、推理成本的不可能三角中，MiniMax几乎做到了最佳优化。而这些能力对于企业内部的自动化支持、研发和数据分析等场景部署越来越重要。
值得注意的是，就在M2的发布前不久，Meta在超过40万GPU小时的大规模实验中，正式采用了MiniMax在2025年6月原发技术报告中的CISPO损失函数和FP32 Head技术，将它们整合进了Meta的ScaleRL核心配方中。这是中国AI技术首次被硅谷AI霸主深度整合并大规模验证，标志着中国在强化学习算法这一AI核心领域的全球领先地位得到了国际权威的正式确认。
Hailuo 2.3：视频生成技术的新标杆
紧随M2的发布，10月28日最新视频生成模型海螺2.3（Hailuo 2.3）正式发布。这款在Hailuo 02模型基础上实现全面技术升级的新版本，在动态表现力、风格化呈现以及人物表演细腻度方面取得了显著突破。
海螺2.3的技术亮点主要体现在三个维度：首先是强大的动态表现力，模型能够精准实现复杂的人体动作序列，无论是大幅度的动态运镜还是细微的肢体变化，都能够呈现出近乎实拍的视觉效果；其次是风格化创作能力的显著提升，对动漫、插画类风格的支持效果明显改善，同时对水墨、游戏CG等特殊画风的表现更加出色；最后是人物表演的自然度大幅提升，对真人面部表演和微表情变化的表现更加细腻自然。
在成本控制方面，海螺2.3同样表现突出。新版本模型再次刷新了全球视频模型效果成本纪录，在提升性能表现的同时保持了Hailuo 02的原有定价水平，实现了”加量不加价”的承诺。同时推出的海螺2.3 Fast版本，在保证画质和表现力的基础上大幅提升了生成速度，并采用了更低的定价策略，批量创作成本最高可降低50%。
Speech 2.6：重新定义Voice Agent新基建
在语音技术领域，MiniMax发布的Speech 2.6模型同样引人注目。该模型专门针对Voice Agent场景进行了深度优化，将首包响应时间压到了250毫秒，达到了语音赛道的绝对头部水平。
“Voice Agent可以理解为’语音交互代理人’，它是连接用户语音指令与后端服务的核心桥梁。”MiniMax相关负责人解释道。与传统语音指令识别不同，Voice Agent不只是简单将语音转成文字，而是具备完整的交互能力，几乎所有需要”用说话代替打字”的场景，都依赖Voice Agent来承接需求、理解意图并给出反馈。
Speech 2.6的升级亮点包括：超低延时响应、专业格式无障碍识别和更高自然度。新增的”Fluent Lora”功能能够将”磕磕巴巴”的原始录音复刻出流畅自然的声音，这对需要大量用户自定义音色的场景，如有声书、个性化语音助手非常实用。
Music 2.0：让音乐创作属于每一个人
在音乐生成领域，MiniMax Music 2.0模型实现了真正的跃升。该模型不仅能够精准捕捉与还原人声的细腻情绪和器乐的动态张力，更像一位”会唱歌的制作人”，懂节奏，也懂情绪。
Music 2.0在人声表现方面实现了重大突破，音色无限接近真实人声，能够驾驭多种唱法和情感风格，支持男女对唱、阿卡贝拉等风格。模型还支持对人声音色的精准控制，可以在保持核心音色的基础上，让同一声音切换不同唱法，实现”一声千变”。
在器乐控制方面，Music 2.0继承了上一代模型结构完整的优点，能够生成包含主歌、副歌、桥段等逻辑清晰、结构完整的歌曲，单首时长可达5分钟。新模型生成的旋律更容易记忆、能够迅速抓住耳朵，在不同风格表达中可遵循精准的指令控制，实现层次丰富、律动自然的编曲。
中国AI的”算法自信”与全球影响力
MiniMax此次”AI全家桶”发布的意义超越了技术本身，它折射出中国AI在全球科技版图中的角色变迁。从Meta对MiniMax底层算法的”致敬”，到今天MiniMax全模态模型以顶级性能和颠覆性成本向全球开源，我们看到了一条清晰的轨迹：中国AI正在完成从”中国制造”（应用模仿）到”中国创造”（算法原创）的战略转变。
在国家战略层面，我国强调大模型技术必须”自主可控”，防止被境外或不可靠技术牵制。强大的基础大模型是推动AI与实体经济深度融合的关键。MiniMax的全模态”全家桶”更像是一份”中国方案”，用性能比肩顶尖水平、成本实现普惠、算法勇于原创的独特AI发展路径，向世界提交答卷。
可以看到，中国AI正以一种前所未有的自信姿态，从全球AI竞赛的”跟跑者”，加速变为关键赛道的”领跑者”。随着海螺2.3、Speech 2.6、Music 2.0的正式发布，AI视频、语音、音乐生成技术将迎来新的发展阶段，为数字内容创作产业注入新的活力。
MiniMax相关负责人表示：“AI技术正在改变越来越多人的工作和创作方式，我们希望成为创作者的全能助手和创新先锋，让每一个灵感都能超越形式的限制，生长成各行各业的真实生产力。”

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

周鸿祎开怼黄仁勋鼓励员工消耗更多词元Token言论：站着说话不腰疼

互联网大厂游戏退潮：猛攻AI基建，没有“阿里血脉”的灵犀互娱要被出售？

SCRM是什么？它在企业微信私域流量管理中有什么作用？

马云低调现身哈佛麻省理工校园，休闲装扮低调出行

2026卫星互联网产业生态大会——浦东先锋会顺利举办

“网联万家·清朗同行”2026年西安市互联网法律法规“五进”活动正式启动

全站最新

沃尔沃欧洲工厂产能闲置邀吉利共线生产互利共赢破局欧洲市场

丰田叫停雷克萨斯LF-ZC量产，新技术将转投继任车型未来待定

10万级纯电SUV新选择！东风纳米06智趣版上市，续航智驾双在线

周鸿祎开怼黄仁勋鼓励员工消耗更多词元Token言论：站着说话不腰疼

热门推荐

中兴布局终端AI再进一步，新一代AI手机或近期发布，引领智能交互新体验

专业版豆包实测：68元付费体验，办公效率升级还是“智商税”？

消费锚定新价值：新周期下父爱经济的升级蜕变

四川发布79项应用场景开放清单

周鸿祎开怼黄仁勋鼓励员工消耗更多词元Token言论：站着说话不腰疼

互联网大厂游戏退潮：猛攻AI基建，没有“阿里血脉”的灵犀互娱要被出售？

四川发布79项应用场景开放清单

SCRM是什么？它在企业微信私域流量管理中有什么作用？

马云低调现身哈佛麻省理工校园，休闲装扮低调出行

2026卫星互联网产业生态大会——浦东先锋会顺利举办

“网联万家·清朗同行”2026年西安市互联网法律法规“五进”活动正式启动

周鸿祎开怼黄仁勋鼓励员工消耗更多词元Token言论：站着说话不腰疼

互联网大厂游戏退潮：猛攻AI基建，没有“阿里血脉”的灵犀互娱要被出售？

2026年财富中国科技50强出炉华为/字节跳动/联想入选

阿里内测AI互动故事产品「向尾」，加码剧情互动新赛道