当前位置: 首页 » 资讯 » 科技头条 » 正文

网易有道“子曰4”多模态模型、语音合成模型全量开源

IP属地 中国·北京 编辑:赵云飞 IT之家 时间:2026-05-22 20:12:49

IT之家 5 月 22 日消息,网易有道今日宣布,决定将“子曰”大模型 4.0 的核心双引擎 ——“多模态模型”与“语音合成(TTS)模型”,正式面向全球全量开源。开发者可以免费下载、部署,并基于此进行二次开发。

此次开源的“子曰 4”多模态模型(27B 参数规模)面向教育场景,支持视觉输入的数理能力,做到了行业顶尖水平(SOTA)。

在同等参数的规模模型中,处理带图表的高难度视觉数理问题。 纯文本的中文数理难题,准确率 81.4%

此外,新模型采用了精细化思维链重构方案。通过汇聚大规模优质、精简的推理样本进行深度优化,把思维链输出长度压缩了 43.2%。这意味着:回答同样的问题,它输出的 Token 更少、推理路径更短、出答案更快

对于做实际业务的开发者和企业来说,直接效果就是:推理成本下降

此外,网易有道团队还针对国内学生真实的作业、考试和提问场景进行了深度优化,让它能够解决真实学习中遇到的复杂痛点。

而开源的语音合成(TTS)模型支持跨语种音色情感迁移克隆,只要上传一段中文音频,就能克隆说话人的音色,并流利说出英语、韩语、越南语…… 不带“中式口音”。而且情感也能精准迁移克隆 —— 只要生气地说一句话,合成出来的外语也是生气的语气。

3 秒:上传任意音频素材,系统即可在 3 秒内完成零样本原声复制。 97%:在克隆任务中准确度超过 97%,克隆音色与原声的相似度达 85% 以上。 14 种语言:全面支持中、英、日、韩、德、法、西、印尼、意、泰、葡、俄、马来、越南语等 14 种语言。

IT之家附两款模型开源地址如下:

多模态模型:https://huggingface.co/netease-youdao/Confucius4 TTS 模型:https://github.com/netease-youdao/Confucius4-TTS

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新