全新Hybrid-MoE架构用于增强通用大模型低资源代码能力

IP属地中国·北京 机器之心Pro 时间：2025-10-30 14:13:27

大语言模型（LLM）虽已展现出卓越的代码生成潜力，却依然面临着一道艰巨的挑战：如何在有限的计算资源约束下，同步提升对多种编程语言的理解与生成能力，同时不损害其在主流语言上的性能？
为此，中国移动九天团队创新性地提出了 Hybrid MoE 架构 ——MultiPL-MoE，该方案的核心在于耦合两个层次的专家选择机制进行优化：在 Token 层级，采用配备共享专家及新颖门控权重归一化方法的稀疏 MoE，以实现与段落层级专家的高效协同；在 Segment 层级，则创新性地引入滑动窗口划分与专家选择路由策略，使模型能够精准捕捉不同编程语言的语法结构与深层上下文模式。目前，该项研究已被 EMNLP 2025 接收。

论文标题：MultiPL-MoE: Multi-Programming-Lingual Extension of Large Language Models through Hybrid Mixture-of-Experts论文链接：https://arxiv.org/abs/2508.19268代码链接：https://github.com/Eduwad/MultiPL-MoE
背景
现有的通用大模型在代码生成方面已经展示出卓越的能力，然而大量研究表明这些大模型在高资源编程语言（如：Python）与低资源编程语言上（如：Rust）上存在显著的性能差异，后者无论是在线资源还是训练数据集均相对匮乏。对多语言代码生成能力日益增长的需求，促使人们致力于将广泛的编程语言知识注入 LLM。然而，现有的研究主要存在以下两种问题：
1. 使用多种编程语言的数据对基座模型进行继续训练，但存在计算开销极为庞大的问题；
2. 通过特定高质量低资源数据对基座模型进行微调以提升特定编程语言性能，但会引发基座模型原有代码能力的严重灾难性遗忘问题。
因此，我们创新性地提出了一种 Hybrid MoE 结构，即 token-level MoE 和 segment-level MoE 相结合的 MoE 架构。Token-level MoE 采用典型的 sparse upcycling MoE 结构，Segment-level MoE 则利用滑动窗口获得多个分段并搭配采用专家选择 top-k 个分段的专家选择路由的策略。实验结果证明了 MultiPL-MoE 的有效性。
方法
1. MoE 定义

2. MultiPL-MoE
MultiPL-MoE 的提出以优化 token-level 和 segment-level 的专家选择。Token-level MoE 是一种传统的 token 选择路由，结合了共享专家和一种新的路由权重归一化方法，以解决后期与 segment-level MoE 融合时的规模不匹配问题。对于 segment-level MoE，我们采用专家选择路由机制，将输入作为上下文连贯的分段，使专家能够捕捉语法结构和一些篇章级的特征。

图 1 MutilPL-MoE 的整体架构
2.1 Token-level MoE

2.2 Segment-level MoE

最后，融合 token-level MoE 和 segment-level MoE 的第 l 层输出为：

2.3 损失函数
通过将 next token prediction loss 与 load balance loss 相结合来训练混合 MoE。
(1) next token prediction loss

(2) load balance loss

最终的优化目标为：

实验结果
实验结果表明，MultiPL-MoE 在跨语言泛化方面取得了显著进步。MultiPL-MoE 在 HumanEval 和 MBPP 的两个基准测试中均实现了一致的性能，即显著增强了模型在低资源编程语言上的性能，同时有效缓解了高资源编程语言中的灾难性遗忘。同时，我们也注意到，除基础模型 Qwen1.5 外，基线模型、MultiPL-MoE 的 MBPP Python 语言上都表现出持续较低的性能，远远低于其他语言。

图 2 不同 Baseline 及 MultiPL-MoE 在 6 种编程语言上的实验结果。其中，Python，Java，C++ 代表高资源语言，Rust，Go，Ruby 代表低资源语言。
结语
本文提出了一种混合式多语言学习模型 (MoE)——MultiPL-MoE，它同时包含 token-level MoE 和 segment-level MoE。MultiPL-MoE 引入共享专家来捕捉 token 之间的知识共性，并在句段 (segment) 之间获取句段间的语义和逻辑信息。在两个不同的基准测试集上进行的大量实证研究证明了 MultiPL-MoE 是一种在预训练后阶段扩展低源码编程语言的有效方法。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

淘宝闪购“17城市骑士日”升级：九大权益重奖385名骑士

机械革命推出首款搭载智谱GLM-5-Turbo“龙虾”模型的迷你主机

追觅手机负责人：全球手机80%利润被苹果拿走，国产厂商携手突围

库克反向带货：不希望大家过度使用苹果产品、别被困在屏幕里

集微分析师大会IDTechEx首席研究顾问：解码硅光子技术前沿与未来

从全民养龙虾到英伟达加冕“Token工厂”：AI竞赛再度进阶

全站最新

淘宝闪购“17城市骑士日”升级：九大权益重奖385名骑士

机械革命推出首款搭载智谱GLM-5-Turbo“龙虾”模型的迷你主机

追觅手机负责人：全球手机80%利润被苹果拿走，国产厂商携手突围

库克反向带货：不希望大家过度使用苹果产品、别被困在屏幕里

热门推荐

松延动力在常熟成立智展科技公司

西贝旗下呼和浩特一企业管理公司注销

百度健康将于近期发布DoctorClaw，整体业务由杨明璐把关

2025年中国消费级智能平板市场全渠道销量为3261万台

蚂蚁集团旗下公司在广州成立网络技术公司

司法部反击 Anthropic 诉讼：Claude AI 不应被信任用于战争系统

Manus 推出桌面端「My Computer」新功能：20分钟编程与全自动文件管理

机器人租赁平台“擎天租”获亿元级融资，跨界构建泛娱乐生态新版图

新漏洞披露：字体“投毒”让 AI 变“瞎”，仅微软 Copilot 积极修复

三星 Galaxy Glasses 细节首曝：Gemini AI 加持，你的下一副眼镜何必是眼镜？

化学AI领域新突破！清华AIR联合水木分子开源“BioMedGPT-Mol”通用大模型

淘宝闪购“17城市骑士日”升级：九大权益重奖385名骑士

机械革命推出首款搭载智谱GLM-5-Turbo“龙虾”模型的迷你主机

追觅手机负责人：全球手机80%利润被苹果拿走，国产厂商携手突围

库克反向带货：不希望大家过度使用苹果产品、别被困在屏幕里