全新多语种编码器 mmBERT：超越 XLM-R，提升速度与效率

IP属地中国·北京 编辑：唐云泽 Chinaz 时间：2025-09-11 17:37:08

近日，约翰霍普金斯大学的一组研究人员推出了 mmBERT，这是一款新型的多语种编码器，旨在填补当前多语种自然语言处理领域的空白。该模型在多个任务上超越了 XLM-R，且在速度上比以往模型提升了2到4倍，为多语种应用的研究和开发提供了更强大的支持。
mmBERT 的架构分为两种主要配置:基础模型和小型模型。基础模型拥有22层变换器，隐藏层维度为1152，总参数量约为3.07亿，而小型模型的参数量则为1.4亿。mmBERT 采用了先进的 Gemma2分词器，支持256k 的词汇量，利用旋转位置嵌入（RoPE）和 FlashAttention2技术，显著提高了处理效率。同时，该模型的序列长度从1024个令牌扩展到8192个令牌，意味着其可以处理更长的上下文信息。
在训练数据方面，mmBERT 使用了来自多个来源的3万亿个令牌，覆盖了1833种语言。其中，英语在整个语料库中仅占10% 至34%。训练分为三个阶段:预训练、阶段中训练和衰减阶段。在每个阶段中，模型逐步接触更多的语言和更高质量的数据，这种方法有助于提高低资源语言的表现。
mmBERT 在多个基准测试中展现了其卓越的性能。在英语自然语言理解（GLUE）任务中，mmBERT 的基础模型得分为86.3，超越了 XLM-R 的83.3。在多语种自然语言理解(XTREME)任务中，mmBERT 的得分为72.8，也高于 XLM-R 的70.4。此外，在嵌入任务和代码检索任务中，mmBERT 同样表现出色，显示出其在多种应用场景中的潜力。
通过对低资源语言的特别关注，mmBERT 确保这些语言在训练过程中也能得到充分的利用。在多项基准测试中，mmBERT 在法罗语和提格雷尼亚语等低资源语言的表现均优于其他大型模型，证明了编码器模型在经过精心训练后，可以有效应对低资源场景的挑战。
mmBERT 不仅提升了多语种处理的速度和效率，还为下一代的多语种自然语言处理系统奠定了坚实的基础。它以高效、开放的方式重新定义了多语种编码器的潜力，标志着一个新时代的到来。
github：https://github.com/JHU-CLSP/mmBERT?tab=readme-ov-file
划重点:

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

「谁能骑1小时啊？」美团滴滴共享单车调价：起步价逼近2元时长翻倍，用户质疑「变相涨价」

果然没完了！「置身追觅」又来了

又一公司发全员信宣布启动裁员计划！

携程整改了，商家怎么还在亏？

全网疯抢大疆Pocket 4P

水田插秧之后马云低调现身麻省理工和哈佛大学

全站最新

张家界奇峰见证：牛电萌可K1三厢布局革新，开启短途出行新篇章

浙江世宝：线控转向未广泛普及国标实施或促高阶自动驾驶应用

新款路虎揽胜谍照来袭：优化细节设计动力升级兼顾舒适与性能

「谁能骑1小时啊？」美团滴滴共享单车调价：起步价逼近2元时长翻倍，用户质疑「变相涨价」

热门推荐

恒星引力等在上海成立新公司

联想至像携手京东政企深化合作，共筑国产打印生态，驱动智慧办公升级

360纳米Work亮相ISC大会周鸿祎：AI从“问答”走向“干活”新阶段

全球首个自动驾驶系统全球技术法规获批发布

柴怼怼名下三家公司被申请破产

「谁能骑1小时啊？」美团滴滴共享单车调价：起步价逼近2元时长翻倍，用户质疑「变相涨价」

果然没完了！「置身追觅」又来了

又一公司发全员信宣布启动裁员计划！

携程整改了，商家怎么还在亏？

志愿填报“参谋”到位：高考出分三日，大模型已助 500 万考生“定心”

近 400 家地方报纸起诉 OpenAI 和微软，指控侵犯版权

全网疯抢大疆Pocket 4P

水田插秧之后马云低调现身麻省理工和哈佛大学

B站视频播客单日播放时长突破1亿分钟，专题创作手册发布

《庆余年》《赘婿》续作要来了 20部阅文出品及IP改编作品官宣