![]()
这项由达姆施塔特工业大学人工智能与机器学习研究组联合弗劳恩霍夫智能分析与信息系统研究所(Fraunhofer IAIS)及拉马尔机器学习与人工智能研究所共同完成的研究,于2026年6月以预印本形式发布在arXiv平台,编号为arXiv:2606.03773。感兴趣的读者可以通过这个编号直接找到完整论文。数据集已公开发布在Hugging Face平台,地址为AIML-TUDA/KletterMix。
**一场关于语言数据的"粮食危机"**
在讨论人工智能语言模型时,大多数人关注的是模型有多"聪明"、参数有多少、训练了多久。但实际上,有一个更基础的问题往往被忽视:这些模型在学习阶段到底读了什么书?
训练一个语言模型,就像培养一个孩子的语言能力。这个孩子读的书越多、书的质量越高、涵盖的话题越广,他长大后的表达能力就越强。问题在于,全球现有的高质量"教材"严重偏向英语。英语世界已经为AI模型准备了海量精心筛选、来源多样、文档完备的训练材料,而德语等其他语言的同类资源,无论在规模、质量还是多样性上,都远远落后。
这种差距不是小问题。德语有着独特的语言结构——它喜欢把很多词拼接在一起形成超长的复合词,名词要大写,地区方言差异显著,专业领域的表达方式也和英语截然不同。如果一个德语AI模型主要靠英语数据来学习,它就像一个在英语环境中长大、只会说简单德语的孩子,在处理真实德语场景时必然力不从心。
研究团队提出的解决思路可以用一个直白的比喻来说明:与其在德语世界里费力寻找、筛选、清洗足够多的优质文本,不如直接把一套已经验证过质量的英语"优质教材"翻译成德语。这套教材叫做ClimbMix,是英语世界近期整理的一批高质量预训练数据。研究团队将翻译后的德语版本命名为KletterMix——Klettern是德语里"攀爬"的意思,和英语的Climb(ClimbMix的词根)形成了对应,既保留了传承关系,又用上了德语,名字本身就是对这项工作的一个小小诠释。
**一、为什么不直接从网上抓取德语文章?**
这是一个合理的疑问。毕竟互联网上有大量德语内容,直接爬取不是更简单吗?
研究团队在论文中对这个问题给出了详细解释。直接从网络爬取德语文本并不是不可行,事实上已经有GermanWeb、FineWeb2-DE等团队在做类似的工作,并取得了一定成效。然而,这条路面临几个难以回避的挑战。
首先是质量参差不齐的问题。网络爬取的文本包含大量噪声,从垃圾广告到格式混乱的页面不一而足。激进的过滤策略虽然能去掉明显的垃圾,但也可能误伤一些质量不错但格式特殊的内容,同时还是会留下相当多的低质量文本。
其次是多样性难以保证的问题。高质量的训练数据需要覆盖各种话题、各种文体、各种专业领域。网络爬取很容易在某些热门话题上过度集中,而在另一些重要但冷僻的领域严重欠缺。
最重要的是,英语世界在构建这些训练数据时,已经投入了大量精力去设计"数据配方"——各类内容以什么比例混合、哪些来源优先、如何去除重复内容等等。这些精心设计的配比决策,直接从德语网络爬取时几乎不可能原样复现。
翻译路线的核心优势恰好对应这些痛点:直接继承了英语数据集的质量筛选结果,保留了多样化的话题覆盖,也传承了经过验证的数据配方设计。当然,翻译也会带来新的问题,比如翻译腔、语义偏移、翻译失败等,这些都需要认真对待。
**二、一条从英语到德语的翻译流水线是如何建造的?**
将七百多亿个词从一种语言翻译成另一种语言,这本身就是一项工程壮举。研究团队为此设计了一套精密的流水线系统,整个过程分为几个环环相扣的阶段。
翻译流水线的第一道工序是"长度分拣"。训练数据中的文章长度差异极大,有些只有几百个词的短文,有些则是几万词的长篇技术文档。如果用统一的方式处理所有文章,短文会浪费大量计算资源,长文则可能超出翻译模型的处理能力。研究团队把所有文章按长度分成八个档次,从4000词以下的短文一直到64000词以上的超长文,每个档次使用针对性的处理参数,既减少浪费又避免截断。
处理短文比较简单,整篇文章一次性送入翻译模型。处理长文则需要一套特殊策略。研究团队先把长文切分成句子,再把句子贪心地拼凑成不超过20000个词的翻译块。如果某个单句本身就超过了这个限制,就在词的层面强制切断作为保底方案。每个翻译块在被翻译时,会附带上前一个翻译块的最后2000个词作为上下文,帮助翻译模型保持文章前后的术语一致性和叙述连贯性。最终,所有翻译块按原始顺序拼接回完整的德语文章。
在"翻译预算"的设计上,研究团队也花了心思。英语翻译成德语,文章通常会变长——德语表达同样意思往往需要更多字符。如果给每篇文章设定固定的输出长度上限,会导致大量长文被截断。团队采用了动态计算的方式:输出长度上限等于输入长度乘以2再加上1024个词,但不超过32768个词的总上限。这样既保证短文不浪费资源,又给长文留有足够的扩展空间。
整个翻译过程在大量机器上并行进行。研究团队使用了126个计算节点,每个节点配备8块英伟达B200显卡,整个翻译工作持续了约10天,累计消耗了约24万显卡小时的计算资源。所有翻译结果按照与原始英语文章一一对应的方式保存,每篇德语文章都携带着原始文章的身份标识和全部元数据,以便后续对比和审查。
用于翻译的模型是Qwen3.5-397B-A17B,这是一个超大型的语言模型。研究团队在正式翻译前对三种不同精度版本(FP16、FP8、NVFP4)进行了系统测评,最终选择了FP8版本。FP8在翻译质量上与最高精度的FP16版本几乎无差异,但处理速度更快,在生产环境中也更为稳定。研究团队还发现NVFP4版本在处理困难样本时偶尔会出现提前截止或英语词汇泄漏的问题,因此未采用。
翻译提示词的设计刻意保持简洁。对于普通文章,提示词就是一句话:"将以下英文文本翻译成德语,只输出德语翻译。"对于需要分块处理的长文,提示词会在前面附上前一块的德语翻译作为上下文,并特别说明"仅将这部分上下文用于保持叙述连贯,只输出当前段落的德语翻译"。这种简洁的设计避免了模型输出解释性文字、格式标记或类似"思维链"的额外内容。
**三、翻译出来的文章质量如何把关?**
七百多亿词的数据,逐篇人工审查显然不现实。研究团队为此设计了一套分层的质量评估体系,就像一个有多道关卡的质检系统。
第一层关卡使用的是COMETKiwi——这是一个专门评估翻译质量的AI模型,最大的优点是它不需要参考译文就能给出质量打分。研究团队从整个语料库中按来源类别比例抽取了一批样本,共约十八万篇文章,逐一用COMETKiwi打分。这些分数揭示了翻译质量在不同文章类型、不同长度区间、不同来源分类中的分布情况。
然而,COMETKiwi的计算成本很高,无法对七百多亿词的全部数据运行。研究团队的解法是用已有的COMETKiwi分数来训练一个"学徒"——一个计算成本极低的梯度提升回归模型。这个学徒模型的巧妙之处在于,它完全不需要看原始英语文章,只从德语翻译本身提取特征来预测翻译质量。
这些特征涵盖了多个维度。一类是语言识别信号:使用GlotLID工具判断这篇文章是否真的是德语,以及"德语程度"有多高。如果一篇本该是德语的文章被识别为其他语言,或者德语识别置信度很低,很可能说明翻译出了问题。另一类是文本形态特征:文章长度、词汇丰富程度、重复词汇比例、平均词长、数字字符占比、标点占比、字母字符占比、换行符占比等。这些特征能捕捉到很多实际问题,比如翻译模型只输出了一堆URL、格式严重混乱、出现了大量重复内容等。
在十八万篇文章的测试集上,这个学徒模型展现出了相当不错的表现——与COMETKiwi分数的皮尔逊相关系数约为0.73,平均绝对误差约为0.049,表明它能够相当准确地代理COMETKiwi的评估结果。于是,这个学徒模型被用来给全部翻译数据打分。
有了全库的质量分数,研究团队构建了三个不同严格程度的过滤版本:只保留质量分数不低于0.50的文章、不低于0.55的文章、以及不低于0.60的文章。每个版本都控制在约120亿词的训练预算下,三个版本的差异在后续训练实验中逐一进行了对比检验。
**四、翻译出来的语料库长什么样?**
研究团队对翻译后的语料库进行了全面的"体检",从多个角度观察这批数据是否健康、是否符合预期。
从文章长度分布来看,整个语料库呈现出典型的重尾分布:大多数文章在一万词以内,但有一条长长的尾巴延伸向几万词的超长文章。这种分布模式在真实世界的文本中非常常见,说明翻译后的数据保留了原始数据集的自然形态。
把文章按照原始长度分档来看翻译后的长度,可以发现一个规律:大多数情况下,被分到更长档次的文章,翻译后也确实比短档次的文章更长,这是符合预期的。但每个长度档次的下端都有一条较长的"低尾"——也就是说,有些本应很长的文章翻译后却出奇地短。这些案例是潜在的质量问题信号,可能意味着原文内容被大幅截断、翻译模型拒绝翻译、或者输出了大量无意义内容。
从话题分布来看,整个语料库被分为20个来源类别,每个类别的内容主题各不相同。研究团队通过从每个类别中选取质量最高的100篇文章,让一个大型语言模型给每个类别打上话题标签。这20个类别覆盖了从数学教育、宗教与文学、历史地理、青少年教育、游戏赌博、空间探索、健康医疗,到软件开发、环境可持续性、数字技术与社会等各种主题,体现了英语原始数据集在话题上的广泛覆盖。
在数据量分布上,类别6(混合科学概念与教育问答)、类别7(动植物与环境保护)和类别12(产品指南与DIY教程)贡献了最大份额的词量,而类别20(税收、人权与选举的混合内容)则是规模最小的类别。
从质量分数的分布来看,各个来源类别的翻译质量整体上相当稳定,中位质量分数在不同类别间差异不大。但有两个类别的分数相对偏低,尤其是类别20,其质量分数的分布明显低于其他类别,且变异性较大——这与该类别内容本身较为混杂、翻译难度较高有一定关系。
研究团队还对翻译质量进行了手动抽查,整理出了几类典型的低质量案例。最常见的一类是"拒绝翻译":模型认为原文内容违反安全准则,输出了一段德语说明表示拒绝翻译,而不是实际的翻译文本。还有一类是"方言错误":模型错误地使用了阿勒曼方言或瑞士德语的表达,而不是标准德语。此外还有"代码标识符被翻译"的问题——本应保持不变的Python或JavaScript代码中的变量名、关键字被硬生生翻译成了德语,导致代码语义完全改变。与这些低质量案例形成对比的是高质量翻译:科学解释类文章、学术描述类文章,以及代码讨论类(只翻译了说明文字而保留了代码本身)的翻译都表现出色,行文自然,忠实于原文。
**五、用这些数据训练出来的模型表现如何?**
语料库质量最终要靠实际训练结果说话。研究团队在完全控制的条件下做了一系列训练实验。
实验的基础框架是这样的:选用Qwen3-0.6B作为模型架构,这是一个有6亿参数的语言模型;训练数据控制在120亿词左右,对应一个6亿参数模型的"Chinchilla最优"训练量(即每个参数大约看20个词);所有超参数完全相同,包括优化器配置、学习率计划、批次大小、词表等,唯一的变量是训练数据来自哪个语料库。
参与对比的语料库共有五种:FineWeb2-DE(从网络爬取的德语数据集,由HuggingFace团队开发)、GermanWeb(由Aleph Alpha公司构建的德语预训练数据集)、未经过滤的KletterMix,以及质量分数分别高于0.50、0.55、0.60三个阈值的过滤版KletterMix。每种语料库从全量数据中按来源比例抽取120亿词作为训练集,同时抽取独立的验证集用于过程监控。
从训练过程来看,KletterMix家族的训练损失下降得更快、更低。这不仅体现在训练集上,在完全没有参与训练的验证集上同样成立——KletterMix模型的验证损失从训练早期就开始低于其他两个基线,并且这种优势一直保持到训练结束。这个现象很重要,因为它排除了"KletterMix只是更容易拟合而非真正学到了更多"的可能性。
在下游任务的表现上,研究团队使用了四个德语版本的标准测试:MMLU(广泛的知识问答)、PIQA(物理常识推理,比如判断用什么方式完成一个日常任务更合理)、HellaSwag(情景续写,判断哪个句子是某段故事的合理延续)和ARC-Challenge(科学问答,需要综合多个知识点)。这四个测试从不同角度衡量模型的能力,研究团队将其平均值作为综合得分。
GermanWeb在MMLU上表现最好,得分30.0,说明它在广泛知识覆盖上有优势,可能与其对新闻、百科类内容的覆盖有关。FineWeb2-DE在PIQA上得分最高,达到70.0,说明它在日常物理常识的覆盖上较为充分。KletterMix家族则在HellaSwag和ARC-C这两个任务上表现最突出:未过滤的KletterMix在HellaSwag上得34.4,在ARC-C上得26.5;过滤阈值0.60的版本得分更高,HellaSwag为34.6,ARC-C为27.5,综合得分达到40.2,是所有对比版本中最高的。
这个结果的解读颇为有趣。HellaSwag测试的是"这个场景接下来最可能发生什么",ARC-C测试的是"需要综合多个知识点才能回答的科学题"。这两类任务的共同点是需要模型理解连贯的叙事逻辑和深层的推理关系,而不只是记住孤立的事实。KletterMix的来源是一套经过精心设计的英语优质数据集,其中包含大量有结构的解释性文章、教育类材料、科普内容,这些内容天然具有较强的逻辑连贯性。将这类内容翻译成德语后,这种"推理结构"也随之迁移了过来,从而在需要推理能力的任务上带来了显著提升。
研究团队还做了一个"退火实验",专门测试KletterMix作为"后期微调数据"的价值。实验设计是:先用FineWeb2-DE训练5100步,然后换用不同数据集继续训练。换用GermanWeb继续训练的版本综合得分为37.6,换用KletterMix继续训练的版本综合得分达到39.4,比GermanWeb高出1.8分。这个实验的特别之处在于,两个版本的起点完全相同,排除了初始化差异的影响,更干净地体现了数据集本身的质量差异。HellaSwag从31.5上升到34.2,ARC-C从23.0上升到25.2,再次印证了KletterMix对推理类任务的贡献。
**六、这项研究的局限在哪里?**
研究团队在论文中坦诚地列出了KletterMix的不足之处,这些局限性值得认真对待。
首先是文化偏向问题。KletterMix的内容来源于英语数据集,即便翻译成了德语,其中反映的话题、观点、文化视角依然偏向英语世界。它不是德语本土内容的替代品,无法反映德国、奥地利、瑞士等德语地区特有的文化、历史、社会议题。
其次是翻译本身带来的问题。机器翻译不可避免地会引入翻译腔,可能在专业术语的处理上出现前后不一致,在长文或高度专业的文章中也更容易出现语义偏移。代码、公式、特殊格式的文本翻译错误率较高。
第三是质量评估的局限。COMETKiwi和代理模型都是自动化工具,无法替代人工评估。它们能捕捉到明显的质量问题,但对于更微妙的语义不准确、自然度问题,以及翻译在特定专业领域的准确性,自动化工具的判断力是有限的。
第四是实验规模的限制。目前的训练实验仅在6亿参数的小型模型上进行,训练预算也只有120亿词。对于更大参数量的模型,或者更长训练周期的场景,KletterMix的表现是否同样优越,目前尚无直接证据。
研究团队表示,未来的工作方向包括:针对URL堆积、重复内容、格式混乱等翻译失败模式开发更精准的过滤工具;通过人工审查评估不同领域的翻译自然度和事实准确性;将同样的翻译流水线扩展到法语、意大利语、西班牙语等其他语言;以及在更大规模的模型上验证结论的适用性。
说到底,这项研究提出并实践了一个朴素但有力的想法:当你手头没有足够多的好教材时,与其在茫茫网海中辛苦淘金,不如先把别人已经精心整理好的优质教材翻译过来用用看。KletterMix的实验结果表明,这条路确实可行,至少在推理和情景理解能力上能带来实在的提升——尽管它不能覆盖所有维度,也无法取代真正的本土数据。
归根结底,语言模型的训练是一道"数据食谱"题,不同来源的数据就像不同的食材,各有其长。GermanWeb在知识广度上有优势,FineWeb2-DE在日常常识上更接地气,而KletterMix则填补了逻辑推理和连贯叙事这块空白。如何把这三类食材合理搭配、取长补短,或许才是下一阶段更值得探索的问题。感兴趣深入研究的读者,可以通过arXiv编号2606.03773找到完整论文,数据集也已在Hugging Face的AIML-TUDA/KletterMix页面公开。
Q&A
Q1:KletterMix数据集是如何确保翻译质量的?
A:KletterMix采用分层质量把关。先用COMETKiwi(一种无需参考译文的翻译质量评估工具)对约18万篇抽样文章打分,再用这些分数训练一个轻量代理模型,最终对全部数据打分并筛选出三个不同严格程度的过滤版本(分数分别高于0.50、0.55、0.60)。代理模型只看德语翻译本身,分析语言识别置信度、词汇多样性、重复比例等特征,与COMETKiwi的相关系数约0.73,能有效识别拒绝翻译、方言错误、代码被翻译等常见问题。
Q2:KletterMix和GermanWeb、FineWeb2-DE相比优势在哪里?
A:三种数据集各有侧重。GermanWeb在广泛知识问答(MMLU)上得分最高,适合事实性知识覆盖;FineWeb2-DE在日常物理常识(PIQA)上表现最好;KletterMix则在情景续写(HellaSwag)和科学推理(ARC-C)上领先,综合得分最高达40.2。这是因为KletterMix来源于结构严谨的英语教育类材料,翻译后保留了较强的逻辑连贯性,对需要推理能力的任务帮助更大。
Q3:KletterMix翻译数据会不会影响德语模型的文化代表性?
A:这是KletterMix研究团队明确承认的局限。因为源数据是英语语料库,翻译成德语后话题和文化视角依然偏向英语世界,无法反映德国、奥地利、瑞士的本土文化和社会议题。研究团队建议将KletterMix与本土德语数据配合使用,而非单独依赖,两者结合才能兼顾推理能力和文化代表性。





京公网安备 11011402013531号