当前位置: 首页 » 资讯 » 科技头条 » 正文

面壁智能联合清华大学、OpenBMB开源社区联合发布并开源两大最新数据集

IP属地 中国·北京 澎湃新闻 时间:2026-05-29 18:25:18

5月29日,面壁智能联合清华大学、OpenBMB开源社区联合发布并开源两大最新数据集:Ultra-FineWeb-L3与UltraData-SFT-2605。其中,Ultra-FineWeb-L3包含高质量中文+英文网页合成数据,总量突破600BTokens,中文占据200B+Tokens,是目前开源规模最大的中文预训练合成数据集;UltraData-SFT-2605是 国内首次开源的千万级、同时包含深思考与非思考标注的SFT数据集。MiniCPM5-1B的训练过程,是UltraData分级治理体系的一次完整实践,此次上新的两大数据集Ultra-FineWeb-L3与UltraData-SFT-2605均已在MiniCPM5-1B的训练流程中得到完全验证,覆盖从预训练退火到后训练SFT的全链路。(澎湃新闻记者 范佳来)

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。