5月29日,面壁智能联合清华大学、OpenBMB开源社区联合发布并开源两大最新数据集:Ultra-FineWeb-L3与UltraData-SFT-2605。其中,Ultra-FineWeb-L3包含高质量中文+英文网页合成数据,总量突破600BTokens,中文占据200B+Tokens,是目前开源规模最大的中文预训练合成数据集;UltraData-SFT-2605是 国内首次开源的千万级、同时包含深思考与非思考标注的SFT数据集。MiniCPM5-1B的训练过程,是UltraData分级治理体系的一次完整实践,此次上新的两大数据集Ultra-FineWeb-L3与UltraData-SFT-2605均已在MiniCPM5-1B的训练流程中得到完全验证,覆盖从预训练退火到后训练SFT的全链路。(澎湃新闻记者 范佳来)
面壁智能联合清华大学、OpenBMB开源社区联合发布并开源两大最新数据集
IP属地 中国·北京
澎湃新闻 时间:2026-05-29 18:25:18
免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。
全站最新
热门推荐
- 英特尔在Computex发布多项AI创新成果
- 滴滴一季度GTV增长21%,经调EBITDA盈利9.13亿元
- AI下半场,该“文科生”上场了
- 不是说电影寒冬吗,怎么IMAX赚疯了?影院想翻身,选这条路就对了
- “聚合生态·能链未来” SNEC SMART E 6月2日在沪盛大开幕
- 一个关于科创、热爱与远方的女性夏日现场
- UFC在中国如何突破发展的天花板?
- 汤饭,会跑出下一个米村拌饭吗?
- 就因为会“搬砖”了,物理AI一夜爆火
- 联想,PC龙头的转型账本
- 斯坦福辍学生用气球监测地球,AI天气预报精度碾压欧洲官方机构
- 火箭炸了发射台也瘫了 NASA:登月可能得靠马斯克
- 深蓝发布5月战绩 全球销量稳居单月3万辆以上历史高位,L06大涨30%|车市月报
- 四部门出手整治AI侵权!“魔改”“洗稿”、深度伪造被点名
- “我们正站在奇点的山脚下”,下一场科学革命已经由AI启动





京公网安备 11011402013531号