当前位置: 首页 » 资讯 » 科技头条 » 正文

腾讯混元OCR模型宣布开源:参数量1B 支持14种小语种翻译

IP属地 中国·北京 编辑:吴婷 凤凰网科技 时间:2025-11-25 16:10:01

11月25日,腾讯混元于11月25日推出开源OCR模型HunyuanOCR,该模型参数量为1B,基于混元原生多模态架构构建,在多项OCR应用评测中取得当前最优效果。

该模型采用端到端训练推理范式,通过单次前向推理即可完成多项任务,相比传统级联方案更具效率优势。其架构由原生分辨率视频编码器、自适应视觉适配器与轻量化语言模型三部分组成。

在性能方面,HunyuanOCR在复杂文档解析评测OmniDocBench中获得94.1分,超过谷歌Gemini3-pro等模型;在涵盖文档、街景、手写等九大场景的测试集上,其文字检测与识别能力领先同类开源及商业模型。同时,该模型支持14种小语种翻译,并在ICDAR2025文档翻译比赛中获得小模型赛道冠军。

目前该模型已应用于票据字段抽取、视频字幕识别及拍照翻译等场景,并正式对外开放源代码。

标签: 模型 文档 翻译 架构 分辨率 开源 商业模型 赛道

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。