实现文档认知，云知声推出工业级文档智能基础大模型

IP属地中国·北京 编辑：沈如风南方Plus客户端 时间：2026-02-27 16:21:42

26日，云知声正式推出 Unisound U1-OCR 文档智能基础大模型。作为首个工业级文档智能基座，该模型凭借 “性能 SOTA、可信可验、开箱即用、高效部署、强适配” 五大优势，打破传统文档处理边界。
传统视觉方案（OCR 1.0，以CRNN 为代表）仅能识别文字，新一代多模态方案（OCR 2.0，以VLM为代表）具备端到端版面理解能力和文字识别能力。而 Unisound U1-OCR 开启 OCR 3.0 时代——在理解版面的基础上，进一步洞察文档深层语义，实现自动分类与业务级信息抽取，完成了从“字符感知”到“文档认知”的质的飞跃。
首先，它拥有“先懂结构，再读内容”的智慧。传统模型往往按顺序死板阅读，而Unisound U1-OCR首创了“语义驱动+动态聚焦”策略。如同人类阅读习惯，先梳理文档目录、标题的层级关系，再按需提取内容。模型能自动构建文档的“语义地图”，精准识别标题、图表与正文的从属关系，即使面对排版混乱的极端场景，也能条理清晰地提取信息。
其次，它具备敏锐的“空间感知力”。通过强化空间对齐模块，模型能充分利用文字在页面上的位置信息，主动理解元素间的空间布局。结合动态分辨率技术，无论是密集表格还是图文混排，它都能精准还原文档结构，彻底解决了以往模型“张冠李戴”的空间盲区。
在实际应用场景中，通用OCR工具在专业领域存在局限——例如医保结算单中“自付一”“自付二”与“个人自费”的逻辑关系，或合同中金额大小写的校验规则，都需要领域知识支撑。
Unisound U1-OCR在基础模型之上，融入了云知声在医疗、金融等领域的行业知识积累，模型可基于业务逻辑进行多字段关联校验。在内部业务测试中，面向50余种常见业务文书的分类准确率超过99%。
再比如，传统方案在解析报纸、期刊等多栏穿插、图文交织的复杂版面时，易陷入“下一段该读哪里”的阅读迷航。而Unisound U1-OCR模型的突破在于，它不再机械地按固定顺序扫描页面，而是像人一样，结合上下文语义与版面逻辑，自动判断段落的承接关系，精准梳理出符合人类阅读习惯的内容流。
南方+记者郜小平

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

卖了三亿台手机，realme怎么突然就不玩了？

中国让开源大模型工作更长时更“聪明”

月之暗面回应K3：做难而正确的事，不惧马斯克挑战

美国宣布投入50亿美元，利用AI攻克慢性病、加速药物研发等

OpenAI推出OpenAI Presence，布局企业软件赛道

OPPO Find X10系列EVT工程机曝光，将配备独立自定义AI键

全站最新

卖了三亿台手机，realme怎么突然就不玩了？

中国让开源大模型工作更长时更“聪明”

月之暗面回应K3：做难而正确的事，不惧马斯克挑战

美国宣布投入50亿美元，利用AI攻克慢性病、加速药物研发等

热门推荐

无茶无咖饮品崛起：适配多场景多需求，成茶咖行业新增长点

游戏与漫展交融的BW：为B站全球化叙事铺就坚实新路径

卖了三亿台手机，realme怎么突然就不玩了？

中国让开源大模型工作更长时更“聪明”

月之暗面回应K3：做难而正确的事，不惧马斯克挑战

小红书就IPO传闻作出回应：当前流传的上市相关消息不实

字节PICO业务换帅：创始人周宏伟卸任李晓凯接棒推进MR产品研发

美国宣布投入50亿美元，利用AI攻克慢性病、加速药物研发等

OpenAI推出OpenAI Presence，布局企业软件赛道

OPPO Find X10系列EVT工程机曝光，将配备独立自定义AI键

Kimi K3也为国产AI芯片优化：华为昇腾950DT性能超越NVIDIA B300

HMD海外发布2G功能手机诺基亚123 Shield，主打户外使用场景

全球首款AI智能体手机努比亚NaviX Ultra配置曝光：144Hz屏配7100mAh大电池

今日宜休产品开发进入冲刺阶段！王腾透露：供应商都是行业Tier one

三星Galaxy Z8系列手机现场实拍：三种折叠屏齐聚，首款阔折叠是亮点