当前位置: 首页 » 资讯 » 科技头条 » 正文

实现文档认知,云知声推出工业级文档智能基础大模型

IP属地 中国·北京 编辑:沈如风 南方Plus客户端 时间:2026-02-27 16:21:42

26日,云知声正式推出 Unisound U1-OCR 文档智能基础大模型。作为首个工业级文档智能基座,该模型凭借 “性能 SOTA、可信可验、开箱即用、高效部署、强适配” 五大优势,打破传统文档处理边界。

传统视觉方案(OCR 1.0,以CRNN 为代表)仅能识别文字,新一代多模态方案(OCR 2.0,以VLM为代表 )具备端到端版面理解能力和文字识别能力。而 Unisound U1-OCR 开启 OCR 3.0 时代——在理解版面的基础上,进一步洞察文档深层语义,实现自动分类与业务级信息抽取,完成了从“字符感知”到“文档认知”的质的飞跃。

首先,它拥有“先懂结构,再读内容”的智慧。传统模型往往按顺序死板阅读,而Unisound U1-OCR首创了“语义驱动+动态聚焦”策略。如同人类阅读习惯,先梳理文档目录、标题的层级关系,再按需提取内容。模型能自动构建文档的“语义地图”,精准识别标题、图表与正文的从属关系,即使面对排版混乱的极端场景,也能条理清晰地提取信息。

其次,它具备敏锐的“空间感知力”。通过强化空间对齐模块,模型能充分利用文字在页面上的位置信息,主动理解元素间的空间布局。结合动态分辨率技术,无论是密集表格还是图文混排,它都能精准还原文档结构,彻底解决了以往模型“张冠李戴”的空间盲区。

在实际应用场景中,通用OCR工具在专业领域存在局限——例如医保结算单中“自付一”“自付二”与“个人自费”的逻辑关系,或合同中金额大小写的校验规则,都需要领域知识支撑。

Unisound U1-OCR在基础模型之上,融入了云知声在医疗、金融等领域的行业知识积累,模型可基于业务逻辑进行多字段关联校验。在内部业务测试中,面向50余种常见业务文书的分类准确率超过99%。

再比如,传统方案在解析报纸、期刊等多栏穿插、图文交织的复杂版面时,易陷入“下一段该读哪里”的阅读迷航。而Unisound U1-OCR模型的突破在于,它不再机械地按固定顺序扫描页面,而是像人一样,结合上下文语义与版面逻辑,自动判断段落的承接关系,精准梳理出符合人类阅读习惯的内容流。

南方+记者 郜小平

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新