DeepSeek发布DeepSeek-OCR 2 让AI学会“人类视觉逻辑”

IP属地中国·北京 智通财经 时间：2026-01-27 16:59:37

智通财经APP获悉，1月27日，DeepSeek发布全新DeepSeek-OCR 2模型，采用创新的DeepEncoder V2方法，让AI能够根据图像的含义动态重排图像的各个部分，而不再只是机械地从左到右扫描。这种方式模拟了人类在观看场景时所遵循的逻辑流程。最终，该模型在处理布局复杂的图片时，表现优于传统的视觉-语言模型，实现了更智能、更具因果推理能力的视觉理解。
传统的视觉语言模型（VLM）通常采用光栅扫描顺序（raster-scan order），即从左上到右下机械地处理图像 Patch。这种方式在处理复杂排版（如多栏文档、报表、公式混排）时，往往难以捕捉内容之间真实的逻辑关系。
根据DeepSeek公布的技术报告，DeepSeek-OCR 2在多项关键指标上展现出显著优势。在OmniDocBench v1.5基准测试中，该模型取得了91.09%的成绩，相较于前代DeepSeek-OCR提升了3.73%。
该模型在保持极高精度的同时，严格控制了计算成本，其视觉Token数量被限制在256至1120之间，这一上限与Google的Gemini-3 Pro保持一致。在实际生产环境中，该模型在处理在线用户日志和PDF预训练数据时的重复率分别下降了2.08%和0.81%，显示出极高的实用成熟度。
DeepSeek-OCR 2的发布不仅是一次OCR性能的升级，更具有深远的架构探索意义。DeepEncoder V2初步验证了使用语言模型架构作为视觉编码器的潜力。这种架构天然继承了LLM社区在基础设施优化方面的成果，如混合专家(MoE)架构和高效注意力机制。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

AI革命凸显三类“未来人才”：两栖科学家、垂直整合者、创业“造马人”

免疫系统竟会叛变？揭秘身体里的“平叛特种部队”，CAR细胞疗法有多能打

动员人海入局，京东意在“炼丹”具身数据

最高涨34％！阿里云、百度智能云同时宣布：涨价

算力需求持续攀升，百度智能云AI算力相关产品服务最高涨价30%

网易回应“网易互娱用AI替代所有外包岗位”：不实，系部分业务项目调整，属正常人员优化

全站最新

AI革命凸显三类“未来人才”：两栖科学家、垂直整合者、创业“造马人”

免疫系统竟会叛变？揭秘身体里的“平叛特种部队”，CAR细胞疗法有多能打

动员人海入局，京东意在“炼丹”具身数据

最高涨34％！阿里云、百度智能云同时宣布：涨价

热门推荐

AI革命凸显三类“未来人才”：两栖科学家、垂直整合者、创业“造马人”

免疫系统竟会叛变？揭秘身体里的“平叛特种部队”，CAR细胞疗法有多能打

动员人海入局，京东意在“炼丹”具身数据

最高涨34％！阿里云、百度智能云同时宣布：涨价

算力需求持续攀升，百度智能云AI算力相关产品服务最高涨价30%

网易回应“网易互娱用AI替代所有外包岗位”：不实，系部分业务项目调整，属正常人员优化

阿里巴巴重磅，阿里云AI算力和存储产品最高涨价34%！港股科技、云计算再度上涨！

2000万只“龙虾”进入企业，阿里的新企业Agent故事 | 最前线

全国网络法治宣传新征程开启

我翻到一条十年前的知乎问答，发现网友都是预言家。

腾讯电话会：马化腾首谈“养虾”构想，今年AI投资至少翻倍，智能体将催生去中心化新生态

全新车色、第二代VLA来了！新款小鹏P7发布，只要20.38万起

华为乾崑智驾公开赛今启报名，ADS V4.1车型可参与

微盟集团2025年来自AI收入破亿，SaaS商业化找到新路径｜最前线

别克至境世家纯电版上市，重塑纯电豪华MPV标杆