人工智能

DeepSeek-OCR 2发布:让AI像人一样“读懂”复杂文档

字号+作者:凤凰网科技 来源:凤凰网科技 2026-01-27 20:06 评论(创建话题) 收藏成功收藏本文

1月27日,DeepSeek团队发布《DeepSeek-OCR2:VisualCausalFlow》论文,并开源DeepSeek-OCR2模型。该模型采用创新的DeepEncoderV2新型编码器结构,它能够根据'...

1月27日,DeepSeek团队发布《DeepSeek-OCR2:VisualCausalFlow》论文,并开源DeepSeek-OCR2模型。该模型采用创新的DeepEncoderV2新型编码器结构,它能够根据图像语义动态调整视觉信息的处理顺序,使模型在进行文字识别前先对视觉内容进行智能排序。这项技术突破源于对传统视觉语言模型处理方式的重新思考,旨在让机器更贴近人类的视觉阅读逻辑。pPf品论天涯网


pPf品论天涯网

在传统的视觉语言模型中,图像通常会被切分为若干视觉token,并按照从左上到右下的固定栅格顺序送入模型处理。这种方式虽然实现简单,但与人类在阅读文档、表格或公式时基于语义和逻辑关系进行跳跃式浏览的方式并不一致。pPf品论天涯网

DeepSeek论文指出,尤其在版式复杂的文档场景中,视觉元素之间往往存在明确的逻辑先后关系,仅依赖空间顺序可能限制模型对内容结构的理解能力。pPf品论天涯网

为验证模型性能,研究团队在OmniDocBenchv1.5基准上进行了全面评估。该基准涵盖多种类型的中英文文档,包括学术论文、杂志、报告等,重点考察文本识别、公式解析、表格结构还原以及阅读顺序等指标。pPf品论天涯网

测试结果显示,在视觉token上限更低的情况下,DeepSeek-OCR2的整体得分达到91.09%,相较DeepSeek-OCR提升了3.73%。特别是在阅读顺序准确度方面,编辑距离从0.085降至0.057,表明新模型能够更合理地理解文档内容结构。pPf品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]