DeepSeek新OCR系统震撼来袭！压缩率90%信息保真97%

发布时间：2025-12-12

点击量：

近日，deepseek正式发布全新ocr系统，使ai能够在不突破内存约束的前提下高效处理超长文档。其开源代码已托管于github：https://www.php.cn/link/9d55db9e54e6dfb6ae280528ee34a0a1 。该系统的核心创新在于——将文字内容视作图像进行压缩，相较直接处理原始文本，图像化表征显著降低计算开销。在确保97%信息完整保留的前提下，文档体积可压缩至原大小的十分之一。例如，一本百页级pdf经该系统处理后，所需token数量仅为原先的1/10，语言模型即可实现端到端精准解析。

DeepSeek OCR系统由两大核心组件协同构成：

一是图像编码模块 DeepEncoder，参数量达3.8亿，专用于将输入的文档图像解析为高度压缩的视觉token；
二是文本生成模块，基于 Deepseek-3B-MoE 架构微调而来，负责从视觉token中重建原始文字内容与文档结构。

技术层面，系统深度融合了Meta推出的 SAM（Segment Anything Model） 与OpenAI开发的 CLIP 模型：SAM承担细粒度局部区域分割任务，CLIP则提供跨模态语义对齐能力。二者之间嵌入一个16倍压缩单元，大幅削减视觉token总量。以一张1024×1024像素图像为例，初始生成4096个token，经压缩后仅剩256个，极大缓解CLIP模块的推理压力。在低分辨率场景下，单图仅需64个视觉token；高分辨率模式下亦不超过400个，而传统OCR方案通常需数千token才能完成同等精度识别。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

DeepSeek OCR不仅支持常规文字识别，还可精准解析图表、化学分子式、几何图形等复杂非文本元素。研究团队指出，系统能直接从上市公司财报中的折线图、柱状图中抽取结构化数值，并自动输出标准Markdown表格。在“深度解析模式”下，金融图表与几何示意图更可被重绘为矢量格式，同时完整保留图注、坐标说明及上下文标注。

基准测试结果表明，DeepSeek OCR在 OmniDocBench 综合评测中表现卓越：当仅使用100个视觉token时，性能已超越GOT-OCR 2.0在256 token下的表现；在800 token预算内，全面领先MinerU 2.0（后者每页平均消耗超6000 token）。其专属的 Gundam-M模式 在中英文混合文档识别任务中斩获最低编辑距离（Edit Distance）分数，达到当前最优水平。系统具备智能模式调度能力——面对简易演示文档自动启用64-token轻量模式；普通业务报告匹配约100-token配置；而面对排版密集的报纸类多栏文档，则激活“Gundam模式”，上限设为800 token。此外，还提供 Resize、Padding、Multi-page、Sliding 四种预处理策略，灵活兼顾多页文档的压缩效率与识别准确率。

文心智能体平台

百度推出的基于文心大模型的Agent智能体平台，已上架2000+AI智能体

393 查看详情文心智能体平台

DeepSeek OCR的训练数据规模极为罕见：总计投入三千万页PDF文档，覆盖近一百种语言。其中包含2500万页真实中英文资料、1000万张合成图表、500万条化学公式样本、以及100万幅几何图形图像。如此海量且高多样性的训练语料，赋予模型强大的跨领域泛化能力与跨语言鲁棒性，不仅能完美复现原始文档布局，输出结果还同步附带图文语义描述与内容摘要。

在当前主流多模态大模型架构中，文本上下文长度限制始终是制约长文档理解的关键瓶颈。DeepSeek另辟蹊径，跳脱传统token计数范式，以视觉token替代文本token作为语言模型的新输入载体，真正实现“边看图、边读文”的一体化感知。对研究人员而言，这相当于为AI配备了一块高性能“外接硬盘”——借助视觉压缩机制，模型的有效上下文长度近乎无界，也预示着未来AI架构或将彻底消融“文本理解”与“图像理解”的传统边界。

该模型一经开源，迅速引发全球技术社区高度关注，相关讨论迅速登上GitHub Trending、Hugging Face热门榜单及多个中文科技平台热搜榜。有开发者实测反馈：“太惊艳了！刚用这个新开源模型把400页PDF转成Markdown，全程不到4分钟！”另有AI从业者感叹：“震撼！中国DeepSeek再次打破天花板——整本《百科全书》竟能浓缩为一张高清图像！” DeepSeek OCR绝非一次简单的OCR工具升级，而是对机器如何感知、组织与利用信息的一次底层范式革新。

以上就是DeepSeek新OCR系统震撼来袭！压缩率90%信息保真97%的详细内容，更多请关注其它相关文章！

标签：# deepseek # 来袭 # 压缩率 # 如何写 # 前提下 # 多个 # 广西定制网站建设 # 莞城服装网站优化哪家好 # 蛋蛋视频seo查询 # 包头建设安全协会网站 # 广州东坑网站建设 # seo标题优化教学视频网站 # 六盘水百度网站优化 # SEO学习图片背景 # 淘宝seo怎么入门 # 官网 # 柱状 # 会议纪要 # markdown # git # go # github # 编码 # 硬盘 # 工具 # ai # pdf # openai # 金融 # 大模 # 文档 # 开源 # 德安seo优化公司

上一篇：盘搜搜app怎么找电子书盘搜搜app全网PDF/MOBI/

下一篇：圆通快递运单状态查询圆通速递包裹行程跟踪

DeepSeek新OCR系统震撼来袭！压缩率90%信息保真97%

发布时间：2025-12-12

点击量：

返回

4008988990