信息发布→ 登录 注册 退出

DeepSeek新OCR系统震撼来袭!压缩率90%信息保真97%

发布时间:2025-12-12

点击量:

近日,deepseek正式发布全新ocr系统,使ai能够在不突破内存约束的前提下高效处理超长文档。其开源代码已托管于github:https://www.php.cn/link/9d55db9e54e6dfb6ae280528ee34a0a1 。该系统的核心创新在于——将文字内容视作图像进行压缩,相较直接处理原始文本,图像化表征显著降低计算开销。在确保97%信息完整保留的前提下,文档体积可压缩至原大小的十分之一。例如,一本百页级pdf经该系统处理后,所需token数量仅为原先的1/10,语言模型即可实现端到端精准解析。

DeepSeek OCR系统由两大核心组件协同构成:

一是图像编码模块 DeepEncoder,参数量达3.8亿,专用于将输入的文档图像解析为高度压缩的视觉token;
二是文本生成模块,基于 Deepseek-3B-MoE 架构微调而来,负责从视觉token中重建原始文字内容与文档结构。

技术层面,系统深度融合了Meta推出的 SAM(Segment Anything Model) 与OpenAI开发的 CLIP 模型:SAM承担细粒度局部区域分割任务,CLIP则提供跨模态语义对齐能力。二者之间嵌入一个16倍压缩单元,大幅削减视觉token总量。以一张1024×1024像素图像为例,初始生成4096个token,经压缩后仅剩256个,极大缓解CLIP模块的推理压力。在低分辨率场景下,单图仅需64个视觉token;高分辨率模式下亦不超过400个,而传统OCR方案通常需数千token才能完成同等精度识别。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

DeepSeek OCR不仅支持常规文字识别,还可精准解析图表、化学分子式、几何图形等复杂非文本元素。研究团队指出,系统能直接从上市公司财报中的折线图、柱状图中抽取结构化数值,并自动输出标准Markdown表格。在“深度解析模式”下,金融图表与几何示意图更可被重绘为矢量格式,同时完整保留图注、坐标说明及上下文标注。

基准测试结果表明,DeepSeek OCR在 OmniDocBench 综合评测中表现卓越:当仅使用100个视觉token时,性能已超越GOT-OCR 2.0在256 token下的表现;在800 token预算内,全面领先MinerU 2.0(后者每页平均消耗超6000 token)。其专属的 Gundam-M模式 在中英文混合文档识别任务中斩获最低编辑距离(Edit Distance)分数,达到当前最优水平。系统具备智能模式调度能力——面对简易演示文档自动启用64-token轻量模式;普通业务报告匹配约100-token配置;而面对排版密集的报纸类多栏文档,则激活“Gundam模式”,上限设为800 token。此外,还提供 Resize、Padding、Multi-page、Sliding 四种预处理策略,灵活兼顾多页文档的压缩效率与识别准确率。

文心智能体平台 文心智能体平台

百度推出的基于文心大模型的Agent智能体平台,已上架2000+AI智能体

文心智能体平台 393 查看详情 文心智能体平台

DeepSeek OCR的训练数据规模极为罕见:总计投入三千万页PDF文档,覆盖近一百种语言。其中包含2500万页真实中英文资料、1000万张合成图表、500万条化学公式样本、以及100万幅几何图形图像。如此海量且高多样性的训练语料,赋予模型强大的跨领域泛化能力与跨语言鲁棒性,不仅能完美复现原始文档布局,输出结果还同步附带图文语义描述与内容摘要。

在当前主流多模态大模型架构中,文本上下文长度限制始终是制约长文档理解的关键瓶颈。DeepSeek另辟蹊径,跳脱传统token计数范式,以视觉token替代文本token作为语言模型的新输入载体,真正实现“边看图、边读文”的一体化感知。对研究人员而言,这相当于为AI配备了一块高性能“外接硬盘”——借助视觉压缩机制,模型的有效上下文长度近乎无界,也预示着未来AI架构或将彻底消融“文本理解”与“图像理解”的传统边界。

该模型一经开源,迅速引发全球技术社区高度关注,相关讨论迅速登上GitHub Trending、Hugging Face热门榜单及多个中文科技平台热搜榜。有开发者实测反馈:“太惊艳了!刚用这个新开源模型把400页PDF转成Markdown,全程不到4分钟!”另有AI从业者感叹:“震撼!中国DeepSeek再次打破天花板——整本《百科全书》竟能浓缩为一张高清图像!” DeepSeek OCR绝非一次简单的OCR工具升级,而是对机器如何感知、组织与利用信息的一次底层范式革新。

以上就是DeepSeek新OCR系统震撼来袭!压缩率90%信息保真97%的详细内容,更多请关注其它相关文章!


相关文章: 处理动态列数据:J*a ArrayList的正确初始化与字符累加教程  PHP文件上传至S3:策略、考量与避免本地存储的挑战  在Qt QML中通过Python字典动态更新TextEdit内容的教程  中兴BladeV30怎样用测距估书架层高_iPhone中兴BladeV30测距估书架层高【家装参考】  利用5118提升短视频内容效果_5118短视频关键词优化方法  一加手机拍照效果不好怎么办 一加哈苏影像调校与专业模式使用教程【高手篇】  J*aScript中安全有效地处理localStorage字符串数据  文本文档写html代码怎么运行_文本文档html代码运行步骤【教程】  火锅吃太多会怎样 火锅吃太多会上火吗  汽水音乐车机版横屏版7.1 汽水音乐车机版横屏版下载入口  C++的std::mdspan是什么_C++23中用于操作多维数组的非拥有视图  Golang如何安装Swagger工具_GoSwagger文档生成环境  Node.js 中使用 node-cron 实现定时 API 数据抓取与处理  抓大鹅解压小游戏 抓大鹅摸鱼解压入口  单12V-2×6实现为RTX 5090供电750W!甚至都没敢跑分  如何在离线环境中使用Composer_Composer离线安装依赖包的技巧与策略  顺丰快递查单号物流信息 顺丰快递小程序查询入口  微信网页版登录教程_微信网页版登录入口在哪  荒野行动PC版怎么注册_荒野行动PC版账号注册详细流程图文教程  Bilibili动漫最新防封地址发布-Bilibili动漫2025年最稳正版入口推荐  使用Pandas转换并合并DataFrame:多列映射至统一结构  Yandex浏览器官方网页版入口 Yandex浏览器最新版官网  火狐浏览器占用内存高卡顿怎么办 火狐浏览器性能优化设置技巧  Golang并发任务中错误如何聚合_Golang goroutine error收集方式  age动漫网站入口 age动漫官网直接访问入口  Gmail邮箱申请注册直达_Gmail邮箱免费注册PC版官网入口2025  PHP字符串中复杂变量插值的最佳实践与语法解析  微信怎么把收藏的内容分类管理 微信收藏内容标签分类方法  动漫花园资源网使用步骤_动漫花园资源网下载流程  c++中的std::basic_string的SSO优化_c++短字符串优化深度解析  在PHP脚本中通过SSHFS挂载远程文件系统的最佳实践与常见问题解决  Log4j Console Appender性能瓶颈与高并发优化策略  Sublime Text怎么显示空格和制表符_Sublime显示不可见字符设置  CSS自定义字体样式被系统字体替换怎么办_font-face方式指定font-display控制渲染策略  Lar*el开发:如何在编辑界面正确预选数据库中的多选标签  yandex入口引擎手机版 yandex安卓版下载入口  PHP基于会话的用户类型页面访问控制指南  vivo云服务网页版登录 怎么登录vivo云服务网页版  Mac怎么查看崩溃日志_Mac控制台错误报告分析  抖音商城签到领现金是真的吗_抖音商城签到奖励与提现说明  php源码怎么看淘宝客系统_看php源码淘宝客系统技巧  163邮箱网页版入口导航平台 163邮箱网页版登录入口官网导航  深入理解Google Cloud Datastore查询:祖先路径与数据一致性  汽水音乐网页版使用入口_汽水音乐电脑版播放指南  QQ邮箱网页版入口 QQ邮箱官方邮箱登录通道  Android Studio计算器C键逻辑错误排查与修复:条件判断优化指南  Yandex官网免登录入口_俄罗斯Yandex搜索引擎一键访问  微信网页版官方入口直达 微信网页版网页版登录使用方法  mcjs网页版流畅运行 mcjs低配电脑畅玩入口  淘宝支付提示失败如何解决 淘宝支付流程优化方法 

在线客服
服务热线

服务热线

4008988990

微信咨询
二维码
返回顶部
×二维码

截屏,微信识别二维码

打开微信

微信号已复制,请打开微信添加咨询详情!