2026/2/12 21:33:34
网站建设
项目流程
登陆网站显示域名解析错误怎么办,钣金外包加工网,合肥软件开发网站建设,网站ip和pv的比例DeepSeek 刚刚开源了其 OCR 模型的迭代版本——DeepSeek-OCR 2。
与上一代产品相比#xff0c;DeepSeek-OCR 2 并非仅在参数规模或数据量上进行堆叠#xff0c;而是对视觉编码器的底层逻辑进行了重构。该研究由魏浩然、孙耀峰、李宇琨三位作者完成#xff0c;核心突破在于引…DeepSeek 刚刚开源了其 OCR 模型的迭代版本——DeepSeek-OCR 2。与上一代产品相比DeepSeek-OCR 2 并非仅在参数规模或数据量上进行堆叠而是对视觉编码器的底层逻辑进行了重构。该研究由魏浩然、孙耀峰、李宇琨三位作者完成核心突破在于引入了DeepEncoder V2将视觉信息的处理方式从传统的“固定栅格扫描”转变为“基于语义的因果推理”。以下是对该模型架构、核心机制及评估结果的某些技术层面的解析。1. 核心架构演进从固定扫描到因果流传统的视觉语言模型VLM通常采用光栅扫描顺序raster-scan order即从左上到右下机械地处理图像 Patch。这种方式在处理复杂排版如多栏文档、报表、公式混排时往往难以捕捉内容之间真实的逻辑关系。DeepSeek-OCR 2 延续了前代的 Encoder-Decoder 整体框架如图 3 所示但对 Encoder 进行了关键性的替换。模型保留了 3B 参数量的 Mixture-of-Experts (MoE) 解码器但在编码端DeepEncoder V2 放弃了前代基于 CLIP 的编码器方案转而采用了一个轻量级的语言模型Qwen2-500M作为视觉编码的主干。这一设计的核心逻辑在于构建一个两级级联的因果推理结构Two-cascaded 1D causal reasoning structure第一级Encoder通过可学习的查询Query对视觉 Token 进行语义层面的重排第二级Decoder基于重排后的有序序列执行自回归文本生成。2. DeepEncoder V2 的技术细节DeepEncoder V2 的设计是为了在视觉编码阶段引入因果推理能力。其工作流包含三个关键组件2.1 视觉分词器 (Vision Tokenizer)继承自 DeepEncoder该组件由一个 80M 参数的 SAM-base 和两层卷积层组成。它负责将图像离散化但在 V2 版本中最终输出维度被调整为 896以匹配后续架构。2.2 类 LLM 视觉编码器与双流注意力这是本次更新的核心。DeepSeek 将原有的 CLIP ViT 替换为 Qwen2-0.5B-base。在这个架构中视觉 Token 和新增的「因果流查询」Causal Flow Queries被拼接处理并应用了独特的双流注意力机制。为了控制信息流向DeepSeek 设计了专门的注意力掩码Attention Mask如图 5 所示该注意力掩码矩阵M MM的数学定义如下公式 1M [ 1 m × m 0 m × n 1 n × m LowerTri ( n ) ] , where n m M \begin{bmatrix} \mathbf{1}_{m \times m} \mathbf{0}_{m \times n} \\ \mathbf{1}_{n \times m} \text{LowerTri}(n) \end{bmatrix}, \quad \text{where } n mM[1m×m1n×m0m×nLowerTri(n)],wherenm左侧区域 (1 m × m \mathbf{1}_{m \times m}1m×m)原始视觉 Token 采用双向注意力Bidirectional保留了类似 ViT 的全局建模能力确保视觉特征的完整性。右侧区域 (LowerTri ( n ) \text{LowerTri}(n)LowerTri(n))因果流查询 Token 采用下三角掩码Causal/Triangular即每个 Query 只能关注其之前的 Query 和所有的视觉 Token。这种设计使得 Encoder 能够根据图像内容的语义逻辑动态地“重排”视觉信息而非受限于空间位置。最终只有经过语义重排的因果查询 Token 会被输入到解码器中。整个模型的前向传播过程可形式化为公式 2O D ( Π Q ( T L ( E ( I ) ⊕ Q 0 ; M ) ) ) O D \left( \Pi_Q \left( T_L (E(I) \oplus Q_0; M) \right) \right)OD(ΠQ(TL(E(I)⊕Q0;M)))其中E ( I ) E(I)E(I)为视觉分词输出Q 0 Q_0Q0为可学习查询T L T_LTL为 Encoder 的 Transformer 层M MM为上述掩码Π Q \Pi_QΠQ表示仅提取后n nn个查询 TokenD DD为最终的语言解码器。3. 数据效率与性能评估DeepSeek-OCR 2 在保持极高压缩率的同时实现了性能突破。模型仅需256 到 1120 个视觉 Token即可覆盖复杂的文档页面。这一区间下限对应 1024x1024 分辨率的 Global View上限对应 Gemini-3 Pro 的视觉 Token 预算极大地降低了下游 LLM 的计算开销。在OmniDocBench v1.5评测中DeepSeek-OCR 2 表现如下表 1综合得分达到 91.09%较基于 CLIP 的前代模型提升了 3.73%。阅读顺序R-order编辑距离Edit Distance, ED从 0.085 显著降至 0.057。R-order 指标的显著优化直接验证了 DeepEncoder V2 在视觉逻辑重排方面的有效性模型不再是死板的复印机而是具备了类似人类阅读的自然扫描逻辑。4. 生产环境表现与局限在实际应用场景中在线 OCR 服务与 PDF 数据清洗由于缺乏标准答案团队采用“重复率”Repetition Rate作为质量代理指标。数据显示DeepSeek-OCR 2 将在线用户日志图像的重复率从 6.25% 降低到了 4.17%证明了其在长文本和复杂版面下的稳定性。改进空间尽管整体性能优异但在报纸类Newspaper文档上DeepSeek-OCR 2 的文本识别编辑距离仍超过 0.13。团队分析认为这是由于视觉 Token 上限1120对于极高密度的报纸文本仍显不足且训练数据中报纸类样本相对匮乏仅约 25万条所致。5. 总结DeepSeek-OCR 2 的发布标志着视觉编码从单纯的“特征提取”向“语义推理”的转变。通过将 LLM 架构引入 Vision Encoder 并结合因果注意力机制DeepSeek 探索出了一条在二维空间结构与一维因果语言建模之间搭建桥梁的技术路径。这不仅优化了 OCR 任务也为未来构建处理音频、视频等全模态Omni-modal数据的统一编码器提供了验证。项目地址https://github.com/deepseek-ai/DeepSeek-OCR-2论文全文https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf模型权重https://huggingface.co/deepseek-ai/DeepSeek-OCR-2