人工智能領域迎來重要突破,DeepSeek團隊正式開源新一代OCR模型DeepSeek-OCR2。該模型通過引入革命性的DeepEncoder V2視覺編碼架構,實現了從傳統固定掃描模式向語義驅動的因果推理范式的轉變,在文檔解析任務中展現出接近人類閱讀邏輯的處理能力。
傳統視覺語言模型普遍采用光柵掃描方式處理圖像,這種將二維圖像強制轉換為一維序列的方法,導致模型難以捕捉圖像中的語義結構。DeepSeek-OCR2通過構建具備因果推理能力的視覺編碼器,使模型能夠根據內容邏輯動態調整處理順序。實驗數據顯示,新模型在OmniDocBench基準測試中取得91.09%的綜合得分,較前代提升3.73%,同時在閱讀順序編輯距離指標上從0.085優化至0.057,證明其處理復雜版面的邏輯性顯著增強。
DeepEncoder V2架構的創新性體現在雙模塊協同設計:視覺分詞器沿用SAM-base架構配合卷積層,將圖像轉化為視覺標記;作為核心的Qwen2-0.5B語言模型則引入可學習的查詢標記。通過獨特的注意力掩碼機制,視覺標記間保持雙向注意力以維持全局感知,查詢標記間采用因果注意力確保處理順序的合理性。這種設計使模型在編碼階段即完成信息重組,為后續解碼器提供結構化的語義序列。
在資源效率方面,新模型展現出顯著優勢。測試表明,使用256-1120個視覺標記時,DeepSeek-OCR2在保持高壓縮率的同時,文檔解析編輯距離達到0.100,優于Gemini-3 Pro的0.115。實際生產環境測試顯示,該模型使在線用戶日志圖像的OCR結果重復率從6.25%降至4.17%,PDF數據處理重復率從3.69%降至2.88%,為大規模數據清洗提供了更精準的工具。
技術團隊強調,DeepEncoder V2驗證了語言模型作為視覺編碼器的可行性。這種架構設計為多模態統一處理開辟了新路徑——通過更換不同模態的查詢嵌入,同一編碼器即可處理文本、圖像、音頻等多種數據類型。研究指出,當前光學字符識別仍是大模型時代最具實用價值的視覺任務,但這項突破為構建原生多模態智能系統奠定了重要基礎。











