DeepSeek團隊近日宣布開源新一代文字識別模型DeepSeek-OCR 2,并同步發布技術論文《DeepSeek-OCR 2: Visual Causal Flow》。該模型通過引入動態視覺處理機制,在復雜文檔解析任務中展現出顯著優勢,尤其在中文場景下實現了關鍵技術突破。
傳統視覺語言模型采用固定柵格順序處理圖像,將畫面切割為視覺token后按從左到右、從上到下的路徑輸入神經網絡。這種處理方式雖實現簡單,卻與人類閱讀習慣存在本質差異——人類在解讀文檔時,會基于語義關聯和邏輯關系進行跳躍式信息捕捉,而非機械遵循空間坐標。DeepSeek團隊通過重構編碼器架構,使模型能夠自主分析視覺元素的因果關系,構建符合認知規律的動態處理路徑。
新型DeepEncoder V2編碼器是該模型的核心創新。該結構通過引入注意力機制,使模型在識別文字前先對視覺內容進行語義排序。例如在解析數學公式時,模型會優先定位主運算符,再按運算優先級處理相關數字和符號;處理表格時則能自動識別表頭與數據行的對應關系。這種處理方式突破了傳統模型對空間坐標的依賴,在版式復雜的文檔場景中表現尤為突出。
在OmniDocBench v1.5基準測試中,研究團隊設置了嚴苛的對比條件:將視覺token數量上限降低15%的情況下,新模型仍取得91.09%的綜合得分,較前代提升3.73個百分點。具體到關鍵指標,閱讀順序準確度(編輯距離)從0.085優化至0.057,意味著模型對文檔結構的理解更接近人類認知模式。測試樣本覆蓋學術論文、財務報表、法律文書等12類中英文文檔,充分驗證了模型的泛化能力。
技術文檔顯示,動態路徑規劃機制通過三階段實現:首先利用輕量化網絡提取視覺特征,再通過圖神經網絡構建元素關聯圖譜,最后采用強化學習算法優化處理順序。這種分層設計使模型在保持高效的同時,具備處理超長文檔的能力。開發團隊特別強調,中文文檔的復雜版式對模型提出更高要求,新架構通過引入筆畫順序先驗知識,顯著提升了漢字識別準確率。
目前,DeepSeek-OCR 2的源代碼和預訓練權重已向學術界和產業界開放。開發者可通過GitHub獲取完整工具包,支持快速部署于文檔數字化、智能辦公、金融風控等場景。測試數據顯示,在同等硬件條件下,新模型處理速度較前代提升22%,內存占用減少18%,為移動端部署創造了可能。









