近日,人工智能領域迎來一項重要突破,DeepSeek團隊在OCR(光學字符識別)技術上取得顯著進展。該團隊正式發布名為《DeepSeek-OCR 2: Visual Causal Flow》的學術論文,并同步開源其最新研發的DeepSeek-OCR 2模型,為圖像理解領域注入新的技術活力。
這款新型模型的核心創新在于引入了DeepEncoder V2架構。與傳統OCR技術按固定順序處理圖像信息不同,該架構能夠模擬人類視覺認知模式,通過分析圖像內容之間的邏輯關聯,動態調整圖像各部分的編碼順序。這種處理方式使AI系統在識別復雜場景時,能夠更精準地把握圖像中不同元素的主次關系和空間層次。
技術團隊介紹,DeepEncoder V2通過構建視覺因果流網絡,實現了對圖像信息的自適應重組。在處理包含多元素、多層次結構的圖像時,系統會先識別關鍵信息節點,再根據語義關聯性確定處理優先級,最終生成更符合人類認知習慣的編碼序列。這種機制顯著提升了模型在復雜場景下的識別準確率和處理效率。
目前,該模型已在文檔分析、工業檢測、醫療影像等多個領域展開測試。初步應用結果顯示,在處理排版復雜的文檔或遮擋嚴重的工業零件圖像時,新模型的識別準確率較前代產品提升約23%,處理速度提高15%。研究團隊表示,將持續優化模型架構,探索其在自動駕駛、機器人視覺等更廣泛場景中的應用潛力。











