滾動資訊

當前位置：首頁 > 資訊 > 業界動態 > 正文內容

DeepSeek-OCR 2模型升級：新型解碼器讓AI讀圖更像人類，性能再突破

時間：2026-01-28 03:09:35 來源：互聯網編輯：快訊 IP：北京 發表評論無障礙通道

DeepSeek近日發布了面向OCR場景的專用模型DeepSeek-OCR 2，并同步公開了技術報告。這一模型在原有基礎上進行了升級，通過引入新型解碼器，使模型在處理圖像和文件時更接近人類閱讀習慣，而非傳統機械掃描方式。

傳統OCR模型通常采用從左上到右下的地毯式掃描模式，而DeepSeek-OCR 2則能夠理解文檔結構，按照邏輯順序逐步解析內容。這種改進使其在處理復雜布局、公式和表格時表現更佳。在文檔理解基準測試OmniDocBench v1.5中，該模型取得了91.09%的得分，較前代提升3.73%，在端到端OCR模型中達到領先水平，但仍略低于百度的PaddleOCR-VL管線。

在視覺token效率方面，DeepSeek-OCR 2在相似預算下，文檔解析的編輯距離低于Gemini-3 Pro，證明其在保持高性能的同時實現了更高的視覺信息壓縮率。該模型不僅可作為新型視覺語言模型（VLM）架構的研究工具，還能生成高質量預訓練數據，支持大語言模型訓練。

從技術架構看，DeepSeek-OCR 2延續了編碼器-解碼器結構，但將編碼器從DeepEncoder升級為DeepEncoder V2。新編碼器采用基于大語言模型（LLM）的設計，通過因果流查詢機制實現視覺標記的語義重排序。這一過程不依賴固定位置編碼，而是讓模型根據全局視覺上下文動態生成順序，更符合人類認知習慣。

DeepEncoder V2通過視覺tokenizer實現約16倍的token壓縮，在降低計算資源消耗的同時保留關鍵視覺信息。其核心創新在于因果查詢機制：每個查詢可訪問所有視覺標記及先前查詢結果，在保持token數量不變的前提下完成語義排序和信息蒸餾。最終僅有序查詢結果被輸入解碼器，形成編碼器與解碼器的兩級因果推理流程。

模型訓練分為三個階段：編碼器預訓練、查詢增強和解碼器專業化。預訓練階段使編碼器掌握特征提取和token重排序能力；查詢增強階段進一步提升重排序精度和視覺知識壓縮效率；解碼器專業化階段通過凍結編碼器參數優化解碼效率。實驗采用OmniDocBench v1.5基準，包含1355個中英文文檔頁面，覆蓋雜志、學術論文等9個類別。

測試結果顯示，DeepSeek-OCR 2在最小視覺標記上限設置下達到91.09%的準確率，閱讀順序編輯距離從0.085降至0.057。在1120個視覺標記預算下，其文檔解析編輯距離（0.100）優于Gemini-3 Pro（0.115）。不過，該模型在處理高密度報紙文本時表現稍遜，可通過增加局部裁剪或擴充訓練樣本改善。

DeepSeek-OCR 2的架構設計為多模態編碼器發展提供了新思路。研究團隊認為，這種基于LLM的編碼器有望演變為統一處理文本、語音和視覺內容的全模態編碼器，通過共享參數空間實現不同模態信息的有效壓縮與重組。此次發布標志著原生多模態探索的重要進展，為后續VLM架構研究奠定了基礎。

更多>同類資訊

網紅“留幾手”質疑影視颶風：買流量霸屏，極限挑戰內容價值幾何？

01-28

大疆Osmo Pocket 4云臺相機來襲！標準版1月29日發布，Pro版二季度登場

操控方面采用2英寸可旋轉 OLED 觸控屏，新增專用變焦按鈕和可自定義“C”按鈕。 Pro 版將采用更專業的雙攝系統，配備廣角鏡頭和 2-4 倍長焦鏡頭，支持光學變焦和可變光圈（f1.7-f/2.8），并應用…

01-28

國產GPU新勢力崛起！天數智芯發布四代架構規劃，2027年劍指英偉達Rubin

快科技1月26日消息，今天，中國又一家GPU公司宣布，旗下產品預期于2027年超越英偉達Rubin架構。今天，天數智芯公布四代芯片架構路線圖，預期于2027年超越英偉達Rubin架構。具體來說，2025年…

01-28

OPPO加速國產供應鏈布局：京東方天馬屏幕齊上陣，影像傳感器也跟進

已知旗艦機型將搭載OV52A，規格為2億像素、1/1.28英寸，同時多光譜傳感器也在豪威立項開發中，甚至2027年的新旗艦亦有望看到OV的身影。天馬、京東方在高端LTPO與窄邊直屏上的參與，疊加國產Senso…

01-28

蘋果Siri“牽手”谷歌Gemini，或于二月亮相開啟AI新對話體驗

長期以來，人們一直預期Siri將進行一次基于Gemini、類似聊天機器人的改造。現在，這一轉變似乎有望在今年實現，可能會與秋季發布的iOS 27同時推出。古爾曼報告稱，一些基于Gemini的功能可能會更早出…

01-28

小米新動向：母系大屏機配置曝光或為小米17 Max二季度登場

IT之家 1 月 27 日消息，博主 @數碼閑聊站今天在微博透露，某廠的母系大屏機將搭載 2 億像素 1/1.4 英寸三星 HPx 主攝。博主表示，這臺手機將搭載 5000 萬像素 1/1.95 英寸索尼…

01-28

iPhone Air降價超30%成“真香機”，銷量逆襲但部分訂單2月才發貨

此次降價直接刷新了新發布iPhone機型的降價紀錄，背后核心原因是iPhone Air上市后銷量疲軟。國際數據機構IDC數據顯示，該機型上市幾周后銷量僅達蘋果最高預期的約三分之一，蘋果隨后將其生產計劃削減了一…

01-28

阿里發布Qwen3-Max-Thinking，千問多端接入開啟智能推理新體驗

千問切換至這一模型后，不僅更主動、更智能，還能進行深度邏輯推演與自我校驗：更強的事實記憶與世界知識：無論是冷門科學、歷史典故還是文化問題，都能提供更準確、權威的回答，同時顯著提升上下文連貫性，更好記住用戶…

01-28

酷睿Ultra X9 388H評測：16核性能怪獸登場核顯比肩RTX 3050 續航碾壓競品

另外Intel GPU在DirectX 11下的表現稍微不如DX12，上表中的《孤島驚魂5》和《巫師3》都是DX11游戲，ArcB390與RTX 3050的差距都在20%以上，即便如此，Arc B390的…

01-28

泡泡瑪特王寧：夢幻2025年里，于焦慮中堅守克制，逐夢世界舞臺

01-28

銀河通用官宣上2026春晚，天奇股份漲停，具身機器人賽道再掀波瀾

01-28

HBN赴港遞表：從“早C晚A”出圈到高復購率，國貨護膚新勢力崛起

01-28

春晚舞臺上的科技狂歡：魔法原子如何讓機器人“破圈”又“落地”？

讓機器人先當“斜杠青年”在大多數廠商還在糾結“機器人該進工廠還是商場”時，魔法原子給出了終極答案：全都要！魔法原子顯然深諳此道——2026年春晚他們不僅讓機器人表演“機械舞版《難忘今宵》”，還安排小麥用靈巧手…

01-28

智能浪潮下消費行業如何蝶變？45年實戰圖鑒解鎖創新密碼

01-28

創源股份深耕祈福文創：多元IP賦能內銷，獲機構“買入”評級看好未來

01-28

點擊查看更多 +

全站最新

春晚舞臺上的科技狂歡：魔法原子如何讓機器人“破圈”又“落地”？

螞蟻靈波科技開源LingBot-Depth模型，為機器人三維視覺帶來新突破

全家攜手飛書構建數字新基建，以數智協同賦能零售行業高效發展

小米YU7斬獲2025微博年度純電車型殊榮，雷軍致謝并分享亮眼交付成績

卡車也會"智慧運算"？中國重汽智能輔助駕駛，給出干線物流增效最優解

同程旅行："史上最長春節"催熱長線出境游，沙特、阿曼、新西蘭、澳大利亞等長線目的地熱度提升顯著

熱門內容

本欄最新

春晚舞臺上的科技狂歡：魔法原子如何讓機器人“破圈”又“落地”？

小米YU7斬獲2025微博年度純電車型殊榮，雷軍致謝并分享亮眼交付成績

《2025汽車保值率報告》揭曉小米SU7首登純電動車一年保值率榜首

《2025汽車保值率報告》出爐，小米SU7純電動車領域奪冠，雷軍致謝用戶

《2025汽車保值率報告》出爐！小米SU7登頂純電動榜首，雷軍發文致謝用戶

小米YU7斬獲2025微博年度純電車型殊榮，雷軍發文致謝認可與支持

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

DeepSeek-OCR 2模型升級：新型解碼器讓AI讀圖更像人類，性能再突破