滾動(dòng)資訊

當(dāng)前位置：首頁(yè) > 資訊 > 業(yè)界動(dòng)態(tài) > 正文內(nèi)容

DeepSeek最新王炸模型：VLM架構(gòu)重磅突破，AI像人一樣讀圖

時(shí)間：2026-01-27 22:33:02 來(lái)源：智東西編輯：快訊 IP：北京 發(fā)表評(píng)論無(wú)障礙通道

頭圖由AI生成

這一框架可用于集成額外文本、語(yǔ)音和視覺(jué)等多種模態(tài)。

作者 | 陳駿達(dá)

編輯 | 云鵬

智東西1月27日?qǐng)?bào)道，剛剛，DeepSeek開(kāi)源了其面向OCR場(chǎng)景的專(zhuān)用模型DeepSeek-OCR 2，技術(shù)報(bào)告同步發(fā)布。這一模型是對(duì)去年DeepSeek-OCR模型的升級(jí)，其采用的新型解碼器讓模型看圖、讀文件的順序更像人，而不是像機(jī)械的掃描儀。

簡(jiǎn)單來(lái)說(shuō)，以前的模型閱讀模式是從左上到右下，地毯式掃一遍圖片，DeepSeek-OCR 2則能夠理解結(jié)構(gòu)，按結(jié)構(gòu)一步步讀。這種新的視覺(jué)理解模式，讓DeepSeek-OCR 2可以更好地理解復(fù)雜的布局順序、公式和表格。

在文檔理解基準(zhǔn)測(cè)試OmniDocBench v1.5上，DeepSeek-OCR 2拿到了91.09%的得分，在訓(xùn)練數(shù)據(jù)和編碼器都不變的前提下，較DeepSeek-OCR提升了3.73%。與其他端到端的OCR模型相比，這已經(jīng)是SOTA成績(jī)，但其表現(xiàn)要略遜于百度的PaddleOCR-VL（92.86%）OCR管線(xiàn)。

同時(shí)，在相似的視覺(jué)token預(yù)算下，DeepSeek-OCR 2在文檔解析方面的編輯距離（編輯為正確文本所需的工作量）低于Gemini-3 Pro，這證明DeepSeek-OCR 2在確保優(yōu)越性能的同時(shí)保持了視覺(jué)token的高壓縮率。

DeepSeek-OCR 2兼具雙重價(jià)值：既可作為新型VLM（視覺(jué)語(yǔ)言模型）架構(gòu)進(jìn)行探索性研究，也能作為生成高質(zhì)量預(yù)訓(xùn)練數(shù)據(jù)的實(shí)用工具，服務(wù)于大語(yǔ)言模型的訓(xùn)練過(guò)程。

論文鏈接：

https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf

開(kāi)源地址：

https://github.com/deepseek-ai/DeepSeek-OCR-2?tab=readme-ov-file

01.

大模型不懂復(fù)雜文件結(jié)構(gòu)？

先觀察全局再閱讀便可解決

從架構(gòu)上來(lái)看，DeepSeek-OCR 2繼承了DeepSeek-OCR的整體架構(gòu)，該架構(gòu)由編碼器和解碼器組成。編碼器將圖像離散化為視覺(jué)token，而解碼器根據(jù)這些視覺(jué)token和文本提示生成輸出。

關(guān)鍵區(qū)別在于編碼器：DeepSeek將此前的DeepEncoder升級(jí)為DeepEncoder V2，它保留了原有的所有能力，但把原本基于CLIP的編碼器換成基于LLM的，同時(shí)通過(guò)新的架構(gòu)設(shè)計(jì)引入了因果推理。

DeepEncoder V2關(guān)注的核心問(wèn)題在于：當(dāng)二維結(jié)構(gòu)被映射為一維序列并綁定線(xiàn)性順序后，模型在建模空間關(guān)系時(shí)不可避免地受到該順序的影響。

這在自然圖像中可能尚可接受，但在OCR、表格、表單等具有復(fù)雜布局的場(chǎng)景中，線(xiàn)性順序往往與真實(shí)的語(yǔ)義組織方式嚴(yán)重不匹配，從而限制模型對(duì)視覺(jué)結(jié)構(gòu)的表達(dá)能力。

DeepEncoder V2是如何緩解這一問(wèn)題的？它首先采用視覺(jué)tokenizer對(duì)圖像進(jìn)行高效表示，通過(guò)窗口注意力實(shí)現(xiàn)約16倍的token壓縮，在顯著降低后續(xù)全局注意力計(jì)算與顯存開(kāi)銷(xiāo)的同時(shí)，保持了充分的局部與中尺度視覺(jué)信息。

它并未依賴(lài)位置編碼來(lái)規(guī)定視覺(jué)token的語(yǔ)義順序，而是引入因果流查詢(xún)（causal queries），通過(guò)內(nèi)容感知的方式對(duì)視覺(jué)標(biāo)記進(jìn)行重排序與蒸餾。這種順序不是由空間展開(kāi)規(guī)則決定，而是由模型在觀察全局視覺(jué)上下文后逐步生成，從而避免了對(duì)固定一維順序的強(qiáng)依賴(lài)。

每個(gè)因果查詢(xún)可以關(guān)注所有視覺(jué)token及先前查詢(xún)，從而在保持token數(shù)量不變的前提下，對(duì)視覺(jué)特征進(jìn)行語(yǔ)義重排序與信息蒸餾。最終，僅因果查詢(xún)的輸出被送入下游LLM解碼器。

該設(shè)計(jì)本質(zhì)上形成了兩級(jí)級(jí)聯(lián)的因果推理過(guò)程：首先，編碼器內(nèi)部通過(guò)因果查詢(xún)對(duì)無(wú)序的視覺(jué)標(biāo)記進(jìn)行語(yǔ)義排序。隨后，LLM解碼器在此有序序列上執(zhí)行自回歸推理。

相較于通過(guò)位置編碼強(qiáng)制施加空間順序的做法，因果查詢(xún)所誘導(dǎo)的順序更貼合視覺(jué)語(yǔ)義本身，也就是符合人類(lèi)閱讀內(nèi)容的正常習(xí)慣。

由于DeepSeek-OCR 2主要關(guān)注編碼器改進(jìn)，沒(méi)有對(duì)解碼器組件進(jìn)行升級(jí)。遵循這一設(shè)計(jì)原則，DeepSeek保留了DeepSeek-OCR的解碼器：一個(gè)具有約5億活躍參數(shù)的3B參數(shù)MoE結(jié)構(gòu)。

02.

OmniDocBench得分達(dá)91.09%

編輯距離低于Gemini-3 Pro

為了驗(yàn)證上述設(shè)計(jì)的有效性，DeepSeek進(jìn)行了實(shí)驗(yàn)。研究團(tuán)隊(duì)分三個(gè)階段訓(xùn)練DeepSeek-OCR 2：編碼器預(yù)訓(xùn)練、查詢(xún)?cè)鰪?qiáng)和解碼器專(zhuān)業(yè)化。

第一階段使視覺(jué)tokenizer和LLM風(fēng)格的編碼器獲得特征提取、token壓縮和token重排序的基本能力。第二階段進(jìn)一步增強(qiáng)了編碼器的token重排序能力，同時(shí)增強(qiáng)了視覺(jué)知識(shí)壓縮。第三階段凍結(jié)編碼器參數(shù)，僅優(yōu)化解碼器，從而在相同的FLOPs下實(shí)現(xiàn)更高的數(shù)據(jù)吞吐量。

為評(píng)估模型效果，DeepSeek選擇OmniDocBench v1.5作為主要的評(píng)估基準(zhǔn)。該基準(zhǔn)包含1355個(gè)文檔頁(yè)面，涵蓋中英文的9個(gè)主要類(lèi)別（包括雜志、學(xué)術(shù)論文、研究報(bào)告等）。

DeepSeek-OCR 2在僅使用最小的視覺(jué)標(biāo)記上限（V-token maxmax）的情況下，達(dá)到了91.09%的性能。與DeepSeek-OCR基線(xiàn)相比，在相似的訓(xùn)練數(shù)據(jù)源下，它表現(xiàn)出3.73%的改進(jìn)，驗(yàn)證了新架構(gòu)的有效性。

除了整體改進(jìn)外，閱讀順序（R-order）的編輯距離（ED）也顯著下降（從0.085降至0.057），這表明新的DeepEncoder V2可以根據(jù)圖像信息有效地選擇和排列初始視覺(jué)標(biāo)記。

在相似的視覺(jué)標(biāo)記預(yù)算（1120）下，DeepSeek-OCR 2（0.100）在文檔解析方面的編輯距離低于Gemini-3 Pro（0.115），進(jìn)一步證明新模型在確保性能的同時(shí)保持了視覺(jué)標(biāo)記的高壓縮率。

不過(guò)，DeepSeek-OCR 2也不是全能的。在文本密度超高的報(bào)紙上，DeepSeek-OCR 2識(shí)別效果沒(méi)有其他類(lèi)型的文本好。這一問(wèn)題后續(xù)可以通過(guò)增加局部裁剪數(shù)量來(lái)解決，或者在訓(xùn)練過(guò)程中提供更多的樣本。

03.

結(jié)語(yǔ)：或成新型VLM架構(gòu)開(kāi)端

DeepEncoder V2為L(zhǎng)LM風(fēng)格編碼器在視覺(jué)任務(wù)上的可行性提供了初步驗(yàn)證。更重要的是，DeepSeek的研究團(tuán)隊(duì)認(rèn)為，該架構(gòu)具有演變?yōu)榻y(tǒng)一全模態(tài)編碼器的潛力。這樣的編碼器可以在同一參數(shù)空間內(nèi)壓縮文本、提取語(yǔ)音特征和重組視覺(jué)內(nèi)容。

DeepSeek稱(chēng)，DeepSeek-OCR的光學(xué)壓縮代表了向原生多模態(tài)的初步探索，未來(lái)，他們還將繼續(xù)探索通過(guò)這種共享編碼器框架集成額外模態(tài)，成為研究探索的新型VLM架構(gòu)的開(kāi)端。

更多>同類(lèi)資訊

馬斯克：SpaceX星艦V3版將在六周后發(fā)射

01-27

留幾手吐槽影視颶風(fēng)：砸錢(qián)霸屏小紅書(shū) 違背自媒體初心

01-27

理想員工吐槽李想全員會(huì)不講車(chē)講AI

01-27

小米YU7獲2025微博年度純電車(chē)型，雷軍：感謝認(rèn)可

01-27

3D版Nano Banana來(lái)了！AI修模成為現(xiàn)實(shí)，3D生成進(jìn)入可編輯時(shí)代

01-27

月之暗面發(fā)布開(kāi)源模型Kimi K2.5

01-27

千問(wèn)PC和網(wǎng)頁(yè)端上線(xiàn)國(guó)內(nèi)最強(qiáng)推理模型，主動(dòng)性更強(qiáng)、擅長(zhǎng)邏輯推理

01-27

Meta啟動(dòng)社交平臺(tái)付費(fèi)測(cè)試，AI能力成訂閱核心賣(mài)點(diǎn)

01-27

快手年終獎(jiǎng)方案曝光：1月30日就發(fā)，激勵(lì)總包上漲，績(jī)優(yōu)再次加碼

01-27

聽(tīng)花島的內(nèi)核：一個(gè)「學(xué)習(xí)型組織」如何持續(xù)拉高短劇天花板

01-27

永輝“胖改”交出慘淡成績(jī)單：虧損關(guān)店不斷，葉國(guó)富豪賭卻浮盈60億

一面是“大而?！钡睦Ь常何羧瞻灾饔垒x超市，在轟轟烈烈的學(xué)習(xí)胖東來(lái)（“胖改”）中，交出了虧損超21億元、關(guān)店381家的成績(jī)單，資產(chǎn)負(fù)債率逼近90%，陷入連續(xù)第五年虧損。換言之，永輝超市2025年由于胖改而產(chǎn)…

01-27

阿里健康醫(yī)學(xué)AI應(yīng)用“氫離子”上線(xiàn)新功能，支持全球醫(yī)學(xué)文獻(xiàn)日更追蹤

01-27

ChatGPT 廣告時(shí)代開(kāi)啟：千次展示 60 美元，主打“高轉(zhuǎn)化”與“強(qiáng)隱私”

01-27

百度文心APP開(kāi)啟行業(yè)首個(gè)“多人多Agent”群聊內(nèi)測(cè)

01-27

破解高退貨率難題：微盟推出“AI試衣”助力零售電商智能化升級(jí)

01-27

點(diǎn)擊查看更多 +

全站最新

永輝“胖改”交出慘淡成績(jī)單：虧損關(guān)店不斷，葉國(guó)富豪賭卻浮盈60億

卡車(chē)也會(huì)"智慧運(yùn)算"？中國(guó)重汽智能輔助駕駛，給出干線(xiàn)物流增效最優(yōu)解

同程旅行："史上最長(zhǎng)春節(jié)"催熱長(zhǎng)線(xiàn)出境游，沙特、阿曼、新西蘭、澳大利亞等長(zhǎng)線(xiàn)目的地?zé)岫忍嵘@著

江蘇寧滬高速公路(00177.HK)獲云杉資本增持827.4萬(wàn)股

金力永磁(06680.HK)遭Allianz SE減持77.26萬(wàn)股

日清食品(01475.HK)獲首席執(zhí)行官兼執(zhí)行董事安藤清隆增持23.4萬(wàn)股

熱門(mén)內(nèi)容

本欄最新

鴻蒙智行尚界Z7預(yù)告出爐，國(guó)產(chǎn)高端轎跑新勢(shì)力能否超越小米SU7？

《2025汽車(chē)保值率報(bào)告出爐：小米SU7純電動(dòng)車(chē)領(lǐng)域奪冠，雷軍致謝用戶(hù)》

《2025汽車(chē)保值率報(bào)告》發(fā)布小米SU7首登年度榜即成純電動(dòng)車(chē)一年保值率冠軍

百度智能云定調(diào)2026：AI收入增速目標(biāo)翻番至200%，全力沖刺AI云市場(chǎng)榜首

數(shù)字產(chǎn)品制造業(yè)：以超20%貢獻(xiàn)率，驅(qū)動(dòng)中國(guó)經(jīng)濟(jì)向新攀高穩(wěn)進(jìn)前行

Kimi K2.5模型開(kāi)源上線(xiàn)：多模態(tài)升級(jí)，視覺(jué)代碼能力提升，Agent集群機(jī)制革新

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護(hù)，版權(quán)登記號(hào)：魯作登字-2015-F-025467，未經(jīng)ITBEAR官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類(lèi)資訊內(nèi)容，無(wú)障礙技術(shù)由太陽(yáng)灣捐增，為閱讀障礙用戶(hù)提供內(nèi)容聽(tīng)讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請(qǐng)通知我們及時(shí)刪除。
中國(guó)（山東）自由貿(mào)易試驗(yàn)區(qū) 魯ICP備11015305號(hào)-1 聯(lián)系入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

DeepSeek最新王炸模型：VLM架構(gòu)重磅突破，AI像人一樣讀圖

DeepSeek最新王炸模型：VLM架構(gòu)重磅突破，AI像人一樣讀圖