岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

ITBear旗下自媒體矩陣:

DeepSeek最新王炸模型:VLM架構(gòu)重磅突破,AI像人一樣讀圖

   時(shí)間:2026-01-27 22:33:02 來(lái)源:智東西編輯:快訊 IP:北京 發(fā)表評(píng)論無(wú)障礙通道
 

頭圖由AI生成

這一框架可用于集成額外文本、語(yǔ)音和視覺(jué)等多種模態(tài)。

作者 | 陳駿達(dá)

編輯 | 云鵬

智東西1月27日?qǐng)?bào)道,剛剛,DeepSeek開(kāi)源了其面向OCR場(chǎng)景的專(zhuān)用模型DeepSeek-OCR 2,技術(shù)報(bào)告同步發(fā)布。這一模型是對(duì)去年DeepSeek-OCR模型的升級(jí),其采用的新型解碼器讓模型看圖、讀文件的順序更像人,而不是像機(jī)械的掃描儀。

簡(jiǎn)單來(lái)說(shuō),以前的模型閱讀模式是從左上到右下,地毯式掃一遍圖片,DeepSeek-OCR 2則能夠理解結(jié)構(gòu),按結(jié)構(gòu)一步步讀。這種新的視覺(jué)理解模式,讓DeepSeek-OCR 2可以更好地理解復(fù)雜的布局順序、公式和表格。

在文檔理解基準(zhǔn)測(cè)試OmniDocBench v1.5上,DeepSeek-OCR 2拿到了91.09%的得分,在訓(xùn)練數(shù)據(jù)和編碼器都不變的前提下,較DeepSeek-OCR提升了3.73%。與其他端到端的OCR模型相比,這已經(jīng)是SOTA成績(jī),但其表現(xiàn)要略遜于百度的PaddleOCR-VL(92.86%)OCR管線(xiàn)。

同時(shí),在相似的視覺(jué)token預(yù)算下,DeepSeek-OCR 2在文檔解析方面的編輯距離(編輯為正確文本所需的工作量)低于Gemini-3 Pro,這證明DeepSeek-OCR 2在確保優(yōu)越性能的同時(shí)保持了視覺(jué)token的高壓縮率。

DeepSeek-OCR 2兼具雙重價(jià)值:既可作為新型VLM(視覺(jué)語(yǔ)言模型)架構(gòu)進(jìn)行探索性研究,也能作為生成高質(zhì)量預(yù)訓(xùn)練數(shù)據(jù)的實(shí)用工具,服務(wù)于大語(yǔ)言模型的訓(xùn)練過(guò)程。

論文鏈接:

https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf

開(kāi)源地址:

https://github.com/deepseek-ai/DeepSeek-OCR-2?tab=readme-ov-file

01.

大模型不懂復(fù)雜文件結(jié)構(gòu)?

先觀察全局再閱讀便可解決

從架構(gòu)上來(lái)看,DeepSeek-OCR 2繼承了DeepSeek-OCR的整體架構(gòu),該架構(gòu)由編碼器和解碼器組成。編碼器將圖像離散化為視覺(jué)token,而解碼器根據(jù)這些視覺(jué)token和文本提示生成輸出。

關(guān)鍵區(qū)別在于編碼器:DeepSeek將此前的DeepEncoder升級(jí)為DeepEncoder V2,它保留了原有的所有能力,但把原本基于CLIP的編碼器換成基于LLM的,同時(shí)通過(guò)新的架構(gòu)設(shè)計(jì)引入了因果推理。

DeepEncoder V2關(guān)注的核心問(wèn)題在于:當(dāng)二維結(jié)構(gòu)被映射為一維序列并綁定線(xiàn)性順序后,模型在建模空間關(guān)系時(shí)不可避免地受到該順序的影響。

這在自然圖像中可能尚可接受,但在OCR、表格、表單等具有復(fù)雜布局的場(chǎng)景中,線(xiàn)性順序往往與真實(shí)的語(yǔ)義組織方式嚴(yán)重不匹配,從而限制模型對(duì)視覺(jué)結(jié)構(gòu)的表達(dá)能力。

DeepEncoder V2是如何緩解這一問(wèn)題的?它首先采用視覺(jué)tokenizer對(duì)圖像進(jìn)行高效表示,通過(guò)窗口注意力實(shí)現(xiàn)約16倍的token壓縮,在顯著降低后續(xù)全局注意力計(jì)算與顯存開(kāi)銷(xiāo)的同時(shí),保持了充分的局部與中尺度視覺(jué)信息。

它并未依賴(lài)位置編碼來(lái)規(guī)定視覺(jué)token的語(yǔ)義順序,而是引入因果流查詢(xún)(causal queries),通過(guò)內(nèi)容感知的方式對(duì)視覺(jué)標(biāo)記進(jìn)行重排序與蒸餾。這種順序不是由空間展開(kāi)規(guī)則決定,而是由模型在觀察全局視覺(jué)上下文后逐步生成,從而避免了對(duì)固定一維順序的強(qiáng)依賴(lài)。

每個(gè)因果查詢(xún)可以關(guān)注所有視覺(jué)token及先前查詢(xún),從而在保持token數(shù)量不變的前提下,對(duì)視覺(jué)特征進(jìn)行語(yǔ)義重排序與信息蒸餾。最終,僅因果查詢(xún)的輸出被送入下游LLM解碼器。

該設(shè)計(jì)本質(zhì)上形成了兩級(jí)級(jí)聯(lián)的因果推理過(guò)程:首先,編碼器內(nèi)部通過(guò)因果查詢(xún)對(duì)無(wú)序的視覺(jué)標(biāo)記進(jìn)行語(yǔ)義排序。隨后,LLM解碼器在此有序序列上執(zhí)行自回歸推理。

相較于通過(guò)位置編碼強(qiáng)制施加空間順序的做法,因果查詢(xún)所誘導(dǎo)的順序更貼合視覺(jué)語(yǔ)義本身,也就是符合人類(lèi)閱讀內(nèi)容的正常習(xí)慣。

由于DeepSeek-OCR 2主要關(guān)注編碼器改進(jìn),沒(méi)有對(duì)解碼器組件進(jìn)行升級(jí)。遵循這一設(shè)計(jì)原則,DeepSeek保留了DeepSeek-OCR的解碼器:一個(gè)具有約5億活躍參數(shù)的3B參數(shù)MoE結(jié)構(gòu)。

02.

OmniDocBench得分達(dá)91.09%

編輯距離低于Gemini-3 Pro

為了驗(yàn)證上述設(shè)計(jì)的有效性,DeepSeek進(jìn)行了實(shí)驗(yàn)。研究團(tuán)隊(duì)分三個(gè)階段訓(xùn)練DeepSeek-OCR 2:編碼器預(yù)訓(xùn)練、查詢(xún)?cè)鰪?qiáng)和解碼器專(zhuān)業(yè)化。

第一階段使視覺(jué)tokenizer和LLM風(fēng)格的編碼器獲得特征提取、token壓縮和token重排序的基本能力。第二階段進(jìn)一步增強(qiáng)了編碼器的token重排序能力,同時(shí)增強(qiáng)了視覺(jué)知識(shí)壓縮。第三階段凍結(jié)編碼器參數(shù),僅優(yōu)化解碼器,從而在相同的FLOPs下實(shí)現(xiàn)更高的數(shù)據(jù)吞吐量。

為評(píng)估模型效果,DeepSeek選擇OmniDocBench v1.5作為主要的評(píng)估基準(zhǔn)。該基準(zhǔn)包含1355個(gè)文檔頁(yè)面,涵蓋中英文的9個(gè)主要類(lèi)別(包括雜志、學(xué)術(shù)論文、研究報(bào)告等)。

DeepSeek-OCR 2在僅使用最小的視覺(jué)標(biāo)記上限(V-token maxmax)的情況下,達(dá)到了91.09%的性能。與DeepSeek-OCR基線(xiàn)相比,在相似的訓(xùn)練數(shù)據(jù)源下,它表現(xiàn)出3.73%的改進(jìn),驗(yàn)證了新架構(gòu)的有效性。

除了整體改進(jìn)外,閱讀順序(R-order)的編輯距離(ED)也顯著下降(從0.085降至0.057),這表明新的DeepEncoder V2可以根據(jù)圖像信息有效地選擇和排列初始視覺(jué)標(biāo)記。

在相似的視覺(jué)標(biāo)記預(yù)算(1120)下,DeepSeek-OCR 2(0.100)在文檔解析方面的編輯距離低于Gemini-3 Pro(0.115),進(jìn)一步證明新模型在確保性能的同時(shí)保持了視覺(jué)標(biāo)記的高壓縮率。

不過(guò),DeepSeek-OCR 2也不是全能的。在文本密度超高的報(bào)紙上,DeepSeek-OCR 2識(shí)別效果沒(méi)有其他類(lèi)型的文本好。這一問(wèn)題后續(xù)可以通過(guò)增加局部裁剪數(shù)量來(lái)解決,或者在訓(xùn)練過(guò)程中提供更多的樣本。

03.

結(jié)語(yǔ):或成新型VLM架構(gòu)開(kāi)端

DeepEncoder V2為L(zhǎng)LM風(fēng)格編碼器在視覺(jué)任務(wù)上的可行性提供了初步驗(yàn)證。更重要的是,DeepSeek的研究團(tuán)隊(duì)認(rèn)為,該架構(gòu)具有演變?yōu)榻y(tǒng)一全模態(tài)編碼器的潛力。這樣的編碼器可以在同一參數(shù)空間內(nèi)壓縮文本、提取語(yǔ)音特征和重組視覺(jué)內(nèi)容。

DeepSeek稱(chēng),DeepSeek-OCR的光學(xué)壓縮代表了向原生多模態(tài)的初步探索,未來(lái),他們還將繼續(xù)探索通過(guò)這種共享編碼器框架集成額外模態(tài),成為研究探索的新型VLM架構(gòu)的開(kāi)端。

 
 
更多>同類(lèi)資訊
全站最新
熱門(mén)內(nèi)容
網(wǎng)站首頁(yè)  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  爭(zhēng)議稿件處理  |  English Version
 
主站蜘蛛池模板: 国产一级黄色大片 | 日韩影视一区 | 最新国产视频 | 亚洲免费观看 | 黄色a级片视频 | 中文字幕高清在线观看 | 国产精品免费网站 | 欧美天堂在线视频 | 久久亚洲天堂 | 国产亚洲二区 | 超碰伊人网 | 欧洲国产精品 | 国产精品一二三在线观看 | 天天综合天天干 | 亚洲一区二区自拍 | 天天色天天色天天色 | 亚洲最大福利网 | 伊人青青 | av一二| 日韩精品一区二区三区丰满 | 一区二区三区在线观看视频 | 亚洲综合色视频 | jizz黄色| 他也色在线视频 | 国产精品成人在线视频 | 欧美一级色片 | 久久免费看片 | 超碰人操| 精品久久国产 | 国产精品三 | 下北阳光灿烂的日子 | 99热在线观看免费 | 男女同房做爰123 | 黄色大片91 | 97超碰国产在线 | 久久在线免费视频 | 欧美xxx在线观看 | 日韩av免费在线看 | japanese中文字幕| 日韩在线观看视频网站 | 黄色小视频在线播放 |