DeepSeek團(tuán)隊(duì)近日發(fā)布了全新開源的OCR模型DeepSeek-OCR 2,該模型專注于將PDF文檔精準(zhǔn)轉(zhuǎn)換為Markdown格式。相較于初代版本,新模型在視覺標(biāo)記處理方式上實(shí)現(xiàn)了突破性創(chuàng)新,通過引入動(dòng)態(tài)語義重排機(jī)制,有效解決了傳統(tǒng)模型在復(fù)雜版面處理中的邏輯斷裂問題。
核心升級在于編碼器架構(gòu)的革新。研發(fā)團(tuán)隊(duì)摒棄了前代使用的CLIP組件,轉(zhuǎn)而采用輕量化語言模型Qwen2-0.5B構(gòu)建DeepEncoder V2。這種架構(gòu)變革賦予編碼器因果推理能力,使其能夠在視覺標(biāo)記進(jìn)入主解碼器前,自動(dòng)完成符合人類閱讀習(xí)慣的語義重排。實(shí)驗(yàn)數(shù)據(jù)顯示,新模型在OmniDocBench v1.5基準(zhǔn)測試中達(dá)到91.09%的準(zhǔn)確率,較基線提升3.73個(gè)百分點(diǎn)。
技術(shù)實(shí)現(xiàn)層面,DeepEncoder V2引入了雙流注意力機(jī)制。視覺標(biāo)記采用全局雙向注意力,確保每個(gè)標(biāo)記都能獲取完整圖像信息;新增的因果流查詢向量則遵循單向注意力規(guī)則,強(qiáng)制每個(gè)查詢只能關(guān)注先前的標(biāo)記。這種設(shè)計(jì)構(gòu)建了獨(dú)特的兩階段推理流程:編碼器階段完成語義重排,解碼器階段進(jìn)行自回歸推理。通過可學(xué)習(xí)的查詢標(biāo)記,模型實(shí)現(xiàn)了2D空間結(jié)構(gòu)到1D語言序列的平滑轉(zhuǎn)換。
在架構(gòu)優(yōu)化方面,模型延續(xù)了經(jīng)典的編碼器-解碼器結(jié)構(gòu)。視覺分詞器采用80M參數(shù)的SAM-base架構(gòu),配合兩層卷積層將輸出維度壓縮至896維,實(shí)現(xiàn)16倍標(biāo)記壓縮。為應(yīng)對不同分辨率圖像,編碼階段設(shè)計(jì)了靈活的裁剪方案:全局視圖生成256個(gè)查詢標(biāo)記,局部裁剪針對768×768區(qū)域生成144個(gè)查詢標(biāo)記。最終輸入LLM的標(biāo)記總數(shù)穩(wěn)定在256至1120之間,與Gemini-1.5 Pro的視覺預(yù)算相當(dāng)。
解碼器部分保留了3B參數(shù)的MoE結(jié)構(gòu),實(shí)際激活參數(shù)約500M。訓(xùn)練流程采用三階段策略:首先通過下一標(biāo)記預(yù)測任務(wù)預(yù)訓(xùn)練編碼器,隨后聯(lián)合優(yōu)化編碼器與解碼器的查詢表示,最后凍結(jié)編碼器專注微調(diào)解碼器。這種分階段訓(xùn)練方式在相同算力消耗下實(shí)現(xiàn)了更高的數(shù)據(jù)吞吐量。
基準(zhǔn)測試顯示,新模型在文檔解析編輯距離指標(biāo)上達(dá)到0.100,優(yōu)于Gemini-3 Pro的0.115。閱讀順序編輯距離從0.085顯著降至0.057,證明其視覺信息重排能力。實(shí)際生產(chǎn)環(huán)境驗(yàn)證中,在線用戶日志重復(fù)率從6.25%降至4.17%,PDF生產(chǎn)數(shù)據(jù)重復(fù)率從3.69%降至2.88%,充分體現(xiàn)了模型邏輯理解能力的提升。
數(shù)據(jù)策略方面,研發(fā)團(tuán)隊(duì)延續(xù)了前代80%的OCR相關(guān)數(shù)據(jù)占比,但對數(shù)據(jù)分布進(jìn)行關(guān)鍵優(yōu)化:將正文、公式與表格按3:1:1比例采樣,合并語義相似的布局標(biāo)簽。這種調(diào)整確保了模型與基準(zhǔn)測試的高度一致性,為性能對比提供了可靠基礎(chǔ)。
該模型已在GitHub和HuggingFace平臺(tái)開源,相關(guān)技術(shù)論文同步發(fā)布。這項(xiàng)創(chuàng)新為多模態(tài)學(xué)習(xí)領(lǐng)域提供了新思路,其通過語言模型架構(gòu)實(shí)現(xiàn)視覺編碼器優(yōu)化的路徑,為開發(fā)統(tǒng)一的全模態(tài)編碼器奠定了技術(shù)基礎(chǔ)。











