文檔識(shí)別領(lǐng)域迎來(lái)重要進(jìn)展,DeepSeek團(tuán)隊(duì)正式推出新一代文檔識(shí)別模型DeepSeek-OCR 2。該模型在繼承前代架構(gòu)優(yōu)勢(shì)的基礎(chǔ)上,通過(guò)創(chuàng)新性的視覺編碼器設(shè)計(jì),實(shí)現(xiàn)了對(duì)復(fù)雜文檔結(jié)構(gòu)更精準(zhǔn)的解析能力。

傳統(tǒng)視覺語(yǔ)言模型在處理文檔圖像時(shí),通常采用固定柵格順序切割視覺元素,這種處理方式雖便于實(shí)現(xiàn),卻與人類閱讀時(shí)的語(yǔ)義跳躍特性存在顯著差異。特別是在學(xué)術(shù)論文、財(cái)務(wù)報(bào)表等版式復(fù)雜的場(chǎng)景中,視覺元素間的邏輯關(guān)聯(lián)往往超越空間位置關(guān)系,單純依賴空間順序的解析方式容易產(chǎn)生理解偏差。
研究團(tuán)隊(duì)提出的DeepEncoder V2架構(gòu)突破了這一局限。該架構(gòu)通過(guò)引入"視覺因果流"機(jī)制,使編碼器能夠動(dòng)態(tài)調(diào)整視覺token的處理順序。具體實(shí)現(xiàn)上,系統(tǒng)同時(shí)運(yùn)行雙向注意力與因果注意力兩種模式:前者負(fù)責(zé)全局視覺信息感知,后者通過(guò)可學(xué)習(xí)的因果查詢token逐步構(gòu)建語(yǔ)義順序。這種雙重注意力機(jī)制確保模型在編碼階段就能完成視覺元素的智能排序。
在架構(gòu)設(shè)計(jì)方面,新模型延續(xù)了編解碼框架但進(jìn)行了關(guān)鍵優(yōu)化。編碼器先將圖像壓縮為256-1120個(gè)視覺token,經(jīng)DeepEncoder V2重組語(yǔ)義順序后,交由基于混合專家架構(gòu)(MoE)的語(yǔ)言模型解碼。這種設(shè)計(jì)在保持計(jì)算效率的同時(shí),將解碼負(fù)擔(dān)控制在合理范圍內(nèi),資源消耗與前代模型基本持平。
性能驗(yàn)證在OmniDocBench v1.5基準(zhǔn)測(cè)試中進(jìn)行,該測(cè)試集包含中英文學(xué)術(shù)論文、商業(yè)報(bào)告等12類文檔。實(shí)驗(yàn)數(shù)據(jù)顯示,在視覺token數(shù)量減少的情況下,新模型整體識(shí)別準(zhǔn)確率達(dá)91.09%,較前代提升3.73個(gè)百分點(diǎn)。特別在閱讀順序指標(biāo)上,編輯距離從0.085優(yōu)化至0.057,證明其對(duì)文檔結(jié)構(gòu)的理解能力顯著增強(qiáng)。
實(shí)際應(yīng)用表現(xiàn)同樣亮眼。生產(chǎn)環(huán)境測(cè)試顯示,在線用戶日志圖像的重復(fù)識(shí)別率下降33%(從6.25%降至4.17%),PDF批處理數(shù)據(jù)的重復(fù)率降低22%(從3.69%降至2.88%)。這些改進(jìn)表明模型在保持高壓縮率的同時(shí),有效提升了復(fù)雜場(chǎng)景下的處理穩(wěn)定性。







