岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

ITBear旗下自媒體矩陣:

DeepSeek-OCR 2革新登場:棄CLIP用Qwen輕量模型,性能直追Gemini-3 Pro

   時(shí)間:2026-01-27 23:54:32 來源:互聯(lián)網(wǎng)編輯:快訊 IP:北京 發(fā)表評論無障礙通道
 

DeepSeek團(tuán)隊(duì)近日發(fā)布了全新開源的OCR模型DeepSeek-OCR 2,該模型專注于將PDF文檔精準(zhǔn)轉(zhuǎn)換為Markdown格式。相較于初代版本,新模型在視覺標(biāo)記處理方式上實(shí)現(xiàn)了突破性創(chuàng)新,通過引入動(dòng)態(tài)語義重排機(jī)制,有效解決了傳統(tǒng)模型在復(fù)雜版面處理中的邏輯斷裂問題。

核心升級在于編碼器架構(gòu)的革新。研發(fā)團(tuán)隊(duì)摒棄了前代使用的CLIP組件,轉(zhuǎn)而采用輕量化語言模型Qwen2-0.5B構(gòu)建DeepEncoder V2。這種架構(gòu)變革賦予編碼器因果推理能力,使其能夠在視覺標(biāo)記進(jìn)入主解碼器前,自動(dòng)完成符合人類閱讀習(xí)慣的語義重排。實(shí)驗(yàn)數(shù)據(jù)顯示,新模型在OmniDocBench v1.5基準(zhǔn)測試中達(dá)到91.09%的準(zhǔn)確率,較基線提升3.73個(gè)百分點(diǎn)。

技術(shù)實(shí)現(xiàn)層面,DeepEncoder V2引入了雙流注意力機(jī)制。視覺標(biāo)記采用全局雙向注意力,確保每個(gè)標(biāo)記都能獲取完整圖像信息;新增的因果流查詢向量則遵循單向注意力規(guī)則,強(qiáng)制每個(gè)查詢只能關(guān)注先前的標(biāo)記。這種設(shè)計(jì)構(gòu)建了獨(dú)特的兩階段推理流程:編碼器階段完成語義重排,解碼器階段進(jìn)行自回歸推理。通過可學(xué)習(xí)的查詢標(biāo)記,模型實(shí)現(xiàn)了2D空間結(jié)構(gòu)到1D語言序列的平滑轉(zhuǎn)換。

在架構(gòu)優(yōu)化方面,模型延續(xù)了經(jīng)典的編碼器-解碼器結(jié)構(gòu)。視覺分詞器采用80M參數(shù)的SAM-base架構(gòu),配合兩層卷積層將輸出維度壓縮至896維,實(shí)現(xiàn)16倍標(biāo)記壓縮。為應(yīng)對不同分辨率圖像,編碼階段設(shè)計(jì)了靈活的裁剪方案:全局視圖生成256個(gè)查詢標(biāo)記,局部裁剪針對768×768區(qū)域生成144個(gè)查詢標(biāo)記。最終輸入LLM的標(biāo)記總數(shù)穩(wěn)定在256至1120之間,與Gemini-1.5 Pro的視覺預(yù)算相當(dāng)。

解碼器部分保留了3B參數(shù)的MoE結(jié)構(gòu),實(shí)際激活參數(shù)約500M。訓(xùn)練流程采用三階段策略:首先通過下一標(biāo)記預(yù)測任務(wù)預(yù)訓(xùn)練編碼器,隨后聯(lián)合優(yōu)化編碼器與解碼器的查詢表示,最后凍結(jié)編碼器專注微調(diào)解碼器。這種分階段訓(xùn)練方式在相同算力消耗下實(shí)現(xiàn)了更高的數(shù)據(jù)吞吐量。

基準(zhǔn)測試顯示,新模型在文檔解析編輯距離指標(biāo)上達(dá)到0.100,優(yōu)于Gemini-3 Pro的0.115。閱讀順序編輯距離從0.085顯著降至0.057,證明其視覺信息重排能力。實(shí)際生產(chǎn)環(huán)境驗(yàn)證中,在線用戶日志重復(fù)率從6.25%降至4.17%,PDF生產(chǎn)數(shù)據(jù)重復(fù)率從3.69%降至2.88%,充分體現(xiàn)了模型邏輯理解能力的提升。

數(shù)據(jù)策略方面,研發(fā)團(tuán)隊(duì)延續(xù)了前代80%的OCR相關(guān)數(shù)據(jù)占比,但對數(shù)據(jù)分布進(jìn)行關(guān)鍵優(yōu)化:將正文、公式與表格按3:1:1比例采樣,合并語義相似的布局標(biāo)簽。這種調(diào)整確保了模型與基準(zhǔn)測試的高度一致性,為性能對比提供了可靠基礎(chǔ)。

該模型已在GitHub和HuggingFace平臺(tái)開源,相關(guān)技術(shù)論文同步發(fā)布。這項(xiàng)創(chuàng)新為多模態(tài)學(xué)習(xí)領(lǐng)域提供了新思路,其通過語言模型架構(gòu)實(shí)現(xiàn)視覺編碼器優(yōu)化的路徑,為開發(fā)統(tǒng)一的全模態(tài)編碼器奠定了技術(shù)基礎(chǔ)。

 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  爭議稿件處理  |  English Version
 
主站蜘蛛池模板: 亚洲精品在线视频观看 | 国产人成一区二区三区影院 | 欧美九九九| 岛国av噜噜噜久久久狠狠av | 国产日韩视频 | 亚洲一区二区视频在线 | 一本一本久久a久久精品牛牛影视 | 欧美综合二区 | 国产精品看片 | 国产一区二区三区四区五区六区 | 四虎欧美 | 亚洲激情四射 | 高清一区二区三区四区 | 天天爱天天干天天操 | 中国成人毛片 | 国产人妖一区 | 久久精品视频在线播放 | 成人免费毛片入口 | 一级片在线免费观看 | 亚洲福利影院 | 六月婷婷激情网 | 肉大捧一出免费观看网站在线播放 | 久久精品中文字幕 | 久久理伦 | 成人免费看片 | 好吊妞这里有精品 | 天天爱天天干天天操 | 你懂的国产在线 | 在线激情网站 | 在线国产中文字幕 | 色婷婷视频在线 | 亚洲福利天堂 | 黄色片网站在线免费观看 | 91精品国产欧美一区二区 | aaa国产| 成人欧美在线观看 | 神马午夜嘿嘿 | 国产精品111 | 一区二区三区高清不卡 | 欧美视频a| 中文字幕在线观看日本 |