滾動(dòng)資訊

當(dāng)前位置：首頁 > 資訊 > 信息流 > 正文內(nèi)容

DeepSeek-OCR 2革新登場：棄CLIP用Qwen輕量模型，性能直追Gemini-3 Pro

時(shí)間：2026-01-27 23:54:32 來源：互聯(lián)網(wǎng)編輯：快訊 IP：北京 發(fā)表評論無障礙通道

DeepSeek團(tuán)隊(duì)近日發(fā)布了全新開源的OCR模型DeepSeek-OCR 2，該模型專注于將PDF文檔精準(zhǔn)轉(zhuǎn)換為Markdown格式。相較于初代版本，新模型在視覺標(biāo)記處理方式上實(shí)現(xiàn)了突破性創(chuàng)新，通過引入動(dòng)態(tài)語義重排機(jī)制，有效解決了傳統(tǒng)模型在復(fù)雜版面處理中的邏輯斷裂問題。

核心升級在于編碼器架構(gòu)的革新。研發(fā)團(tuán)隊(duì)摒棄了前代使用的CLIP組件，轉(zhuǎn)而采用輕量化語言模型Qwen2-0.5B構(gòu)建DeepEncoder V2。這種架構(gòu)變革賦予編碼器因果推理能力，使其能夠在視覺標(biāo)記進(jìn)入主解碼器前，自動(dòng)完成符合人類閱讀習(xí)慣的語義重排。實(shí)驗(yàn)數(shù)據(jù)顯示，新模型在OmniDocBench v1.5基準(zhǔn)測試中達(dá)到91.09%的準(zhǔn)確率，較基線提升3.73個(gè)百分點(diǎn)。

技術(shù)實(shí)現(xiàn)層面，DeepEncoder V2引入了雙流注意力機(jī)制。視覺標(biāo)記采用全局雙向注意力，確保每個(gè)標(biāo)記都能獲取完整圖像信息；新增的因果流查詢向量則遵循單向注意力規(guī)則，強(qiáng)制每個(gè)查詢只能關(guān)注先前的標(biāo)記。這種設(shè)計(jì)構(gòu)建了獨(dú)特的兩階段推理流程：編碼器階段完成語義重排，解碼器階段進(jìn)行自回歸推理。通過可學(xué)習(xí)的查詢標(biāo)記，模型實(shí)現(xiàn)了2D空間結(jié)構(gòu)到1D語言序列的平滑轉(zhuǎn)換。

在架構(gòu)優(yōu)化方面，模型延續(xù)了經(jīng)典的編碼器-解碼器結(jié)構(gòu)。視覺分詞器采用80M參數(shù)的SAM-base架構(gòu)，配合兩層卷積層將輸出維度壓縮至896維，實(shí)現(xiàn)16倍標(biāo)記壓縮。為應(yīng)對不同分辨率圖像，編碼階段設(shè)計(jì)了靈活的裁剪方案：全局視圖生成256個(gè)查詢標(biāo)記，局部裁剪針對768×768區(qū)域生成144個(gè)查詢標(biāo)記。最終輸入LLM的標(biāo)記總數(shù)穩(wěn)定在256至1120之間，與Gemini-1.5 Pro的視覺預(yù)算相當(dāng)。

解碼器部分保留了3B參數(shù)的MoE結(jié)構(gòu)，實(shí)際激活參數(shù)約500M。訓(xùn)練流程采用三階段策略：首先通過下一標(biāo)記預(yù)測任務(wù)預(yù)訓(xùn)練編碼器，隨后聯(lián)合優(yōu)化編碼器與解碼器的查詢表示，最后凍結(jié)編碼器專注微調(diào)解碼器。這種分階段訓(xùn)練方式在相同算力消耗下實(shí)現(xiàn)了更高的數(shù)據(jù)吞吐量。

基準(zhǔn)測試顯示，新模型在文檔解析編輯距離指標(biāo)上達(dá)到0.100，優(yōu)于Gemini-3 Pro的0.115。閱讀順序編輯距離從0.085顯著降至0.057，證明其視覺信息重排能力。實(shí)際生產(chǎn)環(huán)境驗(yàn)證中，在線用戶日志重復(fù)率從6.25%降至4.17%，PDF生產(chǎn)數(shù)據(jù)重復(fù)率從3.69%降至2.88%，充分體現(xiàn)了模型邏輯理解能力的提升。

數(shù)據(jù)策略方面，研發(fā)團(tuán)隊(duì)延續(xù)了前代80%的OCR相關(guān)數(shù)據(jù)占比，但對數(shù)據(jù)分布進(jìn)行關(guān)鍵優(yōu)化：將正文、公式與表格按3:1:1比例采樣，合并語義相似的布局標(biāo)簽。這種調(diào)整確保了模型與基準(zhǔn)測試的高度一致性，為性能對比提供了可靠基礎(chǔ)。

該模型已在GitHub和HuggingFace平臺(tái)開源，相關(guān)技術(shù)論文同步發(fā)布。這項(xiàng)創(chuàng)新為多模態(tài)學(xué)習(xí)領(lǐng)域提供了新思路，其通過語言模型架構(gòu)實(shí)現(xiàn)視覺編碼器優(yōu)化的路徑，為開發(fā)統(tǒng)一的全模態(tài)編碼器奠定了技術(shù)基礎(chǔ)。

隨著用戶數(shù)量激增，平臺(tái)上逐漸出現(xiàn)更多現(xiàn)實(shí)任務(wù)，包括代取舊金山郵局掛號(hào)信件、向 Anthropic 總部送花致謝，以及來自 AI 助手 DanXiaojuan 的請求 —— 尋找并拍攝一根“最漂亮、最酥脆的…

02-08

春運(yùn)自駕出行必看！“鷹眼守護(hù)”為你預(yù)警風(fēng)險(xiǎn)，助你平安到家

02-08

邁莎銳為法拉利12Cilindri打造專屬改裝，碳纖維與動(dòng)力升級共鑄超跑新魅力

02-08

海南商發(fā)二號(hào)發(fā)射工位“四缸”調(diào)試成功，助力更大火箭發(fā)射任務(wù)

02-07

最新研究：木星尺寸“更新” 赤道半徑略減卻更顯扁態(tài)

02-07

國產(chǎn)首臺(tái)盾構(gòu)飽和帶壓進(jìn)倉設(shè)備“深海空間站”首秀成功助力深埋跨海隧道建設(shè)

02-07

海南商發(fā)二號(hào)發(fā)射工位“四缸”調(diào)試成功助力大型火箭發(fā)射任務(wù)

02-07

海南商發(fā)二號(hào)發(fā)射工位“四缸”調(diào)試成功，為更大火箭發(fā)射筑牢技術(shù)根基

02-07

太空光伏：從概念到產(chǎn)業(yè)新藍(lán)海，開啟能源革命新篇章

這一閉環(huán)生態(tài)將太空通信、地面能源與人工智能算力需求緊密串聯(lián)，凸顯了能源在未來的核心基礎(chǔ)地位。面向未來，兩種技術(shù)路線正展現(xiàn)巨大潛力：異質(zhì)結(jié)電池在性能與成本間取得了良好平衡，其超薄化、柔性化的特點(diǎn)完美適配低軌衛(wèi)星…

02-07

全球各國央行日益青睞從美聯(lián)儲(chǔ)"挖角"頂尖人才

02-07

青藏高原蛇綠巖藏天然氫氣“密碼” 為清潔能源勘探指明新方向

記者從中國科學(xué)院地質(zhì)與地球物理研究所獲悉，該研究所劉傳周和吳福元領(lǐng)銜的研究團(tuán)隊(duì)在青藏高原的蛇綠巖中，首次發(fā)現(xiàn)了封存于微觀包裹體內(nèi)的天然氫氣。這一發(fā)現(xiàn)，完整勾勒出天然氫氣從深部生成、遷移到近地表聚集的“源—匯”…

02-07

洋山港1月干線集裝箱船舶流量首破800艘次，創(chuàng)歷史新高

02-07

澤連斯基：俄軍襲擊導(dǎo)致烏克蘭多地大規(guī)模停電

02-07

澤連斯基：不支持違反烏克蘭憲法的和平協(xié)議

02-07

沙特宣布對敘利亞進(jìn)行重大投資

02-07

點(diǎn)擊查看更多 +

全站最新

全新一代理想L9：具身智能加持，以創(chuàng)新科技重塑旗艦SUV新標(biāo)桿

2026年W5國內(nèi)手機(jī)銷量榜變動(dòng)：蘋果奪冠，華為緊隨，小米OV排名有新變化

華為影像旗艦“大跳水”，16GB+512GB直降3400元，成當(dāng)下?lián)炻﹥?yōu)選

7英寸巨屏手機(jī)或迎新動(dòng)態(tài)！兩家廠商正在評估，未來市場值得期待

雷軍駕駛小米SU7秀漂移神技畫面張力十足溫馨提醒：漂移需謹(jǐn)慎切勿盲目跟風(fēng)

雷軍駕駛小米SU7秀漂移神技畫面張力十足：安全第一切勿盲目跟風(fēng)

熱門內(nèi)容

本欄最新

邁莎銳為法拉利12Cilindri打造專屬改裝，碳纖維與動(dòng)力升級共鑄超跑新魅力

千問APP免單繼續(xù)！用AI買盒馬，買魚買菜買年貨、一句話送到家

“碰一下開門”覆蓋1.5萬小區(qū) 淘寶閃購助力騎士送單提速暢通外賣“最后100米”

馬斯克回應(yīng)SpaceX推遲火星計(jì)劃優(yōu)先推進(jìn)月球任務(wù)

燧原科技沖擊IPO，聚焦AI芯片領(lǐng)域，三年多虧損超51億

創(chuàng)新藥強(qiáng)復(fù)蘇！CRO二波行情已啟動(dòng)？這波機(jī)會(huì)別錯(cuò)過！

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護(hù)，版權(quán)登記號(hào)：魯作登字-2015-F-025467，未經(jīng)ITBEAR比爾科技官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術(shù)由太陽灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請通知我們及時(shí)刪除。
中國（山東）自由貿(mào)易試驗(yàn)區(qū) 魯ICP備11015305號(hào)-1 聯(lián)系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

DeepSeek-OCR 2革新登場：棄CLIP用Qwen輕量模型，性能直追Gemini-3 Pro