岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

ITBear科技資訊
手機版
二維碼
內容搜索
無障礙通道
語言：中文 EN

ITBear旗下自媒體矩陣：

滾動資訊

當前位置：首頁 > 資訊 > 人工智能 > 正文內容

DeepSeek-OCR2革新視覺推理：引入「因果流」邏輯，性能超越Gemini

時間：2026-01-27 23:57:04 來源：互聯網編輯：快訊 IP：北京 發表評論無障礙通道

人工智能領域迎來重要突破，DeepSeek團隊正式開源新一代OCR模型DeepSeek-OCR2。該模型通過引入革命性的DeepEncoder V2視覺編碼架構，實現了從傳統固定掃描模式向語義驅動的因果推理范式的轉變，在文檔解析任務中展現出接近人類閱讀邏輯的處理能力。

傳統視覺語言模型普遍采用光柵掃描方式處理圖像，這種將二維圖像強制轉換為一維序列的方法，導致模型難以捕捉圖像中的語義結構。DeepSeek-OCR2通過構建具備因果推理能力的視覺編碼器，使模型能夠根據內容邏輯動態調整處理順序。實驗數據顯示，新模型在OmniDocBench基準測試中取得91.09%的綜合得分，較前代提升3.73%，同時在閱讀順序編輯距離指標上從0.085優化至0.057，證明其處理復雜版面的邏輯性顯著增強。

DeepEncoder V2架構的創新性體現在雙模塊協同設計：視覺分詞器沿用SAM-base架構配合卷積層，將圖像轉化為視覺標記；作為核心的Qwen2-0.5B語言模型則引入可學習的查詢標記。通過獨特的注意力掩碼機制，視覺標記間保持雙向注意力以維持全局感知，查詢標記間采用因果注意力確保處理順序的合理性。這種設計使模型在編碼階段即完成信息重組，為后續解碼器提供結構化的語義序列。

在資源效率方面，新模型展現出顯著優勢。測試表明，使用256-1120個視覺標記時，DeepSeek-OCR2在保持高壓縮率的同時，文檔解析編輯距離達到0.100，優于Gemini-3 Pro的0.115。實際生產環境測試顯示，該模型使在線用戶日志圖像的OCR結果重復率從6.25%降至4.17%，PDF數據處理重復率從3.69%降至2.88%，為大規模數據清洗提供了更精準的工具。

技術團隊強調，DeepEncoder V2驗證了語言模型作為視覺編碼器的可行性。這種架構設計為多模態統一處理開辟了新路徑——通過更換不同模態的查詢嵌入，同一編碼器即可處理文本、圖像、音頻等多種數據類型。研究指出，當前光學字符識別仍是大模型時代最具實用價值的視覺任務，但這項突破為構建原生多模態智能系統奠定了重要基礎。

更多>同類資訊

中國科研團隊攻克AI邏輯推理難題通矩模型實現自主出題解題新跨越

論文第一作者、北京通用人工智能研究院研究員張馳說，這種“價值引導”能讓模型從浩如煙海的空間組合中，精準捕捉到那些具備人類數學家審美標準的高質量題目，“實現了從‘模仿解題’到‘自主創造’的范式轉變，這在國際上尚…

01-27

階躍星辰完成超50億B+輪融資，關聯公司發展勢頭強勁引關注

該公司經營范圍包括人工智能行業應用系統集成服務、人工智能應用軟件開發、信息系統集成服務等，由姜大昕、朱亦博共同持股投資時間網、標點財經據媒體報道，1月26日，階躍星辰官方正式宣布完成超50億元B+輪融…

01-27

全國首例AI“幻覺”侵權案判決，為AI產業劃定責任邊界與使用底線

這一認定基于四點考量：其一，AI服務缺乏固定用途與統一質檢標準；其二，其生成內容通常不具高度危險性；其三，服務提供者對每次輸出缺乏完全預見與控制能力；其四，若適用嚴格責任，可能不當加重企業負擔，抑制技術創新…

01-27

英偉達20億美元注資CoreWeave 攜手加速AI工廠建設共推全球AI應用普及

這項投資體現了英偉達對CoreWeave 的業務、團隊以及作為基于 NVIDIA 基礎設施構建的云平臺的增長戰略的信心。利用 NVIDIA領先的加速計算平臺技術，構建由 CoreWeave開發和運營…

01-27

奧特曼直播反思：GPT-5開發曾“偏科”，未來工程師需求大增寫代碼或成配角

Sam Altman：嗯，這也是我一直在深入思考的問題，和你之前提到的觀點有關。隨著模型能力越來越強，越來越難以理解它們所做的一切，如果模型出現不對齊（misalignment），如果在數周或數月的使用中…

01-27

智慧林業：以科技之力賦能傳統林業開啟綠色發展新篇章

智慧林業是指利用新一代信息技術，如物聯網、大數據、云計算、人工智能、衛星遙感、無人機等，對林業生產、經營、管理、服務全過程進行數字化、網絡化、智能化的改造和升級，從而實現森林資源監測、保護、管理和利用的精準化…

01-27

HX-A型水質采樣器：遠程操控與實時監控引領水質采樣智能化新潮流

HX-A型便攜式水質自動采樣器所具備的遠程操作與實時監控能力，正是這一智能化趨勢的集中體現，它正在重新定義現場采樣的工作模式。HX-A采樣器當前實現的遠程操作與實時監控，正是邁向這一未來圖景的堅實一步，它標志…

01-27

面向6G通信的超寬帶系統問世，為未來高速無線通信筑牢堅實保障

針對此，北京大學王興軍教授、舒浩文研究員及香港城市大學王騁教授組成的聯合團隊，成功研制出面向6G通信的超寬帶光電融合集成系統，首次實現全頻段、靈活可調諧的高速無線通信，為未來更暢通、可靠的6G無線通信提供保…

01-27

長城2026新車規劃亮點多：坦克800國產，歸元平臺首車，還有V8超跑來襲

01-27

中國自研AI視頻殺器，要搶走電商視頻后期飯碗

01-27

特斯拉在奧斯汀向公眾開放無安全員Robotaxi

01-27

螞蟻集團具身智能新動作：LingBot-Depth模型正式開源

01-27

研究揭示就業寒冬早于 ChatGPT 問世，AI 沖擊波早在2022年初已顯現

01-27

效率至上！薩姆·奧特曼稱 AI 助力 OpenAI 大幅放緩招聘步伐

01-27

求索未來小圓AI手機：以創新技術賦能山東AI，開啟高效智能新體驗

在AI應用場景中，大量的數據需要快速、準確地處理和分析，但部分公司的技術難以滿足這一需求。在算法創新上，小圓AI手機采用了自適應算法優化技術，能夠根據實時數據動態調整算法參數，確保在各種情況下都能實現最佳的…

01-27

點擊查看更多 +

全站最新

卡車也會"智慧運算"？中國重汽智能輔助駕駛，給出干線物流增效最優解

同程旅行："史上最長春節"催熱長線出境游，沙特、阿曼、新西蘭、澳大利亞等長線目的地熱度提升顯著

《2025汽車保值率報告》揭曉小米SU7首登純電動車一年保值率榜首

《2025汽車保值率報告》出爐，小米SU7純電動車領域奪冠，雷軍致謝用戶

《2025汽車保值率報告》出爐！小米SU7登頂純電動榜首，雷軍發文致謝用戶

東風風行埃及啟新程：KD工廠量產上市乘風雙擎計劃賦能全球化

熱門內容

本欄最新

長城2026新車規劃亮點多：坦克800國產，歸元平臺首車，還有V8超跑來襲

特斯拉奧斯汀開放無安全員Robotaxi服務，乘客38次叫車未果運營規模待擴大

跨境電商新引擎：Hilight一鍵生成商用視頻，AI驅動營銷變革新篇章

從“人找樁”到“樁找車”，嵐圖汽車智慧超充站破百引領補能新變革

精智實業赴港上市：2025年前9月營收4.18億多元業務布局顯成效

李想展望理想汽車未來：2028年前L4自動駕駛落地爭做全棧技術頭部企業

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.