百度千帆近日宣布推出全新端到端文檔智能模型Qianfan-OCR,該模型采用統(tǒng)一的視覺(jué)語(yǔ)言架構(gòu),以40億參數(shù)規(guī)模實(shí)現(xiàn)了文檔解析、版面分析、文字識(shí)別與語(yǔ)義理解的一體化融合。在多項(xiàng)權(quán)威評(píng)測(cè)中,該模型展現(xiàn)出顯著優(yōu)勢(shì),標(biāo)志著文檔智能技術(shù)從多階段流程向統(tǒng)一模型架構(gòu)的跨越式發(fā)展。
在核心基準(zhǔn)測(cè)試中,Qianfan-OCR表現(xiàn)尤為亮眼。在OmniDocBench v1.5評(píng)測(cè)中以93.12分位居端到端模型榜首,OCRBench評(píng)測(cè)成績(jī)顯著超越同規(guī)模通用視覺(jué)語(yǔ)言模型和專用OCR模型。在關(guān)鍵信息提取(KIE)領(lǐng)域,該模型在多個(gè)公開(kāi)榜單總分上力壓Google Gemini 3-Pro等國(guó)際商用模型,展現(xiàn)出強(qiáng)大的技術(shù)競(jìng)爭(zhēng)力。
針對(duì)圖表理解等復(fù)雜場(chǎng)景,Qianfan-OCR在ChartQA、ChartBench等6項(xiàng)國(guó)際權(quán)威評(píng)測(cè)中斬獲5項(xiàng)最佳成績(jī)。其獨(dú)特的結(jié)構(gòu)理解與多模態(tài)推理能力,能夠精準(zhǔn)解析包含復(fù)雜表格、混合圖表的文檔內(nèi)容,在金融報(bào)表、科研論文等場(chǎng)景中具有顯著應(yīng)用價(jià)值。
傳統(tǒng)OCR系統(tǒng)普遍采用"檢測(cè)-識(shí)別-大模型"三段式架構(gòu),這種串聯(lián)處理方式容易導(dǎo)致誤差累積,且在文本分塊提取過(guò)程中會(huì)破壞原始文檔的空間結(jié)構(gòu)與視覺(jué)上下文。例如復(fù)雜表格的行列關(guān)系、圖表的坐標(biāo)對(duì)應(yīng)等關(guān)鍵信息,在傳統(tǒng)流程中往往出現(xiàn)理解偏差。
Qianfan-OCR通過(guò)底層架構(gòu)創(chuàng)新,構(gòu)建了端到端的視覺(jué)語(yǔ)言模型。該模型直接從文檔圖像生成結(jié)構(gòu)化輸出,完整保留視覺(jué)信息與空間關(guān)系,實(shí)現(xiàn)從像素到語(yǔ)義的直接映射。這種技術(shù)路徑不僅提升了處理效率,更在結(jié)構(gòu)理解與推理任務(wù)中達(dá)到更高精度,有效解決了傳統(tǒng)方案的固有缺陷。
目前,Qianfan-OCR已在百度千帆平臺(tái)全面開(kāi)放,同時(shí)通過(guò)HuggingFace開(kāi)源模型權(quán)重。開(kāi)發(fā)者與企業(yè)用戶可自由調(diào)用該模型,應(yīng)用于金融、醫(yī)療、教育等領(lǐng)域的文檔智能化處理,推動(dòng)行業(yè)數(shù)字化轉(zhuǎn)型進(jìn)程。










