人工智能在復(fù)雜推理任務(wù)中的表現(xiàn)長(zhǎng)期受制于邏輯漏洞問(wèn)題——即便最終答案正確,中間步驟也可能漏洞百出。香港科技大學(xué)、上海人工智能實(shí)驗(yàn)室、浙江大學(xué)及香港浸會(huì)大學(xué)聯(lián)合團(tuán)隊(duì)提出突破性解決方案,通過(guò)引入形式化驗(yàn)證系統(tǒng),讓語(yǔ)言模型在推理過(guò)程中接受"實(shí)時(shí)邏輯檢查",顯著提升了推理嚴(yán)謹(jǐn)性。相關(guān)研究論文已發(fā)表于學(xué)術(shù)平臺(tái),其創(chuàng)新框架為AI推理能力升級(jí)開(kāi)辟了新路徑。
實(shí)驗(yàn)數(shù)據(jù)顯示,當(dāng)前主流模型在處理推理任務(wù)時(shí)存在嚴(yán)重隱患:當(dāng)答案正確時(shí),仍有39.3%的推理步驟存在形式化錯(cuò)誤;答案錯(cuò)誤時(shí),錯(cuò)誤比例更高達(dá)52.4%。這暴露出模型依賴(lài)模式匹配而非真正理解的本質(zhì)缺陷。研究團(tuán)隊(duì)構(gòu)建的雙階段訓(xùn)練體系,通過(guò)"監(jiān)督學(xué)習(xí)+強(qiáng)化學(xué)習(xí)"的組合策略,將形式化驗(yàn)證深度嵌入推理全流程。在監(jiān)督學(xué)習(xí)階段,團(tuán)隊(duì)采用教師模型生成多版本推理鏈,并利用Z3求解器等工具將自然語(yǔ)言轉(zhuǎn)換為可驗(yàn)證的邏輯代碼,通過(guò)執(zhí)行驗(yàn)證確保三者一致性;強(qiáng)化學(xué)習(xí)階段則引入多層次獎(jiǎng)勵(lì)機(jī)制,對(duì)邏輯矛盾、代碼錯(cuò)誤等情況實(shí)施動(dòng)態(tài)懲罰。
該框架在三大類(lèi)推理任務(wù)中展現(xiàn)出顯著優(yōu)勢(shì)。測(cè)試集涵蓋邏輯推理基準(zhǔn)KOR-Bench、奧林匹克數(shù)學(xué)競(jìng)賽題庫(kù)AIME 2024及研究生級(jí)多學(xué)科問(wèn)題GPQA-Diamond等。實(shí)驗(yàn)表明,70億參數(shù)模型準(zhǔn)確率平均提升10.4%,140億參數(shù)模型提升14.2%。在AIME 2024競(jìng)賽題中,140億模型準(zhǔn)確率從3.6%躍升至30.2%,MATH-500題庫(kù)準(zhǔn)確率達(dá)81.4%,均創(chuàng)下新紀(jì)錄。更關(guān)鍵的是,模型對(duì)符號(hào)邏輯庫(kù)的使用率從42.5%提升至62.5%,標(biāo)志著推理模式從數(shù)值計(jì)算向抽象演繹的根本轉(zhuǎn)變。
研究團(tuán)隊(duì)通過(guò)消融實(shí)驗(yàn)證實(shí),形式化驗(yàn)證是性能提升的核心驅(qū)動(dòng)力。僅監(jiān)督學(xué)習(xí)階段就能將基礎(chǔ)模型準(zhǔn)確率從30%提升至48%,強(qiáng)化學(xué)習(xí)進(jìn)一步推高至51%。但初期嚴(yán)格驗(yàn)證策略導(dǎo)致新問(wèn)題:模型為滿足驗(yàn)證要求,常對(duì)簡(jiǎn)單算術(shù)問(wèn)題編寫(xiě)復(fù)雜求解代碼。例如計(jì)算最小完全立方數(shù)時(shí),模型會(huì)構(gòu)建約束程序而非直接枚舉。為此團(tuán)隊(duì)開(kāi)發(fā)"靈活驗(yàn)證"機(jī)制,允許模型在計(jì)算階段采用直接方法,僅在邏輯推理環(huán)節(jié)啟用形式化驗(yàn)證,成功平衡效率與嚴(yán)謹(jǐn)性。
該研究在數(shù)據(jù)效率方面表現(xiàn)突出。盡管訓(xùn)練流程復(fù)雜,但僅使用約1.7萬(wàn)個(gè)樣本即達(dá)到理想效果,遠(yuǎn)少于同類(lèi)方法所需數(shù)據(jù)量。這得益于形式化驗(yàn)證提供的高密度監(jiān)督信號(hào)——每個(gè)訓(xùn)練樣本不僅包含答案正確性,更提供具體邏輯反饋,使模型能快速掌握深層推理規(guī)律。不過(guò)研究也指出方法局限:形式化驗(yàn)證使訓(xùn)練時(shí)間增加一倍,且自然語(yǔ)言到邏輯規(guī)范的轉(zhuǎn)換在開(kāi)放式問(wèn)題中仍面臨挑戰(zhàn)。
這項(xiàng)突破為AI安全應(yīng)用提供了新范式。在醫(yī)療診斷、金融決策等高風(fēng)險(xiǎn)領(lǐng)域,系統(tǒng)不僅需要正確答案,更需可驗(yàn)證的推理過(guò)程。研究團(tuán)隊(duì)通過(guò)將神經(jīng)網(wǎng)絡(luò)的模糊處理能力與符號(hào)系統(tǒng)的嚴(yán)謹(jǐn)驗(yàn)證相結(jié)合,有效解決了兩者間的兼容難題。目前團(tuán)隊(duì)已公開(kāi)實(shí)現(xiàn)細(xì)節(jié)與代碼提示詞,并承諾開(kāi)源數(shù)據(jù)集和訓(xùn)練模型,為學(xué)術(shù)界提供可復(fù)現(xiàn)的研究基礎(chǔ)。











