滾動資訊

當(dāng)前位置：首頁 > 資訊 > 人工智能 > 正文內(nèi)容

中科院與上海人工智能實驗室攜手：為AI幾何推理能力立新標(biāo)尺

時間：2026-01-21 17:19:13 來源：互聯(lián)網(wǎng)編輯：快訊 IP：北京 發(fā)表評論無障礙通道

當(dāng)數(shù)學(xué)教師在黑板上用圓規(guī)和直尺繪制出標(biāo)準(zhǔn)正五邊形時，這項看似基礎(chǔ)的教學(xué)操作背后，實則蘊含著嚴密的幾何邏輯推演。中國科學(xué)院大學(xué)與上海人工智能實驗室聯(lián)合團隊近日發(fā)布的研究成果，通過構(gòu)建名為"GGBench"的幾何生成推理評估體系，首次系統(tǒng)揭示了當(dāng)前人工智能在幾何構(gòu)造任務(wù)中的真實能力水平。這項發(fā)表于國際學(xué)術(shù)平臺的研究顯示，即便是最先進的AI模型，在處理復(fù)雜幾何問題時仍存在顯著能力斷層。

研究團隊開發(fā)的評估框架突破了傳統(tǒng)AI測試的局限，創(chuàng)新性地將自然語言描述、可執(zhí)行幾何代碼與可視化圖形輸出進行三位一體整合。每個測試案例都包含完整的幾何問題表述、GeoGebra編程實現(xiàn)及最終效果圖，形成類似人類解題的完整閉環(huán)。這種設(shè)計使得評估系統(tǒng)能夠同時考察AI的理解能力、邏輯推理能力和精確執(zhí)行能力，解決了現(xiàn)有測試體系只能單維度評估的缺陷。

在針對15個主流AI模型的測試中，研究團隊發(fā)現(xiàn)視覺生成能力與幾何推理精度之間存在顯著差異。表現(xiàn)最優(yōu)的GPT-5模型在綜合評分中僅獲得57.08分（滿分100），盡管其生成的圖形在視覺效果上接近完美，但經(jīng)幾何校驗后發(fā)現(xiàn)存在多處邏輯錯誤。與之形成對比的是，采用代碼生成路徑的模型雖然在圖像美觀度上稍遜，但在幾何正確性方面表現(xiàn)突出，這表明顯式邏輯約束對提升推理精度具有關(guān)鍵作用。

測試數(shù)據(jù)揭示出AI幾何能力的明顯分層特征。在涉及基礎(chǔ)幾何元素（如直線、圓）的簡單任務(wù)中，多數(shù)模型能保持80%以上的正確率；但當(dāng)任務(wù)復(fù)雜度提升至需要多步推理的幾何變換時，模型性能出現(xiàn)斷崖式下降，最高降幅達40%。特別是在需要遞歸構(gòu)造的困難任務(wù)中，即便是最優(yōu)模型也會出現(xiàn)步驟缺失、邏輯跳躍等系統(tǒng)性錯誤。

對錯誤案例的深度分析識別出四類典型缺陷：幾何定理誤用、空間關(guān)系混淆、計算目標(biāo)偏離和形式系統(tǒng)沖突。研究團隊特別指出，某模型在構(gòu)造30度角時錯誤應(yīng)用圓周角定理，將頂點置于劣弧導(dǎo)致實際生成150度角，這種看似低級的錯誤實則暴露了模型對幾何原理的淺層理解。更值得關(guān)注的是，這類錯誤在不同模型間呈現(xiàn)高度一致性，暗示當(dāng)前訓(xùn)練數(shù)據(jù)可能存在結(jié)構(gòu)性偏差。

評估方法的創(chuàng)新體現(xiàn)在四階段考核機制：首先檢驗?zāi)Ｐ褪欠窬邆渫暾臉?gòu)造規(guī)劃能力，其次評估中間步驟的邏輯連貫性，再次驗證最終結(jié)果的幾何正確性，最后進行綜合效能評分。這種多維度評估體系通過引入視覺語言模型作為自動裁判，實現(xiàn)了92.95%的評估一致性，顯著降低了人工評估成本。研究同時指出，現(xiàn)有評估標(biāo)準(zhǔn)在處理等價構(gòu)造方案、評估構(gòu)造優(yōu)雅性等方面仍存在改進空間。

幾何構(gòu)造任務(wù)的特殊性為AI能力評估提供了獨特視角。該任務(wù)天然融合了自然語言理解、符號邏輯推理、空間操作執(zhí)行等多重認知維度，其客觀可驗證的特性使得評估結(jié)果具有高可信度。研究團隊強調(diào)，幾何推理能力的發(fā)展不應(yīng)局限于平面幾何領(lǐng)域，未來需要向立體幾何、非歐幾何等更復(fù)雜的空間關(guān)系拓展，這對模型的空間想象力和約束滿足能力提出更高要求。

在應(yīng)用前景方面，這項研究為AI教育工具開發(fā)指明了新方向。測試結(jié)果顯示，現(xiàn)有AI尚無法替代教師進行復(fù)雜幾何概念的教學(xué)，但可輔助完成基礎(chǔ)圖形繪制和簡單推理演示。研究團隊正在探索將幾何推理能力與自適應(yīng)教學(xué)系統(tǒng)結(jié)合，開發(fā)能夠根據(jù)學(xué)生理解水平動態(tài)調(diào)整教學(xué)策略的智能助手。在工程設(shè)計領(lǐng)域，具備幾何驗證能力的AI有望成為自動化設(shè)計流程的重要環(huán)節(jié)。

技術(shù)實現(xiàn)層面，研究揭示了多模態(tài)模型架構(gòu)的改進方向。代碼生成路徑的成功經(jīng)驗表明，引入中間邏輯表示層可有效提升生成精度；分層構(gòu)造機制的設(shè)計思路，為平衡模型規(guī)模與推理能力提供了新范式。研究同時指出，現(xiàn)有模型在處理不確定幾何約束、優(yōu)化構(gòu)造路徑等方面仍存在明顯不足，這些能力的突破將需要結(jié)合符號推理與神經(jīng)網(wǎng)絡(luò)的混合架構(gòu)創(chuàng)新。

該研究構(gòu)建的GGBench基準(zhǔn)數(shù)據(jù)集包含1411個經(jīng)過嚴格驗證的幾何問題，覆蓋從基礎(chǔ)作圖到高級定理應(yīng)用的完整難度譜系。研究團隊已開放數(shù)據(jù)集和評估工具，為全球研究者提供標(biāo)準(zhǔn)化測試平臺。這項基礎(chǔ)性工作不僅推動了AI幾何推理能力的量化評估，更為開發(fā)具備真正理解能力的通用人工智能提供了重要參考框架。

更多>同類資訊

英偉達黃仁勛力挺OpenAI：將進行巨額投資，否認內(nèi)部不滿傳聞

02-01

重溫喬布斯1990年訪談：12個未來預(yù)言，洞見技術(shù)演進與人性永恒

02-01

理想汽車1月交付27668輛累計交付超156萬超充網(wǎng)絡(luò)加速布局

02-01

理想汽車2026年1月交付27668輛，AI升級與服務(wù)網(wǎng)絡(luò)雙拓展

02-01

于柯鑫引領(lǐng)沃爾沃革新，超混XC70以均衡實力開啟豪華車新篇章

02-01

三星等三大DRAM巨頭嚴控存儲芯片訂單消費級電子受供應(yīng)收縮沖擊

02-01

AI新勢力OpenClaw走紅：能實操會思考的24小時在線智能伙伴

02-01

鋒物科技與眾擎機器人攜手，以“本體+大腦”模式開啟安防4.0新篇章

具體而言，雙方合資后，計劃優(yōu)先以高端低密度住宅等場景為試點，將鋒物科技的算法與“物業(yè)大腦”能力嵌入眾擎機器人，依托在管場景數(shù)據(jù)迭代機器人決策與響應(yīng)能力，構(gòu)建“人+機器人”協(xié)同運營模式。據(jù)官方信息，鋒物科技…

02-01

Token-Pocket收款功能解析：多領(lǐng)域應(yīng)用與資產(chǎn)保值增值新路徑

一些社交平臺還集成了收款功能，讓用戶可以直接在社交應(yīng)用中使用加密貨幣。一些收款采用了分層確定性錢包技術(shù)，有助于在確保安全的同時降低交易費用。一些音樂平臺已經(jīng)集成了收款功能，支持加密貨幣支付和非同質(zhì)化代幣音樂作…

02-01

全球首款完全仿生具身智能機器人Moya亮相，高端陪護新選擇來了

02-01

黃仁勛透露英偉達攜手聯(lián)發(fā)科共研低功耗高性能AI電腦專用SoC芯片

02-01

黃仁勛透露英偉達攜手聯(lián)發(fā)科，打造低功耗高性能AI電腦專用SoC芯片

02-01

螞蟻團隊推出AlignXplore+：8B小模型構(gòu)建文本畫像跨任務(wù)跨模型通用登頂SOTA

近日，螞蟻和東北大學(xué)研究團隊（后簡稱“團隊”）推出AlignXplore+，在大模型個性化上實現(xiàn)了一種文本化用戶建模的新范式，讓復(fù)雜的用戶偏好可以被人和機器同時理解，同時具備很好的擴展性和遷移性。團隊提出…

02-01

2026大屏破局：LED數(shù)字人智能體，開啟智能交互新未來

如何在AI智能時代，讓大屏從“播放器”升級為“智能體”？它不只是硬件，更是“硬件+AI+服務(wù)”的整體方案，能幫你實現(xiàn)從“屏幕供應(yīng)商”到“智能展廳服務(wù)商”的轉(zhuǎn)型。讓我們攜手，共同開啟大屏智能交互新時代，為客戶創(chuàng)…

02-01

北京經(jīng)開區(qū)首頒虛擬偶像身份認證模數(shù)OPC社區(qū)助力AI生態(tài)新發(fā)展

02-01

點擊查看更多 +

全站最新

小米SU7 Ultra銷量“高開低走”：從月銷超3000到45輛，高端性能車市場遇冷？

小米汽車2026年1月交付破3.9萬，2025年全年交付超41萬成績亮眼

零跑汽車1月交付32059臺同比增27% 2026年劍指百萬銷量目標(biāo)

理想汽車2026年首月成績亮眼：交付27668輛，超充站與網(wǎng)點持續(xù)擴張

理想汽車2026年1月交付27668輛，AI升級與服務(wù)網(wǎng)絡(luò)雙拓展

小米汽車2026年首月交付超3.9萬臺，2025年成績亮眼YU7表現(xiàn)搶眼

熱門內(nèi)容

本欄最新

理想汽車2026年1月交付27668輛，AI升級與服務(wù)網(wǎng)絡(luò)雙拓展

于柯鑫引領(lǐng)沃爾沃革新，超混XC70以均衡實力開啟豪華車新篇章

螞蟻團隊推出AlignXplore+：8B小模型構(gòu)建文本畫像跨任務(wù)跨模型通用登頂SOTA

2026大屏破局：LED數(shù)字人智能體，開啟智能交互新未來

長城汽車2025年營收增長超一成，技術(shù)賦能與生態(tài)出海雙輪驅(qū)動競爭力躍升

智能島制造體系：上汽通用五菱如何引領(lǐng)汽車生產(chǎn)“柔性智變”新潮流？

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護，版權(quán)登記號：魯作登字-2015-F-025467，未經(jīng)ITBEAR比爾科技官方許可，嚴禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術(shù)由太陽灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請通知我們及時刪除。
中國（山東）自由貿(mào)易試驗區(qū) 魯ICP備11015305號-1 聯(lián)系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

中科院與上海人工智能實驗室攜手：為AI幾何推理能力立新標(biāo)尺