SuperCLUE最新發布的2025年中文大模型基準測評報告顯示,全球23個主流模型在數學推理、科學計算、代碼生成等六大關鍵領域展開激烈競爭。測評結果呈現海外閉源模型持續領跑、國產模型加速突圍的雙重格局,其中部分細分領域已出現國產技術反超的顯著特征。
在整體排名中,Anthropic公司研發的Claude-Opus-4.5-Reasoning以68.25分摘得桂冠,谷歌Gemini-3-Pro-Preview與OpenAI GPT-5.2(high)分別以65.59分和64.32分位列二、三名。值得注意的是,國產模型在頭部陣營中實現重要突破:開源模型Kimi-K2.5-Thinking以61.50分位居全球第四,閉源模型Qwen3-Max-Thinking以60.61分緊隨其后位列第六,標志著國產技術正式躋身世界第一梯隊。
細分領域表現成為本次測評最大亮點。Kimi-K2.5-Thinking在代碼生成任務中以53.33分力壓群雄,展現出國產模型在工程化應用方面的獨特優勢。Qwen3-Max-Thinking則在數學推理領域與谷歌Gemini-3-Pro-Preview并列全球第一,雙方均獲得80.87分的滿分成績,印證了國產模型在邏輯運算能力上的質的飛躍。科學計算、長文本理解等維度也出現多個國產模型進入前十的案例。
技術路線分化趨勢在測評數據中愈發明顯。閉源陣營延續海外主導格局,前三名均被國際科技巨頭占據,但國產閉源模型與頭部差距已從去年的15%縮小至8%以內。開源領域則呈現完全相反的態勢,國內開源模型包攬前五名,且平均得分較海外開源模型高出27個百分點,形成技術代差優勢。這種"閉源追趕、開源領跑"的獨特現象,反映出中國AI產業在技術路線選擇上的戰略考量。
據測評報告分析,國產模型崛起得益于三大突破:一是算法架構創新,通過動態注意力機制等原創技術提升推理效率;二是數據治理優化,構建起覆蓋30個垂直領域的高質量中文語料庫;三是工程化能力提升,在模型輕量化部署方面取得關鍵進展。這些技術積累使得國產模型在處理復雜中文語境、專業領域知識等場景中表現出獨特優勢。









