SuperCLUE正式發布了“2025年度中文大模型基準測評報告”,這場匯聚了23個國內外頂尖模型的“全明星賽”,再次揭示了全球AI戰局的新動向。測評覆蓋了數學推理、代碼生成及科學推理等六大核心維度,直觀展示了當前中文語境下各大模型的真實“戰力”。
從綜合排名來看,海外閉源模型依然展現出強大的統治力。Anthropic旗下的Claude-Opus-4.5-Reasoning憑借68.25的高分問鼎榜首,谷歌的Gemini-3-Pro-Preview與OpenAI的GPT-5.2(high)緊隨其后,分別奪得亞軍和季軍。這三大巨頭構成的“第一梯隊”,在邏輯嚴密性和綜合理解力上依然保持著微弱的領先優勢。
然而,國產大模型的表現堪稱驚喜,正以前所未有的速度縮小差距。國內開源界的“領頭羊”Kimi-K2.5-Thinking與閉源代表Qwen3-Max-Thinking分別殺入全球前十,位列第四和第六。值得振奮的是,在垂直賽道上,國產模型已經實現了“局部反超”:Kimi在代碼生成任務中勇奪全球第一,而Qwen3則在數學推理上與谷歌并列世界冠軍。
縱觀整體格局,海內外呈現出截然不同的競爭態勢。閉源領域目前是“海外領跑、國產追趕”;而在開源領域,國產模型則占據了絕對的主導地位,國內開源Top5的實力已大幅領先海外同類模型。這種“開閉并進”的局面,預示著中文AI生態正進入一個高質量發展的爆發期。
劃重點:









