在最新發(fā)布的中文大模型基準測評SuperCLUE中,22款國內外主流模型展開激烈競爭,測評結果引發(fā)行業(yè)廣泛關注。本次測評圍繞數(shù)學推理、科學推理、代碼生成等六大核心任務展開,全面評估模型的綜合能力,為技術發(fā)展提供了重要參考依據(jù)。
海外閉源模型在總分排名中繼續(xù)占據(jù)優(yōu)勢地位。Anthropic的Claude-Opus-4.6(max)、Google的Gemini-3.1-Pro-Preview(high)和OpenAI的GPT-5.4(xhigh)包攬前三名,展現(xiàn)出強大的技術實力。值得注意的是,字節(jié)跳動旗下豆包(Doubao-Seed-2.0-pro-260215(high))以71.53分的成績緊隨其后,與第三名GPT-5.4僅相差0.95分,成功躋身全球第一梯隊。該模型在智能體任務規(guī)劃維度表現(xiàn)尤為突出,甚至反超部分海外競爭對手,位列全球前五。
國內科技企業(yè)在此次測評中表現(xiàn)亮眼。小米集團推出的MiMo-V2系列兩款模型均成功入圍榜單,其中MiMo-V2-Pro以60.67分的成績在閉源模型中名列前茅,特別是在數(shù)學推理任務中取得84.03分的高分。另一款開源版本MiMo-V2-Flash雖然總分49.97分排名相對靠后,但在代碼生成等特定場景中展現(xiàn)出獨特潛力,為開發(fā)者提供了新的選擇。
開源賽道成為本次測評的一大亮點。Kimi-K2.5-Thinking、Qwen3.5-397B-A17B-Thinking等國產開源模型包攬開源榜單前三名,在性能表現(xiàn)上大幅領先海外同類開源模型。這一成果不僅體現(xiàn)了國內企業(yè)在開源技術領域的積累,也為全球開發(fā)者社區(qū)貢獻了重要力量,推動了行業(yè)技術的共同進步。











