在最新發(fā)布的中文大模型基準(zhǔn)測(cè)評(píng)SuperCLUE中,22款國(guó)內(nèi)外主流模型展開(kāi)激烈比拼。此次測(cè)評(píng)涵蓋數(shù)學(xué)推理、科學(xué)推理、代碼生成等六大核心任務(wù),對(duì)模型綜合能力進(jìn)行全方位檢驗(yàn)。海外閉源模型在總分排名上依舊占據(jù)優(yōu)勢(shì),Anthropic的Claude-Opus-4.6(max)、Google的Gemini-3.1-Pro-Preview(high)以及OpenAI的GPT-5.4(xhigh)分別位列前三名。
字節(jié)跳動(dòng)旗下的豆包(Doubao-Seed-2.0-pro-260215(high))表現(xiàn)搶眼,以71.53分的成績(jī)奪得國(guó)內(nèi)第一,成功躋身全球第一梯隊(duì)。該模型總分與排名第三的GPT-5.4僅相差0.95分,在智能體任務(wù)規(guī)劃維度更是超越部分海外模型,位列全球前五,展現(xiàn)出強(qiáng)勁的追趕勢(shì)頭。
小米集團(tuán)在此次測(cè)評(píng)中也有亮眼表現(xiàn),其MiMo-V2系列的兩款模型均成功上榜。其中,MiMo-V2-Pro以60.67分的成績(jī)?cè)陂]源模型中名列前茅,尤其在數(shù)學(xué)推理任務(wù)中取得84.03分的高分;另一款開(kāi)源版本MiMo-V2-Flash雖然總分49.97分排名相對(duì)靠后,但在代碼生成等細(xì)分場(chǎng)景中展現(xiàn)出一定潛力。
國(guó)產(chǎn)模型在此次測(cè)評(píng)中整體表現(xiàn)突出,特別是在開(kāi)源賽道上優(yōu)勢(shì)明顯。Kimi-K2.5-Thinking、Qwen3.5-397B-A17B-Thinking等國(guó)產(chǎn)開(kāi)源模型包攬了開(kāi)源榜前三名,與海外同類模型相比具有顯著領(lǐng)先優(yōu)勢(shì)。













