4月10日消息,3月底智譜正式推出了GLM-5.1大模型,編程能力評分45.3分,號稱比全球最強的Opus 4.6只低了2.6分。
前兩天GLM-5.1大模型也正式開源,也深受開發者喜愛,現在最新的排名也來了——全球權威AI評測平臺LMArena(百萬用戶參與盲測)更新Code Arena專項榜單,GLM-5.1登頂全球開源模型第一,位列全球模型第三。
除了榜單表現優秀,根據智譜的說法,GLM-5.1不僅繼承了上一代模型的開源SOTA編碼能力,還在長程任務(Long-Horizon Task)上取得突破,實現了:
·8小時從零構建Linux桌面
·655次迭代打破向量數據庫優化瓶頸
·1000輪工具調用優化真實機器學習模型負載
值得一提的是,在METR榜單的同等評估標準下,GLM-5.1是唯一達到8小時級持續工作的開源模型,也是全球范圍內除Claude Opus 4.6外少數具備這一能力的模型。
此前智譜提到,GLM-5.1大大提高了代碼能力,在完成長程任務方面提升尤為顯著。
在最接近真實軟件開發的SWE-bench Pro基準測試中,GLM-5.1刷新全球最佳成績,超過GPT-5.4、Claude Opus 4.6。SWE-Bench Pro要求模型在真實GitHub倉庫中定位并修復高難度工程Bug,是衡量模型能否勝任專業軟件開發的最硬指標。











