春節(jié)前后,國產(chǎn)大模型領(lǐng)域迎來新一輪激烈角逐,多家企業(yè)密集發(fā)布新品,試圖復(fù)刻DeepSeek此前創(chuàng)造的奇跡,將新年視為技術(shù)比拼的重要戰(zhàn)場。其中,上海大模型企業(yè)MiniMax的表現(xiàn)尤為亮眼,其推出的新一代文本模型MiniMax M2.5引發(fā)全球關(guān)注。
2月12日,MiniMax Agent正式上線M2.5,次日便向全球開源,支持本地化部署。消息一出,全球用戶迅速響應(yīng),在MiniMax Agent上構(gòu)建了超過1萬個“專家”,且數(shù)量仍在持續(xù)攀升。M2.5被業(yè)界稱為“王炸”,其性能幾乎與美國AI公司Anthropic開發(fā)的Claude Opus 4.6持平,但價格卻低得驚人。就連當下最火的開源個人AI代理項目OpenClaw之父彼得·斯坦伯格也忍不住轉(zhuǎn)發(fā)評價,稱其性能比肩Claude Opus 4.6,價格卻便宜20倍。
作為一款定位為“原生Agent生產(chǎn)級模型”的產(chǎn)品,M2.5具備強大的自動化能力,能夠自動編寫代碼、調(diào)用工具、分析數(shù)據(jù)并生成報告。在編程領(lǐng)域,M2.5的表現(xiàn)堪稱卓越。在SWE-Bench Verified這一編程最硬核的榜單上,M2.5取得了80.2%的高分,與Claude Opus 4.6僅有微弱差距;在多語言任務(wù)Multi-SWE-Bench上,M2.5更是超越Claude Opus 4.6,一舉奪得榜首。在辦公場景中,M2.5同樣表現(xiàn)出色,無論是Word、PPT、Excel操作,還是金融建模等高階任務(wù),它都能輕松應(yīng)對。在測評框架GDPval-MM與主流模型的對比中,M2.5取得了59%的平均勝率,其生成的表格格式規(guī)整,數(shù)據(jù)分類清晰,仿佛出自嚴謹?shù)摹皬娖劝Y”員工之手。
更令人驚嘆的是,M2.5在擁有強大能力的同時,還解決了模型“貴”和“慢”兩大痛點。其激活參數(shù)量僅10B,在全球同類第一梯隊旗艦?zāi)P椭小绑w型”最小。在推理速度方面,M2.5達到了100TPS(每秒事務(wù)數(shù)),是主流模型的約兩倍;輸入價格約0.3美元/百萬Token,輸出約2.4美元/百萬Token。按每秒輸出100Token計算,1美元就能讓智能體連續(xù)工作一小時,堪稱“白菜價”。在算力短缺的時代,M2.5以顛覆式創(chuàng)新實現(xiàn)了模型不降智、不卡頓、體驗優(yōu),成為MiniMax在大模型競爭中脫穎而出的核心優(yōu)勢。
有趣的是,較MiniMax早一天在港交所上市的智譜AI,也在近期發(fā)布了智譜GLM-5,同樣將Claude Opus 4.6作為對標對象。這使得Claude Opus 4.6受到了中國一南一北兩大模型的“夾擊”。智譜GLM-5在編程和智能體能力上取得了開源模型的佳績,有開發(fā)者使用后認為,其在真實編程場景的使用體驗已逼近Claude最強模型,而Claude的編程能力在業(yè)內(nèi)處于第一梯隊。在全球權(quán)威的Artificial Analysis榜單中,GLM-5位居全球第四、開源第一。智譜將GLM-5形容為“系統(tǒng)架構(gòu)師”,意味著AI大模型未來不再局限于寫代碼完成單一功能,而是要像工程師一樣構(gòu)建系統(tǒng),甚至將功能任務(wù)分配給不同智能體完成。在代理編程測試中,智譜GLM-5略勝Claude一籌。
除了文本模型領(lǐng)域的激烈競爭,圖像生成模型領(lǐng)域也熱鬧非凡。2月10日,千問發(fā)布了新款圖像生成模型Qwen-Image 2.0,支持1000個詞元的超長指令,推理能力也得到顯著增強。千問開發(fā)團隊表示,以前用AI生成圖像時,受限于推理能力,圖片中的漢字經(jīng)常出現(xiàn)“牛頭不對馬嘴”或亂碼的情況,但隨著指令理解和推理能力的提升,AI圖片生成的“漢字難題”將成為歷史。幾乎同一時間,字節(jié)跳動也發(fā)布了同類模型Seedream 5.0,文生圖能力再次取得突破。
在大語言模型方面,也有新的進展。近日,DeepSeek悄然上線了一款新模型,雖然并非備受期待的V4,但同樣令人驚喜。這款新模型雖不具備多模態(tài)識別能力,卻將上下文處理能力提升至100萬詞元,相當于可以一次性閱讀理解全套《三體》共計約90萬字。一名智能體開發(fā)者表示,目前支持上下文理解百萬級詞元的模型并不多,如谷歌的Gemini和Anthropic的Claude,DeepSeek此次更新也算是“跟上步伐”了。
據(jù)了解,這一波大模型“上新潮”遠未結(jié)束,豆包2.0、千問3.5等旗艦?zāi)P鸵矊⒃诮诎l(fā)布,國產(chǎn)大模型領(lǐng)域的競爭將愈發(fā)激烈。










