在評估模型編程能力的權威榜單SWE-bench Verified上,幾款主流大模型的成績差距微乎其微:Claude Opus 4.6以80.8%的得分領跑,Gemini 3.1 Pro和MiniMax 2.5分別以80.6%和80.2%緊隨其后,GLM-5和Kimi K2.5也分別達到77.8%和76.8%。這種近乎“平局”的局面讓開發者陷入選擇困境——僅憑榜單分數已難以判斷模型的實際價值。
然而,模型調用平臺OpenRouter的最新數據揭示了另一番景象:自某款新模型發布后,平臺上的token調用量呈現爆發式增長,其中100K-1M長文本任務占比顯著提升,這類任務正是智能體(Agent)工作流的核心消耗場景。這款引發行業關注的模型正是MiniMax M2.5——其發布后七天內便創下3.07T tokens的調用紀錄,遠超同類產品。
這一現象折射出行業趨勢的轉變:標準化評測的權重正在下降,真實場景中的用戶體驗成為關鍵。當模型性能趨于同質化,開發者更關注模型能否解決實際痛點,而非紙面數據的微弱優勢。MiniMax M2.5的崛起正是這一邏輯的生動例證。
作為一款總參數達230B但激活參數僅10B的模型,M2.5在部署效率上形成獨特優勢。它既非傳統意義上的端側模型,卻成為私有化部署領域最友好的選擇——這種“甜點位”設計源于實戰經驗,在頭部模型中獨樹一幟。價格策略同樣精準:通過工程優化與算法創新,M2.5在性能提升的同時維持價格穩定,直擊開發者對成本波動的敏感神經。
在核心能力構建上,M2.5選擇聚焦編程與Agent場景,形成差異化競爭力。其編程性能的提升并非依賴簡單的結果對標,而是將代碼工程思維與開發流程深度融入模型訓練。例如,模型具備的“原生Spec行為”能夠像架構師一樣拆解功能需求、設計系統結構,甚至規劃UI界面,實現從需求分析到代碼生成的完整閉環。這種能力使M2.5在SWE-bench Verified榜單取得80.2%成績的同時,以約1元/小時的成本提供100 tokens/秒的吞吐量,形成“性價比護城河”。
工程優化層面,M2.5在推理環節實現多維度突破:通過平衡吞吐與穩定性的Windowed FIFO算法、合并重復前綴的40倍效率提升技術,以及樹狀結構優化等手段,持續降低業務壓力。這些改進并非孤立存在,而是構成系統性工程能力,確保模型在復雜場景下的穩定運行。
技術創新方面,MiniMax推出的RL框架Forge成為M2.5的核心競爭力。該框架針對Agent訓練的復雜性,提出“解耦式”解決方案:將Agent與環境抽象為獨立模塊,通過中間層實現物理隔離與智能調度。這種設計不僅解決了傳統訓練中Agent能力與模型基礎功能混雜的問題,更開辟了新的規模化路徑——通過集成多種Agent框架進行訓練,模型獲得跨場景泛化能力,能夠適配各類未見過的“腳手架”工具。
M2.5的研發邏輯深植于MiniMax的內部需求。公司團隊在開發各類Agent過程中發現,現有模型難以在效果、成本與速度間取得平衡。這種“不可能三角”困境促使他們將自身需求轉化為研發方向:從M1到M2.5,模型價格持續下探至Claude主力模型的1/12,甚至被形容為“1萬美元支持4個Agent全年無休運行”的解決方案。與此同時,編程能力強化、Forge框架開發及推理優化等舉措,共同推動模型效果與速度的雙重提升。
這種“從內部需求出發”的研發模式,使MiniMax能夠精準捕捉開發者痛點。當模型團隊自身在Agent適配中經歷過絕望與抓狂,他們開發出的解決方案才更具實用價值。M2.5的案例表明,當模型公司成為最嚴苛的用戶,其創新方向往往與行業需求高度契合——因為解決自身困局的過程,本質上就是定義下一代生產力工具的標準。











