深度思考模型領域長期存在一個棘手難題:若要實現嚴密的推理邏輯,就必須承受極慢的解碼速度和巨大的顯存消耗。為突破這一困境,目前行業普遍采用混合專家模型(MoE)架構,通過激活部分參數來節省算力,DeepSeek、Kimi、MiniMax等頭部模型均采用此架構。
如今,螞蟻集團為這一難題提供了全新解法。該集團正式開源了全球首個基于混合線性架構的萬億參數思考模型——Ring-2.5-1T。這一模型成功實現了推理速度快、深度思考強、長程任務執行能力突出的三重突破,打破了以往深度思考模型難以兼顧這三項性能的局限。
在性能評測中,Ring-2.5-1T表現亮眼。在數學競賽領域,它在國際數學奧林匹克競賽(IMO)中取得35分(滿分42分),達到金牌水平;在中國數學奧林匹克競賽(CMO)中斬獲105分,遠超國家集訓隊分數線。在長文本生成場景中,面對32K以上的長文本,其訪存規模僅為上一代的十分之一,生成吞吐量提升超過3倍,在搜索、編碼等復雜任務中展現出強大實力。
Ring-2.5-1T的速度優勢源于其底層架構的創新。該模型基于Ling 2.5架構,采用混合線性注意力機制,以1:7的比例混合MLA(多頭潛在注意力)和Lightning Linear Attention兩種注意力模塊。這一設計源自螞蟻此前發布的Ring-flash-linear-2.0技術路線。研發團隊通過增量訓練,將原有架構中的GQA(分組查詢注意力)層轉化為Lightning Linear Attention和MLA:前者負責在長程推理中提升吞吐量,后者則極致壓縮KV Cache。為防止模型表達能力因架構改造受損,團隊還適配了QK Norm和Partial RoPE等特性。經過改造,Ring-2.5-1T的激活參數量從上一代的51B提升至63B,但憑借線性時間復雜度的特性,推理效率大幅提升。與同為1T參數量級、僅有32B激活參數的Kimi K2架構相比,Ling 2.5架構在長序列推理任務中的吞吐優勢顯著,且隨著生成長度增加,效率優勢持續擴大。這意味著長程推理不再是高成本、高硬件要求的操作,而是可以規模化部署的輕量級方案。
在思維訓練方面,Ring-2.5-1T在RLVR(基于可驗證獎勵的強化學習)基礎上引入密集獎勵機制。與傳統僅關注最終答案正確性的方式不同,該機制會逐步考察推理過程中每個環節的嚴謹性,使模型在邏輯漏洞和高階證明技巧上得到顯著提升。團隊還引入大規模全異步Agentic RL訓練,大幅增強了模型在搜索、編碼等長鏈條任務上的自主執行能力,讓Ring-2.5-1T從單純的數學證明高手進化為能在復雜實戰場景中獨當一面的智能體。
在與開源模型DeepSeek-v3.2-Thinking、Kimi-K2.5-Thinking,以及閉源API GPT-5.2-thinking-high、Gemini-3.0-Pro-preview-thinking-high、Claude-Opus-4.5-Extended-Thinking等對比中,Ring-2.5-1T在高難度推理任務(如IMOAnswerBench、AIME 26、HMMT 25、LiveCodeBench)和長時任務執行基準(如Gaia2-search、Tau2-bench、SWE-Bench Verified)上,均達到開源最優水平。在Heavy Thinking模式下,Ring-2.5-1T在多項數學競賽和代碼生成基準中超越所有對比模型,包括上述閉源API。尤其在IMO 2025(滿分42分)中取得35分,達到金牌水平;在CMO 2025(滿分126分)中獲得105分,大幅超過金牌線78分和國家集訓隊選拔線87分。與上一代Ring-1T相比,新模型在推理邏輯的嚴謹性、高級證明技巧的運用和答案表述的完整性上均有明顯進步。
在生態適配與開源落地方面,Ring-2.5-1T已適配Claude Code和OpenClaw等主流智能體框架,支持多步規劃與工具調用。模型權重與推理代碼已在Hugging Face、ModelScope等平臺同步開放,官方Chat體驗頁和API服務也即將上線。除Ring-2.5-1T外,螞蟻集團同期還發布了擴散語言模型LLaDA2.1和全模態大模型Ming-flash-omni-2.0。LLaDA2.1采用非自回歸并行解碼技術,推理速度達535 tokens/s,在Humaneval+編程任務中甚至達到892 tokens/s,還具備獨特的Token編輯與逆向推理能力;Ming-flash-omni-2.0則在視覺、音頻、文本的統一表征與生成上實現突破,打通多模態的感知與創作能力,支持實時感官交互。螞蟻inclusionAI團隊計劃將這些能力做成可復用的底座方案,為開發者提供統一的能力入口,并將在視頻時序理解、復雜圖像編輯和長音頻實時生成等方向持續發力,推動全模態技術的規模化落地。
隨著AI大模型應用場景從短對話向長文檔處理、跨文件代碼理解、復雜任務規劃等領域延伸,深度思考模型的效率瓶頸愈發突出。Ring-2.5-1T通過底層架構的重構,為行業提供了一條兼顧性能、成本與擴展性的技術路徑,有望推動深度思考模型在更多領域的應用。











