深度思考模型長期面臨一個棘手的挑戰:若要實現嚴密的邏輯推理,往往需要犧牲解碼速度,同時承受巨大的顯存消耗。這一困境如同“不可能三角”,制約著模型性能的進一步提升。為突破這一瓶頸,行業普遍采用混合專家模型(MoE)架構,通過部分參數激活來降低算力需求,DeepSeek、Kimi、MiniMax等頭部模型均沿用了這一路徑。
近日,螞蟻集團宣布開源全球首個基于混合線性架構的萬億參數思考模型——Ring-2.5-1T。該模型通過架構創新,首次同時實現了推理速度、深度思考能力與長程任務執行效率的協同優化。在數學競賽評測中,Ring-2.5-1T以IMO金牌級35分(滿分42)和CMO 105分(遠超國家集訓隊分數線)的成績證明其邏輯嚴謹性;在32K以上長文本生成場景中,其訪存規模較上一代降低90%,生成吞吐量提升超3倍,為搜索、編碼等復雜任務提供了高效解決方案。
Ring-2.5-1T的核心優勢源于其底層架構的突破性設計。該模型基于Ling 2.5架構,采用混合線性注意力機制,將MLA(多頭潛在注意力)與Lightning Linear Attention以1:7的比例融合。這一設計源自螞蟻此前發布的Ring-flash-linear-2.0技術路線,通過增量訓練將原有GQA(分組查詢注意力)層轉化為兩種注意力模塊:Lightning Linear Attention負責長程推理中的吞吐量提升,MLA則極致壓縮KV Cache以減少顯存占用。為彌補架構改造可能導致的表達能力損失,研發團隊引入了QK Norm和Partial RoPE等特性,使激活參數量從上一代的51B提升至63B,同時憑借線性時間復雜度特性,推理效率實現質的飛躍。與同參數量級但僅32B激活參數的Kimi K2架構相比,Ling 2.5架構在長序列任務中的吞吐優勢隨生成長度增加持續擴大,徹底改變了長程推理“高成本、低效率”的行業現狀。
邏輯嚴謹性是深度思考模型的另一大核心指標。Ring-2.5-1T在訓練階段引入密集獎勵機制,突破傳統強化學習僅關注最終答案正確性的局限,通過逐步考察推理過程的每個環節,顯著提升模型對邏輯漏洞的識別能力與高階證明技巧的運用水平。團隊采用大規模全異步Agentic RL訓練方法,增強模型在搜索、編碼等長鏈條任務中的自主執行能力,使其從“數學解題專家”進化為“復雜場景智能體”。
在基準測試中,Ring-2.5-1T與DeepSeek-v3.2-Thinking、Kimi-K2.5-Thinking等開源模型,以及GPT-5.2-thinking-high、Gemini-3.0-Pro-preview-thinking-high等閉源API展開全面對比。結果顯示,該模型在IMOAnswerBench、AIME 26等高難度推理任務,以及Gaia2-search、Tau2-bench等長時任務執行基準上均達到開源最優水平。在Heavy Thinking模式下,其數學競賽與代碼生成能力更超越所有對比模型,包括閉源API。以IMO 2025為例,Ring-2.5-1T以35分斬獲金牌,CMO 2025則以105分遠超金牌線78分與國家集訓隊選拔線87分,較上一代Ring-1T在推理嚴謹性、證明技巧運用與答案完整性上均有顯著提升。
為推動技術生態落地,Ring-2.5-1T已完成對Claude Code、OpenClaw等主流智能體框架的適配,支持多步規劃與工具調用。目前,模型權重與推理代碼已在Hugging Face、ModelScope等平臺開放下載,官方Chat體驗頁與API服務即將上線。同期,螞蟻集團還發布了擴散語言模型LLaDA2.1與全模態大模型Ming-flash-omni-2.0:前者采用非自回歸并行解碼技術,推理速度達535 tokens/s,在Humaneval+編程任務中突破892 tokens/s,并具備Token編輯與逆向推理能力;后者則實現視覺、音頻、文本的統一表征與生成,支持實時感官交互,為多模態創作提供底層能力支撐。螞蟻inclusionAI團隊表示,將持續聚焦視頻時序理解、復雜圖像編輯與長音頻實時生成等技術方向,推動全模態能力的規模化應用。
隨著AI應用場景從短對話向長文檔處理、跨文件代碼理解與復雜任務規劃延伸,深度思考模型的效率瓶頸日益凸顯。Ring-2.5-1T通過架構重構,為行業提供了一條兼顧性能、成本與擴展性的技術路徑。當“高速、精準、深度”不再相互制約,深度思考模型的應用邊界正被重新定義。











