在大模型技術快速迭代的當下,如何在提升模型能力的同時有效控制算力消耗,成為行業關注的焦點。螞蟻集團最新發布的百靈大模型家族給出了創新性解決方案:通過混合線性注意力架構,在萬億參數規模下實現效率與性能的雙重突破。
此次發布的Ling-2.5-1T即時模型與Ring-2.5-1T思考模型,均基于自主研發的Ling 2.5架構。該架構突破傳統注意力機制的計算瓶頸,將長文本生成場景的顯存占用壓縮至傳統架構的十分之一,生成吞吐量提升至三倍。這種技術革新使模型在處理復雜任務時,既能保持高精度輸出,又能顯著降低資源消耗。
在數學競賽領域,Ring-2.5-1T展現出卓越實力。該模型在國際數學奧林匹克競賽(IMO 2025)和中國數學奧林匹克(CMO 2025)模擬測試中分別取得35分和105分的優異成績,達到金牌水平。開啟重度思考模式后,其在數學推理和代碼生成基準測試中全面超越同類開源及閉源模型,驗證了混合架構在復雜推理任務中的優勢。
傳統注意力機制雖具備強大的語義理解能力,但隨著文本長度增加,其計算復雜度呈平方級增長。線性注意力通過數學重構將復雜度降至線性水平,但在處理細粒度語義對齊時存在局限。混合架構通過分層分工策略,在關鍵層保留傳統注意力機制,其余層采用線性計算,實現計算效率與表達能力的動態平衡。
實現萬億參數規模的混合架構面臨多重挑戰。研究團隊通過分組混合設計,在每個層組中配置7層線性注意力與1層傳統注意力,經實驗驗證該比例在高計算預算下性能更優。針對訓練穩定性問題,開發團隊設計出自適應重計算量化技術,將FP8混合精度訓練效率提升50%至70%。推理端則通過優化線性注意力融合算子,支持更多推理模式,進一步提升吞吐量。
在架構改造過程中,研究團隊保留了QK歸一化、部分旋轉位置編碼等關鍵機制,確保模型遷移過程中表達能力不衰減。改造后的Ling-2.5-1T激活參數從510億增至630億,但推理吞吐量仍顯著提升,證明架構優化收益超過參數增長帶來的負擔。通過持續預訓練和上下文窗口擴展訓練,該模型支持最高100萬token的超長文本處理。
基準測試數據顯示,在AIME 2026評測中,Ling-2.5-1T以平均5890個token的輸出長度逼近前沿思考模型水平,而后者需要生成1.5萬至2.3萬個token才能完成同等任務。在長文本處理基準測試中,該模型在16K至256K token范圍內表現優于采用MLA/DSA架構的主流模型。工程實踐驗證顯示,在單機8卡H200配置下,其長文本生成解碼吞吐量顯著優于前代模型及同等參數量的競品。
實際應用場景中,優化后的長上下文能力使模型能夠處理復雜法律文書和財報分析任務。在知識產權質押糾紛案例中,模型嚴格遵循10余項多維指令約束,生成邏輯連貫的答復;在財報解讀場景中,可一次性完成數十頁文檔的信息抽取和財務指標計算。這些能力為企業級智能體構建和知識處理自動化提供了技術支撐。











