在深度學習領域,一場關于模型架構創新的討論正愈演愈烈。近日,月之暗面團隊發布了一項突破性研究,提出了一種名為注意力殘差(Attention Residuals,簡稱AttnRes)的新型模型模塊,為深度學習模型的發展開辟了新路徑。這一成果不僅引發了學界和業界的廣泛關注,更得到了前OpenAI核心成員Jerry Tworek等知名學者的高度評價。
傳統Transformer架構中,殘差連接是確保深層網絡穩定訓練的關鍵設計。每一層的輸出會直接與前一層相加,形成"等權累加"的機制。這種設計雖然解決了梯度消失問題,但隨著模型層數增加,歷史層信息被簡單疊加,導致深層網絡表達能力受限。月之暗面的研究團隊敏銳地捕捉到了這一局限性,提出用動態注意力機制替代固定殘差連接的創新方案。
AttnRes的核心突破在于引入了可學習的權重分配機制。每層網絡不再被動接受前層輸出,而是通過注意力機制主動"檢索"歷史層中最有價值的信息。這種設計使模型能夠根據當前上下文動態調整信息聚合方式,有效緩解了深層網絡中的信息稀釋問題。研究團隊進一步提出的塊級注意力殘差(Block AttnRes)結構,通過將網絡劃分為多個計算塊,在保持靈活性的同時顯著降低了計算復雜度。
實驗數據顯示,將AttnRes集成到480億參數的Kimi Linear架構后,模型在1.4萬億token的預訓練中展現出顯著優勢。在數學推理、科學問答等復雜任務上,新模型性能提升超過20%,特別是在多步推理基準測試GPQA-Diamond中表現尤為突出。更令人矚目的是,Block AttnRes在驗證損失上達到1.692,相比基線模型1.714的成績,相當于提升了約25%的計算效率。
這項創新不僅體現在理論層面,更在工程實現上取得突破。研究團隊針對Block AttnRes帶來的通信開銷問題,開發了跨階段緩存機制,將訓練階段的額外開銷控制在4%以內。在推理階段,通過兩階段計算策略和序列分片技術,使內存延遲增加不超過2%,同時顯著降低了長上下文場景下的顯存需求。這些優化措施確保了新技術在實際應用中的可行性。
據研究團隊介紹,該成果是數十名研究員共同協作的結晶,其中Guangyu Chen、Yu Zhang和Jialin Su三位研究員貢獻最為突出。這項突破不僅展示了中國研究團隊在AI基礎架構領域的創新能力,也為全球深度學習社區提供了值得深入探索的新方向。隨著相關研究的持續推進,注意力機制在深度維度上的應用有望成為下一代模型架構的關鍵特征。













