一位年僅17歲的高中生以共同第一作者身份參與了一項突破性研究,將注意力機制引入深度神經網絡的殘差連接中,這項成果引發了科技界的廣泛關注。該研究由Kimi團隊完成,提出了名為Attention Residuals的創新技術,通過重新設計神經網絡層間的信息傳遞方式,顯著提升了模型訓練效率。
這項技術突破面臨的首要挑戰是計算復雜度問題。在100層網絡中,若對每層都進行全注意力計算,復雜度將呈平方級增長。為解決這一難題,研究團隊開發了Block AttnRes方法,通過將連續層劃分為塊并在塊內進行信息壓縮,將計算復雜度從O(L2)降至O(L·B),其中B為塊數且取值較小。
實驗驗證階段,團隊在自研的Kimi Linear 48B大模型上進行了測試。該模型采用線性注意力機制,激活參數為3B。結果顯示,在保持推理延遲增加不到2%的前提下,訓練效率提升了25%。在數學推理、代碼生成和多語言理解等任務中,新模型均展現出持平或優于基線的性能表現。
這項研究的特別之處在于其實現方式的簡潔性。Attention Residuals技術可直接替代傳統殘差連接,無需修改網絡其他部分。研究團隊將其視為"時間-深度對偶性"的具體應用,認為深度神經網絡的層處理與循環神經網絡的時間步處理在本質上都是對信息的迭代加工。
共同第一作者團隊陣容引人注目。除17歲的陳廣宇外,還包括旋轉位置編碼(RoPE)提出者蘇劍林和Kimi Linear第一作者張宇。這位年輕的高中生作者通過黑客松活動進入AI領域,在硅谷實習期間參與了涉及144張H100顯卡的探索性項目,其成長軌跡展現了非傳統科研路徑的可能性。
技術細節方面,Attention Residuals的實現包含三個關鍵步驟:首先生成可學習的偽查詢向量,其次將所有前序層輸出作為鍵值對,最后通過注意力機制進行加權聚合。工程優化方面,團隊采用了緩存式流水線通信、序列分片預填充等技術進一步提升效率。






