月之暗面Kimi團隊近日在人工智能領域投下一枚重磅炸彈——其發布的《Attention Residuals》(注意力殘差)技術報告,通過重構深度學習核心組件"殘差連接",為大規模模型訓練開辟了全新路徑。這項突破性成果不僅引發全球AI社區的熱烈討論,更獲得特斯拉創始人埃隆·馬斯克"令人印象深刻"的高度評價,被多位硅谷頂尖學者視為深度學習架構演進的重要里程碑。
傳統殘差網絡自2015年提出以來,始終是支撐萬億參數模型訓練的基石技術。其通過跨層恒等映射緩解梯度消失問題的設計,使神經網絡得以突破深度限制。但Kimi團隊在實驗中發現,這種"無差別求和"的信息融合方式存在顯著缺陷:當網絡層數超過百層時,早期特征在逐層傳遞中會因權重稀釋導致有效信息流失,同時統一求和機制迫使所有特征參與計算,造成約30%的冗余算力消耗。
針對這些痛點,研究團隊提出動態注意力殘差機制(Dynamic Attention Residuals, DAR)。該方案創新性地將殘差連接轉化為可學習的注意力模塊,使每層網絡能夠根據當前任務需求,動態分配不同歷史層輸出的關注權重。實驗數據顯示,在480億參數規模的模型訓練中,DAR架構使單步訓練時間縮短20%,同時將模型收斂所需的迭代次數減少25%,綜合訓練效率提升達1.25倍。
這項突破性成果由楊植麟、吳育昕、周昕宇三位聯合創始人領銜,聯合全球32位研究人員歷時18個月完成。研究團隊在報告中特別強調,DAR架構的兼容性優勢使其可無縫接入現有Transformer框架,僅需替換殘差連接模塊即可實現性能升級。目前,該技術已在代碼生成、多模態理解等復雜任務中驗證有效性,相關代碼庫已開源供學術界測試。
全球AI領域對這項研究給予高度關注。斯坦福大學人工智能實驗室主任克里斯托弗·曼寧指出:"這標志著深度學習從'堆砌算力'向'優化信息流'的范式轉變。"meta首席AI科學家楊立昆在社交媒體轉發時評論:"重新思考基礎組件的設計,往往比追求模型規模更有價值。"值得關注的是,馬斯克在評價中特別提到:"這種架構改進讓我想起當年從Sigmoid到ReLU的激活函數變革,看似微小卻影響深遠。"










