來自中國的AI企業月之暗面旗下Kimi團隊,憑借一項名為《Attention Residuals》(注意力殘差)的技術創新,在全球AI領域掀起新一輪討論熱潮。這項研究重新設計了深度學習領域沿用近十年的殘差連接結構,被OpenAI前研究副總裁Jerry Tworek評價為"深度學習2.0的序章",更引發特斯拉創始人馬斯克公開稱贊"令人印象深刻"。
傳統殘差連接機制自2015年ResNet論文提出以來,始終作為深度學習模型的"安全繩"存在。其核心邏輯是通過將每層輸出與輸入直接相加,確保信息在深層網絡中穩定傳遞。但這種"無差別累加"方式存在明顯缺陷:當模型層數超過百層時,早期層的關鍵信息會被后續層稀釋,迫使模型通過放大激活值維持訓練穩定性,最終導致計算效率下降和訓練成本攀升。Kimi團隊提出的注意力殘差方案,創新性地將固定加法替換為動態注意力機制,使模型能夠自主判斷各層信息的價值權重,如同為AI裝上"智能過濾器"。
技術突破帶來的效能提升立竿見影。實驗數據顯示,采用新架構的480億參數模型訓練效率提升1.25倍,在保持性能的同時顯著降低算力消耗。這種突破性進展不僅獲得學術界認可,更在商業領域引發連鎖反應:Kimi K2.5開源模型同時成為全球最大AI編程平臺Cursor和獨立搜索服務商Perplexity的唯一中國合作方,與OpenAI、Anthropic等國際頂尖模型同臺競技。海外API開放平臺日均訪問量在技術發布后激增10-20倍,個人訂閱支付訂單在兩個月內暴漲83倍,商業化的跨越式發展印證了技術落地的可行性。
在英偉達GTC 2026全球開發者大會上,月之暗面創始人楊植麟以《How We Scaled Kimi K2.5》為題,系統闡釋了技術突破背后的戰略思考。他指出,當前行業普遍使用的優化器、注意力機制等底層技術,本質上是八九年前的技術遺產,已逐漸成為智能上限突破的桎梏。Kimi團隊通過重構三大基石技術形成完整閉環:開發MuonClip優化器解決傳統Adam在超大規模訓練中的效率瓶頸;設計Kimi Linear混合線性注意力架構,在超長上下文場景下實現5-6倍解碼速度提升;最終以注意力殘差方案完成對殘差連接的結構性改造。
這種對技術范式的系統性重構,正在重塑全球AI競爭格局。Kimi團隊提出的"智能體集群"概念,通過Orchestrator機制將復雜任務拆解為數十個子任務并行處理,預示著未來AI將從單體智能向群體智能演進。資本市場的反應更為直接:公司估值在三個月內飆升至1200億元,融資規模超過多數大模型企業IPO募資額,創下行業新紀錄。當行業還在爭論"中國版ChatGPT"時,Kimi已通過底層技術創新,在全球AI技術演進中占據關鍵席位。
楊植麟在演講中特別強調研究范式的轉變。他指出,十年前受限于算力資源,研究者難以通過規模化實驗驗證理論假設,如今隨著"縮放階梯"的完善,AI研究正從經驗驅動轉向工程驅動。這種轉變使得Kimi團隊能夠以嚴謹的實驗方法,對沿用近十年的技術標準發起挑戰。從優化器到注意力機制,再到殘差連接,每個技術節點的突破都指向同一個目標:重新定義下一代模型架構的技術標準。









