滾動資訊

當前位置：首頁 > 資訊 > 業界動態 > 正文內容

馬斯克點贊！Kimi 論文撼動大模型“祖傳地基”：同樣算力，效率提升 25%

時間：2026-03-19 11:02:26 來源：CHINAZ編輯：快訊 IP：北京 發表評論無障礙通道

同樣的算力與數據，憑什么有的模型效果更好?月之暗面（Moonshot AI）給出了一個直擊底層邏輯的答案。

3月16日，Kimi發布重磅技術報告《Attention Residuals》（注意力殘差）。該研究針對自2015年以來幾乎從未被變動的大模型“基石”——殘差連接（Residual Connections）進行了徹底重構。實驗證明，在相同算力下，新方法訓練出的模型效果等同于基線模型花費 1.25倍算力達成的水平。

這一突破迅速引發硅谷 AI 圈震動，在社交媒體公開評價其為“令人印象深刻的工作（Impressive work from Kimi）”。

Jerry Tworek（OpenAI o1主要發明者）: 稱其為“深度學習2.0”的開端。

為何要動“祖傳地基”?

傳統的殘差連接雖然解決了深層網絡難以訓練的問題，但其“等權相加”的方式過于粗暴。隨著網絡加深，每一層的新貢獻極易被龐大的累積信息淹沒，導致大量中間層淪為“無效干活”。

Kimi 的“優雅旋轉”:

團隊發現，深度方向上的信息丟失與 RNN 在時間維度上的遺忘在數學結構上高度一致。于是，他們將原本用于處理文字序列的“注意力機制”橫向轉動90度，應用到了縱向的深度維度上。

通過，每一層不再是被動接受疊加信息，而是通過一個微小的“查詢向量”，主動、有選擇性地決定從前面哪些層提取多少信息。為了解決大規模訓練中的內存開銷，團隊還創新性地提出了 Block AttnRes 方案，將網絡劃分為若干塊，在確保性能的同時，將推理延遲增量控制在 2% 以內。

在的實驗中，該架構展現了極強的泛化能力。在 GPQA-Diamond 科學推理任務上實現了 7.5% 的飛躍，數學與代碼生成任務也分別獲得了 3.6% 和 3.1% 的顯著增益。

正如創始人在 GTC2026演講中所言，行業正逐漸遭遇 Scaling 的瓶頸，必須對優化器、殘差連接等底層基石進行重構。當大多數人還在“高層精裝修”時，選擇下沉到最深處，用一記重錘撬動了深度學習的未來。

更多>同類資訊

Meta 內部 AI 代理失控引發數據泄露，事故定性為 Sev1級安全事件

03-19

?DeepSeek V4 招聘泄露玄機：AI 編程將成核心突破口

03-19

Google DeepMind 升級 Gemini API，引入多工具鏈與上下文循環功能

03-19

完成網友愿望！雷軍官宣小米汽車另一位代言人：舒淇

03-19

?谷歌力推“氛圍設計”：Stitch 迎來更新，支持語音驅動 UI 開發

03-19

淘寶百億補貼上線“養龍蝦硬件”專場:Mac mini現貨補貼至3999元

03-19

機器人租賃賽道升溫：價格理性回歸，訂單量爆發，應用場景持續拓展

03-19

小米推出全模態基座模型Xiaomi MiMo-V2-Omni，多領域表現卓越且開放API服務

03-19

Kimi“注意力殘差”創新：為Transformer架構添磚而非顛覆

03-19

雷軍官宣舒淇成小米汽車新代言人蘇炳添也同為代言人共筑品牌新輝煌

03-19

雷軍官宣新一代小米SU7 3月19日發布，配置升級價格微漲，備產交付全力推進

雷軍表示，這款車是承載所有向往的“DreamCar”，在第一代SU7的基礎上經過兩年的潛心打磨，安全性、駕控、智能體驗和豪華質感都有顯著提升。雷軍強調，新一代SU7的上市時間較之前預期有所提前，1月時曾透露該…

03-19

6元綠皮火車成武漢“頂流”！有人攜茶具打卡有人專程跨省體驗

章櫻笑著說，大家平時散在武漢各地——漢口的、武昌的、光谷的，6個人竟然在這見面了。列車員告訴記者，今天這趟車在武漢東站上了約1000名乘客，多是來體驗游玩的。市民何女士在車上就和旁邊的乘客交流起了攻略：“…

03-19

青綠之間見初心：張耀南用一生為泰山織就生態錦繡畫卷

眼前荒蕪的場景，讓剛剛來到泰山林場的張耀南十分震驚，同時也在他心里埋下了堅定的種子：“要把泰山建設得更加美麗富饒。”在綠化泰山的同時，張耀南的目光從未局限于“栽樹” 二字，而是將泰山的長遠發展刻進了心底。在…

03-19

AWE 2026：石頭科技三款新品齊發，以技術革新引領全屋清潔新變革

從探索到普及，系統級智能走進千萬家庭本屆AWE上，石頭科技通過G-Rover、G30S Pro與P20 Max三款產品，呈現了清晰的技術落地路徑：G-Rover以輪足架構突破樓梯這一掃地機器人的終極物理邊界…

03-19

九章云極DataCanvas出品：2026年OpenClaw新手入門全攻略來襲

Skill（技能）是OpenClaw的核心擴展能力，為可復用的能力包，遵循特定文件結構與設計原則，用戶可從資源站點安裝現有技能，也能自定義開發，還可通過相關命令進行技能的查看、調用、更新與回退，文檔推薦了效…

03-19

點擊查看更多 +

全站最新

青綠之間見初心：張耀南用一生為泰山織就生態錦繡畫卷

中東局勢成最大變數！美聯儲按兵不動，鮑威爾重磅發聲

臺股跌1.5%

AWE 2026：石頭科技三款新品齊發，以技術革新引領全屋清潔新變革

硬核安全+全面升級！2026款銀河E5成10-15萬級純電SUV優選

云從科技在國家網安基地打造首個安全可控AI智能體“養殖場”

熱門內容

本欄最新

6元綠皮火車成武漢“頂流”！有人攜茶具打卡有人專程跨省體驗

青綠之間見初心：張耀南用一生為泰山織就生態錦繡畫卷

AWE 2026：石頭科技三款新品齊發，以技術革新引領全屋清潔新變革

九章云極DataCanvas出品：2026年OpenClaw新手入門全攻略來襲

全球AI應用需求攀升推高成本百度智能云2026年4月部分產品漲價5%至30%

廣汽新作啟境GT7來襲，獵裝轎跑新選擇，或成小米SU7強勁對手

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR比爾科技官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

馬斯克點贊！Kimi 論文撼動大模型“祖傳地基”：同樣算力，效率提升 25%