滾動資訊

當前位置：首頁 > 資訊 > 業界動態 > 正文內容

DeepSeek與字節跳動：殘差流創新路上攜手破局共啟AI新征程

時間：2026-01-15 17:53:39 來源：互聯網編輯：快訊 IP：北京 發表評論無障礙通道

在人工智能領域，一場關于神經網絡架構創新的突破正引發廣泛關注。DeepSeek團隊近期發表的核心論文，提出了一種名為流形約束超連接（mHC）的新型架構，為解決大規模模型訓練中的穩定性難題提供了新思路。這項研究不僅為硬件資源受限的中國AI企業開辟了新的發展路徑，也與字節跳動此前在殘差流優化方面的探索形成了技術呼應。

自2016年ResNet架構問世以來，殘差連接憑借其獨特的"捷徑連接"設計，成為深度學習模型的骨架式結構。這種設計通過繞過非線性變換層，有效緩解了梯度消失或爆炸的問題，支撐起更深的模型結構。然而，長期以來，業界創新多集中在注意力機制、混合專家（MoE）等模塊，殘差流本身的技術演進相對緩慢，直至字節跳動在2024年推出超連接（HyperConnection）技術。

字節跳動的超連接技術通過拓寬殘差流寬度、構建多路并行信號流，并引入流間交互學習機制，顯著提升了模型的表達能力。但在規模化訓練過程中，該技術暴露出信號發散的致命缺陷。DeepSeek的測試數據顯示，在270億參數模型的訓練中，使用超連接架構的模型在約12000步訓練后出現梯度范數劇烈波動，導致訓練崩潰；更嚴重的是，信號強度在第60層膨脹至輸入值的3000倍。

DeepSeek團隊深入分析了這一問題的根源：超連接技術為追求更強的表達能力，放棄了殘差連接原有的恒等映射約束。這種設計在小規模模型中可通過調參掩蓋缺陷，但在大規模訓練場景下，問題會被急劇放大。基于此，mHC架構提出了創新性解決方案——將可學習的變換矩陣約束在雙重隨機矩陣構成的流形空間上。

雙重隨機矩陣的數學特性為信號傳播設立了"剛性預算"：矩陣每行、每列元素之和均為1且非負，確保輸出信號強度嚴格介于輸入信號的最大最小值之間。這種約束機制從根本上杜絕了信號爆炸的可能。更關鍵的是，雙重隨機矩陣具有組合不變性，即使多層疊加仍能保持穩定。實驗表明，在相同訓練場景下，mHC架構的信號放大峰值僅為1.6倍，遠低于超連接技術的3000倍。

為控制計算開銷，研究團隊采用Sinkhorn-Knopp迭代算法進行矩陣投影，僅需20輪迭代即可收斂，將額外訓練成本控制在6.7%以內。針對硬件約束帶來的系統級挑戰，DeepSeek實施了三項關鍵優化：通過算子融合減少數據搬運；采用反向傳播重計算技術以計算換內存；運用流水線并行優化掩蓋通信延遲。這些優化將內存開銷從隨層數線性增長轉化為可由模塊大小控制的有界開銷。

配合基于TileLang編寫的混合精度內核（以bfloat16為主，float32保障關鍵精度），mHC架構實現了全參數規模下的穩定性能提升。測試數據顯示，30億至270億參數模型搭載該架構后均表現優異：270億參數模型在BIG-Bench Hard復雜推理任務上提升2.1%，在DROP閱讀理解任務上提升2.3%。這些成果驗證了mHC架構在保持模型性能的同時，顯著提升了訓練穩定性。

值得注意的是，DeepSeek選擇通過arXiv、Hugging Face等開放平臺發布研究成果，這種策略雖犧牲了部分傳統學術聲望，卻換來了技術傳播的速度與廣度。當mHC架構的性能增益可量化、實現可復現時，全球AI實驗室都面臨新的技術選擇：要么跟進類似技術路線，要么必須論證自身路徑的優越性。這種開放模式加速了知識擴散，也形成了直接的技術競爭壓力。

此前，DeepSeek的R1模型已引發推理模型研發熱潮，而mHC架構的推出很可能推動殘差流優化進入新的迭代周期。更深遠的影響在于，這項研究向全球AI界傳遞了明確信號：在硬件資源受限的條件下，中國AI企業正通過數學創新和系統優化走出獨特發展道路。這種"在約束中創新"的模式，正在重塑AI競賽的技術格局。

隨著業界對下一代旗艦模型的期待升溫，mHC架構的工業化應用成效即將迎來關鍵檢驗。無論最終基準測試結果如何，這項研究已證明：AI技術的發展不只有"堆砌算力"這一條路徑，硬件限制反而可能成為催生核心突破的催化劑。當技術創新回歸數學本質，中國AI企業正在書寫新的技術進化篇章。

更多>同類資訊

前OpenAI高管穆拉蒂新公司動蕩：兩位聯合創始人離職，轉身重返OpenAI

01-15

李小龍：華為手表適配多品牌手機，國內超三成用戶非華為手機持有者

01-15

馬斯克否認Grok涉兒童色情圖像問題加州檢方介入調查xAI違法疑云

01-15

沃爾沃EX60純電SUV 1月21日發布，谷歌Gemini AI加持配大豎屏

01-15

2025年中國大陸智能手機市場出貨微降1%，華為全年及Q4均表現亮眼

01-15

雷軍今晚8點再開直播，攜媒體人與博士共話小米SU7新進展

01-15

Robotaxi競爭白熱化：百度蘿卜快跑加速布局，多家企業競逐商業化落地

01-15

華為乾崑ADS4.1版本將至：優化智駕體驗新增多項安全輔助功能

01-15

雷軍談小米SU7改款：保值率或降，但2025年Q4仍居榜首

01-15

Anthropic、OpenAI與SpaceX齊步邁向IPO，2026或迎科技上市狂潮

01-15

字節入局微信生態：兩款短劇小程序上線，廣告解鎖模式引關注

01-15

巨日祿領跑AI漫劇后強勢進軍真人劇賽道技術賦能內容創作效率升級

01-15

DeepSeek與字節跳動：殘差流創新之路上的接力與突破

這一工作為硬件受限的中國 AI企業開辟了一條兼顧性能與效率的路徑，也與字節跳動早前在殘差流優化上的探索形成關鍵呼應，二者均瞄準殘差連接這一模型基礎架構進行改造。字節跳動的超連接通過拓寬殘差流寬度、構建多…

01-15

阿里千問“千問小講堂”上線：作業秒判錯題分析拍題答疑免費看

來源：市場資訊（來源：IT之家）此外，其支持“拍題答疑”功能，包含千萬個真人老師講題視頻，且全部免費，號稱每一位老師的“AI助教”。此外，千問 App 全面接入高德掃街榜，并推出 AI 打電話訂餐廳的功能…

01-15

阿里通義千問“千問任務助理1.0”邀測開啟，超400場景助力AI購物新體驗

1月15日，阿里巴巴旗下通義千問今日正式上線“千問任務助理1.0”，目前以定向邀請測試形式對外開放，并計劃在邀測階段結束后向用戶全面免費開放。阿里集團副總裁吳嘉介紹，該產品旨在處理數字世界的多種任務，其核心…

01-15

點擊查看更多 +

全站最新

吉利新年限時特惠來襲！第4代帝豪4.88萬起繽越超能版5.88萬起

京東物流濰坊新倉啟航：超1.4萬平米倉儲空間日均出庫量破2萬單

科技與創意交融：2700平互聯網公司辦公空間設計新典范

絕味食品“熱鹵杯”冬季爆火：精準洞察需求，開辟鹵味新賽道

世優科技AI數字人“桂飛飛”落地南寧機場，開啟智慧出行服務新篇章

熱門內容

本欄最新

京東物流濰坊新倉啟航：超1.4萬平米倉儲空間日均出庫量破2萬單

絕味食品“熱鹵杯”冬季爆火：精準洞察需求，開辟鹵味新賽道

提前三月官宣！新一代小米SU7 4月上市，路測超1500萬公里有底氣

雷軍放話特斯拉可戰勝小米SU7成績亮眼新能源汽車市場競爭格局生變

雷軍1月15日晚8點再開直播攜媒體人及技術專家詳解新一代SU7與輔助駕駛新進展

雷軍官宣新一代SU7臨近發布！展車將提前到店，今晚直播再聊新進展

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

DeepSeek與字節跳動：殘差流創新路上攜手破局 共啟AI新征程

DeepSeek與字節跳動：殘差流創新路上攜手破局共啟AI新征程