滾動資訊

當(dāng)前位置：首頁 > 資訊 > 業(yè)界動態(tài) > 正文內(nèi)容

DeepSeek與字節(jié)跳動：突破殘差流困局共探AI創(chuàng)新新路徑

時間：2026-01-15 10:18:28 來源：互聯(lián)網(wǎng)編輯：快訊 IP：北京 發(fā)表評論無障礙通道

中國AI領(lǐng)域近期迎來一項突破性進展，DeepSeek團隊在神經(jīng)網(wǎng)絡(luò)架構(gòu)設(shè)計上取得重要成果，提出名為流形約束超連接（mHC）的創(chuàng)新架構(gòu)，為大規(guī)模模型訓(xùn)練的穩(wěn)定性問題提供了全新解決方案。這項研究以通訊作者梁文鋒為核心完成，相關(guān)論文已通過開放學(xué)術(shù)平臺發(fā)布，引發(fā)全球AI研究者關(guān)注。

殘差連接自2016年ResNet架構(gòu)問世以來，始終是深度學(xué)習(xí)模型的核心設(shè)計元素。其通過"捷徑通道"機制有效緩解梯度消失問題，支撐起參數(shù)規(guī)模持續(xù)擴張的模型結(jié)構(gòu)。然而隨著模型復(fù)雜度提升，傳統(tǒng)殘差架構(gòu)在信號傳播穩(wěn)定性方面的局限性逐漸顯現(xiàn)，成為制約AI技術(shù)突破的關(guān)鍵瓶頸。

字節(jié)跳動2024年推出的超連接技術(shù)率先嘗試突破，通過拓寬殘差流通道、構(gòu)建多路并行信號傳輸機制，顯著提升了模型表達(dá)能力。但大規(guī)模訓(xùn)練測試暴露出嚴(yán)重缺陷：在270億參數(shù)模型訓(xùn)練中，信號強度在第60層出現(xiàn)3000倍異常放大，導(dǎo)致訓(xùn)練過程在12000步后崩潰。問題根源在于該技術(shù)放棄了殘差連接原有的恒等映射約束，在參數(shù)規(guī)模擴大時引發(fā)信號發(fā)散。

DeepSeek提出的mHC架構(gòu)通過數(shù)學(xué)約束破解這一難題。研究團隊將可學(xué)習(xí)變換矩陣限定在雙重隨機矩陣構(gòu)成的流形空間，確保矩陣每行每列元素之和恒為1且非負(fù)。這種設(shè)計使輸出信號強度嚴(yán)格控制在輸入信號的動態(tài)范圍內(nèi)，從根本上杜絕信號爆炸風(fēng)險。實驗數(shù)據(jù)顯示，在相同測試條件下，mHC架構(gòu)的信號放大峰值僅為1.6倍，較超連接技術(shù)降低兩個數(shù)量級。

為平衡計算效率與模型性能，研究團隊采用Sinkhorn-Knopp迭代算法進行矩陣投影，僅需20次迭代即可收斂，將額外計算開銷控制在6.7%以內(nèi)。配合算子融合、反向傳播重計算和流水線并行優(yōu)化三項系統(tǒng)級改進，成功解決超連接架構(gòu)帶來的數(shù)據(jù)讀寫量倍增問題。在A800/A100芯片的有限互聯(lián)帶寬條件下，這些優(yōu)化將內(nèi)存開銷從隨層數(shù)線性增長轉(zhuǎn)化為由模塊大小控制的有界增長。

混合精度計算策略的引入進一步提升了訓(xùn)練效率。研究團隊基于TileLang開發(fā)了bfloat16為主、float32保關(guān)鍵精度的計算內(nèi)核，在保持模型精度的同時顯著降低顯存占用。測試表明，搭載mHC架構(gòu)的30億至270億參數(shù)模型均實現(xiàn)穩(wěn)定性能提升，其中270億參數(shù)模型在BIG-Bench Hard復(fù)雜推理任務(wù)和DROP閱讀理解任務(wù)中分別取得2.1%和2.3%的精度提升。

這項成果的發(fā)布時機引發(fā)行業(yè)關(guān)注。DeepSeek選擇在春節(jié)前三周通過arXiv和Hugging Face等開放平臺發(fā)布論文，延續(xù)了其"論文先行"的技術(shù)傳播策略。這種模式既通過同行評議建立技術(shù)公信力，又為原創(chuàng)性研究留下時間戳，同時向全球展示中國AI企業(yè)突破算力限制的技術(shù)路徑。開放發(fā)布模式加速了技術(shù)擴散，迫使國際同行必須回應(yīng)或超越這項可量化、可復(fù)現(xiàn)的創(chuàng)新成果。

行業(yè)觀察家指出，mHC架構(gòu)的突破具有雙重示范意義。在技術(shù)層面，它證明通過數(shù)學(xué)約束解決信號傳播問題的可行性；在產(chǎn)業(yè)層面，它展示了硬件約束如何倒逼系統(tǒng)級優(yōu)化創(chuàng)新。這種發(fā)展路徑與西方AI企業(yè)依賴尖端算力芯片的策略形成鮮明對比，為全球AI發(fā)展提供了新的參考范式。

隨著春節(jié)臨近，業(yè)界普遍預(yù)期DeepSeek將推出搭載mHC架構(gòu)的R2旗艦?zāi)Ｐ汀＿@項技術(shù)突破不僅可能引發(fā)新一輪殘差流優(yōu)化研究熱潮，更標(biāo)志著中國AI企業(yè)在基礎(chǔ)架構(gòu)創(chuàng)新領(lǐng)域進入世界前沿行列。在算力資源受限的背景下，這種從數(shù)學(xué)原理出發(fā)的解決方案，正在重新定義AI技術(shù)競賽的規(guī)則。

更多>同類資訊

完美世界：預(yù)計2025年歸母凈利潤超7億元同比扭虧為盈

01-31

產(chǎn)品經(jīng)理詳解iQOO 15 Ultra外觀細(xì)節(jié)：能量矩陣暗藏六邊形蜂巢紋理

01-31

天津京東消費金融迎新變動：呂齊獲核準(zhǔn)任副總經(jīng)理，3個月內(nèi)到任

01-30

特斯拉Optimus機器人：首條產(chǎn)線落子加州，得州工廠助力產(chǎn)能大躍升

01-30

蘋果iPhone 17系列中國熱銷，庫克：產(chǎn)品與中國消費者產(chǎn)生巨大共鳴

01-30

阿里智能引擎團隊突破AI生圖瓶頸：2步生成2K高清大圖，5秒極速出圖不是夢

01-30

2025全球智能手機微增1% 高端突圍與成本壓力并行 2026或迎新挑戰(zhàn)

01-30

馬云“臘八之約”談AI教育新解，阿里AI布局頻出“重拳”成果亮眼

01-30

螞蟻靈波再放大招！LingBot-VA讓機器人“腦補”未來，開啟智能控制新篇章

01-30

市場監(jiān)管總局重拳出擊直播電商行業(yè)亂象治理顯成效

01-30

小米17T手機信息揭曉：天璣9500s芯片加持，6500mAh電池續(xù)航升級

01-30

成都成華區(qū)與火山引擎共推AI平臺驅(qū)動直播經(jīng)濟邁向“全域智能”新階段

01-30

Yann LeCun再創(chuàng)業(yè)！押注能量推理模型與大模型分道揚鑣探索新路徑

01-30

雷軍透露小米英國布局：去年營收10億，未來四年將開設(shè)150家門店

01-30

蘋果財報電話會：庫克談內(nèi)存漲價影響與AI布局，變現(xiàn)路徑仍待明晰

01-30

點擊查看更多 +

全站最新

吳向東榮膺"2025十大經(jīng)濟年度人物"

83億港元雙向持股！順豐成極兔戰(zhàn)略股東，極兔中國從"規(guī)模狂奔"轉(zhuǎn)向"質(zhì)量蓄力"

宇樹機器狗成全球銷冠，王興興揭秘：先發(fā)優(yōu)勢與成本把控成制勝關(guān)鍵

阿里智能引擎團隊突破AI生圖速度極限：2步生成2K高清圖，5秒即現(xiàn)四張佳作

南方航空2025年積極破局：精準(zhǔn)運營與成本管控下預(yù)計實現(xiàn)8億元盈利

吳向東榮膺"2025十大經(jīng)濟年度人物"

熱門內(nèi)容

本欄最新

宇樹機器狗成全球銷冠，王興興揭秘：先發(fā)優(yōu)勢與成本把控成制勝關(guān)鍵

阿里智能引擎團隊突破AI生圖速度極限：2步生成2K高清圖，5秒即現(xiàn)四張佳作

啟境獵裝轎跑未發(fā)先熱，“三個百萬級”配置加持，能否掀起市場新浪潮？

新款奔馳S級煥新登場！外觀內(nèi)飾動力全面升級，能否續(xù)寫銷量傳奇？

字節(jié)梁汝波定調(diào)2026：勇攀AI高峰，短期聚焦豆包Dola助手應(yīng)用發(fā)展

2599元起！REDMI Pad 2 Pro哈利·波特版來襲魔法元素深度定制超吸睛

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護，版權(quán)登記號：魯作登字-2015-F-025467，未經(jīng)ITBEAR比爾科技官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術(shù)由太陽灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請通知我們及時刪除。
中國（山東）自由貿(mào)易試驗區(qū) 魯ICP備11015305號-1 聯(lián)系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

DeepSeek與字節(jié)跳動：突破殘差流困局 共探AI創(chuàng)新新路徑

DeepSeek與字節(jié)跳動：突破殘差流困局共探AI創(chuàng)新新路徑