滾動資訊

當前位置：首頁 > 資訊 > 業界動態 > 正文內容

DeepSeek與字節跳動踏進同一條河

時間：2026-01-15 16:34:45 來源：錦緞編輯：快訊 IP：北京 發表評論無障礙通道

本文系基于公開資料撰寫，僅作為信息交流之用，不構成任何投資建議

新年前夕，DeepSeek發表了一篇聚焦神經網絡架構創新的核心論文，梁文鋒以通訊作者身份署名。論文提出了流形約束超連接（manifold-constrained HyperConnection, mHC）架構，直指大規模模型訓練中的穩定性難題。

這一工作為硬件受限的中國 AI 企業開辟了一條兼顧性能與效率的路徑，也與字節跳動早前在殘差流優化上的探索形成關鍵呼應，二者均瞄準殘差連接這一模型基礎架構進行改造。

DeepSeek的研究，恰恰是對字節跳動“超連接”技術短板的系統性補位。這一成果不僅為大模型底層架構的工業化落地提供了新方案，再度印證了硬件約束可轉化為創新動力的產業演進邏輯。

自2016年ResNet 提出以來，殘差連接已成為深度學習的骨架式設計。其通過“捷徑連接”繞過層層非線性變換，從根本上緩解了梯度消失或爆炸的難題，支撐起越來越深的模型結構。

長期以來，業界創新多集中于注意力機制、MoE（混合專家）等模塊，殘差流本身處于一種“靜默的穩定”中，直至2024 年字節跳動以超連接（HyperConnection）技術打破這一局面。

字節跳動的超連接通過拓寬殘差流寬度、構建多路并行信號流，并讓模型學習流間的交互模式，顯著提升了模型表達能力。然而，該技術在規模化訓練中暴露出致命短板：信號發散。

DeepSeek的測試顯示，在270億參數模型的訓練中，約12000步后梯度范數劇烈波動，訓練崩潰；更嚴重的是，信號強度在第60層膨脹至輸入值的3000倍。問題的核心在于，超連接為追求表達力，放棄了殘差連接原有的恒等映射約束——小規模下尚可調參掩蓋，但在大規模訓練中，這一缺陷被急劇放大。

mHC的核心創新，是將可學習的變換矩陣約束在雙重隨機矩陣（doubly stochastic matrix）構成的流形上。這相當于為信號傳播設立“剛性預算”：矩陣每行、每列元素之和均為1且非負，確保輸出信號強度嚴格介于輸入信號的最大最小值之間，從而杜絕信號爆炸。

更關鍵的是，雙重隨機矩陣具有組合不變性——多層疊加后仍保持穩定。實驗表明，在超連接出現3000倍信號放大的同一場景中，mHC的信號放大峰值僅為1..6倍。為控制計算開銷，DeepSeek 采用Sinkhorn-Knopp 迭代進行投影，僅需20輪迭代即可收斂，額外訓練成本被壓制在6.7%。

硬件約束倒逼的不只是算法創新，更是全鏈路的系統級優化。超連接拓寬殘差流后，每層數據讀寫量倍增，在A800/A100的有限互聯帶寬下，芯片極易陷入“等待數據遠多于計算”的效率陷阱。DeepSeek通過三項關鍵技術破局：

1.算子融合：將內存訪問模式相近的操作合并為單一GPU內核，減少數據搬運；

2.反向傳播重計算：不存儲中間激活值，改為實時重算，以計算換內存；

3.流水線并行優化：重疊跨GPU通信與本地計算，用計算掩蓋通信延遲。

這些優化將原本隨層數線性增長的內存開銷，轉化為可由模塊大小控制的有界開銷。配合基于 TileLang 編寫的混合精度內核（bfloat16 為主，float32 保關鍵精度），實現了全參數規模下的穩定性能提升。測試中，30億至270 億參數模型搭載mHC后均表現優異，270億模型在BIG-Bench Hard復雜推理任務上提升 2..1%，在 DROP閱讀理解任務上提升2.3%。

此前，V3架構論文對應V3模型，R1推理論文對應R1模型；本次mHC論文在 2026 年春節前三周發布，外界普遍預期下一代旗艦模型（R2）即將亮相。

這種“論文先行”的策略，既通過同行評議建立技術公信力，又在復雜地緣環境中為原創性留下時間戳，更向全球傳遞一個明確信息：中國 AI 企業的核心競爭力，并非依賴尖端算力芯片。

DeepSeek選擇通過arXiv、Hugging Face等開放平臺而非傳統期刊發布成果，雖犧牲部分學術聲望，卻換來了技術傳播的速度與可達性。這種開放模式加速了知識擴散，也對同行構成直接競爭壓力：當 mHC 的性能增益可量化、實現可復現時，西方實驗室要么跟進類似技術，要么必須論證自身路徑的優越性。

此前R1 型已觸發推理模型研發熱潮，mHC架構很可能推動殘差流優化進入新一輪迭代。更重要的是，這一模式向技術管制者傳遞了清晰信號：硬件限制并未扼殺創新，反而迫使中國 AI 企業走向“從數學根源解決問題” 的最本質路徑。

字節跳動與 DeepSeek，先后踏入同一條“突破傳統殘差流”的創新之河。前者率先探路，卻止步于規模化瓶頸；后者在硬件約束的倒逼下，憑借數學約束與系統級優化，架起了一座可通航的技術之橋。

距離2026年春節僅剩六周，R2模型的發布將檢驗mHC架構的工業化成色。無論最終基準測試結果如何，這條“在約束中創新”的路徑已具備里程碑意義——它清晰證明，AI 競賽不只有“燒錢堆算力”這一條賽道。硬件限制從不是創新的絆腳石，而是催生真正核心突破的催化劑。

更多>同類資訊

前OpenAI高管穆拉蒂新公司兩位聯合創始人離職

01-15

小米潘九堂：模仿是創新基礎，沒有企業只靠模仿取得成功

01-15

雷軍宣布今晚8點再次直播

01-15

雷軍：新一代SU7已到最后階段，在發布前將安排展車到店

01-15

Anthropologie、OpenAI和SpaceX已開始籌備IPO

01-15

谷歌在Gemini中推出個人智能功能

01-15

姚班傳奇陳立杰入職OpenAI！16歲保送清華，30歲拿下UC伯克利助理教授

01-15

千問App接入「阿里全家桶」，可以點外賣、訂車票了

01-15

千問正式發布任務助理1.0

01-15

順豐控股與極兔速遞宣布戰略相互持股，交易金額達83億港元

01-15

侵權東方甄選，自媒體「說書人土土」被判賠20萬元

01-15

西貝將關閉102家門店，賈國龍：消息屬實

01-15

極兔速遞與順豐控股達成戰略股權交換協議，交易總額約83億港元

01-15

雷軍官宣今晚8點將再次開啟直播深度解讀新一代小米SU7

01-15

REDMI Turbo 5 Max今天官宣：全球首發天璣9500s

01-15

點擊查看更多 +

全站最新

京東物流濰坊新倉啟航：超1.4萬平米倉儲空間日均出庫量破2萬單

科技與創意交融：2700平互聯網公司辦公空間設計新典范

絕味食品“熱鹵杯”冬季爆火：精準洞察需求，開辟鹵味新賽道

世優科技AI數字人“桂飛飛”落地南寧機場，開啟智慧出行服務新篇章

2025年汽車市場成績斐然：產銷雙超3400萬，新能源出口齊頭并進

提前三月官宣！新一代小米SU7 4月上市，路測超1500萬公里有底氣

熱門內容

本欄最新

提前三月官宣！新一代小米SU7 4月上市，路測超1500萬公里有底氣

雷軍放話特斯拉可戰勝小米SU7成績亮眼新能源汽車市場競爭格局生變

雷軍1月15日晚8點再開直播攜媒體人及技術專家詳解新一代SU7與輔助駕駛新進展

雷軍官宣新一代SU7臨近發布！展車將提前到店，今晚直播再聊新進展

雷軍今晚8時再開直播，詳解新一代小米SU7，新顏色新配置驚喜不斷

成毅及家人遭跟蹤騷擾，車輛被噴紅漆、收威脅郵件，工作室已取證并報警

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

DeepSeek與字節跳動踏進同一條河