在人工智能領域,一場關于神經網絡架構創新的突破正引發廣泛關注。DeepSeek團隊近期發表的核心論文,提出了一種名為流形約束超連接(mHC)的新型架構,為解決大規模模型訓練中的穩定性難題提供了新思路。這項研究不僅為硬件資源受限的中國AI企業開辟了新的發展路徑,也與字節跳動此前在殘差流優化方面的探索形成了技術呼應。
自2016年ResNet架構問世以來,殘差連接憑借其獨特的"捷徑連接"設計,成為深度學習模型的骨架式結構。這種設計通過繞過非線性變換層,有效緩解了梯度消失或爆炸的問題,支撐起更深的模型結構。然而,長期以來,業界創新多集中在注意力機制、混合專家(MoE)等模塊,殘差流本身的技術演進相對緩慢,直至字節跳動在2024年推出超連接(HyperConnection)技術。
字節跳動的超連接技術通過拓寬殘差流寬度、構建多路并行信號流,并引入流間交互學習機制,顯著提升了模型的表達能力。但在規模化訓練過程中,該技術暴露出信號發散的致命缺陷。DeepSeek的測試數據顯示,在270億參數模型的訓練中,使用超連接架構的模型在約12000步訓練后出現梯度范數劇烈波動,導致訓練崩潰;更嚴重的是,信號強度在第60層膨脹至輸入值的3000倍。
DeepSeek團隊深入分析了這一問題的根源:超連接技術為追求更強的表達能力,放棄了殘差連接原有的恒等映射約束。這種設計在小規模模型中可通過調參掩蓋缺陷,但在大規模訓練場景下,問題會被急劇放大。基于此,mHC架構提出了創新性解決方案——將可學習的變換矩陣約束在雙重隨機矩陣構成的流形空間上。
雙重隨機矩陣的數學特性為信號傳播設立了"剛性預算":矩陣每行、每列元素之和均為1且非負,確保輸出信號強度嚴格介于輸入信號的最大最小值之間。這種約束機制從根本上杜絕了信號爆炸的可能。更關鍵的是,雙重隨機矩陣具有組合不變性,即使多層疊加仍能保持穩定。實驗表明,在相同訓練場景下,mHC架構的信號放大峰值僅為1.6倍,遠低于超連接技術的3000倍。
為控制計算開銷,研究團隊采用Sinkhorn-Knopp迭代算法進行矩陣投影,僅需20輪迭代即可收斂,將額外訓練成本控制在6.7%以內。針對硬件約束帶來的系統級挑戰,DeepSeek實施了三項關鍵優化:通過算子融合減少數據搬運;采用反向傳播重計算技術以計算換內存;運用流水線并行優化掩蓋通信延遲。這些優化將內存開銷從隨層數線性增長轉化為可由模塊大小控制的有界開銷。
配合基于TileLang編寫的混合精度內核(以bfloat16為主,float32保障關鍵精度),mHC架構實現了全參數規模下的穩定性能提升。測試數據顯示,30億至270億參數模型搭載該架構后均表現優異:270億參數模型在BIG-Bench Hard復雜推理任務上提升2.1%,在DROP閱讀理解任務上提升2.3%。這些成果驗證了mHC架構在保持模型性能的同時,顯著提升了訓練穩定性。
值得注意的是,DeepSeek選擇通過arXiv、Hugging Face等開放平臺發布研究成果,這種策略雖犧牲了部分傳統學術聲望,卻換來了技術傳播的速度與廣度。當mHC架構的性能增益可量化、實現可復現時,全球AI實驗室都面臨新的技術選擇:要么跟進類似技術路線,要么必須論證自身路徑的優越性。這種開放模式加速了知識擴散,也形成了直接的技術競爭壓力。
此前,DeepSeek的R1模型已引發推理模型研發熱潮,而mHC架構的推出很可能推動殘差流優化進入新的迭代周期。更深遠的影響在于,這項研究向全球AI界傳遞了明確信號:在硬件資源受限的條件下,中國AI企業正通過數學創新和系統優化走出獨特發展道路。這種"在約束中創新"的模式,正在重塑AI競賽的技術格局。
隨著業界對下一代旗艦模型的期待升溫,mHC架構的工業化應用成效即將迎來關鍵檢驗。無論最終基準測試結果如何,這項研究已證明:AI技術的發展不只有"堆砌算力"這一條路徑,硬件限制反而可能成為催生核心突破的催化劑。當技術創新回歸數學本質,中國AI企業正在書寫新的技術進化篇章。









