中國AI領(lǐng)域近期迎來一項突破性進展,DeepSeek團隊在神經(jīng)網(wǎng)絡(luò)架構(gòu)設(shè)計上取得重要成果,提出名為流形約束超連接(mHC)的創(chuàng)新架構(gòu),為大規(guī)模模型訓(xùn)練的穩(wěn)定性問題提供了全新解決方案。這項研究以通訊作者梁文鋒為核心完成,相關(guān)論文已通過開放學(xué)術(shù)平臺發(fā)布,引發(fā)全球AI研究者關(guān)注。
殘差連接自2016年ResNet架構(gòu)問世以來,始終是深度學(xué)習(xí)模型的核心設(shè)計元素。其通過"捷徑通道"機制有效緩解梯度消失問題,支撐起參數(shù)規(guī)模持續(xù)擴張的模型結(jié)構(gòu)。然而隨著模型復(fù)雜度提升,傳統(tǒng)殘差架構(gòu)在信號傳播穩(wěn)定性方面的局限性逐漸顯現(xiàn),成為制約AI技術(shù)突破的關(guān)鍵瓶頸。
字節(jié)跳動2024年推出的超連接技術(shù)率先嘗試突破,通過拓寬殘差流通道、構(gòu)建多路并行信號傳輸機制,顯著提升了模型表達(dá)能力。但大規(guī)模訓(xùn)練測試暴露出嚴(yán)重缺陷:在270億參數(shù)模型訓(xùn)練中,信號強度在第60層出現(xiàn)3000倍異常放大,導(dǎo)致訓(xùn)練過程在12000步后崩潰。問題根源在于該技術(shù)放棄了殘差連接原有的恒等映射約束,在參數(shù)規(guī)模擴大時引發(fā)信號發(fā)散。
DeepSeek提出的mHC架構(gòu)通過數(shù)學(xué)約束破解這一難題。研究團隊將可學(xué)習(xí)變換矩陣限定在雙重隨機矩陣構(gòu)成的流形空間,確保矩陣每行每列元素之和恒為1且非負(fù)。這種設(shè)計使輸出信號強度嚴(yán)格控制在輸入信號的動態(tài)范圍內(nèi),從根本上杜絕信號爆炸風(fēng)險。實驗數(shù)據(jù)顯示,在相同測試條件下,mHC架構(gòu)的信號放大峰值僅為1.6倍,較超連接技術(shù)降低兩個數(shù)量級。
為平衡計算效率與模型性能,研究團隊采用Sinkhorn-Knopp迭代算法進行矩陣投影,僅需20次迭代即可收斂,將額外計算開銷控制在6.7%以內(nèi)。配合算子融合、反向傳播重計算和流水線并行優(yōu)化三項系統(tǒng)級改進,成功解決超連接架構(gòu)帶來的數(shù)據(jù)讀寫量倍增問題。在A800/A100芯片的有限互聯(lián)帶寬條件下,這些優(yōu)化將內(nèi)存開銷從隨層數(shù)線性增長轉(zhuǎn)化為由模塊大小控制的有界增長。
混合精度計算策略的引入進一步提升了訓(xùn)練效率。研究團隊基于TileLang開發(fā)了bfloat16為主、float32保關(guān)鍵精度的計算內(nèi)核,在保持模型精度的同時顯著降低顯存占用。測試表明,搭載mHC架構(gòu)的30億至270億參數(shù)模型均實現(xiàn)穩(wěn)定性能提升,其中270億參數(shù)模型在BIG-Bench Hard復(fù)雜推理任務(wù)和DROP閱讀理解任務(wù)中分別取得2.1%和2.3%的精度提升。
這項成果的發(fā)布時機引發(fā)行業(yè)關(guān)注。DeepSeek選擇在春節(jié)前三周通過arXiv和Hugging Face等開放平臺發(fā)布論文,延續(xù)了其"論文先行"的技術(shù)傳播策略。這種模式既通過同行評議建立技術(shù)公信力,又為原創(chuàng)性研究留下時間戳,同時向全球展示中國AI企業(yè)突破算力限制的技術(shù)路徑。開放發(fā)布模式加速了技術(shù)擴散,迫使國際同行必須回應(yīng)或超越這項可量化、可復(fù)現(xiàn)的創(chuàng)新成果。
行業(yè)觀察家指出,mHC架構(gòu)的突破具有雙重示范意義。在技術(shù)層面,它證明通過數(shù)學(xué)約束解決信號傳播問題的可行性;在產(chǎn)業(yè)層面,它展示了硬件約束如何倒逼系統(tǒng)級優(yōu)化創(chuàng)新。這種發(fā)展路徑與西方AI企業(yè)依賴尖端算力芯片的策略形成鮮明對比,為全球AI發(fā)展提供了新的參考范式。
隨著春節(jié)臨近,業(yè)界普遍預(yù)期DeepSeek將推出搭載mHC架構(gòu)的R2旗艦?zāi)P汀_@項技術(shù)突破不僅可能引發(fā)新一輪殘差流優(yōu)化研究熱潮,更標(biāo)志著中國AI企業(yè)在基礎(chǔ)架構(gòu)創(chuàng)新領(lǐng)域進入世界前沿行列。在算力資源受限的背景下,這種從數(shù)學(xué)原理出發(fā)的解決方案,正在重新定義AI技術(shù)競賽的規(guī)則。









