滾動(dòng)資訊

當(dāng)前位置：首頁(yè) > 資訊 > 業(yè)界動(dòng)態(tài) > 正文內(nèi)容

DeepSeek與字節(jié)跳動(dòng)：殘差流創(chuàng)新路上接力前行共拓AI新路徑

時(shí)間：2026-01-15 13:00:36 來(lái)源：天脈網(wǎng)編輯：快訊 IP：北京 發(fā)表評(píng)論無(wú)障礙通道

中國(guó)AI領(lǐng)域再次迎來(lái)突破性進(jìn)展。DeepSeek團(tuán)隊(duì)近日在神經(jīng)網(wǎng)絡(luò)架構(gòu)領(lǐng)域取得重要?jiǎng)?chuàng)新，提出名為"流形約束超連接"（manifold-constrained HyperConnection，簡(jiǎn)稱(chēng)mHC）的新型架構(gòu)，為解決大規(guī)模模型訓(xùn)練中的穩(wěn)定性難題提供了全新方案。這項(xiàng)成果以通訊作者梁文鋒為代表的研究團(tuán)隊(duì)，通過(guò)數(shù)學(xué)約束與系統(tǒng)優(yōu)化的雙重創(chuàng)新，在硬件受限條件下實(shí)現(xiàn)了性能與效率的平衡。

殘差連接自2016年ResNet架構(gòu)提出以來(lái)，已成為深度學(xué)習(xí)模型的基石設(shè)計(jì)。其通過(guò)"捷徑連接"機(jī)制有效緩解梯度消失問(wèn)題，支撐起現(xiàn)代深度學(xué)習(xí)模型的深度發(fā)展。然而隨著模型規(guī)模擴(kuò)大，傳統(tǒng)殘差連接在信號(hào)傳播穩(wěn)定性方面逐漸顯現(xiàn)局限。2024年字節(jié)跳動(dòng)推出的超連接（HyperConnection）技術(shù)雖通過(guò)拓寬殘差流提升了模型表達(dá)能力，卻在規(guī)模化訓(xùn)練中暴露出信號(hào)發(fā)散的致命缺陷。

DeepSeek的研究直指這一核心矛盾。測(cè)試數(shù)據(jù)顯示，在270億參數(shù)模型訓(xùn)練中，傳統(tǒng)超連接架構(gòu)在12000步訓(xùn)練后出現(xiàn)梯度范數(shù)劇烈波動(dòng)，第60層信號(hào)強(qiáng)度竟膨脹至輸入值的3000倍。研究團(tuán)隊(duì)發(fā)現(xiàn)，問(wèn)題根源在于超連接架構(gòu)為追求表達(dá)能力，放棄了殘差連接原有的恒等映射約束，這種設(shè)計(jì)在小規(guī)模模型中可通過(guò)調(diào)參掩蓋，但在大規(guī)模訓(xùn)練中會(huì)導(dǎo)致災(zāi)難性后果。

mHC架構(gòu)的創(chuàng)新性在于引入雙重隨機(jī)矩陣的流形約束。這種數(shù)學(xué)工具要求變換矩陣每行每列元素之和均為1且非負(fù)，形成嚴(yán)格的"信號(hào)預(yù)算"機(jī)制。通過(guò)將輸出信號(hào)強(qiáng)度限制在輸入信號(hào)的最大最小值之間，從根本上杜絕了信號(hào)爆炸的可能性。更關(guān)鍵的是，雙重隨機(jī)矩陣的組合不變性確保多層疊加后仍保持穩(wěn)定，實(shí)驗(yàn)顯示相同場(chǎng)景下信號(hào)放大峰值被控制在1.6倍以?xún)?nèi)。

為控制計(jì)算開(kāi)銷(xiāo)，研究團(tuán)隊(duì)采用Sinkhorn-Knopp迭代算法進(jìn)行矩陣投影，僅需20輪迭代即可收斂，將額外訓(xùn)練成本壓制在6.7%以?xún)?nèi)。這種數(shù)學(xué)創(chuàng)新與工程實(shí)現(xiàn)的完美結(jié)合，使mHC架構(gòu)在保持理論優(yōu)勢(shì)的同時(shí)具備實(shí)際可行性。配合基于TileLang開(kāi)發(fā)的混合精度內(nèi)核（以bfloat16為主，float32保障關(guān)鍵精度），實(shí)現(xiàn)了全參數(shù)規(guī)模下的穩(wěn)定性能提升。

硬件約束倒逼出的創(chuàng)新不止于算法層面。針對(duì)超連接架構(gòu)帶來(lái)的數(shù)據(jù)讀寫(xiě)量倍增問(wèn)題，DeepSeek實(shí)施了三項(xiàng)系統(tǒng)級(jí)優(yōu)化：通過(guò)算子融合減少數(shù)據(jù)搬運(yùn)，采用反向傳播重計(jì)算以計(jì)算換內(nèi)存，以及流水線(xiàn)并行優(yōu)化掩蓋通信延遲。這些措施將內(nèi)存開(kāi)銷(xiāo)從隨層數(shù)線(xiàn)性增長(zhǎng)轉(zhuǎn)化為可由模塊大小控制的有界開(kāi)銷(xiāo)，使30億至270億參數(shù)模型均能穩(wěn)定運(yùn)行。

性能測(cè)試數(shù)據(jù)印證了創(chuàng)新價(jià)值。搭載mHC架構(gòu)的270億參數(shù)模型在BIG-Bench Hard復(fù)雜推理任務(wù)上提升2.1%，在DROP閱讀理解任務(wù)上提升2.3%。這種全參數(shù)規(guī)模的性能提升，打破了"規(guī)模越大性能越好"的簡(jiǎn)單認(rèn)知，展示了架構(gòu)創(chuàng)新帶來(lái)的質(zhì)變效應(yīng)。

值得關(guān)注的是，DeepSeek選擇通過(guò)arXiv、Hugging Face等開(kāi)放平臺(tái)發(fā)布成果，這種策略雖犧牲部分學(xué)術(shù)聲望，卻換來(lái)了技術(shù)傳播的速度與廣度。當(dāng)mHC的性能增益可量化、實(shí)現(xiàn)可復(fù)現(xiàn)時(shí)，全球AI實(shí)驗(yàn)室不得不重新評(píng)估自身技術(shù)路徑——要么跟進(jìn)類(lèi)似創(chuàng)新，要么證明現(xiàn)有方案的優(yōu)越性。這種開(kāi)放競(jìng)爭(zhēng)模式，正在重塑AI技術(shù)發(fā)展的生態(tài)格局。

此前R1模型的發(fā)布已引發(fā)推理模型研發(fā)熱潮，mHC架構(gòu)的推出很可能推動(dòng)殘差流優(yōu)化進(jìn)入新階段。字節(jié)跳動(dòng)與DeepSeek的接力創(chuàng)新形成有趣對(duì)照：前者率先探路卻受阻于規(guī)模化瓶頸，后者在硬件約束下通過(guò)數(shù)學(xué)與系統(tǒng)的雙重創(chuàng)新架起技術(shù)橋梁。這種發(fā)展軌跡清晰證明，硬件限制非但不是創(chuàng)新障礙，反而能催生更具本質(zhì)性的突破。

隨著2026年春節(jié)臨近，業(yè)界普遍預(yù)期DeepSeek即將發(fā)布搭載mHC架構(gòu)的下一代旗艦?zāi)Ｐ蚏2。無(wú)論基準(zhǔn)測(cè)試結(jié)果如何，這條"在約束中創(chuàng)新"的路徑已具有里程碑意義——它向全球展示，AI競(jìng)賽不只有"燒錢(qián)堆算力"的單選項(xiàng)，數(shù)學(xué)創(chuàng)新與系統(tǒng)優(yōu)化同樣能開(kāi)辟通向巔峰的道路。

01-29

瑞派沖擊“港股寵物醫(yī)療第一股”：盈利困局待解，行業(yè)轉(zhuǎn)型求生

01-29

工業(yè)富聯(lián)2025年業(yè)績(jī)亮眼：凈利潤(rùn)大增，高速交換機(jī)與AI服務(wù)器業(yè)務(wù)騰飛

01-29

微電新能源沖刺港交所：廣東惠州起家，三年?duì)I收超13億前景幾何？

01-29

京東智能機(jī)器人“村晚”首秀：科技賦能傳統(tǒng)年俗鄉(xiāng)村舞臺(tái)煥發(fā)新活力

其中，智能機(jī)器人演繹太極拳、與青春采銷(xiāo)同臺(tái)載歌載舞的特色節(jié)目，成為整場(chǎng)晚會(huì)的吸睛焦點(diǎn)，為這場(chǎng)盛宴注入了十足科技感。當(dāng)傳統(tǒng)年俗遇上現(xiàn)代科技，這場(chǎng)“村晚”為光明村帶來(lái)了一次難忘過(guò)年體驗(yàn)的同時(shí)，更折射出了科技普惠…

01-29

鹽城企業(yè)數(shù)字營(yíng)銷(xiāo)破局指南：精準(zhǔn)觸達(dá)+全鏈服務(wù)實(shí)現(xiàn)高效獲客

數(shù)字營(yíng)銷(xiāo)是一個(gè)綜合體系，主要包括效果廣告（如搜索推廣、信息流廣告）、品牌形象塑造、內(nèi)容營(yíng)銷(xiāo)（如知識(shí)科普、問(wèn)答）、本地生活服務(wù)推廣（如地圖標(biāo)記）、官網(wǎng)建設(shè)以及全渠道的整合運(yùn)營(yíng)服務(wù)。充分利用百度地圖標(biāo)注、針對(duì)本…

01-29

小米汽車(chē)再放大招！三款新車(chē)諜照流出，增程SUV與SU7加長(zhǎng)版齊上陣

01-29

雷軍發(fā)布小米SU7 Ultra《Gran Turismo 7》宣傳片 1月29日正式上線(xiàn)游戲

01-29

華為HiCar 6.0.95.120邀測(cè)版來(lái)襲，HarmonyOS 6+適配車(chē)暢享智慧出行

01-29

清華攜手字節(jié)跳動(dòng)新突破：AI獲“視覺(jué)腦”，開(kāi)啟多模態(tài)推理新時(shí)代

01-28

Kimi K2.5實(shí)測(cè)體驗(yàn)：AI集群協(xié)同作業(yè)，輕松解鎖高效生產(chǎn)力新境界

01-28

當(dāng)AI邂逅浩瀚宇宙：復(fù)旦大學(xué)探索人工智能能否成為太空調(diào)度“多面手”

01-28

星梭科技“猛犸一號(hào)”富氧預(yù)燃室點(diǎn)火告捷整機(jī)投產(chǎn)試車(chē)近在咫尺

01-28

2026國(guó)產(chǎn)大模型“春節(jié)檔”激戰(zhàn)正酣，多模態(tài)與性?xún)r(jià)比成競(jìng)爭(zhēng)新焦點(diǎn)

01-28

阿里推出Qwen3-Max-Thinking推理模型，性能比肩國(guó)際頂尖助力AI產(chǎn)業(yè)升級(jí)

此次升級(jí)后，千問(wèn)將具備更精準(zhǔn)的事實(shí)記憶與世界知識(shí)、專(zhuān)家級(jí)復(fù)雜推理能力，以及更貼合人類(lèi)偏好的響應(yīng)邏輯。阿里云相關(guān)負(fù)責(zé)人表示，Qwen3-Max-Thinking的推出，標(biāo)志著阿里在大模型技術(shù)領(lǐng)域的又一次突破…

01-28

點(diǎn)擊查看更多 +

全站最新

瑞派沖擊“港股寵物醫(yī)療第一股”：盈利困局待解，行業(yè)轉(zhuǎn)型求生

比格比薩沖刺港股IPO，中國(guó)比薩行業(yè)格局生變未來(lái)可期？

馬云談AI時(shí)代教育變革：重點(diǎn)在于培養(yǎng)孩子好奇心與創(chuàng)意提問(wèn)能力

鹿明機(jī)器人：數(shù)據(jù)與硬件雙線(xiàn)突進(jìn)，商業(yè)化落地面臨哪些硬仗？

微電新能源沖刺港交所：廣東惠州起家，三年?duì)I收超13億前景幾何？

鹽城企業(yè)數(shù)字營(yíng)銷(xiāo)破局指南：精準(zhǔn)觸達(dá)+全鏈服務(wù)實(shí)現(xiàn)高效獲客

熱門(mén)內(nèi)容

本欄最新

瑞派沖擊“港股寵物醫(yī)療第一股”：盈利困局待解，行業(yè)轉(zhuǎn)型求生

微電新能源沖刺港交所：廣東惠州起家，三年?duì)I收超13億前景幾何？

鹽城企業(yè)數(shù)字營(yíng)銷(xiāo)破局指南：精準(zhǔn)觸達(dá)+全鏈服務(wù)實(shí)現(xiàn)高效獲客

Engine AI攜手星際太空技術(shù)，打造首位仿生機(jī)器人航天員探索宇宙新篇

雷軍致謝用戶(hù)！小米SU7獲純電一年保值率榜首，YU7銷(xiāo)量也亮眼

2025年度純電車(chē)型保值率揭曉小米SU7首登榜單即斬獲“一年保值率”第一

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護(hù)，版權(quán)登記號(hào)：魯作登字-2015-F-025467，未經(jīng)ITBEAR官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類(lèi)資訊內(nèi)容，無(wú)障礙技術(shù)由太陽(yáng)灣捐增，為閱讀障礙用戶(hù)提供內(nèi)容聽(tīng)讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請(qǐng)通知我們及時(shí)刪除。
中國(guó)（山東）自由貿(mào)易試驗(yàn)區(qū) 魯ICP備11015305號(hào)-1 聯(lián)系入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

DeepSeek與字節(jié)跳動(dòng)：殘差流創(chuàng)新路上接力前行 共拓AI新路徑

DeepSeek與字節(jié)跳動(dòng)：殘差流創(chuàng)新路上接力前行共拓AI新路徑