滾動資訊

當前位置：首頁 > 資訊 > 人工智能 > 正文內容

港科大廣州校區創新優化器Mano：為大模型訓練開啟高效新路徑

時間：2026-02-05 00:35:35 來源：互聯網編輯：快訊 IP：北京 發表評論無障礙通道

在大型語言模型訓練領域，一項突破性研究為提升效率、降低成本帶來了全新解決方案。香港某高校科研團隊提出名為Mano的優化器，通過創新設計顯著優化了大模型訓練過程，在性能提升與資源消耗控制方面取得雙重突破。

傳統訓練方法面臨兩大核心矛盾：既要處理參數間的復雜關聯，又需控制計算資源消耗。當前主流的AdamW優化器如同逐題批改的教師，雖能處理單個參數卻忽視整體結構；而Muon優化器雖嘗試統一處理所有維度，卻因丟失曲率信息導致優化效果受限。研究團隊通過重構優化邏輯，創造性地將訓練過程轉化為動態幾何探索，使模型參數在平滑數學表面自主尋找最優路徑。

Mano的核心機制在于"旋轉斜流形"設計，通過交替進行列向與行向歸一化操作，實現多維參數空間的立體化探索。具體而言，該優化器在奇數訓練輪次執行列方向歸一化，偶數輪次切換至行方向，這種動態調整策略使模型能夠從不同角度解析參數關系。實驗數據顯示，在LLaMA-350M模型訓練中，Mano的收斂速度較Muon提升1.75倍，在1.3B參數規模下仍保持1.38倍的優勢，且隨著模型規模擴大，性能差距進一步拉大。

資源消耗控制方面，Mano展現出顯著工程優勢。其內存占用與SGD動量法相當，僅為AdamW的50%，在70B參數規模的LLaMA模型訓練中，注意力層歸一化耗時僅2.19毫秒，較Muon的110.79毫秒降低超98%。這種效率提升源于其避免復雜矩陣運算的設計，每次參數更新僅需11mn次浮點運算（m、n為矩陣維度），而Muon的Newton-Schulz迭代計算量呈指數級增長。

理論層面，研究團隊證明Mano的交替歸一化過程等價于Sinkhorn-Knopp迭代算法，可確保矩陣收斂至雙隨機矩陣，從而保證優化穩定性。頻譜分析顯示，該優化器在提升稀有方向更新幅度的同時，完整保留奇異值原始排序，這種結構化處理方式有效避免了Muon因白化操作導致的信息丟失。梯度穩定性測試進一步證實，Mano在相同動量系數下，梯度方差降低40%，信噪比提升25%，為持續優化提供可靠保障。

實際應用中，Mano展現出極強的適應性。其實現僅需設置學習率、動量系數和權重衰減三個參數，超參數調優復雜度低于AdamW。對于一維偏置參數，團隊建議沿用AdamW優化，形成混合優化策略。研究團隊還開發了高維張量版本，通過循環遍歷各維度實現通用化處理，支持Transformer等復雜架構的參數優化。

與現有方法的對比實驗揭示了Mano的獨特價值：在訓練初期，AdamW憑借自適應學習率實現快速收斂；中期Muon通過頻譜歸一化展現優勢；而Mano在后期持續保持穩定下降趨勢，最終模型性能超越兩個基準優化器。這種訓練階段特異性優勢，使其特別適用于需要深度優化的超大規模模型訓練場景。

該研究重新激活了流形優化在深度學習領域的應用潛力。通過將經典數學理論與現代工程實踐結合，團隊證明適當改造的傳統方法仍能解決前沿技術難題。這種研究范式為優化器設計提供了新思路：在追求算法創新的同時，深度挖掘現有理論的改造空間，往往能產生兼具理論美感與實用價值的解決方案。

更多>同類資訊

哈工大新突破：漫畫思維賦能AI，以連環畫形式攻克數學推理難題

02-05

特拉維夫大學新突破：AI訓練“精準瘦身”，高效學習關鍵知識

02-05

浮點實驗室SLIME新招：破解大模型“學新忘舊”的成長困境

02-05

工業機器人龍頭埃斯頓：憑深厚積累，強勢入局人形機器人賽道

02-05

存儲龍頭江波龍：兩年逆襲，借AI東風創盈利新高，未來可期

02-05

大成基金：以深度產業研究為帆駛向長期穩健回報的夏普彼岸

02-04

從“物理拼接”到“化學融合”：“人工智能+制造”的變革新路徑

02-04

從招聘動向看OpenAI2026布局：企業級市場成其關鍵發力點

02-04

2026新疆新能源展：光伏領航，共探綠色能源新未來新機遇

02-04

四川新能源“領跑者”：華劍鋒攜創新建議，解鎖產業升級新密碼

02-04

豐田加碼混動賽道：2028年產量劍指670萬，多家車企布局混動市場

02-04

面壁智能MiniCPM-o 4.5開源：全模態交互革新，多領域性能提升引領AI新潮

02-04

瑞莎Cubie A7S AI開發板上市：199元起，低功耗適配本地化AI應用

02-04

OpenAI引入Anthropic前安全專家 Dylan Scand 領銜應對AI模型高風險

02-04

英偉達CEO確認將參與OpenAI新融資或考慮其IPO投資

02-04

點擊查看更多 +

全站最新

公告精選︱長安汽車：計劃回購10億元-20億元公司股份；晶科能源：未有涉及“太空光伏”的訂單收入

券商2月“金股”名單來了！堅守“科技+周期”雙主線

納斯達克中國金龍指數跌1%

豪威集團(00501.HK)獲摩根大通增持27.71萬股

2月5日A股投資避雷針︱光大嘉寶：股東嘉定建業與嘉定科投擬合計減持不超1%股份；青達環保：股東冰輪環境擬減持不超3%股份

群星璀璨，追覓之夜：當音樂與科技交織，創新與關懷并行

熱門內容

本欄最新

豐田加碼混動賽道：2028年產量劍指670萬，多家車企布局混動市場

卡奧斯赴港IPO：借AI與物聯網雙翼引領工業數智化轉型新征程

西部數據煥新啟航：正式更名WD，聚焦AI與云計算開啟增長新篇章

技術前瞻布局+爆款車型助力元戎啟行智駕賽道市占率攀升新高度

純電車型智能新篇：智能互聯與語音交互引領未來出行新潮流

華為哈勃等入股北京跨赴科技助力AI軟件領域再添新力量

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR比爾科技官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

港科大廣州校區創新優化器Mano：為大模型訓練開啟高效新路徑