滾動資訊

當前位置：首頁 > 資訊 > 業界動態 > 正文內容

阿里黑科技炸場！0.6B 小模型“魔改”成 17B MoE，激活參數僅 5%，CPU 直接跑 30token/s！

時間：2026-04-10 16:05:11 來源：CHINAZ編輯：快訊 IP：北京 發表評論無障礙通道

阿里國際數字商業團隊近日在 Marco-MoE 系列模型中重磅推出新成員——Marco-Mini-Instruct，再次展現了“以小博大”的極致效率理念。該模型總參數量17.3B，激活參數量卻僅0.86B（約占5%），推理效率極高，甚至在普通 CPU 上即可實現流暢運行。

極致輕量化:CPU 也能跑飛起

根據官方估算，若采用8bit 量化并搭配4條 DDR42400內存，該模型推理速度可達約30token/s。這一性能讓 MoE 架構真正走向“人人可用”的階段，極大降低了本地部署門檻。

核心創新:Upcycling 技術“點石成金”

Marco-Mini-Instruct 的最大亮點并非參數規模或速度，而是其誕生方式。該模型并非從零開始訓練，而是基于 Qwen3-0.6B-Base 模型通過upcycling技術轉化而來。

具體流程為:將 Dense 小模型的部分模塊拆分或復制為多個專家（experts），并引入路由機制;同時結合細粒度子矩陣切分與Drop-Upcycling策略（訓練過程中按一定概率隨機丟棄部分專家或路由路徑，加入正則化以提升魯棒性），實現了從純 Dense 模型到 MoE 架構的平滑升級。這一方法為行業提供了低成本、高效率的 MoE 煉制新路徑。

上下文與訓練配置細節

模型 config 中 max_position_embeddings 已擴展至32K，但 SFT 階段實際采用8192token 上下文，因此默認上下文長度更適合大多數實際應用場景。

后訓練亮點:級聯 On-Policy 蒸餾

后訓練流程同樣亮眼:先進行 SFT 預熱，隨后采用級聯 On-Policy Distillation策略——先以 Qwen3-30B-A3B-Instruct 為教師模型進行蒸餾，再切換至更強大的 Qwen3-Next-80B-A3B-Instruct。蒸餾數據覆蓋指令遵循、復雜推理、對齊安全、數學能力等多維度，確保模型在保持高效的同時，全面提升綜合智能水平。

性能實測:0.86B 激活碾壓4B 級 Dense 模型

最終發布的 Marco-Mini-Instruct 在大部分主流 benchmark 上，以僅0.86B 激活參數的表現，超越了 Qwen3-4B 等眾多 Dense 模型，充分驗證了 MoE 架構在“小而美”路線上的巨大潛力。

行業意義:開源 MoE 煉制新范式

AIbase 認為，這一成果的最大價值在于為廣大開發者打開了一扇新大門——無需從零訓練海量 MoE 模型，只需選取一個合適的 Dense 小模型，嚴格復現論文中的 upcycling+Drop-Upcycling 流程即可。整個訓練成本可控:SFT 階段僅需64GPU×24小時，蒸餾階段為64GPU×110小時，極大降低了中小團隊嘗試 MoE 的門檻。

阿里此次“魔改”再次證明:模型效率的突破不一定依賴參數堆砌，創新訓練范式同樣能帶來質的飛躍。Marco-Mini-Instruct 的發布，無疑將加速 MoE 技術在邊緣設備、個人開發者場景中的落地，值得全行業持續關注。

更多>同類資訊

REDMI Book Pro 2026官宣預計本月發布

04-10

?谷歌 Gemini AI 新增互動 3D 模型功能，提升科學學習體驗

04-10

小馬智行PonyWorld世界模型2.0發布：AI驅動自動駕駛研發范式革新

04-10

阿里ATH鄭波團隊打造神秘「歡樂馬」模型空降榜首引AI社區熱議

04-10

阿里“認領”匿名AI模型HappyHorse 內測開啟4月30日將開放API訪問

04-10

阿里HappyHorse官微上線，AI視頻模型多賽道登頂，開放API引期待

04-10

閑置手機不知如何處理？偉通科技手機回收，靠譜性價比高還省心

偉通科技手機維修的品牌特點偉通科技手機維修是一家專注于全品牌手機維修服務的企業，同時也提供二手機出售與回收服務。偉通科技的口碑與服務偉通科技自成立以來，始終以優質技術、貼心服務為核心，致力于為每…

04-10

小米SU7車機直發微博引熱議，車與社交融合，車主：這情緒價值到位了

快科技4月10日消息，近期不少小米車主發現了一個令人驚喜的新功能，小米汽車已經實現了直接在車機端發布微博。有細心的網友注意到，在社交平臺上，部分博主發布的動態下方，原本顯示手機型號的后綴小尾巴悄然發生了變化，…

04-10

小米YU7入門版申報信息曝光：減重115公斤續航超600km或售24萬級

快科技4月10日消息，在工信部最新申報名錄中，小米YU7新版本公示，預計為入門車型。新車尺寸沒有任何變化，依舊為4999*1996*1608mm，軸距3000mm，定位中大型純電SUV，轉向尾燈采用了YU7G…

04-10

小米食堂“腦洞大開”！“小米”冰淇淋三版本上線 5.99元起嘗鮮

據REDMI產品經理筍寸曬出的照片顯示，“小米”冰淇淋延續了小米汽車的命名方式，推出標準版、Pro版、Max版三種版本，售價分別為5.99元、6.99元、8.99元。據了解，早在2015年，小米就將公司食…

04-10

小米汽車新玩法！車機端直發微博，專屬小尾巴成車主社交新寵

快科技4月10日消息，近期不少小米車主發現了一個令人驚喜的新功能，小米汽車已經實現了直接在車機端發布微博。有細心的網友注意到，在社交平臺上，部分博主發布的動態下方，原本顯示手機型號的后綴小尾巴悄然發生了變化，…

04-10

捷途XWD技術亮相，以智能四驅重塑越野標準，引領“旅行+”邁向“越野王”新篇

說它“快”，是得益于XWD全自動智能四驅響應速度比傳統適時四驅快20%，可實現0.01秒路況識別、0.02秒智能決策與0.07秒極速執行，能瞬時化解復雜地形。這一次，XWD全自動智能四驅技術的賦能則將進一步提…

04-10

18.99萬起預售！捷途旅行者PLUS系列雙車齊發硬派美學與智能電混的完美融合

此次雙車齊發，不僅是捷途在硬派SUV市場的深度布局，更標志著品牌“旅行+”戰略邁入了全新階段。新車通過“燃油+混動”雙動力策略，覆蓋了從城市通勤到越野探險的全場景需求，進一步鞏固了捷途在“方盒子”SUV市場的…

04-10

馬斯克證實Model S/X庫存告急僅剩數百輛停產前欲購從速

04-10

OpenAI備忘錄“點名”Anthropic：算力擴張遠落后，競爭格局再升級

04-10

點擊查看更多 +

全站最新

小米SU7車機直發微博引熱議，車與社交融合，車主：這情緒價值到位了

小米YU7入門版申報信息曝光：減重115公斤續航超600km或售24萬級

小米食堂“腦洞大開”！“小米”冰淇淋三版本上線 5.99元起嘗鮮

小米汽車新玩法！車機端直發微博，專屬小尾巴成車主社交新寵

捷途XWD技術亮相，以智能四驅重塑越野標準，引領“旅行+”邁向“越野王”新篇

18.99萬起預售！捷途旅行者PLUS系列雙車齊發硬派美學與智能電混的完美融合

熱門內容

本欄最新

小米SU7車機直發微博引熱議，車與社交融合，車主：這情緒價值到位了

小米YU7入門版申報信息曝光：減重115公斤續航超600km或售24萬級

小米食堂“腦洞大開”！“小米”冰淇淋三版本上線 5.99元起嘗鮮

小米汽車新玩法！車機端直發微博，專屬小尾巴成車主社交新寵

捷途XWD技術亮相，以智能四驅重塑越野標準，引領“旅行+”邁向“越野王”新篇

18.99萬起預售！捷途旅行者PLUS系列雙車齊發硬派美學與智能電混的完美融合

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR比爾科技官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

阿里黑科技炸場！0.6B 小模型“魔改”成 17B MoE，激活參數僅 5%，CPU 直接跑 30token/s！