阿里國際數字商業團隊近日在 Marco-MoE 系列模型中重磅推出新成員——Marco-Mini-Instruct,再次展現了“以小博大”的極致效率理念。該模型總參數量17.3B,激活參數量卻僅0.86B(約占5%),推理效率極高,甚至在普通 CPU 上即可實現流暢運行。
極致輕量化:CPU 也能跑飛起
根據官方估算,若采用8bit 量化并搭配4條 DDR42400內存,該模型推理速度可達約30token/s。這一性能讓 MoE 架構真正走向“人人可用”的階段,極大降低了本地部署門檻。
核心創新:Upcycling 技術“點石成金”
Marco-Mini-Instruct 的最大亮點并非參數規模或速度,而是其誕生方式。該模型并非從零開始訓練,而是基于 Qwen3-0.6B-Base 模型通過upcycling技術轉化而來。
具體流程為:將 Dense 小模型的部分模塊拆分或復制為多個專家(experts),并引入路由機制;同時結合細粒度子矩陣切分與Drop-Upcycling策略(訓練過程中按一定概率隨機丟棄部分專家或路由路徑,加入正則化以提升魯棒性),實現了從純 Dense 模型到 MoE 架構的平滑升級。這一方法為行業提供了低成本、高效率的 MoE 煉制新路徑。
上下文與訓練配置細節
模型 config 中 max_position_embeddings 已擴展至32K,但 SFT 階段實際采用8192token 上下文,因此默認上下文長度更適合大多數實際應用場景。
后訓練亮點:級聯 On-Policy 蒸餾
后訓練流程同樣亮眼:先進行 SFT 預熱,隨后采用級聯 On-Policy Distillation策略——先以 Qwen3-30B-A3B-Instruct 為教師模型進行蒸餾,再切換至更強大的 Qwen3-Next-80B-A3B-Instruct。蒸餾數據覆蓋指令遵循、復雜推理、對齊安全、數學能力等多維度,確保模型在保持高效的同時,全面提升綜合智能水平。
性能實測:0.86B 激活碾壓4B 級 Dense 模型
最終發布的 Marco-Mini-Instruct 在大部分主流 benchmark 上,以僅0.86B 激活參數的表現,超越了 Qwen3-4B 等眾多 Dense 模型,充分驗證了 MoE 架構在“小而美”路線上的巨大潛力。
行業意義:開源 MoE 煉制新范式
AIbase 認為,這一成果的最大價值在于為廣大開發者打開了一扇新大門——無需從零訓練海量 MoE 模型,只需選取一個合適的 Dense 小模型,嚴格復現論文中的 upcycling+Drop-Upcycling 流程即可。整個訓練成本可控:SFT 階段僅需64GPU×24小時,蒸餾階段為64GPU×110小時,極大降低了中小團隊嘗試 MoE 的門檻。
阿里此次“魔改”再次證明:模型效率的突破不一定依賴參數堆砌,創新訓練范式同樣能帶來質的飛躍。Marco-Mini-Instruct 的發布,無疑將加速 MoE 技術在邊緣設備、個人開發者場景中的落地,值得全行業持續關注。





