meta在人工智能領域的戰略調整引發了科技界的廣泛關注。這家曾因元宇宙投入巨大卻收效甚微的科技巨頭,如今通過組建超級智能實驗室并投入數百億美元,成功推出了首款通用模型Muse Spark。經過一年的研發,這款模型終于面世,并在多模態、文字推理、健康和智能體等領域展現出強勁實力。
在官方發布的測試結果中,Muse Spark與Opus 4.6、Gemini 3.1 Pro等旗艦模型相比,表現各有亮點。特別是在多模態任務中,該模型能夠精準理解圖片內容并完成復雜操作。例如,當用戶提供一張超市貨架圖片并要求推薦減脂零食時,Muse Spark不僅能準確識別商品,還能結合營養學知識給出合理建議。這種能力在同類模型中并不常見,多數模型僅能完成基礎識圖任務。
更令人印象深刻的是其圖像轉換功能。測試中,研究人員僅需提供一張普通圖片和簡單指令,Muse Spark就能生成功能完整的網頁數獨游戲或計算器應用。生成的計算器不僅界面與原圖高度一致,所有按鍵功能也完全正常,計算結果準確無誤。相比之下,GPT 5.4 Thinking生成的界面存在亂碼,Gemini 3.1 Pro則完全忽略了原圖設計。
在代碼生成領域,Muse Spark同樣表現出色。面對LeetCode高難度算法題時,該模型在65號題中給出了時間和空間復雜度均優于其他模型的解法。在10號題測試中,其解法與Opus 4.6并列最優,而GPT 5.4 Thinking的解法效率較低,Gemini 3.1 Pro甚至出現運行錯誤。前端開發測試中,Muse Spark生成的網頁設計美觀且功能完整,部分鏈接可正常點擊,整體表現優于GPT系列模型。
文字推理測試進一步驗證了該模型的實力。在Instant模式下,Muse Spark能在3秒內準確回答經典邏輯問題,表現與Gemini、Opus相當,而GPT 5.4 Thinking則出現明顯錯誤。健康領域咨詢測試中,各模型表現中規中矩,Muse Spark的回答專業但缺乏突破性表現。
meta的技術團隊透露,Muse Spark的成功源于三大創新:預訓練階段充分利用Instagram和Facebook的獨家數據資源;強化學習過程中引入新型獎勵機制;測試時推理階段通過懲罰過長思考過程,迫使模型在有限token內完成高效推理。這種設計既避免了GPT系列模型常見的冗長回答問題,又確保了回答的準確性。
盡管Muse Spark已展現出強大實力,但科技界對其仍持謹慎樂觀態度。部分專家指出,目前發布的版本僅為輕量級測試版,meta尚未公布完整技術細節和訓練數據規模。模型閉源且未開放API,其實際性能仍需更多獨立測試驗證。與此同時,Claude Mythos Preview等新興模型正在開辟新的技術路徑,Muse Spark能否持續保持領先地位仍有待觀察。







