繞過元宇宙的彎路,放棄出道即巔峰的 Llama,怒燒幾百億美金組建超級智能實驗室。。。
在 meta 的 AI 戰(zhàn)略徹底顛覆以后,他們的首款通用模型 Muse Spark 耗時一年,終于嶄新出爐了。
而在第一時間上手實測之后,世超感覺,之前的 meta 是拉完了都排不上號的主,靠著鈔能力一路猛追,可能真爬上了榜單的人上人。
根據(jù)官方發(fā)布的跑分結(jié)果,Muse Spark 在多模態(tài)、文字推理、健康和智能體領(lǐng)域,和 Opus 4.6,Gemini 3.1 Pro 等旗艦模型相比的確各有千秋。
雖然這個健康領(lǐng)域挺詭異的,很少見這類 Benchmark 被搬上通用模型的臺面。。。
而在即將推出的 “ 沉思模式 ” 下,Muse Spark 在一些高難測試集,如 Humanity's Last Exam 里的思考推理表現(xiàn),也和 Gemini 3.1 Deep Think,GPT 5.4 Pro 差不多。
但也有人并不看好 meta 這一波。畢竟官方博客披露信息太少了,案例都沒幾個。模型閉源,又沒有發(fā)布 API,meta 也有可能故技重施,在跑分上造假。這模型好不好用,難說。
所以,為了看看這里面到底有幾分水分,世超把 Muse Spark 拉來,和 Gemini 3.1 pro,Opus 4.6,GPT 5.4 Thinking 做了個簡單橫向?qū)Ρ取?/p>
目前 Muse Spark 只開放了 Instant 和 Thinking 兩種模式,前者快速回答,后者有一些思考和推理能力,我們這回主要測能力更強的 Thinking。
咱們先從 Muse Spark 主推的多模態(tài)開始。比如,世超給它一張超市貨架圖,讓它推薦幾款減脂期零食。
從回答里看得出,Muse Spark 對圖片的理解能力很強,細節(jié)也能抓到位,文字閱讀無障礙,推薦得有理有據(jù),結(jié)果可靠。
但要只是上面這種程度,所有模型都能做得到,Muse Spark 只能算是及格。下面這些上難度的玩法,才是 Muse Spark 表演的開始。
在官方博客里,meta 提供了一個一張圖變數(shù)獨游戲的案例。只要給出一張圖片,提示詞 “ 把這張圖變成網(wǎng)頁數(shù)獨游戲 ”,就能獲得一個可玩數(shù)獨。
我們也做了個類似的,親測好用。不止交互很絲滑,答案也能準確計算好,頁面風格和提供的圖片完全一致。
感覺 Muse Spark 的多模態(tài)不像其它模型,只是識圖看個大概,剩下的全憑自由發(fā)揮。它是真懂事,不僅能按照你提供的圖片像素級復刻,甚至可以準確推斷出背后的操作使用邏輯。
下面這個例子就更猛了。世超只是隨手截了一個 win11 系統(tǒng)計算器圖給它,提示 “ 把這張圖片變成一個可用計算器 ”,Muse Spark 一口氣做出來的 demo,每個按鍵都好使,計算準確,界面和系統(tǒng)媽生計算器一模一樣。
作為對比,GPT 5.4 Thinking 界面風格類似,但有亂碼;Gemini 3.1 pro 完全無視了原圖;只有真神 Opus 4.6 維持了一貫的高水準。
而在據(jù)說 Muse Spark 并不擅長的代碼方面,我們實測也有驚喜。
咱先試了試前端網(wǎng)頁設計實現(xiàn)。至少在這一塊,Muse Spark 的審美屬于一流水平。
頁面功能實現(xiàn)得比較完整,部分鏈接按鈕可點擊,雖然具體內(nèi)容存在一些杜撰,粗略看起來還是很舒服的。
整體和 Opus 4.6 比起來有點差距,但比起不知所云的 GPT,還是強了很多。
算法代碼方面,我們挑選了幾道 leetcode 高難題。
最震驚的還是在 65 號題上,雖然所有模型都通過了測試,但 Muse Spark 給出了時間和空間上,都更加優(yōu)雅的解法。。。
作為對比,Opus 4.6 和 GPT 5.4 Thinking 的時間復雜度排名僅 50%,而 Gemini 3.1 pro 的空間復雜度只擊敗了 13% 的提交答案。
再以 10 號題為例,Muse Spark 和 Opus 給出的依然是最優(yōu)解;GPT 通過了測試,但解法不夠好;Gemini 3.1 pro 則直接出現(xiàn) bug,失敗了。
測到這里,Muse Spark 的表現(xiàn)已經(jīng)遠遠超過世超的預期了。表現(xiàn)和 Opus 打的有來有回,反而 GPT 和 Gemini 顯得有點不夠看。
不會吧不會吧,難道我們都誤會了,亞歷山大王真有點東西?
再看看簡單的文字測試。不得不說,Muse Spark 思路相當清晰,Instant 模式回答幾個經(jīng)典邏輯問題足夠用,3 秒必達。
而作為對比,Gemini 和 Opus 的表現(xiàn)也是穩(wěn)定且準確。唯獨 GPT,上個月新發(fā)布的版本 5.4 Thinking,還在這種簡單邏輯題上翻車,拉完了。
最后,在健康領(lǐng)域,所有模型的回答都中規(guī)中矩,Muse Spark 無功無過。
在簡單試用完一圈之后,世超感覺大模型界三足鼎立的局面,真要被打破了。
而 meta 目前放出來的,甚至還只是一個較輕量,試試水,可能在未來開源的版本。。。
官方表示,他們正在 Muse Spark 的基礎上,繼續(xù)對整個技術(shù)棧加大投資力度,從研究,數(shù)據(jù),模型訓練到基礎設施,規(guī)模全面擴張。
在模型訓練技術(shù)細節(jié)上,meta 提到了三個關(guān)鍵點:預訓練、強化學習、和測試時推理(test-time reasoning)。
前兩個過程各位差友已經(jīng)很熟悉了,但即使這是每個大模型的必經(jīng)之路,meta 依然背靠 Instagram 和 Facebook,有著得天獨厚的數(shù)據(jù)優(yōu)勢。在數(shù)據(jù)這方面,可能只有谷歌能和 meta 相提并論。
而在測試時推理這個階段,meta 主要做的是,讓模型在回答問題之前,先思考一陣,但不能耗太多 token。
這一點世超在 GPT Thinking 系列上深有體會。這些模型經(jīng)常想起來沒完,結(jié)果變得又臭又長,信息密度極低。
而 meta 選擇在訓練的過程中,對過長的思考進行懲罰。把長推理壓縮成盡量少 token 的前提下,又能讓模型回答準確,達成了微妙的平衡。
最后,回過頭看,一次又一次失敗,meta 居然從來沒退出這場比賽,最終再次歸位前沿陣地,這故事太燃了。
但在另一邊,Claude Mythos Preview 已經(jīng)強到另一個維度了。相比之下,Muse Spark 這一波,像是才剛補上了之前缺的課。
所以,世超只能說,期待 meta 加入這場模型大亂斗,讓小扎也有機會,癱坐在小小的辦公椅上吧。









