滾動資訊

當前位置：首頁 > 資訊 > 業(yè)界動態(tài) > 正文內(nèi)容

無人關(guān)心的Meta AI，好像真有點說法

時間：2026-04-11 12:08:31 來源：差評編輯：快訊 IP：北京 發(fā)表評論無障礙通道

繞過元宇宙的彎路，放棄出道即巔峰的 Llama，怒燒幾百億美金組建超級智能實驗室。。。

在 meta 的 AI 戰(zhàn)略徹底顛覆以后，他們的首款通用模型 Muse Spark 耗時一年，終于嶄新出爐了。

而在第一時間上手實測之后，世超感覺，之前的 meta 是拉完了都排不上號的主，靠著鈔能力一路猛追，可能真爬上了榜單的人上人。

根據(jù)官方發(fā)布的跑分結(jié)果，Muse Spark 在多模態(tài)、文字推理、健康和智能體領(lǐng)域，和 Opus 4.6，Gemini 3.1 Pro 等旗艦模型相比的確各有千秋。

雖然這個健康領(lǐng)域挺詭異的，很少見這類 Benchmark 被搬上通用模型的臺面。。。

而在即將推出的 “ 沉思模式 ” 下，Muse Spark 在一些高難測試集，如 Humanity's Last Exam 里的思考推理表現(xiàn)，也和 Gemini 3.1 Deep Think，GPT 5.4 Pro 差不多。

但也有人并不看好 meta 這一波。畢竟官方博客披露信息太少了，案例都沒幾個。模型閉源，又沒有發(fā)布 API，meta 也有可能故技重施，在跑分上造假。這模型好不好用，難說。

所以，為了看看這里面到底有幾分水分，世超把 Muse Spark 拉來，和 Gemini 3.1 pro，Opus 4.6，GPT 5.4 Thinking 做了個簡單橫向?qū)Ρ取?/p>

目前 Muse Spark 只開放了 Instant 和 Thinking 兩種模式，前者快速回答，后者有一些思考和推理能力，我們這回主要測能力更強的 Thinking。

咱們先從 Muse Spark 主推的多模態(tài)開始。比如，世超給它一張超市貨架圖，讓它推薦幾款減脂期零食。

從回答里看得出，Muse Spark 對圖片的理解能力很強，細節(jié)也能抓到位，文字閱讀無障礙，推薦得有理有據(jù)，結(jié)果可靠。

但要只是上面這種程度，所有模型都能做得到，Muse Spark 只能算是及格。下面這些上難度的玩法，才是 Muse Spark 表演的開始。

在官方博客里，meta 提供了一個一張圖變數(shù)獨游戲的案例。只要給出一張圖片，提示詞 “ 把這張圖變成網(wǎng)頁數(shù)獨游戲 ”，就能獲得一個可玩數(shù)獨。

我們也做了個類似的，親測好用。不止交互很絲滑，答案也能準確計算好，頁面風格和提供的圖片完全一致。

感覺 Muse Spark 的多模態(tài)不像其它模型，只是識圖看個大概，剩下的全憑自由發(fā)揮。它是真懂事，不僅能按照你提供的圖片像素級復刻，甚至可以準確推斷出背后的操作使用邏輯。

下面這個例子就更猛了。世超只是隨手截了一個 win11 系統(tǒng)計算器圖給它，提示 “ 把這張圖片變成一個可用計算器 ”，Muse Spark 一口氣做出來的 demo，每個按鍵都好使，計算準確，界面和系統(tǒng)媽生計算器一模一樣。

作為對比，GPT 5.4 Thinking 界面風格類似，但有亂碼；Gemini 3.1 pro 完全無視了原圖；只有真神 Opus 4.6 維持了一貫的高水準。

而在據(jù)說 Muse Spark 并不擅長的代碼方面，我們實測也有驚喜。

咱先試了試前端網(wǎng)頁設計實現(xiàn)。至少在這一塊，Muse Spark 的審美屬于一流水平。

頁面功能實現(xiàn)得比較完整，部分鏈接按鈕可點擊，雖然具體內(nèi)容存在一些杜撰，粗略看起來還是很舒服的。

整體和 Opus 4.6 比起來有點差距，但比起不知所云的 GPT，還是強了很多。

算法代碼方面，我們挑選了幾道 leetcode 高難題。

最震驚的還是在 65 號題上，雖然所有模型都通過了測試，但 Muse Spark 給出了時間和空間上，都更加優(yōu)雅的解法。。。

作為對比，Opus 4.6 和 GPT 5.4 Thinking 的時間復雜度排名僅 50%，而 Gemini 3.1 pro 的空間復雜度只擊敗了 13% 的提交答案。

再以 10 號題為例，Muse Spark 和 Opus 給出的依然是最優(yōu)解；GPT 通過了測試，但解法不夠好；Gemini 3.1 pro 則直接出現(xiàn) bug，失敗了。

測到這里，Muse Spark 的表現(xiàn)已經(jīng)遠遠超過世超的預期了。表現(xiàn)和 Opus 打的有來有回，反而 GPT 和 Gemini 顯得有點不夠看。

不會吧不會吧，難道我們都誤會了，亞歷山大王真有點東西？

再看看簡單的文字測試。不得不說，Muse Spark 思路相當清晰，Instant 模式回答幾個經(jīng)典邏輯問題足夠用，3 秒必達。

而作為對比，Gemini 和 Opus 的表現(xiàn)也是穩(wěn)定且準確。唯獨 GPT，上個月新發(fā)布的版本 5.4 Thinking，還在這種簡單邏輯題上翻車，拉完了。

最后，在健康領(lǐng)域，所有模型的回答都中規(guī)中矩，Muse Spark 無功無過。

在簡單試用完一圈之后，世超感覺大模型界三足鼎立的局面，真要被打破了。

而 meta 目前放出來的，甚至還只是一個較輕量，試試水，可能在未來開源的版本。。。

官方表示，他們正在 Muse Spark 的基礎上，繼續(xù)對整個技術(shù)棧加大投資力度，從研究，數(shù)據(jù)，模型訓練到基礎設施，規(guī)模全面擴張。

在模型訓練技術(shù)細節(jié)上，meta 提到了三個關(guān)鍵點：預訓練、強化學習、和測試時推理（test-time reasoning）。

前兩個過程各位差友已經(jīng)很熟悉了，但即使這是每個大模型的必經(jīng)之路，meta 依然背靠 Instagram 和 Facebook，有著得天獨厚的數(shù)據(jù)優(yōu)勢。在數(shù)據(jù)這方面，可能只有谷歌能和 meta 相提并論。

而在測試時推理這個階段，meta 主要做的是，讓模型在回答問題之前，先思考一陣，但不能耗太多 token。

這一點世超在 GPT Thinking 系列上深有體會。這些模型經(jīng)常想起來沒完，結(jié)果變得又臭又長，信息密度極低。

而 meta 選擇在訓練的過程中，對過長的思考進行懲罰。把長推理壓縮成盡量少 token 的前提下，又能讓模型回答準確，達成了微妙的平衡。

最后，回過頭看，一次又一次失敗，meta 居然從來沒退出這場比賽，最終再次歸位前沿陣地，這故事太燃了。

但在另一邊，Claude Mythos Preview 已經(jīng)強到另一個維度了。相比之下，Muse Spark 這一波，像是才剛補上了之前缺的課。

所以，世超只能說，期待 meta 加入這場模型大亂斗，讓小扎也有機會，癱坐在小小的辦公椅上吧。

更多>同類資訊

2026Q1全球手機出貨量：三星市占22%、蘋果20%

04-11

馬斯克的XChat獨立消息應用17日登陸蘋果iPhone/iPad

04-11

華為乾崑智駕大賽收官：三人并列第一獲獎三折疊手機

04-11

程前刪除“AI寫作年賺200萬”視頻

04-11

小米三款手機今日起正式調(diào)價 REDMI K90 Pro Max上漲200元

04-11

濺落50分鐘后，阿爾忒彌斯2號返回艙終于打開艙門

04-11

馬斯克祝賀美國探月飛船返回地球：歡迎回家

04-11

美國車企正逐漸將訂閱制功能視為核心收入來源

04-11

賣了10個億，卻硬生生虧掉165億？張文拿什么填壁仞科技

04-11

李斌：蔚來沒有進入Robotaxi領(lǐng)域的計劃

04-11

小米三款手機今日起正式調(diào)價！REDMI K90 Pro Max上漲200元

04-11

老車主狂喜！第一代SU7/YU7即將OTA新一代SU7同款功能

04-11

再奪全球第一！百度伐謀Agent 2.0登頂MLE-Bench

04-11

小米汽車老車主福音！5月起老款SU7將OTA升級獲新一代同款功能

04-11

百度伐謀Agent 2.0登頂MLE-Bench，多行業(yè)落地助力企業(yè)智能化升級

04-11

點擊查看更多 +

全站最新

現(xiàn)代IONIQ艾尼氪入華啟新篇，攜兩款概念車首秀，打造中國專屬電動出行體驗

現(xiàn)代IONIQ艾尼氪入華啟新篇以本土化戰(zhàn)略打造專屬電動化生態(tài)宇宙

比亞迪開放免費閃充：重塑車圈補能格局，理想蔚來如何接招？

新款奧迪Q6L e-tron家族上市，價格下調(diào)配置升級，開啟純電出行新體驗

博世與高通攜手：驍龍座艙系統(tǒng)交付破千萬，ADAS合作再拓新程

蔚來李斌：2026年樂道L90將搭載旗艦智駕芯片 20至30萬級市場迎新突破

熱門內(nèi)容

本欄最新

現(xiàn)代IONIQ艾尼氪入華啟新篇，攜兩款概念車首秀，打造中國專屬電動出行體驗

現(xiàn)代IONIQ艾尼氪入華啟新篇以本土化戰(zhàn)略打造專屬電動化生態(tài)宇宙

新款小米SU7驚艷齊魯春季車展，科技感外觀成焦點引車友熱議圍觀

小米本月發(fā)布多款新品！REDMI Pad 2 SE攜9.7英寸2K屏亮相，還有AI旗艦本同場

蔚來、理想汽車領(lǐng)漲，熱門中概股盤初表現(xiàn)活躍，多股呈現(xiàn)上升態(tài)勢

現(xiàn)代艾尼氪入華“亮劍”：本土化設計+雙路線并行，能否破局新能源市場？

本網(wǎng)站LOGO小熊標志受版權(quán)保護，版權(quán)登記號：魯作登字-2015-F-025467，未經(jīng)ITBEAR比爾科技官方許可，嚴禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術(shù)由太陽灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務。如本站內(nèi)容侵犯了您的權(quán)利，請通知我們及時刪除。
中國（山東）自由貿(mào)易試驗區(qū) 魯ICP備11015305號-1 聯(lián)系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

無人關(guān)心的Meta AI，好像真有點說法