岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

ITBear旗下自媒體矩陣:

無人關(guān)心的Meta AI,好像真有點說法

   時間:2026-04-11 12:08:31 來源:差評編輯:快訊 IP:北京 發(fā)表評論無障礙通道
 

繞過元宇宙的彎路,放棄出道即巔峰的 Llama,怒燒幾百億美金組建超級智能實驗室。。。

在 meta 的 AI 戰(zhàn)略徹底顛覆以后,他們的首款通用模型 Muse Spark 耗時一年,終于嶄新出爐了。

而在第一時間上手實測之后,世超感覺,之前的 meta 是拉完了都排不上號的主,靠著鈔能力一路猛追,可能真爬上了榜單的人上人。

根據(jù)官方發(fā)布的跑分結(jié)果,Muse Spark 在多模態(tài)、文字推理、健康和智能體領(lǐng)域,和 Opus 4.6,Gemini 3.1 Pro 等旗艦模型相比的確各有千秋。

雖然這個健康領(lǐng)域挺詭異的,很少見這類 Benchmark 被搬上通用模型的臺面。。。

而在即將推出的 “ 沉思模式 ” 下,Muse Spark 在一些高難測試集,如 Humanity's Last Exam 里的思考推理表現(xiàn),也和 Gemini 3.1 Deep Think,GPT 5.4 Pro 差不多。

但也有人并不看好 meta 這一波。畢竟官方博客披露信息太少了,案例都沒幾個。模型閉源,又沒有發(fā)布 API,meta 也有可能故技重施,在跑分上造假。這模型好不好用,難說。

所以,為了看看這里面到底有幾分水分,世超把 Muse Spark 拉來,和 Gemini 3.1 pro,Opus 4.6,GPT 5.4 Thinking 做了個簡單橫向?qū)Ρ取?/p>

目前 Muse Spark 只開放了 Instant 和 Thinking 兩種模式,前者快速回答,后者有一些思考和推理能力,我們這回主要測能力更強的 Thinking。

咱們先從 Muse Spark 主推的多模態(tài)開始。比如,世超給它一張超市貨架圖,讓它推薦幾款減脂期零食。

從回答里看得出,Muse Spark 對圖片的理解能力很強,細節(jié)也能抓到位,文字閱讀無障礙,推薦得有理有據(jù),結(jié)果可靠。

但要只是上面這種程度,所有模型都能做得到,Muse Spark 只能算是及格。下面這些上難度的玩法,才是 Muse Spark 表演的開始。

在官方博客里,meta 提供了一個一張圖變數(shù)獨游戲的案例。只要給出一張圖片,提示詞 “ 把這張圖變成網(wǎng)頁數(shù)獨游戲 ”,就能獲得一個可玩數(shù)獨。

我們也做了個類似的,親測好用。不止交互很絲滑,答案也能準確計算好,頁面風格和提供的圖片完全一致。

感覺 Muse Spark 的多模態(tài)不像其它模型,只是識圖看個大概,剩下的全憑自由發(fā)揮。它是真懂事,不僅能按照你提供的圖片像素級復刻,甚至可以準確推斷出背后的操作使用邏輯。

下面這個例子就更猛了。世超只是隨手截了一個 win11 系統(tǒng)計算器圖給它,提示 “ 把這張圖片變成一個可用計算器 ”,Muse Spark 一口氣做出來的 demo,每個按鍵都好使,計算準確,界面和系統(tǒng)媽生計算器一模一樣。

作為對比,GPT 5.4 Thinking 界面風格類似,但有亂碼;Gemini 3.1 pro 完全無視了原圖;只有真神 Opus 4.6 維持了一貫的高水準。

而在據(jù)說 Muse Spark 并不擅長的代碼方面,我們實測也有驚喜。

咱先試了試前端網(wǎng)頁設計實現(xiàn)。至少在這一塊,Muse Spark 的審美屬于一流水平。

頁面功能實現(xiàn)得比較完整,部分鏈接按鈕可點擊,雖然具體內(nèi)容存在一些杜撰,粗略看起來還是很舒服的。

整體和 Opus 4.6 比起來有點差距,但比起不知所云的 GPT,還是強了很多。

算法代碼方面,我們挑選了幾道 leetcode 高難題。

最震驚的還是在 65 號題上,雖然所有模型都通過了測試,但 Muse Spark 給出了時間和空間上,都更加優(yōu)雅的解法。。。

作為對比,Opus 4.6 和 GPT 5.4 Thinking 的時間復雜度排名僅 50%,而 Gemini 3.1 pro 的空間復雜度只擊敗了 13% 的提交答案。

再以 10 號題為例,Muse Spark 和 Opus 給出的依然是最優(yōu)解;GPT 通過了測試,但解法不夠好;Gemini 3.1 pro 則直接出現(xiàn) bug,失敗了。

測到這里,Muse Spark 的表現(xiàn)已經(jīng)遠遠超過世超的預期了。表現(xiàn)和 Opus 打的有來有回,反而 GPT 和 Gemini 顯得有點不夠看。

不會吧不會吧,難道我們都誤會了,亞歷山大王真有點東西?

再看看簡單的文字測試。不得不說,Muse Spark 思路相當清晰,Instant 模式回答幾個經(jīng)典邏輯問題足夠用,3 秒必達。

而作為對比,Gemini 和 Opus 的表現(xiàn)也是穩(wěn)定且準確。唯獨 GPT,上個月新發(fā)布的版本 5.4 Thinking,還在這種簡單邏輯題上翻車,拉完了。

最后,在健康領(lǐng)域,所有模型的回答都中規(guī)中矩,Muse Spark 無功無過。

在簡單試用完一圈之后,世超感覺大模型界三足鼎立的局面,真要被打破了。

而 meta 目前放出來的,甚至還只是一個較輕量,試試水,可能在未來開源的版本。。。

官方表示,他們正在 Muse Spark 的基礎上,繼續(xù)對整個技術(shù)棧加大投資力度,從研究,數(shù)據(jù),模型訓練到基礎設施,規(guī)模全面擴張。

在模型訓練技術(shù)細節(jié)上,meta 提到了三個關(guān)鍵點:預訓練、強化學習、和測試時推理(test-time reasoning)。

前兩個過程各位差友已經(jīng)很熟悉了,但即使這是每個大模型的必經(jīng)之路,meta 依然背靠 Instagram 和 Facebook,有著得天獨厚的數(shù)據(jù)優(yōu)勢。在數(shù)據(jù)這方面,可能只有谷歌能和 meta 相提并論。

而在測試時推理這個階段,meta 主要做的是,讓模型在回答問題之前,先思考一陣,但不能耗太多 token。

這一點世超在 GPT Thinking 系列上深有體會。這些模型經(jīng)常想起來沒完,結(jié)果變得又臭又長,信息密度極低。

而 meta 選擇在訓練的過程中,對過長的思考進行懲罰。把長推理壓縮成盡量少 token 的前提下,又能讓模型回答準確,達成了微妙的平衡。

最后,回過頭看,一次又一次失敗,meta 居然從來沒退出這場比賽,最終再次歸位前沿陣地,這故事太燃了。

但在另一邊,Claude Mythos Preview 已經(jīng)強到另一個維度了。相比之下,Muse Spark 這一波,像是才剛補上了之前缺的課。

所以,世超只能說,期待 meta 加入這場模型大亂斗,讓小扎也有機會,癱坐在小小的辦公椅上吧。

 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  爭議稿件處理  |  English Version
 
主站蜘蛛池模板: 中文字幕亚洲视频 | 欧美久久久久久久久久久久 | 自拍欧美日韩 | 五月综合激情 | 黄色a网站 | 黄色小视频免费在线观看 | 国产黄色av网站 | 久久久亚洲一区 | 在线免费观看日韩av | 夜夜嗨av一区二区三区 | 色姑娘av| 日本亚洲欧美在线 | a一级黄色片 | 日韩精品在线观看一区二区 | 日本h在线观看 | 曰韩在线 | 中文有码在线观看 | 男人天堂视频在线 | 中文天堂在线视频 | 日韩三级在线观看视频 | 第四色激情网 | 奶波霸巨乳一二三区乳 | 搞黄视频在线观看 | 欧美一区二区三区四区五区六区 | 国产成人久久精品 | 影音先锋在线观看 | 成人亚洲一区 | 色狠狠综合 | 在线免费观看成年人视频 | 亚洲欧美日韩一区 | 成人深夜福利 | 四虎成人在线观看 | 日韩免费中文字幕 | 激情丁香 | 国产h视频在线 | 久久精品二区 | 日韩黄色高清视频 | 国产又大又黄视频 | 女同性恋毛片 | 天堂av网在线 | 你懂的在线播放 |