馬斯克旗下的xAI公司近日在爭議聲中推出了Grok 4.2公測Beta版,盡管團隊近期經歷高層動蕩,但新模型的發布依然引發廣泛關注。與當前主流大模型動輒數萬億參數不同,Grok 4.2僅采用500B參數架構,這種"輕量化"設計使其在性能表現上呈現兩極分化態勢——部分用戶盛贊其創新功能,另一派則批評其邏輯推理能力不足。
面對質疑聲浪,馬斯克在社交平臺展開密集公關行動。他不僅連續轉發數十條正面評價,更親自發文強調:"當前版本仍存在諸多缺陷,但團隊正在每日修復。公測結束后,Grok 4.2將展現出比前代快數倍的推理速度。"據技術文檔披露,該模型具備每周自我迭代的獨特能力,未來將形成常態化更新機制。這種動態優化模式被視為對抗OpenAI等競爭對手的關鍵策略。
測試數據顯示,Grok 4.2在弱智吧風格測試題中表現亮眼。當被問及"50米外洗車店該開車還是步行"時,模型準確識別出距離因素與交通方式的非關聯性,給出符合邏輯的解答。但專業開發者指出,在復雜數學證明和跨領域知識整合等任務中,500B參數的局限性開始顯現。Reddit社區討論顯示,部分用戶認為馬斯克宣稱的"橫掃榜單"可能源于特定測試環境的優化。
模型偏見問題再度引發爭議。盡管馬斯克承諾打造無偏見系統,但實際測試發現Grok 4.2在涉及性別議題時,回答傾向與創始人公開立場高度吻合。例如在"Caitlyn Jenner"測試中,模型展現出與ChatGPT、Gemini截然不同的價值判斷,該結果在社交平臺引發新一輪倫理討論。支持者則強調,這種"個性化"特征恰恰體現了模型的人文關懷。
技術細節的缺失加劇了外界猜測。xAI至今未公布完整訓練數據構成和底層架構說明,僅在排行榜披露部分基準測試結果。這種透明度不足導致討論集中于用戶體驗層面,而非技術突破本身。AI工程師Mark Krechman透露,當前版本屬于"精簡試驗品",中大型版本正在研發中,該說法獲得馬斯克本人轉發確認。
在模型發布同期,xAI還推出Grok imagine視頻生成工具,目前僅限iOS用戶使用。這項新功能被視為拓展多模態能力的重要布局,但具體市場反響仍有待觀察。隨著公測持續推進,Grok 4.2能否在每周迭代中實現性能躍升,將成為檢驗馬斯克技術承諾的關鍵指標。











