谷歌近日面向特定用戶群體開放了其世界模型Genie 3的實驗性研究原型——Project Genie的體驗權限。這款專注于沉浸式世界創建的互動原型,旨在讓用戶通過文本和視覺提示設計、探索并重新混合屬于自己的互動環境。此前,谷歌曾在去年8月初步預覽了Genie 3的世界模型能力,其能夠生成多樣化的可交互環境,引發了早期測試者的廣泛關注。
目前,年滿18歲的美國Google AI Ultra訂閱用戶已可率先體驗這一原型。Project Genie是一個基于Web的應用,由Genie 3、Nano Banana Pro和Gemini共同驅動,用戶可以通過它親身體驗世界模型帶來的沉浸式感受。其工作流程包括設計、預覽、生成和重混四個環節:用戶首先使用文本和視覺提示設計世界和角色;隨后,Nano Banana Pro會生成圖像預覽供調整;進入世界后,Genie 3會隨著用戶的移動實時生成環境;最后,用戶可以在作品庫中重新混合現有世界或發現新世界。
該體驗圍繞三大核心能力構建。首先是“世界草圖繪制”,用戶可通過文本提示或生成/上傳的圖像創建生動且不斷擴展的環境,定義角色、探索方式(如步行、騎行、飛行等)以及視角(第一人稱或第三人稱)。Nano Banana Pro的集成讓用戶能在進入世界前預覽并微調圖像,實現更精確的控制。其次是“世界探索”,用戶創造的世界是可導航的動態環境,Project Genie會根據用戶行動實時生成前方路徑,并允許調整鏡頭。最后是“世界重混”,用戶可基于現有世界的提示詞構建新詮釋,或在作品庫中探索精選世界以獲取靈感,完成后可下載世界和探索過程的視頻。
世界模型的核心在于模擬環境的動態變化,預測其演變方式及行為影響。谷歌開發的Genie 3突破了傳統靜態3D快照的限制,能夠在用戶移動和互動時實時生成路徑,模擬物理和交互,其一致性使得模擬任何真實世界場景成為可能,包括機器人技術、建模動畫、小說創作以及歷史場景探索等。這一能力為構建通用人工智能(AGI)提供了重要基礎,因為AGI需要能夠駕馭現實世界多樣性的系統。
盡管Project Genie展現了強大的潛力,但作為早期研究模型,Genie 3仍存在一些待改進領域。例如,生成的世界可能不完全逼真,或不完全遵循提示詞和圖像,甚至不符合現實物理規律;角色控制可能不夠流暢,或存在延遲;生成時長限制在60秒內。去年8月宣布的某些功能,如探索時可改變世界的“可提示事件”,尚未包含在此原型中。谷歌表示,將通過與各行業和領域的信任測試者合作,持續優化這一模型。







