舊金山一家名為Standard Intelligence的初創公司,近日宣布推出名為FDM-1(前向動力學模型)的計算機行為模型,宣稱其為“首個完全通用的計算機行為模型”。該模型通過直接處理視頻流,在CAD建模、網站安全測試以及自動駕駛等場景中展現出強大的泛化能力,引發行業關注。
與傳統計算機使用代理依賴截屏分析和界面元素識別不同,FDM-1選擇了一條截然不同的技術路徑。它直接從大規模視頻數據中學習人類操作計算機的行為模式,而非在已有視覺語言模型上疊加工具調用能力。Standard Intelligence認為,要實現真正通用的計算機操作智能體,關鍵在于利用互聯網規模的視頻語料庫,而非局限于截屏上的分類和推理。
當前,主流的計算機使用代理如Anthropic的Claude、OpenAI的Operator以及Google DeepMind的Project Mariner,均采用“看圖說話”的思路,依賴視覺語言模型和工具調用能力。這些模型通過截屏、識別界面元素、模擬點擊和鍵入來操作計算機,盡管在特定基準測試中取得了不錯成績,但本質上仍受限于截屏分辨率和操作頻率。
FDM-1的訓練方法則更接近OpenAI在2022年提出的VPT(視頻預訓練)方法,但進行了顯著改進。VPT通過少量標注數據訓練逆向動力學模型(IDM),再利用IDM為大規模游戲視頻自動打標簽,最終實現行為克隆訓練。然而,VPT的應用局限于Minecraft游戲環境,且上下文窗口極短,無法處理需要長時間連貫操作的任務。
Standard Intelligence在FDM-1的開發中,同時突破了數據規模和上下文長度兩個維度。他們首先利用4萬小時的標注員錄屏數據訓練IDM,然后用IDM為1,100萬小時的互聯網視頻語料庫自動標注操作動作。IDM采用掩碼擴散架構,能夠同時參照所有幀來推斷每個時間步的動作,提高了數據效率和標注準確性。
在上下文長度方面,FDM-1通過自研的視頻編碼器實現了顯著突破。現有視覺語言模型處理屏幕錄制視頻的方式極度浪費token,導致上下文窗口極短。而FDM-1的視頻編碼器能夠將近兩小時的30 FPS視頻壓縮進200k token預算,比此前最優方案高效50倍。這使得FDM-1能夠在更長的上下文窗口中處理視頻流,適應需要長時間連貫操作的任務。
FDM-1本身是一個標準的自回歸模型,接收此前的視頻幀和動作序列,預測下一個動作token。輸出空間由鍵盤按鍵和鼠標移動增量組成。為了處理鼠標位移的龐大狀態空間,FDM-1將鼠標位移分解為X和Y分量,使用指數分箱將其映射到有限數量的箱中。同時,每個鼠標移動token還附帶預測下一個點擊位置,幫助生成更精確的軌跡。
在評估基礎設施方面,Standard Intelligence建立了一套可運行8萬臺分叉虛擬機的系統,每小時能跑超過100萬次rollout。分叉機制允許他們對操作系統狀態做完整內存快照并復制到新的VM上,從而在同一個起始狀態上并行跑數千次評估。這種評估方式大大提高了測試效率,降低了推理延遲。
初步評測結果顯示,IDM標注數據在鼠標操作、目標點擊、符號記憶和UI操控等方面的表現已經超過了人工標注的承包商數據。然而,在打字和語言理解任務上,IDM數據上的進步速度慢于承包商數據,這可能是由于IDM標注噪聲造成的。未來,Standard Intelligence計劃混合使用兩種數據,以進一步提高模型性能。
在自動駕駛的微調實驗中,FDM-1在不到1小時的駕駛數據上微調后,就能用方向鍵控制汽車在舊金山繞街區轉彎,起始準確率為50%。這一結果明顯高于僅有視頻編碼器而沒有互聯網視頻預訓練的基線模型,展示了FDM-1在連續控制任務上的潛力。
Standard Intelligence的研究團隊背景年輕但研究嗅覺敏銳。核心作者包括來自UCLA的Neel Redkar、參與過機器學習對齊理論學者項目的Yudhister Kumar等。在FDM-1之前,該團隊已經有過兩個引起關注的項目:一個是建造30 PB存儲集群用于存放視頻數據,另一個是開源全雙工音頻基礎模型hertz-dev。這兩個項目分別對應了FDM-1所需要的兩個關鍵能力:大規模數據基礎設施和跨模態學習。
盡管FDM-1現在還遠不是一個可用的產品,缺乏指令跟隨能力和公開標準化基準測試結果,但它在連續控制任務上的獨特優勢以及提出的技術路徑仍然值得關注。未來,FDM-1代表的路線和視覺語言模型代理路線最終可能會趨于融合,兼得兩種路線的優點。








