滾動資訊

當前位置：首頁 > 資訊 > 業界動態 > 正文內容

舊金山四人團隊另辟蹊徑：用千萬小時視頻訓練出通用計算機操作新模型

時間：2026-02-25 08:44:10 來源：快訊編輯：快訊 IP：北京 發表評論無障礙通道

舊金山一家名為Standard Intelligence的初創公司，近日宣布推出名為FDM-1（前向動力學模型）的計算機行為模型，宣稱其為“首個完全通用的計算機行為模型”。該模型通過直接處理視頻流，在CAD建模、網站安全測試以及自動駕駛等場景中展現出強大的泛化能力，引發行業關注。

與傳統計算機使用代理依賴截屏分析和界面元素識別不同，FDM-1選擇了一條截然不同的技術路徑。它直接從大規模視頻數據中學習人類操作計算機的行為模式，而非在已有視覺語言模型上疊加工具調用能力。Standard Intelligence認為，要實現真正通用的計算機操作智能體，關鍵在于利用互聯網規模的視頻語料庫，而非局限于截屏上的分類和推理。

當前，主流的計算機使用代理如Anthropic的Claude、OpenAI的Operator以及Google DeepMind的Project Mariner，均采用“看圖說話”的思路，依賴視覺語言模型和工具調用能力。這些模型通過截屏、識別界面元素、模擬點擊和鍵入來操作計算機，盡管在特定基準測試中取得了不錯成績，但本質上仍受限于截屏分辨率和操作頻率。

FDM-1的訓練方法則更接近OpenAI在2022年提出的VPT（視頻預訓練）方法，但進行了顯著改進。VPT通過少量標注數據訓練逆向動力學模型（IDM），再利用IDM為大規模游戲視頻自動打標簽，最終實現行為克隆訓練。然而，VPT的應用局限于Minecraft游戲環境，且上下文窗口極短，無法處理需要長時間連貫操作的任務。

Standard Intelligence在FDM-1的開發中，同時突破了數據規模和上下文長度兩個維度。他們首先利用4萬小時的標注員錄屏數據訓練IDM，然后用IDM為1,100萬小時的互聯網視頻語料庫自動標注操作動作。IDM采用掩碼擴散架構，能夠同時參照所有幀來推斷每個時間步的動作，提高了數據效率和標注準確性。

在上下文長度方面，FDM-1通過自研的視頻編碼器實現了顯著突破。現有視覺語言模型處理屏幕錄制視頻的方式極度浪費token，導致上下文窗口極短。而FDM-1的視頻編碼器能夠將近兩小時的30 FPS視頻壓縮進200k token預算，比此前最優方案高效50倍。這使得FDM-1能夠在更長的上下文窗口中處理視頻流，適應需要長時間連貫操作的任務。

FDM-1本身是一個標準的自回歸模型，接收此前的視頻幀和動作序列，預測下一個動作token。輸出空間由鍵盤按鍵和鼠標移動增量組成。為了處理鼠標位移的龐大狀態空間，FDM-1將鼠標位移分解為X和Y分量，使用指數分箱將其映射到有限數量的箱中。同時，每個鼠標移動token還附帶預測下一個點擊位置，幫助生成更精確的軌跡。

在評估基礎設施方面，Standard Intelligence建立了一套可運行8萬臺分叉虛擬機的系統，每小時能跑超過100萬次rollout。分叉機制允許他們對操作系統狀態做完整內存快照并復制到新的VM上，從而在同一個起始狀態上并行跑數千次評估。這種評估方式大大提高了測試效率，降低了推理延遲。

初步評測結果顯示，IDM標注數據在鼠標操作、目標點擊、符號記憶和UI操控等方面的表現已經超過了人工標注的承包商數據。然而，在打字和語言理解任務上，IDM數據上的進步速度慢于承包商數據，這可能是由于IDM標注噪聲造成的。未來，Standard Intelligence計劃混合使用兩種數據，以進一步提高模型性能。

在自動駕駛的微調實驗中，FDM-1在不到1小時的駕駛數據上微調后，就能用方向鍵控制汽車在舊金山繞街區轉彎，起始準確率為50%。這一結果明顯高于僅有視頻編碼器而沒有互聯網視頻預訓練的基線模型，展示了FDM-1在連續控制任務上的潛力。

Standard Intelligence的研究團隊背景年輕但研究嗅覺敏銳。核心作者包括來自UCLA的Neel Redkar、參與過機器學習對齊理論學者項目的Yudhister Kumar等。在FDM-1之前，該團隊已經有過兩個引起關注的項目：一個是建造30 PB存儲集群用于存放視頻數據，另一個是開源全雙工音頻基礎模型hertz-dev。這兩個項目分別對應了FDM-1所需要的兩個關鍵能力：大規模數據基礎設施和跨模態學習。

盡管FDM-1現在還遠不是一個可用的產品，缺乏指令跟隨能力和公開標準化基準測試結果，但它在連續控制任務上的獨特優勢以及提出的技術路徑仍然值得關注。未來，FDM-1代表的路線和視覺語言模型代理路線最終可能會趨于融合，兼得兩種路線的優點。

更多>同類資訊

Meta牽手AMD簽超千億AI芯片大單，創新融資模式助力AI領域新發展

2月24日，Meta公司宣布與芯片巨頭AMD達成一項AI芯片協議，計劃未來五年內部署多達6吉瓦（千兆瓦）的AMD人工智能芯片，用于數據中心的擴張。這項交易也反映了芯片巨頭創新的融資機制，并將關鍵大客戶鎖定在…

02-25

小米維權勝訴！自媒體賬號“AutoReport汽車產經”被判賠償500萬元

02-25

春節檔漫劇與短劇觀察：男頻漫劇“爽”感當道，女頻短劇“情”字為先

02-25

2026開年人形機器人“狂飆”：春晚亮相引關注，“百億陣營”再擴容

星海圖市場生態總監張宇佳在接受北京商報記者采訪時表示，春晚帶來的國民級曝光，不僅完成了對人形機器人行業的全民科普，更從資本市場層面強化了對賽道價值的確認，為企業從技術驗證向規模化落地的推進提供了正向助力。 …

02-25

馬斯克計劃月球建電磁彈射裝置加速布局天基AI數據中心網絡

02-25

還在看智能手表的睡眠監測？這準確率還不如丟硬幣

02-25

三個和尚沒水喝！OpenAI星際之門擱淺一年過去壓根沒動工

02-25

三只羊上市成功，背后操作太魔幻了

02-25

美法官駁回xAI指控OpenAI竊取商業機密訴訟

02-25

星閃聯盟組織架構更新：聯想/小米等負責智能家居推廣

02-25

亞馬遜AGI實驗室負責人離職：華人高管任職不到兩年

02-25

蘋果收購AI光學初創公司invrs.io，加速布局智能光學設計新賽道

02-25

馬斯克月球建電磁彈射裝置欲借太空優勢打造AI衛星網絡

02-25

馬斯克擬月球建廠電磁彈射衛星欲兩三年內構建太空AI數據中心網絡

02-25

全球開源大模型新榜單揭曉：千問3.5登頂，中國力量八占前十席位

（來源：快科技）快科技2月24日消息，全球最大AI開源社區Hugging Face今日公布新一期開源大模型榜單。據悉，除夕當天，阿里開源其最新一代基礎大模型千問3.5。在最新一期Hugging Fac…

02-25

點擊查看更多 +

全站最新

魯春叢：以工業互聯網為基借“T型戰略”加速“AI+制造”落地

美股三大指數集體收漲，納指漲1.04%，AMD漲超8%，中概指數漲1.37%

小米法務部重拳出擊！起訴自媒體侵權獲賠500萬，創行業賠償新高

蘿卜快跑香港再突破：機場島至東涌跨區貫通自動駕駛網絡邁向核心社區

石頭科技2月24日股價上揚2.11% 主力資金凈流入超六千萬引關注

哈曼Ready產品矩陣煥新升級助力車企構建全場景智能座艙新體驗

熱門內容

本欄最新

小米法務部重拳出擊！起訴自媒體侵權獲賠500萬，創行業賠償新高

蘿卜快跑香港再突破：機場島至東涌跨區貫通自動駕駛網絡邁向核心社區

石頭科技2月24日股價上揚2.11% 主力資金凈流入超六千萬引關注

吉利雙車出擊：博越L穩守燃油，星愿純電突圍，雙線布局見成效

問界M6：或以30萬級定位入場能否成為年輕人的“國產運動豪華”新寵？

2025協同辦公激戰正酣：釘釘飛書客戶爭奪、表格比拼、AI押注齊上陣

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR比爾科技官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

舊金山四人團隊另辟蹊徑：用千萬小時視頻訓練出通用計算機操作新模型