岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

ITBear旗下自媒體矩陣:

舊金山四人團隊另辟蹊徑:1100萬小時視頻訓練出通用計算機操作新模型

   時間:2026-02-25 06:40:11 來源:快訊編輯:快訊 IP:北京 發表評論無障礙通道
 

舊金山一家名為Standard Intelligence的初創公司,近日推出了一款名為FDM-1(前向動力學模型)的計算機行為模型,宣稱其為“首個完全通用的計算機行為模型”。該模型在包含1100萬小時屏幕錄制視頻的數據集上完成訓練,能夠以每秒30幀的速率直接處理視頻流,并在CAD建模、網站安全測試以及真實世界的自動駕駛場景中展現出令人矚目的泛化能力。

當前主流的計算機使用代理技術路線主要依賴視覺語言模型(VLM)疊加工具調用能力。例如,Anthropic在2024年10月為Claude添加了Computer Use功能,通過截屏、界面元素識別和模擬點擊來操作計算機。到2026年2月,Claude Sonnet 4.6在OSWorld基準測試中取得了72.5%的得分。OpenAI在2025年1月發布的Operator則基于GPT-4o的視覺能力與強化學習實現網頁操控。Google DeepMind也布局了Project Mariner和Gemini 2.5 Computer Use等類似項目。這些巨頭的共同特點是通過截屏分析理解界面,本質上仍是“看圖說話”的思路。

Standard Intelligence認為,這種技術路線存在局限性。他們提出,真正通用的計算機操作智能體需要直接從大規模視頻中學習人類行為模式,而非依賴截屏分類與推理。正如GPT-3需要互聯網規模的文本語料庫才能涌現語言能力,通用的計算機行為模型同樣需要互聯網規模的視頻數據。目前最大的公開計算機操作數據集不足20小時30 FPS視頻,而互聯網上積累了數百萬小時的剪輯制作、編程直播、游戲實況等操作錄像,這些數據尚未被系統性利用。FDM-1正是瞄準這一缺口展開研發。

該模型的技術路線與2022年OpenAI發布的VPT(視頻預訓練)方法有相似之處。VPT通過少量人工標注的Minecraft游戲視頻訓練逆向動力學模型(IDM),再利用IDM為約7萬小時的YouTube游戲視頻自動標注操作標簽,最終實現復雜任務的行為克隆。但VPT僅適用于特定環境,且上下文窗口極短(約六秒),難以處理需要長時間連貫操作的計算機任務。FDM-1則試圖在數據規模和上下文長度兩個維度上實現突破。

在數據規模方面,Standard Intelligence首先在4萬小時標注員錄屏數據上訓練IDM,隨后用該模型為1100萬小時互聯網視頻自動標注操作標簽。IDM通過觀察屏幕前后幀變化反推操作動作,例如屏幕上出現字母“K”可能對應按下K鍵,光標移動則對應鼠標位移。盡管存在噪聲和歧義,但這種方法在技術上可行。團隊采用掩碼擴散架構設計IDM,使其能夠同時參照所有幀推斷動作,先標注高置信度簡單動作,再集中處理模糊難例。據稱,這種方法比純因果模型數據效率更高,且在鼠標移動和界面操作等任務上的表現甚至優于人工標注數據。

在上下文長度方面,突破來自團隊自研的視頻編碼器。現有VLM處理屏幕錄制視頻的方式消耗大量token,例如一分鐘30 FPS視頻約需100萬個token,導致主流模型在200k token上下文窗口中僅能處理幾秒鐘視頻。Standard Intelligence的視頻編碼器聲稱能將近兩小時(約36000幀)視頻壓縮進相同token預算,比此前最優方案高效50倍,比OpenAI編碼器高效100倍。該編碼器通過在屏幕錄制數據上訓練掩碼壓縮目標實現這一性能,并在文本轉錄基準測試中展現出比標準ViT快約100倍的收斂速度。

基于大規模標注數據和高效編碼器,FDM-1采用標準自回歸架構訓練。該模型接收此前視頻幀和動作序列,預測下一個動作token,輸出空間包含鍵盤按鍵和鼠標移動增量。為處理鼠標位移的龐大狀態空間,團隊將其分解為X和Y分量,經屏幕寬高歸一化后使用指數分箱映射到49個尺寸遞增的箱中。小而頻繁的移動分入細粒度箱,大而稀少的移動分入粗粒度箱,同時每個鼠標移動token附帶預測下一個點擊位置,以生成更精確軌跡。

與VLM路線不同,FDM-1完全不使用鏈式思維推理、字節對編碼或工具調用,直接在視頻和動作token上運作。這種設計使推理延遲降低,并使其能夠處理滾動、3D建模、游戲操控等連續性任務。為評估模型性能,團隊構建了一套可運行8萬臺分叉虛擬機的系統,每小時能完成超過100萬次rollout。每臺虛擬機配備最小化Ubuntu桌面環境、1個vCPU和8GB內存,一塊H100 GPU可同時控制42臺。分叉機制允許對操作系統狀態做完整內存快照并復制到新虛擬機,從而在相同起始狀態下并行運行數千次評估。通過優化GPU與虛擬機布局、使用低延遲VNC配置和自定義Rust輸入綁定,團隊將屏幕截取到動作執行的往返延遲壓縮至11毫秒。

初步評測結果顯示,IDM標注數據在鼠標操作、目標點擊、符號記憶和UI操控等方面的表現已超過人工標注數據,但在打字和語言理解任務上進步較慢。團隊認為這是IDM標注噪聲所致,未來計劃混合使用兩種數據。在自動駕駛微調實驗中,FDM-1在不到1小時駕駛數據上微調后,即能用方向鍵控制汽車在舊金山繞街區轉彎,起始準確率為50%(在“無操作/左轉/右轉”三選一中),明顯高于僅有視頻編碼器而無互聯網視頻預訓練的基線模型。

Standard Intelligence成立于2024年3月,定位為“對齊的AGI實驗室”。研究團隊核心成員包括Neel Redkar、Yudhister Kumar、Devansh Pandey和Galen Mead。Neel Redkar來自UCLA,高中時期曾憑借碳捕獲金屬有機框架神經網絡研究獲得ISEF大獎,并在Notion AI團隊實習過。Yudhister Kumar參與過MATS 5.0項目,研究過預言機在合作AI中的應用。在FDM-1之前,團隊已開展過兩個引人關注的項目:2024年中在舊金山市中心建造的30 PB存儲集群,用于存放9000萬小時視頻數據;2024年11月開源的hertz-dev,一個85億參數的全雙工音頻基礎模型,在單張RTX 4090上實現了約120毫秒的實際對話延遲。這兩個項目分別對應了FDM-1所需的大規模數據基礎設施和跨模態學習能力。

FDM-1的技術路徑與當前行業主流形成鮮明對比。Anthropic、OpenAI和Google的計算機操控代理本質上是“大腦外接手臂”,利用現有語言/視覺推理模型截圖、識別UI元素并生成點擊指令。這種方法的優點是能利用通用推理能力,缺點是操作頻率低,難以處理高幀率連續控制任務,且受限于截屏分辨率下的UI理解。FDM-1則更接近端到端行為克隆路線,直接從視頻到動作,不經過語言中介,天然擅長連續控制任務,但可能缺乏VLM方案的抽象推理和自然語言理解能力。

目前,FDM-1尚未成為可用產品。它不具備指令跟隨能力,所有演示均為模型自主探索或執行預設行為,缺乏自然語言驅動展示。團隊也未在公開標準化基準(如OSWorld或CUB)上報告結果,所有評測基于內部任務套件,與主流方案缺乏直接可比性。不使用語言模型能力遷移意味著FDM-1可能在CAD建模、游戲操控、連續滾動瀏覽等任務上有獨特優勢,但產品化落地時需解決指令理解、任務規劃等問題。未來,FDM-1代表的路線與VLM代理路線可能會趨于融合。一個能在30 FPS下連續操控3D建模軟件的模型,若加上語言條件化和高級規劃模塊,或能兼得兩種路線優點。在計算機行為建模領域,數據規模和上下文長度的重要性正被重新認識,而Standard Intelligence可能是首個將這兩個要素推向極致的團隊。

 
 
更多>同類資訊
全站最新
熱門內容
網站首頁  |  關于我們  |  聯系方式  |  版權聲明  |  爭議稿件處理  |  English Version
 
主站蜘蛛池模板: 成年人免费小视频 | 在线成人毛片 | 日本中文字幕不卡 | 免费日本黄色网址 | 久久高潮视频 | 蜜桃成人免费视频 | 欧美丰满一区二区免费视频 | 五月婷婷中文字幕 | 国产精品theporn | 久久国产精品波多野结衣 | 91视频免费在线 | 日韩美女免费视频 | 亚洲色域网 | 我要看一级黄色录像 | 日韩欧美自拍偷拍 | 国产肥老妇视频 | 91视频一区 | 波多野结衣一区二区三区在线观看 | 日本黄色大片免费看 | 欧美 日韩 国产 一区二区三区 | 亚洲福利视频网站 | 综合五月网 | 国产精品久久91 | 成人性生交大片免费看 | 久草手机在线视频 | 国产精品手机视频 | 日韩精品一级 | 国产精品自拍网站 | 久久国产精品影院 | 狠狠地操 | 看日本毛片 | 精品国内自产拍在线观看视频 | 69国产精品| 91传媒在线观看 | 波多野结衣国产 | 蜜桃麻豆视频 | 亚洲免费在线观看视频 | 日韩第九页 | 日本高清www免费视频 | 国产一区二区精品在线 | 久色婷婷|