Allen人工智能研究所(Ai2)近日宣布推出MolmoWeb,這是一款全新的開源視覺網絡智能體,隸屬于其Molmo 2模型家族。該模型提供40億和80億參數兩種版本,設計上兼顧了性能與輕量化,能夠在本地設備上運行,為研究人員提供了更靈活的實驗環境。
在功能實現上,MolmoWeb能夠模擬人類操作瀏覽器的完整流程:通過分析網頁截圖預測下一步動作,執行點擊、輸入文本或滾動等操作,從而完成導航、表單填寫、商品搜索及信息檢索等任務。這種設計使其在標準瀏覽器使用基準測試中表現突出,甚至超越了OpenAI早期版本的GPT-4o,同時在開放權重模型中領先于Fara-7B和GLM-4.1V-9B等競爭對手。
訓練數據的規模與多樣性是MolmoWeb的另一大亮點。其公開的數據集包含3萬個真實人類任務軌跡,覆蓋1100多個網站的近60萬個子任務,堪稱同類數據集中規模最大的公開資源。團隊還通過可訪問性樹技術生成了補充合成數據,并標注了超過220萬個問答對,用于強化模型對網頁元素的理解能力。這些數據現已與模型權重、代碼及評估工具一同在Hugging Face和GitHub平臺開放下載。
Ai2團隊指出,當前開源社區在視覺網絡智能體領域面臨多重挑戰:缺乏高質量訓練數據、基礎設施支持不足以及評估工具缺失,這些問題嚴重制約了研究的可復現性與進展速度。MolmoWeb的發布旨在填補這一空白,為研究人員提供從數據到工具的完整生態。正如其研究論文所述:“今天的網絡智能體需要像早期大語言模型那樣的開放基礎,以推動整個領域的創新。”
盡管專有模型在整體性能上仍占據優勢,但MolmoWeb的輕量化設計與開源特性使其在特定場景中更具吸引力。例如,研究人員可通過調整模型規模或訓練數據,快速驗證新算法在資源受限環境下的表現。這種靈活性不僅降低了研究門檻,也為未來更復雜的網絡交互任務奠定了基礎。











