在人工智能領域,能夠自主瀏覽網頁并完成任務的智能體正成為研究熱點。近日,Allen人工智能研究所(Ai2)推出了名為MolmoWeb的開源視覺網絡智能體,這一成果為該領域帶來了新的突破。作為Molmo 2模型家族的新成員,MolmoWeb以其獨特的技術路徑和開源特性引發了廣泛關注。
MolmoWeb的最大亮點在于其開源屬性。該模型提供了40億和80億參數兩種版本,這種輕量化設計使其能夠在本地設備上運行,大大降低了使用門檻。與市場上許多依賴專有技術的同類產品不同,Ai2團隊選擇了完全開放的道路,不僅公開了模型權重,還同步發布了訓練數據、代碼(即將上線)和評估工具,為研究人員提供了完整的研究框架。
在技術實現上,MolmoWeb采用了與眾不同的訓練方法。研究團隊沒有借助專有視覺智能體的知識蒸餾,而是通過兩種途徑構建訓練數據:一是收集了30,000個人類操作軌跡,覆蓋1,100多個網站的近600,000個子任務;二是利用可訪問性樹技術生成合成軌跡。這種組合方式既保證了數據的多樣性,又解決了單純依賴人工標注成本高昂的問題。訓練數據中還包含了220多萬個問答對,幫助模型理解網頁內容。
實際性能測試顯示,MolmoWeb在多個基準測試中表現優異。在瀏覽器操作任務中,它的表現超過了OpenAI的舊版GPT-4o模型,在開放權重模型中更是領先于Fara-7B和GLM-4.1V-9B等競爭對手。盡管與Anthropic、谷歌等公司的專有模型相比仍有差距,但MolmoWeb的開源特性使其成為研究社區的重要參考。
Ai2團隊強調,他們的目標不是與商業巨頭競爭,而是為學術界提供可復現的研究基礎。當前網絡智能體領域面臨的一個關鍵問題是缺乏公開資源,這限制了研究的透明度和進展速度。MolmoWeb的發布,包括其龐大的訓練數據集(包含帶注釋的網頁截圖和操作軌跡),為解決這一問題提供了重要資源。
目前,MolmoWeb的相關資源已在Hugging Face和GitHub平臺開放下載。研究人員可以獲取完整的模型架構、訓練數據集以及評估工具包,這為深入理解網絡智能體的工作原理和改進方向提供了寶貴機會。隨著更多研究者基于這一開源框架開展工作,網絡智能體技術有望迎來新的發展階段。










