具身智能領域迎來重大突破,全球首個“視觸覺”多模態機器人操作數據集——白虎-VTouch在上海正式發布。這一數據集不僅規模龐大,更以模態完整、任務結構系統化著稱,標志著具身智能機器人正從“視覺感知”向“觸覺與控制”的精細化操作階段邁進,為解決傳統機器人“看得見、摸不著”的感知瓶頸提供了關鍵技術支撐。
長期以來,具身智能的語料數據主要依賴視覺傳感器,導致機器人在理解世界時過度依賴“看”,而缺失了觸覺這一重要維度。這種感知不平衡使得機器人在暗光環境操作、抓取易碎物品等復雜場景中表現欠佳,難以完成需要高精度觸覺反饋的任務。白虎-VTouch數據集的發布,正是為了填補這一空白,通過整合觸覺與視覺數據,為機器人構建更全面的物理世界認知模型。
該數據集由國家地方共建人形機器人創新中心與上海緯鈦科技有限公司聯合研發,核心目標是提供觸覺與接觸的缺失數據,為具身基礎模型提供關鍵語料和工程基礎。數據集不僅包含深度彩色圖像(RGB-D)和關節位姿數據,還通過緯鈦科技自研的視觸覺傳感器,記錄了軟接觸、硬接觸、滑動接觸等多種物理交互模式下的壓力和形變數據。目前,數據集總量已超過6萬分鐘,涵蓋約9072萬對視觸覺圖像與真實物體接觸樣本,規模居全球首位。
在數據采集方法上,白虎-VTouch首創矩陣式任務設計,突破了傳統單一任務訓練的局限。這種方法不僅大幅提升了數據采集效率,還顯著增強了機器人的實際應用能力。研究團隊通過輪式、雙足等多種機器人構型及手持終端,在家居家政、工業制造、餐飲服務、特種作業四大類場景中完成了超過380個任務類型,涉及500多種真實物品,覆蓋抓取、插入、旋轉、放置等100多種原子技能,基本滿足90%的日常生活和工業操作需求,展現出強大的跨平臺泛化能力。
為推動具身智能生態的開放發展,白虎-VTouch的首批6000分鐘數據已上線開源社區OpenLoong。這一舉措不僅豐富了我國具身智能的技術生態,也為全球開發者提供了構建更智能、更靈巧機器人基礎模型的原創資源。隨著數據集的持續完善,未來的機器人將不再局限于“移動攝像頭”的角色,而是能夠通過靈敏的觸覺感知,像人類一樣處理復雜任務,成為真正的智能助手。











