家用人形機(jī)器人NEO再次成為科技圈焦點(diǎn)。這款曾因穿著Lululemon緊身衣引發(fā)討論的機(jī)器人,如今憑借全新升級(jí)的"大腦"系統(tǒng)引發(fā)關(guān)注。研發(fā)團(tuán)隊(duì)宣稱,NEO已突破傳統(tǒng)遠(yuǎn)程操控模式,通過自主構(gòu)建的1X World Model(1XWM)實(shí)現(xiàn)了認(rèn)知層面的重大突破。
核心技術(shù)突破體現(xiàn)在機(jī)器人對(duì)物理世界的理解方式上。傳統(tǒng)機(jī)器人需要數(shù)萬小時(shí)的實(shí)操數(shù)據(jù)才能掌握基礎(chǔ)技能,而NEO通過分析海量網(wǎng)絡(luò)視頻和人類第一視角操作錄像,構(gòu)建起對(duì)重力、空間關(guān)系等物理規(guī)律的認(rèn)知。這種學(xué)習(xí)模式類似人類通過觀察積累經(jīng)驗(yàn),使機(jī)器人能理解"物體掉落會(huì)下落"等基礎(chǔ)物理現(xiàn)象。
系統(tǒng)運(yùn)行機(jī)制呈現(xiàn)創(chuàng)新特征。當(dāng)接收到操作指令時(shí),機(jī)器人會(huì)先在內(nèi)部生成完成任務(wù)的虛擬視頻,再通過逆運(yùn)算推導(dǎo)出具體動(dòng)作序列。這種"先想象后執(zhí)行"的模式,使機(jī)器人能處理從未接觸過的任務(wù)類型。研發(fā)團(tuán)隊(duì)坦言,目前仍存在"想象完美但執(zhí)行偏差"的情況,表現(xiàn)為虛擬演示與實(shí)際操作存在細(xì)微差距。
技術(shù)架構(gòu)包含兩個(gè)核心模塊。140億參數(shù)的視頻生成主干模型,經(jīng)過三階段訓(xùn)練:首先在互聯(lián)網(wǎng)視頻數(shù)據(jù)中學(xué)習(xí)基礎(chǔ)物理規(guī)律,接著通過900小時(shí)人類第一視角視頻掌握操作模式,最后用70小時(shí)機(jī)器人數(shù)據(jù)適配具體形態(tài)。逆動(dòng)力學(xué)模型則負(fù)責(zé)將虛擬畫面轉(zhuǎn)化為實(shí)際動(dòng)作,通過400小時(shí)無標(biāo)注機(jī)器人數(shù)據(jù)訓(xùn)練,確保動(dòng)作追蹤的精準(zhǔn)度。
實(shí)驗(yàn)數(shù)據(jù)顯示顯著進(jìn)步。在抓取測(cè)試中,機(jī)器人能處理訓(xùn)練數(shù)據(jù)中未出現(xiàn)的物體;清潔等新任務(wù)完成度達(dá)到預(yù)期水平;雙手協(xié)調(diào)操作等復(fù)雜動(dòng)作,通過遷移人類視頻數(shù)據(jù)中的經(jīng)驗(yàn)得以實(shí)現(xiàn)。研究特別指出,第一視角訓(xùn)練數(shù)據(jù)和詳細(xì)字幕標(biāo)注對(duì)提升任務(wù)成功率至關(guān)重要,這類數(shù)據(jù)為機(jī)器人提供了可遷移的操作先驗(yàn)。
當(dāng)前系統(tǒng)仍存在局限性。精細(xì)操作如液體傾倒、繪圖等任務(wù)的完成率有待提高,虛擬視頻質(zhì)量與實(shí)際成功率存在正相關(guān)。研發(fā)團(tuán)隊(duì)采用多視頻并行生成策略,通過視覺評(píng)估模型選擇最優(yōu)方案,使任務(wù)成功率獲得提升。這種優(yōu)化方式暗示,未來可能通過改進(jìn)視頻生成質(zhì)量來突破操作瓶頸。
技術(shù)文檔詳細(xì)披露了訓(xùn)練數(shù)據(jù)構(gòu)成。后訓(xùn)練階段主要使用高質(zhì)量抓取數(shù)據(jù)(占比98.5%),聚焦桌面操作場(chǎng)景。通過基礎(chǔ)模型的遷移學(xué)習(xí)能力,系統(tǒng)展現(xiàn)出對(duì)未見物體和環(huán)境的適應(yīng)力。測(cè)試環(huán)節(jié)設(shè)置分布內(nèi)/外任務(wù)場(chǎng)景,驗(yàn)證了模型在復(fù)雜環(huán)境中的穩(wěn)定性,但特定精細(xì)動(dòng)作仍需針對(duì)性優(yōu)化。
這項(xiàng)突破標(biāo)志著機(jī)器人控制范式的轉(zhuǎn)變。從依賴靜態(tài)圖像分析的傳統(tǒng)模式,轉(zhuǎn)向通過動(dòng)態(tài)視頻理解物理世界,使機(jī)器人能直接受益于互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)的訓(xùn)練成果。研發(fā)團(tuán)隊(duì)強(qiáng)調(diào),這種轉(zhuǎn)變需要配套的硬件系統(tǒng)支持,特別是將人類具身經(jīng)驗(yàn)遷移到機(jī)器人形態(tài)的技術(shù)架構(gòu)。
完整技術(shù)說明已通過官方渠道發(fā)布,詳細(xì)闡述了世界模型的構(gòu)建方法、訓(xùn)練策略及評(píng)估體系。文檔特別指出,第一視角人類操作數(shù)據(jù)與機(jī)器人數(shù)據(jù)的協(xié)同訓(xùn)練,是提升系統(tǒng)泛化能力的關(guān)鍵因素。這種數(shù)據(jù)融合方式,為開發(fā)通用型家庭機(jī)器人提供了新的技術(shù)路徑。











