在人工智能技術(shù)迅猛發(fā)展的當(dāng)下,具身智能成為行業(yè)關(guān)注的焦點(diǎn)。隨著世界模型概念引發(fā)新一輪技術(shù)熱潮,適配具身智能的大模型研發(fā)路徑成為關(guān)鍵議題。強(qiáng)化學(xué)習(xí)與模仿學(xué)習(xí)之爭、端到端架構(gòu)與模塊化設(shè)計(jì)的選擇、仿真訓(xùn)練與真機(jī)實(shí)踐的側(cè)重,各類技術(shù)路線在行業(yè)中持續(xù)引發(fā)討論。原力靈機(jī)聯(lián)合創(chuàng)始人周而進(jìn)在近期訪談中提出,行業(yè)需回歸技術(shù)本質(zhì),其團(tuán)隊(duì)通過構(gòu)建原生機(jī)器人模型DM0,探索出一條差異化發(fā)展路徑。
周而進(jìn)將具身智能的核心目標(biāo)定義為構(gòu)建分層智能系統(tǒng)。該系統(tǒng)由三層架構(gòu)組成:頂層規(guī)劃系統(tǒng)負(fù)責(zé)任務(wù)分解與全局決策,中層指令系統(tǒng)生成基礎(chǔ)動作指令,底層執(zhí)行系統(tǒng)則通過傳感器融合與電機(jī)控制實(shí)現(xiàn)精準(zhǔn)操作。這種設(shè)計(jì)源于團(tuán)隊(duì)對通用場景的深度思考——未來機(jī)器人需具備處理復(fù)雜動態(tài)環(huán)境的能力,如自主完成更換垃圾桶、擦拭桌面、補(bǔ)充飲水等多樣化任務(wù)。為實(shí)現(xiàn)這一目標(biāo),模型必須突破單一場景限制,在硬件適配、傳感器融合、任務(wù)拆解等維度實(shí)現(xiàn)全面泛化。
在硬件通用性方面,原力靈機(jī)提出"可組裝式機(jī)器人"理念。針對物流行業(yè)不同場景需求,團(tuán)隊(duì)研發(fā)的模型需兼容多種機(jī)械臂構(gòu)型:重載場景配置粗壯型機(jī)械臂,精細(xì)操作場景則采用桌面雙臂靈巧手。這種設(shè)計(jì)要求模型具備跨硬件平臺的學(xué)習(xí)能力,即使更換傳感器或執(zhí)行機(jī)構(gòu),仍能保持核心功能穩(wěn)定。周而進(jìn)強(qiáng)調(diào),真正的通用模型應(yīng)像人類神經(jīng)系統(tǒng)般靈活,當(dāng)某條手臂缺失或新增觸覺模塊時,系統(tǒng)能自動調(diào)整控制策略而不影響整體性能。
數(shù)據(jù)策略成為突破泛化瓶頸的關(guān)鍵。團(tuán)隊(duì)采用"仿真+真機(jī)"的混合訓(xùn)練模式:在室內(nèi)導(dǎo)航、剛性物體抓取等基礎(chǔ)任務(wù)中充分利用仿真數(shù)據(jù),而在疊衣服、液體搬運(yùn)等精細(xì)操作領(lǐng)域堅(jiān)持真機(jī)采集。通過部署多維度傳感器陣列,模型可同步獲取視覺、觸覺、力控等數(shù)據(jù)流。周而進(jìn)特別指出,當(dāng)前行業(yè)存在過度依賴視覺數(shù)據(jù)的傾向,而真實(shí)場景中觸覺反饋往往決定操作成敗。團(tuán)隊(duì)正在開發(fā)支持嗅覺傳感的數(shù)據(jù)采集系統(tǒng),未來計(jì)劃將氣味識別納入環(huán)境感知維度。
針對模型參數(shù)量爭議,原力靈機(jī)發(fā)布的DM0模型以2.4億參數(shù)規(guī)模引發(fā)關(guān)注。周而進(jìn)解釋,參數(shù)規(guī)模與實(shí)際能力不存在必然關(guān)聯(lián),團(tuán)隊(duì)通過優(yōu)化訓(xùn)練機(jī)制使模型在真實(shí)場景中達(dá)到60毫秒級響應(yīng)速度。這種"小而精"的設(shè)計(jì)理念源于對具身智能本質(zhì)的理解:與語言模型不同,機(jī)器人模型需要持續(xù)與物理世界交互,參數(shù)膨脹反而可能降低實(shí)時性。DM0的開源策略旨在推動行業(yè)建立原生模型開發(fā)標(biāo)準(zhǔn),避免陷入對通用大模型的簡單改造。
商業(yè)化路徑選擇體現(xiàn)團(tuán)隊(duì)務(wù)實(shí)態(tài)度。盡管終極目標(biāo)是全場景通用機(jī)器人,原力靈機(jī)仍優(yōu)先切入工業(yè)物流領(lǐng)域。周而進(jìn)認(rèn)為,該場景同時具備標(biāo)準(zhǔn)化流程與動態(tài)變化要素,是驗(yàn)證模型泛化能力的理想試驗(yàn)場。在皮帶分揀、多品類打包等任務(wù)中,團(tuán)隊(duì)開發(fā)了"漸進(jìn)式兜底"方案:初期通過人工輔助與遠(yuǎn)程操控確保系統(tǒng)穩(wěn)定性,隨著模型能力提升逐步減少人工干預(yù)。這種滾動開發(fā)模式使客戶能早期見證技術(shù)價(jià)值,同時為模型迭代提供真實(shí)場景數(shù)據(jù)。
面對硬件性能是否制約發(fā)展的質(zhì)疑,周而進(jìn)指出當(dāng)前瓶頸主要在于模型架構(gòu)而非硬件指標(biāo)。他以春晚機(jī)器人表演為例說明:當(dāng)算法能實(shí)現(xiàn)復(fù)雜動作編排時,硬件的扭矩、精度等參數(shù)已滿足基本需求。團(tuán)隊(duì)更關(guān)注散熱、功耗等工程化問題,這些要素直接影響機(jī)器人持續(xù)作業(yè)能力。在訓(xùn)練機(jī)制創(chuàng)新方面,原力靈機(jī)正探索將世界模型與VLA架構(gòu)深度融合,使模型既能預(yù)測動作后果,又能規(guī)劃干預(yù)策略,這種雙向建模方式被視為突破閉環(huán)控制難題的關(guān)鍵。











