一項由多國科研機構聯合完成的研究在機器學習領域引發關注,這項發表于頂級期刊的成果顛覆了傳統認知——當使用足夠規模的預訓練模型時,機器人通過簡單連續訓練竟能同時掌握新舊技能。研究團隊在五個復雜場景中驗證發現,采用"順序微調"策略的機器人不僅未出現技能遺忘,甚至在處理未訓練任務時表現出更強的適應性。
傳統機器人學習長期受困于"災難性遺忘"難題,這類似于人類學習新語言時可能遺忘母語詞匯的現象。為破解這一困境,學界曾開發出知識蒸餾、彈性權重鞏固等復雜算法,但這些方法往往需要額外計算資源,且效果有限。新研究采用的LoRA技術通過在神經網絡添加可移除的"補丁"式調整,既保持原有知識結構,又實現高效參數更新。實驗數據顯示,使用該技術的模型各層變化均勻可控,有效秩標準差僅為2.16,遠低于全參數微調的148.5。
研究核心突破在于將大型預訓練模型、LoRA微調技術與在線策略強化學習相結合。這種組合創造出三重保護機制:70億參數的模型提供海量知識存儲空間,使新任務學習產生的梯度沖突能量降低至0.02;LoRA技術確保參數更新集中在低維子空間,防止局部網絡劇烈變化;強化學習的隱式正則化效應則引導模型在熟悉路徑上優化策略。三者協同作用,使機器人在連續學習五個不同任務時,遺忘率始終控制在1.5%以下,部分場景甚至出現負遺忘現象。
在模擬家庭環境的RoboCasa場景中,機器人需完成開關抽屜、操作咖啡機等18項日常任務。采用順序微調的模型在29.5%的任務中表現穩定,與多任務訓練的31.4%差距微小。更令人驚訝的是,在未參與訓練的保留任務測試中,該模型成功率達57.1%,超越多任務訓練的51.2%。研究人員推測,這種泛化能力提升源于順序學習過程中形成的通用空間推理規律,使機器人能舉一反三處理相似任務。
理論分析顯示,大型神經網絡的高維參數空間具有特殊幾何性質——隨機方向間近乎正交的特性,使新任務學習方向與保存舊知識的方向沖突概率趨近于零。在線策略強化學習則通過限制動作概率調整范圍,創造出天然的KL散度正則化效應。這種算法固有的約束機制,相當于在優化目標中自動添加"保持原有策略"的隱式項。
該成果對機器人產業具有重要實用價值。傳統方法開發多任務機器人需復雜任務管理系統和大量舊數據存儲,而新方法僅需在新任務數據上直接微調現有模型。在SAPIEN物理引擎的精確操作測試中,順序微調模型處理胡蘿卜、面包等不同物理特性物體時,成功率達70.9%,與多任務訓練的72.8%接近。通過調整訓練時間,研究者成功縮小了兩種方法間的微小性能差距,驗證了其可擴展性。
盡管當前實驗主要在仿真環境進行,但研究團隊已著手向真實機器人系統遷移技術。他們指出,雖然順序微調在快速適應場景中可能不如專門算法,但其穩定性優勢在需要長期可靠運行的場景中更具價值。下一步研究將探索不同模型架構、任務類型下的效應邊界條件,以及如何進一步提升學習速度。
這項研究引發學界對"復雜問題簡單解"的深入思考。當預訓練規模、參數調整策略和學習方式形成特定組合時,其產生的協同效應遠超單個技術能力。正如論文所述,簡單的技術配方在特定條件下可能創造非凡效果,這種認知轉變或將推動人工智能研究范式革新。
Q&A
問:順序微調與傳統增量學習的主要區別是什么?
答:傳統方法需要保存舊任務數據并設計復雜平衡機制,而順序微調直接在新任務數據上調整現有模型,無需額外存儲且技術實現簡單。其核心優勢在于利用大型預訓練模型的知識容量,通過參數高效更新和強化學習引導,自然防止技能遺忘。
問:為什么小規模模型無法實現類似效果?
答:1200萬參數的小模型在連續學習時,新任務梯度與預訓練知識的沖突能量達0.16,是70億參數模型的8倍。這種劇烈沖突迫使模型丟棄舊知識以容納新信息,就像小書架無法同時存放新舊書籍而必須不斷替換。計算顯示,小模型的有效秩標準差達148.5,表明某些網絡層發生不可控的劇烈變化。











