滾動資訊

當前位置：首頁 > 資訊 > 人工智能 > 正文內容

清華團隊突破強化學習困境：RACS算法實現安全與性能雙贏 14項任務登頂SOTA

時間：2026-02-16 23:51:33 來源：互聯網編輯：快訊 IP：北京 發表評論無障礙通道

在自動駕駛與機器人控制等高風險領域，強化學習技術正面臨關鍵挑戰：如何在保證絕對安全的前提下實現高效控制。清華大學研究團隊近期提出創新算法，通過引入"主動探索危險邊界"機制，成功破解了安全強化學習領域長期存在的核心矛盾，在權威測試平臺刷新多項性能紀錄。

傳統安全強化學習算法普遍采用"被動防御"策略，通過嚴格限制智能體行動范圍來避免違規。但研究團隊發現，這種過度保守的設計反而導致系統陷入惡性循環——隨著安全約束加強，違規樣本數量急劇減少，使得系統對危險邊界的認知變得模糊。實驗數據顯示，當違規率降至0.1%以下時，可行性函數的估計誤差會呈指數級增長，最終引發安全性崩塌。

針對這一困境，研究團隊開發出雙策略架構的RACS算法。該系統包含兩個協同工作的智能體："執行者"負責在安全范圍內優化任務表現，"探險者"則專門觸碰安全邊界以收集關鍵數據。這種設計巧妙利用對抗性探索機制，在保持總采樣量不變的情況下，使違規樣本占比提升10-100倍，顯著改善了系統對危險狀態的判斷精度。

技術實現層面，研究團隊采用重要性采樣技術解決雙策略數據分布差異問題，并通過KL散度約束確保訓練穩定性。在Safety-Gymnasium基準測試中，該算法在14項復雜任務中同時實現安全指標與任務性能的雙重領先。特別是在高維度HumanoidVelocity任務中，RACS不僅達成零違規，其任務回報率較傳統方法提升23%，推箱子導航任務的成功率更是提高41%。

深入分析顯示，算法性能提升源于三個關鍵改進：危險狀態采樣量增加一個數量級、可行性函數估計誤差降低82%、風險低估頻率減少94%。這意味著系統能更準確識別潛在危險，從根本上避免了因認知模糊導致的意外違規。在HalfCheetahVelocity等任務中，該算法甚至實現了連續百萬步零違規的突破性表現。

這項研究為安全強化學習的實際應用開辟了新路徑。通過將"主動認知危險"理念融入算法設計，有效解決了高風險場景中安全與性能的平衡難題。相關代碼已在開源平臺公開，其雙策略架構與對抗性探索機制為工業界提供了可直接借鑒的技術方案，特別是在自動駕駛決策系統開發中具有重要應用價值。

更多>同類資訊

浦江AI學術年會啟幕：AGI4S計劃發布，共探科學智能新未來

為進一步夯實“中樞”的支撐能力，為科研人員攀登科學高峰筑牢更穩固的“高原”，上海AI實驗室與聯合主辦方共同發起了AGI4S算力、數據及科學應用場景合作共建計劃，啟動“浦江青年學者”計劃并為首批學者頒發證書，以…

03-31

AI浪潮下思科領航：以基礎設施革新與生態協同開啟智能新未來

據思科大中華區首席技術官侯勝利深度解讀，在基礎設施層面，為破解算力、帶寬、電力的三重制約，思科發布的Silicon OneG300交換芯片，能以102.4 Tbps超高帶寬配合智能集群網絡技術，實現網絡利…

03-31

從“炫技”到實用：機器人具身智能加速落地，產業化之路挑戰與機遇并存

第一是亞毫米級精準控制，能夠實現指尖級定位與姿態微調，完成人類才能做到的細微動作；第二是多模態感知融合，將視覺、觸覺、力覺信息實時整合，能夠分辨物體軟硬、輕重、粗細、光滑度等柔性特征，動態調整力度與姿態；第三…

03-31

TI邊緣AI新突破：硬件加速與軟件生態雙管齊下，賦能智能設備升級

TI 推出MSPM0G5187 通用MCU 與 AM13Ex高性能實時MCU均集成TinyEngine?神經處理單元(NPU)，助力各類應用的邊緣 AI 部署。借助 TI CCStudio? IDE 中…

03-31

iOS 27或迎Siri應用革新擴展功能助力接入更多第三方聊天機器人

古爾曼稱，內部預發布版iOS 27設置應用中的細則寫道“擴展允許已安裝應用中的代理與Siri、Siri應用以及您設備上的其他功能協同工作。”除了支持更多第三方聊天機器人外，古爾曼還透露Siri在iOS 2…

03-31

MOVA入局智能眼鏡賽道：以AI與AR雙路徑，開啟“眼前”新未來

發布會后，MOVA AI智慧生活業務負責人尚佳接受采訪時表示，這兩款產品并非為了炫技，而是基于一個樸素判斷：當AI足夠強大，真正限制它融入日常的，不再是能力，而是形態。與此同時，團隊在消費電子領域的積累，也…

03-31

7.98萬元起售！大眾全新速騰S上市，雙動力可選，尺寸比速騰L更緊湊

03-31

張雪：以AI式死磕點燃時代之光，用真誠價值觀贏得眾人追捧

03-31

中堅科技搭上具身智能快車凈利大增轉型陣痛下未來待考

03-31

晶泰控股盈利與英矽智能虧損：AI制藥商業化之路，機遇與挑戰并存

03-31

美的2025年成績亮眼：利潤大頭回饋股東，ToB崛起AI賦能未來可期

美的集團近日公布的2025年財報顯示，公司全年實現營業總收入4585億元，同比增長12.1%；歸屬于母公司股東的凈利潤達439.5億元，同比上升14%。這份成績單中，最受市場矚目的是其大手筆的利潤分配方案——現金分紅與股份回購總金額超過年度凈利潤，展現出對股東回報的高度

03-31

2026 CHINASHOP首秀杭州，零售巨頭齊聚共探行業服務提質新路徑

03-31

2026中國零售業博覽會落地杭州解鎖零售新趨勢共探行業新未來

03-31

27歲哥哥攜00后妹妹入局拼圖賽道，3年深耕“拼”出年銷500萬新商機

03-31

GTC與OFC大會收官：AI算力產業鏈獲新指引，多領域前景向好

03-31

點擊查看更多 +

全站最新

聯想連發兩款"養蝦"專用機分析人士：將開啟"一人兩機"的雙設備時代

聯想推兩款"養蝦"專用終端，對標Mac mini爭奪AI智能體入口

圖解ETF一季報

綠城管理程敏：堅持“利他”與“以質定價”，推動代建業務穩中提質

ETF風向標 | A股沖高回落，銀行ETF包攬漲幅榜，科創債ETF、城投債ETF強勢“吸金”

美伊沖突以來，最牛ETF榜單來了！

熱門內容

本欄最新

7.98萬元起售！大眾全新速騰S上市，雙動力可選，尺寸比速騰L更緊湊

高德開源全球首個統一架構具身操作基座ABot-M0，為智能領域注入新動力

壁仞科技2025年營收毛利雙增研發投入加碼智算集群項目落地多領域

越疆機器人2025年營收4.92億增31.55% 研發投入加碼具身智能

愛奇藝“納逗Pro”上線：開啟AI賦能專業影視創作新時代

東風汽車全球設計中心啟用 24小時協同設計引領全球化設計新篇章

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR比爾科技官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

清華團隊突破強化學習困境：RACS算法實現安全與性能雙贏 14項任務登頂SOTA