滾動資訊

當前位置：首頁 > 資訊 > 信息流 > 正文內容

通義實驗室提出生成式獎勵模型P-GenRM

時間：2026-03-18 02:24:08 來源：鞭牛士編輯：快訊 IP：北京 發表評論無障礙通道

AIPress.com.cn報道

3月17日消息，通義實驗室自然語言智能團隊提出了一種面向開放域場景的個性化生成式獎勵模型P-GenRM，并入選ICLR 2026Oral。該方法旨在解決傳統獎勵模型難以適應用戶多樣化偏好的問題，為AI系統提供更具動態適配能力的對齊機制。

在現有方法中，獎勵模型通常依賴統一標準或靜態偏好建模，對不同用戶和場景的差異響應有限，尤其在新用戶冷啟動和復雜偏好表達方面存在不足。P-GenRM則引入生成式建模思路，將“評分”過程拆解為結構化的推理鏈條，包括用戶偏好畫像、評分標準設定以及逐項打分與匯總，從而將原本隱式的偏好建模轉化為可解釋的評估流程。

在訓練方法上，研究團隊采用分階段策略，結合有監督微調與強化學習，使模型能夠從顯式與隱式偏好信號中推斷用戶需求，并在信息不完整情況下進行合理補全。同時，通過課程學習提升模型對復雜樣本的判別能力。

在推理階段，P-GenRM進一步引入測試時擴展機制，通過多次采樣與相似用戶參考相結合的方式，提高評分穩定性并緩解噪聲影響。這一設計不僅增強了模型在低數據場景下的表現，也提升了對新用戶的泛化能力。

實驗結果顯示，在個性化評測基準上，P-GenRM在較小模型規模下實現了對既有方法的性能超越，并在下游策略模型訓練中帶來顯著的個性化對齊收益。相關結果表明，通過結構化生成與推理增強，獎勵模型在個性化場景中的有效性得到提升。

整體來看，該研究將個性化對齊從傳統的隱式表示，轉變為可解釋、可組合的生成過程，為AI系統在客服、教育及內容生成等場景中的應用提供了新的技術路徑。

更多>同類資訊

英偉達發布DLSS 5引爭議，AI畫質升級遭質疑

03-18

微盟集團：2025年經調整凈盈利0.42億元，實現自2021年以來首次年度盈利

03-18

雷蛇與Luma AI合作，為壁紙軟件Axon添AI圖像創作功能

03-18

澄清了！博納影業回應：博樂AI暫未接入 OpenClaw 部署

03-18

?進軍最后疆域：英偉達發布太空計算服務，將 AI 送入軌道

03-18

Intel至強6處理器牽手NVIDIA DGX Rubin NVL8 共拓AI服務器新藍海

03-18

寶寶巴士兒歌App現低俗廣告，子公司遭罰30萬并緊急整改

03-18

OpenClaw“龍蝦”智能體走紅：享受便利時，安全規范使用不可忘

據“國家安全部”微信公眾號消息，OpenClaw（昵稱“龍蝦”）是一款開源AI智能體工具，上線不久便迅速成長為2026年度現象級“開源奇跡”。不少用戶從付費安裝“龍蝦”，到付費卸載“龍蝦”，養“龍蝦”正在成為…

03-18

長征八號系列火箭2026年4月初將擇機發射長八甲助力衛星部署升級

03-18

長征八號系列火箭2026年4月初擇機發射長八甲助力衛星互聯網建設升級

03-18

榮耀新游戲本發布在即：獵人LOGO回歸，或歸屬WIN系列下月上市

03-18

嫦娥六號立大功！國際首臺負離子分析儀實現月球負離子直接探測

03-18

我國科研團隊發現單電荷雙粲重子助力探索物質深層次結構

03-18

高盛稱股市未出現投降式拋售認為宜簡化組合增持現金

03-18

英偉達CEO黃仁勛：對1萬億美元+的收入預期具有強烈的“能見度”

03-18

點擊查看更多 +

全站最新

奧迪全球CEO高德諾辟謠南北奧迪合并：雙伙伴戰略持續，在華布局明晰

小米汽車感恩回饋：為SU7、YU7、Ultra首任車主送定制冰箱貼及紀念勛章

平安銀行“小橙帽”出擊！3·15為“城市奔跑者”筑牢金融消保防線

百度搜索Skill成OpenClaw“裝蝦”利器下載量全球奪冠助力AI發展

章魚動力獲數億元種子輪融資頂尖團隊與資本入局具身智能賽道潛力足

飛速創新(03355.HK)招股中，AI革命浪潮"賣鏟人"填補港股賽道空缺

熱門內容

本欄最新

飛速創新(03355.HK)招股中，AI革命浪潮"賣鏟人"填補港股賽道空缺

阿里發布"悟空"，要把"龍蝦"裝進2000萬企業組織里

直擊GTC現場："J. Huang WAS HERE"! 聯想集團新一代工作站亮相

濰柴動力(02338.HK)獲摩根大通增持92.58萬股

飛速創新(03355.HK)招股中，AI革命浪潮"賣鏟人"填補港股賽道空缺

阿里發布"悟空"，要把"龍蝦"裝進2000萬企業組織里

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR比爾科技官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

通義實驗室提出生成式獎勵模型P-GenRM