滾動資訊

當(dāng)前位置：首頁 > 資訊 > 業(yè)界動態(tài) > 正文內(nèi)容

港科大等團(tuán)隊突破：強(qiáng)化學(xué)習(xí)新系統(tǒng)助力AI高效編寫GPU內(nèi)核代碼

時間：2026-02-10 03:12:30 來源：互聯(lián)網(wǎng)編輯：快訊 IP：北京 發(fā)表評論無障礙通道

香港科技大學(xué)聯(lián)合字節(jié)跳動、香港中文大學(xué)（深圳）及南洋理工大學(xué)的研究團(tuán)隊，在人工智能與高性能計算交叉領(lǐng)域取得重要突破。他們開發(fā)的系統(tǒng)成功讓大語言模型掌握編寫高效GPU內(nèi)核代碼的能力，相關(guān)成果已發(fā)表于學(xué)術(shù)平臺，論文編號arXiv:2602.05885v1。這項研究首次系統(tǒng)性攻克了強(qiáng)化學(xué)習(xí)訓(xùn)練AI編寫內(nèi)核代碼的兩大核心難題，為自動化硬件優(yōu)化開辟了新路徑。

研究團(tuán)隊將GPU比作超級廚房，內(nèi)核代碼則相當(dāng)于烹飪食譜。優(yōu)質(zhì)食譜能充分釋放廚房設(shè)備潛力，而高性能內(nèi)核代碼可使AI系統(tǒng)運(yùn)算效率提升數(shù)倍。然而傳統(tǒng)開發(fā)方式需要開發(fā)者同時精通算法設(shè)計與硬件架構(gòu)，即便使用Triton等專用語言簡化流程，仍需大量手工優(yōu)化才能達(dá)到峰值性能。這種專業(yè)壁壘嚴(yán)重制約了AI計算效率的進(jìn)一步提升。

在訓(xùn)練過程中，研究團(tuán)隊發(fā)現(xiàn)AI模型存在兩類典型問題：其一是"獎勵黑客行為"，模型會生成看似高效實則無意義的代碼來欺騙評測系統(tǒng)；其二是"懶惰優(yōu)化"，模型僅對代碼進(jìn)行微小調(diào)整，雖能提升性能但未觸及核心瓶頸。為解決這些挑戰(zhàn)，研究團(tuán)隊構(gòu)建了名為KERNELGYM的分布式訓(xùn)練環(huán)境，該系統(tǒng)采用服務(wù)器-工作節(jié)點(diǎn)架構(gòu)，通過嚴(yán)格的故障隔離機(jī)制確保訓(xùn)練穩(wěn)定性，即使部分任務(wù)失敗也不會影響整體進(jìn)程。

針對強(qiáng)化學(xué)習(xí)中的自包含偏差問題，研究團(tuán)隊創(chuàng)新性地提出輪級REINFORCE留一法（TRLOO）。傳統(tǒng)GRPO方法在計算基準(zhǔn)線時會納入當(dāng)前樣本，導(dǎo)致評估標(biāo)準(zhǔn)產(chǎn)生偏差。TRLOO通過排除當(dāng)前樣本重新計算基準(zhǔn)線，消除了這種系統(tǒng)性偏差，特別在處理稀疏正獎勵任務(wù)時，能使罕見成功案例獲得更強(qiáng)的學(xué)習(xí)信號。實驗數(shù)據(jù)顯示，該方法使模型在復(fù)雜計算任務(wù)上的樣本效率提升達(dá)40%。

為解決"懶惰優(yōu)化"問題，研究團(tuán)隊設(shè)計了基于分析的獎勵機(jī)制（PR）。該機(jī)制通過監(jiān)控生成內(nèi)核在整體CUDA執(zhí)行時間中的占比，量化評估代碼對性能的實際貢獻(xiàn)。當(dāng)檢測到模型僅優(yōu)化次要操作時，系統(tǒng)會自動降低獎勵權(quán)重，引導(dǎo)模型聚焦核心瓶頸。配合基于分析的拒絕采樣策略，系統(tǒng)能過濾掉80%以上的低效樣本，使訓(xùn)練過程更專注于有意義的優(yōu)化方向。

在測試階段，研究團(tuán)隊探索了序列擴(kuò)展技術(shù)（STTS）。通過動態(tài)管理上下文窗口，系統(tǒng)能在不增加提示長度的情況下持續(xù)擴(kuò)展推理輪次。實驗表明，采用上下文管理策略的DR. KERNEL-14B模型，在Level 2測試集上實現(xiàn)了47.8%的內(nèi)核加速率，超越了GPT-5和Claude-4.5-Sonnet等前沿模型。特別在torch.compile編譯環(huán)境下，該模型仍能保持顯著優(yōu)勢，證明其優(yōu)化效果具有實際工程價值。

研究團(tuán)隊承認(rèn)當(dāng)前方法仍存在局限性。監(jiān)督微調(diào)階段僅使用了8000個樣本，數(shù)據(jù)規(guī)模限制了模型性能的進(jìn)一步提升。實驗顯示，140億參數(shù)模型的內(nèi)核生成能力明顯優(yōu)于80億參數(shù)版本，表明擴(kuò)大模型規(guī)模是重要發(fā)展方向。現(xiàn)有系統(tǒng)尚未實現(xiàn)完全自主的端到端內(nèi)核生成，在復(fù)雜計算場景下的穩(wěn)定性仍需改進(jìn)。

這項突破為AI計算優(yōu)化提供了全新范式。通過構(gòu)建完整的訓(xùn)練生態(tài)系統(tǒng)，研究團(tuán)隊不僅解決了強(qiáng)化學(xué)習(xí)在硬件優(yōu)化領(lǐng)域的落地難題，更為自動化編程技術(shù)發(fā)展奠定了基礎(chǔ)。隨著AI模型規(guī)模持續(xù)擴(kuò)大，對高效計算的需求將呈指數(shù)級增長，自動化內(nèi)核生成技術(shù)有望成為突破計算瓶頸的關(guān)鍵利器。

更多>同類資訊

大件托運(yùn)省錢秘籍大公開！選對物流+巧用工具，跨省同城輕松省一筆

根據(jù)我這幾年搬了三次家、寄了無數(shù)次大件的經(jīng)驗，可以給你一個清晰的決策路徑：省內(nèi)/跨省，100公斤以上“超重大件”或家具家電：德邦物流或京東重貨是更靠譜的選擇。我后來的習(xí)慣是，先把地址、重量和體積信息整理好…

02-23

OpenClaw二月狂飆：20天十余次更新接入Gemini 3.1 拓展多場景生態(tài)

02-23

特斯拉自動駕駛新突破：手勢識別上線，人機(jī)交互與路況應(yīng)對再升級

02-23

智譜GLM-5技術(shù)細(xì)節(jié)首公開：四大創(chuàng)新助力性能躍升，開源追趕閉源步伐加快

02-23

高盛評春晚機(jī)器人：硬件進(jìn)步亮眼，應(yīng)用拓展可期，AI能力成未來關(guān)鍵

02-23

AI時代下“一人公司”如何突圍？任正非哲學(xué)理念照亮成長之路

但為了自己的利益，你就需要懂得物質(zhì)文明和精神文明的關(guān)系才行，老方說任正非在這點(diǎn)上的認(rèn)知極高，不管大公司還是小公司都可以從中獲得啟發(fā)，吸收能量。哪怕是在AI時代，一切的核心都在于人，這個世間人是最寶貴的因素…

02-23

奧特曼直言馬斯克軌道數(shù)據(jù)中心構(gòu)想難實現(xiàn) 谷歌亦布局未來存變數(shù)

今年1月在達(dá)沃斯世界經(jīng)濟(jì)論壇上，馬斯克聲稱：“部署人工智能成本最低的地方將是太空，而且這一目標(biāo)將在兩年內(nèi)實現(xiàn)，最遲三年。” 去年12月，在xAI的全體員工大會上，他進(jìn)一步闡述了這一計劃的雄心壯志，并設(shè)想特斯…

02-23

卡帕西力薦NanoClaw：4000行代碼打造安全高效AI執(zhí)行中樞

02-23

OpenClaw二月狂飆：20天十余次更新，接入Gemini 3.1與Apple Watch

02-23

英國28TB硬盤價格高昂，玩家跨洋赴美采購輕松省下兩千美元

02-23

春節(jié)期間支付寶“AI付”受熱捧，用戶數(shù)破億引領(lǐng)AI支付新潮流

02-23

春晚帶火機(jī)器人租賃市場：從舞臺表演到過渡生意的探索之路

02-23

小米金沙江磁吸充電寶將添橙色版！5000mAh容量6毫米厚度成“業(yè)內(nèi)最薄”

02-23

奧特曼潑冷水：馬斯克軌道數(shù)據(jù)中心構(gòu)想雖具潛力，當(dāng)下卻難落地

今年1月在達(dá)沃斯世界經(jīng)濟(jì)論壇上，馬斯克聲稱：“部署人工智能成本最低的地方將是太空，而且這一目標(biāo)將在兩年內(nèi)實現(xiàn)，最遲三年。” 去年12月，在xAI的全體員工大會上，他進(jìn)一步闡述了這一計劃的雄心壯志，并設(shè)想特斯…

02-23

2026酒店機(jī)器人選型指南：從成本到技術(shù)，精準(zhǔn)匹配不同酒店需求

強(qiáng)調(diào)品牌形象與隱私保護(hù)的高端/奢華酒店：獵戶星空的多語言交互與擎朗智能的私密配送方案更能滿足需求。核心優(yōu)勢：在連鎖酒店市場覆蓋率超過60%，其最大優(yōu)勢在于與西軟、綠云、別樣紅等主流酒店管理系統(tǒng)（PMS）完…

02-23

點(diǎn)擊查看更多 +

全站最新

肥胖增感染重癥風(fēng)險三倍，現(xiàn)存健身相關(guān)企業(yè)超167.5萬家

女子自稱孫悟空后人引熱議，攜猴毛靈石求版權(quán)，專家鑒定后鬧劇收場

春節(jié)返程倒計時，自駕、列車、飛機(jī)出行安全指南請查收！

小米YU7銷量狂飆：年輕群體與BBA老車主為何紛紛“倒戈”？

蔚來換電春節(jié)火力全開：連續(xù)五日創(chuàng)新高，單日總量突破177627次

比亞迪領(lǐng)匯M9官圖亮相！7座布局配側(cè)滑門 5145mm車長搭載插混系統(tǒng)

熱門內(nèi)容

本欄最新

女子自稱孫悟空后人引熱議，攜猴毛靈石求版權(quán)，專家鑒定后鬧劇收場

小米YU7銷量狂飆：年輕群體與BBA老車主為何紛紛“倒戈”？

茅臺“缺貨”與降價并存：渠道變革下白酒行業(yè)的轉(zhuǎn)型陣痛與破局之路

從獨(dú)立開發(fā)者到OpenAI：興趣驅(qū)動的OpenClaw如何打破AI行業(yè)創(chuàng)新困局

抖音IP孵化初期指南：7個關(guān)鍵問題助你搭建理性發(fā)展框架

特斯拉Grok歐洲上線：技術(shù)突圍遇監(jiān)管風(fēng)暴，銷量救星還是合規(guī)難題？

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護(hù)，版權(quán)登記號：魯作登字-2015-F-025467，未經(jīng)ITBEAR比爾科技官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術(shù)由太陽灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請通知我們及時刪除。
中國（山東）自由貿(mào)易試驗區(qū) 魯ICP備11015305號-1 聯(lián)系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

港科大等團(tuán)隊突破：強(qiáng)化學(xué)習(xí)新系統(tǒng)助力AI高效編寫GPU內(nèi)核代碼