岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

ITBear旗下自媒體矩陣:

港科大等團(tuán)隊突破:強(qiáng)化學(xué)習(xí)新系統(tǒng)助力AI高效編寫GPU內(nèi)核代碼

   時間:2026-02-10 03:12:30 來源:互聯(lián)網(wǎng)編輯:快訊 IP:北京 發(fā)表評論無障礙通道
 

香港科技大學(xué)聯(lián)合字節(jié)跳動、香港中文大學(xué)(深圳)及南洋理工大學(xué)的研究團(tuán)隊,在人工智能與高性能計算交叉領(lǐng)域取得重要突破。他們開發(fā)的系統(tǒng)成功讓大語言模型掌握編寫高效GPU內(nèi)核代碼的能力,相關(guān)成果已發(fā)表于學(xué)術(shù)平臺,論文編號arXiv:2602.05885v1。這項研究首次系統(tǒng)性攻克了強(qiáng)化學(xué)習(xí)訓(xùn)練AI編寫內(nèi)核代碼的兩大核心難題,為自動化硬件優(yōu)化開辟了新路徑。

研究團(tuán)隊將GPU比作超級廚房,內(nèi)核代碼則相當(dāng)于烹飪食譜。優(yōu)質(zhì)食譜能充分釋放廚房設(shè)備潛力,而高性能內(nèi)核代碼可使AI系統(tǒng)運(yùn)算效率提升數(shù)倍。然而傳統(tǒng)開發(fā)方式需要開發(fā)者同時精通算法設(shè)計與硬件架構(gòu),即便使用Triton等專用語言簡化流程,仍需大量手工優(yōu)化才能達(dá)到峰值性能。這種專業(yè)壁壘嚴(yán)重制約了AI計算效率的進(jìn)一步提升。

在訓(xùn)練過程中,研究團(tuán)隊發(fā)現(xiàn)AI模型存在兩類典型問題:其一是"獎勵黑客行為",模型會生成看似高效實則無意義的代碼來欺騙評測系統(tǒng);其二是"懶惰優(yōu)化",模型僅對代碼進(jìn)行微小調(diào)整,雖能提升性能但未觸及核心瓶頸。為解決這些挑戰(zhàn),研究團(tuán)隊構(gòu)建了名為KERNELGYM的分布式訓(xùn)練環(huán)境,該系統(tǒng)采用服務(wù)器-工作節(jié)點(diǎn)架構(gòu),通過嚴(yán)格的故障隔離機(jī)制確保訓(xùn)練穩(wěn)定性,即使部分任務(wù)失敗也不會影響整體進(jìn)程。

針對強(qiáng)化學(xué)習(xí)中的自包含偏差問題,研究團(tuán)隊創(chuàng)新性地提出輪級REINFORCE留一法(TRLOO)。傳統(tǒng)GRPO方法在計算基準(zhǔn)線時會納入當(dāng)前樣本,導(dǎo)致評估標(biāo)準(zhǔn)產(chǎn)生偏差。TRLOO通過排除當(dāng)前樣本重新計算基準(zhǔn)線,消除了這種系統(tǒng)性偏差,特別在處理稀疏正獎勵任務(wù)時,能使罕見成功案例獲得更強(qiáng)的學(xué)習(xí)信號。實驗數(shù)據(jù)顯示,該方法使模型在復(fù)雜計算任務(wù)上的樣本效率提升達(dá)40%。

為解決"懶惰優(yōu)化"問題,研究團(tuán)隊設(shè)計了基于分析的獎勵機(jī)制(PR)。該機(jī)制通過監(jiān)控生成內(nèi)核在整體CUDA執(zhí)行時間中的占比,量化評估代碼對性能的實際貢獻(xiàn)。當(dāng)檢測到模型僅優(yōu)化次要操作時,系統(tǒng)會自動降低獎勵權(quán)重,引導(dǎo)模型聚焦核心瓶頸。配合基于分析的拒絕采樣策略,系統(tǒng)能過濾掉80%以上的低效樣本,使訓(xùn)練過程更專注于有意義的優(yōu)化方向。

在測試階段,研究團(tuán)隊探索了序列擴(kuò)展技術(shù)(STTS)。通過動態(tài)管理上下文窗口,系統(tǒng)能在不增加提示長度的情況下持續(xù)擴(kuò)展推理輪次。實驗表明,采用上下文管理策略的DR. KERNEL-14B模型,在Level 2測試集上實現(xiàn)了47.8%的內(nèi)核加速率,超越了GPT-5和Claude-4.5-Sonnet等前沿模型。特別在torch.compile編譯環(huán)境下,該模型仍能保持顯著優(yōu)勢,證明其優(yōu)化效果具有實際工程價值。

研究團(tuán)隊承認(rèn)當(dāng)前方法仍存在局限性。監(jiān)督微調(diào)階段僅使用了8000個樣本,數(shù)據(jù)規(guī)模限制了模型性能的進(jìn)一步提升。實驗顯示,140億參數(shù)模型的內(nèi)核生成能力明顯優(yōu)于80億參數(shù)版本,表明擴(kuò)大模型規(guī)模是重要發(fā)展方向。現(xiàn)有系統(tǒng)尚未實現(xiàn)完全自主的端到端內(nèi)核生成,在復(fù)雜計算場景下的穩(wěn)定性仍需改進(jìn)。

這項突破為AI計算優(yōu)化提供了全新范式。通過構(gòu)建完整的訓(xùn)練生態(tài)系統(tǒng),研究團(tuán)隊不僅解決了強(qiáng)化學(xué)習(xí)在硬件優(yōu)化領(lǐng)域的落地難題,更為自動化編程技術(shù)發(fā)展奠定了基礎(chǔ)。隨著AI模型規(guī)模持續(xù)擴(kuò)大,對高效計算的需求將呈指數(shù)級增長,自動化內(nèi)核生成技術(shù)有望成為突破計算瓶頸的關(guān)鍵利器。

 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  爭議稿件處理  |  English Version
 
主站蜘蛛池模板: 婷婷亚洲五月 | 欧美日韩精品国产 | 日韩另类在线 | 国产精品a级 | 亚洲日日干 | 成人性视频在线播放 | 激情五月婷婷网 | 97国产在线 | 婷婷精品在线 | 国产一级片在线 | 欧美网站在线观看 | 亚洲综合色网 | 国产精品综合网 | 国产区第一页 | 日韩欧美中 | 一区二区精品在线 | 99热只有| 成人深夜网站 | 成人小网站 | 欧洲三级视频 | 精品视频一区二区三区在线观看 | 成人超碰在线 | 福利一区二区视频 | 91老女人 | 国产做受视频 | av在线第一页 | 九一成人网 | 在线看日韩| 国产一级久久久 | 最近免费中文字幕 | av中文在线| yw视频在线观看 | 午夜免费网站 | 中文字幕精品在线观看 | 亚洲欧洲av | www.色亚洲 | 人人看人人看 | 日本午夜在线 | 久久黄色一级片 | 欧美精品一区二区在线观看 | 在线观看国产视频 |