香港科技大學(xué)聯(lián)合字節(jié)跳動、香港中文大學(xué)(深圳)及南洋理工大學(xué)的研究團(tuán)隊,在人工智能與高性能計算交叉領(lǐng)域取得重要突破。他們開發(fā)的系統(tǒng)成功讓大語言模型掌握編寫高效GPU內(nèi)核代碼的能力,相關(guān)成果已發(fā)表于學(xué)術(shù)平臺,論文編號arXiv:2602.05885v1。這項研究首次系統(tǒng)性攻克了強(qiáng)化學(xué)習(xí)訓(xùn)練AI編寫內(nèi)核代碼的兩大核心難題,為自動化硬件優(yōu)化開辟了新路徑。
研究團(tuán)隊將GPU比作超級廚房,內(nèi)核代碼則相當(dāng)于烹飪食譜。優(yōu)質(zhì)食譜能充分釋放廚房設(shè)備潛力,而高性能內(nèi)核代碼可使AI系統(tǒng)運(yùn)算效率提升數(shù)倍。然而傳統(tǒng)開發(fā)方式需要開發(fā)者同時精通算法設(shè)計與硬件架構(gòu),即便使用Triton等專用語言簡化流程,仍需大量手工優(yōu)化才能達(dá)到峰值性能。這種專業(yè)壁壘嚴(yán)重制約了AI計算效率的進(jìn)一步提升。
在訓(xùn)練過程中,研究團(tuán)隊發(fā)現(xiàn)AI模型存在兩類典型問題:其一是"獎勵黑客行為",模型會生成看似高效實則無意義的代碼來欺騙評測系統(tǒng);其二是"懶惰優(yōu)化",模型僅對代碼進(jìn)行微小調(diào)整,雖能提升性能但未觸及核心瓶頸。為解決這些挑戰(zhàn),研究團(tuán)隊構(gòu)建了名為KERNELGYM的分布式訓(xùn)練環(huán)境,該系統(tǒng)采用服務(wù)器-工作節(jié)點(diǎn)架構(gòu),通過嚴(yán)格的故障隔離機(jī)制確保訓(xùn)練穩(wěn)定性,即使部分任務(wù)失敗也不會影響整體進(jìn)程。
針對強(qiáng)化學(xué)習(xí)中的自包含偏差問題,研究團(tuán)隊創(chuàng)新性地提出輪級REINFORCE留一法(TRLOO)。傳統(tǒng)GRPO方法在計算基準(zhǔn)線時會納入當(dāng)前樣本,導(dǎo)致評估標(biāo)準(zhǔn)產(chǎn)生偏差。TRLOO通過排除當(dāng)前樣本重新計算基準(zhǔn)線,消除了這種系統(tǒng)性偏差,特別在處理稀疏正獎勵任務(wù)時,能使罕見成功案例獲得更強(qiáng)的學(xué)習(xí)信號。實驗數(shù)據(jù)顯示,該方法使模型在復(fù)雜計算任務(wù)上的樣本效率提升達(dá)40%。
為解決"懶惰優(yōu)化"問題,研究團(tuán)隊設(shè)計了基于分析的獎勵機(jī)制(PR)。該機(jī)制通過監(jiān)控生成內(nèi)核在整體CUDA執(zhí)行時間中的占比,量化評估代碼對性能的實際貢獻(xiàn)。當(dāng)檢測到模型僅優(yōu)化次要操作時,系統(tǒng)會自動降低獎勵權(quán)重,引導(dǎo)模型聚焦核心瓶頸。配合基于分析的拒絕采樣策略,系統(tǒng)能過濾掉80%以上的低效樣本,使訓(xùn)練過程更專注于有意義的優(yōu)化方向。
在測試階段,研究團(tuán)隊探索了序列擴(kuò)展技術(shù)(STTS)。通過動態(tài)管理上下文窗口,系統(tǒng)能在不增加提示長度的情況下持續(xù)擴(kuò)展推理輪次。實驗表明,采用上下文管理策略的DR. KERNEL-14B模型,在Level 2測試集上實現(xiàn)了47.8%的內(nèi)核加速率,超越了GPT-5和Claude-4.5-Sonnet等前沿模型。特別在torch.compile編譯環(huán)境下,該模型仍能保持顯著優(yōu)勢,證明其優(yōu)化效果具有實際工程價值。
研究團(tuán)隊承認(rèn)當(dāng)前方法仍存在局限性。監(jiān)督微調(diào)階段僅使用了8000個樣本,數(shù)據(jù)規(guī)模限制了模型性能的進(jìn)一步提升。實驗顯示,140億參數(shù)模型的內(nèi)核生成能力明顯優(yōu)于80億參數(shù)版本,表明擴(kuò)大模型規(guī)模是重要發(fā)展方向。現(xiàn)有系統(tǒng)尚未實現(xiàn)完全自主的端到端內(nèi)核生成,在復(fù)雜計算場景下的穩(wěn)定性仍需改進(jìn)。
這項突破為AI計算優(yōu)化提供了全新范式。通過構(gòu)建完整的訓(xùn)練生態(tài)系統(tǒng),研究團(tuán)隊不僅解決了強(qiáng)化學(xué)習(xí)在硬件優(yōu)化領(lǐng)域的落地難題,更為自動化編程技術(shù)發(fā)展奠定了基礎(chǔ)。隨著AI模型規(guī)模持續(xù)擴(kuò)大,對高效計算的需求將呈指數(shù)級增長,自動化內(nèi)核生成技術(shù)有望成為突破計算瓶頸的關(guān)鍵利器。










