當(dāng)我們?cè)谥悄苁謾C(jī)上拍攝照片、與ChatGPT對(duì)話或觀看高清視頻時(shí),背后都有一位默默工作的“幕后英雄”——圖形處理器(GPU)。這個(gè)擁有成千上萬(wàn)計(jì)算單元的硬件加速器,就像一座超級(jí)廚房,需要精心設(shè)計(jì)的“菜譜”才能高效運(yùn)轉(zhuǎn)。然而,編寫高性能GPU內(nèi)核代碼的難度堪比設(shè)計(jì)復(fù)雜的流水線系統(tǒng),即使是資深程序員也需要反復(fù)調(diào)試才能達(dá)到理想效果。如今,上海人工智能實(shí)驗(yàn)室聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)的Kernel-Smith系統(tǒng),為這一領(lǐng)域帶來(lái)了革命性突破。
這項(xiàng)發(fā)表于arXiv平臺(tái)的研究成果,創(chuàng)造性地將進(jìn)化算法引入GPU編程領(lǐng)域。系統(tǒng)通過(guò)維護(hù)多個(gè)候選程序構(gòu)成的“代碼種群”,模擬生物進(jìn)化過(guò)程進(jìn)行持續(xù)優(yōu)化。每輪迭代中,表現(xiàn)優(yōu)異的程序會(huì)被選中進(jìn)行變異改進(jìn),生成新一代候選方案。經(jīng)過(guò)真實(shí)硬件環(huán)境的多輪測(cè)試篩選,最終培育出性能卓越的GPU內(nèi)核代碼。這種漸進(jìn)式優(yōu)化策略,使系統(tǒng)能夠突破傳統(tǒng)方法一次性生成完美代碼的局限,通過(guò)微小改進(jìn)的累積實(shí)現(xiàn)質(zhì)的飛躍。
研究團(tuán)隊(duì)為進(jìn)化算法構(gòu)建了精密的評(píng)估體系,成功解決了硬件性能測(cè)量的“噪聲干擾”難題。通過(guò)預(yù)熱運(yùn)行消除初始化開(kāi)銷、多次采樣計(jì)算平均值、應(yīng)用CUDA圖技術(shù)減少啟動(dòng)延遲等創(chuàng)新手段,將執(zhí)行時(shí)間波動(dòng)控制在1%以內(nèi)。系統(tǒng)還設(shè)計(jì)了“反作弊”機(jī)制,確保性能提升來(lái)自真正的內(nèi)核優(yōu)化而非投機(jī)取巧。這種對(duì)評(píng)估穩(wěn)定性的極致追求,為進(jìn)化算法提供了可靠的優(yōu)化方向指引。
在訓(xùn)練策略方面,研究團(tuán)隊(duì)開(kāi)創(chuàng)了“局部改進(jìn)”訓(xùn)練范式。他們從大量進(jìn)化軌跡中提取高質(zhì)量改進(jìn)步驟作為訓(xùn)練樣本,使AI模型掌握識(shí)別性能瓶頸和實(shí)施針對(duì)性優(yōu)化的能力。通過(guò)監(jiān)督學(xué)習(xí)與強(qiáng)化學(xué)習(xí)相結(jié)合的雙階段訓(xùn)練,模型不僅具備生成優(yōu)質(zhì)初始代碼的能力,更能在進(jìn)化過(guò)程中持續(xù)提供有價(jià)值的改進(jìn)建議。這種訓(xùn)練方式顯著提升了優(yōu)化效率,使系統(tǒng)在復(fù)雜任務(wù)中展現(xiàn)出強(qiáng)大優(yōu)勢(shì)。
系統(tǒng)的模塊化設(shè)計(jì)實(shí)現(xiàn)了跨平臺(tái)適配能力。通過(guò)分離通用進(jìn)化邏輯與硬件特定接口,研究團(tuán)隊(duì)開(kāi)發(fā)了NVIDIA Triton和metaX MACA雙后端架構(gòu)。這種“通用框架+方言模塊”的設(shè)計(jì)模式,使系統(tǒng)能夠快速適配不同GPU架構(gòu)。在標(biāo)準(zhǔn)測(cè)試中,系統(tǒng)在NVIDIA平臺(tái)實(shí)現(xiàn)3.70倍平均加速,在metaX平臺(tái)使用30B參數(shù)模型即超越大型商用模型表現(xiàn),驗(yàn)證了架構(gòu)設(shè)計(jì)的有效性。
實(shí)際應(yīng)用場(chǎng)景測(cè)試展現(xiàn)了系統(tǒng)的實(shí)用價(jià)值。在SGLang語(yǔ)言模型推理引擎中,優(yōu)化后的元數(shù)據(jù)設(shè)置內(nèi)核實(shí)現(xiàn)4.78倍加速,相關(guān)改進(jìn)已合并至開(kāi)源項(xiàng)目主分支。針對(duì)LMDeploy的DeepSeek模型路由模塊,融合內(nèi)核帶來(lái)1.85%-3.00%的吞吐量提升。最引人注目的是在Engram條件記憶架構(gòu)上的突破,系統(tǒng)通過(guò)深度優(yōu)化實(shí)現(xiàn)14.59倍性能飛躍,相關(guān)代碼同樣被項(xiàng)目官方采納。這些真實(shí)環(huán)境中的優(yōu)化成果,證明了系統(tǒng)從實(shí)驗(yàn)室到生產(chǎn)環(huán)境的轉(zhuǎn)化能力。
與傳統(tǒng)AI編程工具相比,Kernel-Smith代表著編程輔助方式的范式轉(zhuǎn)變。它不再滿足于生成可運(yùn)行代碼,而是深入硬件架構(gòu)層面實(shí)施性能調(diào)優(yōu)。這種能力需要系統(tǒng)具備硬件特性理解、執(zhí)行特征分析和優(yōu)化策略設(shè)計(jì)等復(fù)合技能,這些原本需要資深工程師多年積累的專業(yè)知識(shí),現(xiàn)在可以通過(guò)AI系統(tǒng)實(shí)現(xiàn)自動(dòng)化處理。進(jìn)化優(yōu)化策略和穩(wěn)定評(píng)估機(jī)制的結(jié)合,為處理復(fù)雜現(xiàn)實(shí)問(wèn)題提供了新的解決思路。
目前,研究團(tuán)隊(duì)已將核心框架以O(shè)penEvolve名稱開(kāi)源,為更廣泛的研究和應(yīng)用奠定基礎(chǔ)。這種AI驅(qū)動(dòng)的自動(dòng)優(yōu)化技術(shù),不僅適用于GPU內(nèi)核開(kāi)發(fā),其原理還可擴(kuò)展至CPU程序優(yōu)化、數(shù)據(jù)庫(kù)查詢調(diào)優(yōu)等領(lǐng)域。隨著新型計(jì)算硬件的不斷涌現(xiàn),能夠快速適配不同架構(gòu)的自動(dòng)優(yōu)化系統(tǒng),將成為降低軟件開(kāi)發(fā)成本、提升計(jì)算效率的關(guān)鍵工具。這項(xiàng)研究為AI與硬件優(yōu)化的深度融合提供了創(chuàng)新范例,其技術(shù)思路和方法論具有廣泛的借鑒價(jià)值。







