在AI芯片生態(tài)日益多元化的背景下,如何降低跨平臺(tái)軟件遷移成本成為行業(yè)焦點(diǎn)。近期,眾智FlagOS社區(qū)推出的KernelGen工具與統(tǒng)一編譯器FlagTree組合方案,為算子跨芯片自動(dòng)生成提供了系統(tǒng)性解決方案。該方案通過(guò)自動(dòng)化工具鏈覆蓋算子開(kāi)發(fā)全生命周期,在華為昇騰、摩爾線(xiàn)程、海光、天數(shù)智芯等國(guó)產(chǎn)AI芯片及英偉達(dá)GPU上完成系統(tǒng)性驗(yàn)證,標(biāo)志著算子開(kāi)發(fā)模式從手工編碼向工程化生產(chǎn)轉(zhuǎn)變。
技術(shù)實(shí)現(xiàn)層面,KernelGen構(gòu)建了四層架構(gòu)體系:用戶(hù)可通過(guò)自然語(yǔ)言、數(shù)學(xué)公式或現(xiàn)有代碼描述需求;大模型驅(qū)動(dòng)的智能體自動(dòng)生成Triton內(nèi)核代碼;驗(yàn)證層構(gòu)建多維度測(cè)試用例,在目標(biāo)芯片上與PyTorch參考實(shí)現(xiàn)進(jìn)行數(shù)值比對(duì);最后通過(guò)性能評(píng)估與自動(dòng)化調(diào)優(yōu)確保執(zhí)行效率。這種全流程自動(dòng)化方案將算子開(kāi)發(fā)效率提升數(shù)個(gè)量級(jí),特別是在多芯片適配場(chǎng)景下,避免了重復(fù)開(kāi)發(fā)帶來(lái)的資源浪費(fèi)。
統(tǒng)一編譯器FlagTree是支撐跨芯片適配的核心基礎(chǔ)設(shè)施。該項(xiàng)目自2025年啟動(dòng)以來(lái),已支持12家廠(chǎng)商近20款芯片,涵蓋DSA、GPGPU、RISC-V AI及ARM等多種架構(gòu)。通過(guò)建立統(tǒng)一的硬件中間表示層,F(xiàn)lagTree將芯片差異封裝在編譯階段,使算子生成邏輯無(wú)需關(guān)注底層硬件細(xì)節(jié)。最新發(fā)布的v0.4版本引入Triton語(yǔ)言擴(kuò)展機(jī)制,提供Lite、Struct、Raw三層編程接口,既保證基礎(chǔ)代碼的跨平臺(tái)兼容性,又為性能優(yōu)化保留靈活空間。
實(shí)際評(píng)測(cè)數(shù)據(jù)顯示,在110個(gè)代表性Torch算子的多輪生成測(cè)試中,KernelGen取得82%的編譯成功率與62%的執(zhí)行正確率。不同芯片表現(xiàn)呈現(xiàn)差異化特征:華為昇騰在代碼生成階段表現(xiàn)突出,英偉達(dá)平臺(tái)則保持最高的數(shù)值準(zhǔn)確性。當(dāng)使用FlagTree編譯器時(shí),各平臺(tái)執(zhí)行正確率顯著提升,特別是在英偉達(dá)GPU上達(dá)到70%的通過(guò)率,較原生編譯器提升近20個(gè)百分點(diǎn)。這種穩(wěn)定性?xún)?yōu)勢(shì)為后續(xù)性能優(yōu)化奠定了基礎(chǔ)。
大模型能力差異在算子生成任務(wù)中表現(xiàn)明顯。以華為昇騰平臺(tái)為測(cè)試環(huán)境,GPT-5展現(xiàn)出最強(qiáng)綜合能力,在110個(gè)算子中有65個(gè)實(shí)現(xiàn)完全正確的數(shù)值輸出。GLM-4.7在復(fù)雜算子處理上存在波動(dòng),而Qwen3-Max等模型受限于語(yǔ)義理解深度,生成成功率相對(duì)較低。這表明算子自動(dòng)生成不僅需要代碼生成能力,更考驗(yàn)?zāi)P蛯?duì)數(shù)學(xué)運(yùn)算邏輯、邊界條件處理等底層機(jī)制的理解。
性能優(yōu)化方面,通過(guò)引入模型自反思機(jī)制與專(zhuān)家知識(shí)庫(kù),KernelGen實(shí)現(xiàn)顯著突破。在英偉達(dá)平臺(tái)測(cè)試中,優(yōu)化后算子執(zhí)行正確率提升至75.5%,其中68.5%的算子獲得超過(guò)1倍的加速效果,整體性能中位數(shù)達(dá)1.04倍。這種持續(xù)進(jìn)化能力證明,算子自動(dòng)生成已突破"可用"階段,正在向"高效"方向邁進(jìn)。特別在融合外部專(zhuān)家知識(shí)后,系統(tǒng)能夠針對(duì)特定硬件特性進(jìn)行深度調(diào)優(yōu),這種人機(jī)協(xié)同模式為AI基礎(chǔ)設(shè)施發(fā)展開(kāi)辟新路徑。
當(dāng)前行業(yè)面臨的硬件碎片化挑戰(zhàn),在KernelGen方案中找到破局之道。該工具鏈通過(guò)抽象化硬件差異、自動(dòng)化生成驗(yàn)證流程,將算子開(kāi)發(fā)周期從數(shù)周壓縮至小時(shí)級(jí)。在金融、醫(yī)療等對(duì)系統(tǒng)穩(wěn)定性要求極高的領(lǐng)域,這種可驗(yàn)證的數(shù)值正確性保障具有特殊價(jià)值。隨著FlagTree編譯器支持的芯片數(shù)量持續(xù)增長(zhǎng),跨平臺(tái)算子庫(kù)的規(guī)模效應(yīng)正在顯現(xiàn),有望解決長(zhǎng)期困擾AI落地的"芯片孤島"問(wèn)題。










