編輯:桃子 好困
在 Claude Code 30 分鐘遷移 CUDA 引發(fā)熱議的背后,眾智 FlagOS 社區(qū)已經(jīng)給出了一條更系統(tǒng)的答案:通過 KernelGen 與統(tǒng)一編譯器 FlagTree,讓算子在多種 AI 芯片上實(shí)現(xiàn)自動(dòng)生成、驗(yàn)證與優(yōu)化,真正降低跨芯片軟件遷移成本。
圍繞「CUDA 護(hù)城河是否松動(dòng)」的討論,本質(zhì)指向一個(gè)更現(xiàn)實(shí)的問題:
算子能否在不同芯片上被自動(dòng)生成、正確運(yùn)行,并具備可用性能?
算子自動(dòng)生成,已經(jīng)跑在多芯片上了
對此,眾智 FlagOS 社區(qū)在2026年1月初推出了升級(jí)版 KernelGen——一個(gè)支持多種 AI 芯片的高性能 Triton 算子生成自動(dòng)化工具,并在真實(shí)多芯片環(huán)境下完成了系統(tǒng)性評(píng)測。
從實(shí)際數(shù)據(jù)來看,KernelGen 已不再停留在概念或 Demo 階段:
生成可編譯運(yùn)行算子的成功率(生成成功率):82%
整體算子數(shù)值準(zhǔn)確性通過(執(zhí)行正確率):62%
覆蓋英偉達(dá),以及華為、摩爾、海光、天數(shù)等多款國產(chǎn) AI 芯片
這里所說的「生成成功率」,是指代碼能編譯、能運(yùn)行。但與普通代碼生成不同,算子生成對數(shù)學(xué)精度提出了更為嚴(yán)苛的要求:需要在多種輸入變化條件下,始終保持高精度、可復(fù)現(xiàn)的一致數(shù)值結(jié)果,這也正是文中所強(qiáng)調(diào)的「執(zhí)行正確率」。
如果說「生成成功率」關(guān)注的是算子是否能編譯、能運(yùn)行,那么真正的技術(shù)門檻在于是否能跑得對。在多種芯片架構(gòu)并存的場景下,這一挑戰(zhàn)被進(jìn)一步放大——當(dāng)同一份算子代碼需要同時(shí)適配華為、摩爾線程、海光、天數(shù)等架構(gòu)各異的芯片時(shí),數(shù)值精度、舍入策略、指令調(diào)度順序、緩存層級(jí)等細(xì)微差異,都可能導(dǎo)致結(jié)果偏差,甚至引發(fā)正確性失效。
一次生成、一次編譯,在多芯片平臺(tái)上實(shí)現(xiàn)數(shù)值一致、結(jié)果可驗(yàn)證,才是算子自動(dòng)生成真正需要跨越的核心門檻。
這些結(jié)果表明,算子自動(dòng)生成在多芯片環(huán)境下已經(jīng)具備可行性與工程實(shí)用價(jià)值。
實(shí)驗(yàn)與實(shí)現(xiàn)細(xì)節(jié):KernelGen是如何工作的?
實(shí)現(xiàn)原理:從「寫算子」到「生產(chǎn)算子」
KernelGen 的目標(biāo)并非輔助開發(fā)者寫代碼,而是覆蓋算子從需求到落地的完整生命周期:
輸入層:用戶可通過自然語言、數(shù)學(xué)公式或已有實(shí)現(xiàn)描述算子需求
生成層:基于大模型與智能體技術(shù),理解算子語義并自動(dòng)生成 Triton 內(nèi)核
驗(yàn)證層:自動(dòng)構(gòu)建測試用例,在目標(biāo)芯片上與 PyTorch reference 實(shí)現(xiàn)進(jìn)行嚴(yán)格的數(shù)值一致性校驗(yàn)
評(píng)估與優(yōu)化層:對生成算子進(jìn)行性能評(píng)測,量化加速比,并通過自動(dòng)化調(diào)優(yōu)持續(xù)優(yōu)化執(zhí)行效率
KernelGen 用戶在對話框里僅需輸入自然語言、數(shù)學(xué)公式或是已有實(shí)現(xiàn)表達(dá)算子開發(fā)需求
這一流程的核心目標(biāo)是:
將算子開發(fā)從「專家手工活」,轉(zhuǎn)變?yōu)榭蓮?fù)制、可擴(kuò)展的工程流程。
為什么必須與 FlagOS / FlagTree 協(xié)同?
在多芯片場景下,僅生成算子代碼并不足以解決工程問題,不同 AI 芯片在以下方面差異顯著:
并行模型與計(jì)算單元組織方式
內(nèi)存層級(jí)與訪存語義
指令集與編譯穩(wěn)定性
因此,KernelGen 從設(shè)計(jì)之初就被納入 FlagOS 生態(tài),并與統(tǒng)一 AI 編譯器 FlagTree 深度協(xié)同:
由 FlagTree 提供統(tǒng)一的硬件抽象與編譯基礎(chǔ)
將硬件差異盡可能收斂在編譯器的中間表示層
提升算子在多芯片環(huán)境下的編譯性能與正確性
這也是算子自動(dòng)生成首次具備跨芯片工程可行性的關(guān)鍵前提。
FlagTree:支撐算子自動(dòng)生成的統(tǒng)一AI編譯器底座
KernelGen 能夠在多芯片環(huán)境下實(shí)現(xiàn)算子自動(dòng)生成與驗(yàn)證,并不只是模型能力的結(jié)果,其關(guān)鍵支撐來自統(tǒng)一 AI 編譯器 FlagTree。
FlagTree 是眾智 FlagOS 社區(qū)長期推進(jìn)的統(tǒng)一編譯器項(xiàng)目。從 2025 年 3 月發(fā)布 v0.1,到 2026 年 1 月 5 日發(fā)布 v0.4,已逐步發(fā)展為面向異構(gòu) AI 計(jì)算的通用編譯基礎(chǔ)設(shè)施:
已支持 12 家廠商、近 20 款 AI 芯片,覆蓋芯片包括華為昇騰、寒武紀(jì)、沐曦、摩爾線程、海光等
支持架構(gòu)從 DSA、GPGPU,擴(kuò)展到 RISC-V AI 芯片、ARM 等多種體系
在技術(shù)設(shè)計(jì)上,F(xiàn)lagTree 主要解決兩類問題:
硬件差異隔離:通過統(tǒng)一的硬件中間表示(計(jì)算單元、內(nèi)存層次、原子操作等),將芯片差異最大程度收斂在編譯器內(nèi)部,而不是暴露給算子生成邏輯。
性能與易用性的平衡:在保留 Triton 高級(jí)語法的同時(shí),引入硬件感知優(yōu)化,避免「一套代碼跑所有芯片」帶來的性能和穩(wěn)定性問題。
在 FlagTree v0.4 中,F(xiàn)lagOS 社區(qū)進(jìn)一步引入 TLE(Triton Language Extensions),以分層方式擴(kuò)展 Triton 的跨芯片表達(dá)能力:
TLE-Lite:一次編寫,多后端運(yùn)行,適用于快速驗(yàn)證與輕量級(jí)優(yōu)化
TLE-Struct:面向算子開發(fā)者的架構(gòu)感知調(diào)優(yōu)接口
TLE-Raw:允許直接內(nèi)聯(lián) CUDA、MLIR 等廠商原生代碼,用于極致性能場景
通過 FlagTree 的編譯支撐,KernelGen 自動(dòng)生成的算子才能在不同芯片上保持較高的編譯通過率和執(zhí)行穩(wěn)定性。
性能指標(biāo)與驗(yàn)證情況:多芯片、多模型、多輪評(píng)測
不同芯片上的生成與執(zhí)行正確率(用戶真實(shí)場景)
數(shù)據(jù)表明:
華為芯片在生成成功率上表現(xiàn)最優(yōu)
英偉達(dá)芯片在執(zhí)行正確率(數(shù)值準(zhǔn)確性)上表現(xiàn)最佳
國產(chǎn)多樣化架構(gòu)下仍存在進(jìn)一步優(yōu)化空間
整體結(jié)果驗(yàn)證了 KernelGen 在降低人工開發(fā)成本、提升跨芯片適配效率方面的核心價(jià)值。
110 個(gè) Torch 算子的多芯片正確性與性能評(píng)測
為驗(yàn)證算子自動(dòng)生成在真實(shí)工程場景下的可用性,評(píng)測選取了 110 個(gè)代表性 Torch API 算子,每個(gè)算子進(jìn)行 5 輪迭代式自動(dòng)生成,并在多芯片環(huán)境下完成完整對比測試。
評(píng)測覆蓋華為、海光、天數(shù)、摩爾、Nvidia等平臺(tái),并在每個(gè)平臺(tái)上分別對比:
芯片原生 Triton 編譯器
FlagOS / FlagTree Triton 編譯器
評(píng)測重點(diǎn)關(guān)注兩項(xiàng)核心指標(biāo):
執(zhí)行正確率:是否成功編譯運(yùn)行,并在多種輸入 shape 下與 Torch reference 數(shù)值一致
執(zhí)行正確率與性能匯總(110 個(gè)算子)
主要結(jié)論
FlagTree 在多芯片平臺(tái)上整體執(zhí)行正確率更高、穩(wěn)定性更強(qiáng)
在海光、天數(shù)、摩爾及 Nvidia 等平臺(tái)上,F(xiàn)lagTree 的通過率普遍高于原生 Triton,其中 Nvidia 平臺(tái)達(dá)到 70%,為各組合中最高。
更高的「能跑通」比例,為后續(xù)性能優(yōu)化保留了更大空間
對規(guī)模化算子生成而言,執(zhí)行正確率是第一門檻,F(xiàn)lagTree 在這一維度上更具工程優(yōu)勢。
在執(zhí)行正確率方面,KernelGen 對不同數(shù)據(jù)類型設(shè)定了工業(yè)界要求的嚴(yán)格且可量化的精度約束:整型與布爾類型要求完全一致(零誤差),而浮點(diǎn)與復(fù)數(shù)類型則依據(jù)其數(shù)值表示能力設(shè)定明確的誤差上限——例如 FP16/FP8 級(jí)別控制在 1e-3,BF16 控制在 1e-2 量級(jí),F(xiàn)P32 與 Complex64 達(dá)到 1e-6 級(jí)別。通過這種按數(shù)據(jù)類型精細(xì)分級(jí)的精度標(biāo)準(zhǔn),KernelGen 在追求極致性能的同時(shí),確保算子替換與跨后端生成具備可驗(yàn)證、可復(fù)現(xiàn)的數(shù)值正確性。
注:評(píng)測基于110 個(gè)算子 × 多平臺(tái) × 雙編譯器的完整結(jié)果,算子級(jí)明細(xì)已隨 KernelGen / FlagOS 項(xiàng)目提供。
不同大模型在算子生成任務(wù)中的差異(以華為 Ascend 為例)
在算子自動(dòng)生成場景中,大模型并非只承擔(dān)「代碼補(bǔ)全」的角色,其對算子語義理解、shape 泛化以及邊界條件處理能力,都會(huì)直接影響生成算子的可執(zhí)行性與穩(wěn)定性。
在統(tǒng)一使用 FlagTree Triton 編譯器、并以華為 Ascend平臺(tái)為目標(biāo)硬件的條件下,評(píng)測對比了多種主流大模型在 110 個(gè) Torch API 算子生成任務(wù)中的表現(xiàn),重點(diǎn)統(tǒng)計(jì)其執(zhí)行正確率(數(shù)值準(zhǔn)確性通過)。
從評(píng)測結(jié)果可以看到,不同大模型在算子生成任務(wù)中的能力差異較為明顯,整體呈現(xiàn)出清晰的分層:
GPT-5 表現(xiàn)最優(yōu),在 110 個(gè)算子中有 65 個(gè)能夠成功生成 Triton 實(shí)現(xiàn)并通過多種輸入 shape 的一致性校驗(yàn),顯示出其在算子語義理解、控制流生成和邊界條件處理方面的綜合優(yōu)勢。
GLM-4.7 位于第二梯隊(duì),在部分復(fù)雜算子和 shape 泛化場景中仍存在不穩(wěn)定情況,但已具備較強(qiáng)的自動(dòng)算子生成能力。
Qwen3-Max 與 MiniMax-M2.1 在算子生成這一高約束場景下成功率相對較低,主要受限于對算子細(xì)粒度語義和底層 Triton 編程模式的理解能力。
這一結(jié)果表明,在算子自動(dòng)生成這一高度結(jié)構(gòu)化、強(qiáng)約束的任務(wù)中,模型本身的推理與結(jié)構(gòu)化生成能力,仍然是影響最終工程效果的關(guān)鍵因素之一。
專家知識(shí)注入與算子性能進(jìn)化(英偉達(dá))
在引入模型自反思與外部專家知識(shí)后,KernelGen 的算子性能持續(xù)提升:
算子執(zhí)行正確率最高可達(dá) 75.5%
74.2% 算子加速比 >0.8
68.5% 算子加速比 >1.0
加速比中位數(shù) 1.04x,平均 1.07x
Baseline 為基于智能體自反思的迭代方法;IterOpt為面向優(yōu)化目標(biāo)的反思迭代方法;v1_KNWL在優(yōu)化迭代中引入模型軌跡總結(jié)知識(shí);v2_KNWL與v3_KNWL分別在不同輪次進(jìn)一步融合外部專家種子知識(shí)
這表明,算子自動(dòng)生成已從「能跑」邁向「能用、可優(yōu)化」。
總結(jié)
Claude Code 的 30 分鐘遷移案例,讓行業(yè)看到了 AI 正在改變「寫代碼」的方式。
而 KernelGen 與 FlagOS 所展示的,是另一層更工程化的進(jìn)展:
在硬件高度碎片化的時(shí)代,通過算子自動(dòng)生成、統(tǒng)一編譯器與跨芯片生態(tài)協(xié)同,讓算子開發(fā)不再成為AI系統(tǒng)落地的核心瓶頸。
這不是一次演示的勝負(fù),而是一條正在被驗(yàn)證、并持續(xù)演進(jìn)的系統(tǒng)軟件路線。









