滾動(dòng)資訊

現(xiàn)貨白銀站上80美元02-20

當(dāng)前位置：首頁 > 資訊 > 業(yè)界動(dòng)態(tài) > 正文內(nèi)容

AI暴力直出82%算子，開發(fā)徹底告別手搓時(shí)代

時(shí)間：2026-02-06 16:08:28 來源：新智元編輯：快訊 IP：北京 發(fā)表評(píng)論無障礙通道

編輯：桃子好困

在 Claude Code 30 分鐘遷移 CUDA 引發(fā)熱議的背后，眾智 FlagOS 社區(qū)已經(jīng)給出了一條更系統(tǒng)的答案：通過 KernelGen 與統(tǒng)一編譯器 FlagTree，讓算子在多種 AI 芯片上實(shí)現(xiàn)自動(dòng)生成、驗(yàn)證與優(yōu)化，真正降低跨芯片軟件遷移成本。

圍繞「CUDA 護(hù)城河是否松動(dòng)」的討論，本質(zhì)指向一個(gè)更現(xiàn)實(shí)的問題：

算子能否在不同芯片上被自動(dòng)生成、正確運(yùn)行，并具備可用性能？

算子自動(dòng)生成，已經(jīng)跑在多芯片上了

對此，眾智 FlagOS 社區(qū)在2026年1月初推出了升級(jí)版 KernelGen——一個(gè)支持多種 AI 芯片的高性能 Triton 算子生成自動(dòng)化工具，并在真實(shí)多芯片環(huán)境下完成了系統(tǒng)性評(píng)測。

從實(shí)際數(shù)據(jù)來看，KernelGen 已不再停留在概念或 Demo 階段：

生成可編譯運(yùn)行算子的成功率(生成成功率）：82%

整體算子數(shù)值準(zhǔn)確性通過（執(zhí)行正確率）：62%

覆蓋英偉達(dá)，以及華為、摩爾、海光、天數(shù)等多款國產(chǎn) AI 芯片

這里所說的「生成成功率」，是指代碼能編譯、能運(yùn)行。但與普通代碼生成不同，算子生成對數(shù)學(xué)精度提出了更為嚴(yán)苛的要求：需要在多種輸入變化條件下，始終保持高精度、可復(fù)現(xiàn)的一致數(shù)值結(jié)果，這也正是文中所強(qiáng)調(diào)的「執(zhí)行正確率」。

如果說「生成成功率」關(guān)注的是算子是否能編譯、能運(yùn)行，那么真正的技術(shù)門檻在于是否能跑得對。在多種芯片架構(gòu)并存的場景下，這一挑戰(zhàn)被進(jìn)一步放大——當(dāng)同一份算子代碼需要同時(shí)適配華為、摩爾線程、海光、天數(shù)等架構(gòu)各異的芯片時(shí)，數(shù)值精度、舍入策略、指令調(diào)度順序、緩存層級(jí)等細(xì)微差異，都可能導(dǎo)致結(jié)果偏差，甚至引發(fā)正確性失效。

一次生成、一次編譯，在多芯片平臺(tái)上實(shí)現(xiàn)數(shù)值一致、結(jié)果可驗(yàn)證，才是算子自動(dòng)生成真正需要跨越的核心門檻。

這些結(jié)果表明，算子自動(dòng)生成在多芯片環(huán)境下已經(jīng)具備可行性與工程實(shí)用價(jià)值。

實(shí)驗(yàn)與實(shí)現(xiàn)細(xì)節(jié)：KernelGen是如何工作的？

實(shí)現(xiàn)原理：從「寫算子」到「生產(chǎn)算子」

KernelGen 的目標(biāo)并非輔助開發(fā)者寫代碼，而是覆蓋算子從需求到落地的完整生命周期：

輸入層：用戶可通過自然語言、數(shù)學(xué)公式或已有實(shí)現(xiàn)描述算子需求

生成層：基于大模型與智能體技術(shù)，理解算子語義并自動(dòng)生成 Triton 內(nèi)核

驗(yàn)證層：自動(dòng)構(gòu)建測試用例，在目標(biāo)芯片上與 PyTorch reference 實(shí)現(xiàn)進(jìn)行嚴(yán)格的數(shù)值一致性校驗(yàn)

評(píng)估與優(yōu)化層：對生成算子進(jìn)行性能評(píng)測，量化加速比，并通過自動(dòng)化調(diào)優(yōu)持續(xù)優(yōu)化執(zhí)行效率

KernelGen 用戶在對話框里僅需輸入自然語言、數(shù)學(xué)公式或是已有實(shí)現(xiàn)表達(dá)算子開發(fā)需求

這一流程的核心目標(biāo)是：

將算子開發(fā)從「專家手工活」，轉(zhuǎn)變?yōu)榭蓮?fù)制、可擴(kuò)展的工程流程。

為什么必須與 FlagOS / FlagTree 協(xié)同？

在多芯片場景下，僅生成算子代碼并不足以解決工程問題，不同 AI 芯片在以下方面差異顯著：

并行模型與計(jì)算單元組織方式

內(nèi)存層級(jí)與訪存語義

指令集與編譯穩(wěn)定性

因此，KernelGen 從設(shè)計(jì)之初就被納入 FlagOS 生態(tài)，并與統(tǒng)一 AI 編譯器 FlagTree 深度協(xié)同：

由 FlagTree 提供統(tǒng)一的硬件抽象與編譯基礎(chǔ)

將硬件差異盡可能收斂在編譯器的中間表示層

提升算子在多芯片環(huán)境下的編譯性能與正確性

這也是算子自動(dòng)生成首次具備跨芯片工程可行性的關(guān)鍵前提。

FlagTree：支撐算子自動(dòng)生成的統(tǒng)一AI編譯器底座

KernelGen 能夠在多芯片環(huán)境下實(shí)現(xiàn)算子自動(dòng)生成與驗(yàn)證，并不只是模型能力的結(jié)果，其關(guān)鍵支撐來自統(tǒng)一 AI 編譯器 FlagTree。

FlagTree 是眾智 FlagOS 社區(qū)長期推進(jìn)的統(tǒng)一編譯器項(xiàng)目。從 2025 年 3 月發(fā)布 v0.1，到 2026 年 1 月 5 日發(fā)布 v0.4，已逐步發(fā)展為面向異構(gòu) AI 計(jì)算的通用編譯基礎(chǔ)設(shè)施：

已支持 12 家廠商、近 20 款 AI 芯片，覆蓋芯片包括華為昇騰、寒武紀(jì)、沐曦、摩爾線程、海光等

支持架構(gòu)從 DSA、GPGPU，擴(kuò)展到 RISC-V AI 芯片、ARM 等多種體系

在技術(shù)設(shè)計(jì)上，F(xiàn)lagTree 主要解決兩類問題：

硬件差異隔離：通過統(tǒng)一的硬件中間表示（計(jì)算單元、內(nèi)存層次、原子操作等），將芯片差異最大程度收斂在編譯器內(nèi)部，而不是暴露給算子生成邏輯。

性能與易用性的平衡：在保留 Triton 高級(jí)語法的同時(shí)，引入硬件感知優(yōu)化，避免「一套代碼跑所有芯片」帶來的性能和穩(wěn)定性問題。

在 FlagTree v0.4 中，F(xiàn)lagOS 社區(qū)進(jìn)一步引入 TLE（Triton Language Extensions），以分層方式擴(kuò)展 Triton 的跨芯片表達(dá)能力：

TLE-Lite：一次編寫，多后端運(yùn)行，適用于快速驗(yàn)證與輕量級(jí)優(yōu)化

TLE-Struct：面向算子開發(fā)者的架構(gòu)感知調(diào)優(yōu)接口

TLE-Raw：允許直接內(nèi)聯(lián) CUDA、MLIR 等廠商原生代碼，用于極致性能場景

通過 FlagTree 的編譯支撐，KernelGen 自動(dòng)生成的算子才能在不同芯片上保持較高的編譯通過率和執(zhí)行穩(wěn)定性。

性能指標(biāo)與驗(yàn)證情況：多芯片、多模型、多輪評(píng)測

不同芯片上的生成與執(zhí)行正確率（用戶真實(shí)場景）

數(shù)據(jù)表明：

華為芯片在生成成功率上表現(xiàn)最優(yōu)

英偉達(dá)芯片在執(zhí)行正確率（數(shù)值準(zhǔn)確性）上表現(xiàn)最佳

國產(chǎn)多樣化架構(gòu)下仍存在進(jìn)一步優(yōu)化空間

整體結(jié)果驗(yàn)證了 KernelGen 在降低人工開發(fā)成本、提升跨芯片適配效率方面的核心價(jià)值。

110 個(gè) Torch 算子的多芯片正確性與性能評(píng)測

為驗(yàn)證算子自動(dòng)生成在真實(shí)工程場景下的可用性，評(píng)測選取了 110 個(gè)代表性 Torch API 算子，每個(gè)算子進(jìn)行 5 輪迭代式自動(dòng)生成，并在多芯片環(huán)境下完成完整對比測試。

評(píng)測覆蓋華為、海光、天數(shù)、摩爾、Nvidia等平臺(tái)，并在每個(gè)平臺(tái)上分別對比：

芯片原生 Triton 編譯器

FlagOS / FlagTree Triton 編譯器

評(píng)測重點(diǎn)關(guān)注兩項(xiàng)核心指標(biāo)：

執(zhí)行正確率：是否成功編譯運(yùn)行，并在多種輸入 shape 下與 Torch reference 數(shù)值一致

執(zhí)行正確率與性能匯總（110 個(gè)算子）

主要結(jié)論

FlagTree 在多芯片平臺(tái)上整體執(zhí)行正確率更高、穩(wěn)定性更強(qiáng)

在海光、天數(shù)、摩爾及 Nvidia 等平臺(tái)上，F(xiàn)lagTree 的通過率普遍高于原生 Triton，其中 Nvidia 平臺(tái)達(dá)到 70%，為各組合中最高。

更高的「能跑通」比例，為后續(xù)性能優(yōu)化保留了更大空間

對規(guī)模化算子生成而言，執(zhí)行正確率是第一門檻，F(xiàn)lagTree 在這一維度上更具工程優(yōu)勢。

在執(zhí)行正確率方面，KernelGen 對不同數(shù)據(jù)類型設(shè)定了工業(yè)界要求的嚴(yán)格且可量化的精度約束：整型與布爾類型要求完全一致（零誤差），而浮點(diǎn)與復(fù)數(shù)類型則依據(jù)其數(shù)值表示能力設(shè)定明確的誤差上限——例如 FP16/FP8 級(jí)別控制在 1e-3，BF16 控制在 1e-2 量級(jí)，F(xiàn)P32 與 Complex64 達(dá)到 1e-6 級(jí)別。通過這種按數(shù)據(jù)類型精細(xì)分級(jí)的精度標(biāo)準(zhǔn)，KernelGen 在追求極致性能的同時(shí)，確保算子替換與跨后端生成具備可驗(yàn)證、可復(fù)現(xiàn)的數(shù)值正確性。

注：評(píng)測基于110 個(gè)算子 × 多平臺(tái) × 雙編譯器的完整結(jié)果，算子級(jí)明細(xì)已隨 KernelGen / FlagOS 項(xiàng)目提供。

不同大模型在算子生成任務(wù)中的差異（以華為 Ascend 為例）

在算子自動(dòng)生成場景中，大模型并非只承擔(dān)「代碼補(bǔ)全」的角色，其對算子語義理解、shape 泛化以及邊界條件處理能力，都會(huì)直接影響生成算子的可執(zhí)行性與穩(wěn)定性。

在統(tǒng)一使用 FlagTree Triton 編譯器、并以華為 Ascend平臺(tái)為目標(biāo)硬件的條件下，評(píng)測對比了多種主流大模型在 110 個(gè) Torch API 算子生成任務(wù)中的表現(xiàn)，重點(diǎn)統(tǒng)計(jì)其執(zhí)行正確率（數(shù)值準(zhǔn)確性通過）。

從評(píng)測結(jié)果可以看到，不同大模型在算子生成任務(wù)中的能力差異較為明顯，整體呈現(xiàn)出清晰的分層：

GPT-5 表現(xiàn)最優(yōu)，在 110 個(gè)算子中有 65 個(gè)能夠成功生成 Triton 實(shí)現(xiàn)并通過多種輸入 shape 的一致性校驗(yàn)，顯示出其在算子語義理解、控制流生成和邊界條件處理方面的綜合優(yōu)勢。

GLM-4.7 位于第二梯隊(duì)，在部分復(fù)雜算子和 shape 泛化場景中仍存在不穩(wěn)定情況，但已具備較強(qiáng)的自動(dòng)算子生成能力。

Qwen3-Max 與 MiniMax-M2.1 在算子生成這一高約束場景下成功率相對較低，主要受限于對算子細(xì)粒度語義和底層 Triton 編程模式的理解能力。

這一結(jié)果表明，在算子自動(dòng)生成這一高度結(jié)構(gòu)化、強(qiáng)約束的任務(wù)中，模型本身的推理與結(jié)構(gòu)化生成能力，仍然是影響最終工程效果的關(guān)鍵因素之一。

專家知識(shí)注入與算子性能進(jìn)化（英偉達(dá)）

在引入模型自反思與外部專家知識(shí)后，KernelGen 的算子性能持續(xù)提升：

算子執(zhí)行正確率最高可達(dá) 75.5%

74.2% 算子加速比 >0.8

68.5% 算子加速比 >1.0

加速比中位數(shù) 1.04x，平均 1.07x

Baseline 為基于智能體自反思的迭代方法；IterOpt為面向優(yōu)化目標(biāo)的反思迭代方法；v1_KNWL在優(yōu)化迭代中引入模型軌跡總結(jié)知識(shí)；v2_KNWL與v3_KNWL分別在不同輪次進(jìn)一步融合外部專家種子知識(shí)

這表明，算子自動(dòng)生成已從「能跑」邁向「能用、可優(yōu)化」。

總結(jié)

Claude Code 的 30 分鐘遷移案例，讓行業(yè)看到了 AI 正在改變「寫代碼」的方式。

而 KernelGen 與 FlagOS 所展示的，是另一層更工程化的進(jìn)展：

在硬件高度碎片化的時(shí)代，通過算子自動(dòng)生成、統(tǒng)一編譯器與跨芯片生態(tài)協(xié)同，讓算子開發(fā)不再成為AI系統(tǒng)落地的核心瓶頸。

這不是一次演示的勝負(fù)，而是一條正在被驗(yàn)證、并持續(xù)演進(jìn)的系統(tǒng)軟件路線。

春晚播出后，抖音電商機(jī)器人相關(guān)主動(dòng)搜索量飆升至單日4萬次，宇樹科技、魔法原子、銀河通用、松延動(dòng)力等品牌相繼在抖音官方旗艦店上線宇樹科技G1EDU U2進(jìn)階版、魔法原子機(jī)器熊貓、松延動(dòng)力小布米、銀河通用 G…

02-20

從愛多興衰看合作之道：學(xué)任正非“合作共贏”，借強(qiáng)者之力謀發(fā)展

但很多老板不是這樣的思路和境界，他們不怎么愿意跟強(qiáng)者合作，比如我聽某老板說自己不喜歡別人的態(tài)度，他覺得對方不尊重自己，這更多是面子觀吧。任正非創(chuàng)業(yè)初期可謂無資本無背景無技術(shù)，但他就是能夠把人才團(tuán)結(jié)起來，在…

02-20

春晚機(jī)器人“組團(tuán)”引爆消費(fèi)熱潮，抖音電商助力科技好物走進(jìn)千家萬戶

春晚播出后，抖音電商機(jī)器人相關(guān)主動(dòng)搜索量飆升至單日4萬次，宇樹科技、魔法原子、銀河通用、松延動(dòng)力等品牌相繼在抖音官方旗艦店上線宇樹科技G1EDU U2進(jìn)階版、魔法原子機(jī)器熊貓、松延動(dòng)力小布米、銀河通用 G…

02-20

中東智能手機(jī)市場格局生變：榮耀飆升小米承壓，2026年或迎新挑戰(zhàn)

這一季度榮耀已經(jīng)沖到第三的位置，出貨量為190萬臺(tái)，市場份額為13%，同比暴增94%，按這個(gè)增長速度榮耀很快就能超越蘋果，成為該市場排名第二的品牌，但距離三星還有差距。從這個(gè)排名以及出貨量可以看出，榮耀正是超…

02-20

特斯拉Cybercab量產(chǎn)下線：無方向盤踏板設(shè)計(jì)，或顛覆全球出行與就業(yè)格局

老鐵們，能讓一個(gè)從業(yè)十幾年的老車評(píng)人瞬間懵住的，就是這臺(tái)2月18日剛剛下線的特斯拉Cybercab。第一輛量產(chǎn)車已經(jīng)在德州超級(jí)工廠下線，比馬斯克之前承諾的4月還提前了一個(gè)多月。成本控制在2.5萬到3萬美元之間…

02-20

1039交通廣播合作機(jī)構(gòu)怎么選？從資源到服務(wù)，這份實(shí)力指南助你精準(zhǔn)決策

選擇1039交通廣播合作機(jī)構(gòu)時(shí)，需重點(diǎn)考量以下因素：1.資源獨(dú)占性：黃金時(shí)段廣告位是否為**代理，避免因資源重疊導(dǎo)致宣傳效果稀釋；2.執(zhí)行精準(zhǔn)度：排期系統(tǒng)是否支持秒級(jí)誤差控制，歷史項(xiàng)目投訴率是否低于行業(yè)平均水…

02-20

谷歌Gemini3.1Pro登場：推理性能飛躍，多渠道助力各領(lǐng)域用戶嘗鮮

02-20

王騰跨界睡眠健康賽道首次公開用iPhone 17稱其適配睡眠監(jiān)測設(shè)備更好

02-20

2027款梅賽德斯-AMG CLE敞篷改款路測，V8引擎回歸或超600馬力

02-20

特斯拉FSD里程達(dá)128億公里，數(shù)據(jù)驗(yàn)證安全性助力自動(dòng)駕駛升級(jí)

02-20

25萬級(jí)純電SUV新王登基，小米YU7靠硬實(shí)力與模式創(chuàng)新碾壓燃油車

02-20

小米YU7交付量破20萬大關(guān)，超越特斯拉成新能源車市場新標(biāo)桿

02-20

蘋果2026硬件盛宴：三款創(chuàng)新產(chǎn)品領(lǐng)航，兩款入門機(jī)型拓疆

02-20

谷歌再掀AI浪潮：Gemini 3.1 Pro登場，姚順宇預(yù)告后續(xù)驚喜不斷

02-20

從游戲突圍到電商新局：AppLovin的1000天逆襲與AI浪潮下的突圍戰(zhàn)

02-20

點(diǎn)擊查看更多 +

全站最新

特斯拉Cybercab量產(chǎn)下線：無方向盤踏板設(shè)計(jì)，或顛覆全球出行與就業(yè)格局

1039交通廣播合作機(jī)構(gòu)怎么選？從資源到服務(wù)，這份實(shí)力指南助你精準(zhǔn)決策

瑞士Sportec匠心打造 Ferdinand S：讓經(jīng)典保時(shí)捷964煥發(fā)新生機(jī)

路虎極光L五折清倉：豪華車市場轉(zhuǎn)型陣痛下，消費(fèi)者該如何抉擇？

春節(jié)租新能源車返鄉(xiāng)：6天花2900元，靈活自由還體驗(yàn)智能駕駛新樂趣

2027款梅賽德斯-AMG CLE敞篷改款路測，V8引擎回歸或超600馬力

熱門內(nèi)容

本欄最新

特斯拉Cybercab量產(chǎn)下線：無方向盤踏板設(shè)計(jì)，或顛覆全球出行與就業(yè)格局

1039交通廣播合作機(jī)構(gòu)怎么選？從資源到服務(wù)，這份實(shí)力指南助你精準(zhǔn)決策

2027款梅賽德斯-AMG CLE敞篷改款路測，V8引擎回歸或超600馬力

25萬級(jí)純電SUV新王登基，小米YU7靠硬實(shí)力與模式創(chuàng)新碾壓燃油車

2027款梅賽德斯-AMG CLE敞篷改款路測現(xiàn)身 V8引擎回歸動(dòng)力或超600馬力

從愛多興衰看合作之道：學(xué)任正非“合作共贏”，借強(qiáng)者之力謀企業(yè)發(fā)展

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護(hù)，版權(quán)登記號(hào)：魯作登字-2015-F-025467，未經(jīng)ITBEAR比爾科技官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術(shù)由太陽灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請通知我們及時(shí)刪除。
中國（山東）自由貿(mào)易試驗(yàn)區(qū) 魯ICP備11015305號(hào)-1 聯(lián)系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

AI暴力直出82%算子，開發(fā)徹底告別手搓時(shí)代