芯東西2月10日報道,今天,摩爾線程宣布近日開源TileLang-MUSA項目,實現對TileLang編程語言的完整支持,旨在充分釋放全功能GPU的性能潛力,大幅降低國產GPU開發門檻。
此前DeepSeek-V3大模型的研發已采用TileLang進行算子快速原型設計與性能驗證,證明了其在大規模模型訓練中的實戰價值。
TileLang_MUSA項目已在摩爾線程多代全功能GPU上完成功能驗證與特性開發,驗證了“高層語言+國產GPU”技術路線的可行性。
01.
重新定義GPU算子編程,
“零門檻”實現算子遷移
TileLang是一款基于張量分塊(Tiling)抽象的高性能AI算子編程語言,屬于領域特定語言(DSL),采用聲明式語法與類Python前端,使開發者能以接近數學公式的形式描述計算意圖,并由編譯器自動完成循環優化、內存調度與代碼生成,在保持底層性能的同時,大幅降低GPU及異構計算平臺的編程復雜度。
在實際應用中,TileLang通過高級抽象降低開發門檻,具備跨平臺能力,實現“一次編寫、多架構運行”,編譯器自動執行Layout推導、線程映射、Warp特化、流水線排布、內存優化等復雜優化,在保障性能的同時提升GPU計算的開發效率,已廣泛應用于AI與機器學習、科學計算等領域。
TileLang-MUSA項目提供了一種介于底層匯編與高層DSL之間的“中間層”抽象,
在保留硬件控制力的同時,顯著降低編程復雜度。
該項目硬件兼容性良好,已在摩爾線程多代全功能GPU上完成功能驗證與打通,包括訓推一體全功能智算卡MTT S5000和MTT S4000。
團隊還實現了TileLang高層語義到摩爾線程GPU底層MUSA架構的精準映射。
Tensor Core加速:編譯器能夠自動調用MUSA的MMA(矩陣乘累加)指令,充分發揮硬件張量核心的峰值計算能力;
Tile-Level Pipeline:自動處理從全局內存(Global Memory)到共享內存(Shared Memory)再到寄存器(Registers)的多級數據搬運,利用MUSA異步拷貝指令掩蓋訪存延遲;
Warp級并行優化:完整支持Warp Specialization特性。
目前,基于MUSA架構的TileLang原生算子單元測試覆蓋率已超過80%,為大規模應用提供了可靠保障。
在完成環境配置后,開發者可保留原有的import tilelang習慣,通過Cython編譯后端直接在MUSA環境中運行TileLang代碼。
02.
實測兼顧開發效率與運行性能,
代碼量減少約90%
在實際算子開發實踐中,TileLang-MUSA實現了讓開發者“寫得快”且“跑得快”。
以大語言模型中重要的FlashAttention-3和GEMM(通用矩陣乘)算子為例,在摩爾線程MTT S5000上的測試結果顯示:
(1)開發效率倍增:相較手寫MUSA C++代碼,使用TileLang-MUSA的代碼量減少了約90%,且代碼邏輯更加清晰,極大降低了開發與維護成本。
(2)性能媲美手寫:得益于編譯器優化,生成的算子性能在典型配置下,Gemm最高可達手寫優化版本的95%,FlashAttention-3可達手寫優化版本的85%。
(3)自動化調優:借助TileLang-MUSA的Auto-tuning機制,開發者可在MUSA架構的全功能GPU上快速搜索最優的分塊策略(Tile Size)和流水線級數,輕松超越未經深度優化的基準實現。
TileLang-MUSA的推出,使TileLang用戶能近乎零成本地將算子邏輯遷移至摩爾線程GPU,還為不熟悉MUSA指令集的AI工程師提供了高層次的開發入口,并通過支持FlashAttention等關鍵算子的高效開發,加速大語言模型等前沿AI應用在國產算力平臺上的部署與落地。
03.
結語:計劃打造基于MUSA的
深度學習統一平臺
TileLang-MUSA的開源是摩爾線程構建國產算力生態的關鍵一步,摩爾線程計劃持續推進平臺與生態建設,致力于打造一個覆蓋從單算子到完整大模型的國產算力統一加速平臺。
其計劃包括深度集成SGLang等主流AI框架,實現Transformer、MoE等復雜模型架構的跨算子調度與全局優化,完善調試和性能分析工具鏈,以及通過性能優化,開發更多MUSA架構定制擴展,使生成代碼性能穩定達到手寫優化版本的90%以上。
這將為構建一個開放、易用的國產算力開發生態提供工具支撐。











