一家名為Taalas的芯片初創企業近日引發行業關注,其推出的首款推理芯片HC1通過將大語言模型直接“固化”至硅片,在性能與能效比上實現突破性進展。據測試數據,該芯片在單用戶場景下輸出速度可達每秒1.7萬tokens,是當前市場最快競品Cerebras的9倍,較英偉達Blackwell架構GPU快近50倍,同時構建成本僅為GPU方案的二十分之一,功耗降低一個數量級。
這款芯片的顛覆性設計源于對傳統架構的徹底重構。HC1采用掩模只讀存儲器(Mask ROM)工藝,將meta Llama 3.1 8B模型的權重參數直接編碼在芯片金屬互連層,與計算邏輯單元共存于同一硅片。這種存算合一架構完全摒棄了外部DRAM或HBM,僅保留小容量SRAM用于存儲鍵值緩存和低秩適配微調權重。通過極端簡化設計,芯片面積控制在815平方毫米,單顆即可承載完整模型參數。
技術實現路徑上,Taalas借鑒了結構化專用集成電路(ASIC)的定制化思路,但將專用化程度推向新高度。每次為新模型定制芯片時,僅需更換兩層掩模即可完成模型權重編碼與數據流路徑調整。公司宣稱從模型交付到生成寄存器傳輸級(RTL)設計僅需一周工程時間,完整流片周期可壓縮至兩個月。這種敏捷開發模式使得當特定模型在生產環境中驗證有效且具備長期運行價值時,能快速為其定制專用芯片。
在針對DeepSeek R1 671B大模型的模擬測試中,30顆HC1芯片組成的系統展現出顯著優勢。該系統通過MXFP4量化格式與SRAM分離設計,實現每秒1.2萬tokens/用戶的輸出速度,推理成本降至每百萬tokens 7.6美分,不足GPU優化方案的半數。不過公司承認,當前3比特基礎數據類型的激進量化策略會導致模型質量基準測試出現退化,第二代HC2平臺將改用4比特浮點格式以改善性能。
這種將特定模型“硬編碼”進芯片的設計面臨顯著風險。AI領域模型迭代速度迅猛,若芯片壽命周期內所綁定的模型被新技術淘汰,將造成巨大投資損失。公司管理層認為,隨著行業成熟,部分關鍵業務場景中的模型會保持長期穩定性,這類客戶對特定模型具有持續一年以上的使用承諾。目前團隊正探索三種商業模式:自建推理服務基礎設施、直接銷售芯片,或與模型開發者合作定制專用硬件。
技術細節方面,HC1通過創新電路設計實現單個晶體管同時存儲4比特參數并完成乘法運算,在全數字計算路徑中達成高效存內計算。這種架構帶來的副產品是軟件棧的極端簡化——公司僅需一名工程師維護基礎軟件系統,與傳統GPU推理中復雜的vLLM、TensorRT-LLM等優化層形成鮮明對比。不過這種簡化完全依賴于硬件專用化,不具備通用性擴展能力。
行業觀察人士指出,Taalas的方案觸及了被主流路線忽視的設計空間。當前GPU架構的計算單元與存儲單元分離導致的“帶寬墻”問題,是推理硬件的核心瓶頸。HC1通過將模型權重與計算邏輯同層集成,從根本上消除了數據搬運開銷。但顛覆現有技術生態面臨巨大挑戰,英偉達GPU的統治地位不僅源于硬件性能,更依托完整的CUDA軟件生態、開發工具鏈和龐大工程師社區。Taalas的專用芯片或許能在特定場景展現優勢,但要成為主流替代方案仍需突破多重壁壘。
公司創始人Ljubisa Bajic曾是Tenstorrent聯合創始人,在創立Taalas后選擇與過往可編程AI加速器路線背道而馳。目前團隊規模約25人,首款產品開發成本約3000萬美元,累計融資超2億美元。其產品副總裁Paresh Kharya強調,這種“模型最優硅片”不會取代大型GPU數據中心,而是為特定應用提供補充方案。在AI基礎設施演進路徑上,這場專用化與通用化的技術博弈仍在持續。







