一家名為Taalas的加拿大芯片初創公司,憑借其宣稱顛覆英偉達的技術路線,在人工智能領域引發了廣泛關注。這家成立于2023年的公司,于近期推出了首款專為AI推理優化的芯片HC1,聲稱在特定場景下性能遠超傳統GPU方案,甚至可能重塑AI芯片市場格局。
HC1芯片的核心突破在于其“模型即芯片”的設計理念。與傳統ASIC(專用集成電路)仍需通過軟件編譯將模型轉化為芯片指令不同,Taalas直接將特定大模型“刻”入芯片硬件,通過EDA(電子設計自動化)流程將模型轉化為定制電路。這種設計使得數據無需在內存和計算單元間頻繁移動,理論上可消除“內存墻”瓶頸,顯著提升推理速度并降低功耗。據公司披露,采用30芯片集群時,HC1在運行meta開源大模型Llama 3.1 8B時,推理速度可達每秒12000 tokens,能效較傳統GPU方案提升50倍,峰值速度更接近17000 tokens/秒,構建成本和功耗分別降至傳統方案的1/20和1/10。
Taalas的技術路線與其創始人柳比沙·巴伊奇(Ljubi?a Baji?)的背景密切相關。這位曾在AMD擔任架構師的業界資深人士,此前創立了AI芯片獨角獸Tenstorrent,并主導過開源RISC-V架構的軟硬件協同設計。2022年后,巴伊奇聯合妻子萊拉·巴伊奇(前AMD系統工程高級經理)及ASIC設計專家德拉貢·伊格納托維奇(Drago Ignjatovic),組建了Taalas的核心團隊,成員多來自AMD、蘋果、谷歌等科技巨頭。公司成立僅一年便完成5000萬美元首輪融資,截至目前已累計融資超2億美元,資本市場的青睞為其技術探索提供了充足彈藥。
HC1的商業化路徑清晰而激進:客戶提交模型后,Taalas在一周內完成電路設計,再通過臺積電代工在兩個月內交付定制芯片。這種“模型-芯片”強綁定的模式,在測試中展現出驚人性能。公司宣稱,HC1在Llama 3.1 8B上的推理速度是英偉達H200的48倍、B200的34倍,甚至超越了估值230億美元的ASIC明星企業Cerebras的同類產品。實測演示中,大模型對用戶問題的響應速度達到“秒回”級別,引發業界對AI交互體驗變革的想象。
然而,HC1的“極致優化”也伴隨顯著爭議。質疑者指出,其測試數據可能基于特定場景的優化,實際通用性存疑。有芯片愛好者分析,HC1或通過預置答案實現“速度秒殺”,但面對動態問題時可能表現不佳。更關鍵的是,大模型迭代速度遠超芯片交付周期——當前頂尖模型的優勢窗口僅月余,而Taalas的定制芯片需至少兩個月生產,可能導致“芯片未量產,模型已過時”的困境。HC1的“只讀”模式限制了模型更新能力,若底層大模型架構發生變革,現有芯片可能面臨徹底淘汰的風險。
盡管如此,Taalas的技術方向仍獲得部分專家認可。中國科學院計算技術研究所副研究員趙永威認為,其“硬連線”模式代表未來芯片發展趨勢,盡管當前應用價值有限,但為后續研究提供了重要參考。科技記者蒂莫西·普里克特·摩根(Timothy Prickett Morgan)則指出,Taalas的芯片更新成本相對模型訓練成本微不足道,若主要模型發布間隔延長,其技術或迎來更廣闊市場。低延遲、低功耗的特性也使其在邊緣計算場景(如機器人、自動駕駛、高端手機)中具備潛力,這些領域對定制化模型的需求與HC1的設計理念高度契合。
面對爭議,Taalas已規劃技術迭代路線。公司宣布將于今年冬季推出第二代HC2芯片,承諾進一步提升執行速度和性能。同時,巴伊奇透露正在開發適用于中等規模推理模型的產品,試圖拓展技術適用范圍。然而,要真正挑戰英偉達的霸主地位,Taalas不僅需證明其技術在大規模模型中的可行性,還需構建類似CUDA的開發者生態——這或許是比芯片性能更艱巨的長期挑戰。









