在人工智能算力競爭愈發白熱化的背景下,AI芯片領域迎來一位創新者——初創公司Taalas。該公司近日宣布推出基于“硬連線”技術的專用芯片解決方案,通過將AI模型直接固化在硅片中,試圖破解大模型推理延遲與成本高企的行業難題。
與傳統依賴高帶寬內存(HBM)和復雜封裝的加速方案不同,Taalas選擇了一條激進的技術路線。其核心創新在于開發出可將任意AI模型轉化為定制硅片的平臺,通過“計算存儲融合”設計,將特定大語言模型(LLM)的神經網絡結構直接映射至芯片電路。這種架構在DRAM級密度下完成所有計算,從物理層面消除了數據傳輸的內存墻瓶頸,同時省去了HBM、先進封裝及散熱系統的成本。
首款產品HC1芯片專為meta的Llama 3.1 8B模型優化,采用臺積電6nm工藝制造,芯片面積達815平方毫米,與英偉達H100相當。實測數據顯示,該芯片在在線聊天場景中可實現每秒15,000個token的生成速度,內部測試條件下更接近17,000 tokens/秒。公司承認這一成績部分得益于對模型參數的激進量化處理。
這種極致速度的代價是參數密度的顯著犧牲。80億參數的模型容量與當前萬億參數的前沿模型形成鮮明對比,反映出硬連線技術在單位面積參數效率上的物理局限。但Taalas通過集群化擴展策略彌補了單芯片缺陷——在針對DeepSeek R1模型的測試中,30芯片集群實現了每用戶12,000 token/秒的吞吐量,較現有GPU方案提升約60倍。
性能突破帶來成本革命。官方數據顯示,HC1方案在保持10倍于高端算力基礎設施的token生成速度同時,將生產成本壓縮至傳統方案的二十分之一。這種顛覆性優勢源于硬連線架構對存儲和計算資源的極致優化,以及省去HBM等昂貴組件的架構設計。
然而,這項技術面臨獨特的商業挑戰。由于模型權重被永久固化在芯片中,HC1無法通過軟件更新適配新算法版本。客戶必須為特定模型版本采購專用硬件,這意味著每次AI模型迭代都可能導致既有硬件的淘汰風險。這種“模型-芯片”強綁定的模式,在快速演進的AI領域可能構成商業化障礙。
當前,Taalas正通過模塊化設計緩解這一問題。其集群方案支持不同模型芯片的混合部署,試圖在保持性能優勢的同時,延長硬件的生命周期。但如何平衡技術激進性與商業可持續性,仍將是這家成立僅2.5年的初創公司必須面對的核心課題。










