一款名為HC1的AI推理芯片近日在硅谷引發廣泛關注。這款由初創公司Taalas研發的芯片,憑借每秒17000個token的峰值推理速度,成為當前AI芯片領域的現象級產品。與傳統方案相比,HC1不僅將推理速度提升10倍,更將成本壓縮至二十分之一,功耗降低至十分之一,為LLM(大語言模型)的實時應用開辟了新可能。
HC1的核心突破在于其“芯片即模型”的架構設計。與傳統將模型加載至內存的方式不同,Taalas團隊直接將Llama 3.1 8B模型固化在硅片上,通過掩模ROM技術實現模型與硬件的深度融合。這種設計雖犧牲了部分靈活性,卻換來了極致的能效比——單顆芯片典型功耗僅250W,10顆芯片組成的服務器集群總功耗也不過2.5kW,可直接采用常規空氣冷卻方案部署。
性能對比數據凸顯了HC1的顛覆性。在相同模型測試中,Cerebras的推理速度為2000 token/s,SambaNova約為900 token/s,Groq為600 token/s,而英偉達Blackwell架構的B200僅350 token/s。HC1的17000 token/s表現,相當于將行業標桿性能提升了數個數量級。這種優勢源于其結構化ASIC設計理念:通過固定底層電路、僅調整兩層掩模的方式,將芯片開發周期從傳統6個月縮短至2個月,同時保持設計成本可控。
技術實現層面,HC1采用臺積電N6工藝,芯片面積815mm2,支持開源生態。其創新性的存儲架構包含可編程SRAM區域,用于保存微調權重(如LoRA)和KV緩存,而模型主體則通過掩模ROM固化執行。為彌補量化帶來的精度損失,研究團隊開發了LaRA適配器進行重新訓練,并配置可調上下文窗口,在靈活性與性能間取得平衡。這種“硬連線”設計雖面臨模型迭代風險,卻為特定場景提供了前所未有的效率優勢。
Taalas的野心不止于單芯片突破。針對DeepSeekR1-671B等超大模型,團隊提出了多芯片協同方案:將SRAM部分拆分至獨立芯片,使單片HC1的存儲密度提升至約20位參數。30顆定制芯片組成的集群可實現每用戶每秒12000 token的處理速度,且成本不到同等GPU方案的50%。即使考慮HC1每年更新的假設,其四年總成本仍優于GPU的四年更新周期。
這家成立僅兩年的公司,擁有堪稱“AMD夢之隊”的創始陣容。聯合創始人Ljubi?a Baji?曾任AMD集成電路設計總監,主導過高性能GPU研發;Leila Baji?擁有AMD、ATI、Altera的跨平臺技術管理經驗;Drago Ignjatovi?則是AMD前ASIC設計總監。三位技術領袖的深厚積淀,使Taalas在創立初期即獲得2億美元融資,目前團隊規模僅24人,產品研發投入僅3000萬美元。
市場對HC1的評價呈現兩極分化。支持者認為其亞毫秒級延遲將推動具身智能、實時交互等前沿領域發展;批評者則指出硬編碼架構可能加速芯片過時,尤其在模型迭代速度日益加快的背景下。這種爭議恰恰反映了AI芯片設計的核心矛盾:通用性與專用性的永恒博弈。Taalas的選擇,無疑為行業提供了一條激進卻值得深思的新路徑。









