在人工智能算力競(jìng)爭(zhēng)愈發(fā)白熱化的背景下,AI芯片初創(chuàng)企業(yè)Taalas推出了一項(xiàng)突破性技術(shù)——通過“硬連線”方式將AI模型直接固化在硅片中,試圖解決大模型推理延遲與成本高企的雙重難題。與傳統(tǒng)依賴高帶寬內(nèi)存(HBM)和復(fù)雜散熱系統(tǒng)的設(shè)計(jì)不同,該公司選擇專用集成電路(ASIC)路徑,開發(fā)出能將任意AI模型轉(zhuǎn)化為定制硅片的平臺(tái),核心原理是將特定大語言模型(LLM)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)直接映射至芯片電路,在DRAM級(jí)密度下完成全部計(jì)算。
這一設(shè)計(jì)從物理層面消除了數(shù)據(jù)傳輸?shù)摹皟?nèi)存墻”瓶頸。通過摒棄HBM、多層封裝及昂貴的散熱方案,Taalas的芯片在理論架構(gòu)上實(shí)現(xiàn)了計(jì)算與存儲(chǔ)的深度融合。其首款產(chǎn)品HC1專為meta的Llama 3.1 8B模型優(yōu)化,采用臺(tái)積電6nm制程工藝,芯片面積達(dá)815平方毫米,幾乎與英偉達(dá)H100相當(dāng)。盡管如此,該芯片僅能容納80億參數(shù)的模型,與當(dāng)前主流的萬億參數(shù)模型存在顯著差距,反映出硬連線技術(shù)在參數(shù)密度上的天然限制。
性能測(cè)試數(shù)據(jù)顯示,HC1在特定條件下可實(shí)現(xiàn)每秒17,000個(gè)tokens的生成速度。在EE Times的實(shí)測(cè)中,其在線聊天機(jī)器人演示達(dá)到每秒15,000+ tokens的輸出能力。公司透露,這一成績(jī)部分得益于對(duì)Llama3.1-8B模型的“激進(jìn)量化”處理。更引人注目的是成本優(yōu)勢(shì):相比現(xiàn)有高端算力方案,HC1的單位token生成成本降低至二十分之一,同時(shí)將推理速度提升10倍。
為彌補(bǔ)單芯片容量不足的問題,Taalas采用集群化擴(kuò)展策略。在針對(duì)DeepSeek R1模型的測(cè)試中,30芯片組成的集群系統(tǒng)實(shí)現(xiàn)每用戶12,000 TPS的吞吐量,遠(yuǎn)超當(dāng)前GPU集群約200 TPS/User的行業(yè)水平。這種架構(gòu)使實(shí)時(shí)交互場(chǎng)景中的延遲接近不可感知級(jí)別,特別適用于需要快速響應(yīng)的復(fù)雜推理任務(wù)。TPS(每秒Token數(shù))作為衡量模型生成效率的核心指標(biāo),其數(shù)值提升直接縮短了用戶等待時(shí)間,類似于提升打字員的輸入速度。
盡管技術(shù)參數(shù)亮眼,但Taalas的商業(yè)模式面臨特殊挑戰(zhàn)。由于模型權(quán)重被永久固化在芯片硬件中,客戶需為特定算法版本購買專用設(shè)備。這意味著一旦底層模型更新迭代,已部署的硬件可能面臨快速貶值的風(fēng)險(xiǎn)。行業(yè)分析師指出,這種“模型-芯片強(qiáng)綁定”的模式在算法進(jìn)化速度極快的AI領(lǐng)域,可能制約其長(zhǎng)期市場(chǎng)接受度。











