亞馬遜AWS與晶圓級AI芯片企業Cerebras近日達成重要合作,雙方宣布將在未來數月內于Amazon Bedrock平臺部署一套創新的混合AI推理系統。該系統通過整合雙方芯片技術優勢,旨在實現前所未有的負載處理速度,為AI應用提供更高效的算力支持。
這一解決方案的核心在于將Cerebras的CS-3系統與亞馬遜AWS的Trainium芯片深度結合,并輔以EFA彈性網絡適配器實現高效互聯。具體分工上,Trainium芯片負責處理推理過程中的預填充階段(即提示處理),而CS-3系統則專注于解碼階段(輸出生成任務)。這種分工模式充分利用了兩種芯片的架構特性——Trainium在并行計算和內存帶寬間的平衡優勢,與CS-3在串行任務處理中的高帶寬特性形成互補。
技術層面,推理預填充階段需要處理大規模并行計算任務,對算力需求極高但內存帶寬要求相對適中;而解碼階段作為串行流程,雖然算力需求較低,卻對內存帶寬極為敏感。通過EFA網絡適配器構建的高速連接通道,兩種芯片得以無縫協作,既避免了資源浪費,又確保了每個環節都能以最優效率運行。這種異構計算架構的設計,為AI推理任務提供了全新的性能優化路徑。
據行業分析,這種軟硬協同的創新模式有望突破傳統單一芯片架構的性能瓶頸。特別是在處理復雜AI模型時,混合系統能夠動態調配計算資源,使預填充階段的快速響應與解碼階段的高精度輸出形成完美配合。隨著生成式AI等應用場景對實時性要求的不斷提升,此類異構計算方案或將引發行業技術路線的重新思考。










