3月20日消息,近期OpenClaw(昵稱:龍蝦)的火爆讓人們切身感受到AI能力的無限潛力。但是,當全球企業爭相將人工智能融入業務核心時,一個根本性的挑戰日益凸顯:AI 推理的“最后一公里”正在成為性能瓶頸。大型語言模型和多模態應用需要的是瞬時響應,但往返于中心化數據中心的延遲,卻讓實時交互的體驗大打折扣。
在去年10月Akamai 推出Akamai Inference Cloud (AI推理云),將推理能力從核心數據中心擴展至互聯網邊緣端后,近期Akamai 最新發布了 AI Grid 智能編排,通過將 NVIDIA 算力融入其全球4400個邊緣站點,從而解決AI 推理的“最后一公里”問題。
Akamai正在構建一個從集中式“AI 工廠”向分布式“AI 公共設施”演進的藍圖。
邊緣即核心:解決延遲的物理法則
傳統的 AI 架構遵循“訓練集中、推理集中”的模式,這對于需要極低延遲的應用場景而言,存在物理上的局限。無論是物理 AI如自動駕駛、機器人、實時視頻處理,還是高并發的個性化推薦,數據從產生到傳輸至中心節點再返回的往返時間,往往超過了應用本身可容忍的閾值。
市場研究機構的預測揭示了這一趨勢的緊迫性:Gartner指出,到2028年,全球AI推理所消耗的算力預計將達到模型訓練的3倍。IDC的預測明確指出,到2028年,50%的企業將把推理類用例部署在邊緣側,以驅動新增收入、改善客戶體驗和優化內部流程。
Akamai 的優勢在于其長達數十年的分布式架構積累。其 AI Grid 的核心邏輯并非簡單地增加算力,而是通過智能編排,將推理任務調度到距離用戶最近的邊緣站點。這些站點不再僅僅是內容分發的緩存節點,而是集成了基于 NVIDIA RTX PRO 6000 Blackwell 服務器版 GPU 的推理能力。
通過在網絡邊緣處理請求,Akamai 繞過了中心云的物理距離限制,使得游戲工作室能夠實現亞 50 毫秒的 AI 驅動型 NPC 交互,金融機構能夠在登錄瞬間完成欺詐檢測與個性化推薦,廣播公司也能為全球觀眾提供無延遲的實時轉碼與配音。
“Token 經濟”的智能調度員
隨著企業 AI 應用從簡單的生成式對話向復雜的代理式和物理 AI 演進,對基礎設施的要求也從單純的算力轉向了“連接”與“協同”。
在 Akamai 的構想中,AI Grid 不僅僅是一張物理網絡,更是一個具備工作負載感知能力的智能控制平面。這個核心編排器充當著 AI 請求的實時代理,其目標是在大規模分布式環境中優化“Token 經濟” (tokenomics),即通過智能路由,平衡每個 Token 的成本、首個 Token 的響應時間以及整體吞吐量。
“AI 工廠是為訓練和前沿模型工作負載而構建的,中心化基礎設施將繼續為這些場景提供最佳的‘Token經濟’,”Akamai 云技術事業部首席運營官兼總經理 Adam Karon 表示,“但實時視頻、物理 AI 和高并發個性化體驗要求推理需要在接觸點進行,而不是往返中心化集群。我們的 AI Grid 智能編排為 AI 工廠提供了一種向外擴展推理的方式——利用革新了內容分發的分布式架構,在 4400 個站點以合適的成本和時間路由 AI 工作負載” 。
具體而言,該編排器能夠自動識別工作負載的性質,并將其與最合適的計算層匹配。對于需要高密度計算的持續后訓練或復雜多模態推理,系統將其導向核心節點的專用 GPU 集群;而對于長尾的、對延遲敏感的輕量級推理任務,則將其保留在邊緣,利用語義緩存和 WebAssembly 等輕量化技術進行處理。
這種精細化的資源調度,不僅為高端任務保留了優質的 GPU 周期,也通過充分利用邊緣資源,大幅降低了企業的整體推理成本。
打造分布式“AI 公共設施”
事實上, 去年Akamai Inference Cloud (AI推理云)一經推出,就受到客戶的推崇。根據Akamai披露,其已與一家處于AI革命前沿的美國大型科技公司簽署了為期四年、價值2億美元的高性能AI計算服務協議。
隨著AI Grid的推出,現在Akamai Inference Cloud 不僅僅是把 GPU 放在邊緣,它通過 AI Grid 智能編排,將高密度計算從核心分發到觸點,使 AI 工廠從孤立的數據中心設施,演變為一個全球分布的、可被實時訪問的公共設施。
對于行業而言,這標志著一個重要的轉折點:未來的 AI 競爭,將不再僅僅取決于擁有多少算力,更在于如何在全球范圍內智能地調度這些算力,以最優的“Token 經濟”服務于每一次實時交互。













