谷歌近日宣布對Gemini API的計費體系進行全面升級,推出涵蓋標準、彈性、優先、批量及緩存在內的五類服務方案,旨在為不同場景下的AI推理需求提供更靈活的資源配置選項。此次調整通過差異化定價策略,既降低了特定場景下的使用成本,又為高實時性需求提供了性能保障。
針對大規模數據處理場景,新推出的彈性檔位與批量檔位均提供標準價格五折優惠。彈性檔位通過動態調度非高峰時段的閑置算力,將目標延遲控制在1至15分鐘區間,適用于對響應速度要求不苛刻的離線任務。批量檔位則進一步放寬延遲限制至24小時,特別適合需要處理海量數據的用戶,在信息檢索、模型訓練等場景中可顯著降低計算成本。
對于實時交互類應用,優先檔位通過專屬資源池實現毫秒至秒級的延遲控制,雖然定價較標準方案高出75%至100%,但能確保客服機器人、金融風控等場景的即時響應需求。該檔位采用動態資源分配機制,可根據流量波動自動調整算力供給,避免因資源不足導致的服務中斷。
緩存檔位創新性地引入詞元計量模式,計費標準同時考量存儲時長與數據規模。這種設計特別適用于需要重復調用復雜指令的對話系統、長視頻內容分析以及大規模文檔檢索等場景。通過智能緩存機制,用戶可減少重復計算帶來的資源消耗,在保持系統響應效率的同時優化存儲成本。
標準檔位作為基礎服務方案,保持原有定價體系,為常規推理任務提供穩定支持。用戶可根據業務特性自由組合不同檔位,例如在夜間使用彈性檔位處理批量任務,日間切換至優先檔位保障實時交互,形成資源利用的最優解。此次計費改革通過精細化分層策略,使AI服務定價與使用場景的匹配度得到實質性提升。











