OpenAI 近日面向全球開發者推出了兩項關鍵 API 更新,旨在大幅提升 AI 智能體在語音交互與復雜任務流中的性能表現。
在模型層面,全新的實時模型 gpt-realtime-1.5 及其配套音頻模型正式登場,其核心目標是提高語音命令的可靠性。根據 OpenAI 內部測試數據,新模型在處理數字和字母的轉錄準確率上提升了約 10%,邏輯音頻任務準確率提高了 5%,而指令執行的準確率也相應提升了 7%,有效解決了 AI 在聽取關鍵短語或執行復雜語音指令時的偏差問題。
在架構層面,Responses API 現已支持 WebSocket 協議,這標志著 AI 通信模式的重大變革。與以往每次請求都必須重新傳輸完整上下文的模式不同,WebSocket 允許開發者建立持久連接,系統僅在產生新數據時進行增量發送。
OpenAI 指出,這一改進對于需要頻繁調用大量工具的復雜 AI 代理尤為關鍵,能夠將其運行速度直接提升 20% 到40%。這兩項更新不僅讓 AI 的“聽力”更敏銳,更讓其“行動”效率邁向了全新的臺階。











