在多哈網絡峰會上,ElevenLabs聯合創始人兼首席執行官馬蒂·斯坦尼謝夫斯基接受TechCrunch采訪時提出,語音交互正成為人工智能發展的核心方向。隨著技術突破文本與屏幕的限制,人類與機器的溝通方式將迎來根本性轉變。他預測,未來幾年內人們將減少對手機屏幕的依賴,通過語音指令實現與技術的無縫交互,從而更專注于現實世界體驗。
斯坦尼謝夫斯基透露,ElevenLabs最新研發的語音模型已突破單純模仿人類語音的階段,能夠與大語言模型的推理能力深度融合。這種技術結合不僅使語音輸出包含情感和語調變化,更能理解上下文邏輯,實現更自然的對話交互。這種突破性進展促使公司本周完成5億美元融資,估值飆升至110億美元,反映出資本市場對語音交互賽道的強烈信心。
行業動向印證了這一趨勢。OpenAI和谷歌均將語音技術列為下一代模型研發重點,蘋果則通過收購Q.ai等公司悄然布局始終在線的語音交互系統。隨著AI技術向可穿戴設備、智能汽車等領域滲透,語音控制正逐步取代傳統觸控操作,成為人機交互的新標準。Iconiq Capital合伙人賽斯·皮埃爾龐在峰會上指出,鍵盤等傳統輸入方式已顯過時,智能化系統將通過自主推理減少用戶明確指令的需求。
技術演進正在重塑語音系統的部署架構。斯坦尼謝夫斯基表示,ElevenLabs正從純云端處理轉向混合模式,使語音助手能在耳機、智能眼鏡等設備端實現本地化運行。這種轉變既提升了響應速度,又為持續交互提供了技術基礎——未來的語音系統將具備記憶功能,能夠根據用戶習慣和歷史對話自動調整交互方式。目前該公司已與meta達成合作,將其語音技術集成至Instagram和Horizon Worlds等平臺。
技術普及帶來的隱私爭議隨之浮現。當語音交互成為日常硬件的標配功能,系統對用戶語音數據的持續采集可能引發監控風險。批評者指出,谷歌等科技巨頭已多次陷入數據濫用丑聞,而語音AI的滲透將使個人隱私保護面臨更大挑戰。如何在便利性與安全性之間取得平衡,將成為行業發展的關鍵命題。
針對技術演進方向,斯坦尼謝夫斯基描繪了具體場景:用戶無需逐字拼寫指令,系統通過持續記憶和上下文理解自動完成任務。這種交互模式將顯著降低使用門檻,使語音技術真正成為普惠性工具。目前ElevenLabs正探索與meta在Ray-Ban智能眼鏡上的合作可能,試圖將語音助手打造為全天候的智能伴侶。








