谷歌DeepMind近日宣布推出Gemini Embedding 2,這一突破性模型首次實現了文本、圖像、視頻、音頻和文檔五種媒體形式的原生多模態嵌入。通過將不同類型的數據統一映射到單一向量空間,該技術為人工智能在跨模態理解領域開辟了新路徑,標志著嵌入技術從單一模態向全模態融合的重要跨越。
該模型支持超過100種語言的語義理解,在文本、圖像和視頻任務的基準測試中展現出超越現有主流模型的性能。其核心創新在于引入了原生語音處理能力,可直接將音頻數據轉換為嵌入向量,無需經過傳統語音轉文本的中間步驟。這種端到端的處理方式顯著提升了語音數據的處理效率,同時保留了原始音頻中的情感、語調等非文本信息。
在技術架構層面,Gemini Embedding 2基于成熟的Gemini框架擴展而來。輸入處理能力覆蓋多種媒體類型:文本支持最長8192個token;圖像可同時處理6張PNG或JPEG格式圖片;視頻支持最長120秒的MP4/MOV文件;文檔則可直接嵌入最多6頁的PDF內容。更值得關注的是,模型支持交錯輸入模式,允許開發者在單次請求中組合多種媒體類型,從而捕捉不同形式數據間的復雜語義關聯。
針對企業級應用場景,該模型提供了靈活的向量維度配置選項。開發者可根據實際需求選擇3072、1536或768三檔輸出維度,在模型性能與存儲成本間取得平衡。這項特性對于需要處理海量嵌入向量的企業尤為重要,例如構建多模態檢索增強生成系統時,可在保證精度的前提下顯著降低基礎設施開銷。
在技術實現上,模型延續了谷歌自主研發的Matryoshka表示學習技術。該技術通過動態壓縮向量維度的"嵌套"機制,使輸出維度可根據應用場景靈活調整。這種創新設計既保持了高維向量的表達能力,又通過維度縮減優化了存儲效率,特別適用于需要大規模部署嵌入向量的商業場景。
目前,Gemini Embedding 2已通過Gemini API和Vertex AI平臺開放公開預覽。早期訪問合作伙伴正在探索其在多模態語義搜索、數據分類等領域的實際應用,部分用例已展現出顯著的技術優勢。隨著更多開發者接入該模型,預計將催生出更多創新應用場景,推動人工智能在跨模態理解領域的技術演進。














