3月10日,谷歌DeepMind推出Gemini Embedding 2,這是該公司首個原生多模態嵌入模型,將文本、圖像、視頻、音頻及文檔統一映射至單一嵌入空間,標志著AI嵌入技術邁入全模態融合的新階段。
Gemini Embedding 2支持超100種語言的語義理解,并在文本、圖像及視頻任務的基準測試中超越現有主流模型,同時引入了此前嵌入模型所欠缺的語音處理能力。
該模型現已通過Gemini API及Vertex AI進入公開預覽階段,開發者可即時接入。
對于企業用戶而言,該模型的發布直接降低了構建多模態檢索增強生成(RAG)、語義搜索及數據分類系統的技術門檻,有望簡化此前需跨模態分別處理的復雜數據管道。
全模態統一:從文本擴展至五類媒體形式
Gemini Embedding 2基于Gemini架構構建,將嵌入能力從純文本擴展至五類輸入形式:
文本支持最多8192個輸入token;
圖像每次請求最多處理6張,支持PNG及JPEG格式;
視頻支持最長120秒的MP4和MOV文件;
音頻可直接攝入并生成嵌入向量,無需經過中間文本轉錄步驟;
文檔則支持最多6頁的PDF文件直接嵌入。
區別于逐一處理單一模態的傳統方式,該模型支持交錯輸入,即在單次請求中同時傳入圖像與文本等多種模態組合,使模型能夠捕捉不同媒體類型之間復雜而細微的語義關聯。
Gemini Embedding 2延續了谷歌此前嵌入模型中采用的Matryoshka表示學習(MRL)技術。該技術通過"嵌套"方式動態壓縮向量維度,使輸出維度可從默認的3072靈活縮減,幫助開發者在模型性能與存儲成本之間取得平衡。
基準測試領先,語音能力為新亮點
谷歌表示,Gemini Embedding 2在文本、圖像及視頻任務的基準測試中均優于當前主流競品模型,并將其定位為多模態嵌入領域的新性能標桿。
谷歌建議開發者根據應用場景選擇3072、1536或768三檔維度,以獲得最優質的嵌入效果。這一設計對于需要大規模部署嵌入向量的企業尤為重要,可在不顯著犧牲精度的前提下有效控制基礎設施成本。
在能力覆蓋方面,該模型引入了此前同類模型普遍缺失的原生語音嵌入能力,無需借助語音轉文字的中間環節即可直接處理音頻數據。
谷歌指出,嵌入技術已廣泛應用于其多款產品之中,覆蓋RAG場景下的上下文工程、大規模數據管理以及傳統搜索與分析場景。
目前已有部分早期訪問合作伙伴開始基于Gemini Embedding 2構建多模態應用,谷歌稱這些用例正在兌現該模型在高價值場景中的實際潛力。













