谷歌近日宣布推出其首個(gè)原生多模態(tài)嵌入模型——Gemini Embedding 2,標(biāo)志著人工智能在跨模態(tài)數(shù)據(jù)處理領(lǐng)域邁出重要一步。該模型突破了傳統(tǒng)嵌入模型僅支持文本的局限,能夠同時(shí)處理文本、圖像、視頻、音頻和文檔五種數(shù)據(jù)類型,并將它們映射到統(tǒng)一的向量空間中,為機(jī)器理解復(fù)雜信息提供了全新工具。
與生成式AI模型如Gemini 3不同,嵌入模型的核心功能在于數(shù)據(jù)理解而非內(nèi)容創(chuàng)作。Gemini Embedding 2通過將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為數(shù)學(xué)向量形式,使計(jì)算機(jī)能夠精準(zhǔn)捕捉語義關(guān)系。例如,在法律訴訟場(chǎng)景中,該模型可同時(shí)分析合同文本、監(jiān)控視頻和音頻證據(jù),快速定位關(guān)鍵信息。測(cè)試數(shù)據(jù)顯示,在處理數(shù)百萬條記錄時(shí),多模態(tài)嵌入技術(shù)使檢索精度提升顯著,尤其在圖像和視頻搜索方面表現(xiàn)突出。
該模型支持100種語言的語義意圖識(shí)別,并設(shè)定了明確的數(shù)據(jù)處理規(guī)范:文本輸入上限為8192個(gè)token,圖像支持PNG/JPEG格式且單次最多處理6張,視頻輸入時(shí)長限制在120秒內(nèi)(支持MP4/MOV格式),音頻可直接處理無需轉(zhuǎn)錄,文檔則支持最多6頁的PDF文件。這種設(shè)計(jì)既保證了處理效率,又覆蓋了主流應(yīng)用場(chǎng)景的需求。
谷歌工程師透露,Gemini Embedding 2已通過Gemini API和Vertex AI平臺(tái)開放預(yù)覽服務(wù)。現(xiàn)有用戶可在保持gemini-embedding-001文本模型使用的同時(shí),體驗(yàn)新模型的多模態(tài)能力。技術(shù)文檔顯示,該模型特別優(yōu)化了"圖像+文本"混合輸入場(chǎng)景,能夠自動(dòng)分析不同媒體間的關(guān)聯(lián)性,為智能客服、內(nèi)容推薦等應(yīng)用開辟新可能。
行業(yè)分析師指出,多模態(tài)嵌入技術(shù)的成熟將重塑信息檢索范式。傳統(tǒng)關(guān)鍵詞搜索依賴精確匹配,而向量搜索通過語義理解可返回更符合上下文的結(jié)果。例如,當(dāng)用戶搜索"藍(lán)色連衣裙"時(shí),新模型不僅能識(shí)別商品圖片,還能理解描述文字中的材質(zhì)、款式等細(xì)節(jié),甚至關(guān)聯(lián)到穿搭建議視頻。這種能力在電商、醫(yī)療、教育等領(lǐng)域具有廣泛應(yīng)用前景。











