谷歌近期在Gemini安卓應(yīng)用的測試版本中,推出了一項針對生成式圖像編輯的突破性功能升級。此次更新聚焦于解決AI圖像二次創(chuàng)作中的兩大難題:指令傳達模糊與操作流程割裂,通過深度整合標記界面與實時文本輸入框,顯著提升了用戶對生成內(nèi)容(如示例中的“Nano Banana”圖像)的局部調(diào)整能力。
新版本的核心創(chuàng)新在于交互模式的徹底重構(gòu)。過去,用戶需先在圖像上簡單涂鴉標記修改區(qū)域,再退出編輯界面通過對話形式向AI傳達指令,流程繁瑣且精度有限。如今,用戶只需點擊“鉛筆”圖標,即可直接在圖像特定位置進行高精度標記,同時在下方新增的文本框中輸入修改需求,實現(xiàn)“視覺定位+自然語言”的雙通道指令輸入。這種設(shè)計使模型對局部修改意圖的理解準確率大幅提升,例如將“讓香蕉彎曲度增加30%”或“調(diào)整背景色為暖色調(diào)”等復雜需求轉(zhuǎn)化為可執(zhí)行的參數(shù)。
技術(shù)層面,谷歌通過優(yōu)化多模態(tài)感知算法,使標記工具與文本描述形成動態(tài)關(guān)聯(lián)。當用戶在圖像上標記區(qū)域時,系統(tǒng)會自動分析該區(qū)域的色彩、形狀等特征,并在文本框中生成建議性描述模板,降低用戶輸入門檻。測試版還預留了“調(diào)整大小”和“特效應(yīng)用”等擴展功能接口,暗示未來可能集成裁剪、濾鏡、光影調(diào)整等全流程編輯能力,推動Gemini從單一文生圖工具向綜合性數(shù)字創(chuàng)作平臺進化。
行業(yè)分析師指出,這一升級反映了生成式AI領(lǐng)域的競爭焦點正從“內(nèi)容生成”轉(zhuǎn)向“精準控制”。谷歌選擇在移動端原生應(yīng)用中嵌入專業(yè)級標記工具,旨在搶占移動AI創(chuàng)作市場的制高點。通過降低精細化編輯的技術(shù)門檻,普通用戶無需掌握專業(yè)軟件即可實現(xiàn)接近設(shè)計師水平的圖像調(diào)整,而專業(yè)創(chuàng)作者則能借助AI加速創(chuàng)意落地。
目前,該功能仍處于內(nèi)部測試階段,尚未對公眾開放。但從代碼分析來看,其“即標即改”的實時反饋機制已具備商業(yè)化潛力。例如,用戶標記圖像中的人物面部后,輸入“消除皺紋并提亮膚色”,系統(tǒng)可在3秒內(nèi)生成符合描述的修改版本。這種效率若能延續(xù)至正式版本,將極大縮短AI繪畫從概念到成品的周期,推動其從娛樂應(yīng)用向商業(yè)設(shè)計、內(nèi)容生產(chǎn)等場景滲透。










