滾動資訊

當前位置：首頁 > 資訊 > 業界動態 > 正文內容

谷歌Gemini 3 Flash上線“智能體視覺”：AI像人一樣主動“觀察思考”解圖像難題

時間：2026-01-28 16:44:03 來源：快訊編輯：快訊 IP：北京 發表評論無障礙通道

谷歌DeepMind團隊近日宣布，在Gemini 3 Flash模型中引入了一項突破性的“智能體視覺”功能。這一創新旨在解決傳統AI模型在圖像處理中的固有局限，通過主動調查的方式提升視覺理解的準確性。

傳統AI模型在處理圖像時，往往僅進行一次靜態掃描。這種方式容易遺漏關鍵細節，例如芯片序列號或遠處路牌上的信息，導致模型只能依賴猜測生成答案。Gemini 3 Flash的新功能則通過模擬人類的“思考、行動、觀察”循環，將視覺理解轉化為一個動態過程。模型不再被動接收信息，而是主動制定計劃、操作圖像并驗證結果，從而確立答案的視覺證據。

“智能體視覺”的核心機制是一個閉環系統。在“思考”階段，模型分析用戶查詢和初始圖像，制定多步操作計劃；隨后進入“行動”階段，模型生成并執行Python代碼，對圖像進行裁剪、旋轉或標注等操作，或進行邊界框計算等分析；最后在“觀察”階段，變換后的圖像被追加到模型的上下文窗口中，供進一步驗證。這一過程使模型能夠利用更新后的數據和更佳的語境進行二次檢查，最終生成基于事實的回復。

引入代碼執行能力后，Gemini 3 Flash在多項視覺基準測試中的表現顯著提升，質量提高了5%至10%。例如，在建筑圖紙驗證平臺PlanCheckSolver.com上，該功能通過代碼裁剪并分析屋頂邊緣等高分辨率細節，使準確率提升了5%。在處理視覺數學問題時，模型不再依賴概率猜測，而是通過編寫代碼識別原始數據并調用Matplotlib庫繪制精確圖表，有效解決了多步視覺算術中常見的“幻覺”問題。

目前，Gemini 3 Flash已能夠隱式決定何時放大細節以獲取更準確的信息。谷歌DeepMind團隊表示，未來版本將進一步優化，無需用戶顯式提示即可自動執行旋轉圖像或視覺運算等操作，從而提供更智能、更高效的視覺理解服務。

此次升級后，千問將具備更精準的事實記憶與世界知識、專家級復雜推理能力，以及更貼合人類偏好的響應邏輯。阿里云相關負責人表示，Qwen3-Max-Thinking的推出，標志著阿里在大模型技術領域的又一次突破…

01-28

REDMI Turbo 5系列“搶票模式”來襲：智能搶票+網絡優化，購票秒殺快人一步

01-28

人類史上最強運載火箭！SpaceX星艦V3六周后首次發射測試

01-28

雷軍：小米YU7僅半年就排到全年第四

01-28

1月29日見！REDMI Turbo 5外觀揭曉：采用金屬中框+玻璃背板

01-28

AI眼鏡能付停車費了：小米眼鏡聯合螞蟻GPASS上線停車繳費功能

01-28

亞馬遜誤發內部郵件，原計劃今天開展的裁員陷入混亂

01-28

字節跳動被曝出新規禁止員工做號變現該規定合法性引網友關注

01-28

打臉“價格崩盤”謠言！小米SU7斬獲2025年純電保值率冠軍，雷軍回應

01-28

iPhone 4S銷量逆襲，專家解讀背后的“情懷經濟學”

01-28

文遠知行發布通用仿真模型WeRide GENESIS

01-28

小米YU7僅半年躋身年度第四，成純電SUV銷冠，雷軍發文“凡爾賽”

01-28

鳴鳴很忙登陸港交所高開88% 市值破900億港元零食賽道再掀熱潮

01-28

2026年AI硬件賽道激戰正酣：巨頭入場，誰能搶占新一代入口先機？

01-28

華碩破曉Ultra輕薄本登場：64GB內存+2TB固態，14英寸2.8K屏亮點足

01-28

點擊查看更多 +

全站最新

物理AI的"世界模擬器"來了！文遠知行發布通用仿真模型WeRide GENESIS

中核國際榮獲香港《信報》"上市公司卓越大獎2025"

三重邏輯引爆稀有金屬

魏牌V9X定名亮相基于歸元平臺打造集成長城汽車前沿技術

魏牌全新旗艦SUV V9X定名歸元平臺賦能打造個性化出行新體驗

華為乾崑啟境首款獵裝轎跑：零下30度嚴寒測試，駕控體驗超預期

熱門內容

本欄最新

鳴鳴很忙登陸港交所高開88% 市值破900億港元零食賽道再掀熱潮

雷軍微博發聲：小米YU7交付半年即登2025新勢力銷量榜純電SUV首位

雷軍透露小米YU7交付半年銷量亮眼，成新勢力純電SUV銷冠或挑戰特斯拉Model Y

雷軍感恩回應：小米SU7斬獲保值率第一，YU7熱銷，SU7還將迎改款升級

雷軍談小米YU7：去年7月交付，半年躋身新勢力銷量榜純電SUV首位

2026年AI硬件賽道激戰正酣：巨頭競逐新入口，誰能率先定義下一代智能終端？

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

谷歌Gemini 3 Flash上線“智能體視覺”：AI像人一樣主動“觀察思考”解圖像難題