京東探索研究院近日宣布,其自主研發的圖像編輯模型JoyAI-Image-Edit正式開源,成為全球首個深度融合空間智能技術的開源模型。該模型突破傳統AI圖像處理僅限于平面修改的局限,實現了三維空間重塑能力,其核心推理代碼已完全開放,開發者可直接用于各類應用開發。
傳統圖像模型常因空間邏輯混亂導致物體變形、光影錯亂等問題,而JoyAI-Image-Edit通過構建完整的空間理解體系,從相機坐標變換、物體幾何控制到多視角一致性維護,系統性解決了這些行業痛點。實驗數據顯示,該模型在物體移動精度、空間布局合理性等關鍵指標上已達到國際領先水平,編輯后的圖像能自然呈現遮擋關系與光影變化,即使進行視角切換或物體重組,場景結構依然保持高度真實。
該模型的創新性體現在三大核心能力:其一,支持通過自然語言精準控制相機視角,用戶可指定偏航角、俯仰角等參數生成新視角圖像;其二,具備空間漫游功能,能連續生成邏輯連貫的多視角圖像序列,模擬三維場景中的移動觀察效果;其三,可對特定物體進行位移、縮放等操作,同時自動調整周邊環境的光影與遮擋關系,確保整體場景的物理合理性。這些能力使模型在處理復雜空間任務時表現出色,例如在電商場景中可快速生成多角度商品展示圖,在創意設計領域能實現虛擬場景的自由編輯。
除空間編輯突破外,JoyAI-Image-Edit還兼容15類通用圖像處理功能,涵蓋物體替換、風格遷移、細節優化等高頻需求。通過將空間智能與通用編輯能力深度融合,該模型在長文本渲染、多視角一致性生成等復雜任務中展現出顯著優勢,可滿足全場景創作需求。例如在3D模型重建領域,模型能根據單張圖片自動推斷物體空間結構,生成多視角一致的三維模型;在具身智能視覺感知方面,其空間理解能力為機器人環境感知提供了關鍵技術支撐。
目前,該模型已開放代碼與預訓練權重,支持商業與學術用途。其開源特性將加速空間智能技術在電商、設計、機器人等領域的落地應用,特別是為具身智能研發提供了低成本、高效率的視覺處理解決方案。隨著開發者社區的參與,JoyAI-Image-Edit有望推動AI圖像技術向更復雜的空間場景延伸,重新定義智能圖像處理的標準與邊界。











