京東探索研究院近日宣布,其自主研發(fā)的圖像編輯模型JoyAI-Image-Edit正式開源,成為全球首個(gè)深度融合"空間智能"技術(shù)的開源項(xiàng)目。該模型突破傳統(tǒng)平面修圖局限,首次實(shí)現(xiàn)了三維空間層面的圖像理解與編輯能力,為開發(fā)者提供了可直接應(yīng)用的完整推理代碼框架。
通過構(gòu)建包含空間位置建模、多視角一致性、相機(jī)參數(shù)感知等核心模塊的技術(shù)體系,該模型在三維空間重塑領(lǐng)域取得多項(xiàng)突破。實(shí)驗(yàn)數(shù)據(jù)顯示,在物體移動精度、空間結(jié)構(gòu)一致性等關(guān)鍵指標(biāo)上,其性能已達(dá)到國際領(lǐng)先水平。研發(fā)團(tuán)隊(duì)特別強(qiáng)調(diào),模型通過深度解析真實(shí)世界的空間規(guī)律,實(shí)現(xiàn)了相機(jī)視角變換、物體空間位移、幾何結(jié)構(gòu)精準(zhǔn)控制等復(fù)雜操作。
該模型最具創(chuàng)新性的三大功能包括:智能視角變換系統(tǒng)支持通過自然語言指令調(diào)整相機(jī)參數(shù),在保持場景幾何完整性的同時(shí)生成新視角圖像;連續(xù)空間漫游功能可生成邏輯連貫的多視角圖像序列,模擬三維空間中的自然移動效果;智能物體關(guān)系操控技術(shù)能在保持場景整體結(jié)構(gòu)穩(wěn)定的前提下,對指定物體進(jìn)行位移、縮放等操作,并自動優(yōu)化遮擋關(guān)系與光影效果。
在基礎(chǔ)功能層面,模型兼容15類主流圖像編輯需求,涵蓋物體替換、元素增刪、風(fēng)格遷移、細(xì)節(jié)優(yōu)化等高頻應(yīng)用場景。其多模態(tài)處理能力可同時(shí)支持結(jié)構(gòu)化空間編輯與藝術(shù)化內(nèi)容創(chuàng)作,形成完整的圖像處理解決方案。
目前該模型已在電商內(nèi)容生產(chǎn)、創(chuàng)意設(shè)計(jì)、智能圖像處理、3D建模重建等多個(gè)領(lǐng)域展開應(yīng)用測試。特別是在具身智能視覺感知領(lǐng)域,其提供的底層空間理解能力,為機(jī)器人環(huán)境感知、虛擬場景構(gòu)建等前沿技術(shù)研發(fā)提供了重要支撐。開發(fā)者社區(qū)反饋顯示,模型的開源架構(gòu)顯著降低了空間智能技術(shù)的開發(fā)門檻,加速了相關(guān)技術(shù)的產(chǎn)業(yè)化進(jìn)程。









