蘋果人工智能研究團隊近期取得一項突破性進展,成功開發出名為LiTo的3D生成大模型。這項技術通過創新性的數學編碼方式,實現了僅憑單張二維圖像即可生成具有完整光影效果的立體模型,為三維內容創作領域開辟了新的可能性。
該模型的核心突破在于構建了統一的3D潛在表示體系。研究團隊將復雜的表面光場數據轉化為緊湊的向量集合,通過潛在空間編碼技術,既保留了物體的幾何特征,又精確描述了光線與材質的交互規律。這種編碼方式使系統能夠同時處理幾何結構與視覺表現兩個維度的信息。
在技術架構上,LiTo采用雙向編碼器-解碼器結構。編碼器模塊負責從輸入圖像中提取物體的三維特征,包括空間輪廓與材質屬性;解碼器模塊則通過逆向運算,精準還原出包含鏡面反射、菲涅爾效應等高級光學現象的立體模型。這種設計確保了生成結果在多視角下的光影一致性。
訓練過程中使用的三維數據集包含數千個不同物體的掃描數據。實驗數據顯示,該模型在攝像機坐標系對齊方面表現優異,有效解決了傳統方法中常見的物體朝向錯誤問題。在多視角光影一致性評估中,LiTo的得分較現有最優模型TRELLIS提升約37%,展現出顯著的技術優勢。
這項成果對三維內容創作具有重要價值。通過降低3D建模的技術門檻,LiTo可為增強現實應用提供更豐富的素材資源,特別在空間計算設備領域,其生成的高質量3D模型能夠顯著提升虛擬場景的真實感與沉浸度。研究團隊表示,該技術未來有望拓展至更多需要三維重建的工業應用場景。










