近日,一款名為LPM 1.0的基于視頻的角色表演模型引發(fā)行業(yè)關(guān)注。該模型由Anuttacon技術(shù)團隊成員AilingZeng公布,其核心能力在于實現(xiàn)實時說話、唱歌、傾聽、反應(yīng)以及細膩的表情呈現(xiàn),為虛擬角色交互領(lǐng)域帶來全新突破。
針對現(xiàn)有視頻生成模型在表現(xiàn)力、實時推理及長時身份穩(wěn)定性等方面的不足,Anuttacon團隊構(gòu)建了以人為中心的多模態(tài)數(shù)據(jù)集,訓(xùn)練出17B參數(shù)的Base LPM,并進一步將其蒸餾為低延遲流式的Online LPM。這一技術(shù)路徑使得模型能夠同時實現(xiàn)實時視頻生成、無限時長下的身份一致性保持,以及擬人化表演的細膩度提升。團隊還同步推出了交互角色表演基準LPM-Bench,在多項評估指標中達到行業(yè)領(lǐng)先水平,為對話代理、直播角色及游戲NPC等場景提供了通用視覺引擎解決方案。
從技術(shù)實現(xiàn)來看,LPM 1.0支持多模態(tài)輸入,用戶可通過單張圖片、可選參考圖片、音頻及文本的組合生成角色表演視頻。例如,在一段45分鐘演示對話中,基于Online LPM 480P型號生成的角色展現(xiàn)了自然的言語節(jié)奏、目光轉(zhuǎn)移及微表情變化,甚至在回應(yīng)前會出現(xiàn)符合人類交流習(xí)慣的停頓。這種全雙工交互模式允許對話雙方同時說話、隨時打斷,模擬真實面對面聊天的體驗。
為解決角色身份穩(wěn)定性難題,模型采用多維度參考要素,包括全局外觀、多視角身體圖像及面部表情素材,有效避免牙齒、表情紋路等細節(jié)的錯誤生成。同時,該模型對角色風(fēng)格具有廣泛適應(yīng)性,無需微調(diào)即可處理寫實、2D動漫、3D游戲及非類人生物等不同風(fēng)格輸入,顯著降低了應(yīng)用門檻。
在非對話場景中,LPM 1.0同樣展現(xiàn)出技術(shù)優(yōu)勢。當(dāng)角色獨處時,模型可生成真實的呼吸節(jié)奏、自然的肢體動作及準確的情感表達,進一步拓展了虛擬角色的應(yīng)用邊界。與同類產(chǎn)品相比,該模型在視覺忠實度、口型同步精度、身份保護及自然感方面表現(xiàn)突出,尤其支持任意長度內(nèi)容生成,突破了部分競品30秒的內(nèi)容限制。
盡管技術(shù)亮點顯著,但Anuttacon團隊目前并無公開模型權(quán)重、源代碼或提供在線演示的計劃。此次發(fā)布主要聚焦于展示研究進展,為學(xué)術(shù)交流提供參考,同時釋放出強烈的人才招募信號。行業(yè)觀察人士指出,結(jié)合Anuttacon成立初期提出的AI原生游戲引擎級平臺構(gòu)想,以及米哈游在《崩壞:星穹鐵道》中AI工具的應(yīng)用實踐,LPM 1.0的推出或標志著該團隊在虛擬角色交互領(lǐng)域的技術(shù)積累進入新階段。
米哈游近年來的AI布局呈現(xiàn)系統(tǒng)化特征。從2023年《崩壞:星穹鐵道》團隊探索AI在角色行為管理、3D建模調(diào)優(yōu)等領(lǐng)域的應(yīng)用,到2025年發(fā)布AI專項招募計劃搭建Agent平臺Echo,再到虛擬角色鹿鳴及新作《星布谷地》中AI NPC的實踐,其技術(shù)路線逐漸清晰。三位創(chuàng)始人通過捐贈設(shè)立“AI未來基石基金”的舉措,進一步凸顯了其對AI人才儲備的重視。這些動作共同勾勒出一家游戲企業(yè)向AI技術(shù)深水區(qū)探索的軌跡,而LPM 1.0的亮相,或成為其虛擬世界戰(zhàn)略中的關(guān)鍵拼圖。










