近日,Soul App AI團隊(Soul AI Lab)發布開源模型SoulX-LiveAct。作為新的實時數字人生成方案,SoulX-LiveAct通過 Neighbor Forcing(同擴散步對齊的自回歸條件傳播)與 ConvKV Memory(KV 記憶壓縮),讓 AR diffusion 從“能流式”走向“可真正長時穩定地實時流式”。
現階段,伴隨著AI技術在數字人直播、視頻播客、實時互動等場景快速普及,行業應用層對模型的實際需求正在從“能生成”走向“能長期穩定生成”。但在真實落地場景里,數字人生成一直面臨一個難題:視頻生成一旦拉長到分鐘甚至小時級,畫面穩定性與一致性會明顯下降——常見問題包括身份漂移、細節丟失、畫面閃爍,以及實時推理成本隨時長上升等。
如何讓數字人視頻在流式實時推理下做到小時級甚至無限長度、同時保持身份一致/細節穩定/口型精準?
此次開源的SoulX-LiveAct能夠在 2 張 H100/H200 條件下,達到 20 FPS 的實時流式推理能力,且支持輸入圖像、音頻和指令驅動,生成表情生動、情緒可控、擁有豐富全身動作的實時數字人視頻。通過不斷開源不同技術路線的模型,Soul AI團隊為開源社區及行業提供了差異化的實時數字人方案,覆蓋各種硬件條件、不同應用落地的開發者實際需求。
·Project Page: https://soul-ailab.github.io/soulx-liveact/
·Technical Report: https://arxiv.org/abs/2603.11746
·Source Code: https://github.com/Soul-AILab/SoulX-LiveAct
·Hugging Face: https://huggingface.co/Soul-AILab/LiveAct
SoulX-LiveAct 三大亮點
1) 恒定顯存:真正支持無限時長生成
過去的 AR diffusion 往往依賴 KV cache 記憶歷史信息,但緩存會隨視頻長度線性增長——視頻一長,不是爆顯存,就是不得不丟歷史,穩定性隨之崩掉。SoulX-LiveAct 從“條件傳播方式”和“歷史記憶管理”兩個層面解決了這一瓶頸,創新機制使系統既能“帶得動”長時歷史,又不會因緩存膨脹而拖慢推理,從而在機制上具備小時級甚至更長時長的持續生成能力。
2) 實時吞吐:2 張 H100/H200 即可 20 FPS 流式推理
在 512×512 分辨率下,SoulX-LiveAct 僅需 2 張 H100/H200 即可達到 20 FPS 的實時流式推理能力,端到端延遲約 0.94s。同時,單幀計算成本降低到 27.2 TFLOPs / frame,在追求實時的條件下顯著減輕算力壓力,為線上部署提供更現實的成本方案。
3) 長時一致:身份穩定 + 細節不“掉件”
長視頻最容易“翻車”的不是第一分鐘,而是第十分鐘、第三十分鐘:常見現象包括臉漂、發型/衣紋漂移、飾品忽隱忽現,甚至口型逐步失配。在報告的長時對比中,基線方法普遍出現不同程度的身份漂移與細節不穩定;而 SoulX-LiveAct 能在更長時間窗口內保持身份一致性與關鍵細節持續穩定(如配飾與衣物紋理不“掉件”)。
原理介紹:
SoulX-LiveAct 面向小時級實時數字人動畫的流式生成,整體采用 AR Diffusion(自回歸擴散)范式,并圍繞“長時一致 + 恒定顯存”構建兩條核心機制:Neighbor Forcing 與 ConvKV Memory。
·AR Diffusion 主干:按 chunk/幀塊自回歸生成,每個 chunk 內采用擴散建模細節,chunk 間通過條件上下文承接運動與身份信息,實現流式推理閉環。
·Neighbor Forcing(鄰近強制):在自回歸鏈上,不傳播“不同擴散步”的狀態,而是傳播 同擴散步 ttt 下的相鄰幀 latent 作為條件,使上下文與當前預測處于同一噪聲語義空間(step-aligned),顯著降低訓練/推理中的分布不一致。
·ConvKV Memory(卷積式 KV 記憶):將歷史 attention KV 記憶從“線性增長的 cache”改為“短期精確 + 長期壓縮”的組合:
近期 KV 保留高精度窗口(保證局部一致與細節穩定)
遠期 KV 通過輕量 1D conv 按固定壓縮比滾動壓縮(例如報告示例 λ=5),把歷史信息壓縮進固定長度表示,從而實現常量顯存推理。
·RoPE Reset(位置對齊):配合 ConvKV Memory 的“壓縮+滑動窗口”,通過 RoPE reset 做位置編碼對齊,避免長序列位置漂移,強化長時穩定。

LiveAct 推理時序 + Memory 結構示意圖
SoulX-LiveAct 的訓練目標不是只追求視頻質量,而是顯式對齊流式推理的長時誤差傳播,使模型在“越長越不穩”的場景下仍能保持身份與細節穩定。
·Neighbor Forcing 對齊訓練分布:訓練時強制模型在同擴散步語境下接收來自“相鄰幀”的條件 latent,減少 AR 鏈中跨步噪聲空間不一致帶來的優化震蕩,使模型更好學到穩定的時序承接規則。
·長時一致性導向的自回歸訓練構造:訓練樣本按 chunk 方式組織,顯式覆蓋“連續 chunk 合成 → 誤差累積 → 再糾正”的過程,讓模型在訓練期就暴露并學習處理長時漂移問題,而不是僅在短 clip 上擬合。
·Memory-Aware 訓練(與推理一致):訓練階段引入與推理一致的 ConvKV Memory 使用方式(短期窗口 + 長期壓縮),讓模型學會在“被壓縮的歷史記憶”條件下保持身份與細節一致性,避免訓練/推理不一致導致的掉點。

SoulX-LiveAct 的加速思路強調“延遲穩定”而不是“越跑越慢”:核心是把長時上下文從可變 cache 變成可控 memory,從而讓實時流式推理不隨時長惡化。
·恒定顯存(Constant-Memory Inference):ConvKV Memory 把歷史 KV 從線性增長變為固定預算,推理顯存隨視頻時長保持恒定,這是小時級在線生成的必要條件。
·穩定延遲(Stable Latency):短期窗口 KV 保證局部質量,長期壓縮 KV 保證全局一致;兩者組合使每個 chunk 的計算與通信成本保持穩定,不會因為視頻越長而拖慢。
·端到端實時能力:在 512×512 下,系統可在 2×H100/H200 條件下實現 20 FPS 的流式推理,并給出約 0.94s 的端到端延遲與 27.2 TFLOPs/frame 的成本口徑。

綜合表現領先
真正的“長時穩定+實時可用”
通過在 HDTF(面部口型與真實感)與 EMTD(包含全身動作)兩類基準上的定量對比,SoulX-LiveAct 展示了其在 口型同步、動畫質量與實時效率上的綜合領先:在 HDTF 上,SoulX-LiveAct 取得 9.40 的 Sync-C 與 6.76 的 Sync-D,同時在分布相似性指標上達到 10.05 FID / 69.43 FVD,并在 VBench 上獲得 97.6 的 Temporal Quality 與 63.0 的 Image Quality,VBench-2.0 的 Human Fidelity 達到 99.9,體現出更穩定的時序質量與更強的人體與身份一致性;在 EMTD 上,SoulX-LiveAct 依然保持最優同步表現(8.61 Sync-C / 7.29 Sync-D),并在 VBench 上達到 97.3 Temporal Quality / 65.7 Image Quality,Human Fidelity 達到 98.9,證明其對全身動作與復雜表情/動作場景的魯棒性。


依托模型表現,SoulX-LiveAct 將能夠在“長期在線”數字人直播間、AI教育、智慧柜員、知識付費、播客錄制、開放世界互動等方向快速落地,例如,在線開放世界的NPC互動中,要求“說得像、動得像、一直像”,SoulX-LiveAct 在全身數據集 EMTD 上的同步與質量指標領先,并支持實時流式推理,適合在數字空間里實現長時間在線的、具備情緒動作表達的角色交互。
今年,在實時數字人生成方向,Soul AI 團隊已陸續開源了SoulX-FlashTalk、SoulX-FlashHead,前者是首個能夠實現0.87s亞秒級超低延時、32fps高幀率,并支持超長視頻穩定生成的14B數字人模型;后者是1.3B輕量化模型,可實現在單張消費級顯卡( RTX 4090 )上跑出96FPS的工業級速度。
除了實時數字人生成方向的SoulX-FlashTalk、SoulX-FlashHead、SoulX-LiveAct ,現階段,Soul AI團隊還開源了播客語音合成模型SoulX-Podcast、歌聲合成模型 SoulX-Singer、全雙工語音對話控制模塊SoulX-Duplug,綜合來看,團隊圍繞“實時交互”這一核心領域,在多模態方向不斷夯實技術基建,同時通過工程化部署方案將技術推向可真正工業級應用階段。
而堅持開源方向,Soul不僅完成了自身AI基礎設施的持續升級,還通過攜手全球開發者,持續拓展“AI+”的新落地場景,共同推動AI應用生態的建設。











