91禁直接看,综合激情亚洲,久久久久国产精品麻豆ar影院

近日,Soul App AI團隊(Soul AI Lab)發布開源模型SoulX-LiveAct。作為新的實時數字人生成方案,SoulX-LiveAct通過 Neighbor Forcing(同擴散步對齊的自回歸條件傳播)與 ConvKV Memory(KV 記憶壓縮),讓 AR diffusion 從“能流式”走向“可真正長時穩定地實時流式”。

現階段,伴隨著AI技術在數字人直播、視頻播客、實時互動等場景快速普及,行業應用層對模型的實際需求正在從“能生成”走向“能長期穩定生成”。但在真實落地場景里,數字人生成一直面臨一個難題:視頻生成一旦拉長到分鐘甚至小時級,畫面穩定性與一致性會明顯下降——常見問題包括身份漂移、細節丟失、畫面閃爍,以及實時推理成本隨時長上升等。

如何讓數字人視頻在流式實時推理下做到小時級甚至無限長度、同時保持身份一致/細節穩定/口型精準?

此次開源的SoulX-LiveAct能夠在 2 張 H100/H200 條件下,達到 20 FPS 的實時流式推理能力,且支持輸入圖像、音頻和指令驅動,生成表情生動、情緒可控、擁有豐富全身動作的實時數字人視頻。通過不斷開源不同技術路線的模型,Soul AI團隊為開源社區及行業提供了差異化的實時數字人方案,覆蓋各種硬件條件、不同應用落地的開發者實際需求。

·Project Page: https://soul-ailab.github.io/soulx-liveact/

·Technical Report: https://arxiv.org/abs/2603.11746

·Source Code: https://github.com/Soul-AILab/SoulX-LiveAct

·Hugging Face: https://huggingface.co/Soul-AILab/LiveAct

SoulX-LiveAct 三大亮點

1) 恒定顯存:真正支持無限時長生成

過去的 AR diffusion 往往依賴 KV cache 記憶歷史信息,但緩存會隨視頻長度線性增長——視頻一長,不是爆顯存,就是不得不丟歷史,穩定性隨之崩掉。SoulX-LiveAct 從“條件傳播方式”和“歷史記憶管理”兩個層面解決了這一瓶頸,創新機制使系統既能“帶得動”長時歷史,又不會因緩存膨脹而拖慢推理,從而在機制上具備小時級甚至更長時長的持續生成能力。

2) 實時吞吐:2 張 H100/H200 即可 20 FPS 流式推理

在 512×512 分辨率下,SoulX-LiveAct 僅需 2 張 H100/H200 即可達到 20 FPS 的實時流式推理能力,端到端延遲約 0.94s。同時,單幀計算成本降低到 27.2 TFLOPs / frame,在追求實時的條件下顯著減輕算力壓力,為線上部署提供更現實的成本方案。

3) 長時一致:身份穩定 + 細節不“掉件”

長視頻最容易“翻車”的不是第一分鐘,而是第十分鐘、第三十分鐘:常見現象包括臉漂、發型/衣紋漂移、飾品忽隱忽現,甚至口型逐步失配。在報告的長時對比中,基線方法普遍出現不同程度的身份漂移與細節不穩定;而 SoulX-LiveAct 能在更長時間窗口內保持身份一致性與關鍵細節持續穩定(如配飾與衣物紋理不“掉件”)。

原理介紹:

SoulX-LiveAct 面向小時級實時數字人動畫的流式生成,整體采用 AR Diffusion(自回歸擴散)范式,并圍繞“長時一致 + 恒定顯存”構建兩條核心機制:Neighbor Forcing 與 ConvKV Memory。

·AR Diffusion 主干:按 chunk/幀塊自回歸生成,每個 chunk 內采用擴散建模細節,chunk 間通過條件上下文承接運動與身份信息,實現流式推理閉環。

·Neighbor Forcing(鄰近強制):在自回歸鏈上,不傳播“不同擴散步”的狀態,而是傳播同擴散步 ttt 下的相鄰幀 latent 作為條件,使上下文與當前預測處于同一噪聲語義空間(step-aligned),顯著降低訓練/推理中的分布不一致。

·ConvKV Memory(卷積式 KV 記憶):將歷史 attention KV 記憶從“線性增長的 cache”改為“短期精確 + 長期壓縮”的組合:

近期 KV 保留高精度窗口(保證局部一致與細節穩定)

遠期 KV 通過輕量 1D conv 按固定壓縮比滾動壓縮(例如報告示例 λ=5),把歷史信息壓縮進固定長度表示,從而實現常量顯存推理。

·RoPE Reset(位置對齊):配合 ConvKV Memory 的“壓縮+滑動窗口”,通過 RoPE reset 做位置編碼對齊,避免長序列位置漂移,強化長時穩定。

LiveAct 推理時序 + Memory 結構示意圖

SoulX-LiveAct 的訓練目標不是只追求視頻質量,而是顯式對齊流式推理的長時誤差傳播,使模型在“越長越不穩”的場景下仍能保持身份與細節穩定。

·Neighbor Forcing 對齊訓練分布:訓練時強制模型在同擴散步語境下接收來自“相鄰幀”的條件 latent,減少 AR 鏈中跨步噪聲空間不一致帶來的優化震蕩,使模型更好學到穩定的時序承接規則。

·長時一致性導向的自回歸訓練構造:訓練樣本按 chunk 方式組織,顯式覆蓋“連續 chunk 合成 → 誤差累積 → 再糾正”的過程,讓模型在訓練期就暴露并學習處理長時漂移問題,而不是僅在短 clip 上擬合。

·Memory-Aware 訓練(與推理一致):訓練階段引入與推理一致的 ConvKV Memory 使用方式(短期窗口 + 長期壓縮),讓模型學會在“被壓縮的歷史記憶”條件下保持身份與細節一致性,避免訓練/推理不一致導致的掉點。

SoulX-LiveAct 的加速思路強調“延遲穩定”而不是“越跑越慢”:核心是把長時上下文從可變 cache 變成可控 memory,從而讓實時流式推理不隨時長惡化。

·恒定顯存(Constant-Memory Inference):ConvKV Memory 把歷史 KV 從線性增長變為固定預算,推理顯存隨視頻時長保持恒定,這是小時級在線生成的必要條件。

·穩定延遲(Stable Latency):短期窗口 KV 保證局部質量,長期壓縮 KV 保證全局一致;兩者組合使每個 chunk 的計算與通信成本保持穩定,不會因為視頻越長而拖慢。

·端到端實時能力:在 512×512 下,系統可在 2×H100/H200 條件下實現 20 FPS 的流式推理,并給出約 0.94s 的端到端延遲與 27.2 TFLOPs/frame 的成本口徑。

綜合表現領先

真正的“長時穩定+實時可用”

通過在 HDTF(面部口型與真實感)與 EMTD(包含全身動作)兩類基準上的定量對比,SoulX-LiveAct 展示了其在口型同步、動畫質量與實時效率上的綜合領先:在 HDTF 上,SoulX-LiveAct 取得 9.40 的 Sync-C 與 6.76 的 Sync-D,同時在分布相似性指標上達到 10.05 FID / 69.43 FVD,并在 VBench 上獲得 97.6 的 Temporal Quality 與 63.0 的 Image Quality,VBench-2.0 的 Human Fidelity 達到 99.9,體現出更穩定的時序質量與更強的人體與身份一致性;在 EMTD 上,SoulX-LiveAct 依然保持最優同步表現(8.61 Sync-C / 7.29 Sync-D),并在 VBench 上達到 97.3 Temporal Quality / 65.7 Image Quality,Human Fidelity 達到 98.9,證明其對全身動作與復雜表情/動作場景的魯棒性。

依托模型表現,SoulX-LiveAct 將能夠在“長期在線”數字人直播間、AI教育、智慧柜員、知識付費、播客錄制、開放世界互動等方向快速落地,例如,在線開放世界的NPC互動中,要求“說得像、動得像、一直像”,SoulX-LiveAct 在全身數據集 EMTD 上的同步與質量指標領先,并支持實時流式推理,適合在數字空間里實現長時間在線的、具備情緒動作表達的角色交互。

今年,在實時數字人生成方向,Soul AI 團隊已陸續開源了SoulX-FlashTalk、SoulX-FlashHead,前者是首個能夠實現0.87s亞秒級超低延時、32fps高幀率,并支持超長視頻穩定生成的14B數字人模型;后者是1.3B輕量化模型,可實現在單張消費級顯卡( RTX 4090 )上跑出96FPS的工業級速度。

除了實時數字人生成方向的SoulX-FlashTalk、SoulX-FlashHead、SoulX-LiveAct ,現階段,Soul AI團隊還開源了播客語音合成模型SoulX-Podcast、歌聲合成模型 SoulX-Singer、全雙工語音對話控制模塊SoulX-Duplug,綜合來看,團隊圍繞“實時交互”這一核心領域,在多模態方向不斷夯實技術基建,同時通過工程化部署方案將技術推向可真正工業級應用階段。

而堅持開源方向,Soul不僅完成了自身AI基礎設施的持續升級,還通過攜手全球開發者,持續拓展“AI+”的新落地場景,共同推動AI應用生態的建設。

全球商業競爭的核心命題，從來不是單次的市場突圍，而是長周期、多賽道的持續領跑。在全球產業格局深度調整的當下，“全球銷冠” 的分量，遠不止于銷量榜單上的數字登頂 —— 它是用戶用真金白銀投出的信任票，是企業技術實力、產業鏈整合能力、全球化運營水平的綜合體

近日，CA/B論壇SSL證書最大有效期新規(SC-081v3)第一階段已生效!2026年3月15日起，全球公共SSL/TLS證書最長有效期從398天縮短至200天。雖然目前距離最終縮短至47天的時間節點，仍有三年的準備窗口期，但SSL證書行業已然邁入“短周期SSL/TLS證書”時代。“短周期SSL/TLS

備受矚目的中國家電及消費電子博覽會(AWE 2026)已落下帷幕。在此期間，追覓吹風機取得了令人矚目的市場戰績，品牌聲量銷量齊飛，以實力印證了其在中國高端個護市場的絕對領先地位。戰績輝煌：3月全渠道增長329%根據AWE期間數據顯示，追覓吹風機銷售表現強勁，3月全渠道G

3D打印正在以前所未有的速度破圈。灼識咨詢報告顯示，2024年全球消費級3D打印市場規模已達41億美元，并預測這一數字將在2029年飆升至169億美元。市場的熱度，在亞洲最大的增材制造盛會TCT Asia現場得到了直觀的印證。今年，550余家展商在5.5萬平方米的展廳內同臺競技，

近日，中國食品藥品企業質量安全促進會發布我國首個《可穿戴無袖帶血壓測量設備》團體標準，于2026 年 3 月 14 日起正式實施。歌爾作為標準核心參編單位，深度參與標準起草制定，助力無袖帶血壓測量技術邁入規范化、產業化與臨床規模應用新階段。該標準由廣東醫科大學與

隨著“精準營養”理念的普及，兒童奶粉市場提供了前所未有的豐富選擇，家長們不再被營銷話術輕易打動，而是拿著配料表逐行比對，在論壇里研究乳清蛋白比例，甚至能清晰區分A1與A2蛋白的差異。這種理性覺醒讓“寶寶喝什么奶粉好”這個經典問題，從簡單的品牌選擇變成了對

近期，OpenClaw開源項目在全網掀起現象級熱潮，“養龍蝦”式的創新AI交互玩法快速破圈，點燃了開發者與科技愛好者的熱情。從目前的發展情況來看，圍繞OpenClaw的探索，仍主要集中在數字世界，例如文檔處理、數據整理等典型任務。而能夠延伸至真實物理環境、完成實體交互

當前，人工智能技術正加速重構企業辦公生態，本地部署、可主動執行的AI工具成為行業趨勢。OpenClaw憑借本地運行、任務自治等優勢，可實現文件整理、定時任務、辦公指令自動化，成為企業高效辦公的優質選擇。但其對設備算力、系統穩定性與專業部署要求較高，普通用戶與企

根據工業和信息化部、國家標準化管理委員會聯合印發的《國家智能制造標準體系建設指南(2024 版)》，明確提出到 2026 年，制修訂 100 項以上國家標準、行業標準，構建適應新型工業化發展的智能制造標準體系。截至目前，我國已累計發布智能制造國家標準 472 項、國際標準

2026 年想選一款不踩坑的游戲手柄?看這篇就夠了!本文緊扣從百元內高性價比入門款，到拉滿性能的高端旗艦款的全價位覆蓋，幫你精準匹配需求、閉眼選品。本次推薦的核心，是深耕游戲外設 12 年、獲央視權威認可、拿下微軟 Xbox 官方授權的國產標桿品牌蓋世小雞(GameSir)。

在過去 40 年里，個人計算機一直是人類手中最重要的工具。你坐下來，打開應用程序，開始工作。你寫作、構建、設計、分析、編輯、探索并創造。機器為你服務。它是個人化的，也是強大的。它以前所未有的方式拓展了個人能力。它為創作者提供了專業級工具，也讓數十億人能夠

多年來，強大的AI模型主要部署在云端，通過遠程API和服務進行訪問。但隨著本地硬件性能的提升以及推理軟件棧的優化正開始改變這種模式，使得直接在個人系統上運行高性能的大語言模型成為可能。這一轉變也催生了一個被稱為智能體計算機(Agent Computer)的新計算類別。與

3月15日，由vivo與南開大學聯合承辦的第三屆“中國高校計算機大賽-AIGC創新賽”在南開大學正式啟動。vivo副總裁、OS產品副總裁，vivo AI全球研究院院長周圍，全國高等學校計算機教育研究會理事長、中國高校計算機大賽組委會主任蔣宗禮，南開大學黨委副書記牛文利等嘉賓

2026年第三屆“3·15放心消費嘉年華”公益活動于3月13日至3月15日在杭州盛大舉行。這場由中國消費者協會與浙江省消費者權益保護委員會共同主辦的盛事，以“品質消費，悅享生活”為核心主題，將“六好”標準設定為參展品牌和產品的關鍵準入條件，并依據此對參展者展開嚴

當貝D7X Pro獲315認可：游戲、觀影、租房黨都適用!2026年第三屆“3·15放心消費嘉年華”公益活動于杭州盛大啟幕，這場由中國消費者協會、浙江省消費者權益保護委員會聯合主辦的盛會，以“品質消費，悅享生活”為主題，將“六好”標準作為核心準入門檻，對參展品牌和產品

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR比爾科技官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

Soul App發布開源模型SoulX-LiveAct:高魯棒實時交互數字人,雙卡低成本流式生成