春節(jié)將至,當(dāng)多數(shù)行業(yè)放緩節(jié)奏時,AI領(lǐng)域卻呈現(xiàn)出一片火熱景象。新模型如潮水般不斷涌現(xiàn),絲毫沒有停歇的跡象。這一時期,AI行業(yè)呈現(xiàn)出一種獨(dú)特的現(xiàn)象:一方面,各大廠商在AI入口處展開激烈的營銷競爭,全力爭奪用戶心智和使用場景;另一方面,底層模型的更新迭代速度依舊迅猛,絲毫未受影響。
廠商們心里明白,僅靠入口的包裝和營銷的聲量,無法支撐起長期的競爭力,模型能力的持續(xù)提升才是關(guān)鍵所在。近期,字節(jié)跳動推出了新一代視頻生成模型Seedance 2.0,將視頻生成技術(shù)朝著“更可控、更連貫、更貼近真實(shí)鏡頭語言”的方向又推進(jìn)了一步。值得注意的是,此次大版本更新距離前一代支持音視頻聯(lián)合生成的模型Seedance 1.5 Pro發(fā)布僅過去了兩個月。
在AI領(lǐng)域,入口競爭與模型更新這兩條線并行推進(jìn),且互不等待。為了深入了解Seedance 2.0的性能,我們對其進(jìn)行了全面實(shí)測。此次實(shí)測是在“即夢”平臺上使用該模型展開的。
Seedance 2.0的一大亮點(diǎn)是參考能力更加全面。與上一代的音視頻模型Seedance 1.5 Pro相比,它對多張圖片、多段視頻同時參考的支持能力更強(qiáng),使用起來也更加便捷。不僅如此,加強(qiáng)“參考視頻”能力似乎已成為行業(yè)趨勢,像Kimi 2.5這類通用大模型,也開始強(qiáng)調(diào)能夠參考視頻內(nèi)容生成結(jié)果。
我們首先以運(yùn)動品牌風(fēng)格的人物模特和運(yùn)動手表實(shí)物產(chǎn)品為素材進(jìn)行測試。同時,上傳了一支經(jīng)典的Apple Watch官方宣傳片作為參考視頻。這款宣傳片采用多鏡頭結(jié)構(gòu),包含人物鏡頭和產(chǎn)品特寫,非常適合作為參考素材。在“即夢”平臺上,操作十分簡便,只需按照直觀的提示,告知模型參考視頻的鏡頭節(jié)奏和風(fēng)格,生成新的運(yùn)動手表廣告,并替換主角和商品圖片即可。整個流程就是選擇參考視頻、人物圖和商品圖,然后讓模型生成新的廣告片。
生成這類視頻耗時較長,積分消耗也不低。例如,使用兩張圖片和一段參考視頻生成一條15秒的視頻,大約需要消耗近200積分。不過,成片質(zhì)量相當(dāng)可觀。視頻整體真實(shí)感強(qiáng),模特在公路上跑步時的光線變化、頭發(fā)反光、臉部受光等細(xì)節(jié)處理得十分到位,毫無虛假之感。而且,在沒有提供完整故事結(jié)構(gòu),僅給出參考素材和目標(biāo)類型的情況下,視頻節(jié)奏由模型自行編排。片中主要展示的產(chǎn)品就是提供的手表,有兩段鏡頭專門聚焦手表并添加了動效。畫面元素基本無誤,但數(shù)字和中文偶爾會出現(xiàn)亂寫的情況,不過與上一代相比,這種“AI幻覺”現(xiàn)象有了明顯改善。
鑒于Seedance 2.0在動效表現(xiàn)上的出色發(fā)揮,我們進(jìn)行了更多測試。我們生成了一張新春財(cái)神抱著金元寶的圖片和一張美劇風(fēng)格的惡靈騎士角色圖,將這兩張圖作為參考素材,讓模型生成視頻。給定的目標(biāo)是先讓財(cái)神出場,背后是發(fā)光的元寶和金幣,接著惡靈騎士騎著摩托沖進(jìn)畫面,然后財(cái)神騎著摩托離開,最后閃現(xiàn)“新春快樂”和具體日期的畫面。成片中,開頭惡靈騎士部分AI感較重,但財(cái)神與道具的互動、表情變化和動作銜接比以往更加流暢。我們還發(fā)現(xiàn),畫面中較大的藝術(shù)字,Seedance 2.0出錯的概率較低。我們也測試了畫面中有多個主體且鏡頭逐個掃過的場景。
我們制作了一張五個小動物穿著不同禮服坐在長椅上的圖片,讓畫面中的小動物一起跳舞拜年,鏡頭逐個掃過并在每個角色動作上停留,給予慢鏡頭和特寫。這一測試主要考察模型在鏡頭逐個掃過時角色出場順序的一致性,即視頻中的出場順序要與原圖中小動物從左到右的順序一致。從生成結(jié)果來看,Seedance 2.0在畫面質(zhì)量和整體一致性上表現(xiàn)不錯,但經(jīng)過多次嘗試才得到滿意版本,仍會出現(xiàn)熊貓和兔子位置對調(diào)等順序問題。不過,當(dāng)鏡頭停留在單個角色上時,毛發(fā)細(xì)節(jié)、質(zhì)感和真實(shí)度,以及鏡頭切換都處理得較為自然。
我們還進(jìn)行了更具敘事性的視頻案例測試。以一張十字路口大型3D LED屏畫面(里面有一只尾巴伸出屏幕的貓)和一張經(jīng)典宇航員圖片為參考素材,提示模型讓宇航員走進(jìn)十字路口,停下打開頭盔面罩、戴上墨鏡,看向3D LED屏里的貓并愣住,周圍街道人來人往。最終生成的視頻效果良好,宇航員走進(jìn)路口時,周圍行人和車輛的動態(tài)變化自然,沒有明顯錯亂感。但屏幕里的貓顯得有些呆滯,靈動感不足。
接著,我們以一張包含多個男性角色的Instagram風(fēng)格剪貼畫為素材,要求模型在保留人物和背景不變的情況下,讓這些男性角色一起跳動起來。這一任務(wù)難度較大,因?yàn)橐酝o態(tài)生成復(fù)雜圖片就容易出錯,視頻中讓剪貼畫人物動起來并互動,更容易使周圍元素混亂。我們給出的提示詞明確要求保留畫面文字,讓七個人物在搞笑、抽象的節(jié)奏下跳舞并互動。最終生成的視頻與提示詞相符,畫面文字未被改動,七個角色之間有互動且基本同步跳舞,遮擋文字時文字也未被修改。
最后一個案例中,我們使用了一位體操運(yùn)動員運(yùn)動時的模糊剪影圖片,提供了五張具有明顯動態(tài)拖影、構(gòu)圖極簡的參考圖,要求模型保留動態(tài)拖影感覺,生成具有運(yùn)動廣告片質(zhì)感、可直接發(fā)布到短視頻平臺的視頻。生成效果令人滿意,模型在結(jié)構(gòu)和節(jié)奏上有主動安排,鏡頭切換自然,并非簡單地將圖片變成動圖后硬切。即使沒有提供音樂參考和提示詞,生成視頻的音樂與節(jié)奏也較為合拍。部分鏡頭還會主動給出慢鏡頭特寫,且為了使鏡頭銜接自然,會對參考畫面進(jìn)行前后內(nèi)容的補(bǔ)充和動作的延伸。
Seedance 2.0在敘事節(jié)奏、鏡頭切換以及對參考圖片和視頻的一致性保持方面,相比上一代音視頻模型有了顯著提升。然而,它也存在一些問題,比如畫面中細(xì)小文字或元素在動態(tài)變化時仍會偶爾出錯,不過出錯頻率已大幅降低。同時,單個視頻生成時間長,積分消耗大。對于字節(jié)的平臺而言,這有助于提升內(nèi)容供給效率,因?yàn)樵撃P鸵讶鎽?yīng)用到旗下“即夢”、CapCut(剪映)等AI內(nèi)容創(chuàng)作平臺。目前,視頻生成模型已快速進(jìn)入產(chǎn)品化和商業(yè)化驗(yàn)證階段,誰能將生成質(zhì)量、速度、可控性和接入成本控制在可用范圍內(nèi),誰就更有可能融入真實(shí)內(nèi)容生產(chǎn)鏈路。












