國產AI視頻三國殺:可靈、即夢、Vidu,誰會是最大贏家?

劃重點:
1、本文從產品實測、技術路線、商業前景三個維度,分析即夢、可靈、Vidu這三位國產頭部玩家,誰會是最大贏家?2、從測試結果看,可靈優勢是表現力強,劣勢是容易“用力過猛”;Vidu 優勢是真實、細膩,劣勢是節奏慢、爆發力不足;即夢優勢是均衡、可控,劣勢是略顯“平庸”。3、AI視頻生成背后的關鍵技術是 DiT(Diffusion Transformer)。可靈AI在技術路線上選擇了與Sora一致的DiT架構,Vidu的U-ViT則走了另一條融合之路,即夢背后也有DiT的身影,主要以字節自研Seedance1.0系列模型為主;4、如果說技術決定了產品的下限,那么市場、生態和推廣策略則決定了它們的上限。最終贏家,極有可能在可靈和即夢之間產生。原因很簡單:AI視頻的終極戰場在應用,在生態。5、我們更傾向于擁有剪映的即夢。因為可靈的成功更依賴于“爆款內容”的出現,而即夢的成功則建立在“賦能工具”的普及上。工具的滲透通常比內容的爆發更持久、更具粘性。當然,這僅僅是基于當前戰局的邏輯推演。
作者 林易
編輯 重點君
國產AI視頻有了新進展。就在2025世界人工智能大會(WAIC)期間,快手旗下可靈AI高調披露最新用戶數據:在全球創作者超過4500萬,累計生成視頻超2億個、圖片超4億張。
生數科技旗下Vidu也在WAIC期間,發布了最新“Vidu Q1參考生”功能。生數科技CEO駱怡航介紹,據通過對模型算法層面的調整,只上傳人物、道具、場景等參考圖,就可以直接將多個參考元素生成為一段視頻素材,以“參考圖——視頻生成——剪輯——成片”流程取代分鏡生成工作。

生數科技CEO駱怡航
國產AI視頻進展不斷。就在前一陣子,一部名為《新世界加載中》的“三無劇集”悄然上線,沒有演員、沒有攝影機、沒有燈光,宣傳海報上最顯眼的信息竟可能就是“可靈AI”。

這部共計9集的劇集,內容橫跨動漫風、3D動畫風、真人風,涵蓋科幻、奇幻、荒誕喜劇、歷史等多元題材,統統都是由AI來生成的。我們先來隨機來感受一下它能夠實現的效果:

雖然這部中國版《愛死機》目前并沒有達到爆款程度,也被很多網友詬病在整體敘事上存在割裂感等等,但《新世界加載中》的誕生卻顯示出生成式AI在打造影視作品中所具備的潛力。
而就在《新世界加載中》誕生前后,全球范圍內的戰火早已點燃:OpenAI Sora雖未公測,但其放出的每一個Demo持續刷新著人們的認知上限;Luma AI的Dream Machine橫空出世,以驚人的效果迅速引爆了創作者社區;谷歌、Meta等巨頭也紛紛亮出自己的王牌產品。
在這場競賽中,中國玩家們也不是旁觀者。除了WAIC期間高調亮相的可靈AI、Vidu,以及字節跳動旗下一直在發力的即夢AI。它們不僅在技術上緊追不舍,更在產品落地上展現出極強的求生欲和創造力。
因此,當下的問題早已不是“AI能否制作視頻”,而是“誰能做得更好、跑得更快、看得更遠”。
本文將把即夢、可靈、Vidu這三位國產頭部選手置于聚光燈下,通過一次同臺PK,從產品實測、技術路線、商業前景三個維度,試圖回答那個終極問題:
在這場“三國殺”里,誰最會是最大贏家?
同臺競技,三款國產AI視頻“演技”大比拼
基于“效果才是硬道理”的原則,我們先對即夢、可靈和Vidu分別做一個實測。測試方法是用下面這張AI生成的圖片作為圖生視頻的參考圖,再配以適當的Prompt,讓三位AI選手生成一段具備演技派實力的表演視頻。

可以看到,這張參考圖已經具備了一定的電影質感,尤其是圖中的女生,眼神里已然是飽受生活折磨的無力感。接下來,我們先用下面這段Prompt生成一個5s的視頻:
“固定鏡頭,一個亞洲女性轉過頭,看向鏡頭,憂郁的看著鏡頭,噗呲一下笑出來。”
然后將第一個視頻的尾幀作為第二次圖生視頻的參考圖,并輸入第二段Prompt:
“固定鏡頭,一個亞洲女性看著鏡頭笑,笑著笑著,情緒失控開始笑著哭泣,表情自然不夸張,展現了人物情緒遞進的過程。”
最后將兩段視頻拼接到一起,整體來感受一下最終效果。在這個過程中,AI能否時刻保證人物、背景、各種細節的一致性是最為關鍵的考量;其次,視頻中AI人物的演技是否能夠真人演員相媲美則是審美維度的另一關鍵評判標準。
(注:為公平起見,結果均采用三個AI第一次生成的結果;模型均采用免費的最新版本:即夢視頻3.0、可靈2.1和Vidu 2.0。)
即夢的測試結果如下:

即夢的AI演員表演相對“規矩”,它準確地執行了“笑”的指令,并且在第二段視頻中試圖通過緊鎖的眉頭來疊加“哭”的情緒。整個過程更像是兩種表情的混合,而非流暢的情緒轉變。
接下來是可靈的測試結果:

可靈的AI演員是“體驗派”,表演風格大開大合。它的“笑”和“哭”都表現得極為夸張,充滿了戲劇張力。雖然情緒飽滿,但與Prompt中“自然不夸張”的要求有所出入。此外,其免費版的生成等待時間過長(平均超過3小時),對普通用戶不夠友好。
最后,我們再來看下Vidu的測試結果:

Vidu的AI演員走的是“內斂”路線。它的表情變化非常含蓄,更貼近真實人物的反應。但缺點在于節奏太慢,在每段僅5秒的時長里,情緒的醞釀過程過長,導致核心的“哭戲”部分沒能完全展現出來。
可以明顯看到,三位AI選手都已經克服了此前AI視頻生成被詬病已久的一致性問題,在同樣的參考圖和Prompt之下,更加注重如何提高表現完整性和審美度。
如果將三位AI選手看作三位演員,我們可以得出更直接的結論:
可靈AI:優勢是表現力強,劣勢是容易“用力過猛”。 它最懂如何調動情緒,能生成最具視覺沖擊力的畫面,非常適合制作短平快的戲劇化內容。但它的問題在于對“度”的把握,容易將自然的情感夸張為舞臺劇,離影視級的細膩表演還有距離。
Vidu AI:優勢是真實、細膩,劣勢是節奏慢、爆發力不足。 它在模擬真實物理世界和微表情上最具潛力,生成的視頻最有“電影感”。但它似乎過于“沉浸”在自己的節奏里,在短視頻場景下,這種“前搖”過長的特點會成為致命傷,無法在黃金幾秒內抓住觀眾。
即夢AI:優勢是均衡、可控,劣勢是略顯“平庸”。 它像一個聽話的學生,能準確完成指令,但在藝術表達上缺乏驚喜。它在功能全面性(如數字人、動作模仿)上做得最好,顯示出其工具屬性的定位,但在純粹的生成質量和藝術感染力上,介于可靈和Vidu之間,尚未形成自己鮮明的“人設”。
除此之外,我們還對即夢、可靈和Vidu其它功能和特點做了簡單總結:

那么在內容表達上,它們三者為什么會有截然不同的表現方式,我們接下來深挖一下它們背后的技術。
DiT框架下的三條分叉路
2024年春節期間,OpenAI發布的Sora可謂是在全球范圍內一舉點燃了AI視頻生成的熱度。與此同時,它背后的關鍵技術DiT(Diffusion Transformer)的熱度也是線性大漲。
DiT的本質從大方向來看,是將擴散模型(Diffusion Model)與Transformer架構結合,以此來實現高質量視頻生成。
擴散模型的核心思想是“先加噪,再降噪”。模型首先在一個清晰的視頻(或圖片)上不斷施加高斯噪聲,直至其變為完全無序的噪點;然后,模型學習這個過程的逆過程,即如何從一個純粹的噪聲中,逐步“去噪”并還原出一個結構清晰、內容豐富的視頻。
這個“去噪”網絡,通常采用一個名為U-Net的卷積神經網絡結構。U-Net的“U”形結構使其能夠同時捕捉圖像的局部細節和全局輪廓,非常適合圖像處理任務。
而最初應用于自然語言處理(NLP)領域的Transformer,它的核心是自注意力機制(Self-Attention),能夠高效處理長距離依賴關系。Transformer將輸入數據(如句子中的單詞)視為一系列“令牌”(Tokens),并通過計算令牌之間的相互關系權重,來理解整個序列的深層語義。
通過二者的結合,DiT就可以把視頻壓縮成一系列時空“補丁”(Spacetime Patches),這些補丁就像句子中的單詞一樣,被送入Transformer進行處理。這使得模型能夠更好地理解視頻內容在時間和空間上的全局關聯性,從而生成更長、更連貫的視頻。

可靈AI在技術路線上選擇了與Sora一致的DiT架構。這表明它認可了Transformer在處理視頻時空依賴關系上的巨大潛力。然而,快手并未止步于復現,而是在此基礎上進行了多項關鍵的自研創新,這些創新共同指向了一個核心目標:生成更長的、高質量的視頻。
它的其兩大“殺手锏”分別是3D VAE和3D時空聯合注意力機制。
VAE是一種變分自編碼器,用于將高維數據(如視頻幀)壓縮到低維的“潛在空間”(Latent Space),同時保留其核心特征。傳統的VAE主要處理二維圖像,而可靈自研的3D VAE則專門為視頻數據設計。
它不僅對單幀畫面進行空間壓縮,更重要的是,它將時間維度也納入考量,將一段視頻壓縮成一個包含時空信息的潛在向量。這使得模型在處理數據時,起點就更高,能夠更高效地學習視頻的動態變化規律。
3D時空聯合注意力機制是可靈生成視頻的另一個關鍵技術。在標準的DiT中,注意力機制主要在空間補丁和時間步之間計算。而可靈的3D注意力機制則是在一個立體的時空數據塊上進行操作。
它允許模型在生成某一幀的某個區域時,不僅能“看到”當前幀的其他部分(空間注意力),還能同時“回顧”過去幾秒甚至幾十秒的畫面內容,并“預判”未來的動態趨勢(時間注意力)。
這種時空聯合的注意力計算方式,極大地增強了模型對長期動態的建模能力,確保了視頻里人物的身份、服飾,以及場景的環境能夠保持高度一致,避免了普通模型中常見的“閃爍”、“變形”等問題。
可靈架構的核心優勢是將時間和空間信息高度融合處理。它不僅看“這一幀”,更看重“這一秒”甚至“這幾秒”,因此在動作連貫性和長期一致性上表現最好。這解釋了為什么可靈能駕馭《新世界加載中》這樣更長的敘事,也能做出最具爆發力的表情,因為它對動態變化的理解更深刻。
但劣勢也是比較明顯,對時空信息的全局建模計算成本極高,這可能是其生成速度慢的原因之一。同時,對動態的過度強調,也可能導致其在處理靜態或微表情時傾向于“腦補”出更夸張的動作。
而Vidu的U-ViT則走了另一條融合之路。
它并非簡單地用Transformer替代U-Net中的某些模塊,而是將Transformer的注意力機制巧妙地整合進了U-Net的骨架中。具體來說,U-ViT保留了U-Net經典的下采樣(編碼)和上采樣(解碼)的層次化結構,但在不同層級的特征處理中,都融入了Transformer模塊。
U-ViT的優勢在于,它既利用了U-Net在捕捉視覺底層特征(如紋理、邊緣)方面的強大能力,又借助了Transformer在理解全局語義和長程依賴(如物體運動軌跡、場景邏輯)方面的優勢。這種設計被證明在模型擴展(Scaling Law)上表現優異。
基于U-ViT架構,Vidu在發布時實現了生成1080P分辨率的高清視頻。其核心產品哲學可以概括為“一步到位”和“模擬真實”。
“一步到位”是指技術上的端到端(End-to-End)一次性生成,而非通過生成關鍵幀再進行插幀的技術。這意味著視頻中的每一幀都是模型綜合考慮了全局時空信息后生成的,保證了運動的流暢性和邏輯的連貫性,能夠實現復雜的“一鏡到底”動態鏡頭效果,如追焦、轉場等。“模擬真實”則是指致力于模擬真實的物理規律,生成符合光影邏輯、重力效果和流體動態的場景。
這條路線的精髓在于“各司其職”。U-Net負責捕捉圖像的底層細節(如紋理、光影),Transformer負責理解全局的邏輯關系。這使得Vidu在模擬真實物理規律(光影、重力)和刻畫細膩質感上獨具優勢,其視頻擁有最高的“畫質感”和“真實感”。
但它對局部細節的精雕細琢,可能使其在理解和執行大幅度的、快速的動態變化時相對保守。這解釋了為什么Vidu的表演顯得內斂且節奏偏慢,因為它更傾向于在物理真實的框架內進行演繹。

至于即夢AI,在它的技術背后依舊也有DiT的身影,在視頻生成方面,主要是以自研的Seedance 1.0系列模型為主。
根據此前公開的Seedance 1.0視頻生成模型技術報告,Seedance 1.0支持文字與圖片輸入,可生成多鏡頭無縫切換的1080p高品質視頻,且主體運動穩定性與畫面自然度較高。
在第三方評測榜單 Artificial Analysis上,Seedance 1.0文生視頻、圖生視頻兩個任務的表現均位居首位。

Artificial Analysis 文生視頻榜單

Artificial Analysis 圖生視頻榜單
根據技術報告披露,Seedance1.0引入精準描述模型,提升了數據多樣性與可用性;通過統一的預訓練框架,實現了多鏡頭切換與多模態輸入;后訓練階段構建復合獎勵系統,提升畫面生動性、穩定性和美感;并且大幅提升了推理速度,最快約40秒就可以生成5秒1080p視頻。具體到產品而言,即夢采用了分級模型策略:•即夢3.0版本使用的是Seedance 1.0 mini模型。•即夢3.0 pro版本則采用了性能更強的Seedance 1.0模型。這種模型分級的策略體現了一條典型的“實用主義”路線。通過提供不同性能層級的模型,即夢能夠在保證基礎生成質量的同時,有效降低普通用戶的算力門檻,從而能將更多計算資源投入到豐富產品功能(如數字人、動作控制)和提升整體用戶體驗(例如更快的生成速度)上。當然,這種策略也可能意味著在核心生成質量的極限追求上有所權衡。相較于業界一些專注于達到極致動態表現力和細節真實感的頂尖模型,即夢的選擇更側重于技術的普惠和產品功能的全面性。這或許可以解釋其在部分測試中,生成視頻的情緒轉場或細節表現力與頂尖水平存在一定差距,這可以看作是技術路徑和產品定位權衡下的結果。
總的來看,技術路線直接決定了產品氣質。可靈的“Sora路線”讓它成為了一個表現派,Vidu的“融合路線”讓它成為了一個寫實派,而即夢的“實用路線”則讓它成為了一個工具派。
技術之外的戰場:誰的生態位更優越?
如果說技術決定了產品的下限,那么市場、生態和推廣策略則決定了它們的上限。
可靈最大的優勢是背靠快手這個巨大的短視頻流量池。它不需要從零開始獲取用戶,可以直接嵌入到數億人的創作和消費鏈路中。快手龐大的視頻數據也能為模型迭代提供最寶貴的“養料”。《新世界加載中》就是一次極佳的“內容即營銷”案例。
但如何將強大的技術能力轉化為普通用戶也能輕松使用的產品功能,并找到清晰的商業化路徑,是其核心挑戰。如果只是一個“炫技”的獨立工具,將很難在快手生態內生根發芽。
Vidu“清華系”的背景為它提供了強大的技術背書和人才儲備,使其在底層技術創新上具備領先潛力。Vidu的定位更接近一個底層基礎大模型,未來在To B(賦能影視、設計等行業)市場有巨大的想象空間。
不過它最大的挑戰在于產品化和市場化。學院派團隊往往在技術上追求極致,但在用戶體驗、市場推廣和商業運營上相對薄弱。Vidu需要盡快找到自己的商業落地場景,避免陷入“叫好不叫座”的困境。
而字節跳動擁有抖音和剪映兩大王牌,這為即夢提供了比快手更完整的“創作-分發”閉環。即夢的功能設計(如數字人、運鏡選擇)透露出其野心:它不想只做一個“生成器”,而是想成為下一代視頻創作工作流的核心,深度整合進剪映等工具中。
但字節內部賽馬激烈,即夢需要證明自己相對于其他AI項目的價值。同時,如何在龐大的產品矩陣中找到最合適的切入點,并教育用戶接受全新的創作方式,同樣充滿挑戰。
誰會是最大的贏家?
經過三輪對比,我們可以下一個更大膽的結論:
Vidu擁有最高的上限,但面臨最崎嶇的道路。它的技術路線決定了它最有潛力生成電影級的、真正以假亂真的視頻內容,成為專業領域的“生產力工具”。但它能否成功越過從技術到產品的“死亡谷”,仍是未知數。
而最終的最大贏家,極有可能在可靈和即夢之間產生。
原因很簡單:AI視頻的終極戰場在應用,在生態。
可靈已經通過《新世界加載中》證明了自己在內容側的野心和實力。如果快手能下定決心,將可靈的能力無縫融入其短視頻生態,降低創作門檻,它將有機會引爆一場全民AIGC的浪潮。
即夢則更像一個潛行的刺客,它的目標是重塑“創作者”的定義。當AI視頻生成能力像今天的“一鍵剪同款”一樣被整合進剪映,它將直接賦能數千萬內容創作者,其爆發力同樣不可估量。
如果要在這兩者中選擇一個更看好的,我們更傾向于擁有剪映的即夢AI。因為可靈的成功更依賴于“爆款內容”的出現,而即夢的成功則建立在“賦能工具”的普及上。工具的滲透通常比內容的爆發更持久、更具粘性。
當然,這僅僅是基于當前戰局的邏輯推演,每一個國產AI視頻玩家的進展都值得肯定。這場競賽才剛剛開始。唯一可以確定的是,無論是誰最終勝出,我們都將以前所未有的方式,見證一個“新世界”的加載。
原文標題 : 國產AI視頻三國殺:可靈、即夢、Vidu,誰會是最大贏家?
請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
-
11月7日立即參評>> 【評選】維科杯·OFweek 2025(第十屆)物聯網行業年度評選
-
11月20日立即報名>> 【免費下載】RISC-V芯片發展現狀與測試挑戰-白皮書
-
即日-11.25立即下載>>> 費斯托白皮書《柔性:汽車生產未來的關鍵》
-
11月27日立即報名>> 【工程師系列】汽車電子技術在線大會
-
11月28日立即下載>> 【白皮書】精準洞察 無線掌控——283FC智能自檢萬用表
-
12月18日立即報名>> 【線下會議】OFweek 2025(第十屆)物聯網產業大會


分享













