實測國產視頻生成大模型 一個人「拍」一部劇?

測試vidu、清影、可靈、即夢,視頻生成效果如開盲盒

作者/  it時報記者   沈毅斌

編輯/  潘少穎  孫妍

「ai生成不僅可以降低影片製作、場景搭建、妝造設計等成本和時間,也降低了入局門檻,一個人就可能拍完一部劇。」上海大學溫哥華電影學院副院長陳曉達曾向《it時報》記者講述視頻生成大模型對影視行業的影響。


今年七月,國產視頻生成大模型迎來爆髮式增長。生數科技打造的視頻大模型vidu上線;智譜ai正式發佈視頻生成大模型「清影」;快手可靈ai、抖音即夢ai紛紛正式上線網頁端……


在火熱的國產視頻生成大模型賽道,究竟誰家效果更好,最有可能「取代」演員?《it時報》記者選取vidu、清影、可靈、即夢四款國產頭部視頻生成大模型,採用統一的電影寫實設定和提示詞進行實測。

整體情況

vidu:頁面主體十分簡潔,左側為輸入框,可選擇文本輸入或圖片輸入。左上角的「設置」有寫實和動畫兩種生成風格,生成的視頻時長為4秒和8秒。需要注意的是,8秒生成時長需要付費訂閱。右側為輸出框,用戶可以看到此前的生成記錄,並進行重新編輯,讓視頻更加完善。


●清影:作為「智譜清言」的一項功能,清影位於「智能體」功能鍵中,同樣可以選擇文生視頻和圖生視頻。界面分為四個部分,左側是功能模塊、歷史記錄和視頻預覽。右側是控制台,相比vidu,清影擁有更豐富的參數設定,不僅可以選擇3d卡通、油畫、電影感等視頻風格,還能選擇情感氛圍和運鏡方式,實現更好的畫面效果。


●可靈:除了文本輸入框,可靈還有更為詳細的參數調整,用戶可以調整生成模式、生成時長、視頻比例。最具特色的是創意想像力和創意相關性調整,初始狀態參數為0.5,越靠近1與文本關聯性越強,反之越趨近0創意性越強。在運鏡方面,可靈擁有10種運鏡方式,同時還可以選擇不希望出現的內容,精準控制生成內容。


●即夢:即夢界面具備生成模式、生成時長、視頻比例等多種調整功能。在右側預覽部分,可對生成視頻進行延長時長、對口型、補幀、提升分辨率等調整,但都屬於會員功能。即夢與可靈的區別在於運鏡調整,採用上下左右、旋轉、變焦等方式調整參數,可以更精細地調度鏡頭,同時還能控制鏡頭運動速度,達到想要效果。

場景一:城市多場景

提示詞:在未來城市中,人形機械人有的在清掃街道,有的在家為居民做早餐,還有的在商場擔任導購。

測試結果:即夢>可靈>vidu>清影

●vidu:《it時報》記者輸入提示詞後,vidu僅用1分鐘左右就生成了一條4秒的視頻,是四款大模型中最快的。從生成效果來看,畫面符合寫實設定,一開始展示出在街道上行走的人形機械人,一秒後切換為室內場景,展示出做早餐和商場指引的場景,每個場景的銜接都是直接切換。儘管vidu可以實現多場景生成,但與文本關聯性並不密切。第一個提示詞中的街道場景出現的人形機械人只是在行走,並未清掃街道。而後兩個場景都是真人完成的動作,並未出現「主角」人形機械人。

●清影:在輸入提示詞後,清影需要等待5—8分鐘才完成生成,儘管選擇寫實風格,但生成畫面依舊偏向3d動畫。一個鏡頭是人形機械人用吸塵器快速清掃着街道,主體清晰背景卻十分模糊。隨着畫面的快速運動,場景也從街道轉為室內,人形機械人開始做早餐,但無論是背景還是主體,都較為模糊,尤其是人形機械人,已經發生嚴重畸變。最後進入單一場景,畫面才變得清晰,人形機械人站在鏡頭前操控着數字屏幕導購。影雖然可以理解文字意思,且在場景銜接處加入了過渡和轉場,但模糊難以避免,畸變情況較為嚴重。


●可靈:在場景生成中,可靈並沒有生成多個畫面,僅一個未來商業場景就將清掃街道和導購兩個任務涵蓋其中,多個人形機械人穿梭在街道,執行不同的任務。由於做早餐屬於室內場景,在視頻中沒能體現出來。但可靈生成的場景寫實感較強,更符合記者所設想的畫面,清晰度和流暢度也是最好的。不過,在第三秒時,畫面中的一個人形機械人突然分裂成兩個,細節還需要改進。

●即夢:從整體畫面來看,即夢生成的視頻偏向3d動畫,同樣以一個場景進行展現。畫面中心是多個人形機械人利用清潔工具清掃街道;右側是一個人形機械人與人類對話,完成導購指引;旁邊的早餐鋪雖不起眼,但能看出有機械人在做早餐。即夢也是所有大模型中多場景能力展現最好的,但畫面動作幅度不大,更像是動圖的感覺。

場景二:人物動作運鏡

提示詞:兩位武俠在竹林間比武,鏡頭由遠及近逐漸推至人物面部。

測試結果:清影>vidu>可靈>即夢

●vidu:vidu能理解並展現「竹林」與「武俠」兩個關鍵詞,同時保持較強的寫實感,生成的人物貼近真人。但在動作處理方面,表現一般,最直觀的是兩位武俠在比武過程中,一會是拳腳比試,一會手中又出現寶劍。鏡頭也沒有由遠及近推拉運動,直到最後一幀突然出現一張人物臉部特寫,十分突兀。無論是畫面精細程度還是連貫性,遠不及場景一。


●清影:在測試的四款大模型中,清影的人物和場景畸變最為嚴重,從視頻開頭到結尾,兩位武俠的動作幅度雖大,但十分模糊,面部輪廓也沒能呈現出來,直到最後特寫定格才快速生成出一張清晰的人臉。但在鏡頭運動方面,清影做到了由遠及近推拉運動。記者重新生成一條同樣的視頻並加上旋轉鏡頭後,清影依舊可以展現很強的運鏡效果。

●可靈:可靈的畫面採用俯拍視角,竹林間,兩位身穿盔甲的士兵扭打在一起,看不清面部,也沒有理解「武俠」一詞。人物動作以推搡為主,不及前兩家大模型。運鏡方面,可靈生成的視頻完全沒有鏡頭運動,從始至終都保持一個角度和景別,讓視頻觀賞性大大減弱


●即夢:即夢注重人物面部呈現,視頻中兩位武俠緊貼在一起,臉部始終清晰,長袍束腰的服飾也符合中國武俠的形象。但人物以靜止為主,直到最後才做出扭頭和揮手的動作,沒有比武打鬥動作,也沒有鏡頭運動

場景三:動物擬人

提示詞:一隻參加奧運會的熊貓,完成體操項目比賽。

測試結果:vidu>可靈>即夢>清影

●vidu:一隻與《功夫熊貓》非常相似、身着奧運五環紅色背心的熊貓站在鞍馬上舉起上臂歡呼,隨後彎下腰跳下鞍馬,這是vidu在場景三中生成的畫面。與之前不同的是,vidu在此輪測試中採用3d卡通風格,更符合動物擬人形象。動作方面符合邏輯且沒有出現重影、卡頓,是目前測試中效果最佳的視頻。


●清影:用同一提示詞生成兩條視頻後,清影沒能呈現出清晰的熊貓形象。視頻中位於鞍馬上的熊貓一直背對用戶,做出一個翻滾動作後,黑白配色便開始錯亂,重影、模糊等問題明顯,背景中的觀眾也會隨着畫面抖動。儘管只有6秒時長,但每一個畫面都存在形變。


●可靈:可靈依舊保持寫實風格,熊貓以動物形象呈現,沒有擬人效果。它對着鏡頭緩慢爬行,隨後伸個懶腰便坐了下來,整體動作行雲流水,並未出現形變、重影,也符合熊貓的行為邏輯。不過,在體操表現上不足,除了一塊藍色的體操墊,便再無體操元素。雖然整體生成視頻與提示詞的關聯性不強,但畫面質量、動作流暢度在四款大模型中較好。


●即夢:畫面單一、動作幅度小是即夢生成視頻的特點,在場景三中,即夢依舊沒能改變這一現象。畫面中的熊貓保持動物形態用四足站在鞍馬上,但在運動過程中,熊貓增加了一條腿,對熊貓的物理運動方式不能完全理解。

記者手記

生成效果如同「開盲盒」

動作流暢、符合邏輯、多種運鏡等已經成為各家視頻生成大模型重點宣傳的功能,但從《it時報》記者測試來看,視頻生成效果與想像還有一定差距,每一條視頻可能存在意想不到的錯誤,類似「開盲盒」。

對於新人用戶來說,不需要輸入非常複雜的提示詞,大模型自動提示而生成的效果最佳。若輸入提示詞,也並非越複雜越好,而是需要拆分成一個個短句進行描述,單畫面生成效果最佳。此外,生成之後還需要進行優化調整,以此來減少失誤率,提升視頻質量。

值得一提的是,視頻生成需要花費較長時間,一條6秒的視頻生成大約需要5分鐘,且每次改進都需要重新生成。

儘管視頻生成大模型降低了入局門檻,但想要實現一人「拍」一部劇,還需要花費大量時間和精力。

排版/  季嘉穎

來源/《it時報》公眾號vittimes

e n d