當《繁花》遇上AI,兵馬俑跳科目三,2024AI的劇本是視頻?


2024或成ai視頻元年,

但當前的玩家更多的是愛好者,

商業交付能力還偏弱。



編輯|易瑾


從開播到結局,《繁花》的熱度不減反增。

劇中取景地和平飯店英國套房16888元一晚售罄、黃河路進賢路成網紅打卡地、可定製西裝的裁縫店電話被打爆、排骨年糕乾炒牛河引發餐飲商家跟風……結局彈幕中,充斥着觀眾對角色的致敬、不舍以及對第二部的呼聲。

近日,甚至有用戶使用chatgpt創作了《繁華2》預告片:90年代一個男人的故事,開始於最卑微的起點,雙手鑄就了他的命運。有劇粉直呼:不愧是ai,真敢說。

“有問必有答”,這是以chatgpt為代表的大語言模型的主要特徵,而預測下一步劇情、大結局外,從《繁花》出生起遇到ai,碰撞出了不一樣的“寶總”形象,也有影視愛好者用ai生成《繁華》視頻,致敬劇組。

進入2024年,ai視頻一改去年的沉寂,踏着希望之光走向大眾視野。從兵馬俑能跳科目三,帶火通義千問的全民舞王,到pixverse、pika等迭代新功能,給創造者打了一波雞血。ai視頻會如《繁花》一樣,好評如潮?這是一個問號。

ai世界的繁花

致敬《繁花》是ai影視探索者陳坤第一個在視頻號,公開發布的作品。40s的預告片,是他用mj(midjourney)作圖,pika生成的視頻,聲音採用的原聲。


圖源:閑人一坤視頻號

視頻發出後,在視頻評論區,不少用戶點贊、評厲害,也有用戶指出,動作還是很遲緩,走步那幾幀很奇怪。

在闡述為何選擇生成《繁花》預告片時,陳坤用“致敬”二字概括自己的初衷,他表示自己曾在華策、優酷等企業從事影視工作,以專業角度看《繁花》,無可厚非是一部好劇,且達到了難以超越的地步。

在敬畏和好奇心驅使下,他想象“《繁花》遇到ai”的畫面,並付諸行動。回顧ai視頻的生成過程,陳坤表示耗費了大約3天的時間,“裡面非常多的鏡頭,是現在aigc還生成不出來的,我更多的是用其他一些鏡頭語言去解決。”

其中值得一提的是,對於腿部運動的支持,是個大痛點,在致敬《繁花》的視頻中,陳坤表示為了生成阿寶和爺叔雙腿走紅毯的鏡頭,不下100次的嘗試,最終呈現的效果也仍差強人意。


圖源:閑人一坤視頻號

距離陳坤創作ai版《繁花》預告片,已經過去了近一個月。期間,字節發布新視頻生成模型majicvideo-v2、pika推出視頻畫面擴充功能、阿里開源dreamtalk、mj將在2月上線初始視頻功能……作為個人使用者,行業的變化陳坤也有明顯的體感。

“aigc是以天為單位在進化的,有的是版本級的進化,有的則是模型微調級的進化。”陳坤說如果是現在重新生成,上述鏡頭不至於生成上百次,效果也會更加流暢。

除了ai視頻外,《繁花》的熱度也蔓延到了ai繪圖、ai影評上,有創作者用ai呈現劇中的經典場景,如香港的街道、霓虹燈等,也有創作者將劇中人物李李、汪小姐和寶總,通過ai圖生圖,賦予了新的數字形象。



萬物皆可科目三

回頭來看過去的整個2023,全球各大科技巨頭從大模型競爭再到應用之戰,ai視頻幾乎和文生圖同一時期進入到人們的視野中,但在去年,ai視頻的發展速度顯然遜色於後者。直到去年年底和今年年初,pika、阿里animate anyone、runway等,在產品迭代和創新上燃起了行業的希望。

英偉達高級科學家jim fan預測,“2024將是視頻之年”。有意思的是,從2024年第一個工作日開始,兵馬俑、布偶、馬斯克以及各地網友跳科目和網紅舞的視頻就陸續在社交平台刷屏。

這些視頻都是用阿里的“全民舞王”ai生成的,用戶僅需上傳一張圖片,就可以生成一段舞蹈視頻。

目前,該應用中內置了12種舞蹈模板,除了“科目三”以外,還有dj慢搖、鬼步舞等網紅舞蹈。這個功能源自他們的一項學術研究animate anyone,這個研究的目標是做可控的人物視頻生成。

根據公開論文顯示,animate anyone集成了多項創新技術,引入了referencenet,用於捕捉和保留原圖像信息,可高度還原人物、表情及服裝細節;該算法使用了高效的pose guider姿態引導器,保證了動作的精準可控;通過時序生成模塊,有效保證視頻幀間的連貫流暢性。



阿里巴巴通義實驗室xr負責人薄列峰表示,“研究本身並不局限在舞蹈生成,為了讓偏枯燥的學術工作,變成大家都能體驗、都能找到樂趣的功能,我們這次是率先上線了一批舞蹈模板。”言外之意,以後可能還會有更多的功能或者應用上線。

通義舞王火爆的同時,市場上也出現了一種聲音,通義千問如何去承接這波流量,會不會難逃公域流量出圈後就是頂峰的宿命。

薄列峰認為,通義舞王是業界在視頻生成領域的全新探索,未來該技術可應用於直播、影視製作、藝術創作等領域。比如工廠女裝生產設計領域、ai模特試衣、漫改劇等等,還在進一步探索中,未來可能還有很多其他應用場景。

多家企業加碼,分成兩種不同路徑

陳坤分析道,真實拍攝牽扯到攝影、燈光、化妝、後期等整個鏈條,所耗費的時間和財力成本是巨大,他以另外一個作品山海奇境里狐狸腦袋,同時驅動火的鏡頭為例,闡述道這樣一個鏡頭成本是10萬元級的,時間可能需要1個月。


圖源:閑人一坤視頻號

通過ai生成視頻,陳坤表示在人力和時間上的效率是明顯提高的。但他也坦言,目前的產品仍處於初期階段,遠沒達到可交付的商業化水平。根據他的觀察,目前在玩ai視頻主要的個人愛好者,專業的ai影視玩家還相對較少。

出現這個現象的原因,他認為除了工具本身還處於發展期,還有一個重要原因是對影視行業的理解不夠,這就涉及提示詞的輸入,創作者需要先在大腦中構建出畫面,再輸入工具能理解的關鍵詞,“對垂類知識要一定了解,工具只是賦能,才能有好的作品誕生。”

無論是陳坤還是薄列峰都有相似的感受,ai視頻日趨火熱,並有不少企業已經布局這一賽道。薄列峰將目前生成視頻的應用分為兩類,一類是gen2、pika這些應用,他們聚焦在文本生成視頻。

他指出這類應用的優劣也很明顯,“有點是文字的表達領域廣,天馬行空,能說出來的都可以生成。相對地,文字也有表達不夠精準的問題,生成的視頻帶有很大的隨機性,通常生成不了長視頻。”

另一類,他認為是和他們更相似的,可控視頻生成,比如disco、dreampose。“舉個例子,從一致性的角度來看,相比這些工作,我們能精準捕捉原人物的衣服、頭髮、鞋子的細節,同時也能更好適配到人物的體型上,最終生成的視頻能很好地保留原圖像形象的特徵。”

對於未來的發展,陳坤預測ai視頻應用發展主要是兩種不同路徑:“玩具”和“武器”。

具體而言,“玩具”面向的更多是愛好者,主要追求的是在公域的出圈,這類應用的定價則需要更謹慎,商業化前景相對沒那麼明朗;“武器”則更多的是針對專業使用者,例如美圖工具,不斷推陳出新賦能行業從業者,這類應用的商業化路徑是相對清晰的,但是對產品力的要求也更高。


不管是已經火爆出圈的open ai的gpt-4,還是熱度趨增的視頻生成模型,本質都屬於多模態大模型。idc發布的《2024 aigc應用層十大趨勢白皮書》也預測,多模態大模型拓展服務邊界、帶來更豐富的用戶體驗是重要趨勢。2023,大模型之戰已打響;2024,期待大模型的價值落地。

綜合自ai視頻創作者、阿里雲、21世紀經濟報道