視頻生成有可能是2024年大模型最火的賽道。
在waic(世界人工智能大會)上,快手展台隱藏在展館邊緣,快到閉館的時間,記者在其視頻生成模型「可靈」的展位參觀,幾次被熱情的提問者擠開,感興趣的參觀者們圍着工作人員拋出各類問題,閉館音樂響起時,這種熱情絲毫沒有減少,直到工作人員關閉設備開始「趕人」。
這把火最初是由sora點燃的,今年2月,openai發佈的視頻大模型sora引發轟動,宣告了視頻領域「百模大戰」的開始。今年以來,國外有runway、pika、lumaai,國內有愛詩科技pixverse、生數科技vidu、快手可靈等,大模型「卷」的方向已經從文字、圖片來到視頻。
不過,視頻生成還處於一個早期階段,技術路線尚未達成共識、生成過程難以控制、生成效果離商業標準還有距離都是問題,不少行業人士都將其與語言、圖像模型的早期階段作類比。
新加坡南洋理工大學助理教授劉子緯認為,視頻生成處於大語言模型gpt-3左右的時代,那時距離3.5和chatgpt的爆發點還有半年左右的時間。智子引擎ceo高一釗則認為,目前的視頻生成有點像圖像生成的2022年前夕,stable diffusion開源之前,因為視頻生成領域目前還沒有一個特別厲害的開源「sora」發佈。
不少創業者已經開始探索落地,畢竟,等成熟了再做就晚了,過去每一輪新技術出現,「都是在大家看不懂的時候先上」。
還在「gpt-3」時代
「過去一年對於ai視頻生成來說是一個歷史性的時刻,一年前市面上還很少有面向公眾的文生視頻模型,短短几個月內我們目睹了幾十款視頻生成模型的問世。」阿里巴巴達摩院視頻生成負責人陳威華在不久前一場論壇上提到。
在今年2月sora發佈後,叫得上名字的產品發佈就有不少:4月生數科技發佈視頻大模型vidu,6月快手發佈ai視頻生成大模型可靈,一周後luma ai發佈文生視頻模型dream machine,runway在7月初宣布,文生視頻模型gen-3 alpha向所有用戶開放使用。
除了密集的產品發佈外,頭部視頻生成模型公司也相繼拿到融資。3月,愛詩科技完成億級a1輪融資,由達晨財智獨家投資,隨後生數科技也宣布完成一輪數億元融資,由啟明創投領投。6月,pika完成總額8000萬美元的b輪融資,7月,有消息稱runway正計劃以大約40億美元的估值募集4.5億美元。
雖然融資和產品發佈很熱鬧,但在前方用戶體驗層來看,目前的視頻生成結果遠遠達不到預期。「現在視頻生成就是抽卡,抽100次才能抽出一個比較好的結果。」劉子緯比喻道。
第一財經記者曾使用多個視頻模型體驗,生成的畫面有時會出現行走的人雙腳交替時消失部分腿、背對鏡頭的人的腦後會出現臉,或者一對男女在跳舞旋轉時人臉交換的混亂情況,此外,生成等待的時間短則1-2分鐘,長的能在1小時以上。
這種情況並非個例,openai曾邀請了一些視頻製作團隊對sora進行試用,其中一個團隊利用sora製作了一部《氣球人(air head)》的短片,效果非常驚艷。但5月這部作品的製作團隊在接受採訪時提到sora「生成過程很難控制」,整個短片由多個視頻片段組成,但是在生成不同視頻片段時很難保證主角始終是這個長着黃色氣球腦袋的人,有時候上面會出現一張臉,有時候甚至氣球不是黃色的。因此整個短片並不是sora直接輸出的結果,其中引入了大量的人工後期編輯才能呈現出最終的效果。
在waic論壇上,美圖公司高級副總裁陳劍毅也曾「吐槽」ai視頻生成:宣傳都很好,實際不好用。他提到,現在社媒上很多kol背後做了很多工作,可能生成了幾百條視頻,有一條視頻良品率高,「抽」出很好的效果,他將這個效果做了很多後期處理發佈,用戶看的時候會覺得現在ai視頻技術已經很成熟了,但其實現狀和我們想像中還有一兩年代差。
目前視頻、圖像、三維的生成類算法會遇到很多結構性和細節性問題,如通常會多長出一樣東西或者少一樣東西,或者手穿模到人身體里,這類精細化的視頻、尤其是具有物理規則的視頻目前很難生成。
究其原因,上海交通大學電子系教授、博士生導師倪冰冰認為,所有的生成式智能本質上來說是一個採樣的過程,視頻是一個比圖像更高維度的空間。如果我們給予更多的訓練數據,將採樣精度降得更低,我們可以生產出更好的內容,但這是有天花板的,「因為我們維度空間太高了,一定要做到萬無一失、千真萬確,以目前的技術框架是有一定難度的。」在這背後,算力就是一個很大的約束,不可能用無限制的大算力採樣的方式去解決問題。
陳劍毅將目前的視頻生成階段與電影發展史類比,「最初的電影就是一組連續的照片,一秒鐘24張照片連續動起來,拍了幾千張照片,最終做成了1分鐘的黑白電影。當下的ai視頻生成技術還在早期階段,其實就是和當年1分鐘黑白電影的起點是類似的。」他預測,視頻生成或許短期內會經歷從原始到高級的快速演變,用3-5年時間就走完電影技術百年發展史。
高一釗認為,目前的視頻生成有點像圖像生成的2022年前夕,「22年8月stable diffusion開源後,aigc圖像生成開始爆發,但視頻生成領域目前還沒有一個特別厲害的開源sora發佈。」
劉子緯則將當下的視頻生成進展類比大語言模型的階段,「目前有點像gpt-3左右的時代,距離3.5和chatgpt的爆發點還有半年左右時間,但應該已經不遠了。」如果類比文生圖,會發現,最開始的一代到最後大規模爆發應用也只花了一年半時間,劉子緯認為,視頻領域有很多資本已經進場,數據、算力充分的情況下,這個爆發的時間點會很快。
啟明創投近日發佈了一個「2024生成式ai十大展望」,其中一條是,3年內視頻生成將全面爆發,報告認為,結合3d能力,可控的視頻生成將對影視、動畫、短片的生產模式帶來變革。未來圖像和視頻隱空間表示的壓縮率提升五倍以上,從而使生成速度提升五倍以上。
sora不一定是完美方案
相比大語言模型的技術路線已近趨同,視頻生成當下還面臨的一個重要問題是,技術路線還未達成共識,就目前的團隊來看,還有多種不同的技術路線同時在進行,業內認為,sora並不一定是最優方案,未來很可能出現新的團隊拿出不同的「解法」。
「去年大家還普遍基於sd(stable diffusion)做圖像和視頻生成,但今年sora一出現,大家都覺得要改成類sora的dit(diffusiontransformer)架構了。」高一釗對第一財經表示,從這個事能看出來,視頻生成領域並不像文本領域那麼成熟,也不是那麼固化的一個技術方向,還要不斷做創新。
就技術路線來說,高一釗認為,sora並不一定是一個完美的解決方案,它只是比上一代的方案更好,有一定的優勢,「但是說不準年底或者明年就有新的架構出來了。」
視頻生成現在有幾條不同路徑。一條是最初的diffusion模型,沿着文生圖,將文生圖拓展到時間維度;其次是追隨sora,基於transformer做dit架構;還有一種路線是用大語言模型的方法將視頻和視覺內容重做一遍,即採用大語言模型(llm)的自回歸架構,谷歌團隊去年底發佈的視頻生成模型videopoet就是基於llm來實現視頻生成的。
劉子緯認為,如果是做短視頻,如3-4秒讓圖片動起來,diffusion模型的技術就已經夠用,但如果想做更長的視頻,如10-20秒量級,dit架構仍然有更大的優勢,這種技術路徑對於長文本或長視頻的理解能力會更強,生成能力也更好。但即便是sora的dit架構,對物理、世界模型的理解還不夠,因此部分團隊也試圖利用語言模型里學到的知識幫助生成視覺的世界。
「這條路(自回歸架構)目前看起來視覺效果還比不上另外兩條,但我個人覺得它的上升軌跡會非常快,可能到年底會發現用語言模型做生成也會是比較好的,那個時候我們會真正地將所有的模態融合到一起。」劉子緯發現,在訓練成本上,diffusion比較低,而自回歸較高,但自回歸一旦訓練好了,推理方面的成本優勢會很大。
當下大模型的算力的約束還很大,倪冰冰認為,未來可能需要有一些新的架構、新的計算方式或新的底層技術來支撐一個更高效的生成方法。
神經網絡的黑盒化是當下大量消耗數據算力資源的問題核心,「對於生成的網絡我們完全不知道這裡哪一個節點和我們要生成、控制的內容有關,不知道輸入的某一個詞到底在這樣一個節點裏哪幾個單元是有關聯的,我們也不知道我們輸出的人臉某個地方的形狀和神經網絡裏面哪幾個單位是有關的。」倪冰冰表示,當下需要的是白盒化的生成技術,如果能將視頻中的內容對應到網絡參數,我們就可以精確地操控生成的內容,在這背後,要解決參數對齊的問題,數據內容的表徵問題。
當下sora是視頻領域的王者,自從發佈後一直是國內追趕的目標。高一釗認為,只談底層技術方面,我們距離sora沒有差很遠,更決定性的是資源的投入差距,以及產品搭建方向上的思考。
「國內新的一些創業團隊,其實和世界上最頂尖的做大模型的團隊在底層技術上沒區別,都是那一套架構,」高一釗認為,但如果要談產品談應用,那就會有非常多的細節,「比如這些技術要怎麼把應用做好,為了把應用做好,該搭哪些技術,這些都是很困難的事情。」
上個月runway發佈了全新文生視頻模型gen-3 alpha,其中一個案例視頻是,在高速行駛的火車車窗旁一名女子的側影,火車在飛速行駛中,車窗外的霓虹燈照在女人臉上,在她的臉頰、鼻子上都有不同層次的效果,這些快速變化的光影在人物的臉上變換非常自然逼真。
高一釗猜測,runway這樣的效果主要是通過針對性地數據訓練達成的。「runway一開始就做了非常多專門訓練光影的數據,這其實就是產品方向,團隊認為這個產品要真正解決需求,光影必須要自然,所以他們會就很多針對性的方向進行訓練。」他認為,產品層和技術層是兩套思維。
在視頻生成這一領域中,劉子緯未來希望探索「視頻生成牛頓第一定律」。他提到,對語言模型來說,目前投入多大算力、用多少數據就能獲得多大增益,這種投入產出比是能算出來的,對資本方、產業和應用都是很好的點,但是對於視頻生成和多模態來說,目前還沒有很明確的標準,多大算力能得到多大提升,這是很本質的問題。此外,在架構方面,自回歸或者dit是否一定是終局,訓練成本能否降低都是待探索的問題。
「在大家看不懂的時候先上」
在一場論壇中,談及視頻生成的商業模式,五源資本副總裁石允豐較為謹慎,他判斷,就現在視頻生成的效果來說,「在流沙上建城堡非常有挑戰」,技術底座並沒有穩固下來,這時候找pmf(產品市場契合點)挑戰很大。
「普通人也能用的視頻生成工具,會觀察到用戶是非常不忠誠的,在不同app之間跑得非常快。luma發佈了之後4天之內獲得了100萬用戶,這100萬用戶之前或多或少都已經用過piika,意義不大。」石允豐認為,今天視頻生成是有創作者的,但問題在於,較成熟的內容消費還沒出來。
相比投資方的觀望,更多的創業者則是另一種「實幹派」。
「過去每一輪新的東西出來,絕對不是等成熟了再來做,這樣就晚了,都是大家看不懂的時候先上。」fancytech創始人空界(花名)表示。
fancytech目前是自研視頻和圖像模型,聚焦於tob,為商家生成基礎素材,替代基礎拍攝的部分,如對商品、物品、模特等的拍攝。空界在論壇上提到,fancytech去年營收接近1000萬美元,今年預計會到兩三千萬美元。
「我們覺得現在就是很好的應用時間點,」談到應用落地,空界表示,「要賺錢,要留在牌桌上,能夠保證有這樣的收入,當不斷有新的技術湧現出來的時候,我們在這個上面疊加,同時能夠獲得我們的特色。」
morph ai創始人徐懷哲認為,不確定性是創業的巨大機會和意義。「任何一個大公司都是從最開始成長起來的,留給他們的機會是每一個技術浪潮更新的時候,商業模式有巨大不確定性,如果知道答案一步一步往前走,這一定是一個大廠大公司的機會。」
「趕熱點是一回事兒,但是更多的還是要產生實際價值。」就今年視頻生成賽道的火熱,高一釗認為,追隨賽道頂流去跟進產品和投入是必然的,但國內也需要形成自己的一套打法和邏輯,在技術和資源上可能暫時落後,但在落地應用上,我們仍然有場景優勢。
「ai領域的技術一旦開放,大家複製起來沒有想像中那麼困難,所以核心競爭點還是在應用上,在技術上差不多的情況下,怎麼能深耕到某個領域,解決用戶的真實需求。」高一釗認為,應用落地是全世界ai從業者都要回答的問題。
目前,智子引擎第一個選擇的落地場景是城市巡檢。「無人機等設備會拍下來一些視覺內容,將這些視覺內容傳回給我們的大模型進行分析。」高一釗表示,在這樣的場景下,大模型的通用性具有的優勢是,能解決複雜真實環境的各種突發情況,如下雨颳風的天氣情況,攝像頭角度不對了等等,相比以往小參數的ai軟件,大模型適用性更廣。
就c端來看,陳劍毅判斷,短期內沒有誕生一個ai視頻平台級的機會,「ai版的抖音目前來看不太可能」。但如果目光看向產業仍然有機會,他判斷,現在ai視頻的機會點不是傳統的影視內容形式,而是在生成空鏡素材、各種mv、故事繪本、網文短劇等方面。
「比如一個企業想拍宣傳片,裏面需要插入兩三段自然風光,這時候就不需要做一些內容的實拍,用ai視頻生成很快就能生成。」 陳劍毅認為,短期內很明顯可以看到ai視頻生成對各種空鏡素材是很大的幫助,此外,在教學中,學生只要在提示詞裏面輸入「我想看一看冰山融化的過程」,這時候視頻生成就可以將複雜的物理知識通過直觀視頻展示出來。
井英科技創始人朱江有個有趣的類比,他認為現在的ai生成式時代,有點像寒武紀生命大爆發的時候。「今天很多動物的門類都是寒武紀大爆發的時候突然出現的,那個時代任何一個物種如果考慮未來能不能生存下去,其實都很難。」他提到,當時很大的變化是有一類生物突然進化出了眼睛,他們就取得了階段性優勢。
(本文來自第一財經)