誰是中國版Sora?

圖片來源@視覺中國

文 | 科技新知

鏖戰一年的「百模大戰」還未結束,兩個海外ai巨頭又給國內科技大廠出了難題。

就在春節假期的尾聲,谷歌和openai毫無徵兆地放出了各自的 ai新「核武」。

谷歌拿出的新一代多模態大模型gemini 1.5 pro,將性能提升到了百萬級別,完全秒殺了openai的gpt-4 turbo,暫居地表最強。

而後者發佈的首個文生視頻模型sora ,則基於視覺美學的驚艷表現,更讓人印象深刻,迅速成為全球科技圈追捧的熱點。

在生成視頻的保真度、長度、穩定性、一致性、分辨率、文字理解等各方面,sora已經超過gen-2、svd-xt、pika等主流產品,做到了當前最優,可以說一出手就是王炸。

去年,國內的百度、阿里、科大訊飛等互聯網公司紛紛推出了自研大模型,爭搶智能變革時代的船票;華為、小米、oppo、vivo等手機廠商也布局大模型,希望新技術為見頂的市場帶來新的生機;眾多創業公司也進入該賽道,試圖輕裝上陣、彎道超車。

但物理意義上的鴻溝讓國內的大模型產品在性能、生態等方面還與chatgpt有着不小的差距。而如今視頻生成模型sora的誕生,不出意外也將再次掀起一波跟風的浪潮。

然而,顛覆性的效果往往來自顛覆性的思路。從當前節點來看,在ai大模型領域國內企業與世界前端到底還有多大差距?差在哪裡?又有哪些種子選手可能脫穎而出?

恐慌

對於sora的橫空出世,馬斯克的評論「gg humans(人類認輸了)」,算是一種主流看法。

此前,雖然已經有大量文生視頻技術,但尚未實現技術收斂,主要實現路徑是通過各種手段讓單幀的圖片「動」起來,類似定格動畫。而從用戶的實際需求來看,視頻每一幀之間的連貫性與自然度是價值的關鍵,也就是視頻每幀語義信息的無縫銜接才是核心。

也就是說,sora這種圍繞需求提供對應技術解決方案的產品,要遠遠優於通過技術可實現的角度來創造產品。

根據openai官網上的介紹指出,sora與之前的文生視頻思路並不一樣,是讓模型一次預測多幀畫面,並且確保視頻主體保持不變。這正是其巧妙之處——在視頻幀上做突破,提升了生成視頻的使用上限。

360創始人周鴻禕也給予了極高評價,他認為sora的誕生意味着agi(通用人工智能)的實現可能從十年縮短至一兩年。

作為sora的前輩,ai文生視頻創企runway聯合創始人兼ceo cristóbal valenzuela感慨道,以前需要花費一年的進展,變成了幾個月就能實現,又變成了幾天、幾小時。

sora發佈前還曾有很多煙霧彈式的信息被放出。比如openai 組建了研究兒童安全的新團隊,或是正準備推出 gpt-4.5-turbo,但真正的「殺手級更新」被隱藏得很好。這也導致像pika、runway一樣的明星創業公司,面對sora措手不及。

其實,國內外大廠對於ai視頻生成的態度一直模稜兩可。根本問題在於,現在的人工視頻質量、效果更好,且成本也能接受;ai 視頻生成此前沒有大家想像的那麼顛覆,所以整體策略偏向防禦,而非進攻。

值得一提的是,國內的位元組跳動以及百度的嗅覺更加敏銳。百度早在去年3月文心一言的發佈會上,便發佈了ai文生視頻的功能,百度ai會自動根據文字內容尋找合適的視頻素材,生成視頻後並自動發佈,這是屬於文心一言aigc的ttv(文本內容情感化分析)功能。

位元組跳動則在去年11月發佈了pixeldance,可以通過上一個視頻片段尾幀,為下一個視頻片段頭幀提供指導的思路,在視頻時長上有所突破,但至今仍然沒有開放用戶測試,所以具體效果如何還是未知。

如果從gpt的發展路徑來看,所有做ai視頻生成甚至做大模型的公司將面臨新一波危機。就像周鴻禕所說,儘管國內大模型發展水平表面看已經接近gpt-3.5,但實際上跟4.0比還有一年半的差距。openal手裡應該還有一些秘密武器,無論是gpt-5還是機器自我學習自動產生內容。

但是危險中也蘊藏着機遇。openai證明了用大模型的思路做視頻是可行的,文生視頻能蔚然成風成為全球新一輪aigc競賽的焦點,也給短視頻平台上的直播電商、內容創作等帶來更高的天花板。其他互聯網企業和內容平台,需要做的只是證明自己也可以用大模型做出視頻。

從技術角度來看,sora屬於多模態混合模型,由大語言模型和文圖生成器拼接而成。這也意味着多模態模型迭代節奏加快,不出意外2024年的第一波ai風潮將就此展開。

風起

自2022年末chatgpt嶄露頭角,其強大的影響力如野火燎原般蔓延至國內科技圈。百度、阿里巴巴、騰訊等一眾互聯網大廠,以及以米ov為代表的智能硬件公司,彷彿嗅到了新時代的氣息,紛紛宣布推出自家的大模型,意圖在這波ai浪潮中佔據一席之地。

與此同時,文生圖、文生視頻等多模態aigc產品也在有序推進。實事求是地來看,ai生文、生圖的應用,早已層出不窮,相關的技術不斷日新月異。相比之下,ai文生視頻,卻是一個遲遲未被攻下的陣地,難度和價值一樣巨大。

公開信息顯示,包括位元組跳動、百度、阿里、海康威視、萬興科技、拓爾思、當虹科技在內的科技公司,都在積極布局文生視頻,但與sora相比存在不小的差距。

簡單來講,之前的ai文生視頻工具,僅僅停留在「模擬現實」的層面,sora則已經躍升到了「構建現實」的新高度。兩者的根本區別在於,前者只是對現實世界的表面模仿,難以深入捕捉現實世界的物理規則和動態變化;而後者則是在虛擬世界中重新構建了一種與現實世界並行的存在。

sora不僅學習了像素與畫面的呈現,更深入理解了現實世界的「物理規律」。例如在現實世界中,我們每咬下一口食物,食物上都會留下咬痕,這是遵循物理規則的自然現象。sora生成的視頻中,同樣能夠精準地再現這一細節,做到「咬下去有痕迹」,從而在虛擬世界中完美再現了現實世界的真實感。而這是其他文生視頻產品所做不到的。

以百度的文心一言為例,雖然其能夠根據輸入的文本生成視頻,但在處理複雜場景和細節描繪方面仍存在不足。並且百度ai文生視頻也更像是從已有素材庫中找到更接近文字意思的視頻進行拼接,單靠ai很難生成新的視頻內容。

今年初,位元組跳動發佈了一款超高清文生視頻模型magicvideo-v2。據悉,該模型輸出的視頻在高清度、潤滑度、連貫性、文本語義還原等方面,比目前主流的文生視頻模型gen-2、stable video diffusion、pika 1.0等更出色。

抖音的張楠已於2月初辭去ceo崗位,聚焦在剪映業務上。這意味着,抖音將加強對ai生圖和視頻產品的布局,其中文生視頻自然是重中之重。

不過在張楠的規劃中,ai視頻所應具備的更高保真度生成效果、更清晰生成畫面、更順暢自然的邏輯理解能力等,也被sora一朝之間吊打。

相對於互聯網巨頭的低調錶現,一些上市公司在近期卻積極發聲,紛紛披露自己在視頻生成模型領域的業務情況。

據不完全統計,包括萬興科技、博彙科技、易點天下、數碼視訊、漢王科技、當虹科技、東方國信、神思電子、因賽集團、拓爾思、國脈文化、佳都科技在內的超10家a股上市公司,近三個月以來在互動平台上各自披露了相關視頻生成模型領域的業務情況。

但不能否認的是,真正達到前沿水平的公司鳳毛麟角,許多公司只是在跟風炒作,缺乏真正的技術儲備和研發能力。

東方國信直言不諱地表示,他們在ai視頻生成領域尚無成熟的技術儲備;而神思電子則回應稱,公司正在對文生圖、圖生文、視頻生文、文生視頻等多模態數據互相跳轉的收斂性質進行深入研究,言下之意,他們在這方面的技術也還在探索階段。

ai文生視頻的顛覆性,可以具體到實際運用層面來看。圖片、視頻生成能幫助提高企業的商業化需求,如幫助降低廣告客戶成本、便捷製作視頻等。拿位元組跳動舉例,其廣告客戶投放總成本中有一到兩成為視頻製作成本,而去年開始位元組已經用相關產品幫助廣告客戶壓縮這部分投入。

與上一波chatgpt的風潮相似,儘管在推出類似ai文生視頻產品方面國內企業難免落後一步,但也不失為一個摸着sora過河的機會。

涌動

從全球市場來看,ai仍然引領着整個科技商業前進的方向,而且多模態成為主流。從大語言模型到多模態,再到通用人工智能的路徑已經逐漸清晰,分歧點還是在於節奏的判斷。

此前,openai花了大約半年時間來測試大語言模型gpt-4。如果測試sora需要差不多的時長,這個強大的視頻生成工具可能會在今年8月份開放。而這半年時間便是其他企業積累力量的窗口期。

畢竟chatgpt已經問世一年多,但還有大量用戶沒有使用過聊天機械人相關產品,這也為其他企業迎頭趕上提供了機會。

而目前國內企業面臨的最大問題,還在於第一梯隊的ai公司如百度、科大訊飛的股價,因各種原因被打到了地板價,而國外的頂級企業,如英偉達、微軟的股價創出新高,openai的估值仍然在不斷上升。這也意味着海內外ai企業在資本、人才、技術、市場號召力等方面存在着天然的優劣差異。

周鴻禕認為,科技競爭最終比拼的是人才密度和深厚積累。事實也是如此,sora應用的是transformer+diffusion。從模型架構來看,如果以transformer為基準,那麼文生視頻依舊是龍頭科技企業更有優先權,但是如果生成式視頻架構依舊圍繞diffusion展開的話,創業企業機會要更大一些。

不過沒有一騎絕塵的技術,只有螺旋式上升的產業繁榮。

sora雖然可以一次性生成幾十秒到一分鐘的視頻,但是真正在應用階段,如果產品沒有提供足夠多的微操空間,確保用戶能夠將其整合到自己的工作流中,那麼大概率也只能叫好不叫座。

好在技術的擴散才剛剛開始,不會有任何一家公司「猝死」在新技術的出現上。openai更像是一個開拓者,強項在於鋪路,普及應用尚需要生態的力量。

就像是在文生文模型上的模塊化組合,是否會有類似手機、智能音箱一樣的專有智能設備問世?讓更多用戶可以在端側使用模型,構建起開源+小參數模型+移動端的思路,把當下的產品做一次革新。這是國內廠商所擅長的,但同時也是未來內卷的陣地。

從單點的突破來看,sora具有里程碑意義;但是從商業化需求和混剪工作流效率提升來看,sora本身的價值和落地效果還有待考究。

想僅靠ai生成的一分鐘視頻成為下一個董宇輝、李佳琪並不現實,更別說製作長視頻或者電影、電視劇了,即便是做一個短視頻,是通過一遍遍修改提示詞更加有效率,還是在視頻剪輯軟件里按照創作者的想法調整素材更快?顯然,期待sora變得更強,不如期待視頻剪輯軟件中儘早增添ai模塊,從而切實提升工作效率。

即使最終sora全面放開註冊,普通用戶也難以做出如當前演示案例般的視頻demo。所以最終各個大廠的決勝點還是在於如何普及多模態的應用,如何在工具中加入ai功能,更直接地優化工作流程。

新興技術具有普適性,並不是某個企業的專屬。對於國內企業來說,在多模態上的探索不妨可以參考gpt的發展、落地方式,在特定垂直領域的應用層面找到自身的優勢,並以此作為方向實現快速發展。

只是在這個過程中,拼的還是人才密度、落地程度以及犯錯誤的次數。