【AI時刻】為什麼Sora會被央視點名？

2024-03-06 01:32:08 娛樂頭條 8958℃

前言

　　截止到發稿日，sora尚未對外開放公測，也未提供內部測試的申請途徑。特別是在國內，用戶無渠道參與試用。全球範圍內，僅約1000名早期openai用戶被授予權限使用sora。openai對這些用戶生成的視頻內容擁有所有權，並且嚴格禁止任何形式的公開發佈。

我們提醒廣大用戶提高警惕，不要被國內市場上可能出現的聲稱能夠提供sora試用的收費服務所騙

正文

　　大年初七凌晨，我在老家被窗外小朋友發的二踢腳炸醒了，起床找水喝的時候看了一眼手機，彈出的消息讓我驚訝到一夜未眠。對，沒錯，又是ai，又是openai，又是一次劃時代的應用，它的名字叫做sora。

圖片源自互聯網

　　sora，openai最新推出的文本轉視頻模型，能夠僅憑用戶輸入的提示詞、文本指令或靜態圖像，生成高達一分鐘的視頻內容，且視覺質量絕佳。這些視頻不僅展現了精細的場景復現，還有生動的角色表情和複雜的鏡頭動態。

圖片源自openai官方sora-demo

　　儘管sora不是首個將文本轉化為視頻的（t2v）應用，但它在實際渲染效果及應用場景的豐富性方面，顯著超越了同領域的其他工具，對ai視頻產業造成了「沉痛暴擊」。

圖片源自openai官方sora-demo

　　根據openai官網發佈的48個視頻演示，sora不僅在細節呈現上極為準確，還能創造出富有情感的角色、特定風格的活動，並精確再現主題背景下的複雜場景。更牛x的是，這款模型不僅能理解用戶的請求，還能洞察這些內容在現實世界中的存在方式。

圖片源自openai官方sora-demo

　　這一進展標誌着，如果gpt能通過語言理解人類世界，sora則擴展了這一理解能力到視頻領域。

　　就在我驚訝openai真的能藏核彈的時候，沒想到sora被央視給點名了，自從gpt火爆以來，央視對於境外ai技術的報道卻一直相對保守。然而，sora的出現卻讓央視也一反常態，不僅報道了它，還將其譽為"首個大型視頻生成模型"，可見sora的實力給到全世界的震撼。

圖片源自於網絡

　　那麼sora相較於ai視頻領域的競品有什麼優勢，相比於runway ml、pictory.ai、nvidia的video-to-video synthesis有哪些優勢呢？為什麼眾多ai視頻從業者，一夜之間紛紛都說「馬上下崗」了呢？

圖片源自openai官方sora-demo

　　關鍵之處在於，sora邁向了ai技術的終極目標——創建一個「世界模擬器」（world simulators）。與傳統的動態補幀技術不同，sora是首款能夠深刻理解現實世界並將其轉化為視頻內容的ai。這種對現實世界的高度理解和表達能力，是sora獨有的特色。

圖片源自於sora官方文檔

　　其中最重要的一個點在我看來就是60秒生成的時長是真的誇張，這與前不久大受歡迎的runway gen-2 ai視頻生成技術提供的最長16秒時長相比，實現了顯著的飛躍。這一增加的時長不單是算力上的勝出，更是表明了sora在理解用戶提供的語義內容方面的自主性和創造力，使其能夠創作出更長的視頻來深入解讀和表現給定的主題。

圖片源自openai官方sora-demo

　　這是一個顛覆性的存在，區別於傳統ai視頻生成工具所依賴的diffusion技術——這類技術基本上是通過組合多個真實圖片來製作視頻，而這樣生成的結果往往缺乏深層次的含義，更像是幻燈片式的展示。

　　然而，sora採用的是llm（large language models）與diffusion技術的融合，以transformer架構處理的時空塊（spacetime patches）作為其技術核心。這意味着sora不僅能理解自然語言，解讀文本信息，還能結合其對自然世界的洞察，從而跳出2d圖片的限制，模擬出接近真實世界的場景和體驗。

圖片源自於sora官方文檔

　　這一點有點像是大廚做菜，在烹飪前先將各種大小不一的食材（視頻源文件）切割成統一的小塊（patch表示）。然後，他會像打亂的拼圖一樣將這些小塊按照時間和空間的關係（時空要素）重新組織好，以確保烹飪出來的菜肴（視頻內容）既符合食客的口味（用戶輸入）又有良好的擺盤（視覺呈現）。

ai生成

　　sora展現的能力是超越的，令我印象深刻的是，其演示視頻中有一段仿照《極品飛車》的場景轉換效果尤為震撼。在這一段視頻里，sora不僅精準地捕捉並變換了原始視頻場景中的季節，還巧妙地處理了光線追蹤，達到了接近完美的效果。

圖片源自openai官方sora-demo

　　我們知道，nvidia曾投入幾代顯卡的研發，為了在遊戲中實現逼真的光追效果。然而，sora僅通過簡單的指令，無需傳統的場景構建和繁瑣的交互調試，就能夠輕易地演繹出震撼級別的真實光線效果。這種技術的進步，無疑是對傳統圖形渲染方法的一大超越。

圖片源自openai官方sora-demo

　　雖然目前sora並未進行公測，但僅僅通過放出的預告片，我們就可以分析出其落地的那一天對於視界行業的影響，首當其衝的便是視頻製作行業，視頻製作過程中原本需要耗費大量時間的劇本創作、場景搭建、拍攝和後期處理等環節，現在可以通過sora的ai技術大幅簡化，甚至自動化。這可能導致視頻製作變得更加低成本和高效率，但同時也會對從事視頻製作的專業人士，如導演、攝影師、剪輯師和視覺效果的職業造成挑戰。

ai生成

　　想像一下，你是一個戶外婚紗攝影的廣告主，目標是創造一部短片，通過展示新人在世界各地的戶外景點拍攝婚紗照的浪漫場景，激發潛在客戶的購買慾望。按照傳統的製作流程，需要安排演員和攝製團隊環球旅行，逐一在那些著名的風景名勝進行實地拍攝。然而，有了sora，這一切都變得簡單。只需輸入一條指令，sora就能為您生成一部堪比實地拍攝的精美廣告短片，既節約了時間也減少了成本，不滿意還可以繼續調整。

ai生成

　　過去，面對缺乏實拍素材的報道，媒體機構往往依靠3d動畫來輔助解說，這一過程不僅成本高昂，而且耗時較長。現在，只需向sora提供新聞的概要和事件經過，它就能迅速生成長達60秒或更長的視頻。這樣不僅極大提高了新聞製作的效率，也增強了報道的吸引力和生動性。

ai生成

　　如果未來sora可以落地應用，克服算力需求問題，面向更多的普通用戶，並可以進一步地根據用戶需求調整視頻內容，比如換臉、換衣服、換場景等，並且能夠妥善處理與版權相關的商業運用問題，這將標誌着數字視頻製作進入了一個新紀元。當前sora還要面對諸多的問題，其中最大的便是如何解決公用後的龐大的算力需求。

ai生成

　　這或許也會帶動雲計算、分佈式計算領域的再次蓬勃發展。

　　不管怎麼說，openai的sora讓我們看到了agi來臨前的曙光，未來ai技術的成熟再結合vr ar設備的不斷演化，我們逐步走向一個前所未有的時代。在這個時代，每個人都可以藉助ai技術，步入完全由自己想像設計的虛擬空間，這些空間不僅真實感十足，而且能夠實時響應自己的感覺和情緒變化，創造專屬於自己的ai世界。