【AI時刻】為什麼Sora會被央視點名?

前言

  截止到發稿日,sora尚未對外開放公測,也未提供內部測試的申請途徑。特別是在國內,用戶無渠道參與試用。全球範圍內,僅約1000名早期openai用戶被授予許可權使用sora。openai對這些用戶生成的視頻內容擁有所有權,並且嚴格禁止任何形式的公開發布。

我們提醒廣大用戶提高警惕,不要被國內市場上可能出現的聲稱能夠提供sora試用的收費服務所騙

正文

  大年初七凌晨,我在老家被窗外小朋友發的二踢腳炸醒了,起床找水喝的時候看了一眼手機,彈出的消息讓我驚訝到一夜未眠。對,沒錯,又是ai,又是openai,又是一次劃時代的應用,它的名字叫做sora。

圖片源自互聯網

  sora,openai最新推出的文本轉視頻模型,能夠僅憑用戶輸入的提示詞、文本指令或靜態圖像,生成高達一分鐘的視頻內容,且視覺質量絕佳。這些視頻不僅展現了精細的場景復現,還有生動的角色表情和複雜的鏡頭動態。

圖片源自openai官方sora-demo

圖片源自openai官方sora-demo

  儘管sora不是首個將文本轉化為視頻的(t2v)應用,但它在實際渲染效果及應用場景的豐富性方面,顯著超越了同領域的其他工具,對ai視頻產業造成了「沉痛暴擊」。

圖片源自openai官方sora-demo

  根據openai官網發布的48個視頻演示,sora不僅在細節呈現上極為準確,還能創造出富有情感的角色、特定風格的活動,並精確再現主題背景下的複雜場景。更牛x的是,這款模型不僅能理解用戶的請求,還能洞察這些內容在現實世界中的存在方式。

圖片源自openai官方sora-demo

圖片源自openai官方sora-demo

  這一進展標誌著,如果gpt能通過語言理解人類世界,sora則擴展了這一理解能力到視頻領域。

  就在我驚訝openai真的能藏核彈的時候,沒想到sora被央視給點名了,自從gpt火爆以來,央視對於境外ai技術的報道卻一直相對保守。然而,sora的出現卻讓央視也一反常態,不僅報道了它,還將其譽為"首個大型視頻生成模型",可見sora的實力給到全世界的震撼。

圖片源自於網路

  那麼sora相較於ai視頻領域的競品有什麼優勢,相比於runway ml、pictory.ai、nvidia的video-to-video synthesis有哪些優勢呢?為什麼眾多ai視頻從業者,一夜之間紛紛都說「馬上下崗」了呢?

圖片源自openai官方sora-demo

  關鍵之處在於,sora邁向了ai技術的終極目標——創建一個「世界模擬器」(world simulators)。與傳統的動態補幀技術不同,sora是首款能夠深刻理解現實世界並將其轉化為視頻內容的ai。這種對現實世界的高度理解和表達能力,是sora獨有的特色。

圖片源自於sora官方文檔

  其中最重要的一個點在我看來就是60秒生成的時長是真的誇張,這與前不久大受歡迎的runway gen-2 ai視頻生成技術提供的最長16秒時長相比,實現了顯著的飛躍。這一增加的時長不單是算力上的勝出,更是表明了sora在理解用戶提供的語義內容方面的自主性和創造力,使其能夠創作出更長的視頻來深入解讀和表現給定的主題。

圖片源自openai官方sora-demo

圖片源自openai官方sora-demo

  這是一個顛覆性的存在,區別於傳統ai視頻生成工具所依賴的diffusion技術——這類技術基本上是通過組合多個真實圖片來製作視頻,而這樣生成的結果往往缺乏深層次的含義,更像是幻燈片式的展示。

  然而,sora採用的是llm(large language models)與diffusion技術的融合,以transformer架構處理的時空塊(spacetime patches)作為其技術核心。這意味著sora不僅能理解自然語言,解讀文本信息,還能結合其對自然世界的洞察,從而跳出2d圖片的限制,模擬出接近真實世界的場景和體驗。

圖片源自於sora官方文檔

  這一點有點像是大廚做菜,在烹飪前先將各種大小不一的食材(視頻源文件)切割成統一的小塊(patch表示)。然後,他會像打亂的拼圖一樣將這些小塊按照時間和空間的關係(時空要素)重新組織好,以確保烹飪出來的菜肴(視頻內容)既符合食客的口味(用戶輸入)又有良好的擺盤(視覺呈現)。

ai生成

  sora展現的能力是超越的,令我印象深刻的是,其演示視頻中有一段仿照《極品飛車》的場景轉換效果尤為震撼。在這一段視頻里,sora不僅精準地捕捉並變換了原始視頻場景中的季節,還巧妙地處理了光線追蹤,達到了接近完美的效果。

圖片源自openai官方sora-demo

圖片源自openai官方sora-demo

圖片源自openai官方sora-demo

  我們知道,nvidia曾投入幾代顯卡的研發,為了在遊戲中實現逼真的光追效果。然而,sora僅通過簡單的指令,無需傳統的場景構建和繁瑣的交互調試,就能夠輕易地演繹出震撼級別的真實光線效果。這種技術的進步,無疑是對傳統圖形渲染方法的一大超越。

圖片源自openai官方sora-demo

  雖然目前sora並未進行公測,但僅僅通過放出的預告片,我們就可以分析出其落地的那一天對於視界行業的影響,首當其衝的便是視頻製作行業,視頻製作過程中原本需要耗費大量時間的劇本創作、場景搭建、拍攝和後期處理等環節,現在可以通過sora的ai技術大幅簡化,甚至自動化。這可能導致視頻製作變得更加低成本和高效率,但同時也會對從事視頻製作的專業人士,如導演、攝影師、剪輯師和視覺效果的職業造成挑戰。

ai生成

  想像一下,你是一個戶外婚紗攝影的廣告主,目標是創造一部短片,通過展示新人在世界各地的戶外景點拍攝婚紗照的浪漫場景,激發潛在客戶的購買慾望。按照傳統的製作流程,需要安排演員和攝製團隊環球旅行,逐一在那些著名的風景名勝進行實地拍攝。然而,有了sora,這一切都變得簡單。只需輸入一條指令,sora就能為您生成一部堪比實地拍攝的精美廣告短片,既節約了時間也減少了成本,不滿意還可以繼續調整。

ai生成

  過去,面對缺乏實拍素材的報道,媒體機構往往依靠3d動畫來輔助解說,這一過程不僅成本高昂,而且耗時較長。現在,只需向sora提供新聞的概要和事件經過,它就能迅速生成長達60秒或更長的視頻。這樣不僅極大提高了新聞製作的效率,也增強了報道的吸引力和生動性。

ai生成

  如果未來sora可以落地應用,克服算力需求問題,面向更多的普通用戶,並可以進一步地根據用戶需求調整視頻內容,比如換臉、換衣服、換場景等,並且能夠妥善處理與版權相關的商業運用問題,這將標誌著數字視頻製作進入了一個新紀元。當前sora還要面對諸多的問題,其中最大的便是如何解決公用後的龐大的算力需求。

ai生成

  這或許也會帶動雲計算、分散式計算領域的再次蓬勃發展。

  不管怎麼說,openai的sora讓我們看到了agi來臨前的曙光,未來ai技術的成熟再結合vr ar設備的不斷演化,我們逐步走向一個前所未有的時代。在這個時代,每個人都可以藉助ai技術,步入完全由自己想像設計的虛擬空間,這些空間不僅真實感十足,而且能夠實時響應自己的感覺和情緒變化,創造專屬於自己的ai世界。

ai生成