太炸了！OpenAI深夜發佈，文字直接生成視頻！網友：我要失業了

分類：娛樂頭條

瀏覽數：9777

2024-03-02

每經編輯：何小桃,畢陸名

2月16日凌晨，openai再次扔出一枚深水炸彈，發佈了首個文生視頻模型sora。據介紹，sora可以直接輸出長達60秒的視頻，並且包含高度細緻的背景、複雜的多角度鏡頭，以及富有情感的多個角色。

目前官網上已經更新了48個視頻demo，在這些demo中，sora不僅能準確呈現細節，還能理解物體在物理世界中的存在，並生成具有豐富情感的角色。該模型還可以根據提示、靜止圖像甚至填補現有視頻中的缺失幀來生成視頻。

例如一個prompt（大語言模型中的提示詞）的描述是：在東京街頭，一位時髦的女士穿梭在充滿溫暖霓虹燈光和動感城市標誌的街道上。

在sora生成的視頻里，女士身着黑色皮衣、紅色裙子在霓虹街頭行走，不僅主體連貫穩定，還有多鏡頭，包括從大街景慢慢切入到對女士的臉部表情的特寫，以及潮濕的街道地面反射霓虹燈的光影效果。

電影預告片講述了30歲宇航員戴着紅色羊毛針織摩托車頭盔的冒險經歷，藍天、鹽漠，電影風格，35毫米膠片拍攝，色彩鮮艷。

ai想像中的龍年春節，紅旗招展人山人海。有緊跟舞龍隊伍抬頭好奇觀望的兒童，還有不少人掏出手機邊跟邊拍，海量人物角色各有各的行為。

豎屏超近景視角下，這隻蜥蜴細節拉滿：

網友直呼game over，工作要丟了：

甚至有人已經開始「悼念」一整個行業：

還有網友表示，電影業要徹底顛覆了。

一位youtube博主paddy galloway發表了對sora的感想，他表示內容創作行業已經永遠的改變了，並且毫不誇張。「我進入youtube世界已經15年時間，但openai剛剛的展示讓我無言…動畫師/3d藝術家們有麻煩了，素材網站將變得無關緊要，任何人都可以無壁壘獲得難以置信的產品，內容背後的『想法』和故事將變得更加重要。」

對於sora當前存在的弱點，openai也不避諱，指出它可能難以準確模擬複雜場景的物理原理，並且可能無法理解因果關係。

例如「五隻灰狼幼崽在一條偏僻的碎石路上互相嬉戲、追逐」，狼的數量會變化，一些憑空出現或消失。

該模型還可能混淆提示的空間細節，例如混淆左右，並且可能難以精確描述隨着時間推移發生的事件，例如遵循特定的相機軌跡。

如提示詞「籃球穿過籃筐然後爆炸」中，籃球沒有正確被籃筐阻擋。

openai表示，他們正在教ai理解和模擬運動中的物理世界，目標是訓練模型來幫助人們解決需要現實世界交互的問題。

隨後openai解釋了sora的工作原理，sora是一個擴散模型，它從類似於靜態噪聲的視頻開始，通過多個步驟逐漸去除噪聲，視頻也從最初的隨機像素轉化為清晰的圖像場景。sora使用了transformer架構，有極強的擴展性。

視頻和圖像是被稱為「補丁」的較小數據單位集合，每個「補丁」都類似於gpt中的一個標記（token），通過統一的數據表達方式，可以在更廣泛的視覺數據上訓練和擴散變化，包括不同的時間、分辨率和縱橫比。

sora是基於過去對dall·e和gpt的研究基礎構建，利用dall·e 3的重述提示詞技術，為視覺模型訓練數據生成高描述性的標註，因此模型能更好的遵循文本指令。

如今，sora正面向部分成員開放，以評估關鍵領域的潛在危害或風險。同時，openai也邀請了一批視覺藝術家、設計師和電影製作人加入，期望獲得寶貴反饋，以推動模型進步，更好地助力創意工作者。openai提前分享研究進展，旨在與openai以外的人士合作並獲取反饋，讓公眾了解即將到來的ai技術新篇章。

編輯|何小桃畢陸名蓋源源

校對|劉思琦

每日經濟新聞綜合界面新聞、量子位、openai官網等