每經編輯:何小桃,畢陸名
2月16日凌晨,openai再次扔出一枚深水炸彈,發佈了首個文生視頻模型sora。據介紹,sora可以直接輸出長達60秒的視頻,並且包含高度細緻的背景、複雜的多角度鏡頭,以及富有情感的多個角色。
目前官網上已經更新了48個視頻demo,在這些demo中,sora不僅能準確呈現細節,還能理解物體在物理世界中的存在,並生成具有豐富情感的角色。該模型還可以根據提示、靜止圖像甚至填補現有視頻中的缺失幀來生成視頻。
例如一個prompt(大語言模型中的提示詞)的描述是:在東京街頭,一位時髦的女士穿梭在充滿溫暖霓虹燈光和動感城市標誌的街道上。
在sora生成的視頻里,女士身着黑色皮衣、紅色裙子在霓虹街頭行走,不僅主體連貫穩定,還有多鏡頭,包括從大街景慢慢切入到對女士的臉部表情的特寫,以及潮濕的街道地面反射霓虹燈的光影效果。
電影預告片講述了30歲宇航員戴着紅色羊毛針織摩托車頭盔的冒險經歷,藍天、鹽漠,電影風格,35毫米膠片拍攝,色彩鮮艷。
ai想像中的龍年春節,紅旗招展人山人海。有緊跟舞龍隊伍抬頭好奇觀望的兒童,還有不少人掏出手機邊跟邊拍,海量人物角色各有各的行為。
豎屏超近景視角下,這隻蜥蜴細節拉滿:
網友直呼game over,工作要丟了:
甚至有人已經開始「悼念」一整個行業:
還有網友表示,電影業要徹底顛覆了。
一位youtube博主paddy galloway發表了對sora的感想,他表示內容創作行業已經永遠的改變了,並且毫不誇張。「我進入youtube世界已經15年時間,但openai剛剛的展示讓我無言…動畫師/3d藝術家們有麻煩了,素材網站將變得無關緊要,任何人都可以無壁壘獲得難以置信的產品,內容背後的『想法』和故事將變得更加重要。」
對於sora當前存在的弱點,openai也不避諱,指出它可能難以準確模擬複雜場景的物理原理,並且可能無法理解因果關係。
例如「五隻灰狼幼崽在一條偏僻的碎石路上互相嬉戲、追逐」,狼的數量會變化,一些憑空出現或消失。
該模型還可能混淆提示的空間細節,例如混淆左右,並且可能難以精確描述隨着時間推移發生的事件,例如遵循特定的相機軌跡。
如提示詞「籃球穿過籃筐然後爆炸」中,籃球沒有正確被籃筐阻擋。
openai表示,他們正在教ai理解和模擬運動中的物理世界,目標是訓練模型來幫助人們解決需要現實世界交互的問題。
隨後openai解釋了sora的工作原理,sora是一個擴散模型,它從類似於靜態噪聲的視頻開始,通過多個步驟逐漸去除噪聲,視頻也從最初的隨機像素轉化為清晰的圖像場景。sora使用了transformer架構,有極強的擴展性。
視頻和圖像是被稱為「補丁」的較小數據單位集合,每個「補丁」都類似於gpt中的一個標記(token),通過統一的數據表達方式,可以在更廣泛的視覺數據上訓練和擴散變化,包括不同的時間、分辨率和縱橫比。
sora是基於過去對dall·e和gpt的研究基礎構建,利用dall·e 3的重述提示詞技術,為視覺模型訓練數據生成高描述性的標註,因此模型能更好的遵循文本指令。
如今,sora正面向部分成員開放,以評估關鍵領域的潛在危害或風險。同時,openai也邀請了一批視覺藝術家、設計師和電影製作人加入,期望獲得寶貴反饋,以推動模型進步,更好地助力創意工作者。openai提前分享研究進展,旨在與openai以外的人士合作並獲取反饋,讓公眾了解即將到來的ai技術新篇章。
編輯|何小桃 畢陸名 蓋源源
校對|劉思琦
每日經濟新聞綜合界面新聞、量子位、openai官網等
每日經濟新聞