前言
截止到发稿日,sora尚未对外开放公测,也未提供内部测试的申请途径。特别是在国内,用户无渠道参与试用。全球范围内,仅约1000名早期openai用户被授予权限使用sora。openai对这些用户生成的视频内容拥有所有权,并且严格禁止任何形式的公开发布。
我们提醒广大用户提高警惕,不要被国内市场上可能出现的声称能够提供sora试用的收费服务所骗
正文
大年初七凌晨,我在老家被窗外小朋友发的二踢脚炸醒了,起床找水喝的时候看了一眼手机,弹出的消息让我惊讶到一夜未眠。对,没错,又是ai,又是openai,又是一次划时代的应用,它的名字叫做sora。
图片源自互联网
sora,openai最新推出的文本转视频模型,能够仅凭用户输入的提示词、文本指令或静态图像,生成高达一分钟的视频内容,且视觉质量绝佳。这些视频不仅展现了精细的场景复现,还有生动的角色表情和复杂的镜头动态。
图片源自openai官方sora-demo
图片源自openai官方sora-demo
尽管sora不是首个将文本转化为视频的(t2v)应用,但它在实际渲染效果及应用场景的丰富性方面,显著超越了同领域的其他工具,对ai视频产业造成了“沉痛暴击”。
图片源自openai官方sora-demo
根据openai官网发布的48个视频演示,sora不仅在细节呈现上极为准确,还能创造出富有情感的角色、特定风格的活动,并精确再现主题背景下的复杂场景。更牛x的是,这款模型不仅能理解用户的请求,还能洞察这些内容在现实世界中的存在方式。
图片源自openai官方sora-demo
图片源自openai官方sora-demo
这一进展标志着,如果gpt能通过语言理解人类世界,sora则扩展了这一理解能力到视频领域。
就在我惊讶openai真的能藏核弹的时候,没想到sora被央视给点名了,自从gpt火爆以来,央视对于境外ai技术的报道却一直相对保守。然而,sora的出现却让央视也一反常态,不仅报道了它,还将其誉为"首个大型视频生成模型",可见sora的实力给到全世界的震撼。
图片源自于网络
那么sora相较于ai视频领域的竞品有什么优势,相比于runway ml、pictory.ai、nvidia的video-to-video synthesis有哪些优势呢?为什么众多ai视频从业者,一夜之间纷纷都说“马上下岗”了呢?
图片源自openai官方sora-demo
关键之处在于,sora迈向了ai技术的终极目标——创建一个“世界模拟器”(world simulators)。与传统的动态补帧技术不同,sora是首款能够深刻理解现实世界并将其转化为视频内容的ai。这种对现实世界的高度理解和表达能力,是sora独有的特色。
图片源自于sora官方文档
其中最重要的一个点在我看来就是60秒生成的时长是真的夸张,这与前不久大受欢迎的runway gen-2 ai视频生成技术提供的最长16秒时长相比,实现了显著的飞跃。这一增加的时长不单是算力上的胜出,更是表明了sora在理解用户提供的语义内容方面的自主性和创造力,使其能够创作出更长的视频来深入解读和表现给定的主题。
图片源自openai官方sora-demo
图片源自openai官方sora-demo
这是一个颠覆性的存在,区别于传统ai视频生成工具所依赖的diffusion技术——这类技术基本上是通过组合多个真实图片来制作视频,而这样生成的结果往往缺乏深层次的含义,更像是幻灯片式的展示。
然而,sora采用的是llm(large language models)与diffusion技术的融合,以transformer架构处理的时空块(spacetime patches)作为其技术核心。这意味着sora不仅能理解自然语言,解读文本信息,还能结合其对自然世界的洞察,从而跳出2d图片的限制,模拟出接近真实世界的场景和体验。
图片源自于sora官方文档
这一点有点像是大厨做菜,在烹饪前先将各种大小不一的食材(视频源文件)切割成统一的小块(patch表示)。然后,他会像打乱的拼图一样将这些小块按照时间和空间的关系(时空要素)重新组织好,以确保烹饪出来的菜肴(视频内容)既符合食客的口味(用户输入)又有良好的摆盘(视觉呈现)。
ai生成
sora展现的能力是超越的,令我印象深刻的是,其演示视频中有一段仿照《极品飞车》的场景转换效果尤为震撼。在这一段视频里,sora不仅精准地捕捉并变换了原始视频场景中的季节,还巧妙地处理了光线追踪,达到了接近完美的效果。
图片源自openai官方sora-demo
图片源自openai官方sora-demo
图片源自openai官方sora-demo
我们知道,nvidia曾投入几代显卡的研发,为了在游戏中实现逼真的光追效果。然而,sora仅通过简单的指令,无需传统的场景构建和繁琐的交互调试,就能够轻易地演绎出震撼级别的真实光线效果。这种技术的进步,无疑是对传统图形渲染方法的一大超越。
图片源自openai官方sora-demo
虽然目前sora并未进行公测,但仅仅通过放出的预告片,我们就可以分析出其落地的那一天对于视界行业的影响,首当其冲的便是视频制作行业,视频制作过程中原本需要耗费大量时间的剧本创作、场景搭建、拍摄和后期处理等环节,现在可以通过sora的ai技术大幅简化,甚至自动化。这可能导致视频制作变得更加低成本和高效率,但同时也会对从事视频制作的专业人士,如导演、摄影师、剪辑师和视觉效果的职业造成挑战。
ai生成
想象一下,你是一个户外婚纱摄影的广告主,目标是创造一部短片,通过展示新人在世界各地的户外景点拍摄婚纱照的浪漫场景,激发潜在客户的购买欲望。按照传统的制作流程,需要安排演员和摄制团队环球旅行,逐一在那些著名的风景名胜进行实地拍摄。然而,有了sora,这一切都变得简单。只需输入一条指令,sora就能为您生成一部堪比实地拍摄的精美广告短片,既节约了时间也减少了成本,不满意还可以继续调整。
ai生成
过去,面对缺乏实拍素材的报道,媒体机构往往依靠3d动画来辅助解说,这一过程不仅成本高昂,而且耗时较长。现在,只需向sora提供新闻的概要和事件经过,它就能迅速生成长达60秒或更长的视频。这样不仅极大提高了新闻制作的效率,也增强了报道的吸引力和生动性。
ai生成
如果未来sora可以落地应用,克服算力需求问题,面向更多的普通用户,并可以进一步地根据用户需求调整视频内容,比如换脸、换衣服、换场景等,并且能够妥善处理与版权相关的商业运用问题,这将标志着数字视频制作进入了一个新纪元。当前sora还要面对诸多的问题,其中最大的便是如何解决公用后的庞大的算力需求。
ai生成
这或许也会带动云计算、分布式计算领域的再次蓬勃发展。
不管怎么说,openai的sora让我们看到了agi来临前的曙光,未来ai技术的成熟再结合vr ar设备的不断演化,我们逐步走向一个前所未有的时代。在这个时代,每个人都可以借助ai技术,步入完全由自己想象设计的虚拟空间,这些空间不仅真实感十足,而且能够实时响应自己的感觉和情绪变化,创造专属于自己的ai世界。
ai生成