【AI时刻】为什么Sora会被央视点名？

Name: 中美AI真实差距到底多大？一定要去豪赌中国版Sora吗？谈谈国产大模型AI产业处于什么状态
Uploaded: 2024-03-06T01:33:49+08:00
Description: 中美AI真实差距到底多大？一定要去豪赌中国版Sora吗？谈谈国产大模型AI产业处于什么状态

分类：娱乐头条

浏览数：8958

2024-03-06

前言

　　截止到发稿日，sora尚未对外开放公测，也未提供内部测试的申请途径。特别是在国内，用户无渠道参与试用。全球范围内，仅约1000名早期openai用户被授予权限使用sora。openai对这些用户生成的视频内容拥有所有权，并且严格禁止任何形式的公开发布。

我们提醒广大用户提高警惕，不要被国内市场上可能出现的声称能够提供sora试用的收费服务所骗

正文

　　大年初七凌晨，我在老家被窗外小朋友发的二踢脚炸醒了，起床找水喝的时候看了一眼手机，弹出的消息让我惊讶到一夜未眠。对，没错，又是ai，又是openai，又是一次划时代的应用，它的名字叫做sora。

图片源自互联网

　　sora，openai最新推出的文本转视频模型，能够仅凭用户输入的提示词、文本指令或静态图像，生成高达一分钟的视频内容，且视觉质量绝佳。这些视频不仅展现了精细的场景复现，还有生动的角色表情和复杂的镜头动态。

图片源自openai官方sora-demo

　　尽管sora不是首个将文本转化为视频的（t2v）应用，但它在实际渲染效果及应用场景的丰富性方面，显著超越了同领域的其他工具，对ai视频产业造成了“沉痛暴击”。

图片源自openai官方sora-demo

　　根据openai官网发布的48个视频演示，sora不仅在细节呈现上极为准确，还能创造出富有情感的角色、特定风格的活动，并精确再现主题背景下的复杂场景。更牛x的是，这款模型不仅能理解用户的请求，还能洞察这些内容在现实世界中的存在方式。

图片源自openai官方sora-demo

　　这一进展标志着，如果gpt能通过语言理解人类世界，sora则扩展了这一理解能力到视频领域。

　　就在我惊讶openai真的能藏核弹的时候，没想到sora被央视给点名了，自从gpt火爆以来，央视对于境外ai技术的报道却一直相对保守。然而，sora的出现却让央视也一反常态，不仅报道了它，还将其誉为"首个大型视频生成模型"，可见sora的实力给到全世界的震撼。

图片源自于网络

　　那么sora相较于ai视频领域的竞品有什么优势，相比于runway ml、pictory.ai、nvidia的video-to-video synthesis有哪些优势呢？为什么众多ai视频从业者，一夜之间纷纷都说“马上下岗”了呢？

图片源自openai官方sora-demo

　　关键之处在于，sora迈向了ai技术的终极目标——创建一个“世界模拟器”（world simulators）。与传统的动态补帧技术不同，sora是首款能够深刻理解现实世界并将其转化为视频内容的ai。这种对现实世界的高度理解和表达能力，是sora独有的特色。

图片源自于sora官方文档

　　其中最重要的一个点在我看来就是60秒生成的时长是真的夸张，这与前不久大受欢迎的runway gen-2 ai视频生成技术提供的最长16秒时长相比，实现了显著的飞跃。这一增加的时长不单是算力上的胜出，更是表明了sora在理解用户提供的语义内容方面的自主性和创造力，使其能够创作出更长的视频来深入解读和表现给定的主题。

图片源自openai官方sora-demo

　　这是一个颠覆性的存在，区别于传统ai视频生成工具所依赖的diffusion技术——这类技术基本上是通过组合多个真实图片来制作视频，而这样生成的结果往往缺乏深层次的含义，更像是幻灯片式的展示。

　　然而，sora采用的是llm（large language models）与diffusion技术的融合，以transformer架构处理的时空块（spacetime patches）作为其技术核心。这意味着sora不仅能理解自然语言，解读文本信息，还能结合其对自然世界的洞察，从而跳出2d图片的限制，模拟出接近真实世界的场景和体验。

图片源自于sora官方文档

　　这一点有点像是大厨做菜，在烹饪前先将各种大小不一的食材（视频源文件）切割成统一的小块（patch表示）。然后，他会像打乱的拼图一样将这些小块按照时间和空间的关系（时空要素）重新组织好，以确保烹饪出来的菜肴（视频内容）既符合食客的口味（用户输入）又有良好的摆盘（视觉呈现）。

ai生成

　　sora展现的能力是超越的，令我印象深刻的是，其演示视频中有一段仿照《极品飞车》的场景转换效果尤为震撼。在这一段视频里，sora不仅精准地捕捉并变换了原始视频场景中的季节，还巧妙地处理了光线追踪，达到了接近完美的效果。

图片源自openai官方sora-demo

　　我们知道，nvidia曾投入几代显卡的研发，为了在游戏中实现逼真的光追效果。然而，sora仅通过简单的指令，无需传统的场景构建和繁琐的交互调试，就能够轻易地演绎出震撼级别的真实光线效果。这种技术的进步，无疑是对传统图形渲染方法的一大超越。

图片源自openai官方sora-demo

　　虽然目前sora并未进行公测，但仅仅通过放出的预告片，我们就可以分析出其落地的那一天对于视界行业的影响，首当其冲的便是视频制作行业，视频制作过程中原本需要耗费大量时间的剧本创作、场景搭建、拍摄和后期处理等环节，现在可以通过sora的ai技术大幅简化，甚至自动化。这可能导致视频制作变得更加低成本和高效率，但同时也会对从事视频制作的专业人士，如导演、摄影师、剪辑师和视觉效果的职业造成挑战。

ai生成

　　想象一下，你是一个户外婚纱摄影的广告主，目标是创造一部短片，通过展示新人在世界各地的户外景点拍摄婚纱照的浪漫场景，激发潜在客户的购买欲望。按照传统的制作流程，需要安排演员和摄制团队环球旅行，逐一在那些著名的风景名胜进行实地拍摄。然而，有了sora，这一切都变得简单。只需输入一条指令，sora就能为您生成一部堪比实地拍摄的精美广告短片，既节约了时间也减少了成本，不满意还可以继续调整。

ai生成

　　过去，面对缺乏实拍素材的报道，媒体机构往往依靠3d动画来辅助解说，这一过程不仅成本高昂，而且耗时较长。现在，只需向sora提供新闻的概要和事件经过，它就能迅速生成长达60秒或更长的视频。这样不仅极大提高了新闻制作的效率，也增强了报道的吸引力和生动性。

ai生成

　　如果未来sora可以落地应用，克服算力需求问题，面向更多的普通用户，并可以进一步地根据用户需求调整视频内容，比如换脸、换衣服、换场景等，并且能够妥善处理与版权相关的商业运用问题，这将标志着数字视频制作进入了一个新纪元。当前sora还要面对诸多的问题，其中最大的便是如何解决公用后的庞大的算力需求。

ai生成

　　这或许也会带动云计算、分布式计算领域的再次蓬勃发展。

　　不管怎么说，openai的sora让我们看到了agi来临前的曙光，未来ai技术的成熟再结合vr ar设备的不断演化，我们逐步走向一个前所未有的时代。在这个时代，每个人都可以借助ai技术，步入完全由自己想象设计的虚拟空间，这些空间不仅真实感十足，而且能够实时响应自己的感觉和情绪变化，创造专属于自己的ai世界。

ai生成

“【AI时刻】为什么Sora会被央视点名？”相关视频

中美AI真实差距到底多大？一定要去豪赌中国版Sora吗？谈谈国产大模型AI产业处于什么状态...