当《繁花》遇上AI,兵马俑跳科目三,2024AI的剧本是视频?


2024或成ai视频元年,

但当前的玩家更多的是爱好者,

商业交付能力还偏弱。



编辑|易瑾


从开播到结局,《繁花》的热度不减反增。

剧中取景地和平饭店英国套房16888元一晚售罄、黄河路进贤路成网红打卡地、可定制西装的裁缝店电话被打爆、排骨年糕干炒牛河引发餐饮商家跟风……结局弹幕中,充斥着观众对角色的致敬、不舍以及对第二部的呼声。

近日,甚至有用户使用chatgpt创作了《繁华2》预告片:90年代一个男人的故事,开始于最卑微的起点,双手铸就了他的命运。有剧粉直呼:不愧是ai,真敢说。

“有问必有答”,这是以chatgpt为代表的大语言模型的主要特征,而预测下一步剧情、大结局外,从《繁花》出生起遇到ai,碰撞出了不一样的“宝总”形象,也有影视爱好者用ai生成《繁华》视频,致敬剧组。

进入2024年,ai视频一改去年的沉寂,踏着希望之光走向大众视野。从兵马俑能跳科目三,带火通义千问的全民舞王,到pixverse、pika等迭代新功能,给创造者打了一波鸡血。ai视频会如《繁花》一样,好评如潮?这是一个问号。

ai世界的繁花

致敬《繁花》是ai影视探索者陈坤第一个在视频号,公开发布的作品。40s的预告片,是他用mj(midjourney)作图,pika生成的视频,声音采用的原声。


图源:闲人一坤视频号

视频发出后,在视频评论区,不少用户点赞、评厉害,也有用户指出,动作还是很迟缓,走步那几帧很奇怪。

在阐述为何选择生成《繁花》预告片时,陈坤用“致敬”二字概括自己的初衷,他表示自己曾在华策、优酷等企业从事影视工作,以专业角度看《繁花》,无可厚非是一部好剧,且达到了难以超越的地步。

在敬畏和好奇心驱使下,他想象“《繁花》遇到ai”的画面,并付诸行动。回顾ai视频的生成过程,陈坤表示耗费了大约3天的时间,“里面非常多的镜头,是现在aigc还生成不出来的,我更多的是用其他一些镜头语言去解决。”

其中值得一提的是,对于腿部运动的支持,是个大痛点,在致敬《繁花》的视频中,陈坤表示为了生成阿宝和爷叔双腿走红毯的镜头,不下100次的尝试,最终呈现的效果也仍差强人意。


图源:闲人一坤视频号

距离陈坤创作ai版《繁花》预告片,已经过去了近一个月。期间,字节发布新视频生成模型majicvideo-v2、pika推出视频画面扩充功能、阿里开源dreamtalk、mj将在2月上线初始视频功能……作为个人使用者,行业的变化陈坤也有明显的体感。

“aigc是以天为单位在进化的,有的是版本级的进化,有的则是模型微调级的进化。”陈坤说如果是现在重新生成,上述镜头不至于生成上百次,效果也会更加流畅。

除了ai视频外,《繁花》的热度也蔓延到了ai绘图、ai影评上,有创作者用ai呈现剧中的经典场景,如香港的街道、霓虹灯等,也有创作者将剧中人物李李、汪小姐和宝总,通过ai图生图,赋予了新的数字形象。



万物皆可科目三

回头来看过去的整个2023,全球各大科技巨头从大模型竞争再到应用之战,ai视频几乎和文生图同一时期进入到人们的视野中,但在去年,ai视频的发展速度显然逊色于后者。直到去年年底和今年年初,pika、阿里animate anyone、runway等,在产品迭代和创新上燃起了行业的希望。

英伟达高级科学家jim fan预测,“2024将是视频之年”。有意思的是,从2024年第一个工作日开始,兵马俑、布偶、马斯克以及各地网友跳科目和网红舞的视频就陆续在社交平台刷屏。

这些视频都是用阿里的“全民舞王”ai生成的,用户仅需上传一张图片,就可以生成一段舞蹈视频。

目前,该应用中内置了12种舞蹈模板,除了“科目三”以外,还有dj慢摇、鬼步舞等网红舞蹈。这个功能源自他们的一项学术研究animate anyone,这个研究的目标是做可控的人物视频生成。

根据公开论文显示,animate anyone集成了多项创新技术,引入了referencenet,用于捕捉和保留原图像信息,可高度还原人物、表情及服装细节;该算法使用了高效的pose guider姿态引导器,保证了动作的精准可控;通过时序生成模块,有效保证视频帧间的连贯流畅性。



阿里巴巴通义实验室xr负责人薄列峰表示,“研究本身并不局限在舞蹈生成,为了让偏枯燥的学术工作,变成大家都能体验、都能找到乐趣的功能,我们这次是率先上线了一批舞蹈模板。”言外之意,以后可能还会有更多的功能或者应用上线。

通义舞王火爆的同时,市场上也出现了一种声音,通义千问如何去承接这波流量,会不会难逃公域流量出圈后就是顶峰的宿命。

薄列峰认为,通义舞王是业界在视频生成领域的全新探索,未来该技术可应用于直播、影视制作、艺术创作等领域。比如工厂女装生产设计领域、ai模特试衣、漫改剧等等,还在进一步探索中,未来可能还有很多其他应用场景。

多家企业加码,分成两种不同路径

陈坤分析道,真实拍摄牵扯到摄影、灯光、化妆、后期等整个链条,所耗费的时间和财力成本是巨大,他以另外一个作品山海奇境里狐狸脑袋,同时驱动火的镜头为例,阐述道这样一个镜头成本是10万元级的,时间可能需要1个月。


图源:闲人一坤视频号

通过ai生成视频,陈坤表示在人力和时间上的效率是明显提高的。但他也坦言,目前的产品仍处于初期阶段,远没达到可交付的商业化水平。根据他的观察,目前在玩ai视频主要的个人爱好者,专业的ai影视玩家还相对较少。

出现这个现象的原因,他认为除了工具本身还处于发展期,还有一个重要原因是对影视行业的理解不够,这就涉及提示词的输入,创作者需要先在大脑中构建出画面,再输入工具能理解的关键词,“对垂类知识要一定了解,工具只是赋能,才能有好的作品诞生。”

无论是陈坤还是薄列峰都有相似的感受,ai视频日趋火热,并有不少企业已经布局这一赛道。薄列峰将目前生成视频的应用分为两类,一类是gen2、pika这些应用,他们聚焦在文本生成视频。

他指出这类应用的优劣也很明显,“有点是文字的表达领域广,天马行空,能说出来的都可以生成。相对地,文字也有表达不够精准的问题,生成的视频带有很大的随机性,通常生成不了长视频。”

另一类,他认为是和他们更相似的,可控视频生成,比如disco、dreampose。“举个例子,从一致性的角度来看,相比这些工作,我们能精准捕捉原人物的衣服、头发、鞋子的细节,同时也能更好适配到人物的体型上,最终生成的视频能很好地保留原图像形象的特征。”

对于未来的发展,陈坤预测ai视频应用发展主要是两种不同路径:“玩具”和“武器”。

具体而言,“玩具”面向的更多是爱好者,主要追求的是在公域的出圈,这类应用的定价则需要更谨慎,商业化前景相对没那么明朗;“武器”则更多的是针对专业使用者,例如美图工具,不断推陈出新赋能行业从业者,这类应用的商业化路径是相对清晰的,但是对产品力的要求也更高。


不管是已经火爆出圈的open ai的gpt-4,还是热度趋增的视频生成模型,本质都属于多模态大模型。idc发布的《2024 aigc应用层十大趋势白皮书》也预测,多模态大模型拓展服务边界、带来更丰富的用户体验是重要趋势。2023,大模型之战已打响;2024,期待大模型的价值落地。

综合自ai视频创作者、阿里云、21世纪经济报道