撰文|王硕果 江昱玢 编辑|江昱玢
95后杭州少女领衔,ai视频生成赛道,新星闪耀。
6月上旬,pika拿到8000万美元b轮融资。
这家硅谷创业公司,成立仅一年,已完成了5轮融资,背后站着硅谷一众明星资方。
创始人是两位“学霸”女生——郭文景和孟辰霖,均为斯坦福大学ai lab博士生。
郭文景的父亲是上市软件公司信达雅的实控人,母亲则毕业于美国麻省理工大学。
4月,pika入选福布斯ai 50强榜单。据透露,新一轮融资后,公司估值将超4.7亿美元,接近35亿元人民币。
以小胜大
在对话框中输入“马斯克穿着太空服,3d动画”,“宇航员”马斯克便立马出现在屏幕上,身后的spacex火箭喷射火焰、腾空而起——这是一段pika 1.0的demo(小样)宣传视频。
去年11月,郭文景团队发布了这款文生视频产品,以电影般的质感、动画级的特效,引起关注。
pika 1.0能生成3d动画、动漫、卡通和电影等各种风格的视频,用户还能在生成的视频基础上,再次输入简短指令,修改视频局部,或进行画布延展、时长拓展等编辑。
郭文景的制胜方法是“以小胜大”,即用更少的资源,得到更好的效果。
她解释,视频是一种高维的数据,比如,每秒24帧的1080p视频,分辨率是1920×1080,每秒的维度达到1.5亿,再乘以视频时长,ai处理这一数据量级非常困难。
“视频的每一个维度,是相互关联的。”郭文景团队抓住了这一特点。
“我们只需要知道第一帧的信息,比如,人走路的背景,他的穿着细节,后面的帧就不需要完整画面。”
换言之,团队放弃大规模训练ai高维度数据,而是集中精力研究高效架构和数据压缩方法。
这个方法能去掉90%的冗余信息,节省算力,降低训练模型的成本,还能呈现更好效果。
郭文景还将运动先验、图像先验等嵌入到pika 1.0的模型里。
所谓“先验”,是指对常见模式或行为的预先理解,以帮助模型更好地理解和预测视频中的内容。
例如,用户想要一段某人以某种特定姿势走路的视频,用语言描述有困难。解决方法是,提供一个引导,类如一个走路姿势的参考视频,作为第一帧,方便用户把控生成效果。
“我们想建立像人类思考一样的模型。”
郭文景根据用户建议,2月上线功能组件lip sync,支持视频人物嘴部动画和音频同步,用户可输入文字生成音频或上传自己的音频。
“未来几年,生成和编辑视频,跟现在用手机p图一样简单。”
天才组队
郭文景是名副其实的“科二代”。
母亲毕业于麻省理工学院计算机系,父亲郭华强硕士毕业于浙江大学,现为信雅达的实控人。
郭文景高中在杭州二中读竞赛班,曾受麻省理工邀请参加北美编程邀请赛,获第二名,对手是哈佛、斯坦福等大学代表队。
本科和硕士就读于哈佛,郭学业之余,在微软、谷歌等实习,大二时还在meta的ai研究部门任工程师,后进入斯坦福大学ai实验室,攻读博士。
成立pika的想法,萌生于读博期间的一次比赛。
郭文景参加ai视频老牌企业runway的首届ai电影节,发现runway和adobe photoshop的工具不好用,她想,能否自己开发一款“更好用、更聪明的”ai视频生成工具。
去年4月,郭文景和同学孟辰霖从斯坦福退学,成立了pika。
郭文景(左)和孟辰霖
体量虽小,全员天才。
联合创始人孟辰霖发表多篇论文,其中的降噪扩散隐式模型(ddim),已成为业界内容生成的默认方法,被openai、谷歌等使用。
创始团队中的陈思禹,与郭文景是杭州二中的同班同学,也是信息学和物理两门学科的国家集训队成员,本科保送北大图灵班。
当下,pika仅13人队伍,有6位ioi(国际信息学奥赛)金牌得主,其中3位是世界第一。
pika的顾问阵容,同样星光熠熠:christopher manning,斯坦福ai实验室主任;ron fedkiw,两届奥斯卡科学技术奖得主……
“我们每天都在跟openai和elon musk抢人。”郭文景求贤若渴,“我们想做下一个sora,甚至超过sora,让大佬充分发挥。”
行业领头人协同作战,团队运转高效。
某次,一位天使投资人向团队提出,在视频中嵌入文本的想法。凌晨3点,他收到回复,称这项功能已准备就绪。这位投资人立刻决定,对pika进行下一轮投资。
“我们会更aggressive(声势浩大)地做视频大模型,”郭文景表示,pika计划此轮融资后,快速扩张研究和工程师团队。
4月,adobe宣布在视频编辑工具 premiere中嵌入三大外部合作商,openai、runway以及pika。
商业突围
对比sora的视频生成最长60秒,国产文生视频大模型vidu的16秒,pika仅4秒。
足够的时长,是叙述和情节展开的基础——这是后起新秀必解的题。
“视频时长有突破,达到60秒不是难事。”郭文景透露。
pika当前用户达数百万,每周生成数百万个视频。
关注度出现下滑。
similarweb数据显示,4月,pika网站访问量为200万,较其最高点下降64%。
好在,资本依旧青睐。
pika最新的8000万美元b轮融资,由spark capital领投,公司估值超4.7亿美元,比上一轮翻了一倍。
郭文景带队已完成五轮融资,总融资额达1.35亿美元,约合10亿元人民币。
投资方几乎集齐了硅谷的一众大佬,包括quora创始人 adam d'angelo,github 前ceo nat friedman,硅谷投资人daniel gross等。
郭文景已展开商业化探索,pika的收益主要来自会员订阅费用。
1月起,公司产品开始付费。官网显示,按月订阅分为标准版和专业版两档,分别收取10美元/月和60美元/月。
“我认为to c在美国还有机会,如果10万用户愿意每月付100美元,我们就有1亿美元收入。”郭文景坦言,通过c端盈利,在国内挺难。
她透露,当下,pika生成一个3秒的视频,成本远低于sora。
“如果刨除大模型训练投入和gpu(图形处理器)成本,公司整体是profitable(盈利的)。”郭说。
要紧的是,推出下一个让人眼前一亮的新品。
据悉,pika将在年内发布重大更新,新产品的升级重点是其“可控性”。
青年学霸、业界顶流们组队,这匹ai黑马疾驰向前。
“跟openai是有差异的,我们的目标不是做agi(人工通用智能),而是做服务创作者的产品。本质是帮大家实现创意。”郭文景谈到。