两周前的今天,北京时间 2 月 16 日,OpenAI 、谷歌、Meta、Stability 都在这一时间节点前后发布文生视频模型成果,但只有 OpenAI 的 Sora 在这场角逐中破圈而出,成功抢占全球的注意力。可以说,Sora 打响了文生视频大模型行业 2024 年的第一炮。
面对 Sora 着实优异的视频生成效果,短时间内 AIGC 行业内掀起一轮又一轮讨论,一方面,没人想到 OpenAI 的动作如此之快,令人激动兴奋的同时也来不及招架,另一方面,也都在为其 “60秒超长长度”、“单视频多角度镜头”和“世界模型”的等炸裂的效果震惊,并声称会迎来行业洗牌。
在对于 Sora 的各种争论、预判热火朝天、此起彼伏的时候,AI 科技评论反观从最初的 Disco Diffusion 再到 Stable Diffusion 出现的过程,并和行业内的投资人、技术专家、学术大咖、AIGC创业者等数十位行业人士做出了关于 Sora 的冷思考。(关于 Sora 和 AIGC ,欢迎各位朋友找作者:s1060788086 来聊)
从长期的角度来看 ,不可否认 Sora 是文生视频大模型的里程碑事件,标志着视频生成能力上升到新高度。但一些业内人士也指出,“大家要清醒”,Sora 的冲击也没有想象中那么大,不会对影视、广告、内容创作等领域产生立竿见影的颠覆性影响,也不一定会断了 AIGC 创业者的后路。
Sora 发布两周之际,此时更需要的不是热捧,而是降温。Sora 的影响,不急于在当下就说完道尽,更需要在接下来 1—3 年的时间中且行且看。
Sora 技术不无探索空间
Pika 火爆之时,香港大学计算机教授徐东老师称其是文生视频行业的曙光——让世界看到了文生视频的惊艳效果,但同时也意识到,Pika 只是先跑出来的那个,它离大规模的用户付费还有一段距离。
而 Sora 的出现,徐东教授则评价其是一个“极大的 breakthrough(突破)”,它不是一个简单的从 ChatGPT-3.0 到 ChatGPT-4.5 的迭代,而是对之前视觉模型的一次降维打击。
60 秒的视频长度,让其他文生视频产品望尘莫及 Sora 。但其实,跳出生成长度的考量要素,生成速度也是考量文生视频大模型的关键指标。
一个 60 秒的、效果惊艳的 AI 视频,其背后的生成时间是十分钟还是一个小时,对使用者来说是截然不同的体验。如果生成时长在 60 秒以内,就又会是另一番惊人的效果。
面对未来视频生成低时延的要求,背后算力的支持情况是最根本的基础。预计通过什么方式能够高效调用算力去满足庞大的需求量,这些是 Sora 等文生视频模型可以探索的空间之一。
解决生成时长的一系列问题,除了算力之外,石榴科技创始人 Frank 认为背后技术的解决方案也是关键影响因素之一。因为 Sora 底层是一个扩散模型,如果模型本身有一些限制导致处理的速度达不到,那生成的时间确实快不了,即使算力再强也用不上。
除了生成视频的 60 秒时长外,世界模型也是 Sora 带给人们打开的新视野。
从世界模型的技术起源来说,Sora 目前的做法和杨立昆最开始提出的是不一样的。Yann LeCun更强调在空间中去做规则表达的理解,即能不能直接在这个模型中找到被清晰定义的某个对象的表达。
Sora 显然和这种做法是不同的,他们走了“大力出奇迹”的路子。用基于 Transformer 的 Diffusion 去压缩,这仍然是一个数据驱动生成式的基本方法。
在这一过程中能否真正地去反推归纳出中间学习到的物理规律,动漫生成「捏Ta」产品创始人胡修涵表示这仍然需要被打一个问号。如果相信 OpenAI 的哲学就是“Scaling is everything”,之后可能会随着规模的扩大,压缩效能越来越强,模型就被迫学会和总结到了所有的物理规律,但是基于现在的模型规模和效能,还不能直接得出 Sora 是世界模型的结论。
Frank 持有同样的观点,并补充道不仅要从物理的意义上来看,也需要从非物理的角度去思考。作为一个世界模型,更需要考虑到社会中的「人情规律」。就像当一个小宝宝手里的东西被抢走后,Sora 是否能成功地预测出来宝宝会哭——所以世界模型除了符合物理规律的演进以外,也需要更进一步地满足日常生活当中的场景和判断。
而这种社会意义上的信息,大部分都不是通过文字和语音来表达的,背后仍然要探索文生视频模型怎样才能理解、生成到位。为了实现这一效果,Frank 认为则需要建立表面文字和其背后潜台词之间的对应连接关系。
基于 OpenAI 冰山一角之下的海量数据和一定连接关系的建立,GPT-4 已经展现出它对于人类潜台词、双关语句等很多复杂内容的理解率是非常高的,表现得很聪明。
Sora 也同样值得期待,看它是否能有更多的联想,提示一句话,就能理解背后的 10 句话,然后用 10 句话来去完成一个更好的作品。
但现阶段的视觉模型 Sora 又不同于之前的大语言模型。在 OpenAI 成立的早期,大部分的研究成果都是开源的,甚至数据库也是放出来开源的。但是现在已经不再是开源的, Sora 的技术报告只对外讲了很宏观的框架,剩下的都需要同赛道公司自己去探索。
徐东教授认为 OpenAI 的闭源,使得追赶探索 OpenAI 成果的工作变得很难。但从社会宏观的侧面出发,国内是有必要追赶 Sora 的。
一方面,诸如游戏或其他涉及商业机密的行业跑在 OpenAI 的底层技术上并不是很合适。
另一方面,文生视频技术的攻防问题也是更重要的侧面。因为 Sora 这套技术会很容易地生成大量的虚假视频,之后可能会被别有用心者用来散播一些虚假视频或价值观不正确的视频以引导舆论。面对这样的情况,如果都不知道对手是怎么进攻的,那也很难防守。
从应用的方面来讲,国内对于文生视频的需求是很旺盛的,不能都翻墙去用 OpenAI 的产品。
追赶 Sora 这是一件长期的事,也需要更多的社会资源倾斜进来扶持人才,人才是这场新的 AI 竞争的核心。
目前,港大的罗平教授带领学生们正一点点摸索文生视频,在几乎没有卡的情况下,研究出来跟 Sora 最像的技术路线。
在 Sora 冲击下的 AI 竞争格局中,做产品应用是一个更安全的方式,国内同样也需要深耕追赶技术的公司。因为无论做任何产品,如果技术底座不坚实,又没人开源,好产品是很难问世的。况且,在 Sora 的基础上做应用,如果 Sora 卖得很贵的话,那么产品的意义也不会很大。
内容生态不会被轻易撼动
Sora 强悍的内容生成能力,最先冲击到的就是和视频相关的内容产业。
Sora 的出现的确会让一些大厂紧张,比如以字节剪映为代表的智能剪辑工具。某大厂内部人士透露,Sora 对视频的冲击确实挺大的,内部还没有太想清楚这个事具体要怎么玩。(雷峰网(公众号:雷峰网)雷峰网雷峰网)
徐东教授认为,剪映作为一种剪辑工具是成熟的产品,且技术特点没那么强,在有擅长工程化、产品化人才的情况下,Sora 也可能做出来 。而文生视频的技术则是重磅功能,剪映如果没有办法很好地提高质量服务,很可能在 Sora 积累到足够的用户量之后被降维打击。
但如果剪映自己做得好,智能生成能力会成为核心创作流程中核心的步骤。如果剪映不这么做,那么剪映的意义长期来看肯定是会被消磨掉很大一部分。
在 Sora 和抖音等内容生成平台的关系上,胡修涵认为 Sora 不会是去直接取代抖音生态位,因为单纯的 AIGC 并不能取代分发价值。而 Sora 不应该是一个素材提供框架,更加是个模板生产器,如果 Sora 的智能得到很好的运用,它会变成一个更强的模板格式,而不会构成中间的每段素材。
但完全由 AI 生成的虚假视频内容,是会对平台的内容产生影响。前快手全景视频业务负责人、英俊文化联合创始人马英武表示,相比较于流量处于二线位置的内容平台,Sora 更多地会冲击一线位置的内容平台,甚至对二线位置的内容平台来讲,是一个个锦上添花的一个事情,因为以前还会考虑,内容生产端端供给不足,现在 AI 内容能够让生产从数量和质量上丰富起来。
对于像抖音、快手这样流量较高的平台,Sora 带来的 AI 内容充斥进去之后,对平台首先的考验就是能否把流量精准分配到最好的内容上,这对技术和算力都是一个挑战。
如何平衡真实内容和 AI 内容的关系是需要面临的问题。平衡不好的话就会面临原本优质创作者的流失问题,因为他们没有得到足够播放量的正反馈就会选择「出走」,或者创作者也会降低他们内容生产的质量,比如,原本一条视频有 100 万播放量,创作者会按照 100 万播放量的要求做好内容,但 AI 内容分走蛋糕后,播放量只有1万了。创作者就会抱着「随便做做」的心态应付内容,降低标准,不断形成恶性循环。
根据抖音快手的用户协议,目前都会有一条就是禁止使用 AIGC 相关的工具去批量生产视频内容,或者也会要求对AI内容进行显著标记以示提醒。平台也会防止 Sora 这类工具生产的 AI 内容去破坏原有的内容逻辑。
除此之外,Sora 对以 PGC 为主的长视频生产和以 UGC 为主的短视频生产的冲击也是不一样的。
虽然 Sora 还没有完全出来,行业内都在预测其价格应该很贵。对于 UGC 而言,制作 1 分钟以内的短视频价格都是很高的。甚至马英武调侃道,根据对创作者的了解,国内内容创作者的付费意识较低,除非 Sora 特别便宜到用一次一块钱,否则就很难以被广泛接受,因为创作者制作一条视频有时甚至是零收入。
对于 PGC 的长视频而言,如何能保证主体的一致性、稳定性、持续性,都尚未可知。而影视行业又有很强的头部效应,这也是长视频的逻辑,只有长视频的效果做到最头部的位置,才能在院线里拿到最好的排片。如果做了一个内容不是很抗打的二三线的长视频,那么虽然也能进院线,但是营收也不会太好。
所以长视频是要向着冲击最顶部的方向去,做二三线的视频意义不大,而AI视频是否能做到一线这对 Sora 来说是很大的考验。
Sora 更多的还是对视频生产链路产生变革。Frank 向 AI 科技评论透露,当下文生视频工具的角色更像是在原本的工作流程中,能够用 AI 的部分都用 AI 来做。但它也只是一个生产工具,需要有人来去创业的。策划、编导、脚本语言、拍摄这样一个工作流中,Sora 只会对后两者产生一定的替代作用,但不会替代前两者。
Sora 也可以运用在时下火爆的短剧制作中。Sora 具备生成一分钟视频的能力,已经足够做一集内容了,这样就可以纯原创,可以实现纯足不出户拍短剧,成本又极大降低。
但即便是 Sora 能出来,并且效果极好,也不是谁都能拍短剧。Sora 更多的只是工具,降本增效,无法取代能力和创造力。就像咪蒙无论有没有 Sora,他都会火。也如同现在的 ChatGPT 已经很完善,但鲜少有人通过用 ChatGPT 写出 10 万加的超级爆款。
过去会有一些编剧或其他创造能力很强的人,他们的内容足够好,只不过受制于生产力,他们没办法那么高产,这样Sora可以极大程度缓解他们的痛点。但是对于普通人而言,拍出流量和关注度高的短视频,门槛是极高的。
综上,Sora 出现之后,创意点、创造力、创新性的重要性不会变,对内容的思考和理解也是不会变的。Sora 其实无法去撼动那些本来就是靠优质内容为生的部分。
在短期的 1-3 年内,Sora 带来的不变会大于改变。就像在影视娱乐、短视频的行业中,原本的工作流和行业知识依然非常重要。
创业者不无机会
「Pika、Runway 这样的文生视频初创公司该怎么办?」这是 Sora 出来后,行业内人士不约而同会发出的疑问。
的确,基于一个已有的、很明显是过时的技术框架直接扩张用户数量的公司,现在确实处于危险的位置。
因为在这个过程中,不仅围绕着上一代、不成熟的技术框架做了很多工程适配、产品验证、画蛇添足的设计,同时产出的结果要迁移到新的过程中,还会一定程度上牺牲老用户的利益,也会让整体的迁移过程像在飞行的飞机上换引擎一样痛苦。
但于 Pika 而言,它和 OpenAI 一样都是微软系公司,两者其实是一个阵营。有行业内人士判断,Pika 在一定程度上更像是一个排头兵或者是试验田,当然 Pika 之中有很好的技术,用他们先来呈现,以获得反馈。而之后 OpenAI 的 Sora 才是更重磅的,是要经受更多考验的产品。
至于 OpenAI 和其他生存下来的 AIGC 公司的关系,现在一超多强的局势初步呈现,还很难看到终局。Frank 表示,可以确定的一点是,使用者靠近 OpenAI,创业者远离 OpenAI 。
和 OpenAI 的业务主体技术保持一定安全距离,和他能够辐射到的市场需求保持一定空间,这个空间需得是它作为一个超级应用的大公司还暂时触及不了的,而在这些领域是可以形成业务纵深,知道自己的生存缝隙,比如 AI 教育、AI 电商。
出现这些机会的背后,定然是市场和技术的结合,也是国外公司必然触达不了的角落,国内的互联网产品比国外做得更精细、更强、更适配、更好用,更能满足我们中国人自己的需求。这样相比之下,国外产品的竞争力会降低。
如果是把 OpenAI 或者其它大模型作为一个超级底座的话,在此基础上更进一步的细化对具体的技术和业务理解会更重要。去做某一类人群、或者说特定垂类上的内容需求,都是有价值的。
胡修涵举例说,面向电商的营销场景的内容生成,都是值得单独做的事情,但是在大块的垂类场景的之上,它也不会是一个切得过于细碎的区块。比如,不能为一个剪映模板能做出来的视频,专门去训一个模型创业,这就违背了通用人工智能的基本逻辑。
本质上来讲,现在 AIGC 产品的母模型都是大语言模型,也可以理解成,大模型在更大程度上是一个概率抽样器,所以它会基于给定的条件,输出一个平均的结果。一旦在一个确定的领域上深耕,需要模型输出的往往是小概率、反共识、反常规的一些结果,这一部分就需要做单独的适配才能更符合这部分用户的习惯,这也是 AIGC 创业者的机会所在。
当下,对于人才密度不够的创业团队而言,重做技术的风险很大,马英武认为此时的机会反而在于做用户运营。在 Sora 上搭建一套新的工具栏,「做皮不做瓤」,基于这样的模式去做工具运营,生产的内容也可以留存到自己的平台,如果这时候能有一个消费平台,就可以做出从生产到消费的自闭环。
在这个过程中,技术虽然是属于 Sora ,但用户、内容、渠道都属于创业者,未来这种中小型平台诞生的可能性非常大。
Sora 冲击之下,无论是做技术还是做产品,都需要有一些原生的、开拓性的思考、积累、预判、坚持,如果单纯地亦步亦趋则前路渺茫。
本文作者长期关注 AIGC 落地应用、大模型和数字人领域,欢迎添加微信:s1060788086,交流认知,互通有无。