作者:马蕊蕾
编辑:陈彩娴
全国信息学奥林匹克竞赛冬令营金牌,签约北京大学计算机系,24岁的胡雅婷,和她的清北团队即将上线4D模型,建造属于他们的4D世界。
“不能和成熟的创业者竞争偏传统或较成熟的AI领域,你肯定卷不过他们。”AVAR AI公司创始人胡雅婷说道。在她看来,年轻的创业者得做下一个模态的技术,挖掘新生代用户的需求和场景,这是00后的优势。
相比大多数AI赛道的00后创业者,胡雅婷略显“成熟”。2021年,她就创立了AVAR AI公司,坚定入局了3D应用场景,成为头部的元宇宙数字品牌,和多家动画、品牌、大厂合作。
胡雅婷很喜欢皮克斯,这家传奇的动画公司,是她创业路上的标杆。当AI科技评论问她:“决定创业的那一天,是怎样的一天?”她说不上来,好像和往常没什么区别。
当然,皮克斯的故事并不是从创立那天开始的,AI创业公司的故事也很少是这样的。对于胡雅婷来说,最初的火花只是画画、一本书和一个校园的机房。
从信息学竞赛、北大计算机系再到头部大厂的实习,一步步踏进信息学这个庞大的“帝国”。在Google、阿里等大厂的实习经历,让她逐渐发现整个互联网的流量已经到顶了,只能做一些微小的优化,从此埋下了创业的种子。
相比成熟的连续创业者,她和团队找到了自己的优势。3D和4D领域的竞争格局在国内外都还没有形成,每天都有新技术出现。她坦言,即使在大厂有再多的AI经历的创业者,大家也都是从全新的起点去探索。
今年5月AVAR AI公司推出了Unique3D算法及新产品Aiuni AI,只需上传一张图片,就能在30秒内生成高精细度和还原度的3D模型,Unique3D上线后就登上了 Huggingface的热门模型排行榜。
胡雅婷透露,公司即将会发布4D模型,他们选择的技术路线是使用平面图生成 3D模型,再将3D模型变成4D动画模型。
目前,Aiuni AI的用户主要为专业化用户和平台爱好者。接下来他们会更聚焦在动画领域,关注创作者的生态。她发现,在各类AI赛道的生态当中,国内用户的创造性和供应能力都更略胜一筹。
构建平台的核心壁垒,她认为不完全是靠某一个技术或者功能点,核心是要形成创作者的生态,通过订阅者和IP授权,从而形成创作者的经济。
Aiuni AI产品留下了非常多的想象空间,将颠覆更多现有的内容模态。胡雅婷希望自己所创作的产品是一个高于自我的存在,去掉标签、不被定义,是她想做的事情。
以下是AI科技评论与胡雅婷的访谈实录,作者进行了不改原意的编辑整理:
从一间机房发现算法的魅力
AI科技评论:你之前得过全国信息学奥林匹克竞赛金牌。这段经历能展开讲讲吗?
胡雅婷:我从高中才开始学竞赛,身边很多人从小学就开始了。最早没想学,很多人参加竞赛可能是因为从小数理化就很好。当时想学是因为我喜欢画画,初心是想体验一下,如果学竞赛就可以经常去机房用数字设计的软件,但没想到从中找到了算法的乐趣。
当时看了一本书《算法艺术》,我发现原来算法也是一个很有创造性的过程,可以用一些巧妙的方法让一个复杂的问题变得简单。我当时挺叛逆的,经常会向学校教练反映,应该更改出题思路和学习计划。
AI科技评论:这个竞赛的难点是什么?最终考核的标准是什么?
胡雅婷:主要集中在算法,但这个算法和AI算法会有区别。它是指经典的算法数据结构,会给出一个具体的问题,但这个问题会有很多种不同的解法。比如运用暴力的方法,逐个去搜索,速度会非常慢,但结果一定是正确的。
使用不同的方法,能解决算法的范围也是不同的,所以相应得到的分数也会不同。它不像常规的高考题,没有标准的答案,你可能也可以想到出题人从来都没有想到的方法去解决问题。
全国信息学奥林匹克竞赛,一般从省份比拼到全国大致就100人。最终每位参赛者都会拿到相同的三道题目,通过考察解法,来评定最终能拿到多少分数。
这个竞赛除了决赛,还有省选、冬令营和夏令营等等。在这个过程中,你都可以和高校签约,就可以不走传统的高考路径进入高校,由于湖南和浙江是竞赛的强省,所以我在省选就和北京大学计算机系签约了,2017年进入的北大。
AI科技评论:在Google、阿里、字节做算法工程师的实习经历,对你创业有影响吗?
胡雅婷:我当时觉得计算机行业,还是得多去产业界看看。一方面,想了解程序员和工程师具体如何参与到产品的流程中;另一方面,想理解互联网的实际业务。这几段经历,正好对应了互联网的搜索推荐和广告。
当时我们在优化推荐系统和广告系统,流量基数一般是千亿级的,所以优化千分之一也会很有成效。但对我来说,它不是一个从0-1搭建的新系统,我发现当时整个互联网的流量已经到顶了,只能做一些微小的优化,所以我开始有点想创业。
数字人合成,图片来源:受访者提供
AI科技评论:你在北大计算机系这几年有哪些关键的人生经历?
胡雅婷:有两段经历蛮重要的。学校有一个「人工智能创新中心」,注重 AI 和产业链路的结合。虽然当时还没有AIGC,但是做AI动画的项目中,大家就运用判别式AI 的方式直接加入三维引擎的指令,偏生成式的把动画制作出来。
另外,在「前沿计算中心」,有一段研究数字经济学的经历,当时做的比较好的是算法博弈论。在我离开北大后,其实数字经济学这一块,也依然会有很多应用。
现在,我们定期会和创投相关的北大同学交流,运用偏经济学的方法解释我们在创业中遇到的实际问题。
AI科技评论:北大计算机系创业的同学多吗?
胡雅婷:我们一个系有三四百人,很少有人选择创业,一届可能就一个。每个人的定位都不太一样,我们当中大部分同学可能想继续做研究,但我确实还是想解决一些真实的问题。
不太想只做技术,我更想做一些技术结合艺术或产品市场的方向。
AI科技评论:是什么促使你最终迈出了创业这一步?
胡雅婷:学校的创业氛围其实不太浓厚,但在2020年的疫情,导致很多留学生回国,突然发现所有留学生好像都在做一些创业尝试。
大家一起展开了挺多创业相关的活动,相当于真正开始了解创业。我就开始接触到一些投资人等等,他们对于年轻人创业是比较支持的。
“CGI流程全面AI化,最起码得3-5年”
AI科技评论:公司一开始的业务线是元宇宙,目前主要做哪些?
胡雅婷:当时说元宇宙,我们自己的定义是3D互联网,整个 3D 内容的全流程都做,包括3D数字人、角色动画以及偏AR的数字资产的玩法等。
现在做Aiuni AI产品,是从3D模型、动画甚至特效,也就是CGI和VFX的流程可以用 AIGC全部自动化,并且重塑工作流。2023年年底,一系列实验结果发现,AI生成3D是可以做到商用级的,所以就开始重点做Aiuni AI产品。
AI科技评论:之前看到一个统计,在国内做3D领域的很少,为什么海外在这个领域就很多?
胡雅婷:我感觉3D领域华人可能做得更多,但大家都是做全球化的市场。3D领域的竞争格局还没有形成,就比如Midjourney和OpenAI已经跑出来了,你不可能再定义去做海外。但3D领域其实美国公司也还没有跑出来,所以中国公司定位会是全球。
3D生成到3D打印,图片来源:受访者提供
AI科技评论:从什么时候开始就坚定要布局3D应用场景?
胡雅婷:我自己还是很相信内容升维这件事,平面上的内容,无论是图片还是视频,能做的都已经被人做了。但我觉得3D是一个全新的内容模态,可以随时提出新的算法和架构,有很多全新的问题待解决,可以做的空间还很大。
我确实非常喜欢整个CG的内容,包括整个三维的发展,它确实是一个可以和艺术相结合的领域。
AI科技评论:目前团队情况,怎么组建起来的?主要成员的分工是怎样的?
胡雅婷:公司CTO因为全国信息学奥林匹克竞赛而认识,他在清华姚班,目前在公司主要做AI+3D算法相关的工作;COO是北大的学姐,她是北大艺术史论与工商管理双学位,目前负责运营和创作者相关的工作;还有两位成员,一位是算法研究员,一位是CG Artist。
Aiuni AI 及Unique3D的清北团队,图片来源:受访者提供
AI科技评论:Aiuni AI产品的定位以及一开始直接开源模型Unique3D,是基于什么考虑?
胡雅婷:Aiuni AI产品主要就是用AI生成三维动画,目前已经上线了3D模型生成以及全景生成,接下来会做3D 生成空间模型、动画生成、角色生成、渲染合成等。
我们认为3D还是一个开源开放的技术,让更多的人参与其中,用技术换取一些影响力。同时,产品商业化方面,我们不准备以单一的API方式去做商业化,想做全流程的事情,比如角色动画或者合成一个直接能拿去商用的视频,我们更关注这些。
AI科技评论:你们生成的三维产品精度和还原性非常高,怎么做到的?
胡雅婷:我们运用了比较创新的生产架构,相当于对3D Mesh进行了像素级的优化,所以你的图片有多精致,相应生成的模型精度就会有多高。在多视角渲染图方面,我们实现了超分辨率。
其他算法如果走三维辐射场的话,一般的分辨率最高就是256或者512,如果达到512的分辨率就会消耗很多显存。但我们有一个直接优化Mesh的算法,它的复杂度不与模型体积相关,而是与表面积相关。我们现在的版本优化到了2K级,如果后续我们想要优化到8K级,三维生成也是可以在几分钟内就可以实现。
AI科技评论:Aiuni AI目前的功能以及数据表现如何?
胡雅婷:目前的功能是三维生成和全景生成,接下来重点上线的功能主要是角色生成和角色动画的生成。现在3D模型有百万级的生成量,大家反复生成的数据还是比较高的,反复使用的用户有70%,海外用户也有60%。
AI科技评论:面向的用户群体是?
胡雅婷:主要还是数字内容的创作者。他们分两类,一类是专业化的用户,主要是3D的设计师和动画师等;一类是IP创作者,用AI工具创作喜欢的形象,再进一步生成模型和动画。
这两类人群各占一半,接下来我们聚焦在动画方面,就会更关注偏创作者的这些群体。
AI科技评论:你觉得目前Aiuni AI产品,抓住了用户的哪些需求?
胡雅婷:我们的产品相当于数字内容的生产力,作为内容创作者,他们希望产出很好的新媒体内容,分享发布形成自己的IP。做新媒体,动画视频肯定比做图文会好,但是之前的3D模型和动画的制作非常繁琐。
一般做 3D 模型建模就需要一周,如果需要绑定动画渲染,基本上就得一个月,找人去做是一个非常高的成本。但现在运用AI工具,30秒就可以生成模型,创作者改一改,一个小时就可以制作动画,这完全是一个新的生产方式。
我们和这些创作者交流的时候,大家会觉得创作是不分模态的,比如他们只想做一个好的IP角色,他们之前只能做图文,如果大家都想做更加立体和动态的内容来生成动画,他们一定会去生成动画。
AI科技评论:目前怎么构建平台的核心壁垒?
胡雅婷:我们觉得平台的核心壁垒,它不会完全是某一个技术或者功能点,核心是要形成这些创作者的生态,生出来的内容确实是能形成内容矩阵,具备IP影响力。
我们大部分的用户在制作了动画后都会发布到新媒体,我们通过建立社群来第一时间听到用户的反馈,最近我们也在做一些创作者共创的计划。
AI科技评论:从3D到4D,这中间经历多长时间的训练?要克服的技术难点是什么?之前生成时间30s,4D生成速度要多久?
胡雅婷:时间还好,关键是涉及比较多的模态,我们不是一整个端到端的模型,会有数十个垂类模型,每个模型负责处理并解决一类问题,然后串起整个流程。
即将发布4D,但这个4D会是狭义的,我们会让一个模型先能动起来。但是所说的全面4D,它可以实现整个空间的交互,也就是直接可以从脚本生成影视级的动画,需要涉及更多的模态,包括角色交互、场景交互、物理模拟等等。我觉得要把整个CGI 的流程 AI化,最起码还得3-5年的时间。
生成简单的4D不会比生成3D的时间用得久,因为一个复杂模型的骨骼点也就几十个点,只需要每一帧去生成这几十个关节点的向量,所以它的生成效率很高,可以做到实时生成。
AI科技评论:实现4D技术路线你们是直接做视频模型,把视频模型变成4D还是用图生成 3D,再把 3D变成4D?
胡雅婷:其实是用图生成 3D,再把 3D变成4D的技术路线。4D之后你就可以渲染成一个视频,你可以设置你的虚拟场景,在生成器里可以合成实拍的视频。
AI科技评论:和影眸科技、Luma AI等相比,你们的竞争优势是什么?
胡雅婷:首先,我们的定位不是一家AI 3D 的公司,我们做的事情是以3D原生去生成动画数据,然后渲染合成一个视频。AI 3D的创作门槛还是比较高,真的能编辑3D文件的人还是比较少,所以我们更希望它能输出动画视频,相比目前市场上的AI视频,我们会有更好的角色一致性和场景连续性,利于创作者创作长期的内容。
其次,我们的产品有更好的可控制性,创作者可以直接控制想要的角色,放进某一个场景,需要连接到某一个动作。最后,可编辑性也是我们的优势,相当于原生有矢量化以及分层的表示,创作者可以更好去编辑。
AI科技评论:AI生成动画里角色动作幅度越大,就代表技术难点可能更多吗?
胡雅婷:具体要看运用什么样的技术方案,现在有一类AI动画仍然使用AI视频的技术方法,一帧一帧生成每个像素。但我们所说的3D动画走偏骨骼动画的方法,它生成的是骨骼点,所以骨骼是可以有很大的幅度。所以技术路线会导致训练和效果的不同。
“对我来说,创业是去标签的过程”
AI科技评论:为什么能在海外爆火,你觉得Aiuni AI做对了什么?
胡雅婷:首先,开源模型Unique3D,我们觉得它的精度和还原度是现在3D方案里最高的。 通过很多创作者的反馈,他们对于生成动画的精度和还原度都有很高的需求,他们不希望自己的设计被改变。
其次,我们生成的动画艺术性和设计感会更强,比较适合在新媒体场景做传播。
AI科技评论:你们和多家动画、影视、品牌、IP行业的上市公司及大厂有战略合作,能展开讲2个具体合作吗?
胡雅婷:和Nano Labs 合作了3D生成的系统,他们更想在AR拍摄以及3D打印的领域有一些应用。还有国内目前最大的动画上市公司奥飞娱乐,和他们旗下很知名的IP合作了AR拍照以及衍生品。
也和互联网的大厂有合作,像支付宝采购过数字星球的生成器;小红书和字节当时做了很多AR的虚拟服饰;还有一些影视公司,合作了一些偏特效的视频。
AI科技评论:商业化模式会是什么样的?
胡雅婷:我们做过B端的商业化,接下来主要面向C端。C端这边只要将模式跑通,它的增量更规模化。我们主要想做订阅制,以专业度和生成量去做一个阶梯的区分。
IP授权也是比较好的商业模式,就是指作为一个用户,创作了某一些角色或者特效的模板,其他的用户或者B端也可以来授权使用,形成创作者经济。
这一块我们发现,各种AI生态里,国内用户的创造性和供应能力更强一些。
AI科技评论:相比成熟的连续创业者,你觉得作为00后创业者,和他们相比,最大的优势是什么?
胡雅婷:首先,不能和成熟的创业者竞争偏传统或较成熟的AI领域,你肯定卷不过他们。年轻人还是要做新模态的东西,得做下一个模态的技术,挖掘新生代用户的需求和场景,你得找到这种优势。
其次,整个3D和4D的算法每天可能都会有新技术出现,即使你在互联网大厂有再多的AI经历,大家面对它们也都是全新的起点。还有应用场景,无论是新媒体博主、原创角色还是二创场景,主要活跃用户也都是00后为主。
最后,团队协作我们更去中心化,工作不需要打卡,有些同事可能中午才来工作,但他会工作到凌晨。我们不会有硬性的要求,推着大家去工作,而是给大家更多的自由。
胡雅婷,照片来源:受访者提供
AI科技评论:很多人称你为北大00后学霸、天才,如果让你重新定义自己,你喜欢怎么称呼自己?
胡雅婷:在青春期,可能会用标签给自己定义,但创业对我来说就是去掉标签的过程。我就是希望我创造的这些东西可以不被定义。我希望自己创作的产品会是一个高于自我的存在,我就是不想要被定义才会去做这些事情。
AI科技评论:你喜欢图形学,那你喜欢皮克斯吗?
胡雅婷:我很喜欢皮克斯,很关注他们整个创业的过程以及创造的方法。一开始关注是因为三维,最早提出三维Mesh的发明人就是皮克斯的创始人。
他们确实是把新的技术和艺术形态做了很好的结合,回顾他们的整个创业经历,他们不会过度的强调技术,更关注到底什么是好的内容?用户对于好的内容的真实需求是什么样的?怎么去讲一个好的故事?
AI科技评论:眼下你觉得最要紧解决的问题是什么?
胡雅婷:我们得实现从三维产品到应用的闭环。现在各家3D生成,图片生成3D到3D文件,我觉得它就是一个很薄的工具。
但是如果可以实现生成动画,用户可以导出文件直接发布成一个新媒体视频,并且这个新媒体视频又可以成为创作者经济的来源,这就是一个很好的闭环。相当于用技术创造了用户的价值,并且它可以实现更好地增长和规模化。
AI科技评论:你会担心有更多的人来做这件事情吗?你的竞争力在哪里?
胡雅婷:偏 IP 以及艺术类的赛道,品牌相应会强一点。它很关键的点,首先你得第一个做,要有抢先优势,它和技术抢先优势不一样,类似迪士尼是第一个做有声动画的,大家会比较认这件事情。
当然我们需要通过品牌效应,更好地构建创作者的生态,他们会带来网络效应,这不是一个纯技术或者产品上的复制就可以被人替代的。
AI科技评论:你有设想过未来它会变成一个什么样的产品?
胡雅婷:未来会有很大的想象空间,我们在做的 3D 动画,它和传统的视频最不同的就是它本身是一个空间视频。所以它兼容到下一代的MR设备,就完全会是一个新的互动模态,类似Vision Pro。
在未来的这种空间视频里,你可以直接和角色互动,你会觉得角色在你面前和你打招呼。这个和之前的内容模态会完全不同,所以我觉得在这个时代你是有机会构建一个新的内容平台,去连接新一代的创作者和消费内容的场景。
AI科技评论:很多人会觉得 AI 应用其实目前已经到了一个增长的瓶颈,从你个人来看,你觉得 AI应用有未来吗?
胡雅婷:我觉得 AI 应用还得是模型的模态和应用场景相匹配,如果是一个套壳肯定是不太行的。
比如,做4D相当于是新的数据结构,你要找到合适的应用场景并训练匹配的模型算法,它是可以不断增长,有一个比较好的循环。但我觉得这种产品它不可能在今年突然爆发,在原有数据和用户数据中需要一定持续的积累。
(雷峰网)
(雷峰网(公众号:雷峰网))