“这一波生成式 AI 技术的爆发,让我们 AI 从业者看到了 AGI(通用人工智能)的曙光。”在聊到今年生成式 AI 的行业大势时,Fasion.AI 创始人程斌如此对 AI 科技评论说到。
坐在他旁边的,是美图影像研究院(MT Lab)负责人刘洛麒。在北京海淀的量子银座大厦,这两位在人工智能行业深耕十数载、目前均在生成式AI领域开拓的一线从业者,与 AI 科技评论一起,展开了一场别开生面的对谈。
按辈分来算,程斌是刘洛麒的师兄,两人博士均毕业于新加坡国立大学,师从人工智能领域国际顶级专家颜水成教授。师徒三人也曾与其他同伴一起加入 360,创立 360 人工智能研究院,将人工智能技术广泛落地于智能硬件、金融风控、直播和短视频等业务场景中。
2019 年,随着颜水成离开 360,已经有过一次创业经历的程斌,也离职开启了自己的二次创业之路。其创立的 Fasion.AI,是国内较早利用生成式 AI 技术进行图片和视频内容生产的初创公司,尤其是在基于超写实 2D 数字人的视频内容合成领域颇有建树,其产品已经在教育、营销、直播、客服等领域广泛应用。
两年后,曾在博士期间主攻人脸、以“美颜”为主题拿到过 ACM Multimedia Best Paper Award 的刘洛麒,加入了国内最懂“美学” 、以“美”为内核的美图公司,负责核心算法研发工作,带领团队不断打造“ AI 时代的影像生产力工具”,并于今年推出国内首个懂美学的AI视觉大模型 MiracleVision,助力美图近期业绩和股价的双重突破。
本次,针对时下大火的 AIGC 和数字人赛道,AI 科技评论请到了这两位业界人士分享他们对于今天人工智能赛道的理解和洞见。
以下是 AI 科技评论与程斌、刘洛麒二人的对话实录,AI 科技评论在不改变原意的前提下,做了编辑和调整。
AI 科技评论:大模型会是人工智能走向 AGI 的坦途吗?
刘洛麒:目前来看,大模型应该是走在正确的方向上。我们可以进行一种生物学的类比,人类是基于碳基的生物,机器是由硅基制造,虽然两者的底层是非常不一样的,但最终硅基结构是否也有可能像碳基构造一样,产生出一定的智能性?就像人类的大脑中大约有数百亿个神经元,每个神经元都与其它数千个神经元相连,可以想象连接路径的庞大与复杂程度。
大模型的参数量虽然能够达到百亿的量级,但是它连接的拓扑结构都是规整的,相对比较简单,连接数也不够多。如果有一天,大模型的参数量和连接数也达到或者超过人脑的规模,计算能力相比现在也有了极大的提高,那是否有可能实现跟人类大脑接近的智能,我们是可以憧憬下的。
所以,当大模型的理解、推理、学习等多种能力达到一定程度之后,也许就能实现 AGI 了。人工智能的通用性在不断提高,但要实现真正的 AGI 还需要时间。大模型也是我们迈向通用人工智能的重要一步,为未来的 AI 研究和发展开辟了新的道路。
程斌:回顾历史,人工智能行业其实一直在追求AGI的道路上孜孜不倦,历经了几十年的研究和实践才走到了今天。对于AI从业者来讲,上一波深度学习 AI1.0 的时代,大多数人还是会用比较理智谨慎的态度去看待 AGI。
那个时候,我们能实现的更多还是在限定场景下的浅层智能,但是距离真正的通用人工智能还是挺远的。然而这一波生成式AI技术的爆发,真正让我们AI从业者感觉到 AGI 的曙光。
有个很典型的例子, NLP 在上一波深度学习时代并不是一个被解决得很好的问题,大家认为这个是极具挑战的问题,因为牵扯到认知、理解、逻辑推理和生成这些复杂能力。但是大模型上来就在这个原以为最难的问题上取得了巨大的突破,甚至有一点降维打击的感觉,这个给 AI 从业者们带来非常大的震撼。
当然,目前我们距离真正的 AGI 还有明显的难题等待解决,例如大模型还需要面对可解释性不明确、输出结果不可控、泛化能力不足、多模态能力局限等一系列问题,进而会带来一些伦理和规范上的约束。
从现阶段的发展来看,大模型虽然在提高自然语言处理、计算机视觉和其他任务的性能方面取得了显著进展,但要实现 AGI 仍有许多挑战。它一定不是一帆风顺的坦途,Transformer 架构也未必是最终形态,也可能会有新的技术和方向出来,再颠覆它。但是大模型确实是目前最有希望的方向,激发了大家对 AGI 的信心。
AI 科技评论:在大模型迭代的过程中,数据是天花板般的存在。当下大模型消耗数据的速度非常惊人,数据是否在短时间内被消耗完,大模型是否看到了天花板?
刘洛麒:我觉得当下社会中的数据量没有穷尽。首先,生产者依然在源源不断地产生新数据,包括文本、图像、视频、音频等等多种模态,比如短视频平台每时每刻仍然在生产新的视频内容。
客观物理世界的数据描述可以是多层次,多模态的,交互式的。对于同一个物理事件,我们可以在不同精度下的时间、空间等坐标系下去对应描述,也可以通过多种感知手段下去记录(视觉、听觉、触觉等),不同物理事物和事件的交互行为又几乎是无穷的。而这些都是通向 AGI 所需要的数据记录,
事实上,大规模的优质数据才是实现算法突破的关键因素,而优质数据目前其实还处于挖掘初期。我们还需要思考,已有的数据资源是不是真的挖掘到位,数据是否已经物尽其用?
如现在大多数 LLM 是基于纯文本进行训练,而人类所感知的外界信息70%以上来自视觉,如何更好的实现语言、图像、视频、声音等多模态间的结合也将是大模型未来的探索方向。
目前大模型使用的数据还是更多是单一孤立的,缺少更丰富的数据表述,近期 OpenAI 新推出的多模态模型 GPT-4v 已经能听语音,理解图片,但我们在这个方向上也仍有很长的路要走。
程斌:当下人工智能消耗数据的速度是非常可怕的。我个人觉得,如果设想的道路可以被打通,有可能有一天物理世界数据的生产速度真的会跟不上人工智能学习的速度。
当然,我很认同洛麒说的点,现在很多数据可能真的还没有更好地去应用它。当下数据采集和存储的范围、力度都还没有达到边界,数据处理的质量也有待提高,尤其是数据的使用还牵扯到隐私性和安全性,这些都是需要去逐步解决的问题。
最近也有不少公司去利用 AI 生产数据,对这个我还是比较谨慎地去看待的,因为担心会不会陷入到数据茧房中。这里面有一个很重要的前提,AI 的逻辑是不是代表了整个客观物理世界的逻辑?
如果 AI 仅仅代表了物理世界的一部分的逻辑,那 AI 合成的数据最后都将陷入一个局部最优解,而丧失了全局的判断,这可能导致 AI 系统在不同环境下的泛化能力受限。
这里正好引出一个非常有意思的问题,就是这次人工智能浪潮为什么会从语言大模型先突破?
有一个很重要的原因就是,文本和语言已经经过了人类几千年的积累,是被精炼和压缩过的知识性数据。这些文本数据具有非常高的信息密度、丰富性和完整性,大模型在学习的时候直接迈过了信息提炼这第一步过程,其学习效率大大提升。
相比之下,图像跟视频是从物理世界直接获取的数据,没有经过类似的精炼过程,它们与文本和语言的信息密度是完全不一样的。所以,现在我们还没有真正能够挖掘到现实世界中海量图像和视频中所蕴含的更丰富的知识。如果这一步能够突破,那距离实现 AGI 会更近一步。
AI 科技评论:如何看待当下的这波 AIGC 创业潮?
程斌:这波 AIGC 的创业潮发展还是非常迅猛的,从今年二三月份的时候底层大模型公司被追捧,到五六月份大家逐渐关注应用层面,在营销等最直接落地的领域开始尝试,再到七八月份涌现出不少传统行业结合大模型进行自我升级的典型案例,比如在旅游、教育、医疗、跨国人力资源等领域,已经有一些敏锐的传统行业创业者开始拥抱大模型。未来五年内,AIGC 领域的创业公司一定会如当年互联网和移动互联网创业潮那样涌现。
不过,相比较上一波 AI 创业潮,最近这一波技术爆发有一个很有意思的点,大模型把原来很多我们认为不可解或者解不好的问题变得可解了,但同时,解决问题的技术门槛也被大大拉低。
我以前一直说,AI 这样的应用科学领域很难去构建所谓的技术壁垒。但是,以前我们还能多多少少通过一些差异化的技术点,在一些细分领域形成一定的技术门槛,现在这一门槛被大大削弱,这更加考验创业团队对业务的理解能力、运营能力和商业化能力。
从某种意义上讲,这一波 AIGC 的真正受益者其实是原来已经形成商业闭环的企业,比如美图,即原来的业务有流量、有场景、有商业化逻辑,然后用 AIGC 来更好地降本增效,提升和改善原有的产品体验,甚至进一步拓展更加丰富的商业化产品。
刘洛麒:是的。美图拥有影像行业第一的用户心智,用户规模强大,大模型冷启动的获客成本低,基于大模型的 AI 技术也让我们可以很快地将构想落地验证,也带来非常正向的用户反馈,还能在短时间去验证产品成功与否,减少了大量的时间和人力成本投入,更重要的是减少了很多的不确定性。
而对于用户来说,AIGC 是前所未有的,这对于用户群体的吸引力是非常强的,用户也有足够的动力去尝试,这也提高了付费订阅意愿。
目前业界虽然有许多开源的大模型,但具体业务场景下的大模型的开发依然存在一定的门槛。数据、算力、算法是决定大模型质量的“三驾马车”,大模型依赖成熟的算力基建,训练和推理则需要强大的算法和计算能力,还需要庞大的数据量和优质的数据质量,数据质量的高低很大程度上决定了模型能力的上限,而这些正是美图的优势所在。
另外,大模型的布局需要找到合适的切入场景,对业务赋能,也能够对外输出能力。比如美图通过 AIGC 推动了 AI 绘画、AI 动漫、AI 商品图、AI 模特试衣等等功能应用落地,同时基于大模型重构了美图过去 15 年的产品,从生活场景延伸至生产力场景。
依托美图 AI 开放平台,以 API 和 SDK 的方式,为行业客户提供提供大模型的商业使用模式。2023 上半年,在 AIGC 推动下,美图在 AI 图片、AI 视频、AI 设计等领域持续创新,推动 VIP 订阅收入大幅增长,VIP 会员数超 720 万,同比增长 44%,创下历史新高。
AI 科技评论:以 AIGC 为主攻方向的创业公司要想突出重围,有哪些关键要素是必须具备的?
刘洛麒:其实 AIGC 领域的公司要想突出重围的话,不仅仅是技术问题,更关键的是需要把技术和应用场景相结合起来。
但是当下存在的一个现象是部分公司对大模型实际的应用场景考虑得不够深入,技术的落地有一定难度。做好大模型很重要,但如何用好大模型其实更加重要。
我们不能只关注大模型的数据量、参数量这些技术指标,更要抓住应用场景的核心需求,并且在商业模式上得到验证。预训练大模型是基础设施,大模型的下一步是走向多模态。
如何实现在不同行业、垂直领域、功能场景的部署与应用,让大模型真正走向产业、走进实体,解决企业与行业面临的现实问题,是更值得关注的领域。
程斌:创业公司在技术层面再去卷基础大模型的意义已经不大了,现在市面上已经有很多开源的大模型做得很好,直接调用就可以,而且做基础大模型还是有一定的门槛的,这让后来者很难再入局并取得优势。
现阶段,如果要打出差异化,一定是将生成式 AI 技术与具体业务做深度融合,而不是浮于表面的做一些简单的应用。刚才我也说了,有一些敏锐的传统行业创业者已经开始拥抱大模型。他们熟悉行业,了解需求,一旦利用好大模型这样的先进生产工具,发展会非常迅猛。
不过,正如我以前说国内 SaaS 行业存在的一个问题,大模型应用领域也有可能同样存在,那就是生产工具的变革能否真正带来生产关系的改变,进而真正提高生产力。
打个比方说,如果传统行业应用是马拉车,那么结合先进生产工具,很多时候貌似我们打造出来一辆小汽车,但是并没有真正改变商业模式当中的某些痛点环节,还是在沿用传统方式在运营,那无非就是从马拉车变成马拉小汽车,并没有能够让它靠先进发动机和燃料跑起来,没有真正形成商业模式和生产力的变革。
所以,在大模型这样颠覆级的技术突破下,我们也希望看到更多行业能够真正从马车升级到小汽车,靠着先进发动机和燃料实现突破。这需要更多的创新和深度融合,以确保技术不仅仅停留在表面,而是真正为企业和社会带来持续的价值和进步。
当然,对于技术型初创公司来说,AIGC 也不只是大模型这一条路。大模型更多是以数据为支撑,能产生丰富多样的内容。但在一些样本量小、功耗资源少、对实时性有一定要求的场景中,其他技术路径,比如生成对抗网络(GAN),仍然存在差异化的优势。
虽然在 Diffusion 和 Transformer 出来之后,GAN 有点被冷落了,但在一些小而美的应用场景中,它仍然具有一定优势的。此外,自监督学习、强化学习、元学习等方法也可能在特定领域或任务中提供了新的机会和优势。
因此,AIGC 领域的技术创新是多样化的,创业公司应根据其业务定位、市场需求和资源状况,选择适合其需求的技术路径。
AI 科技评论:美图做 AIGC 和大模型有什么独到之处?
刘洛麒:美图的大模型确实是不同于其他厂商的。绝大部分 AI 公司做大模型大多更强调数据量和参数规模,而美图做大模型的创新点在于“懂美学”。
通过融合多年来积累的美学认知,美图为大模型搭建了基于机器学习的美学评估系统,为模型的生成效果打上“美学分数“,从而不断地提升模型对美学的理解。
美图视觉大模型的三大优势:第一,擅长亚洲人像摄影,二是将中国传统文化元素融入现代设计中,为创作赋予独特的东方韵味;三是在商业设计领域的应用价值,设计师可以在美图视觉大模型等帮助下,快速地创作出具有创意和美感的作品。
现在,美图视觉大模型 MiracleVision 作为美图 AI 产品生态的底层支撑,在为美图全系产品提供 AI 模型能力。
AI 科技评论:数字人和大模型之间的关系是什么?
程斌:目前在很多场景中,语言大模型生产的文本内容在和外界的交互过程中,单纯的文本呈现形式相对比较单一,经常需要多样性和形象化展现形式,可视化呈现变得尤为重要,而数字人则是最优的解决方案。
数字人结合语言大模型,不仅可以理解和生成语言和文本,还可以具备虚拟的外观、声音和行为,使交互更加生动和自然,为用户提供了更富有情感、更具个性化的交互体验。而在未来,当 AGI 真正实现的时候,数字人是 AGI 最自然的展现形式和交互方式。
AI 科技评论:当下数字人市场中有 2D 和 3D 两种技术路线,实践的过程中,面对这两种路线要如何抉择?
程斌:2D 和 3D 数字人应该说各具特色,各有其适用的场景。
3D 数字人走的高端精品路线,通过设计或拍摄、建模、渲染、面部、骨骼绑定、动捕驱动等一系列流程完成资产制作及内容生产。
要创建一个超写实、高精度的 3D 虚拟数字人,需要专业的工程师使用专业的设备和软件进行精细化制作,其生产成本较高、周期较长。现阶段,很多公司利用AI技术进行 3D 数字人的辅助创作,大大提高了其生产效率,但是依然造价不菲。此外,3D 数字人资产制作仅仅是初期的一次性投入,后期的运营成本也不低,其内容制作也需要专业团队持续跟进。
过去 3D 数字人更多被影视和游戏行业所使用,这几年因为元宇宙等概念的兴起,很多品牌也开始推出自己的数字代言人,但是行业中也出现过 3D 数字人在制作完成之后品牌方缺乏持续运营能力的状况,造成大量 3D 资产的闲置和浪费。
另外,3D 数字人更强调其 IP 属性,IP 和内容是 3D 数字人的核心。某种意义上说,人们并不太关心 3D 数字人是哪家技术公司做的,更关心其 IP 和运营权在谁手里。因此,IP 和内容是 3D 数字人的核心,决定了它们的吸引力和商业潜力。
而 2D 数字人相比较 3D 数字人来说,有它固有的一些劣势。比如,2D 数字人本身并不像 3D 数字人那样是一个完整的资产。它只采集了人的正面信息用于训练合成,无法像 3D 数字人那样可以从任意角度去生成各种复杂动作,仅仅只能完成正面口播和一些简单预置动作的交互,其生成的内容相对于 3D 数字人来说会比较单一,其应用场景也会相对受限。
但是,正所谓“尺有所短,寸有所长”,与3D数字人相比,2D 数字人也有其天然的优势。
首先,2D 数字人的制作和内容生产完全是由AI算法合成的,其生产效率和生产成本比 3D 数字人有极大的优势。我们 Fasion.AI 目前打造的 2D 数字人可以做到实时驱动和交互,整体的生产成本不到 3D 数字人的十分之一。
其次,2D 数字人的模型制作以及后续内容生产,都是基于真人拍摄的视频训练而成,其呈现效果几乎与真人一模一样。而 3D 数字人目前因为技术所限,其渲染结果始终距离真人还有一些差距 。在一些对人物真实性要求比较高的场景下,2D 数字人还是有其先天的优势。
因此,2D 数字人特别适用于高频次、低成本、批量化进行增量内容合成的场景,比如教育、营销、客服、直播等领域。某种意义上说,相比较 3D 数字人较强的 IP 属性, 2D 数字人在很多场景下其实是在去 IP 化,并不特别强调其IP属性,而是更强调它快速进行内容生成的能力。
我们 Fasion.AI 目前已经完成了整套自主知识产权的 2D 数字人的能力搭建,包括基于 2D 数字人的短视频离线合成、互动直播、实时交互、私有化部署等,口型合成的准确率超过 98%,可实现几十种语言的实时驱动和无缝切换,实时交互的延迟最低可达到 500 毫秒以内,在业内均处于领先地位。
特别是我们推出的“云影”小样本数字人,仅需要 3 到 5 分钟的训练视频,就可以快速为客户打造专属数字人,极大的降低了数字人的生产和使用门槛。
目前,我们已经为客户打造专属 2D 数字人数百例,客户行业涵盖教育、营销、金融、保险、客服、直播、党建、主持等领域,并与华为、360、昆仑万维、智谱华章、高途、标贝、云知声等大模型和行业公司都展开了深度合作。
刘洛麒:美图的 AI 数字人走的是另一条路径。我们主要服务于视频内容创作、影视处理与剪辑等生产力场景,主要侧重在 3D 数字人领域。我们的 3D 数字人跟传统的数字人不太一样,是更加偏向特效场景的 3D 数字人,对于一些短视频的制作非常有帮助。
美图在今年8月正式上线的AI数字人生成工具——DreamAvatar。首期推出“AI 演员”功能,数字人的生成不需要专业设备,一台手机就能轻松搞定。
用户只需要将拍摄好的视频素材导入,并指定视频里的人物,就能够进行人体检测、跟踪、擦除、替换、背景修复,自动把真人替换成数字人,做到动作于真人完美同步。通过相机姿态估计和跟踪,以及光照估计算法,数字人和环境的融合变得更加自然,而且更具真实感。
目前我们共推出了机器人、兽人、类人三大题材,共计 11 个不同风格的数字人形象,每个题材从造型风格、渲染风格都做了不同方向的细化。未来我们也会提供更多的数字人形象,并考虑与用户输入的形象进行结合,为用户提供多样性的体验和选择。
此外,我们也在探索 3D 大模型的实现路径,将人物、物品的 3D 形象自动建模出来,从文生图,到文生视频,再到文生 3D,这也是美图在多模态领域努力的一个方向。
雷峰网(公众号:雷峰网)雷峰网雷峰网