2016年3月15日,袁泉罕见地放下了手里繁重的工作,聚精会神地盯着面前的屏幕,如入无人之境。
这一天,谷歌旗下DeepMind团队推出的AlphaGo,正在围棋场上,和世界围棋的顶峰——李世石——战得不可开交。
下午4点47分,AlphaGo和李世石双双进入读秒阶段,表盘上的秒针,每跳过一秒,对于袁泉来说,就像过去了数日之久。这场比赛,被视作人类与AI的“尊严之战”,围棋一直被视作AI难攻不落的“要塞”,多少人为李世石加油,就为了证明:AI不可能在所有领域打败人类。
但屏幕前的袁泉不同,他的心中暗自笃定,AlphaGo不可能输。
战至280手,李世石果不其然,投子认负。多少人扼腕叹息,AI代替人类的日子难道真要来了吗?
袁泉却不同于常人,他看到了在AI中暗藏的未来——AlphaGo的胜利,给袁泉的心里种下了一团火。几年后,袁泉毅然转身创业,把多少人梦寐以求的百万年薪、和阿里P10的高位抛诸身后。
他把公司的名字定为“启元世界”,开始了在AGI(通用人工智能)领域的“奇幻漂流”。
7年后,ChatGPT横空出世,又一次为启元世界寻找AGI之路的梦想添砖加瓦。不同于OpenAI打造更通用的大模型,启元选择让AI从陪玩到陪聊,在技术研究和产业化并进的思路里,寻找更适合自己的路子。
一、《星际争霸》--梦开始的地方
2017年8月的ICML(国际机器学习大会)在悉尼举办。DeepMind的两位负责人在会上,讲了AlphaGo背后的技术。
正是在这次分享会上,DeepMind表达了对AGI(通用人工智能)实现路径的前瞻看法——必须使用深度学习和强化学习来实现。
2010年之后,作为AI的子集,深度学习逐渐走进研究者的视线。不过关于用什么方法来实现深度学习,直到2016年,业内的主流仍是使用传统的机器学习,这也是一直让袁泉比较困扰的地方。
AlphaGo战胜李世石没多久,暴雪娱乐制作总监在 WCS 中国区总决赛上公布下一代 DeepMind AI 将挑战《星际争霸 II》的消息,袁泉心底的那团火被点燃。
17年,在现场听到DeepMind宣布用深度强化学习做出了震惊世人的AlphaGo,袁泉内心又一次开始沸腾。
会后,袁和两位好友在悉尼海边吃了好几打生蚝,聊深度强化学习聊到了半夜。还意犹未尽,几人接着找了个网吧,组队打了大半夜的《星际争霸》。这两位好友,就是日后跟袁泉一起创业的龙海涛和王湘君。
巧合的是,袁泉、龙海涛、王湘君三个人都是星际迷,他们第一次接触《星际争霸》都是1999年的夏天。21世纪的钟声正要敲响,袁泉三人和万千大学生一样,迷上了电子游戏——《星际争霸》。
《星际争霸》是款即时战略游戏,对脑力和手速要求都很高,电子竞技的性质很强。那些年,袁泉没少在《星际争霸》里,指挥着自己的虫族部队,和身边的朋友“杀”上几局。但比起他西交大的朋友们,袁泉战略意识过关,但手速完全跟不上朋友的步伐。长此以往,袁泉屡战屡败,屡败屡战。
多少年过去,袁泉始终忘不了游戏失利的滋味,但一切在接触了AI之后豁然开朗——我打不过你们,我做出的AI可以。
少年梦想重上心头,袁泉决定做点事情。当时在阿里,袁泉还在负责手机淘宝推荐算法的工作,做人工智能体,不是他的本职工作。只是纠结了几日,袁泉就按捺不住内心的躁动,向集团申请成立认知计算实验室。
忙完2016年的双11,袁泉告别手机淘宝团队的100多位员工,和同事兼好友龙海涛等人,在阿里成立了认知计算实验室。袁泉先从做研究发论文入手,切入点就选了让AI玩《星际争霸》。袁泉的想法是,先在业内打响声量,再做下一步打算,曲线完成自己的梦想。
选择星际争霸做研究,首先是源于袁泉三人的个人喜好,而当时的大型即时战略游戏,也只有《星际争霸》开放了 API ,能够提供更好的研究场景。
终于投身研究“星际AI”,袁泉带着团队在认知计算实验室里面待了整整三个月,从清冷的冬天,一直忙到了第二年的春暖花开。
上一次,袁泉为了一件事废寝忘食,还是在大学时作为玩家冲击《星际争霸》的胜利;这一次,袁泉也是一头扎进《星际争霸》里,但这次决定胜负的,不再是自己的游戏操作,而是他一手培养的AI。
三个月披星戴月,袁泉和团队成员发表了一篇论文,其中探讨了,如何利用深度强化学习双向循环的神经网络,来帮助“星际AI”进行战术博弈。因为角度新颖,这篇文章被微软、英伟达等全球机构引用,袁泉觉得这段时间的辛苦,值了。
这篇论文聚焦于《星际争霸》的微型操作部分,研究游戏里的十几个枪兵,几十个小狗,会做怎样的对抗。这种微操在游戏中是比较小的规模,不会涉及到建造、探路等复杂操作,只是战斗这一部分。
虽然袁在《星际争霸》的微操上,取得了一定的成绩。但强化学习技术不能跟阿里的电商技术结合,袁难以放弃这一领域的研究,于是转而创业。
即使根基薄弱,公司成立伊始,袁泉几人还是选择搏一把,将公司的命运赌在了大规模深度强化学习训练平台上。
来自高榕资本和莉莉丝的几千万天使轮融资还没捂热,袁泉三人拿出大部分砸到了平台上。他们一致认为,前期搭建平台虽然烧钱,但是一旦平台跑通,接下来公司就可以在较小算力的情况下训练智能体,长期来看,可以节省不少运营成本。
但创业哪有一帆风顺?时间来到2018年下半年,瓶颈期如约而至。启元当时训练的人工智能,只能实现星际争霸中的微操作,不能完成全局游戏。“做了这么久,难道只能做个半吊子?”从袁泉到团队,都等待一个破局的良策。
在这个焦灼的时刻,转机出现了。DeepMind在第二年开年的一次直播节目中,向世人介绍AlphaStar的最新研发最新进展。在直播中回放了2个5:0战胜职业选手的比赛录像,这10局比赛录像让袁泉看到了曙光。
这次直播中DeepMind没有公布技术细节,袁泉只能内部想办法照着实现。资金和人力不够,袁泉三人只能用笨办法。那段时间,每个周五的下午,启元都会让公司请来的星际高手来跟这一周训练好的最强人工智能体对战,每次对战都能找到人工智能体遇到的bug,每周一个迭代。这个快速迭代的方式,让启元每过一段时间都能取得技术上明显的进步。
2020年6月21日,启元训练的“星际AI”在中国饭店亮相,在直播中以2:0的比分打败了职业冠军选手,也让业界看到了启元在深度强化学习方面的技术水平。
二、高峰之外,挑战不断
“对于游戏AI技术难度来讲,如果说星际争霸是F1赛车,那么其他游戏就是量产车”,启元世界首席技术官龙海涛对雷峰网(公众号:雷峰网)说到。启元一战成名之后,业内看到,将AI应用到游戏中似乎拥有了更多可能,不少游戏公司找到了启元,想在更多的游戏场景用到他们的技术。
在阿里旗下灵犀互娱的《三国志战略版》面前,袁泉不仅是贡献了大把流水和时间的大R用户,还挽起袖子、带领着团队包揽了游戏一部分AI数值优化工作。
在策略类游戏里,数值策划“苦”数值久矣。SLG、卡牌等游戏的成功离不开数值策划的功劳,但游戏中每一个小的数值都可能影响到游戏平衡,导致游戏出现Bug,之前的付出化为乌有,还要重来。而启元要做的,就是通过AI的能力,更快更省地调整策略游戏中的数值,不影响游戏平衡。
关于数值策划的连锁反应,大型SLG游戏面临的挑战更甚。
以《三国志战略版》为例,游戏中每一个武将的武力值、血量都关系到游戏数值平衡甚至整个游玩体验。每增加一个游戏角色,就涉及一次数值调整。而这样的调整往往需要数周、甚至数月的时间。而且调整之后,也难以避免遇到bug,上线后若被用户率先发现,则可能带来负面舆论。基于做“星际AI”积累的技术和经验,启元世界则能把游戏数值优化的时间缩短到几天,从而大幅提升游戏研发和迭代的效率。“我们为数值策划人员提供的帮助是,为他们提供类似SaaS的工具,只需简单的操作,就可以完成数值的调整”,启元首席算法官王湘君告诉雷峰网。
上面提到的数值测试与优化主要关乎游戏的中后期。除此之外,启元的AI还可以在游戏开发前期,帮助策划设计游戏角色的数值、关卡难度等。
除了SLG、卡牌这样的策略类游戏,启元的 “AI陪玩”也逐渐在FPS、RPG、休闲等几大游戏品类里“安营扎寨”。“我们想做一家自己能养活自己的AI公司。”王湘君对雷峰网说到。启元世界曾在公开采访中透露,其2022年的营收已经达到一定规模,远超千万人民币的量级。
不过在攀向AGI高峰的路上,启元还有一个一个需要站稳的小山头。其实早在打完星际比赛之后,袁泉和团队就开始思考怎么让AI又能做决策,又能和人做有趣的交互。也就是说,怎样让AI既能陪玩,让用户玩得尽兴,又能陪聊,聊得有来有回。
就这样,袁泉拉上龙海涛和王湘君一起,开始在内部自建属于启元的认知大模型。
相比DeepMind、OpenAI选择的通用大模型路线,启元则选择自研垂类大模型,这让公司可以最大程度的节省大模型的训练和推理成本(ChatGPT训练一次大模型就500万美元,这种量级的成本让大多数创业公司都无法承受),也能让AGI针对某些领域实现更快落地。
如今启元的大模型,已经从星际比赛时期的1亿规模,发展到了百亿规模,并因此推出了能实现智能陪聊的AI NPC解决方案。
在过去,开放世界RPG游戏中的NPC,和用户的所有交互都由策划自己构思完成,开放世界越庞大,策划的工作也越耗时耗力。而启元的AI NPC可以在游戏里由AI自主驱动,和玩家做符合游戏世界观、符合策划设定、符合剧情需要的互动,从而提升游戏厂商的研发效率。
三、造“人”——迈向AGI的一大步
虽然都爱玩游戏,但启元世界的创业三人组从来就没有把启元限定在一个只做游戏AI的公司,在游戏之外,他们还有更大的野心——他们喜欢看《西部世界》,喜欢讨论《失控玩家》,深深被《西部世界》女主Dolores、《失控玩家 》男主 Guy既有IQ又有EQ的形象所吸引,觉得这两个角色活灵活现、非常有趣。
袁泉、龙海涛和王湘君三人认为,游戏NPC和数字人,技术和底层逻辑是可以打通的。他们都需要行为决策、语音对话这样的能力,都可以实时和人产生交互。从做面向游戏的AI NPC的经验来看,可能NPC就是游戏里面的数字人,数字人就是虚拟孪生世界的NPC。所以在做了游戏NPC解决方案之后,启元世界的业务很自然延展到了数字人上面。
在数字人这块,启元基于深度强化学习和认知决策大模型,已经有了AI生成认知对话、AI生成语音表情、AI生成行为决策的能力,也就是说过去需要中之人去驱动的一些互动内容,启元可以用AI去驱动去生成。
这也恰恰是团队想做的,突破规则的限制,让AI能够更自由地行动,适应更多的应用场景,从而逐渐实现通用人工智能的梦想。
对于AGI,尤其是对于元宇宙环境中的人工智能,人们对其的想象,大概如同漫画里的机器猫,或《星球大战》里的R2-D2。它们可以与人交流、思考,甚至提供情感价值。
简单来看,与游戏中的NPC无异。
在雷峰网先前的文章《AI公司的“新救命稻草”:元宇宙的故事该怎么讲?》中,对于AI数字人的未来早有过描述:元宇宙中的NPC,不仅要成为用户和元宇宙主要的交互方式,还要成为用户的“朋友”,提供陪伴和支持。
要迈向AGI,袁泉和启元世界上下都知道——数字人,是他们必须走出的一步。
过去的积累更多在游戏领域,但并非与今天的数字人风马牛不相及——或者不如说,在很早之前,数字人就一直是启元世界战略规划中的一部分。
袁泉、王湘君、龙海涛对数字人发展路径的理解,要先从“IQ”入手:而启元世界过去在《星际争霸》等竞技类游戏的技术落地,都是为了让人工智能更聪明,具备更强的判断和决断能力。
而作为“人”,光有IQ还不够,“EQ”也要跟上。简而言之,数字人不能只具有回答问题、解决问题的能力;要最终实现与真人“真伪莫辨”、“虚实相交”,AI数字人需要像人一样,可以表达情绪,并用带有感情的逻辑处理问题。
不少科幻电影中的AI机器人,例如《流浪地球2》中的MOSS、《2001太空漫游》中的HAL9000,就是因为极度理性、冷静、乃至冷血,成为了令人不寒而栗的恐怖角色。而反之,要做出令人感到亲和的AI数字人。
(图三:电影《2001太空漫游》中的HAL9000)
王湘君解释道:“用户夸了数字人一句,数字人就会露出高兴的神情——它会笑,同时也会做出和感情相应的回复。”
会交互、有肢体动作和微表情的多模态的数字人,就成了数字人赛道下一轮竞逐的“必争之地”。
在过去的两年里,启元世界辟出了一个小团队,让他们把大量的精力放在了数字人口型驱动、肢体动作等细节方面的开发上。
调整和训练模型的工作,是一个相当磨人心智的工作。时常数个月的调整,却难有进展。
为了训练数字NPC,启元的团队想过不少办法,甚至团建去玩“剧本杀”,都要琢磨——AI应该如何扮演好一个NPC。
王湘君说,数字人EQ模型调整的工作,是量变引发的质变,但一旦突破了瓶颈,它就会“起飞”:“有时睡了一觉醒来,第二天AI的EQ能力,可能就从‘小学生’到了‘大学生’。”
历经了整个“星际AI”的研究,启元团队的性子早就被洗练得坚韧无比。“这种看不到进度,或者进度不足预期的时候,是按月、甚至按年来计算的。我们坚持过了“星际AI”,现在无论是在决心,还是信心上,都不成问题。”王湘君如是说。
而在龙海涛看来,数字人目前最大的挑战是市场:“当下,市场还处在一个比较前期的阶段,如何找到适合市场的产品形态,产生大规模商业价值,我觉得所有同行可能都在探索。”
对未来的走势,龙海涛对雷峰网预测道:“我们在游戏里,用数字人的技术做NPC,做成以后,再把这块技术挪到游戏之外,这件事情也就水到渠成了。”
对于龙海涛来说,他更关心业务的关联性和延展性,用不一样的技术,在公司每个发展阶段找到最适合自己的落脚点,做自己一直擅长的事情——这是启元世界AGI技术的商业方法论。
结语
“不管是7年前的AlphaGo还是最近大火的ChatGPT,都是人工智能技术通向AGI的一个里程碑。”袁泉说到。
ChatGPT的大火,让袁泉三人又一次感受到了创业的初心,也更坚定了启元的AGI之路。要知道ChatGPT的成功,实际上靠的是在通用大模型中,加入RLHF(reinforcement learning from human feedback,即对人类反馈的强化学习)。而除了过去两三年来在自研垂类大模型上的积累,启元最为擅长的强化学习,以及创立以来在算法框架和引擎上的积累,正好能帮它更高效地实现对大模型的RLHF。
王慧文、王小川等人的加入,也给启元心里打了强心针,AGI的路上有了更多的大佬同行,更热闹也更近了。
以前袁泉提起AGI,外界听得明白的人很少。但是ChatGPT这样的AIGC产品出现,让人们理解了AIGC是AGI的一个实现阶段,大家更容易理解AGI到底能做什么。简单来说,AGI想实现的愿景是,让AI可以越来越接近人一样的去思考问题、处理问题、做交互。
创业进入第6个年头,袁泉仨人仍总是连轴转,但都保留着对新技术的敏锐关注。ChatGPT横空出世,三人会在工作群里跟同事们在群里彻夜讨论,探讨为什么ChatGPT能有更好的表现,未来的AIGC还能怎么发展,用在哪些领域。这份投入,让几人又有了回到创业初期的错觉。
所有AI创业者都知道,AGI(通用人工智能),是人工智能的“圣杯”。探索者们如同神话中的骑士一样,孜孜不倦地求索,而AGI却似乎永远在远远的地方招手,遥不可及。
但袁泉知道,AGI就在那里,仍然等待着被开发出来。
在海的另一边,身处硅谷的OpenAI,正凭AI聊天机器人“ChatGPT”搅动乾坤。这个时代,是AlphaGo击败李世石后,又一个AI创业崛起的时代。
以令人惊愕的对话、生成能力,ChatGPT的横空出世,让太平洋两岸的科技公司无不震撼——谷歌枕戈待旦,而国内从百度、阿里到字节,也纷纷集结兵力,意在填补国内同类赛道的空缺。
ChatGPT让更多人看到了AIGC的可能性,而袁泉、龙海涛和王湘君却看到了,他们心念多年的AGI的影子。
20年前打《星际》的那个少年,在今天决心用AI改变世界。
2023年2月13日,在世界级《星际争霸》的赛场上,中国选手李培楠以4:1的比分战胜韩国选手,全取世界冠军。
消息一出,举国玩家振奋,中国人终于在《星际争霸》的比赛上拿到了冠军。甚至有人评价,中国人拿《星际》冠军,和国足拿世界杯难度有得一比。
作为二十多年的星战老粉,袁泉在李培楠夺冠那天,在朋友圈里转发了这个消息,还兴奋地跟同事们提到了李培楠在夺冠采访时说的一句话——“'Normal people can be world champion.' ”。
对于在AGI的路上漫漫求索的袁泉、龙海涛、王湘君,这句话意义非凡。