周鸿祎：大模型要“涌现”AI能力，国内还有一些“坑”没有踩完

GPT 视觉大模型周鸿祎智脑

2023/06/02 16:37

“目前国内跟GPT-4真正的差距，我觉得主要是在所谓的超强‘涌现’能力上，但是这个差距不是算法上的，也不是模型上的差距，而是预训练数据和训练方法的差距，还是有一些‘坑’没有踩完，但这个时间差也就不到半年的时间。”5月31日，在三六零视觉大模型及AI硬件新品发布会后采访中，周鸿祎对雷峰网如此说道。

“涌现”在人工智能领域中经常被提到。那么什么叫智能涌现？过去的人工智能是，想让机器学会什么技能，就教它什么技能。教过的有可能会，没教过的就不会。而大模型让AI学会了“无师自通”，也就是“涌现”。

业界普遍认为500—600亿参数，是大模型是否具备涌现AI能力的一个门槛。于是，千亿参数，目前已经成了大模型的“标配”，时下不少大模型产品，都把自己叫做“千亿模型”，但真正能为产业赋能提高生产力的模型少之又少。

那么周鸿祎是怎么看待“涌现”能力？360智脑大模型和视觉大模型他们之间的关系是怎样的？360又是如何利用大模型为产业赋能的呢？在会后采访中周鸿祎与雷峰网(公众号：雷峰网)在内的一众媒体进行了深入的探讨。

周鸿祎：大模型要“涌现”AI能力，国内还有一些“坑”没有踩完

谈“涌现能力”：跟模型大小没关系

周鸿祎认为，目前行业内也没有统一的说法，有人认为一千亿参数才有涌现能力，也有人认为300亿就可以。这其实跟模型大小没关系，跟预训练的数据和训练方法有很大的关系。这就好比小孩儿头脑不够聪明，脑子容量不够，肯定是学不出来。但是，脑子容量够，还得跟你的学习方法有很大关系。

在周鸿祎看来，国内目前这些厂商大家做的时间也就不到半年，长的有5个月，短的可能有3、4个月。所以，这么短的时间内，能够拿出来和GPT-3.5基本上有一比的东西，已经是很大的一个进步了，如果要缩短两者之间的差距，还是需要一些时间。

他认为，赶上这个差距的时间可能是半年，在这个时间内基本上训练中很多的方法以及训练模型，大家踩“坑”踩的差不多了。涌现能力很大程度上跟预训练的知识含量有很大的关系，因为现在中文数据普遍还是缺乏高质量的知识数据，必须大量的补充英文语言的高质量素材。举个例子，如果一个小孩儿从小看的都是类似故事会的文章，没有逻辑推理性，他涌现复杂的逻辑推理能力的概率就非常低。

谈视觉大模型与智脑：从感知到认知

如果给出一张全身肌肉的蒙娜丽莎像，问他有什么怪异的地方？传统的感知层面的计算机视觉可能最多认出是一张人像，不一定能认出是蒙娜丽莎，即便认出蒙娜丽莎，也感觉不到怎么一个女的蒙娜丽莎长了一身男人的麒麟臂，而360的视觉大模型就可以解读出意思，这是从感知到认知的变化。

周鸿祎表示，视觉大模型和语言大模型是两个不同的基础，首先要有一个大语言模型，大语言模型能够充分地理解人类的知识，理解人类的自然语言。在这个基础之上，再给很多图文，然后进行训练，视觉大模型做出来后反过来也可以加强大语言模型的能力，例如对图片进行问答，为下一步理解视觉打好基础。

他认为，视觉大模型是个垂类大模型，过去要训练一张照片是猫是狗，首先要做很多人工标注，而且就算识别了是猫是狗，也是根据你标注的图像匹配出来的，它没有理解是怎么回事，它也不知道狗是什么意思，猫是什么意思。所以，现在在大语言模型的基础之上，它对自然语言能够理解，在识别图片过程中对这个图片不仅做了物体的识别，还可以做很多语义的解读。比如小孩儿站在一个很高的柜子上，或者老人躺在地板上，就可以识别出来不合理并进行预警，这就是多模态的能力。

谈及选择AI跟硬件结合去做落地的原因，周鸿祎表示：“原来的AIoT只是垂直AI，不是通用AI，经过大模型赋能的AIoT才是‘真AI’。”

过去的人工智能是弱人工智能，在此基础上打造的智能硬件不具有真正的智能。大模型出现后，计算机第一次真正的理解这个世界，并能够赋予AIoT真正的智能。他表示，大模型的出现标志着通用人工智能到来，AI完成了从感知层到认知层的进化，不仅对传统人工智能而言是一场颠覆性的革命，还能够推动自动驾驶、蛋白质计算、机器人控制等领域的发展。

“大模型将带来一场新工业革命”，周鸿祎认为，所有软件、APP、网站，所有行业都值得用大模型进行重塑，而智能硬件是硬件化的APP。从大模型的发展趋势来看，多模态是大模型发展的必经之路，GPT-4最重要的变化是拥有了多模态的处理能力。因此，周鸿祎预言，多模态大模型与物联网的结合将会成为下一个风口。

谈AI安全问题：不发展才是最大的不安全

随着GPT等AI技术的应用，利用“AI换脸”“AI换声”等虚假音视频，进行诈骗、诽谤的违法行为屡见不鲜。

周鸿祎认为AI的安全问题必须重视，他说360现在也成立了内部专门的AI安全团队，科技部也给了360一个AI安全的科技平台，360承担着解决AI的安全问题的使命，但是这个问题比一般的问题要复杂。一方面，AI把对普通人使用的要求降到最低，AI很容易被利用做坏事，所以如果要对抗，就要加大犯罪和反击方面的成本，例如在AI作品里加入指纹等。另一方面，周鸿祎表示AI的安全问题不仅仅是这些，未来除了传统的网络安全之外，还要警惕数据安全和人工智能安全。因为可能未来AI会形成超强的AI能力，会产生意识和自我认知。

那360为什么必须要做大模型呢？周鸿祎谈到两点：第一，不发展是最大的不安全，因为AI是一场工业革命，我们不能因为它有一些安全的问题就因噎废食；第二，去做大模型的过程就是在了解它的原理和整个完整的过程，而不是把它当作黑盒子，这样才能在过程中提出更好的安全方案。

谈及360布局大模型的整体思路和扮演的角色，周鸿祎表示360就做好两件事：

第一，数字化的安全底座，360安全有比较成熟的方案，未来不光解决网络安全，还要解决数据安全和人工智能安全。

第二，数字化时代，大模型是数字化的顶峰，是从数字化到智能化，因此这个时代谁没有掌握大模型这一核心技术，没有大模型实际场景的使用，谁就会被行业淘汰掉，这就是工业革命，就像有了电、蒸汽机、电脑，基本上所有的业务都要重塑一遍。所以我们作为一家互联网公司，有很多数字化的技术积累，所有的大数据最后都要用到大模型里。

谈大模型与场景：没有场景的大模型是没有生命力的

周鸿祎认为首先要把大模型的核心技术牢牢抓在自己手里，不仅要自己打造，也会跟伙伴合作；其次是要抓好场景，人工智能不是闭门造车，只有和用户、场景结合才行，没有场景的大模型是没有生命力的。

他表示，360大模型应用场景已经很明确了，主要分为四路：一是，ToC消费者场景，主要是浏览器、桌面和搜索、手机浏览器等存量场景，围绕着360智脑的核心能力打造每个人的个人助理，在这方面360得目标是保证在前三名左右；二是，打造了一个SaaS商店，未来将升级成AI商店，面向生态伙伴开放大模型的API，提供给中小企业SaaS化服务；三是，打造企业、政府和城市的专有GPT，未来不会只有一个大模型，公有大模型存在数据安全问题，专有或私有大模型更符合用户场景；四是，携手行业伙伴，打造行业的垂直GPT，例如企业咨询行业的GPT、还有可以赋能IOT行业等。

谈及大模型未来的发展，周鸿祎表示大模型未来一定是在小型化、轻量化、快速化，包括训练都在追求自动化。

“大模型这个市场很大，如果大家都说我要干掉你，你要干掉我，为了争夺谁是中国的ChatGPT，那市场就很窄，如果把大模型用到垂直领域、行业领域、企业领域，其实对大模型的能力的要求反而是降低了。”周鸿祎提出，例如在法律、医学、教育训练一个专门的GPT，这就比训练一个通用大模型要求降低很多。

周鸿祎最后表示：“GPT刚出来大家被震撼了一下，仔细冷静下来思考，它要真正能够变成生产力工具，能为我们所用，还是要走垂直化的路。”