雷锋网 AI 科技评论按:随着深度学习的流行,可以说整个机器学习领域在 2010 年代迎来了爆发式的增长,科研人员、学生、论文数量、商业应用、投资金额都是。不过,整个机器学习生态仍然面临着数据收集、系统鲁棒性、能源消耗、深度学习理论不清晰等等问题。
2020 年已经来了,在这一年中,机器学习领域的知名学者们都有什么期待呢?吴恩达的 DeepLearning.ai 和《The Batch》杂志一起询问了包括 Yann LeCun、李开复、David Patterson、周志华在内的多位学者,雷锋网 AI 科技评论以此为主要内容编译如下。
人工智能领域的很多人都很在意做出值得吹捧的结果,比如造出一个会下围棋或者会玩电脑游戏的 AI。这种成果的复杂度确实令人钦佩,但这也很容易让我们忽视了智力中非常重要的另外一个维度:泛化能力,就是能处理许多不同的任务、能应对很多不同环境的能力。对于 2020 年,我希望能出现一些新方法,帮助我们构建泛化能力更好的模型。
我自己的研究中就会通过强化学习训练机器人,让它们能理解自己的行为是如何影响所在环境的。比如,我会训练机器人与多种不同的物体互动,目标是完成多种不同的任务,有时候是把东西装进盒子里,有时候是把垃圾扫进簸箕。但用强化学习训练实现这些目标其实挺难的。
在监督学习中,在 ImageNet 数据集的一千四百万张图像上训练一个图像识别器,总会得到一定程度的泛化性。在强化学习中,一个模型的学习方式是和环境互动,然后它在这个过程中逐步地收集越来越多的数据。我们已经了习惯了在 ImageNet 上训练出的模型有不错的泛化水平,但以当前的技术,如果想要让强化学习模型也达到这样的泛化水平,我们就需要让每个新模型都收集 ImageNet 那样规模的数据集。这就是基本做不到的了。
如果我们希望强化学习训练出的系统有好的泛化能力,我们就需要设计能从离线的数据集中学习的智能体,而不是只能边探索环境边收集数据。而且我们还希望预收集的数据集也能逐步更新,反映出环境或者世界的变化,就像 ImageNet 从最初的一百万张图像变成了如今的一千四百万张一样。
有一些变化已经开始发生了。比如,在一些研究中,机器人可以从它们的自己的环境交互+人类引导机械臂的动作演示中学习如何把新物体当作工具使用;我们也在尝试如何利用其它来源的数据,比如我们采集了一个大的机器人互动数据集,里面有来自四个不同研究机构的、七种不同机器人平台的数据。
看到有很多研究人员都在想方设法提高强化学习的泛化性。如果我们能解决这些挑战,我们的机器人距离「在真实世界中智慧地行动」这个目标就更近了一步,而不是像现在这样,只能在实验室里做一些「仿佛有智慧的事」。
人类可以只花 20 个小时就基本学会安全地驾驶汽车,而当前的模仿学习算法学开车需要数十万小时,强化学习算法学开车甚至需要数百万小时,这是怎么回事呢?显然我们忽视了什么重要的事情。
人类能高效地学习,似乎是因为我们头脑中就有一个关于这个世界的模型。刚出生的婴儿几乎不知道怎么和世界互动,但是只需要几个月的时间他们就能通过观察明白很多背景知识。显然我们大脑中的很大一部分都是用来理解这个世界的结构、预测我们无法直接观察的事情的(可能时间上在未来,可能空间上有遮挡)。
在我看来,这意味着 AI 的未来发展之路应当是「自监督学习」。它很像监督学习,但它要做的不是让系统学习样本到标签的分类关系,而是把样本的一部分遮起来、让模型观察不到,然后让它预测观察不到的那部分。比如我们把一个视频里的某个片段抽走,然后训练机器根据前后的内容把这一段重新补出来。
这种方法最近在自然语言理解领域特别的有效,BERT、RoBERTa、XLNet、XLM 等等模型都是用自监督学习的思路,预测成段文本中缺失的词,从而训练出来的。这些模型在所有重要的语言任务中都取得了优秀的分数。对于 2020 年,我希望自监督的方法可以从视频和图像中学习特征。有没有可能在视频这种高维连续数据上也发生类似的革命呢?
有一个关键的挑战是处理不确定性。BERT 这样的模型没办法确定句子里缺的那个宾语是「猫」还是「狗」,但是它们可以生成一个概率分布。但针对图像和视频中的帧,目前我们还没有好的模型可以生成一个概率分布。不过近期的研究已经距离这个目标越来越近了,很有可能要不了多久我们就能找到了。到时候我们只需要很少的训练样本就可以让模型预测视频中的动作,那会成为 AI 领域非常激动人心的一年。
人工智能已经从探索发现的时代进入了落地应用的时代。我们投资了诸多 AI 项目,大部分都在中国,如今已经可以看到银行、金融、交通、物流、超市、餐馆、仓储、工厂、学校、药物研发等许多领域都有大规模的 AI 及自动化的应用。不过,如果从经济总体来看,开始使用 AI 的企业只有很小的比例。这里还有很大的增长空间。
我相信,在人类科技发展进步的历史中,AI 的发明将会和电的发明一样重要。在未来的一二十年中,AI 将会越来越多地渗入到我们的个人生活和工作中,带来更高的效率,也带来更智慧的体验。企业、机构、政府都应当全面拥抱 AI,推动社会进步。
我最觉得激动的是 AI 在医疗保健和教育方面的影响。这两个领域都随时等待着 AI 进入,而且可以用 AI 做许多好事。
我们投资的企业里有一家是用 AI 和大数据来优化供应链的,效果是为超过 150 万生活在农村的中国人缓解了药物短缺问题。我们也投资了结合深度学习和生成式化学的力量进行药物研发的企业,这种做法能把新药发现的时间缩短到原来的三分之一甚至四分之一。
在教育领域,我们也看到有企业在开发基于 AI 的方法来帮学生改进英文发音、批改试卷和作业、以及把数学的学习过程游戏化、个人定制化。这可以把老师从日常的任务中解放出来,让他们可以把更多时间精力花在新时代的学生身上,建立有启发、鼓励作用的师生关系。
我希望在 2020 年以及未来的几年里看到更多的创业者和企业家开始用 AI 做有益的事情。
投资在新型 AI 硬件开发上的数十亿美元资金将在 2020 年看到早期成果。谷歌在 2017 年开发出的 TPU 为自己节省了大量运算成本,然后在接下来的两三年中我们看到阿里巴巴、Cerebras、Graphcore、Habana、英特尔等许多企业都开始研发自己的 AI 芯片。这些芯片会慢慢地进驻到科研实验室和企业数据中心里。我希望 AI 大家庭能尽量利用好这些芯片的能力,让 AI 领域可以用上更好的模型、带来更有价值的实际应用。
那么,开发机器学习的工程师们要怎么知道这些新的、融合式的替代平台能不能比传统的 CPU + GPU 方案表现更好呢?
计算机架构的评价方式有那么点迂回,并不是直接对比绝对规模。为了能对比不同体积的设备,我们把性能除以价格,或者把性能除以功耗,也可以把性能除以芯片的数量。每个竞争者都会选出在自己的芯片上有代表性的一组程序来作为和别人竞争时的跑分测试。选很多组这样的测试程序,然后把得到的所有分数取平均值,相比于在某一组上做测试能更好地反映芯片的真实性能。
MLPerf 就是基于 50 家企业、9 所高校选出的代表性程序而设计出的较新的 AI 芯片跑分测试。MLPerf 中包括了程序、数据集,也包括了测试训练和推理的固定规范,给准确率、超参数的选择范围等重要的参数给出了明确的要求。为了能跟上机器学习领域的快速发展,MLPerf 也会每三个月更新一次新版本。
有的产品没法在公平的测试中取胜,所以他们的宣传部门就会对 MLPerf 的跑分言辞躲闪,甚至说「我们的用户并不关心 MLPerf 里面的测试程序」这样的话。可千万别被这种话糊弄了。首先,MLPerf 乐意加入新的程序,所以如果某种负载目前没有包括在 MLPerf 里面,那它是可以加进来的。其次,竞争者们也会关心别家芯片的 MLPerf 跑分,确保对比方法不是南辕北辙。
如果怕买错了东西以后不包退,那就记得先查查 MLPerf 分数!
对于 2020 年,我有这三条期盼:
希望能够出现深度神经网络之外的更新、更先进的机器学习方法。学术研究人员们、工程师们、开发者们研究和应用神经网络模型已经有很长时间了。而其他的机器学习方法的技术创新空间相对来说要大得多。
希望 AI 可以应用在更多领域中,给人们的日常生活带来更多积极的影响。
希望 AI 学术研究人员们、工程师们、开发者们可以有更多的反思和讨论,要考虑如何避免 AI 技术的发展走上邪路、如何避免 AI 技术被恶意使用或者滥用。
对于 2020 年的 NLP 研究发展,我有这么几条心愿:
从更少的样本学习,而不是从更大的数据集学习
发展更紧凑、更高效的模型,而不是发展规模更大的模型
至少在两种语言上评价模型(最好是不同语系的语言)
新的 NLP 数据集最好也至少含有两种语言
用 NLP 辅助科研,发掘更多的科学知识(比如《Unsupervised word embeddings capture latent knowledge from materials science literature》这篇 Nature 论文)
部分内容参考 blog.deeplearning.ai/blog/,雷锋网 AI 科技评论编译