雷锋网 AI 科技评论按:美国斯坦福大学创立的 AI Index 项目旨在追踪人工智能的活动和进展,以可靠、可验证数据为基础,研究人工智能对人们生活的影响。2018 年度的《AI Index》在 2018 年 12 月 17 日如期发布,从学界和业界的角度对全球的 AI 生态进行了全盘总结。
AI Index 最早可追溯至美国斯坦福大学一个名叫「AI100」的项目,其首要目标是持续地去调查、总结人工智能未来 100 年在学术研究、经济、道德伦理、法律等方面的进展和对此的展望,然而遗憾的是,该报告每五年推出一次,不能及时跟踪 AI 的发展。2016 年,斯坦福大学计算机科学院教授,前谷歌首席科学家 Yoav Shoham 决定退出「AI100」的领导小组,并和 Ray、Erik、Jack 和 Kelven 等人开始领导、开发一项旨在及时跟踪并反映人工智能当前发展的现状的一个指标体系——AI Index。
第一份报告《AI Index 2017》于 2017 年 12 月份正式推出,上个月 17 日,第二份报告《AI Index 2018》如期发布。
经雷锋网 AI 科技评论分析,与上一年相比,《AI Index 2018》的分析指标更全面细致,同时不再只注重于北美地区的 AI 活动分析。具体内容方面,有几个亮点值得我们关注:
中国在 2017 年产出全球 25% 的 AI 论文(排名第一的欧洲也才 28%),AI 论文发表数量与 2007 年相比,增幅将近 150%,然而论文影响力部分依然存在增长空间。
美国依然是全球论文引用影响力最高的地区,美国学者的论文引用影响力要比全球平均水平高出 83%。
自 2007 年以来,中国政府署名 AI 论文经历了 400% 的增长,而同期中国企业署名 AI 论文增长只有 73%。
中国拥有最高比例的固守类 AI 学者(76%),其次为欧洲(52%)和美国(38%)。固守类 AI 学者即那些未曾在家乡以外地区发表过论文的活跃研究人员。中国的非固守类学者虽然占比较小,然而论文出版率却高于其他两个地区的非固守类学者,说明中国的非固守类学者更有效率。
自 2014 年开始,计算机视觉与模式识别一直是 arXiv 上为数最多的 AI 子类论文。
神经网络论文在 2010 年——2014 年的复合年增长率(CAGR)为 3 %,而这个数值在 2014 年——2017 年期间则是 37 %。
2014 年,30% 的 AI 专利源自美国,韩国和日本分别以 16% 排在第二、第三。
由于报告信息体量较大,雷锋网 AI 科技评论挑选了其中大部分的学术章节与小部分的业界章节进行翻译,其他内容可自行查阅:
http://cdn.aiindex.org/2018/AI%20Index%202018%20Annual%20Report.pdf
活动体量
【AI 学术论文发表情况】
1)主题
下图展示不同主题的学术论文的年度发表情况(与 1996 年对比),报告将这些主题划分为:AI 、计算机科学以及所有领域。
数据来源:Scopus
结果表明:
与 1996 年相比,AI 学术论文的年度发表率增加 8 倍,计算机科学学术论文则是 6 倍。
AI 学术论文在年度发表率上持续超越计算机科学学术论文,说明如今 AI 学术论文的增长不仅仅是出于学界对计算机科学领域的浓厚兴趣。
2)地区
下图展示不同地区的 AI 论文的年度发表情况。
数据来源:Elsevier
结果表明:
欧洲继续稳坐 AI 论文发表户的头把交椅,在 2017 年产出全球 28% 的 AI 论文。
紧随其后的中国在 2017 年产出全球 25% 的 AI 论文,AI 论文发表数量与 2007 年相比,增幅将近 150%(尽管 2008 年前后曾出现异常波动)。
排名第三的美国在 2017 年产出全球 17% 的 AI 论文。
3)子类别
下图展示不同子类别的 AI 论文的发表情况。需要强调的是,这些子类别之间并非排他关系。
数据来源:Elsevier
结果表明:
机器学习与概率推理论文占到 2017 年论文总数的 56%,而这个比例在 2010 年时只有 28 %。
相较 2010 年——2014 年,大部分子类别的论文发表率在 2014——2017 年期间经历了高速增长。
值得注意的是,神经网络论文在 2010 年——2014 年的复合年增长率(CAGR)为 3 %,而这个数值在 2014 年——2017 年期间则是 37 %。
4)arXiv
下图展示几个关键子类别的 AI 论文在 arXiv 上的发表数量。右轴是 arXiv 上所有 AI 论文的总和(由灰色虚线进行表示)。
数据来源:arXiv
结果表明:
arXiv 上的 AI 论文在总体与个别子类上处于增长状态,说明 AI 学者倾向于对研究进行传播,无论该研究是否经过同行评审或者被学术会议所接收。这也从侧面反映了该领域的竞争性。
自 2014 年开始,计算机视觉与模式识别一直是 arXiv 上为数最多的 AI 子类论文,2014 年之前,该子类论文在增长上还是紧随人工智能子类和机器学习子类之后。
5)侧重领域
下图展示美国、欧洲与中国的 Relative Activity Index (RAI 指数)——RAI 指数通过将具体某个地区的 AI 研究活动与全球进行对比,从而近似某个地区的 AI 研究侧重。
如果指数是 1,说明与全球保持一致,大于 1 意味重视,小于 1 则意味较少被关注。
数据来源:Elsevier
结果表明:
中国的 AI 论文更侧重于工程技术和农业科学领域,而美国和欧洲的 AI 论文则倾向于人文科学和医学健康领域。
与 2000 年相比,这三个地区的领域 AI 专业水平在 2017 年都有明显提升,其中中国的侧重领域转向了农业科学。中国的转变基本符合我们的预期,因为它是世界上最大的食品生产国,同时倾向于将研究重点放在 AI 应用上。
6)署名机构
下图展示 Scopus 上由政府、企业和医疗机构署名的论文总量,涉及中国、美国和欧洲 3 个地区。此外,我们也展示了企业署名论文与政府署名论文的增长情况。
数据来源:Elsevier
数据来源:Elsevier
结果表明:
2017 年,中国政府署名 AI 论文的产量几乎是中国企业署名论文的 4 倍。自 2007 年以来,中国政府署名 AI 论文经历了 400% 的增长,同期中国企业署名 AI 论文的增长只有 73%。
美国的 AI 论文很大比例都是由企业产出的,单就 2017 年而言,其企业署名 AI 论文的比例是中国的 6.6 倍,欧洲的 4.1 倍。
需要强调的是,三个地区的高校署名论文(图中未显示)在数量上都超过了政府、企业和医疗机构。
7)论文引用影响力
下图展示不同地区 AI 学者的科研论文影响力(Field Weighted Citation Impact,简称 FWCI)——FWCI 将某地区 AI 学者的论文引用平均值除以了所有 AI 学者的论文引用平均值。图中的 FWCI 被我们重新进行调整,其引用影响力是相对于世界平均值进行展示的。
如果其指数是 1,说明论文的引用影响力与世界平均值保持一致,如果指数是 0.85,说明论文的引用影响力要比世界平均值低 15%。
数据来源:Elsevier
结果表明:
作为全球每年发布 AI 论文最多的地区,欧洲 AI 论文的引用影响力维持在相对平稳的水平,基本与全球平均水平相当。
中国的论文引用影响力有明显增长,中国学者在 2016 年的论文引用影响力要比 2000 年高出 44%。
美国依然是全球论文引用影响力最高的地区,美国学者的论文引用影响力要比全球平均水平高出 83%。
8)学者流动性与论文发表的关系
下图展示流动性如何对论文发表率以及 AI 学者的论文引用影响力造成影响。
我们主要关注这 4 种流动类型的学者:固守(Sedentary)、短暂流出(Transitory)、流入迁移(Migratory Inflow)和流出迁移(Migratory Outflow)。固守类学者是指那些未在家乡以外地区发表过论文的活跃研究人员;短暂流出类学者是指那些曾在家乡以外地区发表过两年或以下论文的研究人员;迁移类学者是指那些曾在家乡以外地区发表过两年或以上论文的研究人员,至于属于「流出」还是「流入」,主要取决于图表的视角。
x 轴展示的是论文相对发表率(每个类别作者的平均出版数除以该区域的整体平均出版数);y 轴展示的是 FWCI(每个类别作者的平均论文引用数除以该区域的整体平均论文引用数)。本章节的分析只考虑 AI 学者,即写过的论文中起码有 30% 是关于 AI 的研究人员。学者的家乡则取决于他第一篇论文的发表地区。
数据来源:Elsevier
结果表明:
无论是美国、中国还是欧洲,固守类学者的论文发表率都是最低的。
无论是美国、中国还是欧洲,迁移类学者(包括流入迁移与流出迁移)的论文引用影响力(FWCI)都是最高的。这说明经常流动的学者往往拥有更多的论文引用,并倾向于频繁发表论文。
在上述 3 个地区当中,中国拥有最高比例的固守类学者(76%),其次为欧洲(52%)和美国(38%)。中国的非固守类学者虽然占比较小,然而论文出版率却高于其他两个地区的非固守类学者,说明中国的非固守类学者更有效率。
流动性强的学者在论文引用数与论文发布频率上都要更高。
9)顶会论文发表
下图展示了 2018 年 AAAI 大会的论文提交与接收情况(按国别统计),大会于 2018 年 2 月份在美国路易斯安那州新奥尔良市举行。
数据来源:AAAI
结果表明:
70% 的提交论文来自中国和美国,中国以 1242 篇排名第一。
就接收论文数量方面,中国与美国相差无几,分别为 265 篇(接收率 21%)和 268 篇(接收率 29%)。
德国与意大利的论文接收率最高,达到了 41%,然而两者提交的论文数量较少。
10)高校 AI 课程报读情况
下图展示了美国地区以外几所计算机学科处于领先地位的大学,它们的 AI + ML 相关课程的注册情况。第一张图展示这些院校在 2010 年——2017 年的课程注册增长情况,第二张图则展示的是 2016 年——2018 年的课程注册增长情况。关于院校的选择标准、实际入学人数及完整高校名称可参阅报告中的「附录」。
数据来源:高校数据
结果表明:
中国清华大学的 AI + ML 课程在 2017 年的报读人数是 2010 年的 16 倍。
在研究中我们发现,报读人数的增长并未受到地理位置的特别影响,而是跟院校本身的关系更大一些。我们会在未来的报告中持续完善这一假设。
11)大型顶会参会情况
下图分别展示了大型顶会的出席人数以及对比 2012 年的增长情况。这里的「大型」指的是那些 2017 年出席人数超过 2000 人的顶会。
数据来源:顶会数据
结果表明:
NeurIPS (原 NIPS )、 CVPR 和 ICML 作为出席率最高的 AI 顶会,它们的出席增长率(自 2012 年以来)同样也是最高的,当中又以 NeurIPS 和 ICML 的增长速度最快,分别达到 2012 年的 4.8 倍 & 6.8 倍,说明 ML 作为 AI 子领域持续受到大家的密切关注。
与此同时,专注符号推理(symbolic reasoning)的大型顶会的增长率相对较小。
12)小型顶会参会情况
下图分别展示了小型顶会的出席人数以及相比 2012 年的增长情况。这里的「小型」指的是那些 2017 年出席人数少于 2000 人的顶会。
数据来源:顶会数据
结果表明:
ICLR 2018 的出席人数对比 2012 年增长了 20 倍,我们认为这一增长可能与近年大家更加关注深度与强化学习有关。
【AI 业界应用情况】
1)AI 初创企业融资情况
下图展示了在特定年份中获得风险投资支持的美国初创企业数量。蓝线(左轴)显示的是 AI 领域的初创企业,灰线(右轴)则显示的是综合领域的初创企业(含 AI 初创公司)。这些数据是逐年积累的。
数据来源:Sand Hill Econometrics
结果表明:
2015 年 1 月—2018 年 1 月,活跃的 AI 初创企业增加了 2.1 倍,综合领域的初创企业则是增加了 1.3 倍。
在多数情况下,综合领域的初创企业都保持相对稳定的增长速度,而 AI 初创企业则是呈指数级的增长。
2)AI 初创企业融资情况
下图展示了风险投资向不同阶段美国初创企业提供的的年度融资金额。蓝线(左轴)显示的是 AI 初创企业的融资金额,灰线(右轴)则显示的是综合初创企业(含 AI 初创公司)的融资金额。这些数据是年度总结而非逐年累积的。
数据来源:Sand Hill Econometrics
结果表明:
从 2013 到 2017 年,AI 初创企业的融资金额增加了 4.5 倍,综合初创企业则增加了 2.08 倍。
1997 年—2000 年的爆发性增长可用互联网泡沫(dot-com bubble)来进行解释。
2014 年与 2015 年小幅度爆发增长反映了当时的经济繁荣增长。
3)岗位所需 AI 技能
下图分别展示了 AI 型岗位的历年缺口及增长情况。需要注意的是,这些岗位所需的 AI 技能之间并非排他关系。
数据来源:Monster.com
结果表明:
机器学习是这些岗位中需求量最大 AI 技能。
深度学习的需求在 2015 年—2017 年经历高速增长,相关岗位数量增加了 35 倍。
4)AI 专利
下图展示了不同区域 AI 专利的增长情况。这些 AI 专利通过 IPC 专利码进行汇总,主要集中在认知与意义理解(Cognition and meaning understanding)和人机交互领域。按时间追踪专利发布情况是一项富有挑战性的事情,关于指标的注释和差异说明,请参阅报告的「附录」。
数据来源:amplified
结果表明:
2014 年,30% 的 AI 专利源自美国,韩国和日本分别以 16% 排在第二、第三。
韩国和中国台湾在 2014 年的增长幅度最大,比 2004 年增加了将近 5 倍。
5)AI 在企业中的使用情况(按地区)
下图展示的是麦肯锡公司针对 2135 名企业雇员的调查结果,可以反映 AI 技能在企业业务中的使用情况,涉及地区包括北美洲、发展中国家(含中国)、欧洲、亚太地区、印度、中东与北非和拉丁美洲,
数据来源:麦肯锡公司
结果表明:
虽然部分地区出现更加倚重某个 AI 技能的情况,然而大体而言,不同地区在 AI 技能的采用上是相对均衡的。我们将持续跟踪这一结果随着时间的变化情况。
6)Github 星标数量
下图展示了不同 AI 和 ML 软件包在 GitHub 上的星标数量,从中可以初步判断不同 AI 编程框架的流行程度。
数据来源:Github
结果表明:
几个由主要企业开源的编程框架日益流行,它们分别为谷歌的 Tensorflow、Facebook 的 Pytorch 以及亚马逊的 mxnet,当中又以 TensorFlow 的普及程度最为明显。
衍生测量指标
本章节试图分析前边提及的趋势之间的关系。
学界-业界动态分析(Academia-Industry Dynamics)
为了探索 AI 分别在学界和业界的趋势之间的关系,我们首先从前边内容中选取了一些有代表性的测量指标,尤其是 Scopus 上的 AI 论文发表情况、美国多所大学的入门级 AI 课程注册情况,以及 AI 初创公司的融资情况。
由于这些指标无法直接进行对比,为了能够更好分析趋势之间的关系,我们从 2010 年起开始对每个指标进行标准化,以确保显示的是增长情况,而非绝对数字。
数据来源:Sand Hill Econometrics、Scopus 以及大学数据
AI 活跃指数(The AI Vibrancy Index)
该指数将论文发表、课程注册以及风险投资 3 个学术-业界指标汇总成一个衡量标准,以量化 AI 作为独立领域活跃程度。和学界-业界动态分析(Academia-Industry Dynamics)一样,AI 活跃指数(The AI Vibrancy Index)在 2010 年是进行了统一标准化。
数据来源:Sand Hill Econometrics、Scopus 以及大学数据
AI 活跃指数在很大程度上由风险投资推动,这是因为相对其他两个指标,风险投资的增长幅度最大。不过三个指标的权重是相等的。我们鼓励读者们自行下载我们的数据,并对指标和权重进行调整,进而创建出一个最符合个人需求的 AI 活跃指数。