全球AI顶会研究人员的男女比例是7：1，最高和最低的地方居然是…

2018/09/12 17:22

全球AI顶会研究人员的男女比例是7：1，最高和最低的地方居然是…

【图片来源：www.stadiumdesignsummit.com 所有者：Xperiology 】

雷锋网 AI 科技评论按：本文的作者是来自于 Element AI 实验室的 Yoan Mantha，通过本文 Mantha 探索了当前主流 AI 顶会中研究员的性别比例，并以此引出了研究领域中存在的缺乏多样性的问题。雷锋网 AI 科技评论根据原文进行了编译。

业内人士或者是那些常去参加知名人工智能会议的人士都已经意识到了性别不平衡的问题，而我们认为当前需要通过更加严谨的研究来推进这种性别对话以及加速该不平衡现象的纠正进程。作为 2 月份在 jfgagne.ai 上发布《全球 AI 人才库报告》的后续行动，我们与 WIRED 进行了合作，WIRED 也是一家致力于深入研究 AI 专家人才库多样性状况的机构。这篇文章是我们与来自 WIRED 的 Tom Simonite 的合作产出，本文将通过在原始报告数据的基础上添加性别和国家的维度来进行更深入的探究。

在该研究中，我们将研究范围集中于已经在顶会上（诸如 NIPS、ICML 或 ICLR）发表过研究工作的 4000 名学者们（如果想了解我们的策略，请继续阅读本文的第二部分）。下图展示了我们的对性别比例的研究结果：

全球AI顶会研究人员的男女比例是7：1，最高和最低的地方居然是…

雷锋网 AI 科技评论注：图中列出的国家与地区中，自上向下女性研究人员比例依次降低。全球的平均值为男性比例 88%，女性比例 12%，男女比例大约 7：1。中国台湾、荷兰、法国、丹麦、奥地利、日本、中国大陆、美国、新加坡、韩国的女性比例高于或等于平均值，也就是说它们是性别平衡方面相对乐观的区域。但仍然，即便是女性研究人员比例最高的中国台湾，女性比例也仅有 26.0%，男女比例 3：1。我们印象中去性别化推行得最广的北欧国家芬兰、瑞典，女性比例甚至还不如印度。

尽管已经有类似的针对技术领域或创业公司的研究，但是目前还没有人在这个广泛的范围来度量机器学习研究社区的多样性。我们希望通过了解这些数据的偏差情况，进而了解整个行业的不平衡程度，从而帮助行业更好地解决这些问题。从本质上讲，我们希望这种清晰明确的量化结果可以促进整个人工智能领域的更大变革。

此外我们认为如果只公布各个国家（或地区）的性别比率而不分享我们自己的数字是不公平的。在 Element AI 的员工当中，我们的女性代表占了 32%，而领导职位中女性则占了 30%。而在技术和科学团队中，女性平均占了 21%，领导职位中的女性占了 20%。当然，多样性的重要性要大于性别，我们也会继续开展内部多样性的研究，并将结果在公司内进行分享。

Element AI 的性别比例大约是平均值的两倍，并且我们也对这种领先于平均水准的领导能力感到特别自豪。但是，我们并不会幻想自己已经克服了构建多元化工作场所这一挑战。我们一直认为更为重要的是，要继续评估自身，并用以支持能够提升实际进展的内部倡议和多样性活动。

方法

考虑到这一主题的敏感性，我们认为有必要将自己估算全球人才库中性别平衡程度的方法分享出来。

为了更新初始的数据集，我们找出了去年在 NIPS、ICML 或 ICLR 上出现的所有人的姓名，并将其与从 Google 学术搜索中提取的信息进行了比对。然后我们借助 Mechanical Turk 服务获得列表中所有人员的归属机构（当前相关的大学或公司）。为了确保准确性，我们在 Mechanical Turk 上验证了 3 次，然后我们自己也检查了所有具有可变性的样例。

有了这些数据信息以后，我们就可以根据地理分布将列表中的人员进行重新分组。值得注意的是，这并不是为了获取每个人的国籍信息，而是为了给每个机构和每个地理位置一个权重。其理由是，我们的目的并不是研究个人数据，而是为了研究机构趋势。

在 4000 名人员当中，只有 17% 来自私营企业，这意味着虽然这份样本代表了整个研究社区团队，但是我们却犹豫于这是否说明它代表了“商业研究实验室”的子部分。另外一点是，在私人实验室工作的子集中存在着一定量的噪音，因为我们有时找不到个人工作的具体研究地点。

更为复杂的情况是，大约 12% 的商业集团名称都来自于大型科技公司（Google、Facebook 等），并且被纳入硅谷小组中。而我们的处理方案则基于一个事实，那就是只有当不改变该区域男女比例的情况下，我们才将这些公司添加到硅谷小组中。我同时还有一个工作假设，即这些公司的招聘政策在区域内保持一致，但这一点需要在以后的研究中进行验证。

在确定性别时，为了简单起见，我们保留了简单的二进制类别，这是因为大多数学术简历都没有在这一主题上有太多深入的介绍。我们通过作者描述中所使用的反映自我认同的性别代词来确定作者性别。当这种方法不可行时（约占总数 1%），则根据名称和外观进行猜测。虽然在不依赖自我报告性别时，这样更容易出错，但是我们可以确定该小组的规模小到足以证明该方法的合理性。

我们还参与过的其它一些活动：NIPS 女性机器学习研讨会（2017 年）；CVPR 女性计算机视觉研讨会（2017 年）；深度学习研究中的女性（WiDL）。

Via 《Estimating the Gender Ratio of AI Researchers Around the World》，由雷锋网 AI 科技评论编译。