编辑 | 丛末
不知道是不是连锁反应,自从Yann LeCun被众“杠精”逼退推特,整个机器学习社区就弥漫着“有毒”的气息。
这不,今早一位资深的reddit社区网友细数了机器学习社区有毒的现象,从同行评审说到了论文复现,从“大佬”崇拜说到了 LeCun的有毒反弹,也提到了AI道德的伦理问题以及论文发表的“你死我活”现象。最后也点出了当前机器学习社区的不尊重现象,例如Schmidhuber说Hinton 是小偷,Gebru说LeCun有性别歧视。在讨论中没有人心平气和,每个人都在到处攻击。然而,每个人都是受害者。以下是这位网友的内心独白,以信件的形式展现在reddit社区,AI科技评论做了编译:首先是,同行评审模式已经崩溃。例如,第四届NeurIPS要求,所有提交的论文都要放到了arXiv上,还有DeepMind的研究人员公开对质那些给他们ICLR论文“差评”的评审员。尽管评审员已经表示拒收,但知名机构提交到arXiv的论文仍然在顶会中被接收。反之亦然,评审委员也会毙掉一些评审过程中“好评度”非常高的论文。(我不想提到任何名字,只需看一下今年ICLR的openreview页面即可)。其次,论文存在复现危机。如今,在测试集上调整超参数似乎已成为标准做法。未能超越SOTA的论文在顶会上被接收的机会几乎为零。所以,这导致研究员转换了转换了研究风向:对超参数进行调整,实现一些细微的技巧,并期望性能的提高。第三,存在“大佬”崇拜问题。来自斯坦福或DeepMind等知名机构的每篇论文都被视为是一项突破。例如,BERT被引用的次数是ULMfit的七倍。加持Google背景的论文可以提供相当多的信誉和可见度。在每次ICML会议上,无论工作内容如何,每一篇DeepMind poster论文前都有很多人围观。在线上ICLR 2020上的Zoom会议上也发生了同样的事情。此外,NeurIPS 2020的提交量是ICML的两倍,即使这两个都是顶级ML会议。为什么?为什么“神经”这个名字如此受欢迎?还有,Bengio、Hinton和LeCun确实是深度学习的先驱,但称他们为AI的“教父”则是疯狂的行为,这已经达到了宗教崇拜的程度。第四,Yann LeCun谈论偏见和公平话题的方式实际上并不敏感,但是,却遭到了超出合理范围的恶意攻击,LeCun的沉默也不会解决任何问题。第五,机器学习和整个计算机科学领域都存在严重的多样性问题。在我们大学的CS系中,只有30%的本科生和15%的教授是女性。对于女性而言,在博士或博士后期间休育儿假通常意味着学术生涯的结束。但是,这种缺乏多样性的现象经常被滥用为借口,用来使某些人免受任何形式的批评。限制关于种族和性别的科学讨论中的负面评论造成了有毒的环境。人们变得害怕,害怕被称为种族主义者或性别歧视者。然而,这反过来加剧了多样性问题。第六,社区的道德和伦理环境非常随意。仅仅因为没有在文章中提到研究人员,就发生了很多激烈的讨论。同时,几乎所有有价值的ML讨论都将超过10亿人口的非洲排除在外(一些Indaba研讨会除外)。第七,有一种刻板的不发论文就“狗die”的心态。如果每年不发表5篇以上的NeurIPS / ICML论文,那就是looser。研究小组已经变得如此庞大,以至于项目负责人甚至都不知道每个博士生的名字。某些人每年向NeurIPS提交50篇以上的论文。撰写论文的唯一目的已经变成在简历中再增加一篇NeurIPS论文。质量是次要的,通过同行评审已经成为主要目标。最后,讨论变得不礼貌。Schmidhuber称Hinton为小偷,Gebru称LeCun为白人至上主义者,Anandkumar称Marcus为性别主义者。每个人都受到攻击,但没有任何改善的迹象。Jürgen Schmidhuber曾经引用 200 多条文献来逐条反驳 ACM 给予Yoshua Bengio、Geoffrey Hinton 和 Yann LeCun的图灵奖的理由,指出获奖者并没有引用之前研究者的工作,包括LSTM、CTC、CNN、dropout、GAN等技术。Yann LeCun曾经和Timnit Gebru在推特上讨论机器学习系统中的偏见来源问题,却因为问题的敏感性和直言不讳的说话方式被暗示是种族主义者甚至是性别歧视者,导致他后来失望退出推特。即便是爱因斯坦,也曾经极力反对如今已被普遍接受的量子力学理论,我们可以停止妖魔化那些不同意我们观点的人吗?由于他人的恶意攻击或压制而使我们沉默的那一刻,就是科学和社会进步消亡的开始。此“信件”发在reddit上之后,引起了网友的热烈讨论,6个小时浏览阅读量达到了1.2K,是近几个星期的话题活跃度之首。网友评论的风向还算一致,大多都同意作者罗列的这些有毒现象。另外,还有网友额外补充了其他有毒现象,例如糟糕的政治。还有网友将此现象延伸到了其他学科,例如物理学。100%同意。不太知名的研究人员真正有趣的研究通常只有1-2条评论,我感到很气愤。同时,ML名人随便一条推文都有300 -500条评论。早在2017年,NeurIPS就拒绝了我已经实现并发现非常有效的一种非常新颖的语言建模方法。(不是我的论文。)NeurIPS基本上接收了FAIR或DeepMind的所有NLP论文,甚至是那些声称仅归因于网格搜索的微不足道的改进,以及那些明显夸大其成就的论文。阅读评审员的评论后,我不由自主地颤抖着:匿名审阅者在同一家公司工作。我可以证明:机器学习论文不发表就出局的心态很普遍,虽然我不是机器学习研究人员,但经常有机器学习社区的小伙伴问我发表论文的会议接收率是多少。仿佛他们和我生活的不是同一个星球。我完全同意第三点.......但是Bert确实让模型训练变得容易了,作者在模型的可用性上做了很多的努力。同意大部分,但是有点小问题。投稿期间公开论文、论文复现、大佬崇拜这些问题确实存在,但是论文数量、多样性等其他问题,其实并没有很严重。当前的问题是论文放在arxiv上面的太少了。要是都放上去....就像数学和物理领域一样,这会使得社区更健康。“我是化学工程领域的,你说的这些现象其实在我的研究领域里也有,这是学术界普遍的问题。其实这些问题的根源在于大家论文发表的压力太大了。”我进入科学研究是因为我原本认为这里是公平的,结果却大相径庭。这不是最近的现象,而且不仅仅是ML。只要学术系统按其方式运作并受到看门人和具有不良激励作用的机构的保护,这将永远不会改变。你能做什么?只有以身作则,不要在规则里玩,退出吧,去做独立研究。不要被行业的竞争态势驱使,去做真实的东西。从内部对系统进行改革非常困难。当足够多的人决定完全退出系统并建立具有临界价值的替代方案时,改革就来了。这份有毒“指南”直接吓退了准备入坑机器学习项目的小白~当然,下面众多网友跟帖安慰他:有毒现象只是少数,大多数情况下,机器学习研究领域还是非常和谐的。https://www.reddit.com/r/MachineLearning/comments/hiv3vf/d_the_machine_learning_community_has_a_toxicity/