机器学习研究结果准确性普遍堪虞，可能正在导致一场“科学危机”

作者：任然

2019/02/18 18:59

雷锋网消息，越来越多的科学研究涉及使用机器学习软件来分析已经收集到的数据，这发生在从生物医学研究到天文学的许多学科领域，且数据集通常非常庞大而昂贵。

但休斯顿莱斯大学的Genevera Allen博士近日却表示，机器学习系统的使用增加，正在导致一场“科学危机”，并警告科学家，如果他们再不改进技术，将会浪费大量的时间和金钱。

“再现性危机”

根据Allen博士的说法，机器学习系统给出的答案很可能是不准确甚至完全错误的，因为软件识别的模式只存在于数据集中，而不存在于现实世界中。

科学中的“再现性危机”指的是当另一组科学家尝试相同的实验时，无法复现当初的研究结果，或是发现它们站不住脚，而这意味着最初的结果是错误的。一项分析认为，在世界范围内进行的生物医学研究中，有高达85％都是浪费精力的无用功。

“现在人们普遍认识到科学中的再生性危机，我冒昧地争辩说，其中很大一部分来自于在科学中使用机器学习技术。”她指出，这些研究结果通常不会被发现是不准确的，直到有另一个真正的大数据集，有人应用这些技术，才会发现两项研究的结果不重叠。

这是一场已经持续了20年的危机，之所以会发生，是因为实验设计得不够好，无法确保科学家在看不到他们想看到的结果时不会自欺欺人。

有缺陷的模式

Allen博士表示，机器学习系统和大数据集的使用加速了这场危机。这是因为机器学习算法是专门为在数据集中寻找有趣的东西而开发的，所以在搜索大量数据时，必然能发现其中的一个模式。

“问题在于，这些发现真的可信吗？真的能代表科学吗？是可复现的吗？如果我们换一个额外的数据集，我们会看到相同的科学发现或原理吗？很不幸，答案通常是否定的。”

Allen博士正与休斯顿贝勒医学院的一组生物医学研究人员合作，以提高他们研究结果的可靠性。她正在开发下一代机器学习和统计技术，这些技术不仅可以筛选大量数据进行发现，还可以报告结果的不确定性以及可能的重现性。

“收集这些庞大的数据集非常昂贵，我告诉和我一起工作的科学家们，你们发表论文可能需要更长的时间，但最终你们的成果将更能经受住时间的考验。”Allen博士表示，“这将为科学家节省资金，而且重要的是能将机器学习从这些可能的错误方向上拉回正轨，进而促进真正的科学发展。”