arXiv创立三十周年之际，创始人在Nature发文：arXiv是信息共享的先锋

arXiv Paul Ginsparg

2021/08/17 15:04

AI科技评论报道

编译 | 王晔

此文章于8月4日发表在nature reviews physics期刊,作者为arXiv的创立者Paul Ginsparg。该文讲述了arXiv三十年的发展变化，从创立初期便为社会信息共享作出了巨大贡献，在社会共享信息方面积累的大量经验。arXiv作为巨大的信息资源库,为公众和研究团队提供了公平的信息竞争环境。

自30年前arXiv创立，社会信息传播模式发生了巨大的变化——并不总是向好发展。arXiv创立者Paul Ginsparg讨论了电子预印本的学术经验是怎样为更加广泛的信息共享提供参考的。

三十年前，arXiv创立之时，许多人都对互联网的潜力持乐观态度，认为它可以培养了解更多资讯的公民，并创造公平的信息竞争环境。在arXiv这样的新平台上，学术界引领了这一潮流。但是现在，这些最初的理想似乎难以实现，政治上的两极分化因信息“回声室效应”而加剧，甚至对什么是客观证据也不再达成共识。在如此危急情况之下，也许我们学术界可以重拾30年前的领先地位，通过展示如何负责任地、有成效地分享信息，重燃新的希望。

更为简约的质量控制的兴起

在其早期，arXiv实施了卫生和内容相关形式的质量控制，后者随着arXiv对公众透明度的增加而变得越来越重要（更多关于arXiv的历史见下文）。这里的 "卫生 "指的是浅层次的——文本应该可以提取；参考文献、作者和摘要应该包括在内；不应该有分散注意力的行号或水印，等等——可以直接自动进行检测。在内容方面，arXiv早期实施了一种最低标准的质量控制，雇用了一批活跃的科学家，对收到的稿件（通常只根据标题和摘要）进行扫描，并迅速判断它是否对目标研究群体有合理的兴趣。这种监督是为了保护读者不受离题内容的影响，并保持与最低学术标准的一致性。它还预见到一直存在的风险，即邪恶分子的行为不一定符合社会的最佳利益，这种风险在后来的几年里或许没有得到社交媒体公司的足够重视——见证了自由流通的虚假信息所带来的高风险的社会损失。

arXiv的三十年

arXiv创立于1991年的纯印刷时代。始于美国洛斯阿拉莫斯国家实验室，在1998年之前被称为xxx.lanl.gov，目的是通过提供平等的时间来获取最新科研成果，从而为全球研究提供公平的竞争环境。在万维网出现之前，当时的出版商和图书馆员对任何短期内向数字内容的过渡都持怀疑态度。在20世纪90年代初，arXiv作为一个自动资料库发挥了先锋作用，第一个实现了使用文章摘要登陆网页，并与相关资源链接，包括全文附注和pdf。arXiv在开放存取运动中也优先发挥了作用，催化了PubMedCentral等资源、PLoS等出版商以及后来其他预印本服务器，包括bioRxiv和medRxiv。

十年后，arXiv需要一个合适的机构，以继续其从短期的软件实验过渡到更长期的可持续服务。在学术交流领域，传统的参与者是机构图书馆和专业协会。2001年，我选择了进入康奈尔大学图书馆（1981年在此获得物理学博士学位），理由是图书馆不会与自己的期刊出版业务有潜在的利益冲突。尽管是出发点是好的，但随着时间的推移，这种配合变得越来越糟糕。大学图书馆的主要任务是为其内部社区提供由他人认证的内容，而arXiv的职权范围是向全球研究人员社区传播有时难以辨别出处的资料。

2019年，康奈尔大学内部对arXiv的监督从图书馆转移到了计算机和信息科学，但长期规划受到了大流行病相关问题的阻碍。也许arXiv会在康奈尔内部找到一些新的平衡点，也许专业协会会利用自己的出版经验，帮助创建一个更加分散和可持续的长期资源。arXiv仍然是许多全球研究社区的主要研究交流模式，提供了必不可少的基础设施。每天的提交率正在迅速增长（见图；主题由arxiv.org上使用的标准缩写标明），预计2021年的新文章总数约为19万篇。不管arXiv未来的具体情况如何，预印本的传播不再是异端，目前传播量增加的趋势不太可能逆转。

arXiv创立三十周年之际，创始人在Nature发文：arXiv是信息共享的先锋

24小时的AI审查

但是，arXiv的运作方式是无情的每日周转，所以近年来，我创建的自动机器学习框架对人工审核进行了补充，以标记和保留有潜在问题的提交材料，以便进行额外的人工审查。自动程序不会休假、生病、分心或繁忙，并能在几毫秒内全面评估全文内容，包括对照整个后台数据库检查每份新提交的文件是否有重复或过多的文字重叠。现在，大部分的内部人力都被用于调解和裁决各种人类和机器人的规模性疏忽。

从健康隐患到救命稻草

尽管早期有人怀疑预印本的分发会与高能物理学以外的领域有关，但它是在使用量激增的催化下，持续向新领域发展的。例如，2001年对二硼化镁超导体的关注，以及后来从2008年开始对镍铁超导体的关注，导致相关的实验团体使用arXiv来报告突破性的结果并提出先例。最近，机器学习界在2015年左右大规模地采用了arXiv。这些研究人员仍然是忠实的用户；到目前为止，没有一个采用arXiv进行快速传播的社区后来放弃了使用。

但是，与更广泛的社会中的信息共享问题最相关的预印本使用量的飙升是由COVID-19大流行引发的bioRxiv和medRxiv的增长。这些预印本服务器在大流行的第一年就容纳了超过10,000篇文章（bioRxiv的数据；medRxiv的数据），这种增长很可能成为其他研究领域的一个转折点。回顾1995年《新英格兰医学杂志》关于预印本的一篇社论，它表达了合理的公共卫生关切，因为 "互联网上关于健康问题的许多信息，如药物的风险和各种食物对健康的影响，都是不确定的来源 "。尽管近期似乎加强了对其的关注，但我想说，迄今为止多种证据表明，开放预印本的分发并不是当前问题的根源，而且在许多情况下可以帮助缓解这些问题。

与COVID-19有关的向bioRxiv和medRxiv提交的材料并没有造成重大的公共卫生危害（尽管可以肯定的是这些资源比arXiv受到了更严格的审查）。相反，最严重的非法者反而发表在传统的参考文献中。其中包括一篇颂扬羟氯喹优点的文章（其出版商发布了一封关注信，但没有撤回），以及其他基于捏造数据的研究，这些研究很快被《柳叶刀》和《新英格兰医学杂志》撤回。也许这些杂志和其他杂志的编辑会因为在出版前看到更多的专家公开评论而受到启发：迄今为止，已经有超过120篇经同行评审的COVID-19文章被撤回或撤销。相比之下，一项以预印本形式发布的COVID-19研究，高估了先前的感染率，并很快被媒体报道，专家们很快说明了其统计学上的缺陷。一份预印本报告了关于药物地塞米松的严格临床研究的结果，导致该研究在作为期刊出版物出现之前的半年内被使用，可能挽救了许多生命。而正是这篇预印本对实际的健康危害进行了反击，纠正了长期以来假定的（落下的）飞沫和（空中的）气溶胶之间的5微米界限背后的错误观念，并表明需要对COVID-19传播的健康预防措施进行更有效的修订。

窥探未来

我并不是说预印本的发行是解决同行评议期刊出版延误和偏见的良方，而是说在适当的情况下，其利远大于弊。记者在提到预印本服务器上的文章时，经常会加上 "尚未审查 "的警告语，并且通常会咨询专家以核实事实，避免误导公众。尽管并非所有的数字媒体都对COVID-19预印本进行了必要的限定，但肯定有可能对 "正在审查 "的某些表述进行标准化处理，以表达不确定性。如果我们确实不可避免地要在更多领域公开传播预印本，那么所有参与者——研究人员、同行评议的期刊和大众媒体——都需要接受这一趋势，并设计各种方法，让研究人员更好地了解情况，让普通公众少受误导。

原文链接：https://www.nature.com/articles/s42254-021-00360-z

雷锋网雷锋网雷锋网