5篇必读的数据科学论文（以及如何使用它们）

数据科学

作者：AI研习社-译站

2020/11/10 11:07

译者：AI研习社（Champagne Jin）

双语原文链接：https://www.yanxishe.com/TextTranslation/2999

5篇必读的数据科学论文（以及如何使用它们）

数据科学可能是一个年轻的领域，但这并不意味着你不期待了解某些相关主题。本文涵盖了最近几个极为重要的发展以及颇有影响力的理论片段。

这些论文所涉及的主题包括：编制数据科学工作流、轻量化神经网络的突破、重新思考使用统计学解决问题的基本方法。对每篇论文，我都给出了将其思想应用到自己手头工作上的一些想法。

第一篇：Hidden Technical Debt in Machine Learning Systems

这是由谷歌研究院团队倾情奉献（2015年NeurIPS），当我们需要设置自己的数据科学工作流时，我们可以从该论文中学习到多个避免反模式的明确方案。（所谓反模式，就是让系统逐渐恶化的典型场景）

5篇必读的数据科学论文（以及如何使用它们） via DataBricks. （译者注：你瞅瞅这图，机器学习在最终的系统中看起来不过是沧海一粟）

下一篇将要介绍的论文里会更详尽地探讨这个问题，构建机器学习产品是软件工程的一个高度专业化的子集，因此从软件工程这个学科中吸取的许多经验教训应用于数据科学也是很有意义的。

那么究竟该怎么做呢？不妨试试论文中专家谈到的实用技巧来简化你的开发和生产。

第二篇：Software 2.0

这篇来自于Andrej Karpathy的优质博文阐明了机器学习模型是基于数据进行编程的软件应用程序之范例。

如果数据科学是软件，那么我们到底要朝着什么方向发展呢? Ben Bengafort在其颇具影响力的博文《The Age of the Data Product》中探究了这个问题。

5篇必读的数据科学论文（以及如何使用它们）数据产品代表了机器学习项目的运作化阶段。图源：Noémi Macavei-Katócz on Unsplash.

那么如何使用呢？多读读数据产品适应模型选择过程的相关文章吧。

第三篇：BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

这篇论文中，来自谷歌研究院的团队提出了一种全新的自然语言处理(NLP)模型，该模型的出现堪称机器文本分析能力的阶梯式增长。

对于为何BERT能够恐怖如斯仍有不少争议，不过这也提醒了我们，机器学习领域可能已经发现了一些成功的方法，但可惜我们却没有完全理解它们是如何工作的。与大自然一样，人工神经网络也充满神秘感。

(此处为一段YouTube视频，?‍：在这个欢快的问答片段中，诺德斯特龙数据科学主任解释了人工神经网络是如何从自然中获得灵感的。)

具体该怎么入手呢？

BERT 伯特这篇论文很快就能读完，而且论文里还包含一些默认超参数设置，完全可以从这些参数着手开动起来（具体参见论文附录A.3）。 This paper will be read in no time,
无论你是否是NLP新手，不妨看看Jay Alammar的<A Visual GUide to Using BERT for the First Time>，这篇文章里对于BERT的技能有着相当引人入胜的展示。
哦对了，记得看看ktrain，这是一个基于Keras的库。ktrain能让你在自己的工作中无痛实现BERT。Arun Maiya开发了这个强大的库，目的就是让我们快速获取对于NLP，图像识别以及图相关方法的深刻认知。

第四篇：The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks

诚然，NLP模型正在越变越大（你看，GPT-3的参数量达到了恐怖如斯的1750亿！），不过也有一些研究人员偏爱“倒行逆施”，他们的目标是开发更小、更快、更高效的神经网络。这些网络能够确保其更快的运行速度，更低的训练成本以及对于计算资源的更少需求。

在这篇具有开创性意义的论文中，机器学习小天才Jonathan Frankle以及Michael Carbin概述了一种剪枝策略以寻找稀疏子网络，这些子网络可以达到堪比原始超大型神经网络的性能。

5篇必读的数据科学论文（以及如何使用它们）图源：Nolan Day的论文《Breaking down the Lottery Ticket Hypothesis》

彩票（lottery ticket）是指剪枝策略与有效的初始权重之间的联系（这可不就跟刮彩票一样嘛）。神经网络剪枝这一发明在存储空间、运行时间和计算性能方面提供了诸多优势，并赢得了ICLR 2019年度最佳论文奖。在此基础上所进行的进一步研究证明了该方法的适用性，甚至将其应用于原本就很稀疏的网络中。

具体怎么操作呢？

在将你的神经网络部署到生产环境之前，不妨考虑一下对其进行剪枝。网络权重剪枝能够大幅降低参数数量（参数可减少达90%+）同时确保其与原始网络相近的性能表现。
还有，听听Ben Lorica与Neural Magic在这一集数据交换播客里面的相关讨论。Neural Magic是一家初创公司，其希望利用剪枝和量化等技术，搭配一个精巧的用户界面，使实现网络稀疏性更容易。

再来点加餐：

看看这个很有意思的侧边栏目，原论文作者之一在这里聊了聊机器学习社区评估好想法的缺陷。

第五篇：Releasing the death-grip of null hypothesis statistical testing (p < .05)

经典的假设检验会导致过度的确定性，并产生了通过统计方法来确定原因的错误想法。（更多内容）

假设检验在计算机出现之前就被广泛使用。考虑到这种方法所带来的深刻挑战(例如，即使是统计学家也发现要解释p值几乎是不可能的)，也许是时候考虑其他方法了，比如某种程度上的精确结果测试(SPOT)。

5篇必读的数据科学论文（以及如何使用它们） “显著性”via xkcd

怎么办呢？

看看这篇博文，《The Death of the Statistical Tests of Hypotheses》。文中，一个沮丧的统计学家概述了一些与经典假设检验方法相关的问题，并利用置信区间解释了一种替代方法。

AI研习社是AI学术青年和AI开发者技术交流的在线社区。我们与高校、学术机构和产业界合作，通过提供学习、实战和求职服务，为AI学术青年和开发者的交流互助和职业发展打造一站式平台，致力成为中国最大的科技创新人才聚集地。

如果，你也是位热爱分享的AI爱好者。欢迎与译站一起，学习新知，分享成长。

5篇必读的数据科学论文（以及如何使用它们）