雷锋网按:本文盘点了 24 个高品质的在线数据科学入门教程,原作者 David Venturi,他获有化学工程和经济学的双学位,热衷于数学、数据科学和统计学,同时也是一位编程爱好者。更具传奇色彩的是,他本来就读于一所名校的计算机科学专业,但觉得对数据科学更感兴趣——于是果断退学,从 Coursera、edx、Udemy 等慕课平台开始自学,终迈入专家行列。
他的经历说来也并不特别,世界上又多了一个慕课代言人而已。但雷锋网认为,他的经历具有两点价值:首先,最好的教学资源已经在那儿了——很多还是免费的,取不取,只是我们自己的选择。第二点,David Venturi 或许不是权威的数据科学专家,但他是慕课老司机——最好的公开课有哪些?当然还是慕课老司机的推荐最靠谱。
因此,这篇源于 David Venturi 长期的学习经验总结,同时结合了在线慕课社区 Class Central 成千上万的课程评分和评论数据的盘点文章,自然对数据科学的入门学习具有非常重要的参考价值。
下面,我们一起来看看这位老司机的课程推荐。(入选课程的截止日期为 2017 年 1 月,按照优先级降序排列)
David Venturi
首先,所有的入选课程都必须满足三个必要条件:
1. 必须主要教授数据科学,并且越相关越好。
2. 必须有人维护,例如根据用户需求或者按照计划每月更新。
3. 必须是一个互动性的在线教程,因此以下列出的不包括书籍或是其他只读教程。
此后,我们收集了来自 Class Central 和其他评论网站的关于这些课程的评分数据,计算了每个课程的加权平均得分,然后人工阅读了课程的用户评论信息,综合两者,得到了以下列表。这里,我们主要考虑了以下两个关键因素。
1. 教程的覆盖是否合理。例如,教程不能跳过一些科目,也不能在某些科目上纠缠过多的细节。
2. 教程是否采用了通用工具。例如,我们优先选择了那些通过流行的编程语言( Python 或 R 预言)实现的教程。
最后需要说明的是,这里我们只考虑了评分最高和评论最多的课程,而且由于资源和时间有限,难免会有遗漏,欢迎各位读者在留言区补充。
为了更好地选择和梳理课程,首先要简单了解数据科学是什么,以及数据科学家平常都在做哪些研究。这里,我们给出一张数据科学的处理过程概览,原作者是哈佛大学的 Joe Blitzstein 和 Hanspeter Pfister 教授。
我们认为,一个优秀的数据科学入门教程,应该覆盖上图的每个方面,解释其中的关键概念,介绍研究中常用的工具,而且最好能提供一些简单示例(动手实操的示例)。
另外,由于本文的主题是“入门”教程盘点,因此这里不包括约翰·霍普金斯大学放在 Coursera 上的数据科学专业课程,也不包括 Udacity(优达学城) 提供的数据分析师纳米学位课程,这里我们只为数据科学的每个科目提供最好的个人入门教程盘点。
最后需要指出的是,以下列出的某些课程可能需要统计学和编程基础,读者可以自行学习这些基础科目,也可以参考这两个推荐课程列表。
统计学:https://www.class-central.com/report/best-statistics-probability-courses-data-science/
编程:https://www.class-central.com/report/best-programming-courses-data-science/
下面是课程推荐部分。
1. Data Science A-Z:Real-Life Data Science Exercises Included
讲师:Kirill Eremenko
平台:Udemy
花费:15美元
时长:21小时
在我们所有入选的二十多个课程中,Data Science A-Z 在知识点覆盖宽度和广度方面是当之无愧的王者。在高达 3071 份课程评论之中,它的加权平均星级达到了4.5星(满分5星),是评价最高和评论数量最多的课程之一。
该课程完整覆盖了数据科学的各项子科目,并贴心地提供了现实生活中的例子作为示例。另外,21小时也是一个非常好的时长,从评价来看,大部分订阅者都认为讲师的课程安排非常合理。价格方面,由于 Udemy 平台经常推出打折促销活动,因此变动比较频繁,目前的售价是15美元。
需要指出的是,该课程并不满足我们上文提及的“采用通用工具”的评选要求(课程中没有采用 Python 或 R 语言的相关工具,而是采用了 gretl,Tableau,Excel 等工具)。关于这一点,讲师 Kirill Eremenko 做了如下说明。
在 gretl 中,用户将可以像在 R 或者 Python 环境中那样进行类似的建模操作,而且不用编写代码。这一点对于 Data Science A-Z 教程至关重要。因为订阅者的编程水平可能参差不齐,而我希望通过这个课程传达一个框架性的东西,一个健壮的模型,用户可以自由选择他们喜欢的工具。gretl 可以帮助我们避免陷入编程相关的难题。
2. Intro to Data Analysis
讲师:Caroline Buckey
平台:Udacity
花费:免费
时长:每周6小时,持续6周,共36小时
详情:https://cn.udacity.com/course/intro-to-data-analysis--ud170/
Intro to Data Analysis 是一个相对较新的产品,是 Udacity 旗下数据分析师纳米学位的一个细分课程。该课程的特点是完整并且清晰地覆盖了数据科学的整个处理过程,尽管它在建模方面略有欠缺,但仍不失为一个优秀的数据科学课程,甚至有订阅者对它评价为 5 星级别。
该课程的视频制作精良,讲解清晰明了,并且许多知识点都搭配了实操测验题。另外,由于这些配套测验题都是基于 NumPy 和 Pandas 等框架的,因此订阅者通过该课程的学习,除了能学到完整的大数据知识之外,还能顺便提升自己对各种 Python 库的应用能力。课程的最后一章涉及 Udacity 旗下的纳米学位授予,虽然并不是免费的,但考虑到各大企业对纳米学位的认可度,因此仍不失为一个很好的投资。
3. Data Science Fundamentals
讲师:多人授课
平台:Big Data University
花费:免费
时长:13小时,如果包括课程最后介绍R语言的“R 101”章节,则需要18小时
Data Science Fundamentals 由 IBM 旗下 Big Data University 提供的四个子章节组成,这四个子章节分别是:3小时的“Data Science 101”,5个小时的“Data Science Methodology”,5个小时的数据科学开源工具实操,以及最后5个小时的R语言入门“R 101”。
该课程完整覆盖了数据科学的整个处理过程,并介绍了 Python、R 语言和其他几个开源工具。总体上说,课程更贴近实际应用,具有巨大的生产参考价值。但由于它在 Class Central 等评分网站中没有太多数据,因此目前还不清楚订阅者对它的评价如何。
介绍完以上三个重点推荐的高品质课程之外,下面按照加权平均的评分结果降序排列,推荐一些其他的大数据科学入门参考课程。
4. Python for Data Science and Machine Learning Bootcamp
讲师:Jose Portilla
平台:Udemy
详情:https://www.udemy.com/python-for-data-science-and-machine-learning-bootcamp/
该课程基于 Python 语言,完整覆盖了数据科学的整个处理过程。其主要特点是更偏重基于大数据处理的 Python 语言实现,与下面将会提到的 Jose 的 R 语言课程一样,本课程同时可以作为 Python 语言以及数据科学的入门教程。课程总时长 21.5 小时,通过计算 1644 名订阅者的加权评分结果,该课程的得分高达 4.7 星级。同样,与 Udemy 旗下其他的课程一样,该课程的售价也变动频繁,目前的售价是 15 美元。
5. Data Science and Machine Learning Bootcamp with R
讲师:Jose Portilla
平台:Udemy
详情:https://www.udemy.com/data-science-and-machine-learning-bootcamp-with-r/
该课程基于 R 语言,同样完整覆盖了数据科学的整个处理过程。与上一个课程不同的是,本课程是基于 R 语言的,可同时作为 R 语言以及数据科学的入门教程。课程总时长 18 小时,通过计算 847 名订阅者的加权评分结果,该课程的得分为 4.6 星级。目前该课程在 Udemy 的售价同样是 15 美元。
6. Data Science and Machine Learning with Python — Hands On!
讲师:Frank Kane
平台:Udemy
详情:https://www.udemy.com/data-science-and-machine-learning-with-python-hands-on/
该课程基于 Python 语言,并未全部覆盖数据科学的完整处理过程,而是更专注于统计和机器学习领域。课程总时长 9 小时,通过计算 3104 名订阅者的加权评分结果,该课程的得分为 4.5 星级。目前的售价是 15 美元。
7. Introduction to Data Science
讲师:Data Hawk Tech 数据科学咨询公司
平台:Udemy
该课程的时长很短,只有 3 个小时,因此虽然其覆盖的范围很全,但深度却不足,同时也简单覆盖了 R 和 Python 语言。通过计算 62 名订阅者的加权评分结果,该课程的得分为 4.4 星级。目前的售价是 10 美元。
8. Applied Data Science: An Introduction
讲师:Syracuse University
平台:CourseSites by Blackboard
该课程虽然完整覆盖了数据科学的整个处理过程,但其覆盖深度并不平均。它的讲述重点放在基本的统计学原理和 R 语言的应用。整个课程的组织并不系统,通过计算 6 名订阅者的加权评分结果,该课程的得分为 4.33 星级。免费。
9. Introduction To Data Science
讲师:Nina Zumel 和 John Mount
平台:Udemy
该课程基于 R 语言,仅覆盖了部分数据科学的处理过程,在数据准备和建模方面有很好的讲述深度。课程总时长 6 小时,通过计算 101 名订阅者的加权评分结果,该课程的得分为 4.3 星级。目前的售价是 50 美元。
10. Applied Data Science with Python
讲师:V2 Maestros 大数据公司
平台:Udemy
该课程基于 Python 语言,完整覆盖了数据科学的整个处理过程,并且对每个细分科目都有很好的覆盖深度。课程总时长为 8.5 小时,通过计算 92 名订阅者的加权评分结果,该课程的得分为 4.3 星级。目前的售价是 15 美元。
11. Want to be a Data Scientist?
讲师:V2 Maestros 大数据公司
平台:Udemy
该课程的时长很短,只有 3 个小时,因此虽然其覆盖的范围很全,但深度却不足,简单提到了几个开源工具。通过计算 790 名订阅者的加权评分结果,该课程的得分为 4.3 星级。免费。
12. Data to Insight: an Introduction to Data Analysis
讲师:University of Auckland
平台:FutureLearn
该课程的覆盖范围目前并不清楚,根据官方介绍,课程更专注于数据挖掘、发现和可视化。课程时长 24 小时(每周 3 小时,共 8 周),不提供点播。通过计算 2 名订阅者的加权评分结果,该课程的得分为 4 星级。目前该课程可免费试听,进阶内容需要付费 59 英镑,可提供证书。
13. Data Science Orientation
讲师:Microsoft
平台:edX
详情:https://www.edx.org/course/data-science-orientation-microsoft-dat101x-1
该课程只部分覆盖了数据科学的处理过程,并且缺少建模方面的内容。由于是微软提供的课程,因此大部分的数据处理工具都使用了 Excel。课程的时长为 12-24小时不等(每周 2-4 小时,共 6 周)。通过计算 40 名订阅者的加权评分结果,该课程的得分为 3.95 星级。课程本身免费,但订阅者可以选择支付 25 美元获取一个完课证书。
14. Data Science Essentials
讲师:Microsoft
平台:edX
详情:https://www.edx.org/course/data-science-essentials-microsoft-dat203-1x-2
该课程基于 R 、Python 和 Azure ML 等工具,完整覆盖了数据科学的整个处理过程,并且对每个细分科目都有很好的覆盖深度。时长为 18-24 小时不等(每周 3-4 小时,共 6 周)。通过计算 67 名订阅者的加权评分结果,该课程的得分为 3.81 星级。课程本身免费,但订阅者可以选择支付 49 美元获取一个完课证书。
15. Applied Data Science with R
讲师:V2 Maestros 大数据公司
平台:Udemy
该课程是第 10 条推荐的 R 语言版,完整覆盖了数据科学的整个处理过程,并且对每个细分科目都有很好的覆盖深度。课程时长 11小时。通过计算 212 名订阅者的加权评分结果,该课程的得分为 3.8 星级。目前的售价是 15 美元。
16. Intro to Data Science
讲师:Dave Holtz 和 Cheng-Han Lee
平台:Udacity
详情:https://cn.udacity.com/course/intro-to-data-science--ud359/
该课程基于 Python,虽然只覆盖了部分数据科学的处理过程,但对于每个课程范围内的知识点都做了详细介绍。虽然 Udacity 具有业内公认的一个非常棒的探索性数据分析(Exploratory Data Analysis,EDA)课程,但总体上本课程缺乏数据探索性方面的介绍。课程时长共 48 小时(每周 6 小时,8 周)。一些评论认为该课程缺乏高阶内容,并且组织混乱。通过计算 18 名订阅者的加权评分结果,该课程的得分为 3.61 星级。免费。
17. Introduction to Data Science in Python
讲师:University of Michigan
平台:Coursera
该课程基于 Python,只覆盖了部分数据科学的处理过程,而且没有数据建模和可视化的相关内容(更深入的内容在密歇根大学开设的另一个名为“Applied Data Science with Python Specialization”的系列课程中,感兴趣的同学可以在详情页面中详细了解)。本课程时长为 4 周。通过计算 15 名订阅者的加权评分结果,该课程的得分为 3.6 星级。可免费试听,高阶内容需要付费。
18. Data-driven Decision Making
讲师:PwC
平台:Coursera
该课程基于 R、Python、Excel、SAS 和 Tableau 等工具,只覆盖了部分数据科学的处理过程,缺乏建模的相关内容,更注重业务实现。课程时长为 4 周。通过计算 2 名订阅者的加权评分结果,该课程的得分为 3.5 星级。可免费试听,高阶内容需要付费。
19. A Crash Course in Data Science
讲师:Johns Hopkins University
平台:Coursera
该课程是关于数据科学整个处理过程的完整概述,覆盖了几乎所有细分科目,但教授深度都不足。时长为 4-6 小时,大约需要 1 周完成。通过计算 19 名订阅者的加权评分结果,该课程的得分为 3.4 星级。可免费试听,高阶内容需要付费。
20. The Data Scientist’s Toolbox
讲师:Johns Hopkins University
平台:Coursera
该课程同样覆盖了数据科学的完整过程,但教授深度不足。更多的是作为霍普金斯大学“Data Science Specialization”课程的一个预热班。官方介绍称课程的时长为每周 1-4 小时,共需要 4 周,但有网友指出只需要两个小时就能全部完成。通过计算 182 名订阅者的加权评分结果,该课程的得分为 3.22 星级。可免费试听,高阶内容需要付费。
21. Data Management and Visualization
讲师:Wesleyan University
平台:Coursera
该课程基于 Python 和 SAS 工具,只覆盖了部分数据科学的处理过程,缺少建模方面的内容,更注重实际应用。课程时长为 4 周,每周需要 4-5 小时。通过计算 6 名订阅者的加权评分结果,该课程的得分为 2.67 星级。可免费试听,高阶内容需要付费。
以下课程没有评论数据可供参考,但也值得关注。
22. CS109 Data Science
平台:Harvard University
该课程基于 Python,完整覆盖了数据科学的整个处理过程,并且对每个细分科目都有很好的覆盖深度(而且有些内容对于“入门”这一主题可能会显得太过深入)。该课程是哈佛大学的大数据公开课,完全免费,只是由于并非针对在线消费设计,因此课程导航设计可能不会太友好。整个课程的学习大约需要 12 周,所有视频都是在哈佛大学的课堂上实录的。值得一提的是,上文关于数据科学的概述图表就是来自本课程。
23. Introduction to Data Analytics for Business
讲师:University of Colorado Boulder
平台:Coursera
该课程只覆盖了部分数据科学的处理过程,缺少数据建模和可视化的相关内容,更注重业务实现。数据科学过程在该课程中被称为“信息-行为的价值链”(Information-Action Value chain)。课程时长为 4 周,较深入的内容都基于 SQL 实现。可免费试听,高阶内容需要付费。
24. Introduction to Data Science
讲师:Barton Poulson
平台:lynda
详情:https://www.lynda.com/Big-Data-tutorials/Introduction-Data-Science/420305-2.html
该课程基于 R 语言和 Python,时长很短,只有 3 个小时,因此虽然其覆盖的范围很全,但深度却不足。可免费试听,高阶内容需要付费。
来源:class-central,雷锋网编译