雷锋网 AI科技评论按,日前,Kaggle官网发布了一份关于数据科学和机器学习的调查报告,他们通过分析超过16000份相关用户的问卷调查,给出了数据科学行业从业人员的基本概况,大家在工作中使用比较多的方法以及对初入该行业的人的建议。
雷锋网 AI科技评论核心内容编译如下:
为了建立对数据科学和机器学习的全面认识,Kaggle在今年首次开展了一项覆盖多个行业的调查研究。
他们收到了超过16000份回复,了解到该行业很多的相关信息,例如数据科学从业者的概括、机器学习领域的前沿研究,以及新手数据科学家如何能最好地进入这个领域。
在下面的报告中,他们分享了一些主要发现,这里面包括一些交互式可视化图,这样大家可以轻松地找到自己想知道的内容。以下是一些例子:
虽然Python从整体上来说或许是最常使用的工具,不过我们的报告发现统计学家中用R语言的更多。
数据科学家的平均年龄在30岁左右,但不同国家之间又略有不同。例如印度受访者的平均年龄比澳大利亚受访者要小9岁。
受访者中拥有硕士学位的人占比最高,但是在薪水最高(15万美元以上)的人中,拥有博士学位的人最多。
他们在Kaggle上分享了这些完整的匿名数据集,大家可以下载、进行探索。
下载地址:https://www.kaggle.com/kaggle/kaggle-survey-2017
大家可以参与进来研究这些数据,分享自己的思路和代码,一起推进数据科学和机器学习的研究。与此同时,甚至可以赢得现金奖励。
数据科学家概况
分析这些数据科学从业人员概况的方法有很多,他们通过与这些数据科学家的工作和背景相关的统计信息入手:
年龄
调查对象的平均年龄在30岁左右,但不同国家之间又略有不同。例如印度受访者的平均年龄比澳大利亚受访者要小9岁。
在职情况
从图中可以看到全职的人最多。
职位
虽然大家经常将“数据科学家”定义为使用代码来分析数据的人,但在调查中发现大量的职位都属于数据科学领域。例如,在伊朗和马来西亚,数据科学研究领域最常见的的职位是“科学家或研究员”。
全职年薪
虽然在此次调查中,“薪酬和福利”的重要性不如“职业发展机会”,但大家最好还是要了解到合理的薪酬范围。在美国,机器学习工程师平均工资最高。
最高学历
一般来说,在从事数据科学研究的人中,研究生占比最高。但是在收入最高(15万美元—20万美元,20万美元以上)的人群中,拥有博士学位的人占比最多。
这次调查显示,年龄为30岁,拥有硕士学位,年收入约为5.5万美元的数据科学家处于平均水平。不过每个人之间的差异也很大,上面只是从表面上给出了Kaggle上数据科学社群在年龄、性别、国家、职位、薪水、工作经验和教育上的不同。
数据科学家的日常工作
数据科学家被定义为“写代码来分析数据”的人。Kaggle也调查了他们每天的工作生活情况,下面是调查中他们发现的一些亮点:
在工作中使用什么数据科学方法?
调查显示,工作中,在军事/安全领域,神经网络用的稍微多一点。除了这两个领域,Logistic回归是大家使用频率最高的数据科学方法。
使用的工作工具是什么?
Python是调查中大家最常用的数据分析工具,但从小的类别来看,统计学家使用最多的仍然是R语言。
大家使用的数据类型都是什么?
关系数据是在所有行业(除了学术和军事/安全领域)中最常使用的数据类型,学术和军事/安全领域中最常使用的数据类型是文本数据。
大家都是如何分享代码的呢?
受访者中使用Git分享代码的人占比最高,但在大公司(员工人数超过10000)使用电子邮件等方式分享代码的人更多,大家不怎么用云端传输,而小型公司(员工数少于10人)在云上分享会更灵活。
工作中面临的障碍
一般来说,脏数据是在数据科学领域中最常见的问题,不过对一丝不苟的数据库工程师来说,这不是他们最头疼的问题。其实,排在脏数据之后,公司政治问题、缺乏管理/缺少财务支持才是最让大家头疼的。
如果大家点击筛选键,就可能会注意到许多行业的受访者都表示他们缺乏数据科学天赋。继续看下去,就可以看到这些调查对象是如何逐步上手的了,大家可以学到他们的经验。
新手数据科学家如何才能进入这个领域?
当你开始新的职业生涯时,从别人的成功经验中学习是很有帮助的。在这次调查中,Kaggle也询问了在数据科学行业工作的人,问到他们是如何成功进入这个领域的。以下是一些他们认为应该分享的建议:
你会推荐新手数据科学家先学习什么语言?
每个数据科学家都对应该先学什么语言都有自己的看法。事实证明,那些只使用Python或R的人认为自己似乎做出了正确的选择。但是,如果你询问同时使用R和Python的人,他们推荐Python的比例是R语言的两倍。
你用的什么数据科学学习资源?
数据科学是一个快速变化的领域,有很多可以帮助你学习、让你时刻保持在行业前沿的有价值的资源,这样你在找工作时竞争力会很显著。
那些已经在数据科学领域工作的人为了时刻知道最新动态,比正在入行的人使用Stack Overflow问答、会议和播客的频率更高。
如果你正在制作内容或开源软件,请记住,正在进入该领域的人更常看的是官方文件和观看YouTube视频。
从哪里找到开放数据?
没有数据就没有数据科学。当谈到学习数据科学的经验,知道如何找到干净的公开数据集来用于实践和项目是非常有价值的。从下图可以看到,数据集聚合平台(比如Kaggle数据集)是被数据科学社群的成员使用得最频繁的工具。
你是怎么找到工作的呢?
当你在找工作的时候,你可能会试图在公司官网或技术类招聘平台上找,但是根据数据科学领域工作人员的说法,那是最没用的方法。为了进入这个领域,你应该试着联系招聘人员或者建立你自己的关系网。
想要知道更多详细的信息,可以访问 https://www.kaggle.com/surveys/2017 了解。
雷锋网 AI科技评论编辑整理。