资讯 专栏
此为临时链接,仅用于文章预览,将在时失效

Airbnb资深程序媛:公司里的Data Scientist

作者:朱赟
2016/06/15 11:32

雷锋网按:本文作者朱赟,Airbnb资深美女程序媛一枚(友情提示:头像即真人)。

Airbnb资深程序媛:公司里的Data Scientist

(图:Emily Cheng 手绘,Airbnb 程序媛,我的邻座)

硅谷的大部分公司,都有很多的Data Scientist,简称 DS,不知道国内是不是叫数据科学家。

前几天 InfoQ 的网站上发布了一篇文章《Airbnb支付平台如何进行异常检测》,翻译的是 Airbnb 公司博客上的一篇英文原文。

这篇文章讲的是 Airbnb 的一个异常探测系统:

Airbnb为全球190个国家提供服务,支持多种货币类型。大部分情况下,支付系统会成功支付,但有时会出现暂歇性故障,比如,某些货币不能处理或者支付渠道不可访问。为了能够尽可能快的捕捉到这些故障信息,公司的数据团队开发了一个实时的异常检测系统来甄别这些问题。这个异常检测系统可以很好的帮助产品团队定位问题,也让数据分析师能腾出更多的时间来做其它工作,比如,新的付费方式或者产品上线的A/B 测试、定价或者价格预测和构建机器学习模型来做个性化推荐。

注:InfoQ 作为 IT 媒体界的翘首,在规范翻译英文博客的流程上起了一个很好的表率。首先就翻译的准确性来说,InfoQ 网站上的翻译总的来说质量是很高的,也有专人校对。此外,我知道他们翻译的文章是联系授权的,就说这一篇,也是得到了 Aribnb 的 eng 部门和 PR 部门首肯的。在此对 InfoQ 对知识产权的尊重表示一下个人小小的敬意。

这个异常检测系统我们现在仍然是在使用的,不过略有进一步的改进和完善。英文原文是我们组的一位 Data Scientist 陆竞骁写的。发布之后,也有几个朋友私下问了一些细节问题,比如:“这样的系统是怎么从无到有做出来的?” “需要什么样的人来做?” 等等。所以今天就大概聊聊公司对 Data Scientist 的技能要求以及平时工作的一些大概内容吧。

顺便提一句,Twitter 其实也有一个类似的异常检测系统的基于R语言的开源包 。和我们的主要区别在于对于 seasonality 的处理。Airbnb 使用 FFT 模型来模拟 seasonality 的方式可能使用起来更加灵活一些。有兴趣的可以下载 Twitter 的开源包,然后根据自己的需求做类似的系统。我们的系统目前还没有开源。

| Data Scientist 都做什么?

在一般的互联网公司,DS 的工作可能包括(却不止于)下面四类:

| Data Scientist 都有什么样的学术背景?

大都 DS 都是来自于数学和统计专业。然而也有很多来自物理、机械工程、金融等专业。相对而言,DS 比码工的平均学历要高,也就是硕士博士的比例更大一些。

知乎日报上《如何成为一名数据科学家?》一文中提到:

数据科学(Data Science)是从数据中提取知识的研究,关键是科学。数据科学集成了多种领域的不同元素,包括信号处理,数学,概率模型技术和理论,机器学习,计算机编程,统计学,数据工程,模式识别和学习,可视化,不确定性建模,数据仓库,以及从数据中析取规律和产品的高性能计算。数据科学并不局限于大数据,但是数据量的扩大诚然使得数据科学的地位越发重要。


数据科学的从业者被称为数据科学家。数据科学家通过精深的专业知识在某些科学学科解决复杂的数据问题。不远的将来,数据科学家们需要精通一门、两门甚至多门学科,同时使用数学,统计学和计算机科学的生产要素展开工作。所以数据科学家就如同一个team。


曾经投资过 Facebook,LinkedIn 的格雷洛克风险投资公司把数据科学家描述成“能够管理和洞察数据的人”。在 IBM 的网站上,数据科学家的角色被形容成“一半分析师,一半艺术家”。他们代表了商业或数据分析这个角色的一个进化。

| 怎样算一个优秀的 Data Scientist?

其实除了金融等领域对 DS 的技术背景有着上面的严格的要求,很多互联网公司如 Square、Airbnb、Facebook 等对于技术背景达到一定的水准后,更看重的其实是另外一些软技能,如:

这也是为什么很多硅谷的公司在招 DS 的时候,更愿意招有工作经验的 DS,很多中小公司甚至干脆不招毕业生。而因为各种数据生成的 dashboard, 更是公司高层做决定的一些主要依据。

Data Scientist 在硅谷的薪资是怎样的?

这个问题我的数据不够,不好以偏概全的来误导。不过倒是让我想起来另外一件事。

大家经常看到 LinkedIn、GlassDoor 等网站对各个职业的平均水平进行统计。我和我的一些朋友觉得,这些数据其实是很 bias 的,而且基本可以说是偏低的。为什么这么说呢?我猜有两个原因。第一,刚入职场的人更喜欢参与这样的统计调查。而比较 Senior 的人,其实几乎没有人或者很少有人去参与这样的调查。第二,很多高工资的公司参与这样的统计调查的人要相对较少。我为什么这么猜?只是从我认识的人提起这样的一些统计数据都觉得比实际情况偏低推测的。不用跟我争辩,我只是说出我的观点,信不信由你。

| 为什么 Data Scientist 很重要?

没啥可说的了:可信的数据、靠谱的解读,是做出正确判断的重要基础。

所以对于很多公司而言,招到优秀的 Data Scientest,其实和招到优秀的软件工程师一样重要。

而一个公司在多大程度上由数据驱动,看看他们 Data Scientist 与工程师的比例,也就大概有个谱了。

雷锋网注:题图来自ju.outofmemory.cn。转载本文请联系授权并保留完整信息,注明出处和作者,不得修改文章。

长按图片保存图片,分享给好友或朋友圈

Airbnb资深程序媛:公司里的Data Scientist

扫码查看文章

正在生成分享图...

取消
相关文章