资讯 人工智能开发者
此为临时链接,仅用于文章预览,将在时失效

数据科学进阶之路:了解数据科学工作,管理数据科学家团队(下)

作者:隔壁王大喵 编辑:汪思颖
2018/04/19 14:29

雷锋网 AI 研习社按:本篇是来自 Schibsted 多媒体组的数据科学经理 Alex 发布于 Medium 上的一篇文章,作者结合自身四年的行业经验,详细介绍了实际的数据科学工作,以及如何管理好数据科学团队,雷锋网 AI 研习社对原文进行了编译整理。

本文为下篇,主要讲了如何管理一支数据科学团队。上篇主要介绍了实际的数据科学工作。

和许多其它公司一样,Schibsted 有两条职业路线——「个人贡献者」和「人事经理」。在数据科学领域,前者适用于那些真正想要减少数据科学专业知识,并通过实践工作和技术为公司做出贡献的人。而经理的路线则是为那些对开发人员和领导团队更感兴趣的人而准备的。

实际上一开始我也非常不确定自己最适合哪一条路线,我最终决定试试经理人路线。幸运的是,在决定不久之后我便发现这是条适合我的路线,尽管这一决策导致我面临许多的挑战。

你将面临的第一个挑战便是,你会发现在这个世界上只有很少的人从事数据科学经理这一工作。如果你认为经验丰富的数据科学家非常罕见,实际上经验丰富的数据科学经理的数量比这个还少。所以在工作中你基本上只能依靠自己。

但是管理一支数据科学家团队真的就和管理其他团队如此不同吗?

如果你以前从未管理过一个团队,那么你肯定会从阅读 Andrew Grove 所写的《高产出管理》一书中获益匪浅。此外,主动向其他更多高级管理人员寻求建议也至关重要。

但是,数据科学家团队在几个关键方面与其他团队有着本质不同,所以接下来我将重点关注与数据科学家团队特别相关的内容。

1. 数据科学家团队实际上并不是一个团队

每当我们谈到团队时,大多数人脑海中的第一反应也许是联想到以下的画面:

数据科学进阶之路:了解数据科学工作,管理数据科学家团队(下)

像巴萨罗那这样的足球队具有哪些特质呢?在我看来至少有三个方面:

如果你要管理一支仅由数据科学家组成的团队,那么以上的这些特质可能都不适用。你的团队将具有:

比起足球队,对数据科学团队一个更合适的类比是:

数据科学进阶之路:了解数据科学工作,管理数据科学家团队(下)

X-档案

Mulder 和 Scully 的服务需求会随着时间的推移而发生变化。当需要他们的专业知识时,他们会被带进去。但是如果不与联邦调查局(FBI)之外的人交谈,他们将永远不会解决任何案件。

为什么这种区别如此重要呢?

因为如果你拥有一支数据科学团队,然后以管理“传统”团队的方式管理他们,也就是给团队设立统一的目标、不同的角色分工和完全的自主权。那么你很快就会感到团队的表现令人沮丧。

我曾经见过有人将数据科学团队按产品或者是工程团队的方式进行运营,这么做无法避免的后果是:除了数据科学之外,团队中的数据科学家们什么都需要做,他们最终将变成做工程、开发或者是产品管理。

因此数据科学家是不同的。但是这样我们又将面临另外一个问题,即怎样保证数据科学家不被束缚于象牙塔中?

2. 将数据科学家融入到其他团队中

当你将数据科学家和产品经理、工程师、用户体验专员、市场销售以及其他成员组合到一块的时候,神奇的事情将发生。

基本上,你希望最大化的目标函数是:团队中的数据科学家与其他团队的成员能够展开颇有建树的合作。

我喜欢用宽信道(Wide channel)的概念来思考这一问题。让我们使用产品经理作为数据科学家的合作对象来说明这一点。

最糟糕的情况就是数据科学家和产品经理之间没有任何信道:

数据科学进阶之路:了解数据科学工作,管理数据科学家团队(下)

数据科学家(DS)和产品经理(PM)之间没有任何信道

这意味着数据科学家和产品经理之间没有任何交流和沟通。换言之,就是数据学家对产品经理所面临的产品挑战没有一丝了解,这就使得数据科学家不可能分析和解决这些问题。

稍微好点的情况就是,数据科学家和产品经理之间有一条很窄的信道:

数据科学进阶之路:了解数据科学工作,管理数据科学家团队(下)

数据科学家和产品经理间有一条很窄的信道

在这种情况下,信息可以进行流动,但通常非常有限,而且是异步进行的。任何一种信息都可以通过第三者(例如管理者)或请求表单等手段来实现。当数据科学家需要服务于很多不同的利益相关者时,这种类型的交流是非常常见的。但这可能令人沮丧,因为商业环境通常不存在,并且会导致误解和无意义的来回折腾。

而最高效的配置方式则是拥有一条宽信道:

数据科学进阶之路:了解数据科学工作,管理数据科学家团队(下)

数据科学家和产品经理之间存在宽信道

从最直观的角度理解宽信道就是,数据科学家就坐在产品经理旁边。这自然能够促使他们更高效地进行沟通。虽然要让人们总是能够坐在一起进行协作并不方便,而且也不容易实现(我们 Schibsted 的成员分布于 22 个不同的国家),但是已经有很多软件足以支持我们在线协作,例如 Slack 和 Hangouts。

当然我们不可能让队伍中每一位产品经理和团队中每一位数据科学家建立一条宽信道——这样不便于扩展。而这正是你作为数据科学家经理的职责,你需要负责确定哪些宽信道是需要建立的,一旦完成建立,你就可以离开了。

这里有一个来自 Schibsted 的例子,证明我们正积极致力于建立一个宽信道。该例子涉及一款汽车评估工具的开发,这个工具可以帮助你在出售汽车时设定价格(在我们的挪威市场 Finn 进行了测试)。最初我只有一条非常窄的信道,然后尝试构建最准确的定价模型。但是我们发现这样做效率非常低,因为有很多产品决策,如果我们不及早对用户进行试验,就无法进行正确回答。

过了一段时间之后,我们最终将一位数据科学家融入了产品团队中,并且取得了不错的结果。你可以在该博客的文章中阅读到我们关于汽车评估工具的一些早期工作。

我们一个宽信道的例子是数字新订阅的预测模型。该模型有助于将销售额转化率提高 540%,并在 2017 年荣获 INMA 的“数据分析最佳使用奖”。

3. 掌握分析生产力

在《高产出管理》一书中,Andy Grove 曾表示「作为一个经理,你掌握了你们团队的产出」。这意味着一个数据科学经理必须要尽全力来为数据科学家创建一个最佳环境,以便于数据科学家能够保持高产。

数据科学进阶之路:了解数据科学工作,管理数据科学家团队(下)

高效的组装车间

这在很多方面是对前述嵌入模型的一股反作用力。如果每个人都始终处于嵌入状态,那么你很可能会多次面临数据孤岛(Data silos)和次优基础架构。

一些工程经理声称,当你成为经理时你应该停止编程。作为数据科学经理,我认为你应该花高达 10% 的时间来亲自完成一些编程工作,如训练模型、数据可视化等。这些工作可以帮助你以一个数据科学家的角度看待问题。

每次我想进行特设分析(Ad-hoc analysis)时,我都必须花费 15 分钟等待这个集群启动!必须有一个更快的方式来实现。

我们架构格式的文档说明似乎有点过时了——如何测量不同网站上这种按钮的点击次数?

诸如此类。当然,这种类型的实践工作不应该取代获取团队反馈意见,成为你的主职。但是它肯定有助于你发现关键问题,以让数据科学家更轻松地工作。

你还可以更加有条不紊,使用精益管理等框架,以消除各种数据科学流程中出现的浪费现象。这篇 xkcd 的文章可以作为一个很好的起点:

数据科学进阶之路:了解数据科学工作,管理数据科学家团队(下)

还需要谨记的是,数据科学家的工作需要相当多的灵活性和探索空间。你不是在经营工厂!

4. 数据->权利->政治

了解自己作为数据科学经理的「政治」背景非常重要——特别是在一个庞大而复杂的机构中。运营数据科学团队意味着你可以管理稀缺和高度需求的资源。这反过来又意味着你必须偶尔处理一下政治事务。

数据科学进阶之路:了解数据科学工作,管理数据科学家团队(下)

权力的游戏

一些假设:

你花费在这些事情上的时间很大程度上取决于公司文化,以及激励人们如何行事的机制。但是,能提前意识到可能发生这些事情总是好事。

我有一个天真的想法,公开透明是最好的良药:所有会议记录都向公司的每个人开放。所有 Slack 信道都是开放的。公司内部任何人都可以检查所有其它团队(和个人)的目标。实际上这意味着以身作则。

另外,公开透明是不够的。你必须积极与利益相关者建立信任。建立信任需要很长时间,但打破信任却可以非常快!

现在,只要让团队成员掌握到能够理解自己当前工作环境的程度就足够了,不需要让他们接触政治。这并不意味着让你的员工处于黑箱之中,但这确实能让他们专注于做好数据科学。

不要让政治剥夺了你的大部分精力。请记住,当你有权访问数据和资源以从中获取价值的时候,你就立即拥有了权利,政治将永远围绕着权利展开。

5. 充分利用资源,实现高投资回报

现在许多公司都在招聘数据科学家。在很多情况下,这些公司根本不知道该用这些数据科学家来干什么。这些公司只是迷信他们肯定会产生某些魔力。

如果你购买了法拉利,就不要把它放在车库里。

数据科学进阶之路:了解数据科学工作,管理数据科学家团队(下)

另外,不要只用它来购买杂货。

数据科学进阶之路:了解数据科学工作,管理数据科学家团队(下)

用斯柯达干这事可能会更好

法拉利就该用来干它该干的事。

数据科学进阶之路:了解数据科学工作,管理数据科学家团队(下)

法拉利在它的自然栖息地奔驰

数据科学家是一群雄心勃勃、聪明、有商业头脑的人。这意味着你必须确保他们正在处理那些不仅富有挑战性,而且有很高的投资回报(ROI)的问题。

数据科学经理在这里起着关键作用。你必须始终将正确的业务挑战与团队中擅于此题的人员相匹配。

回到我们的第一个观点,我们往往最容易关注到那些最复杂的挑战。根据我的经验,在考虑往哪投入资源时,主要应该考虑在哪里使用团队中的员工 。

6. 设定 OKRs

不论你是一名管理人员还是一名数据科学家,拥有一个好使的工具箱对大家而言同等重要。我的经理工具箱(Manager toolbox)中最强大的工具是目标和关键结果(Objectives and Key Results, OKRs)。简而言之,OKRs 就是要设定一些远大的定性目标,并将量化的关键结果与这些目标联系起来。通常你在每个季度都需要这么做。尽管 OKRs 还有很多其它内容,但这是它的本质。

OKRs 非常重要,因为它以一种简单明晰的方式让所有人知道我们将前进的方向,以及我们正在尝试去实现的东西。

从管理者的角度来看,它们也很吸引人。OKRs 的方法非常容易学习,但是实际上却难以掌握。通常情况下,你需要几个季度的时间才能正确做到:如何设置合理的 OKRs,然后跟进和审核。

当提到 OKRs 时,我有两项理解,并且认为这对于管理者非常有帮助。

数据科学进阶之路:了解数据科学工作,管理数据科学家团队(下)

每周五回家前,我们会花费大约 10 分钟来填写本周的专栏。其实你写的内容并不是那么重要——真正的价值来自于填写专栏本身,这有助于提醒你本季度自己的首要任务。

在跟进 OKRs 时,没有一种最佳的方法可以适用于每个人——关键是帮助你的团队成员找到一种方法,将它们自然地构建到日常工作和每周例行程序中。

7. 心理安全是第一

最后一点也是最重要的一点。

谷歌曾花了两年多的时间对他们团队进行研究,以了解团队表现得好和表现不佳的原因,他们发现一个因素非常突出,那就是心理安全

心理安全可以被简单概括为,你相信自己在犯下错误之后不会受到惩罚。

现在,该对第一部分的介绍进行反思了。在数据科学中,冒名顶替者综合症(Impostor syndrome)是真实存在的。当你觉得自己像是个骗子的时候,你担心的是什么?那就是犯错误。

多年来,我发现许多拥有各色各样知识背景的人进入到了数据科学领域,例如 Schibsted 的团队中,有来自金融、研究、教育、咨询、软件工程等多个领域的专业人员。

假设这些人都知道同样的事情是件愚蠢的行为。拥有如此多种不同方向人员的价值在于,每个人都能为团队带来新的东西。

数据科学家独角兽的概念是心理安全的毒素。

是否存在快速解决方法以增加心理安全?我不这么认为。但是我确实认为,作为一名经理,它需要成为你事务列表中优先级最高的那一个——尤其是当你正在建立一个新团队,或者有新成员加入时。虽然没有快速解决办法,但是你依然可以通过采取一些明确的行动来增加成员们的心理安全。以下是我们的一些实践经验:

恭喜你,你已经阅读完了这篇文章!希望这篇文章对作为数据科学家或者是数据科学经理的你能有所帮助。

via 4 Years of Data Science at Schibsted Media Group,雷锋网 AI 研习社编译整理。

长按图片保存图片,分享给好友或朋友圈

数据科学进阶之路:了解数据科学工作,管理数据科学家团队(下)

扫码查看文章

正在生成分享图...

取消
相关文章