沟通是数据科学领域的一门艺术,也是一种有用的工具。能够传达自己的见解是必要的,这才能让其他人根据发现的结果采取所需的行动。其中,讲故事是最有效的数据交流方式之一。但要成为一个引人注目的讲故事者,我们需要简化事情,而不是把它们复杂化,这样分析的真正本质就不会丢失。简言之,不要简单地展示数据,用它讲述一个故事。
在这一期的 Kaggle Grandmasters 访谈中,我将带给大家的是,一位大师级故事讲述者的惊人而令人鼓舞的旅程:Shivam Bansal——Kaggle Kernels Grandmaster 和 H2O.ai 的资深数据科学家。他目前在新加坡工作,参与了 H 2O.ai 在亚太地区的活动。Shivam 是一名来自印度的计算机科学毕业生,他随后于 2019 年在新加坡国立大学获得商业分析硕士学位,并在那里获得了杰出的 Capstone 项目奖。
Shivam 的 kaggle 之旅非常有趣和专注,用他自己的话说:
「我于今年 1 月加入 Kaggle,年底成为 Kernels Grandmaster,总排名第二,获得 10 项 Kernel 大奖(包括每周 3 项 Kernels 大奖和 4 项 Swag 大奖),还获得 3 项货物挑战数据科学核心竞赛。」
kaggle 最初吸引你的是什么,第一场胜利是什么时候来的?
Shivam:2014 年,当我在第一家公司工作时,我开始了解 Shivam。我当时正在开发一个文本分析框架,包括情绪分析,同时,kaggle 上也有一个类似的竞赛。当时我并没有加入 kaggle 比赛,而是把它作为一个好的讨论和知识参考的资源。我加入 kaggle 四年后,在 2018 年初,参加了一个关于差评分类比赛。在那场比赛中,我从别人分享的许多 Kernel 中学到了很多东西。我意识到 kaggle Kernel 是任何试图学习和实践数据科学的人最有价值的工具之一。
Shivam 的 Kernel 主页
2018 年 4 月,我参加了由 Donorschoose、Kaggle 和 Google 组织的「数据科学的良好竞争」活动。我在一个 kernel 中创建了一个混合推荐引擎,它被选为比赛的冠军。这是我第一次在 kaggle 上取得重大胜利。
你为什么决定进入竞争激烈的数据科学领域?
Shivam 的获奖作品:https://www.kaggle.com/shivamb/1-bulletin-structuring-engine-cola
Shivam:我喜欢参加数据科学良性竞争挑战。这些比赛呈现了一组特殊的、独特的、具有挑战性的问题陈述。不同于传统的特定于 ML 比赛,这些比赛更开放。这类竞赛要求在数据科学的所有方面都有完整的解决方案——从数据挖掘、清洁、工程、分析、建模、可视化、洞察力,最重要的是,还有讲故事。我喜欢这样的比赛,因为这些比赛是非常接近现实生活中的数据科学项目。
从你的 Kernel 可以推断出,你通常会将问题分解为更小的部分。这种方法是如何帮助你解决问题的?
Shivam:任何分析或数据科学问题本质上都是非结构化的。这意味着没有明确的目标和任务要做;因此,有时很难建模和处理。我总是试图通过把问题分解成更小的任务,在问题陈述中加入一个结构。然后,我尝试连接这些任务,并准备一个粗略的管道,其中包含每个部分的可能解决方案/代码。
作为第一个目标,我确保创建 kernel 的端到端版本,所有组件和任务都准备就绪。在这一点上,结果可能不是有效的,也不是最先进的,但是我通过添加可视化、洞察力、解释、代码重构等来迭代地改进我的 kernel。这种方法可以使整个问题状态和解决方案更加清晰,也有助于提高与分析思维相关的技能,结构化思维和批判性思维。
除了在 kernel 中显而易见的透彻分析之外,您还可以将结果可视化。数据可视化对数据科学家来说有多重要?
Shivam:可视化是整个数据科学工作流程的关键部分。能够清晰地显示数据集中的信息和见解是业界高度赞赏和追求的技能。无论是在 eda 阶段还是建模后阶段,可视化都起着至关重要的作用。最终我们的用户可能并不总是理解数据或结果的技术方面,但是当使用不同的绘图、交互、动画和各种图形进行可视化时,这些结果会变得更加明显。在许多领域中,视觉起到了非常重要的作用——数据故事、向业务用户展示数据的洞察力,甚至解释黑匣子机器学习模型。
你是最新加入的 Grandmaster。作为 H2O.ai 的数据科学家,你的角色是什么,在哪些特定领域工作?
Shivam 和 H2O.ai 的一些 kaggle 大师同事
Shivam:我的目标是为 H2O.ai 目前正在开发的新产品做出贡献,同时也帮助改进具有新功能的无人驾驶汽车。我希望能产生影响的领域包括无监督机器学习、自然语言处理、自动洞察、视觉分析、自动叙述的自然语言生成和人工智能。我还积极与亚太地区的销售和售前团队合作,以获得更多的客户,教育潜在客户,并协助他们处理具体项目和查询。此外,我还与客户团队成功合作,帮助不同的组织在其项目中启用人工智能。
除了 kaggle 之外,你能为数据科学初学者分享一些有用的资源吗?
Shivam:除了 Kaggle,我从博客和网站上学到了很多,比如 Analytics Vidhya, Towards Data Science 和 KDnuggets Vidhya。这些博客是了解一个新概念的好资源。为了获得更全面的数据科学知识,我推荐一些专家的课程,比如 deeplearning.a i 和 fast.ai。
是否有任何特定的领域需要在 ML 中应用您的专业知识?
Shivam:解决发展中国家低银行人口的小额贷款问题。许多个人或小企业被拒绝贷款,因为他们无法进入银行,因此没有信贷记录。我想使用网络科学、图论和非结构化数据等概念开发模型来帮助这部分人群。
对于刚刚开始或希望开始数据科学之旅的数据科学爱好者,有什么建议吗?
Shivam:数据科学是关于思想和实验的。这一切都是关于尝试这些想法和实验,并不断重复,直到达到一个成功的阶段。这可以培养一种「愿意尝试」不同实验而失败,迈出第一步,不断进步的心态。
Shivam 获得了新加坡国立大学颁发的杰出 Capstone 项目奖,因为他创建了一个使用非结构化数据和深度学习的中小企业替代信贷评分平台。
另一个有价值的建议是始终从端到端的角度思考。这意味着在开发数据科学解决方案时,必须牢记业务视角。这种想法有助于为手头的任何业务问题提出一个创造性的相关解决方案。
最后,在开始学习数据科学的同时,互联网上有很多有用的资源,你可以选择一个,开始它,坚持下去,并完成它。资源太多,很容易分心,我见过的很多人都没有做到这一点。要充分利用任何课程,最好的方法就是从头到尾的完成它。
Shivam 在 kaggle 中的核心思想总是将彻底的研究、清晰的文档和高质量的可视化结合在一起。他在工作中付出的努力是巨大的,而 kernel 内核是这一事实的证明。
雷锋网雷锋网雷锋网