资讯 人工智能
此为临时链接,仅用于文章预览,将在时失效

通向分布式深度学习系统

作者:AI研习社-译站
2018/08/20 14:08

雷锋网按:本文为AI研习社编译的技术博客,原标题 Intro to Distributed Deep Learning Systems,作者为 Hao Zhang 。

翻译 | 余杭   机智的工人   江舟      校对 | Lamaric       整理 | MY


通向分布式深度学习系统

什么是分布式机器学习?

通常来说,分布式机器学习(DML)是一个跨学科的领域,它几乎涵盖计算机科学的各个领域:理论(譬如统计学、学习理论、优化论)、算法、以及机器学习核心理论(深度学习、图模型、核方法)。在这些子领域中,有无数的问题需要探索和研究。另外,分布式能够很好地利用大数据,它已经成为目前工业界最广泛应用的机器学习技术。


分布式机器学习试图解决什么样的问题?

为了最容易的理解 DML,我们将它分成四类研究问题。但请注意,这些类别并非是相互排斥的。

如何使用统计学、优化理论和算法?

由于大多数机器学习任务本质上是在减小一组训练数据的「损失」,我们就更多关注以下问题:

为了研究这些问题,研究人员采用了理论分析工具,如优化理论统计学习理论。然而,在大规模机器学习的背景下,我们给出了更多的计算资源,我们的目标是通过并行或分布式计算技术利用额外资源来加速(即减少模型的训练/测试时间),我们也很想弄清楚另一组看上去相似但不同的问题:

如何开发更适合分布式设置的机器学习模型或训练算法

这一研究重点是开发新的机器学习模型或调整(扩展)现有模型以处理更大规模的数据。


如何构建大规模 DML 应用程序

还有一些特定的应用问题,如大规模图像分类,它需要扩展非常具体的模型/算法的研究。大多数这些解决方案可以直接部署到生产线中。


如何开发并行或分布式计算机系统来扩大机器学习

这一系列研究相当直观:如果我们的模型或算法无法在一个节点上完成计算工作流程,我们可以尝试开发分布式系统以使用更多节点(和更多的计算资源)。但是要做到这一点,我们需要面对很多系统问题:

这就是我们专注于 Petuum 研究方向的方面。事实上,我们今天使用的大部分主流 ML 软件都位于同一方面(例如 GraphLab,TensorFlow 等)。


了解分布式深度学习

分布式深度学习是通用分布式机器学习的一个子领域,由于其在各种应用中的有效性,最近变得非常突出。在深入分析深度学习的细节及其解决的问题之前,我们应该定义一些重要的术语:数据并行性和模型并行性。


数据并行性

数据并行性是一种通过分区数据启用的并行化技术。在数据并行分布式计算中,我们首先将数据划分为几个分区,其中分区的数量等于工作机器的数量(即计算节点)。然后,我们让每个工作者拥有一个独立的分区,让他们对该数据进行计算。由于我们有多个节点并行扫描数据,因此我们应该能够扫描比使用单个节点时更多的数据 - 我们通过分布式并行计算提高吞吐量。

在分布式机器学习中,我们的目标是加速使用多个节点的模型训练的收敛速度,应用数据并行性是相当直观的:我们让每个工作机在自己的数据分区上执行训练(即随机梯度下降)并生成一组其上的参数更新(即梯度)。然后,我们让所有节点通过网络通信同步其参数状态,直到达成一致。只要同步不花费太多时间并且我们得到较单节点结果的改进,我们就实现了目标!从本质上讲,这就是 Google 深度学习系统 DistBelief 的工作原理。


模型并行性

与数据并行性相比,模型并行性是一个更复杂和模糊的概念。一般来说,在模型并行性中,我们尝试对机器学习模型本身进行分区,以将工作负载分配给多个工作机,而不是对数据进行分区。例如,假设我们正在解决矩阵分解问题,其中矩阵非常庞大,我们想要学习这个巨大矩阵的每个参数。为了要应用模型并行性,我们必须将矩阵划分为许多小块(子矩阵),然后让每个工作机处理一些小块。这样,如果一个节点上的 RAM 不足以存储矩阵中的所有参数,我们就能够利用多个节点的额外 RAM 起到杠杆作用。由于不同的节点具有映射到矩阵的不同块的不同工作负载,我们因此能在并行计算时获得加速。

问题是,我们应该如何划分模型?由于我们有这么多的机器学习模型,每个模型都有自己的特征和表示,因此就没有实现模型并行的主要方法。


分布式机器学习中的问题


......

想要继续阅读,请移步至我们的AI研习社社区:https://club.leiphone.com/page/TextTranslation/733

更多精彩内容尽在 AI 研习社。

不同领域包括计算机视觉,语音语义,区块链,自动驾驶,数据挖掘,智能控制,编程语言等每日更新。

雷锋网雷锋网(公众号:雷锋网(公众号:雷锋网)


长按图片保存图片,分享给好友或朋友圈

通向分布式深度学习系统

扫码查看文章

正在生成分享图...

取消
相关文章