大牛讲堂 | 深度学习Sequence Learning技术分享

2016/08/22 19:35

雷锋网按：本文作者都大龙，2011年7月毕业于中科院计算技术研究所；曾任百度深度学习研究院（IDL）资深研发工程师，并连续两次获得百度最高奖—百万美金大奖；现在Horizon Robotics负责自主服务机器人、智能家居以及玩具方向的算法研究与开发，涉及深度学习、计算机视觉、人机交互、SLAM、机器人规划控制等多个领域。

深度学习独领风骚

人工智能领域深度学习独领风骚自2006 年Geoffery Hinton等在《科学》( Science) 杂志发表那篇著名的论文开始，深度学习的热潮从学术界席卷到了工业界。
从那天起，深度学习在工业界的应用就如火如荼，真正开始“深度”影响我们的生活。比如这个大牛同学，参与开发了国内最早的基于CDNN的图像识别技术，极大提升了计算机视觉相关线上应用的效果，还创新性的主导研发了基于CNN和BLSTM的OCR识别系统，大幅提升了商用OCR系统的识别率，他的工作影响了包括你我在内的千万互联网用户。

深度学习的优势在哪里

人工智能的特征之一是学习的能力，即系统的性能是否会随着经验数据的积累而不断提升。我们认识到深度学习主要在以下三个方面具有巨大优势：

1.从统计和计算的角度看，深度学习特别适合处理大数据。在很多问题上，深度学习是目前我们能找到的最好方法。
2.深度学习不是一个黑箱系统。它提供一套丰富的、基于联接主义的建模语言（建模框架）。利用这套语言系统，我们可以表达数据内在的丰富关系和结构，比如用卷积处理图像中的二维空间结构，用递归神经网络(Recurrent Neural Network, RNN) 处理自然语言等数据中的时序结构。
3.深度学习几乎是唯一的端到端机器学习系统。它直接作用于原始数据，自动逐层进行特征学习，整个过程直接优化某个目标函数。

关于Sequence Learning的技术分享现场实录

关于Sequence Learning的技术分享现场实录从2012 年的ImageNet竞赛开始，深度学习首先在图像识别领域发挥出巨大威力。随着研究的深入，深度学习逐渐被应用到音频、视频以及自然语言理解领域。这些领域的特点是针对时序数据的建模，我们将其称之为Sequence Learning。如何利用深度学习来进行端到端的学习，并摒弃基于人工规则的中间步骤，以提升Sequence Learning的效果已经成为当前研究的热点。

Sequence Learning 已经成功应用到多个领域，比如语音识别、 Image Captain 、机器翻译、 OCR 等，它们的共同特点是利用 DNN 或者 CNN 提取高级语义特征，利用 RNN 建模时序信息。在损失函数方面，除了常见的 logistic 损失外，还引入了结构化损失，比如 CTC 等序列对序列的损失等。