如今,深度学习已经在语音识别、计算机视觉等多个应用领域取得了重大突破。然而,要说到它在机器人领域的发展,那就要另当别论了——深度学习在机器人领域,不仅发展速度慢,甚至还遭到很多人的质疑。为什么呢?
究其原因,最重要的一点在于所需数据难以共享——将深度学习应用到机器人领域,涉及到许多具体物理系统的表达。这意味着,所需数据往往是机器人领域的特定数据集。因此,研究人员在收集数据时,就要耗费较多时间;而在处理和环境相交互的主动系统时,则会更加费时。
近日,来自鲁汶大学的两位研究人员Klaas Kelchtermans和Tinne Tuytelaars就为解决这一问题展开了研究,并将研究成果撰写成论文《How hard is it to cross the room ? - Training (Recurrent) Neural Networks to steer a UAV》,发布在了arXiv上。雷锋网对论文进行了部分编译。
论文地址:https://arxiv.org/abs/1702.07600
我们研究了在无人机导航控制中采用循环神经网络(RNN)代替前馈神经网络(FNN),是否能增加其活动的灵活性。实验条件是:无人机在执行高级导航任务时,需要用前视摄像头收集信息。
为了让无人机通过模仿学习学会执行导航任务,我们建立了一个用来训练神经网络、可应用于空中和陆地两种交通工具的通用框架。实验中,我们把框架应用于在模拟环境中飞行的无人机中,让它学习如何穿越有多障碍物的房间。
到目前为止,无人机控制的训练过程中通常只使用前馈神经网络。为了处理更多高难度的任务,我们提出,引入循环神经网络代替前馈神经网络,并且训练一个长短期存储器( LSTM)来控制无人机。
通过视觉信息进行控制属于序列预测问题,并且需要高相关性的输入数据。这一高相关性就使得训练神经网络,尤其是循环神经网络,变得不容易进行。
为了克服这一问题,我们在训练网络时采用了WW-TBPTT法(window-wise truncated backpropagation through time)。另外,考虑到端对端训练所需的数据通常无法获得,我们将“只对全连接(FC)进行再训练的控制层”和“只对长短期存储器控制层(所需网络为端到端的训练)进行再训练的控制层”的表现进行了对比。
最后,通过让无人机穿越有障碍物房间这一相对简单的实验,我们已经能看出训练神经控制网络所具有的重要指导意义和其良好的实践效果。可视化的差异性有助于解释无人机学习到的行为。
雷锋网注:此图为论文中的图12——平均模仿损失对比图
实验变量:已知和未知的房间、无人机用不同构架的神经网络和不同训练方法进行控制、是否有摄像头;
S-LSTM 用S-TBPTT训练、WW-LSTM用WW-TBPTT。
此研究中,我们测试了在导航控制中,存储器(图12)能如何帮助深度神经网络更高效地运作。
结果表明,用WW-TBPTT去除训练数据的相关性,在训练如长短期存储器这样的循环神经网络时,极其有帮助。尽管使用WW-TBPTT 法会使实验方差增大,计算存储值的过程也使训练变慢(如图12最右边一组条形图),但它能通过时间长度有效避免滑动截断反向传播的顺序偏差(the sequential bias of sliding truncated back propagation)。
另外,实验结果表明,预先训练网络也非常有意义。在导航控制试验中,仅仅重训练最后一层卷积网络全连接层(如Inception),比训练端对端训练网络表现更好。训练端对端网络不仅需要更多数据,而且时间也更长。也正是上述这个原因,机器人(雷锋网注:这里指无人机)在实际应用中才不够灵活。
我们将公开“穿过房间一”和“穿过房间二”两次实验的数据集(它们代表了实验所需数据的复杂程度),让其他研究人员能以此为参考标准,学习导航控制。
最后,我们还想强调,想要打开深度学习这个黑箱子,差异化评价法和可视化是非常有必要的。