雷锋网按:本文作者YY硕,来自大疆工程师。原文标题《机器人工程师学习计划》,全文篇幅较长,为了方便阅读,故分为三篇,此为下篇。
研究生一年级
研究生的时候,你的目标比较清晰了,就是做一种机器人至少两年时间,并从中发掘出可以发表论文的知识点。上面我给出的书单里面,你要开始精读里面的几本。
如果做机器人视觉定位、传感器融合方面的研究,1、4、5、7四本书一定要精读。
如果做控制系统的研究,3、8、9、10一定要精读。
如果做规划算法的研究,那么还要读其他偏CS一些的书,比如讲A* search,random forest,图论方面知识的教材。由于我在这方面造诣不深,就不托大了。
如果学习随机系统的控制和最优控制,除了1、2、3,还要读一本神书Stochastic models estimation and control。
如果研究机器人视觉定位,几种常用的定位算法:PTAM,ROS的标配VO,SVO,LSD-SLAM,ORB-SLAM,都必须自己学习之后全部跑一遍。只会用OpenCV的函数和这些工具包并不能说明你会视觉定位,必须要能自己手写出一个能用的才算。国内有一个很厉害的SLAM专家叫高翔,他的博客要关注一下:机器人 - 标签。由于SLAM这两年很火,研究的人很多,所以网上可以参考的资料也很多,比如https://github.com/hcdth011/ROS-Hydro-SLAM,就在ROS上实现了几种定位算法的对比。
我现在非常不建议同学们选择从四旋翼飞行器的动力学控制里找问题作为研究课题。因为四旋翼飞行器的特点已经被研究透了。目前国际上对多旋翼飞行器的研究主要集中在造一些奇葩形状的飞行器,以及给多旋翼飞行器上安装一个机械臂去做力控制,这样做就对多旋翼飞行器控制的动力学造成了一些影响。因此需要同学对动力学和多自由度机械臂控制有比较深的认识。
自动导航和驾驶是这两年的热点,一方面汽车的自动化是大势所趋,另一方面多旋翼飞行器异军突起,产生了很多对自动飞行的需求。除了机器人视觉定位算法以外,同学还需要学习其他的传感器,以及这些传感器与视觉定位算法怎么融合。这里面有很多坑,比如计算量的问题,怎么保证融合算法不崩,怎么处理传感器的延时等等,都需要同学结合自己的项目去踩,坑踩得多了才能成长。如果大家想找一个多旋翼飞行器平台研究自动导航,我推荐大疆的M100,我已经在知乎回答“RoboMasters2015夏令营是怎样的?” 里吹过一波M100,前面说过的今年夏令营的知乎回答“参加Robomasters 2016夏令营是怎样一种体验? ”里也有人帮我吹了一波。
一些大学里学过的知识点,是必须结合研究生期间的项目的需求弄得很清楚的,比如三大变换(傅里叶变换,拉普拉斯变换,Z变换),旋转表示法(欧拉角、四元数、旋转矩阵),数值计算怎么防止矩阵出现数值问题等等。除了自己的项目,还需要把凸优化、微分方程、卡尔曼滤波还有多自由度机械臂的控制学习一下。这三个领域的知识,是任何一种机器人都会用的到比较难的知识。
凸优化和凸优化的各种变形是非常重要的知识,因为各行各业里的研究问题,多半是会建立一个优化问题去解决的。上面提到的《Convex Optimization》,也是一本神书,同学们一定要认真读一读。Matlab、Python、C++都有一些现成的工具包可以帮助你解优化问题,不过最好同学们能自己手写一些基本的优化算法,比如gradient descend,barrier method等等。另外现在主流的SLAM算法,后端都是通过一种叫做g2o的优化算法来出效果的。而且g2o能够整合bundle adjustment 和structure-from-motion这两大计算机视觉里的关键问题,可以说是一种很好的计算思想了,非常有必要学习一下g2o。
卡尔曼滤波在上面书单里的1和3都有提到,同时在神书Stochastic models estimation and control也有相当多的篇幅。卡尔曼滤波有好几种证明的方法,同学最好能自己学会1-2种。
多自由度的机械臂的难点在于机械臂的运动学正反解、运动学控制和动力学控制,基本是一个建模分析和数值算法实现的问题。如果你所在的学校没有一个财力雄厚的机器人实验室的话,你基本上没有机会接触到多自由度的机械臂。这时候之前学到的Simulink和就要学的Gazebo就派上用场了,你可以用Simscape里面的刚体搭一个多自由度机械臂,然后通过Simulink仿真去学习机械臂的控制;也可以用Gazebo的URDF语言写一个机械臂,然后通过Gazebo和ROS的接口去控制机械臂;也可以用ROS里面的著名工具包MoveIt! Motion Planning Framework,不过MoveIt的问题是,他只能仿真运动学,而不能仿真动力学。工业领域对多自由度的机械臂控制通常用一个叫做D-H表示法的建模工具(Denavit),这个东西我并不太会。我只会向同学们推荐我导师的著作《A mathematical introduction to robotic manipulation》。
有一个非常神奇的事实:《A mathematical introduction to robotic manipulation》这本机械臂控制领域的著名教材的第二章和计算机视觉领域的著名教材《An Invitation to 3-D Vision》的第二章基本是一样的,都在讲旋转表示法。这是因为所有的旋转表示法都可以归纳为一种优雅的李群结构:SO(3)群。而计算机视觉和机械臂控制都涉及到理解刚体的旋转,事实上用计算系统去观测和控制所有的刚体构成的系统,理解旋转都是很关键的问题。旋转表示法应该作为研究生阶段的一个重要学习的知识点。
李群和李代数是刚体旋转表示背后的数学理论,如果想要深挖一些,可以看这篇文章An elementary introduction to groups and representations的前50页。这是我自己读着觉得最好的文章,当然网上也有很多其他的介绍。
研究生阶段还要培养的一个能力是借助各种工具仿真机器人系统的能力。显然地,很多机器人系统真的造出来的话造价昂贵,需要在实际制造之前写一个比较真实的仿真系统出来测试算法。我觉得做仿真系统的能力直接衡量了机器人工程师的技术水平。当你开始要搭一个仿真系统的时候,第一步是通过欧拉方程和牛顿方程确定刚体的运动特点,甚至要自己写刚体二阶微分方程;第二步是确定刚体之间的互联关系,设计不同类型的关节,如果有软性连接需要加入弹簧阻尼模型;第三步是确定被仿真的刚体系统会不会和外界产生碰撞或者其他形式的力,如果有的话,需要设计合适的接触力和摩擦力仿真的模型。多旋翼飞行器的仿真是很简单的,不需要考虑什么接触力。但是多自由度机械臂基本都需要仿真接触力,不和物理世界去交互的机械臂只有很小的实用意义。而能够自行运动locomotion系统,比如双足、多足机器人,则涉及到更多的接触力,多到接触力都会影响仿真系统的数值稳定性。搭建一个仿真系统需要很强的系统建模能力和数值分析的能力,虽然Simulink、Gazebo、Vrep提供了不同程度的工具简化你的工作,但是要让仿真系统能够稳定运行,必须要能深入其中的细节。有些看起来很高大上的仿真工具,比如Nvida的PhysX,在仿真的时候是忽略掉科里奥利力的,如果不理解仿真的本质,可能就会忽略这一个重要的缺陷。
你的学习计划接近尾声。现在你已经进入了一个很好的状态:看到一个机器人,能够很果断地分析出它用了什么传感器、执行器、计算平台大概是什么量级,他的执行机构能够承受多少力量。看到一个新的算法,能够大约判断清楚它的执行流程,在什么环节做了优化。看到一个新的没学过的知识,能够分析出它和你以前学过的什么知识有联系,你还需要再学什么才能弄明白这个知识点。
研究生二年级要深化第一年学到的那些技术和知识,要做到完整地读过四五本书,五十篇以上的论文。你已经积累了几万行代码的经验,也能熟练地谈论谁家的电机回差小,谁家的电机线性程度好。
你这个时候可以去写作一些论文,也可以开始学习一些更高级的技术和工具,比如用FPGA和GPU优化算法、魔改Linux内核、玩玩液压系统、了解更多机器学习的知识比如强化学习等等。你也可以从计算机图形学或者计算力学里面找到一些帮助你更好进行机器人仿真和系统分析的工具。由于你懂很多机器人方面的知识,你可以给学校的机器人队做指导,或者带队参加一些比较有挑战性的机器人比赛。
写到这里,我就不可能给出很多不同领域的指导了,因为随着学习的进一步深化,我自己熟悉的领域也在收缩。我只能对几个领域给出我的意见。
对视觉定位和传感器融合来说,SLAM急需新的突破,目前通过几何约束去实现loop closure看起来已经走入了死路,没法有更多的发展了,下一步可行的方向是与深度学习进行结合。具体的一些介绍可以阅读行业中大牛的一篇文章http://www.computervisionblog.com/2016/01/why-slam-matters-future-of-real-time.html,记述了几个业界大牛们最新的观点。传感器融合技术,目前还有很多问题可以探索,因为传感器的延时、不均匀的信号,会给定位系统造成困扰,如何去除这些干扰,需要建立比较复杂的非线性优化问题,具体可以关注香港科技大学Shaojie Shen的工作。
对于多自由度机械手和机器人的locomotion来说,这里面还有非常多可以探索的研究问题。我前面提过接触力和摩擦力很难仿真,大神告诉我现在没有任何一种工具和理论能把接触力和摩擦力正确仿真出来,因此如何在机器人系统里妥善处理对这些力的控制,就是很难的问题了。现在业界的一个前沿发展方向,也是利用机器学习技术来帮助机器人学会处理这些外力,不过人类目前最优秀的多自由度机器人系统,Berkeley的Brett机器人,叠几块积木就要用十分钟(New ‘deep learning’ technique enables robot mastery of skills via trial and error),显然还有很多提升的空间。这方面的问题同学可以关注知乎大神@戴泓楷@周佳骥。
最后我想再强调一遍表达能力的重要性。你可以从自己带的课程和机器人队入手,把自己这几年来学过的知识做成PPT讲给学生们听,然后让他们给你反馈。多做这样的练习,提升自己做演讲的能力,这将来会让你受益匪浅。
研究生二年级之后,你可以准备进机器人公司工作了,也可以根据你自己感兴趣的研究方向申请博士接着努力。由于你已经掌握了广博的知识和技能,你的职业生涯将会大有作为。
我从2008年展开自己的机器人生涯。那一年波士顿动力刚刚发布他们的大狗机器人,Python还是很小众的语言,Ubuntu 8.04还很不稳定,Chrome还没有多少人知道。在之后的几年中我目击了深度神经网络的复兴,看到波士顿动力的机器人日渐强大,经历了ROS的起源和繁荣,帮助了大疆的崛起,深深为这个产业的未来感到激动。我希望这篇文章能够帮助更多的年轻人进入机器人学的海洋,为未来机器人学的继续发展贡献力量。