VR要成为下一代计算平台还得靠手势识别？ | 雷锋网公开课

手势识别 VR AR 深度学习

作者：程弢

2016/06/23 17:27

今年 8 月，雷锋网(搜索“雷锋网”公众号关注)(搜索“雷锋网”公众号关注)将在深圳举办一场盛况空前，且有全球影响力的人工智能与机器人创新大会。届时雷锋网将发布「人工智能&机器人 Top25 创新企业榜」榜单。目前，我们正在拜访人工智能、机器人领域的相关公司，从中筛选最终入选榜单的公司名单。如果你也想加入我们的榜单之中，请联系：2020@leiphone.com。

2013年的时候，初创公司Leap面向PC端发布了Leap Motion之后，率先把手势识别引入到了消费级市场。但是从现在来看，手势识别似乎并没有在PC端爆发的趋势，相比较而言，VR领域却推动了这项技术的发展。

本期硬创公开课我们邀请了极鱼科技的两位嘉宾为大家解答关于手势识别的疑惑，他们分别是极鱼科技创始人&CEO，前360智能摄像机联合创始人房文新，和极鱼科技算法组长、中国矿业大学硕士、计算机视觉专家、前灵境算法负责人Arron。

VR要成为下一代计算平台还得靠手势识别？ | 雷锋网公开课

手势识别对VR来说意味着什么？它的应用场景有哪些？

VR和AR是公认的第三代计算平台，但每一代计算平台都需要与之配套的交互方式，如PC之于鼠标，iPhone之于触摸屏，VR+AR之于手势操控。

毋庸置疑，手是人最自然的交互方式，带上VR眼镜大家很自然的就是伸出手。

没有通用人机交互的创新，VR+AR不可能成为下一代计算平台，只有脱离了手柄脱离了游戏（100亿的市场），深入到人们的工作和生活中去（一千亿的市场），代替电脑代替手机成为离每个人都最近最强大随身携带的信息终端节点。

举个例子，诺基亚的失败与苹果的成功，差别在于后者人机交互上更自然体验更好，一个使用电阻触摸屏一个使用了电容触摸屏：前者就这样被颠覆了，当然还有与之配套的UI设计、人机交互设计、App和游戏支持。

能颠覆PC的必然不是PC的变种，能颠覆iPhone的必然不是iPhone的变形，下一代计算平台必然是离我们更近的VR、AR、MR！

而对下一代计算平台来说，我们认为手势识别为主+语音识别为辅+人工智能语音助手的组合就是最佳的人机交互方案。

理论上说，VR/AR可能应用的领域，手势识别也是可以的，例如视频、游戏、社交、建筑、设计、实验、教育、旅游、军事、全息交互控制等。

手势识别与姿态识别、人脸识别、物体识别的差异是什么？

其实这几种识别的方案在硬件（如传感器的模式）大体是相同的。

而且从技术角度来说，它们也有一些共性，都需要进行目标提取，特征识别定位，三维重建等步骤。当然，如果要增强识别的效果，手势识别肯定是要融合机器学习算法的，这样就可以以离线、在线的方式不断优化识别的特征没这样就可以提升识别的效率和准确率。

VR要成为下一代计算平台还得靠手势识别？ | 雷锋网公开课

姿态识别

手势识别与姿态识别、人脸识别、物体识别的差异主要体现在应用场景：手势识别目前多用于人机交互；人脸识别可应用于电影中的动画表情重建，另外在安防领域应用较多；姿态识别则主要用在体感游戏，例如Kinect；物体识别的应用就多了，例如网络购物实时绘制商品，家具模型等。

手势识别的实现路径有哪些？技术原理是什么样的？

现在的手势识别方案主要有四种：第一种是机械手势识别，例如DExmo；第二种，惯性传感器，Ahrs九轴的noitem的动捕手套就是这种；第三中是基于弯曲传感器的方案；最后一种是最自然的手势，基于视觉的手势识别，例如leapmotion、Kinect和ThisVR等。

我们主要聊一下基于视觉的方案。

按照结构和数据源来区分，也可以包含四大类：RGB摄像头，红外双目摄像头+IR补光，light coding红外结构光，ToF深度摄像头。

红外双目摄像头+IR补光是一种比较主流的方案。它的特点是成像质量好，目标容易提取，背景干净，通过双目标定能很好的实现手势目标边缘的三维重建。以leap motion的三维重建原理为例：

VR要成为下一代计算平台还得靠手势识别？ | 雷锋网公开课

双目摄像头方案原理

它应用了特殊红外波段打光，集合摄像头加入了对应波段的红外窄带带通滤光片，第一步先进行目标提取，通过双摄像头的标定之后，结合特征匹配能很好的进行左右视察对应的特征点。

因为双目摄像头的标定作用体现在左右时差能达到小范围的一一对应，这对之后的三维重建和匹配有很大的帮助。

除此之外，现在双目摄像头多采用技术比较成熟的CMOS传感器，这样的分辨率和帧率（很容易达到100帧）可以达到很高的水平。

不过双目摄像头的缺点就是需要进行算法处理后才能获得三维信息，因为目前的帧率很高，已经能实现很好的跟踪效果，但是它的红外补光又使得这种方案无法在强光或是和它同一波段的光源下使用，因为太阳光是全波段光谱，所以双目摄像头方案在白天室外环境下基本不能使用。

VR要成为下一代计算平台还得靠手势识别？ | 雷锋网公开课

ToF原理

light coding红外结构光也面临同样的问题。相比之下，ToF深度摄像头则刚好弥补了这一短板，你可以理解它是一个激光正面，通过发射和接收光信号的相位差，直接算出深度值，这样的方案抗光性好，在室内外都适用。

VR要成为下一代计算平台还得靠手势识别？ | 雷锋网公开课

light coding和ToF对比

其实，手势识别是个很单一的问题，无论用哪个方案，经过细分拆解都要进行分析和算法的实现，如左右手区分，手腕和手掌的分割，正面、侧面和背面的识别，最后就是手指ID的识别。

VR要成为下一代计算平台还得靠手势识别？ | 雷锋网公开课

手势识别的功能和穿戴式的手套一样吗？

其实手势识别和穿戴式手套是互补的关系，玩游戏还是手柄手套比较适合，因为能有力反馈但是手柄30年来只存在游戏行业。

但手势识别未来主要的应用场景并不是游戏。回过头来谈VR/AR，它们要成为下一代计算平台，深入到大众的工作和生活当中，还是需要一个通用人机交互方式，而这样的人机交互不仅是在游戏或者视频领域，想象一下换成了手柄或者手套是一种什么样的场景...手势识别的实现是为了让人解放双手，手上不带任何设备就可以实现最自然的人机交互。

如果用市场空间来做对比的话，游戏行业只有100亿美元左右的规模，而深入到工作和生活的每个角落：办公、家居、教育、旅游、衣食住行等，才是万亿级别的市场。

所以，我们认为手势识别为主，语音识别为辅就是第三代人机交互的方式。

手势识别离普及还有多久？

当然，现在的手势识别技术还不成熟。

以我们自己遇到的问题为例，现阶段积累的手势模型库还比较少，虽然人工采集了几万个，计算机自动建模也有几百万个，但这远远不够，如果要达到成熟完全能用的情况还最少要提升十倍到百倍的量，这时候又会涉及到计算量以及带宽等问题。

严格来说，模型库越大，加上好的特征选择和特征降维技术，深度学习体系越完整，学习效率越高，厂商训练出来的识别矩阵就更完善，相应的厂商识别精度和匹配准确度越高，通用性更强，越能适配各种不同年龄大小胖瘦的人群。

所以未来的手势识别普及的前提就是解决上述问题。

VR要成为下一代计算平台还得靠手势识别？ | 雷锋网公开课

专题

雷峰网公开课查看更多文章