纵目科技首席科学家：智能驾驶与视觉感知的3大突破点 | GTC China 2016

马慧敏纵目科技 GTC

作者：么咏仪

2016/09/13 20:02

9月13日，GPU 开发者大会在北京举办，上海纵目科技首席科学家马慧敏教授针对智能驾驶与视觉感知方面的核心问题做了详细的讲解。

马慧敏表示，2003年的3D Image Lab实验室在清华大学电子工程系挂牌，他们一直以来关注的是识别技术现在没有攻克的难题。

小目标、强遮挡、高动态三个问题是他们重点要解决的。马慧敏主要介绍了机器学习在自动驾驶上的3个模型，用来解决上述的3个问题。

纵目科技首席科学家：智能驾驶与视觉感知的3大突破点 | GTC China 2016 1、显著性物体检测：语义注意认知模型

纵目科技首席科学家：智能驾驶与视觉感知的3大突破点 | GTC China 2016 2、部件与认知模型：抵抗遮挡能力

纵目科技首席科学家：智能驾驶与视觉感知的3大突破点 | GTC China 2016 3、3D场景物体识别：适应复杂环境

首先，在显著性物体检测中要找到显著物体为分割图像做铺垫；
其次，部件、结构、环境3个方面是图像识别中非常重要的因素，加入部件的特征也可以抵抗遮挡的问题；
最后，再进一步就是要和环境交互，利用三维信息（立体视觉）做物体的语义模型。利用三维做道路的估计和语义特征再把它投入到二维的单目摄像头中，会发现测试结果与双目摄像头效果相当。原因就是自身的先验和语义上下维度之间的关联。

在三维的先验测试中，可以确定汽车的高度、宽度以及和建筑物的比例，这些都在一定的范围之内。再从多模态、多任务、多视角三方面进行道路检测，从平视到鸟瞰进行多维检测，车辆检测和定位精度等多方面指标都能有6%以上的提升。

他们也将立体视觉和激光雷达效果以及混合传感器效果做了比较，但是视觉传感加入了激光传感后在道路的测试效果并没有显著的提升，甚至还不如二维三维融合的纯视觉识别。

在自动驾驶中，车道检测、交通标识灯检测、道路标志以及整体路径规划等都需要在嵌入式发展的基础上才能实现在无人车算法的运行中，而实现智能驾驶和视觉感知，3D Image Lab实验室用到的就是通过了上述三个模型来解决问题。

纵目科技首席科学家：智能驾驶与视觉感知的3大突破点 | GTC China 2016