城市感知，城市智能化背后隐藏的五个度

AI 人脸识别旷视智慧城市

作者：张栋

2018/01/02 19:06

城市感知，城市智能化背后隐藏的五个度

本质上来说，AI自始至终都只是一种手段、一种技术，它被用来帮助人们解决自身难以克服的业务难题。

在安防行业，人们用其去识别人脸、识别车辆，去感知更多图像中的信息。在此背景下，智能化摄像头越来越多，视频数据量也越来越大，但老生常谈的问题也随之出现：人们并不能真正去理解、分析这些数据；另外，这些数据被播放或者被人们看过的连万分之一都没有达到。

因此，人们都在利用AI等技术去感知这些信息，并将这些信息加以应用。那么，如果将城市作为一个单位，如何去感知这个城市？在这其中，什么才是最重要的？

在旷视CTO唐文斌看来，五个度可以总结之：维度、精度、密度、关联度、集成度。

维度可以表述为数据的丰富性，有多少数据的类型和对象，就决定应用的实用性。

举例来说，一个视频中，最容易感知的部分是“人脸”，如今很多厂商都在谈人脸识别，具体来说，可以感知某人的年龄、性别、表情等一系列面部信息；针对车辆识别，可以对车上的细分品类进行识别，包括年检标、纸巾盒、遮阳板等标志物。

以上这些，都是在用户不知情的情况下，通过物理的方式，做的被动感知，也可以称之为可见光下的场景识别。

除此之外，还可以通过多光谱的方式，类似于毫米波或者太赫兹的方式，去获取视频中的数据：包括像WIFI的MAC地址，RFID等信息。

以上种种，都是为了增加感知的维度，能够从城市中获得什么样的数据、数据的多少，就决定了应用的丰富性。

精度决定数据的可用性。早在十几年前，就有厂商在人脸识别算法上做出努力，但由于当时技术并不成熟，精度不够，在实战中应用效果不佳；如今随着算法的进一步提升，现在的人脸识别做预警的成功率已经非常高。以前的人脸识别技术，报十次警可能有九次是误报，现在报十次警可能只有一次是误报，这是一个本质的飞越。

但与此同时也会出现一个问题，比如某场所内穿西装、穿西裤的人非常多，做行人的匹配，能否通过对这个人更细化的特征，比如领带的颜色，鞋子的款式做更加精准的识别、分析。

从感知的角度来看，除了有更多的纬度，每个纬度上都要追求更好的精度，精度决定最后的应用效果。

城市感知，城市智能化背后隐藏的五个度

密度是指后期带来的数据应用价值。如今很多城市都已经建设了非常密集的感知型前端摄像机，通过对这些摄像机产生的数据进行分析，能够带来两点价值：

一、通过不断修炼算法能够使得识别率得以提升，但精度的天花板并不高，易受到时空限制，如果通过一些高密度的传感器，其实可以弥补精度上的不足；

二、行人的ReID。在某一位置、时间点发现了一个可疑人员，摄像头只看到了其局部特征，在以往都会通过全局检索去发现线索，其实这是种错误的做法；只需要在对该人员接下来的十分钟内，100米范围内的高密度布置的摄像机视频数据进行检索，通过这种方式便可确定该人的具体位置。

通过视频接力、人机交互的方式，可以帮助警方使用非常低的代价去追查视频中的人的轨迹。高密度的传感器不仅能解决信息精度的不足，也能带来更多的应用价值。

如果所有的数据能够关联起来，那么其带来的价值更为可观。

如今AI圈谈到的最多的、落地最多的便是人脸识别。但很多时候，摄像机只能看到人脸，不能看到身体；或者看到身体，看不到人脸。如果两者数据关联起来，就可以看到该人员的全部信息。

再比如车辆识别，在很多实际场景中，在场景A可以拍到车牌，还知道它是什么车型；换到另一个场景B中，只能拍到是什么车型；紧接着在场景C中，看到一个行人从车辆中走了出来，但没有拍到车牌。如果数据相关联，车、人的所有信息都可以联系起来，从何做更便捷、高效的追踪。

如果按照上文所提，去做高密度、强关联度感知时，会需要非常多的传感器。因此，如何做到低成本、高算力是非常重要的一步。

值得注意的是，成本的合理化不应该建立在牺牲效果的前提下。以人脸抓拍为例，一些具备反侦查意识的人，看到摄像头会马上低头，好的抓拍机要满足要非常高的抓拍率、足够的抓拍量，同时具有较高的性价比。

智慧城市能否建设成功的前提就是城市感知，而城市感知需要多维度、高精度、高密度、数据之间的关联度、高集成度。通过这样的感知方式，城市也许会变得更加智能，而相关厂商可以根据这五个方向去做更进一步的探索及数据应用。雷锋网雷锋网雷锋网