安全是城市的基础,没有安全、和谐的环境,城市化进展毫无意义。
对于城市安防来说,要解决的大部分问题都可归结为视频中的“找车”“找人”。据数据统计,截至2020年,全球摄像机的数量预计将增至10亿台,海量数据对存储、宽带、处理、计算都带来巨大压力。过去的老方法是靠专家模型来做,其实就是手写程序,正确率最多能做到70%多。如果要寻找一个人,这70%几的正确率相当于没有应用于实际场景中。
幸运的是,大概在2012年底深度学习诞生了。即此,人们有了深度学习、非结构大数据、计算量三个要素。如果靠传统CPU计算的话,能源消耗、成本各方面都会吃不消。GPU计算是一个革命性的并行计算模式,很好的推进了深度学习和大数据。这三件事结合在一起使得人们能够在AI City上做一些事情。
那么到底何为AI City?它解决了什么现实问题?由此,在2017安博会期间,NVIDIA亚太区战略运营与合作伙伴副总裁潘迪详细解释了AI City并展示了NVIDIA Metropolis全新端到云的智慧城市解决方案。
潘迪说,AI City中要解决的一个是人的问题,另一个是车的问题。围绕视频整合一起就是解决城市安防安全问题;从政府治理角度来讲,他们有两个目的,一个是管理,另外一个是通过管理来服务。
他认为,对于AI City而言,有两个方面非常重要:
一、高效。城市资源有限,如何在有限的资源里让城市发挥更多作用;
二、安防监控。过去谈数字城市,后来有了Wifi和3G之后又谈网络城市,再后来一直谈智慧城市,现在人们谈AI City,如何用AI技术让城市更智能,这是循序渐进的过程。
在潘迪看来,在处理城市建设中的海量数据方面,AI比人力更擅长。由深度学习驱动的AI计算机能够颠覆传统数据处理、分析的方式,高效整合海量图像信息并将其转化为深层次的理解。从数据采集,存储,处理到推理运用,城市视频监控分析人员每日面临复杂挑战。以往单纯依靠人员监控的方式仅能覆盖视频监控数据的凤毛麟角,而早期视频分析系统的处理能力正确度远远低于人类。
过去都是靠摩尔定律这样一种方式实现每一年半翻一番的。今天摩尔定律不存在了,因为GPU计算比摩尔定律还要加速。对整个节能和成本控制来讲,不是20%、30%的提高,而是几十倍的提升。从人脸识别、物理物体识别等方面来讲,机器已经成为“超人”,达到90%多的正确率。在安防领域也有很多试点和应用。
以下是采访实录,雷锋网作了不改变原意的整理与编辑:
AI City中包含零售、安防、交通等各个场景,您觉得最佳的落地场景是什么?
潘迪:我认为安防是个刚需,它落地场景非常广泛。其实我们这边有一些分析,如果从整个市场来看的话,大约70%围绕着车和人的安防,另外30%左右会解决金融、商业这些问题。
这些安防厂商提到的更多的需求点在哪里?他们需要你们解决什么问题?
潘迪:摩尔定律已经消失,今天我们谈到的不是20%的TCO,而是10倍,20倍的,即使你做的很多,客户还是会希望更多更好。所以这里我再举个例子,用TensorRT 3.0做优化的话,推理可能可以达到100倍的提升。如果我们不去做优化,可能10倍左右,所以其实客户的需求是什么呢?省钱,这是一块。另外一块,我们也看到现在随着新技术的发展,包括AR、VR,客户也希望有这些新的技术,包括我们在谈到AI City时说的,能不能用三维的方式来描述客户?
(其他嘉宾:这点我稍微补充一点,所谓完整的方案是因为在过去这几年我们在国内的客户,包括全球客户在做合作的时候,发现其实对于CUDA或者GPU的开发其实很多人都会碰到难处,尤其是AI现在来得这么快,其实很多厂商都想加入到AI领域,或者在他们的产品上把AI的功能加上。但是之前比方说他对于CUDA或者GPU不熟的情况下,短期内开发GPU的产品可能就成为一个瓶颈。所以说我们才会开发TensorRT,还有整个的SDK,如果大家可以看到我们比方说像十几行的代码就可以帮你把神经网络实现,而且性能是非常好,因为里面的优化,包括里面GPU的加速全都是NVIDIA做的。
这样的话能够保证最大程度的挖掘出GPU的能力,就像刚才潘总讲的第二点,其实就是说未来网络发展的前景我们现在还没有看到它的尽头,并不是说我们现在做人脸,或者说做一些目标检测或者车的一些检测,这就到了世界终点,并不是这样。比方说我们可以看到车和人的检测,其实大多数都是单帧检测,未来会不会有多帧里面的跟踪算法,还有包括分辨率会不会越来越大,现在客户给我们的回答都是非常非常正面,认为在将来,其实这个计算力也会持续上升。)
您认为这就是未来AI在安防行业中的发展趋势吗?
潘迪:这个世界随时随地都在变,治理部门、管理部门要面对这种变化,所以我相信今天可能并不需要或者不存在的需求,明天可能就会有。所以应用创新很重要,这里面包括商业模式。比如最近这几年,共享单车、外卖火热,这是几年前我们想象不到的。
安防从本质上来看就是安全防范,公安对安防最大的需求是预测,比如会不会发生犯罪或交通事故?在这方面NVIDIA怎么看?
潘迪:事实上安防包含两方面,一个是管理,另外一个是服务,我觉得服务可能比管理还要重要,其实很多事情发生以后你再去做,还不如预防。比如公安要随时统计进出人数,就是为了管理,而管理的目的就是预防。
这种场景想象的空间非常大,这也是为什么我们需要很多初创企业。NVIDIA有一个Inception Program(创始计划),就是针对众多的初创企业、新型企业。当然很多初创企业都是围绕着技术层面,但是我相信也有很多初创企业围绕着应用、围绕着商业模式。
过去我们一直觉得计算很困难。随着5G网络的发展,可能集中式“面”的管理会越来越多。
在安防领域、实际场景识别率与实验室中相差甚远,如果说技术不是问题,而且应用场景也非常明确,那么为什么实际效果是这样的?它的关键问题出在哪儿?
(其他嘉宾回答:首先一点,我觉得这可能更多是技术层面,其实之前有很多其他客户问过类似的问题,但实际上跟我们非常紧密的合作伙伴像海康、大华并没有造成这样的问题,识别率会明显的下降。本身深度学习就是基于海量数据库,数据越多,识别率或者准确率是会稳定上升的。我怀疑可能您的50%来自传统模式,这也是为什么传统模式在遇到数据量大的问题时,准确率会下降。这是之前碰到的情况。第二点,现场安装的问题,比如说刚才潘总讲到的应用还有场景是紧密结合在一起的,为什么这么说?比如说我的场景是零售,聚焦室内,人的头像也比较大,但是如果用在地铁口,可能是多人,两边的计算力其实本身就不一样。各家厂商做优化的时候,比如放到车站口或者地铁口,是为了应付多人,但是如果把这个优化直接放到商店里,肯定性能会稍微弱一些,所以说您可以看到,各家厂商现在在做一个叫定制化的服务。他们在各种各样的云端和终端设备上都在部署自己的算法,其实里面的算法会稍微有些差别,也是根据具体场景的不同做了一些训练。)
NVIDIA相对其他同行有哪些技术壁垒?
潘迪:我觉得GPU本身就很独特,对整个计算是一个翻天覆地的变化。四万五千个图像每秒,大概要用160个CPU的server,大概要65千瓦,4个柜子。但是现在用GPU这种方式的话,就一个NVIDIA HGX架构的8个volta,3千瓦,一个箱子。在GPU的基础上,我们又做了深度学习、优化各方面的工作。如果你去做DGX-1这个服务器,里面还有很多的框架,我们针对这些框架又做了很多的优化,比如NVIDIA Caffe的性能比一般的Caffe的性能还要高。
一个是本身这个架构, GPU计算,再加上软件,再加上TensorRT3.0,所以我们在这方面的优势是很明显的。
针对初创企业NVIDIA提供的服务会有什么特点?
潘迪:首先第一点,对初创企业我们自己的系统会有一个优惠的条件给他们,比如资金支持。另一方面,我们有自己的社区,社区是最重要的,互相学习。第三点,我们有系统架构师、销售人员、编程人员等等。
初创企业会不会因为价格因素而选择使用其他方式,比如FPGA?
潘迪:我们相信他们会做一个正确的判断。GPU的基础是CUDA,有三个特点,我们叫“3P”:power,节能;performance,性能;programability,可编程。我相信NVIDIA的价值非常明显。雷锋网雷锋网