7月12日-7月14日,2019第四届全球人工智能与机器人峰会(CCF-GAIR 2019)于深圳正式召开。峰会由中国计算机学会(CCF)主办,雷锋网、香港中文大学(深圳)承办,深圳市人工智能与机器人研究院协办,得到了深圳市政府的大力指导,是国内人工智能和机器人学术界、工业界及投资界三大领域的顶级交流博览盛会,旨在打造国内人工智能领域极具实力的跨界交流合作平台。
7月14日下午,在「智慧城市·视觉智能」专场上,云从联合创始人温浩带来了题为《泛在智能城市下的人机协同平台》的主题分享。
温浩提出,在AI大规模落地过程中,一定要构建感知、认知、决策的智能经济的AI闭环,创业公司也必须在感知、认知、决策环节均有涉及。
而场景上,可分为边缘场景和云端场景,但边缘场景和云端要根据场景进行智能的分配。
边缘端和终端承载需要本地实时响应的推理任务,并独立完成数据收集、环境感知、人机交互以及部分决策控制。
边缘端如自动驾驶场景中,断网下进行独立的本地处理;智能安防中,要对超大数据量本地处理;移动互联网场景,要保证低功耗和数据安全;智能家居和智能制造场景,要求异构和实时响应。
云端则负责承载智能数据分析、模型训练和部分对传输带宽要求不高的推理任务。
温浩认为,目前AI还并不成熟,很多产业中的需求也很多样,AI企业发展到后期,一定要聚焦、一定要做重、一定要控制好成本、一定要深入行业。如果还靠着不断招人、发论文,也许估值会越来越高,但后期也一定会跌得越惨。
目前行业有个通病:对于学术的看重好像胜于一切。
如果AI公司能够靠着科学家团队走出来,当年微软亚研基本覆盖了中国AI圈的大半壁江山,后面的结果大家也看到了;再比如Google X部门 ,全球技术大牛云集,后面的产品做得好吗?销售了几台?
通过微软亚研和GoogleX的例子可以表明:技术不是一切,通过大批学术人才去落地产品根本行不通,技术好不代表产品好,但产品好一定要求技术好。
在今天这一节点上,包括云从在内,或许并不应该太过关心技术的领先性,也非利用技术赚取多大的利润,而是在业务线和技术体系无限扩大、无限纵深时,如何管理好N个愈加独立的行业事业部和数千人团队,是我们需要过的第一道难关。
在这一块,云从会学习华为,去打造一个IPD(Integrated Product Development)管理系统 ,华为当年也花了20亿元从IBM引进了一套类似系统。
引入IPD体系被认为是成就华为最重要的变革,它集中了若干工具、流程与方法,其核心思想包括:研发是一种投资行为、基于需求进行研发、跨部门协同、结构化流程等等。
它能够对市场迅速反应,缩短开发周期,减少报废项目,减少开发成本,提高产品的稳定性、可生产性、可维护性。
就像车企造车,每年十几款新车型,不可能做到每一款新车的每一个部件都单独研发,所以需要一个平台,去模块化组装。如此,有利于用最低的成本、用快的速度交接出质量最好的产品。
管理也可以成为产品,要帮助部门工作流程化,不断可以迭代改进,要不得的是没有总结,没有升华,总是在重新开始,最终整个部门都困在原地。
与此同时,还应该实现“人机协同”。
人机协同有几个阶段,第一是要做人机交互,首先让机器知道你是谁,这也就是为什么要先做人脸识别的原因。
第二步做人机融合,如银行的产品经理,只能设计十几种产品,但基于大数据和AI,他可以针对每个小微企业设计成百上千种AI的金融产品。
然后是人机共创,未来就可以创造一些新的场景、新的业务,新的服务、新的流程。如零售门店可以进行二次陈列,和精准引流,这就是人机共创。
以下是云从联合创始人温浩大会现场全部演讲内容,雷锋网作了不改变原意的整理及编辑:
今天看到这么多参与大会的同学、观众们,大家的热情让我挺惊讶的,这个大会办得很好,邀请了很多平时都难以见到的大咖。
前面几位大咖都是讲学术内容,我今天从产业视角跟大家分享一下云从在人工智能产业落地方面的心得,希望能给大家带来一些思考。
首先解释一下人工智能,其实中国的先贤们在这方面已经有过很多思考、总结了,2000多年前荀子已经提出来“智能”这个概念。
他说“知之在人者谓之知”,这句话的意思是说我们能够感受事物、认识事物的能力叫做知觉;“知有所合谓之智”,如果和客观规律符合,能够推而广之,把事物认知清楚,这就是智的概念。
还有一个是“能之在人者谓之能”,人生来都有很多本能,我们都知道天冷了要加衣服,渴了要喝水,“能有所合者谓之能”,如果这个能力能够高效地形成一个方法,这时候就是一个稳定的能力,这就是处理事物的能力,可以推而广之,让所有人都能学习。
所以,我们既要认识事物,也要处理事物,这是人的智能的概念。
那么,我们该如何让人工智能落地呢?
从传统经济到数字经济再到互联网+,我们有了电商、娱乐、游戏、虚拟货币,20年时间里,数字经济为我们的生活带来了非常大的改变。
人们现在叫车方便了、网上购物方便了,很多信息都可以实时、便利获得,但是做到这里够不够?明显是不够的。
这么多数据汇集在一起,我们需要做更加智能的东西。譬如,叫车方便,但车还需要人开,所以要做自动驾驶,所以今天,我们提出了智能+经济。
智能+经济通过什么来改变呢?
处理事物之前首先需要认识事物,我们的人脸、人体、语音、文字,都是可以通过感知去收集的,将这些信息提取之后,可以借助语言理解去知晓其中内涵。
之后,知识图谱可以将这些知识归纳起来,通过机器学习把模型训练出来,从而做到认知。当然,这个认知过程可以是线下的,也可以是线上的,只要有规模数据就可以运行。
最后,系统需要做决策,也就是说不仅要认识事物,还要处理事物。处理事物就要把相关信息反馈回去,比如说给商家,以提升促销;给银行,以降低风险;给汽车导航,以把人安全、快捷地送到目的地。
以上这些步骤的组合便是AI落地的闭环。所以说,AI创业公司,如果要想真正落地,感知、认知、决策三个阶段都要涉及,否则场景价值很小。
现在我们都在讲云、边、端,其实它就是整个智慧城市的基本架构。
每个城市都会有一个城市大脑,它在云端,会将数据融合、集中处理,然后进行算法训练;端上就会有各种各样的智能设备做万物感知、万物计算。
随着5G时代的到来、IoT的成熟,得益于算力的可动态分配,云边端的协同是可以期待的。
目前云从在很多场景里面都会做基于类似智能的服务。
在金融领域,我们提供VIP的识别、刷脸支付、刷脸取款、刷脸购物,这些智能服务目前都可以在银行里体验到。
再来就是银行里面对机房或者是ATM机的管控、运维,这些属于认知层面、决策层面的。
在机场,所有的安检通道都可以进行人脸比对,当用户进入候机楼之后,系统可以把相关人的登机口信息推送到他的手机上。
在学校或者是开放场景中,利用行人的轨迹分析、行人的识别技术,可以实现实时、在线追踪。
在开放道路上,可以实现车牌、车型、车标、颜色的区分,可以为公安民警精准地追踪到每一辆车的轨迹。
在自然场景下的OCR,可以对包括零售店广告、文字进行识别;除了室内,还可以做室外比较密集的场景识别、人体追踪等等。
在零售店,我们还做了一些基于AR的体验,比如说基于二维视频的3D人体建模,我们做到了200帧每秒,40多毫米的误差,达到世界第一,利用这个技术可以做虚拟试衣。
另外,还有智慧能源行业的安全管理,比如说安全帽、工作服、防火等等方面的管理。
除此之外,还包括人员的精细管理、场站周界入侵、车辆监控、异响检测、设备状态检测等等,这些都是智慧城市里各行各业都可以用得上的视觉认知和决策场景。
找到了这些场景之后,我们需要做些什么呢?
首先需要将计算做分配,每个场景里的计算要求是不一样的,比如说在自动驾驶场景下,需要断网下独立本地处理;比如说智能安防场景下,需要超大数据量本地处理;而在移动互联网方面,实时性要高、功耗要低。
所以,面对不对的场景,需要不同的算法、不同的芯片,也就是说:芯片与算法的结合肯定是未来的一个大趋势。
比如说AI安防市场,最早的摄像机只是做一些ISP、图像处理;后面升级为网络摄像机,做一些网络编解码、数字传输;今天的AI安防摄像头,需要做本地结构化,由于它一天会产生20GB的数据,这对于带宽和存储都是很大挑战,也就是说必须要做结构化提取。
上图是我们的一个800万像素的全功能AI相机,它可以做到同时检测200个以上人脸,最大支持30万人脸库。
现在来说,其实AI发展还不是太成熟,很多产业的需求是非常多样的,这时候该怎么办呢?
在未来的30年内,云从认为技术趋势应该是人机协同。
人有人的优势,人有创造力、有抽象力,我们可以从书本上学习知识、推而广之;而机器的计算力、大数据分析能力明显高于人类。
人机协同发展可以分为几个阶段,第一个是要做人机交互,首先要让机器知道你是谁,这也是为什么我们要先做人脸识别的原因。
除了它有比较成熟的算法,更关键的是它有一个视觉入口。互联网世界,每个产业都需要找到正确的入口,APP是一个入口,手机也是一个入口,而视觉技术就是AI的入口,它可以知道你是谁,后面才可以做一系列交互动作。
第二步需要做人机融合,我们现在有很多事情可以让机器和人一起去做,比如说银行的产品经理,他可以根据他的经验、能力,设计一个产品的风控,但他最多只能设计十几种产品;基于AI,可以针对每个小微企业设计成百上千种AI金融产品,这就是人机融合。
如此,便可以做得更高效、更精准、更有价值,这是在未来10年中,大家可以看到的应用,目前很多工作都可以与机器协同完成。
再来就是人机共创,AI落地之后,未来我们可以创造一些新的场景、新的业务、新的服务、新的流程,这叫人机共创。
那么,做到这三步是不是就够了呢?还需要做到“三化”:行业化、场景化、个性化。
行业化方面我们刚才举了很多例子,每个行业的需求都是不一样的,人脸识别在金融和安防里面的应用是完全不一样的。安防要求的是开放场景、快速搜索;金融要求的是百万分之一甚至千万分之一的误识率及及活体检测。
第二是要场景化,每个场景都要有具体的解决方案;第三是个性化,这是大数据时代最大的利处,每个人都可以得到精准的服务。
接下来谈多模态应用,我们做人机交互,为什么要提多模态?
举个例子,现在大热的新零售,以后肯定是个技术落地趋势。(虽然现在做稍微早了一些,目前的技术货损率比雇一个店员更高,还不如不做。)
但就技术层面来看,AI未来可以做些什么?
其实新零售可以分为人、货、场三个方面,货有一套供应链,场就是现在的电商一直在做的事,比如说把信息流提到线上去它会更高效,但线下做也有它的好处,可以在真实场景中体验产品。
还有就是资金,在线上更便捷,但是在线下更安全、可靠;还有一个就是延时,线上是有延时的,线下是没有的。
所以,我们认为AI应该围绕人去建设的,我们有很多与人相关的技术,可以将流量变成转化率,然后变成客单价,再来提高复购率。
在人的方面,我们可以做很多事情,比如做前端感应、广告推荐,它会根据用户的年龄、属性、会员,分析你可能爱好的东西,或者你上次买过什么东西,之后把信息推荐出来,后台会做一个数据建模。
再比如做游戏引流,可以在用户玩游戏的过程中,送打折劵的形式去采集数据,之后做产品推荐。
后台用户的特征建模,可以从5个维度,几十个特征去分析,我们通过双塔稀疏神经网络做深度学习,从200个广告里面提取用户感兴趣的100个广告,这100个广告在线下就可以完成,等用户到店后就可以推送10个精准广告。
回到店里的时候,当用户从进店那一刻开始,系统就开始关注你:是不是熟客、是不是VIP、是男是女,把这些信息都推送过去,广告推荐就通过神经网络做这样一些推荐,如果此前有购物信息就会更加精准。
传统的线上电商,都有一套跟踪模型,从用户浏览、点击、放到购物篮,最后生成订单、支付,它是有一套转化模型的,叫漏斗模型;而线下是没有的,线下都是靠经营主自己的脑袋,靠自己的经验去决定的,而这种方式的效率是非常不高的。
刚才我讲的银行融合是一个人机共创的例子,现在还可以做二次陈列。
我们可以通过一些购物小票去做一些引流动作:通过对购物小票的分析去重新摆设商品,计算出单坪空间的更多价值。
现在AI主流的玩法不外于B端或者C端,这些都不重要,重要的是云和端的产品和服务如何更好结合在一起,最终达到人机协同。
所以,云从现在全力打造一个人机协同平台,面向包括金融、安防、零售、电力等各个行业。目前已经有400多家银行、70%的枢纽机场、一万多路公安视频都与云从有深度合作。
今天我的分享就到这里,谢谢大家。雷锋网