【大咖Live】声智专场,声智科技合伙人、副总裁李智勇先生带来了关于“假如人类要打造终极的矩阵,那么一共需要几步”的主题分享,引领我们思考未来AIoT到底会带来什么,分享智能语音交互在终极矩阵中所扮演的角色。目前,本期分享音频及全文实录已上线,「AI投研邦」会员可进「AI投研邦」页面免费查看。
本文对本次分享进行要点总结及PPT整理,以帮助大家提前清晰地了解本场分享重点。
打造终极矩阵三步曲
AIoT到底会带来什么
计算方式的个性化脉络
以下为声智科技合伙人、副总裁李智勇的实录摘取,【AI投研邦】在不改变原意的基础上做了整理和精编。
打造终极矩阵三步曲
各位同学晚上好,今天带大家一起把眼光抬高几寸,稍微看看未来。所以我们的题目叫假如人类打造终极的矩阵,那么一共需要几步?最近几年经常提到的一个词是人工智能,但很多人可能没有注意到,人工智能其实有两种完全不一样的具体表现形式,一种可以用电影黑客帝国来表示。黑客帝国里边有一个真正的终极的矩阵,电影名字就叫矩阵,矩阵里面有很多外边跑的章鱼,那些章鱼本身并不是一个独立的个体,所有的这些章鱼都要连接到矩阵,在矩阵的指挥下行动,这是一种表现形式。
还有一种表现形式是什么呢?就是大白。超能陆战队里的大白本身不需要连接到什么其他的网络里边,自己也能够进行独立的行动,并且有自己的观念,把大白和黑客帝国里的章鱼放在一起,你就会发现这是两个完全不一样的人工智能。但是我们现在的世界正在往哪个方向发展,很多人当然很喜欢大白了,但现实很残酷,其实我们正在往矩阵的方向发展。我们每个人都使用微信,微信是怎么样的一个形态呢?比如说有10亿用户都连到微信的服务器,然后在微信的终端上做各种操作,所有这些东西都要经过最终微信的服务器才能产生最终的作用。
电商网站,其他社交网站本质上都是这样的一个类别。如果跳出来看一看,这和很多的章鱼连在矩阵上面,其实本质上并没有什么差别,只是程度的不一样。假如说我们真的最终会有一个像黑客帝国里面所描述的矩阵那样的一个无所不知、无所不能的超级智能一共需要几步?这就是我们今天的话题。第一步需要什么?其实是需要一种持续的反馈,从技术到商业到体验,并且能获得商业成功的这样一种反馈。为什么需要这样?因为像矩阵这样东西来到世界上,一定需要很多人很长时间持续的努力,如果没有一种商业上的正向反馈,这种投入就会在某个点上停止掉。
我们很庆幸当前第一次的正向循环已经启动了。是指什么?我们当前所谓的互联网本身做的就是这个事情,最开始从pc互联网到移动互联网,其实每一步都可以看成我们数据化的程度进一步加深的一个过程。在之前的PC互联网的时候,我们数据化的东西其实是一些日常的消费信息搜索的信息,接着到移动互联网的时候,整个我们每个人包括你的位置,你每次消费所有这些东西都被数据化掉了。而在这个数据化过程中做得最好的公司,通常也就是现在世界上最成功的公司。
在我们这个时间点,世界上市值最大的公司已经不再是像沃尔玛通用汽车这些公司,而全部都是和这些数据连接相关的公司,包括我们常说的谷歌亚马逊等等。这正好就是一个从技术到产品到商业的一个一次反馈。接下来整个数据化的程度本身,以及对这数据化相应的控制的程度,最终就会决定一个公司它的成败。整个过程花了从2000年开始算,到现在是差不多20年,相当于第一步的事情已经做完了。现在我们这个时间点正在发生什么,我们正在把整个世界的数据化程度进一步向下推进。
这就是上面所说的叫彻底的数据化,不彻底的智能。这是什么意思呢?我们还是可以把这件事情放回到时间轴上。在pc互联网的时候,我们的位置信息,包括我们很多的支付信息本身并没有真的都体现在互联网上,但在移动互联网的时候,我们的位置,我们的出行记录,这些完全的数据化了,还有哪些东西没有数据化?
接下来我们再看一下所谓人工智能的时候典型的一些产品,就能深刻的理解,究竟现在还有什么东西还没有数据化,人工智能里有一个比较典型的产品,就是我们经常提的AR眼镜。AR眼镜会根据现场扫描的各种信息实时建模,接下来把真实场景下以及一些虚拟的东西相结合。所谓真实场景就包含我们房间的大小,包括我们每走一步所看到的位置,这些东西在原来移动互联网的时候本身是没有数据化的。通过各种新型的传感器感知周围的环境,包含我们人所身处的位置,我们周围的噪音,这些要进一步对它进行感知,接下来产生新的行为,这是当前所说的人工智能很根本的一个特征。智能音箱,AR眼镜,自动驾驶等等都符合这个基本模式,这会导致一个非常明显的后果,我们每时每刻所处的环境,我们身处的位置,我们看到了什么?所有这些都会被进一步的数据化。这个时候核心的问题是什么呢?其实正好就是当前人工智能的瓶颈。随着传感器精度的提高,我们周围所能感知的信息进一步提高,但是我们本身处理这些数据的算法,或者是我们经常说的人工智能的这部分,整个它的水平是不够的。
总结来说这叫什么?这就叫彻底的数据化,不彻底的智能。这体现在什么上面?可以举个例子。最典型的就是我们每个人都用的智能音箱,我们每个人都会觉得他不太智能。这种智能有待于比如新的自然语言处理的算法进一步提高,但是不管传感器的精度获得多大的提高,但后端的算法没有进一步的提高的话,我们是不能够完整地利用所有的数据的,因为利用这些数据的过程本身需要人的介入,人的这种介入反过来就会导致两个不太好的后果,第一个后果相当于是对数据的使用是不充分的。第二个后果显然实时性就不会很好。
到这个时间点我们可以往下再想一想,想象什么呢?包括我们自己的所有行为,我们周围的环境,所有这些都已经数据化了。我们任何想看到的事情,我们都可以在整个数字空间里看到,假设说已经达成了这样的一个临界点。这个时候如果出现我们经常说的通用智能会发生什么?相当于彻底的数据化加通用智能。这个时候就经常出现很多书里讲的说,通用智能很可能在极短的时间内就把所有的我们累积下来的知识消化掉,它也可以实时的感知整个世界任何一个角落里的信息。
这样的话大家会不会感觉和黑客帝国里描述的矩阵就很像了?这里面很有意思的事情是,也许有的人不喜欢这样的一种结果。但事实上当第一个从技术到产品到商业成功这个闭环形成之后,整个发展就踏上了它应该有的这条脉络。现在你很难让一个公司说你不要加深数据化,不要发展人工智能,因为这会影响他们的商业成功。也就是说不管喜欢不喜欢,前面所讲的三步,本身都是注定会发生的事实。
我再做个简单的总结。第一步相当于是说需要从技术到商业的成功。这种成功本质上会吸引无数的资金和人才投入到把这个闭环进一步强化的过程里来。有了第一步,第二步就是一种必然。所以说现在成功的互联网公司都极度关注人工智能,也会逐渐打造新的这种终端设备,包括微软打造的Hololens,亚马逊打造的Alexa,谷歌积极推动的自动驾驶,这第二步就会导致世界的彻底数据化,而最终他的控制点其实是在数据空间之中,这个过程不可停止,停止的人就会在竞争中抛弃。
所有这些都为最终终极矩阵的出现准备了充分的条件,只需要算法的一个火花。算法上的火花就是指相对通用智能的出现。我们其实不能真的在时间轴上很精确的描述什么时候会到达步骤三,但其实我们可以知道现在我们究竟在哪个节点上。我们的节点就是通过20年的努力让初步数据化完成,但数据化本身并不彻底,所以现在出现了新的AIoT。
AIoT到底会带来什么
AloT会带来什么?又是什么?首先我们现在说的AloT本身起源于这样四个基本点上的变化。
第一个是各种传感器的微型化以及精度进一步提高,其次就是我们连接速度的进一步提升。我们经常说的5G以及后端GPU提升之后,整个计算能力的提升,人工智能提供了相应的是数据处理方法的提升。AloT最终由这四个关键词点所组成,它会带来什么?它会带来的事情是这样也很简单,就相当于我们所有原本一些哑的设备最终都会联网,都会产生数据,很大一部分还会加上新的这种交互方式。这里所说哑的设备就包含我们经常会用的空调、冰箱、电灯、开关、门锁等等。
AloT和手机有本质的不一样,手机是一个品类占有极大的销量。但AloT的品类高度分散。我们再拿一个具体的例子来看一看,AloT本身这个事会怎么样改变我们的生活?因为我比较熟悉的是智能语音交互,所以我回到这个点来给大家再进一步介绍一下。AloT到底会怎么样改变我们的生活?以人机交互来讲,有一点年纪的人可能都还记得最早期我们都是用命令行的,然后我们就有Windows为代表的图形用户界面,到现在就很神奇。
而AloT这个时候就变成了比如说智能音箱,我们可以通过直接跟它对话来控制它的行为。在不同的时代里不一样的不单是我们看到的这种形式,比如说一个是要敲键盘,一个要用鼠标,一个要用触屏,个性化路线差别也非常大。在DOS或者Windows那个年代,其实本身是不太支持什么个性化的,只是说你可以通过自己的账户对UI进行一些设定,不同的人用的word其实差别不大。在移动互联网的时候便不一样了,最典型的应用就是我们经常用的头条。
这个时候相当于是说每个人都自己丰富的标签,每个人看到的东西是不一样的。但这个时候的个性化其实是以APP为单位的,很难跨越APP的边界。AloT有一个很神奇的特性和原来的APP非常不一样。智能语音交互中的各种应用,比如放歌或控制电器,但这些应用本身是没有边界的,所以相当于全系统可以针对某个人进行彻底的优化。极端来讲会是什么样子?现在的智能音箱本质上只是完成了第一步,你让它干什么它能把这事给你干了,你让它放歌,它能够精准地把你想要放的歌放出来,你就会很高兴了。
但这本身并不是真的特别智能的一种交互,更像一种高级的搜索,所以真的智能交互往之后一定会变成每个人都有属于自己的数字助手。当每个人都对同一个助手说放一首歌,他放的歌应该是不一样的。比如说一个人,他在家里看了西部世界第一季第二集看到15分钟他出差了,当他出差入住酒店之后,在新的酒店的设备,比如说可能也是那时候的一个电视,他通过声纹或者人脸介入这个系统之后,他对这套系统说播放西部世界,这个时候应该是从家里看的停止点开始播放,这是一种更彻底的个性化方式。
计算方式的个性化脉络
这种时候本质上我们所使用的经常跟人相关的计算模式就发生了变化。当前我们所有的计算本质上是以手机为中心的,手机几乎是人和数字空间唯一的接口,但当AloT充分发达之后,你在家里,车里,旅店,走在路上,都不需要带一个专有的手机,便可以充分利用当时那个场景更为强大的传感器或者展示设备,但背后给你提供体验的这种交互方式的数字助理是不会变化的。这种个性化当前做的好的比如头条上的推荐,这种个性化程度还是不一样的,显然会更深化很多。
总结一下我们第一个讲了,整个为了打造终极矩阵,一共需要有几个步骤,一个需要商业闭环,导致整个社会的力量投进来,这就会进一步导致数据化程度的加深。我们会面临一个百分之百数据化的事件,这是通过传感器5G这些东西实现的。然后我们又讲了,当前我们究竟处在这三步的哪个阶段?我们当前显然处在第二个阶段,我们花了20年很多公司获得了商业上的成功,但AIoT本身是不充分的,AloT要干的事就是通过各种新的传感器,新的连接方式,新的计算能力,新的算法,让世界的数据化程度进一步提高。接下来我们又会讲了,本身就是这第二步完成或者基本完成的时候,我们的生活会什么样子。这里我们专门讲了,只要这第二步完成我们消费数据的方式,我们消费计算的模式会发生变化,会从纯粹的以手机为中心变成以场景为中心,不同场景的本身不同场景下展示或者使用获取数据的方式会变化,但背后给你提供体验的这种交互方数字助理不会变化。
比如说在家里或旅店的时候,我们可能就喜欢用大屏,这样可以获得更真切的信息,有的时候可能需要用VR设备,走路的时候可能就用耳机,在每个场景都会有专属于那个场景特别适合的显示或者传感器。但背后统一提供服务的方式是不变的。这就是我们前面所讲的事情,我们处在第二步刚刚开始,远远远没有达到说第二步测数据世界彻底数据化这个程度。但我们可以在这个基础上想象未来会发生哪些变化。额外还讲了一点点,就是整个这个过程,也许有人喜欢,有人不喜欢,但其实很可能不可重置,就是照我们现在的既有的脉络发展下去,所有前面说的虽然是下步或者下下步,几乎一定会发生。
关于声智
下边我简单介绍一下我们公司。声智科技是能够完整提供整个智能语音交互链条各个技术以及整套系统体验的公司。形象讲是这样,就是任何一种设备只要接入我们提供的服务,这种服务里边其实是打包了很多的技术,比如说我们说的唤醒、降噪、识别、NLP以及相关的内容以及交互的方式等等,只要接入这些云服务,任何一种设备都可以很快具备语音交互的能力,我们把这套系统命名为叫Azero。为了满足不同场景的需求,在这套系统之上,我们又做了很多的延展。
比如说在特定的场景有些用户可能需要一些完整的设备,这个时候我们就会把整机的产品提供给他。而在某些特定场景,比如说市场上可能还有很多存量的电视,这些电视想获得智能语音交互能力就比新产品会更难一些,这时候我们就会出一些小的芯片来支持这些设备获得语音交互的能力。我们也推出了一些模组,让更多的产品只要集成了这个模组就可以自动获得语音交互的能力。同时还有很多同学想接触智能语音交互,所以我们也推出了相应的开发板。
基于开发板可以比较迅速地体验,在上面进行定制和编程,体验远场语音交互。在远场语音交互方面,声智属于发展相对比较快的,大家耳熟能详的一些产品其实背后都用了声智的技术,右侧列的产品就包含了BAT,小米,华为的这些主力产品,我就不一一展开了。但当前最终说一点是什么?这就和前面我讲AloT所处的阶段是一样的。整个智能语音交互在国内的发展其实是比国外晚的,真正启动是回到2017年下半年。但作为一种产品来看,其实在过去并没有一种产品有像智能音箱这种增速,智能音箱是智能语音交互一个比较成功的载体。
在智能音箱之前,我们做的好多智能设备通常都把百万级看成一个巨大的门槛,但智能音箱几乎就这一年多整个销量迅速突破千万级,所以说从这上面也可以反过来理解到智能语音交互的目的,这也是我们公司本身自己想达成的目标。我们期望更多的设备,原来很多哑的设备如灯,玩具,开关等,帮助这些设备更容易的获得智能语音交互的这种能力,这也是一个会进一步高速发展的行业!最后说个数字,我们在过去整个设备上,电脑的那个时候全球销量大概是3到4个亿,接下来到手机这可能要有13到14个亿,具体数字我记不准,但整个AloT上的设备量累加起来,应该会比手机还有数量级的增长,所以几乎说这是一个无限大的空间,也会让大家进一步关注智能语音交互,也欢迎大家关注我们声智科技。谢谢大家,今天我前面的分享就结束了。
会员问答
为更深入的解决听众的困惑,「Live」在分享结束后开设问答环节,李智勇对雷锋网(公众号:雷锋网)「AI投研邦」会员部分疑问进行了解答。
Q1:语音交互产品进入千家万户后,如果防范黑客监听?
这位同学提到了一个安全问题,确实这是一个很关键的点,因为我们数据化越充分,每个人越会变成透明人,安全问题就会变得越凸显。但本身说一个很关键的是,在AloT这个时代,它的安全问题本身不太能依赖于第三方,一定依赖于提供这种服务的公司。因为这和比如说我们用Windows或者用手机还不太一样,这是一种端到端打通的系统。也就是说你终端上已经开始使用某个公司的服务了,这个公司的服务会进一步比如和他的云端相连接,这个时候提供服务的公司就更加关键,这就好比说你真的接到黑客帝国的矩阵里边,这个时候本身安全事实上就转移到矩阵去了。用微信其实有同样的问题,当你使用微信的时候,你的聊天记录,你的交易整个过程事实上就转移到开发微信这个公司去了。
Q2:距离实现彻底的智能化还有多远的距离,可以在时间上进行评估吗?
离彻底的智能化这个事情其实有很大的偶然因素的。我们面对的问题其实是两类,一类是相当于只要把体验做好,没有真的技术瓶颈,只要把体验做好,只要商业模式成立,它就会迅速铺开,这类问题我们是大概能估时间的。比如说现在你要问我什么时候能彻底数据化,我觉得这个问题还是能估一下,比如说可能他也许也许比如说再搞三年五年或者十年,我们的数据化程度一定会比较彻底。
我们很难估计的事情是真正什么时候能彻底的智能化,因为现在的技术水平达不到,这有非常大的偶然因素。这个时候真的依赖一些天才,他们需要把现有的技术往前再推一步,才有可能实现所谓的彻底的智能化。但经常大家讲的一点是什么?如果说真的打造出这类的智能,进化的速度很可能就很快。也许做出来了,比如说需要30年50年或者什么时候,但他真正进化成一种进化成一种超级智能,很可能就要几分钟。前面再说一下,我们可以回过头来看看,其实从互联网真正开始走上正轨到现在大概花了不到20年,已经把我们生活改变成这个样了,如果拿20年一个周期来看,以数据化的角度看,20年后一定会有一个更加翻天覆地的变化的。
Q3:请问未来智能语音设备与手机之间的关系会变成怎样的,您觉得会取代手机吗?手机会不会作为智能设备的个人中枢存在?
这就是刚才说的那个问题,如果说AloT充分发展,它的计算模式会和手机有非常大的不同,手机是唯一节点,但AloT不是这样,AloT充分发展之后相当于不同场景,其实你可利用的,不管是传感器或者说显示方式都会不一样,只有在特定场景下你的体验才能最佳。这很好理解,比如说你真的用VR的时候,一定是那种场景使用这种方式才能获得最佳体验。但手机不可能覆盖所有这些场景。曾经专门有过一个概念,具体的词叫什么有点不记得了,大概是说我们可以享受无处不在的这种计算,但这种计算本身是镶嵌在具体场景里的。
更多内容和视频查看可进入「AI投研邦」查看