近来跑出去参加了两次会议,很有意思的是两次会上都有关于人工智能的话题,前者是余凯等的一个论坛后者则是微软研究院洪小文做了关于小冰的演讲。C+峰会的走廊上还有一个接入了图灵系统的NAO机器人,可惜的是我去捅它的时候,它正充电,完全不搭理我。但各种文章、书籍、对话和演讲听下来,看下来我发现还很少人对人工智能整体做过归纳,这篇文章正是这样一种尝试。尝试把各种五花八门的产品和技术梳理出一点脉络。
在1946年,美国福特公司的机械工程师D.S.哈德就提出了“自动化”一词,此后各种提高自动化程度的技术层出不穷。但就和传统软件一样,过去的自动化更多的是处理能清楚定义边界的工作的自动化,对于边界不清晰,环境特别复杂的情形则有点力不从心。
拿扫地机器人来做例子最容易说清这两类情形:
如果就限定是很大的、固定是长方形的、没什么障碍物的屋子的清扫,那就很容易设计一种扫地机器人来完成确定的清扫方案,但这在居家的扫地机器人身上就行不通,因为不同人的屋子总是会有差别,这意味着这种居家扫地机器人必须处理预先没被定义的各种情形。这是条红线,没有人工智能的发展,自动化的程度就会限定在这条红线下面。
这反过来也就意味着,如果人工智能可以赋给机器更多的智力,那原本那些自动化方案没法搞定的领域,现在也可以开始自动化了。这种领域很多,散布在种种不同的行业中,如果按照潜在的影响力来做大致的排行的话,那么是:
一、自动驾驶
自动驾驶所能带来的变化肯定会大于电动这种单纯的能源变换所带来的变化,因为一旦自动驾驶真的实现,车在人们心目中的意义很可能会发生巨大变化并使车上的共享经济真的得以实现。想象下在庞大且复杂的调度算法的支持下,每个人的出行需要都可以按需满足,那人们为什么需要一辆自己的车。
自动驾驶的发展有两种路线:一种是Google式的,特点是一下子实现终极目标,中间没有过渡;一种则是以各大车厂为代表的渐进式自动驾驶实现路线。
要想判断那种更容易先成功那么需要考虑到由现有状态到自动驾驶的更迭不只是车的更迭,而是整个系统的更迭。所谓整个系统的更迭至少有两方面的含义:
一个是自动驾驶所需要的支撑系统必须是完整实现的。
一般来讲加油/充电、事故维修、保养是汽车运转必须的几项支撑。但这点对自动驾驶路线影响并不大,两条路线应该都是可以嵌入到现有系统里来。
另一点则是车所需要面对的环境是一体的,逐个场景来实现自动驾驶理论上似乎是个误区,因为现实里很难清晰划定场景的边界。
我们可以讲突然蹿出人这种场景在高速路上就绝对不会出现,不需要处理,在一般街道上就需要处理吗?而要想彻底解决自动驾驶里的问题,其根本并不在车本身,而在于数据(道路的数据、雷达等感知到的数据等)以及数据的处理。所以从这个角度看,车本身是已经被征服的技术点,Google这样的公司去搞车虽然难,但有旧例可循,但与此相比车厂去处理数据则更难。
这两种路径看着是后一种更稳妥,但实际上很可能是Google那种路线最终会胜出。因为从场景的角度看要么你完全搞定了自动驾驶,要么没搞定,似乎没有给中间状态留太多的空间。
现在的估计是自动驾驶会在5~10年内变成一种大众化的技术,其中5年估的就是那种渐进式的路线,如果按照上述逻辑进行修正,那么这事离我们大概还有10年远。
二、服务机器人
服务机器人里面最典型的就是扫地机器人,其它如酒店服务机器人、安保机器人等也都可以划入这个类别。也许还会涌现出其它产品,但这些产品本质差不多,所要依赖的基础技术会有共通的地方,主要是需要强化的点会不太一样。
这种机器人通常需要知道自己的位置,并对环境(公路、家里、酒店、园区等)进行感知,再接下来根据感知到的东西采取行动。
如果需要交互那么还需自然语言处理(NLP)做支持。这里面实时知道自己的位置、对现实进行感知并行动是重度依赖于人工智能的点,没人工智能上的突破这几项不太可能做好。终极状态就是四处能跑的和真人一样的机器人,但现在限于技术水平,只可能在特定环境下进行优化。没地图走路这点其实比较难,经常提到的SLAM(即时定位与地图构建)指的就是这个,据说地球上能这个上搞出像样结果的人一共也没几个。
服务机器人因为是限定场景,所以虽然有难度但离我们其实不远,现实里已经部分的走到我们生活里来了,比如iRobot的扫地机器人。
上述的自动驾驶汽车和服务机器人本质上都可以看成是对自动化的延续,但加入了感知、机器学习等来面对复杂不可以预先预知的环境(想象下现在在火星上跑的那车)。这里面比较滥竽充数的是工厂里的机械手,这类产品大多时候也还只是原本定义的自动化,只不过从形态上很容易被归到机器人这一类别下面。实际上它们并没有太多机器人的内涵。Baxter等公司也在尝试做出能学习的用于生产制造的机器人,但这个也还处在在路上的状态。
同属于于人工智能但又与上面所说的自动化升级差异非常大的领域,是数据的分析和挖掘。
我们这个世界的数据化程度必然因为互联网、智能硬件的发展而逐步加深,这就会导致海量的数据产生,而传统的方法是不足以应付这么大的数据量的,因此就有大数据相关的各个领域出来,但之前常提到的各种大数据技术比如Hadoop、Spark更像是大数据的处理的基础设施,在基础设施完备之后就需要有一定方法来从这些数据中挖掘出价值。人是不可能玩成这工作的,必须某种机器智能来做才行,因为大数据的价值密度一定会非常稀疏,人是不可能直接利用这些数据的。其实这也道出了现在所谓人工智能的一种主流驱动方式--数据驱动。
这个方向上在可见范围两个典型的应用是IBM的沃森和Palantir:
一、沃森
沃森的标志性事件是在美国的一档知名问答节目里击败人类选手,获得冠军和100万奖金。这实在是科技界最厉害的公关事件,通过一次比赛把自己记进了人工智能的发展史,只要还有人在提人工智能那就绕不开沃森。
如果抛开商业这一面不论我们可以发现沃森与上面所说的自动化升级有着非常大的差异。沃森背后倒没联网,但需要有15T的数据做支撑,它不太需要感知环境,但需要对语音语义有较好的理解,否则没法抢答并回答问题。
二、行业应用
行业应用就更现实一点,体现的是人+人工智能的优势。金融公司总是要从海量数据中分析出那种行为更像是金融欺诈,广告公司要分析转化率,电商公司则要根据用户行为分析如何提升销售额等。这类工作的基本模式正如上面所说一般是有一大堆数据需要处理,数据分析师需要从这堆数据里提炼些东西出来。这时候把数据完全交给算法是很困难的,因为现在的人工智能算法不太可能理解很复杂的目的性,于是就需要人与人工智能的结合,人设定方向,利用某种机器智能的算法来获得结果,和目标进行匹配。有可能没法一次到位,于是这一过程可能需要迭代多次,才能达到最终目的。
上面这类人工智能系统的两个核心部分,是海量数据的分析能力以及一个与人交互的接口。
与人交互的接口因为不同场景会有变化,沃森那类系统需要的接口比较高级,因为需要面对完全没有人工智能知识的人员,行业应用的接口则需要比较低级,甚至需要暴漏底层算法来给数据分析师做选择。这种系统更可能在专业领域展开,比如律师对过往案例的查询、医生对X光片的分析,一旦这种系统在在一般用户级别的展开,那体现形式就是Siri、小娜。
上述两者的大综合再加上拟人情感的部分才可能是斯皮尔伯格电影里演绎的那种人工智能,这种人工智能从自动化方向继承的是感知、学习和反应,从大数据继承的是海量数据处理,额外再加上良好的人机交互、对人类情感上的理解,最终就会形成一种伙伴型的机器人,这会是非常综合的一种产品。有意思的是正因为这种综合你不太好定位它到底适合干什么,不适合干什么。从功能上看这会是人类完整的复制品,你能干的它都能干,包括写作、照看他人、帮你收拾屋子等等。
现实里人们一边隐约感受到这方向的价值,一边又不确切的知道具体可以用这东西来干什么,所以很多人都是在摸索前行,但技术的不成熟和刚需的不明朗确实注定了这个方向上的产品命运必然坎坷,比如JIBO、Pepper、Rokid。
Pepper一发布我就感觉路数不对,专门发了条微博调侃:
近来又看到有人报道老孙头带头推的Pepper,这东西暂时肯定没戏应该是明显的,为啥会做这个呢,不理解。
时隔半年之后,我专门到Youtube上看了下产品的现场感受以及评论,结果发现反馈里恶评如潮,现场的人们更多的是在感叹:難しい。这词咋一看是困难,但在那个语境里翻译成“差点意思”更合适。视频下方的评论中有一条最有意思:这产品充分的说明了孙正义和乔布斯的差距啊。
这篇文章写了人工智能的各种落地方向,没覆盖的是虚拟现实。虚拟现实的演化方向与上述所说的完全不同,会更倾向于建立一个像黑客帝国电影里描述的那种虚拟空间,但要想非常真实的创建那样一个世界,只是蒙住眼睛显然是不够的,在虚拟世界的完善过程中一样会用到人工智能的技术,大致如此。