雷锋网按:今年的墨尔本IJCAI 2017上, 一众中国公司参会并出现在其白金赞助商名单上,其中的小i机器人是8家赞助商名单中比较特别的一家,或许它的AI造势不如BAT们来得那么声势浩大,但它的聊天机器人在垂直领域的深耕或许你早有耳闻,通信、金融、电子政务、电子商务、智能硬件这些在同行眼中比较难啃的传统领域和新兴领域它们都一一涉足,竞争对手形态则从单纯的聊天机器人,客服机器人上升到深度语义平台,云服务平台等。如此,在单个领域,百度DuerOS、腾讯小微、思必驰、三角兽这样级别的公司都可以算作它的“对手”,但小i机器人跟大家“交锋”的时候方向跟对手各有细微侧重,多个领域合力的结果,就是小i 聊天机器人在智能客服等领域“市场份额越来越大”,“各个垂直领域语言知识库和业务知识库也愈来愈丰富”,俨然一匹不可忽视的实力黑马。
究其原因,其一是聊天机器人背后的语义识别的技术难度本来就大;其二是聊天机器人应用的具体细分领域,各自领域的行业壁垒并不低,没有一定的行业积累和时间投入,对手很难在短时间内追上。但是聊天机器人接下来要在学术会议中具体要学习到什么?实际应用场景中受技术影响的因素有多大?具体应用时要注意些什么?在聊天机器人进入深耕应用场景的时候, 又怎么通过学术会议更上一层楼?就此雷锋网在IJCAI上特意访问了小i机器人CEO朱频频。
中文自然语言处理在上个世纪年代已相对成熟,我们做的主要工作是在以前的NLP的基础上把它工程化,以及解决在行业,领域实践中的数据问题,去做一些整合工作,再不断地迭代,形成自己在数据层面、引擎层面的壁垒。
我们来学术会议,会重点关注是不是有一些比较颠覆性的技术,可能会重新定义或改变以前的图像识别,声音处理,自然语言处理的方法。虽然目前DL已经极大地改变了图像识别的方法,但在自然语言处理方面还不是那么的明显,在学术上也有很多探索,但在实际应用中还没有收到一个比较好的反馈,IJCAI作为世界顶尖的学术会议,里面有许多不错的学生,最新的一些技术,以及跟世界最前沿的一些研究的对接。还有一点,最近国内发布的一些人工智能报告说的挺客观的一个事实,其提到国内的人工智能并不落后,甚至在某些应用层面属于领先,不过在原创和相对基础的技术上,中国相对比较落后,这是我们要去 关注最前沿会议的一个关键原因。
总的来说,我们参加学术会议的标准可以归纳为3点:向工业化靠近;跟语言语义比较相关的;相关会议中的国际顶会。
学术工作很多时候会关注在非常细的一些点,比如某个算法上可能会提升多少个百分点,这在工业应用上并非最关键的部分,最关键的部分其实是看这个算法的综合效果,对数据的要求,或者基于数据的工作对整个系统的提升。
我自己听了一个关于对文章标题的辨识(相符,有歧义,不符合)的相关论文报告,这个论文主要讲通过机器学习,把提取关系的方法转化成语义排序的方法,但这就是一种新的方法,效果好不好后面有待验证。据我的了解,当它采用人工标注的方式去对主流门户网站的媒体文章标题进行符合度辨识时,论文的调查结果很有意思。其中发现新浪搜狐文章标题的百分比显示正常,今日头条文章标题的misleading(不符合)的比例则达到了30%,我自己对此的理解就是,这个地方是个标题党。另外还联想到一个点就是知识图谱,目前它的初始关系图大都是人帮建的,然后要去做好本体,以及各个内在关系在语义上的描述,但我想目前这块除了人工标注的方法,有没有自动的方法?
接着说上面关于对文章标题党的辨识论文的实际价值,同样的工作,还有互联网上非结构化的数据去寻找这样的关系,我们更看重其可能可应用于帮助我们去发现和搜集规则,上面论文提到的排序法可能会出现一些噪音,不过通过这些噪音分析会不会反而会通向真正的解决办法?答案当然是智者见智,主要看人怎么去参与,根据我们的实际经验,最好的系统常常是用户边使用边升级,所以可以尝试用在数据挖掘中而非生产系统中,这是我暂时能想到的。
目前有复旦,华东师范,中科院软件所,中科院计算所,中科大(这个跟很多公司在合作)。另外我们在贵阳成立一个子公司,帮助他们建立大数据的人工智能平台。今年联合复旦实验室投了论文,但没做重点宣传,换句话说,今年我们公司重心在做产业化,如果要定一个目标的话,希望税后收入希望达到2亿,去年是9000万。
我认为主要有三点:
赞助位置比较靠前(排在中国8家赞助商中的第二),呵呵。
中国军团抱团来参加(一定程度上说明中国的人工智能正处在全球领先的位置)。
在参展的8家中国公司中,我们体量不算大,但我们是一家纯粹的人工智能公司,我们所有的收入都来自人工智能,并不是让人工智能助力它原本的其它业务,人工智能对于他们来说或许只是一种工具或手段,但对我们来说是全部,这在国内并不常见,可能科大讯飞是属于这一类的。
人工智能技术是一系列技术,其它技术都呈现出这样的状态,门槛降低,现在大家不在乎你能不能做,而是能不能发挥价值,在一些细分应用场景,各自的创业公司都在涉足,比如用在电话里的call understanding跟用在手机里的语音转写是两回事,远场唤醒和语音降噪又是一回事。但我们现在更看重其要产生商业价值。
根据我们的观察,basic AI很多公司都能提供,但能做得好的并不多,包括2012, 2013年我们跟讯飞有很多竞争,现在没啥竞争了,因为各自有各自的产业方向,现在正确的说法应该是稍微交叉。另外,想做这个方向的公司不少,但现在能形成气候的公司不多,在产业里能形成威胁的不多,不少人在走我们之前走过的路,很多初创公司在语义层面去做。
另外,有时候我们发现,目前95%的语义识别公司都在做2B业务,但语义识别里面能够落地的目前就只有智能客户等这些相对成熟的场景,一些初创公司一开始可以靠有趣的技术拿到天使投资,但要往A轮B轮靠的话,它就只能找到落地的商业模式了,这时候就需要找典型的客户代表,所以我们会碰到一些创业公司以非常低的价格在跟客户谈,因为他们现阶段急需案例和客户。
嗯,我印象中比较深刻的几个节点:
06年开始做智能客服2B的尝试。
09年全面转到2B的方式(当然到现在还没到爆发阶段)。
11年下半年中国运营商开始采用智能客服机器人(当时运营商开始增长之前,我们正好已经形成了我们产品化的套路,iBot 6.0已经成型了)。
11年10月份,苹果Siri的发布,很大程度上把语音语义能力呈献给消费者和人工智能从业者的眼中。
13年上半年,我们给招商银行做了微信上客服机器人,这个之后影响非常大,其它银行纷纷把微信的客服当作一种标配。
根据我们的实际经验,这两类新的技术更多起作用的地方,是在数据挖掘,以及整个学习体系方面能起到不错的效果,实际应用中的作用比预期要差很多。如果一定要说冲击,很多AI创业者一开始的时候,会讲其系统是用DL(深度学习)做的,用了最新的什么算法,以此来助力PR。
之前我们分析过国内所有做Customer Service的系统,大家的确都用了一些深度学习的技术,但在其中占的比例非常之小,但感觉大部分是用来做幌子做包装的成分更大,在自然语音领域使用DL的有效度远比在CV和云服务中用的要少。通常做自然语言理解方向又分为两类:
一类是百度那种面对巨大data开放的;
一类是用在data储备没有那么大的商业领域。前者可能深度语音识别的用处比较大(机器学习从非结构化的数据中提取结构化的数据,再进行一定的人工智能判断,开放型的这类平台可能更倾向于从庞大的数据里挖掘出来潜在的某种关系,譬如知识图谱关系的自动搜取就很有潜力)。
但就我们智能语音客服里边用处比较小,2B业务更强调业务上的逻辑,比如多轮对话,动态交互,我们更看重做一些scam架构提前预知,帮到用户使用的时候快速把场景建立起来,这个过程有一些商业价值。目前一些创业公司做这个做得还不错,通过把一些big data的分析,把机器学习和某些算法把一些常见的场景定义清楚,再变成一个图形化的操作界面,使得用户觉得非常方便,这样用户就不用关心底层技术,只要知道我已经预知了某些模型,模型只要定义一些具体的参数,导进来一些数据,结果就会自动出来。
总的来说,我们需要预知商业客户的常见需求,建立模型,然后方便它不断激烈商业逻辑上的数据。案例见多了,预测和洞察能力就会建立起来。
我们今年的主要目标是深度语义,之前我们做智能客服的时候没人做,现在这个已变成一种刚需,使用比较久的客户,它会关注解决一系更深入的需求;
中小客户和刚刚创业的客户更关注FAQ的搜索。
基于这样的大前提,也是为了兼顾我们的产品定位,我们分成了basic AI和deep AI,主要通过云服务和标准版服务往外输出,(在有标注的前提下,能让用户快速上手;deep AI很多能力是小i独家的能力,知识图谱的推理不少研究机构就有,我们的方法更容易获得有效的扩展,多意图的理解,我们找到了一种非常有效的方法来解决这一类问题)。
举个例子,比如“上海的天气怎么样,上海的特产是什么?”——“上海的天气”是个问题,“上海的特产”是个问题,但你不可能求做个新问题就是“上海的天气和特产是什么”,其实你在背后做组合,两个问题组合成一个问题,这种情况下背后在做很多推理工作。深度神经网络很大的一个问题是,它本身对于自然语义是不理解的,它只是基于一定特征的基础上做一个映射,一旦情况有些变化,它需要对整个句子进行学习和构建。所以现在大家常用的方法,是如何用DL对针对比较大的数据,结合以前的先验知识,共建一个效果最好的方法。譬如我们对话引擎中会用到一个主引擎,一个副引擎,副引擎在特殊情况下启动的。
另设计一个好的DL架构也不容易,好比AlpaGo做的围棋系统,FB也在做,但前者一开始的架构设计比较好,包括它自己几千万盘的自我对弈,之前人类棋局中都没出现过。
小i的中文深度语义开放平台能够应用于智能客服、智能知识库、智能IVR、实体机器人、智能硬件等多种场景。我想问基于一个平台,应用于多个场景,这其中技术上,不变的地方是哪部分?要变的地方是哪部分?
如果你去做一套独立系统的话,这件事情相对简单, 但我们需要把AI的技术提供给我们客户,不同客户系统的版本都不一样,这会对体系的架构扩展要求非常高,这样我们会把我们的体系分成几个不同的模块,每个模块之间用比较松散耦合的模块在组合。不同领域的客户,哪些是共通的,总结一下就是:
底层的,引擎的,逻辑,处理能力是共通的。
各个领域的语义库,知识库,上层应用是不同的,前面的交互渠道是不同的,开发的时候要把一些共通的部分预知到里面去,并对一些基础的API提供二次开发的空间。
其中的语义和知识库是最不同的,不同领域的语义其词类不同,句子的平行语料不同,词和词之间训练的权重模型也不一样,不同领域的词类不一样。以银行为例,不同的银行客户,银行语料库是可以共用的,但知识库不一样,70%,80%层面问题是相同的,答案很不一样,业务逻辑中,有的需要跟云和图像结合起来,这些地方挑战较大。还有一些客户会要求这套系统部署到自己的私有云服务器里去,要多解决很多问题,要适配不同的系统,中间层面的软件,不同的数据库,甚至不同的网络安全策略。
通常我们的应对办法就是,系统部署都要做好适应二次开发的心理准备(用户界面,动态数据,第三方登录用户权限),对接多了后就会把这些定义成几个基础的接口。更重要的是知识层面的,分清哪几个类别,原始素材的地方和形式(FAQ还是文档,在线人工智能客服的形式),开始做之后有个测试的过程,80% ok后再上线,上线之后还有个运营的过程,从自身网站怎么学习,从第三方网站来的怎么去学习。
小结:
常年在学产两界“跑场”的人都知道, 一般学术界做的东西会比产业界发现它提前3-5年,然后学术界比较成功的demo可能两年后就能在产业界出现了,慢一点的5年也有可能。自2015年人工智能恢复火热以来,中国产业界公司出现在各种国际顶会已经成为学术会议的一道特殊风景,它们不仅关心学术界的前沿研究,还从资金、数据和计算力上实打实地支持学术界的研究,虽然投入巨大,学术到产业之间的转化周期也不算短暂,但各家公司都在研究和研发之间寻找合理的平衡,寻找学术学术投入和产业价值之间合理的转化百分比。
虽然不能短时间内立竿见影,但大家对于学术的投入还是很热衷,在学术方面的积累对于技术方面的壁垒建立,以及给予技术壁垒后续更多的想象空间,还是有长远意义的一件事,新加入的AI公司在践行,早就深耕应用场景的小i机器人在践行,不过后者以过来人的姿态参与,显得更有借鉴意义一些。
雷锋网注:图为朱频频在IJCAI Industry Day上受邀做《聊天机器人的产业应用实践》的报告瞬间。