雷锋网注:IBM全球杰出工程师、IBM 研究院认知系统全球研究负责人林咏华
雷锋网按:2017年可谓AI元年,全球各行各业皆在此多有投入。然而,在这火热背后,又有多少理性?甚或人云亦云?日前,IBM全球杰出工程师、IBM 研究院认知系统全球研究负责人林咏华向外谈论了她对AI领域的洞察和见解,并表达了她对“如何才能享受AI带来的红利”的看法(本文来自APICloud的投稿)。
林咏华认为,人工智能目前的火爆与其可实验性密切相关,任何一个开发者或大学生都可以借助开源社区的力量进行AI实验性的尝试。
对于那些AI技术基础比较薄弱的企业,若想享受AI带来的红利,林咏华认为,首先应解决目前的两大难题:人才和数据。AI人才由于稀缺性而越来越贵;数据则因大多数都来自互联网,与其真正应用的细分领域如医疗、教育等无直接关系,这也在某种程度上阻碍了AI的进程。因此,这些企业更应该找准AI技术在自身业务领域的定位,想好未来产品的战略,并抓好进入市场的时机。
而对于未来几年,AI将在哪些领域实现大规模应用的问题,林咏华认为,一个新的 AI 技术是否可以大规模投入市场,还应该视这个市场对该技术的差错的容忍程度高低而定。
以下是林咏华接受 “AI时代的移动技术革新”大会主办方的采访实录,雷锋网对其做了不改变原意的编辑。
如何看待当下的人工智能热潮?有多少是理性驱使,又有多少是人云亦云?
人工智能目前无论在企业还是投资界都是被火爆地追逐着。说实在话,当IBM在 2011年构建出 Watson,并首次在智力竞赛中打败最优秀的人类选手时,能预见人工智能对未来业界发展的重要性,但没有想象到这种人人谈人工智能的火爆局面。
纵观整个信息技术在过去10年的发展,无论是10年前移动通信的发展热潮,还是5年前云计算的风起云涌,都没有今天人工智能被关注的广泛性和火爆性。原因是什么呢?是今天人工智能的可实验性远远高于之前的信息科技。
这个“可实验性”是指一个开发者、一个大学生,甚至会编程的中学生都可以进行人工智能实验性的尝试。它来源于整个开源社区在代码和数据上的整体贡献, 得益于整个信息科技领域对开源文化的推动,也得益于几个大的人工智能会议对被录用文章的数据和代码的公开性要求。
在过去几年,围绕深度学习、神经网络等算法的代码以及公开数据集层出不穷。一个开发者,只需要懂 Python,就可以在一天之内构建起一个开发环境,并把开源的代码跑起来。利用开源的数据集,就可以重现别人的结果。
一个新的人工智能研究方向出现,就伴随着一些优秀的数据集公开。例如,当年李飞飞主导的 ImageNet 为今天的图象识别奠定了最大的数据集基础,今年12月 MIT IBM Watson Lab 为了推动视频中的动作识别,共同推出的百万量级的视频动作数据集。所有的这些贡献,都是为了降低大家实验的难度,推动业界更快速地解决人工智能中的难题。在这种人人都可以尝试的氛围下,既推高了大家对这个领域的关注和兴趣,必然也带来了人云亦云的火爆。
但是,这是否就代表了今天在学术界解决了的问题,相关的技术已经可以大量地使用到工业界呢?我觉得大家需要看到工业界和学术界之间的差距。之前我也看到一些人工智能领域的专家进行了许多分析,我这里就讨论两点:
第一是数据的差异。
数据是人工智能必不可少的用于训练机器的输入。而今天能在公开途径获得的数据集绝大多数都是非商业用途数据,是从互联网上积累的数据。真正用于工业场景的高价值数据是难以放到公开数据集中,也难以让千千万万研究者进行算法研究的。
IBM 研究院在医疗、汽车驾驶、生产制造等重要行业领域与相关企业进行人工智能合作研究。在这些行业和企业中,我们遇到了大量公开数据集所没有的数据分布。在面对行业生产部署的严苛要求时,我们一些已有的研究是不适用的,许多在顶级会议中号称的最佳结果也是不适用的。因此,这里需要我们脚踏实地,深入工业行业进行人工智能的研究和开发。
第二是人工智能系统本身的成本。
把人工智能用到工业界,我们需要认真审视它附加到现有产品上的成本开销。以视频监控为例,在视频监控中使用人工智能是一个很热的话题。今天,使用人脸识别、人或车辆的自动捕捉进行初步的视频分析已经开始广泛使用在城市、公共安全等领域。
其实基于计算机视觉的人工智能可以做得更多,它可以检测和识别各种物体(而不仅仅是人或车辆),检测人的各种动作等等。但基于深度学习的目标检测算法往往需要大量的GPU计算资源。基于今年最新的GPU硬件能力,一块高性能的GPU也就只能支持3~4路视频的复杂目标检测(单个模型)。平摊到每路视频,就要大约1000~2000美金的硬件成本。相比起目前4K摄像头的成本,将近是10倍的成本差异。
如果我们进一步考虑动作检测,使用光流计算或3D深度学习或者更复杂的算法,这个成本的叠加更加难以接受。所以,在人工智能向前行进时,我们需要更多的研究和创新,去解决全系统的优化问题,而绝对不能只停留在单一的功能或精准度的层面。
对于在 AI 领域技术基础比较薄弱的企业,如何才能享受到 AI 带来的红利?
为什么今天的企业都争先恐后的想要进入 AI 领域?他们是希望成为像 IBM、Google 这样的 AI 公司,每年到 AAAI 或 NIPS 发几篇文章吗?答案当然不是。企业想进入 AI 领域,还是希望在自己的业务领域能获得新的增长点,希望借用 AI 的力量能打造出新的产品赢得更多市场份额,希望通过 AI 能把已有的产品提升一个水平从而更快地击败市场上的竞争对手。
所以,对于这些希望利用 AI 技术的企业而言有两点是重要的。
第一,找准 AI 技术在自身业务领域的定位,也就是未来产品的战略思考。这一点是无论如何不能由别的公司代替你去思考的,因为只有企业自己最了解自身的业务领域、发展机遇和企业现状。
第二,Time-to Market,时间是十分宝贵的。在目前信息平坦的年代,市场机遇的赛跑就是时间的赛跑。
对于各个行业的企业,如果希望享受到人工智能带来的红利,需要自身花更多时间去思考和策划上面提到的第一点问题(产品战略),而在第二点(Time-to Market)上,需要懂得借助外力。今天,在与时间赛跑的过程中,企业面临的最大挑战是人才和数据的问题。如何“借助外力”,往往也是企业犹豫的。
人才
如果像传统的购买企业服务模式来解决人才问题,对于一些行业会行不通。对于许多行业,他们的数据是具有高度保密的性质,不能把这些数据都交由第三方公司进行数据训练和分析。此外,企业的生产环境所针对的数据类型也会随着时间有所改变,例如零售业中货架的商品品类,生产线上产品的批次改变等。因此,哪怕企业交由第三方公司开发了一个机器学习的模型,是否之后所有在生产环境中的变化都要依赖第三方公司进行调整呢?所以,在引入 AI 技术的过程中,企业往往会在“人才培养时间过长”和“把控产品”之间犹豫。
数据
在人才的问题之后,另一个困扰企业的问题是数据的问题。
过去几年,深度学习的成功是基于海量的互联网开源数据。但这些数据都是互联网的数据,和企业希望解决的问题(如特定病种的医疗影像、产品质量的影像等等)没有直接的关系。所以,当需要使用 AI 技术来赋能自己的业务领域时,企业需要自己准备业务场景的数据集,也需要由具备专业领域知识的人员来标注数据集。因此,准备数据这个过程本身就极耗时间和人力。
另外,企业往往会面临数据不足的问题,尤其是需要高度关注的数据类型。例如,在医疗影像中,往往有着各种症状的数据比健康人群的数据更为重要;在生产制造中,有着各种瑕疵问题的数据比质量正常的产品数据更需要关注;在汽车驾驶中,在各种恶劣天气路况下的数据比正常天气和光照的时候获得的数据更需要我们注意。但这些数据往往是小概率情况下的数据。
因此,如何针对这些数量稀少却又十分重要的数据进行机器学习呢?不解决好这个问题,就难以把 AI 真正用到工业界场景。意识到这个问题的重要性,IBM 研究院确立了一系列针对小数据(Small Dataset)的研究,基于迁移学习、数据增强等课题进行深入研发。这些技术也应用到了 IBM 的 Watson 及企业 AI 开发平台(PowerAI)之上,直接帮助企业解决数据的问题。
未来几年内,哪些 AI 应用可以大规模投入市场?哪些还需要更长时间的研究及验证?
由于业界的你追我赶,AI 俨然是在一个高速跑道上发展。大家对短期的定义是1~2年,中长期是3~5年。一个新的 AI 技术是否可以大规模投入市场,应该看这个市场对该技术的差错容忍程度的高或低,例如,该技术能有 80% 的准确度就可以被接受,还是需要有 95%,甚至 99% 的准确度才可以?
记得在 2015 年,一个玩具厂商推出了 CogniToys(一个能跟孩子对话的绿色小恐龙),当年还被评为“2015 年度最佳玩具”。其实当年 CogniToys 的对话能力比今天国内好些公司推出的智能音箱要差好些。但因为 CogniToys 只是一个玩具产品,它不需要有很高的准确度。跟孩子的对话对一句错一句也没有多大关系。所以在 2015 年,哪怕机器对话技术还不成熟,也不能阻挡 CogniToys 在亚马逊上热卖。但是,同样的对话技术,如果我们用于要求严谨的医疗行业,或银行理财行业,就需要有更长的技术成熟期。
又例如,有一些技术今天可能只做到 90% 的准确率,如果我们希望在未来 1~2 年能广泛使用,就需要从应用场景上进行折中。折中的手法可以是多样的,例如加入人为判定。我们在 top1 的准确率不够的情形下,可以提供给用户 top5 的识别结果,让用户再从 top5 人为判断。
通过这样的手法,可以让某些 AI 技术加快在一些领域的使用。当然,可以使用这样折中手法的应用领域,必须不是工业控制领域的。对于需要实时控制的系统领域,包括无人驾驶、自动化控制等,都必须有完全高准确率的要求。而这种对高准确率有完全硬性要求的应用场景,必然需要更长时间的研究和验证。
哪怕同一个技术,同一个工业领域,放在不同的地区使用,也会有时间的先后问题。例如,使用 AI 技术进行无人驾驶,目前多个厂商都先挑选诸如特定场区工程车辆、园区班车等,因为路况相对单一和简单。我们最近到印度参展,看到印度的汽车行业,就连辅助驾驶的研发,也都才刚刚开始。重要原因就是该地区的路况复杂度远高于美国和中国。所以,无人驾驶如果要在印度落地,或许需要 3~5 年的时间。