京东集团技术副总裁、AI研究院副院长,IEEE Fellow 梅涛
2020 年 8 月 7 日,第五届全球人工智能与机器人峰会(CCF-GAIR 2020)在深圳正式开幕。
CCF-GAIR 2020 峰会由中国计算机学会(CCF)主办,雷锋网、香港中文大学(深圳)联合承办,鹏城实验室、深圳市人工智能与机器人研究院协办。
作为中国最具影响力和前瞻性的前沿科技活动之一,CCF-GAIR 大会已经度过了四次精彩而又辉煌的历程。
在大会第二天的「视觉智能•城市物联」专场上,京东集团技术副总裁、AI研究院副院长,IEEE Fellow梅涛,分享了京东在供应链上的布局与思考。
梅涛认为供应链发展经历了三个阶段:
第一阶段,上世纪90年代,传统供应链的信息技术将产业的上下游进行协同;第二阶段,21世纪初期,互联网工业阶段,利用互联网技术提高供应链的效率和敏捷性;第三阶段,21世纪及未来,智能供应链阶段,生产上更加协同,流通上更加敏捷,甚至可以通过用户需求驱动生产,又反过来创造需求。
梅涛指出,中国供应链水平仍处于第一阶段向第二阶段过渡时期。作为“以供应链为基础的技术与服务企业”,京东在不断夯实第一阶段到第二阶段转型的同时,积极布局第三阶段,基于人工智能,利用大数据、物联网、区块链等,打造基于各种技术与服务的供应链全链条。
京东在智能供应链领域的计算机视觉应用非常多。智能消费领域,通过SKU级别商品图片理解,打造智能结算台、京东拍照购、京东搭配购等应用。在实际场景中,通过硬件和软件一体化,帮助线下门店进行一体化营销。
智能流通领域,基于深度视觉建模技术,对仓内环境进行重建从而辅助机器人巡检;基于物体姿态的精准识别技术,支持机械臂对物体的自动抓取,此外,京东还推出了首个产业级通用目标重识别开源库FastReID。
智能生产领域,应用于工业视觉质检,比如,印刷品包装检测中,通过内容识别、设计校对、字号识别,以检测包装是否符合严格的标准,另外还有基于CMYK色彩控健康识别,缺陷监测和尺寸识别。
梅涛提到,智能供应链需要全链条的生态,京东拥有全行业最长的数据链条以及最全的供应链服务。京东不仅要服务于自己内部的客户,还基于人工智能开放平台,开放技术,共建生态。
最后,梅涛分享了他对下一代视觉技术趋势的看法,他认为计算机视觉经历过萌芽、爆炸、巅峰,现在回归理性,未来将在数据、模型、学习机制和工具箱四个层面有长足进步。
以下是梅涛博士的现场演讲全文,雷锋网作了不改变原意的整理与编辑:
谢谢雷锋网的邀请!上一次过来这边演讲还是三年前。
今天我想向大家分享一个话题:作为“以供应链为基础的技术与服务企业”,我们是如何让机器视觉在其中发挥作用的。
在座的部分观众也许不一定了解什么叫做供应链?
其实,人们在日常生活中无时无刻都会用到供应链这项技术。小到一粒钮扣、大到一部手机,如果供应链某个环节出现了问题,那么这款产品可能就会存有缺陷。
复盘一下,供应链的发展大概经历了三个阶段:
第一个阶段出现在上世纪90年代,我们可以称之为传统供应链阶段。
这个阶段主要使用信息技术将产业的上下游进行协同,代表的公司包括沃尔玛、P&G等,当时的沃尔玛,每年都会与供应商们开各种大会协调当中联系。
第二个阶段出现在21世纪初期,我们可以称之为互联网供应链阶段。
人们开始利用互联网技术提高供应链的效率和敏捷性,代表性的公司包括亚马逊、ZARA等,譬如亚马逊提出的“一次点击”就可下单的概念。
第三个阶段出现在21世纪及未来,我们可以称之为智能供应链的阶段。
它主要体现在三大方面:一是生产上更加协同;二是流通上更加敏捷;三是可以通过用户需求驱动厂商的生产。
眼下,我国中小微企业占比超过97%。同时,我们的包括物流成本等线下费用率远远高于发达国家,也就造成我国的线下零售成本相对较高。
在供应链环节,我们哪怕降低了1%的成本,就可以节省万亿级别的GDP。
整体来看,目前我国绝大部分企业的供应链水平仍处于第一阶段与第二阶段区间内。
在供应链技术服务领域,京东目前已经在服务第一阶段到第二阶段的转型,同时我们也会做第三阶段的布局与探索。
而这,就涉及到了智能供应链。
智能供应链以人工智能为支撑,利用大数据、物联网、区块链等技术支撑服务于供应链的全链条体系。
从微观层面来说,供应链大概可以分为十个环节(如上PPT所示)。
从宏观层面来说,大概包括创意、生产、流通、消费四个环节,希望未来的供应链能够做到更高的协同性,更好的敏捷性和更优的需求创造性。
京东为什么要做这件事?
首先,包括疫情等因素的催发,中国经济需要开启内循环,而这方面的工作会遇到比较多的挑战。就此,相关政府部门也提出了“六保”理念,包括保供应链和产业链。
此外,供应链也已成为新基建中的重点要素,而这也是京东技术体系的核心元素。
那么,在智能供应链领域,计算机视觉到底能做些什么?
人们最容易理解的便是3C消费市场,因为我们每天都需要在网上或者实体店购物。
在营销方面,我们通过计算机视觉做多模态购物入口。
举个例子,之前大家打开手机,在京东APP上通过输入文字找到你想要的商品,现在可以通过拍图片、视频甚至是语音的方式找到你想要的商品。
其次是内容合规审核,无论在哪个平台上,只要你上传商品图片或者视频,都需要一定程度的安全审核工作,这个工作也可以通过计算机视觉助力。
在交易方面,我们可以通过图像信息等技术,结合一些美学信息做适量跨界研究,提升商品的搭配与搜索。
京东最近做了一个“搭配购物”App,应用后发现在60%的情况下,机器搭配的效果优于人工搭配的效果,转化率方面也超过了人工搭配。
在售后方面,我们通过智能客服,并加入一些人工交互,让智能客服更有情感和温度。
在生产方面,我们通过机器辅助生产制造和设计,有效控制生产成本。
京东作为以供应链为基础的技术与服务企业,我们拥有全行业最长的数据链条以及最全的供应链服务。
去年,我们非常荣幸还入选了国家新一代人工智能开放创新平台。今年,京东再次荣获国家科技创新2030“新一代人工智能”重大项目定向支持。
下面,我来讲讲京东生态合作伙伴在供应链各个环节中,是如何利用计算机视觉技术去提升生产效率的。
在消费领域,我们做了一个智能结算台(PPT图示左上角)。
我们可以利用视觉技术对商品图片做实时分析,并做到SKU级别的精细度识别。
举个例子,大家经常喝的矿泉水,有250ml的,也有300ml的,250ml和300ml的矿泉水就是两种不同的SKU,想要做到这种级别的识别、分析,机器需要非常清晰的理解和能力。
我们之前与香港利丰集团合作,开发了一个台灯样式的设备,在台灯上装有两个摄像头,可以取代人工对单个商品的扫描操作,在几十毫秒内一次性准确识别所有商品。
我们通过实验发现,香港便利店一个顾客的平均排队时间是6秒钟,通过结算平台单人可以节省1到2秒钟,这样有效提高了单位面积销售额,这是一个很有意思的尝试。
另外,我们还做了内容审核,所有图片和视频都要经过我们的安全审核才能在网上进行售卖,在京东内部每天7*24小时不间断调用审核技术,以保证优良购物环境。
未来,通过照片你就可以找到你想要的商品,此外还可以通过机器视觉的搭配购物技术推荐到你想买的其他商品。
比如你买了某件衣服,我会告诉你,配什么样的包、配什么样的鞋、买什么样的项链,使你的穿着更时尚。
这些应用的背后,我们做了比较多的精细密度商品图片的识别,但这些还远远不够。
举个例子,真实场景中,蝶类动物有五千种,鸟类超过五万种,一种鸟就属于一种类别的SKU,每一只还不太一样。
就此,我们在京东研发了DCL,为了找到图片里面哪一个部分是我们必须关注的很小的细微变化,我们把图片分成不同的格子全部打散,让机器自动寻找到底哪一个格子里是我们需要识别的细微差别。
另一个网络是LIO,我们希望这个网络不仅能够清晰识别细小的差别,并且可以自动学习,去重构原始图片。
通过这样的学习,机器既能识别出细小的差别,又能做到对图像的恢复。CVPR2019和2020会议上我们发表了两篇代表性的论文,目前影响力还不错。
在内容领域,我们做了一些比较有意思的尝试。我们利用机器视觉自动写文案,可以看图说话,也可以看图写诗。
京东有很多SKU,有非常多的商品,我们需要能够快速地写出个性化的、多元化的导购文案,目前我们做得还不错,大家在网上看到的很多文案和图片都是机器自动做的。
在智能流通领域,基于深度视觉建模技术,对仓内环境进行重建从而辅助机器人巡检;基于物体姿态的精准识别技术,支持机械臂对物体的自动抓取,此外,京东还推出了首个产业级通用目标重识别开源库FastReID。
综上,能看到我们是如何在工业界将学术成果转化为生产力,在产品线上服务自己的场景,再赋能给外部客户。
我们同时还做了一个比较有意思的案例,叫做普洱茶的追溯。
眼下,市面上有非常多品类的普洱茶,我们做了一个“茶脸”识别,通过茶脸的识别,保证用户购买到的是正品的普洱茶。
最后讲讲智能生产。我们做了一个轻量级实验,做包装盒的检测。
我们将京东的上下游打通,找到了一些生态伙伴,做内容识别、做设计校对,看字体是否符合标准,字体的位置和颜色是否符合严格的标准,包括进行字号和色差的识别。
我们做了基于CMYK色彩控健康识别,缺陷监测和尺寸识别。(我也知道有很多公司做的是面板监测识别,其实京东也有这样的能力。)
我们在京东做研究,不仅要服务内部客户,同时我们也希望把这个技术开源、开放。
京东人工智能平台已经入选了全国十个人工智能平台之一,我们不仅要开放,我们还要开源,我们平台上的技术涵盖计算机视觉、自然语言处理、机器学习、对话、语音与声学等等。
我们有六大能力、两个方向、一个平台,我们的API已经超过了100余项,自研的占60%,还有集团第二方的研发,以及来自第三方生态伙伴的API,每天服务客户的调用量超过百亿次。
刚才讲了比较多的案例内容,最后讲讲我们对下一代视觉技术的展望。
2019年,Gartner提出了一个对技术展望的曲线,目前的计算机视觉研究处于第三个阶段。
第一个阶段是萌芽期,处于曲线的上升阶段,人们对技术有比较高的期望;
第二个阶段,萌芽期发展到了巅峰期,人们对它的期望到达了顶峰,这也是最危险的时期,很多公司估值过高但没有实际产出;
第三个阶段,计算机视觉等AI技术进入了理性回归阶段。
再过几年,我相信计算机视觉技术可以在行业大规模扩展,不管是青年学生还是老师,大家可以放心地进入这个行业。
关于技术趋势,我讲四点:
1、数据。我们相信,Web上的很多无序数据,未来会用到更多的专家、领域知识、结构化数据、多模态数据。
2、模型。现在每一个模型都是一个个的独立烟囱,未来会做通用底层模型,或者做自动化、可定制化的模型结构。
3、学习机制。目前我们看到有很多监督学习,我们要通过大量的数据和标注,很多AI公司最后成了劳动力公司,包括我们前几年也是一样的。
我们现在用了很多弱监督、无监督甚至是自监督和小样本的学习,使我们的模型在很短的时间内学到很高的效率。
包括我们将来可以做到终身学习、联邦学习,解决数据的隐私,包括开放的动态学习和机脑结合,我们相信未来的学习机制将是多彩多样的,并且是能解决实际问题的。
4、工具箱。我们在公司里做研究,不仅仅要服务于我们自己的生态伙伴,我们也希望服务于整个业态,希望能把一些工具箱开源出来,让大家跟着我们一起成长。
数据发展的趋势,从非结构化到结构化,单模态到多模态的发展趋势,以及海量人工标记到获得有用知识,包括孤立问题到通用底层预训练模型,可以有效解决很多问题。
包括黑盒模型到一个可解释的模型,从一个人工设定的学习框架到机器自动搜索的框架,从有监督学习到半监督学习,从机器协作到机脑结合。
在京东,我们不仅做技术、产业,我们也做一些基础研究,我们目前在全球有四大研究中心,有超过50位顶级算法科学家,我们也希望成为各位发展道路上的同行者和伙伴,谢谢大家!雷锋网雷锋网雷锋网