搭载了 Visual Cookie 的京东之家北京店
不知是性格使然,还是因为对技术足够自信,Jeff 表现出的坦诚令人印象深刻。他说话简单直接,没有太多修饰,也不弯弯绕绕,完全不像一个老练的连续创业者。
Jeff Lin 是美籍华人,在电信、导航、数字内容、位置服务和移动互联网行业有着 20 多年的从业经验。创立 Insight 之前,他主导开发了在中国拥有超过 3000 万注册用户的图片视频拍摄分享 App“图钉”。
Insight 成立于 2016 年,但涉足零售市场却不过才几个月。2017 年 8 月,Insight 了解到,京东之家希望能够基于视频,分析顾客在线下实体店的潜在购买行为。于是,短短两个月后,搭载 Insight 开发的智能 AI 零售系统 Visual Cookie 的京东之家就在北京开业了。
在搭载了 Visual Cookie 的京东之家,顾客进店时,摄像头会自动抓其人脸信息,与后台数据库进行匹配,判断他是新客户还是老客户。顾客选购商品时,摄像头会全程追踪,记录他在各个区域停留的时长、看了哪些商品等信息。
如果顾客在某个区域停留达到一定时长,店员就会收到 Insight 开发的微信小程序推送的信息。信息中包含顾客的人脸图像,以及他来过多少次、上一次来是什么时候、对哪些商品感兴趣等描述。根据这些信息,店员就可以为顾客提供个性化和专业化的服务。
收银台也安装了摄像头
进店的顾客,即使什么都没买,系统也会保留其结构化的人脸信息和带时间戳的行为轨迹,以便他下次进店时进行比对。但只有顾客购买商品并出示会员卡付款时,收银台的摄像头才会将其人脸信息与会员卡信息进行关联和匹配(收银员通常会推荐顾客办理会员卡,顾客可以选择接受或拒绝)。
从进店到完成付款,顾客几乎感觉不到 Visual Cookie 的存在,只需要像在普通线下店一样自由购物就行了。
人脸识别是 Visual Cookie 系统中至关重要的一环,决定了顾客的身份识别和行为轨迹信息归档。
在无人便利店或刷脸支付等场景,为了保证人脸识别的准确率,通常会要求顾客正对摄像头站立几秒钟。但京东之家追求“无感”式的用户体验,这就要求 Visual Cookie 必须在顾客移动的过程中完成人脸识别,难度非常之大。
首先是硬件上的挑战。Visual Cookie 做的是实时视频分析,需要对视频进行拆帧处理。经过多次尝试后,Jeff 发现市场上现有的摄像头用于实时视频分析时,或多或少存在一些缺陷,海康威视和大华这样的大品牌也不例外。以常见的球机为例,球机拍摄的视频拆帧之后往往比较模糊,难以满足人脸识别的需求;枪机拍摄的视频拆帧后虽然比较清晰,但成本很高而且体积太大。
“你可以想象一下,被十几个这样的枪机瞄准,顾客的心理是无法承受的”,Jeff 笑着对雷锋网说道。
为了打造一套用户体验良好且性能优异的系统,Jeff 找到了深圳的摄像头零件供应商,让他们根据自己的需求定制了一款摄像头。这款摄像头的外观经过了特殊包装,十分小巧简约,以免给顾客造成心理压力。
特殊定制的摄像头
Visual Cookie 的人脸抓取、处理、分析和匹配都是在本地完成的。因为基于云端的人脸识别方案时效性差,而且对带宽的压力非常大。
雷锋网了解到,Insight 会根据店铺的大小部署不同配置、数量的服务器和摄像头。一般而言,像缤果盒子这种15㎡规模的店铺只需要一台搭载一个GPU的服务器和4-6个摄像头;100-200㎡规模的京东之家通常需要一台搭载2个GPU的服务器和15-20个摄像头;600㎡规模的京东之家黑金店则需要3台搭载2个GPU的服务器和60个左右的摄像头。
Jeff 介绍,和别的方案不同,Visual Cookie 的摄像头是安装在货架上的,而非天花板上。其中有些摄像头的功能是识别人脸,有些则是识别商品。
顾客进店时,系统会自动抓取三张人脸图像,合成一个三维的人脸模型。有了这个模型,后续即使顾客只露出侧脸或者脸部的三分之一,系统也能准确识别。Visual Cookie 还支持在一张照片中识别多张人脸,最小能够识别 60 x 60 pixel 的人脸图像。
即便如此,Visual Cookie 的人脸识别准确率还是无法做到 100%。一方面,人流量很大的情况下,顾客会相互遮挡,导致摄像头无法捕捉;另一方面,灯光、角度和背景会对人脸识别的准确率造成很大影响。在支付场景中,顾客面对摄像头保持静止,光线、角度和背景都非常理想,准确率尚且无法达到 100%,更何况用户还在不断移动。
Jeff 坦言,目前 Visual Cookie 捕捉人脸的成功率在 80% 左右,对于已经捕捉到的人脸,识别准确率则超过了 90%。对于一个不涉及支付等关乎顾客财产安全环节的客流分析系统来说,这样的识别率已经非常可观了。
当然,这两项参数还可以进一步提升,但任何商业产品都必须平衡性能和成本。如果像 Amazon Go 一样不惜重金,布置如此密集的摄像头和传感器, Visual Cookie 的性能也能够大幅提升。
Jeff 透露,目前针对 200 ㎡ 规模店铺的 Visual Cookie 方案,成本在 30000 元以下;针对 15 ㎡ 规模店铺的方案,成本更是不到 5000 元。
除了精准的本地识别,设备还会每天将最新的结构化数据上传至云端,同步到各个店铺,实现跨店识别。
Visual Cookie 系统架构图
Jeff 认为,对于 AI 来说,框架的搭建方式至关重要。Visual Cookie 的框架并非“铁板一块”,而是由不同的模组构成,就像积木一样。
Insight 一共训练了十几个独立的、不同功能的模型,有些用于人脸识别,有些则负责识别商品。这些模型既可以单独使用,也可以随机组合。
Jeff 介绍,Insight 选择这种方式,是为了进一步提升产品的速度和体验。不同模型的准确率不尽相同,它们混在一起时会互相干扰。比如一个准确率高的模型和一个准确率低的模型放在一起,结果可能两个模型的准确率都会降低。这是他们在长期实战中总结出的规律。
“积木”式的框架赋予了产品更多灵活性。Insight 可以根据不同客户的需求,将这些模型进行组合。比如京东之家搭载的 Visual Cookie 只用到了 5 个模型,而无人便利店场景则需要 7 个模型,因为还需要识别顾客撕毁标签、偷窃等动作。
“有些 AI 系统运行起来很慢,其实是因为糅合了太多不必要的模型,为了提升速度,客户只好采购更加昂贵的硬件”,Jeff 对雷锋网说道。
Visual Cookie 得名于互联网中的 Cookie 概念。Cookie 是指网站为了辨别用户身份、进行 session 跟踪而储存在用户本地终端上的数据(通常经过加密)。比如用户浏览电商网站时,Cookie 会记录他浏览了哪些商品,把哪些商品添加到了购物车等。
对于从电商领域渗透至线下的零售商们来说,Visual Cookie 的产品理念简单易懂,他们也欣然接受。去年 10 月,Insight 和京东之家合作的第一家门店在北京开业,两个月后,第二家门店于上海开业。双方合作的京东之家黑金店目前正在紧锣密鼓的部署中。此外,搭载 Visual Cookie 的全新缤果盒子体验店也将于年后对外开放。
但传统零售商往往缺乏互联网意识,Insight 想用 Visual Cookie 打动他们并非一件容易的事情。
强攻未果,只好迂回前进。为了加速产品推广,日前 Insight 和欧电云达成了战略合作。欧电云是国内顶尖的跨平台电子商务系统云服务及解决方案提供商,负责了中国最主要的 20多 个品牌、10000 多家门店的 CRM 系统建设。
未来,欧电云的 CRM 系统将集成 Visual Cookie,形成一个打包方案推向零售商家。借助欧电云的渠道优势,Visual Cookie 将迅速打开市场。
自 2016 年 AlphaGo 击败世界围棋冠军李世乭以来,AI 迅速发展成燎原之势。但在 Jeff 看来,虽然人工智能在各个领域都发展得十分火热,但短期内适合落地的场景只有安防和自动驾驶。安防与国家秩序密切相关,拥有政策红利,市场前景非常广阔。自动驾驶领域,中美两国都投入了大量资金,虽然前景未明,但资金仍在不断涌入。
医疗市场也曾一度被看好,但 Jeff 认为,中国的医疗体系比较封闭,信息孤岛现象很严重,产品推进会非常困难。
涉足零售领域之前,Insight 最早选择的 AI 落地场景是社交舆情监测。他们推出了一款名为 SocialListener 的产品,通过分析社交网络中的用户原创及用户之间互动的文字、图片、视频等内容,帮助品牌提高用户转化率。
提供类似服务的企业很多,Insight 的特别之处在于它采用的是神经网络的方法,除了文字,还能对图片和视频进行分析。遗憾的是,品牌商对于图片和视频信息的价值缺乏重视,导致 Insight 无法收取相应的费用。
于是,2017 年 6 月,Insight 瞄准了第二个场景——内容监控,帮助电视台等客户分析视频中的政治敏感人物或目标人物。Jeff 认为,在中国的社会大环境下这是一项刚需,也是未来 Insight AI 落地的主要场景之一。
瞄准零售场景的 Visual Cookie 是 Insight 非常成功的一款产品。但 Jeff 却表现得非常冷静,他指出,零售场景短期内很难成为一个大市场,Insight 看中的是未来。
Jeff 预测,2018 年将会涌现出很多类似 Visual Cookie 的方案。他认为,AI 与互联网领域不同,不是大公司凭借流量红利就能垄断的。每一个企业都必须经历搭建框架、设计算法、训练模型的过程,相对来说更加平等。因此当提前布局的 Insight 有了一定的积累之后,其他厂商很难再超越。