「我们刚刚经过了小半年的技术研发闭关,将主要的研发精力投入在视频这块。我就认准了一个,做跟视频相关的业务。」思图场景创始人兼CEO张璐告诉雷锋网AI金融评论。
思图场景聚焦金融领域的图像技术,张璐所说的视频相关业务,当下而言指的是银行双录视频的结构化处理。从常见的人脸识别、体态识别、表情识别到重点转向视频技术,思图场景经历了一番思考。
思图场景成立于2016年,从企业DNA来看,是天生做图像识别的好材料。创立之初思图便十分注重人工智能视觉金融应用技术的研发,除在金融业内首先将人工智能视觉应用于证件真伪的鉴别,之后其在人工智能视觉技术领域持续发力,在2018年获得由国际计算机协会ACM ICMI 举办的第六届EmotiW2018 视频情感识别大赛冠军。其股东依图科技是国内领先的计算机视觉技术供应商,虽然依图聚焦医疗领域,甚至有传言称已经放弃金融板块,但依图的部分底层技术也为思图场景带来加分。
思图场景很快构建起自身的主打产品——Truth-Eye神瞳系列产品,包含面签所需的静态图像及动态视频的识别及解析功能。官方介绍,目前,思图场景已累计服务包括工行、平安银行、宝马金融、一汽金融、招联消金、中银消金、中信保诚、中意人寿等300余家机构客户,身份核验服务调用年均亿级。
然而,在这样蓬勃发展的势头下,思图场景却选择技术研发闭关专注于视频,原因是什么?
监管驱动的新蓝海
2017年8月,银监会发布关于银行实行「双录」的规定,要求银行业金融机构在营业场所销售理财产品或金融产品时,实施专区「双录」,即录音录像。同年,证监会和保监会(原)还分别发布了《证券期货投资者适当性管理办法》、《保险销售行为可回溯管理暂行办法》。2019年5月,苏州银保监分局最新出台了《深化保险销售过程现场同步录音录像工作试行办法》。这样做一方面能够对金融产品的销售环节进行有效的行为监管,保护消费者权益;另一方面也能有效抑制金融机构各类欺诈行为的发生。
例如,客户购买金融机构的理财产品,银行与客户接触,本质上是一种营销行为。近年来其背后存在一些过度宣传、不揭示风险、飞单等违规操作。比如营销人员告诉客户产品可以保本,但事实并非如此,给客户带来损失。这其中,金融机构有风险揭示的责任。但有时,金融机构自身的管理者也很难察觉。因为树大有枯枝,不论是基层员工还是渠道商都背负着KPI,可能会为了完成任务采取一些手段。
又如,2017年北银消费金融的著名骗贷案例。为了迅速扩张业绩,北银与中介公司合作扩展业务。合作中介违规操作,购买200多张虚假身份,骗贷4000余万元,事发后北银被处以900万元罚款。除消金领域,汽车金融领域也是骗贷的重灾区。被骗贷后,被盗用身份者发现问题上告法庭,法庭却很难取证。因为原告对当时贷款的情景并不知情,银行出庭的法律保全部对业务也并不清楚。金融机构无法真实还原业务全过程,很难找到真正的罪魁祸首。
在这样的背景下,音视频双录的重要性不言而喻。然而视频录下来,存在服务器里,该揭示的风险仍然没有揭示,需要大量的人工审核,这给金融机构带来了不少的人力和时间成本。张璐告诉雷锋网AI金融评论,通常情况下一单金融业务的双录视频在2-50分钟不等,审核人员需要一秒不落地完整看完录像,效率非常低下。
长期身处金融行业的张璐敏感地看到了其中的市场机会,使用AI技术对视频中的关键要素进行结构化处理,不仅可以降低成本,还方便随时调取,进行数据分析。经过了开篇所述的技术研发闭关,张璐及其团队已经将视频结构化技术打造成相对标准化的产品,方便机构客户调用,已经具备服务行业的能力。
底层重构
「人脸识别在金融行业已经被广泛的运用起来了,但我认为这并不是算法与金融行业的深度融合,只是一个适用于各行各业的比较基础的算法应用在金融业而已。」思图场景CTO汪明浩说。
汪明浩向雷锋网AI金融评论介绍,在视频结构化的过程中,监管机构及金融机构对视频是有明确定义的。比如视频中必须有签署文件、展示文件的行为,有阅读并进行风险确认的行为。这些行为在当下的通用模型精度下是不足以被辨认的。一个人到底是单纯在拿着笔还是在签字,对于人类而言很好辨别,但对于现有的AI模型而言就非常困难。
「现有的模型都不能做到,要重新构建。」汪明浩表示,「另外,我们也需要深入到金融场景下,去拿到足够多的视频双录数据。」
汪明浩透露道,在双录视频中,人的行为是相对较为标准的,更难解决的是每个金融机构的业务流程及文件格式不同。为此,团队使用迁移学习方法,让系统能够快速适应不同客户的需求。
另外,汪明浩强调,对于金融机构来说,一个系统即便达到了95%的准确率,往往也因不能确定剩下的5%是哪些被测对象而依然需要人力检查100%的业务。得益于过去几年的工程化积累,在闭关过程中,汪明浩带领团队优化解决方案,能够对客户实现100%的业务处理支撑。
下一步,汪明浩计划带领团队通过计算资源分离解决视频运算成本较高的问题,通过边缘计算让前端处理一部分运算,以取得更快的速度及更高的能效比。
「通用技术例如姿态识别、面部识别,我相信各大独角兽都是具备的。但真的在金融行业深度应用,在我的视野中,我们还是少有的。」汪明浩说。
做宽与做深
业界普遍认为,金融是继安防行业之后,AI落地的又一庞大市场。但具体这个市场在哪?怎么做?没有公司能够给出很好的答案。
在图像AI公司的视野里,金融是一个客单价小、流程繁琐、教育客户成本高、监管细节多的领域,因此大多呈半放弃半观望的态度,很少有人愿意下手做。这在张璐看来,是再正常不过的事情。
「安防行业已经完全打开,而且是一个万亿级的市场,从商业化的角度来说,客单价也非常高,而且已经能够很好的落地。与之相比,金融场景非常复杂,普通银行有几十个部门,需要深扎到场景里面去。AI在其中只是一个启动因素,只占10%-20%的比例。」张璐说,「对于图像AI公司来说,自然要抓大放小,选择做宽而不是做深。」
在招标现场,思图场景遇到的对手大多是从事双录的通信类公司或传统银行信息化系统集成商,鲜见AI公司的身影。通信公司没有视频结构化能力,系统集成商需要对外采购模块进行组装。因此在张璐看来,同行的观望正是思图场景的极大优势。
「这些系统集成商变成了我们的渠道合作伙伴。他们的系统整合能力比较强,同时能够帮我们减轻对接银行的工作量,让我们更专注在技术的研发上。」张璐表示,「我一直相信术业有专攻,像汽车金融、互金、保险这些我们比较熟悉且有标杆客户的领域,我们选择自己做,像银行我们就很愿意找合作伙伴一起做。」
张璐坦言不惧怕集成商抢占思图场景的市场,她认为双录视频结构化这一市场非常大,单凭一家公司不足以吞下。汪明浩表示,相较于系统集成商,思图场景具有非常大的算法成本优势,拥有降维打击能力。
同时,汪明浩谈到,由于金融业务中很多坑是没有办法绕过的,因此思图场景相较于同业具有先发优势及时间壁垒。「相比于图像AI公司我认为有半年到一年的时间,相比于系统集成商会更长一点,我认为有1-2年。」汪明浩认为。
采访中张璐和汪明浩均表达了对市场的看好,二人谈到现在市场需求已经爆发,公司面对的一个核心问题是人员扩充速度亟待跟紧市场发展速度,确保对众多客户订单的承接。