“证券行业有一个非常细分,但也是痛点最痛的场景,即为机构客户办理非现场见证开户时,如何实现资料的高效上传。”华福证券运营管理部负责人林佳告诉雷峰网,在券商帐户业务中,机构开户所需的材料多且复杂。“身份材料加上开户表单,至少要十二三份,同时还要兼顾表单内容的规范性和材料的齐备性。”
虽然以往也有OCR(光学字符识别)技术的相关应用,但始终存在一些不足,比如对手写体识别效果不佳;长文提取关键字段信息难;在密集表格、单元格中文本换行等场景下识别效果不佳等问题。
大模型技术热潮下,是否有新的破局之道?成为业内关注焦点。华福证券与腾讯云对此进行了合作尝试。
华福证券数智赋能部研发中心总经理谢琪告诉雷峰网,近日,在腾讯云TI-OCR 平台的支持下,ISV思迪信息对华福证券的机构开户系统——“福牛行”进行2.0升级,实现了开户效率50%左右的提升。
值得注意的是,“这是大模型热潮下,腾讯云TI-OCR 平台在资管行业里,首个影像资料智能分拣场景的落地。”腾讯云智能高级产品架构师丁鹏强调道。
大模型驱动的OCR和传统OCR相比有什么区别?引入大模型后效率提升究竟几何?腾讯云对OCR领域的布局有哪些心得?以及如何应对大模型带来的幻觉等问题?
针对这些疑问,近日,雷峰网等媒体采访了谢琪、林佳和丁鹏三位深度参与此次项目的专家,详解项目落地过程中的经验与思考。
问题:引入大模型能力,解决了华福证券哪一关键痛点?
林佳:以“智能分拣项目”为例,华福此次的智能分拣项目聚焦在员工为机构客户办理非现场见证开户时资料上传的场景。这是一个非常细分,但也是痛点最痛的场景。
众所周知,开户尤其是机构的开户,是券商账户业务中最难、最复杂的项目。首先它难在需要填制的材料很多,身份证明材料再加上开户要填写的表单,初步算来有12-13份,多达几十页。其次难在对表单内容规范性、材料齐备性的要求很高。
办理机构开户时,客户经办人签署与盖章纸质开户协议后,开户协助人需要将开户协议拍照上传至系统提交,便于后台审核和留存。
在以前,面对繁多的材料和复杂的要求,开户协助人往往需要多次拍照,必要时进行人工识别、手动分拣与匹配,将资料上传至系统中。这一过程往往耗时久、效率低,并且对开户协助人作业熟练度要求高。
但开户协助人通常是券商非专职的柜台人员,这类人员流动性比较大,很难得到长期培训,反过来更加剧了操作难度。
自从引入了大模型驱动的OCR“智能分拣”后,拿到客户提交的材料后,开户协助人只需要把材料批量拍照,点击上传,系统会自动把材料分拣、匹配、上传到指定位置。不仅大大缩短了开户前端操作时间,提高了开户效率,还降低了人工作业难度,员工体验感也大大增强。
谢琪:华福证券目前已经将腾讯云TI-OCR应用到开户领域、智能分拣领域,实际效果不错,将会把TI-OCR作为OCR原子服务能力上架到公司AI中台,赋能更多的业务应用场景。
目前华福证券通过大模型技术在对内赋能上已经落地了数个场景,比如员工外脑、知识库检索、书写辅助等场景。同时,我们也在探索“大模型+Agent”模式,这个方向行业也处于探索阶段。我们AI研究侧重应用场景挖掘。我们内部的要求是做AI不能脱离实际业务场景,重点是要通过AI实际帮助到业务或者帮助到员工。
华福证券的AI探索聚焦“提质增效”和“降本增效”两个目标。“提质增效”聚焦在AI对业态环境和商业模式的重构,挖掘业务新的竞争力。“降本增效”则是注重重新梳理现有公司工作流程和任务,推动模型抽象和数据治理,通过AI辅助员工和客户处理标准化工作,深入挖掘“降本增效”成效。
公司领导去年提出1335战略实施路径。“1335”的“5”是指五大赋能,数智赋能是五大赋能之一。同时,公司提出“数智引领 人才突围”的数智化转型战略,把数智化作为一个极其重要的赋能手段。希望能通过数智化为客户带来更好的服务和体验。
问题:大模型驱动的OCR和传统OCR相比,主要区别是什么?
丁鹏:腾讯云此次与华福证券合作的TI-OCR方案,是多模态OCR大模型底座,再加上OCR产品训练平台。就底层大模型能力来说,大模型驱动的OCR和传统OCR相比,主要有两大不同:
一是增效方面,针对传统OCR难以解决的复杂问题,依托大模型可以有效提升准确率。
比如开户资料中存在印章干扰、手写识别等复杂场景,传统OCR要先把整个识别拆成很多段,先检测再识别再做结构化,无法做到端到端对每个环节的理解。而引入大模型后,增加的端到端的理解能力可以有效避免多个阶段错误的累计。
引入大模型能力后,TI-OCR支持通过自然语言交互直接理解输入图片生成结果,能够精准识别票据中的手写体、表格信息、跨页信息并排除背景干扰。
二是降本方面,以往企业自己训练或委托厂家训练模型,周期较长,成本较高,引入大模型后会结合实用性降低模型对资源的消耗,并且依托TI-OCR平台,企业也可以在内部快速构建各类个性化应用。
比如,企业仅需向TI-OCR平台输入少量实体单据扫描数据,经过数小时训练就能获得对回单、发票、申请书、提货单、签收单等多种功能表单的高准确度识别能力。
问题:腾讯云为什么选择在OCR领域发力大模型应用?在布局时,腾讯云重点考虑什么?
丁鹏:主要有四点考虑:
首先,出发点是真正去解决客户业务问题,而不是为了做大模型而做大模型。
过去几年,OCR领域里传统的卡证票据版式都比较固定,文档比较简单,传统OCR技术应用后能看到运营效率的提升。但还有很多长尾场景,比如个性化文案、银行各类票据、证券开户场景、各类单据或者授权证书等,亟待OCR技术的穿透。在复杂长尾场景下,传统OCR技术的识别准确率一直存在不少问题。这是腾讯选择在OCR领域发力大模型应用的重要原因。
事实上,除了OCR,目前在证券领域,腾讯云还做了投顾助手、舆情助手、法律法规问答助手等客户反馈需求较多的产品。
其次,在实际落地过程中,充分考虑金融行业的业务复杂性,尤其是数据以及合规安全问题。比如在整个应用架构上,以及训练和文本审核环节都加装RAG(检索增强生成)技术来规避敏感问题。
再次,想要大模型真正可落地,就要追求性价比。所以腾讯云目前会针对训练推理技术、算力成本、GPU管理、GPU虚拟化等做专门优化,确保能够以相对合理的算力将大模型应用真正落地。
相比之前传统OCR模型参数量,大模型参数量确实有较大提升,但是实际落地过程中,腾讯将集团内部几大实验室积累的模型训练和推理加速框架加到了整个应用中,并对训练过程包括推理过程都做了进一步提效。
同时针对私有化部署场景,腾讯会对模型做一系列蒸馏、裁剪,让整个模型在私有化里能以比较低的成本落地。现在来说,实际业务当中推理成本和原来传统的OCR相差不大,具备可落地性。
此外,为了解决大模型落地最后一公里问题,也需要加强与拥有深厚行业know-how的生态伙伴的合作,比如此次华福证券合作中,腾讯云就是联合了在证券行业开户和运营环节有深厚积累的思迪信息,真正为华福提供了端到端的方案,而不只是提供一个技术中间件。
问题:在应用过程中,大模型方案是否会产生机器幻觉或者合规上的问题?有什么好的解决办法?
丁鹏:幻觉和合规是大模型经常碰到的问题,也是金融机构特别关注的问题。
数据方面,目前的训练数据都是基于自制或公开收集的合理数据,并且在训练前,我们就会对数据进行安全过滤。
算法和产业实际应用上,为了解决大模型落地行业的多重挑战,腾讯云研发并推出检索优化引擎,基于向量数据库、实时访问数据服务等技术打造多层次算法框架。它依托行业知识分类提取,精准获取专业知识,并利用大语言模型快速提供高质量生成信息,有效降低大模型可能存在的幻觉和信息不可控问题。
最后,腾讯云本身在安全领域深耕多年,产品丰富。所以目前我们在大模型应用的输入端和输出端都会接入文本、图片、音视频审核的模型,来进行安全过滤。
雷峰网从腾讯云处获悉,早在2022年之前,腾讯云就已将多模态模型应用于OCR平台中,经内部业务验证打磨后,做成轻量化产品对外输出。2022年产品已在金融行业落地。2023年大模型兴起后,腾讯云又对整个模型参数规模对外输出能力做了进一步强化。“后续OCR相关产品将会依托大模型进行持续升级。”丁鹏补充道。雷峰网(公众号:雷峰网)