雷锋网按:深度学习的出现,使得NLP技术有着巨大的突破,但总体来说,NLP对于浅层次的特征提取、分类等问题已比较成熟,而深层次的语义理解是当下的研究热点。目前,NLP技术在文本处理方面的主要应用有智能搜索引擎、机器翻译、文献摘要自动生成、文本分类等;在语音方面主要有智能客服、多媒体信息提取与文本转化等。
同时,国内NLP领域的创业公司不断进行其商业化探索。2012年成立的NLP技术供应商玻森数据便是这样一家。到如今,公司已经找到了聚焦产品:风报,而据公司CTO赵迎宾介绍,公司现在也有了一个比较健康的现金流。
据赵迎宾介绍,风报是一款基于NLP技术的企业情报系统,通过在全网采集包括工商、涉诉、税务、行政处罚等海量政府公开信息以及媒体信息,用NLP技术从不同角度挖掘实体之间关联,为企业提供风险控制及情报分析。“风报相当于企业情报行业的“百度”,是一种搜集信息的渠道。”赵迎宾对雷锋网介绍道,通过NLP技术,风报可以帮助企业和个人在海量信息中挖掘有效信息,节省大量人工查询时间及第三方调查成本投入。
2016年,玻森数据便与钢铁行业B2B电商“独角兽”找钢网牵手,将风报用于其供应链金融业务中。找钢网成立于2012年,到2015年时,已经一跃而成为行业内的独角兽,同时,以撮合买卖双方起家的找钢网也开始布局供应链金融,那么,风控自然不可缺少。
供应链金融在贸易领域早已是再常见不过的融资模式之一,但随着人工智能的发展,这一领域正在延伸出新的枝干。不同于消费者金融风控,供应链金融最大的风险在于企业经营风险,大宗商品价格波动相对来说比较平稳,即使存在“产能过剩”,依托大型的B2B平台,根据历史的交易数据,也可以进行相应的风险控制。大数据风控有效的前提是掌握尽可能多的数据,一般而言,数据来源包括自有平台数据、外部抓取数据和与合作机构交换数据,取得这些数据后再进行去噪清洗建立风控模型。
而通过NLP技术,将网络上非结构化的数据结构化,接入金融领域的风控模型后,能大大节省了数据整理的时间。
据玻森数据CEO李臻此前介绍,对于金融领域的大数据风控模式,风报能做的有两点:一是企业信息过窄的问题,通过风报系统的裁判文书结构化分析和信息公告关联挖掘,扩大数据来源;二是快速获取信息的问题,通过风报系统核心的NLP技术及开庭公告、事件信息等功能能够帮助企业从海量的信息中实时获取所需信息,同时实现对交易对手的动态监控。
找钢网金融事业部副总经理卞峥对雷锋网介绍说,找钢网平台内有大量的企业交易数据,同时在网络上抓取大量数据,“对于我们来说,有效的数据样本自然是多多益善,风报的接入扩大了数据来源。”“外部抓取的数据比较散,而通过NLP技术,把这些比较散的数据源结构化,进行二次处理会方便得多。”
对于产品体验效果,卞峥讲道,总体上是不错的,“但希望数据源头越多越好,并且数据源能更加结构化。”
据了解,从信息获取到企业情报,风报的背后有四个步骤:
获取数据
形成信息(用NLP技术,在非结构化文本中抽取核心语义)
产生情报(对新闻拆解分析,通过数据挖掘对事件进行分类、以时间轴呈现企业情报信息)
得到认知(可视化呈现企业和个人关联)。
在形成信息的过程中,涉及如何对句子进行正确拆分;如何进行实体识别,识别出相关人员和群体;以及通过机器学习的方法,对每项内容进行标签化处理。为了向雷锋网解释NLP技术在此的应用,赵迎宾举了这样一个例子:
A跟B正在进行一场离婚诉讼,在其证据中提到B在中国农业银行的一个账户,这与中国农业银行其实并没有关系,需要用到语义分析技术,来判断到底谁是案件中的当事人。
雷锋网根据公开资料了解到,目前中国与“企业信息服务”相关的公司有2000多家,风报、启信宝、企查查等均属这一类。
在数据来源上,知名度较高的企信宝是通过征信中心与连接相关征信网站数据接口的获取,风报则是聚焦在散落在全网中的企业外部文本数据,从海量的企业事件角度切入。玻森数据公司CEO李臻认为,有 80% 的商业情报都以非结构化的自然语言文本形式存在于网络的各个角落,但没人处理这些信息。雷锋网对公司CEO李臻的采访中也提到,“相比其他产品,风报的核心是分析能力。企业信息涉及很多裁判文书等非结构化文本,提炼关键信息要进行去重、实体抽取、分词、清洗及分析等,这些不是信息汇总就能完成的。”
事实上,企业信息服务行业并不是玻森数据一开始就扎根的领域。
据赵迎宾介绍,2012~2014年的这段时间,玻森数据寻求的是与咨询机构的合作,咨询公司进行行业调研时会用到大量数据,玻森数据的NLP技术则可对其进行分析和结构化,节省查阅资料的时间。“希望通过十几个案例积累,找到一种互联网数据分析的通用化方式,但发现这种尝试行不通。”“咨询行业是一个创意驱动的行业,不同报告分析角度不一样。”
而2015年后,随着大量政府信息公开,玻森数据开始做企业信息服务,并于同年九月发布了风报这款产品,2016年,开始对外销售。到目前为止有一年多的时间,公司已经积累了120家客户。
风报主要采用合同销售的形式,按照使用量收费,公司的客户群体可大致分为3类:
第一类是泛金融,包含保险、融资租赁等。
第二类是政府,政府会对所在区内的企业进行风险调查。风报是其一种搜集信息的渠道。
第三类客户,介于B端与C端之前,是投资人、媒体等,这些人需要了解很多的公司背景信息。
“在风报开始销售之后,公司就有一个比较健康的现金流。”赵迎宾对雷锋网讲道,据了解,波森数据已经有过三轮融资,最近在做B轮。
赵迎宾介绍说,风报每周都会有新版本发布,主要集中在几个方面:第一方是在系统中集成新的数据来源,对企业相关的公开未挖掘数据进行结构化以及数据分析;第二,希望对互联网上56000多家政府网站全覆盖,做一个相当于政府网站方面的百度,并且需要比百度做得更深。
那么,玻森数据的未来向哪里走呢?赵迎宾用玻森的定位告诉雷锋网答案。
玻森数据以NLP技术为核心,在该平台上搭建各种商业化应用,专注于SAAS领域,聚焦在风报这个产品上。
有价值的数据、有竞争力的算法、有商业场景和围绕着这个商业场景的产品化能力,这三者是保证公司竞争力的法宝,他补充道。
AI慕课学院近期推出了《NLP工程师入门实践班:基于深度学习的自然语言处理》课程!
三大模块,五大应用,海外博士讲师手把手教你入门NLP,更有丰富项目经验相授;算法+实践,搭配典型行业应用;随到随学,专业社群,讲师在线答疑!
课程地址:http://www.mooc.ai/course/427
加入AI慕课学院人工智能学习交流QQ群:624413030,与AI同行一起交流成长
相关文章:
深入NLP———看中文分词如何影响你的生活点滴 | 雷锋网公开课
CNCC 人物 | 出门问问创始人李志飞的 NLP 商业化之路