相关数据统计,目前我国在编警察数量大约是两百万,也就是说每700人中只有一名警察,有限的警力面对日益增长的多样化数据尚存挑战。
在此背景下,公安部门迫切需要AI等技术帮助分类、挖掘数据中的核心价值,支撑侦查办案、综合研判等业务需求。
所幸的是,大数据作为一项无形资产越来越受到重视。智能科技的广泛应用开始影响我们的生活,这几年,无论是BAT等互联网等巨头,还是明略数据等AI初创公司都以大数据为点,横纵发展,为推动公安信息化建设扎扎实实地做着努力。
明略数据成立于2014年,是一家行业人工智能解决方案提供商,主要为公共安全、金融、工业与物联网等行业提供大数据和人工智能的技术服务。
在以往,大数据分析关心的是过去发生的事件的现象和来源,对已知数据积累的越丰富越好、越清楚越好。因为相关企业在利用大数据解决问题时需要进行两个步骤:
1、需要将数据按照业务逻辑梳理清楚。
2、梳理完毕后,还需要挖掘数据的深度价值。
而这里提到的第二点其实更多的是应用AI等技术去完成,它是对未知的事物反应速度越快越好。无奈的是,之前相关技术并没有大范围落地,很多企业在这方面也没有足够的技术能力,对数据的分析大多是无用的、不准的。
而这,也许正给了这家AI初创公司一次绝佳的市场机会。
明略数据副总裁Elva Liu告诉雷锋网,他们现在正在做的事就是利用数据为企业打造知识图谱,然后利用AI提升业务效率。
就拿最新发布的AI产品“明智系统”来说。“明智系统”由两大部分组成:“蜂巢”是一个“知识图谱数据库”,可以在散落的数据中提取有效信息的同时,从纷繁复杂的信息进行关系连接和分类,织就庞大的关系网;“小明”则是企业级人工智能统一入口,为“明智系统”以对话形式与人类进行交互并提供业务支持,用户可以以对话的形式向“小明”下达指令,系统通过语义分析,识别用户指令,迅速反应提供业务决策支持。
Elva Liu透露说,目前该系统已经在石家庄应用,为公安客户实现5-20%的破案率的提升。
从这来看,明略数据就是将企业数据构建成一个知识图谱,然后通过AI去实现人机同行,找到其中的数据价值。
这件事并不新鲜。之前就有人提到,“未来的一万家创业公司都将会做一件事:take X;add AI。”从明略数据这里来看,的确也是这样。
但这里并非贬义。正如王阳明所说,从“格物致知”到“知行合一”,其实大数据与AI并非是鸿沟分明,从跟踪静态的数据,到结合动态数据参与数据变化,让机器的深度学习犹如人的理论实践一样根据客观环境变化而得出不同的结论并应用周而复始达到极致而已。
识别其中优劣,只需看该基于AI的大数据公司能否在获取实时数据的同时与目标群体产生相应的互动来验证自己的判断并快速实现商业价值。
在Elva Liu看来,他们可以做到。
“我们过去几年一直在相关细分领域深耕。明略数据目前拥有近400位员工,75% 左右为技术人员;另外,目前还有数十位行业顶尖的大数据及AI专家也加入或者帮助明略数据,他们为公安、金融、工业等业务场景进行了数据治理,已经积累了几百条业务规则,其中包括为泰康人寿实施的基于知识图谱数据库的寿险营销分析平台、为某公安部门实施的基于知识图谱的关联关系研判实战平台、为中国中车实施的关键设备状态故障监测与自动分析等等。基于这些业务规则形成的知识图谱,如今被用于金融、公安和工业等三大“行业大脑”,成为机器大脑中的知识库,而自动化的知识体系通过人工智能交互接口“小明”输出,就能形成撬动企业知识经济的商业模式。”
至于商业落地,Elva Liu透露说,明略数据从一开始就将自己定位为一家产品公司并在各个领域深耕。目前公司已经盈利,公共安全占一半,金融与工业各占四分之一;从战略优先级来说,三个细分行业都在齐肩发展,配合推进。
对于当初为何选择安防为突破口并获得公司半数营收,Elva Liu认为,这符合哲学家托马斯·库恩在《科学革命的结构》中的理论,很多科学革命都具备范式转移的特点,也就是新思想的认知和老思想会很不一样;同理,AI也是一样,过去的AI是模仿式的,未来的AI是预知式的,前提是有足够多的数据去支持它去预知、去创新。这个数据的多少也意味着AI能在其中走多远,很显然,安防领域非常符合这一特点。
如果说安防领域“油多人广”,是各大传统公司、AI公司‘进击’的最佳选择,但从过往效果及经验来看,这块蛋糕并不是那么容易吃到。安防领域会有很多比较复杂的结构化、非结构化数据,尤其在情报系统里需要接入百亿数量级的数据。
对此,Elva Liu坦言,明略数据针对公安数据治理专门开发出工具集,其中包含大量领域数据规则,能够解决特定领域内数据的汇总、清洗、转换和融合。
她表示,面对数据量达千亿级乃至万亿级的复杂的安防场景,明略数据的治理工具和NLP处理架构都是基于分布式框架运行,就拿刚刚发布的“明智系统”为例,其实是有一系列的解决方案来处理数据量大、结构复杂的问题。
首先对于数据存储和整体平台运行,明略有企业级大数据分析整合平台MDP,承载系统运行。具体来说,可实现数据资产管理、元数据管理、数据知识管理、数据质量管理等数据管理与数据治理功能,通过自动化、智能化的数据识别、分类、标签技术,发现、还原、构建和管理数据的数据字典、数据特征、数据轮廓、数据关系、业务涵义等,从而更快、更好、更直观的理解数据本质。
接下来是数据治理组件,明智系统通过数据治理技术将多元异构数据治理成信息;通过知识工程CONA完成知识抽取、知识融合、知识推理、知识验证、知识构建等过程,将信息转化为特定领域的知识;再通过知识图谱数据库“蜂巢”完成知识表示、知识存储、知识索引,从而构建特定行业领域的知识图谱。
对于行业知识的存储,“蜂巢”是明略数据首个专门为人工智能应用服务的知识图谱数据库。知识图谱数据库是使用基于图数据库的混合存储技术实现大规模知识图谱数据存储,是机器大脑中的知识库、人工智能应用的基础设施。传统数据库需要有程序员或DBA背景才可使用;且数据存储以结构化为主,有数据量限制,不易扩展;存储数据对象或陈述性知识,搜索代码繁琐、仍需人工推理,知识调取效率低。而知识图谱数据库“蜂巢”,通过分布式知识图谱,存储陈述性和程序性知识,不仅存储多元异构的大规模数据,还存储基于数据的规则与模型,除了解决“做什么”的问题,还能提示人类“如何做”;系统自动推理辅助分析,有效节约知识调用的时间。自然语言的语义搜索降低使用难度,即便是非计算机专业的普通用户也能应用自如。
当数据处理之后,就是如何计算的问题,明智系统中有一个知识构建与管理平台DataInsight。通过规则和机器学习等手段,用大数据分布式挖掘技术,快速从信息中提取和构建知识,并对知识进行固化和管理,支撑各行业大脑。DI可快速应用人工智能技术构建业务模型,并在生产中快速部署和使用;同时提供规则、模型、工具等各种知识管理与分享功能,让知识能够在企业内部有效的积累和使用。
最后是交互输出,通过简单好用的企业级人工智能入口“小明”实现新一代的人机交互,显著提高企业决策的精度、速度、敏捷度,降低知识劳动力成本,真正将知识有效转化为企业竞争力。
Elva Liu表示,MDP是底层的存储能力,DI是底层的计算能力,CONA是知识图谱的治理,蜂巢是知识图谱的存储,上面是“小明”做交互和应用。
“我们治理数据、连接数据、存储数据这一切都是基于AI来实现的。基于此,我们就要继续思考,AI与之前提到的信息化、自动化到底有何区别。”
在她看来,自动化时代其实是将企业和政府的管理流程电子化。比如在公安行业,之前会有传统的笔录管理系统、档案管理系统、户籍管理系统,这些都是传统的电子化、信息化的过程;而今天我们面对的是智能化,智能化是将以前很多警察脑海里的业务逻辑系统化。
信息化对应的是互联网时代,那时候的行业都是靠着信息的不对称去盈利;但今天的信息已经彻底对称了,透明度非常高,更好地盈利模式应该是靠结构化的信息去赚钱。
明略数据现在及未来要做的事情就是将数据‘深度’结构化。
“这个过程实际上就是在构建行业的知识体系,很多行业知识是之前行业专家沉淀出来的,我们要利用AI将这些数据变为知识经济,这是我们未来要坚持走的路。”Elva Liu向雷锋网透露说,“当然,在这个行进过程中肯定会遇到技术同质化的问题,AI算法在上个世纪就已成熟,只是缺乏足够的数据和计算资源来支持。明略数据认为,所有的程序都离不开数据模型,AI算法更需要基于对数据的理解。基于此,明略数据将持续理解行业业务,构建领域知识图谱,将知识图谱与AI算法相结合,构建企业AI大脑,从而完成人工智能的可复制应用。”
除了专注自身领域,明略数据未来还会往哪些行业扩疆?对此,Elva Liu也坦露心声,“明略数据非常看好机器学习及人机交互的发展,聚类、分类、预测、维数缩减、优化等都是值得研究的方向。只要有大的数据集、好的算法和并行分布式计算,就能取得不错的效果。基于此,目前明略数据也正与医疗等行业深度接触。”
Elva Liu坦言,以上所谈都是各个公司的发展理念、技术积累及行业布局;从宏观视角来看,对于AI初创公司来说,目前的大环境(创业环境)已不能再好。如今人们都积极拥抱AI,很多行业也都开始大规模采用AI来节约成本。
但随着AI业务的不断推进,相应的各级高端人才的匮乏也初见端倪。
未来,明略数据在积极招纳人才的同时还将进一步完善个人层次能力、降低明智等AI系统的复杂性和成本、完善系列产品体系架构,提升产品模块化率和开放性,更好地与客户并肩实践行业人工智能应用。雷锋网