雷锋网按:由中国计算机学会(CCF)主办、雷锋网与香港中文大学(深圳)全程承办的AI盛会——「全球人工智能与机器人峰会」(CCF-GAIR),将于7.7-7.9日在深圳召开。CCF-GAIR为国内外学术、业界专家提供一个广阔交流的平台,既在宏观上把握全球人工智能趋势脉搏,也深入探讨人工智能在每一个垂直领域的应用实践细节。
延续上一次大会的顶级嘉宾阵容,本次 CCF-GAIR 2017 将会迎来更多人工智能和机器人行业重磅专家。在未来的一段日子里,雷锋网将陆续放出嘉宾介绍。今天要介绍的是未来医疗专场的大会嘉宾——哈尔滨工业大学计算机科学与技术学院教授关毅。
关教授的主要研究领域包括:智能化信息检索、健康信息学、网络挖掘、自然语言处理及认知语言学。他主持、参与并完成了多项国家自然科学基金、国家863、国际合作等项目,在国内外期刊和会议上发表学术论文60余篇。
在2013年,关教授和团队与北京一家医保公司合作,在中文电子病历的病因实体与实体关系抽取方面做了的不少工作。自此往后,他逐渐感觉到,医疗健康肯定是自然语言处理的下一个热点,而且“是自然语言处理唯一可能做出人人都有需求的软件的一个领域”,所以选择将它作为团队的主攻方向。选择这一领域的另一个原因,则是关教授妻子的一家人都是医生。
随着国内医疗信息化的普及,中文电子病历的规模也与日俱增。它是有高可信度的医疗大数据,也是有临床决策支持的重要诊疗证据,从其中获取的医疗知识有很高的价值。
关教授及团队在医疗方面的研究用一句话概括就是:互联网时代面向医疗健康的自然语言处理技术,从医疗大数据、中文电子病历中挖掘知识,然后进行预测和推理相关的研究。而他们的核心研究成果之一,是医疗知识网络(Medical Knowledge Network,MKN),或者用更为外界熟悉的词来说,就是医疗大脑。
所谓医疗大脑,就是计算机对医生疾病推断过程的模拟,雷锋网在往期硬创公开课中也对这一概述有过详细介绍。它是个比较笼统的称呼,各家的定义及作用也不尽相同。简单来说,它是一种知识库以及基于此的逻辑推理和计算。它可以泛指医疗从业人员智慧的总和,可以独立提供用药辅助、分诊导诊、健康咨询,也可以高质量地辅助医疗从业人员完成某项工作。
关教授告诉雷锋网,在做智能诊疗研究时,首先要选择基准模型,能将逻辑规则和概率能结合起来进行快速推理。经过调研,他们找到了马尔科夫逻辑网(Markov logic network),一种可以进行不确定推理的概率逻辑。
虽然这一模型比较合适,但它也有其缺点。关教授表示,它只能针对二值变量,不能表示数值型的值,而数值型的体征数据在医疗领域中大量存在,这让模型不能完全适用。为此他们做了理论创新,采用物理学中的能量函数表示势函数,使马尔科夫模型能表示数量型的知识。这个改进版的模型,就是最终的医疗知识网络。
回顾MKN开发的过程,关教授提到,将技术应用于医疗领域的难度比自己设想的要难得多。“我最大的体会是,要和医疗部门的专业人士紧密合作才能有所收获。我之所以进展顺利,也是因为确实有这个条件,方做出了有价值的工作。”
现在的机器学习方法以监督学习为主,这就需要大量人工标注的语料,而其中又必须有专业医生参与,把他们的知识固化成资源,供计算机模型来用。
如今,智能诊断这个方向越来越热。在工业界,如百度、IBM、阿里这样的大公司,以及康夫子等初创公司,均在打造属于自己的医疗大脑。
关教授认为,对于智能诊断来说现在知识的量化(指数量)还远远不够,而且从电子病历提取了很多经验知识,还要与常识相结合。
“这本身是一个多知识源融合的问题,就像人需要广泛涉猎医疗知识一样,机器也是如此。知识的积累在量上要达到一定规模,才能产生预期的智能效果。现在大家都是在爬坡的阶段,不会是一蹴而就,而是相对比较漫长的过程。”
而其中面临的挑战,除了时间,还有技术上的。关教授告诉雷锋网,知识的抽取、知识的表示、医疗知识的推理、新知识的学习,这些都是目前学术研究的热点,也是他们正在攻克的领域。其它需要探索的方向还有,基于最大间隔的知识权重训练方法,知识的自动扩展,以及在线学习的新方法等等。
对于另一个热门技术——深度学习,能不能用它进行推理,也是学术和医疗应用中在研究的领域。
“深度学习能不能进行推理还有很多不确定。能不能通过知识的向量化,用张量表示知识,用递归神经网络来表示知识,并在这一基础上进行深度学习相关的推理?”
关教授告诉雷锋网,深度学习在特定疾病的诊疗上有突破,但他们的努力方面是试图构造一个医疗专业大脑,这方面他们做了很多工作。
以上有关人工智能如何服务医疗知识的挖掘与应用的内容,关教授会在CCF-GAIR的演讲中有所涉及,他会从自己的研究出发,为我们揭示如何开发一个真正的医疗大脑。如果你想近距离了解关教授的研究成果,欢迎购票参会。