7 月 7 日,由中国计算机协会(CCF)主办,雷锋网、香港中文大学(深圳)承办的第二届 CCF-GAIR 全球人工智能与机器人峰会,在深圳如期开幕。在大会第三天的医疗人工智能专场,哈尔滨工业大学计算机科学与技术学院教授关毅,带来了开场报告:《怎样构造医生的大脑》。
关老师从事自然语言处理(NLP)研究逾 20 多年,自认是符号主义的粉丝。目前带领一支约 30 人的团队,从事互联网时代面向医疗健康的 NLP 技术研发。关老师做过输入法、智能化信息检索,现在全面转向医疗健康信息学。他认为,NLP 下一个最重要的应用领域会是医疗健康,因为“只有在医疗健康领域,才能做出人人都需要的软件”。
本场报告的副标题是“用认知科学洞见上帝的新机”,关老师对此如此解释:
”‘上帝’,它是指我们生活的物质世界,我们看不见的精神世界的假想的创造者。它创造人类精神世界的时候,一定有些重复使用的简单原则。如果我们能洞见这些原则,我们就可以像他那样,把人类的大脑保存在我们的硬盘里,让人类的大脑像软件一样运行在我们的服务器上。“
讲座一开头,关老师提出了颇有劝诫意味的“三段论”:
应把创新建立在扎实的理论基础上;
理论基础是认知科学;
应从认知科学的新发现、新理论中寻求创新的源泉。
尤刚教授
“这张图显示的是我的岳父,是皮肤科专家尤刚教授,我很喜欢和他聊天,刚开始别有用心,后来我确实喜欢和他聊天,因为他知识渊博。再后来,我觉得我的后半生所能做的所有事情中最有意义的一件事就是把老人的大脑保存在我的硬盘里。”
过去的工作
制定了中文电子病例语言处理加工规范和语料库,中文电子病例实体与实体关系加工规范和语料库,心血管疾病风险因子加工规范和语料库,开发了相关标准工具。
即将开展的工作
把中文病例实体与实体关系标注语料库由 992 份扩充到五千份。在上面开展信息抽取的工作,从中文电子病例中抽取出医疗实体与实体关系,包括疾病、症状、检查、诊疗等类别的实体,以及它们之间多种语义关系。另外还要抽取心血管疾病风险因子。
马尔科夫逻辑
所有工作都是基于有监督机器学习的方法。我们要寻找一种谓词逻辑和概率结合起来快速推理的模型,这些模型要具备这三个基本条件:1.刚才我说的特点。2.坚实的理论基础。3.要有对新知识的学习能力,因为我们要构造有终身学习能力的机器人。在现有的种种模型中,我们选择了马尔科夫逻辑作为我们的基础课题。
针对马尔科夫逻辑网,它存在一个不足——无法表示数量型知识,我们做出一定理论改进,使它能够表示体征中大量存在的数量型知识,从而将马尔科夫逻辑网改进为医疗知识网络的新模型。
医疗知识获取方面,我们需要获取更加复杂的知识,将二元实体关系抽取扩充到多对多的实体关系抽取
医疗知识表示方面,我们现有的知识表示方法存在两点不足:1. 知识表示的能力有限,仅仅是一阶谓词逻辑;2. 不够抽象化,无法直接参与数值运算。对此,我们打算引入知识之间的关联性,开展基于张量的知识向量化以及基于递归神经网络的知识向量化两方面的探索。
医疗知识推理方面,探索复杂知识在概念模型基础上的推理,前者更多凸现知识关联性的知识。深度神经网络通常被人们认为是分类模型,我们要探讨它是否帮助我们完成推理任务。
医疗知识学习是在现有的知识网络的基础上,生成新知识,并且判定新生成知识的可信度这两个子任务。
“认知科学领域一定也存在像牛顿定律那样简单的基础性模型,我们要把人工智能、自然语言处理的探索建立在认知科学的新发现、新原理的基础上。”雷锋网雷锋网