雷锋网AI科技评论消息,全国知识图谱与语义计算大会(CCKS 2018)于 8 月 14 日至 17 日在天津举行。在中文电子病历命名实体识别评测任务中,阿里健康团队夺得冠军。
CCKS 是由中国中文信息学会语言与知识计算专业委员会(CIPS)定期举办的全国年度学术会议,致力于促进中国语言与知识计算领域的学术研究和产业发展,为从事相关领域理论和应用研究的学者、机构和企业提供广泛交流的平台,已经成为国内知识图谱、语义技术、语言理解和知识计算等领域的核心会议。
这一事件在雷锋网旗下学术频道AI科技评论数据库产品「AI 影响因子」中获得相应加分。
CCKS2018 的电子病历命名实体识别任务基于 600 份标注好的电子病历文本,参赛者需通过识别并抽取出其中与医学临床相关的实体,并将它们归类到预先定义好的类别中,包括解剖部位、独立症状、症状描述、手术和药物等五类实体。
阿里健康团队以两种序列标注算法为基础,首次在医疗文本领域采用了 cw2vec 的方法构建词向量矩阵,基于全部的非标注文本和标注文本集训练词向量,以解决新字无法识别的问题;同时改进了汉字结构和拼音的特征的一般方案。最终,团队以严格指标 0.8913 的成绩取得了第一名。
「医疗命名实体识别只是我们团队工作的一小部分,也是我们面向医院和医生提供医疗人工智能服务的基础。」阿里健康人工智能实验室主任范绎表示,阿里健康团队长期专注通过实体识别、实体链接、关系提取等手段从电子病历中识别信息,并在此基础上对信息进行融合和整合,以知识图谱的呈现形式,为其他服务提供数据基础。
据了解,基于电子病历数据,阿里健康打造了大数据科研平台、临床辅助决策引擎等针对医院和医生的多款产品,为广大医生和用户提供更加智能的用户体验,帮助其提升专业水平和工作效率。
电子病历结构化是让计算机理解病历、应用病历的基础。基于对病历的结构化,可以计算出症状、疾病、药品、检查检验等多个知识点之间的关系及其概率,构建医疗领域的知识图谱,进一步优化医生的工作。