一个机器医生的诊断,你敢信吗?
苏州系统医学研究所副研究员邓立宗的研究目标,就是让人们能够放心地信任医学人工智能。在他的理想场景里,医学人工智能最后都能转化为实际生活中可被大众信任和日常使用的一种基础医疗资源,让权威靠谱的医学信息查询和获取不再成为问题。
要想获得人们的信任并不容易,更何况人工智能本身还存在“幻觉问题”。一边是容不得半点差错的严肃医学,一边是经常会“胡说八道”的人工智能。就算只是一些微小的语义差异,对于医学判断来说,差之毫厘就失之千里。
如何训练、调教“不听话”的人工智能使之服务于医学严肃场景,是邓立宗博士及其团队的主要研究目标。在邓立宗博士看来,要实现这一目标,最核心的要素是要实现领域知识和大模型的有机融合。因此在之前的工作中,他和团队研发了能够自动进化的医学文本数据处理算法——中文电子病历的表型信息智能结构化与标准化系统(PIAT)算法,并成功入选“2022年度中国医学人工智能代表性算法”。
除了有面向医学领域科研人员的算法平台,邓立宗还与团队开发了一款目标用户为医学生的备考软件。借由大模型与医学数据的结合,标注出教科书上的重点考点,为用户定制个性化的备考助手。
正如邓立宗在与雷峰网的对话中所提到的,大模型的出现对他所在的领域来说是个很好的促进,能让他不再局限于传统的算法模型里,而是可以专注于“大模型+”的探索研究。
近期,2024年度「第二届生物信息与转化医学大会」落下帷幕。本届大会以 “人工智能时代的转化医学”为主题,由北京携云启源科技有限公司承办。来自中国医学科学院苏州系统医学研究所的邓立宗副研究员受邀参会。
借此契机,邓立宗副研究员与雷峰网(公众号:雷峰网)进行了深入对话。以下为对话全文(经编辑):
雷峰网:请介绍一下您目前的您现在的研究方向?
邓立宗:我主要的研究方向是医学大数据和人工智能,尤其关注中文医学文本大数据的处理。
举个例子,现实中,我们知道医生看病是需要先学习教科书上的知识,再到实际场景中,查看这个病人有什么症状,需要做什么检查,最后下诊断、开药,这一系列活动都要结合实际病人的情况做进行。这些动作的产生,都建立在他了解这些医学知识的基础上,以及懂得如何运用这些医学知识。
现在我们的研究工作,就是要机器去学习并应用这些医学知识,从文本中学习这种语言、知识。但本质上,这是一种概率式的学习,而医学是一个非常严肃的领域,我们需要在这研究过程中,尽量提高计算机学习医学知识的精度和准确度,让它能够在严肃场景中生成让用户觉得靠谱的内容。
在过去的五到十年间,我们建立了一整套面向医学文本数据的知识表征、抽取、标化和应用的完整技术体系,这算得上是大模型出现前的知识工程时代积累下来的工作基础。
大模型技术的出现,对于各行各业都是一个大的冲击。以前,每处理一个任务都要单独去写一个对应的算法或模型。现在,一个大模型就能够很好地完成很多任务,不管是实体识别、还是关系抽取,甚至是直接诊断,都能够做到。所以我们的研究方向也在发生变化。
我们现在主要在做的事情是:如何利用大模型技术来强化我们之前整个医学文本大数据处理和加工的流程。
因为我们以前的那些技术,主要还是基于一些小规模的传统训练语言模型,而大语言模型时代,它本身就像个通才,已经拥有很好的知识基础,但它可能还没有一些专业领域的知识,所以我们希望能够好好训练它,思考如何将我们的专业知识有效地灌入大模型中,使其能够更好地服务于医学领域。
简单来说,我们现在在做的是“大模型+”的工作。大模型本身,不是我们研究的全部,但是我们肯定会顺应大模型的发展,让大模型能够很好地和医学大数据的加工技术,以及医学知识的应用技术整合在一起。
雷峰网:是什么契机让您进入医学大数据这个研究领域?
邓立宗:进入医学大数据这个领域主要还是受师承的影响。大约2013年,我的导师蒋太交教授去美国访问,当时他接触到了一些关于医学大数据研究方向的前沿进展。这些进展都共同提到了美国哈佛医学院开展的一个医学信息化项目i2b2(Informatics for Integrating Biology and the Bedside,由美国国家医学图书馆搭建的集成生物学及内部的信息共享平台),主要致力于发展先进信息技术将医学大数据转化为临床应用。
在那几年国外也成立了很多医学大数据公司,医学大数据这个概念在当时非常火热。受此启发和指引,我们也迈入了这个看起来前景光明的领域。在我博士毕业后,蒋教授来到了中国医学科学院,并作为创始人之一创建了苏州系统医学研究所,我也因此跟随蒋教授来到了苏州。
在那时候我面临着一个研究方向上的选择。
第一个是继续此前的研究方向——蛋白质结构预测、病毒序列、结构的分析,
第二个选择是利用当时医科院的数据优势,发展医学大数据。因为上述原因,我选择了后者,医学大数据和人工智能方向。
我们当时的最终目标是想把这种医学文本知识给充分利用起来,去发展机器医生这么一个场景。
雷峰网:从您的学术生涯来看,您从本科到硕博是经历了一次专业的转换,这种跨学科的教育背景对您现在的研究方法和角度有什么影响吗?
邓立宗:是有影响的,我相当于是跨了领域。我的本科在中科大学习生命科学,之后在中科院攻读生物信息学的硕士和博士学位,当时主要是利用AI技术和学习算法进行蛋白质结构的分析和预测。而我后来从事的其实是医学信息学(正确)这方面的内容。这两个学科的发展差异是非常大的。
因为当时我在生物信息学专业学习阶段,整个生信领域数据的规范性和成熟度都要远远高于医学信息学领域,特别是中文医学信息学领域,所以后来在医学信息学领域我们借用了很多生物信息学的理念。
比如说,蛋白质序列或者基因序列,其实也是一种语言,只不过它们更规范——就像蛋白质就是20种氨基酸,提到基因组就是ATGC。他们通过这些不同的符号组成了很多这种排列组合的生物学语言。后来我们做医学大数据的时候,主要处理人类语言。如果你把它想象成是很多单词或者文字的组合,从语言学的角度来看,处理生物符号和人类语言之间,其实差别也不大,所以我们当时把整个生物信息学的方向迁移过来使用了。
就像当初处理蛋白质结构预测的理念是,从序列出发,我搭建一个识别语言的建构,基于这样的语言结构、知识单元,再去做智能化的抽取,形成一个知识图谱,最后让机器利用起来。我把学习到的两种东西以这种方式融合起来。
雷峰网:您和团队对大模型所带来的改变有什么看法?
邓立宗:它的出现,给我们指明了未来技术发展的方向。刚开始出来的时候,我们确实非常受到震撼,当时以为会像蛋白质结构预测领域一样,直接被颠覆,但是后来其实并不像我们所想的那样。它只不过是打开了一个新的口子,让科研人员可以顺着这个方向,进一步去做更多事情。
在大模型落地医学场景的时候,我们也发现了各种各样的问题。
因为大模型在本质上是世界知识的一个压缩器,属于概率化的模型。而医学场景是非常严肃的,它对可解释性和精确性的要求极高。但是大模型有时候可能会胡说八道,要怎样消除这种幻觉问题,让它真正地能够落地。比如,用积累的知识图谱、医学知识去强化大模型,降低大模型的幻觉率。这是我们在探索和思考的方向。
整体来说,我觉得大模型的出现,对我们这个领域有非常大的促进作用。它让我们从以前各种各样的模型里解脱出来,现在我们只需要专注于“大模型+”就好了,它成为了我们整个技术体系的重要拼图。
雷峰网:针对大模型落地产生的幻觉问题,现在有什么解决办法吗?
邓立宗:对于这样的一个对话模型,我们所要解决的问题就是,希望大模型在医学场景回答的时候能够更准确、更可溯源,不容易胡说八道,避免给患者或者医生带来困扰。现在有一些新的技术,比如在检索增强方面进行改进,但我们通过实验发现,其实还是没有办法有效避免幻觉问题的出现。
通过深入分析发现,要解决幻觉问题,对医学知识的精准表征很重要。
举个例子,像医学的同义词,比如发热、发烧、体温39度等,这些都指向相同的概念,但其中发热有分高热和低热,腹痛也分为上腹痛、下腹痛。这些微小的语义差异对于医学判断来说,差之毫厘就失之千里,因为它可能完全导向不同的疾病。所以现在我们正在通过把这些知识规范化,使大模型能够大幅度地提升知识检索的精度。
为了验证这一说法,我们当时做了一个大海捞针式的实验。先是一个精准的信息检索,模拟医生翻书看病的过程,也就是检索咨询的过程。我们发现,通过目前这种向量化的表征方式,大模型的检索质量并不好。而知识规范化后,其检索精度就能发生显著改变。
所以我觉得,在未来要思考,怎么样让大模型这样的类人智能在类似医学的垂直领域成为专家。我们不能够那些知识通过字符串凭空生成,而是要让它能基于很精确的知识基础发挥作用。不管是在大模型生成之前就进行精准化提高,还是在其生成中间或者之后,我认为都有和精准知识基础结合的必要。
雷峰网:您团队所开发的基于中文电子病历的表型信息智能结构化与标准化系统(PIAT)是如何解决这一问题的?
邓立宗:PIAT(Phenotype Information Annotation Tool)系统是我们团队开发的一个医学文本数据处理的自我进化平台。它能够自动精准标注医学新知识和医学信息,还能够自动对其进行规范化表达和统一表征。这个系统不仅能够识别术语型和数值型表达,还能将它们映射到国外医学语言系统,从而实现医学文本数据的结构化、标准化。
此外,该系统还有专家帮助机器进行校对。如果计算机识别有误,专家则予以修正,所累积的错误信息可用以更新底层知识库和模型。通过这种方式,系统就能不断地提高处理效果,所获得的数据也能够为后续的智慧医学应用开发提供参考。
在实际应用上,PIAT系统此前也用于和北大人民医院合作的一次课题中。我们利用PIAT系统对类风湿、关节炎进行亚型分析,还基于这种结构化、标准化的电子病历数据做了辅助诊断模型。目前,PIAT系统主要在科研层面与专家合作。我们也希望未来能与医学信息化方向的企业合作,因为他们具有将信息系统打通的能力。
对于PIAT这个平台,我投入比较多。因为它不是单纯的科学研究,我不像以前只是做算法的评估和技术。在开发过程中,需要协调很多资源,包括IT开发、算法开发,并做好统筹规划,包括涉及到整体的交互设计,需要去研究如何让这个界面对用户更友好,还有一些底层的进化设计,我由此收获了工程化思想的体验和技能。
雷峰网:现在国内医学大数据分析领域现在发展到什么程度?主要面临什么样的挑战?
邓立宗:相较于十年前,现在国内医学大数据领域进步得特别快。从国家层面提出大数据战略之后,各种产学研的目光都被吸引过来了,我们这个领域也获得了很多关注,大家开始在这个赛道上发力,现在在应用层面算是百花齐放。
但就整体而言,这个领域好像还没有深入地影响到整个社会层面,还不能够在深度诊疗环节发挥核心作用,真正地解放医生的工作量。举个简单的例子,就像是现在,我们还没办法完全信任一个机器医生给出的诊疗结果。
就挑战而言,我觉得第一,尤其在中文领域,它的整个标准化体系相对来说比较缺乏。国际上有很多成熟的医学术语标准,比如SNOMED这样统一的语言体系。第二就是在发展算法的时候,我们会面临训练数据比较稀缺,导致其泛化能力不够强的问题。这好比我们在做学术研究的时候,训练题做得很好,但并不意味着在真正实践时就能做得好。
后来我们解决这个问题的思路是,用进化式的思想来做。按目前的程度,肯定不可能一下做到完美,做到90分都很难。就像互联网公司经常提到的“数据飞轮”,先建立一个体系,让用户用的时候给你反馈。而这个反馈能够反映到底层模型的迭代更新上,不管是知识库的积累还是模型的更新,最后它会变得逐渐进化。抱有这样的学习系统或者进化系统的理念,才有可能不断地从60分做到90分。
雷峰网:说到医学术语标准化体系,现在我们国内的医学术语标准化体系有哪些团队在做?大概处于什么样的水平?
邓立宗:就如我刚刚提到的SNOMED系统,应该是目前世界上最大的医学术语标准化体系,它是美国国立图书馆在做。我们中国其实也有不少这类标准化机构,影响大的就是国家卫健委所组织的。他们非常重视标准,同时也在陆陆续续发布很多常用的临床医学术语。我还听说还有个企业也在做这类标准化业务,浙江的OMAHA公司,做的也非常好。
整体来说,这种标准化系统的建立和推广都需要很多力量投入,所以不管是对于学校还是研究组,都是一个庞大的工程。
我们国内的标准化体系发展起步相对比较晚。当年我的导师蒋太交研究员2013年在国外接触到i2b2的时候,其实那时候他们已经研究了很多年,也发了很多的文章,进行了各种应用。而那个时候,国内才刚注意到这样的概念,才开始对这块领域有所研究。
我们也有尝试过在医院里实际治理过一些数据,当时发现挑战非常大,因为整个流程体系都没有建立起来。后来通过各方的努力,才慢慢把标准化的链条理顺。从0到1走完之后,从1到100就相对好一点了。
雷峰网:那您觉得要推进中文医学术语标准化系统的建立,应该在哪方面发力?是从高校对于医学生的教育开始,还是从医院的实际应用上开始?
邓立宗:我们确实注意到,有些医院也在做结构化、标准化的病历数据处理,并且做得特别好。但是医护人员需要花比较多的时间进行填写,开发这个系统本身投入巨大,填写这项工作还需要很多的投入。
这个病历系统在医院运行多年,要改造肯定会伤筋动骨,包括像医学指南或者教科书,也不可能进行结构化处理,不然人就看不懂了。
所以这种情况下,我们觉得未来的很长一段时间,还是非结构化、非标准化会占主导,因为很难去约束人们的使用习惯。就像我们讲话一样,人在讲话时就不会在意语言。如果在意语言语法的规范性,反而会限制正常交流。
我们能够做的就是,第一个在技术层面上能够怎么样去改进、第二个在当前的数据和技术条件下,我们怎么样能够最大程度地把医学数据发挥出它应有的价值。
把问题作为导向,可能会比单纯地去思考要怎么样改变现有系统、把这些东西都进行结构化处理会更加有效率且成本更低。
雷峰网:在研究成果转化应用方面,您还有哪些案例可以分享?
邓立宗:我们团队开发了一款名为“文心医考通”的智慧医学应用,用来帮助医学生怎么样快速地看书、背书和备考,让他们能够更好地去掌握医学知识。
当时我们开发这个应用时,就是希望把“大模型+知识”融入一个具体的场景里,去帮助学生背书、考试。最开始的时候,我们想让大模型去形成学习计划类的内容,但是发现它不可控,学生也因为它不够精确,吐槽得多。
后来,我们通过各种各样的技术融合手段,比如知识增强和知识融合,把大模型嵌进去,相当于是一个混合的系统。在适当的地方,知识与大模型互为补充,以这种方式融合在一起后,就能够完成医学生看书背书的一整套流程,如同把一个学霸的思维工具化,提高学习效率。
因为医学是一个以知识记忆为主的学科,像内外妇儿这几本书动辄几百万字,比四大名著还要厚。而医学生要复习的第一步就是要抓住重点考点,这个应用就可以通过大模型的知识融合技术,基于真题,抓出教科书里的重点。
如果一段文字过长,应用还能将这段文字变成问答型的小卡片整理出来,方便用户助学助记。另外,在刷题时产生的错题,应用会基于学习记录,去为用户定制更有针对性的强化训练。用户可以和大模型进行交互,让它成为个性化定制的备考助手。
下一步,我们会想,能不能利用这个AI去学习?比如利用历年的真题出题规律来押题。这是一个很有挑战性的任务。但本质上,就是让大模型去学习规律,再进行知识分析,融合起来,最后提高押题的命中率。
这个应用推出还不到一年的时间。目前APP的注册用户大约是2万多人。就使用频率而言,一周内大概有四五千名医学生会使用我们的APP。
我们的APP并没有与高校进行正式合作,主要通过公众号平台、小红书等渠道进行推广,所以会吸引到各个院校、地区的医学生。现在整体用户体验不错,至少不会再有关于出现事实性错误的吐槽。
雷峰网:您对于这个领域发展成熟后的理想落地场景是什么样的?
邓立宗:我理想中的场景,就像在科幻时代大家所畅想的,大数据最终转化为医学人工智能,在我们生活中发挥作用。比如变成我们可以非常信任的健康助手。当我们身体出现什么小毛病时,可以通过手机或者别的设备直接线上问诊,马上获得很准确很靠谱的医学信息,先让自己心里对这个疾病有个底。这个东西暂时肯定是没法取代医生的,特别是无法取代医生的核心诊疗作用,但作为日常的院外咨询和自我管理还是可以的。
雷峰网:您认为,在未来几年,您所在的领域会有哪些趋势?
邓立宗:在我们这个领域,首先问题导向肯定不会变,也就是怎样做好医学人工智能,让它去帮助临床场景。
大模型在未来是一个绕不开的基座,但在这个基座之上,我们怎么样能够让大模型和医学领域有更好的交叉融合,精准知识这一环少不掉。但受制于大模型本身的原理,幻觉问题避免不了。如果大模型是用于创作,比如讲笑话、讲段子,出现这种幻觉问题没什么所谓。可是对于医学这种严肃场景,未来肯定要进行精细的打磨和强化。
雷峰网:您现在的团队大概是有多少人?苏州系统医学研究所有给您和团队在科研上提供过什么样的帮助?
邓立宗:我们团队的人不多,包括我在内的话是5、6个人。我所在的苏州系统医学研究所,是中国医学科学院19个二级单位之一。我觉得我所在的环境“地利人和”。首先是所里的领导很重视人工智能及转化方向,尤其重视我们这个方向的医学人工智能;同时也会运用一些人脉帮我们进行推广。其次因为我们的研究需要很多的算力,研究所建有一个高性能平台,正好能够满足我们研究所需的算力资源。
雷峰网:团队现在的主要合作对象和合作医院有哪些?
邓立宗:我们所合作的医院主要还是医科院体系内的。我们现在正通过医科院的创新工程,在和协和医院的专家合作,处理他们的数据,以此发展一些关于人工智能的辅助诊断,比如涉及早筛早诊早治的一些应用。
雷峰网:在近日结束的第二届生物信息与转化医学大会上您做了什么样主题的报告?参会后有什么感受和收获?
邓立宗:在大会上,我主要围绕医学文本数据处理这个主题做了报告。我当时用了个词“文心雕龙”,意思是我们做的所有事情,就是为了怎样抓住文本,文本的核心就是那个“心”,如何把“心”抓出来,然后再用高质量数据去“雕刻”智慧医学应用。抓住这个文心是最关键的,接下来的雕刻、应用反而没那么难。
所以我们所有的技术都放在知识的精准表征上,也就是高效的抽取、规范化和标准化,然后通过算法,建立出体系。
我参加这次大会,主要是想去和不同领域的人进行交流。因为我们这领域是个交叉领域,领域跨度越大,带来的灵感和碰撞也就越多,交流也更有意义。不然有时候容易陷入闭门造车,反而解决不了问题。