资讯 AI+
此为临时链接,仅用于文章预览,将在时失效

如何利用大数据做遗传病智能化诊断?| 雷锋网公开课

作者:张利
2017/03/14 19:36

据OMIM数据库(人类孟德尔病数据库)数据,单基因遗传病的病种数量约有7000种,其中约4000多种致病基因和发病机制比较明确。单基因遗传病单个发病率低,但单基因病种类极多,所以总体发病率高,且具有先天性、致死致残性的特点。

就诊断而言,单基因遗传病涉及多个学科,临床症状复杂,且由于基因的突变具有多样性,每种突变都可能导致不一样的临床症状,而突变的临床意义也相当复杂,故诊断较为困难。而且,许多遗传病都及其罕见,属于罕见病,对于一名医生来说,诊断经验不足,根据症状极易误诊。

所以对于临床医生而言,这些问题显得颇有挑战性:根据患者症状如何快速鉴别其是否为遗传病?患者表现为某些特定症状时,哪种基因突变的概率最大?

如今,随着基因测序成本的大幅下降,随之而来的是基因大数据的出现,在这种形势下,基于基因型和表型的关系,建立辅助诊断系统和临床知识库看起来是一条容易且有效的路径。那么,具体搭建过程是怎样的呢?会遇到什么意想不到的挑战呢?这种方式做遗传病诊断,遇到最大的瓶颈是什么呢?

雷锋网邀请了发布国内首款遗传病智能问诊系统的北京金准基因公司副总裁孙隽回答这些问题。

嘉宾简介:

孙隽,北京金准基因科技有限公司副总裁,2008年博士毕业于中科研昆明动物研究所,主攻细胞生物学,毕业后在美国康奈尔大学营养系继续进行基础研究,2011年回国后希望能够从基础科学走出来向应用方面转化。2013年加入天津华大进行遗传病相关基因检测产品开发工作,2016年加入专注遗传病基因检测的北京金准基因负责产品研发。

如何利用大数据做遗传病智能化诊断?| 雷锋网公开课

雷锋网对其演讲内容做了不改变原意的编辑:

我来自北京精准科技有限公司,这三个词可以概括我们公司做的事情:基因检测遗传病基因检测;专注于遗传病基因检测。我本人也一直从事遗传病基因检测相关产品的研发工作,今天主要和大家分享的是遗传病基因检测的原理和目前的一些进展,以及随着大数据而来的智能诊断。

(公开课视频如下,孙老师声音甜美、循循善诱……强烈建议先看视频!)

基因、表型、疾病与诊断

事实上,疾病就是人体表现出表型的一种,即每一个人表现出的样子,这些表型中有些不是疾病,只是体现出人体的多样性,比如肤色、发色、智商、身高和运动能力等,这些差异不是疾病。但是有一些表型就是疾病,比如说智力障碍、先天性白内障等,这些严重地影响到正常生活,就称之为疾病。我们可以说每个个体表现出的样子几乎都和遗传相关,疾病也不例外。

同时凡事都有两面性,无论疾病还是其他表型都受环境和遗传因素两方面影响,环境因素包括营养因素、理化因素、社会因素和感染外伤等,遗传因素包括染色体异常、单基因缺陷等。但是疾病与环境和遗传的相关程度不同,有些疾病受遗传因素影响的比较多,比如说染色体病、单基因病、孤独症、一些先天性的缺陷和障碍等。一些疾病受环境影响比较多,比如理化因素的损伤、外伤等,这些疾病完全受环境调控;一些疾病既受环境影响,也有遗传因素影响,比如身高矮小症,我们知道一个人的身高,即受到环境影响,也受父母遗传影响。

一、所谓的遗传因素是什么呢?遗传因素的本质什么呢?

要从人的细胞说起,细胞是生命的基本单位,遗传物质蕴藏在细胞核和线粒体中。人类的细胞核中有23对染色体,细胞核中可行使功能的基因约2万多个。染色体展开是DNA双链,基因就是排布在DNA双链上,基因如何行使功能呢?

人体除水分外,蛋白质是最主要组成部分,同时是支撑我们生命活动最关键成分。那蛋白质从哪里来?

蛋白质是由基因编码而来。基因通过中心法则,先转录成RNA,在蛋白质工厂核糖体加工,以其为模板,合成不同的蛋白质。合成的蛋白质到人体的各个部位行驶各种各样的功能,包括血红蛋白、皮肤胶原蛋白等,另外非常重要的一组是各种各样的生物酶。

这时,若有些DNA变化,破坏双链结构,蛋白没办法正常行使功能。比如眼睛晶体蛋白的可溶性既不能过高也不能过低,过高将无法支撑眼球的形状,过低则会使得蛋白沉积,改变眼球的透光性,导致白内障。编码蛋白必须按照正常的程序来做。如果编码蛋白程序不正常了,那会影响到正常生命活动,就构成了遗传病。我们可以说:遗传病就是遗存物质发生了破坏,正常基因功能改变而引起的疾病。

二、遗传病分为哪些种类?基因检测通常是指哪种类型的遗传病?

我们常见的遗传病分为这些种类:染色体病;单基因病;多基因病。

如何利用大数据做遗传病智能化诊断?| 雷锋网公开课

我们目前了解比较清楚、遗传关系和疾病关联很明确是染色体病和单基因病,我们所说的基因检测多半在这个领域,多基因病目前还停留在科研阶段。

三、单基因病和染色体病

单基因病是单个基因缺陷所导致的疾病,有些人可能会想到罕见病,罕见病指那些发病率极低疾病。(关于罕见病,雷锋网对此曾有详细解读:《基因疗法应对罕见病的进阶之路》)中国没有明确的罕见病定义,根据世界卫生组织的定义,罕见病是患病人数占总人口的0.65‰到1‰的疾病。80%的罕见病是单基因遗传病,目前单基因遗传病总共有8000多种,单基因遗传病并不意味着罕见,虽然单个疾病发病率低,但其数量繁多,累积起来可达到这个全球出生人口数的1%。另外,一些单基因遗传病,其本身的发病率就很高,比如马凡综合征、药物性耳聋等。

如何利用大数据做遗传病智能化诊断?| 雷锋网公开课

不同于单基因遗传病,染色体疾病比我们想象危害更为严重,染色体异常包括染色体数目和结构异常。其中,大家经常听说的唐氏综合症、猫叫综合征等,均属于染色体数目异常。

数据表明:几乎所有的染色体都有发生非整体疾病的可能,单为什么平常所见的大多为21三体综合征呢?

那是因为在所有的染色体中,21号染色体的数目最小,故畸变后活胎率较高,其他染色体发生畸变后可能根本就没有活胎。除此之外,染色体畸变与自然流产也密切相关。

我们知道任何事情都有其原因所在,我们看见的是他表现出的样子,背后的原因是什么,进一步的分析才可能进行下一步防控。

四、那我们怎么样发现遗传物质的变异呢?

遗传病基因诊断流程大致是:样本收集,DNA提取和处理,然后测序,或者进行一些实验操作之后,对词其数据进行分析,后由专家团队根据数据分析结果进行疾病关联性分析,最后出报告进行遗传咨询。

当前情况是,不管你用什么样的技术,诊断无外乎就是这些流程,只不过在数据产出阶段,存在不同平台和不同策略,即做不一样的调整和组合。

如何利用大数据做遗传病智能化诊断?| 雷锋网公开课

什么阻碍了我向前?——遗传病检测和诊断最大的瓶颈

遗传病的检测和诊断,目前它最大的瓶颈和挑战是什么呢?

目前,单基因病的总体检出率在50%以下。整体看来,可以分为四个部分:8000余种单基因病中有4000多种致病基因是明确的,理论上这些疾病可以检测,但其中有一部分由于技术局限性的限制没办法检测,意思是虽然明确具体哪个基因有缺陷,但测不出来。

如何利用大数据做遗传病智能化诊断?| 雷锋网公开课

常见检测技术有哪些?

所谓检测/测序,就需要借助各种检测技术,目前常见的检测技术整体来说是两个思路:

第一,是把DNA一个个测出来,之后明确致病基因是什么。

第二,是借助芯片和探针,其上带有荧光信号,之后通过荧光信号分析以及一些定量分析确定致病基因的有无。

我们测序的技术分为一代测序、二代测序和三代测序。一代测序的优点是准确,但其限制是通量很低;二代测序,又称高通量测序法,特点是多快好省。在人类基因组刚启动时,数个大国一起花费了几十亿美金,才完成了一个人的基因组全测序。在现有的测序技术条件下,只需几天功夫,花费几千元就能得到一个人的基因组数据。

二代测序技术应用的常规检测流程包括:样本收集、数据产出到信息分析。我们知道,二代测序结果都是一些短序列,需要把成千上万短序列列起来,与参考基因组比对,之后进入信息分析流程,检测变异,进行注释,得到一个待解读变异列表,之后分析团队对这些突变进行分类,并进行一个疾病相关性分析,以确定该疾病的突变,最后还有进行验证和报告。无论二代测序技术应用于疾病基因检测或其它,一般流程都是这个。

但尽管二代测序多块好省,但它也有不足,就是:数据量特别多,是最大的难点。

如何利用大数据做遗传病智能化诊断?| 雷锋网公开课

如何从海量数据中找出真正与疾病相关突变呢?

一、找致病突变两步走

做一个全外显子组测序,可以产生10万个以上的突变,怎样在10万个突变中找出致病突变呢?分为两步:

第一步,对变异进行分类,分类过程中有游戏规则。目前业内人都是遵照ACMG解读分类规则这个标准,这个标准是,美国遗传学会对突变分类设定了严格的条件,其中包括致病性的证据、突变是否属于劣性、是否已经发生过、突变发生的位置等。第一步相对在整个遗传分析的过程中较为简单,真正的难点是表型相关性的分析。

第二步,做完分类以后,已知的和临床意义不明的基因都可能和疾病相关,接下来就需要从这些突变中找出和病人表型相关的部分,在这些突变中寻找这个基因和什么疾病相关。

在以前报道的数据库中寻找,已经报道的病人都是什么表型,与我的病人的表型是否相符。最终确定一个突变是不是某种疾病的原因。用二代测序技术测基因序列之后,我们发现了大量的突变,但仅靠人工去收集那些判断突变的证据,几乎是一个不可能完成的任务,因此,需要用到信息分析流程进行处理。

二、信息分析在做什么?

信息分析主要会产生这几方面的信息:

总体来说,信息分析的方式就是将解读一个突变所需要的基本信息整合起来。那信息分析后的结果呢?

三、表型相关性判断是智能化诊断的难点

做完信息分析后,会发现大堆的已知疑似和临床意义不明的突变。

在这种情况下,需要人工分析每个突变,确定其是否与病人的表型相关,如果相关,会进行报告,后续的会进行各种各样的验证以该突变和疾病的关系。如果只测了一个基因,那产生的突变数量有限,人工可以完成表型相关性分析。但如今的测序技术飞速发展,能多快好省地测越来越多的基因,相应地就有更多需要人工分析其表型相关性分析的需求。在全外显子组测序中,大约会有200到300个突变分析人员做表型相关性分析。其实这种做法的效率很低。那既然有分类规则、有规律可循,可不可以让计算架来帮我们做这些事情呢?

做智能化诊断有多难?

与智能化相伴随的另一个词是大数据。

事实上,人工智能这个概念70年代就已经被提出了,所谓神经网络算法以及一些公式在那个时候就已经有了,但近些年来,它忽然大热,就是因为大数据的出现。没有大数据支撑的智能化运算,就像汽车没有轮子一样。反过来也是一样的,如果有大数据,还需要相应计算能力帮助实现智能诊断。

刚才我们说过了,如果要做病人基因数据、测序数据的分析,人工的做法是:第一步,把突变进行分类,将那些良性或疑似良性的扔掉;第二步,用剩余的突变去关联该疾病的表型,并与重点对象的表型进行比对。

一、突变评级

突变评级有游戏规则,故突变评级相对简单,相对来说也是可自动化操作的。评级无外乎就是参考一些数据库。

1、正常人群数据库

首先是正常人群的数据库,这个是一个非常重要的参考依据,如果要看频率,一定是数据量越大越好,所以,我们常用的正常人群数据库的趋势是越来越大。正常人群数据库的作用主要有2点:

2、软件预测

另外,软件预测的结果也可作突变评级的参考。

其中有保守性预测的软件,所谓保守性预测,是指如果一种蛋白比较重要,那在不同物种中都有该蛋白的同源物。如果其存在不同物种中,甚至在人类的进化中,它都一直在,一只保持不变,那么可能意味着,这个蛋白非常重要。如果它发生突变,相应的个体就会被淘汰掉,这是保守性预测的一个依据。保守性预测是借助于其他物种的全基因组合蛋白数据,而这是非常大的数据量,所以遗传分析离不开数据。

另外还有综合性预测软件,除保守性预测之外,还要参考人群频率,参考氨基酸的生化性质等等数据,这种方法需要多个的数据以证明方法是可靠的,并且是一个不断修正的过程。

3、疾病人群数据库

在突变分分歧时,需要考虑:这个突变是否在过往的有类似表型的人身上出现过。如果有,并且确定它是致病的,那对突变评级是一个非常有力的支持因素。因此,分析也需要非常庞大量的疾病人群数据库。一般疾病人群数据库无外乎包含这些信息:病人的信息:男女、年龄,表型信息;基因型以及数据的来源等。

这些数据库和软件预测,这些证据可以用于突变评级,是我们分析的第一步。综合多种游戏规则写出一个公式,就可以相对方便的,对所得的突变进行分级。

二、真正的难点——症状关联分析

但上述工作做完之后,才遇到智能诊断真正的一个难点——也就是症状关联分析。

传统关联分析的做法是挑出所有需要解读的突变的基因,然后到数据库里看,找到基因关联的是什么疾病,表型是什么。之后,基于之前的受检人信息,人工进行比对。那对于智能化诊断的智能化症状关联,思路是怎样的呢?

如何利用大数据做遗传病智能化诊断?| 雷锋网公开课

具体过程是这样的:对病人进行临床症状的分析,之后进行临床症状的标准化,然后根据标准化的这个词,搜索基因疾病表型数据库,然后得到疾病和基因列表,根据其与和病人表型的相关度进行排序。其中,关联的关键是需要把表达同一个意思、关联同一种异常的不同词关联起来,通过前期的数据积累关联起来,然后才可以把疾病和病人进行关联

1、做这个的难点是什么呢?

在整个过程中,无论用什么算法,无外乎是一种匹配和关联的。但实践落地的时候会碰到真正的难点。

我们在做智能化检索时,在疾病表型数据库方面,目前还存在很大提升空间。其中存在这样的问题:

如何应对这些问题?

对于这些问题,金准基因怎么做的呢?

首先,相对来讲,临床信息不规范的问题目前解决得比较好。我这里给大家介绍的是HPO——临床症状定义、分级。HPO,创建描述人类疾病中异常表型的标准词条,每一个词条都能精确描述一种人类异常表型,并且组成一个树状结构。也就是说,目前所能想到的所有疾病体现出的所有表型,全都标准化了。

它的特点是没有含义是唯一的,很精细,关系明确,计算机可识别。

目前,HPO数据库总共包含了11000种表型,并且其与疾病关联到了一起。也就是说,这4000种疾病分别都有哪些表型,这个数据库已经进行了基本的关联。中国对HPO数据库进行了一个标准用语的翻译,即所谓CHPO。截至2016年10月,已翻译词条11896种。

下面这张图清晰地呈现了其构架:呈树状结构;根部是眼部异常,往下走是眼部形态异常,之后眼球异常,眼前节异常、晶状体异常到白内障,最后关联到一个最底下一个单独的ID是先天性白内障。

如何利用大数据做遗传病智能化诊断?| 雷锋网公开课

有了HPO以及注释出来的数据库以后,就可以就是做一些智能化表型关联的尝试。北京精准科技有限公司推出了国内首款单基因遗传病辅助软件——明鉴系统,我们的做法,也如前面所介绍的。

三个案例

案例一:“我们还没有达到100%精确的地步”

这是一个11岁的男孩,其临床表征是是肝硬化、门静脉高压、肝功能亢进、全血细胞减少。看到这种情况,医生想重点关注的基因是:血色病相关4个基因(HAMP、HFE、HFE2、SLC11A3 )、多囊肾(PKD1、PKD2)、先天性肝氢氧化。但在这几个基因上均未发现可疑的突变位点。

但我们通过基因检测,在PKD1这个基因上呢,发现了一个已知的致病突变,所谓已知是指已经在病人中被检出过了,意思是其致病性应该是非常明确的。

那这个案例在明鉴系统上如何操作呢?

首先呢,TERT基因对应21个OMIM编号的疾病,共101种临床表型。这个病人两个主要的临床表型是肝硬化和全血细胞减少,肝硬化对应的是72个基因,全血细胞减少对应74个基因,因此两者对应基因交集,理论上便是参考范围。这是我们计算的一个原则,我们做了这个交集以后,得到了10个基因。TERT也在这10个基因中,并且排名非常靠前。这个案例中,明鉴系统找出一个列表,但这个列表并不是唯一的,所以我们还没有达到100%精确的地步。

案例二:在不明确症状时,选择更广义的症状

第二个案例是一个11岁的女孩,双下肢进行性运动障碍四年,肌肉活检、电图没有异常,没有吞咽困难,构音不清等其他症状,仅表现为运动障碍,另外,否认家族史。头MRI检测结果为:脑白质病变。我们对这两个症状进行检索:即输入运动障碍和脑白质病变,明鉴系统做了计算,输出右边框中的这些基因。

如何利用大数据做遗传病智能化诊断?| 雷锋网公开课

结合这个新列表与基因测序的数据,我们发现:排名倒数第二的EIF2B5基因,在白质消融性脑病上出现过,显出一个融合突变。就这个突变,我们也可以关联出一系列有这样表型的列表,进一步提高其准确性。

我们输入运动障碍,这个词所在的根目录是神经系统异常,之后是运动神经异常、神经异常、运动异常、运动障碍。但运动障碍的下游还有各种各样的条目,再进一步,我们把他关联到步态不稳。同时输入步态不稳和白质脑变,发现所关联的基因是EIF2B5。在我们所有的计算结果中,这两种表型的关联结果准确性排名第一。

这个案例告诉我们,在做智能化表型关联时,我们输入的表型直接影响到结果,在不明确症状时,我们可以选择更为广义的症状,从而扩大计算出最终结果的量。

案例三:智能进化,测评失败案例进行学习

第三个案例是一个17岁的男孩,其临床表型是全身皮肤发黑、生殖器未发育,智力低下,口齿不清;主要病史:性激素低下、皮质醇低下、垂体促性腺激素低下、脑垂体核磁正常、肾上腺CT未找到肾上腺;家族史是母亲有智力低下病史、父亲残疾(走路不稳)。

我们在明鉴系统中输入这个病人的几个表型。

第一个表型是肾上腺皮质肾上腺缺失、肾上腺异常;第二个表型是生殖器异常;第三个表型是皮肤色素异常。在这3个表型的引导下,我们生成一个基因突变列表。关联这些基因与基因测序数据,我们没有发现可疑突变。但我们进一步分析发现,这个基因有其他类型的突变。我们进一步对这个案例进行分析,在生成的结果中排名第一的NR0B1基因有一个原因未知的情况。

我们到数据库中看这个基因,其所关联的表型肾上腺发育不全、促性腺激素分泌不足、性腺功能减退症,但是46种表型中并无智力低下,并没有病人智力低下这一表型,因此其是不相符的。但我们进一步分析发现,另外一个基因IL1RAPL1,表型为X连锁智力低下21型、女性杂合携带者会出现轻度智力低下。

这个案例是这两个基因共同导致的表型,不是一个严格意义上的单基因病,而且是两种单基因病共同组成的一个复杂表型。我们对这两个基因进行分析,发现他们在染色体上的位置非常接近,均有缺失/插入的疾病报道,临床症状符合,之后我们就去做了临近缺失及重复致病可能性计算。

我们不断积累这样的案例,不断测评并且反馈给系统,这个系统得以不断改进。我们的愿景是,我们需要进一步提升该系统的表型关联、准确性以及各方面的技能,我们能做的就是数据积累,才可以不断测评,不断改进。

总结一下,明鉴系统的特点有:

1、辅助临床症状输入:根据HPO树状结构,标准化语义输入是遗传病诊断的根本。

2、相关基因突变类型提示,即基因突变多样性。

3、智能进化,测评失败案例进行学习,研发改进方案。

4、方便后续数据管理——下载及快速关联。

最后总结一下,表型相关性判断是智能诊断的难点,是做遗传分析两大步中非常重要的一部。难点在于,病人临床信息不规范、临床信息不完整是两个相对来说比较容易解决的,我们可以使用HPO这样的数据库,对其不断推广、不断改进。如果疾病的每一个患者都用相同的语言来描述临床表型,那就可以很方便地进行关联。病人信息、其临床信息突发性和表型不完全外显等情况是目前需要进一步改进的。我们需要完善疾病表型数据库,该数据库需要包括疾病的不同阶段。疾病不同阶段的人员越多,就可以关联得越完整。另外,人越多越好。

疾病表型数据库本身的构建存在的困难也待于慢慢改进的。首先是疾病树木很多,构建疾病表型数据库难难度非常大。另外,多机构的数据整合困难。

愿景:实现基因组和疾病组的对话

如果说HPO是一个关联,表型的标准化可以实现基因组和疾病组的对话。这里有三个不同的维度:

一、基因组,我们需要覆盖得更全面,需要测试的准确度更高;需要各种各样的算法进行建模;需要很强的数据存储能力;尽量多的人群。

二、表型组:进一步标准化、词条化、统一化。更多进行关联,目前虽然已经有大量的表型,但并没有100%覆盖人类所有的异常表型。

三、疾病组:关键是全和准。疾病组的全和准是遗传病智能诊断的关键。

整个基因检测流程是一个非常长的环节,涉及多个领域,需要IT人员、医生、病人、生物学家等多种力量的参与。对于遗传病来说,其智能化诊断才刚刚开始,彻底推向临床还有待时日。

相关文章:

继DeepMind发力眼疾后,IBM的认知计算能诊断95%的早期青光眼

不放过任何蛛丝马迹,IBM Watson 将利用医学影像诊断心脏病

如何利用大数据做遗传病智能诊断?| 硬创公开课预告

长按图片保存图片,分享给好友或朋友圈

如何利用大数据做遗传病智能化诊断?| 雷锋网公开课

扫码查看文章

正在生成分享图...

取消
相关文章