图片来自asianscientist
12月7日下午,江湖传言不轻易出面且连股东也请不动的碳云智能首席科学家李英睿,出现在了松禾资本的年会,并在演讲中讲了碳云在做的事以及精准医学。
李英睿是碳云智能联合创始人兼首席科学家,曾任华大科技CEO和华大基因首席科学家。2016年,他入选福布斯30位30岁以下亚洲人物榜生命科学榜。
本文由雷锋网根据他的演讲内容整理而来。
公众对精准医学的熟悉,得益于美国总统奥巴马的推广。雷锋网曾报道,2015年1月底,奥巴马在2015年国情咨文演讲中宣布精准医疗计划(Precision Medicine Initiative),它致力于治愈癌症和糖尿病等疾病,让所有人获得健康个性化信息。此后,这些词红遍了太平洋东西两岸。
不过李英睿认为,从数据分析的角度看,只要走的是循证医学的路径,就可以被认为是精准医学,因为循证医学从医意识就是“准确”,最开始就是基于数据的决策。我们现在提出精准,是因为可以从病人处得到更多的可测量特征。
随着技术的进步,我们对人类的测量越来越多。通常的医学关注医学影像,还有身体的各种体征,以及医生对病人的观测。而现在的数据时代,我们能够掌握的比原来要多很多,有移动互联网数据,社交数据,还有各种动态分子信息和蛋白质、代谢等信息,以及身体各个部位的信息。
现在已经有可能形成关于人全局的数据化生命,从静态到动态数据,再到我们自己的行为和社交数据等,这就是所谓数字化生命。
那这些数据会给医学或者健康带来什么呢?
李英睿认为,过去我们是对现象的描述,医疗中做的决策是基于某种局部数据。我们通常去的是分诊,分诊是专科,它通过局部数据来考虑问题。另外还有做决策,绝大部分是多因子线性决策,还是对症下药为主。过往也更多偏向于诊断和治疗,即患者的状态出现了问题,那要对你进行判断、诊断,然后进行治疗。
但是现在与未来的倾向不是会是这样。我们现在观察到的很多东西不是去研究基因的问题,而是基因组的问题,我们不再是研究蛋白的问题,而是蛋白组的问题。很多决策是非线性的决策,而且是以个体为中心的逻辑组织。通过这种的办法,有可能去涵盖预防、预警和预后的情况,这是很大的变化。
新近可测量的全局数据,包括基因组、皮肤、口腔、肠道、生殖道元基因组,还有血、尿、唾液代谢组和蛋白质组,以及可穿戴设备及电子病历等。这些趋势都是在最近5-10年出现的,它带来的好处是,目前业已实现孕前携带者筛查,胚胎单细胞分析,产前基因组检测,进行性遗传缺陷早诊,益生菌和益生元干预等。
实现精准医学,还面临诸多困难,李英睿指出主要包括以下几个。
生物数据本身发展比较快,超摩尔定律发展的全局数据、频繁采样、实时计算,对计算、存储和网络基础设施的要求比较高,这本身就是很难的事情。
另外,大规模全局的系统比对,要求高度的数据共享和知识互联。而数据共享不完全是数据问题,还是格局问题,本身是垂直行业要去思考的问题。在目前为止,绝大部分医疗行业所谓的大数据,只是数据的样本大。
个体数据的多样性和丰富度需要实现数据可视化,知识表述和协同决策网络。而对机器学习技术的误解亟待澄清,并构建人类与人工智能的协作框架,人工智能不是用来取代人类,而是协助人类的。
多层次非线性系统复杂度呈指数级上升,但可解释度下降。深度学习就像一个黑匣子,这个问题仍旧存在。
而且,时至今日各种新型数据的用法,依然是传统的局部数据使用。另外就是,精准医学中的生物信息学仍然处理的是分类问题,并没有涉及真正意义的复杂网络推理和预测问题。
由于这些问题的存在,目前数据在科研上的运用做得很快,但是在临床上还有很多问题需要去解决。搞大数据实际上是搞不过搞数据入口的,掌握了数据入口,才是真正掌握了大数据的要素。
精准医学之外,李英睿认为,医学只是健康的一部分,而真正的健康不仅在于改善我们的医学能力,更在于我们进行健康管理的意识和能力。他表示,美国的路径已经表示,开发再多的药,对寿命的提升还是非常有限的。未来的药物能够适用的人越来越少,但成本越来越高,永远不会把费用控制下来。
所以,健康管理的真正表现,是全面智能管理。今天所谓的医疗部分其实只是精准的诊疗,但要管理的还有遗传风险,要关注一个人的生活方式及其存在的环境。只有清楚的知道一个人遗传的变化,知道其健康生活的方式,知道其生活的环境,再加上医疗的保障,这个时候才能实现全面的健康管理。
个体化生命管理主要体现在下面几个主要的问题:
第一个是要预测生命状态的未来演变趋势;
第二个是预测干预措施及其组合方案,对生命状态未来演变趋势的影响;
第三个是给定生命状态的未来目标,求极大化该目标事先概率的可行干预方案。
他指出,生命管理不止于医学。随着年龄的增长,我们某天去医院做体检的时候,是突然有了疾病的状态。但是疾病一定不是一天之内发生的,而是以前积累的。但今天的逻辑是,你之前都是好的,只是突然有一天你来检验做预测的时候就得病了,这不是特别的合理。
我们今天要关注的问题是,在大数据的情况下,当生命在往疾病状态变化的时候,我们可不可以预测到这种趋势,知道这种趋势的时候,又可不可以提前进行干预,可不可以让生命往更健康的趋势去管理。这就是真正的生命管理要做到的事,而今天我们讨论的精准医疗,是在已经达到医疗状况的时候,怎么对生命进行挽救。
这个里面又有不少技术问题,生命管理又有很多生物信息方面的难点,主要包括:
需观测和分析的数据维度异质;
数据源多而分散,数据流碎片化;
数据特征难以预期;
知识发现方向开放而难以预期;
时间、空间的变量进一步复杂了问题;
以及大规模实时在线计算。
有怎么样的方法能够解决这样的问题呢?李英睿指出,面对这个问题,可以思考这样的问题:为什么人类在面对新的问题的时候都可以找到解决方法,人类是基于什么想法来考虑问题的?
人类能够在看到一个结果的时候,可以判断这样一个数据的特征应该用什么样的算法来看,通过比较逻辑的方向,在这些数据里面去找到新的规律,去解释、分类和识别。
从存储到计算到展现,碳云智能不是去回答具体的问题,能做的事情是建立一个接近于智能的计算框架,当它碰到这些问题的时候,能够发现问题然后解决问题。
具体而言,碳云智能的方法是,一方面把多种异构的数据进行元数据的处理,对于元数据框架,不管是什么样的数据一定要抽过来,做一个基本调整,把它变成可计算的元数据再进行计算。第二就是算法接口化分层化。
演讲的最后,李英睿还认为,在数字化生命管理中,真正的挑战并不来自于科技的不足,而是来自于人类普遍不尊重和爱惜自己的生命。这个才是他觉得健康方面真正的挑战,技术问题反而是简单的问题。