资讯 生物医药
此为临时链接,仅用于文章预览,将在时失效

陈润生院士:中国生物信息学启蒙、传承的三十年「大江大河」

作者:吴彤
2022/11/22 15:02

陈润生院士:中国生物信息学启蒙、传承的三十年「大江大河」

1990年4月6日这一天,陈润生记了30多年,当时他49岁。

那是一个普通的日子,离陈润生从德国纽伦堡大学学成回国,归队中国科学院生物物理研究所已有两年多,期间他拿到“863蛋白质工程”资助,升任研究员。

他一直思考未来的研究方向,读了不少关于人类基因组计划(HGP)的报道和讨论。

就在这一天,陈润生看到一篇由James Watson(被誉为“DNA之父”)发表于《Science》 的文章:“The Human Genome Project: Past, Present, and Future”。

在论文开头,Watson写到,“ HGP所用花费要比登月计划少一个数量级,但它对人类生活的影响是更大的……当我们最终能解读DNA分子中编码的遗传信息时,它不仅能帮助我们了解正常人有什么功能,还能在化学水平上解释遗传因子在许多疾病中的作用,如夺走了成千上万人的生命的癌症、老年痴呆症、精神分裂症。”

这些描述让陈润生激动不已——世界对岸有人搞起了人类遗传密码。他决定给Watson写封信,表明对这一卓越科学事件的理解与支持。

陈润生当时只是一个普通科研人员,毫无知名度,而Watson早在20世纪中期就拿下诺奖,并时任美国国立健康研究院(NIH)首位人类基因组研究中心的主任。

两人素昧平生、身份悬殊,“我写信过去并不指望有何反馈或回报,国内根本找不到同行 ,只是想宣泄一下自己的情绪 。”

一个月后,陈润生收到了来自NIH的邮件,信是Watson委托美国人类基因组计划办公厅的主任而写,并随信附了两本材料。其中一本是被陈润生珍藏多年、封皮起皱的美国人类基因组第一个五年计划的正式文本。

这份漂洋过海的文本,开启了陈润生后半生重要的生信方向,也翻开了中国人类基因组研究的第一页。

一封漂洋过海的来信

1987年,一位在美国工作的马来西亚华裔林华安博士(Hwa A. Lim),首创生物信息学(Bioinformatics)一词。他给出Bioinformatics的定义:生物信息学是一门收集、分析遗传数据以及分发给研究机构的新学科。

1990年10月,人类基因组计划在美国正式启动,生物信息学这一新学科也相伴发展。在美国人类基因组计划正式文本中,着重提到了基因组信息学:它是一个学科领域,包含着基因组信息的获取、处理、存储、分配 、分析和解释的所有方面。

1991年,我国科学家讨论如何参与基因组研究,重担落到了时年66岁的吴旻身上。

吴旻1961年从苏联学成回国,开始创建中国的现代人体细胞遗传学研究,70年代投身于食管癌的遗传病因领域,在国内首倡并开展对人类疾病进行基因治疗,1986年在“863”资助下开展基因治疗研究。

到90年代,吴旻身兼数职,当选中国科学院学部委员(院士),并担任中国科学院生物学部副主任。时局促动下,吴旻成为中国开启人类基因组计划和生物信息学科的牵头人。

1991年5月,吴旻被任命为国家自然科学基金委员会生命科学部主任,任期至1995年。

吴旻想在任期里把参与HGP的事情办成。1991年底,他向基金委递交了中国人类基因组计划的重大课题建议书,提出并组织我国人类基因组计划重大项目。

陈润生院士:中国生物信息学启蒙、传承的三十年「大江大河」

吴旻

这一举措获得了中国很多著名科学家的支持,有谈家桢(中国现代遗传学奠基人)、邹成鲁(近代中国生物化学的奠基人之一,时任中国科学院生物学部主任)、强伯勤(主要从事脑发育以及神经系统疾病相关基因的结构与功能研究)、陈竺(从事人类白血病和基因的研究)、罗辽复(80年代初由物理学向研究理论生物物理研究)、张春霆(80年代中期由物理学转而研究计算生物学和生物信息学)等,不一而足。

陈润生院士:中国生物信息学启蒙、传承的三十年「大江大河」

邹成鲁、谈家桢、强伯勤、陈竺、罗辽复、张春霆

1992年国庆节的第两天,吴旻游完泳穿衣时脚下一滑,身体向前扑倒,面部着地、满脸是血,后经医院照X光发现鼻梁两处骨折,左眉尖上缝了5针,打了破伤风针。

此时,正是中国人类基因组计划的重大课题建议书评审的关键时刻,4天后又要在基金委进行一次答辩。时任生命科学部副主任的赵宗良心急如焚,却无法替代上场。

10月6日,答辩如期进行,吴旻头裹纱布报告了我国人类基因组计划项目实施的重要性和深远意义。

这场一波三折的答辩,终于收获了顺利通过的结果。吴旻在他的“我与科学基金”一文中提到:万幸我没有感染。

另一边,陈润生也在时刻关注国内人类基因组研究的线索。这位42岁(1983年)加入中国共产党的党员,迫切想加入学术大集体中。

陈润生仔细阅读了美国HGP的正式文本。他认为,信息分析包括序列的组装与功能元件的标识,是本项目的关键。

1992年,陈润生得知吴旻正组织我国的人类基因组研究项目。但他不认识吴旻,更不知如何把想法告诉吴旻。

陈润生想了很久,非常怕被拒绝。他了解到,吴旻组织的团队主要来自医学研究部门,没有中科院的单位和人员。

那时候,陈润生是中科院生物物理所的研究员,直接找吴旻既怕不见,又怕被拒,这样就没有回旋的余地。

思来想去,陈润生还是让自己的研究生徐军试一试。

徐军本科在清华大学就读(现在美国加州洛杉矶工作),不仅聪明而且机敏。对于上门拜访这件事,陈润生嘱咐, 如能见到吴先生,只谈两点:

“一是以我的名义,说我已经跟Watson联系过,并拿到美国HGP正式文本,一直想归队。我们做理论生物研究,是基因组研究所必需,也是互补的,希望能让我们参加,补上序列组装和数据分析这一环;二是我们知道经费紧张,我们理论研究只要带着计算机和脑子就可以工作,不分经费。”

没想到,吴旻很顺利地接见了徐军,告知徐军回去等消息。这边吴旻立马找到强伯勤、陈竺商议,并最终由强伯勤出面欢迎陈润生团队的加入。

万事开头难,陈润生感慨:“如果吴先生没有接见徐军,我肯定没有机会在国内最早从事生物信息学研究,也不会成为基因组学和生物信息学专家。”

1993年3月,江苏无锡的放射原子研究所内,召开了一场重要的“中国人类基因组评审研讨会”。

经过充分讨论,基金委全委会最终通过了吴旻的建议书。会后吴旻感言,“此项目历经一年多的多次评审,终于完成了立项。”

吴旻那时已经67岁了,考虑到人类基因组研究是一项跨世纪的长期任务,应该让年轻的科学家来担此重任,故推举当时还年轻的陈竺、强伯勤担任此项目的负责人,并吸收一批中青年科技骨干承担项目的主要任务。

1993年9月28日,由国家自然科学基金委员会生命科学部组织的,以谈家桢教授为组长的专家组,在沪论证并通过了强伯勤教授、陈竺研究员申请的《中华民族基因组中若干位点基因结构的研究》重大项目,中国人类基因组计划(CHGP)正式启动。

陈润生院士:中国生物信息学启蒙、传承的三十年「大江大河」

江苏无锡江苏放射原子研究所内的中国人类基因组评审研讨会,吴旻(前排右一)

尽管与美国启动HGP的30亿美元相比,中国的经费仅有300万人民币,但项目组仍然为陈润生的课题分配了经费。

陈润生课题组的任务是DNA序列的拼接、组装和功能元件(主要是编码基因)识别的方法研究。

为此,他们建立了DNA序列的统计分析、分维分析、神经网络、复杂性、局域简并度等多种方法,特别是在国际上首次提出密码学方法,并将这些方法综合起来用于基因识别等,提高了预测的成功率。

能把密码学知识用于DNA序列分析也是机缘巧合。

大约是1991年下半年,陈润生听说曾肯成教授、裴定一教授要组织一个密码学培训班。他想看看遗传密码是否与军事或商业中使用的密码有关联,因此和徐军一起参加。

徐军用了一年左右的时间完整地参加了培训,陈润生只参加了讲座。

虽然了解了皮毛,但他们也学了一些方法,并尝试把一些公式改成能计算四个字符(CGAT)的 DNA 序列,得到的结果颇佳。于是,密码学分析技术也用到了基因组分析。

尽管陈润生团队发展和应用了多种算法,但是在基因组序列上依然只找到很少的编码区。通过和国内外同行交流,大家逐渐产生一个共识:人类基因组中用于编码蛋白质的序列很少。

陈润生表示,“最初议论大约也就是10%,很快发现10%也估高了。”

如今,业内知道的是人类基因组中编码蛋白质的基因序列,只占人类基因组的3%左右。但在上世纪九十年代初,虽然不能精确知道编码序列所占的比例,“但只占一小部分的概念是非常清楚的。”

彼时,国内外学术界很多人将约97%的“非编码蛋白质的序列“称为 “junk”DNA ,  但陈润生有了大胆的想法:这么大比重的 “junk” 不舒服,也不合逻辑!我坚信 “junk”DNA一定有功能。

1993年底,陈润生决定把自己课题组的主要精力放到“基因组非编码序列”的研究上。

尽管在理论物理所、生物物理所和一些学术会议上不断谈到这一研究,但最初几年的外界响应和课题组进展都不大,原因很简单,缺乏实验数据。

与此同时,在吴旻的推动下,由陈竺和强伯勤组织领导的中国人类基因组研究,规模还很小,只是检测了某些特定的基因位点,而没有开展全基因组测序。

无论如何,中国的人类基因组研究迈出了重要的第一步。

中国人类基因组计划的群体接力

中国人类基因组计划和生物信息学的发展,还离不开另一拨人的努力。他们是此后成为华大基因早期骨干的杨焕明、于军、汪建、刘斯奇。他们更为年轻,是国际 HGP 的见证者和参与者。

自1994年后,四人陆续回国,促使CHGP开始与国际HGP接轨。

陈润生院士:中国生物信息学启蒙、传承的三十年「大江大河」

华大四位创始人,左起:汪建、刘斯奇、于军、杨焕明

1993年,于军辞去纽约大学研究助理教授职务,加入“华盛顿大学基因组研究中心”,与人类基因组计划的策划和领导者之一的Maynard V.Olson成为同事。

在那里,于军参与共建了HGP所需要的关键物理图技术,成为早期参与该计划的唯一华人科学家,以及四人中离HGP最近的人。

陈润生院士:中国生物信息学启蒙、传承的三十年「大江大河」

Maynard V.Olson

1993年,于军最先找到汪建。他们同在华盛顿大学,二人商量后一致认为应当把人类基因组研究推广到国内。为此,他们还联系了在丹麦的杨焕明和在德克萨斯的刘斯奇。

1994年,汪建在四人中第一个回国,创建北京华大吉比爱生物技术有限公司(GBI)。他是行动派,充满挑战欲,从1991年主导成立西雅图华人生物医学协会,到去往世界最高最深以及南北两极的事迹中可见一斑。

汪建凭借丙肝和艾滋病试剂生意赚了第一桶金,这笔钱也成为在中国发展HGP的启动资金。

杨焕明也于1994年回国,进入中国医学科学院基础所。

回到陈润生这边。长期扎根中国的陈润生注意到,中国的基因组研究队伍正在壮大。在留洋学者回国的趋势下,他走出国门与国外同行交流技术心得。

从1994年开始的十年里,陈润生先后到访香港中文大学、加州洛杉矶大学、哈佛大学、日本大阪大学蛋白质研究所、台湾理论科学中心等。

这些访问大多为期三个月,陈润生解释到,“三个月能够做成一件事儿,不然你去了跟别人聊聊天,什么也没有落成。”

陆续的访问开拓了陈润生的视野,他成为很早就转向结构模拟的学者,做了大量的电子结构和空间结构的分析。

1996年9月,他在蛋白质空间结构模拟和DNA序列分析领域的工作,被CODATA(是国际科技数据委员会,为国际科学联合会下属一级学术机构) 邀请,在日本筑波大学做“小谷正雄纪念演讲” 。

他成为这年获得“小谷正雄 ”奖(以日本学名字命名,1960年,小谷正雄创办日本生物物理学会,1978年当选CODATA会长)的三人之一。

另一方面,国内基因研究走上正轨,我国的生物信息学也有了发展起色。

1996年,清北两校率先开设生物信息学课程。由于是新学科,师生没有正式的教材,可借鉴的资料更是捉襟见肘。

为了推动生信学科的普及,陈润生从1988年任教国科大时就注重教学讲义的梳理。八年时间里,陈润生的一系列理论推演手稿、查阅的外国技术文本、以及和国内外同行的工作,成为当时最完整详细的教学讲义。

1997年,有两位重磅级学者加入:一是清华生物信息学所长李衍达院士,二是中科院理论物理所所长郝柏林院士。

陈润生评价:他们是真正发展了“生信”的人。

此后,清华生命科学学院的孙之荣也参与其中,并成为组织国内生物信息的学术会议的头号人物。

如今的孙之荣75岁,仍奔走在学科建设中(这段故事将单独成篇,添加作者吴彤微信icedaguniang提前分享交流)

陈润生院士:中国生物信息学启蒙、传承的三十年「大江大河」

李衍达、郝柏林、孙之荣

1997年11月,时任中国遗传学会青年委员会主任的杨焕明,在湖南张家界组织了一次研讨会。

这是我国学术界第一次召开与基因组学相关的研讨会,杨焕明、汪建、于军等人提出了中国人类基因组计划(HGP)的战略构想,这成为他们共同事业的起点。

1998年,时任中科院遗传所所长陈受宜和副所长朱立煌,邀请于军和杨焕明等来遗传所组建一个所级人类基因组中心。

于军、刘斯奇随即这一年回国。

1998年8月12日,在中国科学院遗传研究所,汪杨于刘四人参与组建的人类基因组中心(现中国科学院北京基因组研究所)在北京成立,杨焕明任主任、汪建任执行主任,于军、刘斯奇任副主任。

陈润生院士:中国生物信息学启蒙、传承的三十年「大江大河」

陈受宜、朱立煌

陈润生参加了这次中心成立大会。

时隔24年,他对当时的场景仍然历历在目:“我记得会议是在遗传所主楼前的院子里开的,侧面有一栋小楼,专门腾空为基因组中心使用。房间里只有桌椅,有的桌椅也不全,没有仪器设备,可以说是一穷二白。”

所有的努力都是为实现中国的基因组研究以及和国际接轨,但必须保证每一分钱都要花在刀刃上。

此时的吴旻虽退居二线,但他的一句话被所有人熟知:“绝不允许有任何人从事盈利或带商业色彩的科研,要保住基础科学这块阵地。”

因此,在大规模的人类基因组测序之前,为了进行各项准备和锻炼队伍,1998年,中科院微生物所谭华荣团队、遗传发育所杨焕明团队,以及生物物理所陈润生的团队,商定先进行一个微生物全基因组的序列测定。

这就是“破译腾冲耐热菌基因组的研究”,被视为人类基因组研究前的“练兵”。

在决定以云南腾冲热泉里筛选出的泉生热胞菌B4为研究对象之前,三支团队在中关村微生物所办公楼的二层会议室召开了了关键会议。

当时微生物所准备了四、五个候选微生物,大的约有六百万碱基,小的约三百万碱基。大家分析了各种因素,如能否有新发现、是否帮助解释生命演化、是否具有知识产权、以及最重要的一点——所需的经费最低。

但智者千虑必有一失,因为没有考虑这个细菌基因组的AT碱基含量很高(达到62.4%)GC含量很低(仅为37.6%),最后总的测序量一点也不比一个GC含量高的六百万碱基的基因组少。

这就大大增加了杨焕明团队的测序量,以及拼接、组装的难度。

另外,在这项工作一开始,还找不到现成的软件工具。所有的拼接、组装和基因标识的算法和程序,都是陈润生和团队从头搭建,边做边改。

陈润生的学生宣振宇、李蔚和杨剑成为此次项目的主要参加者,也为他们日后参与国际HGP的工作打下基础。

1998年9月和10月,国家基因组北方研究中心(主任强伯勤院士,学术委员会名誉主任吴旻院士),以及南方研究中心(主任陈竺院士)相继成立。

三个研究中心的建立,正式开启了CHGP的大规模测序,也让中国跻身国际HGP的进程终于有了眉目。

1999年夏天,杨焕明来到吴旻的实验室,他决定参加在英国剑桥举行的国际基因组会议,并将希望在会上争取国际基因组中1%份额的测序工作。

这是国际HGP协作组最后一次确定各国任务的会议。

杨焕明他们知道,这也许就是最后一次加入的机会了。如果不拼死一博,历史性机遇有可能就会这样错过。

这个想法得到了吴旻的支持,加之Maynard V.Olson等专家的帮助,1999年9月1日,中国科学家应邀出席第五次人类基因组大规模测序战略研讨会。

杨焕明为代表,带着做了13遍的人类基因组序列的70万个碱基对测序结果只身赴会,表明中国有能力承担1%的测序任务,并在2000年春末完成。

1999年9月5日,国际人类基因组测序协作组正式宣布,中国成为人类基因组计划成员,承担人类3号染色体短臂端粒一侧约30厘摩尔(相当于约3000万个碱基对)区域的测序和分析任务(也称“中国卷”),这占人类基因组测序工作的1%。

这一天,中国终于成为继美、英、日、德、法后第六个参与HGP的国家。

1999年11月10日,1%计划被列入我国的国家项目,并确定由华大基因牵头,国家基因组南方中心、北方中心共同参与。

“97%的非编码序列不是junk”

就在协作组官宣的4天之后,北京华大基因研究中心正式成立,搬址于北京顺义区空港开发区B区6号楼。

在这栋厂房里,每个人都有一个格子的工位(约2米x2米),环境是开放的,不论是谁工位都一样。

当时的生信团队大约20人,负责人是王俊(曾任华大基因 CEO,后创办碳云智能科技),陈润生的博士生李蔚临时成为王俊的助手。

他们的首要工作是集成与发展算法,为大规模基因组的拼接、组装和基因标识服务。

为了能够如期完成测序任务,测序仪昼夜不停,人也分成了两批,白班夜班地倒。没有实验台,也没有值班室,上夜班的同事一个人负责好几台机器。

算好每台机器的下机时间,定好闹钟,拿上几个实验室的小圆凳拼起来,躺在上面盖上衣服睡一会,闹钟响了就起来操作,一通折腾后睡意全无。

在这支年轻人居多的团队里,陈润生也是其中一员。这时候的陈润生身兼数职,本职还是中科院生物物理研究所的研究员,同时参与到HGP项目中,成了华大基因团队的一员。

此外,自从1999年起,他还被时任中科院计算所所长的李国杰聘为兼职博导,帮忙建立一个计算生物学团队。

虽然分身乏术,但陈润生考虑到HGP的紧迫性,大部分时间还是给了它,“5天里有4天都在空港。”

那时候的华大基因,缺场地、缺资金、缺设备、缺人员。困难重重,压力巨大,唯独不缺的是决心。

他们在测序仪顶上摆放着三根玉米棒,下面贴着用白纸打印的一行红字:穷棒子精神永放光芒!

陈润生院士:中国生物信息学启蒙、传承的三十年「大江大河」

实验室一角

2000年5月,我国科学家终于完成了“中国卷”基因组序列草图的测定工作,是六国里参与时间最晚,完成时间最早的国家。

2000年6月26日,时任美国总统的克林顿宣布,“人类有史以来制作的最重要、最惊人的图谱——人类基因组草图完成。”

与此同时,空港工业区B区6号楼里也举行着一个小型的庆祝仪式。没有鲜花,没有喝彩的人群,甚至没有留下一张合影。这些参与了中国卷的年轻人们,推算着新闻发布会的时间,吃了点水果就散了。

在此之后,陈润生开启了下一场研究。

从90年代初到新世纪初,参加基因组分析工作越多,陈润生越坚信,非编码序列具有生物学功能,自己研究进展不大的原因是实验数据太少。

那个年代,国际上从事非编码研究的还不多,要了解非编码的功能等于无米之炊。陈润生有了一个想法,1999年末看到国内人类基因组测序实验的蓬勃开展,看到华大基因从无到有实现大规模测序的过程。

这让他萌生了建立湿实验室,从而获取非编码研究数据的想法。

但是搞理论的做分子水平的生物学实验谈何容易,人才、经费、设备都是问题。

经费最好解决,自德国留学回来后,陈润生就被吸纳到科技部“863蛋白质工程”中,还有后来的CHGP项目,分给他的经费大部分没花掉,十余年内攒了60万元。

有了这笔经费,陈润生的工作就更容易启动。

他从生物物理所请来了实验做的比较好的邓巍,以非编码序列高达70%的多细胞模式动物线虫作为切入点,并对转录本的长度范围限定在50-500个碱基的序列进行研究。

实际上,这种实验方法在当时并没有先例可循。陈润生团队从头开始设计实验流程、摸索实验条件和参数。为了节省使用经费,陈润生利用在中科院计算所任职的机会,借用那里的大型计算机进行大规模测序分析。

这一待就是四年,2004年,时任中科院生物物理所所长的饶子和不止一次打趣陈润生,“你快归队,你快回来,你干嘛老在外面漂。”

陈润生院士:中国生物信息学启蒙、传承的三十年「大江大河」

饶子和

正是这些“漂泊”的经历,陈润生分别在计算所和生物物理所建立了两支团队(目前共三十余人),终于在非编码领域走出了一条路。

实验方面,邓巍把实验相关的各种探索记录形成了四百多个文件;理论方面,陈润生团队建立了一套自己的非编码基因预测方法。

获益于这种广泛的交叉研究,他们以线虫为对象发现了161个新的非编码基因,由此确定了两个非编码基因家族、发现了三个特异的非编码基因启动子。

更重要的结果是,他们证实,非编码基因与编码基因一样,各自有一套独立的转录调控系统。

届时,陈润生团队所有发现的非编码基因都被收录于GenBank(最广为人知的核酸和蛋白质序列数据库),并于2006年1月6日将论文发表在影响因子11+的《Genome Research》。

三天后,美国科协(AAAS)所属的科学评述杂志《EurekAlert》 也发表了长文介绍了这一研究成果,不仅肯定了上述发现,还指出实验技术的效率比国际上提高了10倍。

接着,凭借线虫研究中建立的整套非编码基因的识别方法,陈润生团队独立承担了人类3号染色体完成图中非编码基因的识别工作,发现了各类型非编码基因近900个。

这些成果都包括在2006年发表于《Nature》的三号染色体完成图的论文中。

每一个成果都来之不易,愿意从事非编码研究的人还是太少。

自2000年起,陈润生团队就开始搜集国际上被实验证实的NcRNA基因及非编码转录本,发展了相应的软件及检索工具,建成了NcRNA数据库——NONCODE。

这是当前国际上最全的NcRNA数据库,已成为很多研究的基本数据源,该工作的学术贡献是提出了非编码基因的分类系统。

文章刚一发表,2005年1月21日《Science》就介绍了该工作。此后,陈润生团队又构建了非编码RNA和蛋白等相互作用数据库——NPInter,这些均为国际非编码基因研究提供了数据基础。

由于在实验和理论上的一些成果,陈润生团队的非编码研究在国际和国内有了一些影响,以后的研究也变得更容易开展。

现如今,陈润生的研究仍然是非编码,但更侧重于“经世致用”,比如核酸疫苗与核酸药。而他牵头研发的长链非编码核酸药物,则瞄准肿瘤、烈性病毒与传染病、衰老三个方向。

陈润生在多次报告和论文中明确指出:人的遗传密码代表着人体的全部信息,现在只能用3%,对疾病诊断治疗能准确吗?实际上,遗传密码的破译给我们带来了数不清的新靶点。如果能够破译剩下的97%的非编码,这是根本上的原始创新。

在与雷峰网的交谈中,陈润生中途接了一个电话。他说到,“下午北京开发区要聊建核酸药物和疫苗基地的事,基础研究到一定阶段一定是转化,我们现在就是忙着转化的事情。”

随着国家“四个面向”,陈润生过去做了30年的非编码研究,慢慢因为学科的重要性开始服务社会,服务经济发展。

回忆起从1993年决定转向非编码领域,陈润生感慨起步之难:国家基金委的基金申请不到,评审断言工作没意义、没根据;长期获得资助的“863蛋白质工程”项目也不让参加。

“直到90年代后期,我们在非编码领域拿到了973项目,近几年作为首席与同行们拿到了基金委的‘国家重大研究计划’项目,说明非编码这条路走对了。”

生信长河中的群英图

90年代,中国的生物信息学发展几乎与国际同步,根基是中国有一支理论生物物理的学术队伍。

陈润生在中国开设生物信息学课程、在HGP上的大放异彩,都与中国在理论研究上、与前辈们的薪火相传息息相关。

1959年9月,陈润生考入中国科学技术大学(下称“中科大”)生物物理系,成为当年考入中科大的1600名学生之一。

这群来自中国天南海北的学生,不仅是全国各省的佼佼者,还有个共同的名字,“中科大第一届全国统考生”。

因为就在前一年,中科大刚刚成立,却错过招生时间,学生只好从其他高校“借调”而来。因此,陈润生这届学生格外受重视,据说录取线也比清北高一点。

中科大首任校长是郭沫若,提议创办一所科技型大学,并确定学校名称、成立大学筹备委员会、起草校歌歌词,种种决策皆他所为。

在成立之初,中科大就承载了我国政治界和科学界的共同构想。严济慈、华罗庚、钱学森、贝时璋、钱临照、赵忠尧、郭永怀、赵九章、王元、龚升等一批中科院学者出动,组成了中科大的教学阵容。

当选为中央研究院第一届院士,被选聘为中国科学院学部委员(院士)的贝时璋,就是此后推动中国生物物理发展的核心人物。

陈润生院士:中国生物信息学启蒙、传承的三十年「大江大河」

贝时璋先生

1958年,学校成立伊始,贝时璋做了两件大事:创建中国科技大学生物物理系、创办中国科学院生物物理研究所(以下简称“生物物理所”)。

当时生物物理学还是一门饱受争议的学科,有些知名学者甚至断言:“只有生理学,没有生物物理学!”

贝时璋顶着反对声音创办了生物物理这门交叉学科,并单独划分了一支理论生物学研究小组。组长是郑竺英,成员有:郁贤章,王湘生,陈传涓,汪云九。

贝时璋对该组成员的业务方向都有具体指导,如,他让郁贤章多注意生物大分子的结构和功能,让汪云久侧重生物系统中的控制和信息。

陈润生院士:中国生物信息学启蒙、传承的三十年「大江大河」

理论组同志合影(第一排左起:夏发生、杜莆、顾凡及。第二排左起:孙纹琦、朱洁萍、邹嘉玉、郑竺英、石淑珍。第三排左起:王湘生、汪云九、万夫远、张鉴铭), 摄于1961 年

同时,为了培养出真正的学科交叉人才,贝时璋也毫不含糊。

他安排生物物理系学生们,物理课和物理系一起上,数学课和数学系一起上,化学课和化学系一起上,考试也和其他系一同排名,绝不打半点折扣。

独特的教学方式,让陈润生一直受着很多老师的栽培。陈润生讲到,“我们通常是今天跟钱先生、彭先生讨论宇宙学、粒子物理、格林函数,明天跟贝先生、沈淑敏讨论生物学。”

大学五年的所有考试中,陈润生无论按照什么系排名都稳居前三名。1964年5月,贝时璋推荐表现优异的学生到中国科学院生物物理研究所,陈润生便是其中一员。

得益于过去所培养的数理基本功,陈润生在做理论生物物理时也更容易上手。

然而时局使然,很多学术研究组不复存在。

至1978年3月,中共中央召开了全国科学大会,邓小平指出四个现代化的关键是科学技术的现代化,并着重阐述了科学技术是生产力这个马克思主义观点,科学研究终于恢复。

陈润生的理论研究并没有因此搁浅,做了大量的大分子结构模拟。1978年底,为了进一步了解结构模拟的理论基础,陈润生被送去吉林大学的理论化学进修班学习一年。

而教授这门课的不是别人,正是被视为中国现代理论化学的开拓者和奠基人的唐敖庆。

这位和陈润生同是江浙老乡的教授,在50年代被调任东北高校,也在那里开启了他的后半辈子。而同样因为调任原因安家东北的徐鹰(排版时插入链接)的父亲徐如人,就是唐敖庆的学生。

陈润生对唐敖庆记忆尤深,其实是被他的学术研究所震撼。

“唐先生眼睛不好,他戴那眼镜是近视3000度,几乎是贴在黑板上板书。他上课从来都是带着一盒粉笔,一个粉笔擦,其他什么都没有,从上午八点到十二点连续推公式,写完一块黑板再擦掉继续。这本事你想,基本功(有多厚)。”

陈润生院士:中国生物信息学启蒙、传承的三十年「大江大河」

唐敖庆先生

受唐敖庆启发,陈润生此后在理论研究上对自己要求更加严格。一次他应邀在华中科技大学讲授量子化学,全程推导公式,从头到尾一字不改。

在陈润生看来,这是锤炼自己的一种方式,“你如果不真正理解,不能把理论的发展记得一清二楚,根本不可能讲这个课,也讲不出来,就卡在那儿下不去了。”

与此同时,1978年后,贝时璋采取了很多措施推动理论生物学研究室的重新组建与发展。

首先,贝时璋分别邀请彭桓武、钱学森等其他领域的著名科学家,给所内研究人员讲解学科发展与学科交叉,并实质性地建立了生物物理学与各专家所属学科的联系。

接着是组建理论生物学研究室。

大约1978年至1979年之间,贝时璋邀请上海生物化学研究所(下称“上海生化所”)的徐京华研究员,作为上海生化所与北京生物物理所联合共建的——理论生物学研究室(下称“联合室”)的主任。

届时,陈润生、丁达夫、王宝翰,都是其中主要成员。

1980年联合室成立后,在彭桓武的支持下,徐京华带领其成员频繁地参加刚建立不久的理论物理所的学术活动,同时也在理论物理所组织了多次理论生物学的相关讨论,如:混沌、熵、耗散结构与生物体的结构、生物大分子的手性和自组织;DNA 分子中遗传信息的表示与特征等。

可以说,七八十年代之交的理论生物学研究,是在贝时璋、彭桓武的组织与指导下,在两研究所的一批研究人员多次讨论中,逐渐形成并迈上了正轨。

然而,国内真正探索DNA序列的物理数学特征,要从1982年开始。

最早把主要精力放到DNA序列上的是内蒙古大学罗辽复团队。

1982年,罗辽复带领团队从理论物理转向理论生物学研究,整个八十年代,这支团队发表了很多关于DNA序列和遗传密码方面的研究成果,如:突变率的S_4对称破缺和终止密码子;核酸起始序列、终止序列和插入序列的统计分析;核酸序列的碱基分布、同源性和Markov性;核酸分子的信息参数和分子进化;遗传密码的退简并规则等,甚至还讨论了为什么遗传密码由四个碱基组成。

很重要的是,罗辽复团队研究和发展了DNA序列分析的理论方法,如:分维方法;特别是信息论的方法,比如提出了最大信息原理、基因序列的平均互信息方法等。

八十年代中期以后,从事DNA理论研究的还有天津大学的张春霆。

1984年5月,张春霆调入天津大学理学院物理系工作,此后他由物理学转而研究计算生物学和生物信息学,并在1987年发表了首篇理论生物物理论文。

张春霆在理论生物学研究领域有两方面的主要贡献:

一是八十年代末提出,用双 Sine—Gordon 偏微分方程组来模拟 DNA 分子在转录和复制过程中碱基运动的动力学机制;

二是九十年代初,提出了 DNA 序列的 Z 曲线理论,开拓了一条用几何学方法分析 DNA 序列的新途径。目前,Z 曲线理论在基因组学和生物信息学中已获得了广泛的应用。

第三支队伍就是陈润生团队。

实际上陈润生做DNA理论研究也是在上世纪八十年代。

1982年,在一个理论生物学研讨会上,罗辽复受邀分享关于DNA序列分析的报告,陈润生就和他讨论了核酸序列的分析问题。

1987年底,陈润生为期两年的德国访学结束,此时国际上已经有了破译人类遗传密码(即“DNA”)的趋势,陈润生做出一个重要判断:遗传密码将是未来很重要的一个方向。

受“863”项目资助,陈润生很快转向基因组序列研究,并在90年代初将这部分工作延续到CHGP项目中。

总的来说,八十年代到九十年代初,我国在DNA序列分析的理论方面已有建树,特别典型的是:罗辽复团队提出了DNA序列分析的信息学理论、张春霆团队提出了DNA序列分析的几何学理论、陈润生团队提出了DNA序列分析的密码学理论。

而如果以更长远的视角来看,从五十年代以来,贝时璋、彭桓武、徐京华、江寿平、丁达夫、王宝翰……这些前辈,无一不为九十年代中国参与到人类基因组事业中打下了重要基础。

耄耋之龄,不退不争

“沮丧我没有,人能成事,一个是判断,一个是坚持。”

谈起几十年来的抉择,陈润生声音清晰有力,“我的大多数抉择没有跟着别人走,被很多人怀疑和反对,这就需要自己的坚持。坚持在于你自己的判断,这两个是互补的:判断得不够坚决,很多人吃亏在这。他足够聪明,也想到了。但是不坚持,由于各种情况放弃,就成不了。”

陈润生现在仍习惯365天到办公室打卡。有一年大年初一,陈润生照常到了中科院生物物理所,在这天碰到了唯一的另一人,王志珍。

陈润生回忆那天的场景说到,“远远看着有个人护送着一个人,走近一看竟是王志珍。我说你也来了,她说你也来了。”

王志珍摆摆手让同事不要跟着。她和陈润生是同班同学,两人当年在中科大里都是最顶尖的学生,五年里谁都没出过前三名。

此后王志珍在蛋白质折叠,折叠酶和分子伴侣胰岛素A、B链相互作用及重组等研究中做出重要贡献,与陈润生先后成为院士。

那天,两人聊到老师、聊到学生,最后陈润生聊到自己,笑呵呵地告别老同学。

他说,“还有好多事等着我去做。”

雷峰网(公众号:雷峰网)

陈润生院士:中国生物信息学启蒙、传承的三十年「大江大河」

长按图片保存图片,分享给好友或朋友圈

陈润生院士:中国生物信息学启蒙、传承的三十年「大江大河」

扫码查看文章

正在生成分享图...

取消
相关文章