资讯 医疗AI
此为临时链接,仅用于文章预览,将在时失效

人类基因组计划「先行者」张奇伟:我与中国生物信息学的二十年往事

作者:吴彤
2023/05/15 11:41

与许多传统学科“尖深慢”不同,生物信息是“广浅快”。

作为这个领域的华人开拓者,张奇伟在国内外享有盛名,早在2002年成为冷泉港实验室首位取得正教授职位的华人学者。但国内很多人只熟悉“Michael Zhang”,并不熟悉中文名。

早期生物信息大牛Webb Miller曾跟他开玩笑,“Michael不要发那么多文章,让我们大家都很难看”。同事们通常把张奇伟称为“百科全书”,向他请教各种问题,甚至在张奇伟设计生物实验时,连实验学家都惊叹他对生物了解之深,完全看不出他是理论出身。

华盛顿大学数学系组织的一次研讨课上,邀请张奇伟的数学系主任Spencer T. Olin吃惊道,张奇伟与他们讨论的是最前沿的纯数学问题(如讨论Kerov的书“无限维对称群表示理论及其在数学分析中的应用”)。

但在四十多年前,摆在张奇伟面前的一道难题却是失去读书的机会。和那个年代的诸多知识青年一样,留守农村,接受贫下中农再教育,将他们引向人生的转折点。

少年期的他,因为父母工作原因,一人担负起弟弟妹妹的生活起居,本当读书的年纪也因为反复的停课复课颇有欠缺之处,要么课本已被砍到学不到什么东西,要么只得经常课外请教被打倒的老教师,或者干脆拎起书本自学。

正如清华李衍达院士近年来总结,“张奇伟的最大特点,是总能提前感知和引领生物信息发展的下一个高潮”,最善于把最复杂难懂的东西,用最通俗易懂的方式讲解出来,深入浅出,功底深厚”。

人类基因组计划「先行者」张奇伟:我与中国生物信息学的二十年往事

在风起云涌的80年代,一个前所未有的机会落在了张奇伟身上。

时任全国青年联合会主席的胡启立,计划在团中央筹办一个大学部,以便与愈来愈多的国际间大学往来联络。团委书记远泽清找到张奇伟,希望他放弃出国,调到团中央出任第一任大学部部长。在请教了三位中科大的副校长之后,他放弃了学而优则仕的坦途。

1981年,张奇伟踏上了飞往纽约的飞机。他及百名中国学子,即将在历史上写下重要一笔。

“恢复高考”后的第一代大学生

1977年,恢复高考。12月10日,570万考生走进考场,成为书写中国教育事业风云变迁的重要一批人。

与过去的招生惯例不同,这是我国教育史上唯一一次冬季高考,也是年龄悬殊最大的一届考试。

从1966年至1977年,绝大多数城镇户口的初中或高中毕业生只能“上山下乡”、“接受贫下中农再教育”,而农村户口的则回乡务农。当国家一决定恢复高考,成千上万的人重新拿起书本,有资格报考的人蜂拥而至,甚至不少父子、母女、兄弟、姐妹、师生携手参加考试。

三年前,这是被分配村里做知青的张奇伟做梦都在企盼的事情。

1974年,张奇伟高中毕业,被分配到京郊怀柔县城关公社刘各长村做知青队长,开始了三年艰苦的插队生活。和当年广大热血青年一样,他并不能理解为什么上大学的机会被剥夺。粉粹“四人帮”、邓小平复出后,广大年轻人盼望已久的高考恢复,插队知青陆续招工回城。

时间有限,恢复高考的消息在1977年10月21日才登报,离开考期只有一个多月。从前途着想,张奇伟做的第一个选择——留在村里,看场院,利用晚上时间紧张复习。

“身居乡村小茅屋,心怀四化大目标”,成为张奇伟的真实写照。

在这道跨越“穿草鞋”与“穿皮鞋”的分水岭上,21岁的张奇伟高分考入中国科学技术大学近代力学系。

与应届学生相比,张奇伟年龄稍大成熟,选择什么学校、学什么专业都有了自己的打算。

他讲到,“我的择校标准只有一条,离开北京,不要在家门口上学,不再受父母管教。至于专业,那个年代钱学森是小学校友、大众偶像,当时最大的心愿进入飞行器力学专业学习航天器设计,毕业后成为一名火箭科学家。”1978年开春,张奇伟作为高考恢复后的第一代大学生来到合肥。

人类基因组计划「先行者」张奇伟:我与中国生物信息学的二十年往事

1978年,中科大77-78届校学生会干部留影,团委书记远泽清(桌角),学生会主席张奇伟(站桌角)

作为中科院所建设的唯一一所大学,彼时的中科大的重要任务是为我国培养尖端科学研究技术干部。教育恢复后,该校汇集了各所著名研究员任教。

近代力学系机械更是由“中国航天事业奠基人”钱学森于1958年亲自创建,并任首届系主任。在钱学森的带领下,同时代精锐全体出动。如吴文俊教“高等数学”、严济慈、钱临照教“普通物理”、沈志荣教“固体力学”、龚升教“数学力学”、吴杭生教“统计力学”、温元凯教“化学”、方励之副校长教“天体力学”。

钱学森对学生鼓舞道:“我把科学院的‘大炮’都给你们请来了!”

当时的中科大因为战备疏散原因搬迁至合肥,尽管远离中央,但一切工作都是“保住中国的科技苗子”。为了实现行政权力和学术权力的均衡,学校特意成立了一些委员会,比如学术委员会、学位委员会、专业技术职务评审委员会。此外,不仅老师要民主,学生也被鼓励通过网络、调研、座谈等形式发表意见。

原中科大校党委副书记、副校长李定带头定调,“官本位在中科大是没有市场的,任何创新都源于思想自由。”

这也证明,尽管那时候中国刚刚步入改革开放元年,但中科大学生身上的批判和实践思维却让人记忆犹新。

在张奇伟床头,几本康德或黑格尔的英文原著被翻得起皱。从寝室同学的视角看上去,张奇伟表面上平静无波,并且一成不变,“静静阅读,坚持笔记”。

但张奇伟显然不是一个只顾埋头看书的人,入学后他当选1977届校学生会主席,很快便发起诸多英文学习和文体活动。成立“美国之音”英语900句学习小组、教唱“音乐之声”电影中的英文插曲、邀请外教每天早晨广播英语教程。

关于此,中科大77、78级同学的书信和报道中都有记载,饭后在‘四牌楼’外读英文蔚然成风。”此外,张奇伟和文艺部同学组织全校大型交际舞会,邀请安徽医学院、安徽大学、艺术学院女生来帮助活跃中科大学生们的业余生活。张奇伟的同班同学汤超、徐冲(班里文体委员),因为舞跳得棒,每次都是明星参加者。

人类基因组计划「先行者」张奇伟:我与中国生物信息学的二十年往事

1979年中科大775班留影:徐冲(文体委员),汤超(学习委员),张奇伟(学生会主席),张执戈(班长)

有意思的是, 作为校学生会主席,张奇伟也没少因为维护学生利益和校领导谈判。

印象最深的一次,方毅任中科大副总理兼科学院院长,并接任郭沫若担任名义校长,在征求学生生活意见的座谈会上,张奇伟作为学生代表大量申述学校在伙食、卫生、取暖、供水、买火车票难等方面的系列问题,直言学校领导不作为。没等会议结束,陪同方毅前来的党委书记杨海波脸色已经非常难看。

即便如此,问题该提还是提,学校对顶尖学生的培养丝毫不打折扣。甚至正是由于担任学生会主席的原因,张奇伟和方励之副校长多次接触,反而被鼓励学生干部应带头积极参与第一批CUSPEA(李政道先生组织的中美联合培养物理类研究生计划)项目。

人类基因组计划「先行者」张奇伟:我与中国生物信息学的二十年往事

张奇伟、汤超、李明,坐火车去北京参加CUSPEA面试时留影

张奇伟提到,那个年代物理科学对年轻人有极大的吸引力,当他准备复习CUSPEA考试后,干脆直接放弃学习本专业的课程,每天一门心思听物理课。课后还和准备考试的小组成员们聚在一起辩论,并邀请方励之校长参加讨论。

在这个自发性的讨论小组中,每次都有两个人慷慨善辩,一个就是张奇伟的同班同学,2019年当选为中国科学院院士的汤超;另外一个,则是1981年以全国第一名成绩通过CUSPEA,现任MIT物理系教授的文小刚。实际上,中学时汤超最喜欢物理,但高考那年中科大和北大的物理系在江西都不招生,只好选择了中科大力学系。出于对物理的热爱,大学时汤超自学了不少物理,还常去旁听物理系的课,直到CUSPEA项目才圆了他的“物理梦”。而这,也让汤超与张奇伟有了常年联络的可能。后来,汤超去往芝加哥大学攻读统计物理学,师从统计物理大师Leo Kadanoff,张奇伟去往罗格斯大学,同样攻读统计物理,师从当时颇有声望的Joel L. Lebowitz教授。那时,两人一个23岁,一个25岁。

物理学在啃老骨头,生物学遍地是新大陆

1981年,在李政道夫妇的不懈努力下,100多名首届CUSPEA赴美留学生,成为最先走出国门的知识分子。张奇伟直奔美国东北部的罗格斯大学,是同批学生中离家极远的一位。

到美国,姑妈建议张奇伟用英文名字Michael(Mike)便于当地人称呼(因为美国人不会发Qi的音),还成为Joel L. Lebowitz教授的弟子。

就在张奇伟拜师的前一年,50岁的Lebowitz凭借在非平衡态统计力学领域的工作,当选为美国国家科学院院士。在美国学术界,这一荣誉仅次于诺奖。此后,Lebowitz包揽了诸多顶级物理学荣誉,包括玻尔兹曼奖章(1992年)、美国物理学会尼科尔森奖章(1994 年)、亨利庞加莱奖(2000 年)、沃尔泰拉奖(2001 年)和马克斯普朗克奖(2007 年)。

不久前,92岁的Lebowitz还与另外两位物理学家共同获得“2022年狄拉克奖”,以表彰他们对经典和量子物理系统的统计力学理解所做的开创性、数学上严格的贡献。

值得一提的是,Lebowitz在统计物理领域有如此大的成就,与他的博士后导师Lars Onsager密不可分。

人类基因组计划「先行者」张奇伟:我与中国生物信息学的二十年往事

Joel L. Lebowitz             Lars Onsager

Lars Onsager是挪威裔的美国化学家,理论物理学家,甚至可视为“20世纪的传奇人物”,1968年因为对不可逆过程热力学理论的贡献获得了诺贝尔化学奖。

此外,Onsager对统计物理的一个突出贡献,是他出人意料地求出了二维伊辛模型(-2D-Ising)的严格解(通俗可理解为液体气体临界状态方程的解),为所有复杂系统相变、对称破缺和重整化群理论奠定了基石。

这件事情让当时的物理学家们颇为震撼。杨振宁当年曾经两次努力试图看懂Onsager的方法都未能成功,直至第三次才成功并继续计算了二维伊辛模型的磁化率,并和李政道一起研究伊辛模型在复平面的解析性,暗示与黎曼猜想的联系。

或许是研究使然,Onsager的诸多成果在当时很少有人能够理解,他的工作常常被忽视,他所研究的问题和产生的想法往往得不到同事的响应。

曾有人在Onsager故去后唏嘘,“Onsager是走在他那个时代20年后的人”。

此事让张奇伟感触颇多,他谈到,“这并非发生在Onsager身上的孤例,另一位统计物理的大师玻尔兹曼又何尝不是,甚至更悲惨,他选择了自杀,希望以此结束自己在动理方程和H定理上所遭遇的激烈诘难。”

但正因如此,Onsager的很多经典研究被诸多学者接棒。

张奇伟谈到,他在Lebowitz那里一待就是六年,期间,因为Lebowitz的办公室在数学系,并担任应用数学中心主任,经常有著名的数学物理学家到此做访问学者,“而大家的共同志趣是将Onsager的相变理论,推广到非平衡态系统(即有能量耗散且更复杂的系统)中去。”

对张奇伟而言,非平衡态统计物理学也是他博士期间的主要课题。

“我的主要工作是用大型超级计算机模拟非平衡态Ising模型,证明相变仍然存在,且临界指数发生极化。”他进一步讲到,“这一研究主要用于模拟等离子流体系统低温下的相变图(通俗来讲,在电场作用下稳流也会发生平行的气-液分离),可应用于广泛的流体热力学系统。然而迄今为止,非平衡态统计力学始终还没有多少严格理论或解析解(严格解)。”

有关读博的日子,张奇伟平静而又松弛。实际上,这也是他日后教育育人的风格。

在学术上,他师出名门,很快便意识到对科学问题的选择比解决科学问题本身更重要,且大数据模拟是做理论不可或缺的,并争取获得了由美国国家科学基金会所颁发的“普林斯顿超级计算机奖学金”(NSF-Princeton Super-computer Fellowship)。

在生活上,他的妻子攻读Rutgers统计系硕士学位,婚后两人住在学校分的一套两居室的房子里,不久后有了第一个孩子。空闲时间,他还游历美国,诸如芝加哥一号堆(世界第一反应堆)、西尔斯大厦(当时世界最高的建筑)、普林斯顿-罗格斯大学联合举办的数学物理年度度假静修会,等等。

人类基因组计划「先行者」张奇伟:我与中国生物信息学的二十年往事

1987年收获季节:儿子刚满一岁,张奇伟(博)与妻子(硕)、妹妹(硕)同时毕业

当身边的一切事情向好时,抓住一切机会留在美国读书的想法在张奇伟心里扎下根。

多年后,他曾在一篇回忆录中写道,“那时我的思想发生了巨大变化,我开始意识到:本科生的能力评估是知识的吸收程度,而研究生则要是知识的生产。”

此后,张奇伟给自己定的下一个指标:每年至少能发表一篇论文。

1987年,张奇伟被导师的好友,纽约大学Courant数学科学研究所(CMCL)的Jerry Percus(Percus–Yevick 理论的创立者)“点名”做自己的博士后,继续统计力学研究。

人类基因组计划「先行者」张奇伟:我与中国生物信息学的二十年往事

1990年,张奇伟(右一)再次见到Lebowitz(中),Percus(右二)

纽约大学成立于1831年,是美国唯一一座坐落于纽约心脏地带的名校。纽约大学的特殊之处,莫过于整所大学并没有严格意义上的校园,教学楼与城市融为一体,随处可见高高挂起的紫色火炬校标。

早在张奇伟来到纽约大学之前,他已经得知CMCL素有“数学神级殿堂”的美誉,而他选择的应用数学方向,更是连续多年在U.S .News排名中位列全美第一。

让张奇伟印象深刻的一次,是传说中被誉为“时代的第二位欧拉”的匈牙利“流浪数学家”保罗·埃尔德什(Paul Erdős),几乎每年都在纽约大学克朗所一间毫不起眼的演讲大厅里发表即兴演讲,“现场人潮拥挤,年轻的听众却热情洋溢,每次都有一些人声称解决某个‘埃尔德什问题’,因此可以获得埃尔德什亲自颁发的奖金。”

人类基因组计划「先行者」张奇伟:我与中国生物信息学的二十年往事

Paul Erdős

事实上,埃尔德什是一个博学的人,对历史了如指掌,但长大后只专注数学,对任何其他事情毫不关心。国际数学圈甚至将数学家划分为:Erdős#1(与Erdős直接合作者,比如Lax),Erdős#2(与Erdős#1合作者,比如张奇伟作为Lax的合作者)。

张奇伟把主要精力投入数学和物理领域,在Jerry Percus教授的指导下,进行非均匀流体模型的密度或熵泛函的博士后研究。

他回忆道,“Percus和Lebowitz,Onsager一样,着迷在严格可解的统计力学理论模型,致力于研究该领域最复杂、多年悬而未解的那一类。”

那种难度有多大?张奇伟形容,“直到我们师徒俩研究两年后,才逐渐意识到,严格解和可积性在数学上有很深的联系。”第三年,张奇伟找到CMCL前所长Peter Lax教授,希望能够获得这位偏微分方程领域权威的指导。

实际上,这样的“毛遂自荐”张奇伟并不少做。早在他博士第二年的寒假(1983冬),就曾一人奔赴美国最负盛名的物理学研究中心--费米实验室,敲开高能物理Thomas J. Devlin教授办公室的门,要求在他所领导的国际对撞机高能实验团队从事寒假工作。

人类基因组计划「先行者」张奇伟:我与中国生物信息学的二十年往事

1983年寒假,芝加哥费米实验室,和Prof. Thomas J. Devlin留影

时隔八年后,张奇伟仍然保持着“自己找出路”的派头,也让他的研究终于在博士后最后一年出现转机。

1991年2月,由他独立署名的论文发表在数学物理界的最高期刊《Communications in Mathematical Physics》。

能登上这一期刊的论文,大多是数学物理方向的奠基性研究成果,甚至被学界视为摘得菲尔兹奖(因诺贝尔奖未设置数学奖,故该奖被誉为“数学界的诺贝尔奖”)的“风向标”。

因此,如果在张奇伟沿着数学这条道路走下去,大概率是能够做出领域更高水准的工作。但事实上,在1990年10月投稿不久,他便决定1991年伊始入职冷泉港实验室,彻底从一位“数学物理学者”变成了“生物学者”。

这种横跨多学科的变化在当时并不少见,可以说,自20世纪40年代以来,物理学家投入生物学研究就已蔚然成风,包括1962年因发现“DNA双螺旋结构”而获得诺贝尔奖的三位科学家——James Watson、Francis Crick和Maurice Wilkins。

此后,这场跨界之举直接带来了20世纪生物学研究的爆发式成长,并催生了“分子生物学”的诞生。然而,当所有人追根溯源寻找变革之初的那根“导火索”,发现是一本出自物理学家薛定谔(Erwin Schrödinger),仅仅二百余页的书刊--《生命是什么》。

但对张奇伟而言,如同对很多前辈(包括James Watson)一样,这本书也打开了他走向生物学研究的大门。很快,越来越多关于未来人类基因组计划的讨论和报道,如潮水般向他袭来。

人类基因组计划「先行者」张奇伟:我与中国生物信息学的二十年往事

1944年出版的《生命是什么?》

薛定谔本人也是受Max Delbrück(物理出身、诺贝尔奖得主、分子生物学之父)工作的启发

1988年,张奇伟在《美国科学家》上看到Charles DeLisi(时任美国能源部健康与环境研究项目主任)的两篇文章,一篇是《人类基因组计划》,另一篇是《Science》上的《分子生物学中的计算机:当前应用和新趋势》。

其中一句话写到,“作为生物学的第一个‘大科学’项目,绘制和破译人类DNA的完整序列,将刺激从计算机技术到理论化学等领域的研究。”

张奇伟预感一场史无前例的生物医学革命正在逼近。

1989年,冷泉港研究所(CSHL)的创始所长James Watson,兼任美国国立卫生研究院(NIH)人类基因组研究办公室的第一任主任。

一年后(1990年),他将原任职于Los Alamos国家实验室(全球Top10,最早建立Genbank的地方)的数据库专家Tom Marr请到CSHL,组建起冷泉港第一个生物信息学中心和基因组数据库。

此时正值美国,英国发起的人类基因组计划开始阶段,后来逐步涉及世界上几乎所有国家,包括发达国家和发展中国家,联合国的大多数机构。同时,这一项目也吸引了众多领域科学家的参与,既有成熟的遗传学家,物理学家、计算机科学家、也有年轻的实习生或学生。

毫无疑问,这是历史上第一次当一个科学项目成为全球研究焦点的真实反应。

Tom Marr通过朋友各处招聘顶尖计算人才分析海量基因组数据。1991年,张奇伟、William Chang(伯克利计算机科学系Eugene Lawler的博士生,后来到百度做创始CTO)、Wentian Li(Columbia University物理系,现就职Feinstein Institutes for Medical Research)一起,作为助研加入冷泉港的生物信息学中心,与Rich Roberts、Adrian Krainer、David Beach、Dick McCombie等诸多分子生物学和基因组学科学家一起工作,开始了自己全新而漫长的生命科学研究的生涯。

“事实上,一个人永远不知道毕业后外面的世界会发生什么,正如罗马人说的:运气是当准备遇到机会时发生的。”时隔多年,当张奇伟回首自己身上的变化,他觉得那是一种意料之外的必然。

人类基因组计划的一战成名

如今来看,人类基因组计划已成为生物科学和人类健康取得重大进展的基石。

但在上世纪八、九十年代,那些尚未被历史具名的人们,很长时间都在和争议怀疑、希望憧憬所抗争。

被誉为“生物信息学之父”的Michael S. Waterman曾回忆那段草莽期,“晚饭后,Walter Gilbert(分子生物学的早期研究者之一,在Watson实验室从物理转到分子生物,因发明化学DNA测序方法拿到诺奖)回到工位,一边喝着白兰地,一边琢磨着怎么才能有精力去做那些无聊而重复的测序工作。他不止一次提出强烈而离谱的建议:我们应该用犯人来做这项工作。

人类基因组计划「先行者」张奇伟:我与中国生物信息学的二十年往事

Walter Gilbert

对所有人来说,这一旷世项目都是一次精神和智识上的转变。

那时张奇伟35岁,对崭新的生命科学有无法抑制的激动,笔记的一页中写道,“还有什么比破解生命密码和理解我们自己的DNA更有趣?”

但作为一名长期使用数学语言的学者,如何才能找到有价值的生物学问题,是张奇伟面临的首道难题。

根据分子生物学“中心法则”,生物信息由基因到表型经过“DNA-RNA-蛋白质”不同的调控层次。

当时基因组DNA测序步骤,先将DNA随机打断,再把这些片段(~150kb)克隆到酵母载体中去,通过双端测序得到“anchor”DNA序列,利用anchor序列聚类将随机DNA片段连续排列得到“Physical Mapping”,最后对最短路径中每一个DNA克隆片段打断进行“shotgun sequencing”(霰弹枪测序)和序列组装。

因此,如何快速定量估计Mapping和sequencing的覆盖率,是每个基因组中心面临的一件大事。

张奇伟花费大量时间,阅读了经典的Lander-Waterman泊松模型(它可以应用于简单的克隆片段单端测序“Fingerprinting”覆盖率估计)后,他马上意识到,双端测序“anchoring”方法可以大大加快meeting速度和覆盖率,而且正好可以用上跟导师Percus学到的“Hard-rod Fluid”方法,得到“anchoring mapping”的数学严格解。

果然,计算结果很快得到了证实,而且在简化为单端“Fingerprinting”和连续性近似特出情况下,推出Lander-Waterman公式。

这一方法也在冷泉港基因组的“Physical Mapping”实验中得到了证实,促使他顺利将成果发布于世界四大顶级期刊之一的——PNAS。

张奇伟并不满足只做理论计算。他意识到,要在新领域打天下,不能靠以前的导师和知识,必须深入了解生物实验数据的产生过程,还要掌握新领域所用的名词术语。

张奇伟凭借第一个重要工作——PNAS文章,拿到了NIH新成立的基因组所设立的5年“K01基金”,专门奖励从非生物专业转行从事基因组研究的年轻PI(学术带头人),使得张奇伟具有完全的经济独立性。

张奇伟称,90年代初,他能参与德州贝勒医学院基因组中心创始人Richard Gibbs举办的“高通量基因组测序与分析学习班”,CSHL举办的“分子遗传学、细胞生物学和裂变酵母细胞周期课程”,都是得益于此。

通过亲自动手做一个个经典实验,张奇伟体会到一个跨学科研究者,尤其是面向生物学上的原始数据时,“首要任务不是深入分析,而是了解数据是如何产生的、误差的主要来源、数据的质量和数量是否充足。”

人类基因组计划「先行者」张奇伟:我与中国生物信息学的二十年往事

1993年,张奇伟(左一)参加CSHL酵母分子遗传实验集训课程

作为这些课程中唯一一个华人面孔,张奇伟的这份勤奋相继获得了同事的欣赏和信任。而这其中的一个重要人物,就是被称为“断裂基因与RNA剪切发现鼻祖”的英国人Rich Roberts。Roberts是最早提倡生物信息研究的人之一,由他主编的NAR杂志每年都有生物信息数据库和算法的特刊,1993年,在他刚刚离开CSHL就拿到了“发现RNA剪接”的诺奖,还因此被英国女王亲封为英国皇家爵士,入选英国皇家科学院院士。

人类基因组计划「先行者」张奇伟:我与中国生物信息学的二十年往事

Rich Roberts

说起与Rich Roberts的缘分,张奇伟称,从自己一进CSHL,就经常跑到隔壁Rich Roberts办公室请教各种问题。因此,一些经典研究常常在两人一问一答间诞生:

当张奇伟问到,“拿到基因组序列最重要的问题是什么”,Rich答,“找基因最难点”,马上Rich又补上一句,“正确识别外显子-内含子(exon-intron)”。

就这样,张奇伟走进了这一课题。1996年,这一研究成果投到PNAS个人署名的工作MZEF(Michael Zhang Exon Finder)。

后来大量应用证明,MZEF在分析难度大(低GC)的第21号染色体、特别是著名的老年痴呆相关的超长基因APP(~300kb, ~20exons)发挥了重大作用。此外,这种Exon-centric方法正好与全基因gene-centric方法,如在MZEF发布的三个月后,Samuel Karlin(国际顶尖应用概率学家)的学生Burge发表的著名的HMM方法Genscan,可以与之完美互补。

实际上,张奇伟并不是其中最具生物学背景的人,DNA的功能原件预测(即外显子-内含子研究)也只是HGP计划中的最早期工作,但他在数次合作中全身心投入,屡次显示出自己的数学物理才能。到1996年,张奇伟凭借MEZF工作获得了第一个R01奖,升任助理教授,成立独立的计算生物学实验室,此后便开始大量参与人类基因结构预测工作。

张奇伟重新梳理过去研究,首次将人类全部外显子系统划分为16类,意外发现新一类“dual splice-site”(双重剪接位点)可以形成“零长度外显子”,名声渐大并迅速被诸多教授点名合作。

他与Adrian Krainer、Xiangdong Fu、Robert Darnell、Josh Huang等实验室,在RNA剪接调控和RNA蛋白结合方面建立起密切而长期的合作关系,便从那时开始。

人类基因组计划「先行者」张奇伟:我与中国生物信息学的二十年往事

2001年,张奇伟和Aravinda Chakravarti(现任纽约大学人类遗传学与基因组学中心主任,和张奇伟一起举办冷泉港第一届计算生物学国际会议);张奇伟和 B. Stillman(冷泉港研究所所长)

诸多合作者不吝赞赏,“张奇伟对神经细胞重要因子REST/NRSF 、Pumilio、Rbfox调控网络的研究以堪称经典。

他开发的ESEfinder、SpliceTrap、Olego、HITS-CLIP分析方法等RNA剪接计算分析工具,一直为全世界生信领域多数实验室或生物制药公司所广泛应用。”

直到最近,张奇伟证明,单细胞RNA-seq可以通过精细计算分出不同poly-A尾巴(last-exon)的mRNA isoform,并以此划分不同功能的神经元细胞。可以说,RNA分析是所有分子生物实验室的“bread&butter”(谋生之道),跟随不断更新的实验技术开发新的计算方法,也是张奇伟实验室近30年没有停止的工作。

进入新世纪以来,美国社会环境不断变化,从2001年“9.11”恐怖袭击到2008年金融海啸,张奇伟也受到不少影响。

他称,一边是妻子早出晚归在世贸中心工作,长辈在纽约老人院床位紧张,一边是他自己,需要抽出越来越多的时间去申请不断紧缩的政府基金(CSHL100%靠基金)。

2009年,正好有机会,德州政府要加大癌症研究投资,同时德克萨斯大学达拉斯分校(UT Dallas)邀请张奇伟去做第一任系统生物学资深讲席教授,并创建系统生物学中心。此事筹划一年,等两个孩子都上了大学,2010年张奇伟把全家迁到达拉斯,开启了教书育人的新篇章。

虽然重建实验室和教书对科研有所影响,但张奇伟跟老朋友任兵(时任UCSD表观遗传联合研究中心主任)的合作从未停止。他们在国际上率先发表了染色体结构关键因子CTCF在人体细胞基因组上所有的结合位点、TFBS motif,等张奇伟搬到UTD后,两人将Roadmap Epigenome Project(表观基因组路线图项目)的合作项目圆满完成。

后来,任兵继续参加美国的4D核糖体(4D Nucleome)计划,而作为客座教授的张奇伟转而指导清华基因组研究团队,开发了一系列染色体3D结构实验技术的算法,并和阮一骏(Jackson Lab,现在浙江大学)合力推动中国3D基因组研究和人才培养。

这些年来,在开展生物学研究方面,张奇伟的研究领域随着HGP计划深入和拓展而逐渐发展,包括从基因到启动子到增强子等顺式调控元件,从转录到RNA剪接等转录后调控,从表观遗传学到4D基因组,从单细胞组学到组织器官时空多组学。最近,为了能够更好的实现从分子--细胞--组织--器官--个体系统生物学的跨越,张奇伟又开始了“早期胚胎发育中细胞-细胞相互作用网络”的研究。

科学无止境,他那活到老学到老的精神给年轻一代树立了典范。而对于张奇伟本人而言,他则认为,“生物学问题一环扣一环、缺一不可。在生物信息领域,新方法层出不穷,如同要瞄准不断变化运动中的目标,难度要比解百年不变的数学难题大得多。”

也正因如此,使得他更加期盼 Walter Gilbert(哈佛大学教授,前面提到的)教授在1991年的预言早日到来:新的研究范式正在兴起,当所有基因都被找到(被保存在数据库中),理论研究将是生物学研究的起点。

2001年,第一张人类基因组草图发表,预言成真。但如果站在科学的角度上审视,这一成功并非尽善尽美。哈佛大学John Quackenbush曾在2021年指出,“二十年前两个人类基因组几乎同时发表,这里面既有科学和技术的胜利,也有政治妥协的成分。‘草图’的概念非常模糊,导致了很多怪事——2001年宣布草图完成,2006年宣布最长的1号染色体测序完成,而其它染色体完成时间还要更晚,比如X染色体在2020年才宣布完成,Y染色体至今没有消息。

2021年,一份完整的人类基因组才终于发表在bioRxiv上(文章于2022年发表于Science)。

目前关于基因组还有很多问题有待回答,比如人类基因的数量、基因的定义等等,我们目前得到的任何版本的基因组都仍然是不完美、不精确的。”

在基因组计划后的二十余年里,大数据的产生和计算效率的提升,促使无数学者为完善人类基因组,解码它的遗传发育功能以及治病的机理而持续努力。

张奇伟讲到, “因为无论如何,HGP已经引领了一条不归路,在我们看到真正的光明之前,还有很长的路要走。”

中国生物信息学的20年往事

张奇伟学术生涯的另一面,扎在了中国。

1999年,汤超受李政道委托,开始筹建北大定量生物学中心的前身——北大理论生物学中心。最初汤超每年寒暑假回来两三个月,后来有了北大来鲁华、佘振苏、欧阳颀等教授的帮助,2001年中心正式成立,张奇伟便被邀请担任学术委员会顾问。

人类基因组计划「先行者」张奇伟:我与中国生物信息学的二十年往事

2002年,李政道理论物理中心楼前:李振勤(中科大1981第一批CUSPEA第一名),来鲁华、张奇伟、佘振苏

那时张奇伟已经离故土二十年了,参与培育和扶持一批年轻的国内生物信息学研究人员,成为他的一大心愿。

他意识到,加大与中国学者交流,将是最好的“突破口”。

2000年,张奇伟应邀在南韩Pohang生物技术大会发言,结识了代表上海中国南方基因组中心发言的陈竺,并相约两年后在上海见面。那一年,陈竺被任命为中科院副院长,从上海转战到北京,主管生物技术局和国际合作局。对于这次结识,陈竺高兴,张奇伟欣喜,一个想推动中国生信与国际接轨,一个想为国家学科发展做些事情。

2002年4月,按约定张奇伟去上海参加由陈竺主持的“2002年全球人类基因组大会(HGM2002)”,会后陈竺还委派赵国屏(时任中科院上海生命科学研究院副院长)带其参观了南方基因组中心、蒋华良的药物所、上海交大贺林遗传病实验室,以及李亦学组建的上海生物信息技术研究中心(下称“中心”)。

值得一提的是,自2000年李亦学回国之后,一手创建了中科院上海生命科学研究院生物信息学中心。后来,他继续整合上海生物信息学主要研究力量,有,中国科学院上海生命科学研究院、国家人类基因组南方研究中心、复旦大学、上海交通大学、上海医药工业研究院等11家科研单位,最终才在2002年组建为中心。

张奇伟心生敬佩,“短短几年,中心已成为国家生物信息技术研究的支撑基地。”而这也再次印证2003年徐鹰教授回国创办IBW(国际生物信息学研讨会),首届会议定在上海实属良策。

实际上,那时陈竺心里还有一个大胆的想法,希望将德国马普学会(Max-Planck-Gesellschaft,MPG)引入上海。

作为长期盘踞在世界科研机构前三甲的科研巨佬,马普学会在体量和结构上可以对标中国的中科院。而陈竺的打算正是强强联合,成立“中国科学院-马普学会计算生物学伙伴研究所”(下称“马普所”)。

人类基因组计划「先行者」张奇伟:我与中国生物信息学的二十年往事

选第一届马普所所长时留影:Dr. Andreas Dress (前排右二),陈竺(前排右四)

2004年,陈竺和裴钢(时任上海生科院院长,后担任同济校长)试图招募张奇伟担任研究所主任之一,尽管盛情难却,但张奇伟考虑到金力(Cavalli-Sforza博士后)已经是复旦生命科学学院院长,便将金力推向台前。

这也让金力后来总跟张奇伟开玩笑,“不应让我顶替你的位置。”

但张奇伟和郝柏林一起欣然接受了科学顾问委员会成员,后来正是他大力举荐韩敬东(博士后师从哈佛Dana Farber)担任马普所第二任轮值所长(现任北大教授)。

为何张奇伟没有选择留在上海?

陈润生院士对《雷峰网》讲到,“当时张奇伟想要回国做兼职教授,北大生命学院院长周曾铨已到冷泉港和他谈好,而他家人的清华出身则希望他同校客座。”

后来的事情便是孙之荣、程京、饶子和得到了陈润生的消息,三位教授迅速出面,说服张奇伟放弃北大。再后来,担心张奇伟招生不够,陈润生还将他在华大基因培养的最好博士生送去冷泉港。

人类基因组计划「先行者」张奇伟:我与中国生物信息学的二十年往事


陈润生、孙之荣、程京、饶子和

2008年5月,在张奇伟,张学工(清华自动化系教授),李衍达院士(清华自动化系前系主任)三位学者的筹措下,我国第一个生物信息学与系统生物学讲席教授组发展开来。

在此期间,张奇伟过去广济人脉的长处派上用场,生物信息学的奠基人之一的Michael S. Waterman受聘为讲席教授组首席科学家,姜涛、王永雄、刘军、孙丰珠(博士师从Waterman)等多位海外杰出学者纷至沓来。

2010年,张奇伟入职美国南部的德克萨斯大学达拉斯分校。他说到,“正好有个契机,他们找到我头上,到州立学校无需一天到晚写基金申请标书,浪费时间,又能有机会为清华做些事情。”

回首看,21世纪以来我国的生物信息学研究快速发展、人才大量涌现,离不开老一辈学者坚守阵地,也离不开一批批留洋海外的年轻一辈反哺。对于张奇伟而言,他总是感慨选择不易,坚定走出一条自己风格的道路更是难得。

实际上,在他通过CUSPEA考试准备出国留学前,还有一段小插曲。

1979年,张奇伟参加中华全国学联第十八次代表大会,和北大学生会主席袁纯清(一年后李克强接任)、清华学生会主席孙建京(一年后林炎志接任)、伍绍祖等人共同当选第十八届全国学联副主席,受到华国锋、邓小平等领导接见。江湖传说,清北中科大这样的学生会主席是正厅级待遇,因为次年总有机会出任副部级单位全国青联、学联的职务。

在风起云涌的1980年代,这批学子思想积极活跃,对中国的前途命运有更多忧虑,确实有很多人藉此通往政坛,走向仕途,诸如袁纯清、林炎志、朱善璐、刘能元、陆昊、赵辰昕、陈光浩、周长奎等多位优秀才俊;或是商海浮沉,诞生了“明天系”资本帝国掌门人肖建华、北大光华董事长李明春和周燕军等人物。

当时,一个前所未有的机会落在了张奇伟身上。

张奇伟称,“在获得CUSPEA录取通知书不久,我准备去上海外语学院参加集训英语,团委书记远泽清找到我,带来了一个重要消息:时任全国青年联合会主席的胡启立,计划在团中央筹办一个大学部,以便与愈来愈多的国际间大学往来联络,希望我能跟家人商量,放弃出国,调到团中央出任第一任大学部部长。”

这一机会难得,张奇伟除了与家人商量,还亲自跑到三位中科大副校长家中请教。杨承宗(化学家,也是远泽清的老丈人)、钱临照、方励之的一番鼓励,最终促使张奇伟摈弃“学而优则仕”,抓住改革开放的良机,走出国门,坚定走科研之路。

人类基因组计划「先行者」张奇伟:我与中国生物信息学的二十年往事


多年后,李政道与CUSPEA学生的一次聚会,张奇伟(右一)

时光荏苒,往事已成故事。张奇伟谈到,人的一生是有很多机遇和选择的,能够不受名利地位诱惑,如同“浮士德抵制魔鬼的诱惑”,却是很不容易的。

1981年,在飞往纽约的飞机上,张奇伟及百名中国学子,即将在世界历史上写下重要一笔。

作者注:

1993年,中国参与人类基因组计划,生物信息学科迎来大爆发。在近三十年的时间里,一大批生物、化学、物理、计算等专业的学者,前仆后继加入到学科的产研建设,那是一个灵感迸发、情谊绵长的年代,也是一个走出质疑、迷茫的年代。

目前,雷峰网启动《生物信息学的三十年往事》专题,已陆续推出徐鹰、潘毅、周耀旗、许东、姜涛、张奇伟等学者的人物故事,记录光辉岁月,以照后人之路。

关于生物信息学的更多故事,欢迎与本文作者吴彤交流,微信号:icedaguniang

人类基因组计划「先行者」张奇伟:我与中国生物信息学的二十年往事

雷峰网(公众号:雷峰网)雷峰网

长按图片保存图片,分享给好友或朋友圈

人类基因组计划「先行者」张奇伟:我与中国生物信息学的二十年往事

扫码查看文章

正在生成分享图...

取消
相关文章