资讯 生物医药
此为临时链接,仅用于文章预览,将在时失效

许东的「AI生命科学」进化史:从90年代泡沫繁荣,到深度学习复兴

作者:任平
2022/09/08 14:41

命运攸关的时刻充满戏剧性,在个人的一生及历史的进程中都是难得出现的;这种时刻可能集中在某一天、某一时,甚至常常发生在某一分钟,但它们的决定性影响超越时间。对于许东来说,这一分钟,可能在志愿填报单上、在出国的飞机上、在1995年的那一场会议上。

许东在密苏里大学哥伦比亚分校生活了二十年。

2003年,38岁的许东来到该校计算机科学系,开始了他第一份教职。这也是他近二十年来唯一一份教职。许东在这所学校安了家,做起科研,2007年成为了该校最年轻的系主任。

这所学校坐落在美国密苏里州的第四大城市哥伦比亚。因为所处土地广阔,农业发达,被称为美国中部大农村,得名“哥村”。

许东总说,自己是被这座小城留住,研究了半辈子的生物信息学。

这些年里,许东主动投入到跨学科研究风潮中,先后为蛋白质结构预测、单细胞数据分析、DNA序列、蛋白序列分析、系统生物学建模、图像文本分析、中医舌相、分子动力学模拟等,做出了每个时期好用的算法工具。

2001年,许东凭借蛋白质结构预测工具——Prospect,与好友徐鹰(现任佐治亚大学校董事会教授)共同获得《R&D》100奖。该奖项由《R&D Magazine》1963年创设,被国际科技领域誉为科技界的“创新奥斯卡奖”。

此后,许东又在2015年和2020年接连当选美国科学促进会(AAAS)会士和美国医学与生物工程院(AIMBE)会士,并成为了密苏里大学的校董事会教授。

许东的「AI生命科学」进化史:从90年代泡沫繁荣,到深度学习复兴

这些高光时刻,映射了他人生中的黄金三十年。

二十五年前,他趟过生物信息学泡沫期;十五年前,他成为密大最年轻的系主任;十年前,他先于大多数人换到深度学习赛道。

在那些时刻,许东大放异彩。正如茨威格在《人类群星闪耀时》的第一章“巴尔博亚发现太平洋” 中写到:人生中最大的幸事,莫过于在富于创造力的壮年发现了自己的使命。

18岁的决定:宁选北大,不去清华

“教育是一个很特殊的行业,很难高质量地批量生产,培养一个人效率低、成才的确定性也不高。”

站在父母的高起点上,许东对这句话深有体会。

新中国成立后四五年里,许东父母考入清华,就读于电子工程系。

随后,父亲留在了本校,在工程力学系(现航天航空学院)任教,并于1981年在国家支持下赴丹麦读博,成为了中国最早出国研究流体力学的一批人。母亲则去了北京灯泡二厂、灯泡总厂担任厂长,并在八九十年代担任了十多年的北京电光源研究所所长。

这是一个标准的知识分子家庭,许东称,虽算不上大户人家,倒有机会从小接触到教授级的叔叔阿姨。

回忆起来,许东觉得那是一种无差别的人际交往,”绝想不到其中一个人就是某一领域的领军人物。”

但许东没去清华,而是选择了北大。

相比于清华的工程师气息,北大要更加自由,尤其是北大没有校训,没有校歌,甚至北大校园中的标志性湖泊,也被钱穆先生带头唤为“未名湖”。

在许东看来,这代表了北大上上下下的一种求学态度,要敢于不合群,不听话、既要批判,也要兼容,做中国维新图强的“先锋者”。

1983年,十八岁的许东走进了北大物理系。

许东的「AI生命科学」进化史:从90年代泡沫繁荣,到深度学习复兴

这是在中国高校中设立的第一个物理系。许东入校时,北大物理系已经走过70年岁月,期间还诞生了四个首创学科,如我国第一个原子能人才培养基地——物理研究室、我国第一个半导体专业、我国第一个地球物理专业、我国第一个计算机系微电子专业。

而与北大颇有渊源的西南联合大学物理系,也走出了李政道、杨振宁、朱光亚、邓稼先、黄昆等一大批杰出科学家。

这是许东第一次感受到国内学科的昂扬姿态,“原来中国人在物理方面做得很好,我也跃跃欲试。”

一进大学,许东被各种“奇奇怪怪”的研究吸引住。大一上学期快要结束时,他无意中看到学生宿舍里贴着一个告示——“自然之谜研究会,研究气功、特异功能等人体科学现象”。许东对这些神奇现象特别好奇,加上告示中写到能够去北京师范学院(现首都师范大学)做研究特异功能的实验,当即报上了名。

大一寒假,许东都泡在了实验室。尽管没有研究出什么名堂,但许东却产生了非常多的奇思妙想,还写成了一份挺长的实验报告,全文论证人体特异现象的真实性和其中的问题。

许东的「AI生命科学」进化史:从90年代泡沫繁荣,到深度学习复兴

1983年寒假,许东(前排左二)在北京师范学院和部分研究人员及特异功能人士合影

为此,许东还担任了一届的自然之谜研究会会长。

80年代前后,人体特异现象研究方兴未艾,时任国防科委科技委副主任的钱学森和主任张震寰两位,都是特异功能现象的支持者与参与者。

尤其是钱学森,他认为,人还没有能动地去发掘人体的潜在能力,今后应该用现代科学技术进行研究,对中医理论、气功、特异功能等,都要科学地进行研究。

那段时间,各种人体特异功能研究会成立,从科学界到医学界,一场关于人类生命现象的研究开始风靡全国。

北大加入了这场研究中,由许东所在的协会协助承办了人体特异功能的表演,钱学森到场观看。

这之后,许东对生命现象的研究热情更加高涨,他对很多同学讲到,“我跟钱学森握过手了,虽然没说过话。”

许东的「AI生命科学」进化史:从90年代泡沫繁荣,到深度学习复兴

1983年钱学森成立人体特异功能研究所,与90年代的气功热

但许东没想到,到了90年代,“气功热”出现神论倾向,冒出了气功治病、灭火、拦截核武器等言论,学术研究也受此波及,被视为伪科学研究。1994年,国家下达《关于加强科学普及工作的若干意见》,一部分尝试用现代科学做出解释的科学家就此偃旗息鼓。

给许东讲授固体物理课的严守胜教授,也曾劝大家不要研究这个方向。他讲到,布赖恩·约瑟夫森三十岁出头就拿了物理学诺贝尔奖,之后专注于超自然神秘现象研究,却一生没有实质性的进展。

这也让许东决定留在北大继续做物理研究。他被保送硕士研究生,选择了固体物理方向,师从磁学研究的导师周文生教授。

在周教授的指导下,许东将研究放在了固体物理中一个基础问题——自旋玻璃。

简单来说,自旋玻璃理论研究的是物理学中的复杂系统,对于理解无序自旋相互作用系统发挥了非常重要的作用,近年来该理论框架为约束满足、组合优化、统计推断、神经网络等理论研究提供了众多启发。

但在当时,自旋玻璃更多体现在陶瓷、高温超导等应用领域,需要用到大量的实验研究,记录不同陶瓷所用的配方,测量陶瓷的属性。

许东将其描述为“工匠型”研究,每天就是烧炉子、测材料属性。他发现自己的动手能力不强,实验做得不好,还把老师的仪器弄坏了。

回忆起那段经历,许东称,“我最大的实验结论,就是我不适合做实验。”

既然实验不成功,许东也不再硬着头皮做,他开始想着兑现自己的理论天赋,经常在硕士论文中顺着几个实验结果自我发挥,写出十几张纸的理论猜想。

在导师看来,这些猜想毫无根据,多次提醒许东不需要写进毕业论文,许东就在草稿上继续写。

现在看来,尽管那些猜想称不上科研,甚至没什么价值,却在无意中锻炼了许东举一反三、触类旁通的能力。这是一种天赋,冥冥之中决定了他将终生与理论研究打交道。

一生中最重要的导师

许东博士就读于美国的伊利诺伊大学厄巴纳—香槟分校(University of Illinois at Urbana-Champaign,UIUC),但前面还有段小序曲。

1990年,许东硕士毕业后,来到美国纽约市立大学皇后学院读起了物理博士。但因为当时女朋友(现在的妻子)读研选在了UIUC,许东果断转校。次年5月,许东向西出发,跨越千里与爱人会和。

他与妻子在北大结识,妻子就读于化学系,比他小三届,两人从相恋时就约定去更远的地方,从北大到UIUC,两所学校成了二人从相识到婚姻的重要见证。

这段经历有一位见证人——许东的博士导师Klaus J. Schulten教授,也是许东一生中最重要的一位导师。

许东的「AI生命科学」进化史:从90年代泡沫繁荣,到深度学习复兴

Klaus J. Schulten教授

Klaus是一位理论物理学家、也是一位计算生物学家,博士师从诺贝奖获得者Martin Karplus(从学术脉络上看,现在深圳湾实验室周耀旗的博士后导师也是Martin Karplus,与许东一脉相承)。

早在1978年,Klaus就较为完整地描述了磁感应和动物迁徙的Radical Pair假说(也称为化学指南针假说),此后便投身到生物学领域。

1991年许东加入时,Klaus实验室已经非常活跃,他本人是UIUC里最抢手的导师之一。许东的导师首选是Klaus。

但进入Klaus组里,许东觉得多少沾了些运气。

UIUC有一个重要的导师双选机制,学生可以和许多导师单独见面,由学生提交5个导师的排序志愿,导师也排序选择5个和他(她)见过面的学生交到系里,由系里协调分配。

所以,这份实力和运气兼具的选择机制总会伴随意外和惊喜。

谈到被选的原因,许东猜测,或许是自己初到UIUC时一次性通过了博士资格考试,一下子让Klaus注意到了。但其他同学就没有这么幸运了,很多美国同学在这场入学考试中表现吃力,或者没有参加,两次补考也有一半的博士生没有通过考试,被降为了硕士。

时至今日,谈起选择导师时的经历,许东还深有感慨,“我们是选择了彼此,夸张点说,师生关系对职业的发展可能不亚于配偶关系。”

许东的「AI生命科学」进化史:从90年代泡沫繁荣,到深度学习复兴

许东博士毕业时和Klaus J. Schulten教授的合影

进了Klaus组之后,许东在校内的贝克曼研究所(Beckman Institute)做研究。

这是伊利诺伊大学里一栋专门为跨学科研究而建设的大楼,主要集中在工程和物理科学、生命和行为科学方面的研究,超越了当时众多传统大学在组织和结构方面所存在的众多内在局限性,一切服务于跨学科交流。

在那里,许东第一次同时运用起“生物、计算机、物理”三门学科的知识。

对许东来讲,最难的还是补上生物的背景。组里的同学一起成立了“学习小组”,一起读沃森等人写的《细胞分子生物学》一书,每人轮流负责主讲一章,相互交流学习笔记。只用了半年,许东连同组的同学,都补上了生物知识。

从事交叉学科研究仍不轻松。那个年代的学术界有一种说法:只有在本领域做得不好的人,或者在本领域做到了天花板,才会转向交叉学科。90年代初,生物信息学甚至不能被看作一门学科,Klaus所领导的小组对外也是自称为“理论生物物理研究组”。

许东谈到,他所认识的物理系同学中,转向生物物理的人并不多,甚至有人不理解许东的转行。但许东相信自己的选择,导师Klaus就是一颗定心丸。他也曾在父亲多年的流体力学研究中,感受过交叉学科的魅力。

对于走上生物信息学这条路,他只做出过一次解释,“就像在计算机上设计波音777飞机,可以先根据数据建立模型并预测结果,等确定设计无误,再实际建构飞机,既省力、省时,也省钱。

同样的道理,生物信息学刚刚起步,主要结合生物、计算机、统计三门学科的知识,发展计算软件,用来分析生物数据、建立模型、预测结果,从而辅助设计药物,或者改良农作物。”

这种说法遭到嘲笑,许东确实遇到了一些问题。

他研究的是当时最火的蛋白质结构的分子动力学问题,简而言之就是研究蛋白质怎么运动。由于蛋白质的生物功能与结构动力学特征紧密相关,并且其研究对象为蛋白质分子个体,所以也是一门与分子生物学互补的研究。

但在90年代初,计算机内存容量太小,用计算机模拟分子运动常常受限,算力局限导致能做的事情也不是特别多。

许东称,“当时最好的机器才一个G,学生们都要抢着用,这与现在用云平台模拟出来的效果不能相提并论。”

在那个环境下,但他与导师做的第一个工作——《光合反应中心蛋白质运动与电子转移的耦合:在自旋玻色子模型框架下研究低温行为》,发挥理论研究优势。

许东借鉴了系里另一位教授安东尼·莱格特(2003年诺贝尔物理奖得主)的自旋波色子理论,在量子力学的知识体系下做出了一个新的理论模型,细致解释了光和反应中电子在蛋白质里电子传递的现象,在领域内得到了高度认可。

直到许东毕业十几年后,Klaus还会经常提到许东的这项研究。此后,在与导师的合作中,许东接连发出了9篇论文,其中6篇发布于1995年,与当时最火的分子动力学、活细胞中超分子系统等领域相关。

回忆起那段时光,许东称,在学术上对他影响最大的人就是Klaus,在遇到Klaus之前,他的理论天赋被隐匿以来,甚至不能写在论文中,他一度质疑什么才算是真正的科研。直到遇到Klaus,许东才有种找到了科研大门的感觉。

许东至今对一个场景印象深刻:半夜两点钟,Klaus为了一篇论文把许东叫到家里改稿,尖锐的点评与详细的建议劈头盖脸般地过来,一直改到他满意为止。

“我就是在批评中成长起来的“,许东称,”世界上有一些领域可以自无师自通,但在科研上,我还没有见过谁是自学成才的,每一个真正会做科研的人,至少是被另一个科研高手口传心授、精心调教,才能入得了科研的门。”

Klaus属于那种“严父型”的教授,但他对学生却不乏真诚的关心和骄傲。在他的实验室里有一面特殊的墙,上面挂满了学生们的论文封面,一一做了装裱。

许东的「AI生命科学」进化史:从90年代泡沫繁荣,到深度学习复兴

在许东的印象中,Klaus每天只睡4个小时,从不锻炼、从不养生,却能每周高效率地工作上百小时。

2016年,Klaus去世。许东回到那所实验室,对墙感叹,“或许我一生都到不了Klaus那样的高度,他完全是用生命做科研。”

葬礼那天,在西式的吊唁中,欢声笑语与掩面拭泪同步进行。Klaus在遗言中留给大家的最后一句话——“我不喜欢你们这样消沉,打起精神,还是像过去那样想起我。”

回顾起与导师相处的那四年,许东说到,Klaus是最感染自己的是他对自然与生命之美的洞察与挚爱。Klaus把自己大分子模拟的工作当成“分子显微镜”。他告诉朋友,生命之大美不仅仅在春天欢快的小鹿身上和秋天斑斓的落叶里面,也在我们肉眼看不到的生物大分子中间。他虽然不在了,他的学生们会继续他的事业,去探索更多的生命之美。

直到现在,许东也坚信,Klaus是他人生中最重要的一位老师。

90年代的生信研究“寒武纪”

1990年10月,经美国国会批准的人类基因组计划正式启动。

这项大约耗资30亿美元来测定30亿个碱基对的国际计划,从美国迅速席卷到英、日、法、德、中等国家。

与此同时,这项研究也从多国政府间的合作小组,分散到诸多私营性质的基因研究机构中。

其中,最具代表性的就是文特尔(J. C. Venter)创立了塞莱拉基因公司,并用1991年提出的“散弹法”新型测序技术,多次走到“国际人类基因计划”的前面。

一场公私之间的科研赛跑,在三十年前拉开帷幕。

1994年,由美国科学家约翰·莫尔特(John Moult)发起的全球蛋白质结构预测竞赛(CASP),召集科研界所有人士,开始了真正的较量。

这个两年举办一次的竞赛,一亮相便吸引了计算机科学、生物物理学等不同领域的专家参与到蛋白质三维结构预测中。在那个年代,基因测序和蛋白质结构预测如火如荼,生物信息学(Bioinformatics)也成为了一门正式学科。

许东的「AI生命科学」进化史:从90年代泡沫繁荣,到深度学习复兴

贝克曼研究所大楼

那是波诡云谲的90年代,一段即将进入生命科学时代的“寒武纪大爆发”。许东所在的贝克曼研究所,就站在了浪潮最前沿。

1993年,在那所大楼第五层的国家超级计算机应用中心(NCSA)中诞生的Mosaic浏览器,迅速在整栋大楼中传开。这样一个纯粹好玩儿的作品,成为点燃后来互联网热潮的火种之一。

后来,网景导航者浏览器的开发工作,聘用了许多原有的Mosaic浏览器工程师,但是没有采用Mosaic网页浏览器的任何代码。传承网景浏览器代码的后裔为Firefox浏览器。

在计算机技术的支持下,生物信息学迎来第一次黄金期,成为当时的前沿学科之一。

1995年,许东博士毕业。他来到美国国立卫生研究院的国家癌症研究所,拿到了一份博士后工作。“在美国走学术这条路必须要读博士后,Ruth Nussinov做的是蛋白的相互作用,我就进了她的组。”

许东的「AI生命科学」进化史:从90年代泡沫繁荣,到深度学习复兴

许东在博士后办公室里

工作测序工作与生物信息学大火,带动了工业界对人才的渴求。

在拜师Ruth门下时,许东曾看到一个制药公司一口气招了80多个生物信息学背景的人——全职。甚至一家公司猎头打电话找到许东,开出了他博士后的三倍薪资,“会写C(语言)就够了,你还会用BLAST工具(生物大分子序列比对搜索工具),明天就来上班。”

许东至今仍对那段时期印象深刻,尽管已经走上进了学术的大门,但依旧有不少公司想让他加入。

去公司拿高额薪水,还是只拿三分之一做博士后?这个问题,事关内心最真实的选择。

帮许东做决定的,是一场会议。

这场会议由美国国立卫生研究院举办,邀请知名学者做分享,其中三位就是后来的2013年诺贝尔奖得主——Martin Karplus、Michael Levitt、Arieh Warshel。

当天,许东赶到现场。他忘了那三位学者说了什么,但他对台上三个人侃侃而谈的样子记忆犹新。那种感觉让他心动,有几秒钟让他好像看到自己未来的样子。

那一晚从会议里走出来,许东心里有了答案。许东把希望放在了新的研究领域。

此前在分子动力学领域,他经常受限于动力学的模拟时间,只能做小部分的生物学问题。现在跳出来后,他想试试能不能做一些更广谱的问题。

谈起导师Ruth,许东称她是一位极具科研情怀的科学家,并且身为一位以色列女性学者,科研道路十分奇妙:Ruth在硕士毕业后做了八年的全职母亲,而后跟随丈夫来美国伴读,突然萌生了对生物化学的兴趣,才再读了博士、博士后,走上了学术道路。

许东表示,许多科学家对科研都有真爱,但Ruth对科研的钟爱与专注程度相当罕见,她对RNA、毒物蛋白的工作精益求精,要求极高。

许东的「AI生命科学」进化史:从90年代泡沫繁荣,到深度学习复兴

Ruth Nussinov教授

Ruth曾在1978年提出了用于RNA二级结构预测的动态规划算法(Nussinov Algorithm),迄今该算法及其变种仍在业内广泛使用,是生物信息学课程中常谈到的方法。

另外,她挑战了生物化学教科书中长达半个世纪倡导的生物大分子识别理论(诱导拟合机制),许东读研究生时学的就是这一理论,那时被告知生物大分子就像变形金刚一样可以粘到别的分子上,至于怎么变形及如何被驱动一直众说纷纭,没有靠谱的解释。

直到九十年代后期,Ruth用构象分布与选择替代的理论成功解释了许多分子识别的现象,并得到同行越来越多的支持,一举改写了教科书。

回忆起和Ruth相处的那两年,许东能想起很多场景。一天,许东做了一个小工作,想找个低端点的杂志草草发了。但和Ruth讨论好,并迅速写好文章交给她后,Ruth并没有像以往一样马上给许东改文章,而是直接退了回来。

Ruth找到许东说,不能因为低分杂志就不认真。接下来的日子,她和许东一起反复推敲科研细节,文章也是改了又改,最终那篇文章(《蛋白质相互作用界面的氢键和盐桥》)没有少花时间,却成为了一篇高被引的论文(被引五百余次)。

还有一次,许东和Ruth一起到香港一所大学做大会主题报告,许东提议两人出去转一转,以尽地主之谊,却遭到了Ruth的一口回绝,“我没时间,做完讲座要马上返程了,有太多的工作等着我呢。”

此后多年,许东慢慢跳出了分子动力学和生物大分子的研究范围,与Klaus以及Ruth的研究渐行渐远,但要说从Klaus和Ruth身上传承到什么,那就是想象力和精益求精。

“他们从不想着自己要老了,无所谓了,总觉得还有非常多的未知要解开。你会看到,他们的学术生命都很长,一生都未退休。”

博士后结束的二十多年后,许东仍对导师充满敬佩,他在朋友圈历数Ruth过往,并在最后写下了一段话:对于基础科学工作者来说,最高的成就莫过于把自己的学说写在教科书上,或者将自己的姓氏冠名于某个定理、算法,能做到其中之一的在学术界都是凤毛麟角,Ruth却把两件事都做到了。

1997年6月,许东博士后工作结束,注意到橡树岭国家实验室的一份招人广告——需要生物背景,从事蛋白质结构预测。“这份工作很合适我,虽然不是一份教职,但也不是去了工业界,算是找到了一份折中又适合的工作。”

把许东招进来的,正是担任蛋白质折叠项目组长的徐鹰。

彼时,徐鹰刚刚从橡树岭的数学与计算机科学部转到生命科学部。他们一拍即合,徐鹰偏数学计算背景,许东偏生物物理背景,而橡树岭的另一位研究员——俄国数学家Victor Olman博士,则具备统计学背景。

1997年,他们组成了橡树岭的“三剑客”,在此后的6年时间里合作了40多篇论文,在蛋白质结构预测领域打出了名堂。

许东的「AI生命科学」进化史:从90年代泡沫繁荣,到深度学习复兴

许东、徐鹰2001年在R&D100的领奖仪式上

那段时间里,许东和徐鹰还一起做出了那个时代中最好的蛋白三维结构预测工具——Prospect,在人类基因组测序中刻下了重要一笔。2001年,两人以此拿下R&D100奖,在新世纪初拿下开头彩。

橡树岭实验室坐落在山沟沟里,偏僻冷清却环境优美,是个安心做学问的好地方。“在那里,收获的不仅仅是科研论文,更是一种经历,对国家实验室如何运作,科研水平有了更深入的了解。实验室提倡科研合作,也逐渐学会与他人相处、共同进步。”

2003年实验室改组后,限于经费问题,原生命科学部大部分人去了工业界,许东和其他人也各自踏上了教职之路。

当最年轻的系主任遇上深度学习

许东一行人是幸运的,这群从橡树岭出来的人在美国高校大受欢迎。

新世纪初,几乎所有高校都在建设生物信息研究所,徐鹰最终去到佐治亚大学,成为了该校生信研究所的首任所长,并拉去了Victor Olman,两人继续共事。许东则去了密苏里大学的哥伦比亚分校(University of Missouri,Columbia,下称“密大”)。

2003年8月,许东以计算机科学系副教授、James C. Dowell讲座副教授,以及Christopher S. Bond生命科学中心研究员的身份,被正式引进到该校。

而他将在这个被称为“哥村”的地方,一待近二十年。

2007年底,42岁的许东担任该校计算机科学系的系主任,成为了密大所有系主任中最年轻的一位。这是许东人生中的一个重要时刻,也是在美国高校管理人员中为数不多的华人面孔。

许东的「AI生命科学」进化史:从90年代泡沫繁荣,到深度学习复兴

2007年,许东任职系主任时留影在这个非母语环境中,许东不善言辞,但这次任职,却收获了全院的支持。

许东说到,“如果要说我有什么合适的地方,或许是我学问做得还不错,文章比较多,更重要的是,大家觉得我不会借机给自己谋什么福利。”

上任第一件事,就是设计课程。许东在橡树岭这所千人实验室的经历派上了用场。他考虑了系内近20名教授的专长,准备将研究方向集中于三个领域,分别为网络、多媒体、生物信息。许东认为,计算机学科领域太广,必须专精才能突出。

”当时的密大计算机系有50名博士生,人力资源丰富,如果善加整合,提供明确研究方向,必能协助教授,做出量多质佳的研究,提高计算机系的整体素质。”

许东将学术机构则比作私人企业,学术合作的关键在于最后的产值,而系主任就是拉拉队鼓舞士气,让团队有最好表现。

那些年里,许东也长期奔走在国内高校,一边做学术讲座,一边推动国内大学与密苏里大学3+2、2+2等联合培养项目。

许东回忆,他跑遍了中国几十所双一流高校,回国次数不计其数。特别是吉林大学,他每年都去讲学,并担任过大约十年的唐敖庆客座教授,和许多的老师同学建立了深厚的友谊,合作发了几十篇论文。比如,时任吉林大学计算机学院副院长的梁艳春教授,也有十年每年到密苏里大学许东的实验室访问、合作。

许东的「AI生命科学」进化史:从90年代泡沫繁荣,到深度学习复兴

2015年许东到西安电子科技大学访问交流(右四),近年许东和梁艳春教授在密苏里河畔

在担任系主任的那段时间,许东参加了很多的领导培训课程,看到课件上将领导人打上四类标签:冒险型、守成型、改革型和善后型。

许东没想那么多,“天底下很多东西都有专业,但做领导是没有专业的,没有谁见到哪个系科是专门培养领导的,就算是MBA,教的也是金融的东西。”他反而觉得,不如从过去的经历中找养分,看看能不能把一个系管理得井井有条。

直到2016年,密大计算机系与电机系合并,许东十年的系主任正式卸任。

许东的「AI生命科学」进化史:从90年代泡沫繁荣,到深度学习复兴

2022年8月的Digital Biology Lab

这十年里,学校资源没有大幅扩大,许东所在的计算机系师资稳定在16~18人,学生人数却增加了一倍(从2007年的279人到2016年的700多人),科研经费也增加了一倍。

而他自己的实验室(Digital Biology Lab),也从2003成立初的七个人,到如今他直接指导13个博士生,还有一些职员和不少的硕士、本科生,在实验室待过三个月以上的成员前后有两百多人,其中三十几位目前在中国国内任教职。

许东的「AI生命科学」进化史:从90年代泡沫繁荣,到深度学习复兴

2018年,许东(右五)实验室15周年庆祝活动留影

此外,许东的一个重要工作,是2012年密大的BS-CS课程通过了美国工程与技术认证委员会(ABET)的正式认证。如此一来,国内外的密大访学人员便获得了中美两国的双向学位认证。

去年,许东与儿子骑行到密苏里州最大的毛刺橡树那里,在那棵哥村的地标大橡树下,许东回忆起过去的点点滴滴。他对儿子讲到,“过去十几年,密大接待了很多国内的学生和学者,许多人在神树下打卡纪念,这棵树陪伴了他们的重要时刻。夸张点说,这棵树就是中美友好的见证,我希望越来越多的人到这棵神树下打卡。”

许东的「AI生命科学」进化史:从90年代泡沫繁荣,到深度学习复兴

2012年,是许东学术生涯中的一个重要转折。此时,距离Alphafold运用深度学习算法在生物信息学领域一炮而红还有6年。

这一年,学术界发生了一件大事。

在李飞飞号召的ImageNet竞赛中,多伦多大学的Geoffrey Hinton、Ilya Sutskever和Alex Krizhevsky提出了一种深度卷积神经网络结构:AlexNet,夺得了ImageNet冠军,成绩比当时的第二名高出一大截。

竞赛结束后,一场关于深度学习算法的讨论在学术界传开。

业内有种声音,如果这种使用大规模数据集所做出的决策结果是真实的,那么它将走出计算机视觉、神经语言处理和语音识别等子领域的研究困境,就连生物信息学领域的蛋白质结构预测、基因测序等问题也都迎刃而解。

但在当时,大多数人对此持强烈的怀疑和批判态度,“深度学习无非是大号的神经网络,换个马甲而已,结果也是作弊来的。”

这种想法不无道理。许东称,当时深度学习在决策准确度上一举增加了10个点。在此之前,无数学者在十几年的研究过程中,每年几乎都是0.1%式的、非常微弱的进步。

因此,对于辛苦钻研的学者来说,深度学习的碾压式进步会让他们产生一种深深的“无力感”,甚至会产生一种难以言说的愤怒。

两股思潮的碰撞,许东身在密苏里州也听到各种声音。

密苏里州一直以来都因为“show me state”出名,意为“索证之州”。许东把所有的细节都看了一遍,也让组里的人也测试深度学习。结果不出所料,深度学习在几个生物信息学的问题上有很大的提高。

2012年,许东不顾所有人的质疑转向了深度学习,这是他人生中第二个重要时刻。

此后,许东的课题组把深度学习在生物、医学上的应用作为第一研究方向,合作对象也从本系扩大到美国、中国高校。

在深度学习的影响下,许东关注到农业植物作物、中医研究、单细胞数据分析、蛋白的分析、修饰、定位,结构预测等其他领域的课题。

过去三年,许东第一大合作对象是俄亥俄州立大学的马勤教授,基于深度学习做单细胞基因测序的问题上发表了7篇有影响的文章。

许东的课题变化依然有,但主线已放在了深度学习上。

许东最直观的感受是,跳出原有的分子动力学模拟的框架后,反而做的东西更多了,合作对象也更多了。一个显著特点是,过去二十多年,许东所发表的论文中,作者少则四五人,多则十几人,合著期刊论文近300篇,会议论文和著作章节共计超百篇。

在不同时刻,许东与不同人结成战友,迅速冲到科研落地最前线,而他自己,也从一名物理学者,逐渐蜕变为生物物理学者、再到生物信息学者。

许东坦言,“我们做交叉学科,谁都无法把一个问题的方方面面都解决,所以需要很多合作,在我身上就非常明显。”

许东的老友徐鹰也讲过,许东做出了非常多的计算工具,如果没有他的生物物理背景,是做不出来的。

在许东的理解里,他并不觉得自己成了“工具人”,而是在那些合作中,和别人一起成就更多的事,而不是把研究仅仅当作饭碗或工作量。

同是物理出身,后转向理论生命科学研究的郝柏林院士也曾讲过,“要想做生物,不能当票友,这是一个义无反顾、全心全意研究生物的“中心” ,而不是出身物理学的人参与一些生物学的问题。”

给18岁的许东一个答案

在密大做研究,许东已经不知不觉做了二十年了。

他每天七点起床,十二点前睡觉,每周都要审一篇稿,并且花大量的时间(包括周末和晚上)和组员及合作者讨论科研,这是许东二十多年来的常态。

这些年来,许东好像没什么变化,他依旧同样对外界充满新鲜感。

他爱拍照,出门时常带着一台相机,习惯将镜头对向自己之外的人。在他那里,好像随时能将视角切换到其他人,永远都有一种置身事外的能力。

对于许东个体和科研总体而言,时常的“局外人”身份具有重要的意义,科学研究不能总以自己的位置作为参照,要时不时跳出来,在复杂多变的现象中看清最深刻自然的本质。

许东的「AI生命科学」进化史:从90年代泡沫繁荣,到深度学习复兴

许东所摄:仰望日食的阿米什人,拉斯维加斯羚羊谷

正是如此,在过去三十多年的时间里,许东趟过了生物信息学的泡沫期,与导师在那栋交叉研究大楼一起拼搏、与橡树岭同事们组成了生物信息学三剑客、又在密大亲身推动了交叉学科的建设、最后在漫长的科技长河中,找到了深度学习这对船桨。

人过半百,许东还在做着他最喜欢的交叉学科研究。或许这也是即将58岁的许东,要给18岁的自己的一个回答。

最后,许东谈到自己,说到,“或许我永远做不到Klaus、Martin Karplus、Ruth那样的顶流。”

他停顿了一下,“但我会延续他们的学术热情,抻长我的学术生命,始终站在科研的一线。”


作者注:

1993年,中国参与人类基因组计划,生物信息学科迎来大爆发。

在近三十年的时间里,一大批生物、化学、物理、计算等专业的学者,前仆后继加入到学科的产研建设,那是一个灵感迸发、情谊绵长的年代,也是一个走出质疑、迷茫的年代。

目前,雷峰网启动《生物信息学的三十年往事》专题,将陆续推出徐鹰、潘毅、周耀旗、许东、唐建等新老学者的人物故事,记录光辉岁月,以照后人之路。

关于生物信息学的更多故事,欢迎与本文作者吴彤交流,微信号:icedaguniang

许东的「AI生命科学」进化史:从90年代泡沫繁荣,到深度学习复兴

雷峰网雷峰网(公众号:雷峰网)

长按图片保存图片,分享给好友或朋友圈

许东的「AI生命科学」进化史:从90年代泡沫繁荣,到深度学习复兴

扫码查看文章

正在生成分享图...

取消
相关文章