把“冷板凳”坐热了,是当今生信人的一大喜悦。
在科研舞台上,生物信息学(Bioinformatics)有着杂糅而成的名字,却仅为角落里不起眼的存在。
其原因不外乎:“太新”“太交叉”“太应用导向”,以上三者使得很多人认为这一学科不成体系,没有理论根基。
此外,生物信息学易学难精,从业人员需要生物学知识的同时,还需掌握计算机科学和统计学等领域的技能,更要融汇数学物理的抽象逻辑思维,这种跨学科的要求又限制了该领域的普及速度。
时至今日,国内生信人仍处在尴尬境地:主导合作机会较少、长期背负着“打杂”的标签。
但不可否认的是,生信早已融入整个生物医学领域,并推动其研究方法和思维模式的持续变革,提供了高通量跨尺度多模态数据分析挖掘、药物设计、疾病机理系统研究等核心功能,是连接生命科学与计算科学、推动精准医疗和转化医学发展的关键学科。
默默无闻,却坚韧地支撑着生物医学研究的“骨架”。
与生信的实际效用相比,其声名处于波粒二象性,时而代表生物医学研究走向数字化智能化的未来,时而又是所谓“水文”泛滥的助力,这既代表着大家对这个新兴学科的关注,也说明全面客观了解这一学科的必要性。
近期,2024年度「第二届生物信息与转化医学大会」落下帷幕。本届大会以 “人工智能时代的转化医学”为主题,由北京携云启源科技有限公司承办。
来自上海市生物医药技术研究院的戴文韬研究员,以其在多组学整合和计算结构分析挖掘方法领域的深入研究,以及在肿瘤信息学和生物大分子药物设计优化方面的丰富应用实践经验,成为本次会议的组织者及分论坛主持人。
借此契机,雷峰网与戴文韬进行了深入对话,以一位毕业十年的基层年轻科研人员视角,探讨了他为何坚守在生信的道路上,以及他眼中的生信前景。
实际上,在生物信息学尚处于起步阶段时,戴文韬便投身其中,成为了国内最早一批生物信息学博士生。
在中科院生物物理研究所读博期间,他的研究课题聚焦于蛋白质折叠与三维结构预测。他表示,这一领域在当时虽然小众,却为他日后的研究打下了坚实的基础,比如统计热力学、分子模拟和分子力场的知识储备,以及数据挖掘和算法开发的落地实践经验均起源于那时。
2014年,在面临职业选择的十字路口,戴文韬放弃了转行互联网或游戏设计的机会。
他解释道,尽管互联网和游戏行业当时发展迅速,对人才求贤若渴,并且同生物信息在技能上有一定的共通之处,但他最终还是选择了继续在科研的道路上深耕。
如今,戴文韬的科研轨迹已经十分明晰。他提到,受到“科学四象限”中“巴斯德象限”的启发,他将“应用需求引起的基础研究”作为自己科研工作的主导方向。
至于生物信息学者能否成为科研的中心力量,他也给出了自己的回答:“正如社会分工的多样性,每个领域都有其不可替代的价值,不同环节共同构成完整的产业链。我的目标只有一个,在自己从事的细分研究领域,做出特色成果,解决实际问题,融入产业价值链,给为他人带来帮助。”
以下为对话(经编辑):
国内最早一批生信博士生的出路
雷峰网:请您分享下教育背景和研究经历,以及这些经历如何塑造了您的专业技能和研究视角。
戴文韬:我是2004年进入华东师范大学生命科学学院,主修生物技术。2008年,保送至中国科学院生物物理研究所硕博连读,加入了蒋太交教授的课题组,专注于生物信息学的研究,并于6年后毕业获得生物信息学博士学位。
实际上,在我读博期间,国内生物信息学还处于起步阶段。因此我也算是国内较早一批获得生物信息学学位的博士毕业生。
在我的博士研究中,我专注于蛋白质折叠与结构预测的课题,这在当时是一个相对经典但小众的领域。但幸运的是,在我个人研究的早期阶段,就与许多老师和团队建立了联系,得到了很多前辈的指导帮助和鼓励,例如中科院计算所卜东波老师在中关村开设的算法课程我也有过旁听,而卜老师也参加了我的博士毕业答辩。
关于研究视角,由于我所面临的课题非常具有挑战性,需要尝试各种方法。
最初,我们尝试采用统计热力学、分子模拟和分子力场的方法进行研究。然而,到了2010年,我意识到传统计算方法的局限性,开始探索机器学习方法。
尽管神经网络当时已经开始流行,不过不同于CNN为代表的深度神经网络,效果并不好;加上数据量和其它因素的限制,我们选择了支持向量机(SVM)。
2012年CASP10比赛中,我们团队利用SVM融合序列、结构拓扑和统计分子力场特征,进行蛋白质三维结构模型选择,形成的创新方法,与实验室前期主链和侧链预测方法共同构成了一套相对独立完整的技术体系,取得不错表现,后续也发表了相关论文。这些研究成果现在依然可以在网上找到,代表了蒋太交课题组在蛋白质三维结构预测领域的探索和贡献。
所以,如果要说我的专业技能和研究视角是如何塑造的,可以说困境使然,让我不断在限制性条件下寻找可行的解决方案。
在那个时代,由于缺乏现成的数据库和工具包,我们不得不从零开始构造模板库并编写许多程序,尝试了各种可能的方法。这一过程不仅让我掌握了生物信息学领域所需的专业技能,还对物理、统计、计算化学、机器学习与数据挖掘等多个领域有了比较深入的认识和理解,后来我发现在跨领域合作和解决实际问题中,这些积累很有助益。
雷峰网:十年前,为什么加入“上海生物信息技术研究中心”?
戴文韬:2014年博士毕业时,我面临几个选择。一是出国做博士后,这是一个比较传统的选择;二是转行,比如进入互联网行业,包括游戏产业。
之于前者,当时经典的蛋白质折叠和结构预测领域在国内相对沉寂,难以找到相关的就业岗位。如果想要继续从事计算结构生物学研究,唯一的选择似乎是出国。
之于后者,当时互联网及游戏行业对机器学习和几何三维建模相关的人才需求很大,尤其在游戏领域,进行从3D引擎到数值优化等多种工作,可迁移使用此类专业知识。
此外还有一层原因是,互联网及游戏行业的蓬勃发展,提供了非常有竞争力的薪酬待遇和大量工作机会,促使年轻科研人员转行寻求发展机会。
尽管如此,我仍然希望能够投身于科研工作,能够做一些实际应用,为人类带来贡献和帮助的研究。
这时,上海生物信息技术研究中心的肿瘤精准医疗方向,以产业化研发为导向,包括PDX模型与多组学和计算结构生物学相关研究和应用,对我而言符合兴趣,从而具有了很大吸引力。
在这样的环境中,为PDX(患者来源的异种移植模型)项目提供数据管理和分析挖掘信息化解决方案,本身就是一种典型的应用基础研究,加上该中心是当时中国首家以生物信息为主业的独立法人研究机构,李亦学老师担任该中心的主任,李园园老师担任课题组长,有这样优秀的前辈们推动,我便坚定了加入的决心。
我们当时希望将生物信息学,特别是多组学相关技术与PDX模型结合起来,探索肿瘤精准医疗的可能性。
后来,上海生物信息技术研究中心、国家人类基因组南方研究中心、上海市计划生育科学研究所,三家单位共同组建了“上海市生物医药技术研究院”,其核心职能是承担人口健康与生物医药领域关键共性技术、颠覆性技术和重大产品研发、应用转化与技术服务。同时,因为肿瘤精准医疗,在领导带领下我便与上海交通大学附属瑞金医院(尤其是消化外科研究所),以及上海市胃肿瘤实验室建立并保持了密切合作。
雷峰网:您目前在上海市生物医药技术研究院的团队规模如何?
戴文韬:我们是上海市生物医药技术研究院组学研究与应用课题组,属于上海市疾病与健康基因组学重点实验室,课题组长是李园园老师,我作为联合课题组组长,团队规模目前在十人左右,比较精干。感谢上海生研院和李园园老师给了我很大的科研自由度,这对于从事探索性创新的研究人员非常宝贵。
李园园老师自2003年以来就一直在系统生物学领域开展研究,研究方向为复杂疾病相关的生物学系统大数据整合挖掘。主要从事以识别驱动因素及其信息传递、交互机制为目的的跨尺度、多模态、多层次数据整合挖掘方法开发,比如开发DCGL等一系列有价值的计算工具;应用于肿瘤、自身免疫病等复杂系统疾病的关键调控因子、调控模块、失调事件挖掘,跨尺度机制探索,机制解释性标志物及潜在药物靶标识别,以及疾病关联网络研究,取得许多成果。她领导项目团队非常有创造性地将一些经典重要的比对算法,结合基因组数据应用于食源性致病菌的检测,成果已应用于旺旺集团的实际生产。
我本人领导的小组主要针对诊断标志物和药物研发场景中的产业实际需求,发展转录代谢调控相关时空多组学分析技术配套数据库和方法,研发生物大分子药物相关设计优化计算方法,并应用于肿瘤精准医疗相关诊断标志物和药物研发的转化实践。
因此,总的来说,有效支持转化医学有应用价值的生物信息研究,将我们课题组凝聚在一起;我们对科研工作和成果转化的期望是,能够在产业链中打造出具有特色和价值的一环。
如何把“肿瘤转录代谢多组学挖掘及应用”做出特色?
雷峰网:注意到您当前的研究方向是转录代谢调控多组学及应用。其中包含两块,一是开发数据库和计算工具,二是诊断标志物和药物研发。能详细介绍下吗?
戴文韬:追溯起来,随着人类基因组计划的完成,研究重点相对集中在基因组、甲基化、转录组等基于NGS的组学领域。近年来,随着质谱技术的发展,蛋白组、代谢组、脂质组及相关单细胞空间多组学研究变得越来越受关注。
近五年,我在组学领域的研究主要集中在适用于转录代谢调控的计算分析领域,特别是脂质代谢和空间代谢多组学相关整合分析,同时也探索了数字病理与分子组学的跨尺度多模态学习建模,上述工作主要应用于肿瘤及其微环境研究。
这些研究工作的共性是,针对场景需求和数据特点,灵活使用了多样化的机器学习手段,并得益于跨学科合作者的支持,才能顺利进行。例如,北京携云启源,吴谦副研究员等合作伙伴,在脂质组研究领域给予我大力支持。跨尺度多模态学习建模得益于上海交通大学医学院附属瑞金医院刘炳亚教授和上海交通大学计算机系杨旸教授支持,同时刘老师团队还对我们挖掘到的计算结果进行了一系列实验验证,取得了有价值的发现。中国医学科学院药物研究所贺玖明教授、齐鲁工业大学(山东省科学院)孙成龙教授,他们在空间代谢组学检测方法领域的工作非常出色,同他们合作时学习收获很大。
我们很多方法策略是为了解决诊断标志物和药物研发中的实际问题而发展,后续也在应用中取得了不错的效果。因此,对于我的研究,产业转化应用非常重要,既是下游工作场景,也是上游需求活水。
在诊断标志物研发方面,我们基于组学领域的积累开发了一些基于差异调控识别具有机制解释力诊断标志物的计算方法,用于肿瘤伴随诊断标志物研发效果不错,申请获得了相关知识产权,包括专利和软件著作权。部分成果同企业合作紧密,进行了转化探索。然而,由于大环境的影响,诊断标志物的成果转化目前并不算好时机。不过,我们的相关研究仍在继续,相信未来终会改观。
在药物开发领域,我有幸参与了一些抗体和特殊治疗性蛋白质药物的结构设计与改造优化工作。针对研发场景中的一系列实际问题,比如调节亲和力、消除非特异性脱靶、克服CMC成药性困难等。我不仅利用专属序列比对、深度学习、结构模拟等计算方法挖掘序列和结构信息,而且积极通过转录、蛋白、代谢等高通量组学手段获取有效信息;更充分借助生物、化学理论、免疫信息和蛋白质工程领域的经验知识及工具,通过视觉审查等人工手段实现创造性的决策优化,支持实验研究人员高效解决了相关问题。“人机结合迭代,知识数据融合”弥补了高质量标注数据不足和通用计算模型在具体场景不适用的短板,我们的策略方法已在scFv、TCR、VHH、T细胞抗原表位肽等多种形式的蛋白质药物研发中有过成功案例。虽然还没有找到理论上的通用方案,但算是工程上有意义的实践,达成了降本增效的目的。
雷峰网:您和团队也在做数据库吗?
戴文韬:是的,高质量数据是计算方法的重要基石。我们去年与携云启源合作发表了一个名为“人类脂代谢相关脂质和蛋白数据库(DBLiPro)”的数据库。
这是一个细分的专业领域数据库,系统地收录了与脂质代谢相关的各种蛋白质,并提供了多种特色高质量标注信息,以及适合以脂质为中心多组学整合挖掘分析工具。
我的工作往往专注于非常专业的小领域,这些细分领域往往是研发链条中缺少的某个细分环节,我们的目标就是补充这一环。
雷峰网:您在进行肿瘤多组学数据整合和分析时,采用了哪些方法和技术,遇到过哪些挑战?
戴文韬:在进行肿瘤多组学整合分析时,我们团队采用了一种知识和数据融合驱动策略,灵活使用图神经网络、随机森林、遗传算法、多种统计回归等,研发适用于多组学数据挖掘和机制解释性标志物发现的差异调控分析方法。
目前该方法用于胃肠道肿瘤为代表的复杂疾病研究,识别具有机制解释力的关键调控因子和关系,助力发现潜在药靶和标志物;得益于实验合作伙伴,比如瑞金医院刘炳亚教授团队,我们共同验证了计算发现的一系列新的胃癌关键调控基因和作用关系。上述实践推进转化医学产生新知识的同时,验证了我们计算方法的有效性。
在这个过程中,我面临很多挑战,同时发现大数据和人工智能技术在生物信息学中的应用和潜力是巨大的,不过需要同场景需求和实验工作者密切合作,多角度相互促进,避免自我循环论证。
因为过去很多时候,生物信息学的研究可能会让人觉得“做了肯定好,不做也没什么”,这显得有些尴尬。但是,高通量多组学技术天然需要大数据和AI的加持,会推动生物医药和生命科学进入数字化智能化时代。
在这一过程中,我认为最大的挑战是,我们不能仅仅满足于生物信息学的计算分析和挖掘,而应该充分了解待挖掘领域的知识和需求,同具体领域专家一起推动研究成果的实验验证,并形成正向的反馈迭代。毕竟,生命科学和生物医药领域本质上是实验科学。
雷峰网:在转录代谢调控领域,除了您所在的团队,国内外还有哪些团队在这一领域做出了杰出的工作?
戴文韬:在代谢领域,大家可能首先会想到上海交大医学院附属瑞金医院的宁光院士、武汉大学的宋保亮院士、厦门大学的林圣彩院士、大连化物所的许国旺教授等知名科学家。
我们的研究方向是肿瘤的转录代谢调控,更准确地说是基于高通量组学的转录代谢调控系统生物学,专注于肿瘤转录代谢调控的高通量组学分析方法研发和应用。相对于经典代谢领域,我们属于系统生物学的代谢多组学,是相对边缘的新兴学科。中科院北京生命科学研究院赵方庆研究员、加拿大麦吉尔大学夏建国教授、上海交通大学王卓研究员等科研人员,从不同角度通过出色工作推动了代谢多组学数据分析方法,大家共同推动该领域更好地发展,并服务于生物医学。
因为我们团队规模较小,所以希望能够做出特色工作,与其他团队形成互补的合作关系,通过关注应用的成果,助力推进基础研究前沿成果的产业转化。
雷峰网:后续您和团队在前沿研究和成果转化上,有哪些规划?
戴文韬:我希望能够在未来几年,围绕自己的研究领域,做一些场景导向的、有特色应用价值的成果。
我希望针对未满足的生物医药关键共性场景需求,融合领域知识和高质量数据,研发转录代谢多组学分析和生物大分子药物计算设计优化方法,应用于诊断标志物和药物的发现,特别是新型生物大分子药物的发现。
代谢组学不仅可以用于标志物的发现,还可以帮助解释药理作用,包括药物的耐药性、敏感性以及ADMET特性(吸收、分布、代谢、排泄、毒性)。生物大分子药物,因其自身特点,在安全性、有效性、可成药性等方面有着完全不同于小分子化学药物的需求,这都对计算设计优化提出了独特诉求。
个人认为AI通用大模型是人类的追求,但在我所从事的应用基础和转化研究领域,应该尊重具体领域的已有积累和客观规律,循序渐进,小步快跑推进落地,比如云计算和边缘计算不是替代关系,而是互补增效关系。我希望将主要精力集中在细分领域上,寻找好的合作伙伴,共同推进成果转化。
当然,每个人内心都有一股推动产业链发展的冲动,想要将一个产品从实验室原型推向最终产品。但在实际工作中,我始终坚持需要克制这种冲动。
因为术业有专攻,在成果转化方面,产业链是很长的一环,确实有杰出的人才能够全面掌握,但坦白说,我目前并不具备这样的能力。我只是一个年轻的基层科研人员,所以我对自己的定位是专注于产业链中的特定环节。
我的目标是在产业链的特定环节上做出特色,创造出有价值的工作,成为产业链中不可或缺的一部分。至少,我希望能够在这里打造出具有特色且对他人有帮助的一部分。
雷峰网:如果抽象来说您当前的工作,您和团队是否有一套科研观念,以及您是如何在前沿基础研究与技术转化之间架起桥梁的?
戴文韬:我可以用“科学四象限”来回答这个问题。
这个图展示了四个象限,每个象限代表了一种研究模式。纵向的两端分别越接近理论、应用;横向的两端分别越接近知识的发现、数据的积累(即使我们可能无法直接发现新知识,但我们可以有效地积累数据)。
这就产生了区别:
第一象限侧重于理论和知识发现,这是典型的基础研究,有时被称为波尔象限或牛顿象限。
第二象限侧重于理论和数据积累,被称为整合经验或技能训练的象限,有时被称为第谷象限或皮特森象限。
第谷是天文学家,他一生完成了当时最完整的天文观测资料,但他坚持地心说,因此没有取得重大发现。而继承了他所有数据资料的是开普勒,开普勒从这些资料中推断出了行星运动,命名为开普勒三定律,这逐渐过渡到了牛顿的万有引力定律。这就是第谷象限和牛顿象限之间的关系。
第三象限侧重于经验、数据积累,属于纯应用研究,典型的代表是爱迪生。他通过大量实验找到了适合制作电灯的材料。例如,为什么白炽灯的发展会用到钨丝,研究者可能并不关心其性能为何优越,只知道它好用就足够了,这是一个纯应用的象限。
第四象限侧重于应用引起的基础研究,代表人物是巴斯德。
巴斯德在防止红酒和牛奶变质的过程中发明了巴氏消毒法,但他同时也做出了重要的科学发现——微生物的存在。这一过程是典型的从应用需求出发,为了更好地满足这一需求,进而推动了知识的进步。
实际上,我从上海生物信息技术研究中心开始,个人研究方向就已经进入了巴斯德象限,而我现在参与到“上海市生物医药技术研究院”中更是如此。
如果用一句话来概括我的研究重点,就是专注于转录代谢调控相关的时空多组学和生物大分子计算体系的研发及应用。
这不是纯粹的理论研究,强调以应用需求为出发点,旨在满足应用目的,但同时也会带动新知识的发现,进而指导形成更有效的工程化解决方案,这其实是一个知识发现落地反馈迭代优化的闭环。
因此,我对串联前沿基础研究与技术转化的理解是:
首先要场景导向,明确在特定场景下我们需要什么;
其次以产业场景为导向,针对产业需求,将前沿基础研究中的合适理论和技术应用到问题的解决中。
合适的解决方案并不意味着它一定是最新或最先进的,但它必须是最适合当前条件的,因为时间和资源都是有限的。
更近一步说,我对“智能”的理解在于,无论是人工智能还是其他形式的智能,其重要性在于能够在有限的资源和时间内,为问题提供一个相对可行的解决方案。最好是能够从这个解决方案中进行理论升级,即从应用到知识的转化。
雷峰网:如果将人工智能的发展分为几个里程碑,比如统计学习、机器学习、深度学习等。那么如今的大语言模型对于您目前从事的肿瘤转录代谢调控和生物大分子药物计算研究有何影响?
戴文韬:在进行空间多模态数据分析时,深度学习在图像处理方面确实带来了新的突破。未来,对于文本相关的多模态数据分析,大语言模型将会发挥重要作用。
但大语言模型并非万能,仍需要与数据相适配。
比如,在组学数据挖掘中,尽管我们尝试利用了一些领域知识,但可用的高质量数据仍然较少,单纯依靠算法和数据驱动难以解决问题。
再比如,在生物大分子药物研究过程中,具体药物研发管线和案例,往往没有足够的高质量标注数据来进行训练,通用模型难以落地应用。
尽管现在大家也在讨论零样本(zero-shot)和少样本(few-shot)学习方法,但面对梯度爆炸等问题时,遗传算法等技术,在很多时候仍然是一个很有效的解决方案。
因此我的观点是,研究始终应该是场景和需求导向。
过去学术研究有个常见问题是“拿着锤子找钉子”,而没有考虑到可能需要发展其他工具。
但事实上,在工业软件中,小模型仍然占据主流,这类似于前几年大家都在讨论云计算,但最终发现仅有云计算是不够的,还需要边缘计算。
因此,对于大数据和人工智能,我认为在解决实际问题时,找到最合适的解决方法是最重要的。我们不应该只是追随潮流,而应该针对具体的应用场景和需求,找到最合适的解决方案。
当然,我非常积极地拥抱大型语言模型。实际上,我每天都会使用国内外的多种大型语言模型,并在研究中已经在有所应用。我也会告诉我的学生,在大语言模型技术领域,我们站在同一条起跑线上。不过,以大语言模型为代表的AI技术,已形成资源需求巨大,产业界主导的趋势,这对于更自由灵活的学术和技术团队在该领域的研究和应用构成巨大挑战,长远看会制约技术生态多样性和实际落地,个人认为该趋势和挑战非常值得重视。
归纳一句话,在解决具体问题时,我认为“不管黑猫白猫,能抓到老鼠的就是好猫”。
雷峰网:这次在大会上,有哪些人的报告让你特别感兴趣?
戴文韬:我对这次会议中的三个主题非常感兴趣。
首先是肿瘤多组学整合研究与转化应用。
其次是单细胞时空多组学的应用越来越广泛。在这两部分中,可以看到知识库和数据库发挥了重要作用。
第三部分是临床队列与转化医学,这涉及到大数据的采集、管理和应用。
简而言之,这三个主题可以归纳为肿瘤多组学整合研究与转化应用、单细胞多组学,以及支持这两个领域的数据库,进而是更为基础源头的自然人群和临床大队列。
在会议上,我的感受是生物医药正在迅速进入一个真正的大数据时代,包括队列研究和组学研究,也正在从过去的静态单点式研究进入到时空多组学的时代。
在这次会议上,公开场合的报告中还没有看到很多关于大语言模型的工作,但在会议交流中,大家都非常关注这一领域。我认为在未来两年,这类工作会逐渐增多。大家已经广泛地将大型语言模型作为日常助手使用。
雷峰网:您如何看待当前中国生物信息学和转化医学领域的科研环境?您能否根据自己的经验,谈谈如何推动跨学科领域合作,以及对于年轻人的建议?
戴文韬:关于生物信息学和转化医学领域的科研环境,每个人可能都有自己的感受。
我自己自2008年进入生物信息学领域,从早期开始就一直在这个环境中成长。生物信息学至今尚未没有自己的一级学会,但在生物医学领域中,它确实是一个重要的辅助学科。就像社会分工一样,每个领域都有其独特的价值。我们要做好自己的本职工作,为大环境做出贡献。
随着时间的推移,相比当年,生信这个领域已经得到了更多的认可。
在当下时代,有组织的科研得到了大力提倡,这是科研范式变化的结果。在有组织科研和当前科研环境下,自由探索型团队越来越感受到,自由并非没有代价。但我认为学术自由仍然是最宝贵的,对于细分特色和非共识研究领域尤其如此;上海市生物医药技术研究院和李园园老师为我提供了相对自由的学术环境,对于部分科研人员这是很难得的事情。从生态进化角度,多样性是应对不确定性的最佳手段[WD6] ,在当前这个大变革的时代,个人认为这个观点很有价值。
在跨学科合作方面,我的经验是首先要彼此尊重,然后是在尊重和信任的基础上实现互补,这样才能从彼此那里学到新的东西,有助于合作各方的利益。
我与物理、化学、药学、医学等不同领域的专家都有合作。在合作过程中,尊重不仅体现在对合作者的尊重,更重要的是尊重对方学科的研究历史、脉络和研究范式。
跨学科合作就是寻求互补共赢,比如我与生物物理领域的吕军鸿教授、分析化学领域的贺玖明贺和孙成龙教授,以及医学领域的刘炳亚教授等都有合作,我自己在合作中学习收获很多,非常感谢他们。这种合作最重要的是,一开始的利益和动机要纯正,互相信任,实现共赢,这样合作才能长久。
至于对年轻人的建议,我听了您的话后突然意识到,尽管我自认为还是年轻人,但我博士毕业已经十年了。对于年轻人,我的建议是,十年后你在学校学到的知识可能都已过时,与时俱进是关键。
同时,虽然许多具体的技术模式和技能可能已经发生了变化,但我认为十年来思考训练凝结成的科学思想和意识,发现问题、定义问题、解决问题的能力是不会过时的。
雷峰网(公众号:雷峰网):多年前人们对跨学科并不感兴趣,认为只有本领域做不下去的人才会选择跨学科。但现在,随着 AI 制药的发展,以及像英伟达这样的公司在芯片算力方面的推动,生物信息学变得非常有用。您自己的感受是怎样的?
戴文韬:对,这是一个巨大的变化。一批生信领域的前辈从冷板凳走到聚光灯下,他们的感受颇深。
特别是周耀旗老师,我是他博客的忠实读者。当年在生物物理所读书时,每年都要进行考评。有老师直接问我们生物信息专业的学生,你们整天不做实验,就只是对着计算机敲敲打打,对学科的意义和价值如何。
当时我们只能尴尬地笑笑,弱弱的表示我们期待未来取得进展。但现在,经过了大约十年的时间,再也没有人这样说了。
更重要的是,这个学科的从业者大多都还活着,再次证明生信是一个非常年轻和新兴而充满未来的学科。
我可以再举一个例子,关于我之前提到的科学四象限。
我的学术研究起步于生物物理研究所的蛋白质折叠与结构预测。实际上,我本科时加入实验室和进行毕业论文研究时,最初的目标是计算神经生物学,后来发现生物信息学的数据积累更为充分,加上其它原因,我就走上了现在的研究道路。
但说实话,无论是计算神经,还是生物信息,在当时都是一些非常冷门和小众的领域,但现在这两个方向相关的脑机接口与神经解码、类脑智能,生物信息、精准医疗、CADD/AIDD等领域均已成为不可忽视的热点研究方向。
所以说,如果要给现在的年轻人提建议,那就是一句话:首先要选择自己感兴趣且擅长的领域,但不一定要选择当前最热门的方向。
GPT-2.0等模型在技术圈崭露头角时,虽然大众不知道,但从专业角度判断,新的理论已经构建完成,后面需要工程上的突破和大量的资源。在这种时刻,除非你的目标是进入产业界,否则作为一个年轻的学术人员贸然进入自然语言学习领域的很多方向可能都会很危险。
雷峰网:您的分享非常有启发性,包括谈到一些从事生物信息学的人还能转行做游戏设计,那么这两者还有哪些关联?
戴文韬:在当时的环境下,生物信息学的就业非常困难,大家都在寻找出路,人总是要先吃饭。
事实上,游戏行业的发展对技术进步,尤其是GPU技术和强化学习的发展起到了推动作用。这种技术的发展对生物信息学同样有益,因为生物信息学中的许多计算密集型任务,如三维结构模拟和数据分析,都需要强大的几何图形计算能力;另外游戏行业对合成数据技术的推动,对许多领域都非常重要。
回想我在生物物理所学习时,我最早接触到了IBM推出的异构计算和多线程处理技术。这种技术在当时是非常先进的,但同时也带来了编程上的挑战,因为它要求开发者自己管理浮点运算和字节存储。
随着时间的推移,像英伟达、谷歌、Meta等公司提供的现代编程库和工具,极大地降低了异构计算和并行化的工程化门槛。这些工具使得非专业程序员也能够更容易地进行开发和创新。
有时我问00后学生,他们甚至不知道IBM是什么,这让我感到惊讶;想来这是时代在变化,江山代有才人出的真实写照。
所以说,在合适的时机做合适的事情,非常重要。如果无法确定合适的时机,或者没有合适的条件,我宁愿不烧热灶,不追风口,选择一个自己感兴趣的小众冷门领域,尽管这很有可能失败,但也有机会做出自己的特色。
总的来说,技术的进步为各个领域提供了打破藩篱,相互促进的机会,比如生物信息和游戏;而个人则需要根据时代的变化和自身的兴趣,争取一专多能,做出合适的职业选择。
本文作者 吴彤 长期关注人工智能、生命科学和科技一线工作者,欢迎同道微信交流:icedaguniang