编辑 | 岑峰
俞先生是我国最早从事语言信息处理、计算语言学研究的学者之一,是该领域的开路人,培养了一批卓越的语言学家和计算语言学家。
俞士汶先生,1938 年 12 月出生,安徽宣城人,北京大学信息科学技术学院教授。1957 年考入北京大学物理系,1958 年转入数学力学系,1964 年毕业后留校。主要从事计算语言学研究,作为第一完成人的主要研究成果有以《现代汉语语法信息词典》为基础的综合型语言知识库。
俞士汶先生的学术生涯,始终与北大交织在一起。
当“家是最小国,国是千万家”的歌声唱响时,俞士汶先生最先想到的是北京大学。
俞先生曾说过,1957 年考入北大是他人生中最重要的选择,在其日后人生中,他始终感谢北京大学提供的阳光雨露。
在工科统称高等数学的课程,在北大分为数学分析、线性代数,表面上只是深浅不同,其实对人潜质的影响和能力的培养大不一样,抽象、严谨的课程训练增强了俞先生探求事物本质及其内在规律的惯性,懂得欣赏数学的形式美,追求逻辑思维的严密,认识到主观的已知同客观的未知相比,永远是微不足道的,也对科学存有敬畏之心。做学问需要想象力,更需要实事求是的精神,来不得半点虚假。俞先生在北大早期受到的熏陶,对于日后科研实践风格的形成产生了潜移默化的影响。
俞先生在北大的专业是计算数学,那时有计算数学专业的高校不止北大一所,但是有条件使用电子计算机的学校却是少之又少。1963 年,俞先生上程序设计实习课时,可以到中国科学院计算技术研究所使用被称为 103 机的电子计算机,那时的说法叫“上机”。103 机每秒可执行 2000 次定点运算(机内用二进制表示的数值只能在-1与+1之间),用穿孔纸带输入程序和数据,只允许少许的计算结果在很窄的纸上打印出来。当时俞先生用机器指令编了一个自动取比例因子(使计算过程中的所有数据自动保持在-1与+1之间)的求解常微分方程的程序,一次便通过了,程序没有错误,计算结果正确。
俞先生曾表示,毕业生后能够留在北大工作非常幸运。1958年,北大自主研制每秒一万次定点运算的电子管计算机,称之为“红旗机”。受元器件品质和工艺水平的限制,机器极不稳定。1964年,俞先生和同事们编制了验证“红旗机”各条指令功能的检查程序,昼夜轮班,抓住机器稳定的短暂时段,运行检查程序,终于多次完整通过,证明了“红旗机”指令系统的逻辑正确性。此外,俞先生还参与了很多其他系统软件的研制和维护工作:
1970—1973年,参加了全国第一台百万次集成电路计算机多道程序操作系统的研制。
1973—1978年,从事 6912 计算机及其高级程序设计语言的维护推广工作,编写了两本讲义,铅印发行了2000册。
1978—1985年,参加计算机-激光汉字照排系统分时操作系统的研制。
通过总结这些系统软件的研制和维护经验,同时发挥长期积累的理论优势,俞先生作为第二作者,与杨芙清院士合著了《操作系统结构分析》(北京大学出版社 1986 年出版)一书。
1986年选择计算语言学作为新的研究方向,是俞先生事业的一个转折点。同年,北京大学计算语言学研究所成立,俞先生是最早的成员之一。30 多年前,计算语言学在中国还是一个相对生僻的技术术语。那时个人计算机正在普及,社会信息化浪潮涌动,中文信息处理开始了上规模的研究。时任北大副校长、著名语言学家朱德熙先生等几位北大学者一方面认识到语言学和信息技术的结合一定能为社会急需的中文信息处理技术发展作出贡献,另一方面又看到北大文理结合的天然优势。有了这一新机遇,北大初创了计算语言学研究所(下称计算语言所)。
研究所成立后,俞先生及其团队成员以发展计算语言学的基础研究和应用基础研究作为使命,并思考如何赶上国际前沿。俞先生团队将建设汉语信息处理基础设施作为工作重心,优先研制包含汉语词汇、句法、语义知识的机器词典。之所以做出这样的决策,是因为他们意识到,模型可以借鉴,算法可以学习,系统构建经验可以吸取,唯有自然语言处理系统不可或缺的中文语言知识库是不可能假手于人的。况且汉语的根在中国,计算语言所团队有着建设中文语言知识库得天独厚的优势。
计算语言所的第一任所长是马希文教授(在即将出版的《中国人工智能简史》中,马希文教授对计算语言学的早期推动是其中的重要章节)。马希文教授 1990 年出国后,俞士汶先生接过了计算语言所的重担,制订了计算语言所语言信息化的方向,并争取到了朱德熙、杨芙清等学术带头人及不同院系的支持,为计算语言所的发展壮大奠定了基础。
为了支持基础研究,俞先生及其团队成员积极申请各类科研项目,包括应用软件的研发。在国家“七五”计划期间(1986—1990),朱德熙领衔承担了国家社会科学重点科研项目“现代汉语词类”,这一归属于中国语言文学系。得益于杨芙清的推荐和支持,俞先生第一次承担了国家科技攻关项目,归属于计算语言所,其中有一个子项目是“现代汉语词语语法信息库”。俞先生的团队响应朱德熙的倡议,将这两个项目结合到一起,计算语言所和中文系组成联合课题组,协同攻关。团队成员联合攻关取得的成果就是后来发展并定名为《现代汉语语法信息词典》的雏形。
俞士汶先生获国家科技进步二等奖(图源:北京大学新闻网)
经过 20 多年的努力和积累,自 2007 年至 2016 年,以《现代汉语语法信息词典》为基础的“综合型语言知识库”获得政府部门、全国性学术团体和北京大学共计 10 项奖励,其中以 2011 年获得中国国家科学技术进步奖二等奖为最高荣誉。还有一项也值得一提,俞先生本人于 2011 年获得中国中文信息学会成立 30 周年首次颁发的终身成就奖。
在颁奖大会上,俞先生只说了两句感言:“感谢小集体——北大计算语言所同人的共同努力,感谢大集体——中文信息处理学界先进的鼎力支持。”
在综合型语言知识库获奖时,俞先生的一位老朋友曾祝贺他:“你画上了一个圆满的句号。”不过,俞先生表示,他希望自己的人生一直是逗号,承上启下,最后是个省略号。退休后的俞先生也没有过上栽花弄草的生活,仍主持或参加国家级重要科研项目(如“973项目”),现在是国家自然科学基金项目“汉语抽象意义表示关键技术研究”的项目组成员。
自 2005年1月到 2018年12月的14年间,俞先生正式发表了35篇学术论文,共计38万余字。俞先生将自己现在所做的一些事情比作拾麦穗,虽然没有重要的创新,过程与收获却延缓了自己的心理衰老。当然,俞先生也知道,总有一天,他不能再继续自己所喜爱的研究,一定还有来不及完成的工作……
俞先生一生业绩卓著,包括而不限于:
2011年度国家科技进步奖二等奖:“综合型语言知识库”;
2007年度教育部科技进步一等奖,教育部:“综合型语言知识库”,排名第一;
2007年第四届中国科协期刊优秀学术论文奖:北京大学现代汉语语料库基本加工规范,中文信息学报,2002年第5、6期;
2004年北京大学杨芙清王阳元院士奖教金:教学科研奖;
1998年度教育部科技进步二等奖:现代汉语语法信息词典,排名第一;
1994年北大-君安科学家奖
1993年起-因对我国高等教育事业作出了突出贡献,享有国务院特殊津贴。
1993年国家教委科技进步三等奖;
1992年国家教委机器翻译译文质量评估软件,排名第一;
1991年中国机电部日汉机器翻译系统,排名第五;
1991年国家计委、科委“七五”攻关项目突出贡献;
1985年对计算机-激光汉字照排系统的重要贡献
北京大学科技成果二等奖2项及三等奖1项
先生的座右铭是“路漫漫其修远兮,吾将上下而求索”。
斯人已去,但精神永存。俞先生走好!老一代学者的风骨,吾辈当以行动继承。
参考链接:https://icl.pku.edu.cn/cy/ysw/jl/index.htm
雷锋网雷锋网