1、远大视野
2005 年,韩晓光上大学的那一年,中国的图形学历史刚经历了一个高光时刻:
那一年,以沈向洋、郭百宁等人为首的微软亚洲研究院(MSRA)研究团队在世界图形学顶级会议 SIGGRAPH 上发表 9 篇论文,占当年 SIGGRAPH 全球论文接收总量(98篇)的十分之一。
这也构成了一代微软人的记忆与自豪。
韩晓光不是微软人,后来也未曾在微软实习或工作过,但当他在 2009 年到浙江大学读研究生时,集中在浙大的上一代微软人对 SIGGRAPH 的崇拜与追求还是深深地感染了他:
他记得,当时刚开学没多久,导师刘利刚就跟他们一众新生说:“我们的目标就是发 SIGGRAPH,因为 SIGGRAPH 是图形学领域的顶会。”
刘利刚是浙大自己培养的图形学博士,博士毕业后就去了 MSRA,在 MSRA 呆了三年(2002-2004),指导老师是童欣和沈向洋。MSRA 的研究氛围与工作经历,让刘利刚知道:在 SIGGRAPH 上发文是一件很重要、而且很光荣的事情。
所以,韩晓光很早就知道 SIGGRAPH 的存在,也逐渐树立了与刘利刚一样的认知。
事实上,即使是现在,中国的许多高校也没有将 SIGGRAPH 作为指导图形学研究的目标,因为 SIGGRAPH 的中稿难度实在是太高了:每年 SIGGRAPH 的全球论文接收总量不过百来篇,中国所有研究者加起来的中稿数量也不过数十篇。
但韩晓光从硕士开始就树立了这样一个目标:研究图形学就是要发 SIGGRAPH。
当时韩晓光所在的浙大,周围的圈子里,除了刘利刚,还有许多从 MSRA 回来的人,比如周昆、任重,他们如今都是图形学领域的知名学者。
熟悉图形学的人都知道,浙大与 MSRA 是中国图形学研究最出名的两个机构,而两者早期在图形学的人才培养与相互输送上又有着深厚渊源。
图注:MSRA 早期,沈向洋与郭百宁等人交流
李开复在 1998 年回国创立微软中国研究院(也就是后来的 MSRA),浙大本硕毕业生、1999 年从清华博士毕业的童欣(如今人称“童姥”)就加入其中,与沈向洋、郭百宁、刘文印、徐迎庆等人是最早一批计算机图像研究者,目标就是发 SIGGRAPH。童欣之后,浙大毕业的许多图形学硕博生也先后去了微软亚研,如刘利刚、周昆、任重等等。
他们这批人在 MSRA 时都感受过“四万人大会” SIGGRAPH 的魅力,知道自己的工作如果能够发在这样一个权威的国际顶会上是多么了不起的事。相应地,由沈向洋这样有 SIGGRAPH 发文经验的老手带领,他们也都学习到许多冲刺 SIGGRAPH 的技巧。
2010 年前后,图形学的研究比重在 MSRA 逐渐下降,许多人陆陆续续离开,又回到了浙大。除了周昆、任重这些浙大走出来的学子,还有侯启明等清北毕业生。年青的血液回流,浙大的图形学研究也更上一层楼,每年在 SIGGRAPH 上发不少文章。
韩晓光在浙大读的是数学系,两年制。这两年里,他的一个感受是:身边有许多认识的人陆陆续续都发了 SIGGRAPH,好像“中一篇 SIGGRAPH 是一件很容易的事情”。
那时韩晓光没有发论文的科研压力,但在浙大的这个小圈子里,受导师刘利刚与周围人的影响,他对图形学的科研兴趣与 SIGGRAPH 的向往开始形成。
刘利刚在科研之余也会跟他们讲一些在 MSRA 做科研的趣事,比如偶遇沈向洋的难度:
那时,沈向洋总是忙科研忙得不见人影。谁要能在电梯里“逮”到他,就要在出电梯前的短短一两分钟内将自己的研究介绍给他。这非常考验大家的表达能力,久而久之,大家就把这件事戏称为“电梯效应”。
这件事也给韩晓光留下了深刻的印象,使他自然而然地觉得:一个真正优秀的科学家,应该是求知若渴,用尽日常的每分每秒去研究与思考的。
并不是每个人在刚进入一个领域时就有机会知道这个领域最牛的一群人都在研究什么、怎么研究,以及自己日后要往哪个方向努力,才能成为该领域的佼佼者。而归功于刘利刚的引领,韩晓光在 22 岁的时候就已经以 SIGGRAPH 为目标。
这直接塑造了他的思考方式。所以,从浙大开始,韩晓光就喜欢阅读图形学方面的研究论文,尤其是 SIGGRAPH 这样的顶会论文。
现任香港中文大学(深圳)理工学院助理教授、第十一届吴文俊人工智能优秀青年奖获得者韩晓光的图形学之旅,就是这样开始的。
图注:学生时代的韩晓光
2、虔诚、前进
刚接触图形学时,韩晓光还是一个心中有梦、眼里有光的少年,十分自信、得意。
那时,他并不知道图形学的难度,视 SIGGRAPH 为囊中之物,给自己定了一个目标:每年都发一篇 SIGGRAPH。
但很快,这个“狂妄”的想法就被教育了。
韩晓光真正开始投 SIGGRAPH,是 2011 年到香港城市大学担任研究助理之后。
在浙大那会,韩晓光参与过一个工作,是用图形学对人体的身高体重进行全局一致的整形重塑,最终文章发表在图形学顶刊 ACM Transactions on Graphics(TOG)上。
论文:Parametric Reshaping of Human Bodies in Images
这个工作是浙大与香港城市大学合作的一个项目。韩晓光由此认识了在香港城大任教的傅红波教授。
临近硕士毕业时,由于英语成绩不佳,直接申请读博有难度,所以韩晓光就联系了傅红波,希望先去他的组里当研究助理,然后找读博的机会。
当研究助理的第一年,韩晓光就开始计划投 SIGGRAPH。但没想到,计划是计划,现实是现实,韩晓光追逐 SIGGRAPH 的过程远远比他想得还要煎熬。
第一年,傅红波给了他一个课题。他斗志满满,一拿到题目,他想的就是奔着 SIGGRAPH 去。研究进展地很顺利,也取得了一些不错的实验结果,于是他就抱着“应该能中”的心情投了出去。
结果出来,虽然总体评分还不错,但其中一个审稿人给出了“拒稿”意见。之后,他接连改了好几次投出去,最后才中了一个排名不算特别好的期刊。
韩晓光第一次感受到:好像 SIGGRAPH 还挺难的。
第二年,他又做了一个新的项目,但实验结果还没有第一年好,连自己的标准都达不到。最后,他干脆连 SIGGRAPH 也没有投。
这让他有点泄气。为了投 SIGGRAPH,他连续几个月都吃睡在实验室,经常熬夜、看论文、赶论文,而结果却不如意。
当时他有傲气,心里总想:“我一定要中一篇 SIGGRAPH。几乎成了一种执念。”
韩晓光事后告诉雷峰网,从小到大,他都是一个比较佛系的人,知道读书的重要性就会去努力读书,但成绩如何,往往是尽人事、听天命。他唯一坚持过的事情,就是发表 SIGGRAPH。
而且,这种执著一直贯穿到 2013 年他去香港大学读博的四年。
到港大读博后,韩晓光继续死磕图形学、死磕 SIGGRAPH。
他的导师是当时刚刚从美国 UIUC 结束教职回港任教的俞益洲。
俞益洲也是浙大培养的图形学毕业生,曾师从中国第一个在 SIGGRAPH (1988年)上发表论文的图形学先驱彭群生,后来因在几何建模和基于图像的建模方面贡献突出当选了 2019 年度的 IEEE Fellow。
博士第一年,俞益洲就给了韩晓光一个颇有难度的课题——人体三维重建。
尽管当时的想法只是做简单的重建,基于少量图像,结合交互技术生成一个三维人体模型,但在那个时候,相关技术还远远没有成熟。所以尽管俞益洲的研究眼光很前瞻,但对当时的韩晓光来说难度却着实不小。
韩晓光花了一年多时间去探索,最后发现课题还是太难,没有取得好的实验结果,投 SIGGRAPH 没成功,又转去投 CVPR。这是韩晓光第一次投 CVPR,天性乐观的他再一次想“应该能中”,结果跟第一次投 SIGGRAPH 一样,也遭到了“拒稿”。
那时候,他开始真正地从心底里对 SIGGRAPH、CVPR 这样的顶会产生敬畏之心,知道原来要发一篇 SIGGRAPH 不是那么简单的,“要做一个很顶级的工作,真的要花特别多努力才行”,而且“必须做得非常完美”。
博士第二年与第三年,韩晓光换了研究课题,但自己的课题还是没有中 SIGGRAPH,倒是他参与的实验室其他成员的工作先后发表在了 SIGGRAPH 2015 和 2016 上,一篇第二作者,一篇共同一作。但韩晓光觉得不能算是自己的代表作。
一直到 2017 年,也就是韩晓光读博的最后一年,他才在 SIGGRAPGH 发表了一篇一作论文、也是他博士生涯最重要的一个工作:DeepSketch2Face。
2015 年,肖建雄、汤晓鸥等人合作将深度学习用于三维视觉研究,“3D ShapeNets: A Deep Representation for Volumetric Shapes”一文在 CVPR 引起广泛关注,也吸引了一直想做三维重建的俞益洲。他当即向团队提出要开始研究深度学习。
他将人脸三维重建的课题派给韩晓光,希望他能基于深度学习对人脸进行三维草图重建。韩晓光从 2016 年开始独自探索,花了将近一年的时间,结合深度学习、视觉图像理解、图形学中的人脸建模、几何变形与交互等多个学科的知识,竟然成功地取得了不错的结果。
论文:DeepSketch2Face: A Deep Learning Based Sketching System for 3D Face and Caricature Modeling
使用 DeepSketch2Face 这个系统,用户可以在几分钟内就获得表情各异的 3D 人脸或漫画模型,游戏或动画建模师们也可以轻松创建高保真人脸模型,进而为虚拟角色赋予灵动形象。这个工作发表在 SIGGRAPH 2017,受到许多人的肯定。韩晓光第一次被邀请到了各个场合做演讲分享。
历时多年、成功发表 SIGGRAPH 一作,韩晓光的内心有兴奋、有自豪,但更多的,是一种已经被磨练过的虔诚与谦卑。
在这几年里,SIGGRAPH 就像图形学的一座圣碑,指导韩晓光前进,也教会了他科研的本质:历经挫折仍要不改初心,遭遇低谷也要抬头向前。但最重要的,是这过程中攀登所看到的风景。
这是没有元宇宙时的图形学成长人生。
3、从追随者到建设者
在韩晓光读研究生、到他加入港中深的多年里,图形学的就业方向其实一直狭窄,集中在追求酷炫特效的影视与游戏行业。加上国内科幻电影发展不振,游戏行业政策也不明朗,所以图形学在国内一直是一个“小圈子”。
2018 年韩晓光到港中深任职时,整个学校就只有他这一个研究图形学的老师。
现在港中深一共有两位研究内容与图形学相关的老师,一位是韩晓光,另一位则是 2021 年新加入的孙启霖。不过,孙启霖的工作也不是传统的图形学,而是图形学中用于三维图像采集的计算成像设备。
这期间,韩晓光也见证或亲历了图形学的发展变化:
一方面是元宇宙概念的兴起,给图形学带来了新的想象力,涌入图形学领域的科研资金也在增多,圈子在扩大。
韩晓光记得,当时他刚开始从事教职时,因为圈子小,招生与找钱都是一件很困难的事情。后来,也是多亏他以前的导师刘利刚(后来去了中科大任教)与时任港中深校长讲座教授的崔曙光介绍,才解决了招生和科研经费的难题。
元宇宙大火后,图形学技术开始受到许多企业的关注。在去年,就有几家国内的企业找到了韩晓光,希望与他合作。
韩晓光在 SIGGRAPH 2017 上发表的工作 DeepSketch2Face 属于深度学习在计算机图形学中的一次大胆尝试。在这个方向上,他也是入门最早的青年学者之一。目前,他在港中深建立的实验室 GAP,就将三维视觉作为实验室一个重点研究的方向。
“GAP”的全称是“Generation and Analysis of Pixels, Points and Polygons”,其中,pixels 指的是“像素”,points 是“点云”,polygons是“多边形网格”,这三块是图形学和视觉领域需要重点处理的对象,而生成与分析/理解是两大任务。这样加起来,就构成了“GAP”一名。
GAP Lab 主页:https://gaplab.cuhk.edu.cn/
三维视觉一块也涉及到计算机视觉的知识,韩晓光在任教后也不断学习这一块的内容,并将其与图形学相结合,也取得了不错的成绩。例如,他在单视角三维重建方面的研究就曾两次入围 CVPR 的最佳论文提名。
单视角三维重建是从大量的二维图像中恢复物体(如人体、人脸、场景等)的三维结构,在计算机上实现对客观世界的虚拟现实表达。
为了解决从单视角图像中重建完整三维物体的视觉难题,韩晓光与童欣等人曾合作设计了一种基于骨架表达的新型三维几何深度学习算法,能够漂亮地实现对拓扑复杂的物体形状重建。
这项成果(“A Skeleton-bridged Deep Learning Approach for Generating Meshes of Complex Topologies from Single RGB Images”)令会议审稿人眼前一亮,均给出了“Strong Accept”(强烈接收)的意见,入围了 CVPR 2019 最佳论文提名。
除了复杂形状的物体,更大空间的场景重建也是一个重要任务。韩晓光提出的从单张图像完整重建室内场景的方法,结合场景理解和三维网格重建两种任务,能够自动生成房间布局、摄像机姿态、物体包围盒和三维网格,并完全恢复室内物体的几何信息。
这篇论文(“Total3DUnderstanding: Joint Layout, Object Pose and Mesh Reconstruction for Indoor Scenes from a Single Image”)也同样得到了审稿人的一致好评,入围了 CVPR 2020 最佳论文提名。
近两年,韩晓光最自豪的一项工作是与团队发表了一个包含 2078 个高清晰度三维服装点云模型的数据集 Deep Fashion 3D,是全球目前最大的真实三维服装数据集,获得了中国计算机图形学大会(Chinagraph)2020 年度的“图形开源数据集奖”。
今年,他们又有一项服装三维重建的工作(Registering Explicit to Implicit: Towards High-Fidelity Garment mesh Reconstruction from Single Images)发表在了 CVPR 2022。
对服装进行三维重建的难点在于衣服的褶皱细节,韩晓光提出的新型单幅图像三维服装重建方法,将显式网格与隐式形状的表示方法相结合,能够很好地重建出不同的服装类型以及丰富的几何细节,看起来也更逼真:
近两年,许多研究工作也表明,图形学与视觉的相互借鉴能够带来许多新的想法。
韩晓光从 2016 年研究 DeepSketch2Face 时开始接触深度学习与计算机视觉,逐渐对两个领域的共性与差异有更深的了解。他在基于深度学习的三维重建一块的工作,也体现了将两者融合的思考,是国内甚至全球较早研究这一方向的学者之一。
这时候的韩晓光,实际上已从图形学的追随者,变为图形学的建设者。但相比起当初的肆意轻狂,如今的韩晓光却更谦卑、努力。他的学生常有这样的感受:前一天晚上他们才讨论工作到凌晨一点,第二天早上七点钟就又接到了他的消息。
关于如何当一名学者,韩晓光也是受到图形学前辈的影响:
2018 年那会,他刚当大学老师,到深圳大学参加一个图形学的会议。那时童欣也是参会者之一,他们坐同一辆大巴,韩晓光就坐在童欣旁边。
他问童欣:“童姥,您研究图形学几十年,为什么还这么认真地听报告呢?”
但童欣回答他:“其实我还有很多知识不懂,还要跟在座的讲者多学习。”
童欣的谦卑与好学,给韩晓光的心中留下了很深的印象。他事后告诉雷峰网:“像童姥这样研究图形学研究了几十年的学者都这么谦虚,都还在不断学习,我才刚入门没几年,有什么理由懈怠呢?”
4、元宇宙的热与冷
韩晓光对图形学的敬畏与虔诚,也延续到了他对元宇宙热潮的思考上。
这两年,几乎所有计算机的从业者都在关注元宇宙,Facebook 更是直接改名为 Meta。许多原本将 AI 作为招牌的企业,也纷纷往元宇宙上靠边,与之相关的图形学技术也受到了极大的追捧。
此前韩晓光一直在学术圈活动,但近年来,他也感受到了工业界对元宇宙、甚至图形学的关注。
目前,韩晓光的 GAP 团队也在与企业界合作,研究如何用图形学、视觉等知识来做虚拟人或虚拟场景。
元宇宙的一个基础理念,就是要将现实的物理世界数字化,将人、物体、场景等等在虚拟世界中尽可能真实地还原,当下正火的虚拟人与虚拟场景正是构建元宇宙不可缺少的部分。
本质上来说,图形学技术就是“造假”,能辅助生成虚拟世界中的内容,如前面韩晓光用图形学生成数字化的场景(房间、桌子、椅子),而且真实度更高。
这一点在游戏中可以作证:早年我们玩的马里奥游戏画面是像素格子,引入图形学的技术后,现在的游戏画面可以做到十分流畅、逼真。
但同时,韩晓光在讨论元宇宙时,也时刻保持着一种冷静的态度:元宇宙是一个概念,它的热度或许过两年就会消退,但图形学的研究却是一个要持续进行的工作,因为这项技术的研究门槛很高,理论突破也很难。
这不仅是韩晓光从早年追逐 SIGGRAPH 的经历中所感悟到的,也是他对图形学技术有清晰思考的结论。
图注:现任港中深助理教授的韩晓光
图形学确实可以帮助构造元宇宙,但当前的技术还未发展成熟,距离所有人都能在虚拟的数字世界中使用图形学工具来创作内容的临界点还有很长的路要走,可能是五年,也可能是十年。
比如,韩晓光与团队就常讨论元宇宙中的交互问题。
早期的图形学也是解决用户与计算机的交互:例如,人类用户操作鼠标,从左到右在物理空间中划一根线,计算机要如何基于这一简单操作来理解人类想要“画一根线”的意图,就是图形学要解决的问题。
而在元宇宙中,图形学要解决的问题比用户简单地画一条线更复杂,当前的图形学技术还无法让大多数人只用很短的时间就能在数字世界中操作。可以设想一下:假如你要在游戏《塞尔达传说》的大草原中建一栋房子,难度有多大?
除了算法的精确度与“恐怖谷效应”外,研发成本也是要考虑的问题。就拿虚拟人来说,当前各个公司打造虚拟人都需要人类建模师予以辅助,造价高昂。
所以,在元宇宙的浪潮中,韩晓光看到了机会,也看到了挑战。
他告诉雷峰网,站在他的角度,他自然希望能够用图形学、计算机视觉等知识来降低虚拟人、虚拟场景的研发成本,改进算法精度等等,但这需要时间。
资本的耐心往往是有限期的。不过对韩晓光来说,他本就是从图形学少人问津的时候走到门庭若市,即使元宇宙明天就消退,他也还是会坚守在原有的位置上,做他本该做的事情,就是踏踏实实地做科研罢了。
5、对话韩晓光
雷峰网:怎么用图形学打造元宇宙?
韩晓光:我只能从技术的角度讲讲。以虚拟人为例,图形学打造虚拟人主要有几步:
第一步是采集。
我们用手机拍一张照片,就是对周围的世界做了一次二维数字化。虚拟人的构建则需要“三维数字化”。采集对象是真人,就需要对整个人体包括皮肤、衣服、头发、鞋子等等进行采集。头发的发质与密度有参差,衣服的款式与材质也多种多样,这对采集图像的细粒度要求非常高。
所以,要想 1:1 还原,光用手机拍一张照片还不够,还需要使用多台设备做多视角的采集。利用专业的立体相机与摄像设备如 RGBD、Light Stage 等,就可以全方位捕捉人体三维模型信息。
第二步是建模。
采集完人的数据后,就是进行建模。虚拟人建模的难点是如何在计算机中找到一种合适的表达方式来表达真人的特征细粒度,如上述谈到的皮肤、衣服、头发、睫毛等等。举个例子,如何表达头发?就是用一根一根的线去表达,可能是 10 万根线,这 10 万根线由算法自动生成。
表达也分两部分,一部分是三维几何,即物体的形状;另一部分是纹理和材质。建模这一步,就是要建几何、纹理与材质。
第三步是渲染。
建模之后,就是渲染。渲染就是将一个物体在光的环境下呈现出的模样进行表达。
比方说,得到一个球体的三维表达后,球的颜色是黄色,材质是皮质,渲染可以将球渲染成不同的样子,可能将球渲染成玻璃材质,也可能渲染成木头材质,一打光、材质失真。而要将球真实还原,就要还原到其本身的皮质。
第四步是动画。
以上三个步骤完成,得到的是静态的人体模型,如何让虚拟人做起动作来也灵动逼真,就是之后的动画所要考虑的事情。无论是人移动时衣服纹路的细腻变化,还是流水、气体、云雾、燃烧等动态的自然现象,都需要做有高度物理真实感的模拟,来增强我们在元宇宙中的沉浸感。
雷峰网(公众号:雷峰网):目前国内很多企业都有团队在研究虚拟人,就是用图形学技术做的吗?
韩晓光:大概都是这几步。不过,目前的虚拟人技术还都不是纯靠图形学,背后大多有人类建模师的参与。最常见的流程是:
用算法做出一个粗模,然后交给建模师,建模师对粗模进行修饰、改进,得到一个高模,高模出来后还需要建模师去定义虚拟人如何动、定义人体的关键点来形成骨架,然后再通过一些视频算法获取信息,让虚拟人动起来,再把这段动起来的视频交给工程师精修,最后才出来一段大家看起来还不错的虚拟人视频。
如果只是做静态的虚拟人,几千上万块就能搞定。但如果你希望这个形象能够像真人一样动起来,动的时间越长,价格就越高。所以从我的角度看,我是希望能从技术的改进中降低一些成本。
雷峰网:2018 年您刚找教职时,元宇宙还没出现,图形学的关注度也不是很高,您当时怎么招生、申请科研基金?
韩晓光:当时确实是比较难。图形学是一个小圈子,虽然你的竞争者不多,但是能申请到的科研经费也不多。我最开始是跟其他老师合作指导学生,然后我的硕士导师刘利刚(现在在中科大)也给我介绍了一些学生。
另外,在我初入教职时,崔曙光老师对我的支持非常大。我以前听刘利刚老师说过,人的一生一定会遇到几个贵人,我觉得崔老师就是我职业生涯中的第一位贵人。
我记得最早找教职的时候,就是崔老师面试我,所以我认识的第一位港中深的老师就是崔老师。2018 年我入职时,崔老师还没有全职加入港中深,在美国还有职位,所以他管的事情不是很多。但那时候,我有什么事情,找崔老师,他都是非常支持。很多时候我就给他发一个信息,问他能不能怎么怎么样,崔老师就是回两个字:支持。
这让我感觉到非常舒服,在项目经费、带学生方面,崔老师也是非常支持。崔老师自己是研究网络通信的,对于我的研究方向不是特别了解,但他就是非常支持我,也给了我很大的自由度。平时他也会跟我们讲讲学术界要注意什么,也会有一些教诲。
崔曙光老师曾担任港中深理工学院执行院长,目前担任港中深未来智联网络研究院的创始院长,我也在这个研究院下面,跟着他一起做事情。
图注:韩晓光(右四)、崔曙光(左四)与实验室学生的合影
雷峰网:未来智联网络研究院是什么个情况?
韩晓光:研究院是在去年成立的,目前正在承担国家重点研发计划,广东省重点研发计划,广东省珠江团队项目,成立了港中大(深圳)-国家无委会监测中心检测中心频谱大数据联合实验室、港中大(深圳)-京东集团人工智能联合实验室、港中大(深圳)-罗湖医院集团医疗大数据联合实验室、深圳市大数据与人工智能重点实验室等。雷峰网
研究院的长远目标是发展数据驱动的未来信息网络、类脑智能、人机接口、分布式网联智能、智慧医院应用等方向的科学研究。
雷峰网:您刚刚谈到童姥的学者风采,我们注意到童姥 9 月 2 号参加了你们第四期 PaSS 的访谈。上一期,你们也邀请了旷视的张祥雨。为什么要做 PaSS 这个节目?
韩晓光:我们实验室刚刚起步时,很多学生都是小白,所以在做科研受挫时,他们经常会想:如果没有办法很快产出论文,是不是就不适合这个方向?经常自我怀疑。
因为我也经历过发 SIGGRAPH 的痛苦,所以我也能理解。我一开始会跟他们说,只要方向是对的,加上大家有主动探索的意愿,风雨之后总有彩虹。但我发现,只是说道理,大家很难接受。所以我就想,是不是能用学者们亲身经历过的故事来让他们知道,探索中的曲折是一件很正常的事情。
我就想到办 PaSS(Paper Story Sharing)故事会,邀请一些图形学和视觉领域的前辈来给大家讲讲论文背后的故事:他们最开始是怎么产生一个想法的,在想法实施的过程中遇到了哪些问题,面对这些问题的时候是怎样的心态,这些问题最后是怎样的情况?这些答案可以让学生更了解一个工作和科研。
我本意也只是想邀请一些前辈给组里的学生分享故事,但后来觉得希望能对更多的图形学和视觉社区的人有所帮助,便将PaSS办成了直播的形式。这可能也是受到我老师刘利刚的影响,他就很喜欢给社区做贡献,GAMES(国内知名的图形学论坛)就是他发起创办的。
雷峰网:您同时活跃在图形学和视觉两个社区,对这两个领域的共性和差异性有什么体会?
韩晓光:从研究内容上来说,一个简单的区别可能是,图形学是生成,视觉是理解。不过我觉得没有必要将两个方向分得那么开,比如我研究的三维重建就是两个领域都关心的问题。
前几年我还是投 CVPR 多一点。SIGGRAPH 也有投,但很少中,因为有三四年没怎么专注在图形学这一块,研究做的不够多。据今年的统计,大陆高校一共也才中了 46 篇 SIGGRAPH。
我的一个感受是,视觉社区和图形学社区的科研品味还是不太一样的。很多图形学的研究向 CVPR 投稿不会被接收,很多视觉的研究投 SIGGRAPH 也会被直接拒稿。
以人脸识别为例,如果你在人脸识别上的研究结果做不到能用,那么你投 SIGGRAPH 基本上是中不了的。但视觉不一样,视觉喜欢定义一个问题,然后大家针对这个问题做研究,把性能提升得越高就好。两个领域的玩法不一样。这几年我从图形学转到视觉的过程中对这一点就深有体会。
雷峰网:能否举一个具体的例子?
韩晓光:比如我们做过一项人体姿态估计的研究,我们写的论文投向 CV 三大顶会,前后两年投了四次才中。雷峰网
在人体姿态估计问题上,图形学的做法是专注于解决一个具体问题,做到效果很好,比如只做一个人的姿态估计或者两个人跳华尔兹舞的姿态估计,可以用到很多先验知识来帮助你做得更好。
按照这样的路子做完这项工作之后我就投稿,得到的审稿意见确实很好,效果也挺好的,但是他们说不够 general(通用)。这是我第一次感觉到图形学跟视觉在研究上面是有区别的。图形学是为了做出效果,所以做的东西可以很 narrow,但精度很高。而视觉要求 general,也就是往往更喜欢做非常泛的算法。
所以我们就去改,改出来的第二版还是没有做得很 general,后来投稿结果还是一样,审稿意见指出了同样的问题。最后到了第三次修改的时候,我们就妥协了,去“怼”算法,做了一个 general(通用)的东西。
这是两个领域不同的 taste。我觉得审稿人说的是有道理的,只是两个领域不太一样而已。这几年我慢慢从图形转到视觉,有过很多试错,慢慢就有感觉了。
雷峰网:您会更认同哪一种“玩法”?
韩晓光:我倒觉得无所谓。做研究跟投什么顶会没有多大的关系,核心是研究,把工作做好,把现有的问题解决掉,最后投哪个会议都可以。我现在已经过了非要中 SIGGRAPH 的那个阶段了(笑)。
其实每个人读博前的成绩都非常好。读博之后,遇到各种各样的挫折,我觉得是很正常的。我经常跟学生说,科研一定是一个不断自我怀疑的过程,这里面最重要的是要自我说服,自己给自己打鸡血,自我安慰、自我认可。比如我也是花了七年的时间才完成一个只属于自己的还不错的工作。
现在元宇宙很火,实验室里也有一些学生希望以后去打造元宇宙,我觉得这都可以。梦想还是要有的,但要坚持,说不定哪天就能实现了。但我们做研究,也不单单是为了发论文或随大流,最终还是为了能对科技做点微薄的贡献,真正能推动领域的发展。雷峰网
(港中深在读博士生邱宇达对本文亦有贡献)