本文作者为华为诺亚方舟实验室邹常青研究员。在本文中,作者从浅入深详细讲述了中山大学、华为加拿大诺亚方舟实验室、香港城市大学、谷歌公司等合作发表在 SIGGRAPH ASIA 2019的论文 “Language-based Colorization of Scene Sketches”,该论文研究了基于自然语言交互的草图卡通化技术,能够在给定一个草图下,计算机接收和分析用户输入语言指令,自动地将草图变成彩色卡通图。
人们常说一图胜千言。
手绘草图数据因为其直观、易绘的特点,被人们广泛用于表达和总结对客观事物的认识和理解:如漫画师用草图来辛辣地表达某一个观点或想法,小朋友用草图来创作故事、设计师用草图来记录脑海中的瞬间的灵感。
而人类对客观事物的认识、理解深度也通常能够反映在其所绘制的草图上。心理学的研究领域的研究认为 “The way children draw at the age of four can be a predictor of later intelligence”,即儿童的画图的方式能够用来预测其未来的智力水平,而利用涂色或画图来训练儿童的认知已被心理学家证实为帮助儿童智力发展的重要方式。
心理学研究表明儿童的草图绘画方式直接反映智商,而其智商发展也可以通过绘画等方式训练
除了心理学领域,草图数据因为及其独特的魅力吸引了计算机视觉、计算机图形学、人机交互等领域的研究者的浓厚的兴趣。
研究人类对于认知草图、用草图表达思想背后的原理跟机制并用计算模型来建模,由此开发出新的应用是研究人员一个重要的努力方向。
例如,
早在上世界七八十年代,现代计算机视觉领域奠基人Marr博士便开始致力于草图的计算解释研究;
现代反向工程之父、英国卡迪夫大学的Ralph R. Martin教授提出模拟人的视觉系统从线画图直接重建出三维模型;
MIT的Department of Brain and CognitiveSciences (大脑与认知科学系)的另外一个大佬Josh Tenenbaum教授更是把从少量数据、稀疏数据来研究人类潜在的认知逻辑当成为之奋斗终身的研究课题。
在11月20日刚刚结束的计算机图形学领域最具影响力的国际顶级会议SIGGRAPH(ASIA) 大会上,中山大学、华为诺亚方舟实验室、联手香港城市大学、谷歌公司发表了他们在复杂草图的机器理解方向的最新进展。
值得一提的是,SIGGRAPH/SIGGRAPH ASIA是计算机图形学领域最具影响力的会议,因为极其专业的审稿以及对论文工作量的高要求,使得这个会议被认为是计算机领域公认的高难度顶级学术会议。
对Sketchy Scene数据库中的实例的交互涂色展示
这篇题为《Language-based Colorization ofScene Sketches》的文章可以认为是一个基于自然语言的人机交互涂色系统:给定一个草图,计算机接收和分析用户输入语言指令并自动地将草图变成彩色卡通图。
这个问题看似简单,其实非常具有挑战性,涉及到两种非常复杂的不同模态输入数据(草图及自然语言)的理解,而对于这两种数据的理解,尤其在少量训练样本的下如何同时处理这两种数据的交互,目前计算机领域仍没有很好的解决方案。
除了研究本身的价值,文章的作者期望这篇文章所提出的技术能够为儿童认知开发提供一个新的应用软件,或者为黑白漫画书批量处理成卡通书提供参考方案。
对 Freehand草图的交互涂色展示
在技术实现上,为了降低模型推理的难度,文章将涂色问题解耦为分割、涂色两个子问题,并分步涂色整个草图的前景跟背景。
具体地,一个新颖的参考实例分割算法(Referring Instance Segmentation)被首先用来根据用户的文字输入自动分割出感兴趣的前景物体,然后一个基于生成对抗网络(GAN)以及图-文特征融合算法的模型根据用户的语言指令对分割出的前景物体进行上色,这个过程会自动执行部件的分割以及颜色推理。
在完成部分或所有物体的涂色后,系统最后使用一个双通道对抗网络同时学习包括空白区域在内的背景区域的分割和涂色。目前该论文的代码以及数据已经开源。
在技术脉络上看,这篇论文是2018年计算机视觉顶级会议ECCV的一篇题《SketchyScene: Richly-Annotated Scene Sketches》的工作的进一步的延伸。
在这篇文章中,由马里兰大学与伦敦玛丽女王大学的SketchX Lab牵头、联合中山大学、山东大学以及加拿大Simon Fraser University 推出了第一个场景级别的草图数据库。
这个数据库提供了8K张以上的场景级别的草图的语义及实例分割的模板图像数据,基于提供的8K多张模板数据,理论上其他用户可以用实例替换的方式自动生成无限多的带标注信息的场景草图。
除了分割数据,这个数据库同时为每张草图提供了对应的参考卡通图(草图与参考图的前景物体存在类别上的一一对应关系)。
这个数据库无疑是草图理解这个问题上一个重要的工作,受这篇工作的启发,计算机图形学的著名研究机构 MIT 跟法国国家信息与自动化研究所 INRIA 更是在2019年的SIGGRAPH ASIA 推出了另一个用于概念设计的草图数据库《OpenSketch: A Richly-Annotated Dataset of Product Design Sketches》。
在实验验证方面,这篇文章通过用户调查形式从定量与定性两个方面分析和展示了其方法对于不同形式的指令及不同风格的草图的有效性跟鲁棒性。
论文同时也指出虽然自然语言是一个非常有前途的输入方式,但是自然语言输入也存在固定的缺点,比如比较难区分相近的颜色,因而作者认为要获得更加实用的系统,有必要结合自然语言输入与别的模态的用户输入。
系统对于输入指令的容错能力展示
系统对于不同草图风格的鲁棒性和泛化能力展示
论文还讨论了一系列的不足之处,比如结果中存在颜色瑕疵,用户指令理解泛化能力不足。草图卡通化虽然是一个比较小的应用,其作为复杂稀疏图像数据理解的一个具体应用,这篇文章作为一个开创性的工作充分地展示这个问题的难度、意义和应用价值。相信在这篇文章的启发下,在计算机视觉与计算图形学领域将会出现越来越多的对于草图的研究兴趣。