电影及视频游戏行业的新兴及发展,无疑是计算机图像研究领域的一剂催化剂。SIGGRAPH ASIA 2016 的学术主席,伦敦学院教授 Niloy Mitra 在开幕式上表示,「计算机图像技术正在对实体产业产生影响,比如为产品视觉化及图像优化提供工具。这项技术源于视觉效果及游戏产业的计算机图像需求,并为数学、物理、艺术及计算机科学提供一座融合的桥梁。」
而作为 A 类会议的 SIGGNRAPH ASIA 2016,又怎能错过这一领域的学术交流及分享?今天早上的主题分享为「geometric deep learning」(几何深度学习),主要介绍了目前在深度学习技术下目前的 3D 图像分析研究进展,并围绕(非)欧几里得数据进行探讨。
在介绍中,主办方特地提到这个课程是为零基础的听众而准备的,雷锋网整理了两个普适性及认知度较强的演讲与大家分享。
意大利大学计算机科学教授 Michael M. Bronstein 是今天上台的第一位嘉宾,雷锋网了解到,Bronstein 的上一次公开分享是去年九月份的 ICIP,而就在本次的学术课程上,他分享了上个月刚提交在 arxiv 的论文《几何深度学习:超越欧几里德数据》,主要涉及的是计算机视觉及模式识别的分享。
本文除了这位大神外,还有 Facebook 前人工智能团队博士后成员 Joan Bruna 和现人工智能负责人 Yann LeCun 的加持,难怪成为了本次学术分享打头阵的研究论文。
Bronstein 认为,许多信号处理问题涉及其基础结构是非欧几里得的数据,但可以通过建模来实现。使用最近邻图在高维欧几里德空间中作为点给出的建模数据是数据科学中日益流行的趋势,允许从业者访问数据的内在结构。而鉴于几何数据的复杂性和非常大的数据集的可用性(在社交网络的情况下,数十亿级),机器学习技术就成为了(几乎)唯一可取的方法,因为深度学习能够用于解决具有基础欧几里得结构的大数据集的问题。
例如:
在社交网络中,用户的特征可以被建模为社交图的信号。
在传感器网络中,图像模型由分布式互连传感器构成,其读数则被建模为顶点上的时间信号。
在遗传学中,基因表达数据被建模为在调节网络上定义的信号。
在神经科学中,图形模型用于表示大脑的解剖和功能结构。
Bronstein 的分享稍显拘谨和严肃,而随后上台分享的 USC 视觉及图像实验室兼南加州大学的助理教授黎灏则以一种轻松诙谐的方式让大家了解他的研究进展。染着一头黄毛,留着朋克发型的黎灏是德国出生的台湾人,凭借他对 3D 图像技术所做的贡献,2013 年当选 MIT TR 35 创新者。
他长这样:
来自台湾的访问学者程昱林(音译,YuLen Chung)向雷锋网提起黎灏的时候带着一脸自豪和崇敬,他表示在整个早上的几位讲者中,对黎灏的演讲印象最为深刻。「他的研究可以说代表了深度学习在视觉图像上的应用成果,虽然还处于早期阶段,但如果数据足够多的话,相信这对整个动画界有着巨大影响。」
在会上,黎灏首先展示了他理想中的图像处理状态:
只凭借一张 Matt Furniss 、川普、希拉里、或是马云爸爸的正面照片,计算机就能够「脑补」出他们头部的 3D 模型(甚至还有美颜功能,能把皱纹都给抹掉)。
自然这一切都要通过人工智能才能实现,基于大数据的深度学习无疑为研究者们提供了绝佳的素材。
黎灏随即在会上邀请 Bronstein 上台做了个「换头」小实验。通过摄像头拍摄正面视频,计算机能够在短短几秒钟内生成 Bronstein 的 3D 头像,并且在黎灏回到台前对着视频演讲时,大屏幕上依然呈现的是 Bronstein 的头像,但动作却与黎灏的进行同步。
一个小小的演示很快让在场的观众们了解到脸部替换(face replacement)的含义,实际上这与最近非常流行的人脸识别自拍软件的原理是一致的,主要都是通过「识别人脸——判断五官位置——添加与五官匹配的素材——完成『换头』/『美颜』」来实现,
在镜头前,一名研究人员对着镜头做出戴眼镜、转头、喝水、抓耳挠腮等动作,随后计算机对人脸进行识别和判断,剔除掉遮挡住面部的无关参数(眼睛、杯子、手臂等),最后把设计好的一些素材添加到原有图片上。
不过,目前用于娱乐的自拍软件不过是小打小闹,黎灏的研究已经将使用范围扩大到全头,并延展到全身。而为了让机器学习实现更为准确的面部识别,除了将参数点细化之外,增加「干扰项」也同样是研究所需要的。日常的训练素材包括了正面清晰的面部照片外,还有用各种颜色的方框遮挡住面部局部五官的一些照片,此外,因为手和人脸的肤色非常接近,且离人脸最近,因此研究团队也提供了大量各类手臂的局部照片,并把它们「P」到人脸上,供计算机进行甄别和学习。
除了上述方式外,以前其他研究团队也做过大量实验,提供了更为细化的部位特写照片(如静态的嘴巴图片或动态的说话视频)。
接下来,黎灏介绍了目前两种主流的 3D 对象分类方式。
一为普林斯顿大学研究的基于三维数据的「立体栅格化」(volumetric representation),将对象的 3D 数据表示为 30*30*30 的立体数据,并在上面直接进行卷积网络的训练。
二为马萨诸塞大学在 2015 ICCV 发表的「多重视角下的神经网络构建 3D 图像识别」,该方法主要从多个角度对进行二维图像拍摄作为训练数据,随后进行卷积训练。
黎灏表示,这两种图像训练方式的结果不尽相同,相对而言第二种方式的处理度稍好一些,能达到 90.1%,而第一种为 77.3%。但他表示,在同一像素级别的前提下,第一种方式的分类准确度能达到 86% 以上,而后者低了近 10 个百分点。
因此黎灏团队参考的是第二种模式,采用 Kinect 传感收集数据,提升全身的 3D 影像在建模方式上的优化,并已实现动态实时传输的效果。
除此之外,目前学术圈已经有不少基于的人体 3D 建模,不过黎灏的研究实现了身着衣服也能实现建模。由于衣服对计算机识别的干扰性较大,如何排除这些可能存在的因素也是一个突破性的进展。
不过它还存在两个缺点:
首先是硬件限制。对数据进行计算诚然需要高精度的 GPU 加速,如何在处理速度和质量上实现平衡,目前团队还没有实现这一点。
其次是暂时团队只能处理人体建模,尚未将识别领域延展到其他物体上。
在会后,程昱林向雷锋网表示,这一局限性可能会让动画产业的应用受到局限,因为只能捕捉人体图像的话,范围还是窄了一些。但他也表示,「这算得上是一个很不错的突破了,至少可以穿着衣服实现建模,在动画造型就有了更多的可能性。」
深度学习在计算机图像研究领域已经有了如此多突破,相信很快能够真正实现产业化的应用。雷锋网记者今天在采访 Polygon Picture 制作人,本次计算机动画节的联合主席 Shuzo John Shiota 时,他也谈到了产学研的结合同样有利于动画效果的提高,「SIGGRAPH 与计算机动画节的联系非常紧密,可以说后者是最受欢迎和关注的内容之一。本次的大赛评选可以说是科技在艺术界的一个结合,而 Polygon 可能会在未来寻求感兴趣的相关研究所团队一起合作,让技术能够顺利落地。」
第一天的 SIGGRAPH ASIA 2016 的相关介绍还有很多,雷锋网所列举的学术领域只是一管窥豹。更多详细报道还请关注 SIGGRAPH ASIA 2016 专题,雷锋网将持续带来前线报道。
论文下载地址:
Geometric deep learning: going beyond Euclidean data:
https://arxiv.org/abs/1611.08097
Real-Time Facial Segmentation and Performance Capture from RGB Input: