专访香港大学罗平：师从汤晓鸥、王晓刚，最早将深度学习应用于计算机视觉的「先行者」

人工智能计算机视觉 iccv2019 汤晓鸥

作者：丛末

2019/11/16 17:22

雷锋网 AI 科技评论：虽然 ICCV 2019 落幕已近两周，但是这场对于华人研究者而言具备「转折点」意义的国际学术顶会在大家心中掀起的波澜，想必依旧未了。

在今年这场 CV 领域的学术盛宴中，我们一如既往地看到了不少长期活跃在国际学术舞台上的华人研究者老面孔，与此同时，也有一些新面孔带着丰硕的学术成果出现在了大家视线的聚焦点。

其中就包括今年带了 7 篇论文参加 ICCV 的来自香港大学的罗平教授。作为一位在将深度学习应用到 CV 领域中做出了很多开创性工作的研究者，他的相关工作对于这一细分领域的研究者而言可能并不陌生：最早将深度学习用于行人、人脸分割、与人脸生成，首先提出 CNN 求解 MRF 用于语义分割等。与此同时，他做的人脸关键点工作还是多任务深度学习的代表性工作。

专访香港大学罗平：师从汤晓鸥、王晓刚，最早将深度学习应用于计算机视觉的「先行者」

值得一提的是，罗平教授与今年在 ICCV 上独占鳌头的商汤科技也有着不少渊源和交集： 2011 至 2014 年在港中文攻读博士时师从汤晓鸥和王晓刚两位计算机视觉领域的领军人物，2016 至 2017 年又曾在商汤研究院访问任研究总监。

在 ICCV 现场，AI 科技评论也基于他本次带来的工作成果跟他聊了聊，不仅如此，对话也谈到了罗平教授最初开始研究将深度学习应用到 CV 领域的契机和背景以及汤晓鸥和王晓刚两位老师对他职业生涯所带来了影响。

以下为 AI 科技评论与罗平教授的对话实录：

AI 科技评论：您的研究组今年在 ICCV 发表了 7 篇论文，主题涉及到深度表征学习、深度自学习、多目标对抗网络等，其中哪几篇是您比较看重的，采用了怎样的方法，实现了怎样的成果？

罗平：我们今年在 ICCV 发表的 7 篇论文中，涉及到白化和归一化方法（Switchable Whitening）、结构化搜索 NAS、相机重定位、服装图片检索、噪声标签自学习方法、网络的攻击和防御等研究主题。

其中比较重要的工作一个是关于连续单路径结构化搜索，另一个是关于白化和归一化的工作：

在结构化搜索的工作中，跟以往 DARTS 类的多路径方法不同，我们做的是单路径 NAS，这种方法的优势是计算量比较低，缺点是表达能力也较低，即能够搜索到的结构较少。对此，我们定义了卷积操作的连续可微空间，即把一些卷积操作建模成一个连续的可微模块，这些模块能够表示任何卷积操作——即便是没有被手动定义出来的操作也能表示，从而既能保证表达能力，又能够通过单轮搜索保证较高的搜索速度。
另一项白化和归一化工作叫做 Switchable Whitening。每个神经网络都需要做归一化，比如说 Batch Normalization（批量标准化），它其实是白化的一种特殊形式，而在这项工作中，我们将白化和归一化进行了融合，可以为整个网络的不同层和图像学习白化和归一化方式。此项工作，与探讨前向传播的计算和反向传播的二阶梯度优化算法有着不少联系。

AI 科技评论：在完成论文期间有哪些可以分享的故事吗？或者说遇到过哪些比较大的挑战和困难？

罗平：挑战和困难肯定是有的，这里可以分享下我的一个学生的故事，我们今年 ICCV 的 7 篇论文中，有 2 篇论文的第一作者都是他。

他本科期间学的专业侧重物理，博士刚开始转向现在的研究领域，适应得并没有那么快，但他具备挖掘新问题的能力。例如他的从大量噪声标签中自学习特征表达（Deep Self-Learning From Noisy Labels）这项工作其实已经开展了一年，但是在这个过程中又发现了其他新的问题，例如网络的攻击和防御，所以他同时进行了这两项研究工作，并在 ICCV 2019 上一下发表了 2 篇一作论文。

AI 科技评论：本次参加 ICCV 重点关注的工作有哪些？

罗平：我觉得今年 ICCV 有一些还不错的文章，就比如最佳论文《SinGAN: Learning a Generative Model from a Single Natural Image》，虽然这篇论文受到了一些质疑，但我相信之后会有非常多的研究者去开展更加深入的研究，其中也包括我们团队正准备投稿 CVPR 2020 的一篇文章。

AI 科技评论：今年 ICCV 华人在论文数量上的表现一如既往地出色，然而在奖项上却稍有些遗憾，您作为华人研究者中的一员，如何评价华人在本次会议上的整体表现？

罗平：华人研究者论文数量很多，质量也很好。比如第一篇最佳论文提名得主（《Larger Norm More Transferable: An Adaptive Feature Norm Approach for Unsupervised Domain Adaptation》）就来自华人团队，另外恺明所在团队的论文（《Deep Hough Voting for 3D Object Detection in Point Clouds》）也获得了最佳论文提名。

与此同时，今年 ICCV 的 Workshop 很多都是华人组织的。比如说今年我们也组织了一个主题为「统计深度学习」的 Workshop，探索如何从更深的层次去解释神经网络。是本届 ICCV 最大的 workshop 之一。

AI 科技评论：您在计算机视觉和深度学习做出了一系列开创性的成果，例如在 2012 年就开始将深度学习用于行人、人脸分割、与人脸生成等领域，您从什么时候开始做这个方向的研究？当时是基于怎样的契机选择这一研究方向？

罗平：我们 2011 年就开始做深度学习了，确实开始得比较早。汤晓鸥老师团队算得上是亚洲计算机视觉领域最早进行深度学习研究的团队。我一开始做的就是人脸生成，时间上相比于 2014 年提出来的 GAN 要早很多，我在 2011 年的第一工作主要是让一个侧脸的图像直接恢复为一个正脸的图像。

我和欧阳万里老师是汤老师组里最早做深度学习的两个人，一个在汤老师所在的信息工程系，另一个在王晓刚老师的电子工程系，也就是一个系一个人开始尝试做深度学习，而当时也只有我们两个人在尝试，因为大家都不知道深度学习是什么以及能够做什么。

我们也并没有一开始就尝试使用卷积神经网络，因为大家开始关注到卷积神经网络，其实是在 2012 年的 ImageNet 比赛上取得了很大的成功以后。我们最早的时候使用的还是一些例如玻尔兹曼机这样的模型，而这种模型对于人脸生成和人脸分割方面的工作都有不错的效果，当时整个组也逐渐意识到这应该是一个非常有前景的研究方向。

有趣的是，我们 2014 年在 NIPS（后改名 NerulPS）上发表的工作就是人脸生成的工作，即网络可以输入任意角度的人脸并输出任意角度的人脸，而 GAN 也是在 2014 年发布的。

近几年来，我个人的工作重点慢慢转向一些基本的深度神经网络的学习和分析，比如白化和归一化、通过构造基本操作的连续可微空间改进单路径网络结构化搜索等。

AI 科技评论：您博士期间是从汤晓鸥和王晓刚教授，怎样评价两位老师对您研究生涯的影响？

罗平：我博士期间的导师是汤晓鸥老师和王晓刚老师，他们给我带来的影响是非常大的，包括从论文选题到实验到写作风格，刚开始都需要通过学习和模仿来得到提高。

后来参加了很多不同的会议，例如 CVPR、ICML 上都可以读到非常多风格不一的论文，通过持续学习然后就逐渐发展出了自己的风格，比如说我们团队最近在 ICLR2019 发表的 2 篇论文、在 ICML2019 发表的 1 篇论文，都能够反映出我们逐渐形成的一些风格和研究方向。

总而言之，对于汤老师跟王老师给我带来影响，可以用「感恩」二字来概括。

AI 科技评论：了解到您在 5 年内发表论文 70 余篇，Google Scholar 引用 8000 多次，作为一位学术成果丰硕的年轻一代研究者，从学术论文的角度，对于其他后辈研究者有什么经验或者说方法论可以分享的吗？

罗平：对于一些学生，我想提到的一点建议是：尽量不要去摘一些唾手可得的果子。

有一些研究工作可能已经结出了比较成熟的果子，并且生长在比较低的位置，学生可以非常轻易地摘到，然而这样的论文即便发表出来了影响力也不会很大，并且现在学生们发表的论文数量越来越多，比如我们在录取 PHD 申请者的时候，除了看在顶会上发表论文的数量，还会参考真正做出的研究成果——比方说论文中研究的问题是否具有足够的挑战性、选题是否多样、方法是否足够创新。

最后附上罗平教授被 ICCV2019 收录的 7 篇论文简介：

1、Vision-Infused Deep Audio Inpainting

专访香港大学罗平：师从汤晓鸥、王晓刚，最早将深度学习应用于计算机视觉的「先行者」

论文摘要：「多模态感知」对于发展交互式智能至关重要。在罗平等人的这样工作中，他们提出了一个新的任务，即利用伴随视频信息修补丢失的音频片段。

作者指出了两个关键的问题：（1）要对声谱图进行操作，而不是对原始音频进行操作，只有这样才能够更好地利用深度语义图像修复的最新进展，才能够超越传统音频修复的局限性；（2）若想合成视频指导下的音频，就需要将音频和视频进行同步学习，获得音视频的联合特征。

为了便于进行大规模的研究，作者收集了一个新的多模态乐器演奏数据集 MUSIC-ExtraSolo（MUSICES）。他们通过大量的实验表明，作者提出的框架能够在有或没有视觉环境的情况下，修复现实的和变化的音频片段。更重要的是，其合成音频片段与视频片段是一致的。目前代码、数据集和结果都已经公开。

资源链接：https://hangz-nju-cuhk.github.io/projects/AudioInpainting

2、Once a MAN: Towards Multi-Target Attack via Learning Multi-Target Adversarial Network Once

专访香港大学罗平：师从汤晓鸥、王晓刚，最早将深度学习应用于计算机视觉的「先行者」

论文摘要：现代深度神经网络通常容易受到对抗性样本的攻击，随着第一种基于优化的攻击方法提出，随后又有一系列提高攻击性能和速度的方法被提出。近年来，基于生成的方法受到了广泛的关注，因为它们直接使用前馈网络生成对抗样本，从而避免了基于优化和基于梯度的方法中耗时的迭代攻击过程。但是，当前基于生成的方法只能攻击一个模型中的一个特定目标（或类别），它们并不适用于通常具有成百上千个类别的真实分类系统。

专访香港大学罗平：师从汤晓鸥、王晓刚，最早将深度学习应用于计算机视觉的「先行者」

在这篇文章中，作者提出了一个多目标对抗网络（Multi-target Adversarial Network, MAN），该网络可以使用单个模型生成多目标对抗样本。通过将指定的类别信息合并到中间特征（intermediate features）中，该模型可以在运行过程中攻击目标分类模型的任何类别。

实验表明，所提出的 MAN 模型在多目标攻击任务和单目标攻击任务中均能产生比以前最先进的方法更强的攻击效果，并且具有更好的可传递性。作者进一步使用 MAN 生成的对抗样本来提高分类模型的鲁棒性。当受到各种方法的攻击时，它还可以比其他方法获得更好的分类精度。

3、Switchable Whitening for Deep Representation Learning

专访香港大学罗平：师从汤晓鸥、王晓刚，最早将深度学习应用于计算机视觉的「先行者」

论文摘要：规范化方法是卷积神经网络（CNN）的基本组成部分。它们使用在预定义像素集中估计的统计数据来标准化或白化数据。与为特定任务设计归一化技术的现有工作不同，作者提出了可切换白化（Switchable Whitening，SW），它提供了统一不同白化方法和标准化方法的通用形式。

SW 学习以端对端的方式在这些操作之间进行切换，它有几个优点：

首先，SW 为不同的任务自适应地选择合适的白化或标准化统计数据，使其非常适合广泛的任务而无需手动设计。
其次，通过整合不同规范化工具的优势，SW 在各种具有挑战性的基准测试中显示出与同类产品相比的持续改进。
第三，SW 是了解白化和标准化技术特性的有用工具。

专访香港大学罗平：师从汤晓鸥、王晓刚，最早将深度学习应用于计算机视觉的「先行者」

论文中，作者还证明了 SW 在图像分类（CIFAR-10 / 100，ImageNet）、语义分割（ADE20K，Cityscapes）、域适应（GTA5，Cityscapes）和图像样式转换（COCO）方面优于其他替代方案。例如，在没有花哨（bells and whistles）的情况下，在 ADE20K 数据集上可以达到 45.33％mIoU 的性能。

代码已公开：https://github.com/XingangPan/Switchable-Whitening

4、CamNet: Coarse-to-Fine Retrieval for Camera Re-Localization

专访香港大学罗平：师从汤晓鸥、王晓刚，最早将深度学习应用于计算机视觉的「先行者」

论文摘要：在机器人技术和自动驾驶等应用中，相机重定位是一项重要且具有挑战性的任务。最近，基于检索的方法已被认为是一个有前途的方向，因为它们可以轻松地推广到新的场景中。作者在这篇论文中提到，他们发现以前的方法性能存在瓶颈，原因在于检索模块。这些方法对检索和相对姿势回归任务使用相同的特征，这在学习中可能存在冲突。专访香港大学罗平：师从汤晓鸥、王晓刚，最早将深度学习应用于计算机视觉的「先行者」

为此，作者提出了一种基于粗糙到精细（coarse-to-fine retrieval）检索的深度学习框架。该框架包括三个步骤：1）基于图像的粗糙检索；2）基于姿势的精细检索；3）精确的相对姿势回归。

使用这个精心设计的检索模块，相对姿态回归任务可以相当简单。作者设计了具有批次硬采样准则和两阶段检索的新型检索损失，以定位适合于相对姿态回归任务的样本。大量的实验表明，这个模型（CamNet）在室内和室外数据集上都大大优于最新方法。

5、Fashion Retrieval via Graph Reasoning Networks on a Similarity Pyramid

专访香港大学罗平：师从汤晓鸥、王晓刚，最早将深度学习应用于计算机视觉的「先行者」

论文摘要：匹配来自客户和在线商店的服装图像在电子商务中具有丰富的应用。现有算法将图像编码为全局特征向量，并使用全局表示进行检索。但是，关于衣服的歧视性本地信息却被淹没在这种全局表示中，导致性能欠佳。专访香港大学罗平：师从汤晓鸥、王晓刚，最早将深度学习应用于计算机视觉的「先行者」

使用图推理比较全局相似度和相似度金字塔

为了解决此问题，作者提出了一种基于相似金字塔的新的图论网络（GRNet），该算法通过使用多个比例的全局和局部表示来学习查询和图库之间的相似性。相似度金字塔由相似度图（Graph of similarity）表示，其中节点表示不同比例的服装组件之间的相似度，并且最终匹配分数是通过沿边缘传递的消息获得的。

专访香港大学罗平：师从汤晓鸥、王晓刚，最早将深度学习应用于计算机视觉的「先行者」

在 GRNet 中，通过训练图卷积网络来解决图推理，从而可以对齐突出的服装组件以改善服装检索。为了方便将来的研究，作者引入了一个新的基准 FindFashion，其中包含边界框、视图、遮挡和裁剪的丰富注释。

实验表明，GRNet 在两个具有挑战性的基准上获得了最新的最新结果，例如，将 DeepFashion 的前 1 位、前 20 位和前 50 位精度提高到 26％、64％和 75％（绝对改善率分别为 4％，10％和 10％），在大边缘（large margins）方面优于竞争对手。在 FindFashion 上，GRNet 在所有经验设置上均取得了显著的改进。

6、Differentiable Learning-to-Group Channels via Groupable Convolutional Neural Networks

专访香港大学罗平：师从汤晓鸥、王晓刚，最早将深度学习应用于计算机视觉的「先行者」

论文摘要：分组卷积将 ConvNets 的通道分为几组，与常规卷积操作相比，取得了令人瞩目的改进。但是，现有模型（例如 ResNeXt）由于手动定义组的数量为所有层上的常数，所以会有次优性能的困扰。

专访香港大学罗平：师从汤晓鸥、王晓刚，最早将深度学习应用于计算机视觉的「先行者」

不同的卷积策略，其中蓝色圆表示输入和输出，线表示他们之间的连接。

为了解决这个问题，作者提出了通过使用一种新的动态分组卷积（DGConv）操作而构建的可分组卷积网络（GroupNet），这可以以端到端的方式学习分组的数量。这种方法具有几个好处：（1）DGConv 提供了统一的卷积表示，并涵盖了许多现有的卷积运算，例如常规密集卷积，组卷积和深度卷积；（2）DGConv 是一种可微且灵活的操作，可从训练数据中学习执行各种卷积；（3）经过 DGConv 训练的 GroupNet 为不同的卷积层学习了不同数量的组。

实验表明，GroupNet 在准确性和计算复杂性方面优于 ResNet 和 ResNeXt。作者还首次进行了内省（Introspection）和可重复性研究，展示了训练组数量的学习动态。

7、Deep Self-Learning From Noisy Labels

专访香港大学罗平：师从汤晓鸥、王晓刚，最早将深度学习应用于计算机视觉的「先行者」