Paper 研习社每日精选论文推荐 12.30

paper研习社

作者：AI研习社

2019/12/30 16:18

Hi 欢迎来到Paper 研习社每日精选栏目，Paper 研习社（paper.yanxishe.com）每天都为你精选关于人工智能的前沿学术论文供你参考，以下是今日的精选内容——

Scalable Fine-grained Generated Image Classification Based>
Merging Weak and Active Supervision for Semantic Parsing
Detecting GAN generated errors
A Billion Ways to Grasp: An Evaluation of Grasp Sampling Schemes>
Look, Read and Feel: Benchmarking Ads Understanding with Multimodal Multitask Learning
Improved Mixed-Example Data Augmentation
A Baseline for Few-Shot Image Classificatio
Mixup Inference: Better Exploiting Mixup to Defend Adversarial Attacks
Extracting urban water by combining deep learning and Google Earth Engine
Facial Synthesis from Visual Attributes via Sketch using Multi-Scale Generators

基于深度度量学习的可扩展细粒度生成图像分类

Scalable Fine-grained Generated Image Classification Based>作者：Xuan Xinsheng /Peng Bo /Wang Wei /Dong Jing

发表时间：2019/12/10

论文链接：https://paper.yanxishe.com/review/7899

推荐理由：最近，生成的图像可以达到非常高的质量，即使人眼也无法分辨真实图像。尽管目前在法医界已经有一些检测生成图像的方法，但是这些方法大多数都用于检测生成图像的一种类型。生成的新型图像层出不穷，现有的检测方法无法很好地应对。这些问题促使作者提出了一种基于深度度量学习的可扩展的多类别分类框架，旨在对生成的图像进行更好的分类。

此外，作者增加了框架的可伸缩性，以应对不断涌现的新型生成图像，并通过微调使模型对新型生成数据获得更好的检测性能。

合并弱监督和主动监督以进行语义解析

Merging Weak and Active Supervision for Semantic Parsing

作者：Ni Ansong /Yin Pengcheng /Neubig Graham

发表时间：2019/11/29

论文链接：https://paper.yanxishe.com/review/7900

推荐理由：语义解析器将来自用户的自然语言命令（NL）映射到可执行的含义表示（MR），然后在特定环境中执行这些以获得所需的结果。对此类解析器的全监督培训需要NL / MR对，并由领域专家进行注释，这使得收集它们的成本很高。

但是，仅从成对的NL和预期的执行结果中学习了弱监督的语义解析器，从而使MR变得很隐蔽。虽然薄弱的监督成本较低，但是从这些投入中学习仍然很困难。它要求解析器以非常弱的学习信号搜索较大的空间，并且很难避免以错误的方式获得正确答案的虚假MR。这些因素导致在弱监督和全监督环境下训练的解析器之间的性能差距。

为了弥合这一差距，作者研究了弱监督与主动学习之间的交集，这使学习者可以主动选择示例并查询人工注释作为额外的监督，以改进在弱监督下训练的模型。本文研究了用于选择示例进行查询的各种主动学习启发式方法，以及针对此类查询的各种形式的额外监督。作者在两个不同的数据集上评估了其方法的有效性。WikiSQL上的实验表明，通过仅注释1.8％的示例，作者将最新的弱监督基线提高了6.4％，达到了79.0％的准确度，与经过训练的模型仅相距1.3％在充分监督下。在WikiTableQuestions上使用人工注释器进行的实验表明，作者的方法仅使用100个活动查询就可以提高性能，尤其是对于从冷启动中学到的弱监督解析器。

检测GAN产生的错误

Detecting GAN generated errors

作者：Zhu Xiru /Che Fengdi /Yang Tianzi /Yu Tzuyang /Meger David /Dudek Gregory

发表时间：2019/12/2

论文链接：https://paper.yanxishe.com/review/7901

推荐理由：尽管最新的GAN在生成超逼真的图像方面具有令人印象深刻的性能，但GAN鉴别器仍然难以评估单个生成样本的质量。这是因为评估所生成图像的质量的任务不同于确定图像是真实的还是伪造的。生成的图像可能很完美，除了在单个区域之外，但仍被检测为伪造的。

相反，作者提出了一种新颖的方法来检测生成的图像中错误的位置。通过将实际图像与生成的图像进行比较，作者为每个像素计算其属于真实分布还是生成的分布。此外，作者利用注意力来建立远程依赖模型。这允许检测局部上合理但不是整体上的错误。

为了进行评估，作者表明，与FID和IS不同，实验的错误检测可以作为单个图像的质量指标。作者利用改进的Wasserstein，BigGAN和StyleGAN来显示基于本文的指标的排名与FID分数有着显着的相关性。

作者的工作为更好地了解GAN以及从GAN模型中选择最佳样本的能力打开了大门。

十亿种方式：基于密集的，基于物理的抓取数据集的抓取采样方案的评估

A Billion Ways to Grasp: An Evaluation of Grasp Sampling Schemes>作者：Eppner Clemens /Mousavian Arsalan /Fox Dieter

发表时间：2019/12/11

论文链接：https://paper.yanxishe.com/review/7902

推荐理由：机器人抓取通常被公式化为学习问题。随着物理仿真速度和质量的提高，生成用于学习算法的大规模抓取数据集变得越来越流行。一个经常被忽略的问题是如何生成构成这些数据集的掌握信息。

在本文中，作者回顾，分类和比较了不同的抓取抽样策略。作者的评估基于SE（3）的细粒度离散化，并使用基于物理的模拟来评估相应的平行下颌抓握的质量和鲁棒性。具体来说，作者认为YCB数据集中的21个对象中的每个对象都拥有超过10亿个抓取。这个密集的数据集使作者可以评估现有的采样方案w.r.t. 他们的偏见和效率。

作者的实验表明，一些流行的采样方案包含很大的偏差，并且没有涵盖可以抓住物体的所有可能方式。

看，读和感觉：用多模态多任务学习对广告的理解进行基准测试

Look, Read and Feel: Benchmarking Ads Understanding with Multimodal Multitask Learning

作者：Zhang Huaizheng /Luo Yong /Ai Qiming /Hou Nana /Wen Yonggang

发表时间：2019/12/21

论文链接：https://paper.yanxishe.com/review/7892

推荐理由：这篇论文要解决的是广告内容理解的问题。

由于广告行业的巨大市场和在线多媒体内容（如视频）的急剧增长，将广告与多媒体内容一起推广的方式逐渐流行起来。然而要为提供的内容找寻相应的广告将耗费大量人力，因此一些自动化的广告技术发展起来。为了进一步提升用户体验，理解广告的主题与情感是必要的。这篇论文的贡献在于提出了一种新的深度多模态多任务框架，来整合多个模态以获得目标广告的有效主题与情感，使得理解更容易。具体而言，所提模型首先从广告里抽取多模态信息并学习一个高层级和可比较的表示向量。广告的可视化元素在无监督的情况下解码，获得的特征随后被带入所提的分层多模态注意力模块中，用以学习为了作出最终预测而在特定任务下获得的表示向量。另外，这篇论文还设计了一个多任务损失函数来联合训练主题与情感预测模型。在最新与最大规模的广告数据集上的实验表明所提方法取得了最佳效果。

改进的混合示例数据增强

Improved Mixed-Example Data Augmentation

作者：Summers Cecilia /Dinneen Michael J.

发表时间：2018/5/29

论文链接：https://paper.yanxishe.com/review/7909

推荐理由：为了减少过拟合，通常会使用数据增强来训练神经网络，这是通过现有训练实例的保留标签的变换人工生成额外训练数据来完成的。尽管这些类型的转换具有直觉上的意义，但最近的工作表明，即使是不保留标签的数据增强也很有效果，它通过实例对的线性组合实现数据扩充。尽管它们有效，但对于这种方法为何起作用知之甚少。

在这项工作中，作者旨在探索这种类型的数据增强的一种新的更通用的形式，以确定这种线性是否必要。通过考虑“混合实例数据增强”的更广泛范围，作者发现了实用增强技术的更大空间，其中包括对现有技术进行改进的方法。这种概括所带来的好处超出了提高性能的希望，它揭示了许多混合实例数据增强类型，这些类型与先前工作中所考虑的完全不同，这提供了证据表明此类方法有效性的理论是不完整的，并表明任何这样的理论都必须解释更广泛的现象。

小样本图像分类的基准

A Baseline for Few-Shot Image Classification

作者：Dhillon Guneet S. /Chaudhari Pratik /Ravichandran Avinash /Soatto Stefano

发表时间：2019/9/6

论文链接：https://paper.yanxishe.com/review/7912

推荐理由：对经过标准交叉熵损失训练的深度网络进行微调是进行小样本学习的一个强基准。如果对它们进行传导性微调，它的性能将优于标准数据集（如Mini-Imagenet，Tiered-Imagenet，CIFAR-FS和FC-100）中具有相同超参数的最新技术。

这种方法的简单性使作者能够在Imagenet-21k数据集上演示最初的几次学习结果。

作者发现使用大量的元训练类，即使对于大量的测试类，也能获得极高的准确率。作者不提倡他们的方法作为小样本学习的解决方案，而只是使用结果突出显示当前基准和小样本学习的局限性。作者对基准数据集进行了广泛的研究，以提出量化测试集“硬度”的指标。此度量标准可用于以更系统的方式说明小样本学习算法的性能。

Mixup推论：更好地利用Mixup来防御对抗性攻击

Mixup Inference: Better Exploiting Mixup to Defend Adversarial Attacks

作者：Pang Tianyu /Xu Kun /Zhu Jun

发表时间：2019/9/25

论文链接：https://paper.yanxishe.com/review/7913

推荐理由：人们已经普遍认识到，对抗性的实例可以很容易地被用来愚弄深层网络，而深层网络的愚弄主要来源于输入实例附近的局部非线性行为。

在训练过程中应用mixup，可以有效地提高泛化性能和模型的鲁棒性，在训练实例之间引入全局线性行为。然而，在以往的工作中，混合训练模型只是通过直接对输入进行分类，被动地防御对抗性攻击，而诱导的全局线性并没有得到很好的利用。也就是说，由于对抗扰动的局部性，通过模型预测的全局性主动打破局部性将更为有效。

在简单几何直觉的启发下，作者发展了一种用于混合训练模型的推理原理，称为混合推理（MI）。MI将输入与其他随机干净的样本混合，如果输入是对抗性的，则可以收缩并传递等效扰动。

作者在CIFAR-10和CIFAR-100上的实验表明，MI可以进一步提高mixup及其变形训练的模型的对抗鲁棒性。

结合深度学习和谷歌地球引擎提取城市水系

Extracting urban water by combining deep learning and Google Earth Engine

作者：Wang Y. D. /Li Z. W. /Zeng C. /Xia G. S. /Shen H. F.

发表时间：2019/12/23

论文链接：https://paper.yanxishe.com/review/7895

推荐理由：这篇论文要解决的是城市水系信息提取的问题。

城市水系对于城市生态而言至关重要。使用远程感知数据的精准高效水系检测对城市规划与管理有着显著作用。这篇论文提出了一种新方法来结合谷歌地球引擎和多粒度卷积神经网络，通过离线训练与预测的方式，从陆地卫星图像中抽取城市水系信息。

这是一篇深度学习应用于水利行业的应用，可以启发更多计算机技术在其他领域应用的研究。

基于多尺度生成器的基于草图的视觉属性人脸合成

Facial Synthesis from Visual Attributes via Sketch using Multi-Scale Generators

作者：Di Xing /Patel Vishal M.

发表时间：2019/12/17

论文链接：https://paper.yanxishe.com/review/7894

推荐理由：这篇论文要解决的是人脸合成的问题。

从视觉属性自动合成人脸对于计算机视觉领域而言是个重要的任务，并在法律与娱乐方面都有广泛的落地场景。随着深度生成卷积神经网络的发展，从属性合成人类图像和文本描述的研究已有不少工作。这篇论文则是将这个问题为一个分阶段学习问题：首先基于可视化属性合成面部草图，然后基于合成的草图生成面部图像。所提框架基于两个不同的生成对抗网络：1. 一个草图生成网络，以从输入属性中合成真实的草图；2. 一个面部生成器，从合成的草图中合成人脸图像。扩展实验证明了所提方法的有效性。