今日 Paper | 虚拟试穿网络；人群计数基准；联邦元学习；目标检测等

Paper研习社

作者：AI研习社

2020/01/14 15:06

为了帮助各位学术青年更好地学习前沿研究成果和技术，AI科技评论联合Paper 研习社（paper.yanxishe.com），重磅推出【今日 Paper】栏目，每天都为你精选关于人工智能的前沿学术论文供你学习参考。以下是今日的精选内容——

NWPU-Crowd: A Large-Scale Benchmark for Crowd Counting
A Collaborative Learning Framework via Federated Meta-Learning
VITON: An Image-based Virtual Try-on Network
Transfer learning for time series classification
PR Product: A Substitute for Inner Product in Neural Networks
FASTER NEURAL NETWORKS STRAIGHT FROM JPEG
Object Detection in 20 Years: A Survey
Spherical Text Embedding
Mechanism Design with Predicted Task Revenue for Bike Sharing Systems
Semantics-aware BERT for Language Understanding

NWPU-CHAND：大规模人群计数基准

论文名称：NWPU-Crowd: A Large-Scale Benchmark for Crowd Counting

作者：Wang Qi /Gao Junyu /Lin Wei /Li Xuelong

发表时间：2020/1/10

论文链接：https://paper.yanxishe.com/review/8731?from=leiphonecolumn_paperreview0114

推荐原因：这篇论文考虑的是人群计数的问题。

目前公开的人群基数数据集规模都太小，不适合基于卷积神经网络的训练。这篇论文的贡献是一个一个大规模拥挤人群计数数据集NWPU-Crowd，包含了5109张图像，共标注了2133238个人。与其他数据集相比，新数据集包含各种光照场景，并具有目前该类问题的最大密度范围。除此之外，研究者还开放了一个针对该数据集的评测网站，可以在上面提交最新结果，促进大家的研究成果进行比较。

今日 Paper | 虚拟试穿网络；人群计数基准；联邦元学习；目标检测等

基于联邦元学习的协作学习框架

论文名称：A Collaborative Learning Framework via Federated Meta-Learning

作者：Lin Sen /Yang Guang /Zhang Junshan

发表时间：2020/1/9

论文链接：https://paper.yanxishe.com/review/8732?from=leiphonecolumn_paperreview0114

这篇论文考虑的是实时边缘智能的问题。

物联网中边缘设备由于其受限的计算资源和有限的本地数据，通常无法实现实时边缘智能。为此这篇论文提出了一个平台增强的协同过滤框架，首先通过联合元学习方法在一组边缘节点上训练模型，然后仅通过几个样本就可以使得模型快速适应目标边缘节点上的新任务。同时这篇论文还研究了其所提出的联合元学习算法在节点相似性和目标边缘的自适应性能上的收敛性。为了防御元学习算法可能遭受的对抗性攻击，这篇论文进一步提出了基于分布鲁棒性优化的联合元学习算法。在不同数据集上进行的实验证明了这篇论文所提出的基于联合元学习的框架的有效性。

VITON:一种基于图像的虚拟试穿网络

论文名称：VITON: An Image-based Virtual Try-on Network

作者：Han Xintong /Wu Zuxuan /Wu Zhe /Yu Ruichi /Davis Larry S.

发表时间：2017/11/22

论文链接：https://paper.yanxishe.com/review/8579?from=leiphonecolumn_paperreview0114

推荐原因

1、第一篇关于虚拟试衣的论文

2、采用TPS的 Wrap技术

3、开源代码；（目前数据源因法律风险关闭了）

4、值得入门阅读

今日 Paper | 虚拟试穿网络；人群计数基准；联邦元学习；目标检测等

基于深度迁移学习进行时间序列分类

论文名称：Transfer learning for time series classification

作者：Fawaz Hassan Ismail /Forestier Germain /Weber Jonathan /Idoumghar Lhassane /Muller Pierre-Alain

发表时间：2018/11/5

论文链接：https://paper.yanxishe.com/review/70?from=leiphonecolumn_paperreview0114

推荐理由：深度神经网络的转移学习是首先在源数据集上训练基础网络，然后将学习到的特征（网络权重）转移到第二个要在目标数据集上进行训练的网络的过程。该想法已被证明可以在许多计算机视觉任务（例如图像识别和对象定位）中提高深度神经网络的泛化能力。除了这些应用程序外，深度卷积神经网络（CNN）最近在时间序列分类（TSC）社区中也很受欢迎。但是，与图像识别问题不同，对于TSC任务，尚未对传递学习技术进行彻底研究。这令人惊讶，因为如果从预先训练的神经网络（而不是从头开始训练）对模型进行微调，则可以潜在地提高TSC深度学习模型的准确性。

在本文中，作者通过研究如何为TSC任务传输深层CNN来填补这一空白。为了评估转移学习的潜力，作者使用UCR档案进行了广泛的实验，该档案是包含85个数据集的最大的公开TSC基准。对于档案中的每个数据集，预先训练了一个模型，然后在其他数据集上进行了微调，产生了7140个不同的深度神经网络。这些实验表明，转移学习可以根据转移所使用的数据集来改善或降低模型的预测。因此，为了预测给定目标数据集的最佳源数据集，作者提出了一种依靠动态时间扭曲来测量数据集间相似性的新方法，并描述了其方法如何指导转移以选择最佳源数据集，从而提高了85个数据集中的71个数据集的准确性。

PR乘积：神经网络中内积运算的替代者【ICCV 2019 Oral】

论文名称：PR Product: A Substitute for Inner Product in Neural Networks

作者：Wang Zhennan /Zou Wenbin /Xu Chen

发表时间：2019/4/30

论文链接：https://paper.yanxishe.com/review/176?from=leiphonecolumn_paperreview0114

推荐理由：权重向量w与特征向量x的内积运算在神经网络中无处不在，但几乎没有人思考和研究过使用内积带来的负面影响。

本文指出了内积运算的缺点，新提出了PR乘积运算，该运算克服了内积运算的缺点，能够降低网络的训练难度。

1.研究动机：内积运算在向量夹角接近0或pi时会使反向传播的梯度变小，增大了网络训练的难度

2.创新点：提出PR乘积运算，该运算在前向传播中与内积等价，但是在反向传播中能够令参数梯度与向量夹角无关

3.实验结果：单纯的将内积运算替换成PR乘积就能够明显的提升各类网络的性能，且FC、CNN、RNN均适用。

PR乘积简单有效，即插即用，像一把趁手的瑞士军刀，该文已被ICCV 2019 接收为口头报告论文。

作者顺手提供了PR乘积版本的Dense层、卷积层和LSTM单元的PyTorch代码，即拆即用。

偷懒有理！使用半解码的JPEG图片让网络提速1.77倍

论文名称：FASTER NEURAL NETWORKS STRAIGHT FROM JPEG

作者：Lionel Gueguen /Alex Sergeev /Ben Kadlec /Rosanne Liu /Jason Yosinski

发表时间：2018/3/21

论文链接：https://paper.yanxishe.com/review/72?from=leiphonecolumn_paperreview0114

推荐理由：如果没有了解过图像编码，那么你可能会认为图片就等于三通道RGB张量。但事实上，电子设备中的图片都是经过编码的，编码后的图像文件往往更小更紧凑，便于存储和传输。现有的神经网络都使用原始的RGB像素作为输入，需要对图片文件进行完全解码，但既然NN是万能的映射学习器，能不能省去繁琐的解码步骤，直接基于编码文件学习“输入 -> 标签的”映射关系呢？

这篇来自NIPS18的论文以应用最广泛的JPEG编码图像为例做了尝试。他们以“半解码”的JPEG图像（离散的DCT系数块）作为输入数据，以ResNet-50网络为例进行了适应性改造（适应尺寸），在ImageNet数据集上的分类任务评估实验表明网络在保持同等性能的情况下速度提升了1.77倍！也就是说“偷懒”为网络带来了显著的提升！个人认为其奥秘在于量化后的DCT系数表。相较于原始的像素点输入，它是一个基于频域的更加精炼、更加紧凑的新表示（Representation）,好的表征自然更容易产生好的结果，有数据挖掘比赛经历的同学可以联想一下所谓的“强特上分”，也就不难理解这篇论文为什么work了。

这篇文章出自Uber AI Lab，内容简单易理解，10分钟快速一览，给你新的有趣见解。

回顾20年来的目标检测：干货

论文名称：Object Detection in 20 Years: A Survey

作者：Zou Zhengxia /Shi Zhenwei /Guo Yuhong /Ye Jieping

发表时间：2019/5/13

论文链接：https://paper.yanxishe.com/review/53?from=leiphonecolumn_paperreview0114

推荐理由：这是一篇昨天于arXiv发布的目标检测综述，作者对目标检测领域进行了深度剖析，从数据集、评估指标到技术演化，从早期的VJ Det、HOG Det等传统方法到近年的FPN、RetinaNet等新方法，更有多尺度检测的演变、候选框回归的发展、NMS的进步、检测速度的突破、实际应用的繁荣等大量干货。诚意满满，强烈推荐！

球形文本嵌入

论文名称：Spherical Text Embedding

作者：Meng Yu /Huang Jiaxin /Wang Guangyuan /Zhang Chao /Zhuang Honglei /Kaplan Lance /Han Jiawei

发表时间：2019/11/4

论文链接：https://paper.yanxishe.com/review/4532?from=leiphonecolumn_paperreview0114

推荐理由：本文是数据挖掘领域专家韩家炜教授极力推荐的文章，非常值得一读。

研究背景：无监督文本嵌入在各种NLP任务中显示了强大的功能。大量的文本数据本身就隐含了大量的隐模式、结构和知识，尽管通常在欧几里德空间中学习文本嵌入，但是方向相似性在诸如单词相似性和文档聚类之类的任务中通常更有效，这在文本嵌入的训练阶段和使用阶段之间造成了差距。

创新点：为了弥补这一差距，作者提出了一种球形生成模型，在该模型的基础上，可以共同学习无监督的单词和段落嵌入。为了学习球形空间中的文本嵌入，本文作者开发了一种基于黎曼优化的具有收敛保证的高效优化算法。

研究意义：作者的模型具有很高的效率，并且在包括单词相似性和文档聚类在内的各种文本嵌入任务上均具有最先进的性能。因此我们可以借助该模型，来探索如何将海量数据从非结构化的数据转化为有用的知识。

自行车共享系统的具有预期任务收益的机制设计

论文名称：Mechanism Design with Predicted Task Revenue for Bike Sharing Systems

作者：Lv Hongtao /Zhang Chaoli /Zheng Zhenzhe /Luo Tie /Wu Fan /Chen Guihai

发表时间：2019/11/18

论文链接：https://paper.yanxishe.com/review/5496?from=leiphonecolumn_paperreview0114

推荐理由：这篇论文被AAAI 2020接收，解决的核心问题是利用用户进行共享单车的调度的激励问题。

与之前的红包车类似，共享单车公司可以通过红包的形式激励用户将单车骑到指定的位置。这篇论文考虑的是当共享单车公司可以预测调度任务可以带来的预期收入（例如基于历史数据）场景下，提出了一种名为TruPreTar的机制，包含用户的任务分配和奖励方案，来激励用户完成单车的调度任务以实现供需的平衡。这种机制可以满足包括真实上报和预算可行等经济学和计算性质。当公司预算有限时，这个机制也能带来超过预算的预期收入。作者们在摩拜的数据集上验证了他们提出的方案的有效性。

目前共享单车市场已经不再野蛮扩张，而是进入了精细化运作的阶段。激励用户主动进行单车的调度不仅可以省下专门的运营人员的费用，也能够提高单车的利用率。然而如何根据有限的预算，设计高效的用户激励方案，以及这类激励方案是否会被用户接受、如何防止用户薅羊毛等问题仍然有待进一步研究。

用于语言理解的语义感知BERT

论文名称：Semantics-aware BERT for Language Understanding

作者：Zhang Zhuosheng /Wu Yuwei /Zhao Hai /Li Zuchao /Zhang Shuailiang /Zhou Xi /Zhou Xiang

发表时间：2019/9/5

论文链接：https://paper.yanxishe.com/review/6193?from=leiphonecolumn_paperreview0114

推荐理由：关于语言表示的最新工作将上下文相关的功能仔细地集成到了语言模型训练中，从而取得了一系列成功，尤其是在各种机器阅读理解和自然语言推理任务中。但是，现有的语言表示模型（包括ELMo，GPT和BERT）仅利用普通的上下文相关功能，例如字符或单词嵌入。他们很少考虑合并可以为语言表示提供丰富语义的结构化语义信息。

创新点：为了促进对自然语言的理解，作者建议从预先训练的语义角色标签中加入显式的上下文语义，并引入一种改进的语言表示模型，即语义感知的BERT（SemBERT），该模型能够在BERT骨干上显式吸收上下文语义。SemBERT可以通过微调的方式保持BERT前驱设备的便利可用性，而无需进行大量针对特定任务的修改。与BERT相比，语义感知BERT在概念上简单但功能强大。在十项阅读理解和语言推理任务上，它获得了最新的技术水平或显着提高了结果。