今日 Paper | 高维感官空间机器人；主动人体姿态估计；深度视频超分辨率；行人重识别等

paper研习社

作者：AI研习社

2020/01/09 16:14

为了帮助各位学术青年更好地学习前沿研究成果和技术，AI科技评论联合Paper 研习社（paper.yanxishe.com），重磅推出【今日 Paper】栏目，每天都为你精选关于人工智能的前沿学术论文供你学习参考。以下是今日的精选内容——

Causal Mosaic: Cause-Effect Inference via Nonlinear ICA and Ensemble Method
Intrinsic Motivation and Episodic Memories for Robot Exploration of High-Dimensional Sensory Spaces
Deep Reinforcement Learning for Active Human Pose Estimation
Kervolutional Neural Networks
Deep Video Super-Resolution using HR Optical Flow Estimation
A Strong Baseline and Batch Normalization Neck for Deep Person Re-identification
FACLSTM: ConvLSTM with Focused Attention for Scene Text Recognition
End-To-End Trainable Video Super-Resolution Based>
TableNet: Deep Learning model for end-to-end Table detection and Tabular data extraction from Scanned Document Images
Mutual Mean-Teaching: Pseudo Label Refinery for Unsupervised Domain Adaptation

因果马赛克：通过非线性ICA和集成方法进行因果推断

论文名称：Causal Mosaic: Cause-Effect Inference via Nonlinear ICA and Ensemble Method

作者：Wu Pengzhou /Fukumizu Kenji

发表时间：2020/1/7

论文链接：https://paper.yanxishe.com/review/8418?from=leiphonecolumn_paperreview0109

推荐理由：作者解决了在双变量设置中区分因果关系的问题。基于非线性独立分量分析（ICA）的最新发展，作者训练了允许非加性噪声的非参数通用非线性因果模型。此外，作者建立了一个整体框架，即因果马赛克，它通过混合非线性模型来模拟因果对。

作者在人工和现实世界基准数据集上将此方法与其他最近的方法进行了比较，并且其方法显示了最新的性能。

今日 Paper | 高维感官空间机器人；主动人体姿态估计；深度视频超分辨率；行人重识别等

高维感官空间机器人探索的内在动机和情节记忆

论文名称：Intrinsic Motivation and Episodic Memories for Robot Exploration of High-Dimensional Sensory Spaces

作者：Schillaci Guido /Villalpando Antonio Pico /Hafner Verena Vanessa /Hanappe Peter /Colliaux David /Wintz Timothée

发表时间：2020/1/7

论文链接：https://paper.yanxishe.com/review/8419?from=leiphonecolumn_paperreview0109

推荐理由：本文的工作提出了一种体系结构，该体系结构可以为微型农业机器人的图像传感器生成好奇心驱动的目标导向的探索行为。已经使用了深度神经网络的组合，用于从图像中进行离线的无监督学习，以进行低维特征的学习，以及用于浅层神经网络的在线学习，用于表示系统的逆向运动和正向运动学。人工好奇心系统将兴趣值分配给一组预定义的目标，并将探索驱向那些有望最大程度地提高学习进度的探索。

作者建议将情景记忆整合到内在动机系统中，以应对灾难性的遗忘问题，这些问题通常在执行人工神经网络的在线更新时会遇到。我们的结果表明，采用情景存储系统不仅可以防止计算模型迅速忘记先前已获得的知识，而且还为调节模型的可塑性和稳定性之间的平衡提供了新途径。

用于主动人体姿态估计的深度强化学习

论文名称：Deep Reinforcement Learning for Active Human Pose Estimation

作者：Gärtner Erik /Pirinen Aleksis /Sminchisescu Cristian

发表时间：2020/1/7

论文链接：https://paper.yanxishe.com/review/8416?from=leiphonecolumn_paperreview0109

推荐理由：已有的3D人体姿势估计方法都假定从一个视频或者多个视角中收集的场景图像是可以用的，因此它们专注于通过融合空间或时间信息来利用先验知识和度量信息。这篇论文研究了主动观察者可以自由移动并探索场景的3D人体姿势估计问题，并提出了一个名为Pose-DRL的基于增强学习的人体姿势估计模型。Pose-DRL可以在空间和时间维度上选择最好的视角来进行姿势估计。在Panoptic多视角数据集上的实验表明，与基准模型相比，Pose-DRL学会了如何选择能够产生更为准确的姿势估计值的视角。

内核卷积神经网络

论文名称：Kervolutional Neural Networks

作者：Wang Chen /Yang Jianfei /Xie Lihua /Yuan Junsong

发表时间：2019/4/8

论文链接：https://paper.yanxishe.com/review/8415?from=leiphonecolumn_paperreview0109

推荐理由：现有的卷积神经网络相关的研究大多依赖于激活层，而现有的激活层只能提供逐点非线性。为了解决这个问题，这篇论文提出了一种新的内核卷积（Kervolution）运算，利用内核技巧来近似人类感知系统的复杂行为。内核卷积操作通过逐块内核函数来增强模型容量并捕获要素的高阶交互，而无需引入其他参数。大量的实验表明，与基线CNN相比，基于内核卷积的神经网络具有更高的准确性和更快的收敛速度。

利用光流重构估计的深度视频超分辨率

论文名称：Deep Video Super-Resolution using HR Optical Flow Estimation

作者：Wang Longguang /Guo Yulan /Liu Li /Lin Zaiping /Deng Xinpu /An Wei

发表时间：2020/1/6

论文链接：https://paper.yanxishe.com/review/8414?from=leiphonecolumn_paperreview0109

推荐理由：现有的基于深度学习的方法通常会估计低分辨率帧之间的光流以提供时间依赖性，但是低分辨率光流和高分辨率输出之间的分辨率冲突会妨碍帧中的细节恢复。为了解决这个问题，这篇论文提出了一种名为Optical Flow Reconstruction Network (OFRnet)的端到端的光流重构网络，其中来自低分辨率帧的光流提供了准确的时间依赖性，并最终提高了视频超分辨率任务的性能表现。文章使用高分辨率光流执行运动补偿以对时间依赖性进行编码，最终低分辨率输入会作为一个超分辨率网络的输入，从而生成超分辨率结果。这篇论文中的实验证明了高分辨率光流对改善超分辨率性能的有效性，在Vid4和DAVIS-10数据集上的实验也证明了OFRnet达到了SOTA的性能表现。

用于深度行人重识别的强基线和批量归一化结构

论文名称：A Strong Baseline and Batch Normalization Neck for Deep Person Re-identification

作者：Luo Hao /Jiang Wei /Gu Youzhi /Liu Fuxu /Liao Xingyu /Lai Shenqi /Gu Jianyang

发表时间：2019/6/19

论文链接：https://paper.yanxishe.com/review/8413?from=leiphonecolumn_paperreview0109

推荐理由：这篇论文考虑的是行人重识别的问题。深度神经网络在行人重识别问题中得到了大量的应用，然后这些模型往往过于复杂。这篇论文收集并评估了现有行人重识别论文中出现的有效的训练技巧，通过结合这些技巧，文章仅使用ResNet50，就可以在Market1501数据集上达到94.5％的rank-1和85.9％的平均准确率。这篇论文还提出了一个名为Batch Normalization Neck (BNNeck)的新结构，在全局池化层之后添加了一个批量归一化层，以将度量和分类损失分为两个不同的特征空间。这篇论文通过大量实验表明BNNeck可以提升基准模型的性能表现。

FACLSTM：重点关注场景文本识别的ConvLSTM

论文名称：FACLSTM: ConvLSTM with Focused Attention for Scene Text Recognition

作者：Wang Qingqing /Jia Wenjing /He Xiangjian /Lu Yue /Blumenstein Michael /Huang Ye

发表时间：2019/4/20

论文链接：https://paper.yanxishe.com/review/8412?from=leiphonecolumn_paperreview0109

推荐理由：这篇论文要解决的是场景文本识别的问题，已经被Science China Information Science接收。

这篇论文认为场景文本识别本质上是二维图像输入的时空预测问题，并基于此提出了一个基于卷积LSTM的场景文本识别模型FACLSTM，利用LSTM来执行顺序预测，并可以充分利用像素的空间相关性。同时这篇论文还通过卷积运算将注意力机制整合到ConvLSTM结构中，从而将注意力集中在正确的特征区域上。在基准数据集IIIT5K，SVT和CUTE上的实验结果表明，FACLSTM在常规的低分辨率和嘈杂的文本图像上表现出具有竞争力的优势，并且在弯曲文本上以较大的幅度胜过了最新的方法。

基于一种新的隐式运动估计和补偿机制的端到端可训练视频超分辨率

论文名称：End-To-End Trainable Video Super-Resolution Based>作者：Liu Xiaohong /Kong Lingshi /Zhou Yang /Zhao Jiying /Chen Jun

发表时间：2020/1/5

论文链接：https://paper.yanxishe.com/review/8411?from=leiphonecolumn_paperreview0109

推荐理由：这篇论文被WACV 2020接收，考虑的是视频超分辨率的问题。

视频超分辨率是在从低分辨率对应生成高分辨率视频。许多最近提出的视频超分辨率方法将卷积神经网络与显式运动补偿结合使用，以利用低分辨率帧内和跨低分辨率帧的统计依赖性。这篇论文提出了一种新的动态局部滤波器网络，采用针对目标像素量身定制的特定于样本和特定于位置的动态局部滤波器，来执行隐式运动估计和补偿。这篇论文还提出了一个基于ResBlock和自动编码器结构的全局优化网络，以利用非局部相关性并增强超分辨帧的空间一致性。实验结果表明这篇论文中的方法优于当前最佳技术并在局部变换处理、时间一致性及边缘清晰度方面等方面显示了优越性。

TableNet：用于从扫描的文档图像进行端到端表格检测和表格数据提取的深度学习模型

论文名称：TableNet: Deep Learning model for end-to-end Table detection and Tabular data extraction from Scanned Document Images

作者：Paliwal Shubham /D Vishwanath /Rahul Rohit /Sharma Monika /Vig Lovekesh

发表时间：2020/1/6

论文链接：https://paper.yanxishe.com/review/8410?from=leiphonecolumn_paperreview0109

推荐理由：这篇论文考虑的是从扫描的文档图像进行表格检测和表格数据提取的问题。

从扫描图像中提取表格数据的主要障碍是这些图像通常包含表格形式信息，而从表格子图像中提取数据存在一系列挑战，包括精确检测图像中的表格区域以及随后从检测到的表格行和列中检测和提取信息。现有方法尝试使用两个单独的模型来独立解决表格检测和结构识别问题。这篇论文提出了TableNet，一种用于表检测和结构识别的新型端到端深度学习模型。该模型利用表检测和表结构识别这两个任务之间的相互依赖性来分割表格的列区域，从已识别的表格子区域中基于语义规则进行行的提取。TableNet在ICDAR 2013和Marmot Table数据集上取得了目前最佳结果。此外，这篇论文证明提供其他语义特征可以进一步提高模型性能，并且所提方法还展示了跨数据集的迁移学习。

相互均值教学：用于提炼行人重识别的无监督领域适配伪标签

论文名称：Mutual Mean-Teaching: Pseudo Label Refinery for Unsupervised Domain Adaptation>作者：Ge Yixiao /Chen Dapeng /Li Hongsheng

发表时间：2020/1/6

论文链接：https://paper.yanxishe.com/review/8317?from=leiphonecolumn_paperreview0109

推荐理由：这篇论文被ICLR 2020接收，考虑的是行人重识别问题。

为了减轻聚类过程中的噪声伪标签的影响，这篇论文提出了一种名为相互均值教学（Mutual Mean-Teaching, MMT）的无监督框架，可以交互地离线微调硬伪标签并在线微调软伪标签，从目标域中学习更好的功能。另外传统三元组损失不适于软标签。为解决该问题，这篇论文进一步提出一种新的软三元组损失，支持使用伪三元组标签进行学习，以实现最佳的域自适应性能。经过试验，MMT框架在Duke-to-Market，Market-to-MSMT，Duke-to-MSMT数据集的无监督域适应任务上分别实现了14.4％，18.2％，13.1％和16.4％的mAP的显著提升。