8月12日下午,由雷锋网主办的“GAIR大讲堂CVPR 上海交大专场”在上海交通大学正式开幕。作为雷锋网旗下高端学术分享品牌,「GAIR大讲堂」的使命是通过举办高频次的线下校园学术分享活动,实现学术专家、AI业者与学校同学们之间的深度交流。本次活动,雷锋网特地邀请5位CVPR 2017前方论文讲者来讲解各自的论文,同时分享CVPR 的参会心得。活动现场当天还有三位上海交通大学的教授前来助阵,他们分别是电子信息与电气工程学院(下称“电院”)副院长杨小康教授、电院特别研究员,博士生导师倪冰冰老师以及电院副研究员徐奕老师,他们纷纷前来为同学们的学术热情点赞加油。AI科技评论作为此次活动的合作媒体,亦全程到现场参与报道。
五位学术青年分别是:
MIT EECS系三年级博士生 吴佳俊
阿里巴巴人工智能实验室资深算法工程师 汪洋
上海交通大学研究生 杨蕊
上海交通大学研究生 林天威
上海交通大学博士生 王敏思
本次活动主要以CVPR 2017入选论文为主题分享,也有部分嘉宾准备了一些在别的国际学术会议中入选的论文做讲解分享。下面就让AI科技评论记者带大家看看他们都做了哪些内容分享。
活动开始,首先是上海交通大学电子信息与电气工程学院副院长杨小康教授做致辞。杨小康教授先是对GAIR大讲堂走进高校系列活动表达了非常高的赞许和肯定。当谈到CVPR时,他说道:CVPR目前不光是在CS领域比较火,而是在整个学术界的影响力都非常大,论文要入选CVPR会议,非常难。针对目前AI全球蔓延的火热趋势,杨小康教授告诫同学们,除了认真做好学术,抓住这一时代机遇外,还要挡得住外界诱惑,冷静思考。
吴佳俊分享了一篇作者并非他本人但内容非常有意思的论文, A Point Set Generation Network for 3D Object Reconstruction from a Single Image(用于从单张图像中重建三维物体的点云生成网络)
深度神经网络非常火,但是深度神经网络很多时候是做卷积神经网络,怎么用深度神经网络从单张图片中恢复重建三维物体,是个难题。图像是像素,在图片上可以做到400*800,800*600,三维却很难超过128*128*128。吴佳俊先从利用单张图片重建三维物体的难点讲起,再到现存的一些方法的弊端。现存的大多数方法都采取常规的三位数据表示,例如三位体素或图像集合。而在这篇CVPR文章里,作者提出了一种新思路,试图从单张图像中直接生成三维点云坐标,并进行三维重建。三维点云具有非常高的灵活性,在物体的细节上表现很好,在细节表现上只需要增加点云的数量即可。论文作者针对问题设计了相应的神经网络架构,损失函数和学习范式。实验结果也证明了所提出的方法的良好性能。论文下载地址:https://arxiv.org/pdf/1612.00603.pdf
汪洋代表Ali AI Lab分享了一篇阿里人工智能实验室入选的论文:Contextual Attention-based Memory Networks for Scene Labeling(上下文注意力机制记忆网络在场景标记中的应用)
场景标注需要解决的问题是预测图像每个像素所属的类别,实际上它可视为一个序列到序列的预测任务。因此,如何充分利用相关上下文信息是提高标注效果的关键所在。阿里人工智能实验室入选的这篇CVPR论文提出了一种Episodic CAMN方法,并在该方法的基础上定义了一种由全卷积神经网络(Fully Connected Network,FCN)和带有反馈连接的注意力机制记忆网络(Attention-based Memory Network with Feedback Connections)构成的统一框架来实现上下文信息的选择和调整。在PASCAL Context,SIFT Flow和PASCAL VOC 2011等场景标注数据集上进行一系列评测,取得了不错的效果。
杨蕊同学分享的是今年她作为第一作者入选CVPR 2017的论文:Video Segmentation via Multiple Granularity Analysis(基于多粒度分析的视频分割),她在活动上介绍自己很多灵感都是来源于吴佳俊同学发表的论文,并且针对论文内容的细节问题,两人还做了一定的探讨。
杨蕊从视频目标分割的定义开始讲解,视频目标分割是讲视频中的目标物体在每一帧中从背景中沿物体轮廓进行像素级别分割,采用一个多粒度框架可以通过从粗到细的方式对视频进行精准分割。本质是图像分割与视频跟踪任务的结合。视频分割可以被理解为一个时序上的超像素打标过程,在精准的视频跟踪技术的帮助下,时空上的多实例学习算法可以将超像素进行二分类,并紧接着用图割的方式在像素级别进行细化,最终实现准确的分割。同时她也讲了视频目标分割传统方法,以及新方法遇到的挑战,比如视频模糊,有遮挡,形变,和光照等因素影响。
林天威分享的是一篇投稿在ACM Multimedia 2017的论文:Single Shot Temporal Action Detection(基于时序卷积网络的视频动作检测方法),并且利用该论文中提到的方法获得CVPR举办的ActivityNet Challenge 2017两项冠军。
林天威首先对视频分类和图像分类做了一个大致的对比。图像中分类的目的是给图片标签,不仅要给出目标种类,还要给出目标位置。而视频分类要给一段短的视频片段进行动作分析,也就是时序动作检测问题。实际中一个视频通常很长,论文中研究的动作只是一个很小的片段,一个小片段也可能会包含很多动作片段,因此希望能检测出不仅包含动作的种类,也包含动作的开始和结束时间。评估的过程中不仅要看预测的动作种类是否正确,还要比较预测动作片段与真实片段之间的重叠比例。只有重叠比例高于一定的预值,才认为这个预测是正确的。
总结来说,时序行为检测是要在视频序列中确定动作发生的时间区间(包括开始时间与结束时间)以及动作的类别。与其关系紧密的一个领域是基于图像的物体检测(object detection),物体检测是检测物体在图像中的位置,包括长和宽两个维度,而时序行为检测则只需要确定时间维度上动作的位置。
王敏思分享是他今年投稿在CVPR 2017上的论文:Recurrent Modeling of Interaction Context for Collective Activity Recognition(对人体之间的交互进行递归建模来进行群体行为识别)
王敏思对群体行为进行了一个通俗定义,需要大于等于两个人共同完成的行为模式称为群体行为。群体行为识别是为了判断场景中整个人群的行为。群体行为通常包括多个层次的互动信息(Interaction Context),包括单个人的运动信息,局部群组内人与人的互动信息,以及局部组群与组群之间的互动信息。针对此现象,论文提出了一个基于多层次递归神经网络的群体行为识别算法,该算法在每个层次的互动信息建模中,使用LSTM节点,低级层次的信息会聚后作为高级层次的信息节点输入,主要分为person-level,group-level, scene-level三个不同层次的LSTM。最终通过多层次的LSTM结构,实现跨层次的群体行为识别。该方法在群体行为数据库Collective-Activity获得了目前很好的识别精度。
活动时间虽安排在暑假,且又赶上周末,但来现场听论文分享的同学依然不少。很多都是从附近高校,比如上海理工,复旦大学专程赶过来。也有一些知名互联网公司的技术人员利用周末时间赶来学习。现场的提问环节也得到了大家的热烈响应。
GAIR大讲堂走进高校系列活动还会继续举办,下一站哈工大深圳专场将于8月26日下午在哈工大深研院举办。AI科技评论记者也会继续为大家报道嘉宾分享的干货,以及活动现场的一些情况。如果你恰巧就在活动的举办地城市或附近,不妨亲自来听一场,相信你一定会从中有所收获。目前“GAIR大讲堂-CVPR哈工大深圳专场”活动已经开启报名,欢迎大家报名参加。
活动地址:https://www.leiphone.com/activity/view/id/3
本场活动直播回放地址:http://www.mooc.ai/course/151/lesson/list