过去一周,CVPR 2016向我们展示了其庞大的演讲嘉宾,多样的大会主题,丰富的圆桌会议以及全球化的CV赞助商,不管是从演讲嘉宾上还是赞助商上,我们都看到了全球科技企业对于这次大会的重视程度,而大会上频频涌现的亮点,更是让参加这次大会的人觉得不枉此行。
下面我们先从黑科技这个亮点说起。
CVPR2016上,麻省理工学院计算机科学和人工智能实验室(CSAIL)将发布一份关于可预测人类行为的算法的研究报告。通过给此算法导入近600小时的电视秀(其中包括《生活大爆炸》《绝望主妇》《办公室》等剧集),来测试机器是否能准确预测人类在各场景互动中的行为。此次实验数据是人工智能“预测想象力”技术的显著进步。
真正的飞跃大概会在2021年到来,按我们的分级方法,那时候的自动驾驶等级大概会在Lv.4到Lv.5之间了,能实现真正的全自动驾驶。那时预计社会将会慢慢接受自动驾驶系统的存在,可能在一段时间内,还是会有司机坐在驾驶座上以防万一算法出错。而这时的自动驾驶系统可能主要在公共交通或出租车等方式、如Uber等之间流行,私家车司机还是会倾向于手动驾车出行。
Jitendra Malik为加州伯克利大学分校的教授,1985年毕业于美国斯坦福大学,现任加州大学伯克利分校电子工程与计算机科学系的资深教授,曾于2004年~2006年任该系系主任。Jitendra Malik教授主要研究方向为计算机视觉和生理认知建模,涉及图像分割、视觉组织、纹理分析、立体视觉、物体识别、智能交通系统等广泛内容,在这些领域发表了超过150篇文章,其中有五篇文章引用率超过1000。Jitendra Malik教授已培养了26位博士生,其中不乏国际研究界和工业界的知名教授与专家。
深度学习有很多优势,但在视觉识别领域它能做的工作还不算太多,此次Piotr Dollar和Jitendra Malik在论坛上,主要讨论,目前深度学习用于视觉识别领域优点和缺点,以及如何通过反馈和记忆网络,能让前馈视觉架构有所改善。
面部追踪技术并不是什么新鲜的技术,但是今年3月公布的Face2Face无疑彻底改变了它的意义。这项技术可以非常逼真的将一个人的面部表情、说话时面部肌肉的变化完美的实时复制到另一个视频中的角色上。它由德国纽伦堡大学的科学家Justus Thies领衔完成,技术上来说,这不仅是第一个能实时进行面部转换的模型(以前的都有或多或少的延迟)。而且准确率和真实度比以前那些模型高得多。最终效果看起来大概就是下面这个样子:
……
摘要
在现有基础下,想要进一步训练更深层次的神经网络是非常困难的。我们提出了一种减轻网络训练负担的残差学习框架,这种网络比以前使用过的网络本质上层次更深。我们明确地将这层作为输入层相关的学习残差函数,而不是学习未知的函数。同时,我们提供了全面实验数据,这些数据证明残差网络更容易优化,并且可以从深度增加中大大提高精度。我们在ImageNet数据集用152 层--比VGG网络深8倍的深度来评估残差网络,但它仍具有较低的复杂度。在ImageNet测试集中,这些残差网络整体达到了3.57%的误差。该结果在2015年大规模视觉识别挑战赛分类任务中赢得了第一。此外,我们还用了100到1000层深度分析了的CIFAR-10。
对于大部分视觉识别任务,深度表示是非常重要的。仅由于极深的表示,在COCO对象检查数据时,我们就得到了近28%相关的改进。深度剩余网络是我们提交给ILSVRC和COCO2015竞赛的基础,而且在ImageNet检测任务,ImageNet定位,COCO检测和COCO分割等领域赢我们获得了第一。
小结:
相比其它的学术会议,CVPR的黑科技更多,获奖论文更受关注,领域大牛更加受瞩目,参加的赞助商阵容更庞大,相信是因为计算机视觉和模式识别这个领域本身今年的大热导致的,AI科技评论君也希望这个势头延续到下一个顶级国际人工智能联合大会(IJCAI)学术会议中。