我们生活在物理世界里,但往往没有深入思考这样一个问题:自己是如何迅速理解周边事物的?
人类能够对背景的变化、事物之间的相互关联等等做出非常自然的反应。而且,这些反应并不会耗费我们多少注意力,同时还能处理得非常妥帖。
但是,人类的这种与生俱来的能力对于机器来说就没那么简单了。对于一个事物,其潜在发展的变化方式有成千上万种可能,这让计算机学会如何正确地做出预测是非常困难的。
近期,麻省理工学院(MIT)计算科学与人工智能实验室(CSAIL)的研究工作者的一项研究成果再次推进了机器学习的发展。深度学习算法仅仅通过一张图片,就可以让计算机便生成一小段视频来模拟图中场景,并预测接下来会发生的情景。
训练过程使用了 200 万个无标签的镜头,视频总时长达一年。相比使用基准模型算法,这一算法生成的视频更真实。在测试过程中,深度学习算法生成的视频和比基准模型算法真实度高了 20%。
研究团队称,这项技术可以用于改进安检策略、提高自动驾驶安全性等诸多领域。据该实验室博士生与第一作者透露,这一算法能够实现人类活动的机器识别从而摆脱人工识别的高昂费用。
“这些视频展现了电脑认为将会发生的场景,”Vondrick 表示,“如果你可以预测未来,那么你必须能够理解目前发生的事情。“Vondrick、MIT 教授 Antonio Torralba 还有 Hamed Pirsiavash 教授共同发表的这一成果。Pirsiavash 教授是 CSAIL 的博士后,现于马里兰大学担任教授。这项工作将于下周在巴塞罗那召开的神经信息处理系统大会(NIPS)上展出。
MIT人工智能实验室使用深度学习算法生成预测性视频。图为沙滩、运动、火车站及医院的预测结果
此项目花费了近两年的时间让算法“学习”两百万幅未加标签的视频。
许多计算机视觉领域的研究工作都研究过类似的课题,包括 MIT 教授 Bill Freeman。Freeman 教授近期的关于“动态视觉”的课题同样是研究对一个场景主动生成未来几帧的图像,不过他所提出的问题模型集中在解决未来视频的推断上。这是先前研究成果中未出现过的。
以往的系统模型逐帧重建场景,通常会在边缘有较大误差。与此相反,这项研究攻克了“建立整个场景”的难题,算法从一开始就能产生帧率为 32 的视频。
“逐帧建立场景就像玩 Telephone Game 一样(Telephone Game 是什么?传送门:http://icebreakerideas.com/telephone-game/),在屋里转一圈后信息便已经大相径庭了。”Vondrick 说道,“一次性地处理一整个场景,就好比这个游戏中你能将消息传给所有人一样。”
当然,在同时生产所有场景时会有一些权衡,并且针对长视频,计算机模型也是非常复杂的,但这一结果在逐渐变得准确。这种精准的预测相对于增加的复杂度是非常值得的。为了建立多帧场景,研究工作者训练计算机来区分前景和背景。而后将提取的对象放回视频中再训练,哪个部分是静止的,哪个部分是运动的。
研究团队使用称作“adversarial learning”的深度学习算法,该方法训练两个竞争神经网络。其中一个神经网络生成视频,另一个作为检测器寻找生成视频与原视频的不同。
通过训练,视频生成的结果便可以骗过检测器。此时,这一模型可以生成诸如海滩、火车站、医院、高尔夫球场等场景。比如,海滩模型可以生成海浪,高尔夫球场模型可以生成草坪上走动的人群。
团队使用两个相互竞争的神经网络。高斯白噪声输入到系统G产生虚假视频,选择性的将真是视频或是虚假视频送入到系统D中,输出后得到真实的视频。
其中一个网络的工作过程具体如上图,将 100dB 的白噪声分别输入到前景和背景图流中,在进行采样和 Sigmoid 蒙版处理,得到参数并根据公式生成空时图像矩阵,从而产生视频。
尽管还有人怀疑视频到底是真实的还是虚假的,但这的确已取得很大进步。
这个系统将努力学习这个世界,比如前景背景的分割。上图为该算法的图像分割技术,可以得到前景和背景图。
研究团队将该方法生成的视频与基准模型方法的结果做出比对,通过询问测试者哪种结果更加真实来给出判决。从 150 位测试者提供的 13000 个结果中,认为前者更真实的结果数量相比后者高出 20%。
Vondrick 强调目前这一模型还欠缺一些简化的常识性准则。例如,算法有时不能理解目标移动后所占用的区域会不会发生变化,比如贯穿画面的一列火车。此外算法生成的人和物的尺寸会看起来比实际大很多。
另一个限制因素是时间,该算法生成的视频仅仅能持续 1.5 秒。在后期研究工作中,他们团队期待可以增加时间。但是这是个不小的挑战,因为这要求算法计算相隔较远的时间点上的相关性,从而确保景象仍然在更长时间内是说得通的。解决这个问题的一个方法是使用监督学习。
“在一个视频的长时间段中想要搜罗到精确的信息非常困难。”Vondrick 认为,“如果一个视频里既包括做饭又含有吃饭的活动,那么必须使这两个动作之间产生互相关,从而使得视频看起来更加准确。”
这种模型并不局限于预测未来。生成的视频还可以用来美化静态图片,赋之以动态效果。就像“哈利波特”电影中的报纸一样充满灵动感。这种模型还可以帮助人类检测安全连续镜头下的异常。此外,在存储和发送长视频文件方面,该模型还可以帮助压缩文件。
“未来,这项技术将会扩展我们的视觉系统,仅仅训练一些视频而不再需要监督学习,就能识别物体和景象。”Vondrick 说道。
via MIT CSAIL