在视觉方面，计算机可与人类亲戚一战了

作者：Travis

2014/12/25 17:35

在视觉方面，计算机可与人类亲戚一战了

在过去的几十年时间，神经科学家一直在尝试设计一个能够模拟人类大脑来识别物体，具有视觉技能的计算机网络。正是因为人类大脑的识别物体的能力非常准确和快速，很长的时间以来，人们都没有设计出任何一个可以匹敌人类对视觉物体的识别能力的计算机模型。

但是，目前这个情况发生了一些改变。来自美国MIT的神经科学家们进行了一项最新的研究，他们发现了一种最新一代号称“深层神经网络（deep neural networks）” 的东西，其能够与灵长类动物大脑相匹敌。

在视觉方面，计算机可与人类亲戚一战了

MIT大脑与认知科学学院院长，神经科学教授James DiCarlo表示，由于这些神经网络是基于神经科学家目前对大脑是如何进行物体识别的理解，因此最新神经网络的发现则表明了神经科学家对物体识别的基本原理有了较为精确的把握。他将这项研究发表在了12月18日出版的PLoS Computational Biology期刊上。

MIT麦克戈文大脑科学研究所的成员DiCarlo表示，“这一神经网络模型能够在神经总体空间里预测出神经反应和物体距离，这表明模型已经集合了我们目前对大脑的最好理解。”

对灵长类动物的大脑是如何工作的进一步了解，将促进人类开发出更好的人工智能，甚至有朝一日这个技术可以成为修复视觉功能紊乱的新方法。

受大脑启发

科学家们最早在上个世纪的70年代就已经开始开发神经网络了，他们希望能够模拟出大脑的能力来处理视觉信息、识别语音以及理解语言。

对于基于视觉的神经网络，科学家们是受到了大脑视觉信息的层次表示（hierarchical representation）所启发。随着视觉从视网膜输入，并进入初级视皮层和颞下皮层（IT Cortex），输入的视觉在每一个皮层上都会经过处理，每处理一次就会变得更明确一些，直到物体最终被识别出来。

为了模拟这个过程，神经网络的设计师在计算机模型里创造了多个计算层。每一层执行一个数学运算，例如：线性标量积。在每一个层面上，视觉物体的表现都变得越来越复杂，而无关紧要的信息则会被抛弃，例如：物体的位置或者移动。

每一个单独的元素都是一个具有代表性的数学表达式，当你将成百上千万个这样的数学表达式相结合后，就能实现将原始信号通过复杂的转化变成非常适合物体识别的表达方式了。

在这项研究里，科研人员首次测量了大脑对物体识别能力。研究人员在颞下皮层和V4区植入了电极，这使得他们能够观察到动物看到每一个物体时所产生的神经表现。

之后，研究人员将这些神经表现与深层神经网络产生的神经表现进行对比，后者包含系统里每一个计算元素所产生的数字矩阵。每一张图片都会产生不同的数字。

通过每一个这样的计算变换，每一个网络的层次，特定的物体或者图片会逐渐接近，而其它物体会越来越远离。

更强大的处理能力

近期这种类型的神经网络之所以可以成功，取决于两个重要因素。

一是计算机处理能力有了实质性的飞跃。研究人员在物体时别上可以利用图形处理单元（GPU），这是一种可以处理电子游戏中大量视觉内容的高性能芯片。
第二个因素是研究人员现在能够将大量数据集输入算法中，从而“训练”算法使之更加高效。这些数据集包含上百上千万张图片，每一张图片都被人们从不同鉴别层面进行了注解。例如：一张狗的图片可能会被贴上动物、犬类、是否被驯养或者狗的品种等标签。

最初，神经网络并不擅长识别这些图片，但是随着它们“看”到的图像越来越多，并在发现自己识别出错后，会逐渐改进它们的算法，直到最后能够更加精确的识别物体。

via mit