到目前为止,人类还没能设计出一个有知觉的人工智能,至少就我们所知还没有。但是人类在人工智能之路上从未停下脚步,我们正在帮助机器逐渐看见、看懂、理解这个世界。上个月,Google展示了其开发的Deep Dream眼中的世界,这些抽象的图片看起来甚是诡异。而斯坦福大学的一个科学家团队也有一个类似的项目:NeutralTalk,这个程序能够通过对图像进行分析,然后用语言对图像中的信息进行描述。
该项目去年就公布了,主要的开发者是斯坦福大学人工智能实验室主任Fei-Fei Li和他的研究生学生Andrej Karpathy。该程序能够对复杂的图像进行分析,并且对图像中正在发生的事情进行准确地描述。比如说:如果图片上是一个穿着黑色衬衫弹吉他的男人,那么该程序就会将其描述成:“穿着黑色衬衫的男人在弹吉他”。尽管在小狗越过藩篱、女孩吃蛋糕和穿着蓝色潜水服的男人在冲浪的图片上该程序都给出了准确的描述,但是在大多数情况下,该程序的描述都是不准确的。
和Google的Deep Dream一样,NeutralTalk使用的也是神经网络对图像的内容进行识别,即通过将新图像和已经存在于神经网络之中的图像进行模式比对来进行识别。神经网络的工作模式和认的大脑类似,准确地说更像是一个小孩,一旦他们学会了基本的识别方法,它们就能够从新的图片和视频中识别出那些东西——比如一本书、一只猫或是一个三明治。
但目前这项技术还不够完美。比如有一张一个成年女人拿着一个甜甜圈的照片就被识别成“一个小女孩拿着吹风机吹头发”,而一个好奇的长颈鹿则被描述为:“一只狗望向窗外”。更搞笑的是有一张两夫妻和一个生日蛋糕站在花园里面的照片,竟然被说成是“一个穿着绿色衬衫的男人正站在一头大象旁边”;但好在这些识别通常都会给出一个替代选项,这张图片的替代选项的描述还算准确:“一个站在外面的女人拿着一个椰子蛋糕,一个男人在看着”。
在互联网上有大量的图像和视频信息,而现在已经有很多可被搜索的视觉信息都被进行了手动的标注。当Google刚刚打造谷歌地图的时候,Google还需要一个团队去检查那些上传的照片,确保那些照片确实是在相应的位置拍摄的。也许正是因为这样的工作实在是太无聊了吧,他们就打造了谷歌大脑(Google Brain),现在,谷歌大脑已经可以在一个小时之内处理整个法国的所有街景信息。
Li介绍说:“我将图片和视频中包含的像素信息视为互联网中的暗物质,现在我们要照亮它们。”之前,引领这项“照明”工作的通常都是像Google和Facebook这样的互联网巨头,它们有足够的资源对数以亿计的照片进行筛选和分类。但以前的研究都主要还是集中在单一事物的识别上,但计算机科学家称这种研究方向忽略了大局。华盛顿大学的计算机科学家Ali Farhadi说:“我们专注于物体,而忽略了动词。”
好在最近越来越多的项目都在试图从图像信息中发掘出更多有用的信息,而不再仅仅指出图片中有什么。而斯坦福大学的这项研究使用了自然语言对结果进行描述,我们可以假设一下这项技术的应用场景。比如你将你的照片放在Google Photos中,然后你就可以用“一只狗跳过篱笆”或者“我在时代广场的自拍”这样的关键词对你的照片进行搜索了,甚至你还能使用这样的语句在谷歌或者YouTube上去检索相应的图片和视频;同时,图片和视频上传者也不需要费尽脑汁为自己上传的文件贴上几个准确的标签。
神经网络也有在现实世界的应用潜力,在今年的国际消费类电子产品展览会(CES)上,NVIDIA宣布了推出一个驾驶辅助平台Drive PX,能将“深度神经计算机视觉”整合到汽车之中。该平台也是使用了能够学习的神经网络技术,NVIDIA的CEO黄仁勋称该技术能够自动识别出潜在的危险,在发现行人、交通标志和救护车时对驾驶员发出警示。神经网络的应用意味着Drive PX并不需要了解所有汽车就能识别出车辆。比如根据车的大小可以确定一辆车是SUV,或者根据车顶上的灯识别出警车。NVIDIA已经在这项技术的开发中奋斗了许多年时间,而且事实上斯坦福大学的研究项目就建立在该公司提供的图形处理器的基础上。
斯坦福大学的这项技术还在不断的演进,现在该团队已经将他们的成果发布在了GitHub上面。未来,计算机将对我们的行为有更深的认识和理解,想象一下,当计算机能够准确地识别和理解它所看到的一切时,世界该是个什么模样?
via theverge