Google图像字幕技术：自动描述照片内容

Google 图片搜索 MIT

作者：张驰

2014/11/19 08:28

Google在图像识别领域又进了一步。据外媒报道，Google已经公布了一个新的字幕系统，它可以识别照片上的内容，并自动对它以自然语言进行描述并标记。

目前已经有智能系统可以自动标记图像，识别出其中的某个物体，但Google的这项技术可以描述的更全面，比如它的描述可能是“两只狗在草地上玩”或“带粉红色帽子的小女孩在吹泡泡”。

这一软件系统是Google使用大规模模拟神经元处理数据的最新研究成果。没人对识别场景的规则进行编程，这一神经网络是自己“学”会处理数据的。

新系统由两个神经网络合成，一个能处理图像，对其内容进行数学化表示，供识别物体；另一网络能自动生产完整文字，是翻译软件的一部分。两者合成后，第一个会“观看”图片，向第二个网络反馈所看到的内容，然后后者会将信息加工为自然语言。

经过大量图片数据测试后的结果显示，这一系统得到60分(满分100)，而人类通常的结果是70分，可以说已经做得相当不错了。这项技术所作的描述仍然不如人类那样完整，但已经为人工智能和机器学习未来带来光明。

想像一下，这种系统的一个用途是帮助视障人士了解照片，说不定，提供几张图片，Google也能讲个睡前故事。

via mit