Google在图像识别领域又进了一步。据外媒报道,Google已经公布了一个新的字幕系统,它可以识别照片上的内容,并自动对它以自然语言进行描述并标记。
目前已经有智能系统可以自动标记图像,识别出其中的某个物体,但Google的这项技术可以描述的更全面,比如它的描述可能是“两只狗在草地上玩”或“带粉红色帽子的小女孩在吹泡泡”。
这一软件系统是Google使用大规模模拟神经元处理数据的最新研究成果。没人对识别场景的规则进行编程,这一神经网络是自己“学”会处理数据的。
新系统由两个神经网络合成,一个能处理图像,对其内容进行数学化表示,供识别物体;另一网络能自动生产完整文字,是翻译软件的一部分。两者合成后,第一个会“观看”图片,向第二个网络反馈所看到的内容,然后后者会将信息加工为自然语言。
经过大量图片数据测试后的结果显示,这一系统得到60分(满分100),而人类通常的结果是70分,可以说已经做得相当不错了。这项技术所作的描述仍然不如人类那样完整,但已经为人工智能和机器学习未来带来光明。
想像一下,这种系统的一个用途是帮助视障人士了解照片,说不定,提供几张图片,Google也能讲个睡前故事。
via mit