近几年来,正是多亏了深度学习技术的蓬勃发展,人类在“识图”领域获得了可喜进展。例如Google的“以图搜图”和Facebook的“人脸识别”功能,给网民们带来了极大的便利。如今一家名为Clarifai公司正打算再次突破,这次他们借助于深度学习技术,实现了视频文件的识别。
公司表示,目前它们的软件能够快速分析视频文件,并且识别出1万种以上的物体或者场景。在上周,某个深度学习研讨会上,Clarifai的联合创始人兼CEO Matthew Zeiler上传了一个包括含有阿尔卑斯山风景的视频文件,接下来便是见证奇迹的时刻:该软件绘制出了一条纵向时间线,在不同的位置处标志出了不同物体和场景出现的时间,例如它识别出了“雪”和“山”分别出现和共同出现的时间点。另外该软件的视频识别时间也是短于正常人类的观看时间的,在这次的演示中,这段三分半钟的视频的识别过程只用了10秒钟。
Clarifai公司计划将这项技术打造成一整套服务,比如说帮助用户将广告与在线视频向配对,或者是成为组织、编辑视频素材的工具。
深度学习的实现得益于类似“神经元”搭建的网络分析数据的过程,并且系统处理的实例数据越多,深度学习的能力便会愈加强大。值得一提的是,纽约大学的相关研究团队对Clarifai公司的技术实现做出了极大的贡献,并且Clarifai在2013年的一次高规格图片识别软件竞赛中,获得了前五名的好成绩。
就像文章开头所说的,现在深度学习领域的大多数研究仍然是着眼于图片识别,而并非视频。其实在去年Clarifai公司便已经推出了静止图像识别服务,另一家创业公司Dextro在去年12月底发布了视频处理服务。
对于广大热心网友们而言,现在的一个好消息就是任何人都可以进入到Clarifai官网,免费上传10Mb以内的视频文件进行数据分析。现在软件可以识别出汽车、树木甚至是人,而且还能够识别出感官性的场景氛围,例如“快乐”或者是“团聚”。
Zeiler额外补充道,这款软件其实有额外的妙用,“它能够识别并推论出,究竟在视频文件的哪个节点上适合投放广告。”简单的解释说,软件能够帮助视频广告更加精准的投放,而不会与本身的视频内容产生较大的“违和感”。他相信,在特定的时段投放广告对广告主来说,无疑有着极大的吸引力。举个例子来说,借助于Clarifai的软件,星巴克的广告会在在线偶像剧中男女主角于咖啡厅约会之时,神不知鬼不觉的出现在页面中。
另外,Zeiler表示公司也正在尝试与一些有意使用该技术的公司展开合作。该软件的功能仍然在不断完善中,主要的两个方向是:自动总结视频内容以及识别出在视频中的特定时间点发生了什么特殊活动。
via technologyreview