世界上比酒后发短信更危险的事,就是酒后发(ren)推(jin)文(jie)了(zhi)吧。公开广播自己醉酒显然不是拓展社交应该有的动作,然而还是有很多人无法克制住吹嘘他们的酒后越轨行为。而科学家为此也是操碎了心,据外媒报道,科学家已经训练出一套算法,能够识别出与“醉酒推文”,甚至还能知道发推时是否正在喝酒。
据悉,美国罗彻斯特大学 研究员Nabil Hossain决定在Twitter和机器学习结合起来,以在特定群体中跟踪监测醉酒用户和推文。
为了进行训练,Nabil Hossain收集2013年7月至2014年7月之间成千上万被标记的推文,然后将包含与豪饮相关关键字的推文筛选出来。
随后,他们通过亚马逊土耳其机器人(Mechanical Turk)的众包服务将1.1万条推文混合起来,每一条推文都要通过三个提问:
Q1:这条推文有任何与酒精相关的迹象吗?
Q2:如果有,推文内容是关于酒醉的发推者本身的吗?
Q3:如果是,推文有可能是在发推者喝酒所在的时间地点发出的吗?
Hossain用答案来训练三套不同的算法——“线性支持向量机”(SVM)——来回答每一个问题。
准确率(识别出醉酒推文)——机器学习的准确率和Turkers的结果——算法回答Q1的准确率为92%,Q3准确率则为82%。
然而,该团队进行了更深入的研究,试图定位推文的发文地点,是在家里还是其他什么地方。为了锁定用户的发推地点,研究者将一些与家庭相关的关键字搜罗起来,比如沐浴、沙发、电视、睡觉以及家等,然后进行推文筛选。
以同样的训练方法,研究团队声称成功创建一套准确率达到80%的算法来识别发推地点。
根据研究结果,该团队勾勒出纽约州居民喜好的喝酒地点——家里,俱乐部等等。这是一个有趣的发现, 因为有了这些数据,研究者可以描绘出一种模式,比如纽约市的人们喜欢在家里附近喝酒,而其他某个地区的人喜欢在郊区喝酒,这样的统计可以反馈酒类饮品消费聚集地。
“未来我们可以利用这项技术来对社交媒体上的饮酒消费进行全面的研究。”