1000万例,这是美国最新的新冠肺炎确认病例数量。
我们都知道,在特殊的疫情期间,戴不戴口罩成为遏制疫情的关键因素之一。但个人口罩的使用在美国已经演变成一个高度两极化的话题:是要公共卫生,还是要个人自由?
雷锋网了解到,近日,美国罗彻斯特大学计算机系的罗杰波教授团队在arXiv上发表了一篇论文(已被2020 IEEE International Conference on Big Data录用)。这篇论文的话题很有意义,就是讨论了在COVID-19大流行期间,公众对个人使用口罩的意见两极分化。
作者调查了不同属性、不同阶层、不同社会身份的人对于口罩使用的态度,相当于对推特的用户进行了一次全面的用户画像,并且归纳出十大有趣的发现,例如:
女生比男生对口罩佩戴的态度更加积极,男生相对不爱戴口罩;
美国东西海岸相对于南部和中西部地区对口罩佩戴的态度更加积极,这可能与人口密度有关;
白种人对口罩佩戴存在严重不满的情绪,而东亚和印度人则展现出非常积极的态度......
罗杰波教授指出,这项工作的意义在于,更加明确哪种类型的人对于口罩使用持消极的态度,从而有针对性的实施措施去劝说特定人群佩戴口罩(或者采用其他防护措施)。
值得注意的是,罗杰波教授团队的调查方式不是通过传统的调查问卷,而是美国人的“国民级应用”Twitter。
Twitter中的海量数据,为研究人员的各类研究课题提供了丰沃的土壤。早在2012年,MIT的研究人员就宣布发明了一种算法,可以提前预测Twitter上的热门话题,准确率能达到95%以上。
事实上,Twitter已经被证实是分析和预测各种大型社会事件的一个有价值的数据来源,比如美国的大选。在2009年H1N1和2014年埃博拉病毒流行期间,Twitter也被用来监测公众对这些重要事件的情绪。
在了解这篇论文之前,首先介绍一下本文的作者之一——罗杰波教授。
罗杰波教授是ACM, AAAI, IEEE、SPIE和IAPR等国际著名学会的会士(Fellow),图像处理、计算机视觉、机器学习,数据挖掘等领域著名国际学者。
2018年12月,国际人工智能学会(前身为美国人工智能学会)AAAI 宣布,全球有7位学者当选为 Fellow,Fellow是该学会给予会员的最高荣誉,每年通常选出5-10位新的Fellow,其中有两位华人学者入选,其中一位就是罗杰波教授。
同年12月初,他还入选ACM Fellow。
十几年来,罗杰波教授科研团队一直致力于data science for social good,在社交多媒体研究及其社会应用中做出了开创性的贡献。这篇论文也是该研究方向下的最新成果。
谈回这篇论文。
论文的摘要中写道,不同政府机构的一系列政策转变导致了对待口罩的两极分化。调查这些政策转变的影响的一个典型方法是使用调查问卷。
然而,以调查问卷为基础的方法有多重限制:有偏见的回答、有限的样本量、糟糕的问题,这些问题可能会让研究者有采样偏差以致不能反映社会总体的无偏差的看法,拿不到一份具有高度参考意义的结果。
传统的“人肉调查”的方式已经不适应时代的需求,技术或许能够为研究者带来福音。实际上,问卷调查在近两届美国总统选举中已经被证明其准确性可疑。
罗杰波教授团队巧妙地应用了Twitter这一大众媒介,结合大数据与人工智能,来探索人们在Twitter上对于COVID-19期间口罩使用的看法。
和其他人工智能研究成果一样,团队都要面临一个“数据难关”。
罗杰波教授指出,社交媒体挖掘研究过程中的主要难题在于数据收集处理和方法。
首先,数据收集的难度很大,必须有足够数量级而且足够质量的推特用户及其推文。据雷锋网了解,从2020年1月11日到2020年8月10日,团队总共收集了120万条涉及口罩相关词汇的推文,解决方法包括关键字搜索和算法辅助半自动过滤。
其次,人口统计学中的最重要的信息就是用户属性, 包括用户的年龄、性别、种族、地区、收入等等。
团队利用鲁棒的人工智能算法(包括用户头像分析、自然语言处理、多模态协同推理)对相关属性进行自动分类标签,有效地解决了这些信息无法直接获取的困难。
人口统计推断框架概述
梳理完数据后,团队使用LDA主题模型对有关口罩使用的推文 (tweets) 进行主题归纳,主要发现有四个主题:学校和工作单位的口罩佩戴情况、政府口罩政策、疫情期间的事件和活动,以及公众健康关爱。
这项研究中特别值得注意的一点是使用离线变点搜索算法检测用户基于时间轴对口罩使用的情感转变关键点,并从中引申出不同口罩使用政策的推出实施对于不同党派用户对口罩使用的情感变化的显著影响。
什么是离线变点检测?
相对于在线变点检测方法,离线变点检测在接受所有的数据点后才对数据进行变点检测,这将提供比在线变点检测更为全局化且准确的变点检测去找到所有情感态度的突变点。
作者使用的Pruned Exact Linear Time (PELT)算法可以在线性时间内准确找到所有显著的突变点并且不需要预设突变点数。
在这种方向的帮助下,研究者成功归纳出某些口罩使用政策的推行或特定事件对于口罩使用态度的影响。
例如,4月3日,CDC的政策转变以及特朗普在7月20日关于戴口罩的推文:
“我们团结一致,共同抗击‘隐形中国病毒’。很多人说,在无法与他人保持距离的情况下,戴上口罩是很愚蠢的。”没有人比我更爱国,你们最喜欢的总统!”
在之前的话题分析中,这两个事件被很多推文引用。可以看到,从1月27日到4月03日,共和党和民主党的平均人气都是积极的。
然而,在3月3日之后,共和党人的平均乐观情绪下降到负面情绪,而民主党人的平均乐观情绪上升。在特朗普于7月20日发表关于戴口罩的推文后,共和党人的平均情绪出现了上升。然而,共和党人普遍持负面看法。
相比之下,民主党人的平均情绪有所下降,但在情绪得分上仍保持积极。
共和情绪时间序列变化点发现
民主情绪时间序列变化点发现
当然,论文也指出,这样的分析结果也可能会有些片面,因为在这期间还有其他大大小小的事件发生。但是,鉴于媒体对这两个事件的广泛报道,在这些日期范围内检测到的情绪变化,都很有可能是这两起重大事件的结果。
除了分析用户在Twitter上对于COVID-19期间口罩使用的看法,这项论文的成果还有很多深远的意义。
例如,论文总结出了人们关于口罩使用的大体谈论内容和高频词汇,这将更利于社会对大众的关注点进行判断。
而学术方面,作为最早使用大数据研究COVID-19相关问题的工作之一,该研究将为后续的其他COVID-19相关工作打下基础并提供参考。
在这篇论文的最后,罗杰波教授团队也写道,社交媒体数据挖掘和情绪分析是一个重要工具,可以用来衡量公众对大流行病期间突然政策变化的反应。因此,更多的政府和卫生组织可以利用社会媒体数据挖掘技术来改善政策成果。
用科技的手段来进行“推特治国”,或者才是这篇论文的真实写照。
最后,附上本篇论文链接:https://arxiv.org/pdf/2011.00336.pdf,感兴趣的朋友可以下载查阅。值得一提的是,这项研究是由两位本科生Neil Yeung和Jonathan Lai为主完成的。雷锋网