互联网时代,人们每天都会通过网络获取大量信息。微信、微博、各种新闻客户端......我们不仅在这些 APP 上浏览新闻,有时也会发表自己的见解。
作为最受欢迎的社交应用之一,微博是很多人获取信息的重要渠道,很多用户每天在上面发表大量言论。通常情况下,这些言论分为两类,一类是对客观事件的描述,另一类是主观性描述。主观性文本带有作者的喜好、厌恶等情感倾向。
微博上的大量用户积累丰富的语料数据。近年来,随着自然语言处理技术的发展,利用海量的微博数据进行情感分析已成为一项重要的研究课题。
情感分析技术
情感分析(Sentiment Analysis)的研究始于 2003 年 Nasukawa 和 Yi 两位学者关于商品评论的论文,其目标是从文本中分析出人们对于实体及其属性所表达的情感倾向以及观点,带有强烈的个人主观因素。
作为自然语言处理的子任务,根据处理文本粒度的不同,情感分析可以分为篇章级、句子级、词语级 3 个研究层次:
篇章级:获取整个文档或者段落的情感。篇章级的情感分析有一个前提假设,那就是全篇所表达的观点仅针对一个单独的实体,且只包含一个观点持有者的观点。
句子级:获得单个句子的情绪。句子级分析与篇章级存在同样的前提假设,也就是说一个句子只表达了一个观点和一种情感,并且只有一个观点持有人。
词语级:获得句子中,词语表达的情感。在实际的语言表达中,一个句子中可能包含了多个不同情感倾向的观点,此时就需要进行词语级分析。
情感分析有多种类型和风格,范围从专注于极性(正面,负面,中立)到检测情感和情绪(愤怒,快乐,悲伤等)或识别意图(感兴趣、不感兴趣)。
据估计,世界上 80% 的数据都是非结构化的,没有以预先定义的方式组织。 其中,大部分数据来自文本数据,如电子邮件、社交媒体、调查、文档等。 这些文本通常难以分析、理解和分类。通过情感分析技术,可以自动处理这些数据,提高团队效率。因此,情感分析技术有着重要的研究价值。
情感分析应用广泛。在商品零售领域,通过对海量用户的评价进行情感分析,可以了解用户诉求,及时进行反馈和改进;在舆情领域,分析人们对热点事件的点评,有助于掌握舆论走向;在金融领域,对交易者对于股票等产品的态度进行情感分析,可以为交易行情提供参考。
微博立场检测大赛
立场检测是情感分析技术的热门方向之一。近年来,微博立场检测作为一个有着极大研究价值的新兴课题,引起了广泛的关注。为了帮助同学们提高自己,近日,AI 研习社微博立场检测挑战赛上线啦!
比赛简介
本次微博立场检测挑战赛为单人赛,比赛时间为 3 月 13日—4 月 12 日。
比赛网址:https://god.yanxishe.com/44
参赛者的任务是判断微博作者对某个话题是持何种立场。也就是说,参赛者需要对微博作者的立场进行分类,共有 3 种立场:FAVOR 支持,AGAINST 反对,NONE 两者都不是。
数据集
比赛数据集下载链接:https://static.leiphone.com/wb.zip
结果文件如下所示:
第一个字段位:测试集 ID(注意 ID 从 0 开始)
第二个字段:立场类别(FAVOR、AGAINST、NONE)
结果文件建议使用 UTF-8(BOM)编码。
评分标准&奖金
AI 研习社将会对比选手提交的 csv 文件,确认正确识别样本数。
True:模型分类正确数量
Total :测试集样本总数量
本次比赛共设置 3 种奖项,奖金池 3000 元。奖金将在比赛后提现时发放到微信零钱。
参与奖(Participation Award)
金额:占总奖金的 30%
获奖人数:所有人(每人仅能获得一次参与奖)
获奖条件:提交结果大于标准分,标准分=60
突破奖(Prizes)
金额:占总奖金 20%
获奖人数:所有人
排名奖(Ranking Award)
金额:占总奖金 50%
获奖人数:得分前 5 名
特别提醒:3 种奖项可以同时带回家!越早提交,突破分数越大,奖金越多哦~
获取更多信息,可以添加慕慕微信号:AIMOOC-XM,或者扫下面的二维码:
再次敲黑板:报名网址是 https://god.yanxishe.com/44 。快来报名吧!
雷锋网雷锋网雷锋网