铁打的“小鲜肉”、流水的“明星”;睡前两小时打字最活跃;微信 QQ 多聊天,微博平台多围观;键盘侠词语热度直线上升。你每天打出的文字,都是促成这些互联网行为变化的一份子。
今天在人民大学举行的“新中国舆论学研究三十年”论坛上,中国人民大学新闻与社会发展中心、搜狗输入法大数据团队联合发布了《中国网民的信息生产及情感价值结构演变报告》。
据官方介绍,报告数据主要抽样自搜狗输入法在社交、购物、娱乐、工作平台的用户,以微信、微博和QQ等热门社交平台上的输入数据为核心数据。由于微信开始产生影响是在2012年,所以数据时间段为2012年6月30日至2016年6月30日。数据先由人工进行关键词分类,编码后,再通过机器学习对高频词进行分类。
根据数据分析和词云绘制分析,报告还对 70、80、90、00 后进行了人物画像。
70 后充满了激情的创业主义精神,马云是典型代表。对互联网的依赖度也不高,每天在网时间 4 个小时左右,远低于 90 后的 6.5 个小时。70后更多地将互联网作为一种新闻阅读和社交联络工具。
80后主要关联词有:北京、我们、周杰伦、匆匆、飞行、摄影等,属于电子移民,平均上网时长为 6.2 小时,对于互联网属于中度依赖群体。伴随着读图时代成长的80后,是“视觉系”网络行为的代表。
90后是在网时间最高的电子原住民。平均在网时长6.5个小时,所有的社会行为都是在网络中完成。相比较70后和80后,90后更加洒脱和注重个性化表达,观念较超前,卖的一手好萌。娱乐、吐槽和无节操的表达是其主要网络行为。
00后是正在成长中的电子原住民,群体中的多数还在校园中,日均上网时长只有3.6个小时,偏向于反沉淀的社会关系网和追求自我的网络行为模式。对微信、QQ 等固定的社会关系链依赖较轻,更喜欢“阅后即焚”类型的临时构建的轻互联网应用。
这是搜狗输入法第一次与学术机构合作发布大数据分析报告,相关分析技术也主要由大数据研究院提供。搜狗 CTO 杨洪涛告诉雷锋网,“大数据研究院目前没有盈利方面的考虑,搜狗大数据方面的研究,最终都会为搜狗搜索引擎服务,搜狗输入法的优势也在于此,以语音技术为例,2011年时搜狗才开始研究语音技术,由于技术不成熟,缺少语料库,搜狗只能先用谷歌的接口,但搜索引擎很快就填补了数据空白。”
对于最近火起来的语音输入法,杨洪涛认为,大家的识别准确率上没有太大的差距,但是在未来的使用场景中,搜狗将更专注于互联网领域,会更多的将语音技术运用在搜索引擎中。