雷锋网2月9日讯,一个于6天前创立的github开源项目“nCovMemory”,已经上升到github中文趋势榜的首位,项目累计已有200次提交,并收获了4千以上的标星。
nCovMemory项目(https://github.com/2019ncovmemory/nCovMemory)的中文名称是“2020新冠肺炎记忆:报道、非虚构与个人叙述”,旨在为研究人士提供方便自然语言处理的相关资料库。一个完整的条目从可信的信源收录内容,包括日期,原始URL,archive,截图 四个要素,并且不收录评论、分析、科普等类别的作品。
无独有偶,连线(wired)网站也于昨日发表一篇文章,阐述AI如何利用机器学习程序分析网站、新闻报道和社交媒体来跟踪冠状肺炎,自然语言处理可以用于解析社交媒体上发布的文本,例如,区分讨论新闻的人和抱怨其感受的人。哈佛大学医学院首席创新官约翰·布朗斯坦(John Brownstein)称,“我们试图了解整个人口中正在发生的事情。” 约翰·霍普金斯大学的研究人员则根据官方数字和已确认的病例,对病毒在全球的进展进行了可视化处理。
英国南安普敦大学教授安迪·塔特姆(Andy Tatem)及其同事最近使用了搜索公司百度提供的智能手机的匿名历史数据,来模拟人群在病毒出现后的几天内如何从武汉迁出。实际上,随着北上广深的确诊人群所被发现的小区的信息公开,更多精准的社区数据已开放出来。还有一些数据是个人信息,比如中国移动近日也推出了漫游地查询公益服务,通过发送cxmyd到10086,即可自查本人15天之内达到的地区。
在github上搜ncov关键词,目前已有多达779个版本条目产生,开发者正在贡献他们的热情和才能,当然还有充足的时间。