雷锋网 AI 源创评论按:目前,新型冠状病毒(COVID-19)仍在全球范围内蔓延。在这样的情况下,除开奋战在前线的医护人员们,小到个人、大到国家,都在努力做好防疫工作。
而计算机科学家、机器学习研究者群体,也在以他们的方式来应对该病症,包括:编译数据集,并构建从中学习的算法等。尽管目前大部分人无法参与到研发过程中,但我们可以见证他们的成果并为之喝彩。
因此,雷锋网 AI 源创评论整理了部分数据集与算法论文如下,并向所有为疫情做出贡献的人致以敬意。
图片来源: Sompong Rattanakunchon/Getty Images
COVID-19 病例数据集
目前,Google 的数据科学竞赛平台 Kaggle 上已公开了一个 COVID-19 病例数据集,并且每天都会更新。
其中包含的数据,包括患者的年龄、位置、何时开始出现症状、何时暴露、何时进入医院等等,均基于实际情况录入,具有可靠性。据统计,已有近 300 人在自己的分析中使用了该数据。
数据集地址:
https://www.kaggle.com/sudalairajkumar/novel-corona-virus-2019-dataset
covid-chestxray 数据集
蒙特利尔大学的一位研究人员收集并发布了包含数十个 CT 扫描和胸部 X 射线图像的数据库。这些图像取自公开的 COVID-19 疾病研究数据。
数据集地址:
全球感染分布图
约翰·霍普金斯大学建立了一个令人印象深刻的「仪表盘」,详细展示了全球 COVID-19 病例数据。这些数据会定期更新,从而使大家能对疾病的传播及其死亡率有了全球视野。
目前,该项目已在 GitHub 上开源代码,可以自行复制和修改。
开源地址:
大型新冠肺炎开放数据集
艾伦人工智能(AI)研究所、陈扎克伯格基金会(CZI)、乔治敦大学安全与新兴技术中心(CSET)、微软、美国国立卫生研究院国家医学图书馆(NLM),以及 OSTP 今日联合发布了「新冠肺炎开放研究数据集」。
据介绍,该数据集包含与新冠肺炎、新型冠状病毒及冠状病毒组有关的 29000 多篇学术文献,其中超过 13000 篇是完整文献。
这一数据集是迄今可用于数据和文本挖掘研究的最广泛的机器可读冠状病毒文献合集,将主要用于医学和机器学习等相关领域研究,帮助人们更快更好地应对新冠肺炎疫情。
全球疫情信息实时查询网站:
地区资源网站数据集
还有一些数据集则直接来自治疗患者的医院,以及部分地区的数据资源网站,例如:
北京市政务数据资源网开放但由市卫生健康委员会提供的数据集「新型冠状病毒感染的肺炎病例信息」。(https://data.beijing.gov.cn/)
山东公共数据开放网在平台首页的「疫情防控」栏目下开放了由省卫生健康委员会提供的 5 个数据集。(http://data.sd.gov.cn/ )
针对 COVID-19 病例研究,截至目前也出现了一些算法,以下是其中部分论文:
基于肺部 CT 的 COVID-19 诊断准确性评估
该论文是近日科亚医疗的原创性研究成果,也是在世界顶级期刊《Radiology》首个发表的基于人工智能的新冠诊断准确性评估论文。
该方法采用了前沿的深度学习技术,开发了针对新冠肺炎 COVID-19 的 3D 检测神经网络 --- COVNet,使其从肺部 CT 中提取各类影像特征用于鉴别新冠肺炎。
最终,在独立测试集中验证表明,COVNet 对新冠肺炎的鉴别灵敏度和特异性分别高达 89.76%和 95.77%,ROC(受试者工作特征)曲线下面积 AUC 为 0.96。同时验证了模型对社区获得性肺炎的鉴别准确性(灵敏度 86.85%,特异性 92.28%,AUC 为 0.95)。
深度学习对 CT 图像中 COVID-19 的肺部感染定量研究
上海研究人员设计了一种系统,该系统可以与人工检查结果配合,从而将 CT 图像的分析时间从数小时减少到大约 4 分钟。
具体而言,研究人员开发了基于深度学习(DL)的分割系统,训练 VB-Net 神经网络对 CT 扫描图像中的 COVID-19 感染区域进行分割。
通过在 300 例 COVID-19 患者的胸部 CT 扫描中,比较自动分段的感染区域与手动划定的感染区域,从而评估系统的性能。
而为了加快数据标注的速度,该方法采用了人机回圈 (Human-in-the-loop) 优化的方法对每个病例进行注解,从而大大减少总分割时间。
最终,该系统在自动分割和手动分割之间的戴斯相似系数为 91.6%±10.0%,感染百分比(POI)的平均预测误差为 0.3%。
论文地址:
异常的呼吸模式分类器助力大规模筛查 COVID-19
在这里,研究人员通过分析人的呼吸速度,寻找一种筛查 COVID-19 的听觉方法。这项研究不是结论性的,但它是一种以较少侵入性方式测试病毒的新思路。
根据最新临床研究,COVID-19 的呼吸模式与流感和普通感冒的呼吸模式不同;感染 COVID-19 的人有呼吸暂停现象,并且呼吸更快。
对呼吸模式进行分类的 BI-AT-GRU 模型
因此,论文提出根据呼吸特征对新型冠状病毒的患者进行筛查。具体而言,研究人员使用了深度相机和深度学习来完成这项筛查任务。
但基于实际情况中的数据量不足以进行深度模型训练,论文中首先提出了一种新的呼吸模拟模型,来弥补训练数据不足的问题。
随后该论文首次利用双向注意力机制的 GRU 模型来对 6 种临床上重要的呼吸模式进行分类,这一方法可以拓展到大型的应用场景中,对现有的筛查方法形成补充。
论文地址:
使用深度学习 CT 图像分析进行自动检测和患者监测的初步结果
由于非对称胸部 CT 已被证明是检测、量化和追踪该疾病的有效工具,因此可以开发深度学习算法,来帮助分析大量的胸部 CT 图像。
因此,研究人员开发了该基于 AI 的自动 CT 图像分析工具,并证明它们可以将冠状病毒患者与未患该疾病的人区分开。
论文提出的系统具有输入胸部 CT 图像并标记怀疑具有 COVID-19 病例的功能。此外,对于分类为阳性的病例,系统会输出肺部异常定位图和测量值。
最终,胸部 CT 冠状病毒与非冠状病毒的分类结果为 0.996 AUC(95%CI:0.989-1.00),这是在中国控制和感染患者的数据集上的结果。实际使用的结果:灵敏度为 98.2%,特异性为 92.2%。
目前,该研究正在扩展到更大的人群,证明基于 AI 的图像分析可以在检测冠状病毒以及量化和跟踪疾病方面取得高精度的结果。
论文地址:
三种临床特征预测重度 COVID-19 患者但危急程度
在当前阶段,对疾病的严重程度进行快速、准确和早期的临床评估至关重要。在尚无确定的生物标志物作为标准的情况下,这个方法,能够对新冠高危患者进行快速检测、早期干预并有可能降低他们的死亡率。
在此研究中,研究人员运用最先进的机器学习框架,选择了 3 种生物标志物来预测个体患者的生存率:LDH(乳酸脱氢酶)、淋巴细胞和 hs-CRP(超敏 C-反应蛋白)。
研究人员开发了基于 XGBoost 机器学习的预后模型,并采用来自中国武汉的近 3,000 例患者的电子健康记录。最终,该模型使用患者最新血样样本能够以 90%以上的准确度预测 COVID-19 重症患者是否存活;使用其他血液样本则能达到 90%的预测准确度。
这也表明三种生物标记物可以准确预测疾病的严重程度,因此可大大减轻临床参数监测的压力和其他相关的医疗负担。
论文地址:
XGBoost 机器学习算法流程图
原文参考:https://onezero.medium.com/computer-scientists-are-building-algorithms-to-tackle-covid-19-f4ec40acdba0
雷锋网 AI 源创评论