引言
2020 年春节前夕,新型冠状病毒肺炎(下文简称COVID-19)疫情在武汉爆发。春节期间人们的大范围集中出行,导致了疫情短时间在全国范围内爆发,并且逐渐扩散至全世界。在 2020年3月,COVID-19疫情被世界卫生组织从流行病升级为全球大流行病。截至2021年1月已经有超过90,000,000人被确诊感染 COVID-19 并且造成超 2,000,000人死亡 [1]。面对这个高感染率的新型流行病,国家有关部门快速做出响应,首先对疫情爆发地采取了有史以来最严格的防控措施—“封城”。作为一个新型传染病,在广大人民居家隔离期间,互联网和社交媒体首次被用于实时共享传染病相关信息,分享疫情相关知识,并且让人们可以在隔离期间保持联系。在疫情早期, COVID-19 的治愈率十分有限的情况下,人们更多的依赖线上信息来指导自己的行为以对抗疾病,例如,戴口罩、洗手、保持距离 [2]。由于国家对防疫措施的严格执行,人民对于各种防疫政策的高度配合,COVID-19的传播途径被切断。国内疫情在2020年2月初达到峰值后开始下降,从3月开始当日新增确诊人数一直保持在较低水平,说明国内疫情得到了有效控制。
这场全球公共卫生危机,在给社会治理、生活和经济等诸多方面带来了深刻影响的同时,也推动了大量研究人员对COVID-19疫情及其带来的影响进行研究。研究主要集中于以下两个方面:第一个方面是,在医学层面[3]对新型冠状病毒进行研究,了解其致病机制,并结合临床制定治疗方案和预防措施,为临床治疗和基层防御提供指导;第二个方面是,结合其他学科知识,对疫情本身或其背后的现象进行分析,并对疫情发展进行预测。虽然研究的方向和方法不尽相同,但都旨在帮助人们进一步了解COVID-19,为防治COVID-19提供新思路。
本文基于时空和疾病相关信息对COVID-19进行研究,以确定COVID-19的发展是否与这两种因素相关,对于帮助我们了解影响COVID-19 传播的因素,摸清 COVID-19 的传播过程具有重大意义。尽管,以往关于COVID-19的研究中,不乏对人口流动和与COVID-19相关信息的探索,但之前的研究并没有系统的针对疾病数据与时空数据进行具体的相关性进行分析,也缺乏对信息和疾病两种动力学过程耦合后的效果的研究。因此,具体分析各因素与疾病之间的关系,并且进一步了解 COVID-19 及其相关信息传播过程中的耦合动力学是本文的主要目标之一。除了分析疾病与各因素的相关性,发现疾病与各因素之间的内在联系,本文的另一个目标是,对疾病发展进行预测。这一工作对于传染病防治及制定后续疫情防控策略都具有重要的意义和价值。因此,基于近年来越来越多被提及的学科交叉思想,本文使用计算机科学中的机器学习(Machine Learning)方法,利用历史数据来训练“模型”,并使用新产生的数据来让“模型”进行判断或计算,以预测疾病的发展。在选择特征时,本文以文中进行的相关性分析为依据,设计了不同的特征组合,旨在得到较为准确的预测结果。通过这些预测结果,可以更加直观的了解疫情可能的发展趋势,以在最大程度上保证人民群众的生命安全。以此为参考有计划的组织复工复产,也可以将经济损失也降到最低。
图 1 新浪微博上有关COVID-19的每日平均信息条数
方法
1. COVID-19及其相关因素的相关性分析:
(1)数据可视化
在图2A和图2B中,分别显示了各个省份累计确诊人数以及与COVID-19有关的信息总量在地理上的分布情况,图中颜色越深说明累计确诊人数或信息量越大。首先,可以直观的看出 COVID-19 的确诊患者更多的分布在地理位置上靠近湖北的省份。累计确诊人数最多的十个城市分别为湖北、广东、河南、浙江、湖南、安徽、江西、山东、江苏和重庆。与湖北相邻的六个省份中,有五个的累计确诊人数排在全国前十,分别为安徽、江西、湖南、重庆和河南,说明了在空间上确诊病例的分布呈向湖北集中的趋势。COVID-19相关信息总量最多的十个省份为北京、广东、上海、山东、浙江、江苏、四川、河南、湖北和福建。共有六个省份(湖北、广东、河南、浙江、山东和江苏)不仅是累计感染人数排在全国前十,与 COVID-19 相关的信息总量也排在全国前十。由于COVID-19在湖北爆发,因此湖北的累计确诊人数在全国各省排在第一位,占全国总累计确诊人数的82.8%。然而,通过图2B可以看出,相较于湖北省,北京、上海和广州等发达省份产出的 COVID-19 相关信息的总量才是最大的。这说明,处于发达地区的人,会更多地在线上对 COVID-19 进行讨论。在图2C(D)中,展示了全国的当日确诊人数(信息量)和累计确诊人数(信息量)。总体来看,疾病在1月和2月快速传播,从3月开始确诊人数的增加开始趋于平缓,且大部分的病例来自湖北省(在图2C中由黑色虚线展示)。在2月13号确诊人数达到了峰值,这是由于中国大陆的确诊标准在这一天发生了变化,扩大了确诊病例的范围。然而,COVID-19相关信息量在整个研究期间不断增加,其中北京和广东的信息量占主导地位。虽然 COVID-19 相关信息的峰值要比 COVID-19 的峰值晚很多,大约出现在3月6号,但是 COVID-19 和COVID-19 相关信息之间表现出相似的发展趋势。这一趋势也是符合生活常识的,当一个新的传染病开始在人群中传播,人们在初期并不会很在意这一疾病,这是因为人们缺乏对该疾病的认识。当人们注意到该传染病的强传播性和高致死率,就会开始关注该传染病,并且在线上或线下对该疾病进行讨论,与该疾病相关的信息开始在人群中传播开来。这种疾病与信息爆发之间的时间滞后现象,Zhan等[4]在之前的研究中也有发现过,这篇文章对 H7N9 和登革热的疾病和信息传播进行了研究。
图 2 对各省(A)累计确诊人数;(B) 总信息量进行可视化;(C)湖北每日确诊人数(紫色),除湖北外各省每日确诊人数(浅红色),中国大陆累计确诊人数(黑色虚线)可视化;(D)湖北每日信息量(紫色),除湖北外其他省份每日信息量(浅红色),北京和广东每日信息量(蓝色),中国大陆累计信息量(黑色虚线)可视化
(2)相关性分析
通过上述的数据可视化,我们发现处于发达省份的人更愿意在线上对 COVID-19 进行讨论。因此本节首先对各省信息总量(以下简称为,信息量)和 GDP 两个变量进行了相关性分析,在双 log 变化下,各省信息量与GDP的皮尔逊相关系数为 0.77。在对信息量进行log变化的情况下,各省信息量与人均 GDP 的皮尔逊相关系数为 0.71。通过相关性分析,证实了数据可视化部分发现的规律—越发达的省份越倾向于发出更多关于COVID-19的信息。
图3展示了各省信息量与各省人口和相应省份到湖北的距离之间的皮尔逊相关系数;各省累计确诊人数与各省信息量和相应省份到湖北的距离之间的皮尔逊相关系数。以人口为例,本节中计算了信息量和人口两个变量在双log变换后的皮尔逊相关系数,结果在图3A中给出。信息量和人口规模之间的皮尔逊相关系数为0.57,表明人口规模较大的城市产生的有关COVID-19的信息就更多。相反,对于经过log变化的各省信息量与目标省份到湖北之间距离,这两个变量间呈现出负相关,值为−0.44。即,距离湖北越远的省份与COVID-19相关的信息量越少,与数据可视化部分得到的结论相呼应。联系图3D可以发现省级累计确诊人数也总是与该省到湖北的距离成反比。也就是说,一个省份离湖北越远其被感染人数就越少,这意味着越远离湖北的城市受该疾病的威胁就越少,因此这些省份的信息量也较少。这与我们的常识相符,即只有当疾病传播到临近城市时人们才会关注该疾病,并更多的在网络上对该疾病进行讨论。本节继续对省级确诊人数与信息量之间的相关性进行了研究。在图 3C中展示了省级确诊人数和信息量之间的相关性,二者显示出较高的相关性(0.58)。
图 3 各省信息量与各因素间的皮尔逊相关性分析(A)人口;(B)从湖北到各省的距离。各省累计确诊人数与各因素间的皮尔逊相关性分析(C)各省信息量;(D)从湖北到各省的距离
2. 城市流行病确诊人数预测
根据对确诊人数与各因素之间的相关性分析,我们研究了这些因素在实际对传染病发展情况进行预测时起到的作用。文中使用线性回归和随机森林算法作为预测模型,预测时使用的特征是从疾病、信息、迁移数据以及上文中提到的其他数据中提取的。
(1)基于疾病数据预测
我们首先只考虑使用本城市前,预测第 天的确诊人数。假设城市 第 天的确诊人数为 。我们在实验中选择前 天的确诊人数作为特征,第 天的确诊人数作为标签。本文使用前35天的疾病数据作为训练集,剩余10天的数据作为测试集。用上述的疾病数据作为特征,用线性回归和随机森林两种算法对COVID-19确诊病例数进行预测。使用平均绝对误差(MAE)作为指标,对预测结果进行了评估效果如图4所示。图4A和B分别展示了对2月29日-3月9日的每日确诊人数进行预测时线性回归和随机森林每日预测性能。从图中可以看出,随着 的增大,两种算法的 MAE值会倾向于越来越小。并且两种算法在这 10天的预测效果比较一致,MAE 值在除了 3 月 2 号之外的其他天都相对较小。在图4C 中,我们给出了两种算法 10 天的平均预测效果。除了 之外,随机森林的预测效果均优于线性回归,并且 时,两种算法的值均比较低。
图 4 基于目标城市的历史疾病数据的预测结果。(A) 线性回归的每日预测性能 (MAE);(B)随机森林的每日预测性能 (MAE);(C) 10天平均预测性能值随 的变化
(2)基于目标城市及其邻近城市历史疾病数据预测
从上一节的相关性分析可以看出,目标城市确诊人数与离目标城市较近的城市的确诊人数之间表现出了较强的相关性。所以本实验添加了目标城市邻近城市的历史疾病数据作为特征。在实验中,使用 表示作为特征的距离目标城市最近的城市的数量, 越大表示从目标城市到该城市的距离越大,例如 ,表示从目标城市到该城市的距离最近。在实验中,我们选取 ,即在目标城市的历史疾病数据的基础上加入了1到5个与目标城市邻近城市的历史疾病数据作为特征。实验结果表明(图5),加入目标城市邻近城市历史疾病数据作为特征,预测效果提升了10%以上。
图 5 基于目标城市及临近城市的历史疾病数据的预测结果。(A) 时,随机森林在使用不同 时的10天性能对比;(B)随机森林在不同 时的10天平均性能对比;(C) 时,随机森林在不同 时的性能对比;(D) 随机森林在不同 时的平均MAE对比
(3)基于疾病和信息数据预测
通过前述的相关性分析,可以发现各省确诊人数与该省信息量高度相关,因此,本节进一步考虑将信息相关数据作为特征,加入对机器学习模型的训练中,并探讨其与 COVID-19 确诊人数预测的关系。对于每个城市,除每日确诊人数外,我们还考虑使用每日信息量作为附加特征,对机器学习模型进行训练。在图6A中,我们给出了显示了随机森林对10天的确诊人数进行预测的结果的。随着时滞系数 的增大,减小,最小值在 处取得。这意味着使用10天前的信息数据作为特征,对提升预测结果效果的帮助最大。为了进一步研究疾病相关信息作为特征加入机器学习模型是怎样帮助预测疾病的,本文选取五组不同特征对机器学习模型进行训练,分别对疾病进行预测,在图6B中展示了不同特征组的预测性能,不同组的含义在图中已给出。通过观察5组特征的预测结果可以发现,添加本城市信息数据、临近城市的疾病和信息数据作为特征,可以优化预测性能。并且,考虑信息的时滞,即,在预测时使用相较于疾病数据滞后10天的信息数据作为特征,可以进一步对模型的预测结果进行优化。
图 6 (A) 时,使用疾病和信息数据作为疾病预测的特征,基于随机森林预测的结果, 表示信息的延迟;(B)基于不同特征组进行预测的结果:绿色曲线表示以目标城市的疾病数据为特征;紫色曲线表示以目标城市的疾病和信息数据为特征;黄色曲线表示以目标城市的疾病和信息数据( )为特征:粉色曲线表示以目标城市和最接近的前5 个城市疾病和信息数据为特征;棕色曲线表示以目标城市和最邻近的5个城市的疾病和信息数据( )为特征
结论
本文分别重点研究了,COVID-19及其信息在中国大陆传播过程的耦合效果和时空特征对 COVID-19在中国传播的影响。本文发现,COVID-19与其相关信息的传播之间存在时滞,即疫情高峰期在2020年2月初,而信息高峰期在 2020年3月初左右,并且在空间上呈现出向湖北聚集、向经济发达地区聚集的趋势。此外,本文还研究了各省信息和疾病数据间的相关性,通过这部分研究发现,受感染人数越多的省份往往在线上被提及的次数越多。也就是说,当疾病出现在邻近省份,甚至本省份时,人们才会更加关注该疾病。本文从时空分析入手,在分别对各因素和疾病数据进行了可视化的基础上,进一步进行了时空分析。在对疾病发展与各因素之间的关系有了深入了解后,本文引入机器学习方法,探索各因素在对疾病发展进行预测时起到的作用,发现本文探索的因素均可在不同程度上提升机器学习预测的精度。
论文下载网址:
https://doi.org/10.1109/TNSE.2022.3217419.
转自:“再建巴别塔”微信公众号
如有侵权,请联系本站删除!