检测到您的浏览器版本过低,可能导致某些功能无法正常使用,建议升级您的浏览器,或使用推荐浏览器 Google Chrome EdgeFirefox X

首页科技前沿与新兴产业经社风向经社风向

上海疫情数据关联分析

供稿人:苏惠京供稿时间:2022-11-08 10:38:43关键词:疫情数据,关联分析

一、引言

2022年上半年,新冠肺炎疫情对上海的经济与生活造成了巨大的影响。2022311日,上海本土新增5+78例(5例确诊病例,78例无症状感染者),其中社会面发现病例为1+21312日晚,上海宣布“非必要不离沪”。324日,上海当日感染人数超过1000例。329日,单日感染人数超过5000例。330日,上海宣布“全域静态管理、全员核酸筛查”。上海的静态管理持续到531日,从61日开始进入到全面恢复正常生产生活秩序阶段。在这三个多月的疫情期间,上海新冠肺炎的总确诊人数超过了60万。


1  2022上海疫情发展趋势图

通过上海市卫生健康委员会公开发布的确诊小区、确诊日期以及网络上关于小区的公开信息等,我们可以通过数据挖掘来发现频繁上榜的确诊小区具有哪些特点,以及基于这些特点我们可以针对性地采取一定的措施来减少疫情的传播与持续。

二、采用的数据

本文的分析数据均来自网络的公开信息,疫情发布的小区信息来自于“上海发布”公众号每日发布的上海市卫健委统计的疫情信息。“上海发布”的信息中包含每日的确诊数量以及确诊病例所在的小区名称。

三、分析过程

根据“上海发布”2022318日至2022531日发布的疫情小区信息,共有35943个小区上榜,由于部分小区或者地址的信息匹配缺失,我们选择12944个信息齐全的小区进行后续的分析。

在相关分析的数据中,小区均价(平均售价)、房龄、小区总户数、最近三甲医院距离及上榜天数是定量数量,利用SPSS进行变量之间皮尔逊相关性分析,如图所示。可以看出上榜天数字段与均价、房龄、总户数、最近三甲医院距离字段存在显著的相关性。其中,上榜天数与最近三家医院距离呈现一定的负相关,与均价、房龄、总户数呈现一定的正相关。


图2 定量数据皮尔逊相关分析

3.1 上榜天数无监督离散化

对于小区在我们观测的75天周期内,需要对上榜天数进行5个区间的离散化。本文主要采用两种离散化方式:相同频率与K均值。

图3 两种离散方法

相同频率离散化,即每个区间中频次求和数量比较相近。通过这个离散化方式,可以得到[1,2),[2,4),[4,7),[7,13),[13,57)5个区间。可以看出每个区间的频次总和占比大约在20%左右,78.1%的小区在这75天的观测窗口期上榜天数在12天(含)以内。

K均值离散化,即按照K均值聚类的方式进行区间划分。通过这种方式,可以得到[1,2.85),[2.85,6.75),[6.75,12.9),[12.9,23),[23,57)5个区间。K均值离散化的方式使得上榜天数较多[23,57]的区间占比更小。这种区间的划分方式可能可以帮助发现高频率上榜小区的特点。

3.2 连续性数值的影响因子进行离散化

由于CBA算法支持度的选择需要指定支持度与置信度的阈值,影响因子本身的占比对最终结果的支持度有影响。所以定量影响因子主要按照相同频率的方式对影响因子进行离散化。

均价(单位:元)字段按照等频率的方式离散化结果如下图所示,5个区间分别为[4350,40071),[40071,56489),[56489,67685),[67685,85600),[85600,395001)

最近三甲医院距离(单位:米)按照等频率的方式离散化结果如下图所示,5个区间分别为[0,697),[698,1382),[1382,2619),[2619,5338),[5338,370001)

小区总户数(单位:户)按照等频率的方式离散化结果如下图所示,5个区间分别为[1,153),[153,360),[360,688),[688,1224),[1224,15133)

房龄(单位:年)数据按照等频率的方式离散化结果如下图所示,5个区间分别为[0,14),[14,20),[20,25),[25,30),[30,112)

3.3 CBA分析

按照相同频率离散化的上榜天数字段作为rhs,在全量小区数据中按照支持度大于等于0.01,置信度大于等于0.5可筛选出rhs为高上榜天数[13,57)的分类如下表所示。


lhs

rhs

support

confidence

coverage

lift

count

均价=[85600,395001) + 总户数=[1224,15133)

相同频率=[13,57)

0.01

0.5

0.02

2.29

141

均价=[56489,67685) + 房龄=[25,30) + 总户数=[1224,15133)

相同频率=[13,57)

0.01

0.53

0.02

2.43

138

医院距离=[1382,2619) + 均价=[56489,67685) + 总户数=[1224,15133)

相同频率=[13,57)

0.01

0.52

0.02

2.37

133

医院类型=综合医院 + 均价=[56489,67685) + 总户数=[1224,15133)

相同频率=[13,57)

0.02

0.5

0.03

2.3

199

将以上规则进行区间展示,可以看出上榜天数较多的小区均价在5.6万至6.7万之间,与大型三甲医院距离在1.3千米到2.6千米之间,小区的总户数偏多,为1224户及以上。同时小区房龄在25-30年之间。

图4 等距离分类结果的CBA关联规则展示

按照K均值离散化的上榜天数字段作为rhs,在上榜天数分类中选择[23, 57)分类中按照支持度大于等于0.2,置信度大于等于0.5可筛选出高上榜天数小区的关联规则。将以上规则进行区间展示,可以看出上榜天数较多的小区均价在4万以上,与大型三甲医院距离在5.3公里内,小区的总户数偏多,为688户及以上。同时小区房龄在25年及以上。


图5 K均值分类结果的CBA关联规则展示

可以看出,TOP上榜小区大部分都满足距离医院1.3千米内、总户数1224户及以上,房龄25年及以上的条件之一。松江区联阳路12弄小区不满足以上三个条件,但是通过查阅相关资料发现,该小区是松江经开区辖区内最大的外来人口聚集的居住小区,这里有9000多名住户(2020年数据),外来人员多且流动性较大。

四、结论

通过以上的关联分析,我们可以看出上榜天数较多的小区一般具有小区户数多、小区房龄较大、流动性高、距医院距离近等特征。针对这几个特点,结合上海疫情封控期间的见闻与体验,给出的结论如下。

4.1 户数多

在疫情封控期间,小区成为出户的主要活动范围。一个小区的户数越多,意味着小区内居住人口基数越大,在出户活动时平均每个人接触到其他人的数量就可能越多。同时,封控期间由于核酸检测基本是按照小区的维度进行,在核酸检测排队的过程中户数多的小区也会导致人员更加聚集的现象。

4.2 老旧及人员流动性大

老旧小区由于建设年代较早,基础设施超负荷使用且存在老化现象,环卫基础设施不达标现象普遍。比如可能存在多户居民同时使用公共厨房或者公共卫生间的情况。这就可能导致在疫情期间小区内部交叉感染的可能性增加。同时老旧小区由于社区内部组织机构服务能力较低,物业及社区管理的工作人员人手较少或者缺乏相应的经验,这使得老旧小区在新冠疫情防控过程中应对风险能力较低。根据朱婉莹的调查研究,在外来人口占比高(92.7%)的城中村,平均在沪年限12年,在上海搬家过的比例为70.3%,平均搬家次数为3次,人口具有较高的流动性。同时,外来人员由于收入水平较低(户主月平均收入为5822元),因而更倾向于一家人合住小房间,人均住房面积为5.3m2。从住房的基础设施来看,平均每户外来人口家庭设施拥有数量仅为2.2项(独立厨房,独立卫生间,淋浴设施,液化煤气,管道煤气,空调,互联网的拥有数量平均值),绝大部分住户使用的是公共卫生间。

4.3 距离医院近

根据上海疫情分析数据,筛选出上榜天数TOP13名的小区中,有9个小区距离大型三甲医院的距离在1KM范围内。例如:黄浦区瞿溪路120弄、黄浦区制造局路567弄、黄浦区瞿溪路937弄、黄浦区打浦路339弄、黄浦区瞿溪路1072弄、静安区柳营路319弄、徐汇区东安一村、东安二村、杨浦区双辽路200弄。这几个小区距离大型三甲医院的距离特别近。肖文文在分析武汉截至20203月的小区新冠病例情况时,也发现了类似的规律,即距离医院较近的电力社区与歌笛湖社区这两个小区,确诊人数在整体数据中出现了峰值。根据肖文文的调研推测,电力社区临近华中科技大学同济医学院,是开放式老校区;歌笛湖社区紧邻武汉大学人民医院,也属于开放式的老校区。推测小区可能是受到附近医院患者的影响。张作详指出大型医院旁的小区存在很多“家庭病房”现象,主要是因为医院床位紧张同时价格相对较高,很多病患选择在附近小区租房主要是为了方便照顾病人同时降低费用。有医生指出,在这种通风条件较差、相对闭塞又没有定时消毒的空间里,很可能出现潜在的传染现象。


参考文献:

[1]上海市卫生健康委员会.每日疫情通报2022031820220601 [EB/OL]. [2022-03-182022-06-01].

[2]杨振,王宇,丁启燕.中国肝炎疫情分布变化与社会决定因素研究[J].国外医学(医学地理分册),2017,38(01):10-15.

[3]叶雯婧,章灿明,陈彩粼,.福建省20062015年度法定报告肠道传染病与气候因素关联分析[J].医学理论与实践,2018,31(22):3333-3337.DOI:10.19381/j.issn.1001-7585.2018.22.007

[4]Yan, X., Wang, Z., Wang, X. et al. Association between human coronaviruses’ epidemic and environmental factors on a global scale. Environ Sci Pollut Res 29, 14333–14347 (2022). https://doi.org/10.1007/s11356-021-16500-y

[5]李彦琛,谢媛.新冠疫情防控中城市老旧社区的韧性研究[J].经济研究导刊,2022(01):55-57.

[6]朱婉莹. 城中村改造背景下上海外来人口居住选择研究[D].华东师范大学,2019.

[7]肖文文. 住宅防疫设计策略研究[D].华中科技大学,2021.DOI:10.27157/d.cnki.ghzku.2021.004877.

[8]张作祥.医院附近居民区变"病房" 医生:或存潜在传染[EB/OL]. 银川晚报.2009.12.23.