控制新冠肺炎疫情的传播是一场持久战。目前,多家大数据公司和科研部门正在加紧运用大数据支撑疫情防控服务,“大数据+流行病学”的广泛应用,也许会给这次的疫情防控以及未来的公共卫生防疫体系建设,提供一条重要的道路。
新冠肺炎疫情的发展牵动着每个个体、每个家庭的心,也影响着各行各业的生存与命运。随着疫情每日确诊数据和疑似数据、死亡病例和治愈病例的波动,我们的心情也随之起伏,因为这每个数字背后,都是高密度的生命悲欢与哀乐。
而除了这些肉眼可见的数据之外,又有哪些居于暗处的、微观细小的、甚至毫不起眼的数据是我们所应该关注的?哪些数据又将会在这场疫情防控中帮助我们突出重围?并为我们以后的公共生活与个人生活提供反思?
与2003年SARS时期相比,彼时尚未广泛应用的大数据正在这次疫情中发挥重要作用。在互联网成为主要信息平台的当下,搜索引擎、社交网络、社交媒体、APP客户端等海量信息的流动,得以帮助人们实时获取疫情动态,知晓和关切疫区人民的安危;而在数据、科学与技术的合力下,科学家们也可以通过对互联网数据和手机数据等信息的搜集和分析,有针对性地预测疫情趋势,防控疫情。目前,多家大数据公司和科研部门正在加紧运用大数据支撑疫情防控服务,“大数据+流行病学”的广泛应用,也许会给这次的疫情防控以及未来的公共卫生防疫体系建设,提供一条重要的道路。
当然,在任何情况下,大数据都是一种资源,也是一种工具。它告知信息但不解释信息,它指导人们去理解,但有时也会引起误解,这取决于它是否被正确使用。
关于此次大数据在新冠肺炎疫情防控上的应用,新京报采访了电子科技大学教授、成都大数据产业技术研究院院长周涛。他认为,控制新冠病毒的传播是一场持久战,而非一场歼灭战,社会经济生活不能因为这场疫战而中断,而复工复学又会带来人口跨省区的流动和大量人员聚集,为病毒的传播创造条件,非常可能引致新一轮的传染高峰。因此周涛目前正在全力进行疫情数据分析,密切关注疫情动态。
周涛,电子科技大学教授,大数据研究中心主任,主要从事统计物理与复杂性方面的研究。著有《为数据而生》、《重塑:信息经济的结构》(合著),译有《大数据时代》、《巴拉巴西成功定律》等数据科学行业书籍。
轻中度患者数量,昭示了新冠肺炎疫情的致病严重程度
新京报:在这次新冠肺炎疫情中,大数据在不少领域发挥了重要作用,比如人群流动分析、疫情评估和预测等。你主要关注的是哪些方面?根据你的了解,目前大数据在防疫应用中有哪些值得借鉴的案例?
周涛:根据当前疫情的发展状况,我目前主要关心两个方面的问题。一是估算新型冠状病毒传播初期的关键参数,从而为挖掘病毒的传播规律和趋势奠定基础;二是在2月10日之后,我们即将面对学生、农民工、上班族等人口流动需求的压力,届时我们将通过对包括人口迁移数据、社交媒体数据、传播初期的微观病例数据和病人移动轨迹数据来定量分析人口迁移对疫情传播的影响。
大数据在防疫应用中有很多经典案例值得借鉴,例如众所周知的2009年甲型H1N1流感,谷歌根据检索的词条大数据,构建起词条使用频率与流感在时间和空间上的传播关系,从而成功的对冬季流感的传播做出了准确预测。
新京报:目前,我们对疫情的关注重点大多在确诊病例、疑似病例、重症率、病死率和治愈率等指标上,但你和几位学者指出,除了这些,还应当关注医院收治的轻度、中度患者数量的绝对值和相对值,这些数据对于疫情防控和预测有什么关键意义?在这次疫情中,有哪些容易被忽视的重要数据?
周涛:在传染病的防控过程中,阻断传播尤其重要,而轻度和普通程度患者的数量暗示了新冠肺炎的致病严重程度,致病严重程度则会影响感染者就医的时间和比例。即如果感染者并未被引起严重疾病,未出现症状或只出现轻微症,他们很可能不会重视并就医,通过日常活动就会将病毒传播给更多的人。在医疗资源和其他公共资源有限的情况下,特别是随着正常社会经济生活的展开,我们很难对其进行有效的隔离,对传播控制造成极大的困难。
此外,疑似病例转化为确诊病例的比例也很重要,现在也是流感高发期,我们需要判断出大概有多少出现症状的人是病毒感染者,这可以让我们能提前做好医疗资源分配,不至于出现院内传播和未被有效隔离的现象。目前有些地方检测、隔离和治疗资源都比较有限,我们目前还正在计划通过对发热门诊病人的数据进行深度分析,计算不同年龄、性别、活动区域、接触记录和症状表现的人被确诊和发展为重症的概率,从而为有限资源的优化配置提供借鉴。
新浪每日实时更新的新冠肺炎疫情地图
新京报:在疫情发展的不同阶段,大数据分析应该都会面临不同的任务和困难。在当前阶段,你觉得大数据工作者最应该在哪些方面发力?
周涛:大数据分析目前主要是在阻断传播的措施建议和政策效果评估上起到主要作用:
(1)通过大数据分析病毒的基本再生数和有效再生数等,我们可以量化病毒的传播能力,对于应采取的措施手段有细化的建议,能有效及时地阻断传播;
(2) 通过信息化手段对防疫相关的医疗资源和其他公共资源进行一体化的管理和调度,在政策落实的高效化上发挥一定的作用;
(3)对当前病例情况的分析,可以使我们明确前期的政策是否起到了效果,起到了多大效果,并在不完善的方面进行建议和修正;
(4)可以利用大数据挖掘防控策略应该针对的精准地点、精准人群和精准行为,就是说什么人在什么地方做什么事儿是最容易被感染的。
新京报:根据你的了解,2003年非典时期是否已经出现大数据应用的经验和范例?这次的疫情与非典时期相比,在数据分析水平和环境上有哪些进步?还有哪些待完善的地方?
周涛:在SARS期间,美国已有自己的全国公共卫生系统,包括国家应急行动中心、电子网络疾病监测报告系统、大都市症状监测系统以及临床公共卫生沟通系统。这些系统充分利用大数据分析的优势,对不同的疾病相关信息做分类监测,各司其职,高效地完成了医护人员和医疗资源的调度分配,能在早期就发现疾病暴发的先兆,并及时阻断传播。我们相对而言还比较弱,但是在社会协调和社会动员方面远强于其他国家,所以很快通过有力措施控制了疾病传播。
而目前来说,不论是硬件还是软件上,大数据分析都取得了十分大的进步,包括信息存储能力、传播能力,都不可同日而语,而在大数据分析手段上,如机器学习等学科的发展都为大数据分析提供了更丰富的方法和手段。因此,我们应该充分利用这些进步与优势,完善现代公共卫生防疫机制,以大数据为核心做好疾病信息共享和应急救援的快速反应等。在现代化突发公共卫生事件应对体系的基础上,才能有效利用大数据防控传染病。
当然,即便现在,和西方发达国家,尤其是美国相比,我们还有明显的差距。首先是美国信息共享做得更好,这点在新冠肺炎流行的过程中我们就有了长足进步,很快就可以不弱于美国了。但是美国以东北大学为代表的学者们,开发了一套流行病仿真和预测系统,可以把国家划分成25公里乘以25公里的网格,知道这个网格中的人口密度,人口结构,家庭和企业规模分布,每日通勤人流情况。
另外,他们系统中还有所有这个网格之间的人流情况。这些数据来自很多部门和企业,有些还用到了卫星遥感来较准。这使得美国做传染病流行预测非常准确,现在WHO做判断基本就用这样的系统。我很希望5-10年后,能在中国看到这样一套系统,这才是真正从根本上提高我们国家现在化防疫能力的举措。电子科技大学和四川大学目前正在打算携手做这个大计划。
《为数据而生》,周涛著,湛庐文化丨北京联合出版公司2016年4月版。在这本著作中,作者列举了许多真实案例,比如大数据在个性化医疗等领域的创新实践等,为大数据应用提供了许多具有可行性的路径指南。
新冠肺炎疫情的传播不仅是一个公共卫生事件,也是一个重大公共事件
新京报:为了避免疫情悲剧往复重演,你提出,应当大幅提升疫情信息公开和数据共享的程度。在你看来,这个紧急公共卫生事件的数据共享机制的建立,需要哪些支持?历史上很多国家都进行过“数据公开运动”,有没有我们可资借鉴的例子?
周涛:建立数据共享机制的基础支撑,核心在于汇聚高价值数据。借助流行病病理学和传播学特征,系统梳理和评估紧急公共卫生事件中的共享数据指标的同时,建立数据回溯技术,对各数据指标的提供方的数据被查询、下载的次数和产生的实际价值进行定量评估,形成高价值数据的汇聚。
其次,建立统一的数据上报系统标准,以及可靠、精确和具有独立核查能力的上报流程,能够对上报数据进行核验和追踪,并保障社会公开的及时性。
最后,是各省市需定期针对紧急突发的公共卫生事件进行必要的应急演练,在演习的过程中除了关注各部门应对能力,还需实时评估该数据共享机制提供的数据价值及发挥的作用潜力。
此外,从立法律面来说,国家可以通过立法和信息化的手段保证信息的强制上报,而且超过某种危险程度就要强制披露,不能把专业人士和老百姓都蒙在鼓里。
新京报:你此前翻译过《大数据时代》一书,此书开篇便是大数据在变革公共卫生方面的应用,比如2009年甲型H1N1流感。你刚刚也提到了这个案例,2009年甲型H1N1流感暴发的时候,与习惯性滞后的官方数据相比,谷歌成为了一个更有效、更及时的指示标,他们的预测与官方数据的相关性高达97%,和疾控中心一样,他们也能判断出流感的传播源头,而且判断非常及时,公共卫生机构的官员也从中获得了非常有价值的数据信息。这对我们有哪些启示?
周涛:近些年来,大数据理念已经被广泛推广。然而,谷歌之所以能更有效且更及时的做出预测,除了理念外,谷歌所具备的数据资源、数据处理能力、数据统计能力是其能做出准确预测的前提。因此仅获得数据并不能保证我们能得出有价值的信息,要知道谷歌在2009年预测甲型H1N1时,总共处理了近4.5亿个模型,其数据分析处理能力可见一斑。
希望疫情结束后,我国应该进一步提升在数据处理方面的布局,针对突发公共卫生事件,须建立一个基于数据驱动的个体流行病仿真实验平台,通过对流行病传播模型的相关仿真和实验能有效检测流行病的预测准确性,同时也可验证政府控制策略的有效性。从而在将来降低传染病及流行病等对国民健康和经济发展的危害。
此外还需要强调一点,不同于09年谷歌基于搜索词条数据的预测,目前新型冠状病毒的传播不仅仅是一个公共卫生事件,也是一个重大公共事件,真相、谣言、呐喊和恐慌交织其中,搜索记录受到的影响太大。因此还是要针对这次的具体情况,具体分析。
《大数据时代》,[美]维克托·迈尔·舍恩伯格、肯尼斯·库克耶著,周涛译,湛庐文化丨浙江人民出版社2012年12月版。在这本著作中,作者认为建立在相关关系基础上的预测是大数据的核心。通过找到一个关联物,相关关系可以帮助我们更好地捕捉现在和预测未来。
新京报:不过很多时候,大数据并不能解释原因,只能揭示相互关系,这些关系性数据分析有时甚至会和传统医学的经验和看法相悖。《大数据时代》的作者认为,建立在相关关系基础上的预测是大数据的核心。他提出,相关关系不仅能为我们提供新的视角,而且提供的视角都很清晰,而我们一旦把因果关系考虑进来,这些视角就有可能被蒙蔽掉。但这一观点也受到很多批评。对此,你怎么看?尤其是在应对新冠肺炎疫情的当下,我们该如何对待大数据提供的信息?这次疫情或以往疫情中有没有相关的案例?
周涛:关于相关性和因果性的问题,我在《大数据时代》的序里也发表过自己的看法。维克托本人也并非要完全放弃因果性,他本人也提出,挖掘因果逻辑是解决“数据独裁”的必经之路。对相关关系的重视多是从效率层面和当前主流的数据分析手段(譬如机器学习)来考量问题。我本人并不认同《大数据时代》中“相关关系比因果关系更重要的观点”。从大处讲,放弃对因果关系的理解,也就是放弃了人类智能的优势。
具体从这次疫情来看,新型冠状病毒的宿主和中间宿主,乃至相关药物疫苗的研究都需要反复论证其因果性才能得出准确的结论。而且在流行病防控这个领域,仅掌握关联关系是不充分的,目前真正精确的预测模型,主要都是机制模型。纯粹的关联模型,无助于我们对关键因子的发现,以及评估和设计防控政策。相关关系的确会更加有利于各类需求的预测并提供些全新的角度来理解问题,但如果仅是依赖相关关系的话,在当前漫天谣言的信息环境下,反而会加剧挖掘真相的困难性。
至于如何对待大数据提供的信息,我认为将其与流行病模型结合才是对大数据的最好应用。事实上,许多经典的流行病模型在传染病的预测效果已经被反复论证,例如流行病动力学模型结合全球航空网络的人口流动数据就准确预测了2003年的SARS和2009年的H1N1到达世界各个城市的时间。
但目前最为棘手的问题是,通常传染病传播初期,可利用的微观传播数据不仅稀少且缺陷较多,因此利用大数据弥补其不足,做出更及时、更精确的预测才是我们当前应该思考的重点。
大数据是完善防疫机制中不可缺少的一环
新京报:大数据应用的前提是隐私和安全。但此前有新闻报道,一名从武汉坐高铁回家的医学生发现自己和几百人的隐私信息,包括乘坐车次、姓名、电话、住址、身份证号等等,都遭到了泄露,给当事人带来了巨大困扰。在你看来,在当前的疫情环境下,该如何合理利用大数据,在防疫的同时保护人们的隐私与安全?
周涛:在此次疫情的防控中,人员流动的追踪是最大的难点。在一级防控的需要下,公民隐私诉求要让位于国家战略。政府部门必须要针对来自疫情发源地人员进行必要的信息登记和追踪。与此同时,我们又要做好相关数据的信息安全管理,特别对于基层治理的负责人,要强调信息安全的重要性,因为很多个人隐私都是他们不小心泄露出去的——如果对他们进行了简单的培训,就可以避免这样的问题。
新京报:大数据防疫有好的方面,但也有其局限性,有时候会被错误解读和利用,造成一些误导性的“谎言”,如果在隐私和预测方面对大数据管理不当,或者出现数据分析错误,导致的不良后果会很严重。你如何看待大数据可能产生的负面影响?对于大数据的应用,你有哪些反思?
周涛:流行病的传播模型是相关学者常用的一种计算和预测方法。然而,针对任何一场实际发生的疫情传播,由于实时流行病学的信息极为有限,输入数据过少,考虑的影响因素简化,同时,还存在一定的数据真实性问题,其计算和预测结果都有一定的局限性,只能提供大体趋势。但这对于疫情的防控措施开展,其相应的计算思路和结论,还是能起到一定的参考作用。通过不断引入更多参数,提高数据输入量,也可以较大程度地提升相关模型预测的准确性。
新京报:关于现代公共卫生防疫机制的完善,大数据可以在哪些方面发挥贡献?未来是否需要由国家来主导建立基于日常卫生防疫防病的大数据系统?
周涛:现代公共卫生防疫的优势在于信息传播的高效和数据分析的技术手段的提高,而大数据则是完善防疫机制不可缺少的一环。
一方面,可以利用大数据对全国甚至全世界的疾病情况做监测,这样可以在传染病暴发初期就能及时识别并做出反应,做好阻断措施和安排好医疗资源等,避免因早期的误判、认识不到位等加重疫情。这其实就表明了建立基于日常卫生防疫防病的大数据系统的必要性,我们需要更系统化和更全面的数据来对各种疫情进行分析和防控,这也决定了必须由国家主导,才能组织好各地的数据,在保障隐私和数据安全的同时对数据进行有效利用。
另一方面,就像刚刚提到的,在保障病人隐私的基础上,可以建立紧急公共卫生事件的数据共享机制,常态化各地疾控中心的数据共享,方便有紧急突发事件后,各地能够快速组织专家进行研究分析研判。
新京报:关于新冠肺炎疫情,你还有什么具体的感受、预测或者建议?
周涛:我们初步计算的新型冠状病毒的基本再生数在2.2-3.1之间,因此可以基本判断病毒的传染性属于中等偏强,总体上可防可控。但由于前期缺乏对新型病毒的了解以及各类原因,我们错过了第一时间有效抑制传染病传播的最佳时间,而且新型冠状病毒在潜伏期也有较弱的传染性,而且轻微症比例高,较之03年SARS更难控制。这一次我们更早实行外部干预,加之各界群众都积极的参与到疫情的防控中去,只要控制住传播,我们完全有能力将病毒的基本再生数降低到1以下,赢取抗疫的最终胜利,所以我认为大家完全没有必要恐慌。当然,大家也不能过度乐观,认为可以短平快打一场歼灭战。我们可能需要打一场持久战,但是只要新增感染者总数走低,随着有效的疫苗和治疗手段的出现,情况肯定越来越好。给大家的建议还是尽量减少和人的接触。总体来讲,我希望这一场战役之后,中国能够建立起以现代信息技术为基础的现代化的防疫体系,再把中国的防疫力量提高一个层次。
新京报:最后一个问题:当下正值复工潮的到来,届时数据分析之后,您觉得能够在哪些方面给公共防疫政策一定的建设性意见?
周涛:我们正在联合华西医院、市大数据公司、四川大学、电子科技大学等团队,讨论建立一个成都市的居民防疫信息管理服务平台。期望通过全市居民防疫信息的快速采集、实时分析、精准上报、服务推送等融合性应用,帮助市民、医院、政府等各方面快速掌控疫情分布情况,提高防控部署的决策效率。
具体来说,我们将个人填报的数据与政府数据、第三方平台数据打通,实现“一人一档”的个人防疫信息,通过多源数据的汇集和计算,一方面可能为居民提供诸如感染概率指数预测、实时的防护建议、高风险感染人群的智能筛查等个体防疫服务,另一方面,可对政府的区域防疫工作提高精准度和效率,继而为如医疗资源调配、防控措施实施等政府管理行为提供决策支撑。
另外,我们也正在研究以一种便宜和简单的方式,在交通枢纽、学校、写字楼、产业园区以及其他人员聚集地,通过热成像的方式,对进出人员进行无感知且快速精准的体温测量,对工作人员每3-4小时用便携式热成像设备进行无感知的体温测量。我希望最终体温测量能够变得很便宜很简单,和门禁、安防等设备直接集成起来,这样我们以后控制疫情手段就先进了,因为发热是很多传染病的重要症状。有了这个,我们控制重型流感就有了更有力的武器,大家不要小看重型流感,带来的损失很惊人。
本文转载至新京报杨司奇