首页
快讯
订阅
资讯
- 健康
- 科技
- 热点
- 视频
- 产业
- 政策
- 护理
- 投资
- 医改
- 养老
- 海外
- 人物
- 保险
- 疾病
- 管理
- English
- 临床
- 心血管
- 肿瘤
- 内分泌
专题
活动

首页
快讯
订阅
资讯
- 健康
- 科技
- 热点
- 视频
- 产业
- 政策
- 护理
- 投资
- 医改
- 养老
- 海外
- 人物
- 保险
- 疾病
- 管理
- English
- 临床
- 心血管
专题
活动
智库
学院
- 北斗学院
评选
会议
排行
全球医疗
健康界APP

搜索

知识疫图 | 地区风险预测与基于搜索日志疫情预测技术实践

2020

05/21

学术头条

A-

A+

引入 ERQ 数据作为传染病预测模型特征时，需要考虑病情趋势相对 ERQ 趋势的滞后效应，对 ERQ 特征进行聚类后叠加为多个特征比直接叠加效果更好。

在 AI TIME 知识疫图专题的开篇，张鹏博士为大家介绍了清华大学AMiner团队联合多个研究团队和机构研发上线的“知识疫图”系统，一个集冠状病毒各种数据整合、大数据智能预测、知识图谱构建于一体的新冠综合服务平台。以成为全球新冠疫情智能驾驶舱为使命，知识疫图旨在打造一个基于知识的全球新冠疫情风险评估和复工辅助决策系统。在张鹏老师的报告中，我们了解了知识疫图的目标，领略了知识疫图的丰富内容，也为其强大的功能和智能化的服务所折服。

一颗种子的发芽，离不开阳光的照耀、雨露的浇灌。而一个系统的诞生，需要精心的设计，需要众多技术、模型的支撑，知识疫图亦是如此。“工欲善其事，必先利其器”，知识疫图的“利器”在于其背后强大的科研团队，以及对知识、AI 技术、大数据多年的挖掘、探索。本次疫情知识智能服务技术实践系列第 2 期我们有幸邀请到了来自清华大学计算机系的曾奥涵和叶子逸，为大家解密知识疫图中新冠肺炎地区风险预测和基于搜索日志疫情预测两大模块背后的技术实践。

基于多维度信息的新冠肺炎地区风险预测

疫情期间，为了能够运用所学知识贡献自己的微薄之力，曾奥涵开始了疫情可视化的探索之旅。在前期调研中，研究人员发现虽然国内外已有很多疫情可视化项目（如图一），但是它们大多存在一些问题。比如只有疫情数据，数据种类单一，或者只呈现数据，缺乏数据分析。研究人员克服以上缺点推出了知识疫图综合型平台，该平台能够让用户直观且全面的了解疫情。作者曾奥涵在本次分享中主要介绍了知识疫图的疫情风险指数评估工作，内容包括风险指数的由来和模型的实现等。

图一国内外疫情可视化项目

风险指数指的是一个国家或地区在某一时刻疫情的严重程度，通过将原始的疫情数据转化为直观的风险指数，让用户能直接地感知到疫情的严重程度。如图二的例子所示，将不同国家的确诊数量映射为不同地区的颜色块。用户通过视觉方式直观感受各地区的疫情状况。在风险指数评估地图项目中，知识疫图还结合疫情发展时间线，提供了如视频一展示的动态播放功能，通过动态的风险指数播放用户可以实时地捕捉世界整体疫情变化。

图二风险指数示例

要想做到风险指数的有效可视化展示，前提是能够有效量评估风险指数。有效评估各国家和地区的疫情风险指数，除了能够帮助用户更好的了解疫情的发展态势，同时也能对个人、企业、政府的复产复工决策提供指标参考。然而影响一个地区的风险指数的因素很多，如疫情数据、人口密度、医疗条件等，需要综合考虑多维度信息，使得各个方面的因素均有所体现。同时要合理对信息进行聚合，使得评估方法具有泛化性，适应不同规模的国家与地区。在地区风险指数的评估上，知识疫图结合了疫情数据以及预测模型，地区的人口，面积等客观因素，同时参考了约翰霍普金斯大学的全球卫生安全数据，提出独特的风险指数评估模型。

在形式上，假设给定的疫情数据集为 𝐷，则时间𝑡的风险指数由评估模型 𝑓:D´t®R的输出定义。对于某个地区的疫情数据集 𝑋Î𝐷，𝑓(𝑋,𝑡)描述了在时间 𝑡 由 𝑋 评估该区域的风险。令 𝑅𝐼(𝑡)=𝑓(𝑋,𝑡)，风险指数 𝑅𝐼(𝑡) 越大，则地区的疫情越严重。

计算时，将某一地区风险指数 RI(t) 分成两个部分考虑：(1)先验风险指数 RI_prior （地区的人口密度、医疗条件等客观因素，与时间无关）;(2)后验风险指数 RI_posterior (t),根据 t 时刻之前的疫情时序数据评估得到。RI(t) 的计算方式如下：

先验风险指数计算中，density 表示地区人口密度，地区医疗条件参考 Johns Hopkins 发布的全球卫生指数（Global Health Index），用 ghi 表示，对于没有评级的地区，采用所有地区的平均值替代。后验风险指数使用时间 t 之前疫情的时序数据计算，直观上，有几个对风险指数比较重要的指标，如疫情的拐点、增长率、感染率、死亡率等。将这些指标拼接为一个向量 v(t)∈R^n，其中每个维度都是之前提到的一个疫情指标。w 是参数，σ(⋅)=max(0,⋅)。
通过构建的风险指数计算模型，得到各个国家不同时刻下随着疫情发展的风险指数曲线。风险指数曲线直观地展现了不同地区风险指数的变化趋势，通过与地区疫情曲线的对比可以检验模型的有效性。从图三的疫情曲线与风险指数曲线对比中，我们可以看出风险指数大体上与疫情实际情况相符，存在其合理性。此外，风险指数还具有疫情处于上升势头且尚未达到拐点时达到最高，可以放大数据突变，国家大小不敏感等特点。将得到的风险指数集成进知识疫图全球新冠疫情智能驾驶舱，随着国家和地区疫情数据实时更新，可以为用户提供及时、全面的指数参考。

图三疫情曲线（上）VS风险指数曲线（下）

总结来说，知识疫图提出了一种综合多维度信息的地区风险指数评估方法。不需要大量的人工干预，能够基于疫情数据和地区本身的客观情况计算，可以做到与疫情数据同样细粒度的风险评估。从结果上来看，计算得到风险指数能够比较好的反映地区风险情况。下一步的研究目标是希望将新闻事件也考虑进地区风险指数的计算，并将风险指数进一步细化，如出行风险指数，复工风险指数等，同时基于风险指数上线一系列惠及用户的实用功能。

基于搜索日志的新冠肺炎预测

在医疗卫生领域，传染病的监测主要依赖医生和有关医学机构的临床报告。但在这个过程中，从患者出现传染病的相关症状到前往医院确诊并最终上报数据存在延迟。如果能够提前预测传染病的发展趋势就能够更好地协助国家、有关医疗机构采取必要的防控手段，从而有效制止传染病的进一步传播。因此，设计一个高效准确的传染病传播预测模型至关重要。

随着现代信息技术特别是互联网的快速发展，搜索引擎成为人们获取医疗相关讯息的重要工具，这些大量的讯息数据涉及人们对疾病的关注、对自身症状的描述等。在新冠病毒疫情预测的研究中，研究人员发现搜索引擎用户行为和新型冠状病毒发展趋势息息相关。以图四的新冠肺炎为例，在潜在患者确诊的过程中，他们可能会和搜索引擎产生一系列交互，而在交互过程中生成的搜索日志可以作为监测新冠肺炎有效的间接信号。利用以搜索日志为基础的用户行为数据，生成额外的特征信息，可以有效协助新冠肺炎传播的预测，以便政府有关部门可以及时采取措施。在知识疫图项目中，叶子逸对基于搜索日志的新冠肺炎预测进行了深入研究。

图四潜在患者确诊过程

对于新冠病毒疫情预测，主要有传播动力学和时间序列两种思路。为了结合搜索日志这种用户行为信号进行新冠肺炎的预测，叶子逸主要采用了基于时间序列的回归模型和神经网络模型。

虽然在以往的学术研究中，有类似的研究范式，比如基于 Google Trends 的流行性感冒和登革热预测、基于传染病相关查询和相关网页集合进行流感预测、基于 Twitter 数据的 H1N1 预测等。但是此项任务面临着很多不同的挑战和困难。首先新型冠状肺炎的发展趋势与其他突发性传染病存在差异，比如影响更大、爆发性更强等。其次预测任务在时间粒度上与之前的研究存在差异，需要从周、月细化到每天。最后是要避免使用大数据进行研究带来的弊端，即避免过于依赖大数据进行特征抽取从而造成的噪声积累和伪相关性等输入特征问题。

基于搜索日志的新冠肺炎预测任务主要包含了三个步骤：（a）数据筛选（b）数据统计分析（c）模型应用，下面将逐一介绍。

数据筛选

数据是预测基础，任务的第一步进行数据筛选。从某通用搜索引擎公司 2020 年 1 月 1 日到 3 月 5 日的搜索日志中过滤出包含病情相关查询（ERQ）的搜索记录，平均每天有 100 余万条，每条搜索日志包含 ERQ、时间戳、点击信息、URL、空间信息等。在获取了原始数据之后，需要对这些大量的数据进行筛选，提取出有效信息。对此作者设计了如图五所示的基于点击二部图的图传播算法，图六是算法中部分的 ERQ 集合和得分情况。

图五基于点击二部图的图传播算法

图六部分 ERQ 集合和得分

数据分布统计

第二步是对 ERQ 数据粗略的数据分布统计，从图七中可以直观地看出不同随机种子产生的 ERQ 集合频率分布不同，并将随着疫情的发展呈现出不同的变化。将 ERQ 集合频率与新冠疫情发展趋势进行比较（图八），从斜率来看，两者之间存在一定的相关性。

图七 ERQ 种子频率分别

图八 ERQ 集合频率与新冠疫情的趋势对比

模型应用

结合对实验数据的观察，叶子逸主要考虑了自回归模型（AR，baseline）、长短期记忆网络模型（LSTM，不考虑 ERQ，baseline）、自回归分布滞后模型（ADL，考虑 ERQ）、使用词袋模型和 k-means 聚类融合各类 ERQ 特征的特征聚类的自回归分布滞后模型（ADL，考虑 ERQ）、长短期记忆网络模型（LSTM，考虑 ERQ）等几种不同模型。

为了验证模型的有效性，他将不同模型应用到了预测累计确诊数据（基于历史确诊数据，预测 k 天后的确诊人数）和预测新增与治愈人数（基于疑似数据与新增数据）两项实验任务中，不同模型在两项实验中的结果如图九、图十所示。

图九预测累计确诊数据实验结果

图十预测新增与治愈人数实验结果

总结

研究发现，引入 ERQ 数据在绝大多数任务中都能够提升病情趋势的预测性能。但引入 ERQ 数据作为传染病预测模型特征时，需要考虑病情趋势相对 ERQ 趋势的滞后效应，滞后天数在 3-5 天，对 ERQ 特征进行聚类后叠加为多个特征比直接叠加效果更好。未来叶子逸将探索分析不同搜索意图下的搜索引擎用户行为，更好地将疫情发展与用户意图、用户行为关联起来。