对待数据的三大致命错误-技术圈

· 译者注 ·

本文节选自The Atlantic（大西洋月刊）官网于3月16日发布的一篇文章，文章的两位作者是疫情数据追踪项目COVID Tracking Project的联合发起人。回顾过去一年的经历，他们在直指美国政府和相关机构抗疫不力的同时，也反思了对待疫情数据的三大误区。

这些误区在其他数据应用场景中也同样可能发生。我们翻译了文章的主要内容，希望能为大家带来一些启发。

2020年3月4日零点前的几分钟，我们发邮件给美国各州以及哥伦比亚特区政府，询问一个简单的问题：经过新冠病毒检测的人到底有多少？

当时，美国已有差不多150人确诊、11人死亡。而CDC（美国疾病控制与预防中心）却停止了公开发布全国检测数据。没有这部分数据，也就无法对确诊病例数据进行解读——是只有很少的人病了？还是只有很少的人做了检测？令人震惊的是，我们发现得到检测的人非常有限。

我们意识到，缺乏检测的结果可能是灾难性的。于是我们发起了The Atlantic的疫情数据追踪项目。去年春天开始，项目志愿者每天从美国的每个州和区域收集疫情数据。我们以为政府已经拥有这些数据，希望通过一些报道来督促政府公开这些数据。

但随后，我们发现CDC的数据非常不完善，而白宫甚至在使用我们项目的数据。长达几个月的时间，美国政府完全不知道到底有多少人确诊、多少人住院、多少人死亡。而这个临时的、志愿的数据追踪项目，却成为了事实上的全美疫情数据来源。

数据可能看上去是一个太技术的迷思。如果把疫情造成几十万人死亡的原因归结于数据，看上去更像甩锅。但是，政府正是通过数据来了解现状的。某种意义上，数据就是联邦政府眼中的现实。当想象中应该存在的数据，与实际上存在的数据之间出现了巨大的鸿沟，就把全美国的抗疫政策与行动带到了沟里。

（截止文章发出前一周）疫情数据追踪项目统计了全美国范围内3.63亿例检测、2800万例确诊和51.5148万例死亡。过去一年教训不断，我们知道了美国公共卫生政策痴迷于数据，却又远离数据。我们知道了这些政策背后的数据可能既无法理解，又不能指导行动。我们知道了疫情数据的产生方式，决定着我们到底是否能全面了解疫情。

而改变看待数据的方式，就能够防止灾难再一次发生。

1、所有数据都是创造出来的

而不是直接存在的

在2020年3月之前，美国并不缺疫情应对预案，很多预案还强调数据驱动决策制定的重要性。但是这些预案大多建立在详细、可靠的数据已经存在的基础上。他们很少关心这些数据是如何产生的。

去年3月份，政府停止公开病毒检测数据。当我们开始汇总各州的数据，很快就发现检测做的一团糟。首先，由于CDC最初发放的新冠病毒检测盒存在缺陷，并对什么人才能接受检测制定了过于严格的标准，导致各州基本检测不了多少人。

除了这些问题外，还存在一大困扰。数据系统需要经过精确的校准，才能产生详细的统计数据。但是在美国，各州分别“创造”了各自的数据并上报联邦政府。这些数字在某种意义上可能都是“准确”的，但是各州数据间的不统一，使得极难直接统计出全美国的数据。

疫情数据追踪项目最初的工作，就是去理解数据中的不一致并进行调整，让各州的数据可以统一起来。因为每一项疫情数据的产生都经过了曲折的过程。像检测数据，最初只是玻璃瓶或实验室机器中的分子反应，之后要经过数层人类观测、键盘输入、计算机处理，然后才到达政府。在从市、到州再到联邦数据库的过程中，数据可能经过了各种不同方式的处理。经过这个过程，最终形成了看似金玉其外却可能败絮其中的数据。

理想的疫情应对措施，建立在这些数据完全可靠、输入到高度优化的流行病学模型中、并能指导行动的前提下。“CDC的缺位让我们在数周里因为缺少必要的检测而盲目行事，”退伍军人事务部的一位医学顾问表示，“模型与现实的区别是，在模型中我们根据已知情况来设定参数，而现实中的参数却是一本糊涂账。”

后续的学术研究发现，早期的确诊病例数只是实际数量的10%、甚至5%。尽管已经有现成预案可以进行数据分析，但政府（错误的）认为这些数据很容易获得，导致没能够在一开始就将实际情况暴露出来。

2、数据是一张照片，而不是一扇窗户

去年春末，疫情数据追踪项目开发出一种简单的可视化方式，来一览疫情数据——通过一排四个图表来分别体现检测数、住院数、死亡数。

图：美国全国新冠疫情统计（七天平均线）

四个维度分别为（从左至右）：日检测数、日病例数、当前住院数、日死亡数

这个图表看起来权威并且全面。但这些数据的产生过程教育我们，每个维度的数据都只能代表某一个特定时刻。当你看着这些图表，你看到的不是当下的实况，而是对过去某个瞬间的记录。

项目研究发现，不同维度的数据是按照不同速度发展的。以病例数和检测数为例，根据这两个数据可以算出“检测阳性率”，像封城、重启等抗疫措施经常是基于这一数据做出的。但是，病例数可能会增长很快，检测为阴性的数据变化的则慢一些。除此之外，检测与确诊的日期也可能并不一致。独立的州比较容易校正这类问题，但是跨州之间就比较难。更甚，当检测为阴性的结果出来的有所延迟，会让检测阳性率看上去比实际情况更高，影响学校和商业的重启。

死亡数也会受到上报系统流程的影响，而很多人可能都没有意识到这一点。根据CDC的预估，死亡中位数可能要在人死亡了20天之后才会汇报到州政府，中间存在巨大的时间差。约四分之一的死亡病例会在6天之内上报，但也有另外四分之一的上报时间是在45天之后。而且，根据一位流行病学家对加利福尼亚州数据的研究，这种延迟还不是恒定的。数据反映的可能是好几周前的情况，这个问题让疫情爆发期的实际死亡人数难以得到准确评估。

我们最信任、也认为不会有大问题的数据，是受到卫生与公共服务部监管的住院数据。实际上，目前所有医院都被要求汇报给卫生与公共服务部，我们可以很好的了解到全美范围内有多少新冠患者被收治入院。

这让联邦政府可以针对性提供帮助，为最有需要的医院提供人员、药品和防护用品。这才是用精准数据帮助政策制定者的良好范例。

3、数据只不过是一种信息

数据似乎极大程度上代表了真相。政策制定者以“数据驱动”为荣，并发誓要“遵循科学”。但花了一年深入数据后，我们认为数据没什么特别的。

数据只是以定量方法得出的定性结论。数据驱动思维并不一定比其他形式的推论更精确，尤其是当没搞清楚数据从何而来，数据中的不一致甚至会产生误导。

这个问题从一开始就为抗疫带来了阻碍。在去年三月初，很明显新冠病毒应该已经扩散到美国。而CDC还在严格控制什么人才能接受检测，缺乏清晰检测数据，意味着政府根本还没认清现实。

今天，问题依旧存在。在2021年3月1日举办的记者会上，CDC主任提醒公众注意病毒新变种。她暗示，全美国范围内的病例数和死亡数都在上升，可能就是由于病毒新变种。但是通过疫情数据追踪项目，我们知道这个“新变种引发疫情新高潮”的说法并不成立。如果死亡数现在上升，说明病例数的上升应该在一个月前。而实际上，一个月前的病例数是快速下降的，这并不相符。

相反，通过对数据的密切跟进可以了解到，由于要检查死亡证明，很多州的数据上报存在严重延迟。同时，德州等地又被暴风雪击垮了。这使得他们的上报数据直线下降，死亡数反常的快速减少，而当工作完全恢复后，数据便又快速反弹。不出所料，CDC主任发言后，日均死亡数很快就回落了25%。

换句话说，并不是这些州的疫情在2月份变糟了，而是从12月延续到1月的高峰期远比当时认为的更严重。不应该在没有充分考虑数据产生背景的情况下，就直接解读眼前的数据。

数据是极具魅力的。你看着图表或者表格，可能会感觉自己像掌握了制胜密码一样无所不能。但事实上，你更像是一个清洁工，看着水从下水道流向污水处理厂。当然，久而久之你也能知道哪个下水道口格外难闻，而哪个离污水处理厂更近，但你不应该自欺欺人，以为自己了解水里都有什么。

为了避免下一次数据灾难，除了花精力塑造未来，我们的公共卫生系统也必须要花同样的精力去理解当下。疫情或任何危机的管理，就在于根据尽可能好的信息，做出尽可能不坏的决策。这些信息可能是各种形式的，不是只有数据。但一旦你要参考数据，就一定要知道数据是如何产生的，不然就很有可能会被误导。

原文来源：The Atlantic 翻译：TalkingData

原文标题：《Why the Pandemic Experts Failed——We’re still thinking about pandemic data in the wrong ways.》

原文链接：https://www.theatlantic.com/science/archive/2021/03/americas-coronavirus-catastrophe-began-with-data/618287

作者：Robinson Mayer、Alexis C. Madrigal（The Atlantic撰稿人，疫情数据追踪项目COVID Tracking Project联合发起人）

推荐阅读：

Excel不是万能的！新冠疫情教我们的数据课

数据应用新理念：以场景释放价值、以闭环驱动增长

统计无用论？来看看统计学在大数据中的价值

TalkingData——用数据说话

每天一篇好文章，欢迎分享关注