哈佛大学 信用:CC0公共领域 当德尔菲-脸书和美国
S
去年春天,人口普查局提供了新冠肺炎疫苗摄取量的近乎实时的估计,他们的每周调查从多达25万人的反馈中得出结论
庞大的数据集提供了统计上微小的误差幅度,这是衡量民意调查准确性的一个关键指标,并提高了人们对这些数字是否正确的信心
但是,当疾病控制和预防中心后来提供了实际报告的疫苗接种率的数字时,这两项民意调查大相径庭
到5月底,德尔福-脸书研究高估了疫苗接种率17个百分点——根据疾控中心的数据,这一比例为70%对53%——人口普查局的家庭脉搏调查也高估了14个百分点
来自哈佛大学、牛津大学和斯坦福大学的统计学家和政治学家进行的一项比较分析得出结论,这些调查成为“大数据悖论”的受害者,大数据集的数学倾向是将一种类型的误差(由于样本量小)最小化,但放大另一种倾向于获得较少关注的误差:由于系统性偏差导致的误差,这种偏差使被调查的样本不能很好地代表更大的人口
“大数据悖论”是由该研究的作者之一、哈佛大学统计学家肖提出的
普通
琼斯统计学教授,在他2018年对2016年总统选举期间民调的分析中
这些选举民调以预测希拉里·克林顿(Hillary Clinton)的总统任期而闻名,但被称为“无回应偏见”的说法扭曲了。在这种情况下,特朗普的选民倾向于要么不回应,要么将自己定义为“未决定”
" 孟说,这个悖论带来的危险是,有偏见的大数据调查有可能比没有调查更糟糕,因为没有调查,研究人员仍然明白他们不知道答案
当人们对潜在的偏见知之甚少时——就像2016年的选举一样——它会被大样本量带来的信心所掩盖,导致研究人员和随后的调查结果消费者错误地认为他们知道答案
该论文的作者在12月发表的分析中写道:“这就是大数据悖论:数据规模越大,当我们无法解释数据收集中的偏差时,我们就越是自欺欺人。”
8发表在《自然》杂志上
作者指出,当根据这些误导性结果采取行动时,这些误导性结果尤其有害
例如,一项调查显示70%的人接种了COVID疫苗的州的州长可能会放松公共卫生措施
如果实际疫苗接种率接近55%,而不是促进恢复正常生活,这一步可能会导致病例激增和COVID死亡人数上升
牛津大学副教授、2008年哈佛大学计算机科学和数学项目校友、该论文的对应作者Seth Flaxman说:“全世界的政策制定者和科学顾问都在试图理解COVID数据。”
“报告的病例只是真实感染的一小部分,新冠肺炎认为死亡人数严重低估了疫情的真实人数,而电子医疗记录并不能让我们全面了解长COVID
谈到调查数据,各种数据质量问题,如接种疫苗的受访者更有可能对调查做出回应,边缘化群体代表性不足,都可能导致不正确的估计
" 尽管众所周知,调查的准确性来自数据量和数据质量,但近年来,随着技术大幅提高了我们收集和处理海量数据集的能力,数据量已成为焦点
尽管这些潜在的发现提供了前所未有的洞察力,尤其是以前难以研究的亚群,但如果不注意数据质量——通过确保样本人群代表更大的人群或通过了解差异以调整结果来获得数据质量——结果可能会产生误导
该论文的第一作者、获得博士学位的Shiro Kuriwaki说:“有一种获得最大数据集的动力,现代技术,大数据,已经使这成为可能。”
D
去年春天从哈佛大学毕业,现在是斯坦福大学的博士后
“这使得分析比以往任何时候都更加精细,但我们需要注意的是,随着样本量的增加,数据中的偏差会变得更严重,这可能会影响到子组
" 孟说,10年前,一位美国科学家访问哈佛时,他开始思考大数据带来的问题
S
人口普查局官员
这位官员会见了一群统计学家,并向他们询问了如何处理覆盖美国大部分地区的数据集
S
人口
他以国税局收集的税收数据为假设例子,询问统计人员是更喜欢覆盖5%人口的样本,因为他们知道这代表着更大的人口,还是更喜欢国税局的数据,因为他们不确定这是否具有代表性,但覆盖了80%的人口
统计学家选择了5%
“如果是90%呢?”人口普查局官员问道
统计学家仍然选择了5%,因为如果他们理解数据,他们的答案可能会比一个更大的带有未知偏差的集合更准确
“每个数据集都会有某些怪癖,但问题是不管你的问题是什么,这个怪癖是否重要,”孟说,他的工作得到了国家科学基金会的部分资助
“社交媒体上有大量的数据
他们可能认为他们有一个公共样本,但可能没有意识到他们的人口一开始就有偏见
" 事实上,即使调查研究人员意识到无反应偏见的危险,这种偏见仍然有害
例如,2020年由黑木和当前研究的另一位合著者、哈佛大学本科生迈克尔·伊萨科夫(Michael Isakov)撰写的一篇文章正确地预测了2020年总统选举投票中的过度自信,尽管2016年后引入了新方法
伊萨科夫说:“在目前的论文中,我们发现,尽管德尔菲-脸书和人口普查局的研究人员都试图解释潜在的问题,但他们的修正不足以减轻所有的偏见。”
这项研究由牛津大学的迪诺·塞季诺维奇进行,确定了疫苗接种调查中潜在的偏见领域
德尔福-脸书民调是从脸书的日常用户中得出的,但没有考虑到教育水平等因素——十分之二的受访者没有大学学历,相比之下,美国有十分之四的受访者没有大学学历
S
成年人——以及种族和民族——黑人和亚裔受访者的比例仅为普通人群的一半
人口普查局的研究对教育和种族/族裔进行了修正,但两项调查都没有收集到受访者党派偏见的数据,而党派偏见可能是疫苗接种的一个重要因素
此外,两位作者都没有调整他们的样本来代表城市和农村地区的分布,作者说这可能是另一个因素
“美国
S
哈佛大学统计项目的毕业生瓦莱丽·布拉德利说:“政府今年花费数十亿美元进行有针对性的宣传,试图让没有接种疫苗的人接种疫苗。”
D
牛津大学的学生,论文的第一作者
“如果你是根据人口普查家庭脉搏或脸书调查来引导这一点,你可能会把数十亿美元投入到错误的社区
" 相比之下,由Axios-Ipsos进行的一项更传统的民意调查只有1000名受访者,研究人员努力确保样本能够代表更大的人群
他们考虑了教育、种族、民族、政治党派,甚至为平板电脑提供了“线下”受访者的互联网接入,以确保他们的观点得到登记
尽管样本量较小,但Axios-Ipsos对疫苗接种的估计与疾控中心报告的实际接种人数相似
作者说,大型民意调查中未修正的偏差的最终影响是,尽管调查了250,000名受访者,但德尔福-脸书民意调查在2021年4月调整偏差后的有效样本量小于10,为99
比原始平均每周样本量减少99%
同样,每周统计75000份答复的人口普查家庭脉动,在2021年5月的有效样本量也减少了99%
“如果你有资源,在数据质量上的投入远远大于在数据数量上的投入,”孟说
“质量差的数据基本上是在抹杀你认为自己拥有的权力
这一直是个问题,但现在被放大了,因为我们有了大数据
考虑到疾控中心追踪接种疫苗数量的时间,我们不需要依靠调查数据来估计总体接种率
但是,当涉及到行为、哪些群体已经接种疫苗、犹豫不决和获得疫苗的障碍时,准确的调查很重要
随着成人疫苗摄取量的持续增加,美国第一剂疫苗的摄取量接近85%
S
对于我们知识的局限性,稍微谦虚一点是合适的
但是我们可以确定一件事:美国20个成年人中有3个
S
没有疫苗保护,我们需要加倍努力来获得疫苗
"
来源:由phyica.com整理转载自PH,转载请保留出处和链接!