重新审视2016美国总统大选中民调的预测偏差
作者:祁玲玲,王皓 来源:澎湃新闻
11月8日晚间,随着原本期待着一场庆功宴的希拉里的支持者们在错愕中陆续掩面离开位于曼哈顿Javits Center的选举大本营,人们不得不承认一个事实:2016年美国总统大选中“意外胜出”的唐纳德·特朗普不仅击败了老练而专业的政治对手希拉里·克林顿,更击败了美国几乎所有主流媒体以及他们一直倚重的民意调查。基于大规模访谈数据的民意调查虽然此前一直也会遭受方法论上的质疑,但民调的基本科学性似乎并未遭遇根本性危机。而以几乎全军覆没的方式“误导”美国大选这样的超高显示度事件,毫不夸张地讲,几乎毁灭性地打击了这个行业。
大选后的几天内,已出现了一些回应和文章。如Pew Research Center、Nate Silver的官方回应,《纽约时报》的连续反思,以及社交网络上层出不穷的分析文章。所有严肃的分析都是坦率的。但实际上目前并没有任何分析,可以对出现关键性偏差的原因进行确切锁定。要回答这个问题,还需要整个民调行业的专家们,利用相当长的时间,往前回溯,寻求错误的根源。
尽管目前没有定论,但我们认为,仔细来看,这次美国大选中的民调结果,并没有看上去那样全线溃败。更为重要的是,民调偏差可能不仅是技术性问题。理解美国政治运作的特质以及特朗普激发的美国政治新生态,才是纠正民调偏差的关键切口 。
民调的偏差并非离谱
首先,我们必须指出统计学中一个非常容易让人产生误解的常识。即,统计模型从来都不是确定性的,只会给出最佳的预测值,以及可能的置信区间。这就是说,即使一个模型预测希拉里获胜的概率为99%,其实也并非表明特朗普没有机会——这尽管看上去多少让统计学失去了存在意义,但却是事实。
以在这次民调预测中差中选优“表现尚可”的Nate Silver的预测模型为例,该模型是主流媒体预测中对希拉里获胜的概率最为保守的一个。时至大选前一刻,他们计算得希拉里的获胜概率为71.4% (见下图)。特朗普获胜的可能性大约是3成。这就意味着,同样的总统选举进行10次,有3次特朗普会赢,而希拉里会赢7次。如此概率,并不算渺茫。
实际上,由USC/Los Angeles Times所做的民调,是这次极为罕见的一直预测特朗普会赢得大选的主要民调之一(其他还有《纽约时报》列出的IBD/TIPP),但令人玩味的是,大选结果同样让主持该民调的经济学家Arie Kapteyn自己感到很意外。这一定程度上是出于他本人对于希拉里的支持,但同时也表明,无论模型预测对或错,并不存在绝对确定性。尤其是当竞争者之间的差距比较小时,置信区内的波动都足以改变最终结果。
我们再以Nate Silver的预测模型为例,从民众投票(popular votes)目前统计看,希拉里一直领先大概0.2个百分点,到记票全部结束,Silver预测赢面会增加到1到2个百分点。在Silver的模型中,如果在特朗普的每100个支持者中有一个转投希拉里,包括密歇根、威斯康辛、佛罗里达以及宾州这四个最关键的州都会转蓝,希拉里就会如预测那样获胜。然而,因为美国选举人团制度以及赢者通吃的制度设计,这希拉里最后赢出的这个1个百分点的选票最终被浪费。
因此,我们同样要指出,美国的选举人团(electoral college)制度,实际上大大放大了这次预测偏差。美国的选举制度,并不是严格意义上“一人一票”的普选。想要最终成为美国总统,需要拿到538张选举人票中的270张。每个州的选举人票,由各州的众议员和参议员人数决定。具体到各个州实行“赢者通吃”的规则:只要在该州赢得多数选票,即可获得该州全部选举人票。一般来说,绝大部分民调的基本预测,是针对全国以及各州的民众投票率。但因“赢者通吃”,民众投票的差距与选举人得票数的差距之间会形成很大落差。实际上,从下图可见,以《纽约时报》汇总的临投票前各民调预测的全国民众投票率来看,民调并没有非常夸张的偏差。在全国总票数上,和以往历次相比,民调也在合理范围内。
大多数民调对大部分州的预测仍然比较准确,从《纽约时报》综合给出的各大民调的州级预测的数据汇总来看,50个州加上华盛顿区,所有的民调都完全准确预测17个民主党支持州以及24个共和党获胜州,其他10个州的摇摆状况也基本框定。现在我们知道,问题主要出现在五大湖区周边几个传统民主党州的关键性票差。事实上,这些中西部州最终倒向特朗普时,两党候选人的差距也都非常小。密西根州、宾州和威斯康星州最终选票差距都在1%以内。因为最终决定选举结果的几个州选举人数较多(佛罗里达29人,宾州20人,密歇根州16人,威斯康辛10人),在民众投票层面的1%左右的预测偏差,会完全改变整个选举地图。从上图各州预测情况看,在爱荷华、俄亥俄、北卡莱罗那以及佛罗里达,特朗普获胜已经被很多民调预测到了。
是抽样导致偏差?
偏差最大的应该是在民主党实力较强的密歇根、威斯康辛以及宾州,它们是民调机构最需反思的切入点。以密西根州为例,以往的制造业形成了强大的产业工人以及工会。这些历来是民主党的选票来源。事实上,自1988年以来,这些五大湖地区的州无一例外历次选举都是蓝色,因此被称为民主党牢不可破的“蓝色之墙”(blue wall)。今年“蓝色之墙”轰然倒塌,中西部仅剩希拉里老家伊利诺伊州淹没在一片红色之中。
对民调在关键翻转州(flip)的失手,从技术上讲,人们首先想到的偏差来源就是抽样。当然,正确的预测需要有代表性的样本。美国的民调机构为保证随机抽样,通常采用随机电话/手机号抽样。目前随机号码抽样技术已经非常成熟,我们倾向于认为抽样应该是随机无偏的,需要考虑随后的环节。
在获得样本之后,民调机构会设法联系被调查对象,并询问有关大选的问题。在这一步骤上,不可避免会有一些随机样本拒绝受访或无法联系到。通常这种样本的流失会被认为是随机的,因此理论上获得的结果依然准确无偏。
是否有可能希拉里和民主党的支持者更愿意接受调研,从而导致了民调结果偏向希拉里呢?这当然有可能。特朗普以“局外人”身份出现,以革命者的态度挑战传统建制派,在整个竞选过程中不断攻击政府和媒体,可以说,成功引起了民众对传统政客乃至民调机构的不信任和反感。这种情况下,不信任传统媒体和政客的特朗普支持者,确实有可能因反感而拒绝接受调研。但这无法解释,为什么仅仅是五大湖地区和宾州的民调出现了大量偏差,难道居住在这些地区的共和党支持者相对于其他州更不愿意接受采访?我们觉得,这种可能性很小。
特朗普把自己的胜利归功于“沉默的大多数”。他的竞选负责人Kellyanne Conway也认为,特朗普的支持者倾向于不表露自己的态度。毕竟,特朗普的不少言论包含种族歧视、性别歧视等,难以被主流媒体接受。耶鲁大学政治学助理教授Alexander Coppock针对这个假设,采用实验法进行验证,然而并没有发现特朗普的支持者比希拉里支持者更沉默。而特朗普全国各地的集会造势活动也可佐证实验结果:特朗普支持者的热情远高于希拉里支持者,并不羞于表达自己的态度。
民调自身的困境:细微的关键点
我们倾向于认为,此次出错可能必须考虑到民调自身的一些比较难以解决的困境,一些细微的关键点最终恰恰决定了选举结果。首先,经验型的预测基于多个历史调研结果,研究者通常会对不同时期的调研赋予不同权重,越靠近选举日,权重越大。这种方法保证了预测的稳定性,但不足的是,可能会低估靠近选举日时候的选情变化。10月份,美国联邦调查局重新发起对希拉里邮件门的审查,尽管在最后民调有所反弹,但我们认为,这还是给尚未决定选谁的选民产生了影响。以下图为例,9月之后决定选票的选民,更倾向于支持特朗普,这种效应在10月份又被放大,甚至达到两位数。这种不确定性使得预测变得极为困难:研究者基本无法预见这种临时决定投票的情况。
其次,预测偏差与美国大选的投票率密切相关。美国没有强制投票的法律,即便是决定国家命运的总统选举,也是自愿投票的。这使得民调在预测时需要预估投票概率。通常来说,计算不同阶层、不同种族的投票可能性,也基于往年数据。在做预测时,研究员会计算投票可能性和投票倾向的乘积。这就导致投票率变化也会引起结果变化(见下图)。
从最新的出口民调看,各大民调机构整体上高估了今年的投票率。预估的投票率为60%左右,而实际投票率仅为55%。尤其是以非裔美国人为首的少数族裔的投票率被高估了。根据福克斯新闻网的估计,今年非裔美国人的票数少了约100万张。由于绝大多数非裔都会支持民主党,倘若希拉里能获得这100万张票,白宫势必要易主。从这一点上讲,希拉里的专业竞选团队是有战略性失误的,我们回头看,选举日当天在开始记票之前,Javits Center内外的欢腾和乐观竟然和主流媒体毫无二致,是何等盲目。
而这次民调的一个关键失误是低估了中西部教育程度不高的中年白人投票概率。理论上,民调专家们依据往年的投票率来计算,并没有本质错误,但往年数据肯定难以捕捉到奥巴马任期之内(尤其第二任期)的新政在社会中产生的分化。而且,“特立独行”的特朗普对这批“被遗忘的群体”的激活程度更无法利用经验预估。
在美国,由于自由派精英更关注少数族裔、性别问题,政治上处于“夹心阶层”的这些群体确实受到冷落: 他们不是少数族裔,也不是需要政府福利的穷人。以奥巴马医保为例,之前两千万没有保险的穷人确确实实得到了保障,但这是建立在中低收入阶级(以普通工人,农民为代表)利益受损的基础上的。而且,这批人长久以来并没有得益于全球化自由贸易。若干年来,特朗普作为总统候选人,第一次给出了激进反自由贸易的姿态,这极大引发了这个群体寻求改变的愿望。
他们的动力如此强大,不仅是民调机构,即便是特朗普的竞选团队也始料未及。由于这类群体主要居住在农村和小城镇,在美国全国范围内形成一种“农村包围城市”的格局(见下图),尤其在五大湖地区,密集的人口分布格局不仅改变了该地区的选举地图,而且彻底左右了全国的选举结果。
如果说2000年的美国总统大选严重打击了美国宪法学者,那么2016年的大选直接打击的则是美国的政治学者。然而,以上分析表明,民调并不是想象中的一无是处或完全失声。诸多可能出错的原因,仍然可以探究。
不同于演绎逻辑对推论的热衷,经验性的研究从根本上见长于事实的归纳与解释。对未来的预测出现错误,是在逻辑上被允许的。任何个案的“证伪”,都不足以推翻一门学科。
恰恰我们认为,本次总统大选实则给了美国政治学者前所未有的重新审视自身研究以及追踪正在发生深刻变化的美国政治的大好机遇,是时候该走出象牙塔走进乡村小镇了解美国政治的基层生态了。
这次美国总统大选民调预测失误折射出,暗流涌动的美国社会正经历深刻变化,中产阶级收入萎缩,经济不平等扩大,族群问题未见缓和,主流媒体精英与社会大众近乎绝缘。
当希拉里身着紫色衣服现身败选演讲,她期望的是一个更加和谐的美国(紫色=蓝色民主党+红色共和党),而身携诸多不确定元素的特朗普势必是对美国一直引以为豪的强大制度与自由传统的最好检验。
来源时间:2016/11/13 发布时间:2016/11/13
旧文章ID:11764