先庆祝一下 在网易跟帖上互动过25000人次,。 (感谢大老李聊数学的转载)

前言:本文将从纯科学(非政治)的角度来聊聊民调这件事,不会涉及具体政治人物和事件的评价。

简单介绍一下, 如果你对民调 (特别是2016年的民调)的感觉是这样的:

2016年那么多主流媒体报道:民调显示希拉里的支持率有60% 或70%,还说她当选几率是超过90%,95%或99%,怎么最后她还是输了。

那么正好,本文会仔细解释这个问题。

如果你整体上认为民调是个有用靠谱的预测工具,只是想知道在细节上知道

为什么各大顶级民调机构在2016大选前夕,对于铁锈区(五大湖附近)几个关键州的预测如此不准,差了竟然有3-6%个百分点。

那请你先随便读一下这篇文章(或赌气按个转发),然后可能再等上几天,我会在下一篇里回答这个问题。 那里会有一个相对粗糙的解释,但肯定能让你了解到问题的本质。而且我会尽量解释一下为什么常见的简单的猜测并不是答案(比如川普支持者羞于承认假说

言归正传:

今天我们聊民调,评价民调,最基本的我觉得有下面三点需要了解。

1. 谁是民调之王。民调其实是有等级的。就像做饭一样, 差可以差到如我一般, 好可以好到米其林三星主厨。民调也是一样,专业机构他们动用上百万的资金找专业信息采集公司得到的报告,它叫民调。你在路上拦100个人问“你选哪个候选人”,它也叫民调。其实淘宝,豆瓣网上的打分,好评,本质也是民调。

打开网易新闻 查看精彩图片

但真正有信誉的科学民调机构并不多。优秀的就更是稀少。如图所示, 真正A级的大概就十几家。其中ABC/华盛顿邮报 是A+,CBS/纽约时报是A,福克斯是A-,NBC是A-,CNN是B+. (快别说那个surveymonkey,根本不入流)

上图的链接 https://projects.fivethirtyeight.com/pollster-ratings/

一般来说,主流媒体口中的民调结果是基于这里至少C级以上的机构做的民调。(其实C级以上的高产民调机构并不多,有很多学校的民调组织,他们虽然很优秀,但每年可能只做3-5次民调)

注意这张表的最右列是这些民调机构相对于其他机构的平均预测偏差。你可以看到基本都是1%以内,不管是独立的,左派赞助的,还是右派资助的,好的机构之间的误差是很小的。

(本文转载自:万物皆概率,作者是尹部长。)

那么如果你没有时间看那么多民调,哪一个是最佳选择?谁是民调之王呢。可能你已经猜到答案了, 应该是把它们汇总起来的综合民调。的确!有人已经为你做了这个事, 他们依据民调等级,融合各种机构给出了一个总民调图。

打开网易新闻 查看精彩图片

这是538网站的2016的历史记录,记录了从6月开始两人在民调中的(平均)支持率

https://projects.fivethirtyeight.com/2016-election-forecast/national-polls/

打开网易新闻 查看精彩图片

这是RCP网站的2016的历史记录

https://www.realclearpolitics.com/epolls/2016/president/us/general_election_trump_vs_clinton_vs_johnson_vs_stein-5952.html

这里作为网站, 538偏自由派(左派), RCP偏保守派(右派)。但对于民调,两者的区别是非常非常的小, 比如今天9/22号, 我看到538 公布的是拜登领先6.9%, 相对的RCP 公布的是拜登领先6.6%,误差0.3%。

注:因为民调时被采访者可以选择“尚未决定”,所以看两人的相对数值要比看绝对数值更有意义。

从图里可以看到,2016大选前夕:538给出是希拉里支持率领先3.9%,RCP给出的是3.3%。结果是希拉里多得了2.1%的选票(美国不是简单多数获胜的选举方式)。所以至少从这个角度来说,民调肯定不能说离谱。(题外话,如果希拉里领先到2.9%,她就赢了)

从2016年的图, 你会看到希拉里基本就没有几个超过50%的民调 (他们对应着第一张图50%线上方那零星的几个贴着50%的蓝点)

其实那年在他们被提名后的任何一个时间点她的综合民调就没高过46.5% 。所以根本不应该有主流媒体号称她支持率超过55% 或以上。

2.不给出链接的报道都是耍流氓。现在的问题是,那为什么有人会看到过主流媒体给出 “希拉里的支持率有60% (或70%,80%的版本)”。

答案其实是,其实他们没有过。搞笑的题外话:我在查数据时看到 Trump在16年8月说:若媒体诚实报道 支持率会超希拉里20%

打开网易新闻 查看精彩图片

看来民调的误差至少远小于trump 。

我遇到过很多人都声称自己看到过主流媒体/民调 说希拉里领先20百分点以上(就是在最近都有知名主播这么说)。但是无数次, 我请他们发一个链接给我看一下, 我得到的都是一些公共号上面写着类似于什么 “当时cnn宣称希拉里民调支持率有70%。。。。。” 但是文章里既没有cnn的链接, 也没有这个民调的链接。这显然是非常不可信的。 其实所有上面提到的“靠谱”的民调,他们在公布结果时都会公布一个非常详细的说明, 从使用的方法,到具体问题,提问方式,每题的答案比例。比如 这个篇报道

https://www.foxnews.com/media/trump-campaign-demands-retraction-cnn-poll

其中福克斯报道了 川普和CNN吵架这件事,文中提到了起因是CNN的一个民调。 不出意外文中给出了这个民调的链接

http://cdn.cnn.com/cnn/2020/images/06/08/rel6a.-.race.and.2020.pdf

整整40多页,有非常详细的内容解释。

我看到过有人说民调不准是因为民调里问的问题有诱导性。但专业民调绝对不会有这个问题。 还是那句话,外行轻松就能意识到的缺陷,专业的人怎么会不知道如何避免。专业人士(不论是左派还是右派赞助的民调)要的都是精确度。怎么可能问有诱导性的问题,然后还公布在网上,等着同行来嘲笑。举个例子,人家连“你支持谁”这么简单的问题, 都是一半问 “你支持希拉里还是川普”一半问 “你支持川普还是希拉里”。

所以我建议, 普通大众平时看看538 和RCP里的综合民调就足够了。如果突然某个新闻报道了个奇葩民调结果, 你可以直接点链接看看那个民调是不是靠谱机构做的,他们是不是真的这么公布结果的。如果没链接,那都是耍流氓。

3.时间点非常重要。首先问个简单问题, 如果今天网站538/RCP 公布:基于民调 Biden 获胜的几率是77%。这句话应该怎么理解

打开网易新闻 查看精彩图片

其实可能大多数人的理解都是错的。它不是说 他们预计Biden 会在11/3号大选那天有77%的几率获胜。注意它不是预测大选那天的情况。它的意思是 “如果今天大选” 基于民调 Biden 获胜的几率是77%。

打开网易新闻 查看精彩图片

就像这张图里看到的,这是希拉里和川普获胜几率在16年的变化图。 正如你看到川普其实几次都是到了50%左右。你可能在那些宣称“民调完全不靠谱”的文章里没看到过吧。

可以看出16年人们对于这两个候选人的认可度波动很大,川普其实都领先过。在这么大的波动下, 民调最后给出希拉里71.4%的胜率,然后川普也只是险胜了。 我想不应该称之为黑天鹅事件,更谈不上民调不靠谱吧。 如我之前所说,希拉里其实只差了0.77%。 什么概念,就是说投票那天每130个川普的支持者里有一个改投了希拉里,那今天的总统就换人了。不是每130个选民,是130个给川普投票的人里有一个改投,结果就不一样了。(大家就不会说民调不靠谱了)简单说,如果130人里100人是右派,30人是中间派。就是说当时如果每30个中间派的川普支持者里有一个变心,今天大家对民调的态度就完全不一样了。

其他的就不细谈了,比如 cnn 和 fox的民调结果其实非常接近。 很多民调机构为了防止走偏采取的双领导制 一个左派一个右派。 关于那些95%或更高的预测报道,他们都不是纯基于民调的,很多是综合了股市,失业率,历史。民调本身在16年给出的猜测就是希拉里71.4%胜。

其实18年的中期选举已经帮民调争回了面子。 比如当时538预测民主党会抢下共和党的39个众议员席位。

打开网易新闻 查看精彩图片

最后民主党抢下共和党41个众议员席位。其中预计民主党投票数多9.2%, 结果是多8.4%.

但是不管怎么样,这些顶级机构都需要回答这个问题:为什么各大民调机构在2016大选前夕,对于铁锈区(五大湖附近)几个关键州的预测如此不准,差了竟然有3-6%个百分点。

为了引出下一期的内容, 我来问一个简单的问题。 如果你在某地做民调,结果是这样。

女:500人,

60%支持候选人A,40%支持B

40%支持候选人A,60%支持B