前几天开始看到陆续有人试图用「数学定律」来证明美国大选中Milwaukee市的选票有问题,理由是——拜登在Milwaukee的选票不符合「本福特定律」,因此有假。
什么是本福特定律呢?就是在自然生成的数据中,首位数字出现的频率会服从一个分布:
可算出不同数字出现在首位的频率分别为:
在 @Richard Xu 的答案中已经做了很好的解释,我再做一些补充。
首先,本福特定律是什么时候适用的?
第一,这个数据必须是一种「自然增长得到的数据」,没有上下限。
第二,这个数据最好能够横跨多个量级,如果量级不够,可能会严重有偏。
这么看,股价、财务数据、人口等一系列数据都适用于本福特定律的验证。
那么,拜登的选票是否符合这两个要求呢?
一些人说,当然可以,因为投票数其实相当于就是一种人口数,所以一旦他不符合本福特定律,就必然有假。
但这个判断并不准确,举几个例子即可明白:
中国分城市人口的首位分布如下图所示:
四川分乡镇人口的首位数字如下图所示:
从上图看,中国300多个城市的人口数据就显然不符合本福特定律,他的首位数字为2的频率甚至要大于1的频率!但四川5000多个乡镇的数据就顺眼多了。
难道中国分城市的数据是假的,而四川分乡镇的数据是真的吗?显然不是。
原因在于,中国的「城市」,不是一个自然生成的人口聚落,而是一个行政级别,只有满足一定的人口要求,才会从街道升级为区县;人口比较多的区县,有可能升格为地级市;而城市人口实在太多了,又会变成一个省级单位。
这个过程决定了中国的地级市人口很少在百万以下,但人口最多也就只有千万余人。
因此,城市人口数字的量级实际上也就两种——百万、千万。而且其生成和退出都有上下限,而这些上下限并不是自然规定的。那么对于验证本福特定律来说,这自然完全不符合要求。
但乡镇就不一样,他是一个更加自然的人口聚落,虽然有上限——人口太多的乡镇会升格为区县——但他几乎是没有下限的,如果人口密度很低,几百人甚至几十人都能成为一个乡镇。
以四川省为例,共有5249个乡镇街道,其最小值为400人,最大值为17万人,包括了百、千、万、十万四个量级,每个量级的数量占比都不容忽视。这就要比城市的人口更适合做本福特定律的验证了。
因此,与其上来就拿本福特法则不分青红皂白地乱用,不如先分析下,这里的人口,是一个自然生成的人口聚落,还是一个有上下限的人口行政划分?他横跨了几个维度?
以拜登在Milwaukee的选票为例,他自然也是有上下限的,这个上限就是这个街块的投票者数量;而投票者数量的上限,则是Milwaukee所有街块的注册选民数量。
那么,Milwaukee的四百多个街块(Ward)是如何划分的呢?
可以看到,最高4000人,最低2人,但值得注意的是,只有4个Ward的注册选民数量低于100人。换句话说,这个分街块的注册选民分布,基本上全部集中于两个量级内,要么是几百人,要么是几千人,而且这个几千人,实际上也全部集中在4000人以下,呈现了非常明显的上限,那就是划分街块时不能让这个地区的人口太多。
因此,此时我们对Milwaukee分街块的注册选民来验证本福特定律的话,会发现这个注册选民本身就不符合本福特定律:
首位数开头为1的比例高达40%以上,而首位数在6-8时的频率又不合常理地上升,这怎么能符合本福特定律呢?实际上,只是他们的数字区间和生成方式不能用本福特定律来解释而已。连街块注册选民都不能用本福特定律来解释了,那么投票数量自然更无法简单套用。
那么,为什么拜登的票,和特朗普的得票相比,更不符合本福特定律呢?
(川粉兴奋地睁大了眼睛)
这里我们要澄清两件事:
1,特朗普的选票分布,也是不符合本福特定律的,它在统计上符合本福特定律的概率小于0.001%,但拜登的选票数量符合本福特定律的概率低于1e-27。因此,特朗普只不过看起来比拜登的票更接近本福特的曲线而已,本质上仍然是一样的。
2,特朗普在Milwaukee的选票比拜登看起来更像本福特的分布,纯粹是一种巧合,看了下图我们就明白了:
上图是拜登的选票,下图是特朗普的选票。
拜登的票数和注册选民数一样,只有4个街块得票低于100,剩下要么是几百票,要么是几千票,只有两个数量级。
而特朗普的票,大量横跨了四个区间啊!
选票低于9人的,有17个街块。
选票在10-99人的,有147个街块。
有300多街块得票在100-999人之间。
还有13个街块特朗普的得票在1000人以上。
一个横跨了四个区间的数据,和一个几乎只跨了两个区间的数据,比谁更符合本福特定律,然后声称后者造假了,这是什么行为?这是不要脸!
当然,我相信还会有特朗普的粉丝来反对这个结论,我不管我不管,特朗普就是比拜登符合本福特定律,所以拜登造假啦哇呀呀呀。
我早就预料到这一点,所以我还特意去找了另一个郡。这个郡在犹他州,名称叫做Utah county,颇有一点吉林省吉林市的感觉。该郡人口不少,特别的红,今年投出24万票,其中67%投向了特朗普,以一郡之力为特朗普领先了11万选票。
Utah county一共有371个Precinct,其含义和Milwaukee的Ward一样,算是一个最小的区划单位,其注册选民数量也和Milwaukee一样,最小几个人,最大不超过4000人,数据可以在这里找到(Story Map Series),其注册选民的分布如下:
同样是几百人到几千人的街块,非常类似的注册选民分布,同样严重的偏向——但在Milwaukee偏向的是拜登,而在Utah county 偏向了特朗普。
那么,特朗普在Utah county的得票,是否符合本福特定律呢?
要是不仔细看标题,谁能知道上面两张图里,哪张是特朗普在Utah county的票,哪张是拜登在Milwaukee的票呢?
美国这套办法毕竟实行了200多年了。
规则定了,双方都熟悉,能用的手段都差不多。
比如你说借阴兵,双方都能借阴兵;重复投票,双方都能重复投票;假冒身份投票,双方都能假冒身份。所以双方不存在谁吃亏的问题。
当然,法律上这些行为都是违法的。各色人等有多大的动力为了一个自己中意的候选人,自发冒着自己违法的风险?正常情况下都不值当。
候选人会不会暗中组织人去做票呢?这个风险极高,内部出奸细了基本把自己的政治命运搭进去了。想想尼克松就因为派人去卧底民主党大会,就被逼迫下台了,而且遗臭万年。现在的候选人应该没有敢重蹈覆辙的。
一些组织会不会为了自己中意的候选人而主动做票呢?这个可能性也不高。美国的各种组织也都有金主,都有自己的章程,也都受法律约束。明明可以恰两边饭,组织的负责人把自己的前途搭进去,貌似也不值当。
所以,大规模舞弊应该是很难发生的。个别极端的人行为不好讲,但不足以影响大局。而且,个别人的行为对双方机会都是均等的。
所以,最关键的,就是调动选民的积极性,让更多的选民愿意为了你而自发地去铤而走险。
那其实,更能调动他人积极性的候选人,赢得选举也是合情合理的。
不存在一方是君子、另一方是小人的情况。
都不是省油的灯。
当然存在“舞弊”的可能,但是我觉得更合适的说法应该是“未登记投票者”,"undocumented voter"
让我们来看看共和党人为了阻止人民行使投票的权利,做了哪些事情吧:
1) 他们要求投票必须有带照片的ID。这明显歧视哪些没有照片ID的公民。投票本身是神圣的,不应该用照片ID来增加投票的难度,进而玷污投票的神圣性。
2) 他们要求投票必须是公民。这是歧视非公民,不对,是“未登记投票者”的权利。所有人生而平等,即使不是公民,也应当享受投票的权利。“未登记投票者”都是拥有美国梦的,dreamer。他们来到这个地方,是为了追逐自己的美国梦,美国也不正是因为是一个充满梦想的地方而是美国的吗?有些“未登记投票者”参加黑帮,倒卖毒品,甚至违法犯罪,但是他们都是好女孩,不对,都是好人。现在却阻止“未登记投票者”的投票权,开国先驱们,倘若泉下有知,一定会恼怒不已。
3)他们只允许一名投票者,投一次票。公平是重要的美国精神。一个人如果足够热情,那么他就应该被允许投多次票。一个有强烈倾向的投票者,和一个仅仅摇摆的投票者,他们的投票,含金量自然是不同的。人与人之间投票的权利是平等的,只是有些人投票的权利应该更加平等。
Did Obama supporter vote 6 times in 2012? Ohio poll worker target of investigation4)最后,他们要求投票者必须是活人。有句话说得好,活着是美利坚的人,死了也是美利坚的鬼。既然都是美利坚的,那为什么一个可以投票,另一个不可以呢?我们如果看到非活人的选票,应该相信那是死去投票者的意愿,并加以尊重,而不是剥夺这些人投票的权利。
Fraud: CBS News Discovers Hundreds of Dead Voters in Greater Los Angeles所以题主,如果大选出现“未登记投票者”的情况,我会认为这是美国思想的进步,代表着进步,平等,自由的世界之光。我热忱的相信,这种进步,平等,自由的未来是一定会到来的。就像我相信转基因食品一定慢慢被越来越多人认识到是有害的一样。
p.s.最近一个朋友差点因为转基因搞得家破人亡。因为他家经常吃转基因食品,最后弄得他跟他孩子的亲子鉴定都出现了基因不合的情况。要不是及时认识到是转基因食品的恶果,可能这个世界上又会出现一个家庭不幸福的小孩,这该多让人心疼!
知友 @chenqin 已经解释过:当一个选区内人数本身不是自然增长而是人为划分的时候,(基于首位数字的)本福特规律不再适用。
事实上,在划分用于计票的(小)选区的时候,为了便于管理,每个选区内的人口需要划定得大致等同。否则,一个选区选民多,一个选区选民少,投票和点票组织起来不方便,选民等候排队的时间也会大相径庭——选民是不能跑到别的地方去投票的,因为在领取选票的时候,选举工作人员需要核对选民领票的签名与注册成为选民时的签名是否一致。当然,划分的时候也有一定的地理限制,不能完全一样:有些地方人口本来就稀少,也不能为了凑够人数,强行让选民跑很远的路去投票。
因此,正如密歇根大学政治学与统计学双聘教授Walter Mebane在2006年发表的论文中所指出的那样:
假如每个选区都是1000人左右,每个候选人都大概能得到50%左右的选票,那最后分选区的选举结果的首位数必然大多集中在4或者5。因此,最后首位数字的分布必然和本福特规律不符。
有鉴于此,Mebane教授提出在分析选举结果的时候应当使用第二位数字,而不是首位数。第二位数字的本福特规律如下:
如果我们把这个规律和密尔沃基县两位总统候选人分选区得票数字的第二位作比较,我们并不能得出哪一边的得票分布更不符合(第二位)本福特规律的结论。换言之,没有基于本福特规律的统计学证据表明哪一方操纵了密尔沃基县的选举结果。
参考文献:
美国2020年大选中,至少有四个可供作弊的大漏洞。
国运来了,城墙都挡不住。美国大选正在一步一步走向对中国最有利的方向:民主党和共和党将围绕「选票作弊」这个事情,把官司一路打上最高法庭,而他们的支持者也会在街头对峙,美国走向进一步撕裂,这已经成为吃瓜群众的共识。
咱们吃瓜也要吃出水平,我感兴趣的是美国2020年大选中,到底有多少可供作弊的漏洞?调查了一下之后,感觉全是漏洞,虽然这些漏洞没办法被大规模的利用,但是在关键摇摆州做点关键动作,就能轻易实现四两拨千斤的效果。
比如佐治亚州,两人的选票只差7000张,这不就是乾坤大挪移,四两拨千斤么?
在关键的时候,小人物利用漏洞,完全可以影响大人物的命运。而美国大选的整个机制,就像美国法律一样,存在着各种各样可供利用的漏洞。
从这个角度而言,懂王是个悲情人物,当然我也不同情他,我只是吃个瓜而已;接下来我就详细盘点一下美国大选中留下的后门儿,触目惊心啊。
在美国大选中,不同州的居民需要提供不同的身份证明信息,比较严格的州会要求选民提供驾照、身份证、军人证或者护照用于证明身份,这上面至少有照片;但宽松一点的州,连选民照片都不需要核实,也接受出生证明、社保卡、银行对账单、水电费账单作为身份证明。
这TM是开玩笑吧?我国村干部选举都不会这么儿戏。我只要拿着一张水电费账单,说我叫Trump Joe,难道我就能获得投票权?这可不是我编的,这是美国政府的官方网站写的(http://usa.gov/voter-id),大写的服气。
即使我没有身份证明,那么只要我签署一份确认身份的表格,在某些州里也能获得投票资格,但如果这样,州政府会调查我的选民身份,而冒用选民身份是犯罪。但如果我假冒死者的身份,投完了票我就走了,有什么好怕的?
另外,美国的身份管理也是一片混乱,比如结婚之后,女性需要更改姓氏,重新进行选民注册;但是驾驶执照上面,可能还是未婚姓名;那么具体操作上,我可以用Hillary Diane Rodham投一次票,然后再用Hillary Clinton再投一次票?
在美国,这个漏洞是在一直被弥补的,但是补来补去还是有漏洞,目前还有16个州里,选民可以在选举日亲子投票,不需要出示身份证件,只要通过身份确认程序就行。比如没出示身份证件的选民,可以签一个宣誓书,提供签名以供选举官员核实对比,然后再提供他的地址;宣誓、签名、给地址,就这也能获得投票权!
比如内华达州,这次也翻盘了,只需要签署选民调查书即可;新泽西州需要提供签名,但是鉴别签名需要有经验的官员,想作假太容易了;俄勒冈州需要在选票的信封上签名,然后由工作人员负责与申请时的签名进行对比;宾州也是一样,只需要选民提供宣誓书、提供姓名和地址,并且对比签名即可。
马里兰州,新墨西哥州和明尼苏达州还严一点,要求没有身份证明的选民再提供出生日期,如果想作假的话,至少年龄看起来要接近才行,如果伊能静在美国投票,应该可以冒充25岁的妹子。
(来源:https://www.ncsl.org)
对了,威斯康星州(拜登突然得到20万选票翻盘的州)对身份证明的要求还比较严格,需要提供Photo ID,也就是带有个人照片的身份证件,但是威州还允许一个例外——选民对拍摄照片有宗教异议。
美国可不像我国这么优秀,我国的每个居民都有统一的身份证编码,这个是在2001年前后开始推动的,到现在为止身份证是在中国生活的关键道具,但是美国还有大量非法移民、有可能有人没缴纳社保。
在大选这种全球关注的环节,美国都没法在投票现场自动核实选民身份,而在中国,火车站检票都已经可以用AI进行初步的对比,相比之下差距还真心不小。
美国一直是允许选民通过邮寄选票的方式进行缺席投票的,英文叫Absentee Ballot;2020年因为疫情原因,有一些州要求选民通过邮寄选票的方式进行选举。
(来源:http://www.usa.gov/absentee-voting)
在http://fvap.gov这个网站上可以看出,这个主要是为了军人和海外公民服务的,但是在2020这个魔幻庚子年里,要求变了。
如果我想申请一张选票,我只要在http://FVAP.gov这个网站上下载一个PDF的申请表,然后填写、打印、签名之后,再寄给当地的选举委员会即可。我需要提供的信息,主要就是姓名、生日、社保号、驾照号、联系方式、收件地址这么寥寥几项就行。
大家是否还记得我在《7人被绑架到境外虐待勒索-调研赌博平台进化史》中提过居民信息四件套的东西?包括身份证号、银行卡、U盾和手机卡,黑产以每套信息300元的价格买入,靠这些大量的马甲账号,完成洗钱、刷单等违规操作。
注意,包含银行卡、U盾的四件套才只要300块钱,那你说就这个申请表上,列出的居民信息和签名,值多少钱?在中国是5毛一条,在美国就算是多点,5刀一条信息也差不多了。
在申请通过后,当地的选举委员会会给你寄出一张带着信封的选票,选票和信封是分离的;选票上没有个人信息,选民需要在选票上像涂答题卡一样涂满一个圈圈,然后把选票对折,再装进信封里,信封上是要有选民的签名;注意,邮费是不需要选民支出的。
通过自动分拣机,装着选票的信封会被扫描二维码,分拣到不同的选区;同时摄像机会拍下来选民在信封上的签名,并与选民在申请选票时的签名进行自动对比;如果机器校验不通过,那么就需要人工干预,这就需要工作人员了。
这里面是有漏洞的,如果美国某个地下产业开始大批量的获取居民个人信息,然后在FVAP上提交选票申请,只要确保社保编号与姓名符合、收件地址正确,那么他们就能够掌握一批选票,数量至少可以是几百张。
按照中国黑产的规模,5人诈骗团队就可以用群控软件模拟上千人,就算美国人效率相对低,在某些选区,一个20人的团队,处理1000张选票,我个人认为,是没什么难度的。
懂王这次选战输掉的最关键一战,就是威州翻蓝。我认为这不是身份造假的原因,而是因为威州有大量的邮寄选票,这个在威州Milwaukee郡的官方网站上就有说明,截图如下:
注意我高亮的这个地方,Milwaukee市中心选区,竟然有18.2万张邮寄选票,回收16.9万张;而其他的地方不过是一两万或者几千而已,这个数字差距,为啥会这么大?另外Milwaukee仅仅一个郡,拜登的票比川普多了18.3万,这数字还挺接近的,值得品品。
英国BBC就曾经试验过在英国大选中作弊。测试人员随机在旅游胜地托尔贝市当地报纸的讣告栏上选了5名新近去世的当地居民,以这些死者的名义给当地的选举委员会发信,要求选举委员会将他们的空白选票寄到他们的地址。
托尔贝选举委员会很快就把空白选票寄给了BBC的测试人员;测试人员只要愿意,他完全可以在这些选票上自行填写,完成投票。这么一个大城市,每年都会有上千人过世,而模仿他们的身份,简直轻而易举,所以在选举中就会出现逝者行使“神圣的选举权”的故事,也就是亡灵投票。
在美国2016年大选中,也发生过这样的事,一名生于二战期间、死于2014年的美国公民,在2016年大选中同样投了票,这是「华盛顿邮报」报道的。
在西方发达国家里,选举机制存在巨大的漏洞,冒名顶替简直太容易了。我相信懂王也看明白了这件事,但是懂王只能无力的呼吁停止邮寄选票,但是又没法改变法律,只能困兽犹斗,哈哈哈哈哈。
另外,在这种机制下,重复投票(换个城市重新投票)也非常正常,2016年大选,不就爆出来过希拉里团队组织了大巴车队,把芝加哥的选民送到威斯康星去投票——注意,又是威斯康星。
著名小说《飘》里面,也记录了南北战争之后,共和党用火车拉着大量的黑人到不同的城市重复投票的故事。在电影《纽约黑帮》里,也拍过投票舞弊的故事,一帮人在留着胡子的时候投了一次,然后刮了胡子以后,再去投一次票,这不就两倍了?
2000年时候,在佛罗里达州,民主党就使用过囚犯投票;2020年大选,布隆伯格也花钱让囚犯出狱投民主党,实在是神操作啊。
在美国的求职网站Monster、Indeed上面,我找到不少选举类的临时工Offer,比如这个,每天工资75到300刀,负责进行选民登记和选举相关活动,进行选举准备;基础要求是年满16岁的美国公民,当地居民,非公职人员,具有英语口语和读写能力,必须能够举起15-46磅的重量(估计是选票箱),无犯罪记录,与被选举人无亲属关系。
秘书每天125刀,投票管理员每天275刀,投票管理员助理每天175刀,夜间兼职工作每天75刀。在大选期间雇佣临时工来负责具体事务,这是第一个可供利用的大漏洞,因为无论民主党或共和党,他们都可以在这个环节把「自己人」安插进去。
但是正因为这个环节中,都有两党的人,各个利益集团都会盯着选举工作的进行,所以这就是互相渗透,如果有人想做手脚,很难保证不被察觉;但是如果某个人负责单一环节,比如负责搬运的人不慎弄丢了一箱,或者在没部署信息系统的地区,因为人工统计产生统计错误,这个很有可能。
2015年德国不莱梅地区选举时,参与计票的是不莱梅某中学的学生(年龄段为16至18岁),他们的工作就出现了统计错误。德国政府严密调研之后,因为参与作弊者均为未满18周岁的未成年志愿者,所以作弊者没有收到处罚,但是选举结果还是被改变了,呵呵。
在这次美国大选中,如果选民的签名跟申请的文件不符,比如二条的视频里,申请文件的签名是Raymond,而信封上的签名是Ray;这就要通过工作人员(临时工)来识别了,而这位小姐姐就给这个不符合的签名放行了——这就是临时工的自由裁量权。
临时工的自由裁量权不小,比如一张有瑕疵的选票,比如名字不符、污损、填写存在错误、信封信息写错了,那到底是算成废票还是有效票,这完全取决于当时负责的临时工。
如果我想作弊,我只要把我的人安排在这种的关键岗位上,负责核查邮寄选票的有效性;如果邮寄选票来自竞争对手占优的选区,那就把通过标准设置得高一点,把有瑕疵的选票全部作废;如果邮寄选票来自我占优势的选区,那就尽量让所有选票都通过审核——这就是自由裁量权。
比如2000年戈尔和布什的那场竞选,最后的关键摇摆州是佛罗里达,25张选举人票,但是戈尔和布什的票数十分接近,在600万张选票中,小布什仅仅领先了戈尔900票。
然后在重新计票时,发现佛州产生了大量废票,原因包括地址不清晰、填写不规范、打孔打歪了等等,仅仅在棕榈滩县的废票就有2.9万张!如果这些票全部被开出来,谁会胜出呢?
比如在佐治亚州,最终结果是,拜登仅仅领先懂王7000张票;参照2000年发生的戈尔和布什的历史,佐治亚州到底有多少张废票?这些废票是谁来裁决的?
来源:https://results.decisiondeskhq.com/2020/general/georgia
比如仅仅在Dekalb这个地方,拜登就领先了懂王将近25万张票;而根据维基百科,Dekalb郡人口总数69.2万,然后拜登跟川普的得票率之比达到了83% vs 15.8%,挺有意思,大家细品。
为了补这个漏洞,民主党和共和党也会派出观察员,也就是懂王在推文中写的Observer,但是这次在大选中,有的州以新冠疫情为由,拒绝观察员进入计票大厅或者投票点;所以懂王只能在推特上愤怒的咆哮,但是他的推文还被推特限流了……
懂王其实是做了一些反制措施的,比如今年5月,懂王任命乔伊(Louis Dejoy)担任美国邮政(USPS)局长,乔伊上任后就要求拆除多个州「使用率低下的邮箱」,并把他们转移到交通繁忙的地区。
另外USPS还进行了一系列降低效率的改革,比如停止夜间邮递、缩短运营时间、停发邮递员加班费等改革措施。然后华盛顿州的一名联邦法官还发布禁令,要求USPS停止改革,因为这些改革是出于政治动机,会降低大选邮寄选票的效率,啧啧。
USPS在7月还向46个州发警告,表示因为经费和人手紧张,无法在各州规定的截止期内完成选票投递。到10月的时候,美国一等邮件的准时率仅有85.6%,低于改革前的91%。这要是在中国,哪个快递敢这么干,那四通一达和顺丰还不得开心到死,马上启动大规模招聘?毕竟双十一这种盛况,也就中国才有吧。
另外,邮寄选票就应该早点寄出啊,把邮寄选票的邮戳有效期选在竞选日前一天,也就是提前一天寄出即可,这是开什么国际玩笑?就美国这邮寄准点率,你说有多少选票会迟到?怪不得懂王要求停止接收逾期的邮寄选票呢。
上百年来,现场投票选民的身份核实一直存在漏洞;邮寄选票也一直存在漏洞;在选举环节中大量使用临时工,更是方便利益集团掺沙子的漏洞,开票和计票环节中赋予临时工自由裁量权,更是漏洞……
美国是全球最发达的国家,棱镜计划可以监控全球各国的领导人,也能随时派出无人机定点清除对手的高级领导人;区块链也好、社交网络也好、特斯拉也好、IBM/MS也好,都是在美国壮大的,美国大选中有这么多漏洞,真的堵不上么?
这次美国大选,1.5亿人的投票算是很大规模了;但是中国在疫情期间也搞过全民的信息统计,特别是湖北,也有5850万人,武汉也有1100万人;不也是举重若轻地完成了?各地搞的健康码,不也统计了居民信息?
中国做得到,美国做不到么?做不到的原因,是能力太菜,还是压根不想堵?
我的搜索能力还可以吧?关注我的公众号『任易』,一起用技术追寻真相。
此次美国选举事态变化反复出人意表,恐怕《纸牌屋》的编剧都不敢这么编,但它却硬生生的在现实中发生了,世界瞩目。
在我看来,剩余摇摆州的开票已经不是关键,选举战已经结束,接下来迅速会展开的是法庭战;无论结果如何,双方肯定还是需要再继续反复剧烈拉锯一段时日。
之所以会需要诉之最高法庭,川普支持者们是声称投票过程中存在舞弊,这是非常严重的指控,各种所谓“证据“也在互联网上四处传播。
11月3日投票日之后,开票结果其实一路是川普领先,但在4日凌晨,拜登则开始出现反超。
其中,最重要的反超是来自于威斯康星州;拜登一开始的得票大幅落后,而4日凌晨4点左右,拜登突然获得了大量的选票,其得票曲线已经难以称为曲线,而是直线:
有的人,一看到这样的”有图有真相“,便认为这就是选举舞弊的证据,并四处转发。但如果再去深入了解一下,便会发现这样的”证据“其实不是那么站得住脚。
后续很多新闻报道都拿出了详细说明来证实此种情况:
根据上述等报道,半夜拜登的选票剧增,其实只是来自于Milwaukee等乡郡的邮寄选票在晚上被送达了集中检票点后开票得来得。Milwaukee是深蓝选区,再加上又是邮寄选票(民主党支持者多采用邮寄的方式投票)那么出现拜登在短时间内获得大量选票,而期间川普甚至一票不得的情况,也其实不是那么匪夷所思。
当然,我们还可以进一步来校验:
在上面威斯康星的乡郡投票结果分布图上可以明显看到,支持拜登的乡郡其实是属于少数,但像Milwaukee这样的深蓝选区,偏偏却有大量选民,一下子就可以把选票拉开:
Milwaukee一共约45万张选票,拜登拿了近32万!那么,半夜清点Milwaukee的选票时,拜登得票要是不激增,那才是不对劲。
作为比较,像Rusk这样的乡郡,地方虽然可能很大,但选民却实在是少:
(上述三图引用自:https://results.decisiondeskhq.com/2020/general/wisconsin )
我们还可以翻2016年的数据来比较,来确定一下Milwaukee是不是真的是一个深蓝选区:
2016年希拉里在Milwaukee拿了28.8万,川普是12万6;而今年拜登拿31.7万,川普拿13.4万;双方都增加了,只是拜登增加了2万8,比川普多了两万。
两万?这不正好就是拜登在整个威斯康星领先川普的票数嘛?
因为川普抗疫不力,又或者是邮寄投票便利了,又或者是拜登的政纲更受Milwaukee这样的城市选民认可,因此多了两万人出来投票给了拜登,莫非就是天意如此?
数据看起来也都很合理,其实并没有什么猫腻。很多时候,只要稍微多花一点功夫,深入了解多一点点求证一下,很多看似匪夷所思的“阴谋”,其实也都是可以解释得通,合情合理得很。
网上还有人在宣称说什么威斯康星投出来的票数比登记选民还多的,甚至还配有一个“官方网站”的截图;但实际上,只要稍微求证一下,便可以知道那根本不是官方网站,而且截图中的登记选民数也是错的。
威斯康星的选举官方网站是在:https://elections.wi.gov/node/7220
截止到11月1日,总登记选民是3,684,726;也就是说投票率约是89.3%
美国选举的很多资料是公开的,像上面说的对此次选举拜登逆转的关键选票是来自于Milwaukee,我们还可以去其官方网站查看其具体的投票情况:https://county.milwaukee.gov/EN/County-Clerk/Off-Nav/Election-Results/Election-Results-Fall-2020
(上面网址可能现在打不开,但我们可以从webarchive中访问到:https://web.archive.org/web/20201105170602/https://county.milwaukee.gov/EN/County-Clerk/Off-Nav/Election-Results/Election-Results-Fall-2020)
整个Milwaukee共分478个ward选区,每个选区各有多少票投给了拜登、多少票投给了川普,都展示得一清二楚。
公开、公正、无舞弊?!
对于类似选票这样递增、并且公开的数据,其实就像双十一的商品销量一样可以采用统计学的方式来检验其是否存在造假的可能。
这里涉及的统计学概念叫做Benford's law 本福特定律,关于本福特定律的具体情况,李永乐老师已经跟大家讲过课了:
简单的说,本福特定律说的是:
在实际生活得出的数据中,以1为首位数字的数的出现概率约为总数的三成,接近直觉得出之期望值1/9的3倍。越大的数,以它为首几位的数出现的概率就越低。它可用于检查各种数据是否有造假。
本福特定律虽然违反我们直觉,但却是可以被严格的数学证明;至于怎么证明,这里就不累述了;第一次听到这一定律并感兴趣的童鞋,可以先去参考李永乐老师的讲解视频。
如果我们使用本福特定律来对Milwaukee的478个选区拜登、川普的得票情况做校验的话,它出来的结果是这样:
我们可以看到,川普黄色线基本符合本福特定律的分布,而拜登的蓝色线,则严重偏离。
这也就意味着拜登在Milwaukee获得的这些至关重要的选票高度存在人为干涉的嫌疑,讲人话就是:严重怀疑存在选举舞弊。
我是昨晚在推特账号 @statsguyphd 看到这一数据分析,面对这样严重的指控;严谨的程序员我,自然是找了朋友,先做一遍验算再说。
虽然statsguyphd给出他做校验计算的python源代码:https://pastebin.com/YKFyKtbc
但难保他在输入数字的时候多打了个0之类的对不对?他的程序可能也是有bug对不对?
嗯,我的一位朋友便从Milwaukee选举站点的数据抓取重新开始做,然后直接使用excel分析(完全不使用statsguyphd的python代码)并重新生成图表:
与statsguyphd不同的是,我们在excel中的Y轴是数字出现的百分比(statsguyphd使用的是次数),可以看到川普(蓝线)与本福特基线基本一致,而拜登(橙线)则严重偏移。
我们使用的数据以及excel保存于:https://github.com/Wuvist/bidenbenfords
坦白的说,作为美国大选的吃瓜群众,我这个不在美国工作的程序员对于谁当选并没有任何倾向,只是当看到详尽而有具体的选票数据强烈指向拜登的选票存在严重的人为干涉可能的时候,我觉得我有必要详细的讲分析讲出来,让更多的人一起来分(chi)析(gua)。
实际上,今天也可以看到不少程序员也是在做同样的事情。
我上面只是对关键的Milwaukee的最终得票结果做了本福特校验,推特上的 @toad_spotted 则更进一步分析拜登在4号凌晨之前的得票数据的分布,@tdtw做了校验:
而最早提到的statsguyphd则干脆开了个github项目:https://github.com/cjph8914/2020_benfords
对此次选举更多的美国城市得票数据做了同样的本福特曲线分析:
可以看到,他们都基本符合本福特定律;横向、纵向的数据比较都在可以做。
我如果不是自己做一遍分析,其实很难体会到拜登在Milwaukee的得票数据是多么的异常!
当然,使用本福特定律来检查选举数据是否有造假也不是什么新鲜事,它是否是一个有效、靠谱的手段,学术界也早有过理论争论:
就我个人而言,在做完上述种种分析之后,我是强烈认为拜登在此次选举中的得票存在重大舞弊嫌疑。
当然,嫌疑只是嫌疑;关于本福特曲线的这些分析,我认为最多只能是拿来当作“立案调查”的表面证据,而不能当作确认存在舞弊的事实证据。
我想,也有很多在美国科技公司工作的程序员,据说他们也大都支持民主党与拜登;我很想知道面对上述这些使用公开数据、可独立校验的统计学论证,他们是否也会认为拜登在此次选举中的选票存在舞弊的嫌疑?又或者,我们还可以做更深入、更仔细的分析来“翻转”?
共产主义政党长期治理的喀拉拉邦在印度处于人类发展指数的前茅,这就是共产主义对印度的影响。
另外,南亚人是非常非常喜欢取经名的。这也是一个地域特色了。