有人说, 如果这是数学题的话, 那么就是1/2; 如果实际情况的话, 就是1.
那么, 如果数学没有办法解释实际问题, 要数学何用啊? 答案1/2只是人们的想当然, 因为一说硬币, 大家就觉得是常见的那种, 就是均匀的. 但是, 99次抛掷出现99次正面的事件已经发生了, 难道还要认为这枚硬币是正常的硬币吗? 怎样用数学和统计学去解释这个事情呢? 下面的回答中也有人提到贝叶斯, 这里我将详细解释一下贝叶斯的思路. 但是首先, 我们考虑两种情况.
我们考虑这样几种情况:
1)我们不妨暂且认为硬币是均匀的, 即正面朝上的概率是1/2, 看看这个情况下结果怎么样;
2)因为题目中只是说一枚硬币, 我们可以认定不知道硬币是不是均匀的,即是,不知道出现正面的概率是多少。
1) 如果硬币是均匀的. 在这种情况下, 每投掷一次,出现正面的概率是1/2。当然, 由独立性, 第100次的概率还是1/2.
那么有人就说了, 刚才连续得到99次正面, 现在还能得到正面, 也就是连续100次得到正面, 这个概率也太低了吧, 几乎是不可能事件啊. 确实如此.
如果这100次的投掷是独立的,那么100次都投掷的结果都是正面的概率是:
这个概率非常小。统计意义上, 可能性小于5%(或者1%), 都会被认定为“小概率事件”(意思是现实中不太可能发生的事件), 何况这个概率这么小呢?
但是,这个事件能不能实现呢?理想情况下是可以的,因为概率虽然接近于0,但始终不是0. 如何实现呢?比如吧,你有 枚硬币,投掷一次,其中正面朝上的个数是 然后将这 枚硬币继续投掷,设其中正面朝上的个数是 . 按照这个步骤走下去,最后得到 如果开始你的硬币足够多,那么有一定的概率,最后 是正的。所以,对于这么 枚硬币,刚才投掷了100次,每次都是朝上的。所以说,理想情况下,这件事可以办到。但是, 这就需要很多很多次试验, 才能办到. 至于能不能找到这么多硬币, 就不是我所知道的了(大概率没有).
可是, 按照题主的描述, 不会有太多人相信这枚硬币是均匀的, 那么我们不妨先问自己, 正面朝上的概率参数 到底是不是 1/2 呢?
不妨引入统计学中的假设检验: 设原假设是 备择假设是 那么, 由99次试验的结果来分析, 这个假设检验的p-值远远小于 . 所以, 从假设检验的角度, 我们拒绝 成立.
既然 那么 又该是多少呢? 接下来, 我们就可以用统计学中的估计方法来给出 的估计值或者贝叶斯的后验分布.
2) 如果不知道这枚硬币是不是均匀的. 假设对于这枚硬币, 正面朝上的概率是 . 由独立性, 第100次正面朝上的概率是 . 那么我们就想知道, 到底是多少呢?这就是数理统计的问题了。我们可以考虑, 根据前99次试验结果, 给出 一个估计值.
如果独立地投掷硬币 次,其中有 次正面朝上。如果第 次投掷正面朝上,那么记 否则, 记为 这样一来,刚才所发生的事件就是
设 是正面朝上的概率,那么给定每个 ,观测到 的概率是
这个时候,其似然函数是
虽然 和 形式一样,但是注意的是,第一个是关于 的函数,第二个是关于 的函数。所以,既然现在 发生了,对于不同的 ,其概率是 , 所以最有可能的 该是能极大化 的那个数。我们把
称为参数 的极大似然估计。解出来,得
在你的这种情况下,你已经抛掷了 次且全部是正面, 那么
所以,对于你的硬币,如果独立地投掷99次,结果都是正面,那么我们就很有理由相信,这就是个只能投出正面的硬币!!!所以当你抛掷第100下的时候, 这个正面朝上的概率的极大似然估计值是1, 这样也就有理由相信最后一次结果还是正面朝上.
2)‘ 或者,我们用贝叶斯的方法来算参数 的后验分布。因为 我们不妨假设起先验分布 为 上的均匀分布。于是,由贝叶斯公式,给定我们在 次试验中观测到 次正面,那么参数 的后验分布 为:对于任意的 ( 的任意一个Borel子集),
其中, 是 上的均匀分布的分布函数. 这里, 我们用到了贝叶斯公式和式 .
所以我们看到,后验分布 这也就是给定观测到抛 次硬币得到 次正面朝上的情况下,这枚硬币正面朝上的概率 满足的分布。
现在如果固定 如果 那么其后验分布为 其密度函数是:
可以看到, 的后验分布在 0.5 附近徘徊。
如果 那么这个时候,它的密度函就变成了
可以看出,它集中在1附近。这也与我们上一节所说的极大似然估计的结果是一致的。其实,在这个时候,
也就是说, 从贝叶斯的角度来说, 取1的可能性依然很大. 所以当你第100次抛掷这枚硬币的时候, 将有超级大的概率 (high probability) 还是得到正面的结果.
------------------------------------ 一个贝叶斯分割线 ---------------------------------
这一节的开头, 我们说“不妨”把先验分布选为均匀分布. 贝叶斯中, 把先验分布取为均匀分布是一种常见的取法, 这种先验分布又称为“无信息分布”. 意思是: p在[0,1]上取值, 我们并不对它有任何主观性的预判, 暂且认定取任何值的几率都相等.
那么, 选其他的先验分布可以吗? 当然是可以的, 这取决于你个人主观上对这个问题的理解. 有人评论说, 把先验分布取为“正态分布”, 可以吗? 我们说“正态分布”在这里是不合适的, 因为p是一个有界的参数, 所以 不能取负数或者大于 1 的实数. 如果取负数的话, 就是说, 你预设这枚硬币应当以一个负数的概率为正? 这就不符合事实了.
很多人认为, 硬币嘛, 正反的概率就是 1/2 啊, 因为很多常见的硬币, 从小到大见到的硬币都是比较正常的, 就认为这个参数 的先验分布是在 1/2 周围的. 不行吗? 当然也可以啊.
如果您对这枚硬币的参数取值的预判就在 0.5 附近, 那么不要选“正态分布”, 却可以取成一个 的分布. 这是一个取值在 区间上的概率分布. 这里 越大, 这个分布就越集中在 0.5 周围. 那么这个时候, 贝叶斯的估计值就是 特别地, 当 趋于无穷大时, 这个贝叶斯的估计值其实就是 0.5. 这就是说, 你的预判产生的效果已经严重盖过试验的效果, 使得预判跟后验分布是没有什么差别.
注意到当 是, 这个特殊的 Beta 分布就是均匀分布, 也就是我刚才回答中的情形.
当然, Beta 分布也是一个建议, 你完全可以选取其他你喜欢的先验分布, 毕竟是主观预判嘛!
4.3 更新:
谢谢大家的点赞和评论, 你们的评论让这个问题变得更加清楚. 我也希望用我对这个问题的理解, 让大家对概率论和统计学产生一丢丢的兴趣.
评论区有人对贝叶斯的先验分布的选取有些疑问, 那我我就再在文末加上一节吧,讨论一下贝叶斯的“先验分布”, 也就是个人的“主观性预判”.
什么是“主观性预判”呢? 其实从这个问题的其他回答里我们可以看到, 很多人回答概率是 1/2 (虽然题目中并没有给出这个条件), 他们的回答里, 独立性是没问题的, 但是就是对 1/2 的“预判”太重, 导致就算试验出现了 99 次正面, 也改变不了他们的想法.
这其实并没有错, 毕竟这是一个开放的问题. 我在回答里也并没有说“出现正面的概率一定是1”, 而是“这个概率的估计值是1, 或者很接近于1.” 主观的预判对于最终答案的影响, 其实就是反映出了贝叶斯统计的观点. 原来的回答里, 我把p的先验分布定为均匀分布, 也就是无信息先验分布, 就是说我不加任何的预判, 这个时候, 贝叶斯的估计值是100/101. 那么反过来, 如果您觉得不合适, 根据你对硬币的认识, 你觉得先验分布就是在1/2的单点分布, 那么用贝叶斯的观点, 你的最终答案就还是1/2.
频率学派就不一样了, 他们完全相信数据给出的信息, 不作任何主观的预判. 所以, 在2)中, 极大似然估计值是确定的, 它并不随你的预判的改变而改变.
如果有其他问题, 欢迎在评论区留言. 谢谢大家!
这是我看到的最准确的总结。
总的来说,就是中国的高考相对公平,所以性价比极高,所以其他活动都可以适当让步。