假设检验其实挺好懂:以小概率事件在一次观测中难以出现为基础,尝试接受或拒绝虚无假设(粗糙点说就是什么事情也没发生)的过程。
说起来,在假设检验中,根据实验和测试的要求,可以把100%的概率切成两块(粗糙一些):
毫无疑问,两个假设互斥,概率之和等于1。
那么下面,就要用特定的假设检验方法(比如z-test,t-test,F-test等)计算,在虚无假设为真的假设下,此效应出现的概率。即先假设虚无假设为真(有点奥卡姆剃刀味道),然后计算观察到的效应到底多大概率可以出现。
倘若概率小于临界值(每个学科要求不同),即表明以虚无假设为真作为前提话,这样的结果出现的概率极小(也不是不可以,就是概率太低,比如扔100次正常硬币,次次朝上;你不能否认这可以出现,但是是扔100次一回的话,的确难以出现)。因此,尝试拒绝虚无假设,即接受备择假设。反之,接受虚无假设。
我尽量用朴素的语言和简单的例子来说明假设检验。
我们现在有两套搜索引擎,就算是百度和搜狗,想看看哪家搜索做的更好。分别使用5个搜索词到百度和搜狗搜了一下,看了下前10个结果里我们想要的结果有几个。我们用满意度来评价每次搜索的效果,满意度就定义为 想要的结果 / 展示的结果,例如想要的结果有5个,展示结果10个,满意度就是0.5。我们把百度和搜狗的满意度绘制如下表:
搜索词 | 杨幂 | 艾尔登法环 | JOJO的奇妙冒险 | 新概念英语 | 双城之战 | 均值 |
---|---|---|---|---|---|---|
百度 | 0.6 | 0.4 | 0.5 | 0.8 | 0.3 | 0.52 |
搜狗 | 0.4 | 0.5 | 0.3 | 0.7 | 0.4 | 0.46 |
difference | +0.2 | -0.1 | +0.2 | +0.1 | -0.1 | 0.06 |
似乎百度的搜索满意度均值高于搜狗的满意度均值,我们可以下结论说,百度搜索做的更好吗?
我们知道生活中有各种各样的随机事件,在搜索这件事上同样可能受到随机因素的影响,我们需要看看百度搜索满意度和搜狗搜索满意度的差异,是不是来自于偶然。(可能在这5个搜索词上搜狗的运气就是差一些呢?)
这时候,我们就不能只看均值了,不如来看看每个搜索词的胜负吧。
搜索词 | 杨幂 | 艾尔登法环 | JOJO的奇妙冒险 | 新概念英语 | 双城之战 | 胜率 |
---|---|---|---|---|---|---|
胜负 | 胜 | 负 | 胜 | 胜 | 负 | 0.6 |
我们并不知道搜索满意度满足什么分布(这是另外一个话题了),我们不如认为这世界上有一个无上意志,每次搜索的时候,他就会掷一次骰子,骰子正面则让百度胜,骰子反面则让百度负。那我们来算算掷5次骰子,其中正面次数大于3次的累积概率(p-value的定义,单侧检验):
大跌眼镜的事情发生了,p-value是0.5 > 0.05,百度和搜狗没有显著的差异。因为之前观察到的差异完全可以用掷骰子解释。
上面做的事情就是假设检验,假设检验里的非参数检验方法 - 符号检验(sign test)
无论什么样的假设检验方法,本质上都是在验证我们看到的数据,是不是来自于偶然(随机)。