这个问题很有趣。目前的答案中,我最赞同
@onion red的答案。
自然界最常见的分布并非是正态分布。
@枭枭的答案中提到的正态分布是最大熵的分布,这是对于封闭的系统而言存在概率最大的分布。他提到了熵增原理,也就是说,我们如果先默认熵增原理成立,那么必须假定系统是封闭系统。而最大熵的分布对于热力学系统而言,正是当系统处于热力学平衡态时的分布。他不是装逼,只是从物理的角度,假设一个理想的情况下,来考虑这个问题。
然而自然界最常见的分布并非是正态分布,对于热力学语言之下,这是因为自然界大多数的系统都并不是完美的处于热力学平衡态的封闭系统。在数学的视角下,它们彼此之间不是独立的,而是存在错综复杂的相互作用,不适用中心极限定理。严格的来说,自然界几乎处处都是开放的、有各种相互作用的系统,还存在许多自组织系统,即那些可以从比较混乱的初始状态,仅仅是由其局域的动力学规则,演化成有规律的体系的系统。
有更多的系统最多只能近似的、或局域(时间或空间意义下)的可以看做处于热力学平衡态,近似的看作其中的变量相互独立,或压根就不能那样考虑。
比如说生物的细胞中,由DNA转录为RNA、再由RNA翻译为蛋白质,然后蛋白质与蛋白质发生相互作用,或可以调控转录,这样的过程,其copy number经常并不多,而其反应过程的特征能量又与常温下的随机热扰动的能量量级不相上下,所以可以想见,其涨落非常大。生物系统正是不断地从外界摄取能量,自组织的完成一定的功能,维持低熵状态的系统。它并不适用于用热力学平衡态的那套模型去研究,也不服从正态分布。
@onion red提到了Zipf's law,这样的分布在之前被认为是一个fine-tuning 的问题(fine-tuning 的问题我们通常认为是个问题),也就是说需要系统得到精确的调控,才可以实现。然而今年有篇PRL文章提出了一种可以由系统中的随机变量导致Zipf's law的具有一定普适性的机制,请看这篇文章:
Phys. Rev. Lett. 113, 068102 (2014)而生物系统这样的自然体系,在漫长的演化之后,还形成了一些比较好玩的规则。比如如果单从动力学网络结构的角度来看,生物系统对应的网络拓扑结构的熵总是比较低的。也就是说,不光从物理上,其系统的熵比较低,从这种非物理的、仅仅在动力学结构的意义上而言,它的熵也低。请参考这篇文章:
PLOS Computational Biology: Identification of a Topological Characteristic Responsible for the Biological Robustness of Regulatory Networks所以说,你看,自然界其实是在不同的规则之下,有不同的机理,演化出不同的分布呢。
目前为止,人们总是认为自然界里各种类似生物这样的系统是很复杂的,没有普遍规律,而要case by case讨论的系统,这么认为的生物学家、化学家非常多。而物理学家又往往更多的研究一些更理想的系统(经常不是自然界本身就符合的,比如真空中的球形鸡),倾向于去寻找更简单的、普适的规则。我不敢去评论谁对谁错,然而我总是期望着,如果哪一天我们对物理更了解,对数学更了解,也对生物、化学更了解,我们就能在更为普遍的意义下,去建立一套描述生物系统之类系统的数学语言。如果哪一天我们真的能够窥见自然界普遍存在的复杂系统的“牛顿三定律”,那么我们也许会开始惊叹自然界其实比我们想象的要聪(tou)明(lan)。
对这个问题的研究,可以写好多本书,而且是还没有写出来,人类还不知道那种 :)
需要修正一下你的看法,自然界最多的不是正态(高斯)分布,而是长尾(幂律等)分布。你可以搜索一下heavy tail, zipf law之类的关键词。事实上,高斯分布更常见于人造体,而非自然界。原因为啥,我下面讲。
高斯分布怎么来的,很简单。只要你观察的系统里,各种对象之间关联很弱,那么他们的总和平均表现,根据中心极限定律,就是高斯或者近高斯的。你看我们人造的东西,很多都是模块化的,比如汽车轮船飞机,桌子椅子板凳,等等。我们人类造东西,都是“搭”出来的,一个模块和另一个模块之间关联很弱,坏了一个模块换掉就好。所以人造系统,其表现,包括性能啊,噪声啊,稳定度啊,都基于高斯分布。
但自然界呢,假如有个造物主,它造东西跟人类的思路就很不一样。它手里的作品是“生长”出来的。比如我们人,从一个受精卵发育而来,各个部分强关联,受精卵上一点缺陷,会反映到整个人体的巨大影响。这和桌子有本质区别,就算桌子原始材料有个洞,也不可能造出来桌面和桌腿都很多洞。“生长”这个过程到底服从什么本质的数学规律,我们人类还不确切知道。从2000年以后,学界的研究集中于通过随机游动,扩散这样的动力学行为来对“生长”出来的系统(复杂系统)尝试寻找类似于模块系统的中心极限定律的总体规律。有一些进展,但是还没有特别令人信服的突破性结论。
自然界中存在大量的正态分布,比如女性的身高:
图片出自 这里 。
正态分布的英文名为:Normal Distribution,台湾翻译为常态分布,可见一斑。可是为什么这么常见呢?
每个人都相信它(正态分布):实验工作者认为它是一个数学定理,数学研究者认为他是一个经验公式。----加布里埃尔·李普曼
1 高尔顿钉板
查尔斯·达尔文的表弟,英格兰维多利亚时代的博学家、人类学家、优生学家、热带探险家、地理学家、发明家、气象学家、统计学家、心理学家和遗传学家。
他发明了一个叫做高尔顿钉板的装置,展示了正态分布的产生过程:
1.1 细节
我们来看看高尔顿钉板的细节,或许有助于我们理解正态分布为什么常见。
弹珠往下滚的时候,撞到钉子就会随机选择往左边走,还是往右边走:
一颗弹珠一路滚下来会多次选择方向,最终的分布会接近正态分布:
1.2 扯淡
自然界中为什么会有那么多正态分布?下面开始胡诌了。
比如开头提到的女性身高,受到多个因素的影响,比如:
这些影响,就好像高尔顿钉板中的钉子:
要不对身高产生正面影响,要不对身高产生负面影响,最终让整体女性的身高接近正态分布。
中心极限定理说了,在适当的条件下,大量相互独立随机变量的均值经适当标准化后依分布收敛于正态分布,其中有三个要素:
每次采样受到各种随机性的支配,就好像钉板中的钉子,对采样结果进行或者正面、或者负面的影响,最终让结果形成了正态分布。
高尔顿钉板还有两处细节:
2 为什么还有很多不是正态分布?
在医学研究中很多分布就不是正态分布,对实施了前列腺癌症治疗的病人进行前列腺特异性抗原(Prostate specific antigen)的检测,检测结果的分布不是正态分布:
这里可能有两个原因导致了这一现象。
首先,样本取自实施了前列腺癌症治疗的病人,这些病人往往有各种各样的疾病,并不是全体人类样本,也就是说不够随机,所以结果很可能会偏向某一边。
其次,癌症并非是相加,癌细胞的分裂更像是乘法:
数学中,可以通过对数来把乘法变为加法:
因此我们对之前的数据取自然对数,结果就接近于正态分布了(这就是对数正态分布):
看上去还有点偏向左边,或许是因为采样不是取自全体人类,导致随机性不够。
以上数据及图片来自于《What is a p-value anyway? 34 Stories to Help You Actually Understand Statistics》。
财富分布也是有乘法效应在里面,这就是所谓的“马太效应”:
多说几句自己的感想吧,对于财富分布,我们大家肯定都希望自己往横坐标的右侧靠近。
那么在每次碰到钉板中的钉子时,都需要做出往左走还是往右走的选择,所以我们需要努力提高自己,使自己的选择比扔硬币的正确率高,减少随机性,这样才能尽量往右走。
以后回答为什么要学习?“因为正态分布啊!”
文章最新版本在(有可能会有后续更新):为什么正态分布如此常见?
女王:求求题主放过我,我可不敢有什么政绩。。。