@赵卿元 的回答很好,从应用角度补充一下自己的看法。
从应用角度看,我觉得本科阶段的概率统计教科书不教幂律分布可能和这玩意的生成机制有关。
各个中心极限定理保证了:一堆相互独立的随机事件,只要满足一些比较宽松的条件,就可以生成正态分布。与正态分布相关的分布,例如卡方分布和F分布的性质,以及一些常用的统计检验,推导起来比较容易。围绕它们来建立直觉也相对容易。只要我们实际面临的数据经过某些变换和正态分布或者它的好朋友无法区分,用基于正态分布的一套东西处理往往就足够好了。
如果一堆随机事件相互之间存在某种关系,那么它们可能可以生成幂律分布(不保证,也可能生成别的比如正态分布)。至于到底满足什么性质的,具有相关关系的随机事件可以生成幂律分布,满足哪些性质的具有相关关系的随机事件不能生成,我暂时没见到说法。
那么考虑这样一个场景:我们面对一摊数据,它们看上去既有点像幂律分布,又有点像对数正态,那么它底下的生成机制到底是什么?如果你认为它是对数正态,那么你只需要说明底下的单个随机事件到底是什么就行。如果你认为它是幂律,那么你不仅需要说明单个随机事件是什么,还需要说明这些随机事件之间的相关关系是什么。就多这一件事,难度提升非常多。
我目前为止见过的关于幂律分布的研究,几乎都是先说一个机制和相关关系,然后告诉你这个机制可以生成某一种幂律分布。从一摊数据倒推出来的基本上没见过。我自己也试过倒着来,目前为止还没走通。
反之,你可以把做线性回归看作“我找到了一个机制生成了难以和正态分布区分的残差”。这种“从数据找生成机制”的操作是相对易上手的。
那么,找到一个疑似数据生成机制的东西有用吗?很有用。你告诉我一个 和一个 ,其实只相当于告诉了我一张log-log图长什么样而已,我能根据这俩数干什么我也不知道。但是你告诉了我一个 ,我就可以根据 去干点啥了。
尽管我个人的研究和幂律分布分不开,我还是不支持把这个东西下放到本科的概率统计教学内容里。本科的教学内容有个或软或硬的难度杠杠。这个杠杠一卡,能教的只有怎么用软件去估俩参数,别的东西都没法教。这教了用处实在有限。
Clauset这个页面总结了一些跟power law相关的资源。除了R的,也有python的MATLAB的。我看楼上没人提,赶紧安利一下~