百科问答小站 logo
百科问答小站 font logo



为什么我国的概率与统计学教科书里不怎么讲幂律分布? 第1页

  

user avatar   reinhardtjin 网友的相关建议: 
      

@赵卿元 的回答很好,从应用角度补充一下自己的看法。

从应用角度看,我觉得本科阶段的概率统计教科书不教幂律分布可能和这玩意的生成机制有关。

各个中心极限定理保证了:一堆相互独立的随机事件,只要满足一些比较宽松的条件,就可以生成正态分布。与正态分布相关的分布,例如卡方分布和F分布的性质,以及一些常用的统计检验,推导起来比较容易。围绕它们来建立直觉也相对容易。只要我们实际面临的数据经过某些变换和正态分布或者它的好朋友无法区分,用基于正态分布的一套东西处理往往就足够好了

如果一堆随机事件相互之间存在某种关系,那么它们可能可以生成幂律分布(不保证,也可能生成别的比如正态分布)。至于到底满足什么性质的,具有相关关系的随机事件可以生成幂律分布,满足哪些性质的具有相关关系的随机事件不能生成,我暂时没见到说法。

那么考虑这样一个场景:我们面对一摊数据,它们看上去既有点像幂律分布,又有点像对数正态,那么它底下的生成机制到底是什么?如果你认为它是对数正态,那么你只需要说明底下的单个随机事件到底是什么就行。如果你认为它是幂律,那么你不仅需要说明单个随机事件是什么,还需要说明这些随机事件之间的相关关系是什么。就多这一件事,难度提升非常多。

我目前为止见过的关于幂律分布的研究,几乎都是先说一个机制和相关关系,然后告诉你这个机制可以生成某一种幂律分布。从一摊数据倒推出来的基本上没见过。我自己也试过倒着来,目前为止还没走通。

反之,你可以把做线性回归看作“我找到了一个机制生成了难以和正态分布区分的残差”。这种“从数据找生成机制”的操作是相对易上手的。

那么,找到一个疑似数据生成机制的东西有用吗?很有用。你告诉我一个 和一个 ,其实只相当于告诉了我一张log-log图长什么样而已,我能根据这俩数干什么我也不知道。但是你告诉了我一个 ,我就可以根据 去干点啥了。

尽管我个人的研究和幂律分布分不开,我还是不支持把这个东西下放到本科的概率统计教学内容里。本科的教学内容有个或软或硬的难度杠杠。这个杠杠一卡,能教的只有怎么用软件去估俩参数,别的东西都没法教。这教了用处实在有限。

Power-law Distributions

Clauset这个页面总结了一些跟power law相关的资源。除了R的,也有python的MATLAB的。我看楼上没人提,赶紧安利一下~




  

相关话题

  怎样看待统计显著性应该被淘汰了? 
  多元回归为什么总可以转为多元线性回归? 
  广义线性模型(GLM)和广义线性混合模型(GLMM)怎么区分使用呢? 
  运用什么方法,可以综合各个性状,对农作物进行一个整体的评价,判断一个新品种的好坏? 
  能不能用简明的语言解释什么是非参数(nonparametric)模型? 
  为何中国的中小学数学教育如此轻视统计和概率? 
  大陆旅游团台湾出事频率相对算高了么? 台湾的交通问题事故率如何? 
  你所读的统计学方向,有哪些不错的讲义(Notes)? 
  概率(Probability)的本质是什么? 
  著名统计学家David Cox于2022年1月18日去世,如何评价他对统计学发展做出的贡献? 

前一个讨论
有哪些在生活中被认为无所谓但实际会对身体造成很大损害的坏习惯?
下一个讨论
大风车、动画城、小神龙俱乐部等青少年电视节目为什么会衰落下去呢?





© 2024-11-21 - tinynew.org. All Rights Reserved.
© 2024-11-21 - tinynew.org. 保留所有权利