百科问答小站 logo
百科问答小站 font logo



为什么我国的概率与统计学教科书里不怎么讲幂律分布? 第1页

  

user avatar   reinhardtjin 网友的相关建议: 
      

@赵卿元 的回答很好,从应用角度补充一下自己的看法。

从应用角度看,我觉得本科阶段的概率统计教科书不教幂律分布可能和这玩意的生成机制有关。

各个中心极限定理保证了:一堆相互独立的随机事件,只要满足一些比较宽松的条件,就可以生成正态分布。与正态分布相关的分布,例如卡方分布和F分布的性质,以及一些常用的统计检验,推导起来比较容易。围绕它们来建立直觉也相对容易。只要我们实际面临的数据经过某些变换和正态分布或者它的好朋友无法区分,用基于正态分布的一套东西处理往往就足够好了

如果一堆随机事件相互之间存在某种关系,那么它们可能可以生成幂律分布(不保证,也可能生成别的比如正态分布)。至于到底满足什么性质的,具有相关关系的随机事件可以生成幂律分布,满足哪些性质的具有相关关系的随机事件不能生成,我暂时没见到说法。

那么考虑这样一个场景:我们面对一摊数据,它们看上去既有点像幂律分布,又有点像对数正态,那么它底下的生成机制到底是什么?如果你认为它是对数正态,那么你只需要说明底下的单个随机事件到底是什么就行。如果你认为它是幂律,那么你不仅需要说明单个随机事件是什么,还需要说明这些随机事件之间的相关关系是什么。就多这一件事,难度提升非常多。

我目前为止见过的关于幂律分布的研究,几乎都是先说一个机制和相关关系,然后告诉你这个机制可以生成某一种幂律分布。从一摊数据倒推出来的基本上没见过。我自己也试过倒着来,目前为止还没走通。

反之,你可以把做线性回归看作“我找到了一个机制生成了难以和正态分布区分的残差”。这种“从数据找生成机制”的操作是相对易上手的。

那么,找到一个疑似数据生成机制的东西有用吗?很有用。你告诉我一个 和一个 ,其实只相当于告诉了我一张log-log图长什么样而已,我能根据这俩数干什么我也不知道。但是你告诉了我一个 ,我就可以根据 去干点啥了。

尽管我个人的研究和幂律分布分不开,我还是不支持把这个东西下放到本科的概率统计教学内容里。本科的教学内容有个或软或硬的难度杠杠。这个杠杠一卡,能教的只有怎么用软件去估俩参数,别的东西都没法教。这教了用处实在有限。

Power-law Distributions

Clauset这个页面总结了一些跟power law相关的资源。除了R的,也有python的MATLAB的。我看楼上没人提,赶紧安利一下~




  

相关话题

  怎样理解和区分中心极限定理与大数定律? 
  目前统计学在国内外的发展现状是怎样的?都有哪些分支?今后的研究方向大致是向哪里走? 
  工具变量 (Instrumental variables) 的作用到底是什么? 
  如何判断两个Deep Learning 数据集的数据分布是否一致? 
  如何通过很多组相互包含的换算数据求解尽可能精确的换算比例? 
  如何看待西南大学教育学部副教授张骞,被伊利诺伊州立大学教授举报多篇论文涉嫌造假一事? 
  神经网络为什么可以(理论上)拟合任何函数? 
  为什么我国的概率与统计学教科书里不怎么讲幂律分布? 
  如何看待有人质疑淘宝双十一数据造假,并在4月份成功预测今年销售额为2680亿? 
  时间序列和回归分析有什么本质区别? 

前一个讨论
有哪些在生活中被认为无所谓但实际会对身体造成很大损害的坏习惯?
下一个讨论
大风车、动画城、小神龙俱乐部等青少年电视节目为什么会衰落下去呢?





© 2024-11-21 - tinynew.org. All Rights Reserved.
© 2024-11-21 - tinynew.org. 保留所有权利