百科问答小站 logo
百科问答小站 font logo



如果用总体作为数据,那么回归系数的显著性还有意义吗? 第1页

  

user avatar   markovmodels 网友的相关建议: 
      

随机性都没有了显著性就无从谈起。
因为显著的定义就是原假设为真的情况下,统计量比观察值更extreme的概率 (p-value) 小于某个预设的level,比如0.05。如果总体已经观察到了,样本的获得没有随机性,也谈不上概率了。

当然现实中很少有获得“总体”的情况,要不不现实,要不问题本身就没什么意义了。
另外一种情况是总体中每个subject的outcome有测量误差且不可忽略,这也会带来随机性。这时候问题实际上关乎modeling层面了。


-----------------------------------------------------------------------
被编辑收录的高票答案我个人不能完全同意。主要不同意的地方在于回归的范围很广,有很多模型不依赖变量的正态假设,比如有些semi-parametric model甚至不做具体的分布假设,但是仍然可以讨论回归参数的显著问题。那位答主也给我留了言,我的理解是他回答的问题是“如果研究者把样本当作总体会出现什么情况”,或者"总体作为数据的情况是否可能出现”。这些都是有意义的问题,但是我不确定是否是题主提出的问题“如果总体作为数据,那么回归的显著性还有意义吗”。

另外不同意的地方是其答案中暗示当样本足够大时,可以假设正态分布。这和一个比较广泛的关于中心极限定理的误解有关,也特别容易对不太了解统计的人士造成误解:中心极限定理的描述对象是独立同分布的变量之和或平均值,而不是变量的总体分布本身。比如掷硬币,不管重复多少次,结果都只能是两面之一(忽略其它罕见情况),但是正面朝上的总数近似于正态。所以对于二元变量有对应的模型(比如Logistic Regression),对于heavy-tailed的变量也有相应的方法,等等。


-------------------------------------------------------------------
另一个答案回答的问题其实是“如果观察到总体,能不能得出因果关系即causality”。可是题目问的是显著性,不是因果性。因果关系是另一个范畴的问题。是无论有没有观察到总体都存在的问题。通过和答主的进一步交流,我们发现主要分歧在于他所说的population是包括了所有可能的treatment assignments及结果,即他领域内所谓superpopulation。但是我认为名词之间不应该混淆。既然已经有“超总体”(superpopulation)对应这个概念,在我们谈论总体(population)的时候,就应该能够确认谈论的不是超总体,否则这两个名词就失去了专属的意义。

因果关系确实不能轻易得出,因为观察不到counterfactuals,即同一个subject如果其它条件都不变,得到的treatment是未观察到的那个,outcome是否不同,即所谓平行宇宙会出现什么情况。王同学给出了一篇很有意思的paper,大家如果对causal inference有兴趣可以去读一下。

但是那个答案最后对permutation test的说法也有待商榷。如果已经观察到Y了,test的时候再怎么重新分配treatment,counterfactuals也观察不到了,因果关系也不能得出。除非一开始设计实验的时候做随机分配,或者拿到数据后想办法adjust可能的confounder。要不然大家研究causality那么费劲干嘛,直接把数据拿来做permutation test不就完了。

还有用X的随机性教育我的,一般来说X是effect的ancillary,其分布不依赖回归系数,做inference的时候会先conditioning on X,将其视为常数。求p-value时统计量里面的涉及X的项也视为常数。这也是统计课本上很少有讨论X分布的原因。

有一个例外是有新的观测进入样本要做预测,这时候X的方差就需要考虑进来了。但是题主问的是已知population,不存在新观测的问题。


-------------------------------------------------------------------------




  

相关话题

  对于创业者来说,有哪些比较好的财务类入门书籍? 
  是否有中国的微观数据库包含了被访者的高考分数? 
  3 月 23 日美国确诊人数累计已破四万例,单日新增死亡病例过百,目前情况如何? 
  怎么用软件做广义矩估计GMM的参数估计? 
  精通 R 是一种怎样的体验? 
  泊松分布的现实意义是什么,为什么现实生活多数服从于泊松分布? 
  为什么样本协方差Cov(X,Y)中自由度为n-1,而相关系数的假设检验自由度为n-2? 
  如何用数学知识解答「在进行社区大规模核酸检测时,分成几人一组进行混检效率最高」? 
  统计学专业的学生应该具备哪些必备的知识? 
  什么是无偏估计? 

前一个讨论
为何有人会觉得《爸爸去哪儿》第四季中董力和崔雅涵(阿拉蕾)是一对 CP?
下一个讨论
迪士尼提问:你与迪士尼有哪些故事?你在知乎曾经留下过哪些和迪士尼相关的答案?





© 2024-11-09 - tinynew.org. All Rights Reserved.
© 2024-11-09 - tinynew.org. 保留所有权利