百科问答小站 logo
百科问答小站 font logo



如果用总体作为数据,那么回归系数的显著性还有意义吗? 第1页

  

user avatar   markovmodels 网友的相关建议: 
      

随机性都没有了显著性就无从谈起。
因为显著的定义就是原假设为真的情况下,统计量比观察值更extreme的概率 (p-value) 小于某个预设的level,比如0.05。如果总体已经观察到了,样本的获得没有随机性,也谈不上概率了。

当然现实中很少有获得“总体”的情况,要不不现实,要不问题本身就没什么意义了。
另外一种情况是总体中每个subject的outcome有测量误差且不可忽略,这也会带来随机性。这时候问题实际上关乎modeling层面了。


-----------------------------------------------------------------------
被编辑收录的高票答案我个人不能完全同意。主要不同意的地方在于回归的范围很广,有很多模型不依赖变量的正态假设,比如有些semi-parametric model甚至不做具体的分布假设,但是仍然可以讨论回归参数的显著问题。那位答主也给我留了言,我的理解是他回答的问题是“如果研究者把样本当作总体会出现什么情况”,或者"总体作为数据的情况是否可能出现”。这些都是有意义的问题,但是我不确定是否是题主提出的问题“如果总体作为数据,那么回归的显著性还有意义吗”。

另外不同意的地方是其答案中暗示当样本足够大时,可以假设正态分布。这和一个比较广泛的关于中心极限定理的误解有关,也特别容易对不太了解统计的人士造成误解:中心极限定理的描述对象是独立同分布的变量之和或平均值,而不是变量的总体分布本身。比如掷硬币,不管重复多少次,结果都只能是两面之一(忽略其它罕见情况),但是正面朝上的总数近似于正态。所以对于二元变量有对应的模型(比如Logistic Regression),对于heavy-tailed的变量也有相应的方法,等等。


-------------------------------------------------------------------
另一个答案回答的问题其实是“如果观察到总体,能不能得出因果关系即causality”。可是题目问的是显著性,不是因果性。因果关系是另一个范畴的问题。是无论有没有观察到总体都存在的问题。通过和答主的进一步交流,我们发现主要分歧在于他所说的population是包括了所有可能的treatment assignments及结果,即他领域内所谓superpopulation。但是我认为名词之间不应该混淆。既然已经有“超总体”(superpopulation)对应这个概念,在我们谈论总体(population)的时候,就应该能够确认谈论的不是超总体,否则这两个名词就失去了专属的意义。

因果关系确实不能轻易得出,因为观察不到counterfactuals,即同一个subject如果其它条件都不变,得到的treatment是未观察到的那个,outcome是否不同,即所谓平行宇宙会出现什么情况。王同学给出了一篇很有意思的paper,大家如果对causal inference有兴趣可以去读一下。

但是那个答案最后对permutation test的说法也有待商榷。如果已经观察到Y了,test的时候再怎么重新分配treatment,counterfactuals也观察不到了,因果关系也不能得出。除非一开始设计实验的时候做随机分配,或者拿到数据后想办法adjust可能的confounder。要不然大家研究causality那么费劲干嘛,直接把数据拿来做permutation test不就完了。

还有用X的随机性教育我的,一般来说X是effect的ancillary,其分布不依赖回归系数,做inference的时候会先conditioning on X,将其视为常数。求p-value时统计量里面的涉及X的项也视为常数。这也是统计课本上很少有讨论X分布的原因。

有一个例外是有新的观测进入样本要做预测,这时候X的方差就需要考虑进来了。但是题主问的是已知population,不存在新观测的问题。


-------------------------------------------------------------------------




  

相关话题

  请问为什么多元估计中系数的方差比单变量估计的方差大,但是我们还是偏爱多元估计的系数呢? 
  简明易懂的大样本理论(asymptotic/large sample theory)的教材? 
  如何快速掌握 SPSS ? 
  特征工程中的「归一化」有什么作用? 
  2018 年计量经济学会弗里希奖授予论文《密度经济学:柏林墙的启示》,对城市经济学研究有什么启示? 
  对于多元线性回归,如何证明任一自变量的系数等同于忽略其他变量后一元线性回归的系数? 
  专业的数学家只擅长证明不擅长使用数学吗? 
  第一类错误和第二类错误的关系是什么? 
  层次分析法中,建立判断矩阵时,可不可以用1——5这五个数字表示两两比较的重要程度? 
  有哪些相关性不等于因果性的例子? 

前一个讨论
为何有人会觉得《爸爸去哪儿》第四季中董力和崔雅涵(阿拉蕾)是一对 CP?
下一个讨论
迪士尼提问:你与迪士尼有哪些故事?你在知乎曾经留下过哪些和迪士尼相关的答案?





© 2024-11-12 - tinynew.org. All Rights Reserved.
© 2024-11-12 - tinynew.org. 保留所有权利