如果用总体作为数据，那么回归系数的显著性还有意义吗？第1页

markovmodels 网友的相关建议:

随机性都没有了显著性就无从谈起。
因为显著的定义就是原假设为真的情况下，统计量比观察值更extreme的概率 (p-value) 小于某个预设的level，比如0.05。如果总体已经观察到了，样本的获得没有随机性，也谈不上概率了。

当然现实中很少有获得“总体”的情况，要不不现实，要不问题本身就没什么意义了。
另外一种情况是总体中每个subject的outcome有测量误差且不可忽略，这也会带来随机性。这时候问题实际上关乎modeling层面了。

-----------------------------------------------------------------------
被编辑收录的高票答案我个人不能完全同意。主要不同意的地方在于回归的范围很广，有很多模型不依赖变量的正态假设，比如有些semi-parametric model甚至不做具体的分布假设，但是仍然可以讨论回归参数的显著问题。那位答主也给我留了言，我的理解是他回答的问题是“如果研究者把样本当作总体会出现什么情况”，或者"总体作为数据的情况是否可能出现”。这些都是有意义的问题，但是我不确定是否是题主提出的问题“如果总体作为数据，那么回归的显著性还有意义吗”。

另外不同意的地方是其答案中暗示当样本足够大时，可以假设正态分布。这和一个比较广泛的关于中心极限定理的误解有关，也特别容易对不太了解统计的人士造成误解：中心极限定理的描述对象是独立同分布的变量之和或平均值，而不是变量的总体分布本身。比如掷硬币，不管重复多少次，结果都只能是两面之一（忽略其它罕见情况），但是正面朝上的总数近似于正态。所以对于二元变量有对应的模型（比如Logistic Regression），对于heavy-tailed的变量也有相应的方法，等等。

-------------------------------------------------------------------
另一个答案回答的问题其实是“如果观察到总体，能不能得出因果关系即causality”。可是题目问的是显著性，不是因果性。因果关系是另一个范畴的问题。是无论有没有观察到总体都存在的问题。通过和答主的进一步交流，我们发现主要分歧在于他所说的population是包括了所有可能的treatment assignments及结果，即他领域内所谓superpopulation。但是我认为名词之间不应该混淆。既然已经有“超总体”(superpopulation)对应这个概念，在我们谈论总体（population）的时候，就应该能够确认谈论的不是超总体，否则这两个名词就失去了专属的意义。

因果关系确实不能轻易得出，因为观察不到counterfactuals，即同一个subject如果其它条件都不变，得到的treatment是未观察到的那个，outcome是否不同，即所谓平行宇宙会出现什么情况。王同学给出了一篇很有意思的paper，大家如果对causal inference有兴趣可以去读一下。

但是那个答案最后对permutation test的说法也有待商榷。如果已经观察到Y了，test的时候再怎么重新分配treatment，counterfactuals也观察不到了，因果关系也不能得出。除非一开始设计实验的时候做随机分配，或者拿到数据后想办法adjust可能的confounder。要不然大家研究causality那么费劲干嘛，直接把数据拿来做permutation test不就完了。

还有用X的随机性教育我的，一般来说X是effect的ancillary，其分布不依赖回归系数，做inference的时候会先conditioning on X，将其视为常数。求p-value时统计量里面的涉及X的项也视为常数。这也是统计课本上很少有讨论X分布的原因。

有一个例外是有新的观测进入样本要做预测，这时候X的方差就需要考虑进来了。但是题主问的是已知population，不存在新观测的问题。

-------------------------------------------------------------------------

如果用总体作为数据，那么回归系数的显著性还有意义吗？的其他答案点击这里

前一个讨论

为何有人会觉得《爸爸去哪儿》第四季中董力和崔雅涵（阿拉蕾）是一对 CP？

下一个讨论

迪士尼提问：你与迪士尼有哪些故事？你在知乎曾经留下过哪些和迪士尼相关的答案？

如果用总体作为数据，那么回归系数的显著性还有意义吗？第1页

相关话题

前一个讨论

下一个讨论

相关的话题

如果用总体作为数据，那么回归系数的显著性还有意义吗？ 第1页

相关话题

前一个讨论

下一个讨论

相关的话题

如果用总体作为数据，那么回归系数的显著性还有意义吗？第1页