样本数据达到多少统计指标才有意义？第1页

edwin_hao_qing_han 网友的相关建议:

这是个很好的问题，事实上从开始学回归的时候这个问题就会出现在实际操作中。当有两个点的时候，因为两点确立一直线，所以完美拟合，为1。

同理也可以外推到如果有n个参数，又正好有n个观测值得话，如果变量之间线性不相关，那么回归出的超平面正好穿过所有的点，这个时候仍然是1。

这是因为代表的是模型拟合度，所以自然而然是越简单的模型（变量越少）越难拟合，数据越少的回归拟合度可能反而较高。

为什么越简单的模型越难拟合呢，考虑两个模型：

我们很容易看到模型1是嵌套在模型2之中的，当加入额外的回归项之后，模型2的至少不低于模型1的。

而为什么数据越少的回归拟合度可能反而越高，这是因为数据越多你控制不到的变量就越多，控制不到的变量代表着数据中未观察到的异质性(unobserved heterogeneity)，异质性的存在也会降低模型的拟合度。

那么数据是不是越少越好呢？当然不是，相反数据是越多越好，因为只有数据多了，你才可以构造更多的控制变量。最简单的例子：

如果只有一个观测值，那么你只能估计这样的模型，这个时候是1。

当你有两个观测值的时候，你可以估计一个简单线性模型 ,这个时候仍然是1，因为当你多了一个观测值的时候，你的数据中就包含了额外的信息，这样的信息可以帮助你识别截距。

当你有三个观测值的时候，那么你可以将模型拓展到非线性的情况下，这个时候如果不是为1的常数或者二元变量的话，回归存在唯一解并且为1。

所以所谓的样本量越小统计指标越没有意义只是对于理解上的偏误，从统计角度上来说样本数据当然是越大越好，就好像做菜一样，材料越多越容易做出好的菜肴。只是有些厨师可能选择太多了反而不知道怎么选，材料多了可能反而没办法发挥正常的厨艺。大样本的好处这里不说很多，只说一点，我们通常知道线性回归的系数方差是：

方差意味着估计带来的不确定性，这意味着当样本数量很大的时候，我们几乎可以百分百确定我们的估计到的系数就是真实的系数值。而当只有两个变量的时候因为的无偏估计是：

如果我们有的时候，，这个时候，估计没有任何意义。

相关话题