其实并不是不鼓励建立解释变量过多的模型,抖个机灵,我们做固定效应相当于加入了N个解释变量呢,你说解释变量多不多?
可是我们通常看到文献中实际汇报出来的结果控制变量一般都不算多,这是为什么呢?
我在讲课的时候一直强调:我们一定要搞清楚自己做回归的目的究竟是什么,是为了预测?还是为了解释因果?因为这两个不同的目的,我们挑选控制变量的策略是不一样的。
1、如果是为了预测,那么自然我们希望信息越多越好,或者说控制变量越多越好,但是给定样本量的情况下,解释变量越多越容易过拟合。所以如果做回归的目的是预测,那么应该尽量规避欠拟合和过拟合的情况,所以选多少解释变量、选哪些变量可以通过cross-validation, AIC, BIC等等这些标准来确定。
2、如果是为了解释因果,那么问题就很麻烦了,不能多控制,也不能少控制。我懒得写了,直接上我的ppt吧:
所以基本上要求该控制的你要控制,不该控制的你不能控制。这就。。很难办了。。
所以不存在什么不鼓励建立解释变量过多的模型,一切为了目的服务。
最后反驳几个观点: