这个问题可能很多博士在做研究的时候都想问而不敢问的。
原因是来自于课本上的内容和现实中读到的paper,和自己做的研究中的巨大落差。
学的时候,发现高级计量经济学挺难的,各种统计的数学推导,做一个回归又是要检验正态性,又是要讨论估计的无偏性和一致性,又要搞渐进正态性质,总之看上去非常的复杂。
然后做研究的时候,发现大多数文章都是Imbens-Angrist的因果推断,也看不到什么统计推导,就是回归,回归,两阶段回归,发表了。数据处理上也经常就取个log完事,没有那么多复杂的正态化的过程。
再然后,发现即便是非常复杂而前沿的计量方法,在R里面也就是调用一个包完事了。
这个时候心态往往会出现一定的波动,默默的感觉自己「白学」了。有一部分人会以「打基础要打牢」来安慰自己,有一部分则会彻底的开始怀疑经济学的教学理念。
其实类似的问题在机器学习领域也经常出现,很多人也觉得只要会调用包里面现成的算法就可以了,为什么还要去了解具体的算法实现?这一点在工作过后一段时间也特别明显,如果把工作等同于做研究,那么其实经济学博士们的困惑,也就是机器学习工作者/数据工程师们的困惑——到底我们学习的时候学那么多复杂的原理,结果上手工作发现用不到,有没有必要当时学这个?
其实我觉得这个问题的回答,在经济学和机器学习这两个领域也都是一致的。
先说一个真的小事:
有次一个博士生来和我讨论一篇论文,这篇论文比较经典,文章里面用了工具变量。
我说:这个工具变量回归出来的结果可能是有偏的。
对方说:我对工具变量的理解是,工具变量回归出来的参数应该就是真实的,为什么会有偏呢?
这个反应,就说明对工具变量的原理,和回归的统计处理不熟悉。而只是通过记住『工具变量排除内生性』的这个教科书上的结论。
事实上,根据Lal et al. (2021)[1],这篇文章检验了很多很多发表在很好的杂志上文章,在第一步辅助回归的时候,就错误的计算了F统计量——比如说没有调整标准误,没有尊重数据的异质性等等,然后这就导致了在这一步,工具变量的强度就被高估了。
而因为工具变量强度被高估,在主回归的时候,工具变量的系数往往是偏大的——事实上,大部分的工具变量回归之后的结果,都是比标准OLS回归偏大的。这其实暗示了工具变量的排他性要求可能并没有得到满足——因为工具变量经常是从非实验的环境得到的,有其他的微妙的路径影响其他控制变量和残差都是可能的。
有兴趣以后看paper的时候可以注意一下,是不是加了工具变量之后,基本上回归的结果比OLS的结果更大了。这个时候作者往往挺高兴的解释,因为某个理论上的权衡,把真实的值给抵消了一部分,然后他们英明神武的工具变量把这个效应给排除掉了,理论得到了数据的支持。
试想,如果不了解工具变量的原理,不了解回归的过程中各种对残差的处理,对异质性的处理,如何能够好好的做研究呢?
当我们决定做研究的时候,其实是在选择一个职业生涯,而不是选择「眼前看到是不是能用」的。我们读到的文章本身就是一个均衡的结果,而不是全部。
什么意思呢?
当你看到发表的论文里面有七八个回归表格的时候,其实作者可能做了七八十次乃至于上百次的回归,自己写初稿的时候就运行了很多次;而和审稿人、编辑互动的过程中又是很多次,最后呈现出来的,是经过各种内部和外部的讨论,以及结合了审稿人意见的最终结果。
这个最终结果可能是很简单的,在stata上面就是几十行命令。但是问题在于,如果真的不了解背后的数学原理,往往很难在这个互动的过程中真的运行恰当的回归,并且能够有效的回应审稿人的质疑。
用功利的说法来说:如果想要在职业生涯上不断的进步,那对高级计量的很多背后的过程就不能不求甚解,不然积累到一定时候,如果不想低水平的重复,那还是要补课——与其后来补课,那为什么不在更年轻,接受能力更强,杂事更少的时候,先把这些原理都熟悉了呢?
倒也不需要手算回归的地步,像具体的矩阵变换过程,如果不是做理论计量的,那么基本上考过了博士资格考试之后,就和这些说再见了。但是各种计量方法背后的数学和统计原理,还是要知其然,也知其所以然。