谢邀,工具变量其实就可以看作是一个过滤器。
要想让OLS估计的准,我们总是希望把因变量Y拆成两个独立的部分,一部分是自变量X和参数 ,另一部分是我们无法控制的扰动 。而如果这两者不正交,那么做回归的时候,有些因素就可以在X和 之间游走不定,因为我们没法控制,所以我们无从知道这个游走不定,暗地里联系着X和 的因素到底会在估计出来的参数中如何体现,体现多少,是在X身上分配多一点,还是隐含在残差里面多一点……所以这样就导致OLS估计不准,这也是所谓的内生性问题。
要解决这个问题,我们想做的就是找一个过滤器,把X中和 相关的部分过滤掉,只剩下正交的部分,这样OLS就又重振雄风了。工具变量就是这个过滤器。
拿常见的2SLS做例子,第一步是先用工具变量Z做自变量,对X进行回归,然后得出一系列的参数。这一步的意义在于,把X分成两个部分,由Z决定的部分,和于Z无关的部分,这两者之间是正交的关系。
而因为工具变量的定义就是和X有关而和 无关,所以把X拆开的这两部分,由Z决定的部分自然也和 无关,而另外那部分,就是我们要过滤掉的渣子——X中蕴含着的和 相关的东西。
扔掉渣子很简单,就是用拟合值 来代替真的X,这样相当于把X清洗了一遍,所有和我们无法控制的因素相关的都被工具变量过滤掉了,代入到原来的方程式中回归,就能得到更准的估计了。
理想情况下,工具变量Z和自变量X强相关,然后和 无关,这就是找对了合适的过滤器,渣子都清洗掉了,剩下的是纯正的OLS的味道;但是有的时候Z虽然和 无关,但是和X关系也不大,这就相当于过滤网孔相对太细,能够留下来的部分很少,受到样本的影响也会更大,这个时候就是我们说的弱工具变量了。