这样的研究好似盲人摸象,它很常见,但并不是一种好的研究方法。
1,数据分析能帮助你接近事实,但并不是事实本身。
每一次回归,你看到的结果只是数据空间上的一个投影——在数十万条数据中投影出一条向量,你省略掉的信息比你得到的信息多得多。
“又大又薄,这一定是大象耳朵,我摸的是大象!”
“你摸的是蒲扇。”
2,每一个回归方程,背后都是截然不同的假设。
在回归之前,先讨论它背后的假设,不仅是计量上的假设,比如什么样的分布,异质性怎么处理,内生性强不强,数据结构是不是合适回归方程;更包括你要验证的理论的运行机制所需要的假设,每一步都要仔细推敲。
“假设这是大象,大象头朝前,那么我从这摸应该能摸到象牙……哦不我没有摸到象牙所以这不是大象”
“大象头朝后,你在摸它的屁股。”
3,每个真相都是局部的真相。
看似相互矛盾的结论,其适用范围必定不相同。这个适用范围包括数据和不同的假设。一个严谨的经济学研究,不会试图声明自己是一个包容宇宙万物的理论,这些理论的适用范围只存在于抽取样本的群体中,都属于局部的真相。发达国家的实证结果,在发展中国家可能会有不同;在城市显著的结论,在农村可能不显著;十年以前被验证的理论,在现在可能就会被推翻……
要么找到造成不同的原因,要么就老老实实地声明自己的结论的适用性限于哪里。如果真的在某个局部上,在同一种假设下出现了两个矛盾的结论,那其中肯定有一个是错的,甚至可能两个结论都是错的。
甲:“我在摸大象的牙,它很光滑”
乙:“我在摸大象的屁股,它很粗糙”
“你们都没错”
丙:“大象很光滑”
丁:“大象很粗糙”
“……”
举两个例子。
一)
一名研究人员想要研究收入分配有多么不均等。
老板说,你就去研究一下“20/20 ratio”指标吧,这个指标度量了最高20%收入和最低20%收入的比值。
于是研究员将整个社会所有人的收入收集起来,排序,再看前20%高收入的人口收入,以及最后20%低收入的人口收入,并计算两者的比值作为不平等的指标。
这种算法的假设是:所有人的收入不相等,都属于某种意义上的收入不均等,包括不可能有收入的小孩。此时一个完全平等的,但没有收入的青少年总数超过20%的社会也会得出极高的不平等指数。
研究员:“那那我该怎么办……”
老板:“把小孩和老人全都去掉啊!”
该研究人员在受到训斥后,修改了自己的方案,他将不可能有收入的退休老人和小孩去掉,还是按个人排序,重新计算前20%和最后20%的比例。
这种算法的假设是:所有劳动年龄人口的收入不平等都属于收入不均等。但在这个假设下,不平等指数仍然相当高,因为在他的计算中,前20%高收入人口和最后20%收入的人口有不少甚至属于一个家庭。前者属于高收入行业,每天干活打工,而后者是他们的配偶,因为前者收入较高且无暇顾家而选择在家做家务,收入为零。于是该指标变成了度量家庭内部的收入不平等,和整个社会的收入不平等仍然没多大关系。
研究员:“我我我是不是要把所有的没收入的人都去掉……”
老板:“放屁!失业的人也没有收入,你要把他们也去掉嘛!按家庭来计算!”
该研究人员在经过更严厉的训斥后,把老人和小孩去掉,以家庭为最小单位,计算家庭总收入,用前20%的家庭以及最后20%家庭的总收入比值来度量不平等。
这种算法的假设是:只有家庭总收入的不平等才属于社会不平等。但结果看起来还是太高了,因为在他划分的前20%高收入家庭中,每户有4个人在工作,公公婆婆儿子媳妇;而最低20%收入家庭,都是一人吃饱全家不饿的单身汉。这两者的总收入比值,更多地体现出的是家庭人口的差别。
研究员:“老板……”
“板”字还没说完,老板将研究员一顿暴揍,丢下三个字
“取平均!”
该研究人员在经过暴打后,又修改了自己的方案,他用家庭的人均收入来代替个人收入,并以个人为单位,按照新计算出的个人收入排序,计算前20%和最后20%的比例。
老板这才勉强把报告从遍体鳞伤的研究员手中接过来。
(这只是个例子,老板接受的报告不一定是最正确的报告,而且老板一般没有那么暴力)
一个月后,媒体上出现了新闻:《多家机构发布不平等指标,指数远高于官方公布》。网民们在下面回复“zf就知道隐瞒真相!”
其实,大家都没隐瞒什么,这些数字之间也没什么矛盾,只不过他们使用了不同的假设,压根就是不可比的。
二)
Acemoglu写Why Nations Fail,想说好的制度对经济增长有好处。Subramanian写了一篇文章反驳他,其中有这么一幅图
横坐标是民主指数,纵坐标是人均GDP。那根红线是用144个国家拟合出的人均GDP与民主之间的关系,这根线显得陡峭又显著,他体现了越民主的国家经济发展越好。
但问题是,这个回归是按照国家为单位计算的,那么他背后的假设就是:民主对经济的经济影响是在国家单位上体现出来的,因此所有的国家在回归中拥有同样的权重,不管是100万人的小国还是10亿人的大国,尽管后者的人口是前者的1000倍。
在大部分情况下,以国家为最小单位的假设不会出什么问题。但在这个问题中,中国和印度这两个总人口之和占全世界人口近40%的国家光荣地成了回归的outlier。更不幸的是,如果把这个回归重新按照人口加权——此时我们假设民主对经济的影响是在个人单位上体现出来的——那结果就反了,越民主的国家经济发展越不好。
还好不显著。
这就是题主的问题中“同样的数据变换了方法得到的答案可能是截然相反的”一个例子,虽然看起来相反,但是他们并不是说了两套完全相反的理论——他们并不是矛盾的——而是根据两种截然不同的假设,说了两个故事。
选择说哪一个故事,选择相信哪个故事,取决于你采信哪一种假设。一些人常常有误解,认为经济学就是钻在数据堆中研究数据,但其实更重要的是研究他们背后的假设。
我见过30多岁,军飞各种理由退役的。就是为了去通航赚钱。
军飞一年20多万,也就比民飞委培的飞行员高一点。其实很合理!
所有的军飞其实和民航委培生(航空公司出钱培养,卖身契还在航空公司)差不多呀,你所有的学费都是部队出的。投入至少5年,1000小时,几百万学费。当然要从后面收回来。
所以很多军飞都觉得手艺练出来,分配的房子到手或者户口转好,子女教育无忧了。开始各种作妖,体检不达标、身体慢性病、闹情绪等,甚至关系还没转出就已经在外面飞着赚钱了。大多40多岁也算是还了部队的情意,两不相欠了。有少数30岁就闹着出来的,确实有点那个。
其实主要是部队不缺飞行员,外面没卖身契的机长一年百十万的眼馋。
我觉得价格合理,飞行员40多岁走不上管理岗位,出来转民航通航,挺好。
部队不养老。
另一种,在部队受委屈,被穿小鞋,家庭照顾不到,长期冷板凳这类情况更多。出来自谋生路很正常。我老板(准确说是租客)是家庭照顾不到,我教员朋友长期冷板凳只好转业回家。
******
回答喷子,
我10年前帮助一些陆航飞行员转到地方,他们现在大概都50岁左右。要么在国网、珠海直、中信飞行在国家建设第一线,要么在各通航公司当总飞。 发挥自己更大的价值比在部队做冷板凳更好,不是么?
我单位现在的老板和教员,同期生,都35岁。也都是部队飞行员专业出来的。