我更新一下数据和观点。
自2012年以来,到2016年,统计局的基尼系数反而降低了。
从0.474降到了0.465,这可能是所有调查中唯一降低的一个。
西南财大略有上升,0.61到0.62。
北大资产基尼系数上涨,从0.73涨到0.78。
2016年,北大的资产基尼和西南财大是吻合的,都是0.78。
北大的收入基尼是0.5,离统计局更近。
居民储蓄率下降,居民收入的银行存款比例,即用来存款的可支配收入比,从25.4%降到了12.7%。
无论是统计局还是西财的数据,你可以看到我之前说的规律基本成立,储蓄率下降导致资产基尼和收入基尼差距拉大。
接下来补充灯塔国官方数据,2016年。
灯塔国收入基尼增长到0.49,资产基尼为0.84。
灯塔国储蓄率很稳定,因为实在是太低,最高不过5.6%,最低不过3%,这两年略有下降,一度到达2.5%,大致也和储蓄下降逻辑吻合。
关于西南财大数据比其他所有调查都偏高的解释,在2015年调查的报告中,大概内容如下:
我们有特殊的调查富人收入的技巧。
我们在2011年,2013年,2015年连续三次对同样的访户进行过调查,在2015年着重用两到三次数据差不多的,差别在可接受范围内访户进行分析。
这个意思就是有些富人可能低报谎报收入,但连续三次都低报的数字都差不多实在是太难。
另外,三次可能是一个家庭的不同成员接受采访,老公和老婆低报收入到一个数也太难。
他们声称此技巧有助于富人低报自己数据的概率。当然此技巧也对样本随机性有破坏,也可能把2011年抽样时的误差带到2015年。
此外,统计局抽样的数目在六万到十万户左右,西南财大2015年为四万户,北大为一万户左右。
好了,该说的就是这些,大家自行判断吧。
————————————————————
中国贫富差距到底有多大?
这背后是一段曲折斗争啊。
没想到有个朋友问出这样一个问题,水平很高,还好我恰巧知道。
0.45-0.48,这是国家统计局的数据。
0.62,这是西南财大2015年的数据。
这二者是income Gini,是收入的分配不平等。
Wealth Gini 0.73以上,这是北大估计的,是资产Gini,是总资产分布的不平等。
以下为他们互怼过程:
从新世纪以来,统计局一直基不公布基尼系数。
2011年开始,应该是有人坐不住了,毕竟政策不能乱来,什么都不知道不太好把,于是西南财大挺身而出,进行《中国家庭金融调查》活动,展开调查。
PS:西南财大是直属于央行的大学,我认为这件事情是央行示意和支持的,但不确定,姑且把这个东西称作“莫名其妙的背后势力”吧。
西南财大调查完毕后,等到的结果在0.61。
此前在十年间,国家统计局都未公布基尼系数。
而基尼系数是仅次于GDP和失业率的重要数据,联合国对此有明文标准。
由于中国一直不公布,各方经济学家都在瞎JB猜。
有经济学家问,你tm为什么不公布?
统计局只好说:“很难得到富人的收入数据,所以暂不公布。”
其实你都统计出GDP了,还知道工薪阶层穷人的收入数据,做一个减法,再估一估富人人数,恐怕也八九不离十。
随后于2011年,西南财大搞出了这一档子事。
各方人士高呼,没想到中国贫富差距如此之大。
0.61什么概念?我想你知道,如果收入是对数正态分布的话,0.61意味着不到5%的人得到全国50%的收入。
我想你也知道基尼系数的数学原理,收入差距对基尼系数的影响是边际递减的,从0.3涨到0.4,所反映的贫富差距,远远小于从0.5涨到0.6所反映的贫富差距。
而且目前除了西南财大这一棒子,世界上还没有一个出现过一个和平国家,基尼系数有0.6。
所以0.61是什么意思?是中国马上要崩溃的意思。
0.61直接给了无数中国崩溃论砖家口实。
在此危机时刻,我们统计局的领导站了出来,为了遏制中国崩溃论的势头,一口气公布了十年的基尼系数。
然后你看到的,这十年啊,中国的基尼系数都在0.45到0.48。
那这就是一个问题了,你既然这十年都有统计,为何不公布?而且也没什么好怕的,在0.45到0.48,也不是太严重,你为何不公布呢?
隔壁灯塔国的基尼系数,也是这么多。
于是各路神仙纷纷质疑统计局数据的真实性,不会是“加工”了的吧。
关于此事,统计局的解释是:
“因为富人收入不好估计,所以不准,所以我们之前没发布。”
“你既然自己都承认了自己不准,我们就信西南财大吧。”
“我虽然不准,可是西南财大更不准。”
于是统计局公开发文于华尔街日报,注意,是华尔街日报,可见西南财大这一棒子已经捅得有点远了。
名称是《我们更应该相信谁的基尼系数?》
随后西南财大感到十分不满,我们老大是央行,你算老几?于是也发文于华尔街日报:
《以公开科学的抽样调查揭示真实的中国》
这两篇文章应该现在还找得到。
明眼人都知道,前文是在没事找事。
统计局说我有八万户,你只有8000户,你误差太大。
西南财大曰,世界各国都只统计了几千户,灯塔国都只有5000,我们8000你还嫌不够,你是在质疑世界各国啊。
很多盆友可能会觉得中国人口多,要多抽样。
盆友,我相信你学过中心极限定理,总体个数足够大时,抽样误差仅仅取决于抽样个数,而不取决于总体个数,所以中国人口和美国人口并不影响抽样结果的误差,8000户一定比5000户准。
还是中心极限定理,8000已经使得样本标准差降低到不到总体的百分之一,随后不管你抽多少样,顶破天都只能消掉那1%的误差。
随后,统计局又攻击西南财大,靠口头回答填问卷是不准的,我们有记账更准。
然而世界各国都是口头回忆式,你想想,农民伯伯很多可能对账本理解不能。
随后,由于莫名其妙势力的援助,也许是后台太牛B,西南财大于2015年,把样本直接扩大到四万户。
传闻访员个个一身华丽神装,直接人手一个平板,现场录音为证,使用西南财大开发的专用app,而且一路有通关文谍,让警察配合帮助。
每位被访家庭,还有来自西南财大的当场现金奖励。
然后他们于2015年,得出0.62的基尼系数,再次疯狂打击统计局面部。
你可以百度西南财大与统计局的持久战斗,现在我是实在想不出,在样本数,人员素质,装备都被吊打这么多的情况下,统计局还要怎么攻击西南财大?
于是统计局直接指控后者为捏造数据,大概也只能这样直接撕破脸了。
然而,这就怪了,背后的莫名其妙势力要是不相信西南财大,西南财大哪来那么多钱?
这是一场大棋,盆友,人民群众只需要相信统计局就够了,于是舆论纷纷倒向统计局。
而西南财大的数据也不能没有啊,不然上面出政策,写论文的时候怎么办?
这是我国国情,一国两数嘛。
最后你问我信谁的?
我给你指条方法,北大是个聪明人。
北大的数据是0.73,这个是wealth Gini,而西南财大和统计局是income Gini。
这二者是什么区别?
我想你知道的,前者是总资产的基尼系数,后者是一年收入的基尼系数。
宏观经济学中:
收入=消费+储蓄
历年来的储蓄肯定形成了资产,而消费显然不会。
富人的储蓄肯定大于穷人,因为他终究只是个凡人,相对而言花不了那么多钱。所以资产的基尼系数一定大于收入的基尼系数。
但显然,储蓄率越高的国家,资产基尼系数就越接近收入的基尼系数。
简单而言,我收入1万,存1%,花99%,你收入十万存10%,花90%,一年后你资产是我的100倍,资产差距是100倍,而收入差距是10倍。
如果储蓄率上涨了,我收入1万,存50%,你收入十万,你顶破了天一分钱不花。一年后,我们资产的差距是20倍,收入的差距还是10倍。
所以很明显,储蓄率越高,资产的基尼系数就越接近收入的基尼系数。
而中国的储蓄率,无论是统计局还是西南财大还是北大的统计,都是世界最高水平,接近50%。
看看隔壁灯塔国,储蓄率6%,收入基尼系数0.45,资产基尼系数0.78。
再看看中国,储蓄率50%,收入基尼系数??资产基尼系数0.73。
可见资产基尼系数差不多的,难道你打算无视百分之四十多的储蓄率差距,在收入基尼系数那个位置填一个和灯塔国一样的0.45?
哄谁呢?
盆友,如果你写论文,我建议你还是写一个更真实的数字,然后注明引用来源。
锅让西南财大背,反正它背后有大佬,你想想?统计局的人员装备比西南财大差那么多,大佬在支持谁啊?
所以你问我谁的基尼系数是真的?这些年你被和谐平均中位的次数还少吗?
北大是真的聪明啊,一边宣称自己的数据是Wealth Gini,不是incomeGini,和统计局没矛盾,一边又心知肚明。
根据官方发布基尼系数的《中国住户调查年鉴》,从2003年到2018年,中国的基尼系数走势是这样的:
在2008年前上升,从2009到2015年下降,随后再次上升。最新的基尼系数是2018年的0.468。
当然我们都知道,有很多微观调查数据的基尼系数都和官方发布的基尼系数不太一样。这里我们主要会用到这样几份数据:
1,CLDS,2016年调查
“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。
2,CHFS,2017年调查
中国家庭金融调查(China Household Finance Survey,CHFS)是中心最早开展的全国大型抽样调查,旨在收集家庭的资产与负债、收入与支出、保险与保障、人口与就业等方面信息,全面追踪家庭动态金融行为。目前,中心已经成功实施三次调查。2011年,收集家庭样本8438户,样本具有全国代表性;2013年,收集样本28141户,样本在全国代表性的基础上增加了省级代表性;2015年之后,样本扩大到40000余户,具有全国、省级和副省级城市代表性。
3,CFPS,2018年调查
中国家庭追踪调查(China Family Panel Studies,CFPS)旨在通过跟踪收集个体、家庭、社区三个层次的数据,反映中国社会、经济、人口、教育和健康的变迁,为学术研究和公共政策分析提供数据基础。CFPS重点关注中国居民的经济与非经济福利,以及包括经济活动、教育成果、家庭关系与家庭动态、人口迁移、健康等在内的诸多研究主题,是一项全国性、大规模、多学科的社会跟踪调查项目。CFPS样本覆盖25个省/市/自治区,目标样本规模为16000户,调查对象包含样本家户中的全部家庭成员。CFPS在2008、2009两年在北京、上海、广东三地分别开展了初访与追访的测试调查,并于2010年正式开展访问。经2010年基线调查界定出来的所有基线家庭成员及其今后的血缘/领养子女将作为CFPS的基因成员,成为永久追踪对象。CFPS调查问卷共有社区问卷、家庭问卷、成人问卷和少儿问卷四种主体问卷类型,并在此基础上不断发展出针对不同性质家庭成员的长问卷、短问卷、代答问卷、电访问卷等多种问卷类型。
我们把这三份数据按照国家统计局的算法计算,可以得到这样一组基尼系数:
可以看到,每一个数据算出的基尼系数,都比国家统计局的0.467更高,其中最低的CFPS也有0.545,而CLDS甚至接近0.595。
问题出在哪里呢?谁的基尼系数才是对的?那我们要看看,这几个数据到底都长什么样。
上图呈现了以上三个微观数据的基尼系数洛伦兹图,横轴标识收入从低到高的人口累计占比,纵轴表示这部分人口的收入累计占比。可以看到上图的三条线都经过了(80,0.4)曲线,意味着收入最低的80%人口占了社会总收入的40%。用这三项数据计算,中国的基尼系数分别达到0.545、0.584和0.595。
那么,统计局的数据结果如何?我这里有调查总队2016年在四川、上海、广东、辽宁四地的微观住户调查数据,把CFPS、CLDS和CHFS数据限制在四川、上海、广东和辽宁样本,拿来和统计局住户调查做一个对比,结果如下:
结果看来,四省基尼系数都要比全国要小一些(地区更少且地区贫富差距更小的情况下,基尼系数更低),其中统计局的基尼系数从全国层面的0.465下降到0.422,CFPS和CHFS也都下降了0.05左右,分别达到0.498和0.525。CLDS仍然在0.568。
我们这里可以得到第一个猜想:
用微观数据计算基尼系数,在同样口径的情况下,统计局的基尼系数要比各项微观数据计算的结果低0.08到0.15左右。
接下来就来了第二个问题:各项微观数据算出的基尼系数为什么要比统计局调查的结果更高呢?
我们在答案的第一幅图中的99处加入一条线,他们代表收入最低99%人口可占据的收入比例,见下图:
可以看到,在累计人口到了90%的时候,收入曲线上移的速度陡然加快,累计人口从99到100时,累计收入上升了10%以上。三个数据的前1%人口和前0.1%人口分别占社会总收入比值如下:
按照这个比例计算,在这些微观数据中,前1%收入水平是平均收入的15-16倍;前0.1%的收入水平是平均收入的50-70倍。
那么,统计局调查到的前1%人口和前0.1%人口,其收入占比是多少呢?
统计局调查到的住户中,前1%人口的收入只是社会平均收入的9.5倍;前0.1%人口的收入只有26倍。这要远低于CFPS、CHFS和CLDS的调查结果。
如果把这三组数据的前1%收入去掉,则会出现下图:
可以看到,此时各数据的基尼系数都比之前降低了不少,CFPS的基尼系数还剩0.479,已经接近统计局的全国水平;CLDS和CHFS也下降到0.532和0.522。
因此,我们可以得到第二个问题的答案:有没有调查到富人,是统计局基尼系数和其他微观调查数据基尼系数产生差异的主要原因。
但顺势我们又有了第三个问题:统计局或各项微观数据,谁调查到的富人规模才能正确反映社会现状?
这里我们需要借助一些外部数据库,《2018胡润财富报告》
这份数据「采用微观和宏观的调研方法调研。微观调研上参考各个地区高档住宅数量、最近三年豪华汽车销量、个人所得税申报人数、企业注册资本和其他高档消费等相关指标。宏观上参考国家统计局最新公布的中国GDP、GNP数据,并结合洛伦兹曲线模型进行宏观分析统计」,估算了全国高净值人群的规模,他们发现,截止至2017年12月31日,中国大陆资产千万的家庭达到了161万户;资产亿元上的家庭达到了11万户。由于采用了宏观数据下推,这个估计应该说比较准确。
在三份微观数据中,仅有CHFS调查了家庭资产,在4万户CHFS被调查家庭中,资产在千万元以上的家庭有522户,按抽样权重计算并放大到全国,共可推算出380万户千万元以上资产的家庭,是《2018胡润财富报告》推算的2倍多。如果按照人口占比调整(胡润财富报告按照每户人数相同计算),千万元以上资产家庭的户数进一步降低到320万户,是《2018胡润财富报告》的2倍。
但亿元以上资产的家庭呢?在调查中有522户千万以上资产家庭,那么其中应当有几十户亿元家庭吧?
很遗憾,一户也没有。因为CHFS为了保护隐私,对每一户的资产进行了截尾,所有资产超过3000万的家庭,资产都记为3000万元;收入高于500万的家庭,收入都记为500万。在前文也可以看到,CHFS的前1%人口收入和另两个数据差不多,但前0.1%人口收入就要低于另外两份数据,原因就在于这个截尾。
但截尾前的原始数字并不是完全不能推算出来,CHFS有很复杂的数据结构,一些指标报告了原始值,例如房产等,他在数据库中也记录了原始值。我们利用这些原始值重新推算截尾前的家庭资产,结果发现,共有6户被调查对象在恢复了截尾前数据后得到了亿元以上的资产,按权重调整后推算全国,应有4.6万户家庭资产在亿元以上。
两相对比,有这样的结果:
千万元资产——CHFS,320万户;胡润财富报告,161万户
亿元资产——CHFS,4.6万户,胡润财富报告,11万户。
这个对比说明CHFS的调查还是相对比较准确的,尤其是对于占比如此低的极富人口调查,数量级能对得上,已经很不容易。
接下来就是激动人心的时刻:CHFS调查到的富人——我们认为他比较接近真实水平——和统计局调查到的富人,其收入差别有多大?
我们可以算出,CHFS调查中最富有的前1%家庭的的每户人均收入情况是:
中位数为70万元,平均值114万元,最高值为800万元。
那么,在统计局的微观数据中,收入最高的前1%家庭,类似的指标是?
中位数25.2万元,平均值33.7万元,最高值为157万元。
答案来了,统计局的基尼系数较低,并不是因为基尼系数真的很低,而是他的调查并没有覆盖到那群最富的人。统计局数据中的99%分位数,相当于CHFS截尾前数据的97.3%;CHFS截尾前数据的99%,在统计局数据中可以拍到CHFS截尾前数据的99.9%;统计局的最高收入水平,仅相当于CHFS截尾前数据的99.7%,其上还有千分三更富有的家庭,不在统计局的调查样本之内。
而加上在统计局数据中被大大稀释的前1%富人,才能反映我国相对真实的基尼系数,真实的贫富差距。
现在,让我们给出最后一组计算——前文中的基尼系数,我们都用了截尾后数据,那么如果用恢复了截尾前原始情况的CHFS数据,能算出多高的基尼系数呢?结果如下:
将3000万元以上资产和500万元以上收入的家庭恢复到原始值,基尼系数达到了0.671!考虑到CHFS对富人的抽样水平较高,在千万元资产和亿元资产的家庭数量的估计上与其他数据更一致,我认为这个数字更接近中国的真实水平。
综上所述,中国的基尼系数有不同的结果:
如果在统计局口径(几乎不包括前1%人口),基尼系数约为0.47;
如果包含富人,但是没能包含那些最富有的人口(如CFPS、CLDS和截尾后的CHFS),则基尼系数约为0.55到0.6之间;
如果不仅包含了富人,还包括了那些亿万富翁,包括那些人均收入达到了平均水平上百倍的人(如截尾前的CHFS),那么中国的基尼系数会超过0.6,达到0.67。
做一些解释和补充:
随机性由中心来保证,访员拿到任务是具体的某一个人某一户,无论是老受访户还是新受访户访问员都无法决定,访员只能决定谁去访问 (哦这个还是督导的工作)
家金采用的方法和随机性的保证都非常严谨正规,论证和说明都可见chfs官网。不要用一句话就抹杀了背后无数人做出的努力。
抽样设计与数据质量:
https:// wk.baidu.com/view/a5409 402b9d528ea81c77994?pcf=2
————————分割——————————
想讲一讲西财的调查作为访问员的感受
利益相关:
西南财经大学本科在读。
中国家庭金融调查中心2017年暑期访问调查员。
访问地区在青海玉树、德令哈。
玉树海拔3000~4000米,找的是当地大学生(还有北京大学的哦)来当翻译。
最高的受访户在海拔4700~5000米的山上,和翻译爬山上去的。(看见tm的野生动物了吗,到处都是牦牛藏獒,也见到了喜马拉雅旱獭,野山羊)
在开始前有一段时间的系统培训,会说明很多需要注意的点,开始会有访问模拟和手绘地图(像青海自然是没有这么好的待遇,大部分只有一个名字,只能打开问卷按照家人和姓名来锁定是哪一家)按照分组派出,统一装备统一问卷统一系统。
对于我来说数据可靠性很高,我们有两种样本,一个是跟踪样本一个是新受访户,新受访户比例很少。
跟踪样本一般都是老受访户了,但是访问工具有更新,用的是一套自研系统,有录音功能,访员的任务是读问卷填写受访户回答,每天晚上回宾馆了会回传数据,会有质量控制部的伙伴进行抽样回听问卷补样,我们组就在一个村里补了四户,如果自己觉得问卷质量不行可以要求补样。
问卷很长很细,对于访问员来说很痛苦,访问时间一般都是2小时左右,有时候家里人口多的甚至有5小时的,带另外的时间访问问卷简直想死。每一个数据都有设置数据范围和汉字提示并且同步录音回差,相对来说登记误差会很少。
换样规则很恐怖,至少登门拜访三次(每次都要叉开时间在平板上记录时间和gps),打电话是6次,对于警惕心强的访户有时候只能亮学生证和一遍遍的磨。像我们这个环境下换样更痛苦,每一个换样提交都有质控部的打电话来询问情况,有一次有一个受访户实在找不到了但是所有手机都没有信号,驱车跑到一个山头上才打通电话。
然后绕回题目相关的,基尼系数0.62可不可信,我完全相信,因为我们做为访问员见识过什么是真实的贫穷(这里没有贬义,只能说是命运),有雕刻石头每一块才能挣2块的母亲,也有因为肺病没有办法上学的孩子,有没有任何收入房子地震的时候整垮的老人。很多人的一年收入我甚至实习三个月就能挣回来。
愿家金越来越好,愿国家越来越好。
对不起。
这个回答是为了回应 @Minamoto 的高票答案。该答案有干货,但我认为一些地方值得商榷。该答案对统计局“中国收入基尼系数为0.48”的质疑和对西南财大“中国收入基尼系数0.62”的相信是依据薄弱的。我个人估计中国的基尼系数大概在0.5—0.55之间。
1。答案里由“储蓄率越高,资产的基尼系数就越接近收入的基尼系数。”且中国储蓄率世界最高,又对比其他国家的相关指标,推断出中国的资产基尼系数接近收入基尼系数,从而质疑统计局公布收入基尼系数与北大公布的资产基尼系数相差很大的状况(北大版资产基尼系数0.71,统计局收入基尼系数0.48)。然而这个前提并不正确,因为看收入与资产的关系,不仅要看储蓄率,还要看另一端的投资的回报率。中国经济高速发展,这些年的资本回报率是明显高于劳动回报率的,大资本家的投资回报率也是明显高于一般居民的银行储蓄回报率的,因此资产的基尼系数和收入的基尼系数相差很大是很有可能的。
2。说到收入与资产的关系,还有一个不得不提的就是房价。这些年房价的增长也是畸形的,可以说城市原居民没有做什么资产就得到了很大的提升,而大多数人都是一般劳动者,相互之间相对的收入变化不大。而在任何城市,房价占大多数人的资产的比重都是大头。这是个天大的bug,是储蓄率之外的事情。因此房价促进资产在社会分配的畸形、资产基尼系数远高于收入基尼系数也是很有可能的。
3。答案里调侃北大公布了0.71的资产分配基尼系数是高级黑、佐证了西南财大版的结论。然而北大也公布了0.51的收入分配基尼系数,这就和西南财大版的收入分配基尼系数0.62相差很大了,反而和统计局公布的收入分配基尼系数0.48相差不大。西南财大版本计算方法的明显失误也不是没有的。根据中心极限定理,西南财大版的几千样本量确实不是问题,但是前提得是代表性没有疏漏。但是该版本代表性恰恰有很大疏漏,城市代表是上海陆家嘴富人、农村代表是大凉山贫民,极高收入者和极低收入者列入过多,这已经是学界公论了。这种方法显然会高估收入基尼系数。
4。答案认为,统计局有迎合政府美化数据的动机,但是西南财大也有啊。作为政府官僚部门,央行一直有增强自身地位的动机,当然会设法调整有利于自己的数据。因为收入基尼系数一大国家将不得不重视分配,而由央行执行的货币政策在分配中十分重要。从央行对西南财大研究的主导、不惜与统计局等机关互怼看,央行还是提供了很多政治和财务上的支持的,这都会影响西南财大数据的客观性。
有人根据自己的生活经验相信西南财大版的0.62这个结果,然而宏观经济数据本身就是高度违反直觉的,如果你在美国的布鲁克林和法拉盛生活过也会觉得美国的收入基尼系数造了假。总而言之,“资产基尼数据0.71,收入基尼系数0.48”理论上是有可能的。当然结合统计局作为政府部门确实有美化的动机、且有富人阶层难于统计的缺漏,我认为实际上收入基尼系数可能是0.5-0.55,与北大版相近。认为西南财大版0.62接近事实是不合理的,他们的计算也有着一些明显的错误。再说毕竟是政府内不同部门的互怼,你不能觉得一个是政府美化后的数据而另一个是真实客观的良心数据啊。
先说结论:很难估计,因为根据口径的不同会得到大相径庭的数据,更确切地说,是分组的不同。一般而言分组越多越细,基尼系数就越高,而且是以肉眼可见的速度攀升——因为极少数的(前1‰甚至比例更小)富人,他们有能力将洛伦兹曲线拉到近乎垂直于横轴的程度,以至于他们占据的那部分面积实际上很大。统计局和西南财大的数据都有道理,但后者可能将更多“极端富裕”的群体纳入了考虑,个人更倾向后者。
举北京的例子来讲一下吧:田卫民先生在2012年得出北京2010年的基尼系数是0.2739[1] ——一个非常低的数字,但同样是北京,上海交通大学民情研究中心在2014年做的抽样调查则显示当年北京的基尼系数是0.587,而且还特地强调这是不含灰色收入而失真的数据。两者之间相差超过0.3——显然,在口径相同的情况下,任何经济环境上的变动都是不可能在短短4年内造成如此巨大的差额的。
但我们并不能就此认为田教授抑或上交有“伪造数据”的嫌疑——因为这些数据的得出都并非空穴来风。田卫民根据陕西、新疆、福建等省区年鉴提供的开口组数列制定了一套通用于全国各省的开口组数列,包括8个最低收入组开区间和8个最高收入组开区间,并依照已有的数据估算出了这16个收入组的每个区间的均值。
而且他已经在计算公式的选取上做了相当程度的考量:
在我国统计年鉴中,城镇和农村居民收入分组的数据格式并不一致,1986年之前的城镇和2001年之前的农村收入居民按照一定的收入区间分组,城镇在1987年之后按收入等级分为非等份的7组,农村在2001年之后按收入等级分为5等份。因此,无论是等份还是非等份的基尼系数计算公式都不能获得口径一致的计算结果。
因此他没有使用Deaton在1997年得出的简单粗暴的基尼系数直接测度公式,也没有使用2000年的一个非等分组基尼系数计算公式,而是基于基尼系数是洛伦兹曲线图中不平等面积和完全不平等面积比值这一性质,使用了另一公式:
P为总人口,W为总收入, 为累积到第i组的收入。
这个公式排除了多数干扰项,按理说,只要田给出的每个收入组的开区间的均值足够准确,就能得到一个足够接近现实状况的结果。虽然他在最后综合城乡各自基尼系数得出结果时承认自己忽略了城乡收入之间的重叠现象,沿用了Sundrum在1990年使用的分组加权法,但是要解决这种重叠现象,要么采用董静、李子奈的修正城乡加权法(但这一方法要求假设居民收入分布服从正态分布,这种和现实存在巨大差异的假设会带来甚至比忽略重叠现象更大的干扰);要么用程永宏的方法,即用收入分布函数计算单一总体的基尼系数,可怎么拟合这个函数又是个很复杂的问题。如上所述,从数学的角度来看,这套方法已经被优化得挺好了。但倘若你说北京基尼系数只有0.2739,国家统计局的数字都不好这么说……
所以问题在于——最后一个最高收入组开区间“15000以上”,它的均值真的是文中给出的18000吗?
产生怀疑,并不是因为这套收入组开区间的制定是基于福建、新疆、陕西等省的情况——说实在的,即使是在2020年的北京,西城区的人均可支配收入也才90286,只有最后一个开区间下限的一半,何况是10年前?这个级别放到哪个省份都是前1%的情况,问题就在于,计算这个开区间内样本均值的时候,究竟有没有将那些数值极高的样本,可能是这个下限数百甚至数千倍的样本纳入考虑?
我没有指责田老师的意思,因为他计算各个样本所占据人口比例的时候也是依照各地年鉴里的数据,这个数字是忠诚于已知的数据的。但是,由于那些占比极小,将他们纳入抽样统计中十分困难,却又拥有极高收入的群体的存在,一条“不够完整”的洛伦兹曲线,即使它在横轴上的投影一路延伸到了99%甚至更多一点,基于它得出的基尼系数也可能会与“完整”曲线对应的基尼系数大相径庭。
所以我的想法是已知的数字都有道理,但更高的数字会更接近于现实状况。
不过即使这样,至少依照这套数据,还是有令人欣慰的地方:
对于我们这些身处99%中的“普通人”而言,我们之间的贫富差距比我们曾经想象的更低一点,普通人与普通人之间依旧有充分的联合起来的理由。
以我大学同学的贫富分化程度,我觉得是0.6
取决于你想要相信什么。你觉得中国是一个贫富悬殊巨大,当前没有乱只是因为老板姓傻,只是因为政府捂的比较好,那就相信高的。反过来就相信低的。
被吹上天的西南财大数据你以为是调查准确?西南财大调查问题质疑的很多,为什么到这里不允许质疑了?因为西南财大的数据是最高的。
假如过几天有个xx财大给了个0.68的数据,那那个数据自然就成了权威了。很多人只是想找一个最高的数据罢了。
问我?我也是这个性质,找一个自己相信的数据,然后自己解释给自己听。所以就不说了。
这里是一个完全的屁股决定脑袋的地方,可笑邪恶是很多人还以为自己比贴吧档次高多少,都是人家贴吧10年前玩剩下的。
著名社会科学家,美国国家科学院院士谢宇和哈佛大学Department of Government助理教授Zhou Xiang发表在美国国家科学院杂志(PNAS)的文章"Income Inequality in Today's China"讨论了中国收入不平等的问题,计算了基尼系数,并讨论了为什么中国基尼系数如此之高。
数据来源:
北京大学主导的中国家庭社会调查(CFPS 2010,2012);
国家统计局的中国1%人口调查(Mini-Census 2005);
中国人民大学和香港科技大学主导的中国综合社会调查(CGSS 2010,2012);
西南财经大学主导的中国家庭金融调查与研究中心(CHFS 2011);
中山大学主导的中国劳动力动态调查(CLDS 2012);
从图中可以看出,2012年我国基尼系数大概为0.53-0.55左右。
那么为什么中国的基尼系数如此之高呢?
通过与美国数据的对比,本文通过一个简单回归模型检验了一些因素的相关关系:地区(各省之前的区别),城乡区别,受教育水平,民族(种族),家庭结构。
在中国,12%的总体收入差距可以归因为省与省的区别,而在美国,州与州的区别只能解释2%的总体收入差距。在中国,10%的总体收入差距可以归因为城乡区别,而在美国,城乡收入差别几乎不能解释总体收入差别。可见,中国的总体收入差别,主要是省与省之前的差别以及城乡之间的差别。在美国,收入差距似乎主要是由家庭结构导致的。
具体细节,感兴趣的同学可以阅读
Xie, Y., & Zhou, X. (2014). Income inequality in today’s China. Proceedings of the National Academy of Sciences, 201403158.
据说是零点四几。数据很好查,不多说。已经很高了,比美国高。
实际上呢,我猜测要更高。想想什么人的收入数据最容易统计?上班的,那些年收入在几万元到几十万元的。不管你收入高低,只要你上班,都很好统计。
谁的收入不好估计?特别有钱的和特别穷的,当然特别有钱的不包括马云这种全国人民都看着的。就大概是你周围那些做不大不小的生意的,一年百八十万几百万,或者一些收入来源比较说不清的人,这种估计起来很不准确。还有特别穷的,拾荒的,三和大神,这种不好统计。两头的难以统计,中间的好统计,得出来的结果应该比实际情况看起来更平均一些。
这也很正常,这就是传说中的库兹涅茨曲线,描述不平等和发展情况的关系成倒u型。最穷的时候都平均,越发展越不平均,到发展程度很高了就又开始平均。用中国话说就是让一部分人先富起来,然后实现共同富裕。但具体这个零点四几是否过高或者过低,什么时候开始共同富裕,还是上面决定吧。
你是要实际数据还是“官方数据”?
“官方数据”看世界银行公开的即可,大陆政府报的是0.47。
实际数据就是西南财经大学四万户调查,0.62。高于全球其他200多个国家。
比这数更高的目前大致有4个国家,分别是南非 莱索托 博茨瓦纳 和 塞舌尔。