线性回归中的 ANOVA 的作用是什么？第1页

sijichun 网友的相关建议:

为啥还有这么多学统计的人来反驳我的答案？你们不翻一下答案，反对我的都是学统计的，学计量的一个也没有吱声。我下面列举的这些都是仔细学过高级（微观）计量的人的共识。不同领域处理方法不一样，我已经补充了，争论下去实在没有必要。

题主一开始把这个问题只归了两类，“计量经济学”和“数学”好吗？压根没有归到“统计学”这一类。就好象我知道我的统计学知识不够不去统计板块答题一样，希望学统计的不要在不了解计量经济学的前提下妄自回答计量经济学的问题。

你们看一下题主的问题是，“做线性回归的时候，回归结果中都会包含ANOVA的分析”,在做线性回归的时候啊！他问的是线性回归结果里面那张ANOVA表好吗？你们学统计的一个个煞有介事的介绍ANOVA的应用是闹哪样。

要说统计，虽然我不是统计的phd，但是学计量的基础就是统计。谁不是从实分析泛函分析概率统计一点一点读上来的？不要以为学计量的人都是土鳖好不，说过了，解决的问题不一样，处理方法不一样，仅此而已。

最后一次修改，懂的自然懂，反正我也没有必要也没有任何激励去给你们学统计的宣传计量的最新进展。

===================================

特别声明，本人以下回答只针对计量经济学领域！我看到题主没有把统计学放到分类里面，只有计量经济学才敢于这么回答的。统计我懂的只是皮毛，但是要说计量～

其实很多人对计量经济学的理解还是统计学在经济学中的应用。为什么统计学在心理学、社会学上都有应用，偏偏没发展出计量心理学、计量社会学？有计量史学(cliometrics)，但是计量史学还都是计量经济学的应用。

因为阿，计量经济学跟统计学技术手段类似，但是解决的问题是不一样的。计量经济学更注重解释，而非预测；计量经济学更关注因果，而非相关；计量经济学更关注经济理论，是用数据match理论，而非用数据发现理论。

所以在最开始的时候，经常听说有统计学家和计量经济学家没办法交流。为什么？因为解决的问题不一样，其技术手段也不一样。比如

@TJ Zhou

对我的反驳，你们好好看看评论里面我们的讨论就知道，我们看似都在讨论线性回归，但是讨论的问题根本不是一个问题。

我为什么说R2不重要？不只是我说，计量领域的懂一点的都这么说。为什么？因为R2很大程度上度量的是u的方差跟x的方差大小的问题。但是计量领域绝大多数情况下根本不关心你的u的方差有多大好吗？有更直接的指标看x对y的影响，干嘛还要看R2呢？

当然现在是有很多做统计的转而做计量经济学，其实也是用统计的方法解决经济的问题，并不是说计量经济学就是统计的分支了，计量经济学是经济学好吗？

记得前段时间有个国际著名计量经济学家，之前是某统计学院院长，在学院大会上说了一句“在我是个统计学家之前，我是个经济学家。”结果统计学院一大堆人都在吐槽这句话。计量经济学跟统计学的差别可见一斑了。

烦请反驳我的

@TJ Zhou

还有那位觉着我没有深入理解统计方法的

@赵卿元

同学仔细看看我的回答。我如果在这个方面没有一点底气和信心，敢说这么绝对的话？敢专门发个专栏说R2在计量里面不重要？我找骂是不是？

还有那个

@斯逸卿

的“如果y对a、b、c、d回归，系数都显著。这个显著只是在统计意义上显著，可能经济意义上不显著，表现为R方的增量很小。”导致R方增量很小的原因很有可能是你增加的d相对于u来说本身就没有多少variation，归根结底还是要看u的variance。当然你说预测可以理解了，但是经济学上d明明可以解释y，你忽略它就不对了吗！

=================================

分解方差。

现在很少有人看这个了。

方差分析跟R2一样，对你的模型的解释能力几乎没有任何参考意义。

===================

回答评论里面的问题，答案是没有什么能评估模型的解释能力。

先说R2为什么不可以。

我们假设一个最简单的数据生成过程(DGP)，y=x*b+u，其中x~N(0,1)，b=1，u~N(0,1)。这个时候你可以做出0.5的R2。但是如果u~N(0,2)，那么你只能做出0.25的R2。但是这两个DGP仅仅是误差项的方差改变了而已，我们关注的是b不是吗？就算R2小到只有0.0001，也许只是u的方差太大了，但是x对y还是有解释能力的对不对？而且解释能力跟R2无关。

方差分析有同样的问题。组内的方差其实就是误差项啊～

看一个模型的解释能力，要看的东西很多，但是没有一甚至几个假设检验或者指标可以直接看出来。计量经济学模型也是依赖假设的，关注一下现实的问题，看看你建立的模型跟现实是否符合才能看出模型是不是有解释能力。

比如你要问一下，识别是不是清楚？有没有内生性？做probit的时候有没有异方差？有没有sample selection的问题？有没有其他机制可以导致你做出来的回归结果？如果你做GMM，你的矩条件是否合理？等等等等。

所以，看模型解释能力看什么？看现实问题。

==============================

其实要说没用，还是有用的，看的人只是很少，不是没有。

比如当你研究歧视的时候，男女的工资差异可以分为两部分，一部分是你观察到的男女的差别，比如教育等，还有一部分就是误差项了。

在这个背景下，比较观察到的组间方差和观察不到的组内方差是有意义的。

================================

哇塞！斯坦佛的phd

@赵卿元

都来反驳我唉！

其实吧，这个问题就是计量跟统计的差别，计量关注因果，统计关注相关。计量关注统计量是不是显著，而不是这个模型的拟合程度（R2），这个是最关键的差别。要不然R2最高的方法就是OLS，还要发明工具变量、面板固定、随机效应、联立方程什么的模型干嘛？

经济学家不是不关注误差项。在计量经济学家看来，误差项的方差是多少并不重要，重要的是你的误差项里面有什么。你的误差项方差再大，如果不是系统性的误差，不影响你的x的外生性，爱怎么大怎么大，系数显著就好。但是如果你的误差项里面有系统性的误差，你的误差项方差再小，你的模型也是错的，你估计出来的系数完全不是你想要的东西。在这种情况下，你甚至说不清楚你估计出来的是什么东西～

还有，ANOVA其实就是特殊情况下的OLS模型，上面我举例子了，经济学也有可能用到ANOVA，我没说这个东西绝对没用，只是在计量领域，用处不大~至于我有没有用过ANOVA，只有我自己知道～

============================

顺便吐槽一下吧，改天修改一下发到我的专栏里去。

计量经济学中那些从统计学、初级计量里面带来的恶习

1、随意删变量

什么？某个变量不显著？删掉！呵呵～这个变量如果理论上对你的y有影响，但是做不出显著，一可能是你的模型错了，二可能是数据没有足够的variation做出显著。如果删掉，你其他的估计都会受到“遗漏变量”的影响，估计的系数理论上都不对的～

2、多重共线性

这个多少跟第一条有关系。什么？你的模型有多重共线性？好严重啊！删变量吧！

为什么不能删变量第一条已经说了。

解决多重共线性最好的办法是增加样本，别的好像没办法了。

至于有人用“主成份分析法”，呵呵，你还知道你估计的东西是啥不？

3、变量筛选

也跟第一条有关系，做很多很多回归，把显著的变量留下来，不显著的删掉。不解释了，参见第一条。

4、异方差

都21世纪了，你还在线性模型里面检验异方差？没听说过white heteroskedasticity robust的统计量吗？这个还需要检验？还需要加权最小二乘？

只有非线性模型中异方差是致命的，线性模型中异方差可以很方便的用white或者Newey-west来解决。

5、R2

这个多少跟主题有关。实际情况是，时间序列你做出低于90%的R2都不正常，但是微观数据你做出50%的R2都很困难。

OLS是在给定的数据和变量条件下R2最高的，因为他是个线性投影。工具变量估计是一个非正交投影，所以R2肯定比OLS的要低。但是我们还是要发展IV之类的方法，这也从侧面反映了R2不重要。

所以你如果用R2去比较模型，完全没有意义。

6、Box-Jenkins

不是专业做时间序列的，不做过多评价。但是基于ACF、PACF图的什么“截尾”、“拖尾”是很不靠谱的方法，已经是共识了。

==========================

这篇回答只限内部讨论，请知乎的小编不要再把这篇发到微博上去了。里面有八卦，不想传开，如果小编感兴趣，去转专栏里面的文章吧。p.s. 上次你们在微博上推我的文章，曲解我的意思好不好！以后你们公开推别人的回答，可不可以征询一下作者的意见！

peng-peng-7-91 网友的相关建议:

（多图）补充：统计基础上的简单解释+几个简单例子

好吧，研究僧又学了一遍线性回归，觉得本科学的都是渣。

重新补充一点。

首先假设模型是

通常我们看到的ANOVA表是这样的。

这里的SSR(X1)代表的是 the part of Y could be represented by X1

SSR(X2)代表的是 the part of Y could be represented by X2

SSE(residuals) 代表的是 the part of Y could not be represented by X1 and X2

F value 代表的是

用来检验是否significant。

最末尾的p－value是指的是在超出所求F* 后的概率，所以越小越好。

所以anova最简单的作用就是衡量是否是significant 检验。

这里是分割线

——————————————————————————————————

线性回归博大精深，浅浅的学习也学了一个学期，只能简单的说一下，如果题主希望具体了解，这里推荐几本书。蒋毅的《统计建模与R软件》，以及全英的书《Applied Linear Regression Models Fourth Edition》 Michael H. Kutner&Christopher J. Nachtsheim&John Neter，《Introduction to Mathematical Statistics Fifth Edition》 Robert V. Hogg&Allen T. Craig，有需要可以看一下。再推荐一个网站，可以逛下论坛上下课什么的。网址为： Dataguru炼数成金

如维基百科所言：

方差分析（Analysis of variance，简称ANOVA）为资料分析中常见的统计模型。

方差分析依靠F-分布为机率分布的依据，利用平方和（Sum of square）与自由度（Degree of freedom）所计算的组间与组内均方（Mean of square）估计出F值，若有显著差异则考量进行事后比较或称多重比较（Multiple comparison），较常见的为Scheffé's method、Tukey-Kramer method与Bonferroni correction，用于探讨其各组之间的差异为何。

再引用WolframAlpha里的定义

如图，这是一个最简单的Anova表。

SSR是拟合值与期望的平方和，SSE是原值与拟合值的平方和，SSTO是原值与期望的平方和。

如图。

如图，这是一个最简单的anova F检验

简单来说，就是用所得到的数据带入检验统计量，得到统计量的值，再来和标准值作对比，或算出p-value，来判断是原假设（h0）还是备择假设（ha）。

原假设与备择假设又名零假设与对立假设。

引维基概念：

假设检验是推论统计中，除了估计之外，另一个重要的工作。我们一旦能估计未知参数，就会希望根据结果对未知的真正参数值做出适当的推论。

统计上对参数的假设，就是对一个或多个参数的论述。而其中我们欲检验其正确性的为零假设（null hypothesis），零假设通常由研究者决定，反应研究者对未知参数的看法。相对于零假设的其他有关参数之论述是对立假设（alternative hypothesis），它通常反应了执行检定的研究者对参数可能数值的另一种（对立的）看法（换句话说，对立假设通常才是研究者最想知道的）。

假设检验的种类包括：t检验，Z检验，卡方检验，F检验等等。

再用R软件里构造一个例子。anova在R软件里为anova() 的函数

样本：

代码以及结果

以上我们可以得知residuals, r-square, 回归方程，通过所得数据大小来判断这个样本是否符合线性条件，以及在到之后的调整。

可以清晰地从图中看出所用样本的关系。

四幅图分别是：

1. 图中表示数据的残差图和它的拟合直线，由图可知，此样本数据不是线性的。

2. 上图为qq plot，用来验证数据是否为正态分布，由图可知，上述数据并不是很符合正态分布

3. 图为标准化残差与预测值的残差图，由图可知，样本数据不是线性的

4. 标准化残差对杠杆值散点图：杠杆值是帽子矩阵的对角线元素，还含有lowess曲线和Cook距离曲线。

其实这只是很小的一部分，还有很多其他的相关量。

如果有什么不懂，可以随便问，我尽量答~希望能帮到题主。

momono 网友的相关建议:

MacBook Pro （从定位上来说）本来就是干活用的机器。说实话，用来娱乐，很可能还不如买台 iPad 好使——起码 iOS 上的娱乐应用生态还算是不错。

OS X 和 Windows 的软件不相兼容，这恐怕是购买一台 Mac 前最先要了解的事情。如果不先为此做好心理准备就兴冲冲地去买 Mac, 还是 MacBook Pro, 要么是被无良的店员坑了，要么是作为消费者太不谨慎了。

说回「OS X 有什么好」——对我而言：

字体。我选择使用 Mac 的最主要原因，是 OS X 的字体渲染风格更对我胃口——即便我使用的是低分辨率屏的 2012 版 MacBook Pro。虽然 Windows 能使用 MacType 这样的插件来改变字体渲染风格，但在最近版本的 Windows 中，也已在很多场合下失效。
对于设计而言的一点便利功能。包括而不限于「预览」能够以真实尺寸显示 PDF、更全局的 OpenType 特性支持、便利的 PDF 虚拟打印等。
可用性不错的自带软件。
此外，对于程序员而言，OS X 应该算是个不错的 UNIX 环境。

我学习需要使用的主要工具都可以在 OS X 中使用，而不能满足的那部分，用虚拟机也可以挺流畅的解决，而我并没有「杜绝在 Mac 上使用 Windows」的那种精神洁癖，所以用得挺舒服；加上对我而言，娱乐多是可以通过浏览器解决的事情，要玩点游戏，也有 Steam 和虚拟机。因此我不觉得 Mac 在娱乐上有什么特别大的问题。当然，这也只适用于我自己了。

* * * * * *

在 Mac 上装 Windows 没什么不好的，这本来就是苹果允许、并用以吸引新用户的手段，Windows 也是个好使的操作系统。就是续航会短，发热也相对厉害一些。此外，屏幕色彩可能需要加载色彩配置文件来改善。前两年 MacBook Pro 还被评为「最合适使用 Windows 的电脑」。只是，最好装 Windows 8 或 Windows 10——Windows 7 虽然是个好系统，但对 HiDPI 的支持不足会浪费了那块 Retina 屏。

如果还是绕不开「花大价钱买了屌丝机」的心理，那么趁早出了止损还好。亏钱无可避免，但好歹不会用着心塞。不过，现在达到 MacBook Pro 这个标准（硬件、设计、工艺）的 PC 笔记本，也不便宜得去哪里就是了。

谢谢邀请。

zhao-qing-yuan-78 网友的相关建议:

MacBook Pro （从定位上来说）本来就是干活用的机器。说实话，用来娱乐，很可能还不如买台 iPad 好使——起码 iOS 上的娱乐应用生态还算是不错。

说回「OS X 有什么好」——对我而言：

字体。我选择使用 Mac 的最主要原因，是 OS X 的字体渲染风格更对我胃口——即便我使用的是低分辨率屏的 2012 版 MacBook Pro。虽然 Windows 能使用 MacType 这样的插件来改变字体渲染风格，但在最近版本的 Windows 中，也已在很多场合下失效。
对于设计而言的一点便利功能。包括而不限于「预览」能够以真实尺寸显示 PDF、更全局的 OpenType 特性支持、便利的 PDF 虚拟打印等。
可用性不错的自带软件。
此外，对于程序员而言，OS X 应该算是个不错的 UNIX 环境。

* * * * * *

谢谢邀请。

线性回归中的 ANOVA 的作用是什么？的其他答案点击这里

线性回归中的 ANOVA 的作用是什么？第1页

相关话题

前一个讨论

下一个讨论

相关的话题

线性回归中的 ANOVA 的作用是什么？ 第1页

相关话题

前一个讨论

下一个讨论

相关的话题

线性回归中的 ANOVA 的作用是什么？第1页