这步的确容易搞混,因为从计算的角度考虑两者有一致的东西。
相关分析和回归分析是很常用的两种数理统计方法,在很多研究领域有着广泛的用途,尤其是经管学科。
这两种方法,绝大部分人是借助SPSS,SAS,STATAS等统计软件完成。对里面的计算细节并不做要求。
这导致了描述的时候经常搞混。同时由于这两种种数理统计方法除了相似之处,很多数理统计教科书中并没有讲两者的内在差别,从而使很多研究者不能正确的理解相关分析与回归分析。
相关分析与回归分析均为研究多个随机变量间关联性的方法,但这两种数理统计方法存在本质的差别,它们是用于不同的研究目的。
相关性分析:在于检验随机变量的共变趋势(即共同变化的程度),
回归分析:在于试图用自变量来预测因变量的值。
使用回归分析前即有验的假设的。
在相关分析中,两个变量必须同时都是随机变量,如果其中的一个变量不是随机变量,就不能进行相关分析。这是相关分析方法本身所决定的。
回归分析,其中的因变量肯定为随机变量(这是回归分析方法本身所决定的),而自变量则可以是普通变量(规范的叫法是“固定变量”,有确定的取值)也可以是随机变量。
回归分析中的 在数学上恰好是Pearson相关系数。
这是最容易理解错误的地方。
认为就是 “相关系数”或“相关系数的平方”。
当然,在理解相关性,回归分析后,还有一个更重要的逻辑问题。
就是相关性与因果性的问题。理解这个之前,来看下面一个例子。
该论文就是一篇很好的从回归分析,到因果性分析的很好的论文。
首先是苦力跟体力活,是实地调查的。在文中把干的体力活讲清楚了。然后把统计数据丢到软件里,点几个按钮。然后出结果。
先进行描述性统计。(这步非常关键,要描述清楚要素是什么玩意,是什么意思)。
接着点两下按钮。
回归分析的结果很简单,根据上面打星星的情况,得出原来14个要素里面有10个要素是紧密相关的。其结论很简洁,就是14个要素里有4个可以丢弃的,有10个是重要的。
上面是结果图,就是找专家在一个软件里面利用对抗解释结构模型得到最终的结果。
上面的链接是可以快速计算对抗层级拓扑图的方法的。
流程如上。
总之,相关性与回归分析之间是存在交集的。回归分析本身可以看成是一种相关性分析。
相关性与因果性是不同的性质。如果映射成图,相关性是无向图,因果性是有向图。