为什么方差要定义成平方？这么定义有什么利弊？如果把方差定义成 |X－E(X)|，这又有什么利弊？第1页

looming 网友的相关建议:

谢邀,这个问题我很早以前就想过,很早以前也有类似的问题邀请我,然而我并不敢答.

取平方是有其因果上的必然性在里面的.什么平方可积性质好,方差函数可求导这种事其实都是结果而不是原因.真正可以解释这玩意为什么这么设计的理论比这个高到不知道哪里去了.

回忆最初的动机,设计这玩意的动机是想办法找一个度量来衡量这个随机变量离它们的均值有多远,而且这个度量最好是线性的(即随机变量乘A,最后这个距离也会乘A)

于是这个问题就变成了一个标准的泛函问题,一个自然而然的做法是把所有一个妈生(在一个空间下)的随机变量构成一个线性空间,运算就是随机变量之间的运算.

由于要衡量的是离均值有多远,所以不妨设这里面的每个随机变量均值都是0好了,不然全部平移一下就好.

然而这并没有什么卵用.到这里还没有区分开标准差和平均差,以及若干次方差,因为他们都是等价的范数(度量).在这里看不出区别.

现在一个新的需求来了,贪婪的人类不仅想描绘出随机变量离均值距离,还想找办法刻画出随机变量偏离均值的方向,一个很简单的思考,就是如果两个随机变量偏离的方向比较接近,它们两者本身应该是比较相关的(想象欧式空间里的夹角.)贪婪的人类甚至还希望,如果两个随机变量"不相关"(例如互相独立),那最好这两个随机变量能通过某种运算算出个0来,那就优美了.

谢天谢地正好有这么个轮子能完成这件事,这玩意就叫内积,它需要满足要求的线性,也满足独立的随机变量算出来是0,同时可以很好地刻画相关度,还要满足杂七杂八的一堆内积该有的性质,综合了一堆条件,可以用的内积设计就只剩下

反映到统计学的名词上来,这玩意有个小名就叫协方差
有了内积,就可以诱导出一个范数了,这个诱导出的范数是唯一的,它就是

然而这个东西的小名就是标准差.

所以说平方均值这种东西真不是因为它性质好,获得了几百个数学家的一致通过,然后我们钦点他是2次,而是作为一个含有内积的距离空间(希尔伯特空间),希尔伯特同志对我讲,空间的特性已经决定了,这玩意"不得不"是2次

yiorfun 网友的相关建议:

假设是一个连续函数，假设一个有界随机变量关于一个常数的某种“波动”或者“离散程度”被定义为。注意，对任意的和，可能无法取到，并且如果能取到，也可能并非唯一。

但是！如果均值是其中的一个值时，那么必有

，其中是常数。

概率上讲，二阶矩某种程度上是唯一的特性函数，which 有界随机变量在均值处取到最小。

统计上讲，如果任意有界随机变量关于一个连续损失函数是其均值的Lehmann无偏统计量，那么一定是形如的。

是不是贼有意思？

Kagan, Abram, and Lawrence A. Shepp. "Why the variance?." Statistics & probability letters 38.4 (1998): 329-333.

yie-jian-fei-93-79 网友的相关建议:

确实存在。这就是平均的离差，简称平均差。这个当然可以用，只是编程计算起来不方便，必须老老实实地计算出每一个数字与平均数的差值，再取平均数。没有其它简便的算法。

为了能更简便计算，有人试图用平方来代替绝对值，也就是。这么做的好处就是可以化简成。这个算法比较便于编程。这就是平方的离差，简称方差。

ling-jian-94 网友的相关建议:

其实之前的答案已经很不错了，我们把这个问题讲的再通俗易懂一点，先抖个机灵，方差之所以是平方是因为它叫做“方”差，如果是绝对值可能就叫做“绝对值”差了，如果是三次方可能就叫做“三次差”。实际上在统计上三阶矩之类也有一定作用。但我要是这么回答你们一定会打我……

这个定义可以最早追溯到勾股定理：

通过这个公式，我们可以知道直角坐标系当中的任意两个点的距离都可以表示为：

这个距离的定义就叫做欧式距离，它有很多我们熟悉的性质，比如说它虽然定义在某个直角坐标系下面，但是是坐标系无关的，认取三个（或更多）互相垂直的方向重新定义一组直角坐标系，欧氏距离不变。

我们后来知道了它不仅仅是距离，还跟内积空间有密切的联系：

也就是距离的平方，是向量和自己内积的结果。

在任意一个内积空间当中，都可以通过正交化的方法找到一组正交的基底，通过这个基底表示的向量的内积和距离运算可以使用欧氏距离公式。内积空间对于旋转（或者说正交变换）是很友好的，旋转不会影响距离和内积，这跟前面说的与坐标系无关是一个意思。

那么我们已经知道了欧氏距离是我们最常用、最自然、性质也最好的距离定义（没有之一），这跟方差有什么联系呢？

对于一个随机变量X，我们把n次独立重复实验的结果写成一个向量，这个向量是线性空间中的一个向量，或者说是一个点，这个点在基准附近，由于各次实验独立同分布的特性，大致分布成一个球形（注意并不是严格的球形，只是对各个维度对称）。我们要衡量它与基准值之间的距离，最简单也是我们最习惯的方法自然是计算欧氏距离：

距离越远，就说明随机变量X越容易偏离期望值，否则越不容易偏离。

这个距离跟独立重复实验的次数n有关系，我们只想知道跟X有关而跟n无关的特性，于是把跟n有关的系数约掉：

这个公式就是统计当中常说的标准差，代表样本偏离标准值的距离。把这个值平方可以去掉那个讨厌的根号，于是得到了方差：

考虑到这个式子是一个求平均值的形式，我们增加独立重复实验的次数，最终取平均值可以用期望来替代：

这个就是概率论当中定义的方差了。可见：

方差是样本到期望值的欧氏距离的平方。

理解这个定义的要点主要是这几点：

随机变量的性质可以用独立重复实验的结果来描述
独立重复实验可以描述成多维线性空间中的一个点
变量随机波动的程度，可以用独立重复实验结果到基准值，在线性空间中的欧式距离来描述

如果我们不使用欧氏距离，而是使用其他阶的距离定义，也不是不可以，但显然没有欧氏距离来得直观，而且欧氏距离最大的好处是非常适合使用线性代数工具，线性代数工具比如矩阵是现代概率论研究的关键，那么自然没有什么理由不使用欧氏距离了。

另一方面正如其他答案所说，由于使用欧式距离，我们可以将样本转化为一个内积空间。大部分情况下，我们希望度量随机变量变化的程度，所以我们定义一个移除了期望值的内积：

这个内积叫做协方差，而随机变量和自己的内积就是方差。这样就有了度量两个随机变量相关性的能力。对于多维随机变量来说，我们就可以定义每一维自己的方差，和到其他维度的协方差，于是将多维随机变量的方差描述为协方差矩阵：

这是一维随机变量的一个很简单的推广。不过这个应该算是某种附加价值吧。

==========================================

感谢

@聪cong

的提醒，修正了部分内容。

为什么方差要定义成平方？这么定义有什么利弊？如果把方差定义成 |X－E(X)|，这又有什么利弊？的其他答案点击这里

为什么方差要定义成平方？这么定义有什么利弊？如果把方差定义成 |X－E(X)|，这又有什么利弊？第1页

相关话题

前一个讨论

下一个讨论

相关的话题

为什么方差要定义成平方？这么定义有什么利弊？如果把方差定义成 |X－E(X)|，这又有什么利弊？ 第1页

相关话题

前一个讨论

下一个讨论

相关的话题

为什么方差要定义成平方？这么定义有什么利弊？如果把方差定义成 |X－E(X)|，这又有什么利弊？第1页