其实问题可以等价成“单位球球面上的数据点离散程度应该如何刻画”
离散程度小的时候直接用平面近似就行了。
大的时候,其实“方差”的概念已经不合适了。
“方差”概念的引入,其实基于对数据的两个假设:
1.数据的偏差位置在概率上满足正态分布。
2.每个数据点的偶然偏差正态分布的σ是相同的。
虽然实际中往往人们强行用方差仍然能得到还不错的结果。但严格的来说,只有在以上两个条件满足的时候,方差才能表示离散程度。
=============
下面以一维为例做个解释:
我们测了三次某物的长度,测量结果为x1、x2、x3,但是我们深知除了这个物体本身的固有原因,温度变化导致的热胀冷缩、测量误差等很多原因,均会对测量值造成影响。
我们想知道如下两个数据:
1.下次测量时,得到哪个数的概率密度最大?
2.那些造成测量值波动的因素,它们到底有多大?
在通常情况下(满足前面说的两个条件),第一个问题的结果是“平均数”,第二个问题的结果是“方差”。
推导如下:
测量值是有固定值x0和变化值Δx相加得到的。Δx是有很多独立的微小的影响因素叠加而成的,可以用随机行走的概率分布模拟。易证在平直空间中这个分布为正态分布g(x)=exp-((x-x0)/σ)²,由问题本身的物理背景可以基本确定三次测量中这个σ相同。
由于x0和σ的具体值是不可知的,我们试图得到一个x0'和σ'使得实际值等于它们的概率最大。
那么,也就是说,我们要使得
exp-((x1-x0')/σ)² × exp-((x2-x0')/σ)² × exp-((x3-x0')/σ)²
的值最大。
由于σ相同,所以也就是说问题等价于选取x0'使得
(x1-x0')²+(x2-x0')²+(x3-x0')²
的值最小。
故x0'=(x1+x2+x3)/3 。x0'为x0的概率分布极大值。也就是我们说的“平均数”。
同时,我们也用(x1-x0')²+(x2-x0')²+(x3-x0')²来定义了残差(乘常数项不造成影响)
s≡⅓[(x1-x0')²+(x2-x0')²+(x3-x0')²]
易证s同样为σ²的概率极大值。
===========
我们也可以用同样的方法得到二维的线性拟合公式——恩就是教科书上教我们的那个。同样思想,就是找实际斜率和截距的概率最大值。
===========
但是球面上这就出问题了,因为球面上的随机行走结果分布它
不!是!正!态!分!布!
所以说“方差”的概念已经不存在了,我们需要根据球面随机行走的分布函数重新定义一个参数来作为离散度指标。
=============
这也是同样此问题不能用协方差的原因,协方差计算方法是有适用范围的,空间不是平直的时候不能乱用。如果用协方差矩阵计算的话,计算两组数据A和B,A为一些离散程度小的点和一些离散程度很大的点,B所有的点都离散程度适中。在本模型中由于空间非平直,用协方差计算会低估A的离散程度,而高估B的离散程度。