高维统计里有一个简单而深刻的结论,涉及到欧式空间中高维随机变量的几何特点。令 为一个 维的标准正态分布,那么我们有
上式中 表示欧式距离,也就是说 这个随机向量的模长大约是 。在 比较大的时候( ),概率意义上的误差项 几乎是可以忽略的,这意味着这个时候 的模长几乎是非随机的。
这个结论为什么反直观呢?因为它意味着对于很大的 , 维的标准正态样本几乎分布在一个半径为 的大球上!这和我们熟知的低维正态样本呈现的那种「自然」的圆形(边缘分布独立)或椭圆形状(边缘分布不独立,见下图)简直大相径庭!
不仅如此,如果我们考虑两个独立的 ,那么 ,也就是两个它们之间的距离,在 很大的时候也有近似于非随机的表现。另外我们还有
,
也就是说两个随机向量的角度近似是 度(同样要在 很大的情况下,因为 小的时候误差项 不一定小)。
类似的结论还可以推广到很多非正态分布数据上去。这些结论从数学的角度非常精确而优美的解释了我们熟知的「curse of dimensionality」现象产生的重要原因之一——高维数据的稀疏性。举个例子,正是这种稀疏性使得高维数据中 kNN 方法会变得特别困难。
以上这些结论来自这篇文章:
Hall, P., Marron, J., & Neeman, A. (2005). Geometric Representation of High Dimension, Low Sample Size Data.Journal of the Royal Statistical Society. Series B (Statistical Methodology),67(3), 427-444.
剑桥的 Richard Samworth 在评述这篇文章的贡献时说「这篇文章迫使研究者们改写他们对高维数据的直观」(the paper forced researchers to rewrite their intuitions about high dimensional data)[1],也算是呼应了这里「反直觉」这个题眼。
最后顺便提一下,已故的 Peter Hall 教授对统计的贡献广泛而深刻,他的六百多篇文章里蕴含的财富可能还需要至少一两代人来慢慢发掘。
受到一些评论的启发我想我或许可以再多解释(复制粘贴)一点。@屈文 的评论提到这个这些性质可以从卡方分布的角度来理解,这个实在是非常的正确——这些性质就是这么证明的。比如要求 的模长 ,我们有
其中 表示 的第 i 维,服从一维标准正态分布。从而 服从一个自由度为 p 的卡方分布。再经过一些相对直接的计算就可以得到上面的两个结论。
这两个结论只是原文的一小部分,文章接下去讨论了 n 固定而 p 发散到无穷时数据点的分布情况。注意这里的假设和我们一般看到的高维文献的假设略有不同(一般假设 n 也发散到无穷),但含义是相近的。
如果我们考虑 而 p 很大的情况,也就是说我们的数据只包含三个高维随机向量 。上面的结论意味着什么呢?首先, 几乎是垂直的;其次,三个数据点 之间两两间的距离几乎是固定的。结论: 几乎构成一个等边三角形。原文的图示如下:
这里的示意图只能表现出 的情况,但不妨碍我们想象更高维的情形。原文中的图二则表现了模拟数据的情况:
上图表现了十个 n=3 的样本(不同形状的点表示)在 p=2,20,200,20000 时的分布情况——准确的说,是所有数据点在图一所示的那个平面上的投影情况。可以看到在维度较低的情况下数据比较分散,而后两张图上数据则基本上都集中到了等边三角形的三个顶点上了。
这里讲的是 n=3 的情况,对于更大的 n,数据倾向于分布在一个 (n-1)-单纯形的 n 个顶点上(2-单纯形即是等边三角形)。文章接下去谈了这些几何特点对于 SVM(support vector machine)和 DWD(distance-weighted discrimination)等分类方法的影响。这里我就不再赘述(复制粘贴)了。
@王希 的评论事实上道出了为什么以上结论可以推广到很多非正态分布的原因。感谢补充。我觉得大家再努力一把基本都可以把文章的前半部分重制出来了
首先,对于正态分布的情况,前面说了 服从一个自由度为 p 的卡方分布。根据卡方分布的一个基本性质,我们有
这里 表示弱(依分布)收敛。也就是说 的表现不断接近一个均值为 p 方差为 2p 的正态分布。正如 @王希 指出的,这个时候相对于均值, 的标准差(标准差可以衡量分布的尺度,scale,最简单的例子如切比雪夫不等式)与均值相比非常的小。
对于很多非正态分布的情况,虽然 一般不再服从卡方分布,但只要有类似上面的收敛结果,我们讨论的那些性质就依然是成立的。因为中心极限定理可以推广到非常一般的情形(非独立非同分布),所以这里的条件也可以放的非常宽。具体可以参考 Hall et al (2005) 431 页的讨论。
感谢 @Yeung Evan 的补充!估计协方差矩阵是一个很好的例子——我们可以比较精确的估计矩阵里的每一个元素,但估计的误差积累起来会导致对整个矩阵的估计比较差。因为最近在读分类分析(classification)的文章,所以我也想补充一点 @Yeung Evan 所提到的这个问题对分类分析的影响。
经典的方法如线性/二次判别分析(linear/quadratic discriminant analysis)假设每个类别的数据来自一个正态分布,因此需要估计正态分布的协方差矩阵来构造分类器(classifier)。而数据的维度稍微大一点就会出现 @Yeung Evan 回答中提到的矩阵估计不准的问题,这些误差累积起来会对分类的准确度造成很大负面影响。而所谓的 naive Bayes 方法就通过只估计协方差矩阵的对角项,也就是方差,而假设协方差均为零的办法来大大减少需要估计的参数数量。这事实上就是强行假设正态分布的各边际分布独立。之所以可以这么「naive」,一个直观解释是这么做所造成的「信号」(signal)的损失,要远小于「噪声」(noise)的降低。因此信号/噪声比还是大大提高了。这方面最经典的工作包括:
Bickel, Peter J.; Levina, Elizaveta. Some theory for Fisher's linear discriminant function, `naive Bayes', and some alternatives when there are many more variables than observations. Bernoulli 10 (2004), no. 6, 989--1010. doi:10.3150/bj/1106314847. https://projecteuclid.org/euclid.bj/1106314847
Fan, Jianqing; Fan, Yingying. High-dimensional classification using features annealed independence rules. Ann. Statist. 36 (2008), no. 6, 2605--2637. doi:10.1214/07-AOS504. https://projecteuclid.org/euclid.aos/1231165181