看你标签有『机器学习』,那看来是问机器学习中的流形。
机器学习中的流形借用了数学中流形的概念,当机器学习并不真的去研究拓扑。更多的时候,机器学习中的流形是指数据分布在高维空间中的一个低维度的流形上面,意思就是数据本质上不是高维度的(所以处理起来不会像真正的高维数据一样困难)。如图:
数据看似分布在一个三维空间中,而实际上则是分布在一个卷曲的二维平面上,也就是数据的真实分布其实只有二维。直接在原始数据的高维空间中采用机器学习中的分类/回归方法,往往会面对高维度带来的模型高复杂度问题,导致模型的泛化能力下降,所以如果能够讲数据合理得展开在低维空间中,那么能够大大简化模型复杂度。
很多真实数据都具备类似的性质,比如:同一张正面人脸在不同光照环境下的图像集。
流形的概念很早就被引入到机器学习中,大量的降维方法都尝试从高维空间中复原出低维数据(也就是把上面这种三维卷曲摊开,放在二维平面上),包括PCA(Principal Components Analysis)、LLE(Locally Linear Embedding)、MDS(Multidimensional Scaling)、Isomap、KPCA等。
回到问题中来,『流形正则化』其实就是在机器学习问题中的正则化项中加入和流形相关的项,利用数据中的几何结构,起到半监督的作用,比如:两个样本在流形中距离相近,那么他们的label也应该一样或相似。
参考paper: Manifold Regularization: A Geometric Framework for Learning from Labeled and Unlabeled Examples
一个一般的机器学习有监督优化问题可以形式化成这样(式子都来自于上面的参考):
其中第一项是经验误差,第二项是正则化项(RKHS表示),而加入了流形正则化的优化问题可以形式化成:
其实就是多了最后一项,作用是约束 f 的输出使得输出的y符合样本x的分布所代表的几何结构。约束 f 输出的项可以是各种各样的,比如常见的graph regularization:
其中 W_ij 表示i和j两个样本之间在流形上的近似度。
更加详细的细节(推导、解释以及这种优化目标对应的representor theorem的扩展)都在参考paper中。
应用中这么几个作用:
1. 利用样本的空间分布信息
2. 给有监督模型加流形正则化,可以尽可能多得利用无监督的数据,使得模型转化为半监督模型