百科问答小站 logo
百科问答小站 font logo



有谁给解释一下流形以及流形正则化? 第1页

  

user avatar   li-eta 网友的相关建议: 
      

看你标签有『机器学习』,那看来是问机器学习中的流形。

机器学习中的流形借用了数学中流形的概念,当机器学习并不真的去研究拓扑。更多的时候,机器学习中的流形是指数据分布在高维空间中的一个低维度的流形上面,意思就是数据本质上不是高维度的(所以处理起来不会像真正的高维数据一样困难)。如图:

数据看似分布在一个三维空间中,而实际上则是分布在一个卷曲的二维平面上,也就是数据的真实分布其实只有二维。直接在原始数据的高维空间中采用机器学习中的分类/回归方法,往往会面对高维度带来的模型高复杂度问题,导致模型的泛化能力下降,所以如果能够讲数据合理得展开在低维空间中,那么能够大大简化模型复杂度。

很多真实数据都具备类似的性质,比如:同一张正面人脸在不同光照环境下的图像集。

流形的概念很早就被引入到机器学习中,大量的降维方法都尝试从高维空间中复原出低维数据(也就是把上面这种三维卷曲摊开,放在二维平面上),包括PCA(Principal Components Analysis)、LLE(Locally Linear Embedding)、MDS(Multidimensional Scaling)、Isomap、KPCA等。

回到问题中来,『流形正则化』其实就是在机器学习问题中的正则化项中加入和流形相关的项,利用数据中的几何结构,起到半监督的作用,比如:两个样本在流形中距离相近,那么他们的label也应该一样或相似。

参考paper: Manifold Regularization: A Geometric Framework for Learning from Labeled and Unlabeled Examples

一个一般的机器学习有监督优化问题可以形式化成这样(式子都来自于上面的参考):

其中第一项是经验误差,第二项是正则化项(RKHS表示),而加入了流形正则化的优化问题可以形式化成:

其实就是多了最后一项,作用是约束 f 的输出使得输出的y符合样本x的分布所代表的几何结构。约束 f 输出的项可以是各种各样的,比如常见的graph regularization:

其中 W_ij 表示i和j两个样本之间在流形上的近似度。

更加详细的细节(推导、解释以及这种优化目标对应的representor theorem的扩展)都在参考paper中。

应用中这么几个作用:

1. 利用样本的空间分布信息

2. 给有监督模型加流形正则化,可以尽可能多得利用无监督的数据,使得模型转化为半监督模型




  

相关话题

  想问下专业人士 OpenCv会被深度学习进一步取代吗进一步取代吗? 
  是否存在虚虚数j,使得j^2=-i? 
  如何看待两名数学家在家隔离期间,成功破解 109 年前的数学证明难题?具有怎样的价值? 
  函数方程 f(xy)=f(x)+f(y) 的严格解是什么?解是否唯一? 
  为什么ViT里的image patch要设计成不重叠? 
  阿里的TDM树深度模型为什么很少有人用,是有哪些问题吗? 
  一定要数学好的人才能学好经济学吗? 
  假如数学没有了自然数的概念及其性质会怎样? 
  被人四面追击如何逃跑? 
  10000⁴ 和 4¹⁰⁰⁰⁰,怎样比较大小? 

前一个讨论
飞机很重地着陆,是飞行员操作失误吗?
下一个讨论
飞行纪录本(Pilot Log)丢了怎么办?





© 2024-11-08 - tinynew.org. All Rights Reserved.
© 2024-11-08 - tinynew.org. 保留所有权利