百科问答小站 logo
百科问答小站 font logo



你靠哪些讲解学会了曾经怎么也学不会的算法? 第1页

  

user avatar   lu-yi-90-79 网友的相关建议: 
      

NN 空间映射后得到的特征向量在2维空间的可视化,直接打开了我理解网络的大门!!

比如下图:

就是手写字体mnist的特征向量在2维空间里的样子

之前一直很难理解:

什么是特征映射 (feature map) 和特征向量 (embeddings)?

当我们谈及 CNN 网络,总能听到 feature map 这个词。它也叫特征映射,简单说来就是输入图像在与卷积核进行卷积操作后得到图像特征

一般而言,CNN 网络在对图像自底向上提取特征时,feature map 的数量(其实也对应的就是卷积核的数目) 会越来越多,而空间信息会越来越少,其特征也会变得越来越抽象。比如著名的 VGG16 网络,它的 feature map 变化就是这个样子。

feature map 在空间尺寸上越来越小,但在通道尺寸上变得越来越深,这就是 VGG16 的特点。

讲到 feature map 哦,就不得不提一下人脸识别领域里经常提到的 embedding. 一般来说,它其实就是 feature map 被最后一层全连接层所提取到特征向量。早在2006年,深度学习鼻祖 hinton 就在《SCIENCE》上发表了一篇论文,首次利用自编码网络对 mnist 手写数字提取出了特征向量(一个2维或3维的向量)。

值得一提的是,也是这篇论文揭开了深度学习兴起的序幕。

前面我们提到:CNN 网络在对图像自底向上提取特征时,得到的 feature map 一般都是在空间尺寸上越来越小,而在通道尺寸上变得越来越深。 那么,为什么要这么做?

其实,这就与 ROI (感兴趣区域)映射到 Feature Map 有关。在上面这幅图里:原图里的一块 ROI 在 CNN 网络空间里映射后,在 feature map 上空间尺寸会变得更小,甚至是一个点, 但是这个点的通道信息会很丰富,这些通道信息是 ROI 区域里的图片信息在 CNN 网络里映射得到的特征表示。由于图像中各个相邻像素在空间上的联系很紧密,这在空间上造成具有很大的冗余性。因此,我们往往会通过在空间上降维,而在通道上升维的方式来消除这种冗余性,尽量以最小的维度来获得它最本质的特征。

原图左上角红色 ROI 经 CNN 映射后在 feature map 空间上只得到了一个点,但是这个点有85个通道。那么,ROI的维度由原来的 [32, 32, 3] 变成了现在的 85 维,这难道又不是降维打击么?


---by 学习自yunyang1994 的博客!!AI小伙们的宝藏



追更:这个图到底怎么理解

详细内容及复现请看:

MNIST 数据集上的一个示例,可以通过将输出维度设置为 2 或 3 来可视化 CNN 特征,如下图所示。

二维可视化

原始 softmax

修改后的 softmax




  

相关话题

  如何评价 2021 年 ICPC 银川赛区? 
  蒙特卡罗算法是什么? 
  如何利用群论的知识解决三阶魔方? 
  一堆n维空间的由m个点组成的点集,m大于n,我们只知道它们之间的距离,能否判断所在空间的维数? 
  如何看待 2021 年图灵奖授予美国计算机科学家 Jack J. Dongarra? 
  在机器学习模型的训练期间,大概几十分钟到几小时不等,大家都会在等实验的时候做什么? 
  目标检测算法中Two-stage算法速度慢,到底在哪里? 
  在一段高速公路上,30分钟之内见到汽车经过的概率是95%,那么,在10分钟内见到汽车经过的概率是多少? 
  从一读到一亿需要读多少个汉字? 
  美剧《硅谷》第三季第一集神秘代码写的是什么? 

前一个讨论
有哪些价格歧视案例?
下一个讨论
在你的科研领域里,做得不错的年轻人都有哪些特征?





© 2025-03-26 - tinynew.org. All Rights Reserved.
© 2025-03-26 - tinynew.org. 保留所有权利