首页

特征工程中的「归一化」有什么作用？第1页

1

qinlibo_nlp 网友的相关建议:

为什么要进行归一化处理，下面从寻找最优解这个角度给出自己的看法。

例子

假定为预测房价的例子，自变量为面积，房间数两个，因变量为房价。

那么可以得到的公式为：

其中代表面积, 代表房间数变量。

首先我们祭出两张图代表数据是否均一化的最优解寻解过程。

未归一化：

归一化之后

为什么会出现上述两个图，并且它们分别代表什么意思。

我们在寻找最优解的过程也就是在使得损失函数值最小的theta1,theta2。

上述两幅图代码的是损失函数的等高线。

我们很容易看出，当数据没有归一化的时候，面积数的范围可以从0~1000，房间数的范围一般为0~10，可以看出面积数的取值范围远大于房间数。

影响

这样造成的影响就是在画损失函数的时候，

数据没有归一化的表达式，可以为：

造成图像的等高线为类似椭圆形状，最优解的寻优过程就是像下图所示：

而数据归一化之后，损失函数的表达式可以表示为：

其中变量的前面系数几乎一样，则图像的等高线为类似圆形形状，最优解的寻优过程像下图所示：

从上可以看出，数据归一化后，最优解的寻优过程明显会变得平缓，更容易正确的收敛到最优解。

这也是数据为什么要归一化的一个原因。

上面的梯度方向都应该和等高线方向，因为找不到原图，文字进行修正一下。

特征工程中的「归一化」有什么作用？的其他答案点击这里

1

相关话题

  什么是无偏估计？
  怎么通俗地理解张量？
  为什么新增特征有时候会对模型带来负面影响？
  有哪些优秀的深度学习入门书籍？需要先学习机器学习吗？
  对职场新人来说，试用期有哪些常见坑绝对不能踩？
  贝叶斯定理厉害在哪里？
  在Auto ML的冲击下，ML算法人员是否会在前者成熟后失业的情况？
  为什么相比于计算机视觉(cv)，自然语言处理(nlp)领域的发展要缓慢？
  目前有哪些比较成功的人工智能应用？
  时间序列和回归分析有什么本质区别？

前一个讨论

放弃保研是一种什么体验？

下一个讨论

在线教育网站（Coursera、网易云课堂、腾讯课堂等）有哪些值得推荐的 Python 课程？

相关的话题

  单从手机号能获得多少信息？
  怎样理解博尔赫斯这句「我不相信民主，那是一种对统计学的亵渎」?
  特征工程中的「归一化」有什么作用？
  机器学习专家与统计学家观点上有哪些不同？
  对于多元线性回归，如何证明任一自变量的系数等同于忽略其他变量后一元线性回归的系数？
  语义网所谓的“本体”的具体例子是什么？
  对职场新人来说，试用期有哪些常见坑绝对不能踩？
  你遇见过什么当时很有潜力但是最终没有流行的深度学习算法?
  如何看待男性消费强势崛起?
  实验室一块GPU都没有怎么做深度学习？
  用于数据挖掘的聚类算法有哪些，各有何优势？
  数据分析和挖掘有哪些公开的数据来源？
  为何总感觉人工智能和神经科学（神经网络）被绑在一起？
  时间序列和回归分析有什么本质区别？
  是否真的有那么多凤凰男？
  mxnet的并行计算为什么这么牛，是什么原理？
  有没有必要把机器学习算法自己实现一遍？
  泊松分布和正态分布有什么内在联系？
  力狗LIGO的时间平移算概率有什么依据？
  目前有哪些比较成功的人工智能应用？
  当前人工智能特别是深度学习最前沿的研究方向是什么？
  为什么熵值最大的分布状态是正态分布而不是均匀分布？
  计算机视觉顶级会议论文中比较适合初学计算机视觉的人做的复现实验有哪些？
  面试官如何判断面试者的机器学习水平？
  有多少个数学家叫 Kolmogorov ?
  机器学习门下，有哪些在工业界应用较多，前景较好的小方向？
  机器学习在理论经济学研究中有哪些可能的应用前景？
  除了深度神经网络已经实现的特性以外，大脑还有哪些特性是值得机器学习领域借鉴的？
  为什么现在有这么多人工智能无用论？
  R 中的哪些命令或者包让你相见恨晚？

© 2025-07-02 - tinynew.org. All Rights Reserved.
© 2025-07-02 - tinynew.org. 保留所有权利