估计也不会有什么人看,反而可以随心的说一说。
不管哪个专业的人,采取的方法都是和这个专业所面临的实际问题相联系。
传统上做统计的人面临的数据都是来自于自然科学里的数据,比如Fisher面临的农业数据,或者生物上的数据,或者物理上的数据。这些数据都有一个特点就是可以很好的符合传统的统计分布,如正态分布 泊松分布等。面临这个实际情况,做统计的人有一个根深蒂固的思维,就是统计是概率的反问题。认为统计的目标是找出生成统计数据背后的真实概率。这是传统上做统计的人的最核心思想,所以不管点估计也好,假设检验也好,大样本方法也好。所有的方法背后所隐含的思想就是数据一定是由某些概率分布生成的。
做机器学习的人有一部分来自于当年雄心勃勃研究人工智能而后承认现状转而研究一些实际问题的人,另一部分是互联网兴起之后实际中对数据预测有强烈需求的人。所以他们面临的数据来源完全不同于传统的做统计的人。最典型的机器学习的应用就是点击率预估、商品推荐。我们很难相信我们点开一家购物网站之后,我们就自动的对这个网站上所有的物品是否购买有一个概率分布。但是如果用传统的统计方法来做预测,这种假设就是天然的隐含的。所以面临这种实际情况,做机器学习的人必须找到其他看待数据方法。所以他们的观点是数据的几何结构才是在这种情况下看待数据的正确方法。那么自然而然的分类和聚类的手段就成了机器学习的人最得心应手的两种手段。
举个例子可以比较好的说明,就是PCA主成分分析。这个方法传统统计上就有,机器学习上也有。经典而简单。做统计的人,第一次看到PCA都是在多元统计分析里,那时候对PCA的解释是第一主成分是随机变量的线性组合,这个线性组合的方差是所有线性组合里方差最大的。请注意,此时看待数据的方式是概率的。做机器学习的人,他们看待PCA是,把样本数据先去掉均值。然后找K维子空间逼近样本数据,逼近最好的K维子空间的基就是我们要找的主成分。请注意,此时的观点完全是几何的。当然在目前各个学科交叉融合的情况下,双方都会采取不同的观点,上述说法并不是说做统计或者做机器学习的人都是采用一成不变的观点,这点明眼人心里有数就行,不必纠缠。对样本数据做主成分分析得出来每个主成分的特征值。众所周知,绝大部分特征值都是很接近于0的。这时候双方思维的一个主要区别就体现的比较明显,做机器学习的人从几何的观点,可以自然的认为,由于特征值太小这些维度看成噪声是很正常的可以去掉,而不影响样本的所包含的信息。但是做统计的人天然认为样本是某个分布生成的,所以由样本所生成的特征值自然是服从某一个分布的,那么特征值是不是0就要进行的参数估计和假设检验。这个对做机器学习的人来说绝对是然而并没有什么卵用的步骤。但对做统计的人来说这是他们思维的自然延伸。
所以双方最主要的区别就是看待数据生成方式。统计的人认为,数据由某个概率分布生成。机器学习的人认为数据是特征集到Label集的特征映射所生成的。统计的目标是恢复那个背后的概率,机器学习的目标是恢复特征映射。
最后我想说的是,上述对统计和机器学习的区别做了区别。但不代表做统计和做机器学习的人都是死板人,都以一成不变的方式看待问题。时代在进步。不管做什么的人都是会面临实际问题,采用多方观点。最终的目的是把问题解决掉而不是做一些无谓的争论。
共同点:统计建模或者机器建模的目的都是从数据中挖掘到感兴趣的信息。下面只讨论supervised learning, 就是对一个pair: ( 自变量x,因变量y)进行建模。 也就是找到一个函数 y=f(x) , 用x 来刻画 (解释、预测)y。 首先我们要一组观察值(x,y),来 回归(learn)这个未知的函数 f.
区别:
统计学家: 在刻画 f 的过程中,统计学家用的方法是: 对于 f 的形状和 y 的random distribution 进行一些假设。 比如说假设 f 是线性模型, 或者y 是normal distribution。 然后来求在一定标准下最优的 f. 比如说,在BLUE (Best Linear Unbiased Estimators)的标准下,最小二乘估计出来的 f 就是最好的估计。 然后根据对数据的distribution的假设或者是大数定律,可以求出 参数估计的不确定性 或者是 standard error。 进而构建置信区间,来表达我对我能做出的 f 的最好的估计 的信心。优点: 可以对不确定性度量。 简单模型的可解释性强。当假设的assumptions满足时模型科学、准确、严谨。 缺点:复杂情况下assumptions难以验证。
机器学习专家:不对 y 的distribution进行过多的假设,不计算standar error,不 care bias。 通过 cross validation来判断 对于 f 的估计的好坏。 也就是说,在机器学习领域,数据量大,机器学习专家拿一部分来估计(train,learn )f,留一部分来验证预测结果的好坏。预测结果好的模型就是好模型,不计算估计参数的偏差。 缺点: 缺乏科学严谨性。 优点: 简单粗暴。 有一次听一个大牛的seminar几个教授的段子记忆尤新:"those machine learning people are making predictions without probability! "。
对于这句话:“统计学家更关心模型的可解释性,而机器学习专家更关心模型的预测能力” : 总体来说,可解释性强的模型会损失预测能力,预测能力强的模型往往比较难解释。 常见的模型中,从可解释性强到预测强的模型依顺序排列是
1 Lasso+线性回归
2 线性回归
3 非线性模型
4 非参模型
5 SVM
构建简单的模型,比如线性模型,更容易解释因变量对自变量的影响。 适合于那种目的是解释一个变量对另外一个变量的影响的问题。也是经典统计中最常用到的模型。变化再多一些,非线性模型,非参模型,更灵活,选择更多,所以可能达到更好的预测效果。但是往往比较难解释x对y的影响。(这些模型都来源于统计,推广于机器学习。这些模型都是几十年前统计的研究成果了好么!!因为最近计算机速度提上来了,原来没名气,是因为计算速度带不动,数据没收集辣么多啊!!)!因为机器学习领域的数据大,运算能力强,所以能把复杂的非参或者非线性模型用的效果比较好。
经典统计和机器学习分别在哪些领域有优势?
在一些传统领域,工程实验,生物试验,社会调查,物理实验,我们能获得的数据量非常小,我们必须小心翼翼的对待我们的模型,从有限的数据中提取尽量可能多的信息。抑或是一些对参数很敏感的预测,差之毫厘失之千里,比如检验一个艾滋病新药物是否有效,来决定要不要投入funding去进行研发,我们就要用严谨的概率统计模型。
但是在搜索引擎,淘宝用户购买信息,人脸特征识别等领域,我们能够获得很大量的数据,而且数据维度也非常高,用传统方式建模,很有可能维度高到严谨的function根本解不出来,机器学习的理论就非常有效了。
上周去开完会系里要求给talk,做了一个简单愉快的slides,贴两页图:
之前回答过相关问题(如何评价摩拜单车获得超六亿美元的e轮融资,共享单车未来在谁手中,是否胜负已定? - 知乎),针对摩拜完成E轮融资做了如下猜测,其中OFO马上完成新一轮以及国际化等地域拓展的部分,和OFO今天放出的信息基本一致。不过,竞争还很残酷,发言中提到的盈利部分可信度堪忧。这个阶段,那么多投资人完成了各类共享单车的投资项目,不要考虑盈利,还会先考虑如何整合上规模吧。
…更多文章请到数据冰山 - 知乎专栏
…更多回答请看何明科