百科问答小站 logo
百科问答小站 font logo



机器学习中的机器是如何分辨哪些是有用的知识,哪些是没用的信息呢? 第1页

  

user avatar   huangzhe 网友的相关建议: 
      

算法也许可以选择有用的数据,但不能分辨有用的知识。

有的算法看起来能分辨哪些有用哪些没用,但实际上还是依赖人的输入。例如主动学习(Active Learning)

主动学习的过程是这样的:模型通过查询函数,从未标记的数据池里选择样本,然后交给标记员去打标记。

但主动学习并非真的分辨了「知识」。仅仅是选择了「数据点」,而且关于这个数据点的知识,还得外部(标记员)输入,更别说查询函数也是人为定义的。有的人说,如果这个标记员是个算法呢?这不就是可以自动运作寻找有用的知识了吗?那么问题来了,算法标记员的知识又是哪里来的?这么问下去,就会变成鸡生蛋蛋生鸡的问题,最后的造物主只会指向人类。世界上没用永动机,也没有熵减的孤立系统。从熵增原理我们也可以得知,一个孤立系统的熵永远不会减少。除非从外部获得新信息。所以其实如果从熵增原理来思考,机器学习算法本身是无法分辨无用信息的。分辨有用和没用,需要信息,而孤立系统是无法凭空产生新信息的。

你给机器学习模型喂垃圾数据,模型就给你垃圾输出。模型本身,仅仅是参数的集合和拓扑,它本身并不去思考有用和没用这种人类该思考的问题。

最后,再说一次机器学习业界的那句老话:Garbage in, Garbage out(GIGO)。


user avatar   huo-hua-de-41 网友的相关建议: 
      

最直观的还是特征筛选那几个指标,p-value、互信息、chi2等,说到底还是靠统计出来的。直白点,就是看信息和label的相关性。

很多领域早期的研究,最有用的知识(特征)是由研究者不断观察总结得出的,最明显的就是计算机视觉领域设计出的各种算子和filter。

让机器学习深入探索陌生领域,简单粗暴的方法就是深度学习,标足够多的数据,让模型自己去学该如何抽取特征。但有些情况下,不见得效果很好。大家都想用深度学习预测股市,然后赚大钱。把股价扔给模型直接去学,大概率学了个寂寞。最终靠谱的,还是融入了大量的人类先验知识。

如果真有什么办法,可以让机器提前知道那些知识有用,计算广告也就没有那么难做了。实际情况是,大家也不知道什么东西有用,都是猜想某类特征可能有用,然后上线去跑ab验证,有用就留下,没用就继续分析迭代。本质上,依然离不开label。




  

相关话题

  如何看待为了挑战百度无人车安全性,李彦宏试乘时让工程师人为拦车? 
  如何直观地解释 backpropagation 算法? 
  如何评价Google Duplex(打电话AI)在特定领域已经通过了图灵测试? 
  精确率、召回率、F1 值、ROC、AUC 各自的优缺点是什么? 
  有哪些看了让你醍醐灌顶的书籍、论文、期刊,使你对如何做数据挖掘、特征工程、统计挖掘有了眉目? 
  应届硕士毕业生如何拿到知名互联网公司算法岗(机器学习、数据挖掘、深度学习) offer? 
  如何看待 Larrabee 之父 Tom Forsyth 重加入 Intel?英特尔为何下注独立显卡? 
  让人工智能去下路边街头的象棋残局会赢吗? 
  如何理解压缩感知(compressive sensing)? 
  神经网络中如果一个重要特征C等于特征A+特征B(算数意义上的相加),选特征的时候还有必要选特征C吗? 

前一个讨论
高浓度维C,维A酸,多肽,玻色因哪个对胶原蛋白刺激更厉害?
下一个讨论
“衰老是一种疾病”会成为社会共识吗?





© 2024-11-21 - tinynew.org. All Rights Reserved.
© 2024-11-21 - tinynew.org. 保留所有权利