百科问答小站 logo
百科问答小站 font logo



大数据是不是泡沫? 第1页

  

user avatar   TuringDon 网友的相关建议: 
      

对于你不能理解的东西,现在有一个通用称谓:泡沫。

房地产是泡沫,股市是泡沫,大数据是泡沫,打车软件是泡沫……对于大家都对

@王诺诺

一拥而上的情况,当然,这也是泡沫。

按照设想,泡沫总是要破灭的。泡沫破灭之后,房地产就没人要了,股票也没人要了,诺诺也没人要了。

1)数据、海量数据的核心价值在哪里?

信息/数据的作用是什么?根据香农的定义,信息是减少事物不确定性的量度。

数据的根本用途就是提供决策依据,减少不确定性。

对未来、对未知领域,每个人、每个组织都会面临不确定。然而,尽管有各种不确定,每个人、每个组织、在每天都会作出决策;很多决策是明显错误的。

现有人类的决策,大多数是靠感觉,靠跟风,靠个人经验,只有很少部分是客观数据分析。海量数据,提供了一种更为可靠的决策依据。

如果有一个神器,可以显著消除不确定性,显著提高决策正确率,它有多大价值?

想想,全球有几千万家公司、有70亿人,这几千万公司、这70亿人每天都会决策。每天都会决策。

2)说完理论,再说实际

英特尔7.4亿美元投资Cloudera获18%股份,你在说泡沫;

张勇说阿里巴巴的最大优势将是数据,你在说泡沫;

Splunk市值都88亿美元,你还在说泡沫;


总结来说,泡沫是一定的,也是万能的。每天70亿人吃饭、上厕所,这肯定存在泡沫;每天超过20亿人上网,这肯定存在泡沫;每天超过十亿人炒股,这泡沫更是硕大包天。而且我非常确定的是,500年后,所有这些泡沫都会破灭。

不信你等着。


user avatar   kevin-sure 网友的相关建议: 
      

第一次在知乎上回答问题,引用一下权威吧。

有一定泡沫.

-------------------------Michael Jordan(不是打篮球那个)的答案

先说说他讨论这个问题的资格。作为IEEE fellow,伯克利的Jordan教授是机器学习世界范围内最被尊敬的专家之一,在2013年还被邀请在美国国家研究委员会对相关领域的报告里作序总结。

这里有全文:

Machine-Learning Maestro Michael Jordan on the Delusions of Big Data and Other Huge Engineering Efforts

他观点的骨架:

1. 目前的大数据给出的结果可靠性太低,如果急于应用到实际中,就好比是土木工程都没学好就开始造桥,结果只能造出“豆腐渣工程”

  • 一大波“false positive”(假阳性)正在接近,因为数据增长的速度不够支撑我们把大数据到处乱用的欲望
  • 作为一个科学,不够严谨(原文是“没有error bar”)。不像造桥的土木工程,经过多年的积累,明确地能告诉我们什么样的情况可以造,什么不可以。而大数据没有。

2. 目前在computer vision领域进展还很小

  • 只能在非常有限的范围内识别,比如人脸识别这样非常具体的引用(虽然这个不是直接说大数据,但是可以看出,作者认为真正做到万物都sensor还很远,大数据的采集能力终究还是有限的)

3. neural network根本和人脑的neural network不是一回儿事,我们对大脑的理解根本没到可以引用到计算机科学的程度

  • 现在deep learning所采用的back propagation技巧,明显不是大脑的运作方式
  • network的结构都完全不同,什么对数据的模糊性处理已经达到人脑的境界云云,主要是媒体扯谈

对他观点的总结:

有些媒体为了让公众容易理解打了些比方,但是这种比方造成了太多误解,进而造成了太多hype(夸张的大肆宣传)。大数据还是一个没有足够严谨程度的科学,可能有一定的概率做出一些有用的预测,但是使用不当,过分过早地依赖,则会造成灾难性的后果。

很多时候大家过早对一个技术爆发热情,寄希望她可以改变世界,如果短时间没有成果,有可能热情一下子转冷又觉得这是个错误,加速抽离给这个技术的资源。显然Michael很担心现在公众对这个技术的热情,并不是基于对这个技术的理解,从而有可能会经历这样的态度转变。但是他认为这个领域是现实存在的,很多重要的应用,假以时日,是会创造价值的。但是现在很多媒体宣传,甚至投资行为,都是泡沫。

最后他觉得,如果他有10亿美元,一定会投入到natural language processing里面去。毕竟这是人机互动很重要的一个方面。

---------------------------

不是这个人哦:

是这个人:




  

相关话题

  样本数据达到多少统计指标才有意义? 
  熵权topsis法怎么对每个维度进行评价? 
  大数据时代和个人隐私保护是否矛盾,那我们为何还要发展大数据? 
  如何评价周志华教授新提出的 Deep Forest 模型,它会取代当前火热的深度学习 DNN 吗? 
  有哪些网站用爬虫爬取能得到很有价值的数据? 
  特征工程中的「归一化」有什么作用? 
  去哪找数据?怎么挖掘? 
  大数据最核心的价值是什么? 
  精通 R 是一种怎样的体验? 
  如何零基础自学SAS? 

前一个讨论
如果天猫是一个实体店,它会有多大?
下一个讨论
哪些镜头是演员失误或出现意外成就的经典之作?





© 2024-11-22 - tinynew.org. All Rights Reserved.
© 2024-11-22 - tinynew.org. 保留所有权利