百科问答小站 logo
百科问答小站 font logo



如何看待NIPS2017图灵奖得主贝叶斯网络之父Judea Pearl讲座无人问津? 第1页

  

user avatar   optimiseur-du-monde 网友的相关建议: 
      

(Judea Pearl前几年的各种talk,我只是陆陆续续地看了一些,今年NIPS的讲座还来不及了解,所以可能有疏漏之处。)

我认为从两个方面评价比较妥当:一方面是Judea Pearl在形而上学,尤其是因果关系上的思想;另一方面是他的思想对机器学习领域的重要性。


1. 因果关系

高赞答主 @陈默 提到Pearl在causality上走火入魔,这一点几乎是无可反驳的。

Pearl一直在试图提出一套「描述因果关系的语言」。我们在日常生活中,「因为……所以……」的表达几乎无处不在。然而,不论是在命题逻辑、谓词逻辑还是概率论里,都没有因果关系的一席之地。

以Karl Pearson为代表的统计学家,对因果关系采取了一种非常保守的态度。每一本入门统计课本里都会在显眼处强调「相关性不代表因果性」;相关性可以从调查研究中得出,而因果性则需要控制变量的实验。一个不那么明显的区别是,因果性的定义比相关性的定义复杂微妙很多。Pearson本人甚至直接否认了因果在统计学中的地位,用contingency table和correlation代替causation。此后的不少统计学家,例如Fisher,把因果关系的检验重新纳入统计学。


也许会有人说,那我们就用直觉来判断因果关系好了。

这种说法有两个问题:

1、目前,我们无法把这种直觉在非人类智能上复现。

我们没有办法说明,自己是如何识别看到的物体的。但是,我们的图像识别算法已经在ImageNet上击败人类,可以大规模复制,从而量化我们的直觉。相比之下,当前的因果推断算法,则远远没有达到类似的程度。

2、根据元归纳,我们的直觉很可能不可靠。(元归纳本身也不保证可靠,但这是另一个问题了。)

在复杂的机械系统出现之前,原始的人类认为,能够称为「原因」的事物只有人类或者神明。事实证明,这种世界观无法解释「一个齿轮造成另一个齿轮运动」的情况。倘若机器坏了,我们要找的原因肯定是那个坏掉的齿轮,而不是某个人或神。

亚里士多德认为,物体的核心特征是它的「目的」,苹果会落地是因为苹果有「落地的目的」。这种想法在当代的我们看来,无疑是荒谬的。但是,它持续了上千年,直到伽利略开始倡导「描述先于解释」、「用数学公式描述现实」。

由此可见,人类对因果关系的认知从不是一成不变的,而因果关系在未来的定义也可能发生变化。在未来人眼中,我们对因果的直觉可能非常滑稽。


没有准确的语言,我们就没法严谨地研究因果关系。


所以,不妨反思:当我们在问「为什么」的时候,我们究竟在问什么?

Judea Pearl认为,相关性基于观察(observation),而因果性基于介入(intervention)。

例:随机变量A——太阳升起;随机变量B——公鸡打鸣。

A和B的相关性毋庸置疑,但是我们从不会认为B导致了A。因为,即使我们「介入」并消灭了世界上所有可以打鸣的公鸡,太阳也会照常升起;或者,即使我们「介入」并强迫公鸡在半夜打鸣,我们也无法让太阳提早出现。

基于观察的物理模型,只包括了一个世界。假设我们制定了一套规则,创造了一个世界W,并对W全知、无能:能以100%的确信度知道W中的任意信息,但不对W进行干涉。此时,W的所有状态都是内在的、封闭的,不存在外来干涉。对于观察者而言,W就是W,不存在因果关系。对人类而言,一个更直观的例子是一张照片:我们能看到照片上的每一个细节,而不会在照片内总结因果关系。因为人类无法影响基本的物理规则,所以我们对物理学的态度更接近于观察。(有意思的是,科学史早期,一部分人反对科学实验的原因是「在实验室里进行实验会干扰/介入自然,得不出可靠的结果」。这在现在的我们看来几乎是不可理喻的。)

基于介入的因果模型,则包括了无数个世界。对于同样的世界W,假设我们的权限变成了全知全能,那么针对某个事件变量E,我们可以动用我们的能力介入,修改E的状态为e,进而创造出一个不同于W的新世界W'。在这种情形下,do(E := e)是外来介入的「因」,W'与W的区别则是介入之后的「果」。对待经济决策、国际政治的态度更接近介入,因为我们不可能做控制变量的科学实验,来观察一条减税政策对国家的影响——这类实验的成本太高,没人负担得起,有些甚至根本不可能。


另外一方面,我们常用的概率论,只能描述观察的结果。观察的结论是对称的,即使我们可以用Bayesian Network这样的有向图表示。我们可以用P(A|B)和P(B)来充分描述一个概率分布,也可以用P(B|A)和P(A)。Bayesian Network里, 和 和 表达的条件独立都是等效的(A、B和C是随机变量)。

显然,因果关系是不对称的。

为此,Judea Pearl拓展了概率论的语言,发展出causal calculus,对P(A|B)和P(A|do(B))做出了区分,do(·)表示介入。

例如,A表示「下雨」,B表示「地面是湿的」。P(A|B)很高:如果我们看到地是湿的,那么很有可能下过雨。P(A|do(B))则没那么高:即使我们把地弄湿,我们也不可能改变之前下雨的概率。

Pearl沿用了Bayesian Network的有向图结构,发展出了Causal Network。Causal Network的特点在于,它要求父节点必须是子节点的原因。 表示A导致了B。


2. 演绎、归纳,以及机器学习

Judea Pearl最深远的贡献在于,他把形而上学中的因果关系融入了机器学习的框架。

绝大多数的机器学习算法的学习思路都是归纳(induction):模型观察到一系列样本,总结出一个隐藏的概率分布。目前,种种模型的表现相当出色。

可是,休谟早已证明,归纳法本身并非绝对可靠。(注意:并非绝对可靠≠不可靠)

  • 我们这辈子见到的天鹅都是白的,不能证明世界上不存在黑天鹅。
  • 农场主在前100天都给火鸡喂饲料,并不能证明他在第101天不会把火鸡拖出去宰掉。

归纳法往往依赖于uniformitarianism/doctrine of uniformity这一重大假设。(这个词在中文的翻译似乎都是地质学上的均变说,然而此处并不是这个意思,所以只能用英文了。)doctrine of uniformity假设:这个宇宙中的自然法则,在时间(从古至今)和空间(所有的地方)上都是一致的。处在宇宙内部的我们无法全知,自然无法证明这个假设,只能说这个假设目前仍行之有效。

同理,No Free Lunch Theorem证明,在对原始的数据生成分布一无所知的情况下,任何模型的泛化能力都不相上下。

虽然归纳并不能给出绝对正确的答案,但是演绎(deduction)可以。在一系列默认正确的公理下,数学演绎得出的所有结论都是必然正确的。我们的模型之所以能在现实中拥有优越的表现,是因为我们选择了正确的先验假设——我们的先验假设符合现实的世界。

在提出正确的先验假设时,我们采用的思维方式不再是归纳,而是演绎。例如,朴素贝叶斯的假设来自于我们现实世界的常识,基于常识进行的演绎推理是保证正确的。具体到特定的数据挖掘任务时,「常识」就是某种基于对数据生成分布理解的expert insight。

我们可以用一个简单的例子,对幼稚的归纳法(直接跑模型)和基于演绎的方法(认真分析数据来源,采纳合理的先验假设)进行比较:

  • 最幼稚的归纳法:苏格拉底见到的所有死去的人都不是苏格拉底,所以苏格拉底不会死。
  • 比较幼稚的归纳法:设随机变量X指代「下一个死的人是苏格拉底」,服从Bernoulli Distribution;用Laplace Smoothing调整X的prior probability为0.5;随着观测到的数据X=0的增加,posterior probability逐渐减小,最终得出结论:所以苏格拉底大概率不会死。
  • 演绎法:人皆有一死,苏格拉底是人,所以苏格拉底终有一死。

上述两种归纳法的幼稚之处在于,只是拟合了表面的特征,却忽视了更底层、更基本的自然规律(这些规律决定了数据生成分布),从而引入了观察者的偏见。在数据科学的实践中,类似但是更隐蔽的错误也存在。

为了解决目前大多数机器学习算法被批判为「炼丹」的局面,Pearl的思路是用演绎的框架套住归纳的模型。

从概率图模型的架构中,我们就可以看出类似的思想。暂时不考虑structure learning的话,不同随机变量之间的条件独立,都是由业内的专家给出。这些先验假设来自于更基本的公理,而不是实际观测到样本的后验数据。

在一个演绎框架下,一个模型可以拥有更强的学习能力可解释性安全性

  1. 学习能力:如果模型的先验假设符合现实,那么它就能运用更少的训练数据,达到相应甚至更好的预测能力。CNN和RNN分别在图象和序列数据上的成功可以证明这一点。
  2. 可解释性:神经网络做图片分类,我们可以做分层可视化,但用于做金融数据,黑箱参数的可解释性不如线性回归;用决策树做分类/回归,我们可以看到每一个节点使用的特征,随机森林和GBDT更复杂,也失去了白箱的特性;概率图模型能清晰地表明每个变量之间的概率相关,还能求出任意概率。
  3. 安全性:模型应对异常输入值的鲁棒性值得重视,尤其在信噪比低、对损失敏感的任务中。安全性一定程度上受可解释性影响,而一个基于现实世界物理定律、便于解释的模型,比一个纯粹依赖表面特征、完全黑箱的模型更安全。


3. 一点个人的想法,可跳过

自半个多世纪前的达特茅斯会议以来,我们见证了硬件运算速度的飞速发展,也见到了越来越多优秀的人工智能算法。不过,我们距离强人工智能似乎总有一段不长不短的距离。随着机器学习的普及,各类基础原理、特征工程、调参的技巧,必然变得平民化、大众化。

然而,即便在脚踏实地学习具体知识的日子里,我仍然会忍不住去想象强AI实现的那一天。

我希望能见到一个在各方面都不逊于人类智能的AI——那时候,我们就可以声称,我们已经能从零开始复现我们的智慧与文明。

不仅如此,我还希望见到一个更广泛的AI,它能适应任何数学上可能的nontrivial环境(例如经济、量化交易等人造环境)并作出优化,而不再受限于我们的物理时空。

这也许只是天马行空的幻想。但谁没有年少轻狂的时候呢?

我不希望未来的自己被局限在某个特定研究领域的一亩三分地里。我希望从各个领域中汲取灵感,除了数理化生之外,我们还有哲学、艺术与诗。

我们需要进一步研究深度学习的指导理论,例如知识图谱与自然语言处理的结合、Judea Pearl的因果概率图模型;这不仅是为了提升AI的智能程度,为人类社会造福,也是为了智慧本身的荣耀。我相信,我们总有一天能发展出强大而可解释的白箱AI,而现在的causal model可能就是无数基石中的一块。

总之,在脚踏实地调参的时候,也不要忘记仰望星空,因为一直都会有人在努力推进深度学习理论解释的前沿。

写了这么一大段中二无比的感想……果然,我现在的问题是书读得太少,却想得太多……



P.S. 上个月开始看Judea Pearl的《Causality: Models, Reasoning, and Inference》,刚读完前四章。这本书是Goodreads上「最受欢迎的关于因果关系的书」之一。因为总是对形而上学的因果关系很感兴趣,所以读完牛津通识读本的《Causation a very short introduction》之后,我就马上开始读《Causality》了。不论从形而上学的角度还是人工智能的角度,都是一本好书。




  

相关话题

  如何看待暴走大事件第六季在2019年9月6日正式完结? 
  如何评价付国豪面对香港暴徒时说出“我支持香港警察,你们可以打我了”这句话? 
  如何理解深度学习中的deconvolution networks? 
  计算商品embedding然后平均得到用户embedding,会不会存在这种问题? 
  如何评价全国人大代表陈伟才说的「你不能占用了国家最优秀的教育资源,最终又离开了培养你的国家」这个观点? 
  为什么21世纪2020年还有王陶陶这种人? 
  如何评价 77 级,恢复高考后的首届大学生? 
  如何评价《欧陆风云》(Europa Universalis)系列游戏? 
  如何评价基于游戏毁灭战士(Doom)的AI死亡竞赛大赛结果? 
  如何看待环卫工父母月入六千供女儿考七次雅思澳洲留学这一新闻? 

前一个讨论
初入机器人领域,有没有什么强力推荐的入门书籍?
下一个讨论
有哪些冬天用起来很舒服的家居用品?





© 2024-11-08 - tinynew.org. All Rights Reserved.
© 2024-11-08 - tinynew.org. 保留所有权利