百科问答小站 logo
百科问答小站 font logo



如何看待 Hadley Wickham 获得统计学的最高奖项 COPSS 奖? 第1页

  

user avatar   skylinchern 网友的相关建议: 
      

凑够三人开团。

@Yeung Evan 在答案中提到:

Leland Wilkinson的一本奇书 The Grammar of Graphics. 从数据科学角度,它阐述了为什么画图也需要“语法”,或者说,一位自称 elegant 数据专家,应该从什么角度去完成数据的可视化表达——要知道,画出来的直方图、饼图并非最终目的,它们只是表达数据的一种方式。

而ggplot2所呈现的beauty正基于此。Yeaung的答案已经把main idea提到了,这里我就详细展开一下,以便数学背景几乎是个零测集的同学也能理解「为什么这个和纯数,或者说以Hilbert为代表的形式主义数学,看起来差了十万八千里的工作,也称为『beauty』」。

毋庸置疑的,在高贵优雅的数学里,特别是那些搞代数XX的(小声BB……),本质审美品味在于,把一些具有共性的东西,抽象抽象再抽象,推广推广再推广——从「一步两步、一步两步,似魔鬼的步伐」抽象出「自然数」;从「你看这个面又长又宽,就像这个碗又大又圆」抽象出「测度」;从「这坨没洞的橡皮泥和那坨有洞的橡皮泥能捏出来的东东不一样」抽象出「拓扑不变量」……

而Wickham的工作也是干的这种事!他将统计图形抽象为一个映射,将作图视为构造一个映射,使得数据(及其性质)能够以图形的形式表现。

a statistical graphic is a mapping from data to aesthetic attributes of geometric objects.

如果说Wilkinson提出的grammar of graphics的idea在数据可视化方向上相当于「提出了形式主义的原则」,那么Wickham相当于从测度论的角度,定义好了「随机变量」的概念,并使得「概率」、「期望」有了明确的数学结构,可以被研究、被计算。

同时,随着这个这个映射的domain和co-domain的变化,我们可以轻松观测到各式各样稀疏数据结构的性质,再不必苦哈哈地只能对着一个数字、几个内积信誓旦旦地和观众吹水「我这个多项式是很漂亮、很有用的!」

然后落实到技术层面。

以非统计专业也常用的qplot为例,对比R base的plot

在需要对数据按照某个指标先进行分类,再研究的情况下,plot函数的处理很复杂——首先要人工对数据进行分类,然后再一个个作图。虽然理论上就是写个循环,然而,作图完成之后还得小心翼翼地添加图标,保证数据和图形外观之间的一一对应。

想想都「卧槽,人干事儿?!」

但ggplot2就比较神仙了,完全不需要你自己考虑数据分类和图形元素,只需要告诉它「我要做分类数据!」,就万事大吉了。

唯一的缺点是,用于分类的数据必需是因子类型,否则就报错,让reg monkey们很头大。

具体怎么做到这样的实现,请有兴趣的读者自行拆包观赏。

当然,想要做出这样的骚操作,不但需要够硬的编程功底,还需要对统计理论本身有自己的理解。

这个包的骚操作还有很多,非常值得好奇心重的观众拆包。



说明少年不老,说明beauty和real world impact能两全,说明可爱的R包的可爱将源源不绝~耶✧⁺⸜(●˙▾˙●)⸝⁺✧

不过我完全不同意国内某统计著名机构推文中,声称把COPSS颁给Wickham是在打脸把统计做得很抽象、很math的一派的观点

事实上,不论哪个流派、有着怎样的自我认可,统计学一直以来倡导的都是让研究的可操作性、可重复性足够强——可操作性要求model/program/algorithm能切实地work;可重复性要求model/program/algorithm的理论基础足够抽象,故而经得起不同结构形态的数据的检验——而绝不是单纯的实际,或是单纯的抽象。

Fiser的极大似然如此,Jianqing Fan的非凹性罚函数如此,如今Wickham的ggplot2亦如此。现代统计一百年来公认的审美从未改变,COPSS所倡导的根本理念也从未改变,只是具体展开的方向千差万别。

有人感兴趣的话,我就详细从理论框架的角度,赏析一下Wickham那堆东西怎么在一个大数学主义者眼中呈现beauty的。这种beauty不仅是视觉审美体验上的,更是心智荣耀上的。没有的话,这个答案写这么多就可以辣(〃╹▽╹〃)


BTW,科普一下,COPSS一共四个奖,含金量最大的是总统奖,也就是今年Wickham拿的这个。Fiser奖那位,很硬很math的……了解一下。




  

相关话题

  为什么在R语言里多用<-而不是=表示赋值? 
  运用什么方法,可以综合各个性状,对农作物进行一个整体的评价,判断一个新品种的好坏? 
  哪些统计方法可以用于判断因果关系? 
  计算统计学(Computational Statistics)有什么好的资源和教材以及学习方法推荐? 
  有哪些「神奇」的数据获取方式? 
  什么是非独立同分布(Non-IID)数据,有没有很简单的解释方法? 
  广义线性模型(GLM)和广义线性混合模型(GLMM)怎么区分使用呢? 
  有没有统计小约翰可汗的歇后语? 
  有没有大神收集用R编程的各种程序?很想学习一下,谢谢了 
  R 和 Python (numpy scipy pandas) 用于统计学分析,哪个更好? 

前一个讨论
论文答辩上跟答辩老师疯狂互㨃(怼)是怎样的体验?
下一个讨论
为什么孙杨似乎被西方泳坛孤立了?





© 2024-11-24 - tinynew.org. All Rights Reserved.
© 2024-11-24 - tinynew.org. 保留所有权利