2018.12.11更新:经评论区提醒,DC SIS无正态假设,已更正。
——
果然这种答案没啥人理,但我觉得这个问题展开真是个好问题。
——原答案——
nice...这个问题才这么点人也从侧面说明了一些原因?
从个人感受上抛砖引玉一下吧。
学术上,除去low hanging fruit被摘得差不多的原因以外,以Fan为代表的这一脉统计学工作者的思想基本是从real world也就是业界去吸取灵感,属于一种基于问题“向外”的研究模式。我个人还是蛮相信Fan的学术品味和research sense的,基于此,合理推断,这圈人看到了一定的应用前景,但工业界目前还没有发展到可以用的上的程度,故而用的不多。而不是真的它就是一个有问题的、永远在工业界无法大规模应用的方法。
我尝试梳理一下screening的整个研究脉络,并顺便猜测一下工业界(暂时)用不上的原因。参考文献就不进行标注了,反正会看到这个问题的小伙伴,我估计多多少少都看过一些。
好久没有写这种学术类的答案了……
我是情感博主。
我是情感博主。
我是情感博主。
大家如果发现接下来这段有什么gap和bug,那就是真的gap和真的bug……恳请评论区友好而和平地指出,不要喷。感恩~
——情感博主暂时转型为不靠谱的科普博主的分割线——
众所周知,screening算是Fan又双叒叕给统计界砸出来的一个坑。其提出的背景在于:当数据维数p远远大于样本容量n时,传统统计推断方法不适用。并且数据是有稀疏性假定的,本身提出的时候也是想着big data大面积铺开时能用得上,所以应该是不太考虑小样本的感受了。。
所以screening天生就是对数据有要求的一种方法。楼上的答案说到boosting,那我就拿boosting来对比一下。
我不记得我有没有在统计学的专业课上听过boosting,但我肯定这个词我是在data mining的课上学会的。。
按照我的了解情况,boosting的思想起源应该是PAC(Probably Approxi mately Correct),属于一种迭代算法,从优化角度来说和神经网络类似。按照我能找到的文献来看,boosting是由Robert Schapire和Yoav Freund提出的,时间大概是1996年。前者是Pton CS系的教授,后者是UCSD CS系的教授。而Fan一般是不会介意我们把他定位成做(广义上的)数学的,且screening的初次提出,我没记错的话,是在2008年。所以,从提出的背景差异和提出的时间差异的比较来看,我们不难明白为什么两种方法在工业界应用场景会呈现出一定的差异。
回到screening本身。
SIS是将Pearson相关系数引入到高维LRM中,以实行降维打击,使其维度低至一个可以接受的规模,并且被证明了在一定条件下,具有sure screening property。这里这个一定条件又是一个能导致应用上出现问题的坎。
当然,Fan自己很快就意识到了SIS在应用上的坑(虽然我觉得吧,这可能只是因为一篇文章装不下他的脑力劳动成果而已_(:з」∠)_),于是他给SIS打了个补丁,提出了beta版本的SIS,也就是针对GLM提出的SIS-MMLE,用最大边际似然估计or边际似然比作为衡量每个变量重要程度的marginal utility指标,并且继续证明了这玩意具有sure screening property。
好了,等Fan把大坑给大伙儿砸好了,大家就来填坑了呗。
首先是2011年有了一个普通model free的SIRS,在合理分割下,SIRS能够完美地解决ultra high dimensional selection;2012年有了完全model free的DCSIS,这个方法是基于距离相关系数的,无正态假设,在正态假设下与SIS等价,但仍然只能做linear regression,但能够直接用来处理分组变量以及多维因变量的筛选过程。
到了2013年,我们有了QaSIS,终于可以处理nonlinear 了,而且还是异方差的!
敲锣打鼓放鞭炮,撒花叉腰扭秧歌!
这一壮举得益于它抛弃了中心性,转而去用分位回归做筛法。QaSIS也是model free的,允许在不同的分位数下的活跃自变量各不相同,因此能够更加灵活地处理异方差数据,同时也能够cue到生存分析里存在删失的复杂数据。可以说很棒棒啦~不过还是在一堆很长的条件下才有保筛性。。。
同样的从分位回归考虑的还有2015年的Q-SIS方法。相比于前者,它在独立筛选的过程中,所选变量并不随因变量的单调变化而变化,在处理删失时,和前者一样用的是KM方法,但处理条件分位数时不使用任何非参估计,同时也不要求任何有限阶矩的假设,仅仅是要求一个样本规模相关的高阶指数维度,实践方便,应该是对工业界人民比较友好了。但保筛性的条件我感觉还是比较强。
至此,low hanging fruit已经被扒拉得差不多了,不过关于screening的工作,去年(2017年)还能搜到一些新鲜出炉的文章,不过质量还是见仁见智吧,而且都算是比较零碎的工作了,不多加评述。
总之,screening要求的条件那么多,工业界大规模用个锤子哦╮(╯▽╰)╭
但是不可否认,随着工业界数据量的不断增大、数据维数不断增多,screening终究是能有大规模用上的一天的,所以,我是真的感觉screening只是too young to use it.
大致的想法就这么多,希望有人理我一下_(:з」∠)_
看你们理我的情况考虑是不是要长篇大论一下我看到的screening在金融领域的应用情况,虽然不是很乐观,但还是有一丢丢的orz
——茅屋为秋风所破,割——
回到情感博主身份。
事实上这种在学界风靡一时但工业界没有转化的问题,好像已经是屡见不鲜。。比起有没有转换,我可能还是更愿意去关心具体的造成转换效果不好&效率不高的问题出在哪里。
没有转换说白了本质上就是这个模型/方法目前,目前具体效果不好/效率不高。没有人能保证收敛了、平稳了、非零了就能啪叽贴证券/股票上也make sense,没有人!nobody!
没有转换说白了本质上就是这个模型/方法目前,目前具体效果不好/效率不高。没有人能保证收敛了、平稳了、非零了就能啪叽贴证券/股票上也make sense,没有人!nobody!
没有转换说白了本质上就是这个模型/方法目前,目前具体效果不好/效率不高。没有人能保证收敛了、平稳了、非零了就能啪叽贴证券/股票上也make sense,没有人!nobody!
还是那句“美丽惊艳的假设比不上眼见为实的证据,逻辑缜密的演绎也需要充分归纳现实的模型”✧⁺⸜(●˙▾˙●)⸝⁺✧
然鹅一直没人跟我讨论过这种学术→工业的转换脱节,具体到底问题出在哪里(不过这种问题可能真的需要学术界和工业界都有长足了解才能说得清楚),而我也一直没有机会深入业界去插一脚了解情况。以前听一名老师说,Fan本人曾经表示自己大半辈子都呆在学校,没能去业界看看还挺遗憾的。。。所以我一直就在想,要是他有机会到业界看看的话,做出来的工作会不会更漂亮一点。但我又在想,工作都让他给做完了,我们年轻人干啥(๑•́ ₃ •̀๑)希望自己能成为一个理论和应用都做得开心的小朋友叭~
反正直觉上我能感觉风头不太对——现在业界甚至不是没有把学界之前流行过的东西进行转换吸收,而是貌似可以说是自成体系?我甚至觉得是不是quant research过几年就可以分成学院派和工业派了,学院派高屋建瓴啪叽啪叽建立深刻而抽象的理论体系,工业派哼唧哼唧解决实际而伟大的问题……这听起来真是太呵呵哒了。
我从前两年(应该是16年开始)就一直纳闷的一点是,感觉学术界和业界做的根本不在一个频道。。。我已经听到很多人不止一次有过类似的阐述了。说出来很多人不信,我高中那会因为这种事还和人争论过,对方所持观点大意是“瞎XX建的模肯定比有道理的模型多”,而我的观点是“但凡理论总能找到对应的应用,只是转换效率和效果的问题”。这个问题至今我俩仍旧保持同样观点。
学术界和工业界脱节,窃以为这对于统计发展而言,是一种很糟糕的现象。给我最直接的体验就是,我和我准备去工业界做quant的同学彼此听不懂对方毕业论文的建模部分哈哈哈哈。。。互相怀疑对方同学身份(๑•́ ₃ •̀๑)
感觉说着说着就跑题了。。。先挂在这里吧。。。希望能有学术界和工业界都比较清楚情况的小伙伴能理一下这个问题,感谢你看完本情感博主瞎写的伪·专业答案(´• ᵕ •`)*