百科问答小站 logo
百科问答小站 font logo



有哪些看了让你醍醐灌顶的书籍、论文、期刊,使你对如何做数据挖掘、特征工程、统计挖掘有了眉目? 第1页

  

user avatar   huangzhe 网友的相关建议: 
      

知乎上各位大佬比较偏科研,我比较偏工程,给大家一个全面点的视角。

本答案会持续更新,欢迎点赞收藏并追更。

首先是总体工程实践方面

我最推荐大家读一篇论文《Hidden Technical Debt in Machine Learning Systems》。这篇论文能帮助搞科研能理解要把一个机器学习算法用到工程上,有多少隐藏的”坑“要踩。

在我之前的回答里多次引用过,其中这张图最经典。

上面这个图很直观地解释了机器学习项目里每个部分要多少投入资源(精力或者人力)。中间那个黑色的,小到字都看不清了的,就是你开发算法投入的精力。如果你还是学生,那么读下这个论文可能你会对未来工作会面对的挑战有所了解。


具体到每个技术细节

我最喜欢的莫过于各种cheat sheet,也就是一张小抄,列举了整个知识框架。例如

特征工程

说实话,依我个人经验,特征工程的”醍醐灌顶“其实更依赖于domain knowledge。例如我做风控项目,我是不可能随便拿两个变量变化一下就用的。(如果你对风控也感兴趣,我毛遂自荐我自己写的这个系列)

但是拥有完整的特征工程理论知识,是应用domain knowledge的基础。特征工程方面,推荐O'Reilly动物世界系列的这本书。


模型可解释性

我相信大家都看过很多解释性的方法论文,这里推荐一本在线的书,免费开源的,总结了模型解释的多种方法,讲得非常详细,对我的工作很有借鉴意义。

其中第五章模型不可知方法最有实际作用。

大数据处理

我用的是spark来处理大数据,spark的话,推荐这本书,依然是O'Reilly动物世界系列。虽然我并没有看完,但我遇到难题时翻一翻,总能能给我一些启发。

当你无聊时或者遇到难题时可以逛逛的网站

说时候,我建议关注英文网站。即使是中国人的科研成果,多数都是英文发表的。这里推荐几个网站,如果你在知乎搜索这个几个网站名字,你会发现,很多中文文章都是翻译他们的。




  

相关话题

  为什么现在有这么多人工智能无用论? 
  Linear least squares, Lasso,ridge regression有何本质区别? 
  2021年海外优青结果如何? 
  如何看待「伊拉克化学博士身陷 ISIS 占领区,导师为督促其完成论文,派雇佣兵将其救出」这一新闻? 
  在Lasso中,oracle property指的是什么性质? 
  怎样计算两个服从高斯分布的向量乘积的期望? 
  层次分析法的判断矩阵中哪个是前者和哪个是后者? 
  人类大脑的聪慧程度以 IQ 为标准,那么人工智能的水平用什么指标来衡量呢? 
  目前,人工智能语音在说中文时的语气感觉上还比较机械,怎样使人工智能语音的语气更自然一些? 
  机器学习专家与统计学家观点上有哪些不同? 

前一个讨论
基因编辑具体怎么操作的呢?
下一个讨论
科研论文如何想到不错的 idea?





© 2025-04-15 - tinynew.org. All Rights Reserved.
© 2025-04-15 - tinynew.org. 保留所有权利