百科问答小站 logo
百科问答小站 font logo



有哪些看了让你醍醐灌顶的书籍、论文、期刊,使你对如何做数据挖掘、特征工程、统计挖掘有了眉目? 第1页

  

user avatar   huangzhe 网友的相关建议: 
      

知乎上各位大佬比较偏科研,我比较偏工程,给大家一个全面点的视角。

本答案会持续更新,欢迎点赞收藏并追更。

首先是总体工程实践方面

我最推荐大家读一篇论文《Hidden Technical Debt in Machine Learning Systems》。这篇论文能帮助搞科研能理解要把一个机器学习算法用到工程上,有多少隐藏的”坑“要踩。

在我之前的回答里多次引用过,其中这张图最经典。

上面这个图很直观地解释了机器学习项目里每个部分要多少投入资源(精力或者人力)。中间那个黑色的,小到字都看不清了的,就是你开发算法投入的精力。如果你还是学生,那么读下这个论文可能你会对未来工作会面对的挑战有所了解。


具体到每个技术细节

我最喜欢的莫过于各种cheat sheet,也就是一张小抄,列举了整个知识框架。例如

特征工程

说实话,依我个人经验,特征工程的”醍醐灌顶“其实更依赖于domain knowledge。例如我做风控项目,我是不可能随便拿两个变量变化一下就用的。(如果你对风控也感兴趣,我毛遂自荐我自己写的这个系列)

但是拥有完整的特征工程理论知识,是应用domain knowledge的基础。特征工程方面,推荐O'Reilly动物世界系列的这本书。


模型可解释性

我相信大家都看过很多解释性的方法论文,这里推荐一本在线的书,免费开源的,总结了模型解释的多种方法,讲得非常详细,对我的工作很有借鉴意义。

其中第五章模型不可知方法最有实际作用。

大数据处理

我用的是spark来处理大数据,spark的话,推荐这本书,依然是O'Reilly动物世界系列。虽然我并没有看完,但我遇到难题时翻一翻,总能能给我一些启发。

当你无聊时或者遇到难题时可以逛逛的网站

说时候,我建议关注英文网站。即使是中国人的科研成果,多数都是英文发表的。这里推荐几个网站,如果你在知乎搜索这个几个网站名字,你会发现,很多中文文章都是翻译他们的。




  

相关话题

  离开互联网算法岗,切入最近大行其道的AI生物医药研发靠谱吗? 
  基于人工智能参与者的《我的世界》游戏框架的演化与突破? 
  在中小学阶段设置人工智能相关课程对于培养人工智能人才具有哪些意义?如何推进会比较有效? 
  您好,请问有没有可以检测到移动物体并专门保存的摄像头?这种技术不难且需要!? 
  论文被知网擅自收录,九旬教授维权获赔 70 多万,怎样能更好的保护自己的知识成果? 
  如何看待多名韩国学者将儿女列为论文共同作者? 
  假如以学术成果而不是论文作为授予学位的衡量标准会怎样? 
  如何评价ChinaJoy 众神之战中iQOO展台AI电竞战队SUPEX的表现? 
  年轻的科研工作者最需要哪些方面的指导? 
  如何看待华为 4 月 25 日发布的盘古智能大模型?在这个行业处于什么水平? 

前一个讨论
基因编辑具体怎么操作的呢?
下一个讨论
科研论文如何想到不错的 idea?





© 2024-09-19 - tinynew.org. All Rights Reserved.
© 2024-09-19 - tinynew.org. 保留所有权利