近年来,多样化的机器学习相关教材和视频层出不穷,不仅包含了入门级机器学习宝典,还包括一些系统性书籍。
但国内在机器学习理论(Machine Learning Theory)方面并没有进行过多讨论。尽管在上述的这些著作中,或多或少都展开了对于理论的探讨,但篇幅极为有限,难以满足深入研究的需求,关于机器学习理论的经典教材目前还是英文居多。
2020年周志华、王魏、高尉、张利军等老师所著的《机器学习理论导引》一书(下称《导引》),填补了国内缺少机器学习理论入门著作的遗憾。
该书试图以通俗易懂的语言,为有志于学习和研究机器学习理论的读者提供了入门导引。但作为一本理论性较强的书籍,涉及大量的数学定理和各种证明,对读者的数学背景提出了较高要求。
基于很多读者苦于数学基础,《钥匙书 Key-Book》由开源组织Datawhale发起,团队成员詹好负责,针对《导引》一书做了补充性工作,添加相关注脚,将教材中难以理解的公式做了解析与推导,帮助大家解决书中的数学难题。
《钥匙书》这一开源教程,对原书做了大量的补充性工作,可以帮你解决公式理解问题,让你找到豁然开朗的感觉。下面,用几个例子来直观感受下。
《钥匙书》的补充性工作,主要包括四个方面:
https:// datawhalechina.github.io /key-book/
https:// github.com/datawhalechi na/key-book/releases
开源贡献者:詹好,王茂霖,李一飞,胡峻毅,杨昱文,谢文睿。
后台回复关键词【钥匙书】,可进群交流和学习机器学习相关理论,希望成为开源贡献者,一起迭代完善,也可以在群里直接联系负责人!
我分享一下我读博士的经历吧。
我读博士的时候做的内容和computing learning theory有一点点关系,我那个时候看的书是An Introduction to Computational Learning Theory
这本书学校整个图书馆只有两本,Melbourne的那一本不知道被谁借走了,另一本在80公里外的另外一个图书馆。我跨两个图书馆断断续续的把这本书看完了一遍。后来Melbourne的那本书还回来,我借了好多轮好多轮。
这本书太薄,没有办法看的太深入,而且一开始进入,我没有任何computing learning theory的背景,所以大部分内容看不懂,也很吃力。后来找了很久,在网上找到了另外一本入门级别的书:Computational Learning Theory,我看了前面几章惊为天人,但是free的google book只能看前几章,而且这本书是1991年出版,amazon根本就买不到了。我找了很多个图书馆,后来是一个朋友在图书馆工作,在图书馆网络中帮我找到了这本书,然后借来实体书用手机一页一页的给我拍下来做成pdf给我。我后来去搜了一下作者,发现他是一个普通的教授,写了两本书,然后就退休了。谢谢作者带我入门。
在我看完了入门书以后,在我心目中的下个经典就是the nature of statistical learning theory和statistical learning theory这两本书了。而且我很固执的想要一本statistical learning theory,认为这本700多页的书才是集大成的经典之作。而the natural这本书只是它的一个abstract。当时我依旧找了很久很久,实体书大概1500元,实在是不敢买。最后找到了一个清晰版的PDF先保存(这两本书我一直到现在都没看完,对不起Vapnik)
博士的最后一年,Leslie Valiant出版了《probably approximately correct》,我这次很容易的买了一本,它只有一百多页,更像一本哲学书,我在飞机上一口气读了一大半,把我之前看的理论都在这个哲学体系下联系起来。下飞机的时候我长出一口气,为自己这么多年的找书经历感叹一把。(这本书初学者没必要读,会极大的怀疑自己)
我发表的很多paper里都有statistical learning theory的影子,我从心底相信这些书真的是人类通往知识的台阶。在我工作以后,我买到了上面所说的所有的书,包括1991年的那本。
我后来让我的学生们读过一点点上面的几本书,很遗憾没有一个人读下来的,虽然我知道这些书类似于内功心法,学会之后会功力大增,但我也知道太难,就不强迫他们了。看到周老师发表了这本书,真的是无限感慨,多年前找书的经历一下子就在我脑海中浮现出来。我希望后来的博士不要像我当年找书那么艰难,也不要经历那种无限怀疑自己的痛苦。我希望,也相信,周老师的书能做到这一点。
利益相关:
我有一个热心的朋友 @HaoZH 提出了本问题。
我们几位伙伴正在一起为这本书制作参考笔记。
前情提要:
在国内学习人工智能与机器学习,有两本书是绕不开的:
一本是李航老师的《统计学习方法》(小蓝书),
另一本是周志华老师的《机器学习》(西瓜书)。
后者虽然只有几百页,但内容涵盖比较广泛。西瓜书因为篇幅的限制,涵盖了很多的内容但无法详细的展开讲,对于初学者自学来说实际阅读难度很大。这本书更适合作为学校的教材或者中阶读者自学使用,入门时学习这本书籍难度稍微偏高了一些。
简而言之,西瓜书更适合作为参考书,而不是作为新人入门的主力阅读书。
为了弥补这一点,笔者所在的开源组织 @Datawhale 在西瓜书的基础上,对书中的较难理解的公式进行解析和推导,整理为 pumpkin book(南瓜书)。可作为学习西瓜书的参考资料,对机器学习领域新人比较友好。
背景:
现在,周志华老师又推出了《机器学习理论导引》(宝箱书)。
鉴于之前南瓜书项目在学习群体中的反响较好,同时也为了帮助自己学习和理解书中的内容,我们组织中的成员决定继续在宝箱书的基础上撰写参考笔记,暂命名为钥匙书(key-book)。
以下是钥匙书的说明:
周志华、王魏、高尉、张利军等老师所著的《机器学习理论导引》一书,填补了国内缺少机器学习理论入门著作的遗憾。该书试图以通俗易懂的语言,为有志于学习和研究机器学习理论的读者提供一个入门的导引。《机器学习理论导引》主要涵盖七个部分,分别对应机器学习理论中的七个重要概念或理论工具,即:可学性、(假设空间)复杂度、泛化界、稳定性、一致性、收敛率、遗憾界。
《机器学习理论导引》的NOTES,在团队内部又被戏称为钥匙书。钥匙书的名称对应宝箱书,暗含抱关执钥,助诸位读者解惑之意。
《机器学习理论导引》是一本理论性较强的书籍,涉及大量的数学定理和各种证明。尽管撰写团队已尽可能降低了难度,但由于机器学习理论学习本身的特性,该书仍然对读者的数学背景提出了较高的要求。这难免会导致不求甚解的情形,影响学习效果;另一方面,由于篇幅所限,该书写作较为精炼,并非在各个章节都给出示例。读者每每遇到晦涩抽象之处,难免冥思苦索。
基于此两点,我们决定尝试编辑《钥匙书》这一参考笔记,来对宝箱书作一些浅陋且皮毛的注脚。这既是着眼于那些阅读宝箱书时遇到困难的读者,助其更快地走出迷雾;亦是对学习宝箱书之过程的最好记录。
《钥匙书》的补充性工作,主要包括四个方面:
项目进展:
(截止20年6月份)
已完成前3章(共9章)的解读,计划以每月2章的速度推进项目。
(截止20年10月份)
已完成全部解读,并释出第一个PDF版本。
项目成员:
主编: @HaoZH
编委 :@ml67 @老渔父 @白小鱼 @Sm1les
我们希望我们的工作能够帮助更多的伙伴进行学习,也希望能集合有共同研究兴趣的朋友交流讨论。不论对宝箱书还是钥匙书感兴趣,都请联系我们,加入我们。一起学习,共同进步~
P.S. 在钥匙书的在线阅读界面很容易找到我们,快来罢 (๑•ᴗ•๑)
阅读讨论 Q群:704768061