【BitTiger读书会】· 第九期《An Introduction to Statistical Learning with Applications in R》



  • BitTiger读书会,以书会友。以报告方式,加强组织表达力;以讨论方式,激荡思考判断力,期能扩充知识领域,养成读书习惯。每周一本好书,一年阅读50本书,集众智,挑好书,留精华内容,创优质社群。

    BitTiger读书会,欢迎您的加入!

    在上一期的活动中,杨卓荦和我们一起学习了投资大师查理•芒格的投资、学习与人生心得,让我们工作、生活决策水准全面提升的智慧宝典。在即将到来的第九期中,我们将与木易一起读《An Introduction to Statistical Learning with Applications in R》(统计学导论 基于R应用)这本书,感受统计学科的魅力。

    【读书时间】

    美西时间6月3日 6pm
    美东时间6月3日 9pm
    北京时间6月4日 9am

    【领读形式】

    中文,微信群文字直播。

    【领读书籍】

    0_1496193423118_upload-72495be8-87d8-46be-8d73-461276f64c65
    《An Introduction to Statistical Learning with Applications in R》(统计学习导论 基于R应用)

    【书籍介绍】

    这本统计学习导引是几个斯坦福统计系大牛的力作,内容做到了精中求简。虽不完美但也绝对是业界良心了,特别适合近期就要面试临时抱佛脚的同学……内容涉及线性回归,分类,再抽样方法,稀疏方法,决策树,聚类,支持向量机等。深入浅出,尽量避免矩阵之类的纯数学的表达,比较适合只学习应用不关心证明的同学。例子给的很足,很实际,很到位。尤其是R的例子讲得特别实用。另外,课后题目比较平易近人,总之非常适合自学。

    【领读者介绍】

    木易,TAMU纯数学PHD,统计讲师,研究大数据分析的张量方法。

    【电子书下载】

    点击下载:0_1496193599012_ISLR Sixth Printing.pdf
    百度网盘下载:
    https://pan.baidu.com/s/1bo1Gd0F

    【报名方式】

    请微信扫码添加小助手南山南(微信id:YANGYYUY123),备注“读书会”,小助手会拉你进群。
    0_1496192274168_upload-236bc3c7-0cf6-453d-b8aa-5d51d96b07fe

    【活动海报】

    0_1496192284000_upload-748d28a3-c775-4eab-b580-a1ef158a495d



  • An Introduction to Statistical Learning with Application in R

    学习大数据需要统计基础,但是有的国内的学生像我一样没学过统计只学过概率,有的学过数理统计但是对其应用不太了解。有很多人推荐大部头的统计学习精要ESL (The Elements of Statistical Learning统计学习基础), 但ESL是给那些已经很好掌握了数理统计的同学们读的,一般孩子很难读懂。李航的统计学习方法要简单一些,但也不是临时抱佛脚能掌握的。开个玩笑,这本统计学习导引特别适合给学渣扫盲:)

    第一章介绍统计学习的历史,如何使用本书以及书中所用的数学符号。第二章是书的总纲,用极其形象的语言概括地介绍了统计学习的一些基本方法,可以让你快速地掌握统计学习的理念入门。其中主要谈到了基本的监督和无监督方法,两个Tradeoff(预测准确性和模型可解释性以及偏差和方差的权衡),如何通过均方误差(MSEMean Squared Error)衡量模型的表现。学习统计学习,首先你要知道啥是监督学习啥是无监督学习(监督学习:通过已有的一部分输入数据与输出数据之间的对应关系,生成一个函数,将输入映射到合适的输出,例如分类。非监督学习:直接对输入数据集进行建模,例如聚类。现在机器学习中还有半监督学习,半监督学习:综合利用有类标的数据和没有类标的数据,来生成合适的分类函数)。

    这一章里作者通过一个实例清晰地讲解了如何用线性的或非线性的统计模型解决实际问题以及不同模型的利弊,即用一个人的受教育程度(用受教育的年数衡量)和工作经验来预测他的工资,如下图。

    0_1496544914246_upload-19ba4c15-a1d4-4278-a681-5b07add743b3

    这个三维图展示了一个人的工资收入是由受教育程度和工作经验决定的函数。其中,蓝色的平面通过数据的模拟揭示了工资收入和受教育程度、工作经验之间真实潜在的关系。红色的点则表示了30个被观察到的个体的数据。

    0_1496544984661_upload-4bd6eeff-b8a7-4f00-b7bc-6ef2e79182b0

    这第二个图则是反映了一个线性拟合模型,使用了最小二乘线性回归去估计这些参数的。通过跟第一个三维图比较,我们可以发现第二个图对真实数据的估计不够精确,因为真实数据是有一定的曲度的,线性拟合无法捕捉这种特征。但值得高兴的是线性模型还是成功展现了工作经验和工资收入的正相关关系。
    0_1496545007055_upload-2eb85042-ee09-46a7-a70c-eae91a386553

    第三个图是一个非线性的拟合,采用了一个柔性水平较低的thin-platespline模型进行拟合,得到的估计值完美地匹配了每一个观测数据。但由于其可变性较强,很容易根据采样的不同而变化,导致过拟合的问题出现。因为过于拟合的函数不能对新的不属于原来训练数据集的观测点做出准确的估计,所以如何选择合适的柔性水平对此类非线性拟合的使用很重要,具体方法在第七章有详细讲解。

    第三章是最精彩的一章,值得反复研读。作者以极其清新的视角介绍了线性模型和假设检验,特别适合没有统计sense的人快速理解最基本的模型。这章几乎覆盖了线性回归模型的所用重要概念,包括简单线性模型,多元线性模型,线性模型上非线性调整(Polynomial Regression)以及线性模型和KNN模型(K-Nearest Neighbors)的比较。假设检验是学生们理解的难点,很多书比如周志华西瓜书和林玹田的书,都是略过不讲,因为很不容易讲清楚。这本书用精炼的语言解释了假设检验,让读者在一个小时内就能明白个大概。读完了这章,没有统计基础的同学就不用怕基础面试问题了。

    在这一章,作者还采用了几个很有趣的例子说明回归的应用。 其中有一个用广告投入预测销售量实例,作者使用了一个广告的数据集(包含产品在200个不同的市场上的销售量和每个市场上在三个不同渠道的广告预算),想要使用三个不同渠道(电视,电台和报纸)的广告投入来预测产品的销售量。下图采用T检验说明报纸广告投入这个预测变量不是那么重要。
    0_1496545067368_upload-9d0a66ed-2090-48a2-a35b-ad7b4c36cbbf
    根据上图,我们可以这样解读电台广告投入对销售量的影响:当电视和报纸的广告投入不变时,每额外投入1000美元在电台广告的投入上会带来产品销售量增长189个。另外,大家可以看到报纸这个预测变量的回归系数估计接近0,而且对应的P值很大(P-value约为0.86)。这说明这个多元回归模型里,报纸这个渠道的广告投入增加并不能明显带来销量的增长,报纸广告投入这个预测变量不是那么重要。

    第四章讲分类,和第三章一样清晰,但内容不是很丰富。这章主要包括逻辑回归,线性判别分析(LDA),二次判别分析(QDA)和四种分类方法(逻辑回归,LDA,QDA和KNN)的比较。对于逻辑回归的思想介绍的很清楚,采用了一个信用卡欠费的例子说明了逻辑回归的应用,如下图,我们需要通过一个人的月工资和信用卡余额来判断他的信用卡会不会拖欠信用卡付款。但逻辑回归的技术细节讲的还是不太够。逻辑回归也是面试常考题。如果你想细致的学习一下分类,我建议你读读周志华的西瓜书。
    0_1496545115962_upload-5b97fe1d-5ba9-49d8-8b46-7739f1ea4082

    上图,橙色的点代表着拖欠信用卡付款的人。如图所示,拖欠信用卡付款的人的信用卡余额比较高。这就是一个用月工资和信用卡余额对人群进行是否会拖欠信用卡卡债分类的问题。

    第五章讲再抽样,核心是交叉检验。这是机器学习里不太好掌握的技能。如果您觉得读不太懂,可以看看林轩田的相关视频。

    第六章主要包括了子集选择,岭回归(RidgeRegression),Lasso(Lasso可以达到稀疏优化的效果,即只包含所有变量的一个子集的模型,更易于解释),降维方法(PCA主成分回归和偏最小二乘法)和高维数据问题。本章对科研特别有用,介绍了斯坦福统计学派的看家本领之一—稀疏优化。如下图显示了信用卡数据集运用Lasso做拟合得到的系数曲线(其中不同线代表Lasso中不同变量的系数估计,黑色实线代表Income,红色虚线是Limit,蓝色断点是Rating,橙色点线组合代表Student),当参数lambda=0时,Lasso和最小二乘无异,而当参数lambda很大时,变量的系数趋于零,可以得到一个零模型,而岭回归却会始终包含所有变量。本书对于稀疏优化的讲法是无可匹敌的,要点都涵盖了。尤其是作者很善于用特别简单的例子解释深奥的优化道理。
    0_1496545136499_upload-5c4f2f69-f5f8-4f79-9ff7-8838e01ca9f7

    第七章是讲非线性模型,主要包括第三章线性回归中谈到的多项式回归(Polynomial Regression),阶梯函数(Step Function),奇函数(BasisFunctions),Regression Splines, Smoothing Splines,局部回归和广义可加模型,是传统线性模型的非线性变形调整,在现在的机器学习运用中较少。第八章是讲树形结构模型,主要包括决策树,随机森林,Bagging, Boosting等几种机器学习常用到的模型以及树形模型与线性模型的比较。但第七八两章比较平淡,跟我的科研教学关系也不大。其中决策树的内容我觉得没有西瓜书和其他书讲的清楚,我就不多说了。

    第九章又是一个高潮,很通俗的讲解了支持向量机的原理,包括最大间隔和支持向量分类器,二分类和多分类的支持向量机以及与逻辑回归的关系。支持向量机本质上就是多元微积分里面拉格朗日乘子法的高级应用。本书对SVM的讲解很通俗,和读者谈笑风生,比网络上很多资料不知高到哪里去了。我建议和林轩田的视频对照着看,更有利于理解SVM。

    第十章也是很精彩的一章,主题是无监督学习,主要介绍了聚类和主成分分析。尤其是K均值方法,如下图,作者的讲解极其到位。K均值是面试常考的题目,很多学生说不清楚。您如果读了这章,K均值面试题应该是小菜了。
    K均值聚类法的基本步骤:
    1.为每个观测值(也就是每个数据点)随机分配一个从1到K的数字,这些数字可以当作是对这些观测点的初始分类编号。
    2.重复下面的操作一直到对类别的分配停止为止:
    (a) 分别计算出K个类别的类中心。第K个类中心是第K个类别中的p维观测向量的均值向量。
    (b) 将每个观测点分配到距离期最近的类中心所在的类别中。(这里的“最近”由欧式距离定义)。
    0_1496545162475_upload-9a2c8fb2-c9ac-45c6-aa35-5dac97923f68
    上图显示了K=3时也就是分为三类的K均值聚类过程。左上图是原始的的观测点,上中图是算法的第一步,就是随机地将观测点分到其中一类别中。右上图是第二步骤的(a)中计算类中心,每一类的类中心由彩色大圆片表示。左下图是第二步骤的(b)中,每个观测点被分配到距离最近的类别中。下中图是第二步骤的(a)再次被执行后形成新的类中心。右下图则表示10次重复迭代后的聚类结果。

    总结一下,本书很适合入门,几乎没有什么数学,英文读起来也很简单。每章都有R实战的Lab章节及习题,对于一个正规大学的大三学生,三个月读完本书,看完相关视频,做出百分之八十以上的习题是不难的。读了以后有兴趣的同学,可以继续读读西瓜书等高级著作:李航的统计学习方法和周志华的西瓜书和国外的PRML(Pattern Recognition and Machine Learning)和ESL(The Elements of Statistical Learning)。


 

与 BitTiger Community 的连接断开,我们正在尝试重连,请耐心等待