【BitTiger读书会】· 第十五期《Data Science for Business: What You Need to Know about Data Mining and Data-Analytic Thinking》(商业数据科学: 关于数据挖掘和数据分析的思考你需要知道些什么)



  • BitTiger读书会,以书会友。以报告方式,加强组织表达力;以讨论方式,激荡思考判断力,期能扩充知识领域,养成读书习惯。每周一本好书,一年阅读50本书,集众智,挑好书,留精华内容,创优质社群。

    BitTiger读书会,欢迎您的加入!

    在上一期的活动中,Li Yuhan和我们一起分享《Fundamentals of Deep Learning》这本书,感受深度学习的魅力。在即将到来的第十四期中,我们将与Ming Li一起读《Data Science for Business: What You Need to Know about Data Mining and Data-Analytic Thinking》(商业数据科学: 关于数据挖掘和数据分析的思考你需要知道些什么 )这本书,感受数据科学的魅力。

    【读书时间】
    美西时间7月15日 6pm
    美东时间7月15日 9pm
    北京时间7月16日 9am

    【领读形式】
    中文,微信群文字直播

    【领读书籍】
    0_1500428525826_Data Science for Business.jpg

    【书籍介绍】
    这是一本享有高度的社会评价,诸多大佬为之做序的一本书。同时,也被153个学校作为教材,享有极大的受众范围。本书用无门槛的阅读来向读者传达一种数据分析式的思维方式,以及利用数据科学的方法来解决商业问题概念与流程。
    这本书主要包括以下部分内容:
    · 大数据背景以及商业问题的数据解决方案概述
    · 预测模型介绍:监督切分
    · 模型拟合数据
    · 过拟合以及预防措施
    · 聚类分析概述
    · 决策分析思维:模型选择,例子分析
    · 模型可视化
    · 概率
    · 文字语言处理
    · 数据科学与商业策略概述

    【领读者介绍】
    Ming Li,刚刚毕业的电气工程本科生,即将就读统计硕士。非常荣幸能够和大家一起分享这本书

    【电子书下载】
    0_1499999862692_Data Science for Business.pdf

    【报名方式】
    请微信扫码添加小助手鹏鹏(微信id:dykinlee),备注“读书会”,小助手会拉你进群。
    0_1499302055541_WechatIMG66.jpeg

    【活动海报】
    0_1499999593661_649570776344420578.jpg



  • 本书介绍:

    这是一本享有高度的社会评价,诸多大佬为之做序的一本书。同时,也被153个学校作为教材,享有极大的受众范围。本书用无门槛的阅读来向读者传达一种数据分析式的思维方式,以及利用数据科学的方法来解决商业问题概念与流程。

    这本书主要包括以下部分内容:
    • 大数据背景以及商业问题的数据解决方案概述
    • 预测模型介绍:监督切分
    • 模型拟合数据
    • 过拟合以及预防措施
    • 聚类分析概述
    • 决策分析思维:模型选择,例子分析
    • 模型可视化
    • 概率
    • 文本语言处理
    • 数据科学与商业策略概述

    这本书也算一本高知名度的著作了,第一次看到书的时候,非常impressive的有两点:
    第一点是它副标题:”what you need to know about data mining and data-analytic thinking”。

    第二点是翻到书的第三页,就是各种的high frame的人对这本书评价。众星捧月犹如神作一般。

    从上面的内容简介中可以看出,这本书中的每一个部分都有对应的大部头专著对应来详细阐述。而这本350多页的书是对上述每一部分,选取偏向于“concept”的内容来组织构成。所以本书既不是一本算法书,也不是一本案例书,更不是一本程序书。同时,为了尽可能让更多读者能够顺利读完这本书,作者还有意避开了统计学,算法的诸多概念,用更通俗的说法来表达。

    因而从功利的角度来看,我认为这本书适合的人群:
    之前没有接触过数据科学,用这本书来理论入门,可以轻松的掌握各种概念,一个数据项目可能涉及到的一些理论,技术,思维方式。”The primary goals of this book are to help view business problems from a data perspective and understand principles of extracting useful knowledge from data.”[P2(Chapter 1)]

    同时,作者认为这本书还适用于[Preface-xi]:
    • 即将和数据工程师合作,管理数据项目,或者在数据行业内投资的商业人士
    • 即将实施数据科学方案的开发人员
    • 激励数据科学家及激发灵感

    因而,如果是抱着深入学习算法或者具体包的目的,读这本书的时间利用率不会很高。但是本着更轻松的态度去阅读,会时不时在阅读过程中收获惊喜。

    本书一共有十四章,在分享中我将以自己对内容的理解,分为几个部分来说。
    除去头尾的第一章,第十四章,中间我想分为四个部分做分享。
    第2,12章,讲述数据分析基本流程,以及商业问题背景的数据分析常见的任务
    第3,4,5,6,9,10章,讲述的是偏知识理论的部分,包括决策树,模型拟合,过拟合,概率论,文本语言处理的内容。
    第7,8,11章,模型比较与模型选择,基于商业问题的背景
    第13,14章,数据科学在商业问题中的大背景分析,偏向于观点理论的部分,包括了数据科学的优势,如何管理与运用数据科学及数据团队等内容。

    其中第一章是对于大数据行业,以及其在商业决策的应用概述。这两节中重点强调了数据式思维的重要性:作者看来,在数据时代,无论作为什么身份,能够从数据学习都是十分重要的。

    以2004年弗朗西斯飓风预警期间,沃尔玛基于从以往数据仓库的数据,对于飓风来临前人们购买物资的变化情况,及时对于自己的货物仓库进行调整为例,描述了基于数据而不是基于经验的商业决策过程。

    同时,在第一章,作者高屋建瓴的阐释了大数据时代,基于数据驱动的决策,与数据处理,数据挖掘的关系。这些概念性的东西,在半个小时的阅读这一章后,就了解的差不多了。
    0_1500171268041_upload-4adfc423-ac7f-48f6-bc84-6ea71eebc3f8

    第二章讲的是商业问题的数据科学解决方法,分为商业问题、数据方案两部分。

    在阐述商业问题的部分,强调了两个问题:

    1. 数据科学的解决过程应该是有一套分步明确,不断迭代优化的解决过程
    2. 每一个商业问题背后的数据都有其独特性,但是我们可以通过一些共性的方法来处理。
      0_1500171293910_upload-f24a343e-341a-4ac0-938e-5fd75ca66c96

    此外,作者给出的标准化BA流程,循环从对于数据与商业问题的理解开始,进行数据预处理,建模分析,模型诊断,根据得到的结论对于商业问题进行重新理解,或者直接基于结果采取行动。

    在数据方案的部分,作者阐述了商业问题常用的9种数据挖掘任务/方法[P20-23]:分类,回归,相似度匹配,聚类,共生集,用户画像,关系检验,缩减数据规模,因果关系建模。另外还阐述监督方法与无监督方法的概念,优劣,异同。

    由于本书中主要讲的是分类问题,所以其他的几种任务在本书的第十二章简略的分析了一遍。具体的思维导图如下:
    0_1500171320885_upload-bab3475c-d2ad-4647-9cf4-3a39f1cc4ca6

    基本上第二章的内容都可以在kaggle或者sk-learn的网站上找到同主题,但是更全面的内容。如果有兴趣可以去具体的网站上了解。更全面,也可以用代码实现。但是如果仅仅是了解这算法的概念,适用范围,阅读完本章就够了。
    http://scikit-learn.org/stable/documentation.html
    https://www.kaggle.com/wiki/Algorithms

    第二部分
    三,四,六章分别讲述了决策树、逻辑回归的分类方法,K平均的聚类算法。优点是相当是非常非常耐心,可根据个人掌握具体情况选择性阅读。

    第三章标题是Introduction to predictive modeling: From Correlation to Supervised Segmentation,由浅入深非常耐心的从相关关系一直讲到决策树处理数据的方法。从模型预测是什么,到如何选择相应变量,到熵的概念,到信息增益,并以经典的鸢尾花数据集(http://scikit-learn.org/stable/auto_examples/datasets/plot_iris_dataset.html)为例,逐步深入到决策树划分的方法。(https://www.kaggle.com/wiki/ClassificationandRegressionTree)

    第四章的标题是Fitting a model to data,通过逻辑回归的方法对Iris的数据集进行分类,同时与第三章中的决策树方法进行比较。(https://www.kaggle.com/wiki/LogisticRegression)

    第六章的标题是Similarity, Neighbors, and Clusters,从相似性,向量距离,一步步推导到聚类这个概念,并讲述了K平均的聚类算法原理。

    如果想更深入的了解这个范围内的内容,可以参阅《Pattern Recognition and Machine Learning》P203-212, P137-P146, P48-58的内容,cover了同样的内容,但是会简洁一些。
    0_1500171364567_upload-2e05f892-72d2-44eb-b632-2b3a213f80eb

    第五章是讲过拟合问题。基于决策树以及逻辑回归的方法,讲述了过拟合的图形表现,划分出训练集与测试集的必要性,交叉检验的概念,支持向量机的概念,以及学习曲线的概念。优点在于用了大量的图来说明问题以及解决方案,几乎没有公式,可以让读者对过拟合有一个迅速而感性的认识。

    第九章的标题是Evidence and Probablities,讲的是概率问题,并不是完整的概率论教程,但是结合书中的例子来看,是有非常形象的。这一章用利用广告定位潜在消费者的例子来开篇,讲述商业问题中除了分类任务外,还有一类任务是需要计算概率的。继而讲述了条件概率,贝叶斯法则,以及贝叶斯方法在数据中的应用。最后,利用脸书的点赞系统为例来描述概率在商业问题中的应用。比如你如果在脸书中点赞了诸如搏击俱乐部,谢尔顿•库珀,星际迷航这种电影,那么从数据显示,那么你有高智商这一事件的概率估计为30%。[P246]

    第十章的标题是Representing and Mining Text,讲的是文本处理问题,因为我没有接触过NLP的专著,所以看这一章的时候还是学到了不少。对照吴军老师的《数学之美》中对NLP的内容阐述,这一章更细节,结合实例更易读。本章从文本的重要性与困难性出发,依次讲述了词频,逆文本频率,TF-IDF(Term Frequency – Inverse Document
    Frequency),N克序列的概念与用法,并结合爵士音乐家,新闻文本挖掘与股价预测这两个实例来讲述能够对文本进行处理对于商业问题的重要性。
    0_1500171404251_upload-7091427a-341e-4e72-932a-866b42cd92ce

    第七章和第十一章是我本书中最喜欢,启发最多的两章。因为工科背景,所以前面的讲ML基本算法的部分并不是impressive,但是这两章中,作者从business的角度出发,结合实际的例子,做模型比较与选择,看着很有意思。

    第七章中,从最普通的准确度作为模型衡量指标开始讲起模型比较。并基于挽回电信流失客户的案例来论证这种标准的缺点(早在1998年,两者作者就曾经对这一问题发表论文),并提出混淆矩阵的概念(http://www2.cs.uregina.ca/~hamilton/courses/831/notes/confusion_matrix/confusion_matrix.html),用混淆矩阵作为工具来表达分类问题的结果。
    0_1500171430652_upload-7adb0935-242c-42bb-8192-4243ba89d419

    基于混淆矩阵的基本思想(将预测值与实际值分别作为表的列和行,列出TP, FP, FN, TN四种结果下的观测量或者概率),作者提出成本-收益矩阵,用这个来分析这种分类结果下的期望收益。
    0_1500171446796_upload-c6e15ddd-f486-4942-a6e5-6a0186ec549f

    图7-4[P200]中是一个募捐推介问题的成本-收益矩阵。有几个基本假设:

    1. 没有收到募捐材料的人不会捐款;
    2. 如果基于以往数据判断某人这次不会捐款,不会向他推介募捐材料
    3. 捐款的每个人捐款100,推介募捐材料的成本是1/人

    所以如果在预期中不会捐款的人(第二行),不会推介材料,收益与成本均为0。而(1,1)代表的是收到材料后捐款的人,收益为100-1=99;(1,2)代表是的收到材料不捐款的人,收益为0-1=-1。

    而期望收益就是将对应类的收益乘以对应的概率估计[P201],并用这个数值来比较不同模型分类结果的优劣。书中认为从商业的角度,捐款问题可以参考这个值来选取模型。[P202]

    但是作者也说到了,这种单值只能作为选择模型的参考,对于模型表现的衡量还有其他的手段诸如ROC,AUC,利润曲线等。这就是第八章的主要内容。

    第八章的标题是Visualizing Model Performance,可视化模型表现。基于作者的wiki,这一课题也是他做的很厉害的一个方向。Professor Provost is known for his work on
    evaluating machine learning algorithms using ROCanalysis.(https://en.wikipedia.org/wiki/Foster_Provost)

    第八章通过利润曲线,ROC(Receiver Operating Characteristics)曲线,AUC(Area under ROC curve)值,积累响应与生命曲线四个角度来阐释模型表现可视化的问题。并用大篇幅讲述了挽回电信用户流失问题[P223]中的决策树,线性回归,K均值,朴素贝叶斯四种方法对应模型表现分析。虽然没有任何的公式,但是和图的批注对应着看,可以更深刻的理解作者在七八章提出多种模型比较手段。

    第十一章看着也很爽,名字叫Decision Analytic Thinking II : Toward Analytical Engineering,这一章可以看作前面第二章到第八章的总结,还是通过挽回电信流失客户的案例,利用分析的全过程来诠释“Analytical Engineering”的概念。这一章是全书中最短的一章,只有十多页,但是却包含了前面多章的思想与内容,可以作为快看完整本书时候的复习。
    0_1500171486673_upload-5d8d2b4a-f2c2-4eff-b474-464d4c8cac63

    第十三章的名字叫作Data Science and Business Strategy,这一章里面作者用自己的体系分析了数据科学与商业决策的关系,并从指导思想的层次提出了包括如何利用,管理数据团队,如何利用,管理好数据这一资本,以及如何检验数据团队的成果等多方面内容。这一章值得去多读几遍,因为我亲身经历的数据项目不多,对于这一章的感悟不多,希望大家有兴趣可以讨论分享。

    而第十四章作为总结,简要的概括了全书的内容,另外也提出了最后一个议题,数据与隐私的问题。并在结尾处诚恳的对不同身份:未曾接触过数据科学的人,商业人士,数据科学从业人士说了几段话,展望了一下数据驱动下的商业问题会得到更好的解决。[P344-345]

    这里对我的分享做一些总结,这本书在阅读过程中我个人的收获主要集中在于想法上。作者在“concept”的层次把数据科学问题和商业问题讲的非常细节易懂,对于之前有一定技术背景的读者,可以考虑略读或直接跳过第二部分的章节,去看这本书真正吸引人的地方——思考体系。对于之前没有接触过ML的读者,这本书可以用来非常快的掌握分类问题的最基本的思想,概念,方法。对于商业人士,可以重点看1,2,7,11,13,14章。


 

与 BitTiger Community 的连接断开,我们正在尝试重连,请耐心等待