【BitTiger读书会】· 第二期《数据挖掘导论》



  • BitTiger读书会,以书会友。以报告方式,加强组织表达力;以讨论方式,激荡思考判断力,期能扩充知识领域,养成读书习惯。

    每周一本好书,一年阅读50本书,集众智,挑好书,留精华内容,创优质社群。

    BitTiger读书会,欢迎您的加入!

    在上一期的读书活动中,我们读了吴军博士的《智能时代》。接下来四月份的读书活动,我们将以数据为主题,和大家分享《数据挖掘导论》,《Recommender System Handbook》(推荐系统手册)和《Bad Data Handbook》(坏数据处理实用宝典)这三本书的精华。

    第二期 《数据挖掘导论》

    【活动时间】4月15日

    【领读书籍】《数据挖掘导论》

    【领读者】田华(数据分析师)

    【书籍介绍】

    豆瓣评分8.4的Data Mining经典读物;
    无需数据库背景也可以读懂的数据挖掘书;
    从数据、分类、关联分析、聚类和异常检测五个方面,
    全面解析数据挖掘;
    在一小时的时间里,数据分析师田华与你分享此书的精华、心得和实例。

    【读书时间】

    美西时间4月15日7pm
    美东时间4月15日10pm
    北京时间4月16日 10am
    (活动时长约1小时)

    【电子书下载】

    点击此处下载:数据挖掘导论 完整版.pdf

    或者从Google网盘下载(国内需翻墙):

    https://drive.google.com/file/d/0Bzu4H4u37WXSRDBDcXRmQU1JajA/view

    【报名方式】

    扫码加入读书会讨论群,如群满100人,请添加saraincs备注“读书会”拉入群:
    0_1492051592470_upload-0a7ee310-2c08-496f-8757-c561609e632d



  • 《数据挖掘导论》
    本书主要分5个主题:数据、分类、关联、聚类、异常检测。这是一本很不错的数据挖掘入门教材,有些地方还是需要结合自己实际的业务去补充知识。
    我是按照自己需要的东西去看的,初略的看了一遍,用了关联和聚类的K-MEANS算法。
    数据部分:我分数据预处理、数据汇总统计、数据可视化三个部分去补充书本外的东西。
    大概的总结方法:数据预处理的方法:1.值清洗(确定缺失值范围、去除不需要的字段、填充缺失内容、重新取数),2.内容清洗(时间、日期、数值、全半角显示格式不一致,内容中有不该存在的字符,内容与该字段应有内容不符),3.逻辑错误清洗(去重、去除不合理值、修正矛盾内容,4.非需求数据清洗(看上去不需要实际对业务很重要的字段删了)。————也可以按照少多乱的思路去总结自己的数据处理工作。
    数据探索:数据特征分析:分布分析、对比分析、统计量、周期性、贡献度
    相关性分析:散点图、散点图矩阵、偏相关性、简单相关分析(pearson、spearman、判定系数)—————这部分还是需要看统计学的课本。
    数据可视化:原则:最短时间获取信息,尽量的展现最多的信息,图表内容近可能少。————可视化基础报表主要是研究别人做的好的表做模板学习。

    分类部分 分类任务就是通过学习一个目标函数(分类模型)f,把每个属性集x映射到预先定义的类标号y。主要的目标是建立很好的泛化功能,即建立能够预测未知样本类标号的模型。这部分挺重要的,实际应用的地方也多。
    分类法的例子:决策树分类法、基于规则的分类法、神经网络、支持向量机和朴树贝叶斯分类法。
    关联部分关联规则:如果两个或者多个事物之间存在一定的关联关系,其中一个事物就可以通过其他事物预测。这部分常用的就是购物篮分析,可以拿找订单数据练手,我反正是这么做的。
    聚类部分组内的对象相互之间是相似的(相关的),而不同组中的对象是不同的(不相关的)。组内相似性越大,组间差别越大,聚类就越好。常见的聚类方法:K均值、层次聚类和DBSCAN。
    我用的是K均值,容易上手,做了一个基于RFM的客户分群的分析。
    客户分群建模步骤:1.变量预处理(缺失、极值),分类变量转化哑变量(0/1数值)——聚类不支持缺失值。
    2.变量标准化:变量的量纲不一样会引起计算距离的偏差。比如年龄(18-100)
    3.变量筛选:变量相关、多个维度、商业意义
    4.确定分类的个数(3-8个)以下5个指标:ccc值越大越好,差别越大越好,分群越好;F值:F值越大越好;保证分群结果的覆盖率;重复多次分群,看结果稳定;结合业务场景。


 

与 BitTiger Community 的连接断开,我们正在尝试重连,请耐心等待