【BitTiger读书会】· 第七期《鲜活的数据》



  • BitTiger读书会,以书会友。以报告方式,加强组织表达力;以讨论方式,激荡思考判断力,期能扩充知识领域,养成读书习惯。每周一本好书,一年阅读50本书,集众智,挑好书,留精华内容,创优质社群。

    BitTiger读书会,欢迎您的加入!

    在上一期的活动中,宋乐文带领书友们一起领略了谷歌是如何灵活利用并购手段打造了今天的IT帝国,在即将到来的第七期中,我们将与Leo一起读《鲜活的数据:数据可视化指南》这本书,揭秘数据的故事。

    【读书时间】
    美西时间5月20日 6pm
    美东时间5月20日 9pm
    北京时间5月21日 9am

    【领读形式】
    中文,微信群文字直播

    【领读书籍】
    0_1495223932986_鲜活的数据.jpg
    《Visualize This:The FlowingData Guide to Design,Visulization,and Statistics》
    (鲜活的数据:数据可视化指南)

    【书籍介绍】
    本书是一本系统介绍数据可视化的图书,书中主要阐述了如何将冰冷枯燥的数据转换成易于理解、生动有趣、主题清晰的图表。作者根据数据可视化的一般顺序,先后介绍了如何获取数据,将数据格式化,然后用可视化工具(如R)生成图表,最后在图形处理软件(如Illustrator)中修改完善,使图表达到嘴角的可视化效果。本书详细介绍了柱形图、饼图、折线图和散点图等图表的绘制方法及各自的欧缺点,还用专门的一章介绍与地图相关的数据可视化技巧。

    【领读者介绍】
    Leo,在校大学生,新闻学专业(文科),一枚目前仍在数据可视化领域学习探索的小白,希望有这个荣幸给大家做一些分享。

    【电子书下载】
    点击此处下载:0_1495224644657_鲜活的数据:数据可视化指南.pdf
    从Google网盘下载(国内需翻墙):
    https://drive.google.com/open?id=0Bzu4H4u37WXSQ01qZzVNc0JJRVE

    【报名方式】
    请微信扫码添加小助手漠北的孤狼(微信id:chenyuanpeng24),备注“读书会”,小助手会拉你进群
    0_1495223986070_1493949236719-陈远鹏.png

    【活动海报】
    0_1495225938661_第七期.JPG


  • cid:39:privileges:find

    《鲜活的数据:数据可视化》
    分享分为3个部分。
    - Part 1 是提供背景材料,预热一下,因为《鲜活的数据》是一本主要是介绍工具、技能的满满的干货书,所以觉得有必要提供一些有趣的背景材料,让同学们先对数据可视化有兴趣,在读书的过程对代码、繁多的软件工具不会倍感枯燥;
    - Part 2 正式开始分享书中的干货,这一部分,主要功课就靠大家去完成;
    - Part 3,是最后的一点反思和建议

    一、 Part 1 大家应该在手机或网页上都见到过这样的图?
    0_1495454933130_信息图01.jpg
    0_1495454949892_信息图02.jpg 0_1495454959399_信息图03.png

    在百度百科上、新闻客户端、新闻微信公众号或者其他的网页上,我们能经常类似这样的长图,学名叫信息图(infographic)。当然,以上的信息图虽然有的展示了数据,但离咱们要说的数据可视化还很远。

    那,什么是数据可视化
    前几年,MOOC在全球范围内很火,所以群上是MOOCer的同学都应该看到过这几张图。

    0_1495455007037_MOOC01.png
    0_1495455010251_MOOC02.jpg

    这些图,就是数据可视化之后,做出来的一种信息图,学名叫单词云(Worlde)。
    再到上上周的法国大选,这是从法国的一个新闻官网上的数据新闻。

    0_1495455040950_数据新闻01.png

    以上的数据可视化的信息图还不算动态交互图。

    财新网的数据可视化实验室(Caxin Data Visulisation Lab)发布过这样几则动态交互网页、数据新闻作品。(以下是链接)

    《从调控到刺激 楼市十年》
    http://datanews.caixin.com/2016/home/

    《2016年的楼市》
    http://datanews.caixin.com/mobile/fang2016/pc/

    《情仇中东》
    http://datanews.caixin.com/2015/mideast/

    从以上的例子,大家可以看出,这是数据可视化在报道新闻、给大家呈现重要信息的发挥的作用。


  • cid:39:privileges:find

    二、Part 2,正式地进入对《鲜活的数据》这本书的分享。

    分享方式:思维导图+些许文字说明。

    除了导读的【内容提要】以外,还得说明的是,这本书对熟悉编程的童鞋难度并不大,此书的面向的【受众读者群体】其实是,非常适合想要入门的小白、不熟悉编程的设计师们。

    那么,【如何阅读这本书?】
    本书以实例讲解为主,书上对怎么处理数据都有十分详细的案例,大家可以根据书上作者的指导,一步一步来熟悉制图的每一个步骤、掌握每一项技能。有基础的童鞋可以 根据【书中引言部分图0-6】的流程图,对比自己目前的水平和需要有选择性地进行阅读。

    Chapter 1 用数据讲故事

    主要阐述用数据讲故事 就讲了以下几个问题:为什么要将数据可视化、哪些领域能应用数据可视化、在海量的数据下寻找故事,以及数据可视化设计的一些规则。
    详细内容请参见导图+书本,这里简单概括提一下。
    0_1495455182494_Chapter 1 用数据讲故事?.png

    Chapter 2 处理数据

    内容提要:
    - 在进行可视化设计之前,我们首先是要有数据、并对获得的数据进行格式化处理,以便输入到软件中进行 设计,这是可视化过程中的第一步、也是至关重要的一步。本章主要介绍如何去寻找数据、以及在 获得数据后应如何格式化处理。
    - 在收集数据的部分,除了由他人提供的数据外,作者给读者列出了一系列的数据源,并以收集 Weather Underground 这个网站有关布法罗市的天气数据为案例,使用编程语言Python和函数 库Beautiful Soup来自动获取数据,并总结出规律。(不懂码代码的童鞋可以根据书上步骤一步一 步来,作者对每一行代码都做了详细的注释。)
    在设置数据格式部分,作者介绍了各种数据格式、处理格式的一些工具以及一些编程知识。

    0_1495455193920_Chapter 2 处理数据.png

    Chapter 3 选择可视化工具

    这一章主要介绍对数据进行可视化的一系列软件工具,主要有开箱即用的可视化工具、编程工具、 绘图软件、地图绘制工具,作者对这些工具的优劣做了评析。
    0_1495455223326_Chapter 3 可视化工具.png

    Chapter 4 有关时间的趋势的可视化

    1.本章主要介绍有关时间数据的可视化,我们观察时间数据,必须立足全局,在其中寻求趋势——上升 or 下 降、周期性循环等。
    2.时间数据分为离散时间数据和延续时间数据。关于时间数据的可视化,其主要方法是:R用于基础的搭建,Adobe Illustrator 用于图表的设计,指出数据中的重要部分。作者还指出,对数据越了解,讲出来的故事也就越精彩!
    0_1495455249591_Chapter 4 有关时间趋势的可视化.png

    Chapter 5 有关比例的可视化

    • 本章主要介绍对于比例数据的可视化,比例数据按类别、子类别和群体进行划分。在比例数据中,我们真正 最感兴趣的是比例的分配,在其中寻求最大值、最小值和总体分布。
    • 关于比例数据的可视化,除了Adobe Illustrator和R,还可以使用HTML、CSS和JavaScript创建可交互的图表,并接触到用Flash创建的图表。
    0_1495455274791_Chapter 5 有关比例的可视化 .png

    Chapter 6 有关关系的可视化

    本章涉及到初级统计学的一些知识,主要介绍探索数据中的关系,在多个变量中寻求关联性(正相关 or 负相 关)、因果关系,从分布观察事物作为整体是如何彼此联系的,在分布中寻找模式、剔除异常值,然后考虑 整件事的上下文背景。 关于关系数据的可视化,R包揽了最基础、最繁重的工作,Illustrator增加图表的可读性。
    0_1495455296816_Chapter 6 有关关系的可视化.png

    Chapter 7 发现差异

    本章主要介绍在包含多种变量的数据中,然后把所有对象进行分组,然后找出其中的异常值(outlier)。
    0_1495455320026_Chapter 7 发现差异.png

    Chapter 8 有关空间关系的可视化

    第8章主要介绍对空间数据的处理和可视化,从在空间数据中寻求具体地点、纬度和经度,深入到多重空间数 据集中,寻求跨越空间和时间的那些模式,涉及到使用R绘制创建一些基础的地图、用Python和SVG创建更 高级的地图、用ActionScript和Flash来创建可交互的动画地图。
    0_1495455342997_Chapter 8 有关空间关系的可视化.png

    Chapter 9 有目的地设计

    最后一章,其实就是对第1章中【数据可视化设计的一些规则】的补充,介绍除数据可视化设计以外,其他需要注意的一些细节。
    0_1495455365685_Chapter 9 有目的地设计.png

    这本书的大致脉络如下图:
    0_1495455405951_《鲜活的数据 数据可视化指南》.png


  • cid:39:privileges:find

    Part 3 最后的一点小反思 & 小建议

    第一用数据讲故事,这是本书很赞的一个观点!
     数据本身并不是目的,目的是更好 的发现数据中隐藏的“故事”,而数据可视化则可以更好的发现这些故事,并且更加丰富生动的讲故事。
     如果大家有兴趣,可以去看一部名叫《Spotlight》(聚焦) 的电影,这部电影荣获2015年奥斯卡最佳影片奖,是根据《波士顿环球报》的一篇新闻改编,讲得就是一群调查报道记者揭露基督教会掩盖性虐待丑闻的故事。
    0_1495455499148_003.jpg

     在这几位记者揭黑报道的调查过程中,对调查发挥着重要的作用就是数据了!
    0_1495455517654_004.jpg
    0_1495455526882_Spotlight 001.jpg
    0_1495455537289_002.jpg

     其中有一幕让观众十分深刻的场景,他们找到了官⽅方的教堂通讯录,看到主教的人事变动,发现上面有人名、时间、原因譬如”病假”这些都是数据,数据里蕴含着故事、真相,一定要学会用数据讲故事

     另外,数据是有瑕疵的,不是所有的数据都能带来好的故事,书中也提到过,要用有批判地眼光去看待获得来的这些数据。因为即便是国家数据,也并不是完美的,它们可能有各种各样的问题,不完整、不准确,或者其它问题。
     譬如国际甚至是国内分析师长期对中国GDP数字有疑问,如果是地区数字,问题可能更多, 每年各省的GDP数字并不计入全国GDP。以2015年为例,每省GDP总和比全国多出了4.8万亿元。
     所以我们应该不只是看到数据本身,而是需要更好理解它

    第二,虽然书上说,此书同样适用于没有编程经验的人。但要知道,本书的作者是有统计学背景的,所以对编程完全没有基础的小白,看的时候是非常吃力的。学数据可视化,得把需要的补的功课做好呀…!
    第三,信息传达 V.S. 视觉美观 豆瓣上的网友发表过这样的评论,有的可视化作品过于追求美观和艺术效 果,而不顾作品的理解力,忽视可视化最基本的功能——给读者、受众传达信息 ,让其理解数据的意义。


 

与 BitTiger Community 的连接断开,我们正在尝试重连,请耐心等待