【讲座资料】散沙老师数据科学家之路 讲座总结



  • 作者:Zhihua Cai

    7月22号美西时间7:30PM, 数据科学家王威扬先生为我们带来了《数据科学之路》的精彩演讲。随着大数据应用的不断成熟,硬件对并行数据分析越来越强的支持,在美国数据科学家(Data Scientist)的社会需求越来越大。在中国相应岗位也正在兴起。

    0_1469544114579_1.png

    什么是数据科学家?

    一位现代的数据科学家,或一个数据科学家团队,要求具备有从数据的采集,清洗,整合,分析建模,应用到实际生产的能力。不仅仅要数学知识过硬,能够用数学分析问题,也应该有一定的编程功底,能够将数学问题得到的结论应用到现实生产中。

    数据科学家不是数学家,不偏重理论研究,而是以解决实际问题为目标。数据科学家的工作与软件工程师不同,并没有一个明确的开发要求文档来界定他的工作内容, 而是发散的,要通过数据的分析来求得结论,挖掘数据的意义和价值。

    数据科学家与传统数据团队有所区别。传统数据团队包括数据团队负责人,大数据架构师,数据挖掘工程师,数据分析师,报表工程师。而数据科学家与数据团队紧密合作,穿针引线推进数据流程的优化,最终实现业务优化与帮助决策。

    0_1469544155455_2.png

    作为一个新的职位,数据科学家要融入到传统的数据团队中,沟通能力很重要。王老师总结数据科学家要懂业务,会讲故事,会写代码。通过有效沟通让决策者和运营者了解数据结果的价值,为运营提供有效方案。为数据团队提供API和数据库, 指导数据团队更有效的使用分析出的结果。

    一个初创公司早期一般不重视频用户数据的统计分析。当初期团队发展到一定规模,原始的用户数据达到了一定的规模。公司对用户数量的增长,业务的发展要依靠统计的数据才能够清晰的展现出来。这时候公司就开始需要数据科学家的帮助,运用数据来指导公司的运营发展。

    数据科学家的工作领域

    数据科学家专长数据科学。数据科学在传统行业已经有了很多经应用, 例如对邮递员工作时间的最优配置,工厂的选址,货物运输的路径规划,供需的动态分析,运力调度。互联网行业的兴起,数据的采集变得更为方便。数据科学产生了如搜索与推荐系统, 广告流量运营, 用户增长运营等新的应用。随着大数据应用和机器学习的兴起,目前数据科学的前沿技术有如图像识别,语音识别,自然语言处理,基因组研究等等方向。一些数据科学家将研究成果转化成了专利,令人羡慕的成立了新的初创公司。

    谁最适合成为数据科学家?

    成为一名数据科学家需要有工程思维,能够发现事物之间的潜在联系。需要一定的数学基础和相关的计算机知识。

    如何成为一名数据科学家?

    数据科学家的职位描术上传统行业要求具有BI/Dashboard, MPP OLAP, Data Warehouse, 初创企业要求会Hadoop/GPU数据分析,大数据,高性能计算等。

    成为一名数据科学家要涉及到很多方面的知识,学习要有所侧重。数理知识是基础。计算机科学方面数据库,算法,架构都要有所了解。

    0_1469544233732_3.png

    算法上注重学习Machine Learning相关的API,学好Python和Hadoop生态圈。推荐学习以下内容。

    Data Manipulation
    Basics —— NumPy,Pandas,h5py
    DB Connectivity —— MySQL/PostgreSQL/MongoDB/Redis API
    Hadoop+Simple Parallelizing —— PySpark

    Data Analysis
    Stat —— statsmodel
    ML —— scikit-learn,xgboost,gensim
    Algos —— scipy, hmmlearn,pulp,cvxopt,networkx,pyeemd
    DL —— Mxnet / Keras(theano/tensorflow)

    Data Storyboard/Visualization
    iPython Notebook(Server)
    Bokeh(Server)

    Data API
    django/flask/tornado, others

    架构上重点学习Hadoop, Spark, pySpark, CUDA, Docker, 虚拟机等技术.

    0_1469544278234_4.png

    推荐相关书籍:

    项亮:《推荐系统实战》
    刘鹏:《计算广告学》


登录后回复
 

与 BitTiger Community 的连接断开,我们正在尝试重连,请耐心等待