【BitTiger读书会】· 第二十二期《终极算法: 机器学习和人工智能如何重塑世界》


  • administrators

    BitTiger读书会,以书会友。以报告方式,加强组织表达力;以讨论方式,激荡思考判断力,期能扩充知识领域,养成读书习惯。

    每周一本好书,一年阅读50本书,集众智,挑好书,留精华内容,创优质社群。

    BitTiger读书会,欢迎您的加入!

    在第二十一期里,裴芬结合自己和作者对于世界观的看法,和大家分享了《Worldviews: An Introduction to the History and Philosophy of Science》(世界观:科学史与科学哲学导论)这本书。在即将到来的第二十二期中,Benjamin将会带领我们一起阅读《The Master Algorithm: How the Quest for the Ultimate Learning Machine Will Remake Our World》(终极算法: 机器学习和人工智能如何重塑世界)这本书,深入去探索是否有一种结合各种算法优点的终极算法以及它将如何影响未来的世界。

    【领读书籍】

    0_1504140927481_BitTiger读书会第22期《终极算法》书籍图片.jpg
    《The Master Algorithm: How the Quest for the Ultimate Learning Machine Will Remake Our World》(终极算法: 机器学习和人工智能如何重塑世界)

    【书籍介绍】

    《The Master Algorithm》终极算法,副标题是机器学习和人工智能如何重塑世界, 本书由机器学习领域资深教授佩德罗•多明戈斯编写,作者围绕两个方面展开本书的叙述,解释机器学习原理和帮助创造终极算法。详细的介绍了机器学习五大学派,每个学派都有自己的主算法,能帮助人们解决特定的问题。而如果整合所有这些算法的优点,就有可能找到一种“终极算法”,该算法可以获得过去、现在和未来的所有知识,这也必将创造新的人类文明。不论你身处什么行业、做什么工作,了解终极算法都将带给你崭新的科学世界观,预测以后的科技发展,布局未来,占位未来!

    【领读者介绍】

    Benjamin:软件工程师,算法爱好者,目前就职于硅谷谷歌, 立志于应用AI技术解决经济发展所带来的问题和挑战,为人类社会创造价值。业余爱好阅读,冥想,投资以及各类球类运动。

    【读书时间】

    美西时间 9月2日周六 6 PM
    美东时间 9月2日周六 9 PM
    北京时间 9月3日周日 9 AM
    (活动时长约1小时)

    【领读方式】

    中文,微信群文字图片直播

    【报名方式】

    请微信扫码添加小助手song,备注“读书会”,小助手会拉你进群

    0_1504140589196_微信二维码.jpg

    【活动海报】

    0_1504140527211_BitTiger读书会第22期终极算法海报.jpg


  • administrators

    什么是终极算法?算法已在多大程度上影响我们的生活?本文介绍了著名算法专家,机器学习领域的先驱人物 Pedro Domingos 的新书《终极算法》,详解了机器学习的五大学派。文章总结道,每个学派都有自己的主算法,能帮助人们解决特定的问题。而如果整合所有这些算法的优点,就有可能找到一种“终极算法”,该算法可以获得过去、现在和未来的所有知识,这也必将创造新的人类文明。当我看到本书提出的这个想法时,让我回想起了高中物理时候让人振奋的统一场理论,就是把迄今人类所知的各种物理现象所表现的相互作用,都可归结为4种基本相互作用,即强相互作用、电磁相互作用、弱相互作用和引力相互作用,用一个大一统的理论把他们全部概括起来,想想都觉得挺有趣的,不同的学科中总有人想弄个宏伟的大一统,这本书的结论导向也和统一场理论的结局有点相似,就是全统一起来的理论尝试现在都很不成熟,各个理论在特定的领域才能发挥最大的效果。

    机器学习并不新颖。我们从20世纪90年代就开始见证机器学习了。当时亚马逊推出了一个新的“为你推荐”功能,为用户显示更加个性化的推荐结果。当我们在 Google 上搜索时,这些搜索结果的背后也有机器学习技术。Facebook 上的“朋友”推荐或建议页面,以及任何电商网站上的产品推荐的背后都是机器学习在起作用。换句话说,这些网站对我们的了解很多。我们在网站上的每次点击或搜索都会被记录下来,并为我们提供更多有关这些网站的信息。但这些网站都不是完全意义上的了解我们。Google 会知道我们正在搜索什么,亚马逊会知道我们想买什么,苹果知道我们喜欢听什么音乐,Facebook 知道我们的社交行为偏好。但这些网站没有一个知道我们在一天里所有的喜好和选择。它们只能通过我们先前的点击,而非通过了解我们整个人进行预测。

    什么是终极算法(Master Algorithm)?
    但是,假设有一个算法能同时知道我们在 Google 上搜索什么,我们在亚马逊上购买什么,以及我们正在 Apple Music 上听的音乐,或在 Netflix 上观看的视频。它也知道我们最近的状态和我们在 Facebook 上的分享。关于我们的事,这个算法知道得很多,并且对我们形成了一个更准确、更全面的了解。这里边是否存在着这样一种“终极算法”,帮助我们解决所有的事情呢?

    我们寻找终极算法的过程是复杂且活跃的,因为在机器学习领域存在不同思想的学派,每个学派都有其核心理念以及其关注的特定问题。在综合几个学派理念的基础上,每个学派都己经找到该问题的解决方法,而且有体现本学派的主算法。符号学派(symbolists)更多关注哲学,逻辑学和心理学,并将学习视为逆向演绎(inverse of deduction)。联结学派(connectionists)专注物理学和神经科学,并相信大脑的逆向工程。进化学派,正如其名称所示,在遗传学和进化生物学的基础上得出结论。贝叶斯学派(Bayesians)注重统计学和概率推理。而类推学派(analogizers)更多是关注心理学和数学优化来推断相似性判断。

    符号学派(The symbolists)
    符号学派的方法基于对问题的“高阶”(high-level)解释。符号主义者更侧重哲学,逻辑学和心理学,并把学习视为逆向演绎(inverse of deduction)。大多数专家系统使用符号学派的方法,以 If-Then 的方式解决问题。对于符号学派来说,所有的信息都可以简化为操作符号,就像数学家那样,为了解方程,会用其他表达式来代替本来的表达式。符号学者明白你不能从零开始学习:除了数据,你还需要一些原始的知识。他们己经弄明白,如何把先前存在的知识并入学习中,如何结合动态的知识来解决新问题。他们的主算法是逆向演绎,逆向演绎致力于弄明白,为了使演绎进展顺利,哪些知识被省略了,然后弄明白是什么让主算法变得越来越综合。

    联结学派(The connectionists -> backpropagation)
    联结学派的主要思想是通过神经元之间的连接来推导知识。联结学派聚焦于物理学和神经科学,并相信大脑的逆向工程(reverse engineering)。他们相信用反向传播算法或“向后传播错误”的算法来训练人工神经网络以获取结果。几乎所有大科技公司,包括 Facebook,微软,谷歌等,都正在使用这种模式来改进它们的系统。对于联结学派来说,学习就是大脑所做的事情,因此我们要做的就是对大脑进行逆向演绎。大脑通过调整神经元之间连接的强度来进行学习,关键问题是找到哪些连接导致了误差,以及如何纠正这些误差。联结学派的主算法是反向传播学习算法,该算法将系统的输出与想要的结果相比较,然后连续一层一层地改变神经元之间的连接,目的是为了使输出的东西接近想要的东西。

    进化学派(The evolutionaries)
    第三个学派,是进化学派,他们在遗传学和进化生物学的基础上得出结论。2015年去世的 John Holland 曾在密歇根大学任教,他在将达尔文的进化理论引入计算机科学方面发挥了非常重要的作用。Holland 是遗传算法(genetics algorithms)的先驱,他提出的“遗传算法的基本定理”被认为是这个领域的基础。进化学派认为,所有形式的学习都源于自然选择。如果自然选择造就我们,那么它就可以造就一切,我们要做的,就是在计算机上对它进行模仿。进化主义解决的关键问题是学习结构:不只是像反向传播那样调整参数,它还创造大脑,用来对参数进行微调。进化学派的主算法是基因编程,和自然使有机体交配和进化那样,基因编程也对计算机程序进行配对和提升。

    贝叶斯学派(The Bayesian school of thought)
    如果你使用电子邮件超过10年,应该能感觉到垃圾邮件过滤系统的改进。这是机器学习中的贝叶斯学派的功劳。贝叶斯学派专注于研究概率推理和用贝叶斯定理解决问题。贝叶斯学派从一个信念开始,他们称之为“先验”(prior)。然后,他们收集一些数据,并基于该数据更新先验;得到的结果他们称之为“后验”(posterior)。然后,他们用更多的数据来处理后验,并使之变成先验。这个过程不断循环往复,知道得到最终的答案。大多数垃圾邮件过滤系统是在这种基础上起作用。贝叶斯学派最关注的问题是不确定性。所有掌握的知识都有不确定性,而且学习知识的过程也是一种不确定的推理形式。那么问题就变成,在不破坏信息的情况下,如何处理嘈杂、不完整甚至自相矛盾的信息。解决的办法就是运用概率推理,而主算法就是贝叶斯定理及其衍生定理。贝叶斯定理告诉我们,如何将新的证据并入我们的信仰中,而概率推理算法尽可能有效地做到这一点。

    类推学派(The analogizers)
    机器学习的第五个分支学派是类推学派(Analogizers),他们更多地关注心理学和数学最优化,通过外推来进行相似性判断。类推学派遵循“最近邻”原理进行研究。各种电子商务网站上的产品推荐(例如亚马逊或 Netflix的电影评级)是类推方法最常见的示例。对于类推学派来说,学习的关键就是要在不同场景中认识到相似性,然后由此推导出其他相似性。如果两个病人有相似的症状,那么也许他们患有相同的疾病。问题的关键是,如何判断两个事物的相似程度。类推学派的主算法是支持向量机,主算法找出要记忆的经历,以及弄明白如何将这些经历结合起来,用来做新的预测。

    终极算法与五个学派的关系:
    每个学派对其中心问题的解决方法都是一个辉煌、来之不易的进步,但真正的终极算法应该把5个学派的5个问题都解决,而不是只解决一个。例如,为了治愈癌症,我们要了解细胞的代谢网络:哪些基因调节哪些别的基因,由此产生的蛋白质控制哪些化学反应,以及将新微粒加入混合物中将会对网络产生什么影响。从零开始努力学习这些东西显得有点愚蠢,因为这种做法忽略了过去几十年生物学家苦心积累的知识。符号学派懂得如何将这些知识与来自DNA测序仪、基因表达芯片等的数据结合起来,并得出结果。只有知识或数据,你得不出这些结果,可是我们通过逆向演绎得到的知识都是纯定性的。我们要了解的不仅是谁和谁交互,还有可以交互的程度,以及反向传播如何做到这些。即便如此,如果没有某个基础结构,逆向演绎和反向传播将会迷失在太空中。有了这个基础结构,它们找到的交互和参数才能构成整体。基因编程可以找到这个基础结构。这时,有了新陈代谢的完整知识,以及给定病人的相关数据,我们就可以为他找到治疗方法。但实际上,我们拥有的知识总是非常不完整的,甚至在有些地方会出错。即使如此,我们还是要继续进行,这也就是概率推理的目标。

    危机与问题
    所有上述学派解决不同的问题,提出了不同的解决方案。而真正的挑战是设计一个算法,解决这些方法尝试要解决的所有不同的问题(单一的一个“终极算法”)。我们仍然处在机器学习和 AI 的早期,还有很多事情要做。我们不知道什么时候,哪里会出现问题,而这将会减缓整个发展进程,带来下一个“AI冬天”。又或者,将来会出现一个新的突破,彻底改变目前的情况。机器学习的进步更像是一场演化。正如微生物的发展速度远比人类更快,机器学习的发展也比人类快,但会到达一个阶段,在这个阶段上这些学习算法会变得太过复杂而不能快速演化。也存在其他的危机。一个“理想的”终极算法将了解有关我们的一切。虽然机器学习需要人类的输入作为启动,但它最终会达到一个点,它会超越人类。那么接下来会发生什么呢?只要它们的目标和我们的目标稍有分歧,可能就足以消灭人类。一个非常好的例子就是《鹰眼》(Eagle Eye)这部电影,当工程师给“终极算法”机器设置的最终目标和人类当前的行为有偏差的时候,机器可能会动用一切手段杀死人类来达到自己的目的。


 

与 BitTiger Community 的连接断开,我们正在尝试重连,请耐心等待