智能时代

首先来说一下我与这本书的渊源,这本书之前是在听罗振宇的逻辑思维节目的时候,他所推荐的一本书。之前我倒是没有特别的留意,因为逻辑思维推荐的书太多了,根本不可能把那么多的书全都拿来读,所以只好挑一些自己感兴趣的,当我突然有一天空下来翻阅需要读的书单的时候发现了这本书。恰好我在2014年的时候读过吴军博士所写的《浪潮之巅》,所以一下子就对这本书产生了兴趣,这本书读下来给我带来了非常强烈的震撼。由于这本书的信息量非常大,所以我只是把书中的一些精彩内容摘抄出来,加上我自己的几句话感想给大家分享一下。

吴军先生的《智能时代》一书给出了答案。该书回顾了科学研究发展的四个范式,即描述自然现象的实验科学、以牛顿定律和麦克斯韦方程等为代表的理论科学、模拟复杂现象的计算科学和今天的数据密集型科学

吴军博士在书中总结了从第一次工业革命以来历次技术革命中的一个规律,即每一次技术革命都会围绕着一个核心技术展开,第一次工业革命是蒸汽机,第二次工业革命是电,信息革命是计算机和半导体芯片,当下的智能革命则是大数据和机器智能。而在每一次技术革命中,只有率先采用新技术,才能立于不败之地。在智能革命中,现有产业采用了新技术后,将会全面升级成为新产业,这将给我们带来无限的机会。智能革命带来前所未有的不连续性挑战。

正像你读到的上面这一段文字,作者通过简简单单的几句话就概括了。作出了高度的概括。

我们从天文学的发展历程中可以看出,数据的作用自古有之,并非到了今天大数据时代大家才意识到。但是在过去数据的作用常常被人们忽视。这里面有两个原因,首先是由于过去数据量不足,积累大量的数据所需要的时间太长,以至于在较短的时间里它的作用不明显。其次,数据和所想获得的信息之间的联系通常是间接的,它要通过不同数据之间的相关性才能体现出来。可以说,相关性是让数据发挥出作用的魔棒。

这段话做得讲得非常精彩,我们发现身边很多人在这几年将大数据三个字变成了神器一样供奉,其实是没有意识到人类对于数据的应用一直都有,作者将这个本质点了出来。

利用大数据解决医疗问题的经典案例

从上亿种关键词的组合中,最终挑出45个重要的检索词条和55个次重要词条(归并成12类)作为特征,训练了一个线性回归模型预测2007年和2008年冬季流感传播的趋势和地点,并且将机器预测的结果和疾病控制与预防中心公布的数据进行比对,发现准确率高达97%以上。受到这篇论文的启发,疾病控制与预防中心在2009年了解禽流感疫情时采用了同样的方法,获得了更有效、更及时的数据。这个案例后来被各种媒体报道,成为利用大数据解决医疗问题的经典案例。在这个例子中,最关键的是建立起了数据之间的相关性,即疾病传播和该地区搜索关键词变化的关系。

为什么早期科学家们的想法会和今天的门外汉一样天真呢?这个道理很简单,因为这是根据我们的直觉最容易想到的方法,在人类发明的历史上,很多领域早期的尝试都是模仿人或者动物的行为。比如人类在几千年之前就梦想着飞行,于是就开始模仿鸟,在东方和西方都有类似的记录,将鸟的羽毛做成翅膀绑在人的胳膊上往下跳,当然实验的结果都可想而知。后来人们把这样的方法论称作“鸟飞派”,也就是看看鸟是怎样飞的,就能模仿鸟造出飞机,而不需要了解空气动力学。事实上我们知道,怀特兄弟发明飞机靠的是空气动力学而不是仿生学。在这里,我们不要笑话前辈来自直觉的天真想法,这是人类认识的普遍规律。

可怕的是我们现在还是不是像几百年前的人类一样天真?

大数据的特征

大数据之所以有用,是因为它除了数据量大以外,还具有其他的特征。一些数据专家将大数据的特征概括成三个V,即大量(Vast)、多样性(Variety)和及时性(Velocity),这种说法虽然方便记忆,但并不全面准确。首先,尽管一些大数据具有及时性的特点,我们也会在后面详细介绍及时性的好处,但它并非所有大数据所必需的特征,一些数据没有及时性,一样可以被称为大数据。其次,多样性虽然是大数据的一个特征,但是含义上有歧义性,其中最重要的含义是多维度。大数据的第三个重要特征,也是人们常常忽视的,就是它的全面性,或者说完备性。我们不妨再用中英文翻译的例子来说明大数据的完备性。

这是作者提出的观点:大量、多维度、全面性

 
机械思维的形成可以追溯至古希腊。欧洲之所以能够在科学上领先于世界其他地方,在很大程度上是依靠从古希腊建立起来的思辨的思想和逻辑推理的能力,依靠它们可以从实践中总结出最基本的公理,然后通过因果逻辑构建起整个科学的大厦。其中最有代表性的是欧几里得的几何学和托勒密的地心说。

在欧几里得之后大约5个世纪,古希腊罗马时代最伟大的天文学家托勒密将欧几里得的这种方法论应用到天文学上,建立起一套完整、严格而且相当精确的描述天体运动规律的理论体系,即地心说。讲到托勒密要顺便提一句,有些时候,一些好心人建议我将书中“最伟大”之类的词改成“最伟大的之一”,以免犯错误,或者他人有异议。其实,写书表达思想是一件颇为主观的事情,最重要的不是避免犯错误,而是不可缺乏思想。在我看来,托勒密在近代之前是当之无愧的最伟大的天文学家,没有之一。除了地心说,托勒密的贡献还包括:发明了球坐标(我们今天还在用),定义了包括赤道和零度经线在内的经纬线(今天的地图就是这么划的),提出了黄道,发明了弧度制等等。这些贡献随便拎出一条,都足以让托勒密名垂青史。

托勒密的思想影响了西方世界一千多年,这倒不完全是因为他的地心说,而是他这种思维方式和方法论。事实上后来的哥白尼和伽利略依然没有摆脱托勒密的思维方式,尽管他们相信日心说。哥白尼只是发现如果把托勒密坐标系的中心从地球移到太阳,就可以让天体运动的模型简单一些,但是他依然需要采用托勒密多个圆相互嵌套的模型。伽利略在科学上比哥白尼进步了很多,事实上真正让人们相信日心说的是伽利略,而不是哥白尼(或者布鲁诺)但是,即便是伽利略,其研究方法和托勒密也如出一辙。

在古希腊罗马以后,人类对自然界的认识进步非常缓慢,西方进入了中世纪的黑暗时代。东方的中国和阿拉伯帝国虽然在工程和技术上不断进步,但是既没有形成科学体系,也没有在方法论方面做出太多的贡献。最终,发展科学方法的任务留给了笛卡儿和牛顿。笛卡儿的贡献在于提出了科学的方法论,即大胆假设,小心求证,这个方法论在我们今天的工作中还在使用。不过对近代社会思想贡献最大的还是著名科学家和思想家牛顿。

西方人对牛顿评价之高是强调官本位的中国人难以想象的。牛顿去世后被葬在威斯敏斯特教堂(又称为西敏寺)里最显眼的地方,其墓碑建筑远远超过包括伊丽莎白一世在内的英国任何一位君主,每天到那里拜谒的人不计其数。在大部分中国人看来牛顿不过是一个科学家,而且他的理论今天看起来也颇为简单,为什么会如此受敬重呢?因为在欧美人看来,牛顿不仅是一位杰出的科学家,而且是人类历史上最重要的思想家之一。牛顿甚至被一些历史学家认为是人类历史上第二具有影响力的人物,不仅排在爱因斯坦等所有的科学家之前,而且超过了耶稣和孔子。牛顿通过他在数学、物理学、天文学和光学等诸多领域开创性的成绩,总结出一种全新的方法论,不仅开创了科学的时代、理性的时代,而且开启了西方的近代社会。

牛顿作为思想家的贡献还在于他指出了任何正确的理论从形式上讲都是简单的,同时又有非常好的通用性,这与东方哲学中的大道至简思想不谋而合。牛顿在科学上的各种发明和发现,从物理学的定律到数学微积分的定理,都可以用非常简单的公式描述出来,而这些公式又具有普遍意义。因此,从牛顿的时代开始,科学家们都在致力于通过几个公式来描述我们的世界,并且应用它们预测未知。在牛顿之后,英国的焦耳也通过一个简单的公式描述了能量守恒原理,而他们的另一位同胞麦克斯韦则通过几个简单的方程式描述了我们看不见摸不着的电磁世界。这些科学原理简单的形式,使得它们很容易地被应用到发明中。

正是因为瓦特蒸汽机的这个特性,才使得工业革命后有了“蒸汽机+现有产业=新产业”的模式。博尔顿和瓦特在月光社的朋友、后来的瓷器大王韦奇伍德,将瓦特蒸汽机用于瓷器的制造,这是世界上第一个采用蒸汽机动力的行业。蒸汽机的使用,使得在全世界一干多年里供不应求的瓷器,从此出现了供大于求的情况。在此之后,工业革命导致全世界财富量迅速增长。后人这样评价牛顿和瓦特这两位英国的杰出人物:牛顿找到了开启工业革命大门的钥匙,而瓦特拿着这把钥匙开启了工业革命的大门

香农在信息论中借用了热力学里熵的概念,他用熵来描述一个信息系统的不确定性。接下来香农指出,信息量与不确定性有关:假如我们需要搞清楚一件非常不确定的事,或是我们一无所知的事情,就需要了解大量的信息。相反,如果我们对某件事已经有了较多的了解,那么不需要太多的信息就能把它搞清楚。所以,从这个角度来看,可以认为,信息量的度量就等于不确定性的多少,这样香农就把熵和信息量联系起来了。他还指出要想消除系统内的不确定性,就要引入信息。

是的,你没有看错,我这里大量、大量将作者的原文摘录了下来,不知你读了之后有什么感想,对我的感受就是,作者用几个段落将我们中学历史、物理中那些烦死人的科学家生动地给我们进行了介绍,而且更为重要的是通过这些科学家让我们了解到人类科技、文明的进化史(有没有一种《人类简史》的感觉?)
唉,想想我们当年讲这些课程的老师如果有吴博士十分之一的这种学识与表达才能,那学生会得到什么样的收获与成长?

香农第一定律不仅是现代通信的基础,也代表了一种新的方法论。经济学上的吉尔德定律(Gilder'sLaw),即尽量多地采用便宜的资源,尽可能节省贵的资源,与信息论中的霍夫曼编码从本质上讲是相同的。在信息时代,由于摩尔定律的作用,计算机是便宜的资源,而且越来越便宜,人力成本则会越来越局,因此聪明的公司懂得利用计算机来取代人的工作,像Google或者Facebook这样的公司,都是尽可能地将越来越多的事情交给机器去做,而不是雇用很多人。在过去的半个世纪里,生产力的提高实际上就是靠用便宜的机器取代人工,这种做法有意无意地和信息论的原理相符合。当然,也有的企业主不愿意在IT方面进行投入而坚持使用人工,因为这种投入在初期看上去显得比人工昂贵,这些企业后来就逐渐地被淘汰了。

按照因果关系,研制一种新药就需要如此长的时间、如此高的成本。这显然不是患者可以等待和负担的,也不是医生、科学家、制药公司想要的,但是过去没有办法,大家只能这么做。如今,有了大数据,寻找特效药的方法就和过去有所不同了。美国一共只有5000多种处方药,人类会得的疾病大约有一万种。如果将每一种药和每一种疾病进行配对,就会发现一些意外的惊喜。比如斯坦福大学医学院发现,原来用于治疗心脏病的某种药物对治疗某种胃病特别有效。当然,为了证实这一点需要做相应的临床试验,但是这样找到治疗胃病的药只需要花费3年时间,成本也只有1亿美元。这种方法,实际上依靠的并非因果关系,而是一种强关联关系,即A药对B病有效。至于为什么有效,接下来3年的研究工作实际上就是在反过来寻找原因。这种先有结果再反推原因的做法,和过去通过因果关系推导出结果的做法截然相反。无疑,这样的做法会比较快,当然,前提是有足够多的数据支持。

精彩案例摘录

今天,各个搜索引擎都有一个度量用户点击数据和搜索结果相关性的模型,通常被称为“点击模型”。随着数据量的积累,点击模型对搜索结果排名的预测越来越准确,它的重要性也越来越大。今天,它在搜索排序中至少占70%-80%的权重,也就是说搜索算法中其他所有的因素加起来都不如它重要。换句话说,在今天的搜索引擎中,因果关系已经没有数据的相关性重要了

波尔的数据分析团队经过对怀孕顾客行为的分析发现,这些女性在怀孕的不同阶段购买的东西有很大的相似性。在最初阶段,她们会购买无味的大瓶润肤油,这是因为她们会出现皮肤干燥的症状,接下来就是购买维生素和一些营养品,然后就是购买大包无味的香皂和棉球。等到购买婴儿用的毛巾等用品时,一般就到了快分娩的时间了。虽然每位孕妇购买的东西不完全相同,塔吉特所拥有的数据也并非完整,但是这个大趋势还是能够被系统自动归纳出来的。波尔说,如果一位女性买过大瓶椰子油润肤露、一个能装两大包尿不湿的大挎包、维生素和鲜亮的孩子玩耍的地毯,那么根据这看似不多的信息,就能估计出她怀孕的可能性是87%,而且如果确实怀孕了,那么预产期可以预测得非常准确。

精彩案例摘录

亚马逊的优势倒不在于价格便宜,事实上美国实体店和网上的价格差不太多,这和中国的电商有很大区别,它的优势是能够有针对性地给用户推荐商品,这占到亚马逊销售额的1/3。为什么亚马逊能够做到这一点而沃尔玛做不到呢?这就涉及大数据的时效性等特点了。

这个案例分享的也很精彩,有兴趣的可以去读原文。

Google和很多互联网公司之所以能够取得成功,不仅仅是靠技术,靠数据,更是靠采用了大数据时代的方法论,或者说大数据思维。作为数据公司它们在做事情的方法上有着和传统工业公司不同的思维方式。相对来讲这些公司很少花大量的时间和资源来寻找确定的因果关系,而是通过从大量数据中挖掘相关性,直接用于产品,因此它们给外界的感觉是产品更新非常快。大数据思维对Google等公司的帮助,我们会在后面的章节里进一步介绍。

这一点真是值得我们反思,现在国内的IT圈(甚至其它N多其它圈)动不动就在那里叫嚣互联网思维、大数据思想,真正有多少人理解了其中的内涵?

到了2014年,Netflix的流量已经占到美国峰值流量的1/3以上,并且为全世界除中国以外的主要国家提供在线电影服务。2016年年初,Netflix的市值已经超过传统的电视网、默多克的DirectTV。和亚马逊类似,Netflix的数据具有较强的时效性,它可以根据用户的反应很快调整它的市场策略,这种灵活性也是过去那些事先安排好一周节目的有线电视网所不具备的。

Netflix的故事同样精彩,这里不列举了,对大数据感兴趣的小伙伴可自行google.

到了2011年,Google不仅积累了大量的用户数据,而且了解了用户使用互联网的行为,甚至是生活的习惯(比如住在哪里,每天工作做些什么事情等),因此进一步提出“无关键词的搜索”,也就是说,对特定用户,根据他某个时间过去的行为,以及当前使用Google产品的场景,自动产生搜索关键词(在用户看来自己没有输入任何关键词),从互联网上查找信息,然后提供给用户。Google基于这项技术最重要的产品就是安卓手机上的GoogleNow——它可以提示用户接下来该做什么,而这种提示靠的是当时的时间、地点、应用场景和不同用户本身的习惯特点。

这下你大概知道google now的原理了吧

在第二次工业革命中,电的使用又一次改变了商业模式。现代传媒和通信业的兴起是电普及的直接产物。有了这些通信和传媒的手段,厂家和顾客之间有了顺畅的信息交流渠道,产品的营销则从过去口碑相传、实体店展示这种被动的形式,变成了采用广告主动宣传。全球性品牌在这个时期开始诞生,它们开始逐渐垄断全球市场。甶于任何产品都可以很容易地买到,工厂不需要从零件开始做自己的产品,产业链开始形成,工业标准化成为必然。当然也就是在这个时期,大量本土的、地方性的品牌和产品消失了。同时,由于商品进一步供大于求,工业化国家必须依靠消费拉动经济增长,整个社会的消费价值观也开始发生变化。

工业革命-商业模式-社会的消费价值观,表面看起来没有什么关联,通过吴博士几句话给我们基本讲清楚了。

这便是拐点。在历史上有很多关键性的拐点,比如1666年,牛顿发明了微积分,发现了力学三定律和万有引力定律,完成了光学分析,从此世界进入科学近代社会,因此这一年这被看成是科学史上的一个拐点。到了1905年,爱因斯坦完成了分子说,发现了光电效应,提出了狭义相对论,从此开启科学的现代社会,随后物理学的各个领域全面繁荣。1965年,摩尔博士提出了摩尔定律,同时在工业界大规模集成电路出现,从此开始了待续半个世纪的信息产业高速发展。在这些拐点上,原有的平衡被迅速打破,人类从此进入一个新的时代。

现在社会发展的速度越来越快,竞争压力越来越大,而我们自身呢?

个人的投篮命中率高达45.4%,位列当时NBA球员之首。科尔在执掌勇士队之后,坚持用数据说话,而不是凭经验,他根据背后团队对历年来NBA比赛的统计,发现最有效的进攻是眼花缭乱的传球和准确的投篮,而不是彰显个人能力的突破和扣篮。在这个思想的指导下,勇士队队员苦练神投技,全队在一个赛季中投进1000个三分球,又创造了一项NBA纪录。同时,就在对手防守库里时,勇士队的第二投手汤普森大展神威,在一个赛季投进了270个以上三分球,成为第二个跨越之前历史纪录的篮球选手。

精彩案例收集

其实,今天大家用药和就诊这件事透露出工业时代的一个特征,就是一切标准化。在工业革命开始以前,人类使用的产品、享受的服务都有细微的差别,当然这样效率很低。在近代医学开始之前,每一个人的用药都是不同的,尽管那种差异未必有科学根据。工业化的一个结果,就是靠批量生产的效率让个性化从大众市场消失了,不仅产品是标准化的,服务也是如此。比如在医疗方面,美国医生协会要求每一个从业者遵守流程。对医院来讲,医生宁可治不好病,也不能违背流程,因为如果违背流程引起官司,医院的损失可能是巨大的。虽然不能说标准化的产品和服务不好,但在很多情况下对顾客肯定不是最优化的。然而,在工业社会里,要获得个性化的产品和服务成本太高,除了个别富人愿意花非常高的代价去享受这样的产品和服务,一般人是享受不到的。在大多数产品和服务都被标准化的时代,大家很难找到最适合自己的,只能默认最权威的或者最贵的就是最好的。这也是大家在就诊时普遍认定教授比副教授好,副教授比主治医生好的原因

接下来会发生什么?你可以试着推导一下……

到目前为止,我们一直在讲的是大数据和智能革命对社会、对我们的生活所带来的正面影响。但是任何事情一定都有两面性,大数据和智能革命对未来社会的冲击也是不能小视的,我们或许会生活在一个没有隐私的环境里,或许会被一些超级权力在无形中控制,甚至很多人因为没有掌握未来生存的技能而找不到工作,财富可能会更加集中在少数人手里。根据历史的经验,这些问题是无法回避的,而且也不存在快速的解决方法。

双刃剑来啦

解决问题只有靠时间为什么每一次重大的技术革命都需要很长的时间来消除它所带来的负面影响呢?因为技术革命会使得很多产业消失,或者产业从业人口大量减少,释放出来的劳动力需要寻找出路。这个时间有多长呢?事实证明至少要一代人以上,因为我们必须承认一个并不愿意承认的事实,那就是被淘汰的产业的从业人员能够进入新行业中的其实非常少。 他们背负着历史的包袱,举步维艰,在未来难以有所作为。对那些曾经为人类的文明做出过贡献,但已经被技术革命所淘汰的员工,唯一的希望就是他们的后代能够进入一个新的行业。这实际上是靠时间慢慢地消化技术革命带来的负面影响

读到这里不禁出了一身冷汗

最后,也是最重要的一点,智能革命所要替代的是人类最值得自豪的部分——大脑。以前,当各种各样的机器可以越来越多地从事人类才能做的工作时,人类还保留了最后的尊严和自豪感一机器不能思考。过去机器只是替代人的手,因此在农机和化肥出现后,农村从事体力劳动的人可以变成需要动脑筋的工匠;在流水线出现之后,工匠们没有了市场,但是蓝领工人可以从事白领的差事。由于机械毕竟不能完成智能的工作,因此人们最终还是找到了谋生的手段。不过智能革命的结果是让计算机代替人去思考,或者说靠计算能够得到比人类思考更好的结果,能够更好地解决各种智能问题,这时,人类会突然发现自己还能做得比计算机更好的事情已经所剩不多了。我们在上一章介绍过,智能革命中,计算机所取代的不仅仅是那些简单重复性的劳动,还包括医生、律师、新闻记者和金融分析师等过去被认为是非常需要脑力的工作。

千万千万不要以为自己是个小白领就得过且过,明天的太阳能不能照常升起对我们绝大多数人来说都是一个未知数

Comments
Write a Comment