拆书8:大数据时代

2021-08-10 post/reading

前一段我在文章当中提到过我看了一些大数据方面的书,如《大数据时代》,今天就把当时所做的一些笔记整理一下与大家进行分享:
内容简介

《大数据时代》是国外大数据研究的先河之作,本书作者维克托•迈尔•舍恩伯格被誉为“大数据商业应用第一人”,拥有在哈佛大学、牛津大学、耶鲁大学和新加坡国立大学等多个互联网研究重镇任教的经历,早在2010年就在《经济学人》上发布了长达14页对大数据应用的前瞻性研究。
维克托•迈尔•舍恩伯格在书中前瞻性地指出,大数据带来的信息风暴正在变革我们的生活、工作和思维,大数据开启了一次重大的时代转型,并用三个部分讲述了大数据时代的思维变革、商业变革和管理变革。
维克托最具洞见之处在于,他明确指出,大数据时代最大的转变就是,放弃对因果关系的渴求,而取而代之关注相关关系。也就是说只要知道“是什么”,而不需要知道“为什么”。这就颠覆了千百年来人类的思维惯例,对人类的认知和与世界交流的方式提出了全新的挑战。
本书认为大数据的核心就是预测。大数据将为人类的生活创造前所未有的可量化的维度。大数据已经成为了新发明和新服务的源泉,而更多的改变正蓄势待发。书中展示了谷歌、微软、亚马逊、IBM、苹果、facebook、twitter、VISA等大数据先锋们最具价值的应用案例。

大数据与小数据

今天,一种可能的方式是,亦是本书采取的方式,认为大数据是人们在大规模数据的基础上可以做到的事情,而这些事情在小规模数据的基础上是无法完成的。大数据是人们获得新的认知、创造新的价值的源泉;大数据还是改变市场、组织机构,以及政府与公民关系的方法。

大数据的重要性不言而喻,这里只是进行了一下概括性的总结。

很多时候,追求精确度已经变得不可行,甚至不受欢迎了。当我们拥有海量即时数据时,绝对的精准不再是我们追求的主要目标。

这是作者非常重要的一个观点(也是和我们现行观点冲突比较大的地方)。下面就是针对这个原理的应用及解释:

互联网上最火的网址都表明,它们欣赏不精确而不会假装精确。当一个人在网站上见到一个Facebook的“喜欢”按钮时,可以看到有多少其他人也在点击。当数量不多时,会显示像“63”这种精确的数字。当数量很大时,则只会显示近似值,比方说“4000”。这并不代表系统不知道正确的数据是多少,只是当数量规模变大的时候,确切的数量已经不那么重要了。另外,数据更新得非常快,甚至在刚刚显示出来的时候可能就已经过时了。所以,同样的原理适用于时间的显示。谷歌的Gmail邮箱会确切标注在很短时间内收到的信件,比方说“11分钟之前”。但是,对于已经收到一段时间的信件,则会标注如“两个小时之前”这种不太确切的时间信息。

关于结构化与非结构化

据估计,只有5%的数字数据是结构化的且能适用于传统数据库。如果不接受混乱,剩下95%的非结构化数据都无法被利用,比如网页和视频资源。通过接受不精确性,我们打开了一个从未涉足的世界的窗户。

作者上面的这个观点也给我带来了很大的冲击,在我以前的工作当中接触的都是结构化的数据,所以在我的认识当中数据就应该是结构化的(我是做管理软件出身的,在信息化项目实施的过程当中客户经常有一些非格式化的数据,作为顾问很重要的一个角色就是教客户如何把非格式化的数据进行格式化处理)而当我读到上面的这些文字的时候才发现,原来我只是在5%的区域里面折腾(就像早已经习惯了在自己家门口的小河里面游泳一样,当第一次遇见大海的时候那种举足无措的心情可想而知)

杜西格在《习惯的力量》(The Power of Habit)一书中讲到了接下来发生的事情。一天,一个男人冲进了一家位于明尼阿波利斯市郊的塔吉特商店,要求经理出来见他。他气愤地说:“我女儿还是高中生,你们却给她邮寄婴儿服和婴儿床的优惠券,你们是在鼓励她怀孕吗?”而当几天后,经理打电话向这个男人致歉时,这个男人的语气变得平和起来。他说:“我跟我的女儿谈过了,她的预产期是8月份,是我完全没有意识到这个事情的发生,应该说抱歉的人是我。

这个案例非常生动,作为大数据在预测领域是一个非常好的案例,在此记录备用。

一个东西要出故障,不会是瞬间的,而是慢慢地出问题的。通过收集所有的数据,我们可以预先捕捉到事物要出故障的信号,比方说发动机的嗡嗡声、引擎过热都说明它们可能要出故障了。系统把这些异常情况与正常情况进行对比,就会知道什么地方出了毛病。通过尽早地发现异常,系统可以提醒我们在故障之前更换零件或者修复问题。通过找出一个关联物并监控它,我们就能预测未来。

如果是经常关注我公众号文章更新的朋友们,当你读到上面这段话的时候你会想到什么,没错啦,我在前两天的文章里面提到过扁鹊与孙思邈的故事,两位先贤将疾病分为“未病”、“欲病”、“已病”三个层次,“上医医未病之病,中医医欲病之病,下医医已病之病”。他们告诫人们要“消未起之患,治未病之疾,医之于无事之前”。
「这下你发现了吧,我们先辈们早在几百上千年前就意识到了“大数据”的威力,只是当年没用这个时髦的词语来炒作罢了」

在我们强调过多次的例子中这一点体现得非常明显:Farecast利用机票销售数据来预测未来的机票价格;谷歌重复使用搜索关键词来监测流感的传播;麦格雷戈博士用婴儿的生命体征来预测传染病的发生;莫里重新利用老船长的日志而发现了洋流。

大数据的经典案例有哪些?如果非要记忆的话不用记录那么多,就把上面两句话记下来就好了。

不过,就算有这么多好处,我们依然有担忧的理由。因为随着大数据能够越来越精确地预测世界的事情以及我们所处的位置,我们可能还没有准备好接受它对我们的隐私和决策过程带来的影响。我们的认知和制度都还不习惯这样一个数据充裕的时代,因为它们都建立在数据稀缺的基础之上。

关于隐私保护模式后面会有相关的话题,关于我们的思维模式这个话题倒是非常有趣。这有点像下面这个段子:

王失聪他爸给了他八个亿,王思聪赚了四十个亿,翻了五倍,我爸给我五块钱,我买副手套去工地搬砖赚了两百块钱,翻了四十倍,可见,老子并不比王思聪差,我只是缺少资金。

我们之前的思维模式是不是有不少这个搬砖少年的影子?「可能你根本就没意识到」而在我们真正即将进入大数据时代的时候,你还是这样的思维模式么?你还是总是想当然地去思考问题,做出决策么?你的思维模式做好应对的准备了吗?

公司将未来的成功押注在对客户更深入的洞察上,从而解决许多时装零售商的常见问题:退货(确保更少的退货)、库存(预测人们会想要什么)以及较高的库存周转率(准备客户最近将要购买的物品库存)。虽然史迪奇或许并非最成功的零售商(虽然我们认为他们会成为这样的公司),但是他们奠定了大数据时代零售商的基础体系架构。

就像上面所提到的那样,我觉得这就是阅读给我带来的最大的启发,也许我们并没有在某一个行业里面做过,可是作者就通过这么简单的几句话就道出了这个行业的本质与核心。

互联网出现之前,如艾可飞和益百利这样的专业数据收集公司就采集、记录了全球范围内大约几百万人口的数据,而它们提供的每个人的个人数据就多达好几百份。而互联网的出现使得监视变得更容易、成本更低廉也更有用处。如今,已经不只是政府在暗中监视我们了。亚马逊监视着我们的购物习惯,谷歌监视着我们的网页浏览习惯,Twitter窃听到了我们心中的“TA”,Facebook似乎什么都知道,包括我们的社交关系网。

看到这里你可能有一丝的恐惧心理,没办法就像从农业社会向工业社会发展一样,我们目前就在向大数据时代进发,这就是历史的潮流不可逆转。正所谓识时务者为俊杰,我们所能做的并不是去排斥这个趋势,而是要积极的考虑如何在这波浪潮当中提高自身的冲浪水平,做一个高水平的弄潮儿。

如果大数据分析完全准确,那么我们的未来会被精准地预测,因此在未来,我们不仅会失去选择的权利,而且会按照预测去行动。如果精准的预测成为现实的话,我们也就失去了自由意志,失去了自由选择的权利。既然我们别无选择,那么我们也就不需要承担责任,这不是很讽刺吗?
 
这是一个典型的滑坡,可能直接导致《少数派报告》中的情况成为现实——我们将生活在一个没有独立选择和自由意志的社会,在这里我们的道德指标将被预测系统所取代,个人一直受到集体意志的冲击。简单地说,如果一切都成为现实,大数据就会把我们禁锢在可能性之中。

这一点有点像博弈论提出的囚徒困境,机器(或者说人工智能)与人的关系这个话题在前一段国际围棋大赛期间可谓非常火热,大数据分析技术在社会的发展过程当中就是那个非常明显的双刃剑,一方面它确实非常锋利帮助我们披荆斩截,可另外一方面一不小心就会伤及我们自身。那么我们该怎么办呢,作者提出了他的观点:

大数据的不利影响并不是大数据本身的缺陷,而是我们滥用大数据预测所导致的结果。大数据预测是建立在相关性基础上的。让人们为还未实施的未来行为买单是带来不利影响的主要原因,因为我们把个人罪责判定建立在大数据预测的基础上是不合理的。

看到这里你可能已经明白过来,就像我们平常多次提到的菜刀行凶事件一样,当事件发生的时候,理性告诉我们:「我们不应该去封存这把菜刀,而应该去追究手持菜刀行凶人的责任」因此大数据时代所带来的威胁最终归根结底还是要处理好人与人之间的关系。

在大数据时代,我们需要设立一个不一样的隐私保护模式,这个模式应该更着重于数据使用者为其行为承担责任,而不是将重心放在收集数据之初取得个人同意上。这样一来,使用数据的公司就需要基于其将对个人所造成的影响.

关于隐私保护模式的话题,作者提出来的这个观点也比较新颖,因为从客观上来讲,数据的收集是不可避免的,就像滚滚长江东逝水一样,与其浪费更多的时间来精力在这里,还不如把精力花在如何规范数据的使用层面——相对来讲这才是性价比更高的理性选择。

Comments
Write a Comment