大数据是这个时代的万金油?《在线》之二

今天给大家分享《在线》的第二篇阅读心得,第一篇“云计算的反思”,这一篇是关于“大数据”方面的。

简要说明:文中我主要是将书中的一些精华摘录给大家分享,附上一些我的简短分析与感想,并非标准的拆书方法论。正常字体为书中原文、斜体字为个人感想。

 

大数据的误区

时机-近几年才兴起的?

大的数据很早以前就有。世界上最大的数据估计和互联网—点关系都没有。欧洲核子研究组织的大型强子对撞机(LHC)做一次碰撞产生的数据,就算你用最强大的计算机,也是一辈子都算不完的,这才是世界上最大的数据。对撞实验室搜集了几乎超出人类想象的数据量。实验室中—亿像素的相机每秒要拍摄4000万张粒子碰撞的照片,相当于—秒钟产生—拍字节需要分析的数据。

有了数据就有了竞争力?

金子不会成为—个国家的竞争力,大部分的金子来自南非,但南非并不是世界上最有竞争力的国家。真正的竞争力,是把所有人都可能拥有的东西变成财富,让沙子变成硅,这才是核心。很多人在讲大数据的时候,经常会说自己拥有的数据多么重要、多么稀有、多么独特。这样说很不妥。不是说这样讲不对,但这是挖金子的思维方式。卖金子的人做不成超级富翁,真正创造更高价值的是售卖硅产品的英特尔。
在这一点上,博士分享的非常精妙,从某些角度来讲,大数据就像是这世界上的沙子一样,哪怕你拥有了撒哈拉的沙子,但是如果你没有将沙子变成硅的能力,那么下场也只能是捧着金饭碗讨饭吃的乞丐,将注意力集中于如何将沙子变成硅上--这才是构建核心竞争力的所在。

中国是世界上数据贡献量最大的国家之一,也是服务器占有量最多的国家之一。可以说,中国是计算机大国。但是到今天为止,没有一个企业能够站出来说,可以帮助处理全世界互联网上的信息,因为那需要巨大的处理能力。有计算机不一定有计算能力。计算能力一定会成为一个企业和国家的核心能力。以后必然会出现的情况是,计算能力成为国际贸易的一部分。目前来说,中国是计算机大国,但不是计算大国。中国要把计算和数据结合在一起,让大数据通过云计算产生价值,这样才能形成核心竞争力,成为计算强国。

在相当多领域(如农业、制造业、教育……)我们都是“大国”而非“强国”,计算领域也是一样,博士在这里提前N前就预测计算能力将成为国际贸易的一部分,就像在N年前大家都无法想像碳排放能进行交易一样,可结果呢今天我们都看到了。因此从上面这一小段文字中我们对于博士对于IT发展趋势的洞见可见一斑。

对于大数据,真正重要的是什么?

现在流行的大数据一词成了被过度使用的词语。大数据变成了这个时代的万金油,什么东西都想和它扯上一点关系。我担心继续这样下去的话,人人都想着把数据变大,那世界就乱套了。也许会出现这样的情况:一提至大数据,大家就会比谁的数据中心建得更大,谁买的计算机更多,买了10万台机器的公司一定比隔壁买5万台机器的那家更厉害。媒体报道的时候也会大肆宣扬,哪家公司建了一个很大的机房,特别宏伟,堪称世界建筑史上的新奇迹。诸如此类的混乱景象,一定会出现。为了把大家拉回来,我宁可偏执一回,不停地重复一句话:大不重要,在线才重要。
今天的数据不是变“大”了,直正有意思的是数据变得在线了,这恰恰是互联网最大的特点。在线的数据,一定很“大”。在线也是“大”能产生价值的前提。

读到这里也让我产生很多感慨,之前在学习大数据相关的东东时,很多专家提出了大数据的几个显著特征(如常见的3V模型、4V模型),在这本书中博士第一次鲜明地提出了另外一个特征——在线(online)

云计算、大数据啥关系?

没有钢铁,没有电,就不会有大规模的工业化生产。同样的没有云计算就不会有云存储,而没有云计算和云存储,也就不会有大数据。

分析与分析学啥关系?

在有关数据的讨论中有两个用词的变化很少被关注,一个是analysis(分析),另—个是analytics(分析学)。analysis当然就是我们平时说的数据分析,analytics最近经常出现在谷歌分析(GoogleAnalytics)中。通常,我们没有对analysis和analytics做特别的区分。简单地分析一下数据是没有意义的。analytics是指分析学,它实际上是一套分析方法,涵盖了数据怎么得来,怎么分析数据,怎么使用数据的整个过程。以新闻网站为例,分析数据的做法是,你去分析一下用户喜欢什么样的视觉效果,然后编辑据此改变版式,这是传统的数据分析。而数据时代的分析是,用户打开新闻页面,页面中会有推荐列表。用户的阅读数据会实时体现为与用户的兴趣爱好相匹配的阅读内容。analysis主要注重的是用数据反映用户的反馈,analytics不但要用数据反映用户的反馈,更重要的是要利用数据给用户以反馈,它是只有在线才能做到的—种状态。

20世纪40年代初,英国空军的实力很弱,之所以能够打败德国的空军,是因为英国的雷达足够先进,它可以提前探查德国的飞机从哪里来,具体在什么位置,大约有多少架。等到德国的飞机靠近领空时,英国空军的飞机才出去进行攻击,它在空中逗留的时间也比从英吉利海峡另一边飞过来的德国飞机要长得多,这就是早期英国用那么少的飞机就可以把德国空军拖垮的原因。长波雷达是这场不列颠空战胜利的关键,从1940年夏天开始,它成功引导了数千架英国空军飞机拦截德国飞机,没有雷达引导,英国空军需要动用上万架飞机,这是当时的英国不能承受的。如果没有雷达,英国很可能会失败。

几个有关数据的小故事

根据詹森.哈里斯(JensenHarris)在MSDN.COM上的博客记录,office2003发布以来,一共搜集了13亿个使用片段(session),每个使用片段都记录了在一段固定时间内的所有SQM数据,在最后的90天内,仅word就记录了超过3.5亿次命令行的点击。微软也因此在历史上第一次知道了word2003中最常用的5个命令是粘贴、保存、复制、撤销和加粗,这5个命令加在一起占了word2003所有命令使用量的32%。能有那么多的用户实时提供行为数据,并且是在真实使用场景下的数据,在没有互联网以前,这事连想都不敢想,简直是天方夜谭。

当我们在今天听到周遭的各种声音“用户体验设计”“精细化运营”“产品打点与埋码”,貌似有了这些名词加持就多了不起似的……我们不知道的是在十几年前微软已经在实际产品中进行了应用。我再一次回想到自己无数次在之前文章中说过的一个观点——无知并不可怕,可怕的是无知而不自知。

过去国家想要知道进出口贸易的情况,要查看海关的数据。可是大家知道吗,海关的数据实际上是事情发生了很久以后才汇总的数据。但阿里巴巴的国际贸易数据是不一样的。从第一天买家询盘开始你就可以预测会发生什么,今天询盘的人越少,未来12个月的出口肯定也越少。这个时候你会发现数据的价值远比给你一个报表要大得多。比别人早知道一些,就没什么东西能阻挡你了,只要早知道几分钟,你就会有更大的机会赢取胜利,而数据会帮助你抢先那几分钟。

博士在这里分享的这个生动的例子至少让我了解到表面上我们看到的是针对同一个事物的数据,而实际上数据与数据本身是存在着巨大差异的,当我们自以为感觉良好时殊不知“别人家的孩子”有多优秀。

大数据与互联网

真正的流动,必须是在互联网而不是局域网内流动。有时我会和人讲,如果你一定要强调大数据,那请记住大指的是互联网的大,把东西封闭在自己的公司里是没有前途的,数据在互联网上流动比在局域网里产生的价值要多得多。这个道理很浅显,但不见得每个人都明白。
局域网和互联网是很好区分的。美国在线鼎盛的时候,我正好在美国,他们推广自己的网站时要卖光盘,用光盘装载特定的软件,才能登陆美国在线。这是为了挡住一部分用户,也留住一部分用户。虽然美国在线什么服务都有—邮件、资讯、论坛等,但它实际上是封闭的互联网,只不过它当时是世界上最大的局域网,几乎等同于互联网。等真正的互联网席卷全球,美国在线这种局域网模式就扛不住了。在传统的信息系统中,一旦数据流动起来,它的价值将呈几何级数增长。

大数据一定要在线,在互联网上流动,只有这样才能最大化发挥数据本身的能力,从这个角度出发大数据更像水一样,如果只是在自己家的小池塘里面永远成不了大气候

Comments
Write a Comment