
一、大数据是什么
1.起源:大数据的前世今生
在五六年前,大数据的概念刚刚被提出来的时候,很少有人意识的到这一波新的科技浪潮将奏响新时代的序章。5年来,大数据的发展和创新迅如雷霆,大数据的应用如水银泻地般的影响着各个产业。大数据科技的发展速度超越了前面任何一次科技革命,因为这一切发生得太迅速,很多人会感觉到大数据似乎是一夜之间从天而降。正如杨万里在《新竹》中描写的一样:“东风弄巧补残山,一夜吹添玉数竿。”春天的新竹看似一夜长成,其实在破土而出之前有着长时间的酝酿与积累才有后来的厚积薄发,大数据也是如此。
要弄清楚大数据的来龙去脉,必先了解IT行业的发展史。要谈IT行业发展史,就不能不说摩尔定律。戈登·摩尔(Gordon Moore)在1965年提出了摩尔定律:在价格不变的条件下,每隔18~24个月,集成电路可容纳的元件数量可增加1倍,即集成电路的性能增加1倍,因此计算机的性能也将增加1倍。摩尔定律揭示了IT行业发展的速度:计算机的性能相对于时间呈指数增长。直到今天摩尔定律所描述的规律仍然相当准确。对大众来说最直观的感受就是我们的计算机体积越来越小了,但是计算能力却越来越强大。20世纪90年代,计算机在中国逐渐开始普及,其间经历了从台式机到笔记本电脑再到智能手机的过程。在台式机的时代我们很难想象有一天我们能够把计算机放进衣服口袋,如今计算机不仅能够小到装进口袋,而且还能和手表甚至眼镜融为一体(其实计算机还可以变得更小,只是更小的显示装置就不方便人类使用了),更重要的是今天的智能手机不仅仅是体积变小了,而且性能也已经远远超过了当年的台式机。
计算机性能的增加带来的是数据分析、处理、存储和传播速度的加快;与此同时,计算机产品的价格在不断下降,使越来越多的人能够使用计算机,计算机使用者数量的增加引发了数据量的不断增加。简单来说,更强的计算能力意味着更快的数据处理能力;更便宜的计算机带来的是更快的数据生成速度,因此摩尔定律本质上阐明了数据处理能力和数据产生速度同步增长的必然性。
摩尔定律从本质上说明了随着时间的推移,计算机的计算能力作为一种资源成本将越来越低,与此同时,计算需求变得越来越大,直到达到当时计算能力的上限。这样的一个正反馈回路推动了从系统软件到应用软件,再到互联网,然后到移动互联的每一次飞跃。互联网特别是移动互联普及之后,数据的产生呈爆发式的增长,实现了由量变到质变的飞跃,最终大数据时代到来了。
2.应对:新时代的大禹治水
数据量的爆发也带来了数据存储、数据传输和数据分析等方面的问题,IT行业有句话对此进行描述:Computers have promised us a fountain of wisdom but delieved a flood of data.(计算机承诺带给我们智慧的清泉,但事实上送来的是数据的洪流。)
在2012年,每天产生的数据就已经达到2.5Exabytes。当前我们个人电脑的硬盘容量通常在Gigabyte和Terabyte之间,如果把这些电脑的硬盘容量都算作1 Terabyte。2.5Exabytes的数据会装满250万台电脑的硬盘。而且数据产生的速度还在不断加快,大约每两年数据量都会翻番。由此看来,把大数据时代的数据量比喻成洪流甚至是海洋毫不为过。
1024 Bytes=1 Kilobyte
1024 Kilobytes=1 Megabyte
1024 Megabytes=1 Gigabyte
1024 Gigabytes=1Terabyte
1024 Terabytes=1 Petabyte
1024 Petabytes=1 Exabyte
1024 Exabytes=1 Zettabyte
1024 Zettabytes=1 Yottabyte
1024 Yottabytes=1 Brontobyte
1024 Brontobytes=1 Geopbyte
在大数据时代的今天,我们每人每天、每时每刻都被数据所包围,新闻、社交媒体、移动应用等让人应接不暇。每个人的生活已经因此产生了深刻的变化。如何面对这样的数据洪流,不同的人有不同的态度。有的人拥抱、有的人激动、有的人质疑、有的人排斥,可谓众生百态。
大禹治水的故事或许可以给我们以启迪。据《山海经》和《史记》等记载,尧在位时中原地区洪水泛滥,无边无际,于是任命了鲧去治理水患。鲧采用封堵的策略来治理水患。鲧治水失败由他的儿子禹继续治理水患。禹采用了疏导的策略,而且一共历时了13年时间,其间三过家门而不入,最终取得了成功。在大数据时代,我们应该学习和借鉴大禹治水的精神和方法来面对数据洪流。通过研究和发现大数据的规律和逻辑来为人类造福。
3.意义:淘尽黄沙始见金
从大数据诞生以来,随着人们对大数据的认识不断的加深,大数据的内涵和外延一直在发生着变化。IBM对大数据特征的4V描述被业界广泛认同。如今这一理论已经发展成为5V,分别是Volume、Velocity、Variety、Veracity、Value。
Volume(大量):用来描述大数据的数据量巨大,这是大数据区别于传统数据的首要特征。世界上现有的90%的数据是在过去两年中产生的。大数据的大首先是数据规模的大。
Velocity(高速):用来描述大数据的数据产生和传播的高速,而且这个速度还在不断加快。
Variety(多样):大数据包括多样化的数据格式与形态。大部分的数据是非结构化的,包括:文本、音频和视频等格式,而且还不断地有新的数据格式产生。
Veractiy(精确性):对数据质量进行描述,大数据所包含数据的数据质量通常参差不齐,为数据分析的精确性造成了困难,很多传统的数据处理方法已经不再有效。
Value(价值):对大数据进行科学的数据挖掘分析可以发现其中包含的深度价值。
前四个V(Volume,Velocity,Variety,Veracity)描述的是大数据的客观属性,而最后一个V(Value)是我们利用大数据的目的和意义所在。我们可以看到大数据的前四个属性和其变化的趋势都在为我们从大数据中获得价值增加难度:在浩如烟海和形态多样的数据中获得价值的确是困难重重,因此利用和研究大数据需要科学的方法和工具。
从大数据中发现价值就如同炼金术一样,是一个除去杂质并且层层提纯的过程,这个过程通常被称为知识发现KDD(Knowledge Discovery in Databases)。具体来说,这一过程的产物从数据到信息,再到知识,最后到达智慧。数据信息知识智慧是一个金字塔结构。这一结构被称为DIKW(Data-Information-Knowleddge-Wisdom),由Jeniffer Rowly在2007年提出(图1-16)。

图1-16 DIKW金字塔结构
金字塔的底座最大,这一层是数据。数据(Data)在拉丁文中的原意是事实和已知。数据是一种原始的记录,没有经过加工和解释,反映了事物的客观状态,数据之间是分散和孤立的,没有建立相互的联系。这些数据就包括我们朋友圈的数据、公共交通的数据、网上电商的数据等(表1-5)。
表1-5 商品销售数据

这条数据就是一条普通的销售记录,内容包括了商品ID、商品名称、商品数量、价格和销售时间等。如果是在拥有销售软件系统的超市,或者是在网上的电商,每当一个交易完成的时候,类似于图中的一条交易数据就会被记录在数据库中。这样的数据,每时每刻都在以巨大的体量产生。
对数据进行系统组织、整理和分析之后得到信息,信息具有明确的目的性和使用性,能够回答“谁”(Who)、“什么”(What)、“地点”(Where)和“时间”(When)等问题。信息是数据上面一层,来源于数据并高于数据,信息把特定的孤立的数据联系了起来,数据和信息都是客观存在。
数据和信息上面是知识层。知识体现了信息的本质、原则和经验,能够积极地指导任务的执行与管理,进行决策和解决问题。从数据到信息再到知识的过程,是一个数据不断变得有序、不断得到验证,并最终揭示所存在的固有规律的过程。
智慧是金字塔的最高一层。智慧是基于知识的基础上,形成的对事物的深刻认识和远见,体现为一种卓越的判断力,并由此采取策略和行动。智慧是人类区别于其他生物和人工智能的重要特征(至少目前是如此)。知识和智慧都包含了智能的主观意识。对于人工智能后面的章节将做更加详细的介绍。
DIWK金字塔结构清晰地阐明了数据分析的结果,或者说是产出(Output),如果从分析的功能和目的来划分,现有大数据数据分析包括描述性分析(Descriptive)、预测性分析(Predictive)和处方性分析(Prescriptive),这三个层次的分析是与DIWK过程相对应的。
描述性分析包括了数据和信息层,是对客观事实进行描述,分析的结果要能够回答“谁”(Who)、“什么”(What)、“地点”(Where)和“时间”(When)这一层面的问题。
预测性分析主要是在知识层面。预测性分析运用统计、建模和数据挖掘等技巧,通过分析现有和历史数据来发现规律并对未来进行预测。分析结果要能回答“如何”(How)或者“为什么”(Why)层面的问题。
处方性分析是在智慧层面,通过描述性分析和预测性分析积累的经验来提供建议和问题的解决方案。处方性能够提供决策选项,整个分析过程需要考虑和涉及问题的背景、商业规则、计算机建模和算法等。
这一数据分析流程被广泛地应用在商业智能(Business Intelligence)和决策支持系统(Decision Support System)中。
至此,读者对于大数据应该有了一个直观的认识。大数据其实是一种现象,但是这一现象背后有着深刻的内涵。接下来,我们将抽丝剥茧透过现象去发掘背后的本质。
4.本质:洞察
“大数据”顾名思义就是“规模海量的数据”。其实这是似是而非的认知。大数据具有数量巨大、构成复杂、变化迅速、价值内隐的特征。学习与掌握它,能够通过多维度、多层次的数据,以及历时态的关联数据,找到问题症结,直抵事实真相,从而使其利用者达到智慧化的境界。从哲学高度看,大数据是数据由量变达到质变的结果。徐子沛《大数据》里是这么界定数据的,数据是对客观世界的测量和记录。传统的数据是测量,比如测量气温把它变成数据。今天的数据爆炸不是测量数据的爆炸,是记录世界的爆炸。所有可以电子化的东西都可叫做数据,所有的事情都在数据化,数据的外部性使阿里巴巴变成一家金融公司。数据不在于大,而在于多源。数据之所以有用,是因为数据的作用能够超出其最初收集者的目的。
(1)洞察工作重点。众所周知,任何大城市都有不少井盖。有自来水、煤气、污水地下管线等8大类20种之多。美国纽约市就有大量的井盖,但是作为管理部门,现在,每天只要打开50个井盖就可以保证城市平安运行了。为什么?原来他们对每个井盖都安装了感应器,实时汇聚各方信息,掌握了重要信息情报。通过自动筛选,就可以掌握工作中的重点所在。
(2)洞察未来趋势。2008年,谷歌的一支研发团队利用网上收集来的个人搜索词汇的海量数据,赶在流行病专家之前两个星期,提前预测到甲型H1N1流感即将爆发。因为他们掌握了大数据,所以,这样难办的事情谷歌就做到了,而且比专业机构还要提前,还要准确。如果要知道一个城市的堵车高峰,可以通过早晨的用水高峰与傍晚的用电高峰而推算出来。
(3)洞察客户需求。现在的电子商务非常火爆。他们掌握了大量商品订单,而且知道好的生产厂家是谁。由于数据在握,所以主动在握。很多生产厂家都要恭维着电商。长此以往,会形成“反客为主”之势。电商将会变成最牛的生产公司。
(4)洞察员工表现。国外高科技企业要员工做“工作日志”,就是把你一天的工作用计算机记录下来。例如,你是几点上班下班的,你在计算机旁学习了几个小时?你的学习进度如何?你问了教练几个问题?这些数据都可以记录下来,形成你的“勤奋镜像”(水晶玻璃球);再加上你最近与客户联系过多少次,客户对你的反映如何等。这不仅能够知道员工的真实表现,而且可以提前干预,避免绩效下降。
(5)洞察客户诚信。众所周知,银行利润的一个重要来源就是贷款。但是,贷款有风险,最大的风险就是届时还不回来。因此,中央一再要求要帮助中小企业解决贷款困难,实际上谁都知道为什么总解决不了这个问题。问题就卡在银行无法知道哪家企业到底经营状况如何。连报表都真假难辨。现在,有的银行开始与大数据联合,与电商联手。通过第三方电商获取的大数据,提升了贷款准确性,避免了赔本风险。例如建行的“亦商亦融”。
(6)洞察合适人选。利用大数据找人,已经有成熟方法。各行各业都可以做到。现在国外已经开始通过大数据挑选电视剧本的合适演员。整个过程有观众、影视粉丝参与,而且可以预测票房价值。
5.特点:相关性、混杂性、大
(1)不重因果性,重视相关性。大数据有一个重要特点,就是“不讲为什么,重视关联性”。如果发现了某种关联性。就可以加以利用。凭借自有的卫星信息系统进行商品管理的沃尔玛公司,发现在它们的卖场里,凡是购买婴儿尿布的顾客,很多都要买上几罐啤酒。这是为什么?不知道。但是,掌握了这种关联性的卖场经理,就可以告诉上架员,要把灌装啤酒与婴儿尿布摆放在一起。这么做,果然提升了这两种商品的销售量。再比如,凡购买救灾用具的人,一般都要购买蛋挞等食品,这是可以想到的。
(2)不求精确化,容忍混杂性。世界上结构化的、适用于传统数据库的数据,大约只占5%,95%的数据是非结构化的。因此,要利用大数据就要容忍其复杂性,包括格式的不一致性等。虽然我们得到的信息那么精确,但是数量庞大的信息使我们放弃严格精确的选择变得更为划算。大数据通常是靠概率说话的。所以,为了掌握发展趋势,应该学会对精确性做一些让步。
(3)不搞随机抽样,要全部数据。社会科学研究常用“抽样调查”方法。它曾经被认为是社会文明得以建立的牢固基石,直到现在也在经常使用。其实,它只是在技术受到限制的特定条件下,解决特定问题的一种无奈方法。
现在,已经可以收集到过去无法收集到的大量信息,所以“样本就等于全部”。而且这样做,比使用抽样调查方法得出的结论要准确的多。在大数据时代,还搞抽样调查,就好像生在汽车时代,却非要骑马赶路一样。
6.大数据不是简单的BI升级
BI(Business Intelligence)即商务智能,它是一套完整的解决方案,用来将企业中现有的数据进行有效的整合,快速准确地提供报表并提出决策依据,帮助企业做出明智的业务经营决策。
大数据(Big Data)是指在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。
不管定义如何不同,大数据与传统BI是社会发展到不同阶段的产物,大数据对于传统BI,既有继承,也有发展。从“道”的角度讲,BI与大数据区别在于前者更倾向于决策,对事实描述更多是基于群体共性,帮助决策者掌握宏观统计趋势,适合经营运营指标支撑类问题。大数据则内涵更广,倾向于刻画个体,更多的在于个性化的决策。
大数据应用场景是企业特别需要想清楚的地方,传统BI失败,一定程度讲,是技术推动业务导致的倒挂现象所致,也是高估传统BI利用数据的能力所致,比如大量领域用传统BI产生不了生产力。大数据也面临这个重大问题,但应该看到,随着大数据概念的普及,应用领域的大幅延伸,企业的管理和业务人员对于数据的认识有了很大的转变,数据化的思维开始深入人心,对于大数据来说,是一个新的机会。当前大数据领域最火的地方是颠覆BI,打造大数据技术引擎。很多企业纷纷在建设自己的大数据平台,不外乎解决以下问题,比如用Hadoop、流处理等技术解决海量的结构化、非结构化数据的ETL问题,用Hadoop、MPP等技术计算海量数据的计算问题,用redis、HBASE等方式解决高效读的问题,用Impala等技术实现在线分析等问题。