搜索
您的当前位置:首页正文

大数据技术及其应用

来源:知库网


第一章 大数据概论

当移动通信和互联网给我们带来的生活方式、思维方式的巨大改变还没有消退的时候,大数据时代以排山倒海之势到来,什么是大数据?大数据能为人们带来哪里益处?大数据如何改变人们的生活、工作和学习?大数据下的政府、企业和过去有什么不同?这一系列的问题困扰着很多人,甚至连一些专家学者也对此迷惘。在人人都谈大数据的时代并不是每个人都真正理解大数据的精髓,因此本章给读者简单的介绍一下大数据的定义、原理、方法、应用及存在的问题。以后各章将介绍与大数据有关的技术、工具、商业模型及应用案例等,引导读者逐步深入,了解和掌握大数据的基本知识和技能,为从事大数据及其相关产业打下基础。

1.1大数据的定义

大数据(Big Data)是指数据量大到用常规工具和方法无法进行处理的蕴含着大量价值的数据集合。

因此大数据的核心是价值,数据量大只是大数据的表象,这也是为什么大数据引起业界广泛关注的重要原因。由此可见,对于大数据的研究和应用主要集中于两点:一、从技术层面研究大数据的模型及处理算法、开发相应的处理工具等;二、从商业模式层面寻找大数据的商业模型、盈利模式、产业发展等。

维克托·迈尔-舍恩伯格和肯尼斯·库克耶编写的《大数据时代》中指出大数据指不用随机分析法(抽样调查)这样的捷径,而采用对所有数据进行分析处理。大数据的4V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。从该定义看来大数据仍然体现在数据量大和价值两方面。

知名研究机构Gartner对大数据给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。Gartner的定义更多的倾向于大数据的决策优化作用。

大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有价值的数据进行专业化处理。换言之,如果把大数据比作一种产业,初级或者粗糙的大数据产业主要是提高对数据的“加工能力”,通过“加工”实现数据的“增值”;而更高层次的大数据产业将数据信息产生的价值应用到具体的行业,发挥行业价值,从而实现数据信息价值的倍增。这样才能真正体现大数据的价值所在。

1.2 大数据与海量信息的关系

在10年前,我们经常听到一个名词“海量信息”,用来描述大量数据,这是在信息技术飞速发展的大背景下,数据量增加带来的现实问题,为此国家在“十一五”期间还加大的对海量信息及其相关技术的研究。下面是国家科技部“973”计划对信息领域的项目资助指南。

“十一五”期间,信息领域基础研究的发展目标是根据国际信息技术的发展趋势,结合我国的国情和发展状况,着重从信息获取、处理、传输、存储、再现、安全、利用,信息系统的基础元器件、信息处理环境、科学计算、人工智能、控制理论等方面开展系统深入的研究,为我国信息产业的跨越式发展奠定坚实的理论和技术基础。 “十一五”期间,重点研究方向包括:

(1)微纳集成电路、光电子器件和集成微系统的基础研究; (2)信息处理环境及科学计算的基础研究; (3)泛在、可控的下一代信息网络的基础研究; (4)信息获取的基础研究;

(5)高可信、高效率软件的基础研究; (6)智能信息处理、和谐人机交互的基础研究; (7)海量信息处理、存储及应用的基础研究; (8)量子通信的基础研究; (9)信息安全的基础研究

从科技部973重大基础研究计划资助的领域中可以看出,国家加大了对海量信息的研究力度,这里就产生了一个疑问,大数据大还是海量数据大?二者有何联系?又有什么区别?

海量信息仅仅是从数据量上进行界定,海量数据指数据量巨大,用普通的方法和工具处理起来相对困难,其计算时间和运算量较大,需要开发新的存储、处理和挖掘等技术才可以进行快速处理。大数据的数据量明显远大于海量数据,当然二者没有严格的区分门限,通常意义上讲,大数据的数据量要大于海量数据。海量数据的很多分析处理技术可以用于大数据的分析与处理,同样大数据的相关理论和方法同样可以用于海量数据。大数据不仅仅从量上进行了分析,而且从本质上进行了定义,突出了其核心价值。因此可以说大数据是海量数据的升级,大数据更突出了数据的本质。

既然谈到数据量的问题,这里有必要介绍关于数据量的一些常见数量单位。

数据的最小的基本单位是bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。

它们按照进率1024(210)来计算: 1 Byte= 8bit 1 KB = 1,024 Bytes

1 MB = 1,024 KB = 1,048,576 Bytes 1 GB = 1,024 MB = 1,048,576 KB 1 TB = 1,024 GB = 1,048,576 MB 1 PB = 1,024 TB = 1,048,576 GB 1 EB = 1,024 PB = 1,048,576 TB 1 ZB = 1,024 EB = 1,048,576 PB 1 YB = 1,024 ZB = 1,048,576 EB 1 BB = 1,024 YB = 1,048,576 ZB 1 NB = 1,024 BB = 1,048,576 YB 1 DB = 1,024 NB = 1,048,576 BB

当前用的最多的关于大数据描述的数量级是TB和PB,一般行业或者政府机构的数据基本在PB级上,比如目前某省的农业数据大概有几百TB到几十个PB之间,全国的每天产生的交通数据大概是几个到几百个TB量级上。因此,如此大量的数据用传统的数据库存储、查询和处理方式无法实现数据的实时处理,导致时效性大打折扣,甚至不可用,例如在追击逃犯的时候,需要快速查出犯罪分子的行动路线、推测他可能去的地方等,如果数据处理速度较慢,很容易错过机会。同样在商业领域,每天的电子商务交易记录、顾客浏览记录等都是大量的数据,因此这些数据的处理都需要快速。

1.3 大数据的来源与特点

随着电子信息技术和互联网的飞速发展,各种电子设备和数据终端迅速走入寻常百姓家庭,以移动通信发展为代表的手机等客户端产生大量的数据;以PC为代表的微机时代产生了大量的计算机数据;以数码相机为代表的电子设备产生大量的视频、图片数据;以互联网为代表的网络应用产生大量的web数据。因此大数据的产生是源于信息技术的发展和普及。所以遍布全球的物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及各种各样的传感器,无一不是数据来源或者承载的方式。

大数据的存在形式多种多样,这也决定了大数据的处理非常困难,需要运用数学、统计学、物理学等知识进行全方位的研究。比如大数据可以是包括网络日志,RFID,传感器网络,社会网络,社会数据,互联网文本和文件;互联网搜索索引;呼叫详细记录,天文学,大气科学,基因组学,生物地球化学,生物,和其他复杂和/或跨学科的科研,军事侦察,医疗记录;摄影档案馆视频档案;大规模的电子商务等等。

大数据分析相比于传统的数据库应用,具有数据量大、查询分析复杂等特点。大数据的4个“V”是指大数据有四个层面特点:第一,数据体量巨大。从TB级别,跃升到PB级别;第二,数据类型繁多。如网络日志、视频、图片、音频、文档、地理位置信息等等。

第三,处理速度快,极短的时间可从各种类型的数据中快速获得具有较高价值的信息,这一点也是和传统的数据挖掘技术有着本质的不同。第四,只要合理利用数据并对其进行正确、准确的分析,将会带来很高的价值回报。因此业界将其归纳为4个“V”——Volume(数据体量大)、Variety(数据类型繁多)、Velocity(处理速度快)、Value(价值密度高)。

从某种程度上说,大数据是数据分析的前沿技术。简言之,从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。明白这一点至关重要,也正是这一点使该技术引起众多企业的关注。

大数据最核心的价值就是在于对于海量数据进行存储和分析。相比起现有的其他技术而言,大数据的“廉价、迅速、优化”这三方面的综合成本是最优的。

1.4 大数据的用途

大数据可分成大数据技术、大数据工程、大数据科学和大数据应用几个部分。每部分侧重点不同,目前人们关注最多的是大数据技术和大数据应用。工程和科学问题尚未被重视。大数据工程指大数据的规划建设运营管理的系统工程;大数据科学关注大数据网络发展和运营过程中发现和验证大数据的规律及其与自然和社会活动之间的关系。

大数据的应用范围非常广,可以说,需要信息的地方就需要大数据。为了便于给读者直观的了解,下面简单的介绍几个大数据应用场景。

第一,利用大数据探索实现信息库的充实。客户服务、保险、汽车、医疗、教育、交通和技术标准等行业需要储备规模巨大的知识库,而庞大繁杂手册和知识系统会造成重复查询,导致系统延迟和成本上升。例如,IBM Info Sphere Data Explore使某全球航空制造商中的技师、支持人员和工程师能够即时通过单一访问点查看位于不同应用程序中的信息。部署第一年,该公司全天候支持的呼叫时间从过去的50分钟缩短为15分钟,每年节约3600万美元。

第二,利用运营分析实现运营优化。制造、能源、公共事业、电信、旅行和运输等行业需要时刻关注突发事件、通过大数据分析和视频监控提升运营效率并预测潜在风险。巴基斯坦移动运营商Ufone部署了IBM大数据解决方案,通过实时识别用户行为,开展应对特定目标的营销活动,并使用预测分析来设计更好的营销活动和电话推广计划,有效降低了客户流失率。

第三,利用数据仓库扩充实现IT效率和规模效益提升。企业需要增强现有数据仓库基础架构,实现大容量数据传输、低时延、和实时查询需求,确保有效利用预测分析和商业智能实现企业效益和管理水平的提升。某汽车制造商利用IBM Info Sphere Big Insights增强原有数据仓库,实现快速部署并且更易于管理。

第四,利用安全性和智能扩展实现犯罪防范,实现社会和谐稳定。政府、保险、银行、消防、教育等行业亟待利用大数据技术补充和加强传统的安全解决方案。重点人群的监控、重点领域的布防、重要事件的预防和应急灯都需要大数据来实现准确的预测、预防和定位等。秘密情报和监视传感器系统供应商Terra Echos通过部署IBM Info Sphere Streams,能够实时分析流式传输的声学数据并对其进行分类,并将实时捕获和分析275MB声学数据所需的时间从数小时减少到十四分之一秒,同时大幅提升监控精确度。

第五,利用大数据实现广告的精准推送,由于用户对垃圾邮件和烦人的广告比较讨厌反感,各国都在加大整治垃圾邮件和非法广告的力度,而网络广告商在收取广告费用的时候通常是按用户的点击数或者链接等,而不考虑广告的效果。商家花出的广告费却没有收到相应的效果,普通用户收到不需要的广告会反感,而需要广告的人未必收到广告信息。因此如果利用大数据技术,分析客户的喜好和行为习惯,将广告精准推送给需要的人,既不会产生垃圾信息,又能使客户的费用得到合理的使用。由此可见,大数据可以为广告行业提供精准的服务,提升数据价值。

其他应用比如洛杉矶警察局和加利福尼亚大学合作利用大数据预测犯罪的发生。google流感趋势(Google Flu Trends)利用搜索关键词预测禽流感的散布。统计学家内特·西尔弗(Nate Silver)利用大数据预测2012美国选举结果。麻省理工学院利用手机定位数据和交通数据建立城市规划。梅西百货的实时定价机制。根据需求和库存的情况,该公司基于SAS的系统对多达7300万种货品进行实时调价。Tipp24 AG针对欧洲博彩业构建的下注和预测平台。该公司用KXEN软件来分析数十亿计的交易以及客户的特性,然后通过预测模型对特定用户进行动态的营销活动。这项举措减少了90%的预测模型构建时间。SAP公司正在试图收购KXEN。“SAP想通过这次收购来扭转其长久以来在预测分析方面的劣势。”Laney分析到。PredPol Inc.公司通过与洛杉矶和圣克鲁斯的警方以及一群研究人员合作,基于地震预测算法的变体和犯罪数据来预测犯罪发生的几率,可以精确到500平方英尺的范围内。在洛杉矶运用该算法的地区,盗窃罪和暴力犯罪分布下降了33%和21%。

经典大数据案例-沃尔玛经典营销:啤酒与尿布

“啤酒与尿布”的故事产生于20世纪90年代的美国沃尔玛超市中,沃尔玛的超市管理人员分析销售数据时发现了一个令人难于理解的现象:在某些特定的情况下,“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中,这种独特的销售现象引起了管理人员的注意,经过后续调查发现,这种现象出现在年轻的父亲身上。

在美国有婴儿的家庭中,一般是母亲在家中照看婴儿,年轻的父亲前去超市购买尿布。父亲在购买尿布的同时,往往会顺便为自己购买啤酒,这样就会出现啤酒与尿布这两件看上去不相干的商品经常会出现在同一个购物篮的现象。如果这个年轻的父亲在卖场只能买到两件商品之一,则他很有可能会放弃购物而到另一家商店,直到可以一次同时买到啤酒与尿布为止。沃尔玛发现了这一独特的现象,开始在卖场尝试将啤酒与尿布摆放在相同的区域,让

年轻的父亲可以同时找到这两件商品,并很快地完成购物;而沃尔玛超市也可以让这些客户一次购买两件商品、而不是一件,从而获得了很好的商品销售收入,这就是“啤酒与尿布”故事的由来。

当然“啤酒与尿布”的故事必须具有技术方面的支持。1993年美国学者Agrawal提出通过分析购物篮中的商品集合,从而找出商品之间关联关系的关联算法,并根据商品之间的关系,找出客户的购买行为。艾格拉沃从数学及计算机算法角度提出了商品关联关系的计算方法——Aprior算法。沃尔玛从上个世纪90年代尝试将Aprior算法引入到POS机数据分析中,并获得了成功,于是产生了“啤酒与尿布”的故事。

1.5 数据价值

众所周知,企业数据本身就蕴藏着价值,但是将有用的数据与没有价值的数据进行区分看起来可能是一个棘手的问题。

显然,您所掌握的人员情况、工资表和客户记录对于企业的运转至关重要,但是其他数据也拥有转化为价值的力量。一段记录人们如何在您的商店浏览购物的视频、人们在购买您的服务前后的所作所为、如何通过社交网络联系您的客户、是什么吸引合作伙伴加盟、客户如何付款以及供应商喜欢的收款方式……所有这些场景都提供了很多指向,将它们抽丝剥茧,透过特殊的棱镜观察,将其与其他数据集对照,或者以与众不同的方式分析解剖,就能让您的行事方式发生天翻地覆的转变。

但是屡见不鲜的是,很多公司仍然只是将信息简单堆在一起,仅将其当作为满足公司治理规则而必须要保存的信息加以处理,而不是将它们作为战略转变的工具。

毕竟,数据和人员是业务部门仅有的两笔无法被竞争对手复制的财富。在善用的人手中,好的数据是所有管理决策的基础,带来的是对客户的深入了解和竞争优势。数据是业务部门的生命线,必须让数据在决策和行动时无缝且安全地流到人们手中。

所以,数据应该随时为决策提供依据。看看在政府公开道路和公共交通的使用信息这样看起来甚至有点晦涩的数据时会发生什么:这些数据来源为一些私营公司提供了巨大的价值,这些公司能够善用这些数据,创造满足潜在需求的新产品和服务。

企业需要向创造和取得数据方面的投入索取回报。有效管理来自新旧来源的数据以及获取能够破解庞大数据集含义的工具只是等式的一部分,但是这种挑战不容低估。产生的数据在数量上持续膨胀;音频、视频和图像等富媒体需要新的方法来发现;电子邮件、IM、tweet和社交网络等合作和交流系统以非结构化文本的形式保存数据,必须用一种智能的方式来解读。

但是,应该将这种复杂性看成是一种机会而不是问题。处理方法正确时,产生的数据越多,结果就会越成熟可靠。传感器、GPS系统和社交数据的新世界将带来转变运营的惊人新视角和机会。请不要错过。

有些人会说,数据中蕴含的价值只能由专业人员来解读。但是泽字节经济并不只是数据科学家和高级开发员的天下。

数据的价值在于将正确的信息在正确的时间交付到正确的人手中。未来将属于那些能够驾驭所拥有数据的公司,这些数据与公司自身的业务和客户相关,通过对数据的利用,发现新的洞见,帮助他们找出竞争优势。

1.6 大数据主要分析和处理工具

如此大量的数据,靠人工分析显然是不可能的,统计学家和计算高手也无法完成如此巨大的任务,“工欲善其事,必先利其器”,因此对于大数据的分析和处理,必须有非常好的工具才行,而且不能指望一种工具可以解决所有问题,当前用于分析大数据的工具主要有开源与商用两个生态圈。

开源大数据生态圈:

1、Hadoop HDFS、Hadoop MapReduce、HBase、Hive渐次诞生,早期Hadoop生态圈逐步形成。

2、Hypertable是另类。它存在于Hadoop生态圈之外,但也曾经有一些用户。 3、NoSQL,membase、MongoDb 商用大数据生态圈:

1、一体机数据库/数据仓库:IBM PureData(Netezza), OracleExadata, SAP Hana等等。 2、数据仓库:TeradataAsterData, EMC GreenPlum, HPVertica等等。 3、数据集市:QlikView、Tableau、以及国内的Yonghong Data Mart。[ 主要的大数据分析工具有:

在大数据处理领域,最耀眼的明星是hadoop,Hadoop已被公认为是新一代的大数据处理平台,EMC、IBM、Informatica、Microsoft以及Oracle都纷纷投入了Hadoop的怀抱。对于大数据来说,最重要的还是对于数据的分析,从里面寻找有价值的数据帮助企业作出更好的商业决策。下面,我们就来看以下八大关于大数据分析的利器。

EMC—Greenplum

2010年EMC收购了Greenplum推出EMC Greenplum统一分析平台(UAP),数据团队和分析团队可以在该平台上无缝地共享信息、协作分析。正因为如此,UAP包括ECM Greenplum关系数据库、EMC Greenplum HD Hadoop发行版和EMC Greenplum Chorus。EMC为大数据开发的硬件是模块化的EMC数据计算设备(DCA),它能够在一个设备里面运行

并扩展Greenplum关系数据库和Greenplum HD节点。DCA提供了一个共享的指挥中心(Command Center)界面,让管理员可以监控、管理和配置Greenplum数据库和Hadoop系统性能及容量。随着Hadoop平台日趋成熟,预计分析功能会急剧增加。

IBM —Info Sphere Big Insights

几年前,IBM开始在其实验室尝试使用Hadoop,在2012年5月推出了Info Sphere Big Insights云版本的 Info Sphere Big Insights使组织内的任何用户都可以做大数据分析。云上的Big Insights软件可以分析数据库里的结构化数据和非结构化数据,使决策者能够迅速将洞察转化为行动。IBM随后又在10月通过其智慧云企业(Smart Cloud Enterprise)基础架构,将Big Insights和Big Sheets作为一项服务来提供。据IBM声称,客户用不了30分钟就能搭建起Hadoop集群,并将数据转移到集群里面,数据处理费用是每个集群每小时60美分起价

Informatica 9.1

Informatica公司在2012年10月推出了HParser,这是一种针对Hadoop而优化的数据转换环境。据Informatica声称,软件支持灵活高效地处理Hadoop里面的任何文件格式,为Hadoop开发人员提供了即开即用的解析功能,以便处理复杂而多样的数据源,包括日志、文档、二进制数据或层次式数据,以及众多行业标准格式(如银行业的NACHA、支付业的SWIFT、金融数据业的FIX和保险业的ACORD)。正如数据库内处理技术加快了各种分析方法,Informatica同样将解析代码添加到Hadoop里面,以便充分利用所有这些处理功能,不久会添加其他的数据处理代码。Informatica HParser是Informatica B2B Data Exchange家族产品及Informatica平台的最新补充,旨在满足从海量无结构数据中提取商业价值的日益增长的需求。去年, Informatica成功地推出了创新的Informatica 9.1 for Big Data,是全球第一个专门为大数据而构建的统一数据集成平台。

惠普——Vertica数据分析平台

惠普Vertica 5.0 在大数据分析领域站稳脚跟,能提供高效数据存储和快速查询的列存储数据库实时分析平台。该数据库还支持大规模并行处理(MPP)。通过MPP的扩展性可以让Vertica为高端数字营销、电子商务客户(比如AOL、Twitter、 Groupon)分析处理的数据达到PB级。惠普展示了一款Vertica设备——Vertica Analytics Appliance,和小冰箱差不多大小。它是惠普融合基础架构中的一款全集成技术栈。通过这款新设备“惠普可以真正打开这个市场,尤其是将分析作为一项服务的市场”。

甲骨文—Oracle Big Data Appliance

甲骨文的Big Data Appliance集成系统包括Cloudera的Hadoop系统管理软件和支持服务Apache Hadoop 和Cloudera Manager。甲骨文视Big Data Appliance为包括Exadata、 Exalogic和 Exalytics In-Memory Machine的“建造系统”。Oracle大数据机(Oracle Big Data Appliance),是一个软、硬件集成系统,在系统中融入了Cloudera的Distribution Including Apache Hadoop、Cloudera Manager和一个开源R。该大数据机采用Oracle Linux操作系统,并配备Oracle NoSQL

数据库社区版本和Oracle HotSpot Java虚拟机。Big Data Appliance为全架构产品,每个架构864GB存储,216个CPU内核,648TBRAW存储,每秒40GB的InifiniBand连接。Big Data Appliance售价45万美元,每年硬软件支持费用为12%。

微软SQL Server

2011年初微软发布的SQL Server R2 Parallel Data Warehouse(PDW,并行数据仓库),PDW使用了大规模并行处理来支持高扩展性,它可以帮助客户扩展部署数百TB级别数据的分析解决方案。微软目前已经开始提供Hadoop Connector for SQL Server Parallel Data Warehouse和Hadoop Connector for SQL Server社区技术预览版本的连接器。微软在2012年推出了基于Azure云平台的测试版Hadoop服务,2013年它推出与Windows兼容的基于Hadoop的大数据解决方案(Big Data Solution)。

亚马逊—MapReduce

亚马逊早在2009年就推出了亚马逊弹性MapReduce(Amazon Elastic MapReduce),弹性MapReduce是一项能够迅速扩展的Web服务,运行在亚马逊弹性计算云(Amazon EC2)和亚马逊简单存储服务(Amazon S3)上。实现面对数据密集型任务,比如互联网索引、数据挖掘、日志文件分析、机器学习、金融分析、科学模拟和生物信息学研究,用户需要多大容量,立即就能配置到多大容量。

Teradata

Teradata是企业级数据仓库(EDW)的领导者,在数据库分析领域不断推陈出新,该公司购Aster Data—高级分析和管理各种非结构化数据领域的市场领导者和开拓者。Teradata日前宣布了一项Aster Data MapReduce产品的计划,它建立在以往产品同样的硬件平台之上,而且在Teradata和Aster Data之间新增了两种集成方法。 1.6.1 大数据处理流程

1、采集

定义:利用多种轻型数据库来接收发自客户端的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作

特点和挑战:并发系数高

使用的产品:MySQL,Oracle,HBase,Redis和MongoDB等,并且这些产品的特点各不相同 2、统计分析

定义:将海量的来自前端的数据快速导入到一个集中的大型分布式数据库或者分布式存储集群,利用分布式技术来对存储于其内的集中的海量数据进行普通的查询和分类汇总等,以此满足大多数常见的分析需求

特点和挑战:导入数据量大,查询涉及的数据量大,查询请求多

使用的产品:InfoBright,Hadoop(Pig和Hive),YunTable,SAP Hana和Oracle Exadata,除Hadoop以做离线分析为主之外,其他产品可做实时分析 3、挖掘

定义:基于前面的查询数据进行数据挖掘,来满足高级别的数据分析需求 特点和挑战:算法复杂,并且计算涉及的数据量和计算量都大 使用的产品:R,Hadoop Mahout

1.7大数据的发展前景

2013年5月10日,阿里巴巴集团董事局主席马云在淘宝十周年晚会上,将卸任阿里集团CEO的职位,并在晚会上做卸任前的演讲,马云说:“大家还没搞清PC时代的时候,移动互联网来了,还没搞清移动互联网的时候,大数据时代来了。”

大数据正在改变着产品和生产过程、企业和产业,甚至竞争本身的性质。把信息技术看作是辅助或服务性的工具已经成为过时的观念,管理者应该认识到信息技术的广泛影响和深刻含义,以及怎样利用信息技术来创造有力而持久的竞争优势。无疑,信息技术正在改变着我们习以为常的商业模式,一场关系到企业生死存亡的技术革命已经到来。

借着大数据时代的热潮,微软公司生产了一款数据驱动的软件,主要是为工程建设节约资源提高效率。在这个过程里可以为世界节约40%的能源。抛开这个软件的前景不看,从微软团队致力于研究开始,可以看他们的目标不仅是为了节约了能源,更加关注智能化运营。通过跟踪取暖器、空调、风扇以及灯光等积累下来的超大量数据,捕捉如何杜绝能源浪费。“给我提供一些数据,我就能做一些改变。如果给我提供所有数据,我就能拯救世界。”微软史密斯这样说。而智能建筑正是他的团队专注的事情。

随着全球范围内个人电脑、智能手机等设备的普及和新兴市场内不断增长的互联网访问量,以及监控摄像机或智能电表等设备产生的数据爆增,使数字宇宙的规模在2012到2013两年间翻了一番,达到惊人的2.8ZB。IDC预计,到2020年,数字宇宙规模将超出预期,达到40ZB。

40ZB究竟是个什么样的概念呢?地球上所有海滩上的沙粒加在一起估计有七万零五亿亿颗。40ZB相当于地球上所有海滩上的沙粒数量的57倍。也就是说到2020年,数字宇宙将每两年翻一番;到2020年,人均数据量将达5,247GB。

该报告同时显示,尽管个人和机器每天产生大量数据,使数字宇宙前所未有地不断膨胀,但仅有0.4%的全球数据得到了分析。由此可见,大数据的应用几乎是一块未被开垦的处女地。

第二章 云计算

云计算(cloud computing)是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。云是网络、互联网的一种比喻说法。过去在图中往往用云来表示电信网,后来也用来表示互联网和底层基础设施的抽象。因此,云计算甚至可以让你体验每秒10万亿次的运算能力,拥有这么强大的计算能力可以模拟核爆炸、预测气候变化和市场发展趋势。用户通过电脑、笔记本、手机等方式接入数据中心,按自己的需求进行运算。

对云计算的定义有多种说法。对于到底什么是云计算,至少可以找到100种解释。现阶段广为接受的是美国国家标准与技术研究院(NIST)定义:云计算是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问, 进入可配置的计算资源共享池(资源包括网络,服务器,存储,应用软件,服务),这些资源能够被快速提供,只需投入很少的管理工作,或与服务供应商进行很少的交互。

云计算(cloudcomputing)是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。

(原文:Cloud computing is a style of computing in which dynamically scalable and often virtualized resources are provided as a service over the Internet.)

美国国家标准与技术研究院(NIST)定义:云计算是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问, 进入可配置的计算资源共享池(资源包括网络,服务器,存储,应用软件,服务),这些资源能够被快速提供,只需投入很少的管理工作,或与服务供应商进行很少的交互。XenSystem,以及在国外已经非常成熟的Intel 和IBM,各种“云计算”的应用服务范围正日渐扩大,影响力也无可估量。

由于云计算应用的不断深入,以及对大数据处理需求的不断扩大,用户对性能强大、可用性高的4路、8路服务器需求出现明显提速,这一细分产品同比增速超过200%。

IBM在这一领域占有相当的优势,更值得关注的是,浪潮仅以天梭TS850一款产品在2011实现了超过15%的市场占有率,以不到1%的差距排名IBM,HP之后,成为中国高端服务器三强。

2012年浪潮斥资近十亿元研发的32路高端容错服务器天梭K1系统尚未面世,其巨大的市场潜力有待挖掘。

原文:Cloud computing is a model for enabling ubiquitous, convenient, on-demand network access to a shared pool of configurable computing resources (e.g., networks, servers, storage, applications, and services) that can be rapidly provisioned and released with minimal

management effort or service provider interaction.

云计算常与网格计算、效用计算、自主计算相混淆。

网格计算:分布式计算的一种,由一群松散耦合的计算机组成的一个超级虚拟计算机,常用来执行一些大型任务;

效用计算:IT资源的一种打包和计费方式,比如按照计算、存储分别计量费用,像传统的电力等公共设施一样;

自主计算:具有自我管理功能的计算机系统。

事实上,许多云计算部署依赖于计算机集群(但与网格的组成、体系结构、目的、工作方式大相径庭),也吸收了自主计算和效用计算的特点。

1983年,太阳电脑(Sun Microsystems)提出“网络是电脑”(“The Network is the Computer”),2006年3月,亚马逊(Amazon)推出弹性计算云(Elastic Compute Cloud;EC2)服务。

2006年8月9日,Google首席执行官埃里克·施密特(Eric Schmidt)在搜索引擎大会(SES San Jose 2006)首次提出“云计算”(Cloud Computing)的概念。Google“云端计算”源于Google工程师克里斯托弗·比希利亚所做的“Google 101”项目。

2007年10月,Google与IBM开始在美国大学校园,包括卡内基梅隆大学、麻省理工学院、斯坦福大学、加州大学柏克莱分校及马里兰大学等,推广云计算的计划,这项计划希望能降低分布式计算技术在学术研究方面的成本,并为这些大学提供相关的软硬件设备及技术支持(包括数百台个人电脑及BladeCenter与System x服务器,这些计算平台将提供1600个处理器,支持包括Linux、Xen、Hadoop等开放源代码平台)。而学生则可以通过网络开发各项以大规模计算为基础的研究计划。

2008年1月30日,Google宣布在台湾启动“云计算学术计划”,将与台湾台大、交大等学校合作,将这种先进的大规模、快速将云计算技术推广到校园。

2008年2月1日,IBM(NYSE: IBM)宣布将在中国无锡太湖新城科教产业园为中国的软件公司建立全球第一个云计算中心(Cloud Computing Center)。

2008年7月29日,雅虎、惠普和英特尔宣布一项涵盖美国、德国和新加坡的联合研究计划,推出云计算研究测试床,推进云计算。该计划要与合作伙伴创建6个数据中心作为研究试验平台,每个数据中心配置1400个至4000个处理器。这些合作伙伴包括新加坡资讯通信发展管理局、德国卡尔斯鲁厄大学Steinbuch计算中心、美国伊利诺伊大学香宾分校、英特尔研究院、惠普实验室和雅虎。

2008年8月3日,美国专利商标局网站信息显示,戴尔正在申请“云计算”(Cloud Computing)商标,此举旨在加强对这一未来可能重塑技术架构的术语的控制权。

2010年3月5日,Novell与云安全联盟(CSA)共同宣布一项供应商中立计划,名为“可信任云计算计划(Trusted Cloud Initiative)”。

2010年7月,美国国家航空航天局和包括Rackspace、AMD、Intel、戴尔等支持厂商共同宣布“OpenStack”开放源代码计划,微软在2010年10月表示支持OpenStack与Windows Server 2008 R2的集成;而Ubuntu已把OpenStack加至11.04版本中。

2011年2月,思科系统正式加入OpenStack,重点研制OpenStack的网络服务。

特点

云计算是通过使计算分布在大量的分布式计算机上,而非本地计算机或远程服务器中,企业数据中心的运行将与互联网更相似。这使得企业能够将资源切换到需要的应用上,根据需求访问计算机和存储系统。

好比是从古老的单台发电机模式转向了电厂集中供电的模式。它意味着计算能力也可以作为一种商品进行流通,就像煤气、水电一样,取用方便,费用低廉。最大的不同在于,它是通过互联网进行传输的。

被普遍接受的云计算特点如下: (1) 超大规模

“云”具有相当的规模,Google云计算已经拥有100多万台服务器, Amazon、IBM、微软、Yahoo等的“云”均拥有几十万台服务器。企业私有云一般拥有数百上千台服务器。“云”能赋予用户前所未有的计算能力。

(2) 虚拟化

云计算支持用户在任意位置、使用各种终端获取应用服务。所请求的资源来自“云”,而不是固定的有形的实体。应用在“云”中某处运行,但实际上用户无需了解、也不用担心应用运行的具体位置。只需要一台笔记本或者一个手机,就可以通过网络服务来实现我们需要的一切,甚至包括超级计算这样的任务。

(3) 高可靠性

“云”使用了数据多副本容错、计算节点同构可互换等措施来保障服务的高可靠性,使用云计算比使用本地计算机可靠。

(4) 通用性

云计算不针对特定的应用,在“云”的支撑下可以构造出千变万化的应用,同一个“云”可以同时支撑不同的应用运行。

(5) 高可扩展性

“云”的规模可以动态伸缩,满足应用和用户规模增长的需要。 (6) 按需服务

“云”是一个庞大的资源池,你按需购买;云可以像自来水,电,煤气那样计费。 (7) 极其廉价

由于“云”的特殊容错措施可以采用极其廉价的节点来构成云,“云”的自动化集中式管理

使大量企业无需负担日益高昂的数据中心管理成本,“云”的通用性使资源的利用率较之传统系统大幅提升,因此用户可以充分享受“云”的低成本优势,经常只要花费几百美元、几天时间就能完成以前需要数万美元、数月时间才能完成的任务。

云计算可以彻底改变人们未来的生活,但同时也要重视环境问题,这样才能真正为人类进步做贡献,而不是简单的技术提升。

(8) 潜在的危险性

云计算服务除了提供计算服务外,还必然提供了存储服务。但是云计算服务当前垄断在私人机构(企业)手中,而他们仅仅能够提供商业信用。对于政府机构、商业机构(特别像银行这样持有敏感数据的商业机构)对于选择云计算服务应保持足够的警惕。一旦商业用户大规模使用私人机构提供的云计算服务,无论其技术优势有多强,都不可避免地让这些私人机构以“数据(信息)”的重要性挟制整个社会。对于信息社会而言,“信息”是至关重要的。另一方面,云计算中的数据对于数据所有者以外的其他用户云计算用户是保密的,但是对于提供云计算的商业机构而言确实毫无秘密可言。所有这些潜在的危险,是商业机构和政府机构选择云计算服务、特别是国外机构提供的云计算服务时,不得不考虑的一个重要的前提。

[

应用

云物联

“物联网就是物物相连的互联网”。这有两层意思:第一,物联网的核心和基础仍然是互联网,是在互联网基础上的延伸和扩展的网络;第二,其用户端延伸和扩展到了任何物品与物品之间,进行信息交换和通信。

物联网的两种业务模式:

1.MAI(M2M Application Integration), 内部MaaS;

2.MaaS(M2M As A Service), MMO, Multi-Tenants(多租户模型)。

随着物联网业务量的增加,对数据存储和计算量的需求将带来对“云计算”能力的要求: 1.云计算:从计算中心到数据中心在物联网的初级阶段,PoP即可满足需求; 2. 在物联网高级阶段,可能出现MVNO/MMO营运商(国外已存在多年),需要虚拟化云计算技术,SOA等技术的结合实现互联网的泛在服务:TaaS (everyTHING As A Service)。

云安全

云安全(Cloud Security)是一个从“云计算”演变而来的新名词。云安全的策略构想是:使用者越多,每个使用者就越安全,因为如此庞大的用户群,足以覆盖互联网的每个角落,只要某个网站被挂马或某个新木马病毒出现,就会立刻被截获。

“云安全”通过网状的大量客户端对网络中软件行为的异常监测,获取互联网中木马、

恶意程序的最新信息,推送到Server端进行自动分析和处理,再把病毒和木马的解决方案分发到每一个客户端。

十种方法 1. 密码优先

如果我们讨论的是理想的情况的话,那么你的用户名和密码对于每一个服务或网站都应该是唯一的,而且要得到许可。理由很简单:如果用户名和密码都是同一组,那么当其中一个被盗了,其它的帐户也同样暴露了。

2.检查安全问题

在设置访问权限时,尽量避开那些瞥一眼就能看出答案的问题,例如,Facebook头像。最好的方法选择一个问题,而这个问题的答案却是通过另一个问题的答案。例如,如果你选择的问题是“小时候住在哪里”,答案最好是“黄色”之类的。

3.试用加密方法

无论这种方法是否可行,它都不失为一个好的想法。加密软件需要来自用户方面的努力,但它也有可能需要你去抢夺代码凭证,因此没有人能够轻易获得它。

4.管理密码

这里讲的是,你可能有大量的密码和用户名需要跟踪照管。所以为了管理这些密码,你需要有一个应用程序和软件在手边,它们将会帮助你做这些工作。其中一个不错的选择是LastPass。

5.双重认证

在允许用户访问网站之前可以会有两中使用模式。因此除了用户名和密码之外,唯一验证码也是必不可少的。这一验证码可能是以短信的形式发送到你的手机上,然后进行登录。通过这种方法,即使其它人得到了你的凭证,但他们得不到唯一验证码,这样的他们的登录就会遭到拒绝。

6.不要犹豫,立刻备份

当涉及到云中数据保护时,人们被告知在物理硬盘上进行数据备份时,这听起来可能有些奇怪,但这确实是需要你去做的事。这就是为什么需要一遍一遍反复思考;你应该直接在你的外部硬盘上备份数据,并随身携带。

7.完成即删除

为什么有都无限的数据存储选择时,我们还要找麻烦去做删除工作呢?原因在于,你永远不知道有多少数据会变成潜在的危险。如果来自于某家银行帐户的邮件或警告信息时间太长,已经失去了价值,那么就删除它。[4]

8. 注意登录的地点

有时我们从别人设备上登录的次数,要比从自己设备上多得多。当然,有进我们也会忘记他人的设备可能会保存下我们的信息,保存在浏览器中。

9.使用反病毒、反间谍软件

尽管是云数据,但使用这一方法的原因在于你第一次从系统中访问云。因此,如果你的系统存在风险,那么你的在线数据也将存在风险。一旦你忘记加密,那么键盘监听就会获得你的云厂商密码,最终你将失去所有。

10.时刻都要管住自己的嘴巴

永远都不要把你的云存储内容与别人共享。保持密码的秘密性是必须的。为了附加的保护功能,不要告诉别人你所有使用的厂商或服务是什么。[4]

云存储

云存储是在云计算(cloud computing)概念上延伸和发展出来的一个新的概念,是指通过集群应用、网格技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统。 当云计算系统运算和处理的核心是大量数据的存储和管理时,云计算系统中就需要配置大量的存储设备,那么云计算系统就转变成为一个云存储系统,所以云存储是一个以数据存储和管理为核心的云计算系统。

云游戏

云游戏是以云计算为基础的游戏方式,在云游戏的运行模式下,所有游戏都在服务器端运行,并将渲染完毕后的游戏画面压缩后通过网络传送给用户。在客户端,用户的游戏设备不需要任何高端处理器和显卡,只需要基本的视频解压能力就可以了。 就现今来说,云游戏还并没有成为家用机和掌机界的联网模式,因为至今X360仍然在使用LIVE,PS是PS NETWORK ,wii是wi-fi。但是几年后或十几年后,云计算取代这些东西成为其网络发展的终极方向的可能性非常大。 如果这种构想能够成为现实,那么主机厂商将变成网络运营商,他们不需要不断投入巨额的新主机研发费用,而只需要拿这笔钱中的很小一部分去升级自己的服务器就行了,但是达到的效果却是相差无几的。对于用户来说,他们可以省下购买主机的开支,但是得到的确是顶尖的游戏画面(当然对于视频输出方面的硬件必须过硬。)。你可以想象一台掌机和一台家用机拥有同样的画面,家用机和我们今天用的机顶盒一样简单,甚至家用机可以取代电视的机顶盒而成为次时代的电视收看方式。[8]

云计算

云计算与大数据[1]

从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式计算架构。它的特色在于对海量数据的挖掘,但它必须依托云计算的分布式处理、分布式数据库、云存储和虚拟化技术。[

服务形式

云计算可以认为包括以下几个层次的服务:基础设施即服务(IaaS),平台即服务(PaaS)和软件即服务(SaaS)。

IaaS:基础设施即服务

IaaS(Infrastructure-as-a- Service):基础设施即服务。消费者通过Internet可以从完善的计算机基础设施获得服务。例如:硬件服务器租用。

PaaS:平台即服务

PaaS(Platform-as-a- Service):平台即服务。PaaS实际上是指将软件研发的平台作为一种服务,以SaaS的模式提交给用户。因此,PaaS也是SaaS模式的一种应用。但是,PaaS的出现可以加快SaaS的发展,尤其是加快SaaS应用的开发速度。例如:软件的个性化定制开发。

SaaS:软件即服务

SaaS(Software-as-a- Service):软件即服务。它是一种通过Internet提供软件的模式,用户无需购买软件,而是向提供商租用基于Web的软件,来管理企业经营活动。例如:阳光云服务器。

相关问题

数据隐私问题:如何保证存放在云服务提供商的数据隐私不被非法利用,不仅需要技术的改进,也需要法律的进一步完善

数据安全性:有些数据是企业的商业机密,数据的安全性关系到企业的生存和发展。云计算数据的安全性问题解决不了会影响云计算在企业中的应用。

用户的使用习惯:如何改变用户的使用习惯,使用户适应网络化的软硬件应用是长期而且艰巨的挑战。

网络传输问题:云计算服务依赖网络,2013年网速低且不稳定,使云应用的性能不高。云计算的普及依赖网络技术的发展。

缺乏统一的技术标准:云计算的美好前景让传统IT厂商纷纷向云计算方向转型。但是由于缺乏统一的技术标准,尤其是接口标准,各厂商在开发各自产品和服务的过程中各自为政,这为将来不同服务之间的互连互通带来严峻挑战

想来生活,从来就不是阳春白雪的神话。光阴的陌上,总有风自八方来,或许是忧凄,也许是欢喜 ,无论怎样,都是岁月最真的馈赠。 待到老去的那一日,偶尔有回忆念及了过往,依旧还会有初初的心动,流转了眉眼。而那一路迤逦而来的美好,一步一步写就两个梅花小楷——日常。 暖阳小窗,无事此静坐。杯盏光阴,又在指间如风轻过,回首,依稀还是那年秋,低低一低眉,却已是春光葳蕤。 光阴荏苒,而流年从来也不曾缺少错乱和犹疑。是否在这样一个万物复苏的季节里,一切的纷扰是非,终究会给出一个水落石出的答案。 轻倚初春的门楣,且把盏清风,问心明月,让来者可来,去者可去,宿命里的拥有,一一欣喜悦纳。而我也只需以花香绕肩的美,步履从容的,走过生命里的山山水水。 若说,那一程走旧的时光,已然温暖了我的眉眼。那么,在明日那个花满枝桠的清晨,我依旧愿意轻踮了脚尖,重行在与你初见的陌上,只待,与你折柳重逢。 然后,在你温热的耳边,把一些前生来世的故事,反复的吟唱。只盼,你在莞尔低眉时,与我轻轻的相和。 所谓素年锦时,或许就是这样的一程光阴吧。私心里常想,最好的感觉,莫过于煨一味小众烟火,暖一世红尘时日,对坐心爱之人,行做欢喜之事。即使偶尔有湿润盈满了眸底,也请相信,我的泪里,没有忧伤。 懂我的你,是否也如我一样,遗忘了所有的言语。只是在掌心,一遍遍描摹一个人的名,那是切入骨髓的念,合着心脉的韵律,默默诉说一句话,让我们在这无边的春色里,相爱一场!

因篇幅问题不能全部显示,请点此查看更多更全内容

Top