发布时间:2023-09-18 16:38:22
序言:作为思想的载体和知识的探索者,写作是一种独特的艺术,我们为您准备了不同风格的5篇大数据云计算技术,期待它们能激发您的灵感。
1.1大数据的发展
通过对大数据的汇集、智能分析和挖掘技术,发现数据中的潜在价值信息,帮助人们做出正确决策,这就是大数据产业的利益。国外大数据的起步比较早,比较成功的大数据应用案例有:商业龙头沃尔玛公司通过对消费者的购物数据进行分析,了解顾客的行为喜好,对超市的商品结构进行搭配重置以增加销售额;亚马逊公司通过大数据构建自己的推荐系统,每年可以靠此多收益20%;奥巴马通过大数据分析系统进行数据挖掘,用科学的手段获取选票、募集资金,赢得了总统竞选的胜利。相比于国外,国内的大数据研究和应用还处于起步和发展中的阶段,比较成功的案例有:淘宝数据魔方平台,通过大数据,为买家量身打造完善的购物体验产品;新浪微博大数据产品,通过大量的社交数据,创造不同的社会经济价值等。
1.2云计算的发展
云计算可以像电力资源一样提供弹性的按需服务,事实上它是集合了一系列的服务提供给用户。云计算的核心可分为三个层次,分别为基础设施层、平台层、应用层,如图2所示。云计算将基础设施、软件运行环境、应用程序抽象成服务,具有可靠性高、可用性强、规模可伸缩等特点,满足了不同企业的发展需求,各个云服务提供商根据各自服务对象的差别分别开发了各具特色的云服务。(1)基础设施即服务层基础设施即服务(InfrastructureasaService,IaaS)层通过部署硬件基础设施对外提供服务,用户可以根据各自的需求购买虚拟或实体的计算、存储、网络等资源。用户可以在购买的空间内部署和运行软件,包括操作系统和应用程序。消费者不能管理或控制任何云计算基础设施,但能控制操作系统的选择、存储空间、部署的应用,也有可能获得有限制的网络组件(如防火墙、负载均衡器等)的控制。云服务提供商为了使硬件资源得到更有效的利用,引入了Xen、KVM、VMware等虚拟化技术,使得云服务商可以提供更个性化的IaaS服务。亚马逊弹性云计算(AmazonElasticComputeCloud,AmazonEC2)是亚马逊Web服务产品之一,AmazonEC2利用其全球性的数据中心网络,为客户提供虚拟主机服务,让使用者可以租用云服务运行所需应用的系统。(2)平台即服务层平台即服务(PlatformasaService,PaaS)层是指云计算应用程序开发和部署的平台,包括应用设计、应用开发、应用测试和应用托管,都作为一种服务提供给客户。开发者只需要上传代码和数据就可以使用云服务,而无需关注底层的具体实现方式和管理模式。鉴于PaaS平台的重要意义,国内外厂商根据各自的战略提出了相应的PaaS平台,国外的如GoogleAppEngine(GAE),通过GAE,即使在重载和数据量极大的情况下,也可以轻松构建能安全运行的应用程序。国内也有新浪的SAE(SinaAppEngine)、阿里的ACE(AliyunCloudEnginee)等。(3)软件即服务层软件即服务(SoftasaService,SaaS)层是为云计算终端用户提供基于互联网软件应用服务的平台。随着Web服务、HTML5、AJAX、Mashup等技术的成熟与标准化,SaaS应用近年来发展迅速,典型的SaaS应用包括GoogleApps、SalesforceCRM等。国外云计算平台比较成功的应用案例有:亚马逊电子商务网站根据用户的购买行为和搜索技术搭建Hadoop集群,构建推荐系统;Twitter社交网站搭建Hadoop分布式系统用于用户关联的建立。国内云计算平台的成功案例有:阿里巴巴目前整个集群达到1700个节点,数据容量达到24.3PB,并且以每天255TB的速率不断攀升;2013年,华为推出国内首个运营云平台,目前为止与该平台签订协议的ISV有3000多家。
1.3云计算相关技术
(1)分布式文件系统分布式文件系统(GoogleFileSystem,GFS)[3]是Google公司针对云计算过程处理海量数据而专门设计的。一个GFS集群由一个主节点和多个从节点组成,用户可以通过客户端访问文件系统,进行正常的文件处理工作。在云计算中,海量数据文件被分割成多个固定大小的数据块,这些数据块被自动分配到不同的从节点存储,并会在多个节点进行备份存储,以免数据丢失。主服务器管理文件系统记录文件的各种属性,包括文件名、访问控制权限、文件存储块映射、块物理信息等数据。正是通过这个表,文件系统可以准确地找到文件存储的位置,避免数据丢失,保证数据安全。图3是GFS的体系结构示意,每一个节点都是普通的Linux服务器,GFS的工作就是协调成百上千的服务器为各种应用提供服务。(2)分布式并行数据库BigTableBigTable[4]是一个为管理大规模结构化数据而设计的分布式存储系统,可以扩展到PB级数据和上千台服务器。很多Google的项目使用BigTable存储数据,这些应用对BigTable提出了不同的挑战,比如对数据规模的要求、对时延的要求。BigTable能满足这些多变的要求,为这些产品成功地提供了灵活、高性能的存储解决方案。BigTable采用的键是三维的,分别是行键(RowKey)、列键(ColumnKey)和时间戳(Timestamp)。行键和列键都是字节串,时间戳是64位整型;值是一个字节串,可以用(row:string,column:string,time:int64)string来表示一条键值对记录。(3)分布式计算框架MapReduceMapReduce[5]是Google公司提出的大数据技术计算框架,被广泛应用于数据挖掘、海量数据处理以及机器学习等领域,由于其并行化处理数据的强大能力,越来越多的厂商根据MapReduce思想开发了各自的云计算平台,其中以Apache公司的Hadoop最为典型。MapReduce由Map和Reduce两个阶段组成。用户只需要编写简单的map()和reduce()函数就可以完成复杂分布式程序设计,而不用了解计算框架的底层实现。MapReduce的数据分析流程如图4所示。分布在不同服务器节点上的海量数据首先通过split()函数被拆分成Key/Value键值对,map()函数以该键值对为输入,将该键值对进行函数处理,产生一系列的中间结果并存入磁盘。MapReduce的中间过程shuffle()将所有具有相同Key值的键值对传递给Reduce环节,Reduce会收集中间结果,并将相同的Value值合并,完成所有工作后将结果输出给用户。MapReduce是一个并行的计算框架,主要体现在不同的服务器节点同时启动相同的工作,并且在每个独立的服务器节点上又可以启动多个map()、reduce()并行计算。
2基于云计算的大数据处理
目前大数据处理的基本流程如图5所示,整个流程经过数据源的采集,用不同的方式进行处理和加工,形成标准的格式,存储下来;然后用合适的数据计算处理方式将数据推送到数据分析和挖掘平台,通过有效的数据分析和挖掘手段,找出大数据中有价值的信息;最后通过可视化技术将信息展现给人们。
2.1数据采集存储
大数据具有不同结构的数据(包括结构、半结构、非结构),针对不同类型的数据,在进行云计算的分布采集时,需要选择不同的数据采集方式收集数据,这也是大数据处理中最基础的一步。采集到的数据并不是都适合推送到后面的平台,需要对其进一步处理,例如来源不同的数据,需要对其进行加载合并;数据存在噪声或者干扰点的,需要对其进行“清洗”和“去噪”等操作,从而保障数据的有效性;数据的格式或者量纲不统一的,需要对其进行标准化等转换处理;最后处理生成的数据,通过特定的数据库,如NoSQL数据(Google的BigTable,Amazon的Dynamo)进行存储,方便进行下一步的数据读取。由于传统的数据仓库无法适应大数据的存储要求,目前基于云计算的数据仓库都是采用列式存储。列式存储的数据具有相同的数据类型,可以大大提高数据的压缩率,例如华为的云存储服务MOS(MassiveObjectService)的数据持久性高达99.9%,同时提供高效率的端到端保障。
2.2数据计算模式
这一环节需要根据处理的数据类型和既定目标,选择合适的计算模型处理数据。由于数据量的庞大,会消耗大量的计算资源,因此,传统的计算技术很难使用大数据的环境条件,取而代之的是分而治之的分布式计算模式,具有代表性的几种计算模式的特点见表1。采用批处理方式计算的Hadoop平台,例如,Facebook拥有全球最大规模的Hadoop集群,集群机器目前超过3000台,CPU核心更是超过30000个,可以存储的数据量能够达到惊人的40PB;采用流处理方式计算的Storm平台分布式计算的时延比Hadoop更小;实时处理方式计算的Spark是一种基于内存的计算模式,例如,Yahoo运用Spark技术在广告营销中实时寻找目标用户,目前在Yahoo部署的Spark集群有112台节点和9.2TB内存;交互处理方式计算的Dremel在处理PB级别的数据时耗时可以缩短至秒级,并且无需大量的并发。
2.3数据分析挖掘
数据分析挖掘环节是从海量数据中发现隐藏规律和有价值信息的过程,这个环节是大数据处理流程最为有价值和核心的部分,传统的数据分析方法有机器学习、商业智能等。传统的数据挖掘十大算法[6](其中有K-Means、Na觙veBayes、SVM、EM、Apriori等)在云计算环境下都得到了大幅度的并行优化,在大数据的背景下,计算速度得到了很大程度的提升。现在新兴的深度学习是原始机器学习的一个新领域,动机是在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,这种新的数据分析挖掘技术已经在计算机视觉、语音识别、自然语言处理等领域有了成功的应用。
2.4数据解释展现
将挖掘出来的复杂信息进行数据解释和展现是整个大数据处理流程的最后一个环节,数据分析的结果需要向客户进行恰当的展现。与传统的数据输出和文本展示等方式不同,现在绝大部分的企业都通过引进“数据可视化”技术来展示大数据分析的结果信息,这种方式以图像、动画等方式,形象地向客户展现数据处理分析的结果,也容易被客户理解和接受,更为先进的是,现在逐步形成的“交互式可视化技术”,大大地方便了数据与人之间的“亲密交流”。目前面向大数据主流应用的可视化技术见表2。
3大数据和云计算的未来挑战
大数据需要超大存储容量的计算能力,云计算作为一种新的计算模式,为大数据的应用研究提供了技术支持,大数据和云计算的完美结合,相得益彰,发挥了各自的最大优势,为社会创造了巨大的价值。虽然国内大数据和云计算的研究还是处于初步阶段,但随着研究的不断进行,所面临的问题也越来越多。在大数据向前不断迈进的阶段里,如何让我们对大数据的研究朝着有利于全人类的方向发展成为了重中之重。
3.1重要战略资源
在这个信息社会里,大数据将会成为众多企业甚至是国家层面的重要战略资源。国家层面要将大数据上升为国家战略。奥巴马在2012年3月将“大数据战略”上升为最高国策,像陆权、海权、空权一样,将数据的占有和控制作为重要的国家核心能力。大数据资源也会成为各种机构和企业的重要资产以及提升企业社会竞争力的有力武器。在大数据市场里,客户的各种数据信息都会为企业创造价值,也会在促进消费水平、提高广告效应等方面扮演重要的角色。
3.2数据隐私安全
大数据如果运用得当,可以有效地帮助相关领域做出帮助和决策,但若这些数据被泄露和窃取,随之而来的将是个人信息及财产的安全问题得不到保障。2011年索尼公司遭到黑客攻击,造成一亿份客户资料泄露,经济亏损约1.71亿美元。为了解决大数据的数据隐私安全问题,Roy等在2010年提出了一种隐私保护系统,将信息流控制和差分隐私保护技术融入到云计算平台中,防止MapReduce计算过程中的数据泄露问题。在数据更新飞速的情况下,如何维护数据的隐私安全成为大数据时代研究的重点方向。
3.3智慧城市
人口的增长给城市交通、医疗、建筑等各方面带来了不小的压力,智慧城市就是依靠大数据和云计算技术,实现城市高效的管理、便捷的民生服务、可持续的产业发展。在刚刚结束的“两会”的政府工作报告中,总理也特意强调了智慧城市发展的重要性,目前国家智慧城市试点已遍布全国各地,多达409个。智慧安防、智慧交通、智慧医疗等都是智慧城市应用领域。智慧城市的建设也趋使大数据人才的培养。据预测,到2015年,大数据将会出现约100万的人才缺口,全球将新增440万个与大数据相关的工作岗位来填补这个空缺。
3.4能源消耗
【关键词】云计算;云储存;数据完整性;数据隐私
1.前言
云计算和云储存的不断成熟、发展为大数据储存及处理提供了技术支持,可以使更多用户在不同终端上实现对各类数据的操作,但是数据安全问题一直是大数据云储存中的一个突出问题,很多用户在使用云储存过程中都出现窃取、丢失等现象,这类数据安全问题出现后会给企业和用户带来不同程度的经济损失。日益凸显的云计算安全问题不仅已成为云服务用户共同关注的问题,同时也在很大程度上对大数据储存带来了威胁,本文针对云计算和大数据的特点对数据储存的完整性、隐私性进行分析,通过研究和总结国内外最新研究成果来保证大数据储存安全。
2.大数据储存的云端安全接入技术
传统的计算机数据关系中数据拥有者担任着数据提供者的角色,用户只需要提交有效的账户名和密码便可以对数据进行访问,并可以根据用户自身权限进行相关操作,但是在云计算中数据拥有者和云服务提供者是两个不同的角色,云服务提供者一般都是以商业机构为主,而这些商业机构在实际上是处于用户信任区域以外,因此,传统认证方式已无法满足用户对云存储安全接入的实际需求,云储存在实际使用中的接入需要采用额外的检验机制,这样才能确保云端安全接入技术可以满足大数据储存的安全要求。图1是一种可靠性较高的云端安全接入模型,用户需要使用数据时需要向数据拥有者提交一个使用请求,在数据拥有者实时颁发的密钥、证书后便可以接入到云端,该种云端安全接入模型在实际应用中相对较为安全、可靠,但是只有数据拥有者处于在线的状态才能为用户提供数据服务,一旦网络用户在实际使用中的网络通信受到任何因素限制,则该安全接入模型无法满足用户对大数据储存安全的要求。
图1 一种可靠性较高的云端安全接入模型
研究表明,云储存接入的安全性主要受到数据拥有者,根据用户的实时需求进行验证、反馈等方式有着直接影响,数据拥有者如果保持在线状态就可以确保云计算的安全接入,但是由于受到用户对数据需求量不断增加的影响,大量分配、更新密钥等操作会给数据拥有者户端带来很大负担,一旦数据拥有者主机通信受到限制,则其便无法满足用户对共享数据的访问、使用要求。基于第三方云服务器的接入技术可以有效降低主机负担,并且通过运用重加密技术可以避免数据泄漏,但是该种接入技术在实际应用中的灵活性、实时性还有待提高,短期内无法满足大量新用户的接入及使用要求,这也为大数据储存的云端接入技术指明了一条方向。数据拥有者在选择云端接入技术与控制方法过程中,应根据数据私密等级、用户管理模式进行选择,确保每一个用户都可以安全接入到云端的同时,可以实现优化网络效率这一目的。
3.大数据储存的数据加密技术
数据在上传到云端后可能由于受到服务器故障的影响,导致发生数据泄漏的可能性,云平台在被非法接入后可能出现数据被窃取、篡改以及伪造等事件,所以储存在云端的数据需要通过加密技术对其进行加密处理,经过数据拥有者拆分、加密后才能上传到云计算平台,用户根据自身需求将数据下载后需要对其进行解密处理,即使数据在使用、储存、传输过程中出现丢失、被窃等事件,也因数据经过事先加密而不会发生私密信息泄露的事件。现阶段云计算中所使用的主流数据加密技术以属性加密和加密为主,基于密钥(KP-ABE)和基于密文的属性加密(CP-ABE),这两种数据加密策略在实际应用中具有各不相同的特点,图2是一种基于重加密技术(PRE)的云计算数据加密模型,该种云计算数据加密模型通过部署人来提高数据安全性,由于云平台在实际运用中扮演的角色为半可信人,将PRE架构移植到云计算中可以塑造出一套安全性较高的加密方案。B用户如果需要共享A用户经过加密处理后上传到云端的数据,A根据用户信息和B的公钥来产生一个具有“过渡”作用的密钥,而该密钥在实际使用中只具有密文与密文间相互进行转换的功能,可以将A用户提供的密文转换为针对B用户的密文,B用户下载该密文后便可以对A用户共享的数据进行相应操作。
图2 基于PRE的云计算数据加密模型
数据安全是实现大数据云储存安全的核心内容,因此,大数据储存过程中必须选择有效的加密技术,这对提高大数据储存安全体系的整体性能有着重要作用,通过采用科学、合理的加密方法不仅可以确保大数据储存过程中的机密性,对帮助云计算及用户实现网络资源分配最优化也有着重要意义。
4.大数据完整性校验技术
数据完整性是指数据在储存、传输以及使用等诸多环节,数据不会发生被篡改事件,确保数据信息内部和外部在各环节中的一致性,而大数据存储在云端容易被非法篡改,这便会导致大数据存储过程中的完整性被严重破坏,因此,对存储在云端的大数据完整性进行校验有着重要意义。图3提出了一种基于“可取回性证明”(POR)的大数据完整性校验模型,该方案在实际设计中采用了挑战―应答模式,验证者在对大数据进行纠错编码的同时要在文件随机位置插入“哨兵”,这些哨兵主要是由带密钥的哈希函数根据验证的实际需求生成的,每次挑战时证明者为了反馈验证者的要求,会自动返回一定数目的哨兵,通过哨兵返回数目的完整性对文件进行检测。该大数据完整性校验模型在实际应用中不需要对所有数据进行复制,而且存放哨兵的额外存储量也相对较少,主机不需要对挑战―应答模式提供过大的计算量,所以其整体性能完全可以满足大数据存储安全要求。以可信第三方代替用户进行大数据可取回性检查,并根据用户数据的损害情况来执行数据恢复,这种基于轻量级数据可取回性证明算法“L-POR”可以通过冗余数据来加入到用户认证信息中,避免了其他同类算法在大数据完整性校验中产生的大量存储开销。
图3 一种基于POR的大数据完整性校验模型
5.结语
云计算和大数据储存中其安全性不仅会对云计算技术的发展有着直接影响,更关系到每一个云计算用户在使用中的隐私和利益,所以要通过加强接入控制技术、数据加密技术以及大数据完整性校验检测技术等方面,来确保大数据存储的安全工作可以满足各类用户的实际需求。
参考文献
云计算技术具有高效、可靠、高可扩展性和易用性的特征,被很多领域广泛的使用。本文讨论的内容是如何将云计算技术应用到就业大数据信息服务平台中,从而高效率、高质量的做好就业服务工作。
Hadoop是由 Apache 开源组织提供的分布式系统基础框架,能够有效的解决海量数据分布存储和分布计算,是云计算技术应用层面很好的解决方案。
一、高校就业大数据信息系统现状
目前,各高校均建设了高校内部的毕业生就业大数据信息平台,一定程度上满足了毕业生就业服务的需要。但是这些系统存在以下几方面问题:第一,系统侧重毕业生和就业信息管理,或者只是学生管理信息系统的一部分,缺乏服务机制,无法实现学生、教师和用人单位的联动。第二,系统资源利用率低,系统运行效率低、安全可靠性和可扩展性差,给学生数据安全带来很大的隐患。第三,系统数据利用率低,多数集中在简单的查询,很难获得有益的知识,提供决策服务。第四,系统缺乏个性化定制,很难适应当前就业工作不断调整的需要。
随着高校、毕业生和企业对就业服务的要求提高,现有的就业信息平台已经不能适应就业工作多元化的增长和发展的需要,影响高校毕业生的就业效果,新型的就业大数据信息平台的建设已成为破解就业工作难题的必要条件之一。
二、构建基于云计算的高校就业大数据信息服务平台
云计算因其强大的计算和数据储存的能力、可靠、安全的共享数据存储中心、客户端的设备配置没有限制等特点已广泛应用各行各业,并日益发展成熟。通过云计算技术建设毕业生就业信息平台,整合和共享就业信息资源,为毕业生就业提供方便、快捷、高效的信息服务平台,破解现有就业信息平台存在的问题。
从研究现状来看,云计算具有以下一特点:
一是强大的计算和数据储存的能力。“云”能赋予用户完成各类应用前所未有的计算能力,为用户储存和管理数据提供几乎无限多的空间。服务器的日常维护也有云服务提供商来进行。
二是最可靠、最安全的共享数据存储中心。通过云存储,数据复制到多台物理机器,避免因硬件崩溃或误操作删除的造成的数据的丢失或损坏。
三是客户端的设备配置没有限制。用户在随时随地方便、快捷、安全的使用位于不同计算机、不同的操作系统的应用服务,从“云”中获取个人的需求。
2.1 构建高校就业云服务平台
根据提供服务资源的类型,云服务被分为三个类别:SaaS(软件即服务)、PaaS(平台即服务)、IaaS(基础设施即服务)。
高校就业大数据信息云服务平台采用 SaaS 模式,通过浏览器和移动终端将软件作为云服务提供给所需用户。用户无需购买软件和维护软件,用户根据业务需求购买相应的云服务,云服务提供商管理相关软件并实施软件的维护。这种方式大大降低用户在软件购买和维护上人力和物力的开支。高校就业信息云服务平台自底向上分别是“云数据层”、“数据服务层”、“业务服务层”、“云服务层”和“应用层”,每层之间采用松耦合,提供相互访问的接口,用户不必关注层内部逻辑。
(1) 数据存储层
高校信息服务平台的数据主要包含学生数据、用人单位数据和高校相关数据,数据是作为平台的基础。为了提供便捷、高效、可靠的数据访问,数据存储层采用云存储技术实现。
(2) 数据服务层
数据服务层建立专门进行云数据层访问的接口程序,用户通过 webservice 或者 API 进行加密数据的访问,数据的具体存储对用户是透明的,这也有效的提高数据安全性,并且为数据的扩展提供基础。
(3) 业务管理层
业务服务层包括高校信息服务平台所有业务,具体包括应聘招聘、就业指导、毕业生困难帮扶、创业等服务内容,这些业务服务于政府、用人单位、高校、学生和社会等不用的用户。由于就业工作随着时间的推移会受到就业形势、政策等很多因素影响,从而导致就业工作业务和用户发生不断变化,所以就业信息服务平台业务服务层要具备高扩展性。基于以上的要求,我们构建了业务服务控制台,业务服务被设计为可插拔式,每项业务可以被挂载在控制台,或者从控制台被卸载,也可以设定业务接口、执行业务升级操作等服务。
(4) 云服务层
云服务层将业务服务层的内容以应用接口的方式提供给应用层,提供的方式是为业务服务层建立 API 接口和webservice 接口。应用层可以通过编程的方式调用业务接口,实现业务访问。
设定中文信息处理和语音识别接口,用户可以通过输入中文关键字或者语音调用业务,在应用层和业务层之间建立更加友好的数据传送,也为移动终端用户提供更加便捷的操作方式。
(5) 应用层
应用层直接面向实际用户,实现就业信息云服务平台不同类型的用户图形界面,从而能够适应不同用户的不同需求。用户既可以通过个人电脑上的浏览器访问获得云服务、也可以使用智能移动终端的应用程序或者微问云服务。
2.2 建立基于 Hadoop 的云数据存储
高校就业大数据信息服务平台需要大量的数据进行支持,而且数据逐年增加。利用云存储技术主要解决快速、高效的处理海量数据,从而达到易扩展、低成本、易管理、高效和安全的设计原则。 Hadoop 软件框架的HDFS(分布式文件系统)提供了具备高扩展性、高容错性、高可靠性、高效等特点,并且可以部署在低廉的硬件上,从而降低成本。基于以上内容,高校就业服务平台的数据存储通过 HDFS 分布式存储技术实现云存储,Hadoop 的具体部署
2.3 建立基于 Hadoop 的数据服务
数据服务是就业大数据信息云服务平台重要的业务,用户需要了解学生年龄、学历等数据分布,需要了解就业数据分布,需要了解用人单位人才需求分布,需要了解就业数据内部和外部存在的各种联系。数据服务从海量数据的计算中获得,利用云计算技术能够高效、低成本的解决计算问题,Hadoop 为云计算提供了有效的解决方案,它提供了MapReduce 模型,这个模型解决了传统并行计算在易编程性上的瓶颈,程序员可以更容易的开发分布式并行计算程序。MapReduce 同 HDFS 一样采用一个主控节点和多个计算节点的架构。
将大规模数据集分成多个小数据集,然后这些数据集分o多个 map 节点进行并行处理产生中间结果,最后在 reduce阶段对这些结果汇总,得到最终结果。
关键词:大数据;移动云计算;云计算;信息
中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2016)34-0003-02
随着互联网的快速发展,人们逐步感受到了“信息大爆炸”,特别是各种移动通讯和物联网的发展,数以亿计的网络用户随时产生数据。目前全球的数据总量达到了ZB规模,大数据成为人们关注的热点话题,生活中的很多方面都可以和大数据技术进行结合,通过大数据技术来为我们服务。
大数据技术虽然给我们的生活带来了巨大的改变,但是大数据技术要求计算机具有相应的大数据处理能力,为此,云计算的概念产生了。云计算是分布式计算、网络存储、负载均衡等相关技术发展融合的产物。云计算通过网络将庞大的计算机处理任务进行分解,把分解后的较小的计算任务交给众多的网络数据计算服务器,经过网络服务器的分析处理之后把结果重新传回给用户。移动云计算是指通过移动互联网以按需、易扩展的方式获得所需的基础设施、平台、软件或应用等的一种IT资源或信息服务的交付与使用模式。[1]
1 大数据技术
现今的世界是一个数据的世界,我们身边到处都充满着数据,比如打电话的语音数据、发短信的文字数据、微信的聊天数据、报纸、杂志、网络购物等等。这么多的数据实时地影响了我们的工作、生活、学习,甚至社会的发展。根据维基百科的定义,大数据(Big Data)是用于数据集的一个术语,是指大小超出了常用的软件工具在运行时间内可以承受的收集、管理和处理数据能力的数据集。[2]美国IBM公司定义了大数据的3V特点,即规模性(Volume)、多样性(Variety)、高速性(Velocity)。规模性表示大数据涉及的数据量巨大,一方面人们的生活中产生了很多的具体数据,另一方面是互联网通信中移动通信的虚拟数据,这些数据的数据量是非常巨大的。多样性表示大数据中数据类型的复杂多样,其中包括最常见的文本数据、图像数据、语音数据和视频数据,除此之外还有很多其他的结构化、半结构化和非结构化的数据。高速性表示大数据技术必须具有实时性,比如实时路况导航、全球股价波动、一些通信业务的处理等等。
大数据技术的发展越来越成熟,大数据的价值也越来越受到人们的关注,对于数据处理的实时性和有效性要求越来越高。大数据在公共服务、商业智能、科学研究等领域发挥着巨大的作用,影响力越来越大,大数据技术的使用一定会给我们带来巨大的价值。社会中的各行各业可以通过大数据技术来完成各项工作,比如大数据在汽车制造业中的应用,福特汽车的产品开发团队曾经就对汽车行李箱的打开形式进行研究。车后行李箱的打开有两种形式手动式和电动式,如果采用电动式,能自动打开、便捷智能,但是这种方式会影响到车门开启有限的困扰。此前采用定期调查的形式并没有发现这个问题,但后来对社交媒体的关注和分析,发现很多用户在谈论这个问题,这对福特汽车以后的产品设计是非常有帮助的。
数据分析是大数据技术的核心,通过对相关数据的分析产生有价值的信息是大数据技术的关键。通过对数据的分析,可以产生有价值的规律和结果并辅助人们进行更为合理的决策。在大数据分析方面除了传统的技术外,人工智能技术邻域的很多方法被用得越来越多,包括统计分析、机器学习、数据挖掘等。数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的,但又是潜在有用信息和知识的过程。统计分析就是基于数学邻域的统计学原理,对数据进行收集、组织和解释的科学。机器学习作为人工智能邻域的重要内容,分为监督学习和无监督学习两大类。[3]常见的方法包括聚类算法、预测算法、回归算法、朴素贝叶斯算法、支持向量机算法等。这些算法往往需要较大的计算资源和较强的计算能力,云计算正好满足了大数据技术在这个方面的需求。
2 移动云计算技术
云计算已经发展成为IT行业的一个热门技术,目前的主要云计算设备和服务都是针对PC机而言的,但是随着无线路由的快速普及以及无线终端设备的大量出现,将云计算运用于移动环境是必然的发展趋势。根据相关的数据统计,全国的移动电话用户累计达到10亿以上,现有的终端计算能力、存储容量都是非常有限的,已经难以满足很多用户的需求,而云计算恰好能给用户提供服务。云计算是一种新型的应用模式,通过网络按需实现软件处理能力、存储资源等。[4]移动云计算正是基于云计算的概念出现的,它结合了移动网络和云计算的概念。移动云计算通过移动的终端用户进行网络互连,并以按需、易扩展的方式获得所需的基础设施、平台等相关的网络资源和信息。
云计算的一个主要优点就是在“云端”提供了大容量的存储空间和高速的计算能力。即使客户端的移动设备本身性能不够,但是只要能进行数据的输入、输出,就可以和云端进行交互,让云端提供计算和处理服务得到客户想要的结果。移动云计算的特点是终端硬件及系统无关性,这是因为终端不进行真正的大量计算和数据的存储,而是通过移动网络把数据和计算任务上传到云端让云端来进行计算和处理。移动云计算还消除了计算的地域性限制,普通的云计算由于终端设备的地理位置固定,给很多的实际应用带来不便,但是移动云计算可以通过移动网络进行数据传输和计算。如果移动网络有足够的带宽,那么移动云计算就能实现实时的数据计算,让客户在终端或者手机上看到最及时的处理结果。
移动云计算中比较成熟的应用有移动云存储。目前,很多公司推出了自己的移动云存储服务,在移动云上可以存放照片、文档、邮件、视频等相关内容。传统的存储方法是客户在存储资料时,都是通过U盘或是硬盘等存储设备。这种存储方式有明显的缺c,当U盘或是硬盘丢失、损坏或是忘记随身携带等,都可能造成想要取出存储资料却取不出来的状况。移动云存储是把资料上传到网络上的移动云存储服务器,只要能上网可以随时随地取出存储资料,不用担心资料的丢失或损坏。基于移动云计算的移动商务是商业发展的新模式。随着移动终端设备的大量使用,很多商务都是在网络上进行操作的,例如购物网站、微信支付等。除此之外移动云计算在医疗、邮件推送、远程教育等方面都有着非常成功的应用。
3 大数据与移动云计算
本地单机的数据处理模式成本越来越高,而且扩展性比较差,并且随着要处理的数据量不断增加特别是对于大数据的应用,相应的处理性能会遇到瓶颈,在这种情况下,出现了云计算技术。云计算具备了较好的弹性,在动态调配资源、支持多用户按需工作等特点正好符合了大数据的应用需求。云计算以其高可靠性、强大的计算能力和海量的存储空间成为解决大数据问题的重要技术,但是云计算不能在动态系统中进行应用,这使得移动云计算成为云计算新的发展方向,特别是移动终端可以方便地通过无线网络上网来使用移动云计算提供的各种服务。
大数据的落脚点在于“数据”,提供了对数据操作的各种方法,包括对数据的采集、分析、挖掘、存储等。移动云计算更多体现在“计算”,看重的是通过互联网产生的计算能力,移动云计算中很多的相关技术正是大数据技术的基础。大数据技术首先要有大量的存储数据,存储数据的传统方法是数据库技术,但是现在的数据量越来越大,已经超过了传统数据库的存储模式,而移动云计算正好给这些数据的存储提供了空间。其次是对大量数据的初步操作包括数据的提取、标注、表达等,移动云计算通过互联网可以把这些任务进行分解,分成许多较小的数据处理任务并分配给网络中的很多移动终端用户,让他们在空闲的时候处理这些任务。最后是对移动云上存储的大量数据进行分析,分析的手段包括数据过滤、数据分类、数据聚类等,移动云计算同样可以像上边那样把任务进行分解并在网络中寻找空闲的处理设备辅助完成这些任务。
基于移釉萍扑慵际豕钩傻拇笫据系统,能够提供大数据处理所需要的相关技术。大数据与移动云计算的结合,将是相得益彰,相互都可以更好地发挥作用。移动云计算为大数据提供强大的存储和计算能力,更加迅速便捷完成大数据的处理任务,而大数据的相关业务能为移动云计算找到更多更好的实际应用。
大数据和移动云计算在气象领域的应用,以前的气象服务信息大多只是将气象的监测数据提供给用户,由用户自己去综合使用,这显然仅仅是气象预报产业中的初级阶段。现在,人们通过移动网络可以及时获得气温、紫外线指数、感冒指数、晨练指数、洗车指数等更精细化的气象信息,并利用大数据分析软件可以获得更多的用户想知道的数据信息,体现出单一数据无法表达的价值和效益。
社交网络是现在人们沟通的主要形式之一,用户通过移动终端使用社交网络,伴随着用户的社交过程会产生大量的数据,通过大数据的分析技术可以发现一个人和另一个人是怎么样联系上的,另外也可以通过两个人的社交关系,找到让他们进行联系的渠道。不管我们在使用微信朋友圈还是微博账户,软件系统经常会提示我们哪个人可能是我们的朋友或者是同学,给你一个加入好友的提示,这就是大数据与移动云计算相结合应用的一个实例。
地图导航古已有之,而发展到今天的电子地图导航更成为人们出行旅游的指南针。用户使用移动终端比如手机、平板电脑通过移动互联网把自己的实时地理位置信息传送到网络上,由此可以进行打车、聚会、餐饮、购物、汽车导航等应用。大数据技术通过分析可以知道在哪些地方,什么样的服务是在这个地理位置上的人最需要的,移动云计算把这样的消息出去后,可以给我们提供最便利的服务。比如在商场附近可能有更多的人需要打车,在人烟稀少的地方可能有更多的人需要方向导航等。
医疗行业具有数据量大、复杂性高等特点,医疗行业被认为是最能让大数据分析技术发扬光大的一个传统领域。移动云计算利用移动终端可以随时采集病人的相关数据信息,比如脉搏、血压、照片等,这些数据随着时间的推移将构成海量的数据。此外,医生对于病人的诊断结果也会保存在移动云存储中,当同样类型的病症再次出现的时候,移动终端可以根据大数据的分析技术给病人提出最合理的治疗建议。这样既节省了医生的人力资源,又节省了病人排队等待的时间,更能在第一时间解决病人的病情。麦肯锡的报告中指出,大数据技术可以帮助美国的医疗行业一年创造3千亿美元的附加价值。
大数据利用了移动云计算的方便性,可以随时随地对数据进行处理并提供了及时的服务,移动云计算通过大数据找到了更好的应用方向。没有大数据对于大量信息的积累,移动云计算的计算能力再强也找不到用武之地,同样如果没有移动云计算的强大计算能力,那么大数据积累的大量信息也毫无价值。
4 总结
如果说大数据是巨大的宝藏,那么移动云计算是开发这个宝藏的最有利的工具。没有移动云计算的强大计算能力,那么大数据中的相关数据就是一堆毫无用处的冗余数据。另一方面移动云计算也正是由于大数据的信息量大,本地单机处理能力有限才发展起来的,没有大数据的信息累积,那么移动云计算也得不到完全的发挥,所以大数据与移动云计算是相辅相成的关系。
参考文献:
[1] 赵华, 王海阔. 移动云计算综述[J]. 电脑知识与技术, 2012(1).
[2] 何清. 大数据与云计算[J]. 中国安防, 2014(1).
[3] 张峰军. 大数据技术研究综述[J]. 通信技术, 2014(11).
大数据(bigdata)是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
云计算(cloudcomputing)是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问,进入可配置的计算资源共享池(资源包括网络,服务器,存储,应用软件,服务),这些资源能够被快速提供,只需投入很少的管理工作,或与服务供应商进行很少的交互。云是网络、互联网的一种比喻说法。
二者:大数据需要云计算,云计算需要大数据
云计算为大数据处理提供了一个很好的平台。云计算强调的是计算,而大数据则是计算的对象。如果结合实际的应用,前者强调的是计算能力,后者看重的存储能力。
(来源:文章屋网 )