发布时间:2023-09-18 16:38:22
序言:作为思想的载体和知识的探索者,写作是一种独特的艺术,我们为您准备了不同风格的14篇大数据云计算技术,期待它们能激发您的灵感。
1.1大数据的发展
通过对大数据的汇集、智能分析和挖掘技术,发现数据中的潜在价值信息,帮助人们做出正确决策,这就是大数据产业的利益。国外大数据的起步比较早,比较成功的大数据应用案例有:商业龙头沃尔玛公司通过对消费者的购物数据进行分析,了解顾客的行为喜好,对超市的商品结构进行搭配重置以增加销售额;亚马逊公司通过大数据构建自己的推荐系统,每年可以靠此多收益20%;奥巴马通过大数据分析系统进行数据挖掘,用科学的手段获取选票、募集资金,赢得了总统竞选的胜利。相比于国外,国内的大数据研究和应用还处于起步和发展中的阶段,比较成功的案例有:淘宝数据魔方平台,通过大数据,为买家量身打造完善的购物体验产品;新浪微博大数据产品,通过大量的社交数据,创造不同的社会经济价值等。
1.2云计算的发展
云计算可以像电力资源一样提供弹性的按需服务,事实上它是集合了一系列的服务提供给用户。云计算的核心可分为三个层次,分别为基础设施层、平台层、应用层,如图2所示。云计算将基础设施、软件运行环境、应用程序抽象成服务,具有可靠性高、可用性强、规模可伸缩等特点,满足了不同企业的发展需求,各个云服务提供商根据各自服务对象的差别分别开发了各具特色的云服务。(1)基础设施即服务层基础设施即服务(InfrastructureasaService,IaaS)层通过部署硬件基础设施对外提供服务,用户可以根据各自的需求购买虚拟或实体的计算、存储、网络等资源。用户可以在购买的空间内部署和运行软件,包括操作系统和应用程序。消费者不能管理或控制任何云计算基础设施,但能控制操作系统的选择、存储空间、部署的应用,也有可能获得有限制的网络组件(如防火墙、负载均衡器等)的控制。云服务提供商为了使硬件资源得到更有效的利用,引入了Xen、KVM、VMware等虚拟化技术,使得云服务商可以提供更个性化的IaaS服务。亚马逊弹性云计算(AmazonElasticComputeCloud,AmazonEC2)是亚马逊Web服务产品之一,AmazonEC2利用其全球性的数据中心网络,为客户提供虚拟主机服务,让使用者可以租用云服务运行所需应用的系统。(2)平台即服务层平台即服务(PlatformasaService,PaaS)层是指云计算应用程序开发和部署的平台,包括应用设计、应用开发、应用测试和应用托管,都作为一种服务提供给客户。开发者只需要上传代码和数据就可以使用云服务,而无需关注底层的具体实现方式和管理模式。鉴于PaaS平台的重要意义,国内外厂商根据各自的战略提出了相应的PaaS平台,国外的如GoogleAppEngine(GAE),通过GAE,即使在重载和数据量极大的情况下,也可以轻松构建能安全运行的应用程序。国内也有新浪的SAE(SinaAppEngine)、阿里的ACE(AliyunCloudEnginee)等。(3)软件即服务层软件即服务(SoftasaService,SaaS)层是为云计算终端用户提供基于互联网软件应用服务的平台。随着Web服务、HTML5、AJAX、Mashup等技术的成熟与标准化,SaaS应用近年来发展迅速,典型的SaaS应用包括GoogleApps、SalesforceCRM等。国外云计算平台比较成功的应用案例有:亚马逊电子商务网站根据用户的购买行为和搜索技术搭建Hadoop集群,构建推荐系统;Twitter社交网站搭建Hadoop分布式系统用于用户关联的建立。国内云计算平台的成功案例有:阿里巴巴目前整个集群达到1700个节点,数据容量达到24.3PB,并且以每天255TB的速率不断攀升;2013年,华为推出国内首个运营云平台,目前为止与该平台签订协议的ISV有3000多家。
1.3云计算相关技术
(1)分布式文件系统分布式文件系统(GoogleFileSystem,GFS)[3]是Google公司针对云计算过程处理海量数据而专门设计的。一个GFS集群由一个主节点和多个从节点组成,用户可以通过客户端访问文件系统,进行正常的文件处理工作。在云计算中,海量数据文件被分割成多个固定大小的数据块,这些数据块被自动分配到不同的从节点存储,并会在多个节点进行备份存储,以免数据丢失。主服务器管理文件系统记录文件的各种属性,包括文件名、访问控制权限、文件存储块映射、块物理信息等数据。正是通过这个表,文件系统可以准确地找到文件存储的位置,避免数据丢失,保证数据安全。图3是GFS的体系结构示意,每一个节点都是普通的Linux服务器,GFS的工作就是协调成百上千的服务器为各种应用提供服务。(2)分布式并行数据库BigTableBigTable[4]是一个为管理大规模结构化数据而设计的分布式存储系统,可以扩展到PB级数据和上千台服务器。很多Google的项目使用BigTable存储数据,这些应用对BigTable提出了不同的挑战,比如对数据规模的要求、对时延的要求。BigTable能满足这些多变的要求,为这些产品成功地提供了灵活、高性能的存储解决方案。BigTable采用的键是三维的,分别是行键(RowKey)、列键(ColumnKey)和时间戳(Timestamp)。行键和列键都是字节串,时间戳是64位整型;值是一个字节串,可以用(row:string,column:string,time:int64)string来表示一条键值对记录。(3)分布式计算框架MapReduceMapReduce[5]是Google公司提出的大数据技术计算框架,被广泛应用于数据挖掘、海量数据处理以及机器学习等领域,由于其并行化处理数据的强大能力,越来越多的厂商根据MapReduce思想开发了各自的云计算平台,其中以Apache公司的Hadoop最为典型。MapReduce由Map和Reduce两个阶段组成。用户只需要编写简单的map()和reduce()函数就可以完成复杂分布式程序设计,而不用了解计算框架的底层实现。MapReduce的数据分析流程如图4所示。分布在不同服务器节点上的海量数据首先通过split()函数被拆分成Key/Value键值对,map()函数以该键值对为输入,将该键值对进行函数处理,产生一系列的中间结果并存入磁盘。MapReduce的中间过程shuffle()将所有具有相同Key值的键值对传递给Reduce环节,Reduce会收集中间结果,并将相同的Value值合并,完成所有工作后将结果输出给用户。MapReduce是一个并行的计算框架,主要体现在不同的服务器节点同时启动相同的工作,并且在每个独立的服务器节点上又可以启动多个map()、reduce()并行计算。
2基于云计算的大数据处理
目前大数据处理的基本流程如图5所示,整个流程经过数据源的采集,用不同的方式进行处理和加工,形成标准的格式,存储下来;然后用合适的数据计算处理方式将数据推送到数据分析和挖掘平台,通过有效的数据分析和挖掘手段,找出大数据中有价值的信息;最后通过可视化技术将信息展现给人们。
2.1数据采集存储
大数据具有不同结构的数据(包括结构、半结构、非结构),针对不同类型的数据,在进行云计算的分布采集时,需要选择不同的数据采集方式收集数据,这也是大数据处理中最基础的一步。采集到的数据并不是都适合推送到后面的平台,需要对其进一步处理,例如来源不同的数据,需要对其进行加载合并;数据存在噪声或者干扰点的,需要对其进行“清洗”和“去噪”等操作,从而保障数据的有效性;数据的格式或者量纲不统一的,需要对其进行标准化等转换处理;最后处理生成的数据,通过特定的数据库,如NoSQL数据(Google的BigTable,Amazon的Dynamo)进行存储,方便进行下一步的数据读取。由于传统的数据仓库无法适应大数据的存储要求,目前基于云计算的数据仓库都是采用列式存储。列式存储的数据具有相同的数据类型,可以大大提高数据的压缩率,例如华为的云存储服务MOS(MassiveObjectService)的数据持久性高达99.9%,同时提供高效率的端到端保障。
2.2数据计算模式
这一环节需要根据处理的数据类型和既定目标,选择合适的计算模型处理数据。由于数据量的庞大,会消耗大量的计算资源,因此,传统的计算技术很难使用大数据的环境条件,取而代之的是分而治之的分布式计算模式,具有代表性的几种计算模式的特点见表1。采用批处理方式计算的Hadoop平台,例如,Facebook拥有全球最大规模的Hadoop集群,集群机器目前超过3000台,CPU核心更是超过30000个,可以存储的数据量能够达到惊人的40PB;采用流处理方式计算的Storm平台分布式计算的时延比Hadoop更小;实时处理方式计算的Spark是一种基于内存的计算模式,例如,Yahoo运用Spark技术在广告营销中实时寻找目标用户,目前在Yahoo部署的Spark集群有112台节点和9.2TB内存;交互处理方式计算的Dremel在处理PB级别的数据时耗时可以缩短至秒级,并且无需大量的并发。
2.3数据分析挖掘
数据分析挖掘环节是从海量数据中发现隐藏规律和有价值信息的过程,这个环节是大数据处理流程最为有价值和核心的部分,传统的数据分析方法有机器学习、商业智能等。传统的数据挖掘十大算法[6](其中有K-Means、Na觙veBayes、SVM、EM、Apriori等)在云计算环境下都得到了大幅度的并行优化,在大数据的背景下,计算速度得到了很大程度的提升。现在新兴的深度学习是原始机器学习的一个新领域,动机是在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,这种新的数据分析挖掘技术已经在计算机视觉、语音识别、自然语言处理等领域有了成功的应用。
2.4数据解释展现
将挖掘出来的复杂信息进行数据解释和展现是整个大数据处理流程的最后一个环节,数据分析的结果需要向客户进行恰当的展现。与传统的数据输出和文本展示等方式不同,现在绝大部分的企业都通过引进“数据可视化”技术来展示大数据分析的结果信息,这种方式以图像、动画等方式,形象地向客户展现数据处理分析的结果,也容易被客户理解和接受,更为先进的是,现在逐步形成的“交互式可视化技术”,大大地方便了数据与人之间的“亲密交流”。目前面向大数据主流应用的可视化技术见表2。
3大数据和云计算的未来挑战
大数据需要超大存储容量的计算能力,云计算作为一种新的计算模式,为大数据的应用研究提供了技术支持,大数据和云计算的完美结合,相得益彰,发挥了各自的最大优势,为社会创造了巨大的价值。虽然国内大数据和云计算的研究还是处于初步阶段,但随着研究的不断进行,所面临的问题也越来越多。在大数据向前不断迈进的阶段里,如何让我们对大数据的研究朝着有利于全人类的方向发展成为了重中之重。
3.1重要战略资源
在这个信息社会里,大数据将会成为众多企业甚至是国家层面的重要战略资源。国家层面要将大数据上升为国家战略。奥巴马在2012年3月将“大数据战略”上升为最高国策,像陆权、海权、空权一样,将数据的占有和控制作为重要的国家核心能力。大数据资源也会成为各种机构和企业的重要资产以及提升企业社会竞争力的有力武器。在大数据市场里,客户的各种数据信息都会为企业创造价值,也会在促进消费水平、提高广告效应等方面扮演重要的角色。
3.2数据隐私安全
大数据如果运用得当,可以有效地帮助相关领域做出帮助和决策,但若这些数据被泄露和窃取,随之而来的将是个人信息及财产的安全问题得不到保障。2011年索尼公司遭到黑客攻击,造成一亿份客户资料泄露,经济亏损约1.71亿美元。为了解决大数据的数据隐私安全问题,Roy等在2010年提出了一种隐私保护系统,将信息流控制和差分隐私保护技术融入到云计算平台中,防止MapReduce计算过程中的数据泄露问题。在数据更新飞速的情况下,如何维护数据的隐私安全成为大数据时代研究的重点方向。
3.3智慧城市
人口的增长给城市交通、医疗、建筑等各方面带来了不小的压力,智慧城市就是依靠大数据和云计算技术,实现城市高效的管理、便捷的民生服务、可持续的产业发展。在刚刚结束的“两会”的政府工作报告中,总理也特意强调了智慧城市发展的重要性,目前国家智慧城市试点已遍布全国各地,多达409个。智慧安防、智慧交通、智慧医疗等都是智慧城市应用领域。智慧城市的建设也趋使大数据人才的培养。据预测,到2015年,大数据将会出现约100万的人才缺口,全球将新增440万个与大数据相关的工作岗位来填补这个空缺。
3.4能源消耗
【关键词】云计算;云储存;数据完整性;数据隐私
1.前言
云计算和云储存的不断成熟、发展为大数据储存及处理提供了技术支持,可以使更多用户在不同终端上实现对各类数据的操作,但是数据安全问题一直是大数据云储存中的一个突出问题,很多用户在使用云储存过程中都出现窃取、丢失等现象,这类数据安全问题出现后会给企业和用户带来不同程度的经济损失。日益凸显的云计算安全问题不仅已成为云服务用户共同关注的问题,同时也在很大程度上对大数据储存带来了威胁,本文针对云计算和大数据的特点对数据储存的完整性、隐私性进行分析,通过研究和总结国内外最新研究成果来保证大数据储存安全。
2.大数据储存的云端安全接入技术
传统的计算机数据关系中数据拥有者担任着数据提供者的角色,用户只需要提交有效的账户名和密码便可以对数据进行访问,并可以根据用户自身权限进行相关操作,但是在云计算中数据拥有者和云服务提供者是两个不同的角色,云服务提供者一般都是以商业机构为主,而这些商业机构在实际上是处于用户信任区域以外,因此,传统认证方式已无法满足用户对云存储安全接入的实际需求,云储存在实际使用中的接入需要采用额外的检验机制,这样才能确保云端安全接入技术可以满足大数据储存的安全要求。图1是一种可靠性较高的云端安全接入模型,用户需要使用数据时需要向数据拥有者提交一个使用请求,在数据拥有者实时颁发的密钥、证书后便可以接入到云端,该种云端安全接入模型在实际应用中相对较为安全、可靠,但是只有数据拥有者处于在线的状态才能为用户提供数据服务,一旦网络用户在实际使用中的网络通信受到任何因素限制,则该安全接入模型无法满足用户对大数据储存安全的要求。
图1 一种可靠性较高的云端安全接入模型
研究表明,云储存接入的安全性主要受到数据拥有者,根据用户的实时需求进行验证、反馈等方式有着直接影响,数据拥有者如果保持在线状态就可以确保云计算的安全接入,但是由于受到用户对数据需求量不断增加的影响,大量分配、更新密钥等操作会给数据拥有者户端带来很大负担,一旦数据拥有者主机通信受到限制,则其便无法满足用户对共享数据的访问、使用要求。基于第三方云服务器的接入技术可以有效降低主机负担,并且通过运用重加密技术可以避免数据泄漏,但是该种接入技术在实际应用中的灵活性、实时性还有待提高,短期内无法满足大量新用户的接入及使用要求,这也为大数据储存的云端接入技术指明了一条方向。数据拥有者在选择云端接入技术与控制方法过程中,应根据数据私密等级、用户管理模式进行选择,确保每一个用户都可以安全接入到云端的同时,可以实现优化网络效率这一目的。
3.大数据储存的数据加密技术
数据在上传到云端后可能由于受到服务器故障的影响,导致发生数据泄漏的可能性,云平台在被非法接入后可能出现数据被窃取、篡改以及伪造等事件,所以储存在云端的数据需要通过加密技术对其进行加密处理,经过数据拥有者拆分、加密后才能上传到云计算平台,用户根据自身需求将数据下载后需要对其进行解密处理,即使数据在使用、储存、传输过程中出现丢失、被窃等事件,也因数据经过事先加密而不会发生私密信息泄露的事件。现阶段云计算中所使用的主流数据加密技术以属性加密和加密为主,基于密钥(KP-ABE)和基于密文的属性加密(CP-ABE),这两种数据加密策略在实际应用中具有各不相同的特点,图2是一种基于重加密技术(PRE)的云计算数据加密模型,该种云计算数据加密模型通过部署人来提高数据安全性,由于云平台在实际运用中扮演的角色为半可信人,将PRE架构移植到云计算中可以塑造出一套安全性较高的加密方案。B用户如果需要共享A用户经过加密处理后上传到云端的数据,A根据用户信息和B的公钥来产生一个具有“过渡”作用的密钥,而该密钥在实际使用中只具有密文与密文间相互进行转换的功能,可以将A用户提供的密文转换为针对B用户的密文,B用户下载该密文后便可以对A用户共享的数据进行相应操作。
图2 基于PRE的云计算数据加密模型
数据安全是实现大数据云储存安全的核心内容,因此,大数据储存过程中必须选择有效的加密技术,这对提高大数据储存安全体系的整体性能有着重要作用,通过采用科学、合理的加密方法不仅可以确保大数据储存过程中的机密性,对帮助云计算及用户实现网络资源分配最优化也有着重要意义。
4.大数据完整性校验技术
数据完整性是指数据在储存、传输以及使用等诸多环节,数据不会发生被篡改事件,确保数据信息内部和外部在各环节中的一致性,而大数据存储在云端容易被非法篡改,这便会导致大数据存储过程中的完整性被严重破坏,因此,对存储在云端的大数据完整性进行校验有着重要意义。图3提出了一种基于“可取回性证明”(POR)的大数据完整性校验模型,该方案在实际设计中采用了挑战―应答模式,验证者在对大数据进行纠错编码的同时要在文件随机位置插入“哨兵”,这些哨兵主要是由带密钥的哈希函数根据验证的实际需求生成的,每次挑战时证明者为了反馈验证者的要求,会自动返回一定数目的哨兵,通过哨兵返回数目的完整性对文件进行检测。该大数据完整性校验模型在实际应用中不需要对所有数据进行复制,而且存放哨兵的额外存储量也相对较少,主机不需要对挑战―应答模式提供过大的计算量,所以其整体性能完全可以满足大数据存储安全要求。以可信第三方代替用户进行大数据可取回性检查,并根据用户数据的损害情况来执行数据恢复,这种基于轻量级数据可取回性证明算法“L-POR”可以通过冗余数据来加入到用户认证信息中,避免了其他同类算法在大数据完整性校验中产生的大量存储开销。
图3 一种基于POR的大数据完整性校验模型
5.结语
云计算和大数据储存中其安全性不仅会对云计算技术的发展有着直接影响,更关系到每一个云计算用户在使用中的隐私和利益,所以要通过加强接入控制技术、数据加密技术以及大数据完整性校验检测技术等方面,来确保大数据存储的安全工作可以满足各类用户的实际需求。
参考文献
云计算技术具有高效、可靠、高可扩展性和易用性的特征,被很多领域广泛的使用。本文讨论的内容是如何将云计算技术应用到就业大数据信息服务平台中,从而高效率、高质量的做好就业服务工作。
Hadoop是由 Apache 开源组织提供的分布式系统基础框架,能够有效的解决海量数据分布存储和分布计算,是云计算技术应用层面很好的解决方案。
一、高校就业大数据信息系统现状
目前,各高校均建设了高校内部的毕业生就业大数据信息平台,一定程度上满足了毕业生就业服务的需要。但是这些系统存在以下几方面问题:第一,系统侧重毕业生和就业信息管理,或者只是学生管理信息系统的一部分,缺乏服务机制,无法实现学生、教师和用人单位的联动。第二,系统资源利用率低,系统运行效率低、安全可靠性和可扩展性差,给学生数据安全带来很大的隐患。第三,系统数据利用率低,多数集中在简单的查询,很难获得有益的知识,提供决策服务。第四,系统缺乏个性化定制,很难适应当前就业工作不断调整的需要。
随着高校、毕业生和企业对就业服务的要求提高,现有的就业信息平台已经不能适应就业工作多元化的增长和发展的需要,影响高校毕业生的就业效果,新型的就业大数据信息平台的建设已成为破解就业工作难题的必要条件之一。
二、构建基于云计算的高校就业大数据信息服务平台
云计算因其强大的计算和数据储存的能力、可靠、安全的共享数据存储中心、客户端的设备配置没有限制等特点已广泛应用各行各业,并日益发展成熟。通过云计算技术建设毕业生就业信息平台,整合和共享就业信息资源,为毕业生就业提供方便、快捷、高效的信息服务平台,破解现有就业信息平台存在的问题。
从研究现状来看,云计算具有以下一特点:
一是强大的计算和数据储存的能力。“云”能赋予用户完成各类应用前所未有的计算能力,为用户储存和管理数据提供几乎无限多的空间。服务器的日常维护也有云服务提供商来进行。
二是最可靠、最安全的共享数据存储中心。通过云存储,数据复制到多台物理机器,避免因硬件崩溃或误操作删除的造成的数据的丢失或损坏。
三是客户端的设备配置没有限制。用户在随时随地方便、快捷、安全的使用位于不同计算机、不同的操作系统的应用服务,从“云”中获取个人的需求。
2.1 构建高校就业云服务平台
根据提供服务资源的类型,云服务被分为三个类别:SaaS(软件即服务)、PaaS(平台即服务)、IaaS(基础设施即服务)。
高校就业大数据信息云服务平台采用 SaaS 模式,通过浏览器和移动终端将软件作为云服务提供给所需用户。用户无需购买软件和维护软件,用户根据业务需求购买相应的云服务,云服务提供商管理相关软件并实施软件的维护。这种方式大大降低用户在软件购买和维护上人力和物力的开支。高校就业信息云服务平台自底向上分别是“云数据层”、“数据服务层”、“业务服务层”、“云服务层”和“应用层”,每层之间采用松耦合,提供相互访问的接口,用户不必关注层内部逻辑。
(1) 数据存储层
高校信息服务平台的数据主要包含学生数据、用人单位数据和高校相关数据,数据是作为平台的基础。为了提供便捷、高效、可靠的数据访问,数据存储层采用云存储技术实现。
(2) 数据服务层
数据服务层建立专门进行云数据层访问的接口程序,用户通过 webservice 或者 API 进行加密数据的访问,数据的具体存储对用户是透明的,这也有效的提高数据安全性,并且为数据的扩展提供基础。
(3) 业务管理层
业务服务层包括高校信息服务平台所有业务,具体包括应聘招聘、就业指导、毕业生困难帮扶、创业等服务内容,这些业务服务于政府、用人单位、高校、学生和社会等不用的用户。由于就业工作随着时间的推移会受到就业形势、政策等很多因素影响,从而导致就业工作业务和用户发生不断变化,所以就业信息服务平台业务服务层要具备高扩展性。基于以上的要求,我们构建了业务服务控制台,业务服务被设计为可插拔式,每项业务可以被挂载在控制台,或者从控制台被卸载,也可以设定业务接口、执行业务升级操作等服务。
(4) 云服务层
云服务层将业务服务层的内容以应用接口的方式提供给应用层,提供的方式是为业务服务层建立 API 接口和webservice 接口。应用层可以通过编程的方式调用业务接口,实现业务访问。
设定中文信息处理和语音识别接口,用户可以通过输入中文关键字或者语音调用业务,在应用层和业务层之间建立更加友好的数据传送,也为移动终端用户提供更加便捷的操作方式。
(5) 应用层
应用层直接面向实际用户,实现就业信息云服务平台不同类型的用户图形界面,从而能够适应不同用户的不同需求。用户既可以通过个人电脑上的浏览器访问获得云服务、也可以使用智能移动终端的应用程序或者微问云服务。
2.2 建立基于 Hadoop 的云数据存储
高校就业大数据信息服务平台需要大量的数据进行支持,而且数据逐年增加。利用云存储技术主要解决快速、高效的处理海量数据,从而达到易扩展、低成本、易管理、高效和安全的设计原则。 Hadoop 软件框架的HDFS(分布式文件系统)提供了具备高扩展性、高容错性、高可靠性、高效等特点,并且可以部署在低廉的硬件上,从而降低成本。基于以上内容,高校就业服务平台的数据存储通过 HDFS 分布式存储技术实现云存储,Hadoop 的具体部署
2.3 建立基于 Hadoop 的数据服务
数据服务是就业大数据信息云服务平台重要的业务,用户需要了解学生年龄、学历等数据分布,需要了解就业数据分布,需要了解用人单位人才需求分布,需要了解就业数据内部和外部存在的各种联系。数据服务从海量数据的计算中获得,利用云计算技术能够高效、低成本的解决计算问题,Hadoop 为云计算提供了有效的解决方案,它提供了MapReduce 模型,这个模型解决了传统并行计算在易编程性上的瓶颈,程序员可以更容易的开发分布式并行计算程序。MapReduce 同 HDFS 一样采用一个主控节点和多个计算节点的架构。
将大规模数据集分成多个小数据集,然后这些数据集分o多个 map 节点进行并行处理产生中间结果,最后在 reduce阶段对这些结果汇总,得到最终结果。
关键词:大数据;移动云计算;云计算;信息
中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2016)34-0003-02
随着互联网的快速发展,人们逐步感受到了“信息大爆炸”,特别是各种移动通讯和物联网的发展,数以亿计的网络用户随时产生数据。目前全球的数据总量达到了ZB规模,大数据成为人们关注的热点话题,生活中的很多方面都可以和大数据技术进行结合,通过大数据技术来为我们服务。
大数据技术虽然给我们的生活带来了巨大的改变,但是大数据技术要求计算机具有相应的大数据处理能力,为此,云计算的概念产生了。云计算是分布式计算、网络存储、负载均衡等相关技术发展融合的产物。云计算通过网络将庞大的计算机处理任务进行分解,把分解后的较小的计算任务交给众多的网络数据计算服务器,经过网络服务器的分析处理之后把结果重新传回给用户。移动云计算是指通过移动互联网以按需、易扩展的方式获得所需的基础设施、平台、软件或应用等的一种IT资源或信息服务的交付与使用模式。[1]
1 大数据技术
现今的世界是一个数据的世界,我们身边到处都充满着数据,比如打电话的语音数据、发短信的文字数据、微信的聊天数据、报纸、杂志、网络购物等等。这么多的数据实时地影响了我们的工作、生活、学习,甚至社会的发展。根据维基百科的定义,大数据(Big Data)是用于数据集的一个术语,是指大小超出了常用的软件工具在运行时间内可以承受的收集、管理和处理数据能力的数据集。[2]美国IBM公司定义了大数据的3V特点,即规模性(Volume)、多样性(Variety)、高速性(Velocity)。规模性表示大数据涉及的数据量巨大,一方面人们的生活中产生了很多的具体数据,另一方面是互联网通信中移动通信的虚拟数据,这些数据的数据量是非常巨大的。多样性表示大数据中数据类型的复杂多样,其中包括最常见的文本数据、图像数据、语音数据和视频数据,除此之外还有很多其他的结构化、半结构化和非结构化的数据。高速性表示大数据技术必须具有实时性,比如实时路况导航、全球股价波动、一些通信业务的处理等等。
大数据技术的发展越来越成熟,大数据的价值也越来越受到人们的关注,对于数据处理的实时性和有效性要求越来越高。大数据在公共服务、商业智能、科学研究等领域发挥着巨大的作用,影响力越来越大,大数据技术的使用一定会给我们带来巨大的价值。社会中的各行各业可以通过大数据技术来完成各项工作,比如大数据在汽车制造业中的应用,福特汽车的产品开发团队曾经就对汽车行李箱的打开形式进行研究。车后行李箱的打开有两种形式手动式和电动式,如果采用电动式,能自动打开、便捷智能,但是这种方式会影响到车门开启有限的困扰。此前采用定期调查的形式并没有发现这个问题,但后来对社交媒体的关注和分析,发现很多用户在谈论这个问题,这对福特汽车以后的产品设计是非常有帮助的。
数据分析是大数据技术的核心,通过对相关数据的分析产生有价值的信息是大数据技术的关键。通过对数据的分析,可以产生有价值的规律和结果并辅助人们进行更为合理的决策。在大数据分析方面除了传统的技术外,人工智能技术邻域的很多方法被用得越来越多,包括统计分析、机器学习、数据挖掘等。数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的,但又是潜在有用信息和知识的过程。统计分析就是基于数学邻域的统计学原理,对数据进行收集、组织和解释的科学。机器学习作为人工智能邻域的重要内容,分为监督学习和无监督学习两大类。[3]常见的方法包括聚类算法、预测算法、回归算法、朴素贝叶斯算法、支持向量机算法等。这些算法往往需要较大的计算资源和较强的计算能力,云计算正好满足了大数据技术在这个方面的需求。
2 移动云计算技术
云计算已经发展成为IT行业的一个热门技术,目前的主要云计算设备和服务都是针对PC机而言的,但是随着无线路由的快速普及以及无线终端设备的大量出现,将云计算运用于移动环境是必然的发展趋势。根据相关的数据统计,全国的移动电话用户累计达到10亿以上,现有的终端计算能力、存储容量都是非常有限的,已经难以满足很多用户的需求,而云计算恰好能给用户提供服务。云计算是一种新型的应用模式,通过网络按需实现软件处理能力、存储资源等。[4]移动云计算正是基于云计算的概念出现的,它结合了移动网络和云计算的概念。移动云计算通过移动的终端用户进行网络互连,并以按需、易扩展的方式获得所需的基础设施、平台等相关的网络资源和信息。
云计算的一个主要优点就是在“云端”提供了大容量的存储空间和高速的计算能力。即使客户端的移动设备本身性能不够,但是只要能进行数据的输入、输出,就可以和云端进行交互,让云端提供计算和处理服务得到客户想要的结果。移动云计算的特点是终端硬件及系统无关性,这是因为终端不进行真正的大量计算和数据的存储,而是通过移动网络把数据和计算任务上传到云端让云端来进行计算和处理。移动云计算还消除了计算的地域性限制,普通的云计算由于终端设备的地理位置固定,给很多的实际应用带来不便,但是移动云计算可以通过移动网络进行数据传输和计算。如果移动网络有足够的带宽,那么移动云计算就能实现实时的数据计算,让客户在终端或者手机上看到最及时的处理结果。
移动云计算中比较成熟的应用有移动云存储。目前,很多公司推出了自己的移动云存储服务,在移动云上可以存放照片、文档、邮件、视频等相关内容。传统的存储方法是客户在存储资料时,都是通过U盘或是硬盘等存储设备。这种存储方式有明显的缺c,当U盘或是硬盘丢失、损坏或是忘记随身携带等,都可能造成想要取出存储资料却取不出来的状况。移动云存储是把资料上传到网络上的移动云存储服务器,只要能上网可以随时随地取出存储资料,不用担心资料的丢失或损坏。基于移动云计算的移动商务是商业发展的新模式。随着移动终端设备的大量使用,很多商务都是在网络上进行操作的,例如购物网站、微信支付等。除此之外移动云计算在医疗、邮件推送、远程教育等方面都有着非常成功的应用。
3 大数据与移动云计算
本地单机的数据处理模式成本越来越高,而且扩展性比较差,并且随着要处理的数据量不断增加特别是对于大数据的应用,相应的处理性能会遇到瓶颈,在这种情况下,出现了云计算技术。云计算具备了较好的弹性,在动态调配资源、支持多用户按需工作等特点正好符合了大数据的应用需求。云计算以其高可靠性、强大的计算能力和海量的存储空间成为解决大数据问题的重要技术,但是云计算不能在动态系统中进行应用,这使得移动云计算成为云计算新的发展方向,特别是移动终端可以方便地通过无线网络上网来使用移动云计算提供的各种服务。
大数据的落脚点在于“数据”,提供了对数据操作的各种方法,包括对数据的采集、分析、挖掘、存储等。移动云计算更多体现在“计算”,看重的是通过互联网产生的计算能力,移动云计算中很多的相关技术正是大数据技术的基础。大数据技术首先要有大量的存储数据,存储数据的传统方法是数据库技术,但是现在的数据量越来越大,已经超过了传统数据库的存储模式,而移动云计算正好给这些数据的存储提供了空间。其次是对大量数据的初步操作包括数据的提取、标注、表达等,移动云计算通过互联网可以把这些任务进行分解,分成许多较小的数据处理任务并分配给网络中的很多移动终端用户,让他们在空闲的时候处理这些任务。最后是对移动云上存储的大量数据进行分析,分析的手段包括数据过滤、数据分类、数据聚类等,移动云计算同样可以像上边那样把任务进行分解并在网络中寻找空闲的处理设备辅助完成这些任务。
基于移釉萍扑慵际豕钩傻拇笫据系统,能够提供大数据处理所需要的相关技术。大数据与移动云计算的结合,将是相得益彰,相互都可以更好地发挥作用。移动云计算为大数据提供强大的存储和计算能力,更加迅速便捷完成大数据的处理任务,而大数据的相关业务能为移动云计算找到更多更好的实际应用。
大数据和移动云计算在气象领域的应用,以前的气象服务信息大多只是将气象的监测数据提供给用户,由用户自己去综合使用,这显然仅仅是气象预报产业中的初级阶段。现在,人们通过移动网络可以及时获得气温、紫外线指数、感冒指数、晨练指数、洗车指数等更精细化的气象信息,并利用大数据分析软件可以获得更多的用户想知道的数据信息,体现出单一数据无法表达的价值和效益。
社交网络是现在人们沟通的主要形式之一,用户通过移动终端使用社交网络,伴随着用户的社交过程会产生大量的数据,通过大数据的分析技术可以发现一个人和另一个人是怎么样联系上的,另外也可以通过两个人的社交关系,找到让他们进行联系的渠道。不管我们在使用微信朋友圈还是微博账户,软件系统经常会提示我们哪个人可能是我们的朋友或者是同学,给你一个加入好友的提示,这就是大数据与移动云计算相结合应用的一个实例。
地图导航古已有之,而发展到今天的电子地图导航更成为人们出行旅游的指南针。用户使用移动终端比如手机、平板电脑通过移动互联网把自己的实时地理位置信息传送到网络上,由此可以进行打车、聚会、餐饮、购物、汽车导航等应用。大数据技术通过分析可以知道在哪些地方,什么样的服务是在这个地理位置上的人最需要的,移动云计算把这样的消息出去后,可以给我们提供最便利的服务。比如在商场附近可能有更多的人需要打车,在人烟稀少的地方可能有更多的人需要方向导航等。
医疗行业具有数据量大、复杂性高等特点,医疗行业被认为是最能让大数据分析技术发扬光大的一个传统领域。移动云计算利用移动终端可以随时采集病人的相关数据信息,比如脉搏、血压、照片等,这些数据随着时间的推移将构成海量的数据。此外,医生对于病人的诊断结果也会保存在移动云存储中,当同样类型的病症再次出现的时候,移动终端可以根据大数据的分析技术给病人提出最合理的治疗建议。这样既节省了医生的人力资源,又节省了病人排队等待的时间,更能在第一时间解决病人的病情。麦肯锡的报告中指出,大数据技术可以帮助美国的医疗行业一年创造3千亿美元的附加价值。
大数据利用了移动云计算的方便性,可以随时随地对数据进行处理并提供了及时的服务,移动云计算通过大数据找到了更好的应用方向。没有大数据对于大量信息的积累,移动云计算的计算能力再强也找不到用武之地,同样如果没有移动云计算的强大计算能力,那么大数据积累的大量信息也毫无价值。
4 总结
如果说大数据是巨大的宝藏,那么移动云计算是开发这个宝藏的最有利的工具。没有移动云计算的强大计算能力,那么大数据中的相关数据就是一堆毫无用处的冗余数据。另一方面移动云计算也正是由于大数据的信息量大,本地单机处理能力有限才发展起来的,没有大数据的信息累积,那么移动云计算也得不到完全的发挥,所以大数据与移动云计算是相辅相成的关系。
参考文献:
[1] 赵华, 王海阔. 移动云计算综述[J]. 电脑知识与技术, 2012(1).
[2] 何清. 大数据与云计算[J]. 中国安防, 2014(1).
[3] 张峰军. 大数据技术研究综述[J]. 通信技术, 2014(11).
大数据云计算的意思是:
1、大数据(bigdata)是指无法在一定时间内用常规软件I射其内容进行抓取、管理和处理的数据集合。大数据有五大特点,即大量(Volume)、高速(Velocity)、多样(Variety)、低价值密度(Value)、实性(Veracity)。它并没有统计学的抽样方法,只是观察和追踪发生的事情。大数据的用法倾向于预测分析、用户行为分析或某些其他高级数据分析方法的使用。
2、云计算(CloudComputing)分布式计算的一种,指的是通过网络”云”将巨大的数据计算处理程份解成无数个小程序,然后通过多部服务器组成的系统进行处理和分析这些小程序得到结果并返回给用户。现阶段的云计算通过不断进步,已经不单单是一种分布式计算,而是分布式计算、效用计算、负载均衡、衍计算、网络存储、热备份冗杂和虚拟化等计算机技术混合演进并跃升的结果。
(来源:文章屋网 )
关键词:大数据时代;计算机技术;运用研究
计算机的出现极大地方便了人们的工作和生活,改变了人们生活和工作的状态。同时通过计算机技术的使用还可以帮助企业、政府等商业组织的工作更加高效便捷。除此之外,通过计算机技术的使用,使相关人员研发出APP,其出现,为人们创造了更多的商业价值。为了使计算机的使用功能得到进一步发展,就需要对计算机的运用做出研究。
1计算机技术在大数据时代背景下的发展现状
大数据是时代快速发展的产物,具有高速度、便捷的特点,为人们的生活和工作带来帮助。具体来说,数据的标准范围是10TB~1PB,超出这个范围即大数据,通过计算机技术的支持,实现数据的快速分析、处理。目前,随着数据的不断增加,传统的计算技术可能已经不能满足人们的需求,对此,为了使得计算机技术得到进一步优化,就需要不断地进行分析研究,才能推动计算机技术在大数据背景下的进一步发展,同时,随着计算机的运用,人们也意识到了计算机的重要性。计算机在技术发展中,各行各业也认识到了计算机软件的重要性,受到了人们的广泛关注,也使得相关学者加大了数据研究,旨在进一步帮助人们优化工作流程,提高工作效率,更加高质量地为人们做出更科学的决策。随着计算机的普及,互联网已融入人们的工作和生活,推动了整个社会的发展,使得信息的存储和处理变得更加高效方便,同时安全性也更高。具体来说,目前大数据数量规模已超过10亿TB,且具有不断增长的趋势,同时也渗透到来各个领域中,例如电子商务、物流、云计算等科学技术,对工作的处理和保存有着很大的帮助。因此,为了使大数据背景下计算机的优势得到进一步提高,就需要继续加强对大数据和计算机技术的研究,从而促进大数据的优势得到进一步开发。
2大数据时代背景下我国计算机软件技术的具体应用
大数据时代背景下,计算机的具体应用主要是根据设定要求,从海量数据中,提炼分析客户所需要的相关数据,再根据所提取的数据进行详细分析,以此为基础找出各项工作的发展方向和具体的工作内容。具体来说,主要是依赖于以下3种技术的运行。
2.1云储存技术
云储存技术又被称为Cloudstorage技术,是基于云储存基础上衍生出的新型技术。具体来说,在大数据背景下,云存储的应用范围十分广泛,应用前景也非常客观。与以往的技术特性相比,云技术不仅可以改善传统技术的中的不足,同时还能高效地提高使用效率,使得人们的操作更加便捷,尤其是在进行数据保存和文件时,用户的操作更加简单便捷,只需要登录有关账户,将数据录入进去,就可以将其提交至云技术总服务器中,就是实现数据的查看、下载、保存等工作。相比传统计算机中通过固态硬盘、存储卡等硬件进行存储而容易丢失,云储存技术的便捷性更高。
2.2虚拟化技术
虚拟化技术又称为Virtualization技术,主要是资源管理类的一种计算机技术,其工作内容主要是对数据库的内部数据资源进行管理,优化资源配置。除此之外,通过虚拟化技术的应用,还可以使得客户端的适应性和便捷性及分析数据的效率得到有效提高。这是虚拟化技术的一大优势。具体来说,目前虚拟化技术在各个领域中广泛使用,例如政府部门、大型组织机构等,使得信息保存、管理更加高效高质。
2.3信息保护技术
大数据时代背景下,极大地帮助了人们的信息存储和人们的交流,使得存储变得更加便捷,交流也不再受时间和地点的限制。但同时也让部分居心叵测的犯罪分子有机可乘,导致人们的隐私和数据等各项保存工作的安全度大大降低。针对这些问题,就需要有关人员重视起来,加强计算机网络数据的保护工作,提高信息技术中的各项保护工作,从而保证信息技术的整体性能。除此之外,计算机网络技术还具有开放性、互通性等特征,因此,就很容易受到互联网信息技术中各类病毒的入侵危害,因此,还需要做好信息数据的防入侵工作,以免黑客、木马等的危害,以免信息数据遭到丢失和窃取。所以,信息数据的安全保护工作至关重要。但由于我国计算机发展较晚,导致计算机技术存在一定的落后,基础发展薄弱,不能跟上发达国家的技术水平。但在近几年科学的发展下,计算机技术的发展已取得了良好的成就。同时,在近几年的发展中,大数据信息技术得到了有效的推广和普及,但同时在新时代的发展中,对计算机技术的要求也越来越高。因此,这就需要相关人员重视信息保护技术的深入研发工作,只有这样才能不断地提高技术的应用效果,有效地保障人们的生活和生活中的使用。
3大数据时代下计算机软件技术中的实际运用
大数据时代下计算机软件技术被应用到各种领域中,但在实际的应用中还需要尤其注意,只有这样才能发挥计算机技术在企业中的生产效率,从而提高企业的核心竞争力。
3.1商业运营活动
大数据应用到各种商业领域中,可以提高工作人员的工作效率和工作质量。以某大型连锁超市为例,通过计算机软件技术中的应用,可以满足导购人员借助超市导购平台解决用户的个性需求,解决实际工作中的各类问题,从而提高超市整体的工作效率和工作质量。因此,将其应用到商业领域中,不仅可以使得企业的生产效率和工作效率得到有效提高,还能通过各种信息的获取为企业决策者提供决策依据,从而为企业的良好发展夯实基础。
3.2企业管理软件信息解决方案
企业管理软件在实际的应用过程中,管理效率相对来说不太理想。而通过企业管理软件可以解决这一问题,具体分为以下两点:(1)数据抽样工作。数据抽样即将所有同类产品进行随机抽取,检测产品的实际质量和性能。在商业活动中也是数据,随机抽取一定数量的数据样本,抽取的数据样本通常具有代表性。通过对样品抽样的测量、统计工作,从而制订相应产品的开发及推广方案,有助于生产和销售效率的提高。除此之外,还能保证样品工作的工作效率。(2)开发探索工作。数据的开发探索主要是工作人员通过采集数据记过对异常数据、数据之间的关联指数方式进行的分析工作,以此提高企业以及使用用户对于数据的直观感受和认知程度。在此工作环节的实际过程中,通过计算机软件技术,可以切实提高数据信息开发的探索工作的效率和质量。
成立于2000年的上海科技网,注册资金达2亿元。公司前身是“上海市人民政府科技网”,在“九五期间”是上海市政府三项科技标志工程之一、市政府信息港工程。十几年的发展,上海科技网荣获了国家发改委下一代互联网驻地网实验单位、科技部网络实验床、上海市高新技术企业、上海市文明单位和全国互联网信息服务业收入百强企业等荣誉称号。上海科技网还获评2013年度的全国优秀数据中心、2015年度的中国数据中心运营管理杰出服务商和中国云计算领域最佳解决方案等奖项。
上海科技网拥有丰富的网络信息服务资源,城域网在本地有60多个网络节点,自有光缆达1600多皮长公里,基本覆盖本地市区和各郊县,拥有两个独立的AS网络号,与中国三大基础运营商BGP互联。自建自营的互联网数据中心有漕河泾机房(500组标准柜)和宝山云计算中心(1600组标准柜),均按照国际领先的Tier-942标准建造和运营。
上海科技网拥有IDC、IP-VPN、ISP、ICP和CPN等互联网特许经营牌照,并通过了ISO20000信息服务流程管理体系和ISO27001信息安全管理体系,以及信息系统安全等级保护三级。
上海科技网宝山云计算中心位于长江西路101号。聘请IBM公司设计,采用“传统与现代相结合”设计理念,遵循绿色节能数据中心原则,按照国际标准T3+级建设的高密度、大容量数据中心机房。所在园区设有7×24小时保安巡检,云计算中心则另设有7×24小时安保中心,负责整个建筑的保安和消防的监测、控制和管理。宝山云计算中心机房业务区域实现单进单出机制,出入口均有7×24小时专业人员值岗,周界红外入侵检测和建筑防撞隔离。总控中心(ECC)负责机房内部监控,数据中心内部还设有分区指纹验证,极大地保护了客户IT资产的安全。
【关键词】 大数据 云计算 技术应用 分析
因为互联网进程的推进,让信息时代中,数据成为了主流探讨的问题。由于数据的处理与分析,能够得到相应的操作数据。因此,在互联网时代中,如何更好的进行数据处理以及资源整合,是目前数据时代的主要处理方式与手段。而大数据时代,则对于数据的处理和整合配置要求更高,对于处理的效率也有一定的要求。因此,随着大数据时代的到来,对于传统的数据处理方式以及处理效率,已经无法满足现代人们对于数据处理的要求。因此,为了能够在大数据时代以及环境下,能够更好的实现对于数据的处理效率。那么,采用云计算技术是必然的选择。云计算机技术可以实现高效的应答处理,基于互联网进行数据的访问,并且能够进行合理的资源配置,从而实现高效率的大数据环境下的数据处理。
一、大数据环境与互联网数据分析
随着信息时代的进程逐步加快,人们的生活与工作,更多的以数据形式来体现,从而实现了数据的时代。在网络数据不断的递增,并且出现了数据庞大的现象的时候。谷歌最早通过大数据的概念,来形容目前的大数据时代。因此,大数据时代的到来,与互联网数据的呈现息息相关,并且起到了非常重要的作用。那么,对于大数据而言,其存在哪些问题和与人们生活与工作相关的内容呢?互联网数据与大数据而言,两者又有着怎样的必然关联呢?
1.1 大数据时代以及大数据环境分析
大数据实际上在一些科研领域中一直有这样的概念,但是由于科研原因,其被人熟知的范围相对较小,属于专业性领域的名词。但是,随着互联网时代的到来,人们对于互联网的熟悉,造成了人们对于数据的概念更加深刻。而互联网环境下,数据是最为主要的资源和呈现方式,这也在一定程度上实现了人们对于互联网数据的认识。因此,由于互联网的推动作用,造成了人们现代所熟悉的大数据时代。那么,大数据时代的代表和标准是什么?
首先,大数据是一种数据的表现形式;人们在互联网时代中,越来越重视数据的作用,由于信息的交互以及远程的沟通,实际上都是网络数据在进行交互,从而形成现在网络化的大数据时代。那么,大数据必然是数据的一种集中表现形式,一种宏观的概念。大数据的目的是通过对互联网数据资源的整合,实现最佳的数据环境,从而进行相应的数据处理。
其次,大数据时代的标准就是数据整合与资源合理分配;大数据时代,数据的整合非常重要。由于数据的交互一般是以零散的方式进行,非常难以得到更好的应用。因此,采用资源合理分配以及数据整合,是非常有必要的。
最后,大数据的代表既是互联网数据;大数据原本就是专业学术领域的名词,而由于互联网的发展,带动了大数据的概念开始转移到互联网世界中,从而被人们所熟悉,并熟知。
1.2 大数据环境与互联网数据分析
互联网是基于数据而建立起来的,不管是互联网的资源还是互联网的协议,实际上都可以采用数据的形式进行呈现,从而凸显数据的重要性。因此,对于互联网数据而言,是形成大数据环境的基础。实际上,在大数据没有从科研领域进入互联网领域的时候,就已经开始了意识到了数据的庞大性。互联网产生的数据是非常庞大的,那么在信息时代的发展进程中,如何合理的应用这些数据,以及如何更加有效的利用这些数据,成为了目前互联网时代的一种管理模式。当大数据环境已经形成并得以蓬勃发展的时候,相关人员开始注意到了大数据的重要性,并且明确了大数据环境下,互联网数据的可行性以及价值。因此,对于大数据环境下的互联网数据而言,可以从以下几个方面进行分析:
第一,大数据环境下,互联网数据的价值得以体现;互联网的数据一般情况下,是为了能够体现网络资源以及资源之间的交互,尤其是在信息交流的过程中,数据的价值体现非常重要。但是,由于互联网的交易价值开始不断被重视,从而在一定程度上影响了对于数据的价值参考。也就是说,实际上大数据环境下,互联网的数据的价值得到了显著的提升。基于大数据的检索技术得以开发和应用,就是为了能够更好的方便对于数据的检索和参考,从而有效的提高其应用价值。
第二,大数据环境下,基于大数据的互联网数据分析更具实际意义;大数据环境下,实际上更加注重对于互联网数据的应用。一些交易网站的建设,一般也都是基于大数据而进行设计与开发的。目前,随着计算机互联网技术的不断深入,让更多的互联网使用用户开始注意到了大数据的重要性。通过大数据的检索可以获取非常庞大的数据信息,根据这些数据信息就可以进行相应的数据处理,从而保证网站的浏览量以及网站的价值。
总之,大数据环境下的互联网数据是非常重要的,并且在一定程度上取代了传统的互联网数据理念。
二、大数据环境下的云计算技术应用
基于以上分析,对于大数据时代以及大数据的环境,都有了非常细致的了解。那么,对于大数据的环境下,如何应用云计算技术呢?采用云计算技术,有着怎样的优势呢?
首先,对于云计算技术的应用,主要是为了能够提高大数据环境的处理效率。云计算是一种广义性的概念,云实际上就是网络的代名词。采用云计算的方式,实际上就是严格遵守网络的计算方式,对数据进行相应的计算,从而保证对于大数据的网络化价值体现。
其次,大数据环境下,采用云计算技术,更重要的是为了保证数据的安全防护。由于大数据环境的出现,让网络数据开始变得更加复杂,从而出现了诸多的网络数据安全问题。尤其是基于大数据的一种检索方式,会让互联网的使用者的安全信息受到侵犯,从而影响了数据的使用安全。而采用云计算的方式,则可以在严格遵守互联网的模式环境下,针对性的进行数据检索,而不会将用户的信息随意的进行呈现,从而降低了互联网用户的安全系数,给大数据环境的发展,带来了一定的影响。
最后,大数据时代是网络信息发展的结果,因为互联网的广阔的应用范围,从而造成了在大数据环境下,可以最大限度的获取最多的信息。但是,正式由于数据的处理过于庞大,从而需要一定的计算方式,来提高数据的处理效率。此外,对于大数据而言,已经不仅仅是数据的庞大的单一表达。实际上,为了大数据也已经融合进入了处理效率的因素,也就是单位时间内处理信息的数量。因此,基于以上的需求,采用云计算的方式,是非常必要的。
三、结语
本文分析了大数据的基本概念以及在互联网环境下,大数据时代的到来以及大数据环境的一些特点,从而解析了为什们需要使用云计算技术的原因。在大数据环境下,互联网数据的价值得以体现,并且成为了最具参考价值的实用性数据。基于大数据的相关技术开发,非常普遍,并且得到了广泛的应用。例如,在搜索引擎中,就出现了基于大数据的搜索机制,从而让数据信息更方便被检索,从而实现了数据的价值体现。当然,设计云计算的原因不仅仅是为了能够让大数据环境下对于数据的处理更加高效与便捷。实际上,也是为了能够更好的进行数据的安全防护。由于大数据的相关处理方式,让用户的网络信息开始出现了一定的危机。那么,云计算的处理方式,是会严格按照互联网的访问机制进行,从而降低了用户的信息风险,提高了大数据的应用范围和应用价值。
参 考 文 献
[1]王佳隽,吕智慧,吴杰,钟亦平.云计算技术发展分析及其应用探讨[J],计算机工程与设计,2010(20):4404-4409
【关键词】云计算 大数据 云数据中心 安全体系
一、引言
大数据时代,原有的信息资源处理手段已经不适应迅速增大的数据量级。大数据依托网络技术,采用数据挖掘、关联分析等技术手段对分布式存储的异构海量数据进行处理。无论是网络环境、计算平台、还是存储载体,都分属不同的信息系统。大数据进一步加剧了网络空间中防御与攻击的不对称性,大数据信息安全主要体现在处理系统、过程的安全,而传统的信息安全防护措施多集中在“封堵查杀”层面,难以应对大数据时代的信息安全挑战。因此应加快构建多层次、高质量的大数据纵深防御体系结构。加强大数据信息安全保障能力,是解决大数据安全的唯一出路。
二、大数据安全挑战
基于大数据环境下所带来的安全挑战包括:
1、应用安全防护:大数据环境下的应用防护风险,包括资源滥用、拒绝服务攻击、不安全集成模块或API接口及WEB安全;2、虚拟化环境安全:基于云计算和虚拟化技术的云计算数据中心为大数据提供了一个开放的环境,分布在不同地区的资源可以快速整合,动态配置,实现数据集合的共建共享。网络访问便捷化和数据流的形成,为实现资源的快速弹性推送和个性化服务提供基础。然而平台的暴露,使得蕴含着海量数据和潜在价值的大数据更容易吸引黑客的攻击。虚拟化环境安全成为大数据安全的重要威胁。3、移动接入安全:BYOD-移动接入安全,包括身份假冒和信息劫持等。4、安全与大数据融合:恶意的内部员工和数据隐私保护面临威胁。
本文分别从上面四个方面来分析大数据安全技术体系的建设办法,构建大数据纵深防御体系结构。
三、大数据安全技术体系
大数据应用安全防护主要在应用防护区部署虚拟化综合安全设备,包括DDOS、防火墙、IPS和WEB防火墙(WAF)等,同时部署漏洞分析系统,进行安全评估和渗透测试。
大数据虚拟化环境安全主要通过虚拟化防火墙TopVSP(Vgate、TAE、TD)和虚拟机管理器安全,即外部防火墙。实现虚拟化环境的性能优化和安全策略迁移等。
移动接入安全从下到上分为统一接入控制、数据安全及威胁防护和全生命周期设备管理三层。其中统一接入控制层在终端接入区使用身份认证及授权和虚拟应用及虚拟桌面,在网络接入区使用VPN加密,在业务服务区使用远程锁定、数据擦除、备份与恢复、GPS定位和自动报警灯管理器后动来实现。全生命周期设备管理包括资产接入、部署、运行和销毁全流程管理,资产接入包括资产的发现、注册和初始化;资产部署主要包括安全基线制定和配置及策略执行;资产运行包括资产的挂失、锁定、密码重置、定位、备份与恢复、报警等;数据销毁采用远程应用卸载和数据擦除等技术。
基于大数据融合下的安全云,主要实现方式是通过安全检测与大数据技术相融合,利用云计算能力及大数据处理机制实现信息访问的审计、安全威胁智能的发现、隐私数据的保护。主要包括安全监测与预警和安全审计及隐私保护两方面内容。安全检测与预警主要是通过7×24监控和运维,对事件进行收集、处理和存储,继而进行关联分析、威胁检测、风险计算和风险分析,将分析的结果通过短信或者邮件通告,并形成相应的工单、知识库和相应的报表进行派发、流转和处置。安全审计及隐私保护主要是为了避免内部恶意员工导致的云数据中心信息泄露,主要通过云安全设计平台实现大数据的审计和取证,主要的审计技术包括业务访问审计、数据库审计、安全运维审计和数据隐私保护审计等。
动态扩展的云计算平台
紫光股份向云服务商转型的良好开端是了首台云计算机——紫云1000。紫光云计算机是基于云计算的技术思路构建的软硬件一体的大数据平台。负责云计算机研发的紫光软件集团首席技术官陈炜介绍说,紫光云计算机历经两年研发,采用与个人计算机、超级计算机完全不同的分布式体系架构,借助虚拟化技术将多个成本相对较低的计算资源融合成一台具有强大计算能力的计算机。紫光云计算机可以满足大数据处理、高吞吐率和高安全信息服务等多类应用需求,其计算能力和存储能力可以动态伸缩并无限扩展。
紫云1000可以作为企业云计算基础架构的一部分。“企业不用自己再对各类软硬件进行集成。”陈炜表示,“客户使用云计算机就像使用一台PC一样方便。与传统IT系统的部署相比,云计算机的部署时间可以缩短90%。”从各项技术指标看,紫云1000确有过人之处:单台紫云1000的CPU处理器数量可以从6个扩展至65535个,存储空间可由20TB扩展到85PB,吞吐量达到1.2GB/s,数据检索速度达到30亿条/秒。紫云1000从架构上区分主要包括两层:最底层是标准化的硬件,其上是紫光股份拥有自主知识产权的虚拟化模块、大数据模块和快速部署模块。紫云1000作为一个云计算平台,可以支持各类应用模块,比如邮件、即时通信、语音系统、个人网盘、数据共享等。
陈炜将紫云1000的特色归纳为以下四个方面:第一,软硬件一体化,从而大大降低了IT系统的整体拥有成本;第二,具有快速、无限的扩展能力,其分布式的大数据处理架构保证系统可随客户数据和业务的增长而实现线性扩展;第三,具有很高的可用性,其元数据服务器采用主备双机热备技术,在主机发生故障时,备机可自动接替其工作,而数据节点也采用冗余备份机制,任意一个节点出现故障,数据也不丢失,服务不会停止;第四,具有高效性,数据处理速度非常快,数据可在不同节点之间动态移动,同时保证各节点的动态平衡。
云计算机应用范围广
关键词 云计算 大数据 智慧农业
中图分类号:C37 文献标识码: A
1 概述
1.1 背景
农业是关系到国民经济基础的产业,世界上不论是发展中国家还是发达国家都非常重视农业的发展。对于我国,农业还有较多地区生产方式落后,生产效率相对低下,几乎没有信息化方面的投入;良种繁育不足,发展潜力受到限制,区域化信息严重不对称,没有统一的信息系统互通和平台信息共享;动物疾病频发,养殖、种植风险较大,检测调查缺乏;资源环境破坏,持续发展受到影响,政府的信息综合预警机制也一直得不到完善和健全;农业发展中还存在诸多问题,信息技术的普及,基层应用仍是我们目前急需解决的最大问题。。
1.2 目标
“智慧农业平台”采用云计算和大数据技术,从管理服务结构、终端布局设置、系统互联互通、垂直资源共享与管理功能覆盖五个层面搭建起新型信息化农业管控平台。进而推动农业信息技术的发展,加速农业现代化的实现,有效提升农业竞争力。“智慧农业平台”可以整合大量、分散的农业信息,建立农业数据库和各类应用系统;推进遥感等技术的发展及在全球定位系统、农业专家系统、农田遥感监测系统的应用;支持和促进虚拟技术、仿真技术、多媒体技术在虚拟农业领域的发展等。农业技术的发展不仅可以改变农业生产管理方式,促进农业主体由经验管理向科学管理转变,而且可以高效挖掘农业生产、经营、管理、服务领域规律,为各个环节的健康发展提供支持,进而推动农业现代化的实现,提升农业的整体竞争力。
2 原理
2.1 云计算
云计算是通过使计算分布在大量的分布式计算机上,而非本地计算机或远程服务器中,企业数据中心的运行将与互联网更相似。这使得企业能够将资源切换到需要的应用上,根据需求访问计算机和存储系统。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费。这种特性经常被称为像水电一样使用IT基础设施。
云计算包括以下几个层次的服务:基础设施即服务(IaaS),平台即服务(PaaS)和软件即服务(SaaS)。
2.2 大数据
大数据技术(big data)指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。在《大数据时代》一书中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。大数据的4V特点:Volume(大量)、Velocity(高速)、Variety(多样)、value(价值)。
随着云时代的来临,大数据也吸引了越来越多的关注。从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘,但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。
3 方案
3.1 架构
图1 总体架构图
智慧农业平台分三个层次,完成整个业务云平台的支撑。
资源层:提供云平台所需的信息资源和网络资源。信息资源和网络资源分为物联、互联和通信三类。
核心层:提供整个平台的所需要的计算资源、存储资源、桌面资源、数据资源,以及信息服务。整个核心层构成了农业公共信息平台。
业务层:提供云平台整体的业务功能,包含:农业管控系统、农业服务系统、技术推广系统、产业链业务系统、门户网站以及电子商务系统。
三个层次之外,还有两类接入实体,与云平台互动,形成完整的智慧农业平台生态环境。
3.2 组成
3.2.1 资源层
1.信息资源
信息资源根据采集和传输方式分为物联信息、互联信息和通信信息。
2.网络资源
网络资源根据所承载的内容和方式不同分为物联网、互联网和通信网。
3.2.2 核心层
1.云中心
提供整个平台运行和存储支撑,包括计算资源、存储资源、虚拟云桌面资源等。
云计算
利用云计算虚拟化技术,可以在整个基础架构范围内共享多台计算机的物理资源。利用虚拟机可以在多台虚拟机之间共享单台物理机的资源以实现最高效率。
云存储
利用弹性存储算法、跨广域网全局文件系统、可堆叠模块化设计等关键技术,基于TCP/IP或InfiniBand RDMA协议将物理分布的普通廉价的主流存储设备整合成高安全、高并发、易扩展、易整合、易管理的虚拟化存储池。
云桌面
通过各种协议连接到运行在服务器上的桌面的设备,为了充分利用已有资源,实现 IT 资产的最大化应用。
云管理
将原本静态分配的IT基础设施抽象为可管理、易于调度、按需分配的资源,并将这些资源统一管理提供按需灵活使用各类IT资源的服务。
2.云数据
为云平台提供数据支撑,包括基础的农业数据,以及业务相关数据等服务。
关键词: 云计算;分布式并行数据挖掘;海量数据
Abstract: In this paper, we develop a parallel and distributed data mining toolkit platform called PDMiner. This platform is based on cloud computing. PDMiner is used to preprocess data, analyze association rules, and parallel classification and clustering. Our experimental results show that the parallel algorithms in PDMiner can tackle data sets up to one terabyte. They are very efficient because they have good speedup, and they are easily extended so that they can be executed in a cluster of commodity machines. This means that full use is made of computing resources. The algorithms are also efficient for practical data mining. We also develop a knowledge flow subsystem that helps the user define a data mining task in PDMiner.
Key words: cloud computing; parallel and distributed data mining; big data
中图分类号:TN915.03; TP393.03 文献标志码:A 文章编号:1009-6868 (2013) 04-0032-007
随着物联网、移动通信、移动互联网和数据自动采集技术的飞速发展以及在各行各业的广泛应用,人类社会所拥有的数据面临着前所未有的爆炸式增长。美国互联网数据中心指出,互联网上的数据每年以50%的速度增长,每两年翻一番,而目前世界上90%以上的数据是最近几年才产生的,人类社会进入了“大数据”时代。因此,信息的获取非常重要,一定程度上,信息的拥有量已经成为决定和制约社会发展的重要因素。
数据挖掘作为信息获取的一门重要技术,得到了广泛的研究。数据挖掘[1]从大量的数据中挖掘出有用的信息,提供给决策者做决策支持,有着广阔的应用前景。由于要挖掘的信息源中的数据都是海量的,而且以指数级增长,传统的集中式串行数据挖掘方法不再是一种适当的信息获取方式。因此扩展数据挖掘算法处理大规模数据的能力,并提高运行速度和执行效率,已经成了一个不可忽视的问题。
为了解决海量数据的挖掘问题,一种简单的方式就是把所有的数据划分成若干份,也就是切分成若干个子任务,然后分布到各个计算资源上去进行计算,每个节点完成一个子任务,最后进行集成。分布式计算就是把一个计算问题分解成多个子问题并同时处理的计算模型。基于分布式计算模型,Luo等人[2-4]集成了很多数据挖掘算法到多主体系统。另外一种提高计算效率的方式是并行计算,并行计算也是把一个大的计算问题分割成小任务的形式。近年来,并行计算的体系结构和模型也引起了广泛的兴趣和研究[5-6]。
尽管分布式计算和并行计算有很相似的特点,但是它们之间各有侧重,分布式计算强调在所有异构计算资源上同时求解问题,而并行计算则更加强调同一台计算资源内部多线程并行。这两种计算方式可以对应到算法之间的并行以及算法内部并行这两种计算模式。文献[2-4]提出基于主体技术的算法之间并行的计算模式,他们利用主体技术中主体本身的自主性、智能性等特点,实现不同算法主体之间的并行计算,以消息传递的方式实现同步,大大提高了算法的执行效率,减少了运行时间。第二种计算模式,是粒度比较小的并行方式,主要研究的是算法内部的并行。通过把算法分解,尽可能地找出算法中可并行的部分进行并行计算。这种计算模型的最终效率取决于算法本身的可并行程度,如果并行程度非常高,那么就可以大大提高算法的运行效率。由于在很多应用中,只需要执行一种应用(算法),所以研究算法内部的并行实现非常重要。文献[7]实现了多种机器学习算法在多核计算机上的并行,本文主要针对第二种并行计算模式进行研究,而且可以在大规模计算机集群上运行。
近年来,云计算得到了学术界和业界的广泛关注,它是一种基于互联网的、大众参与的计算模式,其计算资源,包括计算能力、存储能力、交互能力,是动态、可伸缩、且被虚拟化的,以服务的方式提供给用户。基于大规模数据处理平台——Hadoop,我们研究开发了并行分布式数据挖掘平台——PDMiner,其目的是设计实现并行数据挖掘算法处理大数据集,且提高执行效率。在PDMiner中包含4个子系统,工作流子系统、用户接口子系统、数据预处理子系统和数据挖掘子系统。整个数据挖掘平台提供了一个从海量数据中挖掘有用知识的完整解决方案,而且提供了可扩展的灵活接口。
1 大规模数据处理平台
——Hadoop
Hadoop是一个软件计算平台,可以让程序员很容易地开发和运行处理海量数据的应用程序。其核心部分包括HDFS[8]和基于MapReduce[9-10]机制的并行算法实现。
1.1 HDFS
Hadoop分布式文件系统HDFS是受Google文件系统启发,建立在大型集群上可靠存储大数据集的文件系统。它和现有的分布式文件系统有着很多的相似性,然而和其他的分布式文件系统的区别也是很明显的。HDFS具有高容错性,可以部署在低成本的硬件之上。此外,HDFS提供高吞吐量地对应用程序数据的访问,适合大数据集的应用程序。
HDFS结构包含一个名字节点作为控制主节点,其他的服务器作为数据节点,存储数据。具体地说,HDFS具有如下几大特点:
(1)强容错性
HDFS通过在名字节点和数据节点之间维持心跳检测、检测文件块的完整性、保持集群负载均衡等手段使得系统具有高容错性,集群里个别机器故障将不会影响到数据的使用。
(2)流式数据访问与大数据集
运行在HDFS之上的应用程序必须流式地访问它们的数据集。HDFS适合批量处理数据,典型的HDFS文件是吉字节到太字节的大小,典型的块大小是64 MB。
(3)硬件和操作系统的异构性
HDFS的跨平台能力毋庸置疑,得益于Java平台已经封装好的文件IO系统,HDFS可以在不同的操作系统和计算机上实现同样的客户端和服务端程序。
1.2 MapReduce
MapReduce是Google实验室提出的一种简化的分布式程序设计模型,用于处理和生成大量数据集。通过该模型,程序自动分布到一个由普通机器组成的超大机群上并发执行。
Map和Reduce是该模型中的两大基本操作。其中,Map是把一组数据一对一的映射为另外的一组数据,Reduce是对数据进行规约,映射规则与规约规则可由用户通过函数来分别指定。现实生活中很多任务的实现都是可以基于类似这样的映射规约模式。
MapReduce通过把对数据集的大规模操作分发给网络上的每个节点来实现可靠性,每个节点会周期性地把完成的工作和状态信息返回给主节点。如果一个节点保持沉默超过一个预设的时间间隔,主节点就认为该节点失效了,并把分配给这个节点的数据发到别的节点,并且因此可以被其他节点所调度执行。
由于MapReduce运行系统已考虑到了输入数据划分、节点失效处理、节点之间所需通信等各个细节,使得程序员可以不需要有什么并发处理或者分布式系统的经验,就可以处理超大规模的分布式系统资源。
2 并行分布式大数据挖掘
平台体系架构
Hadoop提供了让程序员易于开发和运行处理海量数据应用程序的平台,其分布式文件系统HDFS是建立在大型集群上可靠存储大数据集的文件系统,具有可靠性,强容错性等特点;MapReduce提供了一种高效编写并行程序的编程模式。基于此,我们开发了并行数据挖掘平台——PDMiner,大规模数据存储在HDFS上,且通过MapReduce实现各种并行数据预处理和数据挖掘算法。
PDMiner是一个集成各种并行算法的数据挖掘平台,其中的并行计算模式不仅包括算法之间的并行,而且包括算法内部的并行。图1给出了并行数据挖掘平台PDMiner的总体系统架构,其中主要包括4个子系统:工作流子系统、用户接口子系统、并行抽取转换装载(ETL)子系统以及并行数据挖掘子系统。工作流子系统提供了友好的界面方便用户定义各种数据挖掘任务;用户接口可以对算法的参数进行设置以及通过结果展示模块分析挖掘结果并做出相应的决策;并行ETL算法子系统和并行数据挖掘算法子系统是PDMiner的核心部分,它们可以直接对存储在HDFS系统上的数据进行处理,ETL算法处理后的结果也可以作为数据挖掘算法的输入。
2.1 工作流子系统
工作流子系统提供了友好和统一的用户接口(UI),使得用户可以方便地建立数据挖掘任务。在创建挖掘任务过程中,可以选择ETL数据预处理算法、分类算法、聚类算法、以及关联规则算法等,右边下拉框可以选择服务单元的具体算法。工作流子系统通过图形化UI界面为用户提供服务,灵活建立符合业务应用工作流程的自定制挖掘任务。通过工作流界面,可以建立多个工作流任务,不仅每个挖掘任务内部并行,而且不同数据挖掘任务之间也并行。
2.2 用户接口子系统
用户接口子系统由2个模块组成:用户输入模块、结果展示模块。用户接口子系统负责与用户交互,读写参数设置,接受用户操作请求,根据接口实现结果展示。比如并行分类算法中并行朴素贝叶斯算法的参数设置界面如图2所示,从图中看到可以方便地设置算法的参数。这些参数包括训练数据、测试数据、输出结果以及模型文件的存储路径,而且还包括Map和Reduce任务个数的设置。结果展示部分实现了结果可视化理解,比如生成直方图、饼图等。
2.3 并行ETL算法子系统
数据预处理算法在数据挖掘中起着非常重要的作用,其输出通常是数据挖掘算法的输入。由于数据量的剧增,串行数据预处理过程需要消耗大量的时间来完成操作过程,因此为了提高预处理算法的执行效率,在并行ETL算法子系统中设计开发了19种预处理算法[11],如图3所示,包括并行采样Sampling、并行数据预览PDPreview、并行数据添加标签PDAddLabel、并行离散化Discretize、并行增加样本ID、并行属换AttributeExchange、并行布尔型数据到系列数据的转换BoolToSerialNum、并行数据归一化Normalize、并行属性约简PCA、并行数据集成DataIntegration、并行统计Statistic、并行属性约简AttributeReduction、并行数据区间化Intervalize、并行冗余数据删除RedundancyRemove、并行属性添加AttributeAdd、并行属性修改AttributeModify、并行数据缺失值替换ReplaceMissingValues、并行属性删除AttributeDel,以及并行属性选择AttributeSelection等。
通常ETL操作都具有很高的并行化程度,比如属性的删除,可以把数据划分成很多块,算法对每个数据块的处理都是相对独立的,因此并行ETL子系统中实现的并行ETL算法具有很好的加速比,大大提高了算法的运行速度和执行效率。
2.4 并行数据挖掘子系统
并行数据挖掘子系统是并行数据挖掘平台PDMiner的核心部分,主要包括了三大类算法:并行关联规则算法、并行分类算法[12]以及并行聚类算法等。
目前该并行数据挖掘子系统中已经开发了很多经典的数据挖掘算法,各类并行算法模块包含的算法如图4、图5、图6所示,其中并行关联规则算法包括并行Apriori算法[13],并行FP树FPgrowth以及并行Awfits算法;并行分类算法包括并行超曲面分类算法HSC、并行k近邻算法Knn、并行朴素贝叶斯算法NaiveBayes,并行决策树算法C4.5、并行基于范例推理算法CBR、并行基于类中心算法CBC以及并行极限向量机ESVM等;并行聚类算法包括并行DBScan算法,并行Clara算法[14]、并行k均值算法Kmeans[15-16]以及并行EM算法等。
执行数据挖掘算法的一般流程如图7所示。从算法流程来看,PDMiner是一个用户友好的系统,用户不用了解底层算法的设计和实现,就可以很容易使用系统。另外对于并行ETL子系统和并行数据挖掘子系统,还提供灵活的接口方便用户集成新的算法。
2.5 基于MapReduce实现的算法实例
下面以决策树为例描述基于MapReduce的并行算法的实现过程。决策树算法是利用已标记训练集建立决策树模型,然后利用生成的决策树对输入测试数据进行分类。在以前的很多工作,主要是把数据划分到多个计算节点上,然后各自建立决策树模型,最后采用集成的方式得到最终模型[17]。采用MapReduce机制可以很好地解决决策树算法内部的并行问题,提高算法的执行效率以及处理数据的规模。
图8给出了并行决策树算法的流程图。在该并行算法中,实现了同一层内节点之间、节点内的并行计算,提高算法的执行效率。更重要的是,实现的并行决策树算法以循环代替了递归,使得运行完程序所需要的最大作业(Job)个数可预测(最大数目为样本集中条件属性的数目 ),从而有利于控制程序的执行状态。而在递归中,无法预测还有多少节点要运算,这样就无法预测程序何时结束。由于层与层之间的运算是串行的,因此在基于MapReduce机制的并行决策树实现中,上一层都会传递前缀信息给下一层节点,这些前缀包括从根节点到当前分支的分裂属性信息等。
从流程图可以看到每一层只需要一个Job,而不关心有多少个节点。程序需要运行的最大层数由条件属性的个数决定,因此是可控制的。由于在并行的过程中主要是统计频率,因此的设计非常重要,设置如下:在训练过程中,训练数据被划分到各个节点中进行运算,Map函数输入的分别设计为样本ID和样本本身;输出的,key设计为训练样本对应的类别+条件属性的名字+条件属性的值,value为key出现的次数。Reduce函数的输入和输出的的设计均为Map函数输出的。
当还有前缀的情况下,需要删除训练集中包含生成决策规则的样本,该过程是一个读写的过程。对于包含新得到的决策规则的样本,不再写入训练集,这样在下一次迭代中就只计算那些没有包含生成决策规则的样本。
测试过程则非常简单,每个Map利用已生成的决策树模型对样本进行预测,直接样本的预测标记,不需要Reduce过程。
3 PDMiner的特点
3.1 可扩展性
PDMiner是一个可扩展的并行分布式数据挖掘平台,我们为系统提供了灵活的接口来扩展集成新的并行算法。通过工作流子系统可以很方便地添加一个新的算法,比如在并行ETL子系统中添加新的算法PDAlgorithm1,则只要添加如下代码:
通过加入最后一行代码以后就可以在选项卡PD-Filters下面加入一项PDAlgorithm1。生成空类PDAlgorithm1的代码如下:
其中在函数listOptions( )、getOptions( )、setOptions( )中编写配置算法参数的代码,在run( )函数中编写调用Map函数和Reduce函数的代码,用户可以根据具体的算法编写相应的Map函数和Reduce函数。并行数据挖掘算法的添加与ETL算法的添加类似。
3.2 支持多挖掘任务
在PDMiner中,不仅支持单个任务的创建和执行,而且支持同时创建和运行多个数据挖掘任务。这些任务可以是不同类别的挖掘任务,比如并行关联规则任务、并行分类和聚类任务等,当配置完参数,这些任务可以同时在并行分布式系统PDMiner中执行。
支持多挖掘任务功能,具有非常重要的作用。比如要对所有的分类算法进行比较,从而选择对已有数据集表现最佳的算法。一般的做法是串行测试完所有的算法,然后根据算法的效果进行选择。而在PDMiner中可以并行地解决该问题,所有的算法都面向同一个数据集(读取同一个头文件信息),最后结果通过系统进行展示,从而选择最合适的算法。从这个比较机制看到,所有的并行算法都是在并行系统中执行,因此可以处理大规模数据;另外,这些算法的执行过程是并行的,评价过程是自动的,因此可以减少算法执行时间和用户的干预。
3.3 创建复杂挖掘过程
通过工作流子系统,系统还支持创建复杂挖掘任务,可以把并行数据预处理操作和并行数据挖掘算法串联起来。系统提供并行属性删除操作、并行数据归一化以及并行分类算法朴素贝叶斯的串联。当配置完所有算法参数后,其执行过程如下:
·执行属性删除操作,对数据集进行属性删除操作,并且修改头文件,生成新的头文件信息。
·接收属性删除后更新后的头文件,进行数据归一化操作。
·进行分类算法任务。接收从第二步传递过来的头文件信息,然后启动分类算法任务。当任务执行完后,对分类结果进行展示。
4 实验分析
并行分布式数据挖掘平台PDMiner是一个高效的数据处理与分析工具,主要面向海量数据集的处理。在保证算法正确性的情况下,构造大数据集来考察算法的性能。系统中开发的并行算法已经在通信领域的实际数据挖掘中应用,以下给出了一些算法在构造的大数据集上的性能测试结果。鉴于隐私性等原因,这里没有给出具体的并行算法名称。
图9、图10、图11、图12、图13给出了2个并行ETL算法和3个并行数据挖掘算法的时间性能。ETL测试的数据规模达到太字节级,而关联规则、分类算法、聚类算法的数据规模分别是30 GB级别、400 GB级别、12 GB级别。我们分别记录了32个节点,64个节点,128个节点的运行时间。若假设32节点执行的时间是标准的理想状态下的时间,图中红线部分给出了理想情况下64节点和128节点的时间性能。从这些图中,可以看到:
·通过增加节点,都可以提高算法的运算速度,较少执行时间。
·算法本身越简单,即并行成分也大,效果越明显,ETL算法显然具有较高的加速比,执行效率也比较高;这说明算法的并行效率与自身可并行化的程度有关。
·如图11所示,算法有时候可以得到线性加速比,说明该并行数据挖掘系统可以有效地利用计算资源。但我们也应该看到这种并行计算模型也不是万能的,增加节点并不能总是能很好地提高效果(如图13所示),有时甚至会由于并行通信而使效果变差。
5 结束语
针对大数据的处理和挖掘,本文开发设计了并行分布式数据挖掘平台——PDMiner。基于Hadoop平台和MapReduce的编程模式,开发实现了各种并行数据预处理操作以及并行数据挖掘算法,包括关联规则算法,分类算法以及聚类算法等。另外,PDMiner还开放了灵活的接口,方便集成新的ETL算法和数据挖掘算法。实验测试表明,开发的并行算法可以处理海量数据,且具有很好的加速比性能。
参考文献
[1] HAN J W, KAMBER M, PEI J. Data mining: Concepts and techniques [M]. 3rd ed. San Francisco, CA,USA: Morgan Kaufmann Publishers, 2011.
[2] LUO P, LU K, SHI Z Z, et al. Distributed data mining in grid computing environments [J]. Future Generation Computer Systems, 2007,23(1):84-91.
[3] LUO P, LU K, HUANG R, et al. A heterogeneous computing system for data mining workflows in multi-agent environments [J]. Expert Systems, 2006,23(5):258-272.
[4] ZHUANG F Z, HE Q, SHI Z Z. Multi-agent based on automatic evaluation system for classification algorithm [C]//Proceedings of the International Conference on Information and Automation(ICIA’08),Jun 20-23,2008, Zhangjiajie, China. Piscataway, NJ, USA:IEEE, 2008: 264-269.
[5] HAMEENANTTILA T, GUAN X L, CAROTHERS J D, et al. The flexible hypercube: A new fault-tolerant architecture for parallel computing [J]. Journal of Parallel and Distributed Computing, 1996,37(2):213-220.
[6] GOUDREAU M W, LANG K, RAO S B, et al. Portable and efficient parallel computing using the BSP model [J]. IEEE Transactions on Computers, 1999,48(7):670-689 .
[7] CHU C T, KIM S K, LIN Y A, et al. Map-reduce for machine learning on multicore [C]//Proceedings of the 21st Annual Conference on Neural Information Processing Systems (NIPS’07), Dec 3-6,2007, Vancouver, Canada. Berlin, Germany: Springer-Verlag, 2007:281-288.
[8] BORTHAKUR D. The hadoop distributed file system: Architecture and design [R]. The Apache Software Foundation, 2007.
[9] DEAN J, GHEMAWAT S. MapReduce: Simplified data processing on large clusters [J]. Communications of the ACM, 2008,51(1):107-113.
[10] 万至臻. 基于MapReduce模型的并行计算平台的设计与实现 [D]. 杭州: 浙江大学, 2008.
[11] HE Q, TAN Q, MA X D, et al. The High-activity parallel implementation of data preprocessing based on MapReduce [C]//Proceedings of the 5th International Conference on Rough Set and Knowledge Technology(RSKT’10), Oct 15-17, 2010,Beijing, China. LNCS 6401. Berlin, Germany: Springer-Verlag, 2010:646-654.
[12] HE Q, ZHUANG F Z, LI J C, et al. Parallel implementation of classification algorithms based on MapReduce [C]//Proceedings of the 5th International Conference on Rough Set and Knowledge Technology(RSKT’10), Oct 15-17, 2010, Beijing, China. LNCS 6401. Berlin, Germany: Springer-Verlag, 2010:655-662.
[13] LI N, ZENG L, HE Q, et al. Parallel implementation of apriori algorithm based on MapReduce [C]//Proceedings of the 13th ACIS International Conference on Software Engineering, Artificial Intelligence, Networking and Parallel Distributed Computing (SNPD’12), Aug 8-12,2012, Kyoto, Japan. Piscataway, NJ,USA: IEEE, 2012:236-241.
[14] ZHAO W Z, MA H F, HE Q. Parallel K-means clustering based on MapReduce [C]//Proceedings of the1st International Conference on Cloud Computing(CloudCom’09), Dec 1-4, 2009, Beijing, China. LNCS 5931. Berlin, Germany: Springer-Verlag, 2009:674-679.
[15] HE Q, WANG Q, ZHUANG F Z, et al. Parallel CLARANS clustering based on MapReduce [C]//Proceedings of the 3rd International Conference on Machine Learning and Computing (ICMLC’11):Vol 6, Feb 26-28,2011,Singapore. Piscataway, NJ,USA: IEEE,2011: 236-240.
[16] HALL M, FRANK E, HOLMES G, et al. The WEKA data mining software: An update [J]. ACM SIGKDD Explorations Newsletter,2009,11(1):10-18.
[17] 宋晓云, 苏宏升. 一种并行决策树学习算法研究 [J]. 现代电子技术, 2007,30(2): 141-144.
作者简介
关键词:云计算;大数据;在线交互;模型;应用
随着网络技术的发展,网络上的交流方式越来越多,人们的学习、生活已经离不开网络,相关人士抓住了这一发展机遇在网络上创建了在线交互平台。在线交互平台是利用网络技术将信息公布在在线交互平台上,用于各企业用户的信息交流,其信息传播速度快、范围广,而且极易获取,所以成为网络企业用户信息交流的重要手段。而随着在线交互平台的慢慢推广,研究人员发现在线交互平台的信息交流方式对网络企业用户交流有着很重要的作用。在线交互平台的应用可以促进网络企业用户的主动交流与沟通,有效缩短网络企业用户之间的距离,提高在线交互平台的作用。而目前的在线交互平台应用还存在着一定的问题,本文通过构建模型的方式,着力解决这些应用问题[1]。
1 云计算与大数据概述
云计算是利用计算机的强大运算能力,将待计算的数据分成许多个小部分,然后利用多组服务器对每个部分分别进行计算分析,最后将计算的结果汇总并反馈给企业用户。云计算处理方式可以使计算机能够处理数据量很大、结构较为复杂的数据分析,而且使得数据处理的范围更加广泛,处理结果更加准确可靠。大数据则是计算机数据采集中常用的一种方法,其主要作用是从海量数据当中快速搜寻对数据分析有价值的信息,并将其保存。鉴于大数据只是一种数据采集方法,如果缺乏对应的数据处理方式,大数据的作用也无法体现出来,所以在此,可以将云计算和大数据相结合。大数据是从海量数据当中采集数据,而云计算则需要大量的数据作为运算基础,所以云计算与大数据的结合可以使双方都能充分发挥该有的作用。
2 在线交互平台存在的问题
2.1 企业用户验证及企业用户信息问题
当前的在线交互平台的企业用户验证体系还不够完善,在企业用户进行登陆时需要经过多次验证,严重影响企业用户的体验感,而且还会使得企业用户的账号安全得不到保障。此外,由于平台中存在多种应用方式,所以企业用户信息就会遍布各个应用,而且有许多应用的服务功能相近,这就使得平台的资源被浪费,企业用户的体验感下降,还不便于平台管理[2]。
2.2 数据类型问题
在线交互平台的信息类型有许多种,主要可以分为两大类:结构化信息以及非结构化信息。由于编码方式或者保存格式的不同,少部分数据会不同于寻常数据,出现异构的现象。而在线交互平台每天都有着海量的信息交流,这些资源都是通过网络进行,所以每天会有大量的信息资源,而且是以非结构化数据为主,再附带着一些异构数据。以当前的数据分析处理技术,无法将这些非结构化数据及异构化数据很好地处理。
2.3 数据缺乏深入分析
随着在线交互平台的推广以及人们见识的不断增长,企业用户们对在线交互平台的要求也越来越高。在线交互平台一定要根据企业用户的实际需求对交互平台的资源以及个性化功能进行调整,使得企业用户在交互平台的体验感不断提升,这就要求平台对信息的处理以及数据的分析更加深入。而当前的数据分析还停留在表面,数据分析技术不成熟,许多非结构数据和异构数据并不能得到很好的处理,不利于企业用户信息的反馈以及企业用户体验的优化。
2.4 服务器资源分配不合理
在线交互平台中有许多个服务器,每个服务器都分配有一定的资源,这些服务器分别负责各个应用模块的正常运转。有的应用比较受欢迎,每天的访问量十分庞大,这就使得对应的服务器的负载很大,严重时甚至发生瘫痪;而有的应用比较冷门,每天的访问量很少,对应的服务器经常空出大部分负载,造成资源浪费,但是由于这些系统是长期开放的,随时都可能有企业用户登陆,所以就算在平时很少有人使用,也要开启服务器,而且需要定期进行维护,增加了维护的成本[3]。
3 应用模型的构建
为了有效解决目前在线交互平台所存在的问题,提高在线交互质量,特构建在线交互平台应用模型。该应用模型利用了云计算和大数据,主要由三大部分组成:企业用户个性化服务层、数据分析处理层以及配套硬件设施层。
3.1 企业用户个性化服务层
根据不同企业用户的需求,设置专门的企业用户个性化服务功能。每个企业用户都可以对当前的页面进行个性化设计,便于企业用户对平台功能的使用。平台的服务功能主要有信息管理服务、信息咨询服务、交互服务等等。平台会因为每个企业用户所设计的个性化服务不同而提供不同的内容。对于信息咨询者而言,在线交互平台会将企业用户所咨询问题的答案及时反馈给企业用户,包括问题产生的原因、问题的具体解决办法等。对于在线交流的企业用户而言,平台可以为参与企业用户提供交流的平台,并配有信息咨询服务,方便企业用户在交流过程中遇到问题时可以及时询问解答。在线交互平台是信息资源集中的地方,为了便于企业用户快速查询信息资源,要尽量保证信息资源具有唯一性,将冗杂信息及时清理,避免重复信息,减轻服务器的负担,也便于信息资源的及时更新[4]。
3.2 数据分析处理层
在线交互平台的数据分析处理层主要应用了云计算和大数据技术,支持各种数据的分析处理,包括计算机文件、图片、视频短片、地形数据等。经过处理后的数据及时保存在数据库当中,并定期对数据进行整体更新,实现数据库与外界实际情况对接,提高数据的实用价值。利用服务器平衡负荷可以有效提高服务器的利用率,扩大在线交互教育平台的企业用户容量。将负载较大服务器上的企业用户转移一部分到空闲服务器上,让多个服务器共同分担负载,既能减轻服务器负担,提高空闲服务器的利用率,还能缩短在线交互平台信息反馈的等待响应时间,提升企业用户的体验感。
大数据技术在在线交互平台的应用可以将杂项去除,用各种算法对数据进行分析,并挑选出具有典型特征的数据作为样本组,为数据的进一步处理做准备。在挑选出样本组数据之后,利用云计算的方式对数据进行进一步处理,运用相关运算法则,以离线数据作为参考,对当前的样本组数据进行进一步分析,并将数据及时反馈给平台。经过进一步分析处理之后的数据可用来制作索引,方便企业用户查询。
3.3 配套硬件设施层
利用云计算可以有效解决当前平台的配套硬件设施管理问题。对这些硬件设施实行统一动态管理,可以提高硬件的使用效率,将资源利用率最大化,并可以提高硬件的实用性和可靠性。当其中某个硬件发生故障时,会有其他硬件暂时代替该硬件的工作,直到维修工作完成。
4 结束语
近年来,网络技术发展十分迅速,许多在线交互平台随之出现。以目前的情况来看,在线交互平台的应用还存在许多的问题。将云计算和大数据技术应用到在线交互平台,构建在线交互平台模型,可以有效解决这些应用问题,并提高平台的数据处理能力,提升平台企业用户的体验感,为在线交互平台的普及应用打好基础。
参考文献
[1]程学旗,靳小龙,王元卓,等.大数据系统和分析技术综述[J].软件学报,2014,25(09):1889-1908.
[2]吴涛,金义富,张子石.云计算时代虚拟学习社区的特征分析――以未来教育空间站为例[J].电化教育研究,2013,34(01):57-61.
[3]彭小圣,邓迪元,程时杰,等.面向智能电网应用的电力大数据关键技术[J].中国电机工程学报,2015,35(03):503-511.
【关键词】大数据 云计算 计算机
“大数据”这个词在世界上的地位日益显著,甚至隐约可以成为这个时代的代名词。对于数据信息的采集和处理已然成为各行各业创造经济突破的新增长点,是企业战略目标制定和实施的关键依据。大数据的概念决定了它需要在一个特殊的平台上才能够发挥作用,庞大的信息量并不是以往的单机处理系统可以“吃得消”的。而云计算平台的建立正好弥补了这一方面的短板,其新颖的信息处理模式与大数据概念有着很好的契合度。但是目前大多数研究者的目光都是集中在大数据分析上,关于大数据与云计算平台应用的研究尚处于初级阶段。不过可以预期,未来大数据和云计算平台必将成为社会的发展核心。
1 大数据和云计算平台基本概念
大数据的作用通过网络已经在生活中处处可见,它已经不是单纯的IT领域特有的研究,而是应用于社会多领域的综合性数据处理理念。大数据代表的不仅是指容量上的庞大,也代表了种类上的复杂。大数据包括交易和交互数据集在内的所有数据集,其规模或复杂程度超出了常用技术按照合理的成本和时限捕捉、管理及处理这些数据集的能力。大数据的发展突出了数据信息在社会生活中的重要,同时也对信息处理体提出更高的要求,即在更短的时间内准确地处理更多的数据,这也要求信息处理系统必须有强大的计算能力、庞大的储存量、及时的交互性。
云计算平台是一种通过互联网按需提供面向海量数据处理和完成复杂计算的平台。云计算在处理海量数据时,按照一定的准则将数据分散到不同计算机中进行处理操作,大大提高了处理速度,适用于数据密集型计算。同时云计算可以对电脑本地资源、网络资源等进行整合,为用户提供高效、安全的数据服务。
2 大数据与云计算平台优势分析
数据处理是大数据的基础要求,新时代下的“大数据”理念已经是无法用传统计算机处理方式来满足的,因而需要一种新的计算方式作为支持。容量大、种类多、价值高、更新快的特点使得大数据看起来像是一座高楼大厦,有着巨大的价值等待人们的开发利用,而云计算所提供的安全、高效的数据应用服务可以有力地支撑这座楼房。
大数据与云计算平台是一个由众多技术融合的综合体,其主要包括虚拟化技术、分布式海量数据存储与管理和分布式并行编程技术。大数据与云计算平台充分利用云计算适用于数据密集型计算的特点,很好地贴合了大数据对数据量和数据类型的要求;云计算分散到集群电脑的处理方式能够实现数据的及时调用和动态调整,达到高效、快速处理数据信息的目的;平台可以利用虚拟化处理方式对电脑本地资源、网络资源等进行整合、按照要求进行统一调度,实现信息价值最大化。同时大数据与云计算平台具有良好的相容性,能够与各种系统应用做到有效契合。以云计算为核心的数据处理平台能够满足更加复杂的操作要求,同时其容量大、运行稳定、安全性高的特点能够适应现在对数据处理的需求;大数据可以为云计算的运行提供指导,对云计算的资源进行有效的调配。
3 大数据与云计算平台的应用
3.1 对数据的有效管理
大数据与云计算平台可以将数据按照一定的准则分布到不同区域中进行处理操作。对不同的数据按照不同标准进行判别,将容量巨大的信息进行细化处理,化整为零,根据各种类型的特点对数据信息进行处理。这种管理手段十分灵活,能够保证大容量、多格式数据信息处理的稳定性;有较强的兼容性,应用范围广,可以保证跨平台多方合作的稳定性。比如,可以利用大数据与云计算平台建立一个企业信息系统,将企业内部不同业务的数据信息统一储存,采用分布式工作流和调度框架构建管理框架,在使用时通过正确的指令信息完成信息的调度、匹配及整合,减少数据管理环节出现的失误。
3.2 提供决策支持
在现代企业中,接收到数据越来越多元化,不仅数量上增加而且种类也变得繁多,大数据与云计算平台可以对这些信息做出有效的处理成为企业决策的依据。大数据与云计算平台可以在系统分析功能上设计一定程度的业务逻辑,依据企业设定标准,将提取出的相关信息整理为企业相关预测,作为企业决策的参考。大数据与云计算平台还可以提供决策模拟,对其中的数据信息进行核对校正,及时为企业提供反馈信息,方便决策的再次制定。
3.3 保障信息安全
大数据与云计算平台不仅能够快速处理数据信息,还可以提供一个安全的系统环境,保障信息不受外界破坏。在数据收集时对信息来源进行确认,在判定信息来源安全合法的情况下在允许访问,对于那些安全性未知或不合法的来源实行强制关闭以拒绝访问。在数据处理时保证数据的完整性,避免因为不适当操作导致重要数据的损坏或丢失。
4 总结
大数据与云计算的结合为数据处理打开了新的世界,在以后必然会越来越多地应用于社会的各个领域。我们应该不断加深对大数据与云计算的理解,结合实际,开发出更加先进的数据处理平台。
参考文献
[1]宫夏屹等.大数据平台技术综述[J].系统仿真学报,2014,26(3):489-496.
[2]商娟叶与张丽敏.云计算平台在高校的开发与应用研究[J].电子设计工程,2012,20(10):140-142.
[3]杨宏杰.试论大数据和云计算平台应用[J].电子技术与软件工程,2014(23):214-214.