发布时间:2023-11-10 11:02:46
序言:作为思想的载体和知识的探索者,写作是一种独特的艺术,我们为您准备了不同风格的14篇数据分析方法,期待它们能激发您的灵感。
1、将收集到的数据通过加工、整理和分析的过程,使其转化为信息,通常来说,数据分析常用的方法有列表法和作图法,所谓列表法,就是将数据按一定规律用列表方式表达出来,是记录和处理数据最常用的一种方法。
2、表格设计应清楚表明对应关系,简洁明了,有利于发现要相关量之间的关系,并且在标题栏中还要注明各个量的名称、符号、数量级和单位等。
3、而作图法则能够醒目地表达各个物理量间的变化关系,从图线上可以简便求出实验需要的某些结果,一些复杂的函数关系也可以通过一定的变化用图形来表现。
(来源:文章屋网 )
关键词:大数据;分析模型;房价
中图分类号:TP399 文献标识码:A 文章编号:1007-9416(2017)03-0137-02
1 引言
大数据分析首先要建立一个分析模型,分析模型是大数据分析的基石,只有先建立了模型才能对大数据进行分析。构建大数据分析模型传统的方法很难实现,大数据非结构化、属性很难预知,通过数学、统计学等方法构建大数据分析模型都比较困难,机器学习是构建大数据分析模型最有效的方法之一。机器学习通过不断地学习优化、不断地迭代逼近所要的模型。
2 训练数据准备
机器学习构建大数据分析模型的方法是通过训练数据将模型训练出来。从要研究的大数据对象中找出训练集。机器学习分为监督学习和非监督学习,监督学习需要教师,监督机器学习的结果,事先设定好学习目标,期望的结果。非监督学习的数据一般都无标签,学习结果事先也无法预知,通过数据可视化等方法观察学习结果。
房价大数据分析模型机器学习属于监督学习,期望预测值极大地逼近真实值。首先需要采集房价数据作为训练数据,然后设计房价大数据分析模型机器学习算法,计算机通过机器学习算法和学习路径学习训练数据,学习目标是预测的结果极大地逼近真实数据,通过反复迭代,不断地接近目标,训练出所希望的模型。
3 数据清洗
清洗后的训练数据如下:
间数(x1) x1 2 x1 2 x1 3 x1 3 x1 3 x1 3 x1 2 x1 2 x1 2 x1 3 x1 3 x1 3 x1 2 x1 2 x1 1 x1 3 x1 3 x1 3 x1 3 x1 1 x1 2 x1 2 x1 2 x1 2 x1 2 x1 3 x1 2 x1 3 x1 2 x1 2 x1 3 x1 2 x1 2 x1 3 x1 3 x1 3 x1 2 x1 3 x1 2 x1 1 x1 2 x1 2 x1 2 x1 2
面e(x2) x2 126 x2 99 x2 134 x2 137 x2 135 x2 138 x2 104 x2 99 x2 105 x2 126 x2 112 x2 116 x2 88 x2 90 x2 79 x2 120 x2 155 x2 158 x2 161 x2 66 x2 108 x2 88 x2 111 x2 103 x2 104 x2 131 x2 105 x2 130 x2 102 x2 105 x2 148 x2 98 x2 100 x2 128 x2 110 x2 101 x2 121 x2 127 x2 103 x2 67 x2 78 x2 71 x2 81 x2 77
价格(y1) y1 460 y1 425 y1 515 y1 580 y1 630 y1 600 y1 425 y1 439 y1 435 y1 608 y1 460 y1 460 y1 410 y1 380 y1 340 y1 520 y1 685 y1 680 y1 630 y1 328 y1 532 y1 405 y1 495 y1 470 y1 480 y1 690 y1 480 y1 690 y1 462 y1 495 y1 540 y1 440 y1 510 y1 599 y1 395 y1 450 y1 455 y1 595 y1 403 y1 295 y1 315 y1 345 y1 355 y1 335
4 房价大数据分析模型机器学习算法
机器学习首先要设计机器学习学习算法,设计机器学习学习路径,机器学习解决的问题通常可分为预测和分类两类问题。首先我们分析一下要解决的问题是属于预测问题还是分类问题,然后选择相应的学习算法,设计学习路径,通过训练数据训练和机器学习构建大数据分析模型。模型通过训练数据训练出来以后,对模型进行检验,然后不断进行优化,以达到我们所期望的精度。
以下是梯度下降机器学习算法和学习路径:
首先建立一个估值函数(模型)如下:
x为自变量(特征参数),h(x)为应变量(房价的估值),希望求出此函数的系数θ0、θ1,构成一个完整的函数,此函数就是我们要构建的大数据分析模型。
我们建立一个成本函数,希望预测值与真实值的差趋近于0,也就是成本函数值趋近于0。
J(0, 1)=
其中:
X(I)表示向量X中的第i个元素;
Y(I)表示向量Y中的第i个元素;
表示已知的假设函数;
m为训练集的数量;
Gradient Descent梯度下降方法机器学习步骤:
(1)先随机选定一个初始点;
(2)确定梯度下降方向;
(3)通过实验确定下降步伐,学习率Learning rate;
(4)通过不断地递归,收敛到极小值;
通过梯度下降法使成本函数趋于0,在此条件下求得自变量的系数θ0和θ1,将此θ0和θ1带入到函数中得到我们要的模型。
下面是介绍如何运用梯度下降法,经过反复迭代求出θ0和θ1:
梯度下降是通过不停的迭代,最后沿梯度下降到最低点,收敛到一个我们满意的数据,误差趋近于0时迭代结束,此时的θ0和θ1正是我们要求的函数自变量的系数,有了θ0和θ1,这个假设的函数就建立起来了,这个函数就是我们要建的大数据分析模型。
梯度下降法分为批量梯度下降法和随机梯度下降法,批量梯度下降法速度较慢,每次迭代都要所有训练数据参与;随机梯度下降精度差一些,容易在极值周围震荡;房价大数据分析模型采用的是实时数据梯度下降法(Real Time Online Gradient Descent),可以随着房价的变化随时修正模型的参数。
5 构建房价大数据分析模型
通过数据可视化,我们可以看到房价数据趋于线性,所以我们采用线性回归构建房价大数据分析模型。采用监督学习,先给定一个训练集,根据这个训练集学习出一个线性函数,然后检验这个函数训练的好坏,即此函数是否足够拟合训练集数据,不断优化模型减少残差,最大限度地接近真实值。
假设房价大数据分析模型:
y=aX1+bX2
通过梯度下降法,不断递归,最后使假设值与实际值之差趋近于0,求得此时的模型变量系数a、b,构建线性函数(房价大数据分析模型)。模型通过回归诊断、交叉验证不断进行优化,直到误差达到要求。
以下是采用机器学习算法构建的房价大数据分析模型,用R语言编写房价大数据分析模型程序如下:
令:a=q1;b=q2;
将训练数据以数据框的形式存储。
pricedata
x1
x2
y
造梯度下降算法函数,初始点q1=0、q2=0;下降速率d=0.0001。
grd2
q1=0;
q2=0;
d=0.0001;
i=0;
m=9;
plot(y~x1+x2,data=pricedata,pch=16,col='red');
通过反复迭代得出估值函数系数q1、q2。
while (i
{
i=i+1;
q1=q1-d/m*(q1*x1+q2*x2-y)*x1;
q2=q2-d/m*(q1*x1+q2*x2-y)*x2;
}
return(q1);
return(q2);
}
grd2();
model2
summary(model2);
通过summary(model2)汇总出模型变量系数。
关键词:数据分析应用率;分析应用点;四个层次;数据中心;仪表盘
中图分类号:N37 文献标识码:B 文章编号:1009-9166(2009)02(c)-0063-02
现代企业的决策往往是在整合大量信息资料的基础上制定出来的,对数据的理解和应用将是企业决策的基石。与传统的操作型应用相比,数据利用的应用建设难度更大,它是随着管理水平而发展,同时又取决于业务人员的主观意识,这就决定了以数据利用为核心的应用建设不可能一蹴而就,而是一个长期迭展的建设过程。从2003年起工厂开始全面推进数据分析应用工作,经历过曲折,同时也有收获。经过多年的努力,工厂的数据分析应用工作开始进入良性发展阶段,笔者认为有必要对工厂目前数据分析应用工作作一总结和思考。
一、工厂数据分析应用工作开展现状
工厂数据分析应用工作推进至今已有四五年的时间,从最初全面调研工厂数据量和数据分析应用状况,将数据分析应用率指标作为方针目标定量指标来考核,到后来将数据分析应用工作的推进重心从量向质转移,采用以项目为载体进行管理,着重体现数据分析应用的实效性,再到目前以分析应用的需求为导向,以分析应用点为载体,分层次进行策划。经过上述三个阶段,工厂数据分析应用工作推进机制得到了逐步的完善,形成了广度深度协同发展的信息资源利用管理框架。截止到目前,工厂数据分析应用率达到96%,四个层次的分析应用点共计100多个,数据分析应用工作在生产、质量、成本、物耗、能源等条线得到广泛开展,有效推动了工厂管理数字化和精细化。2007年,工厂开始探索细化四个应用层次的推进脉络,进一步丰富工厂信息资源利用框架,形成层次清晰、脉络鲜明、职责分明的信息资源利用立体化的推进思路。
1、第一层次现场监控层。第一层次现场监控层,应用主体是一线工人和三班管理干部,应用对象是生产过程实时数据,应用目标是通过加强生产过程控制,辅助一线及时发现生产过程中的异常情况,提高生产稳定性。例如制丝车间掺配工段的生产报警,通过对生产过程中叶丝配比、膨丝配比、梗丝配比、薄片配比、加香配比等信息进行判异操作,对异常情况通过语音报警方式提醒挡车工进行异常处理;例如卷包车间通过在机台电脑上对各生产机组的工艺、设备参数、实时产量、质量、损耗数据的监控,提高对产品质量的过程控制能力。第一层次应用以上位机和机台电脑上固化的监控模型为主,制丝车间每个工序、卷包车间每种机型的应用点都有所不同,为此我们建立了制丝车间以工序为脉络,卷包车间以机种为脉络的应用点列表,围绕脉络对第一层次应用点进行梳理,形成第一层次应用的规范化模板。制丝车间第一层次应用点模板包括工序名称、应用点名称、应用模型描述、应用对象、应用平台、异常处置路径等基本要素。卷包车间应用点模板横向根据机种分,纵向按上班及交接班、上班生产过程中、下班及交接班三个时间段分,通过调研分别列出挡车工针对每个机种在三个时间段分别要查看的数据和进行的操作。随着模板的扩充和完善,一线职工的知识、经验不断充实其中,第一层次应用点模板将成为一线工人和三班管理干部日常应用监控的标准,同时可以规避人员退休或调动带来的经验、知识流失的风险。2、第二层次日常管理分析层。第二层次日常管理分析层,应用主体是一般管理干部,应用对象是产质损、设备、动能等指标,应用目标是通过加强对各类考核指标的监控和分析,提高工厂整体的关键绩效指标水平。例如制丝车间的劣质成本数据汇总和分析,通过对车间内各类废物料、劣质成本的数据进行汇总、对比和分析,寻找其中规律及薄弱环节,并寻根溯源,采取措施,降低劣质成本。例如卷包车间的产量分析,通过对产量数据、工作日安排、计划产量进行统计和汇总,结合车间定额计划、作业计划和实际产量进行分析,寻找实际生产情况与计划间的差异,并分析原因。第二层次应用以管理人员个性化的分析为主,呈现出分析方法多样化、应用工具多样化的特点。但是万变不离其中的是每个管理岗位的管理目标以及围绕管理目标开展的分析应用是相对固定的,至少在短期内不会有太大的变化。为此我们建立了一份以重点岗位为脉络的应用点列表,围绕脉络对第二层次应用点进行梳理,形成第二层次应用的规范化模板。模板包括岗位名称、管理目标、应用点名称、应用描述、涉及主要考核指标、应用平台、应用频次、分析去向等基本要素。通过构建第二层次应用点模板,明确了每个管理岗位应用信息资源支撑管理目标的内容和职责。随着新的管理目标的不断提出以及应用的逐步深入,模板每年都会有更新和扩充。3、第三层次针对性分析应用层。第三层次针对性分析应用层,应用主体是项目实施者,应用对象是各类项目的实施过程,例如QC项目、六西格玛项目、质量改进项目,或针对生产中的特定事件进行的分析和研究。应用目标是通过应用数据资源和统计方法开展现状调查、因果分析、效果验证等工作,提高各类项目实施的严密性和科学性。第三层次的应用工具在使用初级统计方法的基础上会大量应用包括方差分析、回归分析、正交试验、假设检验、流程图等在内的中级统计方法。以QC活动为例,我们可以看出其实施过程无一不与数据应用之间有密切的联系[1]。近年来,在质量改进项目和QC项目的评审工作中已逐步将“应用数据说话、运用用正确合理的统计方法,提高解决问题的科学性”作为项目质量考核标准之一。而六西格玛项目实施的核心思想更是强调“以数据和事实驱动管理”,其五个阶段[2]D(定义)、M(测量)、A(分析)、I(改善)、C(控制),每个阶段都要求结合如FMEA(失效模式后果分析),SPC(统计流程控制),MSA(测量系统分析),ANOVE(方差分析),DOE(实验设计)等统计方法和统计工具的应用。4、第四层次主题性应用层。第四层次主题性应用层,应用主体是中层管理者,应用对象是专业性或综合性的分析主题,应用目标是通过专业科室设计的专题性分析模型或综合性分析模型,为中层管理层提供决策依据。工厂在实施了业务流程“自动化”之后,产生了大量的数据和报表。如何将工厂的业务信息及时、精炼、明确地陈述给中层管理层,以此来正确地判断工厂的生产经营状况,是摆在我们眼前的一个突出问题。大家都有开车的经验,司机在驾驶车辆的时候,他所掌握的车况基本上是来自汽车的仪表盘,在车辆行使的过程中,仪表盘指针的变化,告知汽车的车速、油料、水温等的状况,驾驶员只要有效地控制这些指标在安全范围之内,车子就能正常地运行。我们不妨将仪表盘的理念移植于工厂,建立工厂关键指标及运行管理仪表盘,将工厂的关键信息直观地列在上面,及时提醒各级管理人员工厂生产运营是否正常。
⑴关键绩效指标监控系统。对分布在各处的当前及历史数据进行统一展示,以工厂关键绩效指标为中心,支持统计分析和挖掘,可为中层管理者提供工厂关键绩效指标一门式的查询服务,使各业务部门寻找、阐释问题产生的原因,以有效监控各类关键绩效指标,及时采取改进措施,提高生产经营目标完成质量。⑵系统运行状态监控系统。通过数据采集、手工录入等各种渠道收集各类系统的运行状态,及时掌握故障情况,采取措施加以闭环,将因系统故障造成对用户的影响减至最小,确保各类系统的稳定运行和有效应用。通过建立系统运行状态监控系统,中层管理人员上班一打开电脑进入系统,就能了解到当天及上一天各类系统的运转情况,发生了什么异常,哪些故障已经得到解决,哪些故障还未解决。⑶第四层次主题性分析应用。在展示关键绩效指标和系统运行状态的基础上,由各专业科室思考专业条线上的分析主题,采用先进科学的理念和方法对数据进行分析和挖掘。近两年来,工厂充分发挥专业科室的优势和力量,相继设计和开发了工艺质量条线的六西格玛测评系统,设备条线的设备效能分析系统,还有质量成本核算与分析系统。通过这些分析主题的支持,工厂管理人员可以更方便快捷地了解质量、设备、成本等条线上的关键信息,及时采取相应措施,从而提升管理效率。
二、数据分析应用工作存在的不足及思考
工厂数据分析应用工作的推进方法从最初的采用数据分析应用率单个指标进行推进发展到目前按上文所述的四个层次进行推进,每个层次的推进脉络已经逐步清晰和明朗,但事物发展到一定的阶段总会达到一个瓶颈口,目前工厂数据分析应用工作存在的问题及措施思考如下:
1、从推进手段上要突破信息条线,充分发挥专业条线的力量。信息条线作为推进工厂数据分析应用的主管条线,其作用往往局限在技术层面上的支撑。虽然信息条线每年都会规划形成工厂数据分析应用整体的工作思路和具体的实施计划,但是无论从工厂层面还是从车间层面来讲,单纯依靠信息条线从侧面加以引导和推进,使得数据分析应用工作始终在业务条线的边缘徘徊,与产量、质量、设备、消耗、成本、动能等各个条线本身工作的结合度有一定的距离。所以工厂要进一步推进数据分析应用工作,调动起业务人员的积极性和主动性,突破现有的瓶颈,应该考虑如何调动起专业条线的力量。一是可以在年初策划应用点的时候要加强专业条线对车间业务自上而下的指导,引导管理人员加强对缺少数据分析支撑的工序、岗位/管理目标的思考;二是建立平台加强各车间同性质岗位之间的沟通与交流,均衡各个车间的数据分析应用水平和能力;三是对车间提交的分析报告给出专业性的指导意见。2、要加强对数据中心的应用。数据中心的建立可以使业务系统从报表制作、数据导出等功能中解放出来,专注于事务处理,将数据应用方面的功能完全交给数据中心来解决。目前,数据中心已建立了涉及产量、质量、消耗等各个条线的Universe模型,并对全厂管理干部进行了普及性的培训。但是从目前应用情况来看,还比较局限于个别管理人员,追寻原因如下:一是业务系统开发根据用户需求定制开发报表,业务人员通常习惯于从现成的报表中获取信息。如果要求业务人员使用数据中心工具自行制作报表模板,甚至可能需要将其导出再作二次处理,那么业务人员一定更倾向于选择第一种方式。二是近几年来人员更替较多,新进管理人员不熟悉数据中心应用,导致数据中心应用面受到限制。随着今后MES的建设,业务系统中的数据、报表、台帐和分析功能将有可能由业务用户自行通过集成在MES中的数据中心前端开发工具来访问和灵活定制。因此,要尽快培养工厂业务人员数据中心的应用能力,包括数据获取以及报表定制方面的技能。笔者认为应对方法如下:一是对于岗位人员变更做好新老人员之间一传一的交接和培训;二是适时针对新进管理人员开展集中培训;三是通过采用一定的考核方法。3、提高新增应用点的质量。工厂每年都会组织各部门审视第一、第二层次应用点列表,围绕重点工序和重点管理岗位调研有哪些应用上的空白点是需要重点思考的,以新增分析应用点的方式进行申报和实施。同时针对第三层次针对性分析应用,工厂也会要求部门以新增分析应用点的方式将需要数据支撑的项目进行申报。作为一项常规性工作,工厂每年都会组织部门进行应用点的申报,并按项目管理的思想和方法实施,事先确立各个应用点的应用层次、数据获取方式、实现平台,并对其实施计划进行事先的思考和分解,确定每一个阶段的活动目标、时间节点以及负责人员,每个季度对实施情况予以总结,并动态更新下一阶段的实施计划。该项工作从2005年起已经连续开展了三年,部门可供挖掘的应用点越来越少,如何调动部门的积极性,保持并提高应用点的实效性,我们有必要对新增分析应用点的质量和实施情况进行考评,考评标准为:一是新增分析应用点是否能体现数据应用开展的进取性、开拓性和创新性;二是新增分析应用点是否能切实提高管理的精细化和科学化水平;三是新增分析应用点是否能采用项目管理的思想和方法实施,按时间节点完成各项预定计划。
三、结束语。随着近几年来技术平台的相继成熟以及管理手段的逐步推进,工厂业务人员用数据说话的意识已经越来越强,但是要真正使工厂管理达到“三分技术、七分管理、十二分数据”的水平,还有很长的路要走,这既需要我们的业务人员从自身出发提高应用数据的水平和能力,同时也需要工厂从管理手段和管理方法上不断拓宽思路、创新手段,真正实现数据分析应用成为工厂管理的重要支撑手段。
作者单位:上海卷烟厂
参考文献:
【关键词】土工实验;实验数据;数据分析;分析方法
一、引言
在进行实验过程中,由于土体本身所具有的复杂性,土质质检所存在的物理学特性以及采样、运输、存储等等方面所表现出来的特点,都容易对数据造成一定程度的干扰,致使实验的结果出现误差。另外,因为实验本身受到很多因素的干扰,也同样容易发生数据偏差的问题。因此,本文着重从实验数据所涉及的内容,影响实验数据的因素,以及提升实验准确率的角度出发,对土工实验数据分析方法进行探讨。
二、土工试验数据所涉及内容
(一)土的比重实验。土工试验过程中,土的比重实验是非常重要的。一般来说,地域相同或者相近,那么土的比重也将会比较相近。但是,因为在实际操作中,其整个的操作流程比较复杂,所以不同的单位会采用本地所出具的或者考察的相关数据直接进行比重实验,这样容易导致实验数据的误差存在。
(二)土的密度实验。通过土的密度实验可以详细的了解土的组成,可以了解其组成成分的性质,能够为之后的施工提供更多的参考。土的密度与土粒的重量、孔隙体积、孔隙大小、孔隙水重等等内容息息相关,能够反映土的组成和基本结构特征。在进行实验的过程中,要注意尽量避免对取样即时进行实验,最好能够等待土样达到日常状态之后再进行试验,这样可以让土密度实验的结果更加准确。
(三)土的含水量实验。土的含水量实验可以说是土工实验中的核心内容,其实验的情况将会影响到工程地基建设,还会影响到后续工程的稳定性。不同地区的土样其含水量不同,并存在很大程度上的差异性。实验人员在进行取样的过程中,要保证其样品的均匀性,或者具有代表性,否则进行试验所获得的数据就没有任何指导意义,其数据在实践应用中的效率和质量也将会呈现大幅度的下降。
三、土性参数实验结果误差性的原因
(一)土体本身性质导致。依照相关的物理力学和力学性质,我们可以了解到土体的分层具有不均匀性,加上其所处环境的变化,可能发生的雨水冲击、水文变化、其后影响等等语速怒,都会让土体的性质发生改变。这样在进行土工试验的时候就非常容易造成实验结果的差异性,甚至有可能会成为差异产生的主要影响因素。
(二)系统误差。系统误差是由于仪器的某些不完善、测量技术上受到限制或实验方法不够完善没有保证正确的实验条件等原因产生。不同的单位所使用的仪器往往不尽相同,所使用的试验方法也有一定的出入,加上不同的试验方法让土工参数出现离散性,其所实验的数据也就会有所不同。系统误差的存在可以予以避免,其与偶然误差不同,这就需要实验室对设备和系统进行改进。
(三)偶然误差。偶然误差的特点是它的随机性。如果实验人员对某物理量只进行一次测量,其值可能比真值大也可能比真值小,这完全是偶然的,产生偶然误差的原因无法控制,所以偶然误差总是存在,通过多次测量取平均值可以减小偶然误差,但无法消除。偶然误差的存在属于客观存在的现象,其与人为原因所造成的误差有很大的差别,对于两者应当予以区分。
四、土工实验数据分析方法的应用
(一)进行数据检查,果断进行取舍。在进行实验的过程中,如果有明显不符合物理力学性质的值的范围点,则可以通过观察予以了解,实验人员要对其进行细致观察,一旦发现异常立刻予以放弃。一般判断的标准是大部分数值为范围内波动,但是有一点超出正常值或者距离正常值较远,则可以被认定为不合理。在实验数据较多的情况下可以运用3σ法则进行数据之间取舍的考量。在进行实验过程中,存在于之外数值所占比例较少,因此,大于和小于之间数值作为异常处理。
(二)土工实验数据中最小样本数问题。在土工试验过程中,最小样本数问题需要引起人们的重视。实验中的样本数要选取适当,如果样本数过小就会影响实验结果的准确性。但是,样本数的数量并不是随意定制的,其受到多种因素的影响,比如工程规模、工程精度要求、现场勘查情况等等。
(三)土体性质指标的自相关性的问题。根据以往数据实验的关联性,求的往往是其之间的线性相关系数,但是对于其自相关函数通常并没有表现出线性相关,而是指数相关。因此,不能简单依照求相关系数的方法判断其相关性。在进行土工实践过程中,往往可以通过δ对其独立性进行判断。在相关距离 范围内,图形指标基本相关;在此范围外,图形指标基本不相关。但是对于δ事先未知,因此其需要根据样本测值进行求算,一般使用递推平均法对相关距离δ进行计算,并使用间距Z对δ的影响进行综合考量。一般来说,Z /δ的数值越大,其各抽样点的土性越接近相互独立,抽样误差也就越小。
五、结束语
土工试验对于土工建设来说影响较大,其影响因素包括土体本身性质、取样仪器情况、人为因素等,需要对此方面予以重视。对其不合理点来说,可以通过3 原则进行剔除。对于其数据相关性来说,其可以通过迭代求解土性指标相关距离予以解决,通过样本的加权平均来对该区域的平均性指标进行估算。为了让样本能够满足实验需要,可以利用Bayes方法对其土性指标与因确认,从而弥补数目不准确的情况。通过此三个方面对其进行方法的应用,则可以有效提升实验数据的准确性、可靠性,可以让实验的结果更加符合实际需要。
参考文献
[1]余海龙,张利宇. 土工实验数据分析方法探讨[J].中国新技术新产品,2015,21:132-133.
[2]刘松玉,蔡正银. 土工测试技术发展综述[J].土木工程学报,2012,03:151-165.
关键词:大数据;分析模型;检验方法
中图分类号:G712 文献标志码:A 文章编号:1674-9324(2017)17-0082-02
一、引言
房价大数据分析模型通过机器学习方法构建,模型建立完成后需要对模型进行检验,房价大数据模型需要检验拟合的情况,欠拟合说明模型对数据的覆盖程度不够,过拟合无法反应模型的通用性。通过回归诊断,诊断残差情况,残差是反映真实值与假设值之间的差,希望模型残差尽量小,假设值极大地逼近真实值。通过检验可以剔除奇异数,剔除一些干扰项。
二、回归诊断
1.房价大数据分析模型。price1
Residuals:
Min 1Q Median 3Q Max
-7.5556 -2.6667 -0.2222 3.5556 8.6667
残差最小是-7.5556,最大是8.6667,中值是-0.2222。估计的值与真实值存在一定的误差,通过求极值算法使之最小。
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 43.7778 5.7061 7.672 0.000256 ***
size 1.5111 0.2461 6.140 0.000855 ***
room 15.7778 10.7282 1.471 0.191782
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’‘ ’ 1
Residual standard error: 5.837 on 6 degrees of freedom
Multiple R-squared: 0.9949,Adjusted R-squared: 0.9932
F-statistic:582.3 on 2 and 6 DF, p-value: 1.346e-07
2.模型参数。采用最小二乘法算法,经过机器学习,训练出模型参数,构成房价大数据分析模型:房价大数据分析模型为y=aX1+bX2+C,其中:X1=size(面积),X2=room(间数),y(总价)。经过机器学习得到模型以下参数:Size=1.5111;Room=15.7778;截距=
43.7778;y=1.5111*X1+15.7778*X2+43.7778,此函数为房价大数据分析模型。
3.显著性检验。
Estimate Std. Error t value Pr(>|t|)
(Intercept) 43.7778 5.7061 7.672 0.000256 ***
size 1.5111 0.2461 6.140 0.000855 ***
room 15.7778 10.7282 1.471 0.191782
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’‘ ’ 1
残差自由度为6的残差标准误差为5.837,p-value:1.346e-07,P值很小说明无自相关性,残差项之间独立。自变量与应变量相关性,截距和size显著性均为三颗星***,说明截距和size与Y相关性显著;room没有星,说明room与Y房价相关性不显著。
4.拟合情况分析。
通过数据可视化,观察房价大数据散点图,可以看出房价大数据训练样本呈直线分布。可以用线性回归进行房价大数据分析模型的构建。
通过残差与拟合图,观察和分析模型对训练数据集拟合程度,从上图拟合线(红线)对数据的拟合情况看,基本上拟合了大多数数据。没有发生欠拟合或过拟合。Multiple R-squared: 0.9949,Adjusted R-squared: 0.9932,从这两个数据可以看出拟合达到99%以上,拟合程度很高。
5.假设性检验。从正态Q-Q图上可以看出,数据分布在45°直线周围,标准残差成正态分布,满足正态性假设。
6.方差检验。同方差性,若满足不变方差假设,位置―尺度图纵坐标为标准化残差的平方根,残差越大,点的位置越高。从图中可以看出经过对残差处理为标准化残差的平方根,拟合的总体趋势还可以,个别点可以看出远离拟合线如“点5”、“点7”,奇异点已经显露。
7.奇异数检验。从残差与杠杆图中可以看出离群点和影响强度。Cook's distance值衡量强影响点的强度,从图中可以看出“点7”这个点Cook's distance值超过0.5是所有数据中Cook's distance值最高的数据,它是目前的强影响点。杠杆值高的数据是离群点,目前“点4”杠杆值也较高,它也是离群点。
关键词:粗糙集理论;数据分析方法;信息系统;决策表;属性约简
中图分类号:TP18 文献标识码:A文章编号:1009-3044(2007)06-11651-01
1 引言
粗糙集(Rough Set)理论[1]是波兰数学家Z.Pawlak于1982年提出的,它建立在完善的数学基础之上,是一种新的处理含糊性和不确定性问题的数学工具。其主要思想是在保持分类能力不变的前提下,通过知识约简,导出问题的决策或分类规则[2]。由于粗糙集理论不需要任何预备或额外的有关数据信息,使得粗糙集理论成为研究热点之一,被广泛应用与知识发现、机器学习、决策分析、模式识别、专家系统和数据挖掘等领域。
属性约简是粗糙集理论中核心研究内容之一[3]。在众多的属性约简算法中,大致可以分为两类:一类是基于信息熵的启发式算法[4],这类算法往往不能得到系统的所有约简.另一类是基于区分矩阵和区分函数构造的算法[5],这种算法直观,易于理解,能够计算出所有约简。但在区分矩阵中会出现大量的重复元素,造成时间和空间的浪费,从而降低了属性约简算法的效率。
本文基于数据分析方法[6]的属性简约算法是在保持分类能力不变的前提下,逐个约去冗余的属性,直到不再有冗余的属性,此时得到的属性集是最小属性集,即为约简。该算法简单,能够求出所有约简,不会出现区分矩阵中大
量的重复元素,从而提高了属性约简的效率。
2 粗糙集概念
定义2.1设U为所讨论对象的非空有限集合,称为论域;R为建立在U上的一个等价关系族,称二元有序组S=(U,R)为近似空间。
定义2.2令R为等价关系族,设P?哿R,且P≠?I,则P中所有等价关系的交集称为P上的不可分辨关系,记作IND(P),即有:[x] IND(P)= ∩ [x]R,显然IND(P)也是等价关系。
定义2.3称4元有序组K=(U,A,V,f)为信息系统,其中U为所考虑对象的非空有限集合,称为论域;A为属性的非空有限集合;V=∪Va,Va为属性a的值域;f:U×AV是一个信息函数,?坌x∈U,a∈A,f(x,a)∈Va。对于给定对象x,f(x,a)赋予对象x在属性a下的属性值。信息系统也可简记为K=(U,A)。若A=C∪D且C∩D=?I,则S称,为决策表,其中C为条件属性集,D为决策属性集。
显然,信息系统中的属性与近似空间中的等价关系相对应。
定义2.4设K=(U,A,V,f)为信息系统,P?哿A且P≠?I,定义由属性子集P导出的二元关系如下:
IND(P)={(x,y)|(x,y)∈U×U且?坌a∈P有f(x,a)=f(y,a)}
则IND(P)也是等价关系,称其为由属性集P导出的不可分辨关系。
定义2.5称决策表是一致的当且仅当D依赖于C,即IND(C)?哿IND(D),否则决策表是不一致的。一致决策表说明:在不同个体的条件属性值相同时,他们的决策属性值也相同。
定义2.6设K=(U,A)为一个信息系统。若P?哿A是满足IND(P)=IND(A)的极小属性子集,则称P为A的一个约简,或称为信息系统的一个约简。
定义2.7设K=(U,CUD)为一个决策表,其中C为条件属性集,D为决策属性,若P?哿C为满足POSC(D)=POSP(D)的极小属性子集,则称P为决策表K的一个约简。其中POSC(D)表示决策D关于属性集C的正域。
定义2.8数据分析方法对于信息系统K=(U,A),逐个移去A中的属性,每移去一个属性即刻检查新得到的属性子集的不可分辨关系,如果等于IND(A),则该属性可被约去,否则该属性不可被约去;对于决策表K=(U,CUD),逐个移去C中的属性,每移去一个属性即刻检其决策表,如果不出现新的不一致,则该属性可被约去,否则该属性不可被约去。
3 基于数据分析方法的属性简约算法
3.1 算法思路
利用函数的递归调用,逐个判定信息系K=(U,A)中属性a(a∈A),若IND(A)=ND(A-{a}),则a可以约去,A‘=A-{a},否则a不可以约去,继续检查A‘中的每个属性是否能被约去,此过程一直进行下去,直到出现某一属性子集中的每个属性都不可约去为止,此时该属性子集即为所求的属性简约。对于决策表,每次检查是否增加了不一致的决策规则,作为是否约去属性的依据。
算法如下:
输入:信息系统K=(U,A)。
输出:K的属性约简。
Match(A') // A’=A-{a}//
begin
for i=1to|U|-1 //|U|表示U的基数//
for j=i+1to|U|
begin
r=|R|//|R|表示属性个数//
if((f(ui,a1)= f(uj,a1))∧(f(ui,a2)= f(uj,a2))∧….∧(f(ui,ar)= f(uj,ar)))
then a不可被约去,return0
end
a可以被约去return1
end
Reduce (A)
begin
flag=1
for i=1 to |R|//|R|表示属性个数//
begin
a=ai
A'=A-{ai}
if match(A')thenflag =0 , reduce (A’)
if (flag且A未被输出)then
输出A中所有元素//flag≠0,说明A中所有元素不可移去,且不会被重复输出//
End
end
以上给出的函数是求解信息系统的属性约简算法;对于决策表,只要将Match(A’)函数中的if语句的条件换成(f(ui,a1)= f(uj,a1))∧(f(ui,a2)= f(uj,a2))∧….∧(f(ui,ar)= f(uj,ar))∧(f(ui,ag)≠f(uj,ag)),r=|C|是条件属性个数,ag是决策属性。Reduce (A)函数中|R|换成|C|即可。该算法适用于一致决策表,对非一致决策表,算法类似,也就是逐个移去属性并检查决策表是否出现新的不一致,作为约去此属性的依据。
4 举例
文献[7]中决策表1,a,b,c,d,e是条件属性,g是决策属性,求出的约简是{a,b,d}
应用本算法,求得的属性约简为{a,e}和{a,b,d},得到决策简化表2和表3。
表1 决策表表2简化表表3简化表
如果将决策表表1看作一信息系统,运用本算法,求得的属性约简有{c,d,e,g}, {b,e,g}, {a,c,d,g}, {a,c,d,e}, {a,b,g}, {a,b,e}h和{a,b,d}
5 结束语
本文通过数据分析方法讨论了属性约简问题。该算法是基于不可分辨关系的,具有直观、易于理解和完备性的特点。当属性和对象都较少时,效率较高,但当属性和对象较多时,计算的复杂度较高。实例表明,该算法是有效的。
参考文献:
[1]PAWLAK z.Rough set[J].International jom:ua ofcomputer and information science,1982,(11):341―356.
[2]张文修,吴伟志,梁吉业等.粗糙集理论与方法[M].北京:科学出版社,2001.
[3]Pawlak Z.Slowinski R.Rough set approach to muhiattribute decision analysis.Ivited Review[J].European Journal of Operational Research.1994,72:443-459
[4]王国胤,于洪,杨大春.基于条件信息熵的决策表约简[J].计算机学报,2002(7):760―765.
[5]Skowron A,Rauszer C.The Discernibility Matrices and Functions in Information Systems[A].I Slowinsk R.ntelligent Decision Support― Handbook of Applications and Advances of the Rough Sets Theory[c].1991,331-362.
[6]刘请.Rough集及Rough推理[M].北京:科学出版社,2001.
【关键词】信息通信网;网络告警;告警数据;多维度分析
信息通信网告警是指在网络运行异常时获得网络运行状态,对网络运行进行正确的评估,判断网络故障。告警系统的应用有效的减少了故障发生概率,提高了生产效率。多维度分析方法是告警数据的一大特点,文章将其进行具体的分析如下。
1信息通信网络告警管理的层次体系
构建网络告警管理层次体系,拓展其影响范围并实现管理创新具有必要性。在以往的信息通信网告警管理中,网络设备是其主要实现途径,有效的实现了对网络的监督。随着科技的发展,现阶段网络告警不仅可以应用网络设备,还能够实现级报警,也就是对所得信息进行分级处理,得到一定的网络状态后,从整体上考虑,完成性能级告警、业务感知告警、容量负荷类告警和网络运行异常告警等多层次的告警内容,并可以对不同的告警内容实施不同的管理方案,进一步提高了通信网的告警效率。他是按照性能需求将网络业务设定标准,超出标准后即出现报警。在通信网使用过程中,由于用户量剧增,因此容量负荷是主要故障之一。针对这类故障我们设置了运行负荷进行监测,即在超出负荷后发出预警。总之,信息通信网络的告警是多维度的,多层次的,只有这样才能保证系统的安全运行。
2信息通信网络告警数据的多维度分析方法
2.1故障工单数据的获得
故障数据是提供解决方案的基础,因此信息通信网络告警的分析首要问题就是获得数据源提供的故障数据工单,工单数据不同于告警数据,它主要体现在电子运维系统中。是通过对网络结构的分析而获得的相关数据,用以判断是否存在系统故障。对于故障处理实施在线监控,可以随时发现其中存在的故障。网络管理系统具有多样性,通常是由多个商家提供,但是可以实现对故障的集中处理,具有详细性和全面性特征。故障分析过程包括了全部字段,如设备告警息息字段、告警派单相关字段、告警标准化字段以及处理过程等。确保电子运维系统的运行安全才能保证信息通信网络的安全。其作用就是反馈信息,并对相关数据进行存储和处理。创建工单序列号,时间以及处理整个流程,进而解决故障问题。
2.2多维度信息通信网络告警数据分析
信息通信网络告警数据具有层次性,因此应根据不同的特征将其进行分类,采用独立分析与结合分析的方式提高数据的处理效率。笔者将信息通信网络告警信息分为总量类、单量类和逻辑类三种,并对其进行相应的分析。分析信息中是否存在三超信息,也就是信息量操长告警、超量告警以及超短告警,利用该方法可以快速定位故障并予以解决。通过维护人员的故障分析方法则可以保证故障工单的反馈有效,积累大量的维护经验,实现资源的共享。随着我国通信业务的发展,不仅业务量增多,业务类型也不断的增多,因此信息数据的种类是复杂的,对其处理应采用科技化的方式,以减少处理过程中的资源浪费,确保系统的运行问题。多维度分析方法分为几个重要的模块,在大量告警系统的分析下,通过小模块逐步分析,并将结果汇总的方式,得到最终的故障位置,这种分析方法符合信息系统运行规律,可以确保信息系统的运行稳定,具有积极意义。
2.3信息通信网络告警多维度分析的应用
信息通信网络告警多维度分析主要应用于电信、工业以及服务等领域,将其应用于设备管理具有高效性,由于传统设备检验过程时间长,检验效果不理想。而对其采用多维度告警分析后,能够及时查找设备故障,并提供必要的解决方案。多维度分析方法能获得网络的运行动态信息,使对网络运行的判断更加准确,对所有数据进行分析和统计,进而提高了网络运行维护水平,是我国现阶段主要推广应用的信息通信网络故障处理方式。在告警数据的分析和处理下,网络异常现象得到了解决,并且对网络运行具有监督作用,一旦出现异常,就会立刻报警。当然,多维度分析方法的预警也是准确的,不会出现误报警现象。因此为及时准确的发现通信系统故障提供了基础。未来,这一技术将进一步发展,并从根本上解决信息通信系统的故障问题,提高网络运行质量。
3总结
文章主要分析了信息通信网络的告警系统,致力于实现告警的多维度分析方法。我国信息通信的增多,对其质量要求也就更高。通过多维度分析方法可以建立完善的预警设备,对数据进行收集、整理和处理,实现对网络运行状态的实时监控,一旦出现故障,会及时告警,从而保证了设备维修,促进了设备的运行稳定。同时,多维度分析方法的实施还需要专业维修人员的配合,不断的提高我国网络运行维护水平和服务水平,提供更加优质的服务,才能促进其可持续发展。
参考文献
[1]王洋.信息通信网络告警数据多维度分析方法研究[J].网络新媒体技术,2015(4).
[2]李梅,杜翠凤,沈文明.基于大数据分析的移动通信网络规划方法[J].移动通信,2015(10).
关键词:大数据分析方法;企业档案管理;档案数据资源;企业创新决策
Abstract: With the gradually go deep into the research of big data, the enterprise innovation decision-makings are more and more dependent on data analysis, and the enterprise archive data resources provide the data base for enterprise’s these decisions, therefore used of big data analysis in Enterprise Archive Management has important significance. This paper detailed expounds the Data Quality Management, Visualization Analysis, Semantic Engines, Data Mining, Tendency Prediction and so on five big data analysis methods in the application of Enterprise Archive Management and problems that deserve attention.
Keywords: Big data analysis method; Enterprise Archive Management; archives data resources; enterprise innovation decision-making
2015年9月5日,我国政府了《促进大数据发展行动纲要》,旨在促进大数据和云计算、物联网、移动互联网等新一代信息技术的融合,探索大数据和传统产业发展新模式,推动传统产业转型升级和新兴产业发展。正如大数据专家舍恩伯格所说:大数据正在改变人们的生活和人们理解世界的方式,更多的变化正蓄势待发,大数据管理分析思维和方法也开始影响到我们企业档案管理的发展趋势。
1 大数据分析方法在企业档案管理中应用的背景
1.1 大数据研究逐渐纵深化。自从2008年science杂志推出Big Data专刊以来,国内外对大数据的研究如火如荼。经过一段时间的探索,“目前大数据领域的研究大致可以分为4个方向:大数据科学、大数据技术、大数据应用和大数据工程。而人们对于大数据技术和应用两个方面的关注比较多”[1]。正如2012年奥巴马政府投入2亿美元启动 “大数据研究和发展计划”的目标所显示的那样,目前大数据的研究逐渐向纵深化方向发展,着重从大型复杂的数据中提取知识和观点,帮助企业实现从“数据分析能力”向“数据决策能力与优势”的转化。
1.2 企业创新决策越来越依赖于数据分析。对于企业技术创新者而言,目前更多的企业高层越来越依靠基于数据分析的企业技术创新决策。靠传统的经验方法去决策往往是滞后的,因此,大数据分析方法作为先进的定量分析方法,目前出现的一些先进数据分析方法与技术势必会对企业的运行管理、生产业务流程、管理决策产生飞跃式的影响。大数据分析方法也成为企业档案数据分析、技术创新决策的有效工具。
1.3 企业档案为企业创新决策提供数据基础。对于一个企业而言,使用的数据资源必须具有真实性可靠性。“企业档案是在企业的各项活动中直接形成并保存备查的各种文献载体形式的历史记录”[2],企业档案是企业在生产、经营、管理等活动中形成的全部有用数据的总和。除了发挥着凭证参考维护历史真实面貌的作用之外,企业档案更“是企业知识资产和信息资源的重要组成部分”[3],具有知识创新性、不可替代性,为企业技术创新决策提供数据基础。“特别是在当前大数据背景下,企业档案数据资源的开发与建设对企业经营决策的制定与适应市场竞争环境起到关键性作用。”[4]
在上述背景下,将大数据分析方法应用在企业档案管理中具有重要性意义:不仅拓展企业的管理决策理论,同时帮助企业运用所拥有的档案数据资源洞察市场环境,发现新的竞争对手,进行自我总结,做出科学决策,使企业紧紧抓住大数据时代带来的市场机遇。
2 大数据分析方法在企业档案管理中应用的方式
大数据分析方法在企业档案管理中的实现方式即是将大数据分析方法运用在企业档案信息分析挖掘上。它贯穿企业数据处理的整个过程,遵循数据生命周期,广泛收集数据进行存储,并对数据进行格式化预处理,采用数据分析模型,依托强大的运行分析算法支撑数据平台,发掘潜在价值和规律并进行呈现的过程。常见的大数据分析方法“其相关内容包括可视化分析、数据挖掘、预测分析、语义分析及数据质量管理”[5]。
2.1 数据质量管理提升企业档案数据资源品质。大数据时代企业档案数据资源呈现出4V特点,这使得企业档案数据很容易出现不一致、不精确、不完整、过时等数据质量问题。基于数据生命周期对企业档案数据资源进行数据质量管理分为数据预处理、数据存储、数据使用三个阶段。在数据预处理阶段,通过ETL工具即数据经过萃取(Extract)、转换(Transform)、加载(Load)至目的端这几个预处理过程达到数据清洗和格式化的目的。目前Oracle公司的Data Integrator和Warehouse Build、微软的Dynamics Integration及IBM的Data Integrator都是比较常见的ETL工具。在数据存储与使用阶段,针对目前企业档案大数据呈现出4V的特点,传统关系型数据库在数据存储与数据管理方面已经难以胜任,非关系型数据库以其高吞吐量、可拓展性、高并发读写、实时性等特性能够满足数据存储与管理的要求。目前应用最广的是并行处理系统MapReduce和非关系型数据库比如谷歌的Big Table和Hadoop的HBase。将ETL工具移植入云计算平台系统,将会大大有助于完成数据清洗、重复对象检测、缺失数据处理、异常数据检测、逻辑错误检测、不一致数据处理等数据质量处理过程,从而保证企业档案数据资源的数据质量。
2.2 可视化分析提升企业档案数据资源可理解性。
“大数据可视分析是指在大数据自动分析挖掘方法的同时,利用支持信息可视化的用户界面以及支持分析过程的人机交互方式与技术,有效融合计算机的计算能力和人的认知能力,以获得对于大规模复杂数据集的洞察力。”[6]那么企业档案数据资源的可视化分析可以理解为借助可视化工具把企业档案数据资源转化成直观、可视、交互形式(如表格、动画、声音、文本、视频、图形等)的过程,便于企业经营者的理解利用。
以2015年2月15日最新版的“百度迁徙”(全称“百度地图春节人口迁徙大数据”)为例,该项目让我们近距离了解到大数据可视化。它利用百度后台每天数十亿次的LBS定位获得的数据进行计算分析,全程展现中国人口迁徙轨迹,为政府部门科学决策提供科学依据。受该项目启发,企业可将拥有不同类型的档案信息进行可视化,比如进行企业档案的网络数据可视化、时空数据可视化、时间序列数据可视化、多维数据可视化、文本数据可视化等[7]。以文本数据可视化为例,目前典型的文本可视化技术标签云,可以将档案文本中蕴含的主题聚类、逻辑结构、词频与重要度、动态演化规律直观展示出来,为企业决策提供依据。另外,常见的信息图表类可视化工具主要有Google chart、 IBM Many Eyes、Tableau、Spotfire、Data-Driven Documents(D3.js)等;时间线类可视化工具主要是Timetoast,、Xtimeline、Timeslide、Dipity等;数据地图类可视化工具主要有Leaflet、Google fushion tables、Quanum GIS等。这些新技术都为企业档案数据资源可视化提供了科学工具。
2.3 语义引擎实现企业档案数据资源的智能提取。大数据时代全球数据存储量呈激增趋势,传统的基于人工分类目录或关键词匹配的搜索引擎(谷歌、百度等)仅仅能够进行简单的关键词匹配,用户无法得到非常准确的信息,检索准确率并不高,而且检索结果相关度较低,检索结果缺乏引导性。为提供给用户高质量的检索结果,改善用户搜索体验,提高效率,实现智能提取,语义搜索引擎应运而生。“语义引擎是随着语义网的发展,采用语义网的语义推理技术实现语义搜索的语义搜索引擎。”[8]它具备从语义理解的角度分析检索者的检索请求,能够理解检索者的真正意图,实现信息智能提取。对语义分析可以采取自然语言处理方法进行概念匹配,提供与检索者需求相同、相近或者相包含的词语。目前存在基于本体的语义处理技术,它以本体库作为语义搜索引擎理解和运用语义的基础。对于企业而言,将语义引擎分析方法与协同过滤关联规则相结合,可以挖掘用户的需求,提供个性化的服务。比如亚马逊公司通过对用户检索的语义进行分析推理,结合协同过滤关联规则,为用户提供相近需求的产品,提升自己的经济效益。对于一份人事档案而言,语义引擎也能分析出该份人事档案中的某人的职务、级别,从中提取出姓名一职务一级别一时间等关键信息,提高检索准确率和效率,实现智能提取。
2.4 数据挖掘发现企业档案数据资源的隐性价值。“数据挖掘又称数据库中的知识发现”[9]。简而言之,数据挖掘就是企业从数据集中发现知识模式,根据功能一般分为预测性模式和描述性模式,细分主要有分类与回归模型、聚类分析模型、关联规则模型、时间序列模型、偏差检测模型等。主要挖掘方法有神经网络方法、机器学习方法数据库方法和统计方法等。
数据挖掘是大数据分析方法的核心。对于企业而言,数据挖掘的档案数据资源应该由两部分组成:一是企业正常运行管理过程中所形成的档案数据资源,通过运用分类、聚类、关联规则等方法对企业内部的数据进行挖掘,发现潜在模式,为企业技术创新人员决策提供支持。比如在2004年全球最大的零售商沃尔玛在分析历史记录的顾客消费数据时,发现每次季节性飓风来临之前,手电筒和蛋挞的数量全部增加。根据这一关联发现,沃尔玛公司会在飓风用品的旁边放上蛋挞,提升了企业的经济效益;二是企业在运行过程中遗存在互联网上的数据,通过网络舆情及时跟踪可以获取市场最新动态,为企业调整服务模式、市场策略、降低风险提供依据。比如Farecast公司运用数据挖掘,从网络抓取数据来预测机票价格以及未来发展趋势,帮助客户把握最佳购买时机,获得较大成功。
2.5 趋势预测分析实现企业档案数据资源的价值创造。“预测分析是利用统计、建模、数据挖掘工具对已有数据进行研究以完成预测。”[10]预测分析的方法分为定性与定量分析两种方法:定性分析如德尔菲法以及近年来人工智能产生的Boos-ting・贝叶斯网络法等;定量分析法一般从形成的历史数据中发掘数据模型达到预测效果,如时间序列分析模型、分类与回归分析模型等。
企业档案数据资源预测分析是在企业档案数据资源数据挖掘的基础之上,发现适合模型,将企业档案数据输入该模型使得企业技术创新人员达到预测性的判断效果,实现价值的创造。一个典型的例子即是市场预测问题,企业技术创新者可以根据档案数据预测某件产品在未来六个月内的销售趋势走向,进而进行生产、物流、营销等活动安排。具体来讲企业可以通过数据时间序列分析模型预测产品销售旺季和淡季顾客的需求量,从而制定针对独特的营销策略,减少生产和销售的波动性,获得利润和竞争优势。预测分析在大数据时代彰显出企业档案数据资源独特的魅力。
3 大数据分析方法运用于企业档案管理中应当注意的问题
3.1 成本问题。大数据分析需要依靠分析工具和运算时间,特别是在复杂的企业档案数据资源中采用相关大数据分析工具的科技成本还是很高的,要以最少运算成本获得更有价值的数据内容。合理选择大数据分析工具不光可以节省运算成本而且能够更快速获取盈利增长点,同时在大数据分析和企业档案数据资源的存储成本方面也要适当的控制在合理的范围内。既要保证大数据分析质量,又要降低企业档案存储成本是大数据分析方法运用到企业档案管理中的重要原则。
3.2 时效问题。“大数据的动态性强,要求分析处理应快速响应,在动态变化的环境中快速完成分析过程,有些甚至必须实时分析,否则这些结果可能就是过时、无效的”。[11]由此可见,影响大数据分析的重要因素就是时效性问题。“大数据数据分析的核心内容之一是数据建模”,[12]数据分析模型要不断的更新适应数据的动态变化。如果模型落后于数据的变化,那数据分析只能是失效的。同时由于经济环境、政治生态、社会文化等因素不断变革,企业档案数据的收集也会产生新的问题。只有不断加强对这些数据的实时监测和有效分析,才能更好的识别出数据变化中的细微之处,建立与之相适应的数据分析新模型。
3.3 情感问题。“大数据的另一个局限性在于它很难表现和描述用户的感情。”大数据分析方法在处理企业档案数据方面可以说如鱼得水,大数据分析是一种科学的机器运算方法,无法去实现人文价值提取,比如如何从企业档案数据资源中提取企业文化,这更需要人的情感直觉去实现,而严谨的科学数据是无法实现的。因此,我们在热衷于大数据分析方法的量化结果时,同时也不要忽略在传统企业档案管理中的那份人文精神。
【关键词】驾驶行为;油耗;大数据;绿色驾驶
A Method of Automobile Driving Behavior and Data Analysis
ZHANG Zhi-de
(Guangzhou Automobile Group Co.,Ltd.,Automobile Engineering Institute,Guangzhou Guangdong 510640,China)
【Abstract】A car bus data collection and analysis methods of environment,expatiates the bus signal correlation between performance and corresponding working principle of the electronic control module,each over a period of time the data to carry on the comprehensive analysis,put forward several kinds of conditions associated with economic driving model,and through the working condition of model reflects in a period of time correlation between vehicle fuel consumption and driving behavior,for the analysis of driving behavior to provide the reference basis.
【Key words】Driving behavior;Oil consumption;Big Data;Eco-driving
0 引言
随着近几年汽车销售和保有量的急剧增加,降低能源消耗与汽车排放的要求越来越严格。节能减排政策成为对应汽车领域能源问题和治理环境污染的主要措施之一。橄煊节能减排,各个汽车制造商都在积极研究新技术以对应能源与环境需求。其中车辆动力技术、道路条件以及汽车驾驶运用是目前影响汽车燃油消耗的三大主要因素。汽车的驾驶运用水平直接反应在汽车驾驶人员对于汽车燃油经济性掌控的关键环节。驾驶人员以较少的汽车燃油消耗实现车辆空间位置安全转移的驾驶行为就是目前我们所倡导的汽车节能驾驶。通过研究驾驶行为数据并进行分析提示,辅助提高驾驶技术、研究节能驾驶辅助系统有巨大的节能潜力。
狭义上的驾驶行为数据分析一般是以考虑经济性驾驶为基础研究对象和主要前提。通过对驾驶员控制油门、挡位和制动等相关操作,在不改变车辆动力结构前提下,计算一段时间的控制数据和车辆理想驾驶模型数据进行对比,提醒驾驶人员日常驾驶行动的统计结果,包括对操作车辆油门、挡位、制动的方式。并以此为依托进行驾驶习惯改进、驾驶操作辅助、“人―车―路”多环境协调,合理匹配车辆运动与道路条件、交通状态、车辆性能之间的关系,以满足节能减排的目的。
1 驾驶行为分析模型
车辆运行过程中主要存在四种行驶状态:怠速、加速(含启动)、减速、巡航。
图1是城市工况的不同行驶状态所占能耗比。由图1可知,加速(含启动)过程占比最大,达到38% ;其次是巡航过程,约为35%。这说明城市工况中,采用经济性的加速和巡航策略对降低能耗具有积极意义。经济性加速主要指以适宜的加速度、档位、油门开度等完成加速过程,尽量避免急加速工况的出现;经济的巡航策略主要指尽量把车速维持在经济车速区间。
根据一般驾驶工况,按照与能耗关联的行为可以得出以下几种行为模式:
1)急加速
在紧急加速过程中,燃烧室中燃油多、空气少,燃烧室内呈现缺氧状态,燃油不能够充分燃烧,导致油耗增加。
2)急减速
减速过程属于动能转换为热能的过程,合理的预判行车减速过程进行适宜的制动强度有利于充分利用车辆惯性,减少油耗;频繁的急减速会消耗较多的车辆动力装置产生的动能。
3)脱档滑行
汽车带档滑行,不踩油门,发动机管理系统EMS会切断供油利用惯性来维持运转;脱档滑行则需要一个怠速油耗。因此长距离滑行时采用脱档滑行会增加油耗。
4)打开车窗高速行驶
汽车以较高车速行驶时,打开车窗会增加整车的空气阻力系数,增加空气阻力,进而导致油耗提高。
5)换挡时的转速(高转换挡)
合理的控制档位,能保证发动机在不同的车速区间里均能维持在经济转速区域,有利于减少发动机的油耗。
6)长时间怠速
长时间的怠速状态会导致发动机做过多的无用功,导致油耗上升。
7)频繁变道和曲线行车
频繁变道超车使汽车经常加速、减速、制动,发动机工作不稳定,同时使汽车处于曲线行驶状态。汽车曲线行驶时,如汽车转弯,地面对轮胎将产生侧向反作用力、滚动阻力大幅增加,导致油耗上升。
1.1 急加速模式
当车辆加速度n_vehicleActSpeed>X1*,油门踏板开度n_emsGasPedalActPst>X2*(排除下坡导致的无油门输入加速),记录为一次急加速,急加速计数器Drastic_Acc_Counter++。
X1*为设定的加速度限值,考虑到不同车速区间内车辆提供的加速能力不一致,为获得更优的评价方法,在不同速度区间能选用不同的限值。加速度限值是车速的函数,车速越低限值越大。X2*为油门踏板开度限值可以设置为定值20%。
加速度限值函数 X1:
y=a■x+b■,x?缀(0,40]a■x+b■,x?缀(40,80]a■x+b■,x?缀(80,max)
1.2 急转弯模式
对于急转弯驾驶行为,为滤去低速工况下掉头等实际状况的影响,首先判断车速,车速当车速n_vehicleSpeed>20km/h时,再进行急转弯判断,判断方法如下:
1)当某时间区间内(如1s)车辆角速度均值n_averageSteeringAngleSpeed大于预设角速度X*时,记录为一次急转弯,急转弯计数器n_turnCounter++;
2)当车辆行车速度大于50km/h且一秒内方向盘转动角度大于 Y*时,记录为一次急转弯急转弯计数器n_turnCounter++;
3)当车辆转弯角度大于31°,且车辆行驶速度大于S时,记录为一次急转弯,例如:S取值范围为51km/h至60km/h,急转弯计数器n_turnCounter++;
注:X*为动态限制量,是一个和车速有关的函数,车速越大转角速度极限值X*越小。
Y*为动态限制量,是一个和车速有关的函数,车速越大转角极限值Y*越小。
如下:
X*=k■x+l■,x?缀(0,40]k■x+l■,x?缀(40,80]k■x+l■,x?缀(80,max),Y■=r■x+t■,x?缀(0,40]r■x+t■,x?缀(40,80]r■x+t■,x?缀(80,max)
其中:k1,k2,k3,l1,l2,l3,r1,r2,r3,t1,t2,t3为常数。
2 非经济驾驶行为数据统计
根据第一章节中的描述,对行程中不利于油耗降低的驾驶行为(急驾驶、急减速、急转弯、怠速过长等)进行记录,并将每次行程的结果保存在存储区中作为历史数据。统计界面的默认界面为本次行程的驾驶行为统计(如图2左图);通过操作驾驶者可以进入历史统计界面,该界面内驾驶者可以观察本次驾驶行程中各驾驶行为发生次数与历史行程的对比(如图2右图)。
3 不同平均车速下的历史综合油耗统计
实际驾驶过程中不同路况下的油耗差异性很大,例如:高速公路驾驶中高速行驶发动机运行在经济区域占比较大,油耗较低;而城市道路驾驶过程中,车流量较大、交通灯数量多,车辆处于中低速区域比例较大,油耗较高。仅仅从平均油耗进行对比,有时不能正确反映驾驶者驾驶习惯。平均车速能较为有效的反应出道路工况,因此可以以行程的平均车速进行区间划分,历史油耗对比时仅对比同一区间内的油耗,可将平均车速划分为低速行驶区域(0~40km/h)、中速行驶区域(40~80km/h)、高速行驶区域(V≥80km/h),加入行程平均车速的考虑因素再做燃油消耗的统计。
4 方法总结
通^统计与经济驾驶关联的几种模式进行算法设计,可以将驾驶行为转化为可以具体量化的数据结果。基于数据有限分析和样本量,数据累计历史等前提下,可以通过模型进行一些可视化的输出结果。并以此作为驾驶人员辅助驾驶和行为提醒的基本数据。当然如果该模型能基于大数据后台平台,通过建立复杂的算法模型和自学习模型。可以更多的分析驾驶人员、同类车型、相似工况环境等。并以此为基础逐步影响驾驶人员的驾驶习惯,建立起良好的驾驶行为。
【参考文献】
运用表图转化方法能使抽象的原理变成直观的、易理解的表象。表图转化主要包含“表表转化”:复杂数据表转化成简化表;“表图转化”:数据表转化成折线图;“图图转化”:折线图转化成更加直观的柱状图。
一、把数据整理成表
通过学生所记录的大量数据,首先指导学生对数据进行必要的观察,从观察中发现数据的变化。
【教学片段1】
(执教《怎样得到更多的光和热》,学生们都记录完数据后。)
教师:同学们把数据记录好后,老师这里列举三个小组的数据。
表一:不同颜色纸在阳光下温度变化实验单(单位:°C,三个小组的数据)
教师:请同学们分析以上数据,你有什么发现?
学生:三次测的数据有偏差。
学生:时间越长,温度都在不断上升。
学生:温度上升有快有慢。
学生面对如此众多的数据时,不知如何入手,更何况要得出有价值的信息。如此有限的教学时间内让学生分析得到有价值的知识着实困难。因此对于数据的再次整理也是帮助学生分析的一个重要措施。
针对众多数据,分析前期,教师应在此基础上将简化后的数据表作为呈现给学生的分析数据表。该简化的方法,就是“取平均值”法,而平均值恰具有一定的科学性。于是教师通过转化数据制成单一变化数据表库,同时对已有数据进行一定规律的排列。再次整理后得到新的表。
【教学片段2】
同样执教该内容,学生整理完数据后,教师没有直接呈现学生数据表,而是先对表中数据进行“平均化”处理后才展现给学生,见表二。
教师:请同学们分析下以上数据,你有什么发现?
学生:随着光照时间延长,温度在不断升高。
表中数据进行了处理,把各次数据进行的平均值折算。一半以上学生都能直接发现数据带来的更多信息。
从复杂的数据转变到简单的数据对比,学生的思维不再关注众多数据本身,而是数据的变化乃至变化趋势。应该说数据表的简化对于学生而言容易从繁多数据中理出头绪。
二、将数据表简化
数据往往隐藏着不止一个信息或结论。在涵盖更多信息时,学生在推断上会产生干扰。
【教学片段3】
经历平均值简图分析后。
教师:(举例)我们已经发现,随着时间的增加,铝箔纸温度在不断升高。你还能得到哪些信息呢?
学生:黑色纸也随着时间增加,温度不断升高。
学生:白色纸也是。
学生:粉色纸也是。
通过分析和观察,学生对于单个条件的一组数据已经能够了解变化情况,即温度在不断升高。学生从纵向观察已经了解了温度的变化趋势:温度随着时间推移在不断上升。但教师还需指导学生横向观察认识到不同颜色纸在阳光下的温度变化。
因此,对数据表再次进行转化就显得很有必要。转化后的数据表见表三。
进行转化后的数据表从横向和纵向两个方向把表一数据进行了剖析,形成了单独存在的简化表。这样的简化表对于小学生来说,在前面的理解基础上,再次回顾到表一数据时,符合学生的认知特点。教师应有意识地引导学生对每个实验的数据进行纵向分析和横向分析,那么学生将得到更多有用的信息。而表表转化的方法,能有效引导学生,使其容易分析和理解纵向、横向数据的关系。
三、将简化表转化成图
学生的思维发展从形象思维过渡到抽象思维。学生知识的获取主要通过感性经验的积累,他们常常依靠动手操作来认识和理解世界,而他们所能认识和理解的也往往局限于他们自己可以动手操作的具体事物。如此,学生要进行抽象概念的概括时,需要把抽象的概念、数据转变成较为具体形象的“事物类”。同时,从学生的认知特点来说,小学生对于数字的敏感度还处在发展阶段。因此,在分析中期,将简化表转化为图来开展数据分析的优越性再次体现,同时有必要加强学生认图、作图以及根据图来表述和推断的能力。
1.画图
让学生认识图的构造。如横轴代表时间,单位为分钟;纵轴表示温度,单位为°C;中间的方格代表各自需要确定的位置。
学生的思维在不断发展过程中,教师需要通过简单的示意图表来指导学生,通过方格图形,依据数据来确定相应的位置点,先舍去对应位置的“直线表述”。
如对本课第二部分教学内容数据整理记录后,得表四,其中与阳光垂直放置第一组数据,描位置点。
铝箔纸温度变化情况图画法:最初温度为24°C,时间为0,描点;则点确定位置在0上方24°C位置;过了2分钟后,则点确定位置为2上方25°C位置,可以借助画对应直线来确定点的位置。描出各点之后,逐个将相邻点连成一直线,这也是科学中所涉及的折线图。
2.“改造”图,形成柱状图
以上的图对于学生还会造成一定困扰,尤其是横坐标和纵坐标对应的关系,在画图上也会有很大难度。因此,对于铝箔纸温度变化情况图的再次直观性修改显得很有必要。
柱状图是学生最早接触的直观思维图,教师指导学生对柱子的高度或长度进行对比;如果看不出来或不明显,可以用尺子量一量柱子的高度或长度,再比较一下。对于学生而言,眼前柱状图的变化比单纯数据变化更容易认识和理解,从教学效果来看,学生几乎都能直观得到数据带来的信息。在此基础上学生也能更好更快地掌握柱状图的绘画。
3.多图介入,形成最终推论
简化表后数据都可以通过作图再次直观地一一推断出相应的结论。例如表四中,从与阳光垂直放置的第一组数据能够推断出物体在阳光下温度在不断上升,很好地总结了上次课的内容,即阳光和温度的关系。
分析后期,对于数据进行柱状图的处理,学生不难推断出新的结论,即与阳光垂直放置10分钟后温度上升最高。
【教学片段4】
教师指导学生进行绘画柱状图代替数据后,对阳光照射情况不同所记录的数据进行分析。
教师:对于表四中的数据,我们能够画出多少柱状图?
学生:老师,可以运用横排摆放的位置不同来画图。
学生:可以画一种摆放方式随着时间增加的变化柱状图。
所有学生都能比较快地得出相应的结论。学生所关注的对象已经完全由单一的数据过渡到直观的变化趋势中来。同时,在柱状图得出一定科学概念之后,学生对于数据的理解更加透彻。
数据的分析,只有透彻了,才能让学生在一次次的分析中逐步体验到数据作为证据的重要性,才能逐步培养学生对数据的严谨态度,让学生在数据的分析中逐步习得科学的方法并提高探究能力。
Abstract:In view of the problems of the social survey data processing and analysis, this paper establishes the mathematical model of three dimensional matrix which is based on the three dimensional matrix.On the basis of the established three dimensional matrix model,we can use the properties of three dimensional matrix to deal it with a variety of mathematical methods, and use the hypergraph theory for further analysis. This enriches the method of the survey data processing greatly.
Key Words:Social survey data;Three-dimension matrix;Hypergraph
社会调查是了解各方面信息的重要途径之一,社会调查数据主要是通过调查问卷的方法得到的。由于社会调查数据的维数较高,加上人为主观因素,数据类型主要为二元变量、离散变量、序数变量等为主,所以对于社会调查数据的分析和处理大都基于统计学,只对单一题目进行统计学分析,其分析方法主要是基于题型进行处理的,对于题目和题目之间的关系很少关心[1]。许多数据挖掘算法因为种种限制无法在社会调查的数据分析中得到应用。因为方法的限制,所以现在很多社会调查只能验证事先想好的内容和假设,很少可以对高维数据进行相对复杂的回归分析处理。
根据以上存在的问题,该文建立了基于三维矩阵的数学模型,将单选题、多选题和排序题用向量形式进行表示,每一题定义为空间中的一个维度,从而所有的题目就可以构成一个N维空间。每份问卷的信息用一个M×N矩阵表示。这样表示可以将所有问卷内容当作一个整体,作为后续算法的基础。
1 社会调查数据的特点
通常情况下,社会调查数据特点如下。
(1)相关性。对于一个样本个体而言,它具有本身的多个特征,这些特征之间就具有一定的相关性。对于多个样本而言,个体与个体的特征之间具有相关性。如果样本随时间而变化,那么该样本在不同时刻的特征之间又具有相关性。因此,由于上述多个原因使得社会调查数据具有了复杂的相关性,传统的统计学调查难以解决这样的问题。
(2)离散性。因为社会调查数据是通过自填式问卷、网络调查数据库等方法得到,所以社会调查数据一般以离散变量为主,且这些数据之间只有标示作用,并没有严格的逻辑关系。
(3)模糊性。社会调查数据当中不可避免的会接触到各种表达方式和概念,因此,它具有模糊性。
因为由自填式问卷或结构式访问的方法得到的社会调查数据具有以上特点,所以在实际应用中基于统计学的处理方法只能笼统的显示数据的部分特性,如频数、离散程度等[2]。对于数据之间的关系只能分析出维数极少的大致的关系。
而且利用软件进行数据挖掘时,因为现有的软件中的数据挖掘算法对于数据类型和格式要求较高,所以能应用到的数据挖掘算法很少。就算是数据要求较低的关联分析,其结果也存在大量的冗余。因此,我们需要建立一个合适的社会调查数据的数学模型来完善原先的方法并使跟多的数据挖掘方法可以运用到其中,使得结果更准确。
2 社会调查数据的建模
研究中我们发现,三维矩阵可适用于社会调查数据的建模。
2.1 三维矩阵的定义
三维矩阵的定义:由n个p×q阶的矩阵组成的n×p×q阶的矩阵A称为三维矩阵,又称立体阵。Ak,i,j表示三维矩阵A的第k层,第i行,第j列上的元素。其中n,p,q分别表示三维矩阵的高度,厚度和宽度。
2.2 三维矩阵模型的建立
调查问卷的题目一般有三种类型:单选题、多选题和排序题。这三类题目都可以表示成向量的形式,其中每一道单选题、多选题可以表示成一个向量,排序题可以表示成多个向量组成的矩阵。对于单选题和多选题,可以按选项的顺序可以表示成一个向量,其中选中的项用“1”表示,未选中的项用“0”表示。对于排序题,可以表示成一个n×n的方阵,其中n表示该排序题的选项个数,。这样,每一题就可以定义为空间中的一个维度,从而所有的题目就可以构成一个N维空间。每份调查问卷的信息用一个M×N矩阵表示(M为题目的最大选项数),其在每一维上的选择称之为一个元素,这样每份问卷的信息就包括了N个元素。以第1,2,3题数据为例,其中第1题为单选题选择“B”,用向量表示为一个元素,第2题为多选题选择“ACE”,用向量表示为一个元素,第3题为排序题顺序为CBADEFIHG,用矩阵表示,每一个列向量是一个元素,如图1所示。
那么,假设有一问卷信息用一个大小为M×N的矩阵表示。K份的问卷信息就可以用K个大小为M×N的矩阵表示。将这K个矩阵叠加,形成一个三维矩阵。这个三维矩阵就是我们建立的三维矩阵数学模型,如图2所示。
在图2中我们看到,该三维矩阵数学模型有三个坐标轴,它们分别是题目,人数,选项。题目轴以每一道题为一个单位;人数轴以每一份问卷为一个单位;选项轴的刻度为A,B,C,D,E,F等题目选项,其个数为该调查问卷中选项最多的题目的选项个数。
在此基础之上,这样的三维矩阵具有以下性质。
(1)在题目轴中选取对应的题目,将三维矩阵面向竖切得到截面1(如图2中01所示),截面2表示每一道题所有人选择的信息。
(2)在人数轴中选取对应的人,将三维矩阵横切得到横截面1(如图2中02所示),横截面1表示对应的人选择所有题目的信息。
在得到三维矩阵后,可对它进行像素化处理,置1的元素用黑点代替,置0元素的则空白,在得到像素化三维矩阵后我们可以将三维矩阵沿着人数维度上向下投影,这样就可以得到一个具有浓黑不一的点的平面。通过这些点的浓度,可以知道每一选项选择的人数。接下来我们可用灰度级表示点的浓度,筛选出浓度大于一定程度的点,在此基础上进行后续算法处理。
上述三维矩阵数学模型具有数学三维矩阵的所有性质,可依据调查问卷的需求进行转置,加权、相乘、筛选等数学处理,另外在数学处理的基础上,采用超图理论可以大大丰富了调查问卷的处理方法。
3 基于超图算法的调查问卷分析技术
超图是离散数学中重要的内容,是对图论的推广[3]。超图是有限集合的子系统,它是一个由顶点的集合V和超边集合E组成的二元对,超图的一条边可以有多个顶点的特性,这与一般的图有很大不同。超图分为有向超图与无向超图两类,在无向超图的每条超边上添加方向后得到的有向二元对就是有向超图。超图在许多领域有广泛的应用。
大家可以利用无向超图表示每一道题的选择情况,先将这每一题的每一个选项设成一个节点,然后将三维矩阵从上向下投影,如果某一题的若干个选项同时被一个人选择,就用一条超边包围这些节点,那么选这些选项的人越多,投影得到的超边就越浓。这样就用超图表示了问卷中每道题的信息,可以进行聚类处理。
利用有向超图,可以将关联规则表示成有向超图的形式,在得到了关联规则后,设实际中得到的关联规则的形式为:,前项和后项都是由多个项组成的集合。该文定义一条关联规则由一条有向超边表示,有向超边的头节点表示关联规则的前项,有向超边的尾节点表示关联规则的后项。每条有向超边的头节点和尾节点均可以为多个,如此便成功表示了复合规则,从而可以使用相关算法进行冗余规则检测。
通过基于有向超图的冗余规则检测就可以将关联规则之间存在着的大量冗余检测出,减少挖掘资源的浪费,从而增加了挖掘结果的有效性。
传统的聚类方法都对原始数据计算它们之间的距离来得到相似度,然后通过相似度进行聚类,这样的方法对于低维数据有良好的效果,但是对于高维数据却不能产生很好的聚类效果,因为高维数据的分布有其特殊性。通过超图模型的分割实现对高维数据的聚类却能产生较好的效果。它先将原始数据之间关系转化成超图,数据点表示成超图的节点,数据点间的关系用超边的权重来表示。然后对超图进行分割,除去相应的超边使得权重大的超边中的点聚于一个类中,同时使被除去的超边权重之和最小。这样就通过对超图的分割实现了对数据的聚类。具体的算法流程如下。
首先,将数据点之间的关系转化为超图,数据点表示为超图节点。如果某几个数据点的支持度大于一定阈值,则它们能构成一个频繁集,就将它们用一条超边连接,超边的权重就是这一频繁集的置信度,重复同样的方法就可以得超边和权重。
然后,在基础此上,通过超图分割实现数据的聚类。若设将数据分成k类,则就是对超图的k类分割,不断除去相应的超边,直到将数据分为k类,且每个分割中数据都密切相关为止,同时保持每次被除去的超边权重和最小,最终得到的分割就是聚类的结果。
如图3所示是基于超图算法的选题型调查问卷的分析技术的流程图,主要包括4个主要部分,一是用向量表示调查问卷结果,二是将向量表示的调查问卷转化为三维矩阵数学模型表示调查问卷结果,三是使用超图算法进行优化,四是根据要求显示调查问卷结果。
【关键词】统计数据;分析方法;市场调研;判别分析
一、数据统计分析的内涵
数据分析是指运用一定的分析方法对数据进行处理,从而获得解决管理决策或营销研究问题所需信息的过程。所谓的数据统计分析就是运用统计学的方法对数据进行处理。在实际的市场调研工作中,数据统计分析能使我们挖掘出数据中隐藏的信息,并以恰当的形式表现出来,并最终指导决策的制定。
二、数据统计分析的原则
(1)科学性。科学方法的显著特征是数据的收集、分析和解释的客观性,数据统计分析作为市场调研的重要组成部分也要具有同其他科学方法一样的客观标准。(2)系统性。市场调研是一个周密策划、精心组织、科学实施,并由一系列工作环节、步骤、活动和成果组成的过程,而不是单个资料的记录、整理或分析活动。(3)针对性。就不同的数据统计分析方法而言,无论是基础的分析方法还是高级的分析方法,都会有它的适用领域和局限性。(4)趋势性。市场所处的环境是在不断的变化过程中的,我们要以一种发展的眼光看待问题。(5)实用性。市场调研说到底是为企业决策服务的,而数据统计分析也同样服务于此,在保证其专业性和科学性的同时也不能忽略其现实意义。
三、推论性统计分析方法
(1)方差分析。方差分析是检验多个总体均值是否相等的一种统计方法,它可以看作是t检验的一种扩展。它所研究的是分类型自变量对数值型因变量的影响,比如它们之间有没有关联性、关联性的程度等,所采用的方法就是通过检验各个总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。(2)回归分析。在数据统计分析中,存在着大量的一种变量随着另一种变量的变化而变化的情况,这种对应的因果变化往往无法用精确的数学公式来描述,只有通过大量观察数据的统计工作才能找到他们之间的关系和规律,解决这一问题的常用方法是回归分析。回归分析是从定量的角度对观察数据进行分析、计算和归纳。
四、多元统计分析方法
(1)相关分析。相关分析是描述两组变量间的相关程度和方向的一种常用的统计方法。值得注意的是,事物之间有相关关系,不一定是因果关系,也可能仅仅是伴随关系;但如果事物之间有因果关系,则两者必然存在相关关系。(2)主成分分析。在大部分数据统计分析中,变量之间是有一定的相关性的,人们自然希望找到较少的几个彼此不相关的综合指标尽可能多地反映原来众多变量的信息。所谓的主成分分析就是利用降维的思想,把多指标转化为几个综合指标的多元统计分析方法,很显然在一个低维空间识别系统要比在一个高维空间容易的多。(3)因子分析。因子分析的目的是使数据简单化,它是将具有错综复杂关系的变量综合为数量较少的几个因子,以再现原始变量与因子之间的相互关系,同时根据不同因子,对变量进行分类。这些因子是不可观测的潜在变量,而原先的变量是可观测的显在变量。(4)聚类分析。在市场调研中,市场细分是最常见的营销术语之一,它按照一定的标准将市场分割为不同的族群,并使族群之间具有某种特征的显著差异,而族群内部在这种特征上具有相似性。聚类分析就是实现分类的一种多元统计分析方法,它根据聚类变量将样本分成相对同质的族群。聚类分析的主要优点是,对所研究的对象进行了全面的综合分析,归类比较客观,有利于分类指导。(5)判别分析。判别分析是判别样品所属类型的一种多元统计方法。若在已知的分类下,遇到新的样本,则可利用此法选定一种判别标准,以判定将该新样品放置于哪个类中。由定义我们可以知道判别分析区别于聚类分析的地方,而在判别分析中,至少要有一个已经明确知道类别的“训练样本”,从而利用这个数据建立判别准则,并通过预测变量来为未知类别的观测值进行判别。与聚类分析相同的地方是,判别分析也是利用距离的远近来把对象归类的。
参考文献
[1]温美琴.统计分析方法在我国政府绩效审计中的应用[J].统计与决策.2006(23)
传统VS敏捷
我们先来看一下传统的数据分析流程:解读业务战略目标-->确定目标分解的量化KPI-->确定KPI的计算公式和所需字段-->确定所需字段来自于哪些数据库的哪些表-->数据建模-->预先汇总成二次表和Cube-->结果展示。由于需要建模和打CUBE,这一流程通常需数月才能完成。
现在,取代传统数据分析流程的,是快速迭代式分析。敏捷数据分析不必在开始时花很长的时间构思大而全的分析指标体系,而是低成本快速迭代,几分钟就做好一个当前想要分析的结果,通过敏捷数据分析工具实现动态切换视角,灵活展示数据,日积月累,指标自然越来越丰富,计算公式也越来越符合业务逻辑,这时再体系化。下面的演示视频将帮助大家了解如何通过敏捷数据分析工具在几分钟时间内实现自己的分析需求。
视频链接:v.youku.com/v_show/id_XODcxNTgxMTQ4.html
为什么传统数据分析无法实现快速迭代分析的高效?因为在过去这么多年以来,我们对于大数据海量数据的计算能力达不到比较理想的要求,所以我们才需要IT人员用通过建模等方式提前把数据计算汇总好,随着现在大数据的技术相对来讲都日趋成熟和完善,分布式计算,内存计算、列存储等比较成熟的技术架构,采用这种新的办法去处理数据的性能,已经比以前提升了几十倍甚至更高。
符合迭代思维
快速迭代式的敏捷数据分析有什么好处?首先,这种分析方法十分符合互联网思维中的迭代思维。企业的分析指标不可能一开始想得非常全面,本身就是迭代逐步形成的。以电商行业为例,电子商务的数据可分为两类:前端行为数据和后端商业数据。前端行为数据指访问量、浏览量、点击流及站内搜索等反应用户行为的数据;而后端数据更侧重商业数据,比如交易量、投资回报率,以及全生命周期管理等。
在最初期,电商行业最关注的是那些核心指标:UV、转化率、客单价、毛利率、推广ROI、重复购买率,人们在核心指标的基础上逐步对媒体、用户、商品、营销等对象做详细分析;同时在客服、商品、仓储物流等内部运营绩效方面进行监控。这些数据现在又可以被归纳发展为4个方面,基础访问数据、商品销售数据、营销推广数据、用户数据,其中基础数据中包括网站的访问数据、网页链接点击、来源跳出等等。商品销售数据关系到品类、销售多少、影响因素等。营销数据包括投入产出的投资回报率,更多地是跟其他几方面的数据进行混合分析。用户数据包括分析用户区域、购买频率、客户构成、忠诚度、偏好等等。
适应变化需求
【关键词】:大数据分析、景观分析、研究方法。
解决问题途径
新的数据环境下对风景园林分析体系是一种定量认识,并体现为4个方面的变革(空间尺度、时间维度、研究单位、以及研究方法)这些变革促进了风景园林设计的变革,并提供了一个民主公平开放的公共平台。将大数据应用到风景园林分析中首先应明确所分析内容类别种类,其次根据从所分析内容删选整合出大数据中有用信息并将其数字化这些数据包括传统数据以及动态数据,再通过科学分析法对分析内容进行可视化分析和建模输出可视化成果【2】。通过成果分析、情景假设又将有所调整各项分析成果将在比对中得到最终检验。
大数据分析内容制定方法
随着信息互联网普遍率增高人们可以轻松分享各类信息这对风景园林设计分析的开拓是至关重要的,设计分析中最小单位可以统计到个人,以及每个人的思想变化对待不同问题的看法都可以通过大数据来提供。这些就可以大大的扩展风景园林分析的内容可以从人视的角度分析问题而不仅仅是以区域空间功能上单方面的片面分析。所以其所分析内容更加具有生活性多元性,这对设计分析的内容是具有变革性的影响,因为设计师设计的好坏需要接受民意的考察,再根据民意最关心的设计内容作为风景园林设计分析内容的选项所以每一项分析内容都是根据实践而得来的。实地调研也不会掌握全部数据,但是大数据可以帮助我们了解当时的情况,借助大数据分析指导风景园林设计具有针对性、多元性同时因互联网具有即时性其所分析的内容也具有即时性客观性。
大数据信息来源筛选方法
地球轨道上的遥感卫星,全球定位系统,配有三维激光扫面设备的无人机,无处不在的摄像头,便携式数码照相机,全球将近20亿的智能手机用户【1】。在今天大量涌现的城市数船不仅是可供分析的新材料, 更是探知未来方向的共具。大量来自云端的历史数据和即时的关于景观和社会文化背景的大数据,为我们有效的设计以及管理景观带来无限景观数据的机会。但是必须清楚这些量的大数据是一把双刃剑。首先因为数据本身并不系统均衡而带有偏差歧视。其次数据如此之多有用信息如同珍珠埋藏在泥沙里。第三数据信息最多只能反映当下告诉我们过去的状态,并不能告诉我们未来。因此我们必须要理性看待这些海量数据,突破传统数据统计的方法处理这些数据最终帮助我们在景观设计时借组有用数据分析进行科学的设计。因此我个人总结出大数据结合风景观园林设计几点意见和创想。
首先我们需要在风景园林定量研究中流理一种价值伦理。风景园林研究的的成果, 特别是可视化成果帮助设计更加理性准确快捷,其外表给他人一种可争辩”的印象。然而一个看似客观的数据, 却也十分容易被其他目的利用而塑造一种权威 。 因此,对于数据分析的应用需要更多的基于社会学的思考, 以明确不同数据定量分析服务的主体是谁, 目的是什么 。
其次,我们仍需警惕定量分析的滥用有可能导致一种庸俗。数据无法驱动所有的风景园林设计活动,许多时候定量分析和定性存在角力。定量研究中注重数据的准确性、单位统一性关注于实证的研究。但这就存在一些解释力不足的维度,比如环境美学方面定量无法用数据准确性阐述美的观点,这是也就需要定性具有一定感性的介入。
大数据整合分析内容可视化方法
将收集到的大数据可视化分析对于风景园林分析问题是一种新的表达方式,这样的分析结果将完全打破传统区域空间功能简单的分析。而是第一次站在人的视角看待分析结果,比如通过大数据分析出区域内人们对景观要素的兴趣点、通过谷歌地图近几年内区域内路况程度、以及区域内城市扩建面积增大对于村庄的影响、或通过社交评论平台人们对于建成景点的关注程度等等的分析成果都是对原有传统分析的突破。
但对于基于大数据新的分析结果应用于分景园林分析需要有突破原有在整合数据是观念才能适应于分析整合大数据的观念思想。传统的数据分析思想应做三大转变,一是转变抽样思想,大数据时代,我们面对的数据样本就是过去资料的总和,样本就是总体,通过对所有与事物相关的数据进行分析,既有利于了解总体,又有利于了解局部。二是转变数据测量的思想,要乐于接受数据的纷繁芜杂,不再追求精确的数据。我们应该接受纷繁芜杂的各类数据,不应一味追求数据的精确性,以免因小失大,比如都对于城市某条道路路况分析不能只单纯调研近期路况而查看近10年这一带的路况。三是不再探求难以捉摸的因果关系,转而关注事物的相关关系。由于数据规模巨大"数据结构复杂以及数据变量错综复杂,预设因果关系以及分析因果关系相对复杂于是在大数据时代分析数据不再探求难以琢磨的因果关系转而关注事物的相关关系。
结语
信息城市的复杂性迫切地要求不同以往的解读方式, 以确保不同规划设计手段干预下的城市发展的可持续性 。新的数据时代到来风景园林设计与城市可持续发展新的契机。借助于大数据分析作为一种规划设计的工具理性在城市中从人的角度定量理性研究展现出了其巨大的潜力,并直接颠覆了传统设分析问题价值看法。大数据时代总结出一套从问题中筛选出分析内容,再通过大数据中有用信息筛选后进行可视化成果研究的科学套路流程,这为大数据分析景观设计带来了新的思路。
【参考文献】: