当前位置: 首页 精选范文 统计学分析数据范文

统计学分析数据精选(五篇)

发布时间:2023-12-28 16:14:43

序言:作为思想的载体和知识的探索者,写作是一种独特的艺术,我们为您准备了不同风格的5篇统计学分析数据,期待它们能激发您的灵感。

统计学分析数据

篇1

基于理念分析和比较研究方法,对大数据的分析方法和传统统计学分析方法的关联性和差异进行了对比分析,从方法的基本思想、量化形式、数据来源、分析范式、分析方法、分析视角等角度揭示了两种社会科学分析方法存在的联系与差异。

关键词:

大数据;统计学;研究方法

中图分类号:

F27

文献标识码:A

文章编号:16723198(2015)11005201

随着信息技术的日益发展与普及,信息以及数据在社会经济发展过程中发挥的作用越来越重要。现如今,“大数据”时代已经来临,于是如何更有效地利用数据快速做出科学决策也已成为众多企业甚至是国家所共同关注的焦点问题。在数据处理和分析方法方面,《统计学》以及在其基础上发展而来的实证统计方法是当前的主流,这些方法可以帮助数据持有者从大量的数据中挖掘有价值的信息,并为其相关决策提供理论支撑和方法支持。然而,传统的实证统计方法在最新出现的大数据情境下,却呈现出了诸多缺陷,例如传统数据收集方法无法实现大规模(甚至是总体)数据的收集,传统统计方法和分析软件无法处理大规模数据,等等。于是,在将传统统计学方法应用于最新的大数据情境和问题之前,需要首先明确大数据所要求的处理方法与传统的统计学处理方法存在哪些关联和区别,然后才能够决定是否可以应用既有统计学理论和方法来处理某些大数据问题。

1大数据的界定

根据一位美国学者的研究,大数据可以被定义为:it means data that’s too big, too fast, or too hard for existing tools to process。也就是说,该学者认为:在关于大数据的所有定义中,他倾向于将之定义为那类“太大”、“太快”,或现存工具“太难”处理的数据。一般而言,大数据的特征可以概括为四个V:一是量大(Volume);二是流动性大(Velocity),典型的如微博;三是种类多(Variety),多样性,有结构化数据,也有半结构化和非结构化数据;四是价值大(Value),这些大规模数据可以为持有企业或者组织创造出巨大的商业或社会价值。

Victor在其最新著作《大数据时代――生活、工作与思维的大变革》中指出,大数据时代,思维方式要发生3个变革:第一,要分析与事物相关的所有数据,而不是依靠分析少量数据样本;要总体,不要样本。第二,要乐于接受数据的纷繁复杂,而不再追求精确性。第三,不再探求难以捉摸的因果关系,应该更加注重相关关系。这些变革反映出了大数据处理方式与传统统计学分析方法的很多关联以及主要不同。因此,下面我们分别针对两者的联系和区别进行讨论。

2大数据与统计学分析方法的联系

从18世纪中叶至今,统计学已经经历了两百多年的发展历程,不论是基础理论还是社会应用都极其坚实而丰富。大数据作为一种新兴的事物规律认知和挖掘思维,也将会对人类的价值体系、知识体系和生活方式产生重要影响,甚至引发重大改变。作为两种认知世界和事物规律的基本方法,它们在以下两个方面存在紧密关联。

(1)挖掘事物规律的基本思想一致。统计学(statistics)探索事物规律的基本方法是:通过利用概率论建立数学模型,收集所观察系统的数据,进行量化分析和总结,做出推断和预测,为相关决策提供依据和参考。对于大数据,维克托指出,大数据思维的来临使人类第一次有机会和条件,在非常多的领域和非常深入的层次获得和使用全面数据、完整数据和系统数据,深入探索现实世界的规律,获取过去不可能获取的知识。通过这两个定义可以看出,不论是传统的统计学方法还是新兴的大数据分析方法,都是以数据为基础来揭示事物特征以及发展趋势的。

(2)均采用量化分析方式。大数据分析的基础是数据化,也就是一种把各种各样现象转变为可制表分析的量化形式的过程。不论是传统统计学中所应用的数据(定性和定量数据),还是大数据时代即将被转化和采用其他形式数据(如文字、图像等),最终都是通过量化分析方法来揭示数据中所蕴含的事物特征与发展趋势。

3大数据与统计学分析方法的区别

(1)基础数据不同。在大数据时代,我们可以获得和分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机抽样。这意味着,与传统统计学数据相比,大数据不仅规模大,变化速度快,而且数据来源、类型、收集方法都有根本性变化。

①在数据来源方面,在大数据背景下,我们需要的纷繁多样的数据可以分布于全球多个服务器上,因此我们可以获得体量巨大的数据,甚至是关于总体的所有数据。而统计学中的数据多是经由抽样调查而获得的局部数据,因此我们能够掌握的事“小数据量”。这种情况下,因为需要分析的数据很少,所以必须尽可能精确的量化我们的数据。综上,大数据情况下,分析人员可以拥有大量数据,因而不需要对一个现象刨根问底,只需要掌握事物大体的发展方向即可;然而传统的小数据情况下则需要十分注意所获得数据的精确度。

②在数据类型与收集方面,在既往模式下,数据的收集是耗时且耗力的,大数据时代所提出的“数据化”方式,将使得对所需数据的收集变得更加容易和高效。除了传统的数字化数据,就连图像、方位、文本的字、词、句、段落等等,世间万物都可以成为大数据范畴下的数据。届时,一切自然或者社会现象的事件都可以被转化为数据,我们会意识到本质上整个世界都是由信息构成的。

(2)分析范式不同。在小数据时代,我们往往是假想世界是如何运行的,然后通过收集和分析数据来验证这种假想。也就是说,传统统计实证分析的基本范式为:(基于文献)提出理论假设-收集相关数据并进行统计分析-验证理论假设的真伪。然而,在不久的将来,我们将会在大数据背景下探索世界,不再受限制于传统的思维模式和特定领域里隐含的固有偏见,我们对事物的研究始于数据,并可以发现以前不曾发现的联系。换言之,大数据背景下,探索事物规律的范式可以概括为:数据观察与收集――数据分析――描述事物特征/关系。

(3)数据分析方法不同。传统统计学主要是基于样本的“推断分析”,而大数据情境下则是基于总体数据的“实际分析”,即直接得出总体特征,并可以分析出这些特征出现的概率。

(4)分析视角不同。传统的实证统计意在弄清事物之间的内在联系和作用机制,但大数据思维模式认为因果关系是没有办法验证的,因此需要关注的是事物之间的相关关系。大数据并没有改变因果关系,但使因果关系变得意义不大,因而大数据的思维是告诉我们“是什么”而不是“为什么”。换言之,大数据思维认为相关关系尽管不能准确地告知我们某事件为何会发生,但是它会提醒我们这件事情正在发生,因此相关关系的发现就可以产生经济和社会价值了。

4结语

综上,相对于传统而言,大数据思维主要包括三个重大转变。首先,要分析与某事物相关的所有数据,而不是依靠分析捎来能够的数据样本;其次,研究人员应乐于接受数据的纷繁复杂,而不再追求精确性;最后,认知世界的思想发生了转变,不再探求难以捉摸的因果关系,转而关注事物的相关关系。以上三个转变构成了大数据思维的核心。在统计学的进一步应用和发展完善过程中,需要结合以上转变所产生的挑战,思考有效的统计学发展对策。

参考文献

[1]孟小峰,慈祥.大数据管理:概念,技术与挑战[J].计算机研究与发展,2013,50(1):146169.

篇2

关键词:大数据时代;大数据;统计学;

一、大数据与统计学

(一)大数据与统计学关系密切

简单来说,我们可以分为两个方面来理解大数据:若“大数据”作为形容词,则描述的是大数据时代数据的特点;若“大数据”作为名词,则体现的是数据科学研究的对象。对大数据的定义有非常多,不同领域不同专业对大数据的界定都会有些许不同。通俗地说:大数据是目前人类所有可抓取、可记录、可存储的信号集合。这个包含了一切信号的集合将非常非常之庞大、多样、繁杂,并且还在不停地、迅速地增加。现代互联网和信息技术的飞速发展,使得人类开始有能力收集、储存、分析、处理这些从前无能为力的数据,从中挖掘出有用的信息促进社会的发展。迈尔•舍恩伯格说:大数据发展的核心动力就是人类测量、记录和分析世界的渴望。而统计学正好是收集、整理、分析、解释数据并从数据中得出结论的科学。由此可见大数据与统计学关系密切,将大数据与统计学结合发展潜力无穷。

(二)大数据时代下的非结构化数据与结构化数据需整合

对接统计研究可根据自身的目的收集总体数据或样本数据,但如果总体太过庞大,以过去的技术方法来收集总体数据成本会很高,受于限制统计研究更多收集得是样本数据。如今,人类已经开始能够在合适的成本下获得大数据,大数据的广博给统计研究带来了新的发展方向。我们需要着重研究的一个方向就是如何将结构化数据和非结构化数据对接。大数据的核心是数据,统计学的研究对象也是数据,但是它们获得的数据性质有所不同:大数据收集的多是半结构化和非结构化的数据,通俗地理解,先获得数据,再整理结构(如声音、图片、视频等信息);传统统计学收集则主要是结构化数据,先定好结构,再根据目标结构收集数据(如数字、符号等信息)。拿非结构化数据和结构化数据来说:大数据时代使得我们有更多可以分析利用的数据,使得统计研究不仅可以在有更多的结构化数据的情形下进行;对于一些领域的研究工作还可以设法将非结构化数据和结构化的数据结合起来分析。如何实现非结构化数据与结构化数据的结合?首先,完善非结构化数据的整合,然后我们可以用结构化数据做数量说明,非结构化数据加强描述;或是提高数据处理技术,实现结构化数据与非结构化数据的互相转化,选择能更好说明问题的数据形式作为后续分析基础。这都是值得再深入思考研究的新问题,而且这不仅仅是大数据和统计研究的事,同时需要计算机技术的一同创新发展。统计研究的范围在大数据时代越来越大,能用数据说明的问题越来越多。

(三)大数据时代下的相关分析与因果分析发展并重

《大数据时代》一书中表示:大数据时代的一个显著变化是:相关分析比因果分析更重要。我的看法是:大数据时代下,市场确实会对相关分析有着更强的关注度,但这并不意味着因果分析的重要性会有褪色。统计学中既有相关分析,也有因果分析,要对它们有合理的了解,首先需要明确的是相关关系和因果关系之间的联系,简单说:有相关关系不一定有因果关系,有因果关系则一定有相关关系。大数据时代,相关关系变得比以前更加为人所关注的原因:一方面,在很多领域的应用里,相关分析比因果分析更简单可行;另一方面,因为相关关系足以体现事物之间的一定联系,在商业效益上更为经济有效。因此在商业利润的推动下,相关关系也会更加受到青睐。但是我们不能就此否定因果关系的重要性,因果关系是对数据更加深度地分析:相关关系让我们知道了“是什么”,因果关系是让我们知道了“为什么”。倘若只是在商业经济上的利用和成本考虑,“是什么”在很多时候就以足够;但如果是在科学研究领域,“知其然而不知其所以然”就远远不够了。结合现实发展需要,可在分析确定相关关系后,根据情况研究因果关系,若能够得出因果关系,那肯定是更具价值和意义的。探求“为什么”始终是人类探索世界的动力,因果分析是人类永恒的使命。

二、结语

大数据时代的到来几乎对每个领域都有着不可忽视的影响。大数据与统计学关系密切,大数据的出现对统计学的意义是非凡的,我们应把握住大数据时代和统计学的可结合点。其一,完善非结构化数据的整合,深入研究如何实现非现结构化与结构化数据的对接,都需要我们思维上的创新、数据处理技术上的提高。其二,在注重相关分析的同时,不能丢掉对因果分析的研究,应合理并重,实现大数据的进一步利用,真正挖掘出数据的价值。对于以数据为研究对象的统计学科,大数据时代就是统计学变革创新的时代,统计研究工作人员也应把握机会思考创新,为统计学增添新的生命力。

参考文献:

[1]朱建平,张悦涵.大数据时代对传统统计学变革的思考[J].统计研究,2016(02):3-9.

[2]朱建平,章贵军,刘晓葳.大数据时代下数据分析理念的辨析[J].统计研究,2014(02):10-19.

篇3

关键词:数据分析;统计;数学;教学策略

中图分类号:G623.5 文献标志码:A 文章编号:1008-3561(2017)12-0027-01

能够根据具体问题背景选择合适的统计图是学生统计素养的一个重要内容,也是学生对数据分析能力的一个表征。扇形统计图是在学生认识了条形统计图、折线统计图后的小学阶段的最后一个统计内容,该内容增加了选择合适统计方法的难度,使“数据分析”变得尤为重要。因此,教师在教学中要以数据为载体,以学生原有知识经验为基础,引导学生展开渐进式思考,探寻统计的有效方法,培养数据分析观念。

一、引发认知冲突,点燃统计内需

学习是一种由外而内的过程,学习最大的动力来自学生心灵深处,源自于自身的认知冲突。教师在教学中创设教学情境的目的正是为了借助外部环境的刺激,引发学生的内部认知冲突,促使学生在矛盾中生成新的需要,将学习不断引向纵深。苏教版六年级下册的“扇形统计图”一课意在使学生通过联系百分数的意义,体会扇形统计图描述数据的特点。为了让学生深刻领会扇形统计图的特点,教师在教学中改变了教材的编排顺序,没有直接出示例题中的扇形统计图,而是引导学生感知数据,造成他们认知上的矛盾冲突,点燃他们新的统计内需,逐步引出扇形统计图。教师这样给学生出示例题:我国陆地总面积大约是960万平方千米,其中丘陵占9.9%、山地占33.3%、高原占26.0%、盆地占18.8%、平原占12.0%。“同学们能否根据数据设计出一个统计图反映出我国陆地各地形分布情况?”教师边出示条件边提问。学生一听说设计统计图,马上联想到以前学习的内容,有的说:“我们可以画出条形统计图。”有的说:“我们可以设计成折线统计图。”教师表扬了学生善于联系旧知的意识后说:“请同学们想一想条形图与折线图分别用来反映什么?例题中的数据表示什么含义,可以用它们来表示吗?”教师的提示唤醒了学生的数据意识,经过对数据的观察与思考,学生们一致认为:“条形统计图用来直观反映数量多少,折线统计图反映了数量的增减变化,这道题中的数据都是百分数,表达的是部分量与总量的关系,看来以前学的那两种统计图不合适。”“那该怎么办呢?”一个女生迫不及待地问道。“是啊,我们该用怎样的图形来表示部分量与总量之间的关系呢?”教师故意装作不知,“看来我们必须另找出路了。”

二、引导自主思考,点化绘制图形

面对学生的急切心理,教师没有直接将“扇形统计图”推出,而是借助生活情境的观察感悟,引导他们自主思考,摸索出扇形统计图的特点和画法,逐步点化学生绘制出扇形统计图。“先请同学们来看一个有趣的拼盘。”教师边说边给学生展示了一张课前制作的地地形分布模型:用一个圆形塑料盘代表我国陆地总面积,在圆盘内用各种颜色的橡皮泥分别表示不同地形。教师用这个拼盘图对学生进行暗示启发,学生甲一点就通:“原来百分数关系可以用圆与扇形来表达,用一个整圆表示总量,用扇形表示各部分量。”学生乙补充道:“平原占12.0%,表示平原面积占我国陆地总面积的12.0%,我们可以用一个圆来表示我国陆地总面积,在圆内画出一个扇形表示平原面积。” 教师接着说:“同学们的悟性真高,像拼盘那样表示各部分量与总量之间关系的统计图我们称为扇形统计图。下面,就请同学们自己尝试着画出我国陆地各种地形分布情况统计图。”然后教师又引导学生根据各百分数的含义,讨论如何绘制出各个扇形。学生丙联系圆心角的知识道出了平原部分的画法:“一个圆是360°,360°的12.0%是43.2°,在圆内画出一个圆心角是43.2°的扇形就表示平原的面积了。”在学生丙的引领下,同学们迅速算出其他扇形的圆心角度数,并画出了完整的扇形统计图。

三、引领梳理反思,点醒对应思想

为了实现“教是为了不教”,教师在教学中经常引领学生梳理思路,反思学习得失,总结学习经验,使他们获得了质的提升。在学习“扇形统计图”一课的过程中,由于有了先前基于数据分析的精心引导,学生亲历了统计方法的选择与统计图的绘制,对扇形统计图的特点和作用了然于心,读懂扇形统计图自然不成问题。因此,在组织学生对统计图中的信息进行简单分析之后,教师增设了一个“回顾反思”环节,让学生回顾整个统计活动经历,使学生懂得了不同的问题背景需要用不同的数据分析方法,各种统计图的选用必须与数据意义相适应。如反映数量增减可选择折线图,要表达数量多少可选用直条图,要反映各部分量与总量之间的百分比关系可选择扇形统计图。高年级学生的类比分析能力比较强,教师让他们通过简要梳理与反思,能使他们明晰数据分析方法的选择的重要性,对数据分析方法的选择有清晰的认识,进而点醒他们的数学思想。

四、结束语

总之,统计教学是一个系统而完整的活动过程,从对问题背景的理解、对数据的解读、对统计方法的选择,再到图形的绘制等,这一切都离不开科学严谨的分析。数据分析是统计的核心,教师在统计教学中应以数据为核心,引领学生在科学分析中选择出合适的统计方法,从而圆满地完成统计任务。

参考文献:

篇4

一、关注统计意识的培养,让学生经历数据收集的过程

统计意识的培养是小学学习最重要的目标之一. 统计意识的首要方面是能有意识地从统计的角度思考有关问题,当遇到有关问题时能想到去整理分析数据,即发展学生的统计意识. 发展学生的统计意识最主要的方式就是让学生体会到统计是有用的. 基于以上目标,在学生根据原始数据提出自己的问题后,教师引导学生体会解决问题必须对这些数据进行整理,就产生了整理统计的需要,有了需要学生就会考虑选用方法进行整理统计,然后通过教师的点拨,学生在小组内自主完成数据的整理统计,学生参与度和统计结果正确率都比较高. 根据统计结果,同学自己提出的问题迎刃而解. 这样的设计,让学生带着解决问题的需要,投入到数据的整理统计中,在经历统计的过程中培养了学生的统计意识. 如以下设计:

(一)呈现情境,提出问题

师:同学们,2008年北京奥运会中国以51枚金牌数居金牌榜榜首. 大家看,这是第二奥运中国体育代表团金牌榜. 根据金牌榜提供的信息,你能提出什么问题?

生1:中国游泳项目获多少枚金牌?

……

(二)分类统计,解决问题

师:老师发现同学们提到的问题都与中国各种项目获金牌数情况有关,所以我们先来解决这个问题“中国各种项目获金牌数的情况是怎样的”. 解决这个问题需要用到哪方面的知识啊?(统计知识)对,我们需要对原始数据进行整理、统计. 你打算怎样统计?

生:用统计表,根据体育项目进行分类统计. (板贴:统计表)

师:这名同学想到了根据体育项目进行分类统计,你们同意吗?除了用统计表表示统计结果,还可以用什么来表示?(条形统计图)

师:大家看,在金牌榜上出现的体育项目既多又分散,比如说水上项目就有游泳、跳水、划艇等,我们可以把某些项目进行归类,请看大屏幕(课件出示分类标准).

师:下面小组内进行分类统计,可以选用统计表,也可以选取统计图来表示统计结果.

生:(分小组活动).

……

二、关注扇形统计图的产生,让学生通过数据分析体会学习扇形统计图的必要性

让学生体会引入扇形统计图的必要性是认识扇形统计图的开始,有利于激发学生对新知的求知欲. 因此,在教学中我有意识地将切入点回归到学生要解决的问题上,在引导对条形统计图进行分析后,教师抓住学生前面提到的“举重项目获金牌数占金牌总数的百分之几”这一问题让学生来解决,随即出现一组含有百分数的统计表,然后教师提出“要清楚地表示出这些信息,我们还可以用这样的统计图”,大屏幕出示做好的扇形统计图. 这样一来,扇形统计图的引入水道渠成,既加强了与数据整理统计的联系,又为扇形统计图特征和作用的理解做了有力的铺垫. 如下面的设计:

……

师:刚才我们用统计表和条形统计图表示出了各种项目获金牌数的情况(课件出示统计表和条形统计图),之前有名同学还提到这样一个问题(课件出示单式统计表):举重项目获金牌数占金牌总数的百分之几,这个问题怎么解决啊?(课件出示复式统计表空栏)

生:用举重项目金牌数除以总金牌数.

师:怎样列算式?

生:8 ÷ 51.

师:非常好!体操项目呢?它获的金牌数占金牌总数的百分之几?

师:像这样,用每种项目获得的金牌数除以金牌总数就能得到这样一组百分数. (课件出示复式统计表加百分数)

师:同学们,对于中国各种项目获金牌情况,我们还可以用这样的统计图来表示(课件出示扇形统计图)

三、关注扇形统计图的直观优势,让学生读懂数据

当前是一个信息时代,读图时代. 让学生从统计图中获取信息,根据统计图中的数据进行分析、预测和推断,是发展学生数据意识具体的教学策略. 统计图的特点是形象直观,便于比较观察,那么在指导学生读图的时候,应当突出图的直观优势. 教学前我首先思考了“扇形统计图的直观优势在哪里”这样一个问题. 通过研读教材我发现,扇形统计图的特征应该从百分数的意义和扇形大小两方面去理解,在读图过程中也应侧重这两方面,且要将数与形两方面进行有机结合. 课堂上在教学扇形统计图特征时有意识地引导学生读懂数据,注重了对百分数意义的理解和它所在的扇形的大小,特别在比较大小时,我们既可以通过百分数大小来比较,又可以通过扇形大小这一直观优势进行比较. 另外,注意让学生结合生活情境,根据统计图中的数据进行推断、预测,体验数学的价值所在. 通过读图,学生切实体会到了扇形统计图的作用. 如下设计:

师:见过这种统计图吗?(没见过)那知不知道它叫什么统计图?(扇形统计图). 大家可真聪明,它就叫扇形统计图. (板贴课题:扇形统计图)

师:知道它为什么叫扇形统计图吗?

生:圆内有大大小小的扇形.

师:大家都发现了,扇形统计图中有扇形. 谁能到前面来指一指图中哪儿有扇形?(生指扇形统计图中的扇形)

师:正像这名同学所指的,圆内确实有大大小小不同的扇形. 你能看出哪个扇形最大吗?(生指水上项目所在扇形)

师:为什么表示水上项目的这个扇形画得最大?

生:因为水上项目获得金牌数占金牌总数的百分比最大. 师:最小的呢?为什么呢?

师:在这个扇形统计图中有两个大小一样的扇形,你发现了吗?

师:为什么这两个扇形可以画得一样大呢?

……

四、关注素材的决策功能,体现统计中数据分析的价值所在

统计教学中,学生不仅要读懂简单的数据,更重要的是要根据统计图和实际情况,分析统计图中数据的合理性,作出某些判断和决策,并从中得到某些启示. 针对初教时研课提出的问题,我们设计了部分开放性的练习,如:我从媒体中找到一些数据,鼓励学生读懂媒体中的统计图,并引导学生体会这些数据带给我们的启示,等等. 这样一来,使得统计教学更具价值性.

……

师:下面让我们来关注学校的红领巾广播站. 学校广播站每周播音2小时. 下图表示各个节目的播音时间情况.

师:哪个节目的播音时间最长?你是怎么知道的?

师: “学法交流”的播音时间是24分钟,占每周播音时间的百分之几?

生:24除以120等于20%.

师:这是求一个数是另一个数的百分之几.

师:如果老师请你做我们学校广播站的策划者,你对栏目内容和时间有什么好建议?

师:同学们提出了很多好的建议,课后咱们在全校做一次调查,并且选用合适的统计图表示统计调查结果. 相信在大家的帮助下,广播站会受到更多同学的喜欢.

篇5

关键词:数据挖掘;统计学;比较

中图分类号:TP311.131文献标识码:A文章编号:1007-9599 (2010) 06-0000-01

Comparison of Data Mining and Statistical Analysis

Kong Pengxiang

(Laiwu Iron&Steel Group Co, Ltd.,Training Centre,Laiwu271104,China)

Abstract:Data mining from statistical analysis,but different from the statistical analysis.Data mining is not intended to replace the traditional statistical analysis techniques,on the contrary,statistical analysis of data mining is an expansion and extension.

Keywords:Data mining;Statistical analysis;Comparison

随着科学技术的发展,利用数据库技术来存储管理数据,利用机器学习的方法来分析数据,从而挖掘出大量的隐藏在数据背后的知识。这种思想的结合形成了现在深受人们关注的非常热门的研究领域:数据库中的知识发现――KDD(Knowledge Discovery in Databases),其中,数据挖掘技术便是KDD中的一个最为关键的环节。

一、数据挖掘简介

(一)数据挖掘的含义和功能

数据挖掘―DM(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘是一门交叉学科,它汇聚了数据库、人工智能、统计学、可视化、并行计算等不同学科和领域,近年来受到各界的广泛关注。

一般说来,数据挖掘是一个利用各种分析方法和分析工具在大规模海量数据中建立模型和发现数据间关系的过程,这些模型和关系可以用来做出决策和预测。它强调对大量观测到的数据库的处理。它是涉及数据库管理、人工智能、机器学习、模式识别、及数据可视化等学科的边缘学科。

作为一门处理数据的新兴技术,数据挖掘有许多的新特征。首先,数据挖掘面对的是海量的数据,这也是数据挖掘产生的原因。其次,数据可能是不完全的、有噪声的、随机的,有复杂的数据结构,维数大。最后,数据挖掘所采用的技术涉及到:数据库、人工智能、统计学、可视化、并行计算等不同学科和领域。

二、统计学的含义

统计学最初是作为一门实质性科学建立起来的,它从数量上研究某类具体的现象(如社会经济发展)的规律,但是,随着统计学研究范围的不断扩大以及统计方法在社会领域和自然领域内的有效应用,加之统计方法体系本身的不断发展和完善,使得统计学的研究对象也发生了变化。统计学已从实质性科学中分离出来,转而研究统计方法,成为一门方法论的科学。即统计学是研究如何搜集数据、整理数据和分析数据的一门方法论科学。

从本质上看,统计工作的核心就是数据(或者信息)的采集、分析和处理,正如权威的不列颠百科全书将统计定义为“statistics:the science of collecting,analyzing,presenting,and interpreting data”即“统计:收集、分析、表述和解释数据”

三、数据挖掘与统计学的比较

数据挖掘来源于统计分析,而又不同于统计分析。数据挖掘不是为了替代传统的统计分析技术,相反,数据挖掘是统计分析方法的扩展和延伸。大多数的统计分析技术都基于完善的数学理论和高超的技巧,其预测的准确程度还是令人满意的,但对于使用者的知识要求比较高。而随着计算机能力的不断发展,数据挖掘可以利用相对简单和固定程序完成同样的功能。新的计算算法的产生如神经网络、决策树使人们不需了解到其内部复杂的原理也可以通过这些方法获得良好的分析和预测效果。

由于数据挖掘和统计分析根深蒂固的联系,通常的数据挖掘工具都能够通过可选件或自身提供统计分析功能。这些功能对于数据挖掘的前期数据探索和数据挖掘之后对数据进行总结和分析都是十分必要的。统计分析所提供的诸如方差分析、假设检验、相关性分析、线性预测、时间序列分析等功能都有助于数据挖掘前期对数据进行探索,发现数据挖掘的题目、找出数据挖掘的目标、确定数据挖掘所需涉及的变量、对数据源进行抽样等等。所有这些前期工作对数据挖掘的效果产生重大影响。而数据挖掘的结果也需要统计分析的描述功能(最大值、最小值、平均值、方差、四分位、个数、概率分配)进行具体描述,使数据挖掘的结果能够被用户了解。因此,统计分析和数据挖掘是相辅相成的过程,两者的合理配合是数据挖掘成功的重要条件。

四、小结

数据挖掘理论与技术的产生,促进了统计学发展的同时,也提出了更多的挑战。如何更好地使用数据挖掘和统计为解决社会实际问题做出贡献,是统计学家和数据挖掘研究者共同关心的话题。数据挖掘和统计学应该相互学习和渗透,各自分工,协同工作,共同为挖掘隐藏在复杂现象背后的有价值的知识贡献力量。

参考文献:

[1]Jiawei Han,Micheline Kambr.数据挖掘――概念与技术(影印版)[M].北京:高等教育出版社,2001

[2]韩明.数据挖掘及其对统计学的挑战[J].统计研究,2001,8