发布时间:2023-12-28 16:14:43
序言:作为思想的载体和知识的探索者,写作是一种独特的艺术,我们为您准备了不同风格的14篇统计学分析数据,期待它们能激发您的灵感。
基于理念分析和比较研究方法,对大数据的分析方法和传统统计学分析方法的关联性和差异进行了对比分析,从方法的基本思想、量化形式、数据来源、分析范式、分析方法、分析视角等角度揭示了两种社会科学分析方法存在的联系与差异。
关键词:
大数据;统计学;研究方法
中图分类号:
F27
文献标识码:A
文章编号:16723198(2015)11005201
随着信息技术的日益发展与普及,信息以及数据在社会经济发展过程中发挥的作用越来越重要。现如今,“大数据”时代已经来临,于是如何更有效地利用数据快速做出科学决策也已成为众多企业甚至是国家所共同关注的焦点问题。在数据处理和分析方法方面,《统计学》以及在其基础上发展而来的实证统计方法是当前的主流,这些方法可以帮助数据持有者从大量的数据中挖掘有价值的信息,并为其相关决策提供理论支撑和方法支持。然而,传统的实证统计方法在最新出现的大数据情境下,却呈现出了诸多缺陷,例如传统数据收集方法无法实现大规模(甚至是总体)数据的收集,传统统计方法和分析软件无法处理大规模数据,等等。于是,在将传统统计学方法应用于最新的大数据情境和问题之前,需要首先明确大数据所要求的处理方法与传统的统计学处理方法存在哪些关联和区别,然后才能够决定是否可以应用既有统计学理论和方法来处理某些大数据问题。
1大数据的界定
根据一位美国学者的研究,大数据可以被定义为:it means data that’s too big, too fast, or too hard for existing tools to process。也就是说,该学者认为:在关于大数据的所有定义中,他倾向于将之定义为那类“太大”、“太快”,或现存工具“太难”处理的数据。一般而言,大数据的特征可以概括为四个V:一是量大(Volume);二是流动性大(Velocity),典型的如微博;三是种类多(Variety),多样性,有结构化数据,也有半结构化和非结构化数据;四是价值大(Value),这些大规模数据可以为持有企业或者组织创造出巨大的商业或社会价值。
Victor在其最新著作《大数据时代――生活、工作与思维的大变革》中指出,大数据时代,思维方式要发生3个变革:第一,要分析与事物相关的所有数据,而不是依靠分析少量数据样本;要总体,不要样本。第二,要乐于接受数据的纷繁复杂,而不再追求精确性。第三,不再探求难以捉摸的因果关系,应该更加注重相关关系。这些变革反映出了大数据处理方式与传统统计学分析方法的很多关联以及主要不同。因此,下面我们分别针对两者的联系和区别进行讨论。
2大数据与统计学分析方法的联系
从18世纪中叶至今,统计学已经经历了两百多年的发展历程,不论是基础理论还是社会应用都极其坚实而丰富。大数据作为一种新兴的事物规律认知和挖掘思维,也将会对人类的价值体系、知识体系和生活方式产生重要影响,甚至引发重大改变。作为两种认知世界和事物规律的基本方法,它们在以下两个方面存在紧密关联。
(1)挖掘事物规律的基本思想一致。统计学(statistics)探索事物规律的基本方法是:通过利用概率论建立数学模型,收集所观察系统的数据,进行量化分析和总结,做出推断和预测,为相关决策提供依据和参考。对于大数据,维克托指出,大数据思维的来临使人类第一次有机会和条件,在非常多的领域和非常深入的层次获得和使用全面数据、完整数据和系统数据,深入探索现实世界的规律,获取过去不可能获取的知识。通过这两个定义可以看出,不论是传统的统计学方法还是新兴的大数据分析方法,都是以数据为基础来揭示事物特征以及发展趋势的。
(2)均采用量化分析方式。大数据分析的基础是数据化,也就是一种把各种各样现象转变为可制表分析的量化形式的过程。不论是传统统计学中所应用的数据(定性和定量数据),还是大数据时代即将被转化和采用其他形式数据(如文字、图像等),最终都是通过量化分析方法来揭示数据中所蕴含的事物特征与发展趋势。
3大数据与统计学分析方法的区别
(1)基础数据不同。在大数据时代,我们可以获得和分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机抽样。这意味着,与传统统计学数据相比,大数据不仅规模大,变化速度快,而且数据来源、类型、收集方法都有根本性变化。
①在数据来源方面,在大数据背景下,我们需要的纷繁多样的数据可以分布于全球多个服务器上,因此我们可以获得体量巨大的数据,甚至是关于总体的所有数据。而统计学中的数据多是经由抽样调查而获得的局部数据,因此我们能够掌握的事“小数据量”。这种情况下,因为需要分析的数据很少,所以必须尽可能精确的量化我们的数据。综上,大数据情况下,分析人员可以拥有大量数据,因而不需要对一个现象刨根问底,只需要掌握事物大体的发展方向即可;然而传统的小数据情况下则需要十分注意所获得数据的精确度。
②在数据类型与收集方面,在既往模式下,数据的收集是耗时且耗力的,大数据时代所提出的“数据化”方式,将使得对所需数据的收集变得更加容易和高效。除了传统的数字化数据,就连图像、方位、文本的字、词、句、段落等等,世间万物都可以成为大数据范畴下的数据。届时,一切自然或者社会现象的事件都可以被转化为数据,我们会意识到本质上整个世界都是由信息构成的。
(2)分析范式不同。在小数据时代,我们往往是假想世界是如何运行的,然后通过收集和分析数据来验证这种假想。也就是说,传统统计实证分析的基本范式为:(基于文献)提出理论假设-收集相关数据并进行统计分析-验证理论假设的真伪。然而,在不久的将来,我们将会在大数据背景下探索世界,不再受限制于传统的思维模式和特定领域里隐含的固有偏见,我们对事物的研究始于数据,并可以发现以前不曾发现的联系。换言之,大数据背景下,探索事物规律的范式可以概括为:数据观察与收集――数据分析――描述事物特征/关系。
(3)数据分析方法不同。传统统计学主要是基于样本的“推断分析”,而大数据情境下则是基于总体数据的“实际分析”,即直接得出总体特征,并可以分析出这些特征出现的概率。
(4)分析视角不同。传统的实证统计意在弄清事物之间的内在联系和作用机制,但大数据思维模式认为因果关系是没有办法验证的,因此需要关注的是事物之间的相关关系。大数据并没有改变因果关系,但使因果关系变得意义不大,因而大数据的思维是告诉我们“是什么”而不是“为什么”。换言之,大数据思维认为相关关系尽管不能准确地告知我们某事件为何会发生,但是它会提醒我们这件事情正在发生,因此相关关系的发现就可以产生经济和社会价值了。
4结语
综上,相对于传统而言,大数据思维主要包括三个重大转变。首先,要分析与某事物相关的所有数据,而不是依靠分析捎来能够的数据样本;其次,研究人员应乐于接受数据的纷繁复杂,而不再追求精确性;最后,认知世界的思想发生了转变,不再探求难以捉摸的因果关系,转而关注事物的相关关系。以上三个转变构成了大数据思维的核心。在统计学的进一步应用和发展完善过程中,需要结合以上转变所产生的挑战,思考有效的统计学发展对策。
参考文献
[1]孟小峰,慈祥.大数据管理:概念,技术与挑战[J].计算机研究与发展,2013,50(1):146169.
关键词:大数据时代;大数据;统计学;
一、大数据与统计学
(一)大数据与统计学关系密切
简单来说,我们可以分为两个方面来理解大数据:若“大数据”作为形容词,则描述的是大数据时代数据的特点;若“大数据”作为名词,则体现的是数据科学研究的对象。对大数据的定义有非常多,不同领域不同专业对大数据的界定都会有些许不同。通俗地说:大数据是目前人类所有可抓取、可记录、可存储的信号集合。这个包含了一切信号的集合将非常非常之庞大、多样、繁杂,并且还在不停地、迅速地增加。现代互联网和信息技术的飞速发展,使得人类开始有能力收集、储存、分析、处理这些从前无能为力的数据,从中挖掘出有用的信息促进社会的发展。迈尔•舍恩伯格说:大数据发展的核心动力就是人类测量、记录和分析世界的渴望。而统计学正好是收集、整理、分析、解释数据并从数据中得出结论的科学。由此可见大数据与统计学关系密切,将大数据与统计学结合发展潜力无穷。
(二)大数据时代下的非结构化数据与结构化数据需整合
对接统计研究可根据自身的目的收集总体数据或样本数据,但如果总体太过庞大,以过去的技术方法来收集总体数据成本会很高,受于限制统计研究更多收集得是样本数据。如今,人类已经开始能够在合适的成本下获得大数据,大数据的广博给统计研究带来了新的发展方向。我们需要着重研究的一个方向就是如何将结构化数据和非结构化数据对接。大数据的核心是数据,统计学的研究对象也是数据,但是它们获得的数据性质有所不同:大数据收集的多是半结构化和非结构化的数据,通俗地理解,先获得数据,再整理结构(如声音、图片、视频等信息);传统统计学收集则主要是结构化数据,先定好结构,再根据目标结构收集数据(如数字、符号等信息)。拿非结构化数据和结构化数据来说:大数据时代使得我们有更多可以分析利用的数据,使得统计研究不仅可以在有更多的结构化数据的情形下进行;对于一些领域的研究工作还可以设法将非结构化数据和结构化的数据结合起来分析。如何实现非结构化数据与结构化数据的结合?首先,完善非结构化数据的整合,然后我们可以用结构化数据做数量说明,非结构化数据加强描述;或是提高数据处理技术,实现结构化数据与非结构化数据的互相转化,选择能更好说明问题的数据形式作为后续分析基础。这都是值得再深入思考研究的新问题,而且这不仅仅是大数据和统计研究的事,同时需要计算机技术的一同创新发展。统计研究的范围在大数据时代越来越大,能用数据说明的问题越来越多。
(三)大数据时代下的相关分析与因果分析发展并重
《大数据时代》一书中表示:大数据时代的一个显著变化是:相关分析比因果分析更重要。我的看法是:大数据时代下,市场确实会对相关分析有着更强的关注度,但这并不意味着因果分析的重要性会有褪色。统计学中既有相关分析,也有因果分析,要对它们有合理的了解,首先需要明确的是相关关系和因果关系之间的联系,简单说:有相关关系不一定有因果关系,有因果关系则一定有相关关系。大数据时代,相关关系变得比以前更加为人所关注的原因:一方面,在很多领域的应用里,相关分析比因果分析更简单可行;另一方面,因为相关关系足以体现事物之间的一定联系,在商业效益上更为经济有效。因此在商业利润的推动下,相关关系也会更加受到青睐。但是我们不能就此否定因果关系的重要性,因果关系是对数据更加深度地分析:相关关系让我们知道了“是什么”,因果关系是让我们知道了“为什么”。倘若只是在商业经济上的利用和成本考虑,“是什么”在很多时候就以足够;但如果是在科学研究领域,“知其然而不知其所以然”就远远不够了。结合现实发展需要,可在分析确定相关关系后,根据情况研究因果关系,若能够得出因果关系,那肯定是更具价值和意义的。探求“为什么”始终是人类探索世界的动力,因果分析是人类永恒的使命。
二、结语
大数据时代的到来几乎对每个领域都有着不可忽视的影响。大数据与统计学关系密切,大数据的出现对统计学的意义是非凡的,我们应把握住大数据时代和统计学的可结合点。其一,完善非结构化数据的整合,深入研究如何实现非现结构化与结构化数据的对接,都需要我们思维上的创新、数据处理技术上的提高。其二,在注重相关分析的同时,不能丢掉对因果分析的研究,应合理并重,实现大数据的进一步利用,真正挖掘出数据的价值。对于以数据为研究对象的统计学科,大数据时代就是统计学变革创新的时代,统计研究工作人员也应把握机会思考创新,为统计学增添新的生命力。
参考文献:
[1]朱建平,张悦涵.大数据时代对传统统计学变革的思考[J].统计研究,2016(02):3-9.
[2]朱建平,章贵军,刘晓葳.大数据时代下数据分析理念的辨析[J].统计研究,2014(02):10-19.
关键词:数据分析;统计;数学;教学策略
中图分类号:G623.5 文献标志码:A 文章编号:1008-3561(2017)12-0027-01
能够根据具体问题背景选择合适的统计图是学生统计素养的一个重要内容,也是学生对数据分析能力的一个表征。扇形统计图是在学生认识了条形统计图、折线统计图后的小学阶段的最后一个统计内容,该内容增加了选择合适统计方法的难度,使“数据分析”变得尤为重要。因此,教师在教学中要以数据为载体,以学生原有知识经验为基础,引导学生展开渐进式思考,探寻统计的有效方法,培养数据分析观念。
一、引发认知冲突,点燃统计内需
学习是一种由外而内的过程,学习最大的动力来自学生心灵深处,源自于自身的认知冲突。教师在教学中创设教学情境的目的正是为了借助外部环境的刺激,引发学生的内部认知冲突,促使学生在矛盾中生成新的需要,将学习不断引向纵深。苏教版六年级下册的“扇形统计图”一课意在使学生通过联系百分数的意义,体会扇形统计图描述数据的特点。为了让学生深刻领会扇形统计图的特点,教师在教学中改变了教材的编排顺序,没有直接出示例题中的扇形统计图,而是引导学生感知数据,造成他们认知上的矛盾冲突,点燃他们新的统计内需,逐步引出扇形统计图。教师这样给学生出示例题:我国陆地总面积大约是960万平方千米,其中丘陵占9.9%、山地占33.3%、高原占26.0%、盆地占18.8%、平原占12.0%。“同学们能否根据数据设计出一个统计图反映出我国陆地各地形分布情况?”教师边出示条件边提问。学生一听说设计统计图,马上联想到以前学习的内容,有的说:“我们可以画出条形统计图。”有的说:“我们可以设计成折线统计图。”教师表扬了学生善于联系旧知的意识后说:“请同学们想一想条形图与折线图分别用来反映什么?例题中的数据表示什么含义,可以用它们来表示吗?”教师的提示唤醒了学生的数据意识,经过对数据的观察与思考,学生们一致认为:“条形统计图用来直观反映数量多少,折线统计图反映了数量的增减变化,这道题中的数据都是百分数,表达的是部分量与总量的关系,看来以前学的那两种统计图不合适。”“那该怎么办呢?”一个女生迫不及待地问道。“是啊,我们该用怎样的图形来表示部分量与总量之间的关系呢?”教师故意装作不知,“看来我们必须另找出路了。”
二、引导自主思考,点化绘制图形
面对学生的急切心理,教师没有直接将“扇形统计图”推出,而是借助生活情境的观察感悟,引导他们自主思考,摸索出扇形统计图的特点和画法,逐步点化学生绘制出扇形统计图。“先请同学们来看一个有趣的拼盘。”教师边说边给学生展示了一张课前制作的地地形分布模型:用一个圆形塑料盘代表我国陆地总面积,在圆盘内用各种颜色的橡皮泥分别表示不同地形。教师用这个拼盘图对学生进行暗示启发,学生甲一点就通:“原来百分数关系可以用圆与扇形来表达,用一个整圆表示总量,用扇形表示各部分量。”学生乙补充道:“平原占12.0%,表示平原面积占我国陆地总面积的12.0%,我们可以用一个圆来表示我国陆地总面积,在圆内画出一个扇形表示平原面积。” 教师接着说:“同学们的悟性真高,像拼盘那样表示各部分量与总量之间关系的统计图我们称为扇形统计图。下面,就请同学们自己尝试着画出我国陆地各种地形分布情况统计图。”然后教师又引导学生根据各百分数的含义,讨论如何绘制出各个扇形。学生丙联系圆心角的知识道出了平原部分的画法:“一个圆是360°,360°的12.0%是43.2°,在圆内画出一个圆心角是43.2°的扇形就表示平原的面积了。”在学生丙的引领下,同学们迅速算出其他扇形的圆心角度数,并画出了完整的扇形统计图。
三、引领梳理反思,点醒对应思想
为了实现“教是为了不教”,教师在教学中经常引领学生梳理思路,反思学习得失,总结学习经验,使他们获得了质的提升。在学习“扇形统计图”一课的过程中,由于有了先前基于数据分析的精心引导,学生亲历了统计方法的选择与统计图的绘制,对扇形统计图的特点和作用了然于心,读懂扇形统计图自然不成问题。因此,在组织学生对统计图中的信息进行简单分析之后,教师增设了一个“回顾反思”环节,让学生回顾整个统计活动经历,使学生懂得了不同的问题背景需要用不同的数据分析方法,各种统计图的选用必须与数据意义相适应。如反映数量增减可选择折线图,要表达数量多少可选用直条图,要反映各部分量与总量之间的百分比关系可选择扇形统计图。高年级学生的类比分析能力比较强,教师让他们通过简要梳理与反思,能使他们明晰数据分析方法的选择的重要性,对数据分析方法的选择有清晰的认识,进而点醒他们的数学思想。
四、结束语
总之,统计教学是一个系统而完整的活动过程,从对问题背景的理解、对数据的解读、对统计方法的选择,再到图形的绘制等,这一切都离不开科学严谨的分析。数据分析是统计的核心,教师在统计教学中应以数据为核心,引领学生在科学分析中选择出合适的统计方法,从而圆满地完成统计任务。
参考文献:
一、关注统计意识的培养,让学生经历数据收集的过程
统计意识的培养是小学学习最重要的目标之一. 统计意识的首要方面是能有意识地从统计的角度思考有关问题,当遇到有关问题时能想到去整理分析数据,即发展学生的统计意识. 发展学生的统计意识最主要的方式就是让学生体会到统计是有用的. 基于以上目标,在学生根据原始数据提出自己的问题后,教师引导学生体会解决问题必须对这些数据进行整理,就产生了整理统计的需要,有了需要学生就会考虑选用方法进行整理统计,然后通过教师的点拨,学生在小组内自主完成数据的整理统计,学生参与度和统计结果正确率都比较高. 根据统计结果,同学自己提出的问题迎刃而解. 这样的设计,让学生带着解决问题的需要,投入到数据的整理统计中,在经历统计的过程中培养了学生的统计意识. 如以下设计:
(一)呈现情境,提出问题
师:同学们,2008年北京奥运会中国以51枚金牌数居金牌榜榜首. 大家看,这是第二奥运中国体育代表团金牌榜. 根据金牌榜提供的信息,你能提出什么问题?
生1:中国游泳项目获多少枚金牌?
……
(二)分类统计,解决问题
师:老师发现同学们提到的问题都与中国各种项目获金牌数情况有关,所以我们先来解决这个问题“中国各种项目获金牌数的情况是怎样的”. 解决这个问题需要用到哪方面的知识啊?(统计知识)对,我们需要对原始数据进行整理、统计. 你打算怎样统计?
生:用统计表,根据体育项目进行分类统计. (板贴:统计表)
师:这名同学想到了根据体育项目进行分类统计,你们同意吗?除了用统计表表示统计结果,还可以用什么来表示?(条形统计图)
师:大家看,在金牌榜上出现的体育项目既多又分散,比如说水上项目就有游泳、跳水、划艇等,我们可以把某些项目进行归类,请看大屏幕(课件出示分类标准).
师:下面小组内进行分类统计,可以选用统计表,也可以选取统计图来表示统计结果.
生:(分小组活动).
……
二、关注扇形统计图的产生,让学生通过数据分析体会学习扇形统计图的必要性
让学生体会引入扇形统计图的必要性是认识扇形统计图的开始,有利于激发学生对新知的求知欲. 因此,在教学中我有意识地将切入点回归到学生要解决的问题上,在引导对条形统计图进行分析后,教师抓住学生前面提到的“举重项目获金牌数占金牌总数的百分之几”这一问题让学生来解决,随即出现一组含有百分数的统计表,然后教师提出“要清楚地表示出这些信息,我们还可以用这样的统计图”,大屏幕出示做好的扇形统计图. 这样一来,扇形统计图的引入水道渠成,既加强了与数据整理统计的联系,又为扇形统计图特征和作用的理解做了有力的铺垫. 如下面的设计:
……
师:刚才我们用统计表和条形统计图表示出了各种项目获金牌数的情况(课件出示统计表和条形统计图),之前有名同学还提到这样一个问题(课件出示单式统计表):举重项目获金牌数占金牌总数的百分之几,这个问题怎么解决啊?(课件出示复式统计表空栏)
生:用举重项目金牌数除以总金牌数.
师:怎样列算式?
生:8 ÷ 51.
师:非常好!体操项目呢?它获的金牌数占金牌总数的百分之几?
师:像这样,用每种项目获得的金牌数除以金牌总数就能得到这样一组百分数. (课件出示复式统计表加百分数)
师:同学们,对于中国各种项目获金牌情况,我们还可以用这样的统计图来表示(课件出示扇形统计图)
三、关注扇形统计图的直观优势,让学生读懂数据
当前是一个信息时代,读图时代. 让学生从统计图中获取信息,根据统计图中的数据进行分析、预测和推断,是发展学生数据意识具体的教学策略. 统计图的特点是形象直观,便于比较观察,那么在指导学生读图的时候,应当突出图的直观优势. 教学前我首先思考了“扇形统计图的直观优势在哪里”这样一个问题. 通过研读教材我发现,扇形统计图的特征应该从百分数的意义和扇形大小两方面去理解,在读图过程中也应侧重这两方面,且要将数与形两方面进行有机结合. 课堂上在教学扇形统计图特征时有意识地引导学生读懂数据,注重了对百分数意义的理解和它所在的扇形的大小,特别在比较大小时,我们既可以通过百分数大小来比较,又可以通过扇形大小这一直观优势进行比较. 另外,注意让学生结合生活情境,根据统计图中的数据进行推断、预测,体验数学的价值所在. 通过读图,学生切实体会到了扇形统计图的作用. 如下设计:
师:见过这种统计图吗?(没见过)那知不知道它叫什么统计图?(扇形统计图). 大家可真聪明,它就叫扇形统计图. (板贴课题:扇形统计图)
师:知道它为什么叫扇形统计图吗?
生:圆内有大大小小的扇形.
师:大家都发现了,扇形统计图中有扇形. 谁能到前面来指一指图中哪儿有扇形?(生指扇形统计图中的扇形)
师:正像这名同学所指的,圆内确实有大大小小不同的扇形. 你能看出哪个扇形最大吗?(生指水上项目所在扇形)
师:为什么表示水上项目的这个扇形画得最大?
生:因为水上项目获得金牌数占金牌总数的百分比最大. 师:最小的呢?为什么呢?
师:在这个扇形统计图中有两个大小一样的扇形,你发现了吗?
师:为什么这两个扇形可以画得一样大呢?
……
四、关注素材的决策功能,体现统计中数据分析的价值所在
统计教学中,学生不仅要读懂简单的数据,更重要的是要根据统计图和实际情况,分析统计图中数据的合理性,作出某些判断和决策,并从中得到某些启示. 针对初教时研课提出的问题,我们设计了部分开放性的练习,如:我从媒体中找到一些数据,鼓励学生读懂媒体中的统计图,并引导学生体会这些数据带给我们的启示,等等. 这样一来,使得统计教学更具价值性.
……
师:下面让我们来关注学校的红领巾广播站. 学校广播站每周播音2小时. 下图表示各个节目的播音时间情况.
师:哪个节目的播音时间最长?你是怎么知道的?
师: “学法交流”的播音时间是24分钟,占每周播音时间的百分之几?
生:24除以120等于20%.
师:这是求一个数是另一个数的百分之几.
师:如果老师请你做我们学校广播站的策划者,你对栏目内容和时间有什么好建议?
师:同学们提出了很多好的建议,课后咱们在全校做一次调查,并且选用合适的统计图表示统计调查结果. 相信在大家的帮助下,广播站会受到更多同学的喜欢.
关键词:数据挖掘;统计学;比较
中图分类号:TP311.131文献标识码:A文章编号:1007-9599 (2010) 06-0000-01
Comparison of Data Mining and Statistical Analysis
Kong Pengxiang
(Laiwu Iron&Steel Group Co, Ltd.,Training Centre,Laiwu271104,China)
Abstract:Data mining from statistical analysis,but different from the statistical analysis.Data mining is not intended to replace the traditional statistical analysis techniques,on the contrary,statistical analysis of data mining is an expansion and extension.
Keywords:Data mining;Statistical analysis;Comparison
随着科学技术的发展,利用数据库技术来存储管理数据,利用机器学习的方法来分析数据,从而挖掘出大量的隐藏在数据背后的知识。这种思想的结合形成了现在深受人们关注的非常热门的研究领域:数据库中的知识发现――KDD(Knowledge Discovery in Databases),其中,数据挖掘技术便是KDD中的一个最为关键的环节。
一、数据挖掘简介
(一)数据挖掘的含义和功能
数据挖掘―DM(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘是一门交叉学科,它汇聚了数据库、人工智能、统计学、可视化、并行计算等不同学科和领域,近年来受到各界的广泛关注。
一般说来,数据挖掘是一个利用各种分析方法和分析工具在大规模海量数据中建立模型和发现数据间关系的过程,这些模型和关系可以用来做出决策和预测。它强调对大量观测到的数据库的处理。它是涉及数据库管理、人工智能、机器学习、模式识别、及数据可视化等学科的边缘学科。
作为一门处理数据的新兴技术,数据挖掘有许多的新特征。首先,数据挖掘面对的是海量的数据,这也是数据挖掘产生的原因。其次,数据可能是不完全的、有噪声的、随机的,有复杂的数据结构,维数大。最后,数据挖掘所采用的技术涉及到:数据库、人工智能、统计学、可视化、并行计算等不同学科和领域。
二、统计学的含义
统计学最初是作为一门实质性科学建立起来的,它从数量上研究某类具体的现象(如社会经济发展)的规律,但是,随着统计学研究范围的不断扩大以及统计方法在社会领域和自然领域内的有效应用,加之统计方法体系本身的不断发展和完善,使得统计学的研究对象也发生了变化。统计学已从实质性科学中分离出来,转而研究统计方法,成为一门方法论的科学。即统计学是研究如何搜集数据、整理数据和分析数据的一门方法论科学。
从本质上看,统计工作的核心就是数据(或者信息)的采集、分析和处理,正如权威的不列颠百科全书将统计定义为“statistics:the science of collecting,analyzing,presenting,and interpreting data”即“统计:收集、分析、表述和解释数据”
三、数据挖掘与统计学的比较
数据挖掘来源于统计分析,而又不同于统计分析。数据挖掘不是为了替代传统的统计分析技术,相反,数据挖掘是统计分析方法的扩展和延伸。大多数的统计分析技术都基于完善的数学理论和高超的技巧,其预测的准确程度还是令人满意的,但对于使用者的知识要求比较高。而随着计算机能力的不断发展,数据挖掘可以利用相对简单和固定程序完成同样的功能。新的计算算法的产生如神经网络、决策树使人们不需了解到其内部复杂的原理也可以通过这些方法获得良好的分析和预测效果。
由于数据挖掘和统计分析根深蒂固的联系,通常的数据挖掘工具都能够通过可选件或自身提供统计分析功能。这些功能对于数据挖掘的前期数据探索和数据挖掘之后对数据进行总结和分析都是十分必要的。统计分析所提供的诸如方差分析、假设检验、相关性分析、线性预测、时间序列分析等功能都有助于数据挖掘前期对数据进行探索,发现数据挖掘的题目、找出数据挖掘的目标、确定数据挖掘所需涉及的变量、对数据源进行抽样等等。所有这些前期工作对数据挖掘的效果产生重大影响。而数据挖掘的结果也需要统计分析的描述功能(最大值、最小值、平均值、方差、四分位、个数、概率分配)进行具体描述,使数据挖掘的结果能够被用户了解。因此,统计分析和数据挖掘是相辅相成的过程,两者的合理配合是数据挖掘成功的重要条件。
四、小结
数据挖掘理论与技术的产生,促进了统计学发展的同时,也提出了更多的挑战。如何更好地使用数据挖掘和统计为解决社会实际问题做出贡献,是统计学家和数据挖掘研究者共同关心的话题。数据挖掘和统计学应该相互学习和渗透,各自分工,协同工作,共同为挖掘隐藏在复杂现象背后的有价值的知识贡献力量。
参考文献:
[1]Jiawei Han,Micheline Kambr.数据挖掘――概念与技术(影印版)[M].北京:高等教育出版社,2001
[2]韩明.数据挖掘及其对统计学的挑战[J].统计研究,2001,8
[关键词]数据结构;算法;数据元素;系统应用
中图分类号:TP311.52 文献标识码:A 文章编号:1009-914X(2017)22-0102-01
1 引言
随着计算机技术日新月异的发展,程序可视化教学在教育和教学中已经显示了明显的优越性。所谓可视化教学,是指在计算机软件与多媒体技术的帮助下,将一些抽象、深奥、复杂的事物以及发展过程,用仿真化、虚拟化、实体化的方式,在教学方法中显现出来。可视化教学应用方便,可以使计算机学习者直观地观察、体验并利用这些可视化的知识模型,从而使计算机学习者较为轻松地进行课程的学习,对计算机学习者的认知能力与创新能力都会有较大的提升。
可视化教学应用于数据结构算法教学当中,可以改变传统教学方法中的枯燥乏味局面,吸引计算机学习者的注意力。可以将文字、数据、图片、源代码等其它多媒体动态地融合在一起,丰富算法的执行过程。可以让计算机学习者体会在大量不同的数据结构下,算法执行效率的差异。计算机学习者也可以充分的利用自己的课余时间进行自我学习,通过可视化教学软件研究算法的执行过程,培养计算机学习者自主学习的能力。
2 数据结构与算法系统的需求分析
传统的数据结构与算法教学方法中,有些算法的执行过程比较抽象,教师为了讲解一个算法往往需要辅助大量的图形示例。常规的板书和一般的幻灯投影授课均难以有效地展示这种抽象性和动态性,容易造成教学的低效和学时膨胀。有一些学校看到了弊端,苑⒊隽耸据结构教学网站供计算机学习者学习和交流;也有一些学校则开发出了可视化数据结构教学演示系统,将数据结构中算法的执行过程直观展示在用户面前。整体上看,这些系统在一定程度上促进了用户的学习,但还存在着一些不足,如系统以“教”为中心而设计,缺乏以用户为中心的人机交互理论的指导,学习者与软件的交互机会少且单一。因此,一个供用户自主设计算法,在实践环节上进行创新,提出自己的见解和设计,并得以验证,从根本上和底层次上深化对数据结构与算法的理解的学习平台的苑⒂任重要,互联网支撑的数据结构与算法学习系统将解决这个问题。系统能够让用户熟悉数据结构课程的核心理念,掌握相关算法内部的运行机制。本文在研究数据结构模块的基础上,将开发一个数据结构与算法学习系统,联动演绎各数据结构模块是如何有机结合的,并为用户提供自主设计算法的接口,这也是本系统区别于其他系统的一个创新点。
本文提出的数据结构与算法学习系统的设计目标为:系统良好的交互界面,包含数据结构各功能模块的算法演示,各模块详细信息查看,利用计算机图形界面技术,提供良好的用户界面。系统实现一系列数据结构的算法,用户能实时查看算法图形动态演示过程,并提供各算法和数据结构的详细中间结果信息,帮助用户进一步理解算法的执行过程和效率。系统不仅可以为用户展示数据结构算法的执行过程和中间结果,还提供编程接口让用户实现自定义算法,并对该算法进行测评,以图形界面的方式展示在用户面前。系统具备良好的稳定性,采用了多种安全机制确保服务器的稳定运行,保证了系统的安全可靠。充分运用面向对象的设计思想来设计系统模块,使其具有良好的扩展性,方便系统的后期维护和扩展。
3 数据结构的系统总体架构
系统采用典型的三层架构作为开发模型,本系统的三层架构主要划分为客户端、服务器端和服务资源层。系统客户端是一个浏览器,显示用户的使用界面,不同的用户通过浏览器向服务器端发送请求,然后接收服务器的返回信息展示在用户界面上。服务器层位于系统的服务器端,包含了数据库服务器和应用程序服务器,它提供了数据支持,实现了算法引擎和代码测评,算法引擎提供了经典算法的演示和用户自定义算法演示,代码测评负责对用户提交的源代码进行测试,并生成y试数据。服务资源层位于系统的服务器,它提供用户经典算法库和可视化类库,经典算法库包含了相关的代码以及算法演示的全过程,可视化类库提供用户的一些画图操作,让图形界面的演示更为美观。
优秀的系统必须能够满足系统的扩展和维护需求,数据结构与算法学习系统三层架构侧重于设计的简单化,简化客户端的功能,将复杂操作置于服务器端。系统的客户端,也就是浏览器层,仅仅用来显示用户工作界面和执行一些画图操作。系统的客户端是前台用户浏览器,显然,浏览器不会对测评系统产生任何影响,只要客户端浏览器支持环境就可以运行该系统,而目前的浏览器都对其进行了支持。不管客户端有多少不同种类和数目,都不会影响系统的完善和后期维护,这样就减轻了系统开发和扩展维护的难度。另一方面,系统服务器端承载了绝大多数的负载,基于此情况,服务器端的配置就必须要合理,后台服务器的一个小小的错误都有可能对系统测试服务造成不可预计的影响,因此,保证系统服务器端的安全稳定运行是十分关键的。
在本系统的三层架构中,利用基于面向对象的方法进行系统的苑,按照系统需求对服务器做了不同模块的划分,主要分为三个部分。分别是数据库、算法引擎和代码测评程序。数据库为用户提供数据支持,能够满足用户对数据的增加、修改、删除、更新等操作。算法引擎负责对算法进行解释,给用户提供算法的演示功能,并能够将用户按照系统要求编写的代码转变成图形方式展示在用户面前。代码测评程序主要对用户提交的源代码进行完整的测评,其中包括源代码编译,源代码测试和程序监控等。对于服务资源层,包括两大部分,分别是经典算法库和可视化类库。经典算法库包含了数据结构九大章节的数据结构模型和相关的算法,供算法引擎调用,在客户端上展示出来。可视化类库提供了一系列的数据结构画图操作,使算法的演示过程显得生动形象。
服务器层用分离可缩放结构,算法引擎部分与代码测评程序两者没有直接交互。本文设计的系统将算法引擎与代码测评分离开来,测评模块用多线程处理机制,极大的提高了系统的响应速度,双方通过数据库进行~合。这种结构的设计也使得测评模块的复杂性有所降低,首先,测评模块易于维护,不同模块的修改不会对其他的模块造成影响,其次,利于系统的负载均衡。如果算法引擎和代码测评在同一台服务器运行,当同时测试的用户比较多的时候,非常消耗服务器资源,容易照成服务器负载过重。用了分离可缩放结构,代码测评系统就可以单独的放在另外一台服务器上,专门负责源代码的测评工作,甚至可以放在一个集群上,有效地提升系统的运行效率。通过对系统进行分层,能够使得系统的各大模块之间没有强的Q合,彼此之间相互联系却不会相关干扰,使得开发过程方便快捷,对以后的维护和扩展也有着极大的好处。
参考文献
[1] 在线学习系统的设计与开发[J].李萍.电子世界.2013(13).
关键词: 公式或函数数据透视表多条件及格率平均分
引言
每次全国普通高校非计算机专业计算机联合考试(一级)考试阅卷结束后,由自治区将成绩以Excel电子表格形式下发到各学校(以下简称成绩表)。成绩表的表头各字段名如下:
教师需对成绩表进行汇总统计与分析,了解全校各系、各年级、各专业的平均分、及格人数和及格率等情况,便于修订教学计划。
针对学生成绩表的多条件统计分析需求给出公式或函数法和数据透视表法两种解决方案。
1.公式或函数法
1.1 SUMPRODUCT函数
SUMPRODUCT函数是在给定的几组数组中,将数组间对应的元素相乘,并返回乘积之和。
语法SUMPRODUCT(array1,[array2], [array3], ...)
其中,数组参数Array1必需,Array2,array3,……可选,其相应元素需要进行相乘并求和。
SUMPRODUCT函数的基本功能是返回相应的区域或数组乘积的和。但也可利用SUMPRODUCT函数进行多条件计数和多条件求和。
若要统计同时满足条件1、条件2到条件n的数据个数,则可使用
SUMPRODUCT((条件1)*(条件2)*…*(条件n))
若要统计同时满足条件1、条件2到条件n的数据的和,则可使用
SUMPRODUCT((条件1)*(条件2)*…*(条件n)*求和区域)
1.2定义名称
为了在公式计算中方便输入和减少输入量,给需使用的单元格区域定义简单易记的名称,它们分别为年级、院系名称、理论成绩和操作成绩。
操作步骤:选择菜单“插入”“名称”“定义”命令,在定义名称对话框中输入名称和引用位置,确定即可。定义名称对话框如图1所示。
图1定义名称对话框
名称引用位置中使用了一个动态的公式“=OFFSET(成绩表!$F$2,,,COUNTA(成绩表!$A:$A)-1,1)”定义数据源,这样就不用管共有多少条记录了,COUNTA(成绩表!$A:$A)-1会自动计算记录数,并且如当一条新的纪录添加或删除时,数据源会自动扩展。
1.3创建统计表
添加一个新的工作表,用于存放统计数据,命名为“统计表”,表头设计如下:
在A和B列分别输入年级和院系名称。
在C3单元格输入“=SUMPRODUCT((年级=$A3)*(院系名称=$B3)*(理论成绩>=0))”;
在D3单元格输入“=SUMPRODUCT((年级=$A3)*(院系名称=$B3)*(理论成绩>=60))”;
在E3单元格输入“=SUMPRODUCT((年级=$A3)*(院系名称=$B3)*(操作成绩>=60))”;
在F3单元格输入“=D3/C3”;在G3单元格输入“=E3/C3”;
在H3单元格输入“=SUMPRODUCT((年级=$A3)*(院系名称=$B3)*理论成绩)/C3”;
在I3单元格输入“=SUMPRODUCT((年级=$A3)*(院系名称=$B3)*操作成绩)/C3”。
填充数据,并将小数位设置为两位,部分统计结果显示如下:
2.数据透视表法
2.1创建空白的数据透视表
选定数据清单中的任意单元格,选择菜单“数据”“数据透视表和数据透视图”命令,在弹出的对话框中单击“完成”按钮。Excel将产生一个含有空白的数据透视表的工作表,其中显示字段列表和数据透视表工具栏。
2.2对数据透视表进行布局
若需统计各年级、各院系的理论成绩的平均分、及格人数和及格率等,则可从字段列表中将“年级”字段拖到页字段区,将“院系名称”拖到行字段区,将“理论成绩”字段拖到列字段区,将“理论成绩”、“学号”和“学号”字段依次拖到数据区。将数据透视表中的“数据”拖到右边的单元格。
若要改变数据透视表的布局,就将欲删除的字段拖出数据透视表,然后将新的字段从字段列表中拖到数据透视表相应区域即可。
2.3设置字段的显示方式和汇总方式
将“理论成绩”分为
Excel对“理论成绩”字段默认的汇总方式为“求和”。若要更改汇总方式为“平均值”,可右击“求和项:理论成绩”,选择“字段设置”,或先单击“求和项:理论成绩”,再单击数据透视表工具栏上的“字段设置”按钮,均可调出“数据透视表字段”对话框;在“数据透视表字段”对话框中,单击“汇总方式”列表框中的“平均值”,然后单击“确定”按钮。这就将“理论成绩”的汇总方式改成了“平均值”。
将“学号2”字段的显示方式更改为“占同行数据总和的百分比”。操作方法:右击“计数项:学号2”,选择“字段设置”,在调出“数据透视表字段”的对话框中,单击“选项”,在“数据显示方式”列表框中选择“占同行数据总和的百分比”,然后单击“确定”按钮。
2.4重命名字段
当向数据区域添加字段后,它们都将被重命名,例如“理论成绩”变成了“平均值项:理论成绩”,这样加大了字段所在列的宽度,表格显得不紧凑。如需重命名字段,只要单击数据透视表中需要修改的标题单元格,在编辑栏中输入新标题即可。我们将“平均值项:理论成绩”改为“理论平均分”,“计数项:学号”改为“人数”,“计数项:学号2”改为“人数占比”,将“0~59”改为“不及格”,将“60~119”改为“及格”。
稍作修饰,将小数位数设置为两位小数,隐藏“人数汇总”和“人数占比汇总”。至此,可得到如图2所示的数据透视表。
图2数据透视表
数据透视表创建好后,任何时候都可根据需要,对数据透视表重新进行布局,即只需拖动字段按钮就可,并可非常方便地调整显示方式和汇总方式,以便从不同的角度查看分析数据,从中寻找有价值的信息,满足新的数据分析的要求。
结语
Excel具有强大的数据分析和数据处理功能,包含了9大类、400多个内置函数和大量的分析工具。公式或函数法和数据透视表法都是Excel分析和处理数据的重要手段,合理选取,巧妙应用,能使数据处理方便且高效。
参考文献:
[1]魏零.巧用Excel数据透视表统计分析学生成绩[J].科技信息,2010.7(19).
【关键词】排课管理系统;功能分析;数据分析
1 功能分析
通过功能需求分析,刻画系统的行为,并通过系统的软件功能完成用户的任务,从而满足业务的需要。
1.1 角色分析
宁波工程学院排课管理系统涉及到以下角色:(1)教务处人员,是系统的主要参与者,其职责或功能为基本数据与信息管理、系统管理与维护等;(2)院系教务人员,是系统主要参与者,其职责或功能为教师任务书编制、人机交互式排课等;(3)教师的职责或功能为教学任务书核对、课表查询;(4)学生的职责或功能课表查询。
1.2 系统数据流分析
本文运用结构化方法分析业务功能,用户比较能理解数据,结构化方法以数据为中心,用数据流图(DFD)来描述业务功能。在数据流图中,矩形框表示角色,圆边框表示功能,开口矩形表示为数据表或数据文件,箭头线是数据线。
数据流图按分层来画,分别为顶层数据流图、一层数据流图,一层数据流图对应总体功能结构,几个圆边框对应功能结构中的几个功能。
1.2.1 顶层数据流图
从业务功能的角度出发,给出了宁波工程学院排课管理系统的顶层数据流图,如下图1所示:
图1 顶层数据流图
从以上顶层数据流图中可以看出,系统的参与者主要分为四类:教务处人员、院系教务人员、教师和学生。其中教务处人员管理基本数据信息以及更新和维护系统,院系教务人员通过关联信息编制形成教学任务书和排定课表,教师和学生主要通过该系统进行课表查询。
1.2.2 一层数据流图
为了进一步细化各加工步骤说明,下面给出了系统的一层数据流图。
图2 系统一层数据流图
在上图2中,主要包含三大块功能,即教务处人员的基本数据信息管理和系统管理、院系教务人员的任务书编制管理和人机交互式排课以及师生的课表查询管理。教务处人员通过录入教师、学生、教室、教学计划、班级、课程等基本数据信息,实现对基本数据信息的管理与维护,为人机交互式排课提供数据信息基础,并通过系统管理对系统进行更新和维护。院系教务人员通过编制形成任务书和关联基本数据信息,运用人机交互式排课方法排定课表,并反馈系统更新和维护信息。教师和学生通过各自权限查询课表信息。人机交互式排课是该系统的核心工作,其他工作都是围绕它为核心来进行的。
1.3 系统功能结构分析
通过需求分析中的数据流程图逐层分解,可得到宁波工程学院排课管理系统的四大模块:基本信息管理、教学任务管理、人机交互式排课和系统管理。教师、学生、班级、教室、教学计划、课程等基本信息管理模块仅提供给教务处人员使用,教务处人员通过这些模块录入和维护教师、学生、班级、教室、教学计划、课程等信息。教学任务管理模块仅提供给院系教务人员使用,院系教务人员通过该模块制定任务书,并打印任务书分发给教师使用。人机交互式排课模块仅提供给院系教务人员使用,院系教务人员使用该模块进行人机交互式排课,并设置参数供教师和学生查询使用。系统管理模块提供给教务处人员、院系教务人员、教师和学生使用,院系教务人员通过该模块反馈信息,教务处人员通过该模块更新、维护和备份系统信息,教师和学生通过该模块检索查询课表信息。
2 数据分析
2.1 实体关系分析
E-R图(Entity Relationship Diagram),也称实体-关系图,提供了表示实体类型、属性和联系的方法,用来描述现实世界的概念模型。由于宁波工程学院排课管理系统的基本信息管理数据流图涉及基本信息,教学任务管理数据流图涉及任务书信息,人机交互式排课数据流图涉及课表信息,系统管理数据流图涉及系统信息,因此宁波工程学院排课管理系统包括基本信息、任务书信息、课表信息、系统信息和教务处人员、院系教务人员、教师、学生等八个实体。
图3 宁波工程学院排课管理系统E-R图
如上图3,宁波工程学院排课管理系统E-R图表示:教务处人员与基本信息、系统信息是操作产生的关系,院系教务人员与任务书信息、系统信息是操作产生的关系,院系教务人员与课表信息是关联产生的关系,教师、学生与课表信息是查询产生的关系,其中,院系教务人员、教师、学生与课表信息是多对多关系,教务处人员、院系教务人员与系统信息是多对多关系,其余都是1对多关系。
2.2 数据库表
根据E-R图,给出如下软件系统主要两个数据库表的设计,分别为教师信息表和课表信息表。其中,学生、班级、教室、教学计划、课程、任务书等信息表可以类似表示。
(1)教师信息
保存教师的基本信息。
表1 教师信息表
教工号是表1 教师信息表的主键,它是标识该表中所有行的一个列或一组列。专业班级是建立和加强表1教师信息表与表2课表信息表数据链接的一列,故专业班级是表1教师信息表的外键。
(2)课表信息
保存课表的信息。
表2 课表信息表
专业班级是表2课表信息表的主键,它是标识该表中所有行的一个列或一组列。教工号是建立和加强表2课表信息表与表1教师信息表和任务书信息表数据链接的一列,教室名称是建立和加强表2课表信息表与教室信息表数据链接的一列,专业名称是建立和加强表2课表信息表与班级信息表数据链接的一列,课程名称是建立和加强表2课表信息表与课程信息表数据链接的一列,故教工号、教室名称、专业名称和课程名称都是表2课表信息表的外键。
3 总结
本文通过对宁波工程学院教务管理部门以及排课管理系统开发部门等的深入调研,并结合本人长期以来所从事排课工作的具体实践,对宁波工程学院排课管理系统功能和数据进行了全面的研究和分析,本文所做的主要工作有如下几方面:
1)对多年来本人所从事的排课管理工作进行了详细而细致的梳理,把工作中碰到的问题和实践经验提炼出来。
2)根据宁波工程学院排课管理系统的运行实际,通过刻画顶层和一层数据流图来描述业务功能。
3)依据功能分析刻画形成E-R图,并给出主要两个数据库表的设计。
通过对宁波工程学院排课管理系统的功能、数据分析的过程,深入地分析宁波工程学院排课管理系统的内部运行机理,对于以后工作中碰到类似系统问题的解决、维护与运用,具有很大的帮助作用与参考价值。
【参考文献】
[1]杨丽丽.排课系统的设计与实现[D].长春:吉林大学,2012.
[2]张小红.高校排课系统的设计与实现[J].电子科技,2012(7):45-47.
[3]李正慧.排课系统数据表的设计与功能的实现[J].数字技术与应用,2011(7):116-119.
[4]俸世洲.独立学院排课系统的数据库与算法分析[J].中小企业管理与科技,2011(5):274.
[5]苏贞.清华大学教务管理系统在排课问题中的应用与思考[J].科技视界,2013(28):146-147.
【关键词】数据分析;实践;统计
中图分类号:G635.5 文献标识码:A 文章编号:1671-0568(2015)36-0122-01
我国相关教学制度规定,在数学教学中,必须重视对学生空间观念、数据分析观念及推理观念等的培养。数据能够帮助学生正确判断学习及生活中的相关问题,从而做出正确抉择,数据现已充斥着整个社会,因此,现代公民必须重视对数据分析、数据收集及数据整理等能力及观念的培养,从而提升自身决策的合理性与准确性,实现数据的有效传输与表达。
一、数据分析观念内涵
数据分析观念主要是指现实生活中人们在解决相应的问题时,需要对与问题相关的数据等进行调查研究,同时,通过对相关数据的分析理解其中的内涵,找到解决问题的方法。在数据分析过程中,同样的数据有多种数据分析方法,这就需要相关人员根据相关问题的具体要求选择合理的分析方法。数据分析是统计的核心要素,因此,数据分析内的相关要素及相关内涵主要包含以下几个方面:
1. 具有数据相关意识
数据的应用充斥着人们的现实生活与学习,要合理、准确地解决现实问题需要有数据意识。在解决问题之前,需要对信息及数据进行收集,同时,学生根据数据提炼内部的相关信息及有效数据,帮助学生高效解决相关问题。
2. 选择合理的数据搜集与分析方法
分析与整理相同数据具有多种分析方法,这就需要学生对相关问题进行分析从而选择最合理的方法。例如,在对数据统计中的统计图表进行绘制时,往往具有多种图表表现形式,但是学生在进行相关统计图表选择时会选用最佳的统计图表,如在对相关数据中的数量关系进行统计时,则可选用条形统计图,若表现各数据在整体数据中所占比例时,则可选用扇形统计图。
3. 通过数据分析体验随机特征
数据的随机性主要是指在解决同一问题时,其收集到的数据可能存在差异性,另一方面是指足够的数据中具有相关规律。例如,探究数学学习中关于学习知识点需要用多长时间时,就可以对数据进行统计。在统计过程中,会发现每天的知识点、学习时间具有差异性,但在多次试验之后便可发现其中的相关规律。数据虽然具有随机性,但在多次试验验证后其数据又具有相对稳定性。
二、在统计教学中培养学生数据分析观念的途径分析
1. 引导学生基于现实参与数据收集及分析活动
在统计学教学中,教师可以积极引导学生参与数据收集及分析活动,促进学生数据分析意识及分析观念的形成。学生数据分析观念的养成首先需要数据分析意识的养成,学生在遇到困难时,可产生利用数据解决问题的意识,因此,教师在具体教学中可依照实际生活设计具有现实意义的数学实际情境,这样可以最大限度地激发学生完全投入到统计活动中,使学生通过实际情景对数据进行收集、整理、分析并做出解决问题的最终决策,通过在活动中的实际体会逐步促进自身数据分析观念与分析思维模式的养成与提升。
2. 重视情感作用,激发学生的求知欲望
在统计教学中,学生良好的学习情绪以及强烈的求知欲对其学习进步以及智力开发具有非常重要的影响,在数据分析观念的培养过程中,重视对学生情感的教育与引导可使学生尽快进入学习状态,营造轻松、和谐的教学氛围,将学生带入教学情境中,不仅有利于教学工作的开展与教学任务的实现,同时还有利于良好师生关系的形成。
在“统计”课程教学之前,教师在课堂中可以进行情境创设。例如,周末组织班级学生外出郊游,要求学生思考郊游的地点及郊游活动应怎样选择。此时,学生因听到有关游玩的话题比较兴奋,便积极地展开讨论,教师再对学生进行统计课程带入教学,这样,不仅使得课堂变得生动、活跃,使学生的积极性增强,为课程的展开创造了良好的环境,使教学内容更易开展。
3. 引导学生掌握数据收集、整理及分析等方法
在数学统计学教学中,常用的数据收集方法一般为直接获取数据的方法,包括实验、调查,等等,同时也包括资料翻阅等间接获取方法。收集数据工作结束之后,需要对看似杂乱的数据进行整理、分类,在对数据进行描述时,常用的方式主要有计数、统计图等,因此,需要学生认识条形统计图、扇形统计图及折线统计图等统计方法,并运用以上方法对数据进行有效分类,同时还可运用自身语言知识解释其含义,分析数据主要是指对数据进行简繁分析并达到交流作用。数据分析过程是复杂的思维分析过程,在问题解决的过程中,教师应引导学生根据问题的具体情况选择合理的分析方式,从而使学生在学习中不断完善自身的想法并实现对数据分析方法的有效掌握。
例如,对班级学生身高进行分析与相关问题探讨:某小学某班级中学生的身高在134~160cm之间,学生根据班级身高记录单对班级中学生的身高进行分析统计,从而得出学生中最低身高为134cm,最高身高为160cm,若要选择参与跳高的运动员时,学生可以通过数据进行探讨,并对学生的身高按照从高到低的顺序进行排列后选出多名身高最高的学生,之后再对整理数据的作用进行相应分析。
4. 引导学生重视数据随机性,使学生全面认识数据
教师在对学生进行数据分析观念的培养中,需要选择适当的问题对学生进行数据随机性体验。例如,在对学校校门口一天之内各个时段的人流量统计活动中,教师可引导学生选用合适的方式进行人流量的统计与记录,同时在开展该活动中,学生还应考虑数据的有效性及数据所需时间,等等,引导学生在所监测的不同数据中找寻相应规律,最终顺利解决问题。
在数学统计教学中,学生数据分析观念的培养,是统计学与概率学教学的开展基础,同时也是数学问题解决的有效观念之一。在对学生进行数据分析观念的培养中,教师应重视对学生具体实践教学的开展及数据统计方法的教授,使学生选用最合理的数据整理、分析等方法,从而促使学生数据分析统计思维的养成,实现数学教学的最终目标。
参考文献:
[1] 范明明.中小学生数据分析能力的培养研究[D].武汉:华中师范大学,2014.
【关键词】 远程教育;辍学率;保持率;差异比较
【中图分类号】 G642.0 【文献标识码】 B 【文章编号】 1009—458x(2013)08—0062—05
一、引言
辍学率居高不下已成为国际远程教育领域的共性问题之一。世界各国开放大学的招生规模不断扩大,但极高的辍学率给学生、院校和社会带来了较大影响,也困扰着远程教育的发展。
英国开放大学作为世界远程教育的翘楚,目前的毕业率仅为22%,是英国全日制普通高等教育毕业率(82%)的1/4左右,是业余高等教育毕业率(39%)的一半左右;其他远程开放教育院校的毕业率则更低,如印度安姆贝德卡大学为14%、南非大学为6%、加拿大阿萨巴斯卡大学为5.3%、美国的凤凰城大学为5%。[1]
在我国,开展网络高等学历教育的试点高校先后开设了300余种专业、1500多个专业点,设立了9000多个校外学习中心,累计招收网络远程教育本、专科学生1000多万人[2],学生人数位居各类教育形式之首,但也受到高辍学率的困扰。目前,远程教育学生的辍学问题还没有在我国引起充分重视,对辍学者的行为研究和理论模型十分缺乏,甚至很多远程教育院校没有完整的辍学统计数据,更谈不上对辍学问题的分析、研究和干预。
西南交通大学网络教育学院自2001年起作为全国首批网络教育试点高校之一开始招生,截止2012年12月31日,先后共开设了47个专业,设立了59个校外学习中心,累计招收网络本、专科学生十万余人,总体辍学率为8.30%。西南交通大学网络教育学院(以下简称“学院”)的学生分布广泛,影响其辍学的因素复杂多样。在日常学籍管理工作中,学院对所有辍学学生均严格要求办理相关辍学手续,并详细记录了所有辍学者的辍学时间、辍学原因等相关数据。
本研究以学院2008~2012年(共5年)的所有学籍数据为研究对象,对之进行多视角的挖掘分析,以期为远程教育辍学研究提供一个完整的实证案例,为各远程教育院校、学习中心降低辍学率提供相关参考和借鉴。
二、数据样本及研究方法
1. 研究对象及数据来源
本研究利用学院“教务管理数据库”平台,选择2008年春季~2012年秋季(共10个学期)全部学生的学籍数据,共计135670条,建立“2008-2012年学籍状态数据库”,并关联毕业生学历数据表、辍学学生数据表、学习中心数据表、各专业数据表等相关数据,全面分析、挖掘2008~2012年间辍学情况。
2. 数据指标定义
本文中,辍学率=辍学人数/招生注册数。其中,“招生注册数”指已经完成了学籍注册、获得学号、具有学籍的学生总数,包括在读、已毕业和辍学流失三类学生;“辍学人数”包括辍学、开除、已达最长学习年限但未完成学业而被清退的三类学生数。
3. 数据预处理
(1)将所有辍学学生按照入学时间、学习层次、专业、性别、年龄、学习状态等进行分类、整合,从多视角计算、分析其辍学情况;
(2)对学院先后开设的47个本、专科专业进行归一处理,分为文法类、理工类、经济类三个大类,分别统计其辍学等相关数据;
(3)将所有辍学学生按学习中心所在的行政区划进行分类,共得到27个省(市)/自治区的有效数据,将其再按照地域方位划分为东北、西北、西南、东南、中部共五个区域进行统计;
(4)计算所有已辍学学生“参加过考试的学期数”,得到其有效在读的时间,即“修业时长”,并将该数据进行归类统计;
(5)对专升本辍学学生的统考通过情况进行分类统计。
4. 统计分析方法及研究工具
本研究采用SQL、FOXPRO、EXCEL等数据库软件,对所有数据进行采集、统计,并对数据进行关联、求和、百分比、标准差等计算处理。
三、辍学总体情况
根据统计数据(表1),2008~2012年学院共计招收本、专科学生135670人,目前在读或已毕业人数125768人,辍学人数共9902人,总体辍学率为7.30%。其中,高升专辍学人数6154人、平均辍学率7.28%,专升本辍学人数3748人、平均辍学率7.33%。
我国网络教育学制为2.5年,目前2008~2010年入学的学生已到毕业时间,2011、2012年入学的学生仍处于正常在读年限内。根据2008~2012级各层次辍学率逐年分布图(图1),2008~2012级总体辍学率呈现下降趋势,且各年级专升本辍学率普遍高于高升专辍学率。2008级专升本辍学率达到最高值(11.95%),高于平均辍学率4.65个百分点。
四、辍学率变化趋势及差异比较
学生辍学涉及很多因素,如学习基础和能力、经济状况、环境变化、工作调换、出国、生病、怀孕,等等。但学生在填写“辍学原因”时,往往只简单地填写“自动辍学”或“工作原因”等,由此难以得到学生真实的辍学原因。因此有必要对所有辍学数据进行不同视角的观察和分析。
1. 辍学时间的情况统计
从表2和图2可以看到,辍学时间主要集中在每年的4月和10月,其辍学率分别为15.26%和21.63%。平均月辍学比例的标准差值为0.0579。在每年春、秋季学期,新生入学注册的时间大约是3月和9月,4月和10月为新生入学后的第一个月。
结合已辍学学生参加考试的学期数(图3),可以看出辍学学生的“修业时长”主要集中在前两个学期,其中没有参加任何学习就辍学的学生占辍学总人数的21.94%,为最大值。此后逐渐下降,在第5个学期出现一个小高峰(14%)。已辍学学生参加考试学期数比例的标准差值为0.0806。由此可见,辍学学生主要集中在学习的早期阶段,较有代表性的时间段为新生入学一个月左右的时候及学习时间到达学制2.5年的时候(第5个学期)。
2. 各专业学生的辍学情况
从表3和图4可以看出,专升本学生的辍学率略高于高升专学生;文法类和经济类学生辍学率相对较高,理工类学生辍学率较低。但总体来说,各大类专业学生间的辍学率区别不大,标准差为0.01150。
3. 不同性别、年龄学生的辍学情况
从表4和图5可以看出,女生辍学率的标准差为0.0126,大于男生0.0073的标准差,总体标准差为0.0087。20~46岁的辍学率变化幅度虽然不大,但呈现明显的规律:26岁以前男女生辍学率整体高于26岁以后;21~25岁学生辍学率最高,31~35岁学生辍学率最低;20岁左右的学生,男女生辍学率无明显差别;21~30岁的学生中,女生辍学率高于男生,其中21~25岁的女生辍学率达到9.65%,为所有年龄段学生中最高;26~30岁学生中,男女生辍学率基本一致;30岁以上学生中,男生辍学率高于女生,其中31~35岁学生中,女生辍学率为6%,为所有年龄段学生中最低;46岁以上的学生中,男女生辍学率趋于一致。
4. 不同地区学生的辍学情况
通过对不同学习中心所在行政区域的辍学情况进行统计,共得到27个省(市)/自治区的有效数据。将该数据按照地域方位划分为东北、东南、西北、西南、中部共五个区域,进行进一步归类统计,得到以下数据(表5)。
通过不同学习中心所在地区总体辍学率分布图(图6)可以看出,地处西北地区的学习中心其学生辍学率最高,达到9.25%;其次是东南、中部和西南地区,分别为8.00%、7.25%和6.54%;东北地区辍学率最低,为4.15%。不同地区辍学比例标准差为0.0318。
5. 专升本已辍学学生的统考通过情况
根据教育部和网考委的相关规定,网络教育专升本学生必须通过公共基础课全国统一考试(以下简称“统考”),因此对统考通过情况的统计是分析学生辍学原因的重要依据。从专升本辍学学生统考通过情况的统计(表6、图7)可以看出,专升本学生辍学总人数为3748人,其中仅通过英语统考的人数为170人,占专升本总辍学人数的4.54%;仅通过计算机统考的人数为169人,占专升本总辍学人数的4.51%;两门统考均未通过的人数为3408人,占专升本总辍学人数的90.93%;两门统考均通过却辍学的学生仅1人,占专升本总辍学人数的0.03%。该生为女性,年龄25岁,于2010年秋季入学,机械设计制造及自动化专业,辍学时间为2012年6月,参加过3个学期的期末考试,在读期间共选修16门课程,其中9门课程通过,7门课程均因“缺考”而未通过。经调查了解,该生因工作地点频繁变动而无法继续学习。
五、辍学原因分析及讨论
通过以上对各项辍学数据的统计和分析,以及各类数据的标准差值,可以看到,对辍学情况影响最大的因素为专升本统考的通过情况。网络教育对学生的入学水平没有严格的要求,入学后各门课程的教学、考试标准也由各院校自行把握。然而面对“统考”这一国家统一考试,学生的通过情况则与其入学水平呈正向关联。如何有效提高学生的学习能力和真实水平,是网络教育解决专升本辍学问题的重要因素。
统计结果显示,辍学往往发生在学习的早期阶段,具体时间是入学后第一个学期的一个月内。此外,第一次考试后也是辍学的高发时间段。数据无法体现出其具体原因是什么。但根据日常教务管理经验,笔者推测可能是学生入学后发现学习的难度超过了预期,也可能是第一次考试的通过情况让学生丧失了继续学习的动力。不管何种原因,在此期间于学习支持服务中提供积极指导和早期干预是非常重要的。
不同性别和年龄对学生保持率的影响也不容忽视。在数据统计中,相对年轻的学生更容易辍学。网络教育的学生往往是在职学习的成人学生,工学矛盾十分突出。学生需要有很强的时间管理能力,能合理规划生活、工作和学习的时间,能按部就班地完成每一阶段的学习。网络教育现有的学习支持服务主要是解答问题和满足需求,这类服务的对象是那些已经具有良好“活跃度”的学生,此类学生往往具有较高的保持率。而那些相对“安静”或“冬眠”的学生则需要更多的主动帮助、按时提醒和及时干预。
在我国,地区经济发展水平不均衡,东部经济发展较快,西部经济则相对落后。在日常教务管理工作中,我们经常遇到西部或偏远地区学生因为经济原因而辍学的情况,比如付不起学费、买不起电脑等;另一方面,在东部等经济发达地区,人员流动性较大,很多学生因为工作变动频繁或工作地点不能提供良好的远程学习条件而放弃学习。网络教育可以通过多样化的学习和考试方式,甚至是便携式移动终端来解决学生在时间和空间上的不便;通过贷款等资助方式解决学生的学费问题。
不同专业对学生辍学的影响主要体现在专业间难度不同以及学生入学水平的差异上。部分学生因为选错了专业但又不符合转专业的条件而选择辍学。因此,在入学时学习支持服务人员帮助学生选择适合的专业是降低辍学率的积极做法。另外,帮助基础较差的学生提高学习水平、激发学习兴趣至关重要。网络教育通过提供灵活的课程结构、适中的课业负担、多样的学习方式,能有效提升学生保持率。
当然,无论采取何种措施来降低学生的辍学率,都需要花费院校、学习中心、学习支持服务人员的时间、精力和成本。目前,我国远程教育院校的收入主要来源于学生缴纳的学费。有研究表明,招收一个新生的费用远高于挽回一个辍学者的费用[4]。因此,挽救一个学生的成本会换来数倍的回报,对院校、学习中心甚至学生本人,带来良好的成本-效益。
目前我国远程教育对辍学学生的关注度并不高,降低辍学率的工作任重而道远。各远程教育院校需要不断提升服务水平、完善辍学数据统计;学生则需要保持学习动力、提高学习水平,获得更好的远程学习体验。
[参考文献]
[1] 刘永权,李莹. 破解远程开放教育高辍学率的难题——访英国开放大学奥蒙德·辛普森教授[J]. 开放教育研究,2012,(10).
[2] 孙崇正,安哲峰. 基于网络远程教育的高校创新性人才培养模式改革研究[J]. 现代远距离教育,2011,(2):43-46.
[3] 刘永权,牛健,李莹. 透视国外远程教育降低辍学率的窗口——对英国开放大学扩大参与中心2010年报告的解读[J]. 现代远程教育研究,2011,(6).
[4] 李莹. 远程开放教育辍学研究思考[J]. 中国电化教育,2009,(7).
关键词:分布式数据库;数据分片;数据同步
1 引言
高职院校医学专业学生在校理论学习结束后,要进入医院等用人单位顶岗实习,为毕业后能迅速适应就业岗位打下良好基础。但在实习学生管理方面,各院校仍在采用传统的人工管理模式,沟通不畅,资源浪费且效率低下。所以,如何进行高效的学生实习管理,成为众多医学院校亟待解决的一个核心问题。随着互联网技术的不断发展,信息化的管理模式成为了各医学院校进行实习学生管理的最优选择,开发一个基于数据库和网络的实习管理系统,实现实习学生的信息化管理,降低学校对实习学生的管理成本,提高管理效率,实现学院-医院双重管理的无缝衔接,是众多高职医学院校正在进行的一项课题。
由于在实际环境下,学生实习的单位在地理位置上是分散的,以笔者所在学校为例,实习单位主要分布在西安市、咸阳市、宝鸡市、渭南市、榆林市、汉中市、重庆市等省内外地区,且每年都有新增的实习单位。因此,在进行管理系统的设计时,采用什么样的数据库方案就成了决定系统效率和稳定性的关键因素。
2 数据库设计方案
在数据库方案的选择上,可以考虑集中式数据库和分布式数据库。集中式数据库硬件系统是由一个处理器、与它相关联的数据存储设备以及其他设备组成,见图1。
若采用集中式数据库,所有系统成分均驻留在单个计算机(或场地)内,用户可以在同样的站点上操作,也可以在地理位置隔开的其他站点上通过远程终端来操作。系统及其数据管理被某个中心站点集中控制,这样有利于数据的维护和保持数据一致性,但是,一旦中心数据库发生故障,就会导致整个系统瘫痪。
分布式数据库是由一组数据组成的,这组数据分布在网络中的不同计算机上,网络中的每个结点都具有独立处理的能力,可以执行局部应用,也能通过网络通信子系统执行全局应用,如图2所示。
对用户来说,一个分布式数据库系统从逻辑上看如同集中式数据库系统一样,用户可以在任何一个场地执行全局应用。所以,根据学生实习的实际情况来看,适宜采用分布式数据库系统,允许各实习单位将自己常用的数据存储在本地,在本地录入、查询、维护,实行局部控制,在降低通信代价的同时,提高响应速度。
3 数据分布策略
在进行数据分布设计时,可考虑采用分割式与复制式相结合的数据分布策略。在学院站点上保留一个完整的数据副本,然后根据学生将要去往的实习单位,将所有实习学生的信息按照实习单位进行分配,即一个实习单位一个数据子集副本。这样,各实习单位可自治的查询和修改本单位实习学生的数据,发挥系统的并发操作能力。同时,由于数据分布在多个站点上,当部分站点出现故障时,系统仍能保持运行,提高了系统的可靠性。
在本系统中,每个实习单位都需要对分配给自己的实习学生的信息进行一系列的管理,也就是说,对于学生的基本信息及其关联信息的应用较为频繁。所以在进行数据分片设计时,应采用水平分片,使实习单位的绝大多数应用在实习单位的站点内完成,系统的效率得到提高,避免因为频繁访问两个或多个片段导致执行连接操作增加而使得代价增加。并且,采用水平分片方法产生的片段,将被分配到访问它次数最多的站点上,即在各实习单位站点上只分配去该单位实习的学生信息,而全部实习学生的数据则存放在学院站点上。
4 数据同步设计
在进行分布式数据库之间的数据同步(数据复制)时,可采用/订阅方式:首先在数据源数据库服务器上对需要同步的数据进行,然后在目标数据库服务器上对上述的进行订阅。基于快照的事务复制,主数据库服务器生成快照,备份库服务器读取并加载该快照,然后不停地从主数据库服务器复制事务日志。
关键词:大数据;统计学;前景
一、引言
在现如今的社会,无论是干什么都离不开信息。小到穿衣吃饭,大到国防军事,每一样都需要信息才能完成。信息是一个名词,围绕着它有信息的产生、信息的处理加工、信息的传递、信息技术的发展等等的一系列环节。所以在现代社会信息就如同一个核心细胞,其他细胞的工作都是围绕它展开进行的。我们对信息一定要敏感而精准。
二、何为大数据时代
大数据最初是由麦肯锡公司所提出来的,它在物理、生物、化学、金融、通讯行业出现并存在已经有一段时日,但它真正为人们所熟知认识却是因为互联网行业的飞速发展。人们总是用它来表述现时代是一个信息爆炸、海量、共享的时代。现如今一个决策的出台不再是凭借昔日的经验和感觉,而是数据的收集、整理、处理、分析所得出的结论。这就表示了一个新的时代,也就是信息数据时代的到来,经济、商业、金融、贸易等多个领域,信息已经成为主宰。这就是大数据时代,也是信息的年代。
三、统计学专业基本概况
统计学,从名称来看貌似是一个新兴专业,其实不然,它是一门非常古老的学科。它最早始于希腊雅典的亚里士多德时代,距今已有两千多年的历史。统计学是通过对数据信息的搜索、整理、分析、描述,以达到窥测所测对象的本质的目的,它是预测对象未来性的一门综合性科学。运用到了大量的数学和其他学科的专业知识,它的使用范围几乎涵盖了社会科学和自然科学的各个领域。统计学家王见定的研究已经说明了数理统计学永远打不败社会统计学,所以在以后的发展道路上,将是社会统计学与数理统计学共存与互补共同前行的模式。
目前作为高校所开设的一门学科,统计学专业主要有一般统计、经济统计两类专业方向,它所培养的是具有良好的数学、经济学素养,熟练掌握统计学的基本理论和方法,熟练地运用计算机分析数据,在企业、事业单位、经济管理部门从事统计调查、统计信息管理、数量分析等开发、应用和管理工作,或在科研、教育部门从事研究和教学工作的专业型精英类人才。
四、如何很好发展大数据时代下的统计学专业
首先从上文的论述中我们可以得出以下结论:統计学的技术手段是,搜索、整理、分析、描述数据,它的目的是预测、推断检测对象的本质,它是一门综合性非常强的科学性学科。从它的使用广度上来看,它几乎覆盖了社会科学和自然科学的各个领域。所以统计学的“势力”非常大。
而统计学所依赖的基础则是数据,传统的统计学中数据的收集主要包括实验数据、调查数据以及各种途径收集到的第二次数据。但是在经过一段时期的实践后人们发现这种方法得到的数据经常会存在一定范围内的误差,这对样本的客观性是一个根本上的影响,同时样本选取结果产生影响,因此传统的数据收集方法很难适应统计学的飞速发展的需要。从这个层面上来说,大数据的出现是科学发展到一定阶段的必然结果。因此大数据的产生和统计学的发展有着密不可分的关系。从另一面来看大数据的出现也是统计学中的核心环节实现,也就是数据的采集实现了大幅度的跨越。大数据时代的到来意味着检测对象的任何数据都能应用到统计过程中,打破了数据采集处理的局限性,再加上精准、合理的统计处理方法,使得统计结果将更具有代表性和说服力。
同时大数据、统计学、云计算技术三者的强强联合,预计未来的统计学势必会发生革命性的变革。大数据将对未来产生深刻影响,目前可以预见的统计学未来发展的前景有以下两个关键的点:第一点是在数据中科学性将和数据本身形成联盟。数据科学独立门户成为一门专门的学科势不可挡,数据的重要性不言而喻。统计学也将乘浪前行迎来新的发展的奇迹。对于数据平台,也将实现跨领域共享,最终将数据的共享扩展到企业层面,成为未来产业的一员。第二点则是数据的管理处理的竞争力大大增强,数据管理成为企业竞争力中的核心竞争力,直接关乎财务表现。数据资产是一个企业的核心资产,这个理念会逐步深入人心。之后,企业对于数据管理便有了更加精准的定位,企业就会将数据管理作为企业核心竞争力,持续发展,战略性规划与运用数据资产。数据资产管理效率与主营业务收入增长率、销售收入增长率显著正相关。届时,统计学的相关知识将会有大作为,每一位统计学专业的学生的就业前景将是不可估量的。统计学的发展前景也是一片大好,大数据、云计算、统计学三者则是珠联璧合,我国乃至全世界的信息技术又会迎来新的浪潮,并且是一浪高过一浪,让我们拭目以待。
五、结束语
本文就大数据,统计学二者的定义、概念首先做了介绍。其次是对统计学和大数据包括云计算在内的联合后的优势,以及未来的发展前景做了合理的分析与预测。数据时代已经起航,我们每一个人万万不可落后,我们要追赶信息技术的时代潮流,乘风破浪,迎难而上。为我国信息技术的发展增砖添瓦,为实现自我的价值奋斗不息。
参考文献:
[1] 薛艳.大数据时代统计学专业教学体系的改革[J].教育教学论坛,2015(4):110-111.
[2] 周茂袁.大数据时代统计学专业教学改革的初步探索[J].教育教学论坛,2015(35):105-106.
[3] 李政,赵彦云.适应大数据时代的美国统计学大学教育(下)[J].中国统计,2015(4):24-25.
【 关键词 】 一卡通;数字行为;校园卡;轨迹
1 引言
随着计算机科学技术的不断进步,数字信息化的时代已经到来,21世纪是信息化全球大爆发的时代,信息全球化已经渗透到生活的每个角落,校园作为人口比较密集的场所,很多高校都在投入大量的人力以及财力用于校园信息数字化网络的建设,校园数字化网络的建设为校园数字化网络管理提供了足够的保证,能够进一步提高各高校的信息化管理水平。
高校数字化建设是完全建立在高校的校园网网络的基础上,目前,校园网络已经实现了光纤入网的条件,校园数字化建设能够完全将目前比较先进的互联网技术、信息技术、多媒体技术融为一体,充分地将校园的科研工作、管理工作、生活以及教学等工作集成起来形成一个统一的整体,最终为高校的全面信息化教学打下坚实的基础。
高校数字化网络的建设实质上是借助先进的信息化技术将高校的各个部门的各种信息资源进行有效的整合、集成以及优化,进一步提升高校的信息资源的合理利用以及配置。
2 校园一卡通
校园一卡通是“数字化校园”建设的最为重要的组成部分,校园一卡通具备的主要功能必须包括身份认证功能、数据管理功能、金融服务功能、综合消费功能、公共信息管理功能等。校园一卡通能够有效地集成高校内的所有资源以及子系统,通过校园一卡通能够掌握每一个持卡用户动态的、实时的情况,不仅能够加快高校数字化管理系统建设的进度,还能够进一步提升高校的数字化管理水平。
校园一卡通数字信息管理系统的建设是IC卡技术应用比较成功的典范之一。真正意义上的校园一卡通并不仅要具备消费以及结算功能,而是通过智能的数字化管理实现高校内的各种业务管理。校园一卡通必须能够将高校内的消费以及管理集成与一身才可以称之为真正实现了校园一卡通管理,才能通过校园卡实现校园内的学籍管理、消费、结算、身份识别、网上付费等。
3 校园一卡通建设
校园一卡通是目前高校流通非常广泛的信息集成平台,也是目前大部分高校所采用的信息管理平台。校园一卡通管理系统建设是建立在“集中控制、信息共享”的需求上的,因此,校园一卡通系统的设计是多个信息功能模块的有效集成,具体实现的设计思路是将所管理的资源集成在统一的互联网平台,并采用统一的数据库服务器,对资源采用绝对安全的、统一的身份ID认证体系,进而实现信息数据的安全集成、安全传输、安全管理。校园一卡通可以通俗的理解为各个管理系统、射频设备、读卡设备等终端的高效集成,进一步提升了系统管理的智能化水平。
随着各个高校的校园信息化、网络化建设的逐渐深入,高校内的所有信息资源的整合过程已经进入到了全面的规划以及实施阶段,现阶段。校园一卡通的建设必须与高校现有的人事、教学、身份认证等MIS系统以及其余的高校信息应用系统紧密的结合,通过全面的、安全的统一身份认证机制实现高校信息资源的无缝集成及其共享,使得校园一卡通能够友好的融入校园,成为校园信息化建设的非常重要的组成部分,通过校园一卡通的有机整合,能够有效地避免高校的不必要投入,进一步提高高校的信息化建设进度,为高校系统之间资源的无缝共享打下坚实的基础。
4 校园一卡通数据管理
校园一卡通的核心部分内容便是数据,数据信息资源的安全将直接影响到整个校园一卡通系统的安全运行。数据存储行为是校园一卡通在高校校园中应用的最重要的数字化行为,数据IC卡存储的数据不仅包括纯粹的相关数据信息,还包括功能信息、系统运行状态信息、系统交互之间产生的交换数据以及各个功能模块产生的历史记录信息,数据信息的安全存储是确保校园一卡通能够正常运行各个功能模块的关键保障,数据存储行为不是简单的将数据入库操作,更重要的是采用合理的数据加密技术措施以及认证机制确保相关数据的安全,为系统的安全性防护添加一层核心屏障,除此之外,信息资源数据的安全存储行为贯穿到整个系统的设计、研发、实现、实施、管理等各个阶段,甚至包括硬件资源的选取都必须严格遵守对应的安全策略。
校园一卡通数据的安全传输是数据数字化行为的又一重要属性,特别是涉及到财务的相关数据。因此,数据的安全传输必须建立在专有的局域网内,必须在物理以及软件上实现局域网与外部网络的完全隔离,数据在传输的过程中必须采用各种安全措施以确保传输的数据不被修改,比如信道签名、数字签名等。
除此之外,校园一卡通的数据管理行为还必须具备数据恢复功能,由于网络的突然故障或者系统的严重故障经常会造成数据丢失或者损坏,校园一卡通的数据管理必须建立完善的历史数据备份记录,能够自行修复损坏数据,使得系统运行数据正确、可靠、稳定。
5 校园一卡通消费行为
现阶段,校园一卡通在各个高校中应用的最为广泛的便是高校的消费管理上,可以将其理解为高校学生以及教职员工的“电子钱包”。高校校园一卡通消费管理系统采用目前先进的IC卡信息载体,对高校中的学生以及教职工消费行为进行有效的管理。
校园一卡通消费管理系统的建设是实现高校各个部门以及后勤管理服务部门信息化建设的关键手段,能够将后勤服务以及消费管理相关资源进行优化、整理、重构,进而实现后勤资源以及管理资源的合理配置,将复杂的、种类繁多的各种资源充分的利用起来,帮助高校的后勤管理以及校务管理实现过程的高效协调、合理优化,进而实现大幅度提升校园后勤以及校务的信息管理水平,以进一步提升后勤以及校务的服务效率以及高校的效益。
高校员工以及学生的消费行为是后勤管理工作的重点。校园一卡通消费信息管理系统的建设能够有效地缓解校务以及后勤管理工作的繁重业务,简化校务以及后勤的工作流程,实现以较少的人力资源实现全校的合理化管理的目的,在提高后勤服务质量的同时,也实现了精简校园后后勤以及校务管理人员的目的,一定程度上降低了高校的整体管理经费。
校园一卡通消费信息管理系统很大程度上提升了高校的财务管理水平,也实现了高校财务的无纸化办公,消费管理系统的建设能够有效地规范高校内的费用结算管理,进而确保财务的正确管理,有效地规避了一些漏洞,不仅提高了财务的管理水平,还进一步改善了财务管理的工作模式,使得高校的消费行为更加灵活多变,一定程度上提升了高校财务以及消费的管理水平。
目前,校园一卡通的消费行为实现了食堂饮食消费,超市购物消费,饮水消费、洗澡消费、个人医疗消费、四六级考试报名消费、有偿上级消费、个人账户自助存款消费等,基本上实现了高校的可以消费的所有领域。
6 校园一卡通身份认证行为
校园一卡通在高校中应用的另外一个重要数字行为便是身份认证管理,校园一卡通系统需要将校园网网络内的各个子系统有机融合,因此需要将各自独立的相关验证进行统一管理,采用统一的认证机制对用户身份进行统一管理,用户身份的认证以及授权目前校园一卡通研究的重点领域。
校园一卡通的身份识别系统采用目前比较先进的智能卡技术,通过用户身份信息的识别实现高校校内门锁的控制、门禁的控制、重要安全通道的控制、校内各项考勤制度的管理、参会人员的会议签到等,并在此基础上有机地结合了安全防范相关技术措施以及计算机网络控制技术措施,通过软件系统的高效管理实现对校园一卡通用户身份的安全认证和识别。
门禁管理系统是控制和管理校内人员出入的有效措施,通过该系统能够准确有效地对校内人员的出入进行数字化控制,最重要的是确保了校区各个场所的安全,很大程度上提升了持卡用户身份识别的正确性以及效率。
考勤管理系统能够及时地将学生的上课出勤率反馈到学校,还能够有效的考察教职员工的出勤情况,通过考勤管理系统能够有效的实现教务课程的合理化安排,能够提高学生以及教职员工的出勤情况,实时掌握学生在校的一切活动。
校园一卡通的身份认证功能模块的实现能够真正意义上实现校园网网络用户的的身份信息的安全存储以及数据共享。网络认证技术是现阶段应用比较广泛的一套集管理、计费以及认证于一体的安全性极高的综合性网络信息管理系统,网络认证与校园一卡通的有效集成是未来校园一卡通身份认证的发展趋势,涉及到高校内的每个校园一卡通的用户,身份认证系统的整合能够有效的加速高校网络数字信息化建设的进度。
7 结束语
随着各个高校实现校园数字现代化管理意识的不断加强,高校校园管理数字化建设进度也变得愈加强烈,基于智能芯片应用的计算机网络信息化管理系统也变得越来越普及,高校学员以及教职员工众多,往往持有大量的传统的卡片以及不同的证件,比如学生证、图书证、上机证等,一定程度上增加了高校的管理成本,还使得学生的管理水平变得异常混乱。
传统的校园管理模式已经无法满足现阶段的教育模式。信息时代当然离不开教育信息化管理。校园一卡通强大的功能能够有效地融合高校内的一切资源以及子系统,能够实现校园系统以及资源的有机集成,真正意义上的实现校园的数字化系统建设,使得数字化行为轨迹深入到高校数字化管理的方方面面。
参考文献
[1] 宋文功,杨培敏. “数字化校园”与“校园一卡通”关联的实现[J]. 长沙铁道学院学报(社会科学版). 2006(01).
[2] 赵震伟. 数字化校园一卡通系统的研发[J].思茅师范高等专科学校学报. 2009(03).
[3] 王正坤,蒋涛涛. 试论基于数字化校园的一卡通系统的构建[J].农业网络信息,2009(08).
[4] 王筱超,王蔚.校园一卡通平台的规划与建设研究[J].现代计算机(专业版). 2009(05).
[5] 杨隽欣.校园一卡通系统及指纹识别系统的应用[D].电子科技大学 2011.
近年来计算机和网络技术快速发展,教学管理信息化水平已成为衡量一所院校信息化建设的重要指标,而学员成绩管理又是院校教学管理工作中的重要环节,反映了院校的教学质量水平。基于的学员成绩管理系统采用B/S模式,基于三层架构(表示层、业务层和数据层),开发环境是Windows Server 2003,开发工具为Visual Studio 2005,利用 2.0技术,使用C#语言编程,数据库为SQL Server 2000。
二、系统实现
(一)权限管理
权限管理包括权限设置和密码查询。系统分为教务参谋、考务中心、考试成绩录入员、系统管理员等四级权限。系统管理员可以设置教务参谋和考务中心,还可以查询帐号初始密码。考务中心将教员设置成考试成绩录入员后,教员才有录入成绩权限。
(二)数据维护
数据维护包括录入、修改考试(补考)成绩、生成补考计划、修正考试成绩、填写考试分析报告等。录入成绩前要录入考试信息(课程名称、考核科目、考试性质、权重、考试日期等信息),首先在单位树里选择教学班(如果该教学班没有学员或学员还没有编排学号不能录入考试信息)系统自动带入该教学班对应的专业类型并在下拉列表中列出已安排考试的课程,选择课程后系统自动带入课程名称、考核科目、考试性质(毕业考试、考试和考查)、学时、学期、考试日期、授课单位等信息,权重默认为1(1表示100%,如输入0.5表示50%)当一门课程包含多个考核科目时需要录入相应权重,考试信息保存后,学员下拉列表中列出了该教学班该课程所有未录入成绩的学员,成绩可以录入分数,也可以设置缓考、缺考状态,保存学员成绩后下拉列表中同时移出该学员(修改考试信息和成绩,同录入相似,不再详述),录入完该课程所有学员的成绩后,将成绩上报到考务中心审核成绩,上报成绩后不能修改和删除考试成绩。教务参谋可以安排不及格、缓考、缺考的学员参加补考,系统根据时间段自动生成补考计划,补考计划分为学期补考和毕业补考,补考的组考单位录入补考成绩,流程参照考试成绩录入。公布成绩后学员对成绩有异议,复查后确认有误,经批准由教务参谋对该考试成绩进行修正。教员根据考试成绩录入考试分析报告,考试分析报告包括:基本情况、综合分析、意见建议、评价结论等内容。
(三)数据审核
数据审核包括审核考试(补考)成绩、审核考试分析报告。考试成绩审核分为考务中心审核和教务科审核两级审核,教务科审核通过后,教员和学员才可以查询成绩。考务中心审核成绩时,选择要审核的课程系统弹出此课程考试的详细信息,并列出所有学员的考试成绩,同时统计出优秀,良好,中等,合格,不合格的人数。点击“通过”后,交由教务参谋审核。点击“不通过”,则将此信息打回录入人处。教务参谋审核过程与考务中心审核类似,不再叙述。
(四)查询统计
查询统计包括考试信息查询、考试成绩查询、学员队(学员)平均分统计、合格率统计、实考人数统计等。根据不同登录用户控制查询范围,如:学员查看本人成绩,学员队干部查看本队成绩、教员查看担负课程成绩,教务参谋查看全部成绩等,只有教务参谋才有统计功能。
(五)导出打印
导出打印包括:打印考试成绩表、打印考试分析报告。系统可以直接打印成绩,也可以导出word、excel、PDF等格式。
三、数据挖掘应用
(一)概述
数据挖掘是解决数据丰富而信息贫乏的有效途径,其实质是从大量数据中提取隐含的、未知的和潜在有用信息的过程。其在分析大量数据中具有明显优势,并已成功地应用到了多个研究领域,但在教育领域中应用还不够深入,将之用于军队院校管理尤其是成绩管理中至今还不多见。
目前最常用的几种数据挖掘方法有决策树、神经网络、遗传算法、概率论和数理统计、关联规则以及粗糙集和模糊处理技术等。
(二)决策树算法
顾名思义,决策树就像一棵树,它利用树的结构将记录数据进行分类,树的一个节点就代表某一个条件下的一个记录集,根据记录字段的不同取值建立树的分枝;在每个分支子集中建立下层节点和分支,就形成一个决策树。采用决策树,可以将数据规则可视化,也不需要长时间的构造过程,而且每一条从根结点到叶节点的路径的含义是可理解的,精度较高。这种可理解性是它的一个显著有点。
决策树构建以后就可以依据决策树的规则对数据进行判定。决策树可以分为分类树和回归树两种。分类树对离散变量做决策树,回归树对连续变量做决策树,一般的数据挖掘工具允许选择分裂条件和修剪规则,以及控制参数来限制决策树,决策树主要应用于分类。
决策树方法的起源是概念学习系统CLS,然后发展到ID3 算法,最后又演化为能处理连续属性的C4.5算法。
(三)数据挖掘过程
1.确定数据对象,收集数据以及数据预处理
定义清晰的挖掘对象,认清数据挖掘的目标是数据挖掘的第一步。数据挖掘的最后结果往往是不可预测的,但是要解决的问题应该是有预见性的、有目标的。本文将挖掘的对象定义为同一专业三种不同类型学员的“步兵分队战术”课程中的“科目1”、“科目2”、“科目3”三个考核科目成绩信息,确定了数据对象后,从考试信息表和考试成绩表中选择出适用于数据挖掘应用的数据进行数据集成。数据集成好以后,就需要对数据进行预处理。数据预处理包括:去除错误数据和数据转换。错误数据,在统计学中称为异常值,应该在此阶段发现并且删除,否则,它们将导致产生错误的挖掘结果,同时,需要将数据转换成合适的格式。本例中首先要把原始成绩选取出来,去掉补考成绩,然后把原始成绩为缓考和缺考的数据删除,接下来进行数据转换,采取数据概化,定义90
2.构建决策树
数据预处理后,使用数据预处理得到的训练集,采用C4.5算法构建决策树。本例中,样本数据为2008-2011级A类、B类学员,2007-2010级C类学员,总数为2109名,随机抽取大约70%作训练集,其余30%作测试集,通过SQL Server 2000中的Analysis Service(数据分析服务)工具生成决策树。
3.规则提取
决策树生成以后,遍历决策树,也就是从根到叶发现若干条路径,每一条路径对应一条规律,整棵树就形成一组规则,然后通过分析规则发现最有用的子集,形成规则集。
4.结果分析
通过数据挖掘结果发现C类学员基本技能最好,但是理论知识掌握欠缺,综合实践能力较好;A类学员基本技能较好,理论知识掌握好,综合实践能力好;B类学员基本技能较差,理论知识掌握较好,综合实践能力有待提高。根据分析结果,可以对不同类型学员有针对性地改进教学重点,做到固强补弱,提高学员能力。
四、结语
应用数据挖掘技术来提高成绩的分析水平,通过对成绩深入、科学的分析,提取隐藏的数据信息,为院校管理部门决策提供依据,进一步提高教学质量水平是有很重要的实际意义。
参考文献
[1] 赵辉.数据挖掘技术在学生成绩分析中的研究及应用[D].大连海事大学,2007.
[2] 李文峰.数据仓库、OLAP和数据挖掘技术在国防生管理决策中的应用[D].重庆大学,2007.
[3] 黄杰.数据挖掘在军队人才培养上的应用研究[D].重庆大学,2005.
[4] Han Qingtian,Gao Xiaoyan.Research of Decision support system based on data warehouse techniques[c]//Second International Workshop knowledge Discoverty and Data Mining(WKDD),2009: 215-218.