当前位置: 首页 精选范文 统计学大数据分析范文

统计学大数据分析精选(十四篇)

发布时间:2023-10-07 15:38:03

序言:作为思想的载体和知识的探索者,写作是一种独特的艺术,我们为您准备了不同风格的14篇统计学大数据分析,期待它们能激发您的灵感。

统计学大数据分析

篇1

关键词:大数据;统计学;数据分析;抽样理论;理论

重构随着信息科学技术的高速度发展,当代获取和储存数据信息的能力不断增强而成本不断下降,这为大数据的应用提供了必要的技术环境和可能.应用大数据技术的优势愈来愈明显,它的应用能够帮助人类获取真正有价值的数据信息.近年来,专家学者有关大数据技术问题进行了大量的研究工作[1],很多领域也都受到了大数据分析的影响.这个时代将大数据称为未来的石油,它必将对这个时代和未来的社会经济以及科学技术的发展产生深远的意义和影响.目前对于大数据概念,主要是从数据来源和数据的处理工具与处理难度方面考虑,但国内外专家学者各有各的观点,并没有给出一致的精确定义.麦肯锡全球数据分析研究所指出大数据是数据集的大小超越了典型数据库工具集合、存储、管理和分析能力的数据集,大数据被Gartner定义为极端信息管理和处理一个或多个维度的传统信息技术问题[23].目前得到专家们认可的一种观点,即:“超大规模”是GB级数据,“海量”是TB级数据,而“大数据”是PB及其以上级别数据[2].

一些研究学者把大数据特征进行概括,称其具有数据规模巨大、类型多样、可利用价值密度低和处理速度快等特征,同时特别强调大数据区别于其他概念的最重要特征是快速动态变化的数据和形成流式数据.大数据技术发展所面临的问题是数据存储、数据处理和数据分析、数据显示和数据安全等.大数据的数据量大、多样性、复杂性及实时性等特点,使得数据存储环境有了很大变化[45],而大部分传统的统计方法只适合分析单个计算机存储的数据,这些问题无疑增加了数据处理和整合的困难.数据分析是大数据处理的核心过程,同时它也给传统统计学带来了巨大的挑战[6].产生大数据的数据源通常情况下具有高速度性和实时性,所以要求数据处理和分析系统也要有快速度和实时性特点,而传统统计分析方法通常不具备快速和实时等特点.基于大数据的特点,传统的数据统计理论已经不能适应大数据分析与研究的范畴,传统统计学面临着巨大的机遇与挑战,然而为了适应大数据这一新的研究对象,传统统计学必须进行改进,以继续和更好的服务于人类.目前国内外将大数据和统计学相结合的研究文献并不多.本文对大数据时代这一特定环境背景,统计学的抽样理论和总体理论的存在价值、统计方法的重构及统计结果的评价标准的重建等问题进行分析与研究.

1传统意义下的统计学

广泛的统计学包括三个类型的统计方法:①处理大量随机现象的统计方法,比如概率论与数理统计方法.②处理非随机非概率的描述统计方法,如指数编制、社会调查等方法.③处理和特定学科相关联的特殊方法,如经济统计方法、环境科学统计方法等[7].受收集、处理数据的工具和能力的限制,人们几乎不可能收集到全部的数据信息,因此传统的统计学理论和方法基本上都是在样本上进行的.或者即使能够得到所有数据,但从实际角度出发,因所需成本过大,也会放弃搜集全部数据.然而,选择最佳的抽样方法和统计分析方法,也只能最大程度还原总体一个特定方面或某些方面的特征.事实上我们所察觉到的数据特征也只是总体大量特征中的一小部分,更多的其他特征尚待发掘.总之,传统统计学是建立在抽样理论基础上,以点带面的统计分析方法,强调因果关系的统计分析结果,推断所测对象的总体本质的一门科学,是通过搜集、整理和分析研究数据从而探索数据内部存在规律的一门科学.

2统计学是大数据分析的核心

数的产生基于三个要素,分别是数、量和计量单位.在用数来表示事物的特征并采用了科学的计量单位后,就产生了真正意义上的数据,即有根据的数.科学数据是基于科学设计,通过使用观察和测量获得的数据,认知自然现象和社会现象的变化规律,或者用来检验已经存在的理论假设,由此得到了具有实际意义和理论意义的数据.从数据中获得科学数据的理论,即统计学理论.科学数据是通过统计学理论获得的,而统计学理论是为获得科学数据而产生的一门科学.若说数据是传达事物特征的精确语言,进行科学研究的必备条件,认知世界的重要工具,那么大数据分析就是让数据最大限度地发挥功能,充分表达并有效满足不同需求的基本要求.基于统计学的发展史及在数据分析中的作用,完成将数据转化为知识、挖掘数据内在规律、通过数据发现并解决实际问题、预测可能发生的结果等是研究大数据的任务,而这必然离不开统计学.以大数据为研究对象,通过数据挖掘、提取、分析等手段探索现象内在本质的数据科学必须在继承或改进统计学理论的基础上产生.

统计数据的发展变化经历了一系列过程,从只能收集到少量的数据到尽量多地收集数据,到科学利用样本数据,再到综合利用各类数据,以至于发展到今天的选择使用大数据的过程.而统计分析为了适应数据可观察集的不断增大,也经历了相应的各个不同阶段,产生了统计分组法、大量观察法、归纳推断法、综合指标法、模型方程法和数据挖掘法等分析方法,并且借助计算机以及其他软件的程度也越来越深.300多年来,随着数据量以指数速度的不断增长,统计学围绕如何搜集、整理和分析数据而展开,合理构建了应用方法体系,帮助各个学科解决了许多复杂问题.现在进入了大数据时代,统计学依旧是数据分析的灵魂,大数据分析是数据科学赋予统计学的新任务.对于统计学而言,来自新时代的数据科学挑战有可能促使新思想、新方法和新技术产生,这一挑战也意味着对于统计学理论将面临巨大的机遇.

3统计学在大数据时代下必须改革

传统统计学是通过对总体进行抽样来搜索数据,对样本数据进行整理、分析、描述等,从而推断所测对象的总体本质,甚至预测总体未来的一门综合性学科.从研究对象到统计结果的评判标准都是离不开样本的抽取,完全不能适应大数据的4V特点,所以统计学为适应大数据技术的发展,必须进行改革.从学科发展角度出发,大数据对海量数据进行存储、整合、处理和分析,可以看成是一种新的数据分析方法.数据关系的内在本质决定了大数据和统计学之间必然存在联系,大数据对统计学的发展提出了挑战,体现在大样本标准的调整、样本选取标准和形式的重新确定、统计软件有待升级和开发及实质性统计方法的大数据化.但是也提供了一个机遇,体现在统计质量的提高、统计成本的下降、统计学作用领域的扩大、统计学科体系的延伸以及统计学家地位的提升[7].

3.1大数据时代抽样和总体理论存在价值

传统统计学中的样本数据来自总体,而总体是客观存在的全体,可以通过观测到的或经过抽样而得到的数据来认知总体.但是在大数据时代,不再是随机样本,而是全部的数据,还需要假定一个看不见摸不着的总体吗?如果将大数据看成一个高维度的大样本集合,针对样本大的问题,按照传统统计学的方法,可以采用抽样的方法来减少样本容量,并且可以达到需要的精度;对于维度高的问题,可以采取对变量进行选择、降维、压缩、分解等方法来降低数据的复杂程度.但实际上很难做得到,大数据涵盖多学科领域、多源、混合的数据,各学科之间的数据融合,学科边界模糊,各范畴的数据集互相重叠,合成一体,而且大数据涉及到各种数据类型.因此想要通过抽样而使数据量达到传统统计学的统计分析能力范围是一件相当困难或是一件不可能的事.大量的结构数据和非结构数据交织在一起,系统首先要认清哪个是有价值的信息,哪个是噪声,以及哪些不同类型的数据信息来自于同一个地址的数据源,等等,传统的统计学是无法做到的.在大数据时代下,是否需要打破传统意义的抽样理论、总体及样本等概念和关系,是假设“样本=总体”,还是“样本趋近于总体”,还是不再使用总体和样本这两个概念,而重新定义一个更合适的概念,等等.人们该怎样“安排”抽样、总体及样本等理论,或人们该怎样修正抽样、总体、样本的“公理化”定义,这个问题是大数据时代下,传统统计学面临改进的首要问题.

3.2统计方法在大数据时代下的重构问题

在大数据时代下,传统的高维度表达、结构描述和群体行为分析方法已经不能精确表达大数据在异构性、交互性、时效性、突发性等方面的特点,传统的“假设-模型-检验”的统计方法受到了质疑,而且从“数据”到“数据”的统计模式还没有真正建立,急切需要一个新的理论体系来指引,从而建立新的分析模型.去除数据噪声、筛选有价值的数据、整合不同类型的数据、快速对数据做出分析并得出分析结果等一系列问题都有待于研究.大数据分析涉及到三个维度,即时间维度、空间维度和数据本身的维度,怎样才能全面、深入地分析大数据的复杂性与特性,掌握大数据的不确定性,构建高效的大数据计算模型,变成了大数据分析的突破口.科学数据的演变是一个从简单到复杂的各种形式不断丰富、相互包容的过程,是一个循序渐进的过程,而不是简单的由一种形式取代另一种形式.研究科学数据的统计学理论也是一样,也是由简单到复杂的各种形式相互包容、不断丰富的发展过程,而绝不是完全否定一种理论、由另一种理论形式所代替.大数据时代的到来统计学理论必须要进行不断的完善和发展,以适应呈指数增长的数据量的大数据分析的需要.

3.3如何构建大数据时代下统计结果的评价标准框架

大数据时代下,统计分析评价的标准又该如何变化?传统统计分析的评价标准有两个方面,一是可靠性评价,二是有效性评价,然而这两种评价标准都因抽样而生.可靠性评价是指用样本去推断总体有多大的把握程度,一般用概率来衡量.可靠性评价有时表现为置信水平,有时表现为显著性水平[8].怎么确定显著性水平一直是个存在争议的问题,特别是在模型拟合度评价和假设检验中,因为各自参照的分布类型不一样,其统计量就不一样,显著性评价的临界值也就不一样,可是临界值又与显著性水平的高低直接相关.而大数据在一定程度上是全体数据,因此不存在以样本推断总体的问题,那么在这种情况下,置信水平、可靠性问题怎么确定?依据是什么?有效性评价指的是真实性,即为误差的大小,它与准确性、精确性有关.通常准确性是指观察值与真实值的吻合程度,一般是无法衡量的,而精确性用抽样分布的标准差来衡量.显然,精确性是针对样本数据而言的,也就是说样本数据有精确性问题,同时也有准确性问题.抽样误差和非抽样误差都可能存在于样本数据中,抽样误差可以计算和控制,但是非抽样误差只能通过各种方式加以识别或判断[910].大多数情况下,对于样本量不是太大的样本,非抽样误差可以得到较好的防范,然而对于大数据的全体数据而言,没有抽样误差问题,只有非抽样误差问题,也就是说大数据的真实性只表现为准确性.但是由于大数据特有的种种特性,使得大数据的非抽样误差很难进行防范、控制,也很难对其进行准确性评价.总之,对于大数据分析来说,有些统计分析理论是否还有意义,确切说有哪些统计学中的理论可以适用于大数据分析,而哪些统计学中的理论需要改进,哪些统计学中的理论已不再适用于大数据统计研究,等等,都有待于研究.所以大数据时代的统计学必是在继承中求改进,改进中求发展,重构适应大数据时代的新统计学理论.

4结论

来自于社会各种数据源的数据量呈指数增长,大数据对社会发展的推动力呈指数效应,大数据已是生命活动的主要承载者.一个新事物的出现,必然导致传统观念和传统技术的变革.对传统统计学来说,大数据时代的到来无疑是一个挑战,虽然传统统计学必须做出改变,但是占据主导地位的依然会是统计学,它会引领人类合理分析利用大数据资源.大数据给统计学带来了机遇和挑战,统计学家们应该积极学习新事物,适应新环境,努力为大数据时代创造出新的统计方法,扩大统计学的应用范围.

参考文献:

[1]陈冬玲,曾文.频繁模式挖掘中基于CFP的应用模型[J]沈阳大学学报(自然科学版),2015,27(4):296300.

[3]卞友江.“大数据”概念考辨[J].新闻研究导刊,2013,35(5):2528.

[5]靳小龙,王元卓,程学旗.大数据的研究体系与现状[J].信息通信技术,2013(6):3543.

[6]覃雄派,王会举,杜小勇,等.大数据分析:Rdbms与Mapreduce的竞争与共生[J].软件学报,2012,23(1):32-45.

[7]游士兵,张佩,姚雪梅.大数据对统计学的挑战和机遇[J].珞珈管理评论,2013(2):165171.

[8]李金昌.大数据与统计新思维[J].统计研究,2014,31(1):1017.

篇2

关键词:大数据时代;大数据;统计学;

一、大数据与统计学

(一)大数据与统计学关系密切

简单来说,我们可以分为两个方面来理解大数据:若“大数据”作为形容词,则描述的是大数据时代数据的特点;若“大数据”作为名词,则体现的是数据科学研究的对象。对大数据的定义有非常多,不同领域不同专业对大数据的界定都会有些许不同。通俗地说:大数据是目前人类所有可抓取、可记录、可存储的信号集合。这个包含了一切信号的集合将非常非常之庞大、多样、繁杂,并且还在不停地、迅速地增加。现代互联网和信息技术的飞速发展,使得人类开始有能力收集、储存、分析、处理这些从前无能为力的数据,从中挖掘出有用的信息促进社会的发展。迈尔•舍恩伯格说:大数据发展的核心动力就是人类测量、记录和分析世界的渴望。而统计学正好是收集、整理、分析、解释数据并从数据中得出结论的科学。由此可见大数据与统计学关系密切,将大数据与统计学结合发展潜力无穷。

(二)大数据时代下的非结构化数据与结构化数据需整合

对接统计研究可根据自身的目的收集总体数据或样本数据,但如果总体太过庞大,以过去的技术方法来收集总体数据成本会很高,受于限制统计研究更多收集得是样本数据。如今,人类已经开始能够在合适的成本下获得大数据,大数据的广博给统计研究带来了新的发展方向。我们需要着重研究的一个方向就是如何将结构化数据和非结构化数据对接。大数据的核心是数据,统计学的研究对象也是数据,但是它们获得的数据性质有所不同:大数据收集的多是半结构化和非结构化的数据,通俗地理解,先获得数据,再整理结构(如声音、图片、视频等信息);传统统计学收集则主要是结构化数据,先定好结构,再根据目标结构收集数据(如数字、符号等信息)。拿非结构化数据和结构化数据来说:大数据时代使得我们有更多可以分析利用的数据,使得统计研究不仅可以在有更多的结构化数据的情形下进行;对于一些领域的研究工作还可以设法将非结构化数据和结构化的数据结合起来分析。如何实现非结构化数据与结构化数据的结合?首先,完善非结构化数据的整合,然后我们可以用结构化数据做数量说明,非结构化数据加强描述;或是提高数据处理技术,实现结构化数据与非结构化数据的互相转化,选择能更好说明问题的数据形式作为后续分析基础。这都是值得再深入思考研究的新问题,而且这不仅仅是大数据和统计研究的事,同时需要计算机技术的一同创新发展。统计研究的范围在大数据时代越来越大,能用数据说明的问题越来越多。

(三)大数据时代下的相关分析与因果分析发展并重

《大数据时代》一书中表示:大数据时代的一个显著变化是:相关分析比因果分析更重要。我的看法是:大数据时代下,市场确实会对相关分析有着更强的关注度,但这并不意味着因果分析的重要性会有褪色。统计学中既有相关分析,也有因果分析,要对它们有合理的了解,首先需要明确的是相关关系和因果关系之间的联系,简单说:有相关关系不一定有因果关系,有因果关系则一定有相关关系。大数据时代,相关关系变得比以前更加为人所关注的原因:一方面,在很多领域的应用里,相关分析比因果分析更简单可行;另一方面,因为相关关系足以体现事物之间的一定联系,在商业效益上更为经济有效。因此在商业利润的推动下,相关关系也会更加受到青睐。但是我们不能就此否定因果关系的重要性,因果关系是对数据更加深度地分析:相关关系让我们知道了“是什么”,因果关系是让我们知道了“为什么”。倘若只是在商业经济上的利用和成本考虑,“是什么”在很多时候就以足够;但如果是在科学研究领域,“知其然而不知其所以然”就远远不够了。结合现实发展需要,可在分析确定相关关系后,根据情况研究因果关系,若能够得出因果关系,那肯定是更具价值和意义的。探求“为什么”始终是人类探索世界的动力,因果分析是人类永恒的使命。

二、结语

大数据时代的到来几乎对每个领域都有着不可忽视的影响。大数据与统计学关系密切,大数据的出现对统计学的意义是非凡的,我们应把握住大数据时代和统计学的可结合点。其一,完善非结构化数据的整合,深入研究如何实现非现结构化与结构化数据的对接,都需要我们思维上的创新、数据处理技术上的提高。其二,在注重相关分析的同时,不能丢掉对因果分析的研究,应合理并重,实现大数据的进一步利用,真正挖掘出数据的价值。对于以数据为研究对象的统计学科,大数据时代就是统计学变革创新的时代,统计研究工作人员也应把握机会思考创新,为统计学增添新的生命力。

参考文献:

[1]朱建平,张悦涵.大数据时代对传统统计学变革的思考[J].统计研究,2016(02):3-9.

[2]朱建平,章贵军,刘晓葳.大数据时代下数据分析理念的辨析[J].统计研究,2014(02):10-19.

篇3

【关键词】学习分析系统 教育 大数据

一、引言

“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”(麦肯锡咨询公司)大数据时代已经到来了,决策将日益基于数据和分析而做出,而并非基于经验和直觉。大数据应用已经在商业、经济等领域取得了显著的成功。而在目前,教育领域中,各种数字学习环境的普及和推广,越来越多的人员在网络环境下发生学习行为。学习者与学习系统之间,学习者与学习者之间,学习者与设备之间,每天都在发生大量的交互数据,这些数据有着海量的数据规模(Volume)、多样的数据类型(Variety)、快速的数据流动和动态的数据体系(Velocity)、巨大的数据价值(Value),这些都符合大数据的4V特性。海量的数据给传统教育数据的存储和分析都带来了巨大的挑战。如何通过技术手段对教育大数据进行分析处理,使教育领域的方方面面都受益,最终有效促进教与学,已经越来越受到研究者的重视。而学习分析理念的提出,为教育大数据的应用找到了很好的途径。

二、学习分析概述

早在2010年美国新媒体联盟的《地平线报告》中就预测学习分析技术将在未来的四到五年内成为主流。第一届学习分析和知识国际会议认为:学习分析技术是测量、收集、分析和报告有关学生及其学习环境的数据,用以理解和优化学习及其产生的环境的技术。

学习分析所服务的对象涉及教育系统的各个相关人员,学习者、教育者、教育研究者、教育管理者、学习服务提供者等等。使用数据挖掘、社会网络分析、统计分析等多种技术对教育大数据进行解释和分析,根据解释与分析的结果,评估学习者的学习进展,预测未来的表现,并发现潜在问题,以便学习者能更准确地把握自己的学习情况,优化学习过程,教育者能及时调整教学活动和教学内容,优化教学方法和教学策略,为学生提供个性化的教学资源与建议,同时也能为教育管理者的决策提供科学依据。国外对学习分析技术的研究已经取得了一定的效果,而国内还处在理论研究和综述阶段。基于教育大数据的学习分析系统的构建可以为学习分析的应用和实践提供重要指导,更好地提高学习效率,有效促进教与学。

三、学习分析系统的总体架构

国内外许多学者都从不同角度对学习分析进行了整体框架的设计,但每个框架都有其局限性,经过实践验证的框架依然很少。学习分析的基础和核心是海量的教育数据。围绕数据开展数据的采集、存储、分析、表示以及应用五个环节的活动。本文以数据为核心,依据数据流动的过程来构建一个更加灵活和可扩展的学习分析系统的架构模型(见图1所示)。

图1 学习分析系统架构图

学习者的学习行为发生在各种数字环境中,如传统的学习管理系统、网络课程以及开放学习环境(MOOCs)等,社会性学习系统,如博客,微博,各种社交网络等。交互当中所产生的数据都会被记录到原始数据库中,而原始数据来源众多,形式不一,存储和处理都有困难。通过聚集、抽样、维归约、离散化和二元化等预处理,让原始数据更加适合挖掘,将预处理得到的学习数据存储到学习数据库中,与学习者相关的一些基本数据存储在学生信息库中。在特定的时间中学习分析引擎会从学习数据库和学生信息库中获取数据进行分析,依据需求不同,在分析过程中使用不同的数据挖掘和分析工具及模型。分析结果作用于学习者、教育者、研究者、教育管理者等不同层次,提供相应的教育干预,学习内容和过程、教学设计和策略优化。当然,分析结果也要以报告或可视化图表等形式在展示平台输出。

四、结束语

学习分析是大数据技术在教育领域中的应用。在大数据技术的支持下,深度挖掘学习行为模式,交互数据之间所隐藏的潜在价值,学习质量分析,个性化教学内容推送等都将成为可能。在对学习分析进行不断深入研究的同时,也存在许多挑战。如何快速有效地收集和预处理来源多样的原始数据,使用哪种工具、算法能更准确地得到有效预测,如何做到保护学生隐私等,都是我们要考虑的问题。相信这些挑战都将在不久的将来得到解决。

【参考文献】

[1]Barwick H.The “four Vs” of Big Data.Implementing Information Infrastructure Symposium[EB/OL].2012-10-02.

[2]Johnson,L.,Adams,S.,andCummins,M.(2012).The NMC Horizon Report: 20l2 Higher Education Edition.Austin, Texas: TheNewMediaConsortium.

篇4

关键词:信息素养;研究生;数据;北京交通大学

中图分类号:G643 文献标志码:A 文章编号:1673-291X(2012)18-0245-03

信息素养是指人们在解决问题时利用信息的技术和技能。这个概念是1974年由美国信息产业协会主席保罗·泽尔斯基首次提出后又经该协会定义的。随着计算机等现代技术的发展,信息量以几何级数的方式递增。一方面,准确完整的信息是做好决策的基础,另一方面,如何进行有效的检索,是利用信息从而解决问题的关键,这两者均取决于人的信息素养。

研究生教育担负着为国家建设发展培养高素养、创造型人才的重任。现代管理学之父德鲁克曾经说过:“知识工作者的生产率是21世纪管理的最大挑战。”

在北京交通大学,早在2004年,便把信息素养的教育列入了研究生学期教育的内容,为了全面掌握研究生信息素养情况,使信息素养教育更具有针对性,我们于2011年9月对北京交通大学的博士研究生和学术型硕士研究生进行了抽样调查,并结合访谈的形式对于相关重点问题进行了确认。

一、样本与调查维度说明

调查根据各院系学术型研究生数量的相对比例,共随机抽取360位研究生进行调查。经检查核对,最后共获得有效问卷343份,有效问卷回收率为95.27%,样本总量占6 847名学术型研究生总量的5.3%。有效样本在各学院的分布情况为:电子信息工程学院50人,计算机学院29人,经济管理学院97人,交通运输学院29人,土木建筑工程学院39人,机械与电子控制工程学院20人,电气工程学院20人,理学院21人,人文社会科学学院11人,软件学院17人,建筑艺术系5人,语言与传播学院5人。在全部被调查者中,硕士研究生为主体,占84.54%,其余为博士研究生;从年级分布看,一年级占45.18%,二年级研究生占43.73,三年级研究生只占11.07%;从性别构成看,男性占57.73%,女性占42.27%,与我校男女生总体比例58.4∶41.6持平。

调查的维度包括研究生信息素养教育基础、获取并利用专业信息的途径、对提高自身信息素养的途径选择与期望三个大的方面,共包含22个问题。

二、调查结果

1.研究生信息素养教育基本情况。调查表明:近四成研究生在本科阶段没有受过正规的信息素养教育。有34.74%的被访者在本科阶段没有学习过科技信息检索或类似的课程;有40.12%的被访者没有学过学术论文和学位论文写作的课程或听过相关讲座。

2.获取并利用专业信息的途径。在使用各种信息资源方面,以图书馆资源配合网络搜索引擎为主;将近1/3的学生经常使用纸本书和期刊,并通过专业相关论坛学习;还有一小部分学生利用免费的(见表1)。

在对既有资源的深入使用方面,对我校图书馆的使用情况的调查表明:有80.62%的学生使用过借还书服务;61.67%的学生做过电子数据库检索;44.49%的学生进行过书刊阅览;只有36.12%的学生使用过学术资源门户;26.43%的学生做过信息咨询;17.62%的学生使用过馆际互借;甚至有20%未使用过借还书服务(见表2)。

计算机技术发展到今天,涌现出很多面向公众的免费软件,这些开源软件除了在社交网络方面,在各专业领域里也层出不穷,熟练运用这些免费软件将是对我们当前有限资源的一个有效补充。但使用情况并不普遍。有15.42%的学生没有用过任何一款开源软件(见表3)。

研究生对本专业领域内优秀文献及前沿信息的掌握情况在一定程度上决定其创新力。研究生对其专业核心期刊及网站信息的掌握途径如下:60.79%的学生请教导师或同学,46.26%的学生利用期刊导航系统,28.63%的学生利用CSSCI或CSCD获知,11.45%的同学咨询图书馆员,其他途径为4.41%(见表4)。

从外文数据库的使用情况来看,有3.08%的学生从不使用本专业外文数据库;有43.17%的学生不熟悉外文数据库但常用Google找英文文献阅读;只有29.52%的学生经常使用本专业的外文数据库。由此可见,我校的专业外语和外文数据库的培训亟须加强(见表5)。

学术数据库的便捷和及时已成为研究生学习、研究过程中不可或缺的工具。随之而来的大量电子文档如果得不到系统的管理,会浪费掉很多时间和精力。与国外学校情况相比,我校研究生对参考文献管理工具的认识和使用情况令人担忧。以三种最广泛使用的管理工具为调查对象,使用过endnote、noteexpress或 refwork这三种管理软件的学生分别占16.74%、12.33%和8.81%,竟有近63.88%的学生没有使用过任何参考文献管理软件(见下页表6)。

3.提高研究生信息素养的方向与途径选择。调查显示:31.42%的被访者不太能对所浏览的网站的权威性作出判断,2.65%的被访者完全不能判断出所浏览网站的权威性;有40.27%的被访者回答能够判断网站的权威性,但根据的是模糊的经验;只有25.66%的被访者因为听过有关讲座,从而能够准确判断所浏览网站的权威性。

信息搜索能力提高途径方面,43%的同学希望采取听主题讲座的方式;22%的同学选择上选修课;20%的同学选择自学;15%的同学愿意请教导师和同学。

三、分析与建议

1.需强调信息技术教育与信息素养教育的结合。近四成研究生在入学之前没受过正规的信息素养教育,这样的数据映射了中国对于信息素养教育的认识严重不足。国外对信息素养问题的研究可谓由来已久。20世纪60年代至今,相关的研究已相当深入。通过Elsevier、Infotrieve等检索系统都可以检索到众多的研究文献。而通过“google”进行网络检索则返回了1 180 000条记录。这些记录中包含大量的信息素养研究组织、论坛、专门研究网站和资源网站,可以找到数量丰富的研究报告、论文、会议文献及有关的项目和计划等资料。资料还反映出信息素养概念的内涵逐渐由最初单纯的信息技能掌握到人的整体素养层面的演进以及信息素养重要性被广泛认可的过程。

相对而言,国内信息素养理论研究比发达国家滞后得多。1984年,教育部《关于在高等学校开设〈文献检索与利用课〉的意见》,奠定了《文献检索与利用课》作为中国高校大学生用户教育主要形式的地位。此后,受国外影响,中国图书情报界对用户教育活动的理论思考逐渐演变上升为信息素养层面的研究。就发文量而言,中国对信息素养问题的真正研究始于20世纪中期。1995年首次在研究文献中出现了“信息素质”和“信息素养”的概念,但之后发文数量一直非常有限,到2011年一共682篇。反映出中国对信息素养问题的研究多年来一直徘徊在较低的水平。

在对被调查者的访谈中,他们接受的信息教育要么就是计算机教育(简称为“计算机课”、“电脑课”)和在此基础上有所发展的信息技术教育,并以掌握计算机、网络等信息技术的知识和技能为最终目的;要么就是信息化教育,即将计算机、投影仪等设备用于辅助教育。从2000年开始,信息素养概念已进入一部分信息技术教育研究人士的视野,在国家信息技术教育相关政策中也出现了“信息素养”的提法,但基本上是将信息素养的培养局限于信息技术教育之中。而图书情报界则主要是从原有的用户教育、尤其是文献检索课的视角来看待信息素养。

因而,针对于研究生的信息素养教育,应该强调信息技术与人的学习、生活和工作的联系,强调信息和信息技术在各个层次上的学习与应用,特别强调信息素养在终身学习与自主学习中的作用,强调信息素养与个人发展的关系。

2.有待建立统一的信息素养标准,涵盖教育的全过程。信息素养标准是信息素养评估的依据,也是信息素养教育的课程目标。因此,各国积极建立适合本国国情的信息素养标准。在这一方面,美国、英国、澳大利亚制定的信息素养标准都对其他国家产生了一定的影响。美国最具有影响力的信息素养标准分别制定于1998年和2000年。1998年美国学校图书馆协会与教育交流技术协会制定了《学生学习的九大信息素养标准》,并且涵盖了教育的全过程,是从中小学基础教育到高等教育的一个重要主题。

中国的信息素养教育研究起步比较晚,目前还没有制定出一套全国通用的信息素养评估体系。《北京地区高校信息素养能力指标体系》是中国第一个正式的并且比较有权威的信息素养评价标准体系。该指标体系参照了美国、英国和澳大利亚高校的信息素养评价标准,共分为7个一级指标、19个二级指标、61个三级指标。

信息素养教育和其他任何一种教育领域一样,素养的提高是多个相互联系的因素持续作用、形成合力的结果,局部的强化难以实现。且研究生中的绝大多数毕业后便要走向职场,与其他层次的教育相比,除了传统意义上的学习的压力,还有面临从学生到职场人的转变的压力。如果单纯从研究生阶段加强信息素养教育,即使体系完备,也难以避免学生现学现用,不成系统的弊端。

3.信息素养教育亟待与学科课程整合。最新的研究文献数量表明:国外的信息素养教育的重点已经转向培养学生的终身学习能力和评判性思维能力,探讨促进图书馆、学生、教师及管理层的密切合作、谋求多学科的信息素养教学已经是研究重点之一。

篇5

关键词:首都医科大学;图书馆;流通借阅;数据分析;读者服务

中图分类号:G258.6 文献标识码:A 文章编号:2095-5707(2017)01-0040-07

Abstract: Objective To provide references for the resources construction of university libraries, business process optimization, user behavior research, and reader service improvement. Methods Excel 2010 was used to analyse the circulation data of 2013-2015 undergraduate, graduate students, international students, teachers and other readers from the Aleph 500 automated management system. Results In 2013-2015, there were downward trends of the numbers of visitors and the borrowed books. The numbers of borrowed books were more prominent in March and September. Lending period presented 10:00, 16:00, 18:00 and 20:00 four peaks. Book categories mainly focused on R, I, H, and so on. There were obvious regularities of borrowing preferences of students of various subjects. Conclusion Libraries of medical colleges and universities can increase self-service publicity, adjust human resources according to the borrowing situation, strengthen the construction of library resources, and pay attention to the reconstruction of the space and the arrangement of the environment.

Key words: Capital Medical University; libraries; circulation; data analysis; reader services

流通借阅是高校图书馆开展的基本业务之一,流通借阅数据分析是图书馆文献资源建设、业务流程优化、用户行为研究、读者服务提升的重要依据。随着网络技术对人们阅读行为的改变,图书馆已经从知识收藏中心向学习中心转变。各高校图书馆越来越重视对流通借阅数据的分析挖掘,通过对借阅率与学生学习状态相关性分析、探索用户利用图书馆馆藏资源现状,挖掘用户行为,提出相应的服务对策[1-9]。本文通过对首都医科大学各类型读者在图书馆中产生的流通借阅数据进行深度分析,力图为图书馆文献资源建设、用户服务和空间利用提供参考依据,充分发挥图书馆的文献保障与学习支持功能。

1 资料与方法

以首都医科大学2013-2015年的本科生、研究生、留学生、教师等各类型读者产生的流通借阅数据为研究对象,数据均来自首都医科大学图书馆使用的Aleph500自动化管理系统,应用Excel 2010统计分析读者到馆情况、借阅率、阅读偏好等。

2 结果

2.1 到馆情况

首都医科大学图书馆2013-2015年读者到馆及借阅情况如表1。整体上,到馆次数2013年最高,2014年各月份均出现大幅下降,2015年有所回升,但仍低于2013年;借阅人数各年度和月份变化较到馆情况变化相对较小。可以看出各年份、各月份到馆借阅率均低于7%,2014年9月最高为6.99%,3年的平均到馆借阅率为2.84%。

2.2 借阅情况

图1所示为首都医科大学图书馆2013-2015年每年1~12月份的借阅册数情况,可以看出每年的借阅情况逐月分布情况较为规律,通常每年2月、8月为寒暑假时间,借阅量较低,3月、9月为开学初,借阅量明显较大,紧接着又呈现逐月下降的趋势。2013-2015年借阅量逐年递减。2013、2014年借阅量分别为53 651、40 198册,下降25.08%;2015年借阅量为36 253册,相对2014年下降9.81%。3年的到馆人均借阅册数分别为4.54、4.15和4.06册,均呈逐年下降趋势。2015年3月、9月时间段的借阅量尤其突出。

图2为2013-2015年各时段12个月份的平均值,整体上分时段借阅量有4个波峰,分别在10:00、16:00、18:00和20:00左右出现。其中16:00的波峰最明显,相应的借阅量最多;其次是上午10:00、晚上18:00和20:00;晚间的借阅量比上午11:00-14:00之间的借阅量还要高。

依照《中国图书馆分类法》22基本大类对首都医科大学图书借阅量进行统计,结果如表2所示。可以看出2015年占借阅总量排名前三的类分别是R类占42.97%、I类占20.84%、H类占9.22%,前三类占总量的74.03%;其次是Q类4.55%、O类4.04%、T类4.04%、K类3.77%、B类3.72%、C类1.53%;其余均低于1%;借阅量高于4%的前6类占阅读总量的85.66%。

各类图书占本类馆藏百分比可以用来衡量某类图书的利用率。表2可以看出I类借阅量占本类馆藏百分比为12.95%,此类图书利用率最高;其后依次是Q、B、J各占本类馆藏百分比分别为7.63%、7.36%、7.02%;后面依次是R、C、H、K、O、P借阅量占各类馆藏百分比在5.26%~6.77%之间;其余均低于5%。

表3详细分析2015年各月份各类图书借阅量,各个月份的22基本大类情况趋于一致,R(医药、卫生)、I(文学)、H(语言、文字)等3类图书借阅量明显较多,其次是Q(生物科学)、O(数理科学和化学)、T(工业技术)、B(哲学)等4类。9月份为借阅高峰,各类图书的借阅量都高于其他月份,其次是3月份也相对较多,3月份和9月份借阅量分别为6200、6380册;2月份及8月份寒暑假期间,借阅量均低于200册;7月份有一半时间是暑期,借阅量为1760册,比正常月份稍低;其余月份均在2000~4000册之间。

表4列出了2013-2015年的外借次数排名前20位的二级类目。可以看出2013-2015年3年借阅量排名前5位均为中国文学、基础医学、常用外国语、中国医学、临床医学;6、7位为预防医学及卫生学、内科学,但排名稍有变化;其后是欧洲各国文学、自动化技术及计算机技术、外科学、药学、美洲各国文学、心理学、亚洲各国文学、化学、神经病学与精神病学类目,排名各年份稍有化;其余是中国人物传记、分子生物学、数学、法律、中国史类目。整体上来看排名前20位的二级类目2013-2015年变化不大。

2.3 各学科学生借阅偏好

由于系统内部不能获取研究生、博士生的具体学科类别,仅选择2015年本科生各学科借阅图书排名前10位的二级类目,然后综合各学科前10位的二级类目,共得到口腔、临床医学、中药学等12个学科30个二级类目的借阅情况(见表5)。

可以看出各学科学生借阅图书有一定共性,同时也非常有学科特色。横向来看,基础医学、中国文学和常用外国语是所有学科的学生借阅量都比较大的二级类目。纵向来看,临床医学学科学生人数总体较多,呈现出借阅量整体较高的情况,所借图书的学科范围也最广泛,包含各国文学、常用外国语、中国哲学、心理学社科类;基础医学、临床医学、中国医学、内科学、外科学、神经病学与精神病学医学各科、自动化技术及计算机技术等。中国文学、常用外国语这2个二级类目在各专业借阅量都在排在前10位,除此之外,中药专业学生侧重中国医学、基础医学、化学、药学二级类目;护理学专业的学生侧重临床医学、基础医学;公共事业管理学科的读者侧重预防医学和卫生学、自动化技术及计算机技术、心理学;中医学专业侧重中国医学、基础医学、心理学;生物医学工程学科的读者相对更关注自动化技术及计算机技术、数学、无线电电子学及电信技术;药学专业的学生侧重化学、药学、心理学;基础医学侧重基础医学和各国文学;康复治疗专业学生侧重基础医学、临床医学和心理学;法学专业学生侧重法律及预防医学和卫生学;儿科学生较多关注基础医学、内科学、药学、心理学。

3 讨论

综合分析2013-2015年首都医科大学图书馆各类型读者的流通借阅数据,可以看出到馆人次及借阅数量呈逐年下降趋势,借阅的月份、时段、图书类别及各学科学生借阅偏好具有明显的规律性。基于2013-2015年流通借阅数据的分析,高校图书馆应采取以下措施,更好地服务读者,提升服务质量。

3.1 加大自助服务宣传

自助服务指在一定的条件下根据用户的阅读兴趣、需要偏好来完成的书目查询、藏书借阅、资料检索、文献复印、学习空间使用等活动,从而实现自主服务的一种读者服务方式[10],北京大学、清华大学、上海交通大学、厦门理工学院乃至国外高校图书馆都在不断探索自助服务新方式[11-15]。自助服务逐渐成为流通借阅服务的主流服务方式。我馆统计数据表明,自助借阅服务占所有借阅量的60%以上,可以继续加大自主服务宣传,培养读者自主服务方式,提倡师生自主完成图书借还服务。

3.2 根据到馆借阅情况调整人力资源

传统的老馆舍由于要开设不同的阅览借阅室,人员尤显不足,根据到馆人数、借阅数据,在借阅高峰如每学期开学之初,加大人力投入,每天的10:00,16:00,18:00,20:00几个借阅高峰时段适当增加一线流通人员数量,保证服务质量,非借阅高峰可以适当缩减人员。

3.3 加强馆藏资源建设

除了保证医学特色资源建设以外,适当增加文学、生物科学、哲学、艺术等类图书,与院系紧密集合,针对不同的专业学科适当补充各学科个性化需求。加大电子资源的使用宣传。提供读者来馆随时荐购、书展现场采购、学科馆员推送、微信、网站等多渠道荐购图书。

3.4 注重馆舍空间改造

读者来图书馆,很大程度上是利用馆舍空间环境,所以传统图书馆的馆舍空间改造,人文环境优化尤为重要。首都医科大学图书馆设立了研究生自习室、研讨室等,并进一步细化阅览室学科功能,如我馆2009年成立了外文图书阅览室,使用馆员自创的作品装饰优化内部装饰、提升人文气息,现已成为吸引读者休闲阅读的重要场所。2015年9月成立了社会科学阅览室,收藏A~G类图书,促进社科图书的管理流通,自开通以来,借阅量较之混杂在自然科学大书库一起流通时有了显著提高。

4 小结

在大数据环境下,对于图书流通借阅数据进行有效的分析,能够为图书馆改善提升服务质量,深度挖掘用户行为,揭示其潜在的规律,为图书馆科学管理、资源建设和学科服务提供依据与参考。图书馆服务应结合用户统一认证系统、电子资源访问情况对借阅数据进一步挖掘,充分发挥图书馆的信息保障与学习支持作用,丰富图书馆的馆藏资源,优化图书馆空间环境,提高图书馆资源的利用率,有针对性地对不同学科的读者开展个性化服务,为图书馆科学管理提供事实依据。

参考文献

[1] 乔慧君,周筠B.高校图书馆借阅率与学生学习状态关系研究[J].大学图书馆学报,2015,33(1):55-60,50.

[2] 郑毅,叶翎,杨峰.医学院校图书馆中文图书利用率分析[J].医学信息学杂志,2010,31(12):82-85.

[3] 杨军花,聂江城,王刚.用户利用高校图书馆馆藏资源分析及对策研究――以南开大学图书馆借阅统计为例[J].图书馆工作与研究, 2011(5):66-70.

[4] 牛玉兰,王德强.医院图书馆读者借阅统计分析及其对策[J].医学信息学杂志,2008(2):53-55.

[5] 姬曼姝.高校D书馆流通借阅现状的统计分析――以内蒙古师范大学图书馆为例[J].图书情报工作,2013,57(S1):178-181.

[6] 何祯,司徒俊峰.高校图书馆“借阅无限量”的实践与思考――以中山大学图书馆为例[J].大学图书馆学报,2015(4):14-18.

[7] 陈进,刘宝杰.从未被借阅图书数据分析医科大学图书馆LIB2.0的应用[J].医学信息学杂志,2009,30(9):76-78.

[8] 陈娟,洪丹.基于Logistic模型的高校图书馆用户借阅影响因素分析[J].情报科学,2013,31(3):96-101.

[9] 韦耘耕.从图书馆流通数据分析读者阅读倾向及馆藏结构[J].医学信息学杂志,2010,31(2):75-78.

[10] 陈武,姜爱蓉.构建以自助服务为导向的现代图书馆[J].大学图书馆学报,2013(3):93-96.

[11] 高桂英,黄涛,聂华.图书馆自助服务的个性化应用――北京大学图书馆的实践与经验[J].大学图书馆学报,2011(4):77-80,121.

[12] 邢卓媛,孙翌,曲建峰.多终端环境下图书馆实体场馆自助服务的设计与实践――以上海交通大学图书馆为例[J].图书馆工作与研究, 2016(4):45-51.

[13] 凌宇飞.高校图书馆自助服务现状研究及发展策略[J].图书情报导刊,2016,1(5):62,156.

[14] 施航海,苏文辉.图书馆一站式自助离馆服务系统构建――以厦门理工学院图书馆为例[J].图书馆学研究,2016(16):65-69.

[15] 潘永明,刘辉辉,刘燕权.美国高校图书馆中的移动流通自助服务[J].图书情报工作,2014,58(12):26-31.

篇6

关键词:大数据时代;统计学;影响

随着大数据时代的到来,各企业采用了新的策略,获得了更多的利润。对于统计专业来说,改变发展策略,使培养出来的专业人才能够适应大数据背景的需求是其主要任务。目前,高校统计学专业逐渐认识到大数据时代综合性人才培养的重要性,并对专业建设进行了相关改革。

一、大数据时代对统计学的影响

大数据时代的到来对现代统计专业的发展造成了新的冲击,要确保培养出来的人才能够起到应有的作用,首先要了解大数据时代对统计专业所造成的影响。

(一)大数据时代使数据结构和数据性质发生变化

网络技术以及基于网络技术的电子商务等新的数据记录模式标志着大数据时代的到来。大数据时代,不再依赖于抽样调查的记录模式,网站浏览、视频监控都将形成大量数据。传统的数据结构甚至是数据性质发生了变化。大量的数据信息对于需求者来说,如何甄别其可用价值成为关键。传统的数据可以二维表格显示和整理。但大数据时代所产生的数据具有多样化和复杂化特征,往往包含了大量的音频、视频、HTML等。这要求大数据的收集具有较强的目的性,才能实现其价值。

(二)大数据时代要求统计分析方法和统计思维更新

大数据时代的主要特征为数据多且复杂,数据分析要求分析者对总体进行分析。在这一背景下,参数统计不再具有意义,假设检验法也随着总体分析而失去价值。数据的复杂化对传统大数据统计思维造成了巨大的冲击,要求统计者具有活跃的思维。只有对传统数据的改变进行分析,并且树立新的统计方法。

二、大数据时代下的统计学发展新策略

为适应大数据时代的需求,统计学专业的发展势必要对传统模式进行改革。目前,多数高校统计学专业已经认识到大数据对于其发展带来的冲击。为此,本文提出了以下策略,以及能够帮助统计学取得更好发展。

(一)加强统计应用性教学

根据大数据时代数据的总体分析特征,数据分析人员应掌握全面的分析方法。在人才培养过程中,应致力于培养实践分析能力,提高数据和资料收集能力,并且培养其强烈的数据价值观,使其能够从众多数据中找到所需的。另外,对传统模式进行改革,增加大数据统计内容,以适应时代的需求。基于大数据的结构特点,实施资料透视化教学,提高分析者对复杂数据的分析能力。

(二)培养大数据统计思维

在人才培养过程中,新的统计思维的培养具有重要意义,即强调数据分析实践能力的提高。统计思维的培养有助于数据分析者对复杂的数据进行区分,从而整理有效信息。在大数据时代,不仅要以传统的平均思维、动态思维和变异思维为基础,还要注重基于整体分析的大数据思维。另外,还要培养数据分者的复杂性思维,以应对复杂的数据库。总之,大数据时代需要数据分析者具有全面的、创新性的思维。

(三)强化基础性统计知识

统计学自身具有复杂性,其改变多且抽象。基础的统计知识是进一步掌握大数据分析思维的基础,可见学习基础性统计知识的重要性是不言而喻的。为此,应该采取深入浅出的方法,利用多媒体等方式使复杂的数据统计清晰化、简单化。结合具体的案例使数据分析者正确认识统计概念、掌握统计原理和方法。此外大数据分析不再是一种专业,而是更倾向于一种技术,这要求我们将大数据分析与统计学以外的相关知识相互联系。注重真实相关与伪相关的讲解,强调商务智能的开发和分析。只有具有坚实的基础,才能确保数据分析者大数据分析思维的养成,适应现代社会的需求。

(四)加强复合型人才培养

为适应大数据时代的需求,复合型人才的培养是关键。所谓复合型人才,是指其不但要具有专业的数据分析能力,还要相应的具备管理以及其从事专业的技术。大数据时代,高校应建立全面的人才培养模式,注重培养人才的数据分析能力、编程能力等,使其真正了解大数据,懂得如何利用大数据对其所处的行业起到积极作用才是关键。总之,大数据时代对综合性人才具有更高的需求,大数据时代不仅培养的是一种能力,而且是一种思维,是对全新模式下的数据的分析和利用。高校作为人才培养的重要基地,其教学模式的改革、对大数据时代所需教学模式的认识是高校的主要任务。

三、总结

统计学是经济学的基础课程,传统的统计人才培养具有定向性。而随着大数据时代的到来,数据产生的形式多样,且具有复杂性。大数据分析不仅是作为一种专业存在,而是应以一项必备的技术而存在。大数据时代,传统的统计思维和统计方法发生了改变,统计人才培养方式的改革也就势在必行。(作者单位:海南师范大学)

参考文献:

[1] 朱怀庆.大数据时代对本科经管类统计学教学的影响及对策[J].高等教育研究,2014(3).

[2] 姚寿福.经济管理类本科专业统计学课程教学改革思考[J].高等教育研究,2012(3).

[3] 孙耀东.大数据背景下统计学专业课程教学探究[J].廊坊师范学院学报(自然科学版),2015(06).

篇7

关键词:统计学;教育改革;大数据

一、引言

最早提出大数据时代到来的机构是全球知名的麦肯锡咨询公司,该公司在一份研究报告中指出:“数据已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素,人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来”。

大数据是随着互联网技术的广泛应用带来的数据量和数据类型激增而衍生出来的一种现象,但大数据一词不仅指规模大、种类多的数据集,还包括对这种数据集进行采集、处理与分析以提取有价值信息和直接创造价值的技术构架和技术过程。大数据的第一个特征是数据量巨大。截止到2012年,数据量已经从TB(1024GB=1TB)级别跃升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至ZB(1024EB=1ZB)级别。第二个特征是数据类型繁多、异构性突出,包括网络日志、音频、视频、图片、地理位置信息等等。第三个特征是数据价值密度较低,数据中存在大量重复性和无价值性信息或噪声。如何通过强大的计算技术和统计分析等方法迅速完成数据的价值提纯,是大数据时代亟待解决的难题。第四个特征是处理速度快、时效性要求高。这是大数据区分于传统数据挖掘最显著的特征。

目前,不同的学科领域对大数据概念有着不尽相同的解释,但各种解释中大致可以从两个方面去理解。首先,大数据概念体现在数据量的巨大、种类的众多及产生速度的飞快,同时产生的数据集极有可能包含着各种半结构化和非结构化数据;其次,大数据概念还体现在对数据进行处理的手段和流程方面,由于数据量的庞大和类型复杂,利用常规的统计软件已经无法对当今的数据进行及时有效的存储、分析及处理。因此,所谓的大数据并不是单纯指数据流量的巨大,还指其结构的复杂和种类的多样,在数据处理和分析上需要采用高端计算平台或高级统计软件,以及海量数据中存在着可挖掘的潜在的大量价值信息与知识。

近年来,随着高速计算机的应用、信息技术的快速发展,特别是云计算技术的发展,使大数据的存储和分析技术得到迅速发展,目前的核心技术有MapReduce、GFS、BigTable、Hadoop,以及数据可视化等。在数据搜集上,可方便地通过在线互联网数据库获取二手数据或一手实时数据。在数据分析上,传统统计学方法采取的是基于统计模型的样本数据分析,而大数据分析技术则是通过高端计算平台,对大数据中的信息进行挖掘。

统计学作为对数据进行处理和分析的科学,必然受到大数据的影响。在大数据时代,统计学教育必须与时俱进,跟上时展步伐。近年来,有不少文献讨论了大数据环境下我国统计学教育的改革问题(例如[1]-[5]),本文在分析大数据时代特征的前提下,进一步讨论我国统计学教育的现状与挑战、统计学教育改革的内容、方法、借鉴和适应时代要求的变革问题。

二、统计学教育的现状与挑战

2013年,教育部对我国统计学专业设置进行一次新的调整,将原来的既可授予理学学位,也可授予经济学学位的统计学专业划分为统计学、应用统计学和经济统计学三个本科专业[6]。根据教育部高等学校统计类专业教学指导委员会2013年11月公布的数据,当时全国有194所高校开设了统计学专业,156所高校开设了应用统计学专业,164所高校开设了经济统计学专业[6]。目前,全国开设这三个统计学专业的高校个数和在校学生人数与2013年相比都有不少的增加。

面对大数据时代,我们目前的统计学教育无论在培养目标和教学内容上,还是在教育方式和人才培养模式上,都存在着亟待解决的挑战性问题。例如,在专业培养目标和人才培养过程中,我们比较重视课程层面上的评价,比较轻视专业层面上的整体评价,缺乏对学生综合能力的反馈机制。

关于教学内容,目前三个统计学专业在统计理论和应用统计两个方面有不同的侧重。统计理论主要包括:抽样理论、实验设计、估汁理论、假设险验、决策理论、贝叶斯统计、半参数和非参数统计、序贯分析、多元统计分析、时间序列分析、小样本理论和大样本理论等。在数据分析中,现今的统计方法基本以结构化数据为主要处理对象,而对非结构化和半结构化数据的分析和工具涉及较少。因此,现今统计学课程及内容已不能满足从事非结构型和半结构型的大数据研究和商业应用对人才培养的需要,必须进行必要的改革。

对于教育方式,鉴于大数据时代要求,统计分析人员需要具备较高的数学和现代统计学基础,具有较高的软件操作能力,掌握一定的大数据收集、整理、分析、处理和挖掘数据的技能。日本学者城田真琴认为:“数据科学家要有计算机科学专业背景,数学、统计方面的素养和使用数据挖掘软件的技能,善于利用数据可视化的手法展现晦涩难懂的信息,而且具备相应的专业知识、眼界和视野,具有适应社会发展和创造价值的能力”。现今的统计学教育方式还不能很好适应大数据时代数据科学人才培养需要,必须进行必要及时的调整和变革。

对人才培养模式,大数据时代不仅要求培养具有数据处理和分析所需的基本素质与技能,更重视培养从海量数据中发现和挖掘价值信息、把握市场机遇、创造利润的潜在能力。面对大数据时代的诸多挑战,现代统计技术、数据挖掘方法、计算机信息技术、软件工具和理念的日新月异,培养统计人才的教育模式也需要相应变化,统计学教育只有与时俱进,主动做出全面的调整和变革才能适应新时代知识进步和激烈人才市场竞争的需要,积极迎接大数据时代的挑战。

大数据时代对统计学教师有更高的要求,统计学教师需要与时俱进,跟上时代步伐。随着互联网、物联网、云计算等信息技术的发展,对数据的分析和处理的技术也随之要求更高,统计学教师固有的知识体系已不能满足培养现代统计人才的需要,必须进一步深化和更新原有的统计学理论知识,而且还需要学习掌握计算机技术、互联网、数据库和信息科学等有关知识和技术,同时还要熟悉处理非结构型和半结构型数据的知识和技能,以适应现代统计学教育对教师的知识结构和基本素质的要求。

大数据时代对统计专业的学生也提出了更高的要求,他们不仅需要掌握现代统计理论、统计方法和专业统计软件,还要学会如何分析、处理来自互联网或各种实际问题中的海量数据,如何利用统计软件和互联网技术进行数据操作,如何借助软件技术和统计准则判断数据质量,如何进行模型选择和评价模型方法的有效性,如何准确清晰地呈现统计分析结果和结论,等等。

2014年11月,美国统计学会了统计学本科专业指导性教学纲要 [7],该教学纲要对统计学专业提出四个方面的要求:(1)具有扎实的数学和统计学基础、强大的统计计算和编程能力,熟练使用统计软件和数据库;(2)分析来自现实问题的真实数据,真实数据是统计专业教育的重要组成部分;(3)掌握多样化的统计模型方法;(4)具有通过语言、图表和动画等方式解释数据分析结果的能力。美国是统计学教育和人才培养最先进的国家之一,该指导性教学纲要代表着美国统计学专业培养人才的基本要求和发展方向,对我国统计教育的改革具有重要的参考价值。以该指导性教学纲要为参考依据,对照我国目前的统计学本科专业教育,无论是在培养目标和课程设置方面,还是在教学内容和教学方法方面,都存在着亟待解决的挑战性问题。

三、统计学教育的改革

大数据时代的统计学教育不仅是各种统计方法、数据挖掘方法和信息技术手段的延续或发展,更主要的是这些方法的集成应用和在实际数据分析中的真实体验。过去,企业数据库价格昂贵,在统计学教育的教学案例或实验课教学中,很少采用真实和海量的数据库资源,基本都是采用过时或虚拟的数据。今天,像百度大数据引擎这样的数据库的逐步对外开放,将有助于开展“线上大数据统计实验”教学。为了适应大数据时代要求,有必要利用网络资源以及各种数据处理软件,搭建线上大数据分析实验教学平台,全面开展大数据统计实验教学的改革。实际上,借助大数据分析平台,本科阶段的统计学教育就可以融人联机分析和数据的可视化教学。其次,要时刻关注大数据分析理论的进展,及时将新理论新方法融入课堂教学内容。

需要指出的是,在大数据时代,经典统计理论和方法并没有过时,但需要进行改进和进一步发展。这是因为,网上采集的巨型数据集往往存在大量的重复性和无价值数据信息,使得大数据价值密度降低。在对这些数据进行分析处理之前往往需要通过去噪、分层、截断、聚类等方法的预处理,将其变成便于进行分析处理的小数据,继而借助于经典统计方法进行分析和处理。因而在大数据时代仍然需要采用传统统计学的小样本理论和方法。所以,即便是在大数据时代,经典统计方法仍然是进行统计分析的基石,其核心地位不可动摇。所以,在大数据时代仍然要强化统计学的基本理论和方法,尤其是在长期发展和实践应用中经过验证的、成熟有效的经典和现代统计方法,在大数据时代仍然没有过时,但需要结合大数据分析的需要对经典统计方法进行必要的发展和改进。

大数据科学需要统计学与数学、计算机等学科的结合。亚马逊大数据科学家John Rauser 认为:“数据科学家是统计学家和计算机工程师的结合体”。为了满足大数据时代的要求,统计学专业的课程设置需要进行必要的调整。应根据新时代人才培养的要求,增设与大数据前沿领域发展相关的课程,如计算机网络和大数据相关的软件应用,同时要加大实验课和社会实践课的比重,引导学生理解和掌握大数据概念、理论、技术和方法,培养其运用大数据的相关分析工具解决实际问题的能力。对于理论课程,除基本统计理论外,还应开设一些较为现代和深入的课程,如现代贝叶斯方法、神经网络、数据挖掘、应用随机过程论等。另外,还应开设与大数据分析相关的关联规则、决策树、机器学习、支持向量机等课程。

为了培养与时代适应的统计学人才,统计学专业教师应不断更新自身的知识结构和价值观念,改变认识数据、收集数据和分析数据的思维,主动学习和补充互联网、现代数据分析技术、数据库和数据挖掘技术,使自己的知识体系不断更新和提升,跟上时展的步伐。

在大数据时代,要注意培养学生适应社会的能力。统计专业人才培养模式应以提高本专业学生数据分析方面的能力,开阔他们的视野,培养其适应社会的能力。应积极引导学生进入实训场所动手操作和锻炼,尝试以企事业单位的财政、金融、保险、统计、咨询和信息公司等部门为主构建专业性教育实践基地。鼓励学生到大数据相关的机构部门、产业园区和企业中去调查研究和实践。此外,统计专业应积极同其他专业进行合作,联合培养适应新时代要求的数据分析人才。鉴于大数据对数据分析人员在计算机技术、行业认知、业务知识、数据分析工具和方法的要求提高,统计学科应主动与计算机、经济学、管理学等相关学科合作,培养学生的计算机能力、专业素质和业务修养。

“它山之石可以攻玉”,关于统计学专业的课程设置,可以参考和借鉴美国统计学会公布的统计学本科专业指导性教学纲要。根据该教学纲要,统计专业的课程设置应该涵盖五个模块[7]:(1)统计方法与统计理论。建立统计模型并对模型的输出结果进行评价,熟悉统计推断,能够从数据分析中得出恰当的结论。(2)数据操作和统计计算。熟练使用一款专业统计软件进行探索性数据分析,发现和清洗数据中的错误记录,具有编程能力和算法思维,可以进行各种数据操作,还应掌握统计计算技术,能够进行模拟研究。(3)数学基础。熟练掌握微积分、线性代数、矩阵论、概率论和数理统计的基础知识。(4)实践训练和表达能力。具有良好的表达和交流能力,善于通过图示和动画等听众易于理解的方式展示分析结论,并且具有团队合作精神和项目领导能力。(5)特定领域的知识。掌握特定应用领域的知识,并用统计学特有的思维方法来分析和解决特定领域的实际问题。

大数据时代是以数据为中心的时代,统计学专业的教育改革必须适应这个时代的要求。统计数据分析中软件应用能力至关重要。在众多统计软件中推荐使用R和SAS软件,因为R是免费开源软件,其统计建模、统计计算和可视化功能强大,更新迅速,是最新统计方法的主要平台,非常有利于培养学生的编程能力和知识更新能力,而SAS软件被很多公司用于数据管理和数据分析,在实际应用领域具有长期而深远的影响,是数据分析不可或缺的专业统计软件。当然,教学中也可以尝试使用其他专业统计软件,例如经济统计专业学生也可使用SPSS软件,但最好会使用SAS或R软件。在加强软件使用和编程能力的基础上,应加强学生统计计算和统计模拟能力的培养。在大数据时代,强调统计计算的重要性是大势所趋。统计模拟技术是伴随着高速计算机和信息技术的快速发展而广泛应用的现代技术,可用来解决传统学科领域中无法解决的问题。例如,在计算技术飞速发展的今天,贝叶斯统计方法过去曾经面临的计算瓶颈正在逐渐消失,基于马尔科夫链蒙特卡洛(MCMC)技术的统计模拟方法在数据分析中的强大威力正在日益显现[8]。

参考文献:

[1] 刘春杰,大数据时代对当代统计学教育的挑战,统计与决策,2015年,第8期。

[2] 孟生旺,袁卫,大数据时代的统计教育,统计研究,2015年,第32卷4期。

[3] 葛虹,韩伟,大数据时代统计教育变革的SWOT分析与发展策略,统计与决策,2015年,第4期。

[4] 张海波,黄世祥,统计学专业学生大数据分析能力的培养方式选择,统计与决策,2014年,第24期。

[5] 李卫东,大数据对统计学科发展的影响,统计与决策,2014年,第13.期。

[6] 教育部高等学校统计类专业教学指导委员会.统计学专业教学单位.http:///category/信息公开/教学单位,2013-11-15.

篇8

关键词 大数据时代 数据分析

一、相关概述

大数据环境下经济社会生活都出现了较大的变化,同时自然科学和人文科学等也都有了较大的提升。在此背景下,依靠计算机信息技术的不断发展,研究者能够使用一定的方法和技能对较为复杂且规模较大的海量数据进行数据处理,并有效挖掘其中的价值信息。大数据环境为统计学的研究和发展提供了好的机遇,同时也对统计学的拓展提出了一定的挑战。

大数据环境下数据在各个行业和领域中都有所渗透,并逐渐成为主要的生产要素。大数据本身具有价值密度低、数据体量大、数据类型多、数据处理速度快的特点。不过由于数据量的急速增长,也使得在数据分析和研究过程中由于数据库缺少必要的管理工具进行数据采集和管理,而导致数据搜索、数据分析、数据存取和数据共享等出现一定的困难。一般情况下,在大数据环境下,往往存在着数据存储、处理技术、数据安全等相关的技术性问题。这些问题的存在一定程度上影响和制约了数据的开发和应用效率。尽管大数据下进行数据分析存在一定困难,但是其在实践中的应用空间和领域却十分广泛,对于经济社会的发展具有重要的推动力。

二、大数据环境下数据分析过程分析

(一)数据的价值挖掘过程

面对海量的大数据环境,数据使用者应当围绕数据分析目标和具体要求对大数据进行有效挖掘,提取有用数据,摒弃无用数据,从海量数据中进行价值挖掘,结合数据类型提升数据使用价值。在进行具体的大数据挖掘时可以按照具体的案例来进行,比如在进行广告人群匹配时,在进行数据分析和数据挖掘上主要是面对着两种数据。一种是广告库数据,主要包含了广告库以及广告的客户信息等。这种数据一般都具有较高的结构性,能够在传统的数据库中进行采集和应用、分析。另外一种数据是客户的后期行为数据。通过对此两种数据的结合分析,有效挖掘其中的有效价值。与此同时,在具体的应用实践过程中,还需要积极发挥第二种信息的作用和价值,这样能够获得客户所需的信息。依靠对群体行为和群体智能的分析,最终形成具体的反馈机制和反馈流程,在此基础上为信息使用者提供优质可靠的数据处理信息,为信息使用者科学决策提供有效的信息和数据支持。

(二)数据的处理与分析过程

在此过程中,一方面要及时更新抽样调查的工作理念。一般情况下,大数据的样本资料都是之前的材料汇总,这就要求在对此数据进行分析处理时应当首先对数据整体进行梳理和了解,并逐步向数据局部进行延伸。同时在对海量数据进行分析处理时还应当解决好调查目标设定不合理、抽样框架不稳定以及样本数量受限制等问题。另一方面,也要进一步提升大数据环境下数据精确度标准。由于大数据环境下数据的来源比较广,数据处理质量和效果也各有差异,因此应当在允许数据之间存在准确度差异的同时提升数据精准度的标准。要在积极吸收各种数据资源的基础上,提升数据处理能力和质量,科学应对数据复杂性和变量关系复杂性等问题。除此之外,也应当围绕大数据中的数据分析,对数据关系的分析重点进行合理转换。既要重视对数据中因果关系的分析和梳理,同时也要重视对事物之间相关性的分析研究,及时转换分析思路,围绕数据分析目标和事物之间关联关系进行大数据环境下的数据分析工作。

三、大数据对统计的影响分析

(一)能够进一步拓展统计学研究领域

大数据环境对于各个研究领域都能够产生比较大的影响,对于统计学也是一样。统计学研究的是客体、客观事物之间的数量关系和数量特征,数量性是统计学研究对象最为主要的特征。由于在传统的统计学研究实践中实验数据和调查数据是最主要的研究数据,因此在大数据环境下,统计学研究对象既包括了之前的结构化数据,同时也包括了非结构化数据,这些非结构化数据不能够单纯地依靠数量关系来加以衡量和表示。这其中就包括了文本、声音、图片、动画等数据信息。从这个意义上讲,大数据环境下统计学的研究领域有了较大范围的扩展。

(二)能够对统计计算的规范性产生影响

按照传统的统计学研究方法,在反应事物量的特征时大都是依靠方差、平均值、相对数等来进行,这些研究方法能够反映出事物之间的界限和关系,并且也能够依靠数据计算规范来反映出具体的数据。不过在当前的大数据环境下,非结构性数据常常难以使用传统的数据计算规范来加以计算。从这个角度上讲,大数据环境下统计的数据计算规范也受到了较大的挑战。

(三)能够对统计的数据整理和分析过程产生影响

统计学中数据审核之前主要是针对数据的完整性和准确性。不过在当前的大数据环境下,数据审核除了要保障原先的数据完整性、准确性外,还应当保证数据审核的速度、效率以及数据预测的准确性等。除此之外,还应当准确确定数据处理的规模,合理确定数据量的级别。尽管大数据自身具有混乱性和不稳定性的特点,但是使用合理的数据整理方法也能够在大数据中有效挖掘出数据之间的隐蔽关系,提升数据挖掘的价值性。因此,大数据下统计研究对象本身具有准确和不准确两种情况,它们分别具有不同的价值属性,一般情况下不需要对其进行删除或者替换。

对于数据存储来讲,之前的统计研究数据存储过程中都是将审核、汇总或者编制的表格、图表等,并将它们进行适当的保存处理。不过在大数据环境下进行数据的保存就还需要重视数据存储成本的管控,并结合自身实际制定规章制度和计划合理确定数据存储的规模和目录。

(四)能够对数据开发和利用过程产生影响

这主要涉及大数据环境下数据的积累、开发以及应用。在传统的数据统计工作过程中,研究者都是围绕自身目标来对相关数据进行分类和汇总,通过存储和提取过程,对数据进行有效挖掘,并在此基础上为后续的数据分析和查询提供支撑。大数据环境下,数据量比较大,只有对数据信息进行适当处理才能够获得其中价值量比较高的信息。正是基于大数据自身的复杂性,统计研究者应当对前期数据进行适当处理。围绕数据的规模和结构、层次等进行合理分类和汇总,在确保真实性的同时提升数据的价值性。与此同时,由于大数据环境下数据具有流动性特点,使得数据本身也具有再生性特征,并进一步增加了数据的价值性。因此有必要针对统计研究中的大数据进行深入的数据挖掘,依靠数据整合提升数据价值性。在数据应用上则主要是针对统计学现象的预测和解释,实现在大数据环境下数据相关关系的预测和分析。

总的来讲,大数据环境不仅改变了经济社会生活,也对统计等相关科学产生了巨大的影响,如何实现大数据环境下的统计研究是统计学领域的重要课题。进一步强化对大数据的理解和把握,重视大数据在统计中的研究和应用,有效分析和挖掘大数据中的价值信息,更好地推动统计学的理论和实践应用。

(次世青、高东宇单位为首都航天机械公司;次青波单位为中国航天标准化研究所)

参考文献

[1] 田茂再.大数据时代统计学重构研究中的几个热点问题[J].统计研究,2015(05).

篇9

统计学研究的对象是数据,数据科学顾名思义也是以数据为研究对象,这产生一种直观的错觉,似乎数据科学与统计学之间存在某种与生俱来的渊源关系。Wu(1998)直言不讳,数据科学就是统计学的重命名,相应地,数据科学家替代了统计学家这个称谓。若此,那是什么促成了这种名义上的替代?显然仅仅因为数据量大本身并不足以促成“统计学”向“数据科学”的转变,数据挖掘、机器学习这些概念似乎就已经足够了。问题的关键在于,二者所指的“数据”并非同一概念,数据②本身是一个很宽泛的概念,只要是对客观事物记录下来的、可以鉴别的符号都可以称之为数据,包括数字、文字、音频、视频等等。统计学研究的数据虽然类型丰富,如类别数据、有序数据等定性数据,定距数据、定比数据等定量数据,但这些都是结构化数据;数据科学所谓的数据则更为宽泛,不仅包括这些传统的结构型数据,而且还包括文本、图像、视频、音频、网络日志等非结构型和半结构型数据,即,大数据。大数据(以半/非结构型数据为主)使基于关系型数据库的传统分析工具很难发挥作用,或者说传统的数据库和统计分析方法很难在可容忍的时间范围内完成存储、管理和分析等一系列数据处理过程,为了有效地处理这类数据,需要一种新的范式———数据科学。真正意义上的现代统计学是从处理小数据、不完美的实验等这类现实问题发展起来的,而数据科学是因为处理大数据这类现实问题而兴起的。因此数据科学的研究对象是大数据,而统计学以结构型数据为研究对象。退一步,单从数量级来讲,也已发生了质变。对于结构化的大规模数据,传统的方法只是理论上的(可行性)或不经济的(有效性),实践中还需要借助数据挖掘、机器学习、并行处理技术等现代计算技术才能实现。

二、数据科学的统计学内涵

(一)理论基础

数据科学中的数据处理和分析方法是在不同学科领域中分别发展起来的,譬如,统计学、统计学习或称统计机器学习、数据挖掘、应用数学、数据密集型计算、密集计算方法等。在量化分析的浪潮下甚至出现了“metric+模式”,如计量经济学、文献计量学、网络计量学、生物统计学等。因此,有学者将数据科学定义为计算机科学技术、数学与统计学知识、专业应用知识三者的交集,这意味着数据科学是一门新兴的交叉学科。但是这种没有侧重的叠加似乎只是罗列了数据科学所涉及到的学科知识,并没有进行实质性的分析,就好似任何现实活动都可以拆解为不同的细分学科,这是必然的。根据Naur(1960,1974)的观点,数据科学或称数据学是计算机科学的一个替代性称谓。但是这种字面上的转换,并没有作为一个独立的学科而形成。Cleveland(2001)首次将数据科学作为一个独立的学科提出时,将数据科学表述为统计学加上它在计算技术方面的扩展。这种观点表明,数据科学的理论基础是统计学,数据科学可以看作是统计学在研究范围(对象)和分析方法上不断扩展的结果。一如统计学最初只是作为征兵、征税等行政管理的附属活动,而现在包括了范围更广泛的理论和方法。从研究范围的扩展来看,是从最初的结构型大规模数据(登记数据),到结构型的小规模数据(抽样数据)、结构型的大规模数据(微观数据),再扩展到现在的非(半)结构型的大规模数据(大数据)和关系数据等类型更为丰富的数据。从分析方法的扩展来看,是从参数方法到非参数方法,从基于模型到基于算法,一方面传统的统计模型需要向更一般的数据概念延伸;另一方面,算法(计算机实现)成为必要的“可行性分析”,而且在很多方面算法模型的优势越来越突出。注意到,数据分析有验证性的数据分析和探索性的数据分析两个基本取向,但不论是哪一种取向,都有一个基本的前提假设,就是观测数据是由背后的一个(随机)模型生成,因此数据分析的基本问题就是找出这个(随机)模型。Tukey(1980,2000)明确提到,EDA和CDA并不是替代关系,两者皆必不可少,强调EDA是因为它被低估了。数据导向是计算机时代统计学发展的方向,这一观点已被越来越多的统计学家所认同。但是数据导向仍然有基于模型与基于算法两种声音,其中,前文提到的EDA和CDA都属于基于模型的方法,它们都假定数据背后存在某种生成机制;而算法模型则认为复杂的现实世界无法用数学公式来刻画,即,不设置具体的数学模型,同时对数据也不做相应的限制性假定。算法模型自20世纪80年代中期以来随着计算机技术的迅猛发展而得到快速成长,然而很大程度上是在统计学这个领域之外“悄然”进行的,比如人工神经网络、支持向量机、决策树、随机森林等机器学习和数据挖掘方法。若响应变量记为y,预测变量记为x,扰动项和参数分别记为ε和β,则基于模型的基本形式是:y=f(x,β,ε),其目的是要研究清楚y与x之间的关系并对y做出预测,其中,f是一个有显式表达的函数形式(若f先验假定,则对应CDA;若f是探索得到的,则对应EDA),比如线性回归、Logistic回归、Cox回归等。可见,传统建模的基本观点是,不仅要得到正确的模型———可解释性强,而且要得到准确的模型———外推预测能力强。而对于现实中复杂的、高维的、非线性的数据集,更切合实际的做法是直接去寻找一个恰当的预测规则(算法模型),不过代价是可解释性较弱,但是算法模型的计算效率和可扩展性更强。基于算法的基本形式类似于非参数方法y=f(x,ε),但是比非参数方法的要求更低yx,因为非参数方法很多时候要求f或其一阶导数是平滑的,而这里直接跳过了函数机制的探讨,寻找的只是一个预测规则(后续的检验也是基于预测构造的)。在很多应用场合,算法模型得到的是针对具体问题的解(譬如某些参数是被当作一个确定的值通过优化算法得到的),并不是统计意义上的推断解。

(二)技术维度

数据科学是基于数据的决策,数据分析的本质既不是数学,也不是软件程序,而是对数据的“阅读”和“理解”。技术只是辅助数据理解的工具,一个毫无统计学知识的人应用统计软件也可以得到统计结果,但无论其过程还是结果都是可疑的,对统计结果的解释也无法令人信服。“从计算机科学自身来看,这些应用领域提供的主要研究对象就是数据。虽然计算机科学一贯重视数据的研究,但数据在其中的地位将会得到更进一步的加强”。不可否认,统计分析逐渐向计算机科学技术靠近的趋势是明显的。这一方面是因为,数据量快速膨胀,数据来源、类型和结构越来越复杂,迫切需要开发更高效率的存储和分析工具,可以很好地适应数据量的快速膨胀;另一方面,计算机科学技术的迅猛发展为新方法的实现提供了重要的支撑。对于大数据而言,大数据分析丢不掉计算机科学这个属性的一个重要原因还不单纯是因为需要统计软件来协助基本的统计分析和计算,而是大数据并不能像早先在关系型数据库中的数据那样可以直接用于统计分析。事实上,面对越来越庞杂的数据,核心的统计方法并没有实质性的改变,改变的只是实现它的算法。因此,从某种程度上来讲,大数据考验的并不是统计学的方法论,而是计算机科学技术和算法的适应性。譬如大数据的存储、管理以及分析架构,这些都是技术上的应对,是如何实现统计分析的辅助工具,核心的数据分析逻辑并没有实质性的改变。因此,就目前而言,大数据分析的关键是计算机技术如何更新升级来适应这种变革,以便可以像从前一样满足统计分析的需要。

(三)应用维度

在商业应用领域,数据科学被定义为,将数据转化为有价值的商业信息①的完整过程。数据科学家要同时具备数据分析技术和商业敏感性等综合技能。换句话说,数据科学家不仅要了解数据的来源、类型和存储调用方式,而且还要知晓如何选择相应的分析方法,同时对分析结果也能做出切合实际的解释②。这实际上提出了两个层面的要求:①长期目标是数据科学家从一开始就应该熟悉整个数据分析流程,而不是数据库、统计学、机器学习、经济学、商业分析等片段化碎片化的知识。②短期目标实际上是一个“二级定义”,即,鼓励已经在专业领域内有所成就的统计学家、程序员、商业分析师相互学习。在提及数据科学的相关文献中,对应用领域有更多的倾向;数据科学与统计学、数学等其他学科的区别恰在于其更倾向于实际应用。甚至有观点认为,数据科学是为应对大数据现象而专门设定的一个“职业”。其中,商业敏感性是数据科学家区别于一般统计人员的基本素质。对数据的简单收集和报告不是数据科学的要义,数据科学强调对数据多角度的理解,以及如何就大数据提出相关的问题(很多重要的问题,我们非但不知道答案而且不知道问题何在以及如何发问)。同时数据科学家要有良好的表达能力,能将数据中所发现的事实清楚地表达给相关部门以便实现有效协作。从商业应用和服务社会的角度来看,强调应用这个维度无可厚非,因为此处是数据产生的土壤,符合数据科学数据导向的理念,数据分析的目的很大程度上也是为了增进商业理解,而且包括数据科学家、首席信息官这些提法也都肇始于实务部门。不过,早在20世纪90年代中期,已故图灵奖得主格雷(JimGray)就已经意识到,数据库技术的下一个“大数据”挑战将会来自科学领域而非商业领域(科学研究领域成为产生大数据的重要土壤)。2008年9月4日刊出的《自然》以“bigdata”作为专题(封面)探讨了环境科学、生物医药、互联网技术等领域所面临的大数据挑战。2011年2月11日,《科学》携其子刊《科学-信号传导》、《科学-转译医学》、《科学-职业》专门就日益增长的科学研究数据进行了广泛的讨论。格雷还进一步提出科学研究的“第四范式”是数据(数据密集型科学),不同于实验、理论、和计算这三种范式,在该范式下,需要“将计算用于数据,而非将数据用于计算”。这种观点实际上是将数据从计算科学中单独区别开来了。

三、数据科学范式对统计分析过程的直接影响

以前所谓的大规模数据都是封闭于一个机构内的(数据孤岛),而大数据注重的是数据集间的关联关系,也可以说大数据让孤立的数据形成了新的联系,是一种整体的、系统的观念。从这个层面来说,将大数据称为“大融合数据”或许更为恰当。事实上,孤立的大数据,其价值十分有限,大数据的革新恰在于它与传统数据的结合、线上和线下数据的结合,当放到更大的环境中所产生的“1+1>2”的价值。譬如消费行为记录与企业生产数据结合,移动通讯基站定位数据用于优化城市交通设计,微博和社交网络数据用于购物推荐,搜索数据用于流感预测、利用社交媒体数据监测食品价等等。特别是数据集之间建立的均衡关系,一方面无形中增强了对数据质量的监督和约束;另一方面,为过去难以统计的指标和变量提供了另辟蹊径的思路。从统计学的角度来看,数据科学(大数据)对统计分析过程的各个环节(数据收集、整理、分析、评价、等)都提出了挑战,其中,集中表现在数据收集和数据分析这两个方面。

(一)数据收集方面

在统计学被作为一个独立的学科分离出来之前(1900年前),统计学家们就已经开始处理大规模数据了,但是这个时期主要是全国范围的普查登记造册,至多是一些简单的汇总和比较。之后(1920-1960年)的焦点逐渐缩聚在小规模数据(样本),大部分经典的统计方法(统计推断)以及现代意义上的统计调查(抽样调查)正是在这个时期产生。随后的45年里,统计方法因广泛的应用而得到快速发展。变革再次来自于统计分析的初始环节———数据收集方式的转变:传统的统计调查方法通常是经过设计的、系统收集的,而大数据是零散实录的、有机的,这些数据通常是用户使用电子数码产品的副产品或用户自行产生的内容,比如社交媒体数据、搜索记录、网络日志等数据流等,而且数据随时都在增加(数据集是动态的)。与以往大规模数据不同的是,数据来源和类型更加丰富,数据库间的关联性也得到了前所未有的重视(大数据的组织形式是数据网络),问题也变得更加复杂。随着移动电话和网络的逐渐渗透,固定电话不再是识别住户的有效工具变量,相应的无回答率也在增加(移动电话的拒访率一般高于固定电话),同时统计调查的成本在增加,人口的流动性在增加,隐私意识以及法律对隐私的保护日益趋紧,涉及个人信息的数据从常规调查中越来越难以取得(从各国的经验来看,拒访率或无回答率的趋势是增加的),对时效性的要求也越来越高。因此,官方统计的数据来源已经无法局限于传统的统计调查,迫切需要整合部门行政记录数据、商业记录数据、个人行为记录数据等多渠道数据源,与部门和搜索引擎服务商展开更广泛的合作。

(二)数据分析方面

现代统计分析方法的核心是抽样推断(参数估计和假设检验),然而数据收集方式的改变直接淡化了样本的意义。比如基于浏览和偏好数据构建的推荐算法,诚然改进算法可以改善推荐效果,但是增加数据同样可以达到相同的目的,甚至效果更好。即所谓的“大量的数据胜于好的算法”这与统计学的关键定律(大数定律和中心极限定理)是一致的。同样,在大数据分析中,可以用数量来产生质量,而不再需要用样本来推断总体。事实上,在某些场合(比如社会网络数据),抽样本身是困难的。数据导向的、基于算法的数据分析方法成为计算机时代统计学发展无法回避的一个重要趋势。算法模型不仅对数据分布结构有更少的限制性假定,而且在计算效率上有很大的优势。特别是一些积极的开源软件的支撑,以及天生与计算机的相容性,使算法模型越来越受到学界的广泛重视。大数据分析首先涉及到存储、传输等大数据管理方面的问题。仅从数量上来看,信息爆炸、数据过剩、数据泛滥、数据坟墓、丰富的数据贫乏的知识……这些词组表达的主要是我们匮乏的、捉襟见肘的存储能力,同时,存储数据中有利用价值的部分却少之又少或尘封窖藏难以被发现。这除了对开采工具的渴求,当时的情绪主要还是迁怨于盲目的记录,把过多精力放在捕捉和存储外在信息。在这种情况下,开采有用的知识等价于抛弃无用的数据。然而,大数据时代的思路改变了,开始变本加厉巨细靡遗地记录一切可以记录的数据。因为:数据再怎么抛弃还是会越来越多。我们不能通过删减数据来适应自己的无能,为自己不愿做出改变找借口,而是应该面对现实,提高处理海量数据的能力。退一步,该删除哪些数据呢?当前无用的数据将来也无用吗?显然删除数据的成本要大于存储的成本。大数据存储目前广泛应用的是GFS、HDFS等基于计算机群组的文件系统,它可以通过简单增加计算机来无限地扩充存储能力。值得注意的是,分布式文件系统存储的数据仅仅是整个架构中最基础的描述,是为其他部件服务的(比如MapReduce),并不能直接用于统计分析。而NoSQL这类分布式存储系统可以实现高级查询语言,事实上,有些RDBMS开始借鉴MapReduce的一些思路,而基于MapReduce的高级查询语言也使MapReduce更接近传统的数据库编程,二者的差异将变得越来越模糊。大数据分析的可行性问题指的是,数据量可能大到已经超过了目前的存储能力,或者尽管没有大到无法存储,但是如果算法对内存和处理器要求很高,那么数据相对也就“大”了。换句话说,可行性问题主要是,数据量太大了,或者算法的复杂度太高。大数据分析的有效性问题指的是,尽管目前的硬件条件允许,但是耗时太久,无法在可容忍的或者说可以接受的时间范围内完成。目前对有效性的解决办法是采用并行处理。注意到,高性能计算和网格计算也是并行处理,但是对于大数据而言,由于很多节点需要访问大量数据,因此很多计算节点会因为网络带宽的限制而不得不空闲等待。而MapReduce会尽量在计算节点上存储数据,以实现数据的本地快速访问。因此,数据本地化是MapReduce的核心特征。

四、结论

(一)数据科学不能简单地理解为统计学的重命名,二者所指“数据”并非同一概念,前者更为宽泛,不仅包括结构型数据,而且还包括文本、图像、视频、音频、网络日志等非结构型和半结构型数据;同时,数量级也是后者难以企及的(PB以上)。但是数据科学的理论基础是统计学,数据科学可以看作是统计学在研究范围(对象)和分析方法上不断扩展的结果,特别是数据导向的、基于算法的数据分析方法越来越受到学界的广泛重视。

(二)从某种程度上来讲,大数据考验的并不是统计学的方法论,而是计算机科学技术和算法的适应性。譬如大数据的存储、管理以及分析架构,这些都是技术上的应对,核心的数据分析逻辑并没有实质性的改变。因此,大数据分析的关键是计算机技术如何更新升级以适应这种变革,以便可以像从前一样满足统计分析的需要。

(三)大数据问题很大程度上来自于商业领域,受商业利益驱动,因此数据科学还被普遍定义为,将数据转化为有价值的商业信息的完整过程。这种强调应用维度的观点无可厚非,因为此处是数据产生的土壤,符合数据科学数据导向的理念。不过,早在20世纪90年代中期,已故图灵奖得主格雷就已经意识到,数据库技术的下一个“大数据”挑战将会来自科学领域而非商业领域(科学研究领域成为产生大数据的重要土壤)。他提出科学研究的“第四范式”是数据,不同于实验、理论、和计算这三种范式,在该范式下,需要“将计算用于数据,而非将数据用于计算”。这种观点实际上将数据从计算科学中单独区别开了。

(四)数据科学范式对统计分析过程的各个环节都提出了挑战,集中表现在数据收集和数据分析这两个方面。数据收集不再是刻意的、经过设计的,而更多的是用户使用电子数码产品的副产品或用户自行产生的内容,这种改变的直接影响是淡化了样本的意义,同时增进了数据的客观性。事实上,在某些场合(比如社会网络数据),抽样本身是困难的。数据的存储和分析也不再一味地依赖于高性能计算机,而是转向由中低端设备构成的大规模群组并行处理,采用横向扩展的方式。

篇10

关键词:统计测度;统计学;大数据;数据科学;

作者简介:李金昌,男,50岁,浙江义乌人。浙江财经大学校长,统计学教授,博士生导师。研究方向为经济统计学,统计理论与方法,抽样技术,政府统计等。

最近两年,统计学界对大数据问题所进行的理论探讨逐渐增多,视角也各有千秋,引起了一些共鸣。围绕大数据问题,由统计学、计算机科学、人工智能、数学等学科共同支撑的数据科学开始形成。但大数据毕竟是一个新课题,因此远未达到对其有一个系统完整的认识,仍然需要从不同的方面加以研究,其中有一个重要但又容易被忽视的问题,即统计测度问题,值得去探讨。

一、什么是统计测度

汉语上,测度是指猜测、揣度、估计。数学上,测度是一个函数,它对一个给定集合的某些子集指定一个数,这个数可以比作大小、体积、概率等等。通俗地说,测度把每个集合映射到非负实数来规定这个集合的大小:空集的测度是0;集合变大时测度至少不会减小(因为要加上变大的部分的测度,而它是非负的)。

除了数学角度的测度论,查阅国内文献资料,带有测度这个词汇的文献不少,但专门针对统计测度(或测度)内涵的讨论几乎没有。一些对社会经济现象进行分析测度的文献,例如新型工业化进程测度、货币流动性测度、全面小康社会发展进程测度、收入分配公平性测度、技术效率测度、人力资本测度、金融风险测度、产业关联测度等等,所做的测度都是再测度,均不对测度本身进行讨论。查阅国外文献资料(关键词:measurement),也同样存在这样的问题,只能收集到一些比较零散的表述。LudwikFinkelstein(1975)[1]认为,在我们对事物或现象进行描述时,测度可以被定义为对现实世界中某一现象的个体属性或特征进行量化的过程。JamesT.Townsend和F.GregoryAshby(1984)[2]认为,如果按照极端的观点,那么统计分析中的基本测度理论的含义仍然是存在争议的。LudwikFinkelstein(2003)[3]指出,测度在那些原来尚未得到卓有成效或广泛应用的领域,也已取得了明显的进步,社会、政治、经济和行为科学正在更大程度地利用定量技术;测度是现代思维的一种实际有效的工具,是我们借以描述世界的一种方法。GiovanniBattistaRossi(2007)[4]认为,用以表示测度结果的,是数字或者数字符号。LucaMari(2013)[5]认为,测度的基础特征是被公认为世界上获取并正式表达信息的基本方法,这让它成为一种跨学科的工具。LudwikFinkelstein(2014)[6]指出,在自然科学技术中,测度的重要性不可否认,它是科学调查和发现必不可少的工具,它可将宇宙中的复杂现象用精确、简洁和普遍的数学语言来描述。

那么,到底什么是统计测度呢?目前没有一个统一的定义。本文认为,统计测度具有不同于测度的意义,并且大大超越数学上的界定,即它具有数学定义的一般属性,但又不受制于函数表现形式,因为统计测度所要面对的是现实世界,实际问题要比理论上可以定义的问题复杂得多。按照我们的理解,统计测度就是用一定的符号和数字,用一定的形式和载体,对所研究的现象或事物的特征进行量化反映,表现为可用于统计分析的数据的过程。它应该具有这样一些属性:以实际现象为测度对象,测度结果具有实际意义;以量化为目的,把信息转化为数量,提供人们容易理解的定量结论;个体特征的测度符合形成总体定量结论的要求,同时能够体现个体差异。可以发现,统计测度需要借用数学工具,但更重要的是对具体测度现象本质特征的认识和掌握。

统计测度可以从若干不同角度进行分类。邱东教授(2012)[7]曾在“宏观测度的边界悖律及其意义”一文中,从边界的角度对宏观测度进行了分类:一是因事物本身可测度性而形成的边界,即本体论意义上的测度边界;再一是由人的认知能力而形成的边界,即认识论意义上的测度边界;第三则是由统计相关性偏好和投入约束而形成的边界,即操作意义上的测度边界。这三条测度边界,应该以本体论意义的测度边界最大,认识论意义的测度边界次之,而操作意义的测度边界最小。这样的分类,对于我们正确理解统计测度的内涵很有帮助。受此启发,笔者认为统计测度还可以有如下分类:

1.从测度的实现形式看,可以分为原始测度和再测度。原始测度也可以称为直接测度,它通过对测度对象进行直接测度来获取数据,例如清点库存物品数量、丈量作物播种面积、观察培育细菌数目、检测药物成分等获得的数据,以及各种登记、记录的原始数据等等。再测度也称为间接测度,它以其他已知的测度数据为基础去计算、推算或预测所需的未知数据,例如根据GDP和人口数测度人均GDP、根据人口普查分年龄人口数据测度老龄化系数和社会负担系数、根据相关指标数据测度CPI的变化等等。复杂的再测度则需要借助相应的统计模型作为工具,因为它实际上是对相关变量之间的关系进行定量反映。从两者关系上看,原始测度是基础,是根本,没有科学的原始测度就不会有可靠的再测度;再测度则是测度功能提升的必然要求,以解决原始测度不能解决的问题。

2.从测度的计量方式看,可以分为自然测度、物理测度、化学测度、时间测度和价值测度。自然测度是利用现象的自然属性所进行的一种统计测度,例如人口规模、企业数量等的测度,采用自然计量单位;物理测度是利用现象的物理属性所进行的一种统计测度,例如公路长度、作物播种面积、天然气产量等的测度,采用物理计量单位;化学测度是利用现象的化学属性所进行的一种统计测度,例如医学、生物学中化学合成物的成分结构测度,采用百分数、千分数或特定标识为计量单位;时间测度是利用现象的时间属性所进行的一种统计测度,例如劳动用工、闲暇时间等测度,采用时间计量单位;价值测度是利用现象的价值属性所进行的一种统计测度,例如劳动报酬、经济活动成果等测度,采用货币计量单位。在这些测度计量方式中,价值测度因最具有综合功能而应用最为广泛。

3.从测度的方法看,可以分为计数测度、测量测度、实验测度、定义测度和模型测度。计数测度是一种通过观测计数来获得数据的方法,最为简单,一般用于自然测度或时间测度;测量测度是一种根据物理或化学规制对现象进行测量、测算来获得数据的方法,一般用于物理测度或化学测度;实验测度是一种按照科学实验原理、通过观察实验对象在既定条件下的反应来获得数据的方法,一般与测量测度相结合,用于获取科学研究数据;定义测度也可以称之为指标测度,是一种通过探究现象的本质特征和活动规律、归纳出表现其数量特征的范畴、给出统计指标定义(包括内容、口径、计算方法和表现形式等)来获取数据的方法,最常用于价值测度,也用于其他形式的测度。可以说,定义测度方法应用最为广泛,但也最为困难。模型测度是一种根据现象与现象之间的内在联系关系、或者现象自身的发展变化规律,通过建立一定的方程模型来获取数据的方法。前面三种统计测度方法基本上都属于直接测度,定义测度既可能是直接测度、也可能是间接测度,而模型测度都属于间接测度方法。

4.从测度的维度看,可以分为单一测度与多维测度。单一测度是指采用单一的方式方法对所研究现象或事物进行单一角度的测度,获得单一的数据。多维测度是指对所研究现象或事物进行多角度的测度,测度过程中可能需要采用多种测度方法和计量方式,例如多指标综合评价就需要借助统计指标体系对评价对象进行多角度的测度。显然,单一测度是多维测度的基础。

二、统计测度是统计学的立足之本

首先,从统计学的发展历史看,是统计测度使统计学破茧而出。为什么主流观点认为政治算术是统计学的起源而不是国势学?正是因为威廉·配第首次采用统计测度的方式进行了国家实力的统计分析和有关推算,得出了令人信服的结论。威廉·配第在1693年出版的《政治算术》[8]中写道“因为和只使用比较级或最高级的词汇以及单纯作思维的论证相反,我却采用了这样的方法(作为我很久以来就想建立的政治算术的一个范例),即用数字、重量和尺度的词汇来表达我自己想说的问题,只进行能诉诸人们的感官的论证和考察在性质上有可见的根据的原因”,这一观点在统计学的发展过程中产生了非常重要的影响。他的这段话虽然没有出现测度一词,但却道出了测度的本质,即让事物变得明白、变得有根据,因为“数字、重量和尺度”就是测度、就是根据,用“数字、重量和尺度的词汇来表达想说的问题”就是一种测度的思想,尽管测度的方式方法还很简单。相反,国势学虽然提出了归纳法这一统计学的基本方法并首创了统计学一词,但由于没有采用统计测度的方式进行国势问题的研究而难以修成正果。正如邱东教授[7]所说:“在配第之前,统计学的研究对象虽然是国家的态势,但它在方法论上只是定性言说。一个国家的财富总量在本体论意义上是可以测度的。然而只是到了配第时期,人类才想到了要测度它,并发明了如何测度的基本方法。政治算术,即开创期的经济统计学,实现了从无到有的转变,大大扩展了宏观测度的认识论边界,因而才具有了统计学范式创新的革命性意义。”同样,格朗特的《关于死亡表的自然观察和政治观察》也是人口统计测度方面的经典之作,无论是原始测度还是再测度,都给后人留下了宝贵的财富。之后,统计学就是沿着如何更加科学、准确测度世界这一主线而发展的。笔者曾在“从政治算术到大数据分析”一文[9],对数据的变化与统计分析方法的发展进行了粗浅的归纳,其主题实际上就是统计测度问题。

其次,从统计学的研究对象上看,统计测度是体现统计学数量性特征的前提条件。统计学的研究对象是现象的数量方面,或者说统计学是关于如何收集和分析数据的科学。统计数据从何而来?从统计测度中来。数据不同于数字,数字是统计测度的符号,数据是统计测度的结果,这也正是统计学区别于数学之处。所以说,数据的本质问题就是统计测度问题,故此统计测度是统计学的基本问题。这里重点讨论两个问题:一是统计测度与统计指标的关系,二是统计测度面临的新问题。关于第一个问题,本文认为统计测度与统计指标是一个事物的两个方面,这个事物就是数据。统计指标法是统计学的基本方法之一,尽管前面对统计测度从方式方法上进行了分类,但从广义上说所有统计测度都是定义测度,都表现为指标。也就是说,任何统计测度———不论是直接测度还是间接测度,最终目的是获得能够让人明白的数据,而表现数据的最主要形式就是统计指标,其他表现数据的形式都是派生出来的。所以,统计测度就是根据所设定的统计指标去获得所需的数据。关于第二个问题,与后文所要论及的大数据有关,就是定性测度问题。在统计学中,数据可以分为两类———定性数据与定量数据,其中定性数据又包括定类数据与定序数据两种,它们属于非结构化或半结构化数据。相应地,统计测度也可分为定性测度与定量测度。很显然,只有定性测度与定量测度方法得到同步发展,统计学才能更加完善。总体上看,定量数据的统计测度已经比较完善,但定性数据的统计测度还有很多问题尚待解决,难点就在于测度的切入点———如何提取有效的信息、如何最终转化为统计指标。尽管关于定性数据分析的论著已经不少,但还没有从理论方法上建立起定性数据统计测度的体系,因此统计学在这方面的任务依然很重。

第三,从统计学的永恒主题看,通过科学的数据分析、得出有效的结论是其不变的追求,而数据分析过程就是综合的统计测度过程。获得数据的目的是为了发现隐含其中的有价值的信息,即发现数据背后的数据,让数据再生数据,从而满足人们认识事物、掌握规律、科学决策的需要。除了总量、结构等基本信息外,更重要的是通过数据分析来呈现现象的变化规律与相互关系。不难发现,这种数据分析的过程,就是不断进行各种统计测度的过程,所以最终的统计分析结果实际上就是各环节、各方面的各种类型的统计测度的叠加结果,或者说是统计测度不断放大的过程。大量针对社会经济现象进行分析研究的文献(不论是否冠以“测度”两字),只要有数据分析,都是如此。可以说,统计测度贯穿于统计数据分析的全过程。但是,为什么很多统计数据分析并没有得出有效的结论呢?本文认为原因就出在统计测度上,尤其是没有首先解决好原始统计测度问题。应该说,围绕数据分析已经建立起一整套比较完整的统计方法体系,很多方法也都身经百战、行之有效,但一旦原始统计测度有问题、数据不准确或不真实,那么任何方法都只是摆设。仔细研读很多所谓的实证分析文献,其重点均在于构建什么样的模型或运用什么样的方法,虽然有的文献也必须要讨论选择什么样的变量(指标)这个问题,但并不是系统地从测度的角度进行阐述,因此所用的模型越来越复杂,但所得的结论却离实际情况越来越远。学界总是有这样一种观念:变量越多、符号越新奇、模型越复杂的文章才越有水平,似乎这样分析所得的结论才越可靠。殊不知,不以科学可靠的原始统计测度为基础,任何数据分析都会成为无源之水、无本之木,所得的结论也只是更精确的错误而已。本文认为,任何脱离科学统计测度的统计分析都是毫无意义的,充其量是一种数字游戏而已。应该树立这样一种观念:科学的统计数据分析首先取决于科学的统计测度,而不是首先取决于什么样的分析模型,虽然模型也很重要。这也再一次证明,统计测度问题是统计学的根本问题。其实,归根结底看,在统计数据分析过程中,每一步分析都以前一步的测度为原始测度,每一步所用的方法都是统计测度方法,因此所有的统计分析方法都是统计测度方法。甚至可以说,统计学方法体系就是统计测度方法体系。

当然,在实际的统计分析中,统计测度往往遇到一些困难,即有些指标数据由于各种原因无法获得,这就不得不采用替代这种途径。例如,绿色GDP核算的概念已经提出很多年,但为什么还没有哪个国家真正公布绿色GDP数据,原因就是自然资源价值、生态环境价值等的统计测度目前还面临着很大的困难,其背后存在着一系列有待进一步研究和解决的理论与实践问题,因此不少学者进行了替代测度的探讨。这一方面说明统计测度的重要性,另一方面说明统计测度替代的无奈性。但是,替代测度必须遵守相应的规则与逻辑,要经得起推敲。有的文献明明知道有关变量无法测度、有关数据无法获得,却随意地、不符合逻辑地进行所谓的替代,结果是最后的结论不知替代成什么样了,很难理解它的意义。关于替代测度的有效性问题,邱东教授[7]已有精辟的论述,在此不再展开讨论。

三、统计测度是数据科学的基础

笼统地讲,数据科学就是以大数据为研究对象的科学,需要多学科交叉融合、共同支撑。由于大数据是快速增长的复杂数据,因此大数据分析仅有统计思维与统计分析方法是不够的,还需要强大的数据处理能力与计算能力。只有把统计思维、统计方法与计算技术结合起来,才有可能真正挖掘出大数据中的有价值信息。本文认为统计思维、统计方法与计算技术相结合的基础就是科学的统计测度。

首先,大数据技术不能自行解决其计算和分析应从何处着手的问题。现代信息技术与互联网、物联网技术的快速发展,使人类进入大数据时代,也有人说进入到数联网时代,这意味着我们一方面被各种越来越多、越来越复杂的数据所包围,另一方面又被数据中巨大的信息价值所吸引,想从中挖掘出可供决策之用的信息。如何挖掘大数据?人们已经进行了艰苦的探索,发展了很多专门的方法技术,并已尝到了不少甜头,但远未达到充分利用大数据中有效信息的目的,因为已有的大数据分析研究主要集中于计算机科学与技术、软件工程、计算数学等领域,重点是计算能力与算法研究,而很少从统计学的角度进行有针对的探讨,还没有真正进入数据分析的深层。这里面实际上忽略了最基础的统计测度问题。如果说,计算技术的发展能够解决数据储存与计算的能力问题,算法模型的改进能够解决大数据分析的综合能力问题,那么它们仍然不能解决对谁进行计算与分析的问题,也即从何处着手的问题。无论是传统的结构型数据,还是现在的包含大量非结构型数据的大数据,要对它们进行分析都必须找到正确的切入口,即分析的基本元素是什么,或者说需要测度什么。当然,还有如何测度的问题。然后,才能进行分组、综合和构建模型,否则大数据分析不会达到人们的预期。

其次,大数据之所以催生数据科学,就是为了通过多学科交叉融合来共同解决大数据分析中存在的问题,其中包括统计测度问题,这一点对于非结构化数据尤为突出。实际上,大数据的本质就是非结构化数据,一是体量大、比重高(超过95%),二是变化快、形式多,三是内容杂、不确定。通过各种社交网络、自媒体、富媒体,以及人机对话和机器感应记录等产生的各种非结构化数据,例如各种文字、各种表情符号、各种声音、各种图像,到底表示什么?综合在一起能体现什么规律?如何综合各种信息?存在着大量有待研究的问题。其实,文字的长短、用词、表达形式(叙述式、议论式、散文式、诗歌式,等)甚至字体大小与颜色,表情类型与偏好,声音高低、频率与情绪,图像颜色等等,都是有特定意义的,即在特定环境条件下的反应。所以,一句话或一段声音的意义并非文字本身的意思,一个表情符号的意义并非符号表征的意思,一个图像的意义并非图像内容与色彩本身的意思,因为背后有太多的未知。人们浏览检索各种信息的习惯、收看与回复邮件等信息的习惯、参与信息网络的习惯、购物习惯与支付习惯等等,也是如此。更何况,同样的网络词汇在不同的时间代表着不同的语义。这背后隐藏着的是人们的行为与社会关系,既具有个性又具有共性,极其复杂。所以对这样的数据进行分析,首先绝非是计算问题,也不是用什么模型问题,而首先是从何处着手、如何选取关键词、如何选定关联词、可以用什么样的指标来综合、可以用什么样的表式来表现等问题,一句话就是统计测度问题。非结构化数据的统计测度将主要是定义测度,这些问题不解决,分析模型也是难以构建的,或者难以得出令人信服的结论。

例如,关于《红楼梦》前80回与后40回是否同一作者的争论,韦博成[10]进行了综合性的比较研究并提出了自己的观点,他指出已有美国威斯康辛大学华裔学者陈炳藻教授(1980)[11]、我国华东师范大学陈大康教授(1987年)[12]和复旦大学李贤平教授(1987年)[13]等学者从统计学的角度进行过专门的研究,但却得出了不同的结论:陈炳藻教授认为前80回与后40回均是曹雪芹所著;陈大康教授认为前80回与后40回为不同人所著;李贤平教授认为前80回是曹雪芹根据《石头记》增删而成,后40回是曹雪芹亲友搜集整理原稿加工补写而成。此外,还有其他一些学者进行过类似的研究,也有一些不同的结论。为什么都通过提取关联词和统计的方法却得出不同的结论?原因就在于用以分析的关联词不同,即统计测度的切入点不同,当然也有统计方法上的差异,但前者是根本。至少存在几个统计测度上的问题:提取单一维度的关联词还是多维度的关联词?提取什么类型的关联词(例如:关联词是名词、形容词还是动词;是花卉、树木、饮食、医药还是诗词)?这些关联词可以综合为什么样的指标?等等。由此可见,原始统计测度代表着数据分析的方向。

相比《红楼梦》,大数据分析要复杂得多、困难得多。所以,数据科学除了需要数学、统计学、计算机科学与技术、人工智能等学科的交叉融合外,还需要与行为科学、语言学、社会学、经济学等学科相结合,以便能很好地解决作为数据分析之前提的统计测度问题。

第三,数据科学将进一步拓展统计测度的边界,并提出更高的要求。伴随着人类认识世界的范围的不断拓展,统计测度的范围也不断扩大,从自然现象统计测度到人口现象、经济现象统计测度,再到社会现象、环境现象、政治现象等统计测度,几乎已经渗透到了所有可以想象到的领域。相应地,统计数据分析也从少量数据的分析进入到了大数据分析。大数据的复杂性、不确定性和涌现性(王元卓等,2013)[14],意味着统计测度的内容大大增加,原来一些不能测度的数据被纳入到了统计测度的范围,按照邱东教授的说法就是统计测度的边界大大扩展了。统计测度边界的扩大,必须以统计测度能力的提升为前提,即要求统计学借助现代信息技术进一步提升处理和分析数据的能力———对大数据“化繁为简”、“变厚为薄”的能力,这就必须以科学准确的大数据统计测度为前提,既改变统计思维,又创新统计分析方法,其中就包括统计测度思维、统计测度方法与统计测度标准。面对大量繁杂的数据,如果没有更好的统计测度思路与方法,包括个体标志定义方法、最小数据细胞分组与聚类方法、关联词含义的时间影响计量方法、定性测度指标筛选方法、再测度路径与方法、大数据统计测度评价标准等,那么统计学在数据科学发展过程中就难以发挥应有的作用,数据科学也将裹足不前。这就是统计学迈向数据科学的重要挑战之一。

综上所述,统计测度的基础性问题从统计学延伸到了数据科学,是两者的共同基础,并且对于数据科学而言显得更为重要。大数据的复杂性、不确定性和涌现性导致了统计测度的难度猛增,亟需建立面向大数据分析的统计测度理论与方法。要通过研究大数据的复杂性、不确定性和涌现性特征的基本因素,以及这些因素之间的内在联系、外在指标和测度方法,进而研究基于先进计算技术的大数据度量模型,构建寻找面向计算的数据内核或者数据边界的基本方法。总之,建立有效易行的数据表示方法,即科学的统计测度方法,是数据科学必须解决的基础问题之一。

四、创新与完善大数据统计测度方法

如前所述,统计学研究对象已经从结构化数据延伸到了包括非结构化数据在内的一切数据,统计测度边界得到了大大的扩展。按照邱东教授[7]曾经引用过的海德格尔的话:“界限并不表示某一事物的发展到此为止,而是像希腊人所认知的那样,界限是某种事物开始展现的地方”,预示着统计学在数据科学发展阶段的新起点已经展现在我们面前。新的统计测度边界催生统计测度方法的创新,统计测度方法的创新促进统计测度边界的拓展,两者相辅相成,共同推动统计学与数据科学的发展。为此,我们要系统梳理统计测度方法的发展历程,面对大数据提出的新挑战,大胆探索统计测度的新思路、新理论和新方法,为数据科学奠定坚实的统计学基础。为此提出如下几点建议:

首先,要紧密结合现象的本质去探求更科学的统计测度方法。本质决定一切,既然统计测度的目的是获得客观反映现象本质的数据,那么深入到现象本质、认识和掌握现象的本质,是科学统计测度的关键,也是探求新的统计方法的出发点。换句话说,科学的统计测度方法能够体现出数据的真正意义。例如,要探求社交网络数据的统计分析和测度方法,就必须了解社交网络的产生背景、构成要素、表现形式与基本特征,既要研究它的共性问题,又要研究它的个性问题与差异性,同时还要研究它的变化趋势。只有这样,才能掌握社交网络数据的构成要件或元素,才能建立起科学的、能有效体现社交网络数据意义的统计测度方法。再如,要分析研究电子商务数据,也必须先弄清楚什么是电子商务,尤其是弄清楚它与传统的商业模式有什么不同(包括物流、资金流与信息流)、有哪些新生事物(包括时空特征、法律监管)等等,否则统计测度无从下手或者抓不住要害。同时,作为一个新的研究领域,数据科学的理论基础将与计算机科学、统计学、人工智能、数学、社会科学等有关,离不开对相关学科领域知识与研究方法的借鉴,因此对相关领域的知识与研究方法的学习十分重要。否则,就会严重扭曲统计测度方法,胡乱设置测度标志,这需要引起高度关注。

其次,要紧密结合大数据的特点去创新统计测度方法。大数据的特点是复杂性、不确定性和涌现性并存,构成了多维的数据空间,里面蕴藏着丰富的信息资源,这是传统的统计数据不可比拟的。那么该从何处进入这样的数据空间?怎么进去?又怎么出来?这归根结底还是统计测度方法问题。因此,在开展大数据分析之前,首先要研究大数据的基础性问题,包括大数据的内在机理(包括大数据的演化与传播机制、生命周期),数据科学与社会学、经济学、行为科学等之间的互动机制,以及大数据的结构与效能的规律性等等,为创新统计测度方法提供导向。本文认为,再复杂的数据也有共性,再不确定的数据也有规律,再涌现的数据也有轨迹。网络大数据背后的网络平均路径长度、度分布、聚集系数、核数、介数等具有共性的特征与参数,是开展复杂网络数据分析的基础(李国杰、程学旗,2012)[15];大数据在时空维度上的分布形式、内在结构、动态变化和相关联的规律,是找到大数据分析切入口、进而简化大数据表征的前提;大数据的涌现性轨迹(包括模式涌现性、行为涌现性和智慧涌现性),是研究更多的社会网络模型和理解网络瓦解失效原因,理解人们网络行为涌现特征(例如人们发邮件数量的时间分布特征),以及探求大量自发个体语义融合连接形成有特定意义的通用语义之过程的路径(靳小龙等,2013)[16]。也就是说,这些共性、规律和轨迹就是统计测度的主要依据,也是重点内容。发展和创新能够准确发现大数据的共性、规律和轨迹的定量方法,其实就是发展和创新大数据统计测度方法。

第三,要紧密结合现代信息技术以完善统计测度方法。复杂、多变和不断涌现的大数据,不仅需要借助现代信息技术(包括硬件与软件)来解决极其复杂的分析计算问题,也需要利用现代信息技术来解决其繁杂多样的统计测度问题。对于大数据,不论是原始统计测度还是再测度,其复杂性或难度都不是传统的结构化数据所能相提并论的,哪怕是基本的关联词计数、分类与汇总,其工作量之大也超乎想象,不借用现代信息技术几乎是不可能完成的。而事实上,有些统计测度的内容与方法本身也是以数据处理能力的提升为前提的。可以说,脱离现代信息技术,人们难以承受大数据的统计测度与分析任务;要把统计测度思想变为可实现的统计测度方法,必须借助现代信息技术。为此,要充分利用各种信息技术和手段,把统计测度与数据清洗相结合、与数据分析模型相结合、与计算方法相结合,努力建立融自动搜索统计测度、动态演化统计测度和自主优选统计测度为一体的大数据统计测度方法体系。

篇11

关键词:大数据;经济统计;专业建设

当前,大数据已经渗透到社会、经济、政治以及文化等众多领域。大数据在给各行各业带来了新的历史发展机遇的同时,也将给各行各业带来新的挑战。显然,对高等教育来讲也同样如此。相应的,对直接服务于经济统计人才培养的经济统计学专业建设来讲,迫切需要回答的问题是,在新形势下,专业建设遇到新的挑战又将是怎样的呢?进一步的,为了积极应对新的挑战又需要对旧的培养模式进行怎样的修正和改进呢?从现有的文献资料看,虽然学术界已经积累了大量与(经济)统计学专业建设相关的研究成果(如庞皓,1991;曾五一,1999;曾五一和尚卫平,1999;曾五一等,2010;朱宇兵,2009等),但基于大数据背景对这些问题较为深入的研究还比较缺乏,本研究则可以视为是对此进行弥补的一个努力尝试。

1经济统计学专业建设的发展现状

从某种意义上讲,经济统计学是一个新的专业。2012年10月,教育部颁布了《普通高等学校本科专业目录(2012年)》。在新专业目录中,除保留统计学为理学类一级学科(包括统计学和应用统计学两个二级学科)之外,在经济学类的经济学一级学科下增设经济统计学。正是在这样的背景下,目前我国高校经济统计学专业的开设一般有两种情况,一种是新专业目录颁布后新设立的,如中央财经大学、对外经济贸易大学、西南政法大学以及中南民族大学等;一种则是由原来的统计学专业更名而来的,如中南财经政法大学、天津财经大学、江西财经大学、南京财经大学以及中央民族大学等。从发展历史过程看,经济统计学并非是一个全新的专业,而是由以前的统计学专业发展而来。在1998年9月国家教育部颁布的《普通高等学校本科专业目录和专业介绍》中,统计学被列为理学类一级学科,但可选择授予经济学或理学学位。在这种背景下,根据具体的办学条件和偏好,各高校采用了不同的教育模式,一类是强调各类统计学所具有的共性。它肯定统计学的“理学性质”,按照理学类学科的特点设置课程。另一类则是强调各类统计学的个性,如财经类院校统计学专业(曾五一等,2010)。前者的数量较少,它是将统计学作为应用数学的一个分支来看待,所开设课程主要是数学和各种数理统计方法。后者数量占有绝大的比重,其专业方向包括国民经济统计、经济统计、管理统计、金融证券统计等(李宝瑜,2004)。从我国统计学学科建设的发展过程看,其特征主要表现为两个转变,即从起初的侧重理论培养向当前的强调实际应用转变以及从起初的主要服务政府部门向当前的主要服务社会企业组织转变。由于新专业目录颁布时间还很短,经济统计学专业还没有建立起新的培养模式,主要还是其前身———(经济学方向的)统计学——培养模式的一种延续。从我们掌握的资料看,目前各高校经济统计学专业的培养方案还主要是参照1998年《普通高等学校本科专业介绍》制定的,其培养目标是所谓的“复合型人才”,即具有坚实的经济理论基础,既懂数理统计方法、又懂经济统计方法,并能熟练掌握现代计算手段的经济统计人才(曾五一等,2010)。这种人才既是统计人才又是经济管理人才,不仅能胜任基层企业和政府部门的日常统计业务,而且能从事市场调查、经济预测、信息分析和其他经济管理工作。相应的,在具体的课程体系构建和安排上,各高校大都贯彻了“大统计”的学科观点,遵循“厚基础、宽口径、重应用”的复合型人才培养原则(向书坚和平卫英,2010),即在强调较为完整系统地介绍统计学主要理论和分析方法的同时,还强调其与经济学其他学科的密切联系,按照经济类学科的特点设置课程。也就是说,经济统计学专业的课程设置具有显著的二元性特征。从各高校的具体设置看,统计学方面的课程一般有数学基础课、概率论、数理统计、运筹学、随机过程、回归分析、时间序列分析、多元统计分析、抽样调查、非参数统计、统计预测与决策等;而经济学方面的课程一般则有微观经济学、宏观经济学、会计学、国际经济学以及与专业方向(如国民经济统计、财务会计统计、金融证券统计等)有关的课程。此外,和其他专业一样,经济统计学也重视学生应用和创新能力的培养,特别强调本专业的毕业生应该具有熟练地采集数据和应用计算机分析、处理数据的能力。因此,Excel、SAS、SPSS等常用软件的学习和训练也通常以实验课的形式被纳入到课程体系中。但是,要注意的是,我国各高校在制定或修订经济统计学培养方案时,有意或无意地忽视了当前随互联网技术日新月异带来的大数据海量涌现。而由于大数据和传统数据存在显著的差异,各高校现有的经济统计培养模式可能需要做出重大调整。

2大数据带来的挑战

大数据之所以在众多领域里引起关注,其根本的原因在于大数据蕴含着巨大的潜在价值。相对于传统的标准化数据,大数据不仅体量庞大、产生速率极快,而且也更为全面(甚至是整体数据)。因此,大数据的分析结果也更接近真实。换句话说,大数据分析往往意味着人们能够从这些全面的数据中获取新的洞察力,从而更有可能创造出新的价值,进而带来更大的发展。大数据蕴含的巨大潜在价值,势必将打破现有的数据边界,使大数据逐渐成为经济统计分析的主要对象。由于大数据与传统的标准数据存在显著的差异,对未来的经济统计工作而言,大数据势必将带来新的问题或挑战。简要地说,大数据带来新的问题或挑战主要来自于两个方面,即:

(1)数据来源问题。与传统数据主要来源于抽样调查或组织内部不同,大数据是互联网高速发展的产物。随着科技环境的巨变———个人电脑的全球普及,移动智能终端的盛行,物联网和社交网络的爆炸式发展,以及数以千万计的联网传感器节点在交通、汽车、工业、公用事业和零售部门等的广泛分布,这些都让数据的生产和收集的途径更为多元、更为广泛。不过,需要特别注意的是,由于其蕴含的巨大潜在价值,大数据已经成为了可以与物质和人力资本相提并论的重要生产要素和组织资产。相应的,对各类逐利组织(尤其是企业)来说,不仅需要考虑如何收集到大量的有效信息,同时也希望这些信息为其独自所占有,如最近阿里巴巴封杀微信、京东,断绝与社交网络新浪微博的账号合作。这种电商行业“封杀”现象的出现,其理由看似是如这些企业所宣称的那样为了保护公司的信息安全,但背后的根源其实是担心自身的内部商业信息通过互联网泄漏,担心用户流量的命脉被他人掌握。因此,在大数据时代,如何解决数据的封闭性问题将是经济统计工作数据收集面临的一个重要挑战。此外,对经济统计人才来讲,由于数据不再仅仅是标准结构的,资料收集新技术的开发和掌握也成为一种迫切的需要。

(2)数据分析问题。由于数据更多的是半结构化或非结构化的,传统的经济统计分析工具和方法可能不再有效。就大数据分析而言,经济统计工作需要解决的问题是如何从体量庞大且杂乱无章的各类数据中挖掘有效信息以创造新的知识和新的价值。在以前,数据很大程度上是指“数字”,如业务量、营业收入额、利润额、工业企业产值、固定资产投资、GDP等,都是一个个数字或者是可以进行编码的简单文本。而在大数据时代,人们不再是隐藏在终端和网络后面的隐形者,购物、社交、游戏、阅读、出行等信息都变成数据被收集到各种各样的储存设备中。而数据也不再是单纯的“数字”,还包括文本、图片、音频、视频等多种格式,其涵括的内容也更为丰富,如博客、微博、通话录音、位置信息、交易信息、点评信息、互动信息等。也就是说,数据不再只是结构化的,更多是广泛存在于社交网络、物联网、电子商务等之中的半结构化数据和非结构化数据。随着数据越来越大,越来越复杂,增长越来越快,要想建立和保持竞争优势需要对数据进行实时、有效的分析。而由于数据更多的是以半结构化和非结构化形式出现,过去传统的数据分析技术可能无法实现实时监测和分析。

3应对措施及建议

从个人服务到商业运营,从医疗卫生到公共教育,从城市交通到公共管理,大数据已开始撼动世界的方方面面。在带来新的发展机遇的同时,大数据时代也向包括经济统计在内的众多领域提出了众多挑战,需要做好充足的准备及应对。具体到与人才培养息息相关的经济统计学专业建设,我们认为需要从以下几个方面做出必要的变革:

(1)树立市场意识,避免人才培养与现实需求脱节。从目前的实际情况看,我国高校经济统计人才培养与市场需求之间或多或少存在一定程度的“学”“用”脱节,还没有全面实现学以致用。一方面,以企业为主的各类组织对经济统计人才需求非常急迫,如最近一份针对近千家企业和从业人员的调查显示,97.9%的企业认为数据分析对电商运营很重要,超过半数的企业表示数据分析能力欠缺,同时有近60%的企业希望专业数据分析人才加入,并愿意为此支付更高薪资;①另一方面,无论是课程体系还是教学内容以及教学方式,现有模式基本上是以传统数据为对象的。换句话说,在现有培养方式下,学生掌握的数理统计和经济统计方法可能无法满足大数据的分析需要,如传统的统计分组、频数分布等数据整理方法显然难以完全适用于图片、音频、视频等非结构化数据。因此,要真正做到“厚基础、宽口径、重应用”,则需要根据经济发展的需求设置教学计划、更新落后的教育内容、采纳现代化的教学手段,需要注意与其他学科之间进行充分的交流与融合,跟上当代社会科学的杂交化、整体化趋势发展的步伐。

(2)经济、统计与IT相融合,优化课程体系。在大数据的洪流中,数据分析是否能够带来新的洞察力、创造新的知识和价值,取决于从业人员是否掌握大数据收集、管理、分析和开发的相关特定工具。从我国高校经济统计学专业课程体系看,专业课程设置主要包括经济类基础课程与专业主干课程两大基本模块。虽然各高校都强调遵循“厚基础、宽口径、重应用”的复合型经济统计人才培养原则,也主张将理论方法的教学与计算机软件紧密结合起来(如“统计学导论”选用Excel,“应用多元统计分析”选用SPSS,“计量经济学”选用Eviews等软件作为计算工具),但在大数据的开发和应用日益成为新潮流、新趋势的背景下,仍然很少看到有高校在经济统计学专业中开设独立的、专门涉及大数据技术的相关课程。因此,根据现实人才需求的新变化以及大数据技术的不断进步和升级,我们应该对经济统计学专业的课程体系进行必要的调整,即根据大数据分析的内在需要,在经济学和统计学相关课程之外把大数据技术相关的课程纳入到现有体系之中,实现“经济、统计与IT”三方面内容的平衡和融合。在大数据时代,虽然经济统计所包括的主要工作仍然是数据收集和数据分析等,但是其内容却发生了翻天覆地的变化。如收集数据不再依赖于随机采样,而是需要利用多个数据库来接收发自客户端的数据,并导入到一个集中的大型分布式数据库。相应的,数据存储和预处理以及数据挖掘和分析也都是以分布式数据库为工作对象的。考虑到本科教育的基本要求与技术的实际发展水平以及通用性等,在Hadoop、NoSQL、HDFS等目前较为常用的大型数据分析软件和工具中,我们建议至少增设Hadoop方面相关的课程。

(3)与时俱进,加强师资队伍培养。能否把本专业的学生培养成为复合型的应用人才,取决于是否拥有一支高素质的教师队伍。随着大数据及其应用成为一种新的潮流和趋势,经济统计的专业教师团队建设也需要做出相应的调整和变革。从教师队伍的结构看,由于经济统计学专业发展的过程使然,目前我国各高校该专业的专业教师以具有经济学或统计学学科教育背景的教师为主,而具有信息技术教育背景的教师还非常稀少。由于大数据及其应用需要融合经济、统计以及IT等多个领域的理论、方法和工具,因此对经济统计专业建设而言,当前最为迫切的是,需要建设一支教育背景涵盖上述三个领域的结构合理的教师队伍。而实现的途径无非是两种:一方面是在全校范围内进行挖潜,重新组合和配置教师资源以优化经济统计专业教师团队;另一方面则是实施“请进来”战略,加大力度引进海内外优秀人才。在内部挖潜和外部引进的同时,专业教师团队建设还应该努力创造一个良好的人才成长环境,鼓励教师积极“走出去”,到国内外高水平大学进修和学习,鼓励教师不断以新的知识充实、提高自己,以此来不断提高本专业的教师质量和水平.

参考文献

[1]李宝瑜.统计学一级学科建设中的若干问题[J].统计研究,2004(8).

[2]庞皓.经济统计学课程体系改革的方向[J].统计研究,1991(1).

[3]向书坚,平卫英.30年来我国财经类院校统计学专业本科课程设置的历史回顾与展望[J].统计研究,2010(1).

[4]曾五一.关于经济管理类统计学专业课程体系设置的几点意见[J].统计教育,1999(8).

[5]曾五一,尚卫平.关于经济统计学若干问题的思考[J].统计研究,1999(11).

[6]曾五一,肖红叶,庞皓,朱建平.经济管理类统计学专业教学体系的改革与创新[J].统计研究,2010(2).

篇12

关键词:管理统计学;教学模式;大数据;案例教学

中图分类号:G4 文献标识码:A doi:10.19311/ki.1672-3198.2016.33.147

1 引言

管理统计学是一门应用统计学方法和理论研究经济管理问题的应用性学科,它通过收集、分析、表述、解释数据来探索经济管理问题的规律,并辅助企业进行管理决策和提高管理效率。传统的统计学关注小规模数据下的数据描述、推断和科学分析用。与之相应,管理统计学的课堂教学主要关注统计学原理的讲述、小数据的推断分析和经济管理问题的简单应用。

然而,自2008年Nature杂志发表“Big data:science in the peta byte era”以恚大数据的发展方兴未艾,备受学术界,企业界等关注。大数据的理念和技术不仅在互联网、金融、机器人、人工智能等领域取得突破性进展,也将对企业的生产、经营和决策等活动带来深刻的影响,通过对企业大数据的深度挖掘,有助于实现企业的商业价值,规避企业的决策风险,提高企业的竞争力。

大数据时代的到来,对管理统计学来说既是机遇又是挑战,机遇在于:大数据的分析主要建立在统计学的基础上对数据进行处理、分析,从而使得大数据可视化;而挑战在于:当下管理统计学的教学方法和教学手段难以匹配大数据时代对数据分析从业者的要求,这就要求对管理统计学的课堂教学模式进行进一步的发展与创新,以期适应大数据背景下的新要求。

如何结合大数据时代的新要求设计合适的课堂教学模式,如何结合丰富的大数据应用案例开展课堂教学活动,如何增强大数据背景下学生的数据驱动的管理决策意识,培养适应大数据时代要求的高素质人才,这些都是大数据背景下传统的管理统计学课堂教学模式所面临的问题和挑战,这也促使管理统计学教学工作者不得不去探究、优化甚至改革现有的管理统计学课堂教育模式。

2 传统管理统计学教学模式的概述

笔者所在的教学团队来自于武汉科技大学管理学院,承担全院《管理统计学》课程教学任务,在教学方法、实践教学等有较为丰富的教学经验。然而,在多年的教学过程实践和与学生的教学互动当中发现:现有的管理统计学教学模式尽管相对较为成熟,在培养学生的数据分析意识方面起到的重要作用,但是仍存在以下不足,而这些不足恰恰难以适应大数据背景下对管理统计学教学带来的挑战。

2.1 注重理论讲授,忽视应用教学

受技术发展和数据规模等因素的制约,传统的管理统计学教学大都采用理论驱动的教学模式,教师依托教材,注重统计学基本原理和方法的传授,学生掌握基本原理,对统计学的实际应用等关注较少。

尽管管理统计学课堂教学会涉及到一定的应用案例,但是这些案例大都简单,陈旧,数据来源单一,难以接触实际原始数据,统计建模思路也相对固定,这些教学案例既不能反映管理统计学的最新发展和应用思想,也无法将其带入企业经营的情景,对企业决策过程缺乏了解,这些因素都使得学生对该课程的学习兴趣不高,不利于培养学生应用统计学解决实际问题的能力,进而影响课堂教学效果。

2.2 注重数学推导,忽视工具应用

管理统计学要求学生掌握一定的数学基础,教材也都有较多的数学公式和理论推导,忽视了培养学生应用SPSSvSASvR等统计软件工具解决统计问题的操作能力。

根据经管类专业的培养定位,对于经管类专业的学生而言,相比于统计的数学公式,真正实用的如何借用SPSSvSASvR等统计软件工具来解决企业经营决策面临的实际问题,尤其是在大数据背景下,需要处理海量、复杂、多源、异质的高维数据。这些是单凭数学推导和简单的手动计算无法完成的。

近年来,大数据、互联网等技术的快速发展催生了一类新型且前景广阔的职业方向-数据分析师。综合数据分析师的职业要求,可以发现,这些职位大都要求从业者了解基本的统计学原理和方法,熟练掌握SPSSvSASvR等统计软件工具,并应用这些工具解决企业经营管理面临的实际问题。

2.3 注重知识考核,忽视项目训练

受限于教学管理制度和考核手段等因素,目前管理统计学课堂教学考核方式大都以闭卷为主,主要考察学生对统计学基本知识点的掌握情况,以及学生应用统计学知识解决简单案例的综合能力。

然而,在大数据时代背景下,除了要求掌握统计学基本原理,更应培养学生应用统计学知识解决实际问题的综合能力,而这种综合能力往往涉及数据获取、数据预处理、数据探索、统计建模、模型检验、模型评价、模型解释、模型部署和模型修正等数据分析的全过程,这种综合能力的掌握是无法通过现有的知识考核来达到的,这些必然要求学生通过参与实际项目或模拟情景来实现。

3 大数据背景下管理统计学教学模式探讨

如何结合大数据时代的新要求设计合适的课堂教学模式,如何结合丰富的大数据应用案例开展课堂教学活动,如何增强大数据背景下学生的数据驱动的管理决策意识,培养适应大数据时代要求的高素质人才,这些都是大数据背景下传统的管理统计学课堂教学模式所面临的问题和挑战。而现有的管理统计学课堂教学模式难以匹配大数据时代对其提出的要求,这就要求对管理统计学的课堂教学模式进行进一步的发展与创新,以期适应大数据背景下的新要求。

篇13

摘 要:文章通过阐述大数据及其目的,分析大数据与统计学的对比,对大数据对统计学的挑战与机遇展开探讨研究,旨在为相关人员基于大数据及其目的、大数据与统计学的对比的大数据对统计学的挑战和机遇研究适用提供一些思路。

关键词:大数据;统计学;挑战;机遇;营销

引言

国际数据公司的相关研究指出,2011年全球数据生产量达1.8ZB,且全球信息总量每隔两年增长一倍[1]。在大数据时代下,对于统计学发展而言,挑战与机遇并存,挑战指的是现阶段传统统计学相关方法难以适用大数据,机遇指的是基于统计学,大数据展开数据处理、分析,促使大数据具备可视化特性。由此可见,研究大数据对统计学的挑战和机遇有着十分重要的现实意义。

1.大数据及其目的

现阶段,关于大数据仍旧没有一个十分明确的界定,大数据起初是源自于技术领域。在信息量不断扩大的情况下,使得常规电脑原有存储空间已不能对新处理数据进行承载,新兴数据处理技术得以产生,好比雅虎的Hadoop平台、谷歌的MapReduce等。此类技术能够对僵化层次结构、一致性予以消除,促进数据无需通过常规数据库表格进行排列,极大程度地提升了人们可处理的数据量[1]。

2.大数据与统计学的对比

2.1样本统计与全样本统计的区别

样本统计属于统计学不可或缺的依赖,样本指的是结合相应的概率自总体中随机筛选并视作总体代表的集合内容,值得一提的是随机抽样是需要成本的,包括社会关系、资金成本或者时间成本等。基于样本数量提升有限前提下,样本估计误差会随着总体数量增多而增大,这亦是样本统计无法避免的不足。大数据时代下,庞大的数据信息应运而生,数据信息发展表现出总体即是样本的态势,该属性很好的消除了样本统计这一不足。大数据时代下的全样本统计,通常情况下可对完全总体进行覆盖,然而受大部分数据属于半结构、半结构数据影响,使得概率论应用遭受一定的制约[2]。鉴于此,将全样本统计应用到统计学中,应当就总体数据展开相应的归纳、筛选,即好比在样本统计中展开数据预处理。

2.2预测分析与非预测分析的区别

统计学的创立,是为了对变量相互相关关系展开分析,因此获取数据是发生于变量确定之后的,数据分析价值是能够被预测的。相较于统计学的预测分析,庞大数据将互联网、传感器作为载体,存在于分析需求之前,因此构建于大数据上的分析多为非预测性分析。在统计学中,出现大数据无法有效应用局面,这是由于不具备非预测分析所需的庞大数据,庞大数据产生与数据中心、存储系统存在紧密的联系,并非短期产生。也就是说,统计学中大数据的应用发展,说明了非预测分析正逐步取代传统统计学预测分析,数据多次利用正逐步取代传统数据一次性利用的。

3.大数据对统计学的挑战与机遇

3.1数据生产、处理与应用的转变

相关统计部门经开展严格的统计设计工作,获得相关的统计数据,数据的预处理分别有数据清洗、非全面数据填补以及数据矫正等。大数据时代下的统计手段尚不十分明确,自大数据流环境而言,要不断探索新型抽样方法,并确保抽样方法的实时、连贯及可行性。除去传统的统计分析方法,还应当开发大数据动态分析、数据流算法等[3]。

3.2大数据时代对市场营销的机遇

3.2.1大数据营销的特点与价值

大数据营销的特点:I.数据采集多平台化特点,即大数据时代下,大数据的数据大多来源于不同的领域、不同的渠道。II.时效性特点,随着信息技术的急速发展,互联网用户消费、购物行为方式往往会瞬间出现转变。国际先进大数据营销企业AdTime基于此大数据营销特点,采取了时间营销措施,即采取相应的技术方式全面获悉用户所需,于第一时间对用户当下的需求进行回应,以使用户在下决心购买的最佳时间及时看到对应的产品广告。III.个性化特点,在大数据时代下,广告商传统媒体导向的营销理念逐步由受众导向取代,现如今,广告商可应用大数据了解用户的地理方位,需求内容等信息,达到对用户个性化营销的目的。

大数据营销的价值:I.升级营销与用户的匹配度,大数据营销不仅可提供给企业了解用户有效的途径,还能够于网络环境下,选取相关技术方法达到对用户精确定位的目的,从而开展好营销工作,升级营销与用户的匹配度。II.改善用户体验,大数据营销促使企业真正意义上认识到用户及其所使用企业产品情况,以给予用户最人性化的提醒。

3.2.2大数据营销的应用

(1)与消费者建立紧密关系

现如今,我国一些企业营销行为仍旧处于个性化定位信息、创意设计阶段,而无法对不同消费者展开个性化的营销活动。大数据时代下,经采用相关数据分析技术方法,基于对消费群体喜好、传媒接触习惯等展开有效的分析,达到特定营销活动明确开展的目的,实现企业精心开展的营销活动精准的辐射至目标消费群体处,与消费者建立紧密关系,极大的改善营销效率、质量[4]。

(2)掌握竞争对手数据

企业通过对竞争对手数据的有效掌握,获悉竞争对手发展状况,基于此帮助企业制定科学合理的产品价格,提升企业产品市场竞争优势。与此同时,企业务必要全面实施以事实为前提的决策手段,广泛地应用数据分析方式对企业每一个发展运营步骤进行优化,经对企业一系列数据的充分优化、对接,促使业务环节中潜在的价值得以被有效挖掘,降低生产成本,知己知彼,促使企业在日趋白热化的市场竞争中占据有利位置。

(3)挖掘企业内部数据

“市场未动,数据先行”俨然转变为国际上企业有效运营发展的一致认识,为了提升企业管理效率,要求企业要充分挖掘企业内部数据,并展开有效的整合、分析,以为企业相关人员做决策提供有利的参考依据,提升决策准确性,促进企业可持续发展。

3.2.4 企业的应用案例――以亚马逊为例

在应用大数据开展市场营销方面,美国亚马逊公司一直处于领先地位。亚马逊研发出“用户未下单,先发货”功能,即结合用户的购物需求数据信息,分析用户想要购买的产品,达到用户未下单,提前发货的目的。此外,亚马逊通过对用户检索信息的分析,评估流感的传播,但这仅仅为海量检索数据中的一项用途,相同的数据能够应用于预测大选结果、预测某类产品市场行情等等,极大地降低了统计成本[5]。

3.3大数据时代对市场营销的挑战

3.3.1信息收集

大数据并非就是对数据信息展开盲目的收集,即便收集了再多的数据,倘若这些数据并非是市场营销所需要的,如此便会导致前期收集来的数据信息,变成一堆“数据垃圾”。鉴于此,为了避免这一情况发生,务必要充分分析业务需求,再对自身存在价值的数据展开收集、归纳,如此方可实现大数据的有效收集应用。

3.3.2经验与数据

数据采集完毕后,面对参差不齐的数据,还应当做好数据评估工作,评估对何种目标受众开展市场营销工作。鉴于此,要求采取科学合理的手段,将这些参差不齐的数据整合成可被市场营销实践应用的,经结合过去的经验,与采集数据进行有机融合,实现对目标受众的有效分析确定。

3.3.3分析与优化

数据分析,一方面是实现数据优化,一方面是进行决策层面上的调整、转变。此环节对于专业人才的需求提出了严苛的挑战。数据分析、数据优化对于专业人才的知识框架要求大不相同,这要求相关企业不仅要培养专业的数据分析人才,还要打造数据优化人才队伍。

3.4大数据营销的未来发展趋势

信息技术不断发展,单一媒体导向的“消费者碎片化”俨然无法达到企业对于数据多样性的需求。大数据时代下,媒体的跨界融合实现对“碎片化”受众的充分聚合。在科学技术技术不断进步的背景下,跨媒介、跨平台、跨终端的多途径将不断被开拓,将使庞大的数据信息获取多维度的整合,并且在多样化网络环境下,消费者主观信息与客观数据有机融合,构筑全面用户数据库环节,将成为未来大数据营销发展的必然趋势[6]。

4.结束语

总而言之,大数据为传统统计学带来了严峻的考验,也为传统统计学有效发展创造了良好的契机。在大数据时展潮流中,我们应当充分的认识到大数据对于传统统计学而言,是补充而不是更替,构建于样本统计、预测分析内容上的传统统计学,仍旧于社会统计、经济分析中占据着主导位置。大数据时代下,为了实现企业市场营销的有效开展,相关人员务必要不断专研研究、总结经验,全面分析大数据与统计学的对比,充分认识大数据对统计学的挑战和机遇,“与消费者建立紧密关系”、“掌握竞争对手数据”、“挖掘企业内部数据”等,积极促进企业市场营销的科学合理化。

(作者单位:中国人民大学)

参考文献:

[1] He Y,Geng Z.Active learning of causal networks with intervention experiments and optimal designs[J].J Machine Learning Research,2009,(09):2523-2547.

[2] 游士兵,张 佩,姚雪梅.大数据对统计学的挑战和机遇[J].珞珈管理评论,2013,(02):165-171.

[3] Deng K,Geng Z,Lin J.Association Pattern Discovery via Theme Dictionary Models[J].To appear in J Royal Statist Soc B,2013,(2):162-163.

[4] 邱 东.大数据时代对统计学的挑战[J].统计研究,2014,31(01):16-22.

篇14

[关键词] 大数据时代;数据质量;信息孤岛

doi : 10 . 3969 / j . issn . 1673 - 0194 . 2016. 23. 093

[中图分类号] TP311 [文献标识码] A [文章编号] 1673 - 0194(2016)23- 0178- 02

1 大数据与大数据时代

近年来,随着英国维克托・迈尔-舍恩伯格的《大数据时代》和美国Bill Franks的《驾驭大数据》等著作的出版,大数据引起了社会的广泛关注,人们已经意识到大数据时代正在呼啸而至。大数据几乎对每个领域都会产生影响,所以限于不同领域各自的特点,对大数据的表述也不同,但是一个广泛的观点是:“大数据是一个数据集合,这个数据集合是无法在规定时间里用常规软件工具对它进行搜集、整理和分析的。”

2 大数据时代对统计数据的挑战

大数据时代需要既讲机遇也讲挑战。各个应用领域的不断变化使得统计学成为一门难以成熟的学科。所以在数据分析的世界里,统计学发展的终身动力是不断提高驾驭数据的能力。大数据是推断数据,不是原始数据,所以会存在抽样偏倚、随机的和非随机的误差。数据包括原始数据和推断的数据。数据的认知范围有限,所以数据可解释的范围就有限。模型是对数据信息的汇总,由于数据信息有限,所以模型可解释的程度也有限。超出模型可解释的程度,就是对模型进行一系列的假设。大数据方法研究需要多学科的联合,统计学家需要关注实时决策和计算机资源,计算机学家需要了解算法和统计推断的复杂性。

3 大数据时代对统计数据质量的影响

3.1 大数据时代对数据时效性的影响

库克耶和舍恩伯格认为:大数据不用抽样调查的方法,而用所有数据的方法。数据科学家甚至提出“样本=总体”,这或许意味着统计工作重心要转移。舍恩伯格和库克耶认为抽样调查有很多自身的不足:一是样本的随机性很难实现;二是不适合考察有子类别的情况;三是采样忽略了细节的考察,而大数据分析则可以弥补抽样调查的这些不足之处。如果说之前统计工作的重点在于数据搜集和整理,那么大数据时代统计工作的重心就是如何搜集整理分析有用的信息。这样一来,已经得出的数据结论可能不具有这个时代的特点,即失去了时效性。

3.2 大数据时代对数据真实性的影响

大数据时代除了对数据的时效性有影响之外,对数据的真实性也有影响。由此,当通过网络搜集数据时,首先需要考虑的是,数据是否是由自动化算法系统产生?如果是,究竟有多少?以淘宝网为例,大量的虚假评论已经影响了信息的真实。

4 大数据时代统计工作的应对之策

大多数的研究指出,当前统计方面存在的问题在于业务部门没有利用好大数据导致数据资源缺乏;企业内部信息孤岛导致数据的有效信息无法充分利用;工作人员数据分析能力差导致大数据时代下统计工作很难进行。

4.1 国家应对之策

在大数据时代下,要保障统计数据质量,国家应当做到以下几点:

(1)尽快改革当前统计管理体制的制约,保证统计独立调查、独立报告、独立监督的职权不受侵犯。在大数据时代,统计体制改革要与时俱进,尽快建立符合我国国情的统计管理体制。

(2)充分发挥党委政府的主导作用,赋予各其统计数据质量的主体责任。要发挥各级地方党委政府对本区域统计数据质量的主体责任,将统计数据质量的好坏作为考核一个地区领导业绩的主要方面之一。

(3)尽快建立引导一个提速增效的统计考核评价指标体系,完善党政领导的绩效考评机制。

4.2 企业应对之策

企业应做到以下几点:信息以数据形式呈现,强化建设数据标准;融合结构化和非结构化数据;推广应用大数据,促进使用信息资源;重视数据的安全管理。

4.3 个人应对之策

统计学家必须积极学习新事物,适应大数据环境,拓展统计学的应用领域,创造出新的统计方法。大数据时代带给我们的挑战与机遇并存。

主要参考文献

[1]朱建平,章贵军,刘晓葳.大数据时代下数据分析理念的辨析[J].统计研究,2014(2).

[2]郑京平,王众全.官方统计应如何面对BigData挑战[J].统计研究,2012(12).

[3][英]维克托・迈尔-舍恩伯格.大数据时代――生活工作与思维的大变革[M].周涛,译.杭州:浙江人民出版社,2013.

[4]Brian Hopkins,Boris Evelson.Expand Your Digital Horizon with Bigdata[N/OL],2011-09-30.

[5]邱东.大数据时代对统计学的挑战[J].统计研究,2014(1).