发布时间:2023-10-07 15:38:03
序言:作为思想的载体和知识的探索者,写作是一种独特的艺术,我们为您准备了不同风格的5篇统计学大数据分析,期待它们能激发您的灵感。
关键词:大数据;统计学;数据分析;抽样理论;理论
重构随着信息科学技术的高速度发展,当代获取和储存数据信息的能力不断增强而成本不断下降,这为大数据的应用提供了必要的技术环境和可能.应用大数据技术的优势愈来愈明显,它的应用能够帮助人类获取真正有价值的数据信息.近年来,专家学者有关大数据技术问题进行了大量的研究工作[1],很多领域也都受到了大数据分析的影响.这个时代将大数据称为未来的石油,它必将对这个时代和未来的社会经济以及科学技术的发展产生深远的意义和影响.目前对于大数据概念,主要是从数据来源和数据的处理工具与处理难度方面考虑,但国内外专家学者各有各的观点,并没有给出一致的精确定义.麦肯锡全球数据分析研究所指出大数据是数据集的大小超越了典型数据库工具集合、存储、管理和分析能力的数据集,大数据被Gartner定义为极端信息管理和处理一个或多个维度的传统信息技术问题[23].目前得到专家们认可的一种观点,即:“超大规模”是GB级数据,“海量”是TB级数据,而“大数据”是PB及其以上级别数据[2].
一些研究学者把大数据特征进行概括,称其具有数据规模巨大、类型多样、可利用价值密度低和处理速度快等特征,同时特别强调大数据区别于其他概念的最重要特征是快速动态变化的数据和形成流式数据.大数据技术发展所面临的问题是数据存储、数据处理和数据分析、数据显示和数据安全等.大数据的数据量大、多样性、复杂性及实时性等特点,使得数据存储环境有了很大变化[45],而大部分传统的统计方法只适合分析单个计算机存储的数据,这些问题无疑增加了数据处理和整合的困难.数据分析是大数据处理的核心过程,同时它也给传统统计学带来了巨大的挑战[6].产生大数据的数据源通常情况下具有高速度性和实时性,所以要求数据处理和分析系统也要有快速度和实时性特点,而传统统计分析方法通常不具备快速和实时等特点.基于大数据的特点,传统的数据统计理论已经不能适应大数据分析与研究的范畴,传统统计学面临着巨大的机遇与挑战,然而为了适应大数据这一新的研究对象,传统统计学必须进行改进,以继续和更好的服务于人类.目前国内外将大数据和统计学相结合的研究文献并不多.本文对大数据时代这一特定环境背景,统计学的抽样理论和总体理论的存在价值、统计方法的重构及统计结果的评价标准的重建等问题进行分析与研究.
1传统意义下的统计学
广泛的统计学包括三个类型的统计方法:①处理大量随机现象的统计方法,比如概率论与数理统计方法.②处理非随机非概率的描述统计方法,如指数编制、社会调查等方法.③处理和特定学科相关联的特殊方法,如经济统计方法、环境科学统计方法等[7].受收集、处理数据的工具和能力的限制,人们几乎不可能收集到全部的数据信息,因此传统的统计学理论和方法基本上都是在样本上进行的.或者即使能够得到所有数据,但从实际角度出发,因所需成本过大,也会放弃搜集全部数据.然而,选择最佳的抽样方法和统计分析方法,也只能最大程度还原总体一个特定方面或某些方面的特征.事实上我们所察觉到的数据特征也只是总体大量特征中的一小部分,更多的其他特征尚待发掘.总之,传统统计学是建立在抽样理论基础上,以点带面的统计分析方法,强调因果关系的统计分析结果,推断所测对象的总体本质的一门科学,是通过搜集、整理和分析研究数据从而探索数据内部存在规律的一门科学.
2统计学是大数据分析的核心
数的产生基于三个要素,分别是数、量和计量单位.在用数来表示事物的特征并采用了科学的计量单位后,就产生了真正意义上的数据,即有根据的数.科学数据是基于科学设计,通过使用观察和测量获得的数据,认知自然现象和社会现象的变化规律,或者用来检验已经存在的理论假设,由此得到了具有实际意义和理论意义的数据.从数据中获得科学数据的理论,即统计学理论.科学数据是通过统计学理论获得的,而统计学理论是为获得科学数据而产生的一门科学.若说数据是传达事物特征的精确语言,进行科学研究的必备条件,认知世界的重要工具,那么大数据分析就是让数据最大限度地发挥功能,充分表达并有效满足不同需求的基本要求.基于统计学的发展史及在数据分析中的作用,完成将数据转化为知识、挖掘数据内在规律、通过数据发现并解决实际问题、预测可能发生的结果等是研究大数据的任务,而这必然离不开统计学.以大数据为研究对象,通过数据挖掘、提取、分析等手段探索现象内在本质的数据科学必须在继承或改进统计学理论的基础上产生.
统计数据的发展变化经历了一系列过程,从只能收集到少量的数据到尽量多地收集数据,到科学利用样本数据,再到综合利用各类数据,以至于发展到今天的选择使用大数据的过程.而统计分析为了适应数据可观察集的不断增大,也经历了相应的各个不同阶段,产生了统计分组法、大量观察法、归纳推断法、综合指标法、模型方程法和数据挖掘法等分析方法,并且借助计算机以及其他软件的程度也越来越深.300多年来,随着数据量以指数速度的不断增长,统计学围绕如何搜集、整理和分析数据而展开,合理构建了应用方法体系,帮助各个学科解决了许多复杂问题.现在进入了大数据时代,统计学依旧是数据分析的灵魂,大数据分析是数据科学赋予统计学的新任务.对于统计学而言,来自新时代的数据科学挑战有可能促使新思想、新方法和新技术产生,这一挑战也意味着对于统计学理论将面临巨大的机遇.
3统计学在大数据时代下必须改革
传统统计学是通过对总体进行抽样来搜索数据,对样本数据进行整理、分析、描述等,从而推断所测对象的总体本质,甚至预测总体未来的一门综合性学科.从研究对象到统计结果的评判标准都是离不开样本的抽取,完全不能适应大数据的4V特点,所以统计学为适应大数据技术的发展,必须进行改革.从学科发展角度出发,大数据对海量数据进行存储、整合、处理和分析,可以看成是一种新的数据分析方法.数据关系的内在本质决定了大数据和统计学之间必然存在联系,大数据对统计学的发展提出了挑战,体现在大样本标准的调整、样本选取标准和形式的重新确定、统计软件有待升级和开发及实质性统计方法的大数据化.但是也提供了一个机遇,体现在统计质量的提高、统计成本的下降、统计学作用领域的扩大、统计学科体系的延伸以及统计学家地位的提升[7].
3.1大数据时代抽样和总体理论存在价值
传统统计学中的样本数据来自总体,而总体是客观存在的全体,可以通过观测到的或经过抽样而得到的数据来认知总体.但是在大数据时代,不再是随机样本,而是全部的数据,还需要假定一个看不见摸不着的总体吗?如果将大数据看成一个高维度的大样本集合,针对样本大的问题,按照传统统计学的方法,可以采用抽样的方法来减少样本容量,并且可以达到需要的精度;对于维度高的问题,可以采取对变量进行选择、降维、压缩、分解等方法来降低数据的复杂程度.但实际上很难做得到,大数据涵盖多学科领域、多源、混合的数据,各学科之间的数据融合,学科边界模糊,各范畴的数据集互相重叠,合成一体,而且大数据涉及到各种数据类型.因此想要通过抽样而使数据量达到传统统计学的统计分析能力范围是一件相当困难或是一件不可能的事.大量的结构数据和非结构数据交织在一起,系统首先要认清哪个是有价值的信息,哪个是噪声,以及哪些不同类型的数据信息来自于同一个地址的数据源,等等,传统的统计学是无法做到的.在大数据时代下,是否需要打破传统意义的抽样理论、总体及样本等概念和关系,是假设“样本=总体”,还是“样本趋近于总体”,还是不再使用总体和样本这两个概念,而重新定义一个更合适的概念,等等.人们该怎样“安排”抽样、总体及样本等理论,或人们该怎样修正抽样、总体、样本的“公理化”定义,这个问题是大数据时代下,传统统计学面临改进的首要问题.
3.2统计方法在大数据时代下的重构问题
在大数据时代下,传统的高维度表达、结构描述和群体行为分析方法已经不能精确表达大数据在异构性、交互性、时效性、突发性等方面的特点,传统的“假设-模型-检验”的统计方法受到了质疑,而且从“数据”到“数据”的统计模式还没有真正建立,急切需要一个新的理论体系来指引,从而建立新的分析模型.去除数据噪声、筛选有价值的数据、整合不同类型的数据、快速对数据做出分析并得出分析结果等一系列问题都有待于研究.大数据分析涉及到三个维度,即时间维度、空间维度和数据本身的维度,怎样才能全面、深入地分析大数据的复杂性与特性,掌握大数据的不确定性,构建高效的大数据计算模型,变成了大数据分析的突破口.科学数据的演变是一个从简单到复杂的各种形式不断丰富、相互包容的过程,是一个循序渐进的过程,而不是简单的由一种形式取代另一种形式.研究科学数据的统计学理论也是一样,也是由简单到复杂的各种形式相互包容、不断丰富的发展过程,而绝不是完全否定一种理论、由另一种理论形式所代替.大数据时代的到来统计学理论必须要进行不断的完善和发展,以适应呈指数增长的数据量的大数据分析的需要.
3.3如何构建大数据时代下统计结果的评价标准框架
大数据时代下,统计分析评价的标准又该如何变化?传统统计分析的评价标准有两个方面,一是可靠性评价,二是有效性评价,然而这两种评价标准都因抽样而生.可靠性评价是指用样本去推断总体有多大的把握程度,一般用概率来衡量.可靠性评价有时表现为置信水平,有时表现为显著性水平[8].怎么确定显著性水平一直是个存在争议的问题,特别是在模型拟合度评价和假设检验中,因为各自参照的分布类型不一样,其统计量就不一样,显著性评价的临界值也就不一样,可是临界值又与显著性水平的高低直接相关.而大数据在一定程度上是全体数据,因此不存在以样本推断总体的问题,那么在这种情况下,置信水平、可靠性问题怎么确定?依据是什么?有效性评价指的是真实性,即为误差的大小,它与准确性、精确性有关.通常准确性是指观察值与真实值的吻合程度,一般是无法衡量的,而精确性用抽样分布的标准差来衡量.显然,精确性是针对样本数据而言的,也就是说样本数据有精确性问题,同时也有准确性问题.抽样误差和非抽样误差都可能存在于样本数据中,抽样误差可以计算和控制,但是非抽样误差只能通过各种方式加以识别或判断[910].大多数情况下,对于样本量不是太大的样本,非抽样误差可以得到较好的防范,然而对于大数据的全体数据而言,没有抽样误差问题,只有非抽样误差问题,也就是说大数据的真实性只表现为准确性.但是由于大数据特有的种种特性,使得大数据的非抽样误差很难进行防范、控制,也很难对其进行准确性评价.总之,对于大数据分析来说,有些统计分析理论是否还有意义,确切说有哪些统计学中的理论可以适用于大数据分析,而哪些统计学中的理论需要改进,哪些统计学中的理论已不再适用于大数据统计研究,等等,都有待于研究.所以大数据时代的统计学必是在继承中求改进,改进中求发展,重构适应大数据时代的新统计学理论.
4结论
来自于社会各种数据源的数据量呈指数增长,大数据对社会发展的推动力呈指数效应,大数据已是生命活动的主要承载者.一个新事物的出现,必然导致传统观念和传统技术的变革.对传统统计学来说,大数据时代的到来无疑是一个挑战,虽然传统统计学必须做出改变,但是占据主导地位的依然会是统计学,它会引领人类合理分析利用大数据资源.大数据给统计学带来了机遇和挑战,统计学家们应该积极学习新事物,适应新环境,努力为大数据时代创造出新的统计方法,扩大统计学的应用范围.
参考文献:
[1]陈冬玲,曾文.频繁模式挖掘中基于CFP的应用模型[J]沈阳大学学报(自然科学版),2015,27(4):296300.
[3]卞友江.“大数据”概念考辨[J].新闻研究导刊,2013,35(5):2528.
[5]靳小龙,王元卓,程学旗.大数据的研究体系与现状[J].信息通信技术,2013(6):3543.
[6]覃雄派,王会举,杜小勇,等.大数据分析:Rdbms与Mapreduce的竞争与共生[J].软件学报,2012,23(1):32-45.
[7]游士兵,张佩,姚雪梅.大数据对统计学的挑战和机遇[J].珞珈管理评论,2013(2):165171.
[8]李金昌.大数据与统计新思维[J].统计研究,2014,31(1):1017.
关键词:大数据时代;大数据;统计学;
一、大数据与统计学
(一)大数据与统计学关系密切
简单来说,我们可以分为两个方面来理解大数据:若“大数据”作为形容词,则描述的是大数据时代数据的特点;若“大数据”作为名词,则体现的是数据科学研究的对象。对大数据的定义有非常多,不同领域不同专业对大数据的界定都会有些许不同。通俗地说:大数据是目前人类所有可抓取、可记录、可存储的信号集合。这个包含了一切信号的集合将非常非常之庞大、多样、繁杂,并且还在不停地、迅速地增加。现代互联网和信息技术的飞速发展,使得人类开始有能力收集、储存、分析、处理这些从前无能为力的数据,从中挖掘出有用的信息促进社会的发展。迈尔•舍恩伯格说:大数据发展的核心动力就是人类测量、记录和分析世界的渴望。而统计学正好是收集、整理、分析、解释数据并从数据中得出结论的科学。由此可见大数据与统计学关系密切,将大数据与统计学结合发展潜力无穷。
(二)大数据时代下的非结构化数据与结构化数据需整合
对接统计研究可根据自身的目的收集总体数据或样本数据,但如果总体太过庞大,以过去的技术方法来收集总体数据成本会很高,受于限制统计研究更多收集得是样本数据。如今,人类已经开始能够在合适的成本下获得大数据,大数据的广博给统计研究带来了新的发展方向。我们需要着重研究的一个方向就是如何将结构化数据和非结构化数据对接。大数据的核心是数据,统计学的研究对象也是数据,但是它们获得的数据性质有所不同:大数据收集的多是半结构化和非结构化的数据,通俗地理解,先获得数据,再整理结构(如声音、图片、视频等信息);传统统计学收集则主要是结构化数据,先定好结构,再根据目标结构收集数据(如数字、符号等信息)。拿非结构化数据和结构化数据来说:大数据时代使得我们有更多可以分析利用的数据,使得统计研究不仅可以在有更多的结构化数据的情形下进行;对于一些领域的研究工作还可以设法将非结构化数据和结构化的数据结合起来分析。如何实现非结构化数据与结构化数据的结合?首先,完善非结构化数据的整合,然后我们可以用结构化数据做数量说明,非结构化数据加强描述;或是提高数据处理技术,实现结构化数据与非结构化数据的互相转化,选择能更好说明问题的数据形式作为后续分析基础。这都是值得再深入思考研究的新问题,而且这不仅仅是大数据和统计研究的事,同时需要计算机技术的一同创新发展。统计研究的范围在大数据时代越来越大,能用数据说明的问题越来越多。
(三)大数据时代下的相关分析与因果分析发展并重
《大数据时代》一书中表示:大数据时代的一个显著变化是:相关分析比因果分析更重要。我的看法是:大数据时代下,市场确实会对相关分析有着更强的关注度,但这并不意味着因果分析的重要性会有褪色。统计学中既有相关分析,也有因果分析,要对它们有合理的了解,首先需要明确的是相关关系和因果关系之间的联系,简单说:有相关关系不一定有因果关系,有因果关系则一定有相关关系。大数据时代,相关关系变得比以前更加为人所关注的原因:一方面,在很多领域的应用里,相关分析比因果分析更简单可行;另一方面,因为相关关系足以体现事物之间的一定联系,在商业效益上更为经济有效。因此在商业利润的推动下,相关关系也会更加受到青睐。但是我们不能就此否定因果关系的重要性,因果关系是对数据更加深度地分析:相关关系让我们知道了“是什么”,因果关系是让我们知道了“为什么”。倘若只是在商业经济上的利用和成本考虑,“是什么”在很多时候就以足够;但如果是在科学研究领域,“知其然而不知其所以然”就远远不够了。结合现实发展需要,可在分析确定相关关系后,根据情况研究因果关系,若能够得出因果关系,那肯定是更具价值和意义的。探求“为什么”始终是人类探索世界的动力,因果分析是人类永恒的使命。
二、结语
大数据时代的到来几乎对每个领域都有着不可忽视的影响。大数据与统计学关系密切,大数据的出现对统计学的意义是非凡的,我们应把握住大数据时代和统计学的可结合点。其一,完善非结构化数据的整合,深入研究如何实现非现结构化与结构化数据的对接,都需要我们思维上的创新、数据处理技术上的提高。其二,在注重相关分析的同时,不能丢掉对因果分析的研究,应合理并重,实现大数据的进一步利用,真正挖掘出数据的价值。对于以数据为研究对象的统计学科,大数据时代就是统计学变革创新的时代,统计研究工作人员也应把握机会思考创新,为统计学增添新的生命力。
参考文献:
[1]朱建平,张悦涵.大数据时代对传统统计学变革的思考[J].统计研究,2016(02):3-9.
[2]朱建平,章贵军,刘晓葳.大数据时代下数据分析理念的辨析[J].统计研究,2014(02):10-19.
【关键词】学习分析系统 教育 大数据
一、引言
“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”(麦肯锡咨询公司)大数据时代已经到来了,决策将日益基于数据和分析而做出,而并非基于经验和直觉。大数据应用已经在商业、经济等领域取得了显著的成功。而在目前,教育领域中,各种数字学习环境的普及和推广,越来越多的人员在网络环境下发生学习行为。学习者与学习系统之间,学习者与学习者之间,学习者与设备之间,每天都在发生大量的交互数据,这些数据有着海量的数据规模(Volume)、多样的数据类型(Variety)、快速的数据流动和动态的数据体系(Velocity)、巨大的数据价值(Value),这些都符合大数据的4V特性。海量的数据给传统教育数据的存储和分析都带来了巨大的挑战。如何通过技术手段对教育大数据进行分析处理,使教育领域的方方面面都受益,最终有效促进教与学,已经越来越受到研究者的重视。而学习分析理念的提出,为教育大数据的应用找到了很好的途径。
二、学习分析概述
早在2010年美国新媒体联盟的《地平线报告》中就预测学习分析技术将在未来的四到五年内成为主流。第一届学习分析和知识国际会议认为:学习分析技术是测量、收集、分析和报告有关学生及其学习环境的数据,用以理解和优化学习及其产生的环境的技术。
学习分析所服务的对象涉及教育系统的各个相关人员,学习者、教育者、教育研究者、教育管理者、学习服务提供者等等。使用数据挖掘、社会网络分析、统计分析等多种技术对教育大数据进行解释和分析,根据解释与分析的结果,评估学习者的学习进展,预测未来的表现,并发现潜在问题,以便学习者能更准确地把握自己的学习情况,优化学习过程,教育者能及时调整教学活动和教学内容,优化教学方法和教学策略,为学生提供个性化的教学资源与建议,同时也能为教育管理者的决策提供科学依据。国外对学习分析技术的研究已经取得了一定的效果,而国内还处在理论研究和综述阶段。基于教育大数据的学习分析系统的构建可以为学习分析的应用和实践提供重要指导,更好地提高学习效率,有效促进教与学。
三、学习分析系统的总体架构
国内外许多学者都从不同角度对学习分析进行了整体框架的设计,但每个框架都有其局限性,经过实践验证的框架依然很少。学习分析的基础和核心是海量的教育数据。围绕数据开展数据的采集、存储、分析、表示以及应用五个环节的活动。本文以数据为核心,依据数据流动的过程来构建一个更加灵活和可扩展的学习分析系统的架构模型(见图1所示)。
图1 学习分析系统架构图
学习者的学习行为发生在各种数字环境中,如传统的学习管理系统、网络课程以及开放学习环境(MOOCs)等,社会性学习系统,如博客,微博,各种社交网络等。交互当中所产生的数据都会被记录到原始数据库中,而原始数据来源众多,形式不一,存储和处理都有困难。通过聚集、抽样、维归约、离散化和二元化等预处理,让原始数据更加适合挖掘,将预处理得到的学习数据存储到学习数据库中,与学习者相关的一些基本数据存储在学生信息库中。在特定的时间中学习分析引擎会从学习数据库和学生信息库中获取数据进行分析,依据需求不同,在分析过程中使用不同的数据挖掘和分析工具及模型。分析结果作用于学习者、教育者、研究者、教育管理者等不同层次,提供相应的教育干预,学习内容和过程、教学设计和策略优化。当然,分析结果也要以报告或可视化图表等形式在展示平台输出。
四、结束语
学习分析是大数据技术在教育领域中的应用。在大数据技术的支持下,深度挖掘学习行为模式,交互数据之间所隐藏的潜在价值,学习质量分析,个性化教学内容推送等都将成为可能。在对学习分析进行不断深入研究的同时,也存在许多挑战。如何快速有效地收集和预处理来源多样的原始数据,使用哪种工具、算法能更准确地得到有效预测,如何做到保护学生隐私等,都是我们要考虑的问题。相信这些挑战都将在不久的将来得到解决。
【参考文献】
[1]Barwick H.The “four Vs” of Big Data.Implementing Information Infrastructure Symposium[EB/OL].2012-10-02.
[2]Johnson,L.,Adams,S.,andCummins,M.(2012).The NMC Horizon Report: 20l2 Higher Education Edition.Austin, Texas: TheNewMediaConsortium.
关键词:信息素养;研究生;数据;北京交通大学
中图分类号:G643 文献标志码:A 文章编号:1673-291X(2012)18-0245-03
信息素养是指人们在解决问题时利用信息的技术和技能。这个概念是1974年由美国信息产业协会主席保罗·泽尔斯基首次提出后又经该协会定义的。随着计算机等现代技术的发展,信息量以几何级数的方式递增。一方面,准确完整的信息是做好决策的基础,另一方面,如何进行有效的检索,是利用信息从而解决问题的关键,这两者均取决于人的信息素养。
研究生教育担负着为国家建设发展培养高素养、创造型人才的重任。现代管理学之父德鲁克曾经说过:“知识工作者的生产率是21世纪管理的最大挑战。”
在北京交通大学,早在2004年,便把信息素养的教育列入了研究生学期教育的内容,为了全面掌握研究生信息素养情况,使信息素养教育更具有针对性,我们于2011年9月对北京交通大学的博士研究生和学术型硕士研究生进行了抽样调查,并结合访谈的形式对于相关重点问题进行了确认。
一、样本与调查维度说明
调查根据各院系学术型研究生数量的相对比例,共随机抽取360位研究生进行调查。经检查核对,最后共获得有效问卷343份,有效问卷回收率为95.27%,样本总量占6 847名学术型研究生总量的5.3%。有效样本在各学院的分布情况为:电子信息工程学院50人,计算机学院29人,经济管理学院97人,交通运输学院29人,土木建筑工程学院39人,机械与电子控制工程学院20人,电气工程学院20人,理学院21人,人文社会科学学院11人,软件学院17人,建筑艺术系5人,语言与传播学院5人。在全部被调查者中,硕士研究生为主体,占84.54%,其余为博士研究生;从年级分布看,一年级占45.18%,二年级研究生占43.73,三年级研究生只占11.07%;从性别构成看,男性占57.73%,女性占42.27%,与我校男女生总体比例58.4∶41.6持平。
调查的维度包括研究生信息素养教育基础、获取并利用专业信息的途径、对提高自身信息素养的途径选择与期望三个大的方面,共包含22个问题。
二、调查结果
1.研究生信息素养教育基本情况。调查表明:近四成研究生在本科阶段没有受过正规的信息素养教育。有34.74%的被访者在本科阶段没有学习过科技信息检索或类似的课程;有40.12%的被访者没有学过学术论文和学位论文写作的课程或听过相关讲座。
2.获取并利用专业信息的途径。在使用各种信息资源方面,以图书馆资源配合网络搜索引擎为主;将近1/3的学生经常使用纸本书和期刊,并通过专业相关论坛学习;还有一小部分学生利用免费的(见表1)。
在对既有资源的深入使用方面,对我校图书馆的使用情况的调查表明:有80.62%的学生使用过借还书服务;61.67%的学生做过电子数据库检索;44.49%的学生进行过书刊阅览;只有36.12%的学生使用过学术资源门户;26.43%的学生做过信息咨询;17.62%的学生使用过馆际互借;甚至有20%未使用过借还书服务(见表2)。
计算机技术发展到今天,涌现出很多面向公众的免费软件,这些开源软件除了在社交网络方面,在各专业领域里也层出不穷,熟练运用这些免费软件将是对我们当前有限资源的一个有效补充。但使用情况并不普遍。有15.42%的学生没有用过任何一款开源软件(见表3)。
研究生对本专业领域内优秀文献及前沿信息的掌握情况在一定程度上决定其创新力。研究生对其专业核心期刊及网站信息的掌握途径如下:60.79%的学生请教导师或同学,46.26%的学生利用期刊导航系统,28.63%的学生利用CSSCI或CSCD获知,11.45%的同学咨询图书馆员,其他途径为4.41%(见表4)。
从外文数据库的使用情况来看,有3.08%的学生从不使用本专业外文数据库;有43.17%的学生不熟悉外文数据库但常用Google找英文文献阅读;只有29.52%的学生经常使用本专业的外文数据库。由此可见,我校的专业外语和外文数据库的培训亟须加强(见表5)。
学术数据库的便捷和及时已成为研究生学习、研究过程中不可或缺的工具。随之而来的大量电子文档如果得不到系统的管理,会浪费掉很多时间和精力。与国外学校情况相比,我校研究生对参考文献管理工具的认识和使用情况令人担忧。以三种最广泛使用的管理工具为调查对象,使用过endnote、noteexpress或 refwork这三种管理软件的学生分别占16.74%、12.33%和8.81%,竟有近63.88%的学生没有使用过任何参考文献管理软件(见下页表6)。
3.提高研究生信息素养的方向与途径选择。调查显示:31.42%的被访者不太能对所浏览的网站的权威性作出判断,2.65%的被访者完全不能判断出所浏览网站的权威性;有40.27%的被访者回答能够判断网站的权威性,但根据的是模糊的经验;只有25.66%的被访者因为听过有关讲座,从而能够准确判断所浏览网站的权威性。
信息搜索能力提高途径方面,43%的同学希望采取听主题讲座的方式;22%的同学选择上选修课;20%的同学选择自学;15%的同学愿意请教导师和同学。
三、分析与建议
1.需强调信息技术教育与信息素养教育的结合。近四成研究生在入学之前没受过正规的信息素养教育,这样的数据映射了中国对于信息素养教育的认识严重不足。国外对信息素养问题的研究可谓由来已久。20世纪60年代至今,相关的研究已相当深入。通过Elsevier、Infotrieve等检索系统都可以检索到众多的研究文献。而通过“google”进行网络检索则返回了1 180 000条记录。这些记录中包含大量的信息素养研究组织、论坛、专门研究网站和资源网站,可以找到数量丰富的研究报告、论文、会议文献及有关的项目和计划等资料。资料还反映出信息素养概念的内涵逐渐由最初单纯的信息技能掌握到人的整体素养层面的演进以及信息素养重要性被广泛认可的过程。
相对而言,国内信息素养理论研究比发达国家滞后得多。1984年,教育部《关于在高等学校开设〈文献检索与利用课〉的意见》,奠定了《文献检索与利用课》作为中国高校大学生用户教育主要形式的地位。此后,受国外影响,中国图书情报界对用户教育活动的理论思考逐渐演变上升为信息素养层面的研究。就发文量而言,中国对信息素养问题的真正研究始于20世纪中期。1995年首次在研究文献中出现了“信息素质”和“信息素养”的概念,但之后发文数量一直非常有限,到2011年一共682篇。反映出中国对信息素养问题的研究多年来一直徘徊在较低的水平。
在对被调查者的访谈中,他们接受的信息教育要么就是计算机教育(简称为“计算机课”、“电脑课”)和在此基础上有所发展的信息技术教育,并以掌握计算机、网络等信息技术的知识和技能为最终目的;要么就是信息化教育,即将计算机、投影仪等设备用于辅助教育。从2000年开始,信息素养概念已进入一部分信息技术教育研究人士的视野,在国家信息技术教育相关政策中也出现了“信息素养”的提法,但基本上是将信息素养的培养局限于信息技术教育之中。而图书情报界则主要是从原有的用户教育、尤其是文献检索课的视角来看待信息素养。
因而,针对于研究生的信息素养教育,应该强调信息技术与人的学习、生活和工作的联系,强调信息和信息技术在各个层次上的学习与应用,特别强调信息素养在终身学习与自主学习中的作用,强调信息素养与个人发展的关系。
2.有待建立统一的信息素养标准,涵盖教育的全过程。信息素养标准是信息素养评估的依据,也是信息素养教育的课程目标。因此,各国积极建立适合本国国情的信息素养标准。在这一方面,美国、英国、澳大利亚制定的信息素养标准都对其他国家产生了一定的影响。美国最具有影响力的信息素养标准分别制定于1998年和2000年。1998年美国学校图书馆协会与教育交流技术协会制定了《学生学习的九大信息素养标准》,并且涵盖了教育的全过程,是从中小学基础教育到高等教育的一个重要主题。
中国的信息素养教育研究起步比较晚,目前还没有制定出一套全国通用的信息素养评估体系。《北京地区高校信息素养能力指标体系》是中国第一个正式的并且比较有权威的信息素养评价标准体系。该指标体系参照了美国、英国和澳大利亚高校的信息素养评价标准,共分为7个一级指标、19个二级指标、61个三级指标。
信息素养教育和其他任何一种教育领域一样,素养的提高是多个相互联系的因素持续作用、形成合力的结果,局部的强化难以实现。且研究生中的绝大多数毕业后便要走向职场,与其他层次的教育相比,除了传统意义上的学习的压力,还有面临从学生到职场人的转变的压力。如果单纯从研究生阶段加强信息素养教育,即使体系完备,也难以避免学生现学现用,不成系统的弊端。
3.信息素养教育亟待与学科课程整合。最新的研究文献数量表明:国外的信息素养教育的重点已经转向培养学生的终身学习能力和评判性思维能力,探讨促进图书馆、学生、教师及管理层的密切合作、谋求多学科的信息素养教学已经是研究重点之一。
关键词:首都医科大学;图书馆;流通借阅;数据分析;读者服务
中图分类号:G258.6 文献标识码:A 文章编号:2095-5707(2017)01-0040-07
Abstract: Objective To provide references for the resources construction of university libraries, business process optimization, user behavior research, and reader service improvement. Methods Excel 2010 was used to analyse the circulation data of 2013-2015 undergraduate, graduate students, international students, teachers and other readers from the Aleph 500 automated management system. Results In 2013-2015, there were downward trends of the numbers of visitors and the borrowed books. The numbers of borrowed books were more prominent in March and September. Lending period presented 10:00, 16:00, 18:00 and 20:00 four peaks. Book categories mainly focused on R, I, H, and so on. There were obvious regularities of borrowing preferences of students of various subjects. Conclusion Libraries of medical colleges and universities can increase self-service publicity, adjust human resources according to the borrowing situation, strengthen the construction of library resources, and pay attention to the reconstruction of the space and the arrangement of the environment.
Key words: Capital Medical University; libraries; circulation; data analysis; reader services
流通借阅是高校图书馆开展的基本业务之一,流通借阅数据分析是图书馆文献资源建设、业务流程优化、用户行为研究、读者服务提升的重要依据。随着网络技术对人们阅读行为的改变,图书馆已经从知识收藏中心向学习中心转变。各高校图书馆越来越重视对流通借阅数据的分析挖掘,通过对借阅率与学生学习状态相关性分析、探索用户利用图书馆馆藏资源现状,挖掘用户行为,提出相应的服务对策[1-9]。本文通过对首都医科大学各类型读者在图书馆中产生的流通借阅数据进行深度分析,力图为图书馆文献资源建设、用户服务和空间利用提供参考依据,充分发挥图书馆的文献保障与学习支持功能。
1 资料与方法
以首都医科大学2013-2015年的本科生、研究生、留学生、教师等各类型读者产生的流通借阅数据为研究对象,数据均来自首都医科大学图书馆使用的Aleph500自动化管理系统,应用Excel 2010统计分析读者到馆情况、借阅率、阅读偏好等。
2 结果
2.1 到馆情况
首都医科大学图书馆2013-2015年读者到馆及借阅情况如表1。整体上,到馆次数2013年最高,2014年各月份均出现大幅下降,2015年有所回升,但仍低于2013年;借阅人数各年度和月份变化较到馆情况变化相对较小。可以看出各年份、各月份到馆借阅率均低于7%,2014年9月最高为6.99%,3年的平均到馆借阅率为2.84%。
2.2 借阅情况
图1所示为首都医科大学图书馆2013-2015年每年1~12月份的借阅册数情况,可以看出每年的借阅情况逐月分布情况较为规律,通常每年2月、8月为寒暑假时间,借阅量较低,3月、9月为开学初,借阅量明显较大,紧接着又呈现逐月下降的趋势。2013-2015年借阅量逐年递减。2013、2014年借阅量分别为53 651、40 198册,下降25.08%;2015年借阅量为36 253册,相对2014年下降9.81%。3年的到馆人均借阅册数分别为4.54、4.15和4.06册,均呈逐年下降趋势。2015年3月、9月时间段的借阅量尤其突出。
图2为2013-2015年各时段12个月份的平均值,整体上分时段借阅量有4个波峰,分别在10:00、16:00、18:00和20:00左右出现。其中16:00的波峰最明显,相应的借阅量最多;其次是上午10:00、晚上18:00和20:00;晚间的借阅量比上午11:00-14:00之间的借阅量还要高。
依照《中国图书馆分类法》22基本大类对首都医科大学图书借阅量进行统计,结果如表2所示。可以看出2015年占借阅总量排名前三的类分别是R类占42.97%、I类占20.84%、H类占9.22%,前三类占总量的74.03%;其次是Q类4.55%、O类4.04%、T类4.04%、K类3.77%、B类3.72%、C类1.53%;其余均低于1%;借阅量高于4%的前6类占阅读总量的85.66%。
各类图书占本类馆藏百分比可以用来衡量某类图书的利用率。表2可以看出I类借阅量占本类馆藏百分比为12.95%,此类图书利用率最高;其后依次是Q、B、J各占本类馆藏百分比分别为7.63%、7.36%、7.02%;后面依次是R、C、H、K、O、P借阅量占各类馆藏百分比在5.26%~6.77%之间;其余均低于5%。
表3详细分析2015年各月份各类图书借阅量,各个月份的22基本大类情况趋于一致,R(医药、卫生)、I(文学)、H(语言、文字)等3类图书借阅量明显较多,其次是Q(生物科学)、O(数理科学和化学)、T(工业技术)、B(哲学)等4类。9月份为借阅高峰,各类图书的借阅量都高于其他月份,其次是3月份也相对较多,3月份和9月份借阅量分别为6200、6380册;2月份及8月份寒暑假期间,借阅量均低于200册;7月份有一半时间是暑期,借阅量为1760册,比正常月份稍低;其余月份均在2000~4000册之间。
表4列出了2013-2015年的外借次数排名前20位的二级类目。可以看出2013-2015年3年借阅量排名前5位均为中国文学、基础医学、常用外国语、中国医学、临床医学;6、7位为预防医学及卫生学、内科学,但排名稍有变化;其后是欧洲各国文学、自动化技术及计算机技术、外科学、药学、美洲各国文学、心理学、亚洲各国文学、化学、神经病学与精神病学类目,排名各年份稍有化;其余是中国人物传记、分子生物学、数学、法律、中国史类目。整体上来看排名前20位的二级类目2013-2015年变化不大。
2.3 各学科学生借阅偏好
由于系统内部不能获取研究生、博士生的具体学科类别,仅选择2015年本科生各学科借阅图书排名前10位的二级类目,然后综合各学科前10位的二级类目,共得到口腔、临床医学、中药学等12个学科30个二级类目的借阅情况(见表5)。
可以看出各学科学生借阅图书有一定共性,同时也非常有学科特色。横向来看,基础医学、中国文学和常用外国语是所有学科的学生借阅量都比较大的二级类目。纵向来看,临床医学学科学生人数总体较多,呈现出借阅量整体较高的情况,所借图书的学科范围也最广泛,包含各国文学、常用外国语、中国哲学、心理学社科类;基础医学、临床医学、中国医学、内科学、外科学、神经病学与精神病学医学各科、自动化技术及计算机技术等。中国文学、常用外国语这2个二级类目在各专业借阅量都在排在前10位,除此之外,中药专业学生侧重中国医学、基础医学、化学、药学二级类目;护理学专业的学生侧重临床医学、基础医学;公共事业管理学科的读者侧重预防医学和卫生学、自动化技术及计算机技术、心理学;中医学专业侧重中国医学、基础医学、心理学;生物医学工程学科的读者相对更关注自动化技术及计算机技术、数学、无线电电子学及电信技术;药学专业的学生侧重化学、药学、心理学;基础医学侧重基础医学和各国文学;康复治疗专业学生侧重基础医学、临床医学和心理学;法学专业学生侧重法律及预防医学和卫生学;儿科学生较多关注基础医学、内科学、药学、心理学。
3 讨论
综合分析2013-2015年首都医科大学图书馆各类型读者的流通借阅数据,可以看出到馆人次及借阅数量呈逐年下降趋势,借阅的月份、时段、图书类别及各学科学生借阅偏好具有明显的规律性。基于2013-2015年流通借阅数据的分析,高校图书馆应采取以下措施,更好地服务读者,提升服务质量。
3.1 加大自助服务宣传
自助服务指在一定的条件下根据用户的阅读兴趣、需要偏好来完成的书目查询、藏书借阅、资料检索、文献复印、学习空间使用等活动,从而实现自主服务的一种读者服务方式[10],北京大学、清华大学、上海交通大学、厦门理工学院乃至国外高校图书馆都在不断探索自助服务新方式[11-15]。自助服务逐渐成为流通借阅服务的主流服务方式。我馆统计数据表明,自助借阅服务占所有借阅量的60%以上,可以继续加大自主服务宣传,培养读者自主服务方式,提倡师生自主完成图书借还服务。
3.2 根据到馆借阅情况调整人力资源
传统的老馆舍由于要开设不同的阅览借阅室,人员尤显不足,根据到馆人数、借阅数据,在借阅高峰如每学期开学之初,加大人力投入,每天的10:00,16:00,18:00,20:00几个借阅高峰时段适当增加一线流通人员数量,保证服务质量,非借阅高峰可以适当缩减人员。
3.3 加强馆藏资源建设
除了保证医学特色资源建设以外,适当增加文学、生物科学、哲学、艺术等类图书,与院系紧密集合,针对不同的专业学科适当补充各学科个性化需求。加大电子资源的使用宣传。提供读者来馆随时荐购、书展现场采购、学科馆员推送、微信、网站等多渠道荐购图书。
3.4 注重馆舍空间改造
读者来图书馆,很大程度上是利用馆舍空间环境,所以传统图书馆的馆舍空间改造,人文环境优化尤为重要。首都医科大学图书馆设立了研究生自习室、研讨室等,并进一步细化阅览室学科功能,如我馆2009年成立了外文图书阅览室,使用馆员自创的作品装饰优化内部装饰、提升人文气息,现已成为吸引读者休闲阅读的重要场所。2015年9月成立了社会科学阅览室,收藏A~G类图书,促进社科图书的管理流通,自开通以来,借阅量较之混杂在自然科学大书库一起流通时有了显著提高。
4 小结
在大数据环境下,对于图书流通借阅数据进行有效的分析,能够为图书馆改善提升服务质量,深度挖掘用户行为,揭示其潜在的规律,为图书馆科学管理、资源建设和学科服务提供依据与参考。图书馆服务应结合用户统一认证系统、电子资源访问情况对借阅数据进一步挖掘,充分发挥图书馆的信息保障与学习支持作用,丰富图书馆的馆藏资源,优化图书馆空间环境,提高图书馆资源的利用率,有针对性地对不同学科的读者开展个性化服务,为图书馆科学管理提供事实依据。
参考文献
[1] 乔慧君,周筠B.高校图书馆借阅率与学生学习状态关系研究[J].大学图书馆学报,2015,33(1):55-60,50.
[2] 郑毅,叶翎,杨峰.医学院校图书馆中文图书利用率分析[J].医学信息学杂志,2010,31(12):82-85.
[3] 杨军花,聂江城,王刚.用户利用高校图书馆馆藏资源分析及对策研究――以南开大学图书馆借阅统计为例[J].图书馆工作与研究, 2011(5):66-70.
[4] 牛玉兰,王德强.医院图书馆读者借阅统计分析及其对策[J].医学信息学杂志,2008(2):53-55.
[5] 姬曼姝.高校D书馆流通借阅现状的统计分析――以内蒙古师范大学图书馆为例[J].图书情报工作,2013,57(S1):178-181.
[6] 何祯,司徒俊峰.高校图书馆“借阅无限量”的实践与思考――以中山大学图书馆为例[J].大学图书馆学报,2015(4):14-18.
[7] 陈进,刘宝杰.从未被借阅图书数据分析医科大学图书馆LIB2.0的应用[J].医学信息学杂志,2009,30(9):76-78.
[8] 陈娟,洪丹.基于Logistic模型的高校图书馆用户借阅影响因素分析[J].情报科学,2013,31(3):96-101.
[9] 韦耘耕.从图书馆流通数据分析读者阅读倾向及馆藏结构[J].医学信息学杂志,2010,31(2):75-78.
[10] 陈武,姜爱蓉.构建以自助服务为导向的现代图书馆[J].大学图书馆学报,2013(3):93-96.
[11] 高桂英,黄涛,聂华.图书馆自助服务的个性化应用――北京大学图书馆的实践与经验[J].大学图书馆学报,2011(4):77-80,121.
[12] 邢卓媛,孙翌,曲建峰.多终端环境下图书馆实体场馆自助服务的设计与实践――以上海交通大学图书馆为例[J].图书馆工作与研究, 2016(4):45-51.
[13] 凌宇飞.高校图书馆自助服务现状研究及发展策略[J].图书情报导刊,2016,1(5):62,156.
[14] 施航海,苏文辉.图书馆一站式自助离馆服务系统构建――以厦门理工学院图书馆为例[J].图书馆学研究,2016(16):65-69.
[15] 潘永明,刘辉辉,刘燕权.美国高校图书馆中的移动流通自助服务[J].图书情报工作,2014,58(12):26-31.