发布时间:2023-09-20 09:47:34
序言:作为思想的载体和知识的探索者,写作是一种独特的艺术,我们为您准备了不同风格的5篇统计学抽样方法,期待它们能激发您的灵感。
《大英百科全书》指出:“统计学是一门收集数据、分析数据、并根据数据进行推断的艺术和科学”。从这个定义中,我们可以从以下几个方面理解统计学的内涵。
(1)作为一门科学,统计学是与数字打交道的,是对社会经济现象数量方面的特征进行研究的。
(2)统计学的主要内容可分为:数据的收集、数据的分析以及统计推断。数据的收集又可分为统计设计和统计调查两个过程,而统计分析又可分为统计整理和统计分析。因而我们认为统计学具体可包括:统计设计、统计调查、统计整理、统计分析以及统计推断。一个完整的统计过程如下图所示。正是由于上述内涵,决定了统计学具有以下特点:
(1)理论性。从整个统计研究的程序中,可看到统计学是一门理论性很强的学科。实际上统计学主要利用数学中的大数定理和中心极限定律以及概率论和数理统计方面的知识。这决定了学习统计学须具备一定的数学功底。同时,统计学主要是对社会经济现象数量方面的特征进行研究的,这也决定了统计学与经济学和管理学密切相关,学习统计学应具备一定的经济学和管理学基础知识。
(2)实践性。统计学是与数字打交道的科学,这决定了统计学是一门实践性很强的学科。它是为了解决实际问题而存在的应用性学科。实际性应在整个教学过程中重点强调,但是实际却常被忽略。
(3)理论和实践相结合。统计学最大魅力之一就是它强调理论和实践结合。统计学基本知识的利用应以解决社会经济现象为目的,同时,社会经济现象得以顺利解决反过来印证统计学基础知识,使之更好地指导实践。
(4)方法上统计学更多地会借助抽样调查。从统计学内容及社会实际情况,可知,统计学在处理数据的过程中将会过多地使用抽样调查。因此,在实际教学过程中应强调抽样调查的重要性。
2统计学教学中存在的问题
统计学的理论性和实践性相辅相成,教学过程中两者不能偏废,但实际教学中却存在着一系列问题。
(1)教材内容的安排与课时数在一定程度上存在冲突,导致统计学理论教学中过分强调统计分析而忽略统计设计和统计调查方法的教授。一般对非统计学专业的财经类本科学生,统计学要一个学期来完成,基本上48学时。而在课程的安排上,多数教材都是按照统计学的特点将统计调查、统计整理、统计分析及统计推断作为各章的主要内容。而受课时限制,统计学的教授主要以统计分析为主。对统计调查和整理过程一带而过。
受课程安排限制,忽略抽样调查的重要性。很多课本在统计学内容安排上都把抽样调查和抽样推断作为一章,放在数据分析之后单独进行讲授。这就使学生将数据分析学完后才正式开始接触抽样调查,殊不知,统计设计、调查和分析的数据多数都是通过抽样调查得到的!抽样调查的基本知识没学,先学统计分析,本末倒置。
(2)统计学教授过分强调理论性而忽略实践。由于过分强调统计数据分析,使很多教师在讲授统计学的时候过分强调理论的讲授而对学生感兴趣的统计实践却往往忽略。这就使统计学课堂变成了数学课堂。
(3)统计学教学忽略了与当地社会经济现象的关系。很多教师在统计学教学中,单纯地进行理论的教授,即便进行实践的教授,也未与社会经济现象,特别是当地的实际情况结合起来。
3统计学教学改革探索
由上述分析可知,传统的统计学教学受教材内容及课时限制,过分强调理论,而忽略了实践。因此,统计学教学应有针对性的进行改革探索。
3.1调整教材内容,将抽样调查知识提前
由于有些社会现象不可能全面调查,有些社会现象没必要或没有时间全面调查,同时,会对全面调查资料进行必要的补充修正,这都决定了抽样调查的方法在社会实践中的重要作用,使得抽样调查必然应是统计学讲授中的重中之重。统计设计、整理、分析及推断都离不开抽样调查,袁卫教授编写的《统计学》中已体现了这种想法,但并未单独拿出一章来强调其重要地位。因此,在统计学教学改革中,应将抽样调查的相关知识在绪论部分加以强调,也可根据教学要求,在绪论部分讲授统计学相关概念及基本知识,然后单独拿出一章重点讲授抽样调查的方法!在讲授内容上可强调抽样调查的前提——随机抽样以及误差的产生原因及如何控制误差。这样,才能使学生更好地理解以后各章节。
3.2重视学生主动性,强化学生实践能力
鉴于很多统计学教学偏重理论,忽视实践。我们认为,在统计学教学中,应将学生的主动性融于整个统计学教学中。
(1)以组为单位,进行统计设计——问卷调查设计。讲授完统计学基础知识及抽样调查后,将学生以班为单位分成若干组,每组10人。分完组后,主要讲授统计设计和统计调查,在讲课过程中,要求每组据自身情况,选一个较喜爱的题目进行问卷调查的设计(鉴于开始出于安全性及便于管理,让学生选择与大学生相关的话题,调查对象主要是本校的学生)。学生问卷设计主要是以课余时间为主,以一周时间为限。
(2)派发问卷,进行统计调查和问卷审核。讲授统计设计和调查的这周时间里,学生将设计好的问卷(这些问卷要经过老师审核以及学生集体修改)打印,并在学校派发。派发后将问卷回收,学生对问卷进行初步审核,确定有效问卷。
(3)问卷的整理。学生回收完问卷并完成初步审核后,我开始讲授统计整理的内容(学生1周的时间完成上述内容,而1周正好可以用3个课时讲授统计设计和调查内容)。这一章重点讲授如何将回收的数据录入电脑,如何分组及如何形成数列,并用EXCEL画出各种统计图形。而留给学生两周的时间把回收的问卷录入电脑、分组,形成数列,学生在实际过程中遇到问题及时反馈,这个过程中学生对所学知识会有更深入的理解。
(4)问卷的分析和推断。问卷整理后,进行统计分析的讲授,统计分析内容较多,既涉及集中趋势和离中趋势,还涉及综合指数及时间数列等问题,用课时量较多,这个过程中,各组据自己问卷的内容,选择相应的方法对问卷进行分析,最终达到对每一道题目都进行系统的分析。由于问卷设计内容中使用的方法可能与讲课的内容不一致,这就要求学生打乱问卷题目顺序,学了什么方法就使用这种方法解决问卷中的问题。通过有针对性地解决问题,学生掌握了几种平均数的区别和联系、时间数列和变量数列的区别、时间数列中时期数列和时点数列的判别方法以及综合指数相关的知识等。
关键词:大数据;统计学;数据分析;抽样理论;理论
重构随着信息科学技术的高速度发展,当代获取和储存数据信息的能力不断增强而成本不断下降,这为大数据的应用提供了必要的技术环境和可能.应用大数据技术的优势愈来愈明显,它的应用能够帮助人类获取真正有价值的数据信息.近年来,专家学者有关大数据技术问题进行了大量的研究工作[1],很多领域也都受到了大数据分析的影响.这个时代将大数据称为未来的石油,它必将对这个时代和未来的社会经济以及科学技术的发展产生深远的意义和影响.目前对于大数据概念,主要是从数据来源和数据的处理工具与处理难度方面考虑,但国内外专家学者各有各的观点,并没有给出一致的精确定义.麦肯锡全球数据分析研究所指出大数据是数据集的大小超越了典型数据库工具集合、存储、管理和分析能力的数据集,大数据被Gartner定义为极端信息管理和处理一个或多个维度的传统信息技术问题[23].目前得到专家们认可的一种观点,即:“超大规模”是GB级数据,“海量”是TB级数据,而“大数据”是PB及其以上级别数据[2].
一些研究学者把大数据特征进行概括,称其具有数据规模巨大、类型多样、可利用价值密度低和处理速度快等特征,同时特别强调大数据区别于其他概念的最重要特征是快速动态变化的数据和形成流式数据.大数据技术发展所面临的问题是数据存储、数据处理和数据分析、数据显示和数据安全等.大数据的数据量大、多样性、复杂性及实时性等特点,使得数据存储环境有了很大变化[45],而大部分传统的统计方法只适合分析单个计算机存储的数据,这些问题无疑增加了数据处理和整合的困难.数据分析是大数据处理的核心过程,同时它也给传统统计学带来了巨大的挑战[6].产生大数据的数据源通常情况下具有高速度性和实时性,所以要求数据处理和分析系统也要有快速度和实时性特点,而传统统计分析方法通常不具备快速和实时等特点.基于大数据的特点,传统的数据统计理论已经不能适应大数据分析与研究的范畴,传统统计学面临着巨大的机遇与挑战,然而为了适应大数据这一新的研究对象,传统统计学必须进行改进,以继续和更好的服务于人类.目前国内外将大数据和统计学相结合的研究文献并不多.本文对大数据时代这一特定环境背景,统计学的抽样理论和总体理论的存在价值、统计方法的重构及统计结果的评价标准的重建等问题进行分析与研究.
1传统意义下的统计学
广泛的统计学包括三个类型的统计方法:①处理大量随机现象的统计方法,比如概率论与数理统计方法.②处理非随机非概率的描述统计方法,如指数编制、社会调查等方法.③处理和特定学科相关联的特殊方法,如经济统计方法、环境科学统计方法等[7].受收集、处理数据的工具和能力的限制,人们几乎不可能收集到全部的数据信息,因此传统的统计学理论和方法基本上都是在样本上进行的.或者即使能够得到所有数据,但从实际角度出发,因所需成本过大,也会放弃搜集全部数据.然而,选择最佳的抽样方法和统计分析方法,也只能最大程度还原总体一个特定方面或某些方面的特征.事实上我们所察觉到的数据特征也只是总体大量特征中的一小部分,更多的其他特征尚待发掘.总之,传统统计学是建立在抽样理论基础上,以点带面的统计分析方法,强调因果关系的统计分析结果,推断所测对象的总体本质的一门科学,是通过搜集、整理和分析研究数据从而探索数据内部存在规律的一门科学.
2统计学是大数据分析的核心
数的产生基于三个要素,分别是数、量和计量单位.在用数来表示事物的特征并采用了科学的计量单位后,就产生了真正意义上的数据,即有根据的数.科学数据是基于科学设计,通过使用观察和测量获得的数据,认知自然现象和社会现象的变化规律,或者用来检验已经存在的理论假设,由此得到了具有实际意义和理论意义的数据.从数据中获得科学数据的理论,即统计学理论.科学数据是通过统计学理论获得的,而统计学理论是为获得科学数据而产生的一门科学.若说数据是传达事物特征的精确语言,进行科学研究的必备条件,认知世界的重要工具,那么大数据分析就是让数据最大限度地发挥功能,充分表达并有效满足不同需求的基本要求.基于统计学的发展史及在数据分析中的作用,完成将数据转化为知识、挖掘数据内在规律、通过数据发现并解决实际问题、预测可能发生的结果等是研究大数据的任务,而这必然离不开统计学.以大数据为研究对象,通过数据挖掘、提取、分析等手段探索现象内在本质的数据科学必须在继承或改进统计学理论的基础上产生.
统计数据的发展变化经历了一系列过程,从只能收集到少量的数据到尽量多地收集数据,到科学利用样本数据,再到综合利用各类数据,以至于发展到今天的选择使用大数据的过程.而统计分析为了适应数据可观察集的不断增大,也经历了相应的各个不同阶段,产生了统计分组法、大量观察法、归纳推断法、综合指标法、模型方程法和数据挖掘法等分析方法,并且借助计算机以及其他软件的程度也越来越深.300多年来,随着数据量以指数速度的不断增长,统计学围绕如何搜集、整理和分析数据而展开,合理构建了应用方法体系,帮助各个学科解决了许多复杂问题.现在进入了大数据时代,统计学依旧是数据分析的灵魂,大数据分析是数据科学赋予统计学的新任务.对于统计学而言,来自新时代的数据科学挑战有可能促使新思想、新方法和新技术产生,这一挑战也意味着对于统计学理论将面临巨大的机遇.
3统计学在大数据时代下必须改革
传统统计学是通过对总体进行抽样来搜索数据,对样本数据进行整理、分析、描述等,从而推断所测对象的总体本质,甚至预测总体未来的一门综合性学科.从研究对象到统计结果的评判标准都是离不开样本的抽取,完全不能适应大数据的4V特点,所以统计学为适应大数据技术的发展,必须进行改革.从学科发展角度出发,大数据对海量数据进行存储、整合、处理和分析,可以看成是一种新的数据分析方法.数据关系的内在本质决定了大数据和统计学之间必然存在联系,大数据对统计学的发展提出了挑战,体现在大样本标准的调整、样本选取标准和形式的重新确定、统计软件有待升级和开发及实质性统计方法的大数据化.但是也提供了一个机遇,体现在统计质量的提高、统计成本的下降、统计学作用领域的扩大、统计学科体系的延伸以及统计学家地位的提升[7].
3.1大数据时代抽样和总体理论存在价值
传统统计学中的样本数据来自总体,而总体是客观存在的全体,可以通过观测到的或经过抽样而得到的数据来认知总体.但是在大数据时代,不再是随机样本,而是全部的数据,还需要假定一个看不见摸不着的总体吗?如果将大数据看成一个高维度的大样本集合,针对样本大的问题,按照传统统计学的方法,可以采用抽样的方法来减少样本容量,并且可以达到需要的精度;对于维度高的问题,可以采取对变量进行选择、降维、压缩、分解等方法来降低数据的复杂程度.但实际上很难做得到,大数据涵盖多学科领域、多源、混合的数据,各学科之间的数据融合,学科边界模糊,各范畴的数据集互相重叠,合成一体,而且大数据涉及到各种数据类型.因此想要通过抽样而使数据量达到传统统计学的统计分析能力范围是一件相当困难或是一件不可能的事.大量的结构数据和非结构数据交织在一起,系统首先要认清哪个是有价值的信息,哪个是噪声,以及哪些不同类型的数据信息来自于同一个地址的数据源,等等,传统的统计学是无法做到的.在大数据时代下,是否需要打破传统意义的抽样理论、总体及样本等概念和关系,是假设“样本=总体”,还是“样本趋近于总体”,还是不再使用总体和样本这两个概念,而重新定义一个更合适的概念,等等.人们该怎样“安排”抽样、总体及样本等理论,或人们该怎样修正抽样、总体、样本的“公理化”定义,这个问题是大数据时代下,传统统计学面临改进的首要问题.
3.2统计方法在大数据时代下的重构问题
在大数据时代下,传统的高维度表达、结构描述和群体行为分析方法已经不能精确表达大数据在异构性、交互性、时效性、突发性等方面的特点,传统的“假设-模型-检验”的统计方法受到了质疑,而且从“数据”到“数据”的统计模式还没有真正建立,急切需要一个新的理论体系来指引,从而建立新的分析模型.去除数据噪声、筛选有价值的数据、整合不同类型的数据、快速对数据做出分析并得出分析结果等一系列问题都有待于研究.大数据分析涉及到三个维度,即时间维度、空间维度和数据本身的维度,怎样才能全面、深入地分析大数据的复杂性与特性,掌握大数据的不确定性,构建高效的大数据计算模型,变成了大数据分析的突破口.科学数据的演变是一个从简单到复杂的各种形式不断丰富、相互包容的过程,是一个循序渐进的过程,而不是简单的由一种形式取代另一种形式.研究科学数据的统计学理论也是一样,也是由简单到复杂的各种形式相互包容、不断丰富的发展过程,而绝不是完全否定一种理论、由另一种理论形式所代替.大数据时代的到来统计学理论必须要进行不断的完善和发展,以适应呈指数增长的数据量的大数据分析的需要.
3.3如何构建大数据时代下统计结果的评价标准框架
大数据时代下,统计分析评价的标准又该如何变化?传统统计分析的评价标准有两个方面,一是可靠性评价,二是有效性评价,然而这两种评价标准都因抽样而生.可靠性评价是指用样本去推断总体有多大的把握程度,一般用概率来衡量.可靠性评价有时表现为置信水平,有时表现为显著性水平[8].怎么确定显著性水平一直是个存在争议的问题,特别是在模型拟合度评价和假设检验中,因为各自参照的分布类型不一样,其统计量就不一样,显著性评价的临界值也就不一样,可是临界值又与显著性水平的高低直接相关.而大数据在一定程度上是全体数据,因此不存在以样本推断总体的问题,那么在这种情况下,置信水平、可靠性问题怎么确定?依据是什么?有效性评价指的是真实性,即为误差的大小,它与准确性、精确性有关.通常准确性是指观察值与真实值的吻合程度,一般是无法衡量的,而精确性用抽样分布的标准差来衡量.显然,精确性是针对样本数据而言的,也就是说样本数据有精确性问题,同时也有准确性问题.抽样误差和非抽样误差都可能存在于样本数据中,抽样误差可以计算和控制,但是非抽样误差只能通过各种方式加以识别或判断[910].大多数情况下,对于样本量不是太大的样本,非抽样误差可以得到较好的防范,然而对于大数据的全体数据而言,没有抽样误差问题,只有非抽样误差问题,也就是说大数据的真实性只表现为准确性.但是由于大数据特有的种种特性,使得大数据的非抽样误差很难进行防范、控制,也很难对其进行准确性评价.总之,对于大数据分析来说,有些统计分析理论是否还有意义,确切说有哪些统计学中的理论可以适用于大数据分析,而哪些统计学中的理论需要改进,哪些统计学中的理论已不再适用于大数据统计研究,等等,都有待于研究.所以大数据时代的统计学必是在继承中求改进,改进中求发展,重构适应大数据时代的新统计学理论.
4结论
来自于社会各种数据源的数据量呈指数增长,大数据对社会发展的推动力呈指数效应,大数据已是生命活动的主要承载者.一个新事物的出现,必然导致传统观念和传统技术的变革.对传统统计学来说,大数据时代的到来无疑是一个挑战,虽然传统统计学必须做出改变,但是占据主导地位的依然会是统计学,它会引领人类合理分析利用大数据资源.大数据给统计学带来了机遇和挑战,统计学家们应该积极学习新事物,适应新环境,努力为大数据时代创造出新的统计方法,扩大统计学的应用范围.
参考文献:
[1]陈冬玲,曾文.频繁模式挖掘中基于CFP的应用模型[J]沈阳大学学报(自然科学版),2015,27(4):296300.
[3]卞友江.“大数据”概念考辨[J].新闻研究导刊,2013,35(5):2528.
[5]靳小龙,王元卓,程学旗.大数据的研究体系与现状[J].信息通信技术,2013(6):3543.
[6]覃雄派,王会举,杜小勇,等.大数据分析:Rdbms与Mapreduce的竞争与共生[J].软件学报,2012,23(1):32-45.
[7]游士兵,张佩,姚雪梅.大数据对统计学的挑战和机遇[J].珞珈管理评论,2013(2):165171.
[8]李金昌.大数据与统计新思维[J].统计研究,2014,31(1):1017.
关键字:随机抽样;应用研究;概念
0 引言
在现实生活中,数理统计学无时无刻不在身边,工程机械、经济统计、社会科学、自然科学、科学实验等领域,应用及其广泛。经过数据采集、数据统计及数据计算,数理统计的目的就是对数据的深度挖掘,发现数据内部联系,然后进行科学研究,对生活、生产具有指导意义。在科学研究中,对数据的研究不可能面面俱到,只能通过随机抽样总结整体规律,因此,随机抽样在数理统计中扮演着重要角色,透过部分数据反映总体特征,透过现象看本质,对其应用研究具有重要意义。
1 数理统计学中的随机抽样
从总体中选取一部分样本进行分析,推断总体特征的方法为随机抽样方法。其对其他方法的不同之处是带有随机性,能从一定程度上反映总体情况,具有一定代表性。理论上讲,对随机现象观察足够次数,就能清楚地知道总体的统计规律。但实际上,由于样本容量的限制,仅有少量观测,并不能清楚表达统计规律。这就需要一种有效的统计方法去解决这一问题,从而得到正确结论。因此,进行随机抽样时尽量做到以下几点:第一,根据实验目的进行采集数据,并尽量采集质量较高的数据,其质量的好坏直接影响统计推断;第二,数据处理时注意对数据的标准化、最大值及最小值影响、对数化、去噪等步骤;第三,数据具有代表性,即数据具有随机性、独立性。
2 随机抽样方法
常用的随机抽样方法主要有:简单随机抽样法、系统抽样法、分层抽样法及整群抽样法。
(1)简单随机抽样法
有抽签法、随机数法,其优点是抽样误差小,缺点是抽样手续复杂,且在总体数量有限的情况下不具有代表性。这种方法适用于所有抽样调查。
①抽签法
把总体中的N个个体编号,并把号码写在形状、大小相同的号签上,将号签放在同一个容器里,搅拌均匀后,每次从中抽出1个号签连续抽取n次,得到一个样本容量为n的样本。
②随机数法
应用随机数表、随机数骰子、计算机等产生随机数进行随机抽样调查。
(2)系统抽样法
(3)分层抽样法
又叫类型抽样法,从一个分成不同于总体的层中,按规定的比例从不同层中随机抽样的方法。其优点是样本代表性好,抽样误差小,缺点是抽样手续比简单随机抽样复杂。这种方法适用于产品质量检验、验收等。
(4)整群抽样法
又叫集团抽样法,将总体分成许多群,每个群由个体按一定方式结合而成,然后随机抽群,这些群所有个体组成样本。其优点是实施方便,缺点是代表性差,误差大。这种方法适用于工序控制中。
这些方法是基于随机抽样的代表性和稳定性而建立的,依据概率统计的大数定理,个别个体的错误或噪声影响并不影响整体水平,适当增加样本容量,对样本观测值平均值是可控的,也可以缩小统计特性误差,从而正确反映总体规律。
3 随机抽样的应用研究
随机抽样在各个领域都有涉及,与科学研究息息相关,是人们认识事物的基础。对各个领域的研究主要目的是数据挖掘,挖掘出有价值的结论或规律,指导人们生产生活。对于不同领域,应用随机抽样有着同样的步骤:
第一步,明确研究对象总体数量N及研究目的;
第二步,具有针对性地确定样本容量n,并根据上述随机抽样方法权衡各方法的适用范围,选择合适的方法进行研究;
第三步,根据选定的抽样方法把总体中的个体进行编号;
第四步,在试验中记录样本中每个个体的测量值y1,y2,···,yn,计算样本总和即∑yi及平均值 ;
第五步,计算样本的方差、总体平均值、总体的估计量及总体的标准差;
第六步,确定置信区间;
第七步,最后总结得到的数据信息,做出结论。
下面在各个领域中举例说明随机抽样应用的广泛性。在农业中,需要对田间农作物产量进行统计分析,则设计相应的随机抽样,进行样本估计总体试验;在工业中,对新产品和新原材料等进行调查分析,找出新产品中不合格产品率或原材料配料的决策问题,则需要应用随机抽样、回归分析、方差分析等统计方法;在林业方面,需要调查病虫害对树木的损害程度及导致这种虫害的原因,则需要相关人员选择合适的抽样的方法,对病虫害进行准确调查分析,得出具有公信力的结果;在自然科学和技术研发中的应用更加广泛,比如地震频率统计、气象调查、水文测量、地质资源探测、医学突发疾病抽样、技术性试验抽样等等;在社会、经济领域方面,主要有人口普查和预测、市场调查、审计统计、证券研究、交通事故率研究、经济宏观调控效应调查、手机普及率等方方面面;在工程项目中,主要有产品质量调查、服务质量调查等,通过对项目管理中的数据进一步汇总、抽样、总结等一系列工作,发现存在的问题,制定相应的方法去改正;在计算机行业,通过抽样调查才能获取数据,进而对数据进行深度发掘。
现代社会是信息时代,对信息的充分利用是一笔巨大的财富,随机抽样是信息来源的基本方法,涉及生活中的方方面面,利用好这一工具是发现问题及解决问题的很好途径。
4 结论
本文对数理统计学中随机抽样的应用研究,主要从随机抽样的概念、方法、优缺点、操作步骤等进行详细论述,并在生产生活中的各个领域进行举例说明随机抽样的重要性,对推广人们对随机抽样的认识及应用具有重要意义。
参考文献
[1] 李振东. 论数理统计学中的随机抽样[J]. 经济师, 2003,(7):269.
[2] 徐传胜. 数理统计学的发展历程[J]. 高等数学研究, 2007,(10):14-16.
[3] 柏佳丹. 21世纪统计学在经济发展中的作用[J]. 佳木斯大学社会科学学报, 2004, (08): 6-8.
[关键词]医学期刊;队列研究;统计学问题;对策
[中图分类号] R181.2+3 [文献标识码] A [文章编号] 1674-4721(2016)08(b)-0152-03
队列研究又称前瞻性研究、随访研究及纵向研究,是将一个范围明确的人群按是否暴露于某可疑因素及暴露程度分为不同的亚组,追踪其各自的结局,比较亚组之间结局的差异,从而判定暴露因子与结局之间有无因果关联以及关联大小的一种观察性研究方法[1]。这里暴露是指研究对象接触过某种待研究的物质(如重金属等)、具备某种待研究的特征(如年龄、性别及遗传因素等)或行为(如吸烟等)[2]。观察的结局主要是与暴露因子可能有关的结局。队列研究中先因后果的时间顺序相对明确,受一些偏倚的影响小,是观察性研究方法中验证病因能力最强的研究方法[3],其证据等级仅次于严格设计的随机对照试验。尽管我国的前瞻性队列研究起步较晚,但自20世纪八九十年代起也陆续开展了一些队列研究[4]。如果这些研究未能正确使用该研究方法,不但不能有效验证病因假设,还有可能得出错误的结论。本文收集并分析了近年国内公开发表的队列研究论文,发现其中存在的统计学问题并提出改进意见和建议,旨在引起作者、编者和审稿专家的重视,提高期刊论文的质量。
1队列研究文献的检索
以“队列研究”“前瞻性研究”“随访研究”“纵向研究”为关键词,在中国知网(CNKI)和万方数据库中检索2014~2015年公开发表的队列研究文献共1874篇,剔除重复文献和非研究性文献后,获得研究性文献929篇(表1)。
2 载文量及统计学方法应用情况
根据李康等[5]主编的《医学统计学》和Cochrane推荐的Newcastle-Ottawa-Scale(NOS)工具[6]对检索到的文献进行统计学方法应用情况评判,评判结果在文献评价表中登记并复核,采用Excel管理和分析数据。结果发现,绝大多数队列研究采用χ2检验和Logistic回归方法进行统计推断,约占82.0%;而使用了生存分析及Cox比例风险回归模型的仅占13.0%(表2)。
3常见统计学问题
3.1研究对象描述不清楚或不确切
研究对象的选择是随访研究的首要问题,因此文中关于研究对象的描述必须准确清楚,根据研究属于总体研究或是抽样研究,对研究对象的描述应加以区别[7]。目前我国队列研究中关于研究对象的描述主要存在的问题为:描述中对总体研究或抽样研究未加以明确说明;抽样研究中的描写模棱两可,未说明具体抽样方法。从统计学上讲,总体研究的研究对象是根据研究目的所确定的同质观察单位的全体,而抽样研究的研究对象是总体中随机抽取的部分观察单位。
例如,就“某高校教师肥胖率及其对糖尿病发病影响的研究”而言,首先要制定相应的纳入标准与排除标准,研究的纳入标准为“某高校在编、在职且未患糖尿病的教师”,排除标准为“妊娠期、哺乳期女教工”。如果研究为总体研究,其研究对象应是该高校的所有在编、在职且未患糖尿病的非孕(哺乳)教师;如果研究为抽样研究,则其研究对象是该高校所有在编、在职且未患糖尿病的非孕(哺乳)教师的一个随机样本,研究对象描述中还应具体说明所使用的抽样方法,如单纯随机抽样、系统抽样、整群抽样或分层抽样等,同时写明随机抽样的具体实施方法。
3.2结局事件及其判断标准描述不全面
随访研究的另一个重要因素是结局事件,其指随访观察中将出现的预期结果事件,研究中既要记录是否发生了结局事件,还应记录是否存在失访及失访原因(失去联系、因其他疾病死亡、研究终止)。分析我国2014~2015年已发表的队列研究文章发现,大多数研究均未描述是否存在失访,部分研究对结局事件的判断标准描述不全面。按照队列研究的设计要求,结局事件要有明确统一的判断标准。例如,2型糖尿病结局的判断标准[8-9]:确诊糖尿病,即自我报告医生诊断糖尿病和(或)正在使用胰岛素和(或)口服降糖药治疗者;未确诊糖尿病,即未诊断糖尿病但空腹血浆葡萄糖水平≥7.0 mmol/L者;对于随访期发生死亡者,如果其死亡原因中含有糖尿病也认为是随访期发生2型糖尿病。
3.3统计分析不充分或错误
3.3.1基线特征描述不全面 队列研究中暴露组与非暴露组基线特征是否存在差异以及差异的方向直接影响研究结果的解释,因此基线特征的描述是队列研究资料分析必不可少的内容。而目前国内的队列研究文献中存在较严重的不按暴露有无分组描述基线特征的现象。此外,如随访过程中存在失访,则失访者与随访者基线特征的比较也直接影响研究结果的解释。在查阅的929篇研究性队列研究文献中无失访情况描述,无失访者与随访者基线特征比较者达90%以上。
因此,队列研究的资料分析应首先比较暴露组与非暴露组基线特征的一致性,以分析基线特征的差异对研究结果是否有影响以及影响方向,同时也可确定多因素分析中需要调整的混杂因素。如果研究中有失访,还应比较失访者与随访者的基线特征是否一致,以判断失访对研究结果是否有影响以及影响方向。
3.3.2统计推断方法选择不当 统计学方法的选择一向是医学科学研究中的难点问题。队列研究中主要涉及的统计推断方法包括χ2检验、Logistic回归以及Cox比例风险回归模型,此三种方法的误用和混用在队列研究文献中较严重,包括误用χ2检验代替Logistic回归、误用Logistic回归代替Cox回归等。由表2可知,929篇研究性队列研究文献中应用了Cox回归的仅占13.0%,且2015年的比例与2014年基本相同(13.1% vs 13.0%),可见这一方法的正确应用近两年内并未引起作者以及编辑足够的重视。
队列研究中统计学方法选择的正确思路为[10]:若暴露组与非暴露组的基线特征一致,则可以直接应用χ2检验比较暴露组与非暴露组结局事件发生率的差异,以判断暴露因素与结局事件是否有关联,同时计算相对危险度(relative risk,RR)及其95%置信区间,进一步说明两者的关联强度。相反,若暴露组与非暴露组的基线特征存在差异,应采用多因素的回归分析对混杂因素进行控制。如果数据资料中无时间变量,可采用Logistic回归,并在模型中调整组间存在差异的基线特征变量;如果有时间变量,则应采用Cox回归,并在模型中调整组间存在差异的基线特征。
3.4其他问题
国内公开发表的队列研究文献存在的其他问题:①应用Logistic回归或Cox回归时,分类变量或等级变量无赋值说明,造成结果解释的混乱。例如,只有在明确“男性=1,女性=0”或者相反的情况下,才能正确解释暴露因素与研究结局之间的关系。②误用χ2检验公式:应该使用校正公式时,却应用了非校正的通用公式或专用公式;不能应用χ2检验时,却计算了χ2值。例如,两组率比较时,只有满足总例数n≥40且理论频数T≥5的条件下,才能采用非校正的四格表χ2检验的通用公式或专用公式;如果n≥40且1≤T
4队列研究医学论文作者及编辑应注意的问题
分析结果表明,队列研究医学论文的统计学方法应用基本正确,编辑人员也比较重视统计学方法的使用情况,但是仍有部分论文在研究设计和统计分析方法的应用上存在一些问题,导致的研究结果缺乏科学性和可信性。为使作者、编辑和审稿者高度重视统计学的正确应用,进一步提高队列研究医学论文的质量,笔者认为还应做好以下工作。
4.1提高对统计学知识的认识,强化统计学意识
目前,国内医学科研工作者未认识到医学统计学的重要性,对医学统计学的重视程度还不够。因此,要加大“医学统计学在医学科研中重要性”的宣传力度,提高科研工作者对医学统计学的认识;在医学科研工作中普及医学统计学知识,强化医学统计学意识,促使其在科研设计、数据分析和论文撰写中正确应用医学统计学方法[11]。
4.2加强流行病学与医学统计学专家审稿工作
医学研究,包括队列研究,其统计分析都是以科学研究设计为基础的。研究设计不科学、有缺陷,即使应用了高级的统计学方法也于事无补。所以,审稿专家在具备丰富的专业知识的同时,还应具备一定的医学统计学和流行病学知识,能够做到从研究设计到统计分析,系统地审核研究结果的科学性、可靠性,确保论文质量[12]。此外,如果条件允许,所有稿件应先通过流行病学与医学统计学专家的审核,然后再由各专业学科专家审稿,以确保研究成果的真实可靠[13]。因此,医学期刊编委会应增设流行病学与医学统计学专业的专家委员,严格审核论文的研究设计和统计分析,不合格的论文坚决不发表,这样才能不断提高稿件质量和水平。
有计划地定期聘请流行病学与医学统计学专家对期刊编辑人员进行流行病学与医学统计学知识培训[14]。通过定期举办专业知识讲座、选派编辑人员参加专题培训班、定期组织考核、根据考核结果给予适当奖励等措施,以提高编辑人员学习流行病学与医学统计学知识的积极性,不断提高其相关知识水平,最终达到提高论文质量的目的。
[参考文献]
[1]张啸飞.前瞻性队列研究及生存分析[A]//2014浙江省临床流行病学与循证医学学术年会论文汇编[C].浙江,2014: 15.
[2]李立明.流行病学[M].5版.北京:人民卫生出版社,2003:58-59.
[3]李立明,吕筠.大型前瞻性人群队列研究进展[J].中华流行病学杂志,2015,36(11):1187-1189.
[4]王慧,陈培战,张作文,等.我国人群队列研究的现状、机遇与挑战[J].中华预防医学杂志,2014,48(11):1016-1021.
[5]李康,贺佳.医学统计学[M].6版.北京:人民卫生出版社,2013:84-150.
[6]何琼,黄渊秀,康文婧,等.2001-2010年我国伤害预防病例对照研究及队列研究文献质量评价[J].中华疾病控制杂志,2014,18(10):913-916.
[7]王芳,戴国华,娄昊.循证中医药队列研究的随访设计[J].山东中医杂志,2016,(1):14-17.
[8]樊森,陈纪春,黄建凤,等.中国成人看电视时间与2型糖尿病发病关系的前瞻性队列研究[J].中国循环杂志,2014, 29(5):372-376.
[9]李卫东,傅坤发,连燕舒,等.成人非酒精性脂肪肝与2型糖尿病发病关系的前瞻性队列研究[J].中国全科医学,2015, 18(28):3426-3429.
[10]韩梅,陈薇,曹卉娟,等.比较效果研究常用方法之二:队列研究设计[J].现代中医临床,2015,22(3):20-23.
[11]沈洪兵.重视大型队列研究的人才梯队建设和技术储备[J].中华预防医学杂志,2014,48(7):547-548.
[12]高永,张中文,石德文,等.基于Excel的统计分析系统在期刊编辑部审稿中的应用[J].编辑学报,2013,25(5):478.
[13]黄晨,袁平戈,张大志.医学期刊来稿中有关统计学错误分析[J].现代医药卫生,2013,29(15):2268.
一、统计及其基本思想与方法
1 什么是统计学
问:一般认为,统计学这个词来源于拉丁语的国情学,原是国家管理人员感兴趣的事情。《大不列颠百科全书》对统计学下的定义是:“统计学是关于收集和分析数据的科学和艺术。”陈希孺院士认为:“统计学是有关收集和分析带有随机性误差的数据的科学和艺术。”
史宁中教授,作为统计学家,您是如何认识统计学的?
史教授:我们先来简单地回顾统计学的历史是有益处的。正如拉丁语所说,统计原本就是收集和分析国家管理中需要的各种数据,比如国民收入、各种税收。为了直观,人们才发明了各种报表、直方图、扇形图,等等。可以看到,这种传统意义上的统计学现在仍然是非常重要的,这也是我们现在小学统计教学中的主要内容之一。后来到了14世纪左右,随着航海业在欧洲兴起,航海保险业开始出现。为了合理地确定保险金与赔偿金,需要了解不同季节、不同路线航海出现事故的可能性大小,需要收集相关的数据,根据数据进行分析和判断,这被称为近代统计学的发端。到了19世纪末20世纪初,人们把数学、特别是概率论的有关知识引入到统计学,构建了统计学的基础。与古典统计学相比,虽然二者都是对数据的收集和分析,但却有本质的不同,因为后者进行分析的基础是“不确定性”,我们称之为“随机”。
到了现代,人们发现,对于大量数据的分析,采用随机的方法不仅方便而且准确。比如,对于国民收入,我们可以动用大量的人力来收集数据,但是谁都知道这样的数据不可能是准确的,远不如我们依据某种原则规划分出地区和人群,然后抽样、加权求和准确。再比如,对于股票市场,一天交易之后,可以得到精确的交易总量,但是人们宁可用部分核心企业的股票交易量来反映股票的变化,这便是“恒生指数”“上证指数”,等等。特别是到了2l世纪,银行、保险、电信,以及材料科学、基因组学等新兴学科的实验中涉及大量数据,其分析更需要借助随机方法了。我想,大概就是因为这些原因,国家才决定在现在中小学数学的教学中加入统计学的内容。
因此,你们谈到的关于统计学的定义都是可以的。但是,要把握统计学的根本思想方法却是非常困难的。
问:那么,您认为统计学的基本思想方法是什么呢?
史教授:这是一个不容易回答的问题。对于统计学的掌握很大程度上依赖于感悟,需要比较长的时间的理解与实践。我们先来回顾一下中小学传统数学的教学内容。这些内容主要是对日常生活中见到的图形和数量的抽象,研究的问题是图形的变化和计算法则,研究的基础是定义和假设,研究的方法主要是归纳、递归、类比和演绎推理。
统计学则不同。如我上面谈到的,统计学是通过数据来进行分析和推断的。因此,统计研究的基础是数据。这些数据的特点是,对于每一个数据而言,都具有不确定性,我们需要抽取一定数量的数据,才能从中获取信息。因此,统计学的研究依赖于对数的感悟,甚至是对一堆看似杂乱无章的数的感悟。通过对数据的归纳整理、分析判断,可以发现其中隐藏的规律。因为可以用各种方法对数据进行归纳整理、分析判断,所以,得到的结论也可能是不同的。而且,我们很难说哪一种方法是对的,哪一种方法是错的,我们只能说,能够更客观地反映实际背景的方法要更好一些。比如,我们希望知道某公司员工的收入情况,可以用平均数也可以用中位数,很难说哪个方法错。事实上,如果收入比较均衡,用平均数要好一些;如果收入比较极端,用中位数要好一些。当然,最好的方法是对收入。情况进行分类,但是分类的方法又有好坏之分。我们可以看到,统计学关心更多的是好与不好,而中小学传统数学关心更多的是对与错。
因此,统计学的基本思路是,根据所关心的问题寻求最好的方法,对数据进行分析和判断,得到必要的信息去解释实际背景。
2 统计学的研究对象
问:我们对于统计学有了一定的了解。从您的谈话中我们感觉到,统计学似乎是包罗―万象的。那么,统计学到底是研究什么呢?
史教授:是这样的,统计学的应用面非常广,凡是涉及数据分析的都可以成为统计学的研究领域。特别是到了近代,人们希望更加精细地了解实际背景,更多地借助数据分析,甚至人文科学也是如此,并且逐渐形成了专业的研究领域,比如计量经济学、计量社会学、计量教育学、计量心理学,等等。这些研究领域分析方法的基础大体是统计学。统计学并不研究某一个领域的具体内容,在本质上只是研究数据分析的方法,这包括创新的方法,也包括分析方法的好坏、分析方法的适用条件。
问:您能否结合中小学统计的内容谈得更具体一些?特别是在统计教学过程中,应当把握的基本原则是什么呢?
史教授:可以在统计研究中首先遇到的问题是如何获取“好”的数据。所谓“好”的数据,是指那些能够更加客观地反映实际背景的数据,而要获取好的数据要依赖于“好”的方法。根据数据的不同,方法主要分两大类,一是通过调查收集数据,二是通过实验制造数据-中小学统计教学中涉及的主要是前者,称为抽样调查(而后者通常被称为实验设计)_抽样调查又包含两个方面,一个是对已经存在的数据的收集,称之为抽样,比如市场的物价、学生的身高、企业的产值,等等;另一个是需要我们了解才能够获取的,称之为调查,比如美国总统的民意支持率、人们日常消费的主要项目、中小学生喜欢的歌手,等等。
根据问题的不同,所要采用的方法也可能不同,但是要建立两个基本原则。第一个基本原则是,采用能够获取好的数据的方法。为了获取好的数据,我们需要尽可能多地利用对于实际背景已有的先验知识。比如,希望知道学生的身高,先验知识是“年龄之间差别很大”。因此,最好是根据年龄段学生数的多少按比例抽取样本,我们称这种方法为分层抽样。可以看到,统计方法的直观想法是很明显的。如果对于实际背景一无所知,那么一定要抽取样本,这便是随机抽样。比如,希望知道学生喜欢的歌手,因为这些学生年龄之间差别可能不大,就可以采取随机抽样。当然也可以用分层抽样,但要麻烦得多。第二个基本原则是,采用简单的方法。能够基于上述两个原则的方法就是一个好方法。我们不要小看第二个原则,一个好的方法往往能够节省很多调查经费。这就是为什么咨询公司非常欢迎统计学家的原因。
问:刚才您提到了样本,许多教师对样本这个概念总是感到费解。
史教授:是的,这个概念很难把握。样本实质上就是数据,但是,统计学中涉及的数据往往是随机性的。还是
回到“学生的身高”这个问题上来。在抽样之前。我们可能并不知道具体数据的大小,这些数据对于我们是随机的。为了讨论出一个好的方法,我们假想能够得到这些数据,并且假想这些数据的出现是依据某种规律的,这种规律就是数据出现的可能性在小,我们称之为概率。比如,高年级学生出现大数据(高个子)的可能性要大于低年级学生,就是说,出现大数据的概率要大。但是,只有当抽样之后我们才能得到真实的数据;才能进行实质的计算与分析。这样,我们所要研究的数据既具有随机性又具有真实性。为了方便起见,我们称这样的数据为样本。
问:根据您的阐述,统计学怎么有一些哲学式的思考呢?
史教授:你们理解到了根本。这是统计学与中小学传统数学的最大区别。传统数学可以根据假设和规定的原则进行计算或者推理,但是统计学往往要问你所采用的方法是不是有道理,是不是还有更为合理的方法。不过,传统数学是统计学不可缺少的工具。
问:是不是因为统计学需要计算呢?
史教授:不仅仅如此,判断统计方法的好坏也是依赖传统数学的。