发布时间:2023-09-28 10:11:45
序言:作为思想的载体和知识的探索者,写作是一种独特的艺术,我们为您准备了不同风格的14篇统计学变量类型,期待它们能激发您的灵感。
关键词 氯吡格雷 急性冠脉综合征 血小板聚集率 高敏C反应蛋白
目前越来越多的研究证实局部或全身慢性炎症在粥样硬化斑块的发生、发展中也起到重要作用,炎症反应的激活是造成AS斑块不稳定的重要促发因素,在ACS的发病机制中起重要作用[1]。抗血小板治疗可明显降低心脏事件发生率。常用的药物为阿司匹林和氯吡格雷。目前氯吡格雷负荷量备受关注。作为炎症标记物的CRP可能促进血栓形成和动脉粥样硬化形成[2]。本研究通过检测ACS患者血清C-反应蛋白(C-reactive protein,CRP)浓度,来探讨氯吡格雷是否可抑制AS的炎症反应,而稳定斑块,改善患者预后,以及不同剂量间的差异。
资料与方法
2008年5月~2010年8月收治ACS患者60例,男40例,女20例。入选标准:符合2007年中国心血管治疗指南和建议的急性冠脉综合征的诊断标准。凡有以下情况者予以剔除:①慢性肝、肾、免疫、血液系统疾病、恶性肿瘤、感染性疾病以及诱发血栓形成的疾病(心房颤动、风湿性心瓣膜病、周围血管疾病等);②NYHA心功能Ⅳ级;③3个月内做过经皮腔内冠脉成形术(PCI)及冠脉搭桥术(CABG)或准备行PCI或CABG治疗;④近期口服抗凝、抗血小板、止血药以及抗炎、抗氧化药物(如非甾体类抗炎镇痛药、类固醇、维生素E等);⑤有抗凝或抗血小板药物禁忌证。
试验方法:患者随机选入,入院后给予不同负荷剂量氯吡格雷组(300mg、600mg),后75mg/日,连服2周。两组其他治疗包括硝酸酯类药物、β受体阻滞剂、钙离子拮抗剂、ACEI、他汀类降脂药物,以及降糖药物等常规治疗。两组患者在易患因素、基础疾病、临床治疗方面差异无统计学意义,具有可比性。患者分别于给予氯吡格雷负荷量前、给予后6小时、24小时,48小时以及1周采血测定各项检测指标。并观察两组有无出血倾向、血细胞下降等不良反应。
检测指标:mPAR测定:取3.6ml注入含有0.109mmol/L的枸椽酸钠0.4ml的塑料试管中,离心,取上层液制得贫血小板血浆(PPP),以ADP为致聚剂,采用血液聚集仪,测定血小板最大聚集,用百分比(%)表示。
hs-CRP测定:采肘前静脉血,用真空采血针穿刺静脉,促凝剂加分离胶管取血2ml;采用超敏乳胶增强散射比浊法,经全自动生化分析仪测定。
不良反应:所有入选患者均完成临床试验,无严重出血及血小板、粒细胞下降发生。氯吡格雷600mg组有2例患者出现静脉穿刺部位瘀血,自行吸收,无需停药。
统计学分析:采用SPSS16.0统计软件包进行统计学处理。计量资料用(X±S)表示,组内比较采用t检验;组间比较采用方差分析。P<0.05为差异有统计学意义。
结 果
两组患者在基线资料差异无统计学意义,见表1。
表1 患者基本临床资料比较
注:两两比较,P均>0.05。
不同负荷剂量氯吡格雷患者血小板最大聚集率(mPAR)结果各组服药后后6小时、24小时,48小时以及1周mPAR均较服药前显著降低(P<0.01),差异具有统计学意义。在24小时后可维持较低的抑制水平。600mg组在服药后6小时MPAR较300mg组降低明显(P<0.01),但24小时后对血小板聚集的抑制与300mg组无明显差异,见表2。
治疗前两组患者血清hs-CRP浓度无差异(P>0.05)。氯吡格雷治疗24小时后血清CRP浓度均显著下降(P<0.01),600mg组在服药后24小时,48小时hs-CRP较300mg组降低明显(P<0.01);服药后1周则差异不显著(P>0.05),见表2。
讨 论
众多研究证实,急性冠脉综合征患者斑块的破裂及不稳定性与炎症反应直接相关[2]。实验研究发现[4],在内皮血管壁存在CRP,与人类中性粒细胞紧密结合,诱导补体活化;CRP与一些细胞黏附分子有关,这些黏附分子在白细胞通过内皮壁时黏附和移行中起重要作用,此过程是粥样硬化形成开始重要的一步。
氯吡格雷是噻吩吡啶类药物,为血小板二磷酸腺苷(ADP)受体拮抗剂,有较强抑制血小板激活作用。氯吡格雷的活性在一定范围内呈剂量依赖性。近年来,国外有学者报道,采用高负荷剂量氯吡格雷用于PCI术前抗血小板治疗可更快抑制血小板[5~7],并显现出较好的疗效和安全性。
本观察发现,ACS患者血清CRP水平显著高于正常范围,提示CRP可作为AS斑块不稳定的标志。氯吡格雷临床疗效显著,显著降低ACS患者mPAR及CRP水平,提示氯吡格雷除抑制血小板聚集,还可通过抑制CRP等炎症介质的生成和表达而起到抗炎和稳定斑块的作用。阿司匹林是不影响TXA2途径以外的血小板活化途径,低分子肝素可阻断凝血酶诱导的血小板聚集反应,但对ADP诱导血小板活化影响不显著。这可能是氯吡格雷组CRP水平下降显著优于常规治疗组的原因。
参考文献
1 ROSS R.Atherosclerosisan inflammatory disease[J].N Engl J Med,1999,340:115-126.
2 Rus H,Niculescu FI.Inflammation,aspirin,and the risk of cardiovascular disease.N Engl J Med,1997,337:423.3 贾利敏,黄立新.C反应蛋白的临床应用及预测价值[J].实用心脑肺血管病杂志,2006,14(9):761-762.
4 Torzewski J,Torzewski M,Bowyer DE,et al.C-reactive protein frequently colocalizes with the terminal complement complex in the intima of early atherosclerotic lesions of human coronary arteries.Arterioscler Thromb Vasc Biol,1998,18:1386-1392.
5 Kastrati A,Mehilli J,Schuhlen H,et al.clinical trial of abciximab in elective percutaneous coronary intervention after pretreatment with clopidogrel[J].N Engl J Med,2004,350:232-238.
6 Pache J,Kastrati A,Mehilli J,et al.Clopidogrel therapy in patients undergoing coronary stenting:value of a high - loading-dose regimen[J].Catheter Cardiovasc Interv,2002,55:436-441.
7 CAPR IE Steering Committee.A randomized,blinded,trial of clop idogrel versus asp irin in patients at risk of ischemic events[J].Lancet,1996,348:1329-1339.
表2 不同负荷剂量氯吡格雷各时间点MPAR比较(%)
注:>/sup>表示与服药前比,P<0.01;@>/sup>表示与300mg组比,P<0.05。
目前,很多研究人员对影像资料分析方法的学习和理解存在一定困难,尤其初学者对繁杂的概念、复杂的计算公式、数据资料性质判断以及如何选择合适统计学方法等问题难以深刻理解。针对这些问题,王良等[1]建议采用以下模式:判断资料类型、根据研究目的选择分析方法、其他适宜方法。
1.1根据资料类型初步确定方法
临床研究中产生的各种不同原始资料,而不同数据资料类型采用的统计分析方法也不同。定量资料常用的方法有t检验、方差分析、非参数检验、线性相关与回归分析等。定性资料可用的方法有χ2检验、对数线性模型、logistic回归等,影像医师可根据不同需要选用不同统计方法。值得一提的是有些资料类型确定后,统计方法的选用对其有序性有相应要求;而多种方法联合应用或者使用部分少见的分析方法时还需要在选定统计方法后,利用统计软件(如SAS、SPSS)对应的不同命令进行初步分析试验。
1.2根据研究目的选择方法
1.2.1差异性研究
差异性分析是指评价比较组间均数、频数、比率等的差异。根据研究需要可选用的方法有χ2检验、t检验、方差分析、非参数检验等。临床上研究两组、多组样本比率或构成比之间的差别关系时最常用χ2检验,也是针对计数资料进行假设检验的一种常用的统计学方法,而对两组定量资料分析常用t检验和秩和检验,多组资料分析则常用方差分析;Fisher精确概率法主要适用于总体样本频数小于40或四格表中最小格子T值<1。虽然Fisher精确检验不属于χ2检验,但仍可以作为有效的补充,而也有人认为在统计软件普遍易得的当下,Fisher精确概率法也同样适用于大样本四格表的资料。如彭泽华等[6]在探讨冠状窦-左心房肌连接的双源CT冠状动脉成像(DSCTCA)形态特征时针对冠状窦-左心房肌连接的类型在两组类别变量采用联表的χ2检验,结果差异无统计学意义(χ2=0.115,P=0.944)。Teefey等[7]在研究超声表现及白细胞计数预测急性胆囊炎坏疽变化关系时使用Fisher精确分析。t检验适用于两组定量资料分析且资料满足方差齐性和正态性两个基本条件;同样t检验适用于完全随机设计的单因素两水平的资料,在选用t检验时应注意对资料进行相应的变量变换,若资料不能满足基本条件则选用适合分析偏态分布的非参数检验(如:秩和检验)进行分析。如Wang等[8]在研究不同侵袭性的前列腺癌组织和正常前列腺组织以及外周带前列腺癌Gleason评分与肿瘤信号对比时采用t检验。Kung等[9]在研究化脓性髋关节炎的临床和放射学预测指标时也使用t检验分析。秩和检验包括基本秩和检验(Wilcoxon等级检验、Mann-WhitneyU-检验)和高级秩和检验(Kruskal-Wallis、Friedmantests、Kolmogorov-Smirnov拟合检验)。当研究资料为两方差齐且呈正态分布的总体,而总体分布类型未知或者不满足参数检验的条件时,采用t检验对样本进行比较;但若无需比较总体参数只比较总置的分布是否相同且总体资料分布类型未知时需要采用非参数的Wilcoxon秩和检验进行比较。针对两组或多组样本的定性资料使用秩和检验比较时,需要混合两样本数据、编秩(从小到大)、计量T值、查表或计算求得P值。如Saindane等[10]在对“空蝶鞍”的临床意义判定因素研究中针对颅内压增高和偶然发现空蝶鞍患者两组资料对比时采用Wilcoxon秩和检验。Filippi等[11]在研究DTI测量儿童Ι型神经纤维瘤病胼胝体派生指标时运用Wilcoxon秩和检验。事实上在影像资料分析中经常见到多重组间比较的情况,方差分析(analysisofvariance,ANOVA)就是用来推断两个或者多个总体之间是否有差别的检验,又称F检验。多重组间比较不能单纯选用两样本均数比较的t检验,但是可以根据资料类型选用ANOVA检验。若来自两个随机样本资料呈正态分布且方差齐性同的定量资料,应采用两因素(处理、配伍)方差分析(two-wayANOVA)或配对t检验。通过F检验可以比较可能由某因素所至的变异或随机误差,同时可了解该因素对测定结果有无影响。当不满足方差分析和t检验条件时,可对数据进行变换或采用随机区组设计资料的FriedmanM检验。Obdeijn等[12]在研究乳腺术前MRI能减少术中切缘和乳腺保守术后再次手术,使用ANOVA分析两组资料,结果对照组(29.3%)相比术前MRI病例组(15.8%)有效减少切缘和再次手术(P<0.01)。
1.2.2相关性分析
相关性分析不等同因果性,也不是简单的个性化相比,其涵盖的范围和领域较为广泛。统计学意义中的相关性分析包含相关性系数的计算,其过程为:每个变量转化为标准单位后,乘积的平均数即为相关系数。相关性分析可以用直观地用散点图表示两个或者多个变量的离散,当其紧密地靠近于一条直线时,即变量间存在很强的相关性。相关分析常用的方法有Pearson相关性分析、Spearman等级相关分析和卡方检验。临床中对两个或者多个均为定量变量的资料,且变量均呈正态分布时可选用Pearson相关分析,但多数情况下Pearson相关分析适用于两组资料的相关性分析。判断两变量之间线性关系的密切程度主要用Pearson积差相关系数,其范围为-1~+1。若相关系数的绝对值越接近1,即两变量间相关性越密切;反之,相关系数的绝对值越接近0,其相关性越差。实际上在高质量期刊论文中使用Spearman等级相关分析的研究也很常见,其通过相关系数进行变量间线性关系分析来判定两个变量间相关性的密切程度。而密切程度的量化指标则通过计算样本相关系数r,根据实际计算r绝对值所属范围来推断两个来自总体变量的线性相关程度,从而推断总体的相关性。根据实际分析需要,将相关关系密切程度分为6等:当IrI=0时,说明两变量完全不相关:当0<IrI<0.3时,说明两变量不相关;当0.3<IrI<0.5时,说明两变量低度相关;当0.5<IrI<0.8时,说明两变量显著相关;当0.8<IrI<1说明两变量高度相关:当IrI=l时,说明两个变量完全相关。王效春等[13]在研究磁敏感加权成像与动态磁敏感加权对比增强MR灌注加权成像联合应用在脑星形细胞瘤分级中的价值一文应用Spearman等级相关分析,结果显示肿瘤内磁敏感信号与相对血容量最大值和病理分级呈正相关(IrI分别为0.72、0.89,P值均<0.01),相对血容量与病理分级呈显著正相关(r=0.78,P<0.01)。又如Lederlin等[14]在比较几何参数、相关功能与组织学特性在哮喘患者的支气管壁CT衰减性关系中同时使用Pearson相关分析和Spearman等级相关分析,其r=0.39~0.43,表明与对照组相比常规CT衰减参数在哮喘患者平常支气管的CT参数、气道壁衰减方面更好的区分哮喘患者,同时也更好地区分气道梗阻。值得提及的是对资料有序或无序无法作出初步判定,且明确资料类型为定性资料时还可以选择使用卡方检验和Spearman等级相关分析。
1.2.3影响性分析
由于事物之间的联系是多种多样的,而某一结局可能受到来自其他多个方面的影响,此时为分析某一结局发生的影响因素可采用的资料分析方法有线性回归(一元或多元)、logistic回归、Cox比例风险回归模型(生存分析)等。在影像资料分析中一元线性回归是将影像资料中一个最主要影响因素作为自变量来解释因变量的变化。多元回归定义为某一因变量的变化受多个重要因素的影响,而此时需要用两个或多个影响因素作为自变量来解释因变量的变化,且多个自变量与因变量之间是线性关系(多个因变量之间相互独立)。实际研究中多元线性回归模型在影像资料分析应用较为广泛。Langkammer等[15]在磁敏感系数绘图在多发性硬化中应用研究中使用多元线性分析,结果显示各种影响因素中年龄是预测磁化率影响最强的因素。Logistic回归是研究二分类和多分类观察结果与某些影响因素自己建关系的一种多变化分析方法,其经常需要分析疾病与各影像指标之间的定量关系,同时又需要排除一些混杂因素影响。Logistic回归在统计学上属于概率型非线性回归,其分析思路与线性回归大致相同,能有效解决过高或过低水平因素以及分析因素少而样本量大等问题。相比多元线性回归,Logistic回归在处理分类反应数据方面更为常用,且适用于结局为定性影像资料。如Lee等[16]研究高分辨率CT在发现小蜂窝样特发性间质肺炎纤维化的连续变化和预后应用中使用logistic回归分析,结果表明高分辨率CT在网状和磨玻璃状范围内评价普通肺炎与非特异性纤维化肺炎之间差别明显(P<0.01)。在临床实际工作中常常需要分析生存时间与影像资料之间的关系,Kaplan-Meier法就是常用的一种分析方法,其又称乘积极限法,对大小样本资料分析均适用。实践中习惯上以时间为横轴、生存率为纵轴回执的阶梯状图称为Kaplan-Meier生存曲线(survivalcurve),也称K-M曲线。Cox比例风险回归模型是另一种生存分析方法,包括参数与半参数模型两类,其主要是进行多因素生存分析的一种方法,同时可分析众多变量对生存时间和生存结局的影响。Saad等[17]在经颈静脉肝内门体静脉分流术在肝移植受者的技术分析和临床评估研究中比较成功施行肝移植与非移植病人开展门体分流术(transjugularintrahepaticportosystemicshunt,TIPS)后的临床疗效评估,使用了Kaplan-Meier法,结果显示6~12个月、12~24个月、24个月以上,移植成活率分别为43%、32%和22%。生存期大于1年的晚期肝脏疾病模型存活评分低于17分、等于17分或大于17分的存活率分别为54%和8%(P<0.05)。
2其他适用方法
2.1ROC曲线
ROC(receiveroperatingcharacteristic)曲线是欧美影像学期刊中应用较为常见的统计学方法,国内期刊应用相对较少。ROC曲线根据一系列不同的分界值以真阳性率(灵敏性)为纵坐标,假阳性率(特异性)为横坐标绘制的曲线。ROC曲线分析结合灵敏度(sensitivity)和特异度(specificity)广泛应用于医学诊断,也应用于影像诊断及人群筛查。ROC曲线根据曲线下面积(areaundertheROCcurve,AUC)的大小对诊断试验作定量分析。理论上,AUC值在0~1间。根据实际情况将诊断分为不符合诊断(AUC<0.5)、无诊断价值(AUC=0.5)、低准确性(0.5<AUC<0.7)、一定准确性(0.7<AUC<0.9)、较高准确性(0.9<AUC<1),AUC越接近于1,表明诊断准确性越高。Hyodo等[18]在研究乏血管少结节的慢性肝脏疾病患者发展成富血管性肝细胞癌风险因素一文中使用ROC曲线分析,结果显示后续发展成血管性结节平均增长率明显高于非血管过渡性结节。
2.2Kappa检验
Kappa检验主要用于评价不同资料间一致性程度,常用Kappa值评价一致程度。Kappa系数适用于两项和多项无序分类变量资料。在影像学试验中常需要判断多名医师测量同一研究对象或者同一医师多次测量同一对象的一致性,Kappa一致性检验便是最佳选择。Kappa检验还可通过计算Kappa值对两种非金标准的诊断方法进行诊断结果一致性分析。一般而言,评价Kappa一致性需要计算Kappa系数,但在研究考察新的诊断试验方法是否优于金标准,或者检验是否与金标准一致时,还需要计算特异度、灵敏度、阳性预测值和阴性预测值等指标。目前公认的Kappa系数分为六个区段即一致性极差(Kappa值<0),一致性微弱(Kappa值0~0.2),一致性弱(Kappa值0.21~0.40),中度一致Kappa值(0.41~0.60),高度一致(Kappa值0.61~0.80),一致性极强(Kappa值0.81~1.00)。
2.3Levene检验
作者:李宁宁 于保荣 周立波 刘甲野 徐爱强 单位:山东大学卫生管理与政策研究中心 章丘市疾病预防控制中心 山东省疾病预防控制中心
城镇职工医保患者县级医院就诊的住院床日数是市级医院的1.48倍,存在统计学差异(P<0.001);城镇居民医保患者中,县级医院和市级医院基本持平;新农合患者中,县级医院就诊的住院床日数是市级医院的1.14倍,但无统计学差异(表略)。轻度慢性乙肝患者轻度慢性乙肝患者中,城镇职工医保与城镇居民医保患者县级医院的住院床日数均高于市级医院,其中城镇职工医保患者中,县级医院是市级医院就诊患者的1.60倍,存在统计学差异(P<0.001);城镇居民医保患者中,县级医院是市级医院的2.87倍,由于样本病例数较少,不能进行统计学推断;而新农合患者中,市级医院是县级医院的1.17倍,无统计学差异(表略)。中度慢性乙肝患者中度慢性乙肝患者中,城镇职工医保和新农合患者县级医院就诊患者的住院床日数高于市级医院,其中,城镇职工医保患者县级医院的住院床日数是市级医院的1.88倍,存在统计学差异(P<0.001);新农合患者中,县级医院就诊者的住院床日数是市级医院的1.23倍,无统计学差异;而城镇居民医保患者中,市级医院住院床日数是县级医院的1.1倍,无统计学差异。
重度慢性乙肝患者重度慢性乙肝患者中,城镇职工医保、新农合患者在县级医院和市级医院就诊的住院床日数均无统计学差异。但城镇职工医保和城镇居民医保患者在县级医院就诊的住院床日数均高于市级医院,其中,城镇职工医保中,县级医院是市级医院的1.26倍;城镇居民医保中,县级医院是市级医院的1.55倍。而新农合参保者中,市级医院就诊患者的住院床日数是县级医院的1.16倍。未分型的慢性乙肝患者未分型的慢性乙肝患者中,城镇职工医保、新农合的患者中市级医院就诊的住院床日数均高于县级医院。其中,城镇职工医保参保者中,市级医院就诊患者的住院床日数是县级医院的1.30倍,存在统计学差异(P=0.011);新农合参保者中,市级医院就诊患者的住院床日数略高于县级医院,无统计学差异。不同医疗保障制度下慢性乙肝患者出院转归情况比较我国目前的住院病历中,患者的出院病情转归分为“治愈”、“好转”、“未愈”、“转院”、“死亡”及“其他”几类。为便于分析,我们将“治愈”和“好转”合并,计算了各型慢性乙肝患者的“治愈或好转率”,轻度慢性乙肝患者中,城镇职工医保参保者的治愈或好转率最高,其次是新农合参保者。新农合参保者中,中度和未分型慢性乙肝患者的治愈或好转率最高。因医保类型不明的患者病例数较少,予以剔除。结果显示:轻度、中度及未分型的乙肝患者出院转归情况差异显著。住院床日数的影响因素分析以经过对数转换呈正态分布的住院床日数为因变量,以医疗保障类型、患者性别、入院年龄、慢性乙肝分型、病情转归、医院级别及病史月数为自变量,采用逐步多元回归分析。变量赋值和多元分析结果如表10所示,发现患者的医疗保障类型、医院级别、慢性乙肝分型及疾病转变情况(即出院转归)对住院床日数的影响具有统计学意义。出院转归的影响因素分析对患者的出院转归进行多因素分析,以住院床日数、患者性别、医疗保障类型、医院级别、入院年龄及慢性乙肝分型为自变量。其中医疗保障类型、入院年龄和慢性乙肝分型均分为三组,采用二分类Lo-gistic逐步回归分析,设赋值为0的那组为哑变量,其它各组分别与它进行比较。模型分析结果发现住院床日数越长,出院转归越好;慢性乙肝分型对出院转归也有影响。而医院级别及医疗保障类型等并不影响患者的出院转归情况。
上海市针对自费和享有医疗保障患者的研究中,采取直接访谈法,并结合病案室提供的住院病历资料,分析不同医疗保障水平下患者住院天数情况,结果显示,慢性乙型肝炎患者社保组住院天数是自费组的1.4倍,并没有分析在不同级别医院就诊患者的住院床日数差异。[3]本文主要通过对同一级别医院就诊的不同医保患者住院床日数做出分析,发现:城镇职工医保参保者的各型慢性乙肝患者的平均住院床日数大约为城镇居民医保患者的1.6~2.3倍,为新农合患者的1.5~1.9倍。国内还有研究发现省级医院乙肝病人住院床日数显著大于地市级医院。[4]本研究对不同级别医院就诊住院床日数分析发现,所有乙肝患者中,城镇职工医保患者县级医院就诊的住院床日数是市级医院的1.48倍,存在统计学差异。慢性乙肝不同分型患者的住院床日数分析中,发现轻度和中度城镇职工医保患者单病例住院床日数差异显著,县级医院就诊患者的住院床日数高于市级医院。这可能是因为县级医院的治疗水平与市级医院之间有较大的差距;另外,不同级别医院报销政策的差异,也会影响患者就诊流向及患者的住院床日数。不同医疗保障制度下慢性乙肝患者出院转归的差异轻度、中度及未分型慢性乙肝患者出院转归情况差异显著。其中轻度慢性乙肝患者中,城镇职工医保患者的治愈或好转率最高(97.9%),其次是新农合患者;中度慢性乙肝患者中,新农合患者的治愈或好转率最高(98.3%),其次是城镇职工医保。纳入本研究的城镇职工医保及新农合患者参保者较多,可能是其治愈或好转率相对高的重要原因。而未分型慢性乙肝患者中,城镇居民医保患者的治愈或好转率最高(100%)。住院床日数及出院转归的影响因素北京某传染病医院对原发性肝癌、肝硬化、乙型病毒性肝炎及丙型病毒性肝炎4种疾病进行研究显示,医院级别及患病严重程度是住院天数的影响因素。[5]本研究结果发现,在不考虑患者收入影响的前提下,慢性乙肝患者的住院床日数受患者医疗保障类型、医院级别、慢性乙肝分型及出院转归影响,而出院转归亦受到住院床日数及慢性乙肝分型的影响。患者的出院转归与住院床日数是相互影响的关系。不同的医疗保障制度,其报销比例及待遇不同,对医生及患者的激励作用也不同,从而患者的住院床日数及出院病情转归可能会受到一定的影响。
医学统计学是医学科学的一个组成部分,是医学院校各专业的必修课。医学统计学作为
保证医药科研工作的重要手段已写入有关文件的要求中,作为高层次的医学专业人员,通过学
习本门课程,可以较好地把统计原理和方法的思维逻辑应用于科研和管理中,尤其在本学科
的研究设计和数据分析方面,更为明显。
通过本门课程的学习,要使学生学会人群健康研究的统计学方法,学会计量、计数资料的分析,
非参数统计方法和多元统计分析方法及医学研究设计。其目的使大家具备新的推理思维,结合专业问
题合理设计试验,科学获取资料,提高科研素质。
本课程教学的主要方法有理论讲授、课堂讨论、课堂演算等,使学生加深对理论的理解。
【主要内容及要求】
第一章绪言
1.掌握统计工作的步骤。
2.掌握统计资料的类型。
3.掌握总体与样本、概率、小概率事件,误差等基本概念。
4.熟悉统计学、医学统计学的定义、掌握统计学的研究对象。
5.了解学习本门课程应注意的问题。
第二章个体变异与变量分布
1.掌握均数、几何均数、中位数的计算和应用;掌握四分位数、标准差的应用;相对数常用指标、应用相对数的注意事项;正态分布的应用和医学参考值的估计。
2.熟悉利用统计图表描述定量资料的基本方法;制作统计图表的基本要求和规则;百分位数的计算方法;正态曲线的面积的分布规律。
3.了解定量资料频数分布表的编制方法和分布规律;常用疾病统计指标的计算;正态分布的概念及特征。
第三章抽样误差
1.掌握抽样误差的概念;标准误的意义及其应用;t分布特征及应用。
2.熟悉抽样误差影响因素;标准误的计算。
3.了解t分布特征
第四章可信区间
1.掌握可信区间的概念,总体均数95%和99%置信区间的计算及适用条件;掌握正态近似法计算总体率的95%和99%置信区间及适用条件;阐述标准差与均数标准误的区别。
2.熟悉可信区间的两个要素,查表法估计总体率的置信区间。
3.了解两均数之差的可信区间。
第五章假设检验
1.掌握假设检验的意义及步骤;第一类错误与第二类错误。
2.熟悉假设检验的基本思路;假设检验的条件;P值含义。
3.了解差异检验与优度检验;区间估计与假设检验之间的关系。
第六章定量资料的分析
1.掌握t检验的应用条件及类型,常用的t检验分析与计算过程;方差分析的基本思想;单因素方差分析的过程。
2.熟悉方差不齐时的t‘检验;多样本的两两比较方法。
3.了解两样本几何均数的比较;方差齐性检验;变量变换。
第七章定性资料的分析
1.掌握X2检验各种公式的适用条件和各种设计类型的X2检验的步骤及行×列表资料X2检验的注意事项。
2.熟悉样本率与总体率比较的u检验;多个率的多重比较;似然比检验。
3.了解两样本率比较的u检验;确切概率法。
第八章等级资料的分析
1.掌握非参数统计的概念;不同设计类型的秩和检验的实施方法及其应用条件。
2.熟悉不同设计类型的秩和检验方法。
3.了解不同设计类型的秩和检验和相应t检验的功效有何不同。
第九章两指标间的直线相关
1.掌握利用散点图确定两个定量变量之间有否线性关系;掌握Pearson积差相关、Spearman等级相关的应用条件并能计算相应的相关系数,同时进行假设检验;对分类计数频数表资料的两变量间的关联性作定量分析。
2.熟悉对不同类型的变量,用不同的统计方法去分析它们之间的关系。
3.了解利用散点图分析样本相关系数可能出现的各种假象,并作出合理解释。
第十章两指标间的直线回归
1.掌握回归的基本概念;回归分析的基本思想与方法;回归系数检验的意义与方法;相关与回归分析的区别与联系。
2.熟悉总体回归系数β的统计推断;残差与残差分析。
3.了解总体回归线的95%置信带与个体预测值Y的区间估计;过定点的直线回归。
第十一章多元回归分析
1.掌握多元线性回归、Logistic回归、Cox比例风险回归方程中的偏回归系数、标准化偏回归系数、确定系数、复相关系数、比数比(OR)的概念、应用、计算结果的解释。
2.熟悉回归分析的分类,残差的概念,最小二乘法求多元回归方程,回归方程的配合适度检验,逐步筛选法选择自变量,最大似然估计法求Logistic回归方程及Cox比例风险回归方程,似然比检验筛选自变量。
3.了解多元线性回归、Logistic回归模型。
第十二章研究设计(一)——总论
1.掌握医学研究设计的意义,研究设计的形式、研究设计的基本原则和基本要素。
2.熟悉样本含量的估计方法。
3.了解调查设计的步骤和样本含量的估计方法。
第十三章研究设计(二)——实验设计
1.掌握实验设计方法选择的依据。
2.熟悉常用实验设计方法的特点与设计方式,如完全随机设计、配对设计、配伍设计、交叉设计、拉丁方设计、析因设计、正交试验设计。
3.了解常用实验设计方法样本含量的估计。
第十四章研究设计(三)——临床新药设计
1.掌握临床试验的特点,新药临床试验的分期,新药临床试验的基本原则。
2.熟悉新药临床试验的统计分析方法。
3.了解临床诊断试验与评价的方法。
第十五章统计表和统计图
1.掌握统计表的基本结构和要求,统计图形的选择、制图通则。
很多科研人员(包括临床医生)在进行科研工作过程中,习惯用专业知识取代一切其他知识。其突出表现是:等科研工作已经完成,甚至论文已写完,因某些数据处理有问题被退稿时,才想起要找统计学工作者帮助处理论文中的实验数据;考虑问题稍周到一些的科研人员在科研工作完成之后,在撰写论文之前就想到要运用统计学知识来分析实验数据。这两种运用统计学的科研人员都是在把统计学当作分析数据的“计算工具”或当作发表学术论文的“敲门砖”,是对统计学重要性认识不足的突出表现。理由很简单,科研数据是否正确可靠、是否值得进行数据分析、结论是否可信等一系列重要问题都没有令人信服的证据来帮助说明,换句话说,若缺乏科研设计或科研设计不科学、不完善,即使花费10年时间和数亿人民币进行调查或实验获得了大量科研数据,与某人用计算机产生的毫无专业含义的任意多个随机数据没有什么区别,除了浪费了大量国家和人民的血汗钱,对科学技术进步、对人类的贡献不仅为零,甚至是负数!因此,在进行科研工作之前,制定科学完善的科研设计方案,特别是其中的实验设计方案或调查设计方案的质量好坏,是科研工作成败的关键所在!
科研设计包括专业设计和统计研究设计。专业设计主要包括基本常识和专业知识的正确、全面、巧妙地运用;而统计研究设计包括实验设计、临床试验设计和调查设计。值得注意的是:在很多科研人员所做的科研课题中,不仅严重忽视统计研究设计,就连专业设计也有严重错误,主要表现在犯了基本常识错误和违背专业知识错误。这类错误所发生的频率还相当高,是一种不能容忍的不正常现象!
在统计研究设计所包含的3种研究设计中,实验设计是最重要的,因为很多关键性的内容都包含在其中,其核心内容是“三要素”、“四原则”和“设计类型”。所谓“三要素”就是受试对象(或调查对象)、影响因素(包括试验因素和重要的非试验因素)和实验效应(通过具体的观测指标来体现);所谓“四原则”就是随机、对照、重复和均衡原则,它们在选取和分配受试对象、控制重要非试验因素对观测结果的干扰和影响、提高组间均衡性、提高结论的可靠性和说服力等方面将起到“保驾护航”的作用;所谓“设计类型”就是实验中因素及其水平如何合理搭配而形成的一种结构,它决定了能否多快好省且又经济可靠地实现研究目标。科研人员若对重要非试验因素考虑不周到、对照组选择不合理、设计类型选择不当或辨别不清,导致科研课题的科研设计千疮百孔、数据分析滥竽充数、结果解释稀里糊涂、结论陈述啼笑皆非。下面笔者就“实验设计”环节存在的问题辨析如下。
1 在分析定量资料前未明确交代所对应的实验设计类型
人们在处理定量资料前未明确交代定量资料所对应的实验设计,对数千篇稿件进行审阅后发现,大多数人都是盲目套用统计分析方法,其结论的正确性如何是可想而知的。这是一条出现非常频繁的错误,应当引起广大科研工作者的高度重视。
2 临床试验设计中一个极易被忽视的问题——按重要非试验因素进行分层随机化
例1:原文题目为《气管舒合剂治疗支气管哮喘的临床观察》。原作者写到:“全部病例均来源于本院呼吸专科门诊和普通门诊,随机分为治疗组40例和对照组30例。其中治疗组男21例,女19例;年龄21~55岁,平均(36.28±9.36)岁;病程2~23年,平均(10.31±17.48)年;病情轻度者16例,中度24例。对照组30例,男16例,女14例;年龄20~53岁,平均(35.78±9.53)岁;病程3~24年,平均(11.05±6.47)年;病情轻度者13例,中度者17例。两组间情况差异无显著性,具有可比性。”请问这样随机化,其组间具有可比性吗?
对差错的辨析与释疑:显然,研究者在试验设计时未对重要非试验因素采用分层随机保证各组之间的可比性。这条错误的严重程度为不可逆,出现不可逆错误意味着原作者的试验设计具有无法改正的错误,必须重做实验!究其原因,主要是原作者未理解统计学上随机的概念。统计学上随机化的目的是尽可能去掉人为因素对观测结果的干扰和影响,让重要的非试验因素在组间达到平衡。稍微留意一下原作者随机化分组,明显带有人为的痕迹,治疗组40人比对照组30人多出10人;治疗组病程的标准差17.48是对照组病程的标准差6.47的近3倍。笔者很疑惑怎样的随机化才能达到如此的不平衡?事实上随机化有4种:子总体内随机、完全随机、分层随机和按不平衡指数最小原则所进行的随机,原文条件下应当选用分层随机,即以两个重要的非试验因素(性别和病情)水平组合形成4个小组(男轻,女轻,男中,女中),然后把每个小组内的患者再随机均分到治疗组和对照组中去,这样分层随机的最终结果一定是治疗组和对照组各35人,且使2组间非试验因素的影响达到尽可能的平衡,从而可大大提高组间的可比性。在本例中,若“病程”对观测结果有重要影响,在进行分层随机化时,在按“性别”和“病情”分组的基础上,还应再按“病程”(设分为短、中、长)分组,即共形成12个小组,将每个小组中的患者随机均分入治疗组与对照组中去,这是使“性别、病情、病程”3个重要非试验因素对观测结果的影响在治疗组与对照组之间达到平衡的重要举措,也是所有临床试验研究成败与否的最关键环节!
3 实验设计类型判断错误
例2:某作者欲观察甘草酸、泼尼松对慢性马兜铃酸肾病(AAN)肾损害的干预作用,于是,进行了实验,数据见表1。原作者经过用甘草酸和泼尼松分别与同期正常对照组和模型组比较,一个P<0.05,另一个P<0.01,于是得到甘草酸、泼尼松对慢性AAN肾损害具有一定程度的保护作用,且泼尼松的效果更佳。请问原作者的结论可信吗?表1 各组大鼠血BUN及SCr变化比较(略)注:与正常对照组同期比较,*P<0.05,**P<0.01;与模型组同期比较,P<0.05,P<0.01
对差错的辨析与释疑:本例错误极为典型,通常科研工作者欲观察某种药物是否有效,习惯上会建立正常对照组、模型组(即该药物拟治疗的病态组)和在模型组基础上的用药组(如本例中甘草酸组和泼尼松组)。这样的设计本身并没有错,但这仅仅是专业上的“实验安排(可称为多因素非平衡组合实验[1])”,而并非是统计学中所说的某种标准实验设计类型。写在“组别”之下的4个组,并非是一个因素的4个水平,而是2个因素水平的部分组合。这2个因素分别是“是否建模(即正常与模型2个水平)”和“用药种类[即不用药(相当于安慰剂)、用甘草酸和用泼尼松3个水平]”。2个因素共有6种水平组合,即“组别”之下缺少了“正常基础上用甘草酸”和“正常基础上用泼尼松”。这样设计的实验才可能反映出“是否建模”与“用药种类”2个因素之间是否存在交互作用。
在本课题研究中,由于未在实验前作出正确的实验设计,处理数据时错误就悄然产生了。具体到本例,从原作者在表1的注解中可以看出,通过单因素方差分析分别比较同期(即相同观测时间点)的甘草酸组和泼尼松组与正常对照组和模型组之间的差别是否有统计学意义。这样的做法有3个严重错误:第一,严格地说,在模型组基础上的用药组是不适合直接与正常对照组相比较的,因为这样的比较解释不清到底是药物的作用还是由于模型未建成功而造成的假象;第二,将各个时间点割裂开分别比较破坏了原先的整体设计,数据利用率降低,误差估计不准确,导致结论的可信度降低。将一个重复测量实验的各个时间点割裂开来考察,就等于在各个片段上估计实验误差、作出统计推断,好像盲人摸象一样,摸出来的结果差别何其之大;第三,要想说明两种药物哪个效果更佳,在得出差别具有统计学意义的基础上,衡量的标准是应看组间平均值的差量的大小而不应看P值是否足够地小,不能说P<0.01时就比P<0.05时更有效,这种忽视实验误差、忽视绝对数量和脱离专业知识的想法和做法都是不妥当的。
如何正确处理表1中的实验资料呢?关键要正确判定该定量资料所对应的是什么实验设计类型。由前面的分析可知,表1定量资料对应的是“多因素非平衡组合实验”,而不是某种标准的多因素实验设计类型。明智的做法是对“组别”进行合理拆分,即根据专业知识和统计学知识,对“组别”之下的所有组重新进行组合,应使每种组合对应着一个标准的实验设计类型。正确地拆分结果分别见表2和表3。表2 正常对照组与模型组大鼠血BUN及SCr变化的测定结果(略)表3 模型组和2个用药组大鼠血BUN及SCr变化的测定结果(略)
事实上,由科研习惯形成的这一套实验方案笔者形象地称之为多因素非平衡的组合实验,或者说,它是实验设计的表现型。通常可以进行统计分析的都必须是标准型(即统计学上所说的某种实验设计类型),因此需要能看出代表表现型本质的原型(本例中组别之下应该有6个组,这6个组构成一个2×3析因设计结构,但原作者少设计了2个组)。通常需要将表现型或/和原型拆分成标准型后再选择合适的统计分析方法进行数据分析。本例根据原作者的意图,可以将表1拆分成2个标准型,形成2个具有一个重复测量的两因素设计定量资料,见表2和表3。相应的统计分析方法就是具有一个重复测量的两因素设计定量资料的方差分析。此处请读者注意:第一,具有一个重复测量的两因素设计定量资料的方差分析和一般的方差分析虽然都叫方差分析,但它们的计算公式却有本质区别,绝不可混用;第二,重复测量因素(本例中为时间)不要与实验分组因素(表2中叫“是否建模”;表3中叫“药物种类”)同时列入左边,它们是本质不同的两种因素,一般应该把“重复测量因素”放到表头横线下方。
通过本例可以看出,在实验前明确实验设计是多么重要的一件事情。试想,若让本例原作者写明他的实验设计类型,他必然就会对基本的实验设计类型作一番调查和学习,自然就能发现他所“设计”的实验并不是统计学上相应的实验设计。那么通过咨询相关人士必能做出比较正确的实验设计,不仅可以提高科研设计水平,而且可以大大提高科研课题和论文质量。
例3:原文题目为《土荆芥-水团花对胃溃疡大鼠黏膜保护作用的研究》。原作者使用单因素多水平设计定量资料方差分析处理表4中的数据。请问原作者这样做对吗?表4 各组黏膜肌层宽度、再生黏膜厚度变化(略)注:与正常组比较,aP<0.05;与NS组比较,bP<0.05;与CP 10 mg·kg-1 组比较,cP<0.05
对差错的辨析与释疑:本例涉及到统计学三型理论[1]中的一些概念,简单地说就是可以直接进行统计分析的来自标准设计的数据表叫标准型,反映问题本质但并非是标准型的数据表叫原型,而掩盖了原型信息的数据表叫表现型。“组别”之下的6个组,似乎是某个因素的6个水平,其实不然!这6个组涉及到多个试验因素,应对“组别”拆分重新组合后,再分别判定各种组合所对应的实验设计类型,并选用相应的统计分析方法。组合1:空白对照组(正常)、阴性对照组(NS),这是单因素两水平设计(简称为成组设计)。由于正常组无实验数据,故该组合无法进行统计分析;组合2:NS组、RA组、CP(20/mg·kg-1)组,这是单因素3水平设计,因素的名称叫“药物种类”;组合3:NS组、CP(10/mg·kg-1)组、CP(15/mg·kg-1)组、CP(20/mg·kg-1)组,这是单因素4水平设计,因素名称叫CP的剂量(其中,NS组可视为CP的剂量为0)。
对于组合2和组合3,若定量资料满足参数检验的前提条件,可选用相应设计定量资料的方差分析,否则,需要改用相应设计定量资料的秩和检验。
4 人为改变设计类型且数据利用不全
例4:某作者使用表5中的数据进行分析,欲比较治疗组和对照组在治疗后的各个时间点的疗效情况,使用的分析方法为一般卡方检验,请问原作者这样做对吗?
对差错的辨析与释疑:从给出的统计表可以看出,该作者有意或者无意之间收集了一类相当复杂的实验设计类型下的定性资料,结果变量为多值有序变量的具有一个重复测量的两因素设计定性资料,处理这个设计下收集的定性资料要使用相应设计定性资料的统计模型分析法。由于上述方法过于复杂,因此,通常在实际运用中,实际工作者将重复测量因素武断地视为实验分组因素,从而使该资料变为结果变量为多值有序变量的三维列联表资料。在已经出错的前提下,原本应当使用CMH校正的秩和检验或者有序变量的多重logistic回归分析处理资料。然而,该作者显然在此基础上进一步合并了数据,将结果变量变成二值变量(有效、无效),也就是说,原作者实际使用的仅仅是最后一列数据(即总有效率),并且最为严重的错误是将三维列联表资料强行降维成二维列联表资料,使用一般χ2检验进行分析。经过一系列的简化与错误合并,最后结论的可信度还剩下多少呢?表5 原作者对2组疗效比较的试验设计及数据表达(略)注:与对照组同期比较,*P<0.05
由于篇幅所限,这类错误笔者只给出1例,实际上此类例子在很多杂志中普遍存在。这说明在进行实验设计时,很多研究人员并未做到心中有数;分析数据时,按自己熟悉的简单统计分析方法所能解决的数据结构强硬地改造数据,严格地说,在用表格表达实验资料的那一刹那就已人为改变了资料所对应的实验设计类型,这种做法的科学性和得出结论的正确性都将受到质疑[2]。
5 正交设计及数据处理方面的错误
人们在进行正交设计和对正交设计定量资料进行统计分析时,常存在下列3个误区:很多人过分强调用正交设计可以大大减少实验次数,因此,无论各实验条件(正交表中的每一行)下的实验结果波动有多大,都不做重复实验,这是第1个误区;将正交表各列上都排满试验因素,用对实验结果影响最小的试验因素所对应的标准误作为分析其他因素是否具有统计学意义的误差项,导致误差项的自由度较小,结论的可信度较低,这是第2个误区;在对正交设计定量资料进行方差分析后,即使存在多个无统计学意义的因素,仍对少数几个有统计学意义的因素进行解释,未将无统计学意义的因素合并到误差项中去重新估计实验误差,以获得具有较大自由度的误差项,这是第3个误区。
参考文献
【关键词】脑干胶质瘤;MRI影像学;病理分级
脑干胶质瘤主要是指发生在脑干部的来自于神经外胚层的肿瘤,在儿童人群中较为常见,在所有儿童脑肿瘤中占据10-20%,而不同类别的脑干胶质瘤也有着不同的病理分布特点和生物学特点,通过对患者的脑干胶质瘤病理关系进行分析,可以有效判断出患者肿瘤的发病程度,从而为患者的治疗起到指导作用[1-2]。现在选取我院收治的脑干胶质瘤患者,对其MRI影像学进行分析,并判断与病理分级的关系情况进行回顾性分析,同时将回顾结果报告如下。
1资料与方法
1.1一般资料选取我院在2008年8月-2012年10月间收治的52例脑干胶质瘤患者,其中,男性30例,年龄在2-56岁之间,平均年龄为31.4岁,女性22例,年龄在3-61岁之间,平均年龄为32.6岁。所有患者均经过手术治疗,并有明确的病理诊断,对所有患者的MRI影像进行分析,并对相关数据进行统计学检验,分析变量与病理分级的关系。对所有患者的病理分析过程进行跟踪观察,并将所得实验数据记录。
1.2方法
1.2.1病理分析患者的病理类型主要包括星形的细胞瘤、胶质母细胞瘤、少突胶质细胞瘤、间变性的星形细胞瘤等,对所有患者的病理根据WHO分级,主要分为低级别的胶质瘤组合高级别的胶质瘤组[3]。
1.2.2影像学表现以肿瘤中心的起源作为标准,主要分为脑桥、中脑、延髓胶质瘤,根据肿瘤的MRI影像学显示,最大直径,内生型肿瘤是否属于跨脑干轴位的中线生长,T1W1信号的改变是属于混杂信号,还是均匀低信号,T2W1信号改变是属于混杂高信号,还是均匀高信号,增强效应是否强化,肿瘤是否出现囊变,肿瘤中心是否出现坏死,肿瘤对基底动脉是否出现包绕等,通过对上述因素进行分析,并判断与其与变量分级的关系。
1.3统计学分析对所有的计量数据采用SPSS13.0软件进行统计学检验,对各变量与病理分级关系进行分析,差异显著,有统计学意义(P
2结果
通过对本组患者的发病情况进行分析可知,患者的脑干胶质瘤大多发生在脑桥,延髓、中脑等部位,三个部位之间的高低级别脑干胶质瘤分布无显著统计学差异(P>0.05)。患者较为常见的脑干胶质瘤类型是局灶内生型,其次是外生性胶质瘤和顶盖型胶质瘤,各个生长类型的胶质瘤在高低级别之间分布无统计学差异(P>0.05)。在T1W1之间分布的脑干胶质瘤主要呈现出低信号,有31例,21例患者呈现出混杂型信号,在T2W1之间,36例患者呈现出高信号,16例患者呈现出混杂信号,胶质瘤的高低级别分布无统计学差异(P>0.05)。52例患者的脑干胶质瘤大部分存在强化现象,少部分无明显的强化现象。胶质瘤的高低级别分布无统计学差异(P>0.05)。患者的脑干胶质瘤中囊变、跨中线生长、基底动脉包绕、坏死等病理因素与患者的病理分级差异显著,有统计学意义(P
3讨论
脑干主要分为脑桥、中脑和延髓三个部分,脑干胶质瘤的发病部位会牵涉到两个以上的部位,延髓处的胶质瘤发病率最高,其次是脑桥和中脑,对于患者的危害较大。影响患者脑干胶质瘤的主要因素有脑干胶质瘤的直径大小、有无坏死灶、是否囊变、是否跨脑干轴位的中线生长等,通过对这些病理因素进行分析,可以判断患者的肿瘤发展程度,对于直径小于2cm的胶质瘤,属于低级别的胶质瘤,可以在早期采用保守方法进行治疗,而对于大于2cm的胶质瘤,则要在早期主张手术治疗,以免错过最佳治疗时机[4]。通过对相关病理因素进行分析,可以指导患者对症治疗并有效预后,以改善患者病情。
参考文献
[1]万贻绿,漆松涛,方陆雄,等.94例脑干胶质瘤MRI影像与病理分级的关系分析[J].中华神经外科杂志,2012,28(4):346-349.
[2]李茂,梁漱溟.脑干胶质瘤的MR分型及诊断价值(附58例分析)[J].实用放射学杂志,2009,74(06):56-57.
关键词:生物统计学;实验教学;改革探索;实践
中图分类号 G642.0 文献标识码 A 文章编号 1007-7731(2013)15-148-02
生物统计学是数理统计原理和方法在生物学中的应用,不仅在生命科学领域、而且也在其他学科领域中得到广泛应用,是一门工具学科[1]。生物统计学的理论性和实践性均较强,涉及的基本原理、公式和概念较多,需有一定的数学基础和逻辑推理能力才能学好,相对于其他专业课程,师生普遍反映难教、难学、难记[2]。《生物统计学》不容易理解和掌握,导致学生缺乏学习兴趣和动力,考试前通过死记硬背接受理论知识,形成短暂记忆,随着时间的延长,所学内容逐渐忘记。这门课程讲授完之后,学生不会灵活运用其中的方法,也不会设计一个简单的试验,更不会将生物统计学的基本理论、技术和常用统计方法应用到本科毕业论文设计中,导致理论教学与实践应用脱节,显然未达到教学目的。以往《生物统计学》教学以单纯理论教学为主,不设或很少开设实验课。因此,笔者结合《生物统计学》的基本原理,利用计算机和统计软件,开设了《生物统计学》实验课,并尝试对该课程的实验教学方法进行改革探索。
实践教学环节非常有利于提高大学生的培养质量,而《生物统计学》课程教学的实践环节亟待加强。在《生物统计学》实验教学过程中,我们利用计算机辅助实验教学,开设以下实验课:(1)《生物统计学》某章节理论知识讲授完之后,利用计算机和相关统计软件,开设相应的实验课。在实验课上,教师通过统计软件演示例题的计算和分析过程,并讲授统计软件的使用方法,学生根据所学理论知识,结合实例在计算机上借助统计软件进行操作,这样使学生获得知识更加直接与快速。(2)学生参与试验设计和科学试验。学生要在生产实践或实验室中设计试验,亲自参与试验数据的采集,并对试验数据进行统计和分析,这样有利于加深学生对所学内容的理解。《生物统计学》教学开设了如下实验:
1 利用Excel绘制常用统计图
Excel绘制图形功能强大,各种版本的Excel软件均提供了14种标准图表类型,每种图表类型中又含有2~7种子图表类型;还有20种自定义图表类型可以套用。讲授完试验资料的搜集和整理后,开设利用Excel绘制常用统计图的实验课。学生在实验课上利用Excel绘图时,可以对图表区、绘图区、数据系列、坐标轴、图例、图表标题的格式,例如文字的颜色、字体、大小,背景图案、颜色等进行修改和调整,使修饰后的图形更加美观好看,爽心悦目。当图和数据放在一张工作表上、学生改变绘制图形的数据时,其图形将发生相应变化;将鼠标放在图中某数据点上,在鼠标下方将弹出一个文本框给出数据点的具体数值;用鼠标单击绘图区中的“数据系列”标志,其图所属数据单元格将被彩色框线围住,便于用户查看图形的数据引用位置。在“数据系列”点击右键可以向散点图、线图、条形图等添加趋势线,并可给出趋势线的方程与决定系数。
2 利用Excel进行数据描述统计分析
讲授完试验资料特征数的计算后,开设利用Excel进行数据描述统计分析的实验课。首先选用与生活联系紧密的数据资料,让学生利用Excel计算这些数据的平均数、中位数和众数,测定和分析这些数据的集中趋势,然后利用Excel测定样本标准差、总体标准差和四分位数,让学生分析这些数据的离散趋势。另外,让学生利用Excel分析总体次数的分布形态,计算总体平均值的置信区间,有助于识别总体的数量特征。总体的分布形态可以从两个角度考虑,一是分布的对称程度,另一个是分布的高低。前者的测定参数称为偏度或偏斜度,后者的测定参数称为峰度。
3 利用Excel进行统计假设检验
讲授完统计推断之后,利用Excel进行统计假设检验的实验课。统计假设检验是根据随机样本中的数据信息来判断其与总体分布是否具有指定的特征[1]。我们选择实际案例,让学生提出假设,利用Excel中适当的统计方法计算检验的统计量及其分布,确定显著性水平和决策规则,最后推断是否接受假设,得出科学合理的结论,这个过程就称为假设检验或统计假设检验。统计假设检验的方法多样,通过比较就会发现它们的基本方法和步骤大同小异,例如t检验、u 检验、x2检验等,可以详细讲述其中1~3种假设检验方法,其它假设检验方法可以采用启迪和推导方式让学生利用统计软件自行轻松地学习和操作。
4 利用Excel和SAS软件进行方差分析
讲授完方差分析之后,开设利用Excel和SAS软件进行方差分析的实验课。利用Excel只能进行单因素或双因素(包括可重复双因素和无重复双因素)方差分析,而涉及双因素随机区组试验、三因素试验和裂区试验等试验数据的方差分析,即让学生利用SAS软件进行多重方差分析。另外,Excel中的单因素或双因素方差分析只能给出方差分析表,不能进行平均数的多重比较,也无法用不同字母标记法表示差异显著性的结果,这些也都需要利用SAS软件。
5 利用多种统计软件进行回归分析
由一个或一组非随机变量来估计或预测某一个随机变量的观测值时,所建立的数学模型及所进行的统计分析,称为回归分析[1]。按变量个数的多少,回归分析有一元回归分析与多元回归分析之分,多元回归分析的原理与一元回归分析的原理基本相似。按变量之间的关系,回归分析可以分为线性回归分析和非线性回归分析。利用统计软件进行回归分析时,首先让学生如何确定因变量与自变量之间的回归模型;如何根据样本观测数据,估计并检验回归模型及未知参数;在众多的自变量中,让学生判断哪些变量对因变量的影响是显著的,哪些变量的影响是不显著的。在方差分析实验课上,先让学生利用Excel进行简单的线性回归分析,然后利用SPSS软件进行相关与回归分析,最后利用SAS软件进行多元线性回归分析和逐步回归分析,使学生了解不同统计软件的特点、功能和作用。
6 利用基本原理设计试验
试验的精确度高低取决于试验设计的各个方面,只有通过有效地控制试验误差才能提高试验精确度。因此,教师有必要正确引导大学生在试验过程中要做到操作仔细,这样有利于提高学生的科研素质。在试验工作中,从试验资料中发现潜在的规律性是极其重要的,这需要科学合理地运用统计学的基本原理和方法。讲授完试验设计之后,要求学生根据试验设计的基本原理,在生产实践或实验室内提出试验设计的基本思路,制定试验方案。然后,学生分组讨论试验设计的可行性,并进行纠正和修改。在试验前期,学生应进行试验前期准备工作。在试验过程中,学生要考虑试验条件的差异对试验数据的影响,可根据试验设计的原理和技巧分析试验出现的问题,使学生获得的理论知识与实际联系起来,从而加深对理论知识的理解。试验结束后,获得大量的试验数据,需要选择正确的统计方法分析试验资料,得出科学合理的结论,以达到研究目的。最后,教师根据学生设计的试验思路、方案、步骤及作出的试验报告给予评价。通过开设试验设计实践课,可以使学生明确试验的目的、试验设计方法、试验因素及水平等内容,有利于提高学生设计试验方案的能力。
实践证明,开设《生物统计学》实验教学后,学生能够在计算机上借助相关统计软件亲自统计试验数据,利用所学的统计学方法分析和检验试验结果,最后得出可靠的结论。最后毕业时,学生能根据试验设计的基本原理,可独立完成毕业论文试验设计,实施设计的试验方案,获得试验数据资料。由于试验数据统计分析耗时,而且繁琐,因而过去毕业生害怕对试验数据进行统计分析。自从我们结合《生物统计学》的基本原理,利用计算机和计软件开设了该课程的实验教学后,学生轻松地掌握了该课程的基本原理和统计分析方法,统计和分析数据的速度、精确度均大幅度提高。现在部分学生还能帮助教师进行科研课题的数据处理和分析,毕业论文水平也大大提高。
《生物统计学》教学实验课的开设,使学生从被动学习转变为积极主动地学习,培养了学生进行科学试验设计的能力,初步掌握开展科学试验设计的方法;培养学生掌握正确收集、整理试验资料的方法,能利用生物统计方法对试验资料进行正确的统计分析;培养学生掌握常见统计软件的使用方法和统计方法。《生物统计学》实验课深受学生的欢迎,这也是对该课程实验教学的尝试和改革探索的肯定。在该课程实验教学过程中,笔者深刻体会到要提高《生物统计学》课程的实验教学效果和质量,教师需要投入时间与精力,钻研实验教学内容,提高教学水平,转变实验教学理念,不断探索和优化多元化的实验教学方法。
参考文献
[1]李春喜,邵云,姜丽娜.生物统计学[M].4版.北京:科学出版社,2008:1-3.
【关键词】人际信任 家庭类型 普遍信任
人际信任是个体将他人的言词、承诺以及口头或者书面的陈述认为可靠的一种概括化的期望。人际信任对大学生人际交往有一定的影响,比如大学生人际信任的高低,会影响大学生与同伴交谈,生活中的交际和交友,体现在与人接触的能力。良好的人际信任对大学生的成长有促进作用,对心理健康发展也有帮助。为了解大学生人际信任在职务、生源地和家庭类型上的差异现状,调查研究情况如下。
一、对象与方法
(1)对象。 随机抽取190名大学生进行调查, 获得有效样本190份,回收率100%。其中,职务:担任班级职务的大学生56人,没有担任班级职务的大学生134人;平均年龄21.04±1.40岁;生源地:来自城市的大学生29人,来自农村的大学生161人;家庭类型:属于独生子女家庭的有27人,非独生子女家庭的有170人。调查时间为2014年10月。
(2)方法。采用自行设计调查表,调查基本情况,包括职务、生源地和家庭类型。采用Rotter编制的人际信任(ITS)量表调查,并做相应访谈。
(3)统计学处理。采用SPSS16.0进行描述统计分析和独立样本t检验。
二、结果
(一)不同职务、生源地、家庭类型大学生人际信任差异比较(表1)
表1 不同职务、生源地、家庭类型大学生人际信任评分结果比较(x±s)
注:*代表p(双侧)< 0.05,**代表p(双侧)< 0.01,下同
表1所示,从职务自变量上看,大学生人际信任在特殊信任因子、普遍信任因子及人际信任总分上的得分,没有统计学意义上的差异(p>0.05)。从生源地自变量上看,大学生人际信任在普遍信任因子及人际信任总分上的得分,差异有统计学意义(p0.05)。从家庭类型自变量上看,大学生人际信任总分上的得分,差异有统计学意义(p0.05)。
三、讨论
(1)班级职务差异。研究发现,是否担任班级职务,大学生人际信任的特殊信任、普遍信任因子及信任总分,没有显著差异。通过访谈发现,原因是班干部和非班干部是同龄人,他们和父母、同伴的交流方式有90后的时代特点,渴望情亲和友情,但是相处中矛盾较多,等等的时代共同点和受教育环境的相似,故差异不显著。
(2)生源地差异。研究发现,来自城市的大学生,人际信任在普遍信任因子及人际信任总分显著高于来自农村的大学生。通过访谈发现,原因是城市大学生大都是独生子女,是每个公寓的唯一孩子,父辈和祖辈给予的爱和关注更多,成长环境更安逸,在与人相处中更容易信任陌生人,故城市大学生人际信任的总体得分也较高。
(3)家庭类型差异分析。研究发现,独生子女家庭的大学生,人际信任总分显著高于非独生子女家庭的大学生。访谈发现,独生子女大学生,父母给予他们的期望和爱较多,在成长过程中,指导和保护也较多,独生子女大学生他们的社会实践参与的较少,对人的评价也较多的往积极方面考虑,故他们的人际信任总得分较高。
四、建议
社会方面,社会大环境中,弘扬正气,法制健全,提高整体国民素质水平,社会的整体人际信任高,在这样的安全的环境下,大学生的人际信任会得到全面发展,特殊信任和普遍信任都会有所提高。学校方面,可以多让大学生参加集体活动,在理论教育的同时,让大学生有更多的参加生活实践的机会,增加独生子女和非独生子女的互动交流,让大学生与朋友家人和睦相处的同时,也能结交更多的新同学新朋友,为其步入社会的人际信任发展打下基础。家庭方面,家长首先认识到大学生已经是成年人,可以独立承担家庭一部分责任,并且有能力;其次,给大学生与人交流交往的机会和信任,家庭有重大决定可以和其商量,然后共同决定;最后,父母的交流互动模式是大学生人际信任发展的第一课堂,父母在生活中有良好的互动方式是有必要的。个人方面,大学生认识到自己已经长大成人,自己有主动与人交往交流的能力,能人际信任发展的能力,不仅能与家人和睦相处,在生活中也能和陌生人打交道。
参考文献:
方法:采用癫痫患者生活质量量表-31中文版(QOLIE-31中文版),对87例成人癫痫患者的生活质量进行评估,对可能影响成人癫痫患者生活质量的因素进行单因素和多因素分析。
结果:研究发现,性别、婚姻、职业类型不是成人癫痫患者生活质量的影响因素(P>0.05)。影响成人癫痫患者生活质量的因素是发作频率、学历、经济情况、发作类型、抗癫痫药物数目、年龄和病程(P
结论:①性别、婚姻、职业类型不是成人癫痫患者生活质量的影响因素。②发作频率、发作类型、经济情况、学历、抗癫痫药物数目、年龄和病程是影响成人癫痫患者生活质量的因素。③发作频率、发作类型、经济情况和学历在多个方面影响生活质量。
关键词:癫痫 生活质量 量表
【中图分类号】R-1【文献标识码】B 【文章编号】1008-1879(2012)07-0242-05
癫痫作为一种常见的慢性疾病,癫痫反复发作给患者造成身心损害,长期服药及药物的不良反应也给患者及其家庭造成巨大的心理压力和沉重的经济负担,并且社会歧视等使患者不能正常的融入社会。癫痫患者生活质量的研究开始于20世纪70-80年代,目前对成人癫痫患者生活质量影响因素的这方面的研究报道不多,对可能的影响因素没有较全面的进行调查与分析,本研究本研究采用QOLIE-31中文版[1]对成人癫痫患者进行调查,可能影响成人癫痫患者生活质量的10个因素(包括人口统计学方面、临床情况方面、社会经济学方面)进行较全面的调查和分析,试图发现影响成人癫痫患者生活质量的因素,进而采取综合治疗全面提高成人癫痫患者生活质量。
1 资料和方法
1.1 研究对象。病例:以2009年1月至2011年1月在湖北省中山医院神经内科门诊确诊的成人癫痫患者为病例组。
入选标准:以“1981年国际抗癫痫联盟公布的癫痫发作分类及诊断要点[33]”为诊断标准而确诊的癫痫患者。年龄满18岁以上;文化程度在小学以上;无严重心肺疾病;病程1年以上;服药期间。
1.2 研究方法。
1.2.1 一般情况。资料收集:性别、年龄、婚姻状况、学历(小学、初中、高中及以上)、职业类型(无工作、体力劳动、脑力劳动)、发作类型(单纯部分性发作、复杂部分性发作、全面性发作)、发作频率、服用抗癫痫药物数目(单药、多药)、病程、经济情况(较差:≤5000元/年、一般:5000元/年-50000元/年、较好≥50000元/年)。
1.2.2 调查表格。采用癫痫患者生活质量量表-31(QOLIE-31中文版)调查:发作担忧、生活满意度、情绪、精力/疲劳、药物影响、认知功能、社会功能等七个方面的得分情况。
1.2.3 评分。按QOL-31的评分规则评分:以百分制算出生活质量七个方面的各自的得分,然后将这七个方面的得分乘以各自的权重,算出这七个方面的分项得分,将分项分相加得出最后总得分,七个方面得分及总得分越高,各方面生活质量越好。
1.2.4 统计学处理。数据分析采用SPSS13.0(for windows)统计软件,所有检验标准a=0.05。
1.2.4.1 对所收集到的资料进行描述性统计分析,分别计算出频数、百分数、数据波动范围、均数、中位数。
1.2.4.2 用单因素分析,筛查出可能影响生活质量的因素。对筛查出的因素进行多因素回归分析,得出影响生活质量各个方面的因素。
1.2.4.3 对筛选出的因素用多元线性回归分析方法中的逐步回归法,分析可能影响成人癫痫患者生活质量的因素。也就是将筛选出的可能影响因素作为多个自变量,生活质量总得分及七个方面的得分分别作为应变量进行逐步回归分析,从而得出对各应变量有影响的因素。
2 研究结果
2.1 一般资料。研究共调查87例成人癫痫患者,其一般情况如下:
性别:男:48人,占55.2%;女:39人,占44.8%。年龄:18-83岁,中位数为28岁。病程:1-34年,中位数为5年。发作频率:0-30次/月,中位数为1次/月。婚姻状况:未婚:36人,占41.2%;已婚:51人,占57.8%。学历水平:小学:16人,占18.4%;初中:34人,占39.1%;高中及以上:37人,占42.5%。职业类型:体力劳动:23人,占26.4%;脑力劳动:44人,占50.6%;无工作:20人,占23.0%。经济情况:较差:15人,占17.2%;一般:56人,占64.4%;较好:16人,占18.4%。发作类型:部分性发作:22人,占25.3%;全面性发作:65人,占74.7%。药物数目:单药:63人,占72.4%;多药:24人,占27.6%。
2.2 生活质量各方面得分。生活质量七个方面得分和总得分见表1,从该表可以得出发作担忧方面得分最低,而精力/疲劳方面得分最高。
2.3 影响生活质量的各因素分析(a=0.05标准)。
2.3.1 通过t检验,分析性别、婚姻状况、发作类型、药物数目对生活质量各方面的影响,结果如下:
性别:如表2,男性和女性在生活质量的各个方面得分都没有统计学差异。
婚姻状况:如表3,已婚与未婚在生活质量各个方面得分都没有统计学差异。
地质统计学理论和应用近几年取得了很大的进展,其中最重要的发展是随机建模技术.尽管建模中转向带法(TurningBand)在18年前就有人提出,但在当时并没有对随机建模引起重视.原因之一是人们对建模的意义和重要性认识不足;再则是由于早期的方法存在很多问题.因此该方法的改进进行得非常缓慢.直到80年代初,把建模概念应用到油藏描述中的非均质性研究后,才有了很大的发展.随机建模是在研究区域内人工合成多个、等概率的高精度地质模型(用地质统计学的术语叫作“实现”)|3].多个模型是与确定建模相对的,它反映出由于地质资料不足,而存在的多解性和不确定性.在每一个模型上都出现的现象则是可靠的、确定性的现象,在各个模型中时而出现又时而消失的现象则是不确定的现象.等概率是指模型的数据分布与原始数据的分布或理论分布是一样的.随机建模与各种克里格方法的区别在于,克里格方法[1]是从已知资料出发来获取未采样区局部的最佳估计,它只考虑局部信息,而不考虑原始或产生的数据的空间分布特性;在随机建模中强调的是模拟值与原始数据和理论分布全局特性,而不是局部精度.另外.对给定的局部信息和统计量来说,克里格方法给出的是单个的数字模型,而随机建模给出的是多个可选的数字模型.目前新出现的随机建模方法很多,根据所采用的方法,可将随机建模归纳为四种:布尔随机点法、与高斯分布有关的方法、指示模拟方法以及退火方法(SimulatedAnnealing).各种不同的模拟方法把已知信息的整体统计量和分布特征体现在所建立的模型中.例如,在布尔类型方法的建模中,可使所模拟的几何形态符合地质体的特征形态;与高斯有关的建模方法可以使所模拟的连续类型的变量值的协方差忠实于原来数据的协方差模型.如果在建模过程中把上述类型的方法混合使用,则可产生反映原始数据多个方面特征的数字模型,从而为建立反映油藏各种特征的模型提供了定量方法.
另外,地质统计学在克里格方法的基础上也有了很大的突破.克里格方法的主要特点是BLUE,即最佳线型无偏估计方法.目前除了常用的简单克里格方法、普通克里格以及泛克里格方法外,还出现了协克里格(Cokriging)、析取克里格(DisjunctiveKriging)、指示克里格(In-dicatorkriging)、指示主成分克里格(Indicatorprinciplecomponentkriging)、同位克里格(Colocatedkriging)、模糊克里格方法(Fuzzykriging).这些方法都是针对不同的资料来源、精度和特征而设计的,因此为解决油藏参数分析和预测中的问题提供了广泛的途径.
2地质统计学在油藏参数分析中的应用
油藏参数分析主要是研究油藏参数以及参数之间的变化规律.油藏描述中大多数参数与空间位置密切相关,它们的变化既具有结构性又具有随机性.地质统计学中主要的分析工具是半变异函数,其表达形式为
式中,rG)为半变异函数,它是距离矢量K的函数;为分析数据中相距为矢量^的变量的样品配对的数目,即{;c(m),_t(m+S)}的数目.如果/i取一定的方向,且从0变化到某一值,那么就可以求得一系列的r(X)〜Z的值.把它们绘制在一张图上,则可得到与该方向相对应的变异函数图(如附图).变异函数特征一般由三个参数念m确定:变程a(又称变量相互影响的范围)、块金效应C。和基台值.其中,变程大小反映了变量相关距离的大小.当时,则r(K)趋于某个极限值此时的值称变胃为基台值.变异函数分析是进行克里格计算和随机建模的起点和基础,它为克里格估计提供准确的模型.
2. 1各向异性研究
由于变异函数是向量Z的函数,因此通过不同方向的K的变异函数和变异图分析,可以了解到油藏参数沿不同方向的变化情况.如果各个方向的变异函数相同,则可以认为该参数在空间上是各向同性的,否则为各向异性侯景懦把不同方向的变异函数作成等值线图以反映矿体的非均质情况[‘].孙洪泉根据等值线的形状还将矿体进行分类⑴,他认为如果等值线为圆形则为各向同性;如果为椭圆则为几何各向异性;凡不能通过坐标的线型变换转换为各向同性的各向异性则为带状各向异性在考虑形状的同时考虑结构变化的范围,还可以将非均质性进一步细分,这一方法同样适合油藏各向异性的分析.
2.2反映油蔵参数变化综合指标的构造
由于综合指标反映了变量影响范围,又反映了变量变化的幅度,因此可以根据这一点来构造反映参数变化快慢的综合性指标如:只=02乙2/0^/«_4+^2),式中,a为变程;L为参数所在空间的长度;AT为数据的均值;C为变异函数的基台值就是一个既能反映参数沿某一方向变化的速度,又能反映参数沿该方向的变化幅度,还能反映参数变化的空间异向性的综合指标它比通常所用到的统计参数具有明显的优点:(1)H是在充分考虑参数在空间不同方向上的变化幅度和变化速度的基础上构造出来的,从而反映了参数空间变化的异向性.(2)H严格在[0,1]之间变化,因而可用百分数表示,便于对比和分类.
2.3沉积相变化的研究方法
用变异函数来研究沉积相,首先要确定各类砂体在空间的变化特征,如:河道砂体与沟道砂体的形状为长条形,沿流水方向参数变化幅度小,变化速度慢,变异函数图中变程较大;而垂直水流方向则相反当然这种分析还必须根据其它地质证据才能作出正确的沉积相分析,但它提供了另一条寻找沉积相判断证据的途径
除了变异函数外,Deutsch和Joumel还归纳了其它种类的地质统计学分析工具,如互变异函数、协方差函数、相关函数、对数变异函数、平方根变异函数、绝对值变异函数以及指示变异函数等.其中任一个函数都可用来推断油藏参数的空间变化性,而且各种方法都有优缺点,应视不同的情况选择最合适的分析方法.
3地质统计学在参数预测中的应用
地质统计学作为一种blue插值方法,早已在矿产品位估计和储量计算、计算机地质制图中网格节点值的估算中得到广泛应用.油藏描述中的参数预测,就是利用现有的各种精度、各种尺度和各种类型的数据和信息对空间上某一点或某一区块的参数值进行估计和推断.Journel和Alabert把油藏描述中的数据分为两类[6]:—类是可靠的或叫做硬数据(Harddata);另一类是模糊的或者精度不高的软数据(Softdata).前者如取心资料、测井资料(包括生产测井〉等;后者如地震资料、物化探资料、地质家和采油工程师的推测和解释预测的关键就在于定量化地综合这些信息,并且描述预测的可靠性.Doyen用协克里格方法把不同精度的取心资料和地震旅行时的信息结合起来对孔隙度分布进行估计和预测,并把预测的结果与通常所用的地震辅助的孔隙度计算结果进行对比结果表明,用协克里格预测的孔隙度均方根误差要比用二乘法要小50%.他又把该方法用于阿尔伯达油藏描述.结果表明,用协克里格方法要比通常的线性回归精度要高20%[7].Doyen的主要贡献在于把不同精度的信息用定量的数学表达式对某一地质现象进行研究,真正达到了数据的综合.Journel提出了一种非参数估计的克里格方法即指示克里格方法(Indicatorkrigmg)18-01.尽管对这种方法有很多争议,但这种方法却能对综合的各种信息进行预测,并给出预测精度
假设要估计的变量为Z,对Z的任何估计Z'很可能带有误差.对Z进行多次观测得到一系列的观测值乙,)=1,2,3,…,TV.只要这一系列观测的条件保持不变,那么这几个测值就可以用于建立预测Z的不确定性模型如待估值Z小于或等于某一值2。的概率就可以用Z,<Z0的个数与N的比值来近似.变量2的累积分布函数可写成:/^2<乙丨(《)}=2,<乙的个数与W的比值,其中j=l,2,3,”*,W.引入指示变换(设截止值为乙):
那么不确定程度就可用下式来表示:F(ZJ(n))在[0,1]区间变化,它是截止值乙和现有信息的函数上式的F(ZJU))模型所用的是对指示数据/(乙,Z,)等概率加权(1/«),也可用不等权公式:式中,七…=i.有了累积分布函数可以求预测值落入某个区间的概率大小,即Pize
以上只考虑了对某个变量的重复观测情况,如果考虑在不同位置处对同一变量进行一次观测时,即用不同位置处的值2(力),_/_=1,2,3,“‘,_^来预测未知点工处的值2(1)时,并且现有信息有硬数据和软数据时,就必须要用软克里格方法(指示克里格别称).在油藏描述中,一般硬数据较少,而且都有一定的精度分布范围,即2(力)€[>(4),6(而)],如孔隙度只能在[0,0.3]之间变化对一待预测点,指示信息可被看成一列k个指示值的集合,每个指示值对应于走个截止值中的一个在没有其它信息的情况下,只能知道区间外的信息,而对区间内的信息一无所知:对硬信息来说,Z(x,)=a(:r,)=6(:r,).如果知道Z的分布,那么指示值就可以在[0,1]之间取值,而不仅仅为0或1.
另外,还可以用以下公式考虑多种信息以获取对某一值Z的预测:
式中,[/(U]为估计或预测值.j是为使在[0,1]之间取值的变换,而r(x,)e[l,W]是按已知值逐渐增加顺序排列的顺序值.这种方程就是协克里格方程这里2«个加权值a,(Z,:c)和6/Z,x)可通过解协克里格方程求得.目前在指示克里格基础上又发展了指示主成分克里格方法和马尔科夫-贝叶斯方法[11’12].Bardoss等又提出了一种新的模糊克里格方法,用于非确定数据的分析和参数预测[13].这些方法目前还在试用阶段,一旦成熟,必将会给油藏描述中数据预测提供更合理的方法.
4地质统计学在描述储层非均质性中的应用
储层非均质性是影响石油采收率的主要因素.储层中流体的分布与运动完全受不同规模的储层非均质影响.因此对非均质的研究始终是油藏描述中的一个难题.传统参数预测方法(包括克里格方法)对参数起到一种平滑作用,不能反映参数的变化性而在油藏开发中,储层参数的变化性极为重要,如渗透率的极大或极小对油田开发设计和方案调整极为重要,必须有一种能保持这些奇异性的方法Journel和Alabert研究出一种顺序指示建模法.他们首先对0.3mX0.3m的砂岩切面密集取样测得渗透率值,再从1600个取样点随机取10个点,然后借助于1600个点的变异函数模型,再用顺序指示模拟方法对10个点进行建模,并把模拟结果与原始的和用克里格方法产生的模型进行比较.结果表明,顺序指示模型方法确实能反映储层的非均质性其中一个关键工作是变异函数模型选择,有人也借助于与研究对象相似的露头或研究成熟区的成果,从而达到反映非均质性的目的.
Suro-perez.V.等用随机建模法分析了储层非均质性对油藏动态预测的影响.整个研究分两步进行.首先.对大的地质特征如沉积相、岩相进行研究,建立了储层框架;然后再对每个岩相中流动特征进行研究;最后把这两步研究结合起来产生各种随机模型,把随机模型输入油藏数值模拟中.研究非均质性是如何影响生产动态的.整个研究方法是指示主成分克里格和顺序建模方法.Dentsh和Journel认为,在随机模拟中人们的愿望是生产的模型越多越好,
但在工程上往往只要求保留其中一个或几个模型.因为油藏数值模拟不可能把所有模型都输入计算机中进行运算.因此他们又制定出选择模型的方法和原则.应该指出的是,没有一个随机建模方法能同时忠实于现有的所有类型的信息.某些方法很适合于离散型或类型型变量,如岩相、岩石类型,其它的方法则适合于孔隙度、含油饱和度和渗透率等连续性类型信息的研究.但象生产资料和测试资料有时很难综合在油藏模型中.为解决这些问题,Journel等把模拟退火的方法引入随机建模中.退火方法来自热动力学,即液体冷却结晶或金属冷却和退火过程,它的理论基础是波次曼概率分布尸{£}〜eXp(它表示了在温度为:T时热平衡系统的能量概率地分布于所有不同的能量状态£之中,为波次曼系统.从能量^跳到E2状态的概率为:
如果£2小于,那么系统将总在变化,而且总想保持能量最低.任何类似于这一优化过程的方法叫做模拟退火法.这种方法已被广泛地用于神经网络理论和应用之中.用于随机建模的目的是通过对初步建立的模型进行附合某种约束条件的修改,即初步模型的组分优化达到使模型忠实于更多现有数据和信息.因此,用模拟退火方法一般分两步进行:(1)用任何建模方法生成初始模型;(2)对初始模型进行退火模拟.Farmeer首先用这一方法合成了岩石类型的数字模型[18〕,CUyt0n和Journel把这一方法与用其它方法的计算结果进行比较.结果表明,退火方法比其它几种都好,但计算时间较长.
目前又出现一种把地质统计学与分形几何相结合描述油藏非均质性的方法其中Hewett首先把分形几何学的概念用于油藏描述,他认为储层参数的变化具有分形特征.因此利用分紅布朗运动d)概念来描述参数横向变化特征,建立储层非均质模型.目前这些方法还在探讨阶段.
【关键词】 创伤和损伤;对比研究;学生;农村人口
【中图分类号】 R 641 G 478.2 【文献标识码】 A 【文章编号】 1000-9817(2008)09-0782-03
伤害严重威胁着人类的生命和健康,近年来已成为主要的公共卫生问题之一,并已被列为单独的一类疾病[1]。我国每年约有70万人死于伤害,伤害已成为中小学生的首位死因[2],给人们的身心健康和国家的经济造成了极大负担[3]。随着社会经济的发展和教育体制的改革,寄宿制学校越来越多[4]。通过调查研究,人们逐渐认识到寄宿生特有的生活方式,使他们在心理、体质等很多问题上与普通学校的学生存在差异[5-7],对这一群体的管理和教育方式也应有所侧重。为进一步了解安徽省农村寄宿制学校学生的伤害发生情况,笔者于2007年12月到2008年5月对安徽省5个县农村寄宿制学校的部分学生进行了问卷调查。
1 对象与方法
1.1 对象 采取分层整群抽样法,在安徽省抽取长丰、绩溪、全椒、濉溪和岳西5个县作为调查点,每个县抽取寄宿制学校5所,共计25所。每所学校从符合条件的年级抽取1~3个班,对其所有学生进行调查。共发出调查问卷5 624份,回收并审核后的有效调查问卷5 556份,问卷合格率达98.79%。学生年龄范围9~21岁,平均年龄为(14.97±2.07)岁;其中长丰县958人(17.2%),绩溪县1 008人(18.1%),全椒县1 019人(18.3%),濉溪县1 722人(31.0%),岳西县849人(15.3%);男生3 241名(58.3%),女生2 315名(41.7%);住校生2 607人(46.9%),住家学生2 133人(38.4%),住亲戚朋友家334人(6.0%),租房住者482人(8.7%);小学生721名(五年级377名,六年级344名),初中生3 201名(初一1 011名,初二1 288名,初三902名),高中生1 634名(高一528名,高二490名,高三616名)。
1.2 调查变量与方法
1.2.1 社会人口统计变量 包括性别、独生子女情况、学习阶段(小学、初中和高中)、体型(很瘦、偏瘦、中等、偏胖和很胖)、地区(长丰县、绩溪县、全椒县、濉溪县和岳西县)、住宿类型(住校、住亲朋家、租房住和住家)、自评家庭经济状况(下等、中下、中等、中上等和上等)和父、母文化程度(无父/母、未上或小学未毕业、小学毕业、初中、高中、中专大专及以上)等。
1.2.2 伤害发生情况 问卷中列出10种常见伤害类型,要求学生填写自己在最近1 a的发生情况。调查员到各学校以班级为单位进行现场调查,学生集中填写问卷并当场收回。伤害发生率=(1 a中至少发生过1次伤害的人数/调查总人数)×100%。
1.2.3 伤害的分类及判断标准 参考ICD-10损伤、中毒外因分类,将伤害分为扭伤、跌伤或坠落伤、烧伤或烫伤、溺水、交通事故、刀(或锐器)割伤或刺伤、动物咬伤、中毒、爆炸伤、电击伤和窒息等共10种。凡有以下情况之一者判定为伤害:(1)到校医室或医院处理过;(2)由教师或家长做过紧急处理;(3)因伤缺课0.5 d以上。
1.3 统计方法 用EpiData 3.0建立数据库,SPSS 13.0进行统计分析。用描述性统计分析方法分析一般情况,χ2检验用于分析学生的伤害发生率有无差异。分别以住校和住家2种住宿类型学生总的伤害发生情况为因变量,对单因素Logistic回归分析有统计学意义的因素进行多因素Logistic回归,探讨这2种住宿类型学生伤害发生的主要危险因素。
2 结果
2.1 农村寄宿制学校学生伤害发生情况 被调查者在过去1 a内至少发生1次伤害者2 891人,伤害发生率为52.0%。各类伤害累计发生次数为9 582次,伤害者平均伤害发生频率为1.72次/人。由表1可见,住校、住亲朋家、租房住和住家这4种住宿类型的学生伤害总体发生率差异有统计学意义(χ2=8.44,P<0.05),不同住宿类型学生在交通事故和动物咬伤这2种类型伤害发生率间的差异均有统计学意义。经两两比较可知:住家学生伤害总发生率和交通事故发生率均高于住校生,OR值分别为1.18和1.80,P值均<0.05;住家学生交通事故发生率亦高于住亲戚朋友家的学生(OR=2.63,P<0.05);住家学生动物咬伤发生率高于其他3种住宿类型学生,OR值分别为1.37,2.16和1.53, P值均<0.05。
2.2 农村寄宿制学校学生伤害的分布特征
2.2.1 不同性别学生伤害发生情况 由表2可见,男生伤害总发生率为56.7%,女生为45.5%,差异有统计学意义(χ2=67.28,P<0.01)。在不同类型的伤害发生率上的性别差异均有统计学意义。
2.2.2 不同学习阶段学生伤害发生情况 由表3可见,伤害总发生率在不同学习阶段之间的差异有统计学意义(χ2=66.15,P<0.01),其中初中生伤害发生率(55.9%)和小学生伤害发生率(54.1%)均高于高中生(43.6%)。具体类型中,扭伤、跌伤或坠落伤、烧伤或烫伤、刀(锐器)割伤或刺伤的发生率以初中生最高,而溺水、交通事故和动物咬伤的发生率以小学生最高。
2.2.3 不同地区学生伤害发生情况 由表4可见,不同地区学生伤害总体发生率差异有统计学意义(χ2=95.07,P<0.01)。多种伤害类型发生率的地区间差异均有统计学意义。
2.3 不同住宿类型学生伤害危险因素分析 由表5可见,按α=0.05的标准选取,进入住校生和住家生伤害回归模型的变量相同,分别是地区、学习阶段和性别;将各变量进行赋值,地区(岳西县为对照)、学习阶段(高中为对照)和性别(赋值为男1女2),经多因素非条件Logistic分析(Forward:LR法,纳入、剔除标准分别取0.05和0.10)可知,影响住校生伤害发生率的因素有地区(绩溪县和长丰县高于岳西县)、学习阶段(初中生高于高中生)和性别(男生高于女生),而影响住家学生伤害发生率的因素有性别(男生高于女生)、学龄阶段(初中生高于小学生和高中生)和地区(长丰县高于岳西县)。
3 讨论
许多研究显示,青少年是伤害的高发人群[8-9]。我国中小学生每年发生伤害达4 250万人次,因伤害缺课达2.38亿天,不仅对学生本身的身心健康和学业造成了不良影响,给家庭和社会带来的负担亦是巨大的。调查结果显示,安徽省农村寄宿制学校学生在过去1 a里总的伤害发生率为52.0%,伤害者平均伤害发生频率为1.72次,这一结果高于胡佳等[10]的报道,低于阳本华等[11]的报道结果,可能与所调查的伤害类型和资料来源不同有关,也有可能与调查对象地域差异有关。
本次调查的学校是寄宿制学校,被调查的学生以住校和住家2种居多。调查结果显示,4种住宿类型的伤害发生率存在明显差异,其中住校生的烧烫伤和交通事故发生率均明显低于非住校生,这可能与住校生接触这2类危险的机会较少有关。有关资料显示,交通伤害已成为中小学生伤亡最主要原因之一[12]。因此,对于非住校生,应加强他们的交通安全意识,教育他们养成遵守交通规则的好习惯,以减少交通事故的发生率。虽然减少伤害相关行为的发生是降低伤害发生率的有效手段,但随着年龄增长,从事家务劳动是一个必然趋势,学生在使用煤气、电器的同时,需注意避免烧烫伤、电击伤、中毒等伤害的发生,这就需要教师和家长积极引导和提醒以去除伤害的隐患。另外,地区也是影响伤害发生的一个主要因素,这与他们的地理位置、气候特征以及生活习惯等差异有关,不同地区的有关部门应当根据自身特点制定伤害防范和管理措施。
伤害的发生与性别因素有关,与刘慧慧等[13]多数报道结果一致。调查中女生的伤害发生率大都低于男生,这可能与她们独有的性格、运动强度小、活动范围小有关,并且在日常生活中,社会各方面对男女生的保护和教育方式也不相同,今后应加以注意,降低男生伤害的发生率;伤害的发生在不同的学习阶段之间存在差异。初中生伤害的总体发生率高于小学生和高中生,且跌伤、烧烫伤、刀割伤的发生率也最高,可能与这个年龄段的孩子活动的机会多、强度大,喜欢新鲜和刺激的游戏有关;而小学生溺水、交通事故和动物咬伤的发生率最高,尤其是住校的小学生,是住校生中伤害发生的高危人群,自理能力较弱,心理尚处于未完全成熟阶段,应加强教育以促进他们尽快摆脱幼稚,并做好防范与管理工作;尽管高中生可能由于学业的压力使其伤害发生率最低,但仍然不能放松警惕,缓解压力,促进他们身心健康是必不可少的。此次调查发现,有8.7%的学生在外租房住宿,他们的安全系数大幅度降低,对于这部份学生的身心健康的关注和安全管理也不容忽视。
伤害预防要根据不同的年龄和群体制定有效的安全措施[14]。通过开展各种教育活动提高学生的自理能力、自我保护意识和自我救治技能,以减少伤害的发生和避免不良结局的产生。除此之外,学生的安全问题仅靠学校单方面的努力是不够的,家庭的配合和社会的关注必不可少[15]。只有社会各界共同行动,才能有效减少和预防学生意外伤害的发生。
(致谢:本课题得到安徽省学校体育卫生协会的大力支持,特此感谢!)
4 参考文献
[1] 王春灵,王云霞.766例儿童意外伤害原因分析及预防.华北煤炭医学院学报,2008,10(1):91-92.
[2] 季成叶,陶芳标.儿童青少年非故意伤害预防.中国公共卫生,2005,21(9):1 150-1 152.
[3] 王声.我国伤害流行病学研究亟需开展.中华流行病学杂志,1997,18(3):131-133.
[4] 李士凯.寄宿学生的疾病预防与管理.现代预防医学,2005,32(2):156.
[5] 刘朝军,田素英,寻广磊,等.寄宿制和非寄宿制学校高中生心理健康状况比较.中国临床康复,2004,8(27):5 782-5 784.
[6] 蔡亮亮.寄宿小学生610名健康状况调查.中国学校卫生,2003,24(6):640.
[7] 赵红深,陈雄新,李健芝,等.不同住宿方式学生体质状况比较分析.中国学校卫生,2008,29(4):366-367.
[8] 吴晓红,陈建华,杨楚春,等.黄石市小学生伤害流行病学调查.疾病控制杂志,2004,12(8):519-522.
[9] MACKENZIE SG, PLESS IB. CHIRPP: Canada's principal injury surveillance program. Inj Prev, 1999,5(3):208-213.
[10]胡佳,刘莉,毛军,等.上海浦东新区2003学年中小学生伤害发生情况.中国学校卫生,2005,26(11):976-977.
[11]阳本华,李军,肖和平,等.郴州市中小学生伤害流行病学调查分析.现代预防医学,2001,28(2):152-154.
[12]王声.校园安全与中小学生伤害现况.中国学校卫生,2006,27(2):96-98.
[13]刘慧慧,郝加虎,张国庆,等.宿州市农村中小学生伤害影响因素分析.中国学校卫生,2005,26(6):464-465.
[14]张振华.福州市儿童青少年意外伤害分析.中国校医,1999,20(3):172.
Abstract: The variable is in a statistics basic category, but each kind of statistics teaching material is different to its definition, creates the understanding confusion; The author unified the teaching experience to carry on the thorough ponder to the variable concept, caused its better and better by the time.
关键词:变量标志统计指标统计数据
Key words: Variable Symbol Statistical target Statistical data
作者简介:鲁瑜,女,1963年9月出生,讲师。籍贯:安徽省桐城县,出生地:河南省洛阳市。1986年洛阳大学计划统计专业专科毕业,1997年中南财经政法大学财务会计学本科毕业,2007年西安建筑科技大学工业工程硕士毕业。研究方向为统计核算、企业会计。
那么统计学中讲的“变量”该如何理解呢?变量的概念是发展变化的,按发展变化的时序有以下几种理解:第一、统计中的变量是指可变的数量标志;第二、变量是指可变的数量标志和全部统计指标;第三、变量是指可变的数量标志和可变的统计指标;第四、变量是说明现象某种可变特征的概念,更明确一点,即:变量包括可变的品质标志和可变的数量标志和可变的统计指标。普遍的认为第四种理解更符合客观实际,笔者也赞同第四种理解。
一、统计中的变量是指可变的数量标志这种理解较狭隘,通过讲解引入可变的品质标志也是变量,即“可变的标志”都应作变量看待。
一般变量的讲解是这样进行下去的:首先明确统计学中的几个基本概念,三对六个:第一对是统计总体和总体单位,简称总体和单位;第二对是统计标志和统计指标,简称标志和指标;第三对是变异和变量。总体是所研究对象的全体,是由具有某种共同性质的许多个体所构成的整体,构成总体的各个个别单位,简称单位,也称个体,总体和单位的概念是随着研究目的的不同而发生变化的;标志是说明单位特征的名称,强调单位是标志的承担着,指标是反映现象总体数量特征的概念或名称和具体数值(指标名称+指标数值构成完整的统计指标,但只有概念或名称的指标是统计设计和统计理论中使用的指标概念),是综合各单位的某一标志而得到的,通过对指标概念的理解,首先明确指标是说明总体的,其次明确指标都是用数值表示的,没有不用数值表现的统计指标,这是指标和标志的区别之一,由于总体和单位之间存在着变换关系,标志和指标之间也会发生变换;变异和变量,我多年的教学经验通常是通过对标志的分类讲下去的,标志按在总体单位上的表现是否稳定可分为不变标志和可变标志,一个总体中,各个单位的某一标志的具体表现都相同的标志为不变标志(强调同质性),一个总体中,各个单位的某一标志的具体表现不都(尽)相同的标志为可变标志(强调变异性),如人口总体性别是可变标志,男性人口总体性别就是不变标志;可变标志在总体各个单位上具体表现上的差别就是变异,变异有品质变异和数量变异,如人口总体性别就是品质变异,年龄就是数量变异,数量变异也称变量,即可变的数量标志称为变量,变量的具体取值为变量值。很显然,通过以上的讲解,通常认为变量是指可变的数量标志,即第一种变量的概念。
这种理解,未免太过于狭隘。教师若以此思想去指导教学,难免会陷入不能自圆其说的境地。我们知道,一切总体单位都具有属性特征和数量特征,统计学中将其称为品质标志和数量标志。例如人口总体,这些特征可能是性别、民族、籍贯、文化程度,也可能是身高、体重、年龄、工龄等。对统计研究对象而言,无论其属性特征还是数量特征,往往均具有可变性。并且一个具体的特征可能在一种场合是可变的,而在另一场合是不变的。例如,上述所说人口总体性别是可变标志,男性人口总体性别就是不变标志了。可见性别这个品质标志有时也是可变的。推而广之,品质标志也具有可变性。这样,凡是“可变的标志”都应作变量看待。
然而,这只是对总体内部各单位的差异作静态考察时的变量。如果仅仅把变量定义为“可变的标志”,那么可变的统计指标怎么解释?它是否属变量范畴呢?所以,还得对统计总体作考察。
二、变量是指可变的数量标志和全部统计指标这种理解也不准确,不是所有的统计指标都是变量,通过讲解引入可变的统计指标才是变量,即只有“可变的统计指标”才应作变量看待。
统计有数量性、总体性、具体性和社会性的特点(《基础统计》,梁前德主编,高等教育出版社,2000年8月第1版),由统计的具体性可知,统计所研究的社会经济现象的数量方面是具体的量,是具体的社会经济现象在具体时间、地点、条件下的数量表现、数量关系和数量界限。例如,甲公司2005年的销售收入60亿元就是一个统计指标,而且是具体的、唯一的数值。对于2005年的来讲,销售收入这个指标只有一个数字。因而并非所有的统计指标都是变量。但是若把甲公司2005年至2008年的销售收入60万元、69万元、80万元、84万元依次排列,这时销售收入就是一个变量。可见,只有当同一统计总体的同一指标在不同时间的指标数值形成数列时,统计指标才可能成为变量。
因此,从静态上看,某总体的某一统计指标是常量,但把若干总体的同一指标放在一起,指标就变成变量了。例如,以洛阳市为总体时,2005年各公司销售收入指标是各不相同的,它是一变量。从动态上看,我们常常使用时间数列来处理统计数据,时间数列中的指标数值往往随时间变化而变化。如上,这种不断变化的指标也是变量,前后不同的指标数值就是变量值。可见,统计指标也有可变与不变之分,因而,“可变的统计指标”才应看作变量。
上述第二种观点是把全部统计指标视为变量了,但不是所有的统计指标都是变量,只有可变的统计指标才是变量,因而我认为是不妥的。第三种观点倒是把可变的统计指标视为变量了,但未包括可变的品质标志因而我认为也是不妥的。第四种观点我认为比较可取,但在文字表述上还可进一步具体化,由于说明现象某种特征的概念可以是标志(说明总体单位的),也可以是指标(说明总体的),因而我们不妨对变量作如下明确的定义:所有可变标志和可变的统计指标都是变量,即变量是说明现象某种可变特征的概念。
三、变量的分类:
(一)变量按具体表现不同分为分类变量(品质变量)和数值变量(数量变量)。
分类变量是用于说明事物所属类别方面的可变特征的变量,分类变量具体表现为分类数据,它又可以分为定类变量和定序变量。定类变量是用于区分现象不同类别的变量,它的取值表现为定类数据(如产业部门)。定序变量是说明现象的有序类型的变量,它的取值表现为定序数据(如产品的质量等级)。数值变量是用于说明事物数值方面的可变特征的变量,数值变量具体表现为数值数据,按数值数据的性质不同它可以分为定距变量和定比变量。定距变量是用于测度事物次序之间的距离的变量,它的取值表现为定距数据(如考试分数)。定比变量是说明现象的比例数据的变量,它的取值表现为定比数据(如体重)。
(二)变量按所使用的测量尺度不同分为定类变量、定序变量、定距变量和定比变量。
四种变量的概念已如上所述。四种变量对事物的反映是由低级到高级,由粗略到精确逐步递进的,高级变量能转化为低级变量,但不能反过来。如可将考试成绩百分制转化为五分制,但不能反过来。另外,四种变量适合于不同的统计计算方法。定类变量适合计算频数、频率、x2检验、列联相关系数等;定序变量适合计算中位数、四分位差、等级相关、非参数检验等;定距变量适合计算算术平均数、方差、积差相关、复相关、参数检验等;定比变量适合所有的统计计算方法。几乎所有的物理量和绝大多数经济量都属于定比变量。因此,不仅可以计算总量指标反映它们的总规模、总水平,还可以计算相对指标和平均指标反映它们的相对水平和一般水平。
(三)数值变量按变量取值是否连续分为连续型变量和离散型变量。
连续型变量是指可取无穷多个值,其取值是连续不断的,不能一一列举。它是用测量或计算的方法取得的数据,如温度、身高等。离散型变量是指只能取有限个值,而且其取值都是从整数位数断开,可一一列举。它只能用计数的方法取得的数据,如企业数、人数等。
(四)数值变量按性质不同分为确定性变量和随机变量。
确定性变量是具有某种或某些起决定性作用的因素致使其沿着一定的方向呈上升、下降或水平变动的变量,如我国国民经济总是不断发展的,具体表现为各种经济指标数值上升或下降(如人均收入和单位能耗),虽然也有些波动,但变化的方向和趋势是不可改变的,这些经济指标就是确定性变量。随机变量是指受多种方向和作用大小都不相同的随机因素影响,致使其变动无确定方向即呈随机变动的变量,如,在正常情况下某种机械产品的零件尺寸就是一个随机变量。
总之,统计学是一门逻辑严密的传统学科体系,作为统计学中几个基本概念之一的变量应有一个公认的正确的解释。这对今后统计学理论的研究发展都是很重要的。
参考文献:
[1]王军虎主编.统计学基础[M].武汉:武汉理工大学出版社,2007年7月:10
[2]梁前德主编.基础统计[M].北京:高等教育出版社,2000年8月:6~9
[3]高凯平.关于社会经济统计学原理中变量概念的思考[J].山西财政税务专科学校学报.1999(6)
【摘要】
目的:提出一种基于改良马氏深度函数的多变量参考值范围统计学建立方法,并以此为基础探讨统计深度函数在解决多变量参考值范围问题方面的实际应用价值. 方法:采用计算机模拟试验和实际数据分析相结合的方式,从参考值范围几何特征、参考值范围合法性与有效性等方面对新的和现有的几种多变量参考值范围建立方法进行比较分析. 结果:改良马氏深度法建立的二元参考值范围具有典型的中心椭圆特征,对于多元正态分布资料,改良马氏深度法与正态分布法一致性在98.5%以上,实例数据分析结果显示改良马氏深度法建立的参考值范围大小比多元正态分布法更接近理论水平. 结论:改良马氏深度法在参考值范围几何特征方面符合要求,在合法性及有效性方面优于现有的成熟方法,可以作为多变量参考值范围的有效统计学建立方法.
【关键词】 参考值 计算机模拟试验 深度函数 统计学方法
0引言
医学多变量参考值范围统计学建立方法是困扰医学统计工作者的重要问题之一. 目前的多变量参考值范围多采用多次重复使用单变量参考区间的方法,但此方法的主要问题之一是无法处理变量间相关性的影响. 针对多元正态分布资料,多元正态分布法仍是最有效的方法[1],而近年来有关学者提出的多指标百分位数法[2]和全息元法[3]等在探索针对其它类型资料的多变量参考值范围建立方法方面做出了有益的尝试.
统计深度函数是针对多元数据的基于空间排列的一种顺序统计量,具有明显的非参数特性,可作为医学多变量参考值范围统计学方法的一种选择. 为探讨统计深度函数在多变量参考值范围统计学方法上的应用价值,本研究提出一种基于改良马氏深度函数的多变量参考值范围统计学建立方法,并通过模拟试验和实例数据分析探讨该方法的实际应用价值.
1材料和方法
1.1材料本研究实例数据资料来源于2001年某省健康青年体检数据. 其中包含3453例受测者,全部为男性,年龄14.5~29.5平均(18.41±1.01)岁. 数据包括血压、体型和体能等三类多元指标. 其中血压指标包括收缩压和舒张压2个变量;体型指标包括身高、坐高、肩宽、体质量、胸围、腰围、臀围等7个变量;体能指标包括肺活量、立定跳远距离、俯卧撑次数以及仰卧起坐次数等4个变量.
1.2方法
1.2.1改良马氏深度函数方法设计统计深度函数用以计算多元数据基于空间排列的秩次以及各种顺序统计量[4]. 本研究以马氏深度函数[4]为基础,经过适当的改良后,将其应用于多变量参考值范围统计学建立方法. 其改良方法如下.
从提高马氏深度函数稳健性考虑,对其进行以下操作:在进行空间排列顺序计算前,先对原始变量进行标准化,使各变量具有相同的变异程度;以中位数向量为位置参数;以Spearman秩相关矩阵为变异矩阵. 改良马氏深度函数可表达为式(1)的形式.
MDS(x,F)=[1+(xs-Mds)′R-1s(xs-Mds)]-1(1)
其中,xs表示各分量经标准化后的数据向量,Mds表示各分量经标准化后的中位数向量,Rs表示原始样本数据的Spearman秩相关矩阵.
改良马氏深度法建立多变量参考值范围的主要操作步骤如下: ①应用改良马氏深度函数将多元数据类型的参考样本转化为统计深度指标,实现多元数据向单变量数据的转换;
②采用百分位数法建立统计深度指标的指定容量的单侧参考值区间(右侧区间,包括中心点对应的统计深度最大值);
③对于新样品,先依据参考样本的中位数向量和秩相关矩阵计算其对应的统计深度,并依据上述统计深度单侧参考值区间判断其正、异常分类.
1.2.2运算环境与分析方法本研究的全部分析计算过程均在SAS 9.1软件环境下通过编程方法完成. 将从参考值范围空间几何特征、参考值范围一致性以及实例分析等方面对改良马氏深度法和现有的几种方法(多元正态分布法、多指标百分位数法、全息元法)进行对比分析,以考察改良马氏深度法的优缺点及其实际应用价值.
参考值范围空间几何特征分析以计算机模拟数据为基础,为简便操作仅从二元正态分布资料参考值范围的几何分布形态入手进行探讨. 具体操作为:针对二元正态分布的模拟数据建立多变量参考值范围,并直接对参考样本进行分类并绘制散点图,观察其空间几何特征,从而考察各种方法所建参考值范围的合理性.
由于多元正态分布法是针对多元正态分布资料的最可靠的多变量参考值范围统计学方法,此处我们通过考察多元正态分布情形下改良马氏深度法和多元正态分布法所建立参考值范围的一致性(针对参考样本的分类结果一致性),来验证该方法的可靠性.
实例分析将采用随机抽样方法(采用SAS的surveyselect过程实现)从实例数据抽取800人作为参考样本,应用改良马氏深度法和多元正态分布法建立其50%,75%,95%的参考值范围,并将此参考值范围应用于全部受检者,判断其“正、异常”分类,计算“正常”者的百分比并与理论水平比较,从而评价两种方法所建立参考值范围的可靠性. 2结果
2.1参考值范围几何特征一般来讲,理想的多变量参考值范围应当表现为样本数据点分布中心区域上椭圆或近似椭圆的几何形态. 本研究的分析结果显示,现有三种方法中多元正态分布法的参考值范围呈中心区域的椭圆型,多指标百分位数法为矩形,而全息元法则为带状,后两者的结果不符合中心椭圆区域的基本要求. 改良马氏深度法建立的参考值范围与多元正态分布法一致,呈中心区域的椭圆形. 对于三维或更高维度的数据样本,不难推断上述结果应当同样适用,此处不再列出.
2.2参考值范围一致性分析结果显示,改良马氏深度法建立的参考值范围与多元正态分布法具有很高的一致性,一致率均在98.5%以上.
2.3实例分析对于全部三类多元指标,改良马氏深度法建立的参考值范围大小均比多元正态分布法更接近理论水平,表现出更高的可靠性(表1).表1三类多元指标参考值范围可靠性对比情况
3讨论
多变量参考值范围是医疗卫生领域常见的数据处理问题之一. 多元正态分布法的应用条件较为严格,要求样本服从多元正态分布的假设. 虽然某些资料可通过变量变换的方式转换为多元正态分布,但实际工作中多数数据资料仍无法满足此条件[1],因此多元正态分布法的适用范围有限. 目前常用的替代方法多次重复应用单变量参考区间的方法仍然无法解决,所进行的有关此类问题的研究也未能完全解决多元数据各分量间相关性所带来的问题.
统计深度函数作为一种描述多元数据空间分布相对位置的非参数统计量,为多变量参考值范围统计学建立方法的降维操作提供了新的选择[5-8]. 马氏深度函数考虑了多元数据的内部相关性,更符合医学多变量参考值范围中的实际应用需要[9]. 然而其定义中的位置参数和变异矩阵以参数法为基础,影响了其稳健性. 本研究以马氏深度函数为基础,提出一种改良的马氏深度函数,并尝试了该深度函数在解决多变量参考值范围问题方面的应用效果. 改良马氏深度改变了原有函数定义中的位置参数和变异矩阵,提高了深度函数的稳健性. 从本研究的分析结果来看,改良马氏深度法能够建立合法有效的多变量参考值范围,具有更高的稳健性,在医学多变量资料参考值范围统计学建立方法方面值得进一步的探讨和研究.
【参考文献】
[1] Hekking M, Lindemans J, Gelsema ES. A computer program for constructing multivariate reference models[J]. Comput Methods Programs Biomed, 1997, 53(3): 191-200.
[2] 陈彬, 李克, 林昆, 等. 用多指标百分位数法确定医学参考值[J]. 西部医学, 2003, 1(2): 185-186.
[3] 王润华, 田小兵. 全息元法制定多指标参考值范围研究[J]. 重庆医科大学学报, 2001, 26(2): 171-174.
[4] Zuo YJ, Robert S. General notions of statistical depth function[J]. Anal Stat, 2000, 28(2): 461-482.
[5] Gerhard JW. A note on the depth function of combinatorial optimization problems[J]. Dis Appl Math, 2001, 108: 325-328.
[6] Anja S, Peter JR. Halfspace depth and regression depth characterize the empirical distribution[J]. J Multivariate Anal, 1999, 69: 135-153.
[7] Zuo YJ, Robert S. Structural properties and convergence results for contours of sample statistical depth functions[J]. Anal Stat, 2000, 28(2): 483-499.
在开展生物医学研究时,研究者通过正确地运用统计学知识,可直接影响研究的质量。统计学设计的任务在于对研究的部署、实施,直到研究结果的解释进行系统的安排,力争做到以最少的人力、物力获得可靠的结论和信息。其目的在于确定某种处理是否会表现出某种特定的效应。在实验设计时应遵循惟一差异原则,即在进行两组比较时,两者之间仅有因处理因素不同而引起的差异,而其他实验条件相关的非处理因素都应保持等同。然而,处理组与对照组在反应上表现出的差别并不一定意味着是处理的结果。另有两种引起差别的可能性,即偏倚和偶然性。偏倚是指系统性差别,它不是因组间在处理上的不同所引起。生物医学实验中统计学设计和分析的目标就是消除潜在的偏倚,减少偶然性[2]。
1.1实验的偏倚和控制
偏倚是在研究中从设计到实验实施和结果分析的各环节存在一些人为的、有系统倾向的非随机误差,它不是由于抽样造成的,而是某种偏性使得实验结果偏离它的真值。从所选择的生物医学问题到研究方案的制订与实施、实验的完成过程、实验的分析与解释,乃至实验结果的发表,均可能存在各式各样的偏倚[2]。这种偏倚常常表现为系统误差。偏倚的大小取决于研究的方法和具体的实验条件。常见的偏倚主要有选择性偏倚、观察性偏倚和混杂性偏倚。必须认识实验过程的偏倚,从实验设计起直到整个研究过程结束均要加以控制。正确的实验设计可控制选择性的偏倚,事前人为控制和采取相应的措施可避免和减少观察性的偏倚。对于混杂性偏倚,可将重要的混杂因素在设计阶段进行分层随机设计,使混杂因素在组间分布均衡;在统计分析阶段将混杂因素作为分层因素或采用有协变量分析方法,以消除混杂因素的影响。只有有效地控制或消除偏倚,方可减少结果的假阳性或假阴性。
1.2减少偶然性的潜在影响
偶然性因素的作用可以减少,但不能完全排除。因为即使是在精心实施的研究中,接受同样处理的动物,其反应也不可能完全一样。适当的统计分析可使实验人员评估出现假阳性的概率,即根本不存在处理效应的情况下观察到差异的概率。这种概率越小,实验者发现真实效应的可能性就越大。为了更有把握地检测出真实效应,有必要减少偶然性的作用,并通过实验设计确保能在“噪声”之上识别真正的“信号”。
1.3实验设计的要素
要消除生物医学实验中潜在的偏倚,减少偶然性,就应对实验对象、处理因素和实验效应这三个实验设计要素,按照对照、重复、随机化和均衡四项原则进行周到的设计与控制[3]。1.3.1实验对象实验中处理因素所作用的对象称为实验对象。不同性质的实验研究需要选取不同种类的实验对象,一个完整的实验设计中所需实验对象的总数称为样本含量。生物医学试验中考虑动物实验对象时应关注以下几个方面:①动物种属的选择:选择实验动物的种属与品系时,尤其需要注意其背景反应的水平。为了将反应“信号”水平最大化,常常意味着应避免选择那些背景反应水平极低的动物种属或品系,但如果采用过度反应的动物种属或品系也同样会出现问题。动物物种选择中的其他问题,无论是实际问题(寿命、体型、易得性、对动物学特征的了解情况)或是理论问题(生化、生理或解剖结构与人的相似性),都需要从专业的角度认真加以考虑和权衡。②动物的数量:虽然从统计设计角度考虑可得出某项实验所需的动物数(样本含量),但所得出的数值往往很大。因此,虽然样本含量估计是保证结论可靠性(精度和检验效能)的前提,但基于实验的可操作性及经济原则方面的考虑,应结合统计学的计算结果与以往的生物医学研究经验予以确定。③动物的体重与年龄:为确保实验对象的同质性,实验中所使用的动物体重与年龄应尽可能相近;动物体重的标准差不应超出平均值的10%;啮齿类等小动物年龄相差不应超出1周,大动物年龄相差不应超出1个月。④动物的分层:为了准确检测一种处理因素引起的差别,各处理组在可能影响实验结果的其他非处理因素方面应尽可能具有同质性。当存在动物亚系间的差别时,有两种方法可得到更为准确的结论。一是在结果分析阶段将亚系作为一个“分层变量”处理,包括对两个亚系的结果进行单独分析,然后将结果综合,得出处理效应的总结论;二是将亚系作为实验设计的“区组因素”,这种情况下可使对照组与处理组中每个亚系动物数量相等。除以上所讨论的“亚系”之外,其他的非处理因素,如性别、窝别、体重段等也可作为分层变量进行局部控制,并据此进行分层随机化分组。1.3.2处理因素设计实验研究时,要明确研究中的处理因素和影响实验效应的非处理因素。研究者希望通过对研究设计进行有计划的安排,从而能科学地考察其效应大小的因素称为处理因素或实验因素;研究者往往忽略对评价实验因素作用大小有一定干扰的重要的非处理因素或非实验因素(如动物的窝别、体重等);其他未加控制的许多因素的综合作用统称为实验误差。实验结果是处理因素和非处理因素共同作用而产生的实验效应,因此如何控制和排除非处理因素的干扰,正确显示处理的效应,是实验设计的基本任务。1.3.3实验效应实验效应是处理因素作用于受试对象的反应和结果,是反映实验因素作用强弱的标志,它通过观察指标(统计学常将指标称为变量)来体现。如果指标选择不当,未能准确反映处理因素的作用,获得的研究结果就缺乏科学性,因此选择好观察指标是关系整个研究成败的重要环节。指标的观察应避免带有偏性或偏倚,要结合专业知识,尽可能多地选用客观性强的指标,在仪器和试剂允许的条件下,应尽可能多选用特异性强、灵敏度高、准确可靠的客观指标。对一些半客观(如尿液pH试纸读数值)或主观指标(行为测量、病理观察),一定要事先规定读取数值的严格标准,只有这样才能准确地分析实验结果,从而提高实验结果的可信度。
1.4实验设计的原则
为了防止结果的偏倚,保证实验结果的准确性和最大化的表达,在进行生物医学实验设计时必须遵循统计学设计的对照、重复、随机化和均衡四个基本原则。生物医学实验中对照组的设置必须具备三个条件:①对等原则,即惟一差别原则,除处理因素外,对照组具备与实验组对等的非处理因素。在相互比较的各组间,除了给予的处理因素不同外,其他方面应与实验组具有一致性,如相同的实验单位来源(动物种属、体重等)和相同的实验条件、操作方式和喂养环境等。②同步原则,对照组与实验组设立之后,在整个研究进程中始终处于同一空间和同一时间。③专设原则,任何一个对照组都是为相应的实验组专门设立的。不得借用文献上的记载或以往结果或其他研究资料作为本研究之对照。
1.5生物医学中常用的实验设计类型
如果需要在同一实验中同时评价几种不同的效应,实验者应该安排能区别各自效应差别的实验设计方法。生物医学中常用的实验设计有以下几项。1.5.1完全随机设计完全随机设计是生物医学动物实验中最为常用的一种实验设计方法,它是一种单因素有k个水平(k≥2)组的实验设计。即实验设计可设置一个对照或多个剂量组的实验方案。本设计保证每个实验动物都有相同机会接受任何一种处理,而不受实验人员主观倾向的影响。本设计应用了重复和随机化两个原则,因此能使实验结果受非处理因素的影响基本一致,真实反映出实验的处理效应。1.5.2随机区组设计随机化完全区组设计,简称随机区组设计,又称配伍组设计,是配对设计的扩展,它将几个条件相同的受试者划分在同一个区组或配伍组,然后再按随机的原则,将同一配伍组的受试者随机分配到各实验组。该设计方法的优点是每个区组内的k个实验单位有较好的同质性,比完全随机设计更容易察觉处理间的差别。这种方法须特别注意的是要求区组内实验单位数与处理数相同,实验结果中若有缺失值,统计分析将损失部分信息。1.5.3拉丁方设计拉丁方设计从横行和直列两个方向进行双重局部控制,使得横行和直列两向皆成区组,是比随机区组设计多一个区组因素的设计。在拉丁方设计中,每一行或每一列都成为一个完全区组,而每一处理在每一行或每一列都只出现一次,也就是说,在拉丁方设计中,实验处理数=横行区组数=直列区组数=实验处理的重复数。1.5.4析因设计析因实验设计又称全因子实验设计,属于多因素、多水平单效应的设计。它不仅可以检验每一因素各水平之间的效应差异,而且可以检验各因素之间的交互作用。交互作用是指一个因素不同水平间的效应差受另一因素的影响,包括协同交互作用和拮抗交互作用。析因实验主要用于分析交互作用,当因素及水平数过多时,所需的实验对象数、处理组数和实验次数大幅度增加,故一般采用较简单的析因实验。含有较多因素和水平的实验一般采用正交实验设计[5]。
2生物医学动物实验的描述统计学
2.1生物医学实验资料的类型
生物医学实验对实验对象(动物)进行干预后测定的观测指标通常有以下类型:①连续性数据:测定结果表现为有数字大小和单位的数据,统计上称定量资料,如生理、生化指标,体重值,器官重量等。②分类数据:测定结果表现为按某属性划分的定性类别,统计上称为定性资料,具体又可以分为二值资料、多值名义资料和多值有序资料。如某反应为出现或不出现,死亡或未死亡,有畸形或无畸形;病理损害的严重程度(无、轻度、中度、重度)等。
2.2统计描述指标
描述性统计学(或归纳统计学)是对样本观察/测量数据频率分布的定量研究,描述性统计的目的在于:①对测量值或观察值进行归纳浓缩,用统计量、统计图或统计表的形式表现;②估计总体分布的参数。2.2.1资料的整理与探索对于某一测量指标,一般应从文献资料中了解其分布类型。如果没有判断概率分布的理论基础,应重复以大样本测定,绘制样本的频数分布图(理论上样本量要大于100),并经统计学检验拟合其分布。2.2.2数据的描述统计量①连续性数据的频数分布:通过对样本资料编制频数分布表或做茎叶图,以确定资料分布的类型、频数分布的集中趋势和离散趋势、估计总体参数,也便于发现离群值。②中心位置的描述统计量:描述数据分布的集中趋势,常用指标为算术均数、中位数、众数、几何均数等。③离散程度的描述统计量:描述数据分布的离散趋势,常用指标为标准差和方差、极差和四分位数间距、变异系数和离散系数等。④统计学图表:统计图包括连续性数据分布的直方图、茎叶图,表示数据中心位置和离散程度的点杆图(做图时表示均数和标准差)和盒须图(做图时表示中位数、极差、四分位数间距),描述构成比数据资料的百分条图、饼图,描述经时变化趋势的线图,以及预测和检验分布类型的概率-概率图(P-P图)等[6]。统计表具有简单、明了、易于理解、便于比较的优点。编制统计表时原则上应当重点突出、层次分明、避免层次过多或结构混乱。一般的统计表应为三线表,表中只有横线,无竖线和斜线。统计表的标目应层次清楚,不宜过于复杂。
3生物医学动物实验的假设检验
生物医学动物实验中最常见的情况是给予不同受试物后进行组间比较,通过统计学中的假设检验,说明受试物的作用。假设检验时应注意以下问题。
3.1检验方法的选用依据
3.1.1资料的类型和变量的数目不同类型的资料(定量、定性)的组间比较应采用不同的统计检验方法。单变量、多变量的统计检验方法也各不相同。3.1.2实验设计类型应该根据实验设计的具体类型选择对应的统计检验方法,以便得到处理组效应的真实结论。3.1.3检验方法的前提条件选用假设检验方法前,应了解所分析的数据资料是否满足相应检验方法的前提条件,如t检验和方差分析等参数检验方法要求数据满足正态性和方差齐性,χ2检验要求样本含量大于40且理论频数大于5。
3.2正态性检验及拟合优度检验
统计学假设检验须判定样本的频数分布是否符合某一理论分布,如符合要求就可按此理论分布来进行统计学处理。对正态分布可采用正态性检验,其他分布可用拟合优度检验。通常可通过查阅文献,了解实验参数符合何种理论分布。
3.3方差齐性检验
连续性数据未达到参数法统计分析前提的第二种原因即为方差不齐。一般而言,数值愈大,其固有的变异性也愈大。例如,若某组动物的平均反应值为100,其数值范围可能为80~120;而另一组动物的平均反应值为300,其数值范围可能会扩大至240~360。解决方差不齐的措施是进行数据转换。若数据的标准差与平均值成正比,在统计分析前宜将数据转换为对数值之后再进行分析,据此,不仅数据的变异度与平均值大小无关,同时还可确保其更符合正态分布。若数据变异度增加幅度与平均值的关系不太明显,采用平方根转换则更易使数据的变异度与平均值大小无关。某些数据经对数或平方根转换后可能仍存在方差不齐,此时宜采用非参数检验。
3.4单侧检验与双侧检验
检验假设选择单侧检验或双侧检验,应事先根据专业知识做出选择。一般而言,若研究目的仅须了解是否存在组间差异、实验者无法预测组间变化的方向以及实验者希望获得正负两方面的结果时,应采用双侧检验。若事先可预测组间差异的变化方向,实验者仅对某一方面的重要性感兴趣,实验者仅希望了解与对照组差异或正或负一个方向,则应采用单侧检验。此外,剂量设计预试验中应采用双侧检验,正式试验在了解相关信息后可采用单侧检验。
3.5多重比较及多重性问题
生物医学实验经常在处理组和对照组之间做多个变量的比较。即使不存在真正的实验效应,也有可能纯粹由于偶然性而有一个或多个变量在5%检验水平出现显著性差别。除了上述均数多重比较导致Ⅰ类错误概率增加的多重性问题之外,其他的多重性问题还包括多次的中期分析、关注多个结局、亚组间的多重比较。处理多重性问题的原则包括:①预先计划进行多重比较;②限制比较的次数;③多重比较时采用更严格的界值标准;④多重比较具有生物学方面的依据。
3.6观察值或实验对象的独立性
许多统计检验方法要求比较的观察值或实验对象相互独立,如二项分布的率检验、t检验和方差分析等。但是,有的生物医学实验中观察单位并不独立。例如,生殖和发育研究中就存在窝效应:由于遗传因素、宫内的发育环境和药物的代谢环境相似,与异窝胎仔相比,同窝胎仔之间对毒性效应的反应概率趋于系统,即同窝内数据为聚集性数据,这就是一种常见的非独立数据。在统计学分析时,忽略数据的窝内相关性具有潜在的风险;因同窝母鼠所产k个胎仔的观察值存在共性,其所提供的信息不及k个独立的来自不同母鼠所产胎仔所提供的信息;窝内相关性愈大,其信息量愈少。聚集性数据的均数标准误小于独立的数据,因此,若基于观察值独立的统计分析方法,就会增加犯Ⅰ类错误的概率,即假阳性的风险增加,降低实验的有效性。
3.7历史对照数据的应用
某些情况下,尤其是在发生率较低的情况下,单项研究可能提示处理可影响肿瘤发生率,但无法得出明确的结论。可能想到的分析办法之一是将处理组的数据与来自其他研究的对照组动物相比较。虽然历史对照数据具有重要意义,但值得强调的是,众多原因可导致不同研究之间的变异度大于研究之内的变异度。动物来源、饲料及饲养条件,研究期限,研究中的动物死亡率、读片的病理学家等均可能影响最终的肿瘤发生率。故此,忽视这些差异,将处理组的肿瘤发生率与合并的对照组发生率相比较,可能得出严重错误的结果,并进而明显夸大统计显著性水平。Tarone[4]曾对历史对照组的比率数据分析进行过综述。
3.8假设检验的局限性