当前位置: 首页 精选范文 科学计数法的规则范文

科学计数法的规则精选(十四篇)

发布时间:2023-10-11 15:53:32

序言:作为思想的载体和知识的探索者,写作是一种独特的艺术,我们为您准备了不同风格的14篇科学计数法的规则,期待它们能激发您的灵感。

科学计数法的规则

篇1

Abstract: With the vigorous development of the communications industry, the level of service provided by the carrier to the user is also continuously improved, and therefore it puts forward a higher demand for communication equipment maintenance work. In the field of mobile network management, alarm monitoring and handling of equipment is always one of the vital works. In recent years, the network management system has realized equipment alarm correlation, but the alarm correlation function is dependent on the association rules of device alarm, at present, the alarm association rules is summed up by maintenance personnel experience, how to find unknown alarm association rules automatically through the analysis is the problem to be solved. Using Apriori algorithm and through the analysis of a large number of historical alarm data, it can be achieve frequent itemsets in data mining alarms data, eventually find the alarm association rules.

关键词: Apriori;频繁项集;关联规则;网元

Key words: Apriori;frequent itemsets;associated rule;network element

中图分类号:TN91 文献标识码:A 文章编号:1006-4311(2013)10-0183-02

1 Apriori算法简介

Apriori算法是R.Agrawal和R.Srikant于1994年提出的为布尔关联规则挖掘频繁项集的原创性算法。Apriori使用一种称作逐层搜索的迭代方法,k项集用于搜索(k+1)项集。首先,通过扫描数据库,累计每个项的计数,并收集满足最小支持度的项,找出频繁1项集的集合,该集合记作L1,然后,L1用于找频繁2项集的集合L2,L2用于找L3,如此下去,直到不能再找到频繁k项集,找每个需要一次数据库全扫描。

为提高频繁项集逐层产生的效率,Apriori算法用先验性质(Apriori性质)压缩搜索空间,Apriori性质即:频繁项集的所有非空子集也必须是频繁的。

Apriori算法的基本思想

Lk:频繁k-项集的集合

Ck:候选k-项集的集合

①首先,C1由所有项组成;扫描数据库D,累计每个项的计数,并收集满足最小支持度的项,产生L1。②然后,用L1中的项两两组合得到候选2-项集的集合C2;再次扫描数据库D,累计C2每个2-项集的计数,产生L2。③接下来,用L2中的2-项集产生候选3-项集的集合C23;再次扫描数据库D,累计C3每个3-项集的计数,产生L3。④一般地,由长度为k-1的频繁项集的集合Lk产生长度为k的候选项集的集合Ck,并且扫描数据库D,产生Lk。⑤如此下去,直到不能再产生更长的频繁项集。

对于每个频繁项集Y和任意X?奂Y,X≠?覫,如果support(Y)/support(X)?叟min_conf,则输出强规则X?圯Y-X

2 告警数据准备

告警原始数据举例如下:

本文将单网元告警数据作为原始数据集,通过Apriori算法发现该类型网元的频繁项集及告警关联规则,因此如何准备告警数据集是目前需要首先解决的问题。

告警数据准备目标是根据设备维护经验,首先找到24小时内每5分钟内的告警数据集,模型如下。

根据实际设备告警情况,用下表数据(记为:D)为例进行说明。

3 告警数据频繁项集挖掘

根据Apriori算法的基本原理,频繁项集挖据过程如下所示,假定最小支持度为2:

①扫描D表,对每个候选计数得到下表C1。(表3)

②比较候选支持度计数与最小支持度计数得到下表L1。(表4)

③由L1产生候选表C2。(表5)

④扫描D,对C2中每个候选计数形成新的C2。(表6)

⑤比较候选支持度计数与最小支持度计数,得到表L2。(表7)

⑥有L2产生候选C3。(表8)

⑦扫描D,对C3中每个候选计数得到新的C3。(表9)

⑧比较候选支持度技术与最小支持度计数,得到L3。(表10)

由此,我们得到两个频繁项集。

4 告警关联规则挖掘

4.1 基本思想 对于每个频繁项集Y和任意X?奂Y,X≠?覫,如果support(Y)/support(X)?叟min_conf,则输出强规则X?圯Y-X。

4.2 关联规则挖掘 对于频繁项集L31{2550、2235、1815},L31的非空子集有{2550、2235}、{2550、1815}、{2235、1815}、{2550}、{2235}、{1815},计算其置信度如下:

2550Λ2235=>1815 confidence=2/4=50%

2550Λ1815=>2235 confidence=2/4=50%

2235Λ1815=>2550 confidence=2/4=50%

2550=>2235Λ1815 confidence=2/6=33%

2235=>2550Λ1815 confidence=2/7=29%

1815=>2550Λ2235 confidence=2/6=33%

对于频繁项集L32{2550、2335、2229},L32的非空子集有{2550、2235}、{2550、2229}、{2235、2229}、{2550}、{2235}、{2229},计算其置信度如下:

2550Λ2235=>2229 confidence=2/4=50%

2550Λ2229=>2235 confidence=2/2=100%

2235Λ2229=>2550 confidence=2/2=100%

2550=>2235Λ2229 confidence=2/6=33%

2235=>2550Λ2229 confidence=2/7=29%

2229=>2550Λ2235 confidence=2/2=100%

如果最小置信度阀值为80%,则只有上面2550^2229=>2235、2235^2229=>2550、2229=>2550^2235是强规则。

5 总结

通过Apriori算法,我们可以从大量的告警数据中发现更多有用的告警关联规则,并提高告警的压缩比,更快的发现故障根源,从而减少设备监控、维护人员的工作量,提高工作效率,为电信行业的设备维护保障提供更好、更有效的维护手段和方法。

参考文献:

[1]郑明.浅谈网络数据挖掘在电子商务中的应用[J].中小企业管理与科技(下旬刊),2009,02.

篇2

[关键词]计数标准型一次抽样检验方案;计数调整型抽样检验方案

产品质量检验是指借助于某种手段或方法来测定产品的--个或多个质量特性,然后把测得的结果同规定的产品质量标准进行比较,从而对产品作出合格或不合格判断的活动。通过观察和判断,适当时结合测量、试验所进行的符合性评价。

一、产品质量抽样检验的意义

产品质量的抽样检验是从产品总体中,抽取若干样本,对样本进行检测并按标准所规定的判定规则对总体做出合格与否的判定。因此,抽取样本的科学性在很大程度上决定了产品质量检验结果的代表性和真实性。

产品质量抽样检验方法,亦称统计抽样检验方法,是建立在概率统计理论基础上的。其关键是:如何设计合理的抽样检查方案,才能保证检验过程公正、科学、有效

首先,要明确抽样方案所依据的标准。目前我国有4个标准规定了质量监督抽样方案和一个产品质量监督复查抽样方案,即GB/T14162-1993;GB/T14437-1997;GB/T15482-1995;GB/T14900-1994;GB/T16306-1996。

其次,确定样本量的多少。样本量的确定主要应先明确批量和样本量之间的关系,当批量N确定时,只要明确检验水平,就可以检索到样本量的大小。

最后,确定判断依据,即以极限质量LQ为质量指标来判定。极限质量的确定需考虑的问题主要有:产品的用途、检验的经济性、生产企业的实际特点等。

目前国内外抽样检验方案种类很多,但最基本和最常用的有两种,即:计数标准型一次检验方案和计数调整型检验方案。

二、计数标准型一次抽样检验方案

1.计数标准型一次抽样检验方案的含义及应用范围

标准型一次抽样检验方案,是按供需双方协商认定的OC曲线,对一批产品进行抽样检验的方案。制定该方案,需要确定4个参数p0,p1,α,β和抽检方案(n,c)。

计数标准型一次抽样检验方案的应用范围:适合于一次交易(孤立的一批产品)或破坏性检验的情况。

2.计数标准型一次抽样检验方案的设计步骤

(1)确定检验的产品质量标准:产品质量的合格指标,即产品的技术标准,包括各种功能指标、生化指标、缺陷的概念和程度等。

(2)确定4个参数p0,p1,α,β:

目前普遍认同的供应者的风险率α和使用者风险率β分别为:α≈0.05,β≈0.10 . p0,p1值的大小由供需双方协商确定。先确定一个合理的p0值,再按一定比例确定p1值。

(3)批的组成:在同一生产条件下生产出来的一批产品,要尽可能直接取做检验批。若批量过大,也可以划分为小批后,将小批作为检验批。但划分的小批必须是随机的。

(4)确定抽检方案:确定样本大小n和合格判定数c,可通过查计数标准型一次抽检表获得。

三、计数调整型抽样检验方案

1.计数调整型抽样检验方案的含义及应用范围

计数调整型抽样检验方案是由一组严格度不同的抽样方案和一套转移规则组成的抽样体系。计数调整型抽样检验方案是根据过去的检验的情况,按一套转移规则随时调整检验的严格程度,从而改变抽样检验方案。

计数调整型抽样检验是应用范围最广、最有影响的一类抽样检验方法。主要应用于:

a.原材料和元器件的抽样检验;

b.过程各环节在制品的抽样检验;

c.最终产品的抽样检验;

d.库存成品的抽样检验;

e.管理过程的抽样检验等。

计数调整型抽样检验方案的特点:可以根据产品质量的实际情况,采用一组正常、加严和放宽三个不同严格程度的检验方案,并且应用一套转换规则将它们有机地联结起来。该方案可以起到一个鼓励质量好的企业,(通过放宽检验);也可以鞭策质量差的企业,改进质量(通过加严检验)。从而,可以起到一个对供应者产品质量的管控作用。

2.计数调整型抽样检验方案的设计步骤

(1)规定单位产品的质量特性指标

质量特性指标是产品、过程或体系与要求有关的固有可区分的特征值。如物理的、生化的、感官的、行为的、时间的、功能的等。有关指标值达到什么标准才算合格,应在检验规范中或供销合同中明确表述。

(2)确定不合格类别的等级

不合格品的分类和质量缺陷严重性级别可以参照国家的有关标准。

不同级别的不合格,其对应的不合格率上限值AQL也不同。一般A类不合格品的AQL值应小于B类不合格品的AQL值,而B类不合格品的AQL值应小于C类不合格品的AQL值。

(3)确定合格质量水平AQL:接收质量限

设计抽检方案时,先要确定AQL值,如果供应者的产品质量水平接近AQL,则进行正常检验;若供应者的产品质量水平比AQL值低得多,则进行放宽检验;若供应者的产品质量水平比AQL值高多,则进行加严检验。

AQL值的确定方法,一般可采用检验法:根据产品的使用要求、产品的性能、产品的检验项目数量、不合格品和不合格种类这些因素予以确定。

实际操作时,可先参考有关资料,暂时确定一个AQL值,使用一段时间后,根据实际情况逐渐调整,达到合理。

(4)确定检验水平

检验水平是用来决定批量与样本大小之间关系等级的,其作用就是明确批量N和样本量n的关系。

国标规定检验水有两类:一般检验水平ⅰ、ⅱ、ⅲ级和特殊检验水平S-1、S-2、S-3、S-4四个检验水平。无特殊要求情况下,采用一般检验水平ⅱ。

篇3

[关键词] IS015189;血涂片复审;筛选标准;血细胞形态学;镜检

[中图分类号]R446.11 [文献标识码]C [文章编号]1673-7210(2011)08(b)-085-03

在全国各医院检验科IS015189认可实验室现场评审中所开的“不符合项”或“观察项”中主要集中在有关细胞形态学检验相关方面的工作占有相当大的比例,血细胞分析仪的血涂片复检率过低,缺乏适合本实验室使用仪器的筛选标准等是其主要原因。近年来虽然各种类型的血细胞分析仪得以广泛应用,帮助检验人员快速完成大量血标本的检测,提高了工作效率,但迄今为止血细胞分析仪在形态学检查中仍只能作为一种过筛手段,当遇到可疑情况,尤其是在病理条件下,必须进行人工镜检复查,这已是不争的事实。如何能够让血细胞分析仪更好地为临床服务,一直是各国血液学专家共同关注的问题。2005年国际血液学复检专家组通过对13298份血标本进行详细分析后,推荐了41条自动血细胞分析和分类复检规则。但这只是通则,由于不同仪器或实验室的病源及筛选目的不同,其并无针对性和特异性。为此IS015189认可委要求各参评实验室必须在参考“血细胞涂片复审41条国际规则”的前提下结合各自实验室仪器性能特点及病源,制订适合于本实验室的血涂片复检规则。

1材料与方法

1.1材料

1.1.1标本来源3800份血标本均为来自我院检验科就诊做血常规的患者,其中,初诊标本3008份,复诊标本792份。所有标本于采血后30 min~6h期间用XE-2100自动进样模式进行检测,包括全血细胞计数(CBC)、白细胞分类(DC)、有核红细胞(NRBC)、网织红细胞(PET),并将检测报告备份存档。

1.1.2仪器与试剂XE-2100全自动血细胞分析仪,原装配套试剂,校准品和质控品均由日本Sysmex公司提供。两台显微镜均为OlympusCX31型,用于血涂片显微镜检查。

1.2方法

1.2.1实验人员培训根据《全国临床检验操作规程》和《白细胞计数参考方法》中制订的血涂片检测操作程序(SOP),对参加实验的人员进行培训,并研讨可能出现的问题和解决的措施。

1.2.2仪器的校准、调试及报警(IP)信息的设置均由sys-mex公司工程师按照仪器标准要求进行校准、调试和设置。

1.2.3检测方法每份标本在上机检测的同时制备2张血涂片,并编号用瑞氏染液进行染色,然后按照标准操作程序(血涂片检测SOP文件)进行血细胞形态学的镜检,每2人为1组。

1.2.4初步复检规则的制订利用XE-2100血细胞分析仪的IP信息报警系统对WBC、RBC、PLT的数量异常和形态学异常的提示。并参照“国际血液学4l条复检规则”,由sySHICX公司工程师制订出的XE-2100血细胞分析仪自动血细胞计数和WBC分类初步复检规则共21条。见表1。

1.2.5制订血涂片阳性判断标准①RBC明显大小不等,染色异常RBc>30%;②巨大PLT>15%;③见到PLT聚集;④存在Dohle小体细胞>10%;⑤中毒颗粒中性粒细胞>0.1;⑥空泡变性粒细胞>0.1;⑦原始细胞≥0.01;⑧早幼,中幼粒细胞≥0.01;⑨晚幼粒细胞>0.02;⑩杆状核粒细胞>0.05;⑩异淋>0.05;⑩嗜酸粒细胞>0.05;⑩嗜碱粒细胞>0.01;有核红细胞>0.01;⑩浆细胞>0.01。

1.2.6对比双盲法(仪器分析和血涂片复审)两者检测结果,分别计算血涂片复审率及仪器分析的真阳性率(触及初检规则且镜检为阳性的比率)、真阴性率(不触及初检规则且镜检为阴性的比率)、假阳性率(触及初检规则但镜检为阴性的比率)、假阴性率(不触及初检规则但镜检为阳性的比率);以及血涂片复检率(复检率=真阳性率+假阳性率)。

表1初步复检规则织红)超出仪器检测线性;稀释标本后重新测定;并全部(初诊+复诊)推片镜检。

2.WBC、RBC、HGB、PLT无结果;检查标本是否有凝块;重测标本;并全部(初+复)推片镜检。

3.WBC30,0x109/L;全部(初+复)推片镜检。

4.PLT1000x10(sup)9(/sup)/L;全部(初+复)推片镜检。

5.MCV(平均红细胞体积)110n(成人);全部(初+复)推片镜检。

6.MCHC(平均红细胞血红蛋白浓度)>380 g/l或

7.DC(白细胞分类)无结果或结果不全;全部(初+复)推片镜检及人工分类。

8.Neut#(中性粒细胞绝对计数)20.0x10(sup)9(/sup)/I;全部(初+复)推片镜检。

9.Lvmph#(淋巴细胞绝对计数)>5.0x10(sup)9(/sup)/l;全部(初+复)推片镜检。

10.Mono#(单核细胞绝对计数)>1.5×10(sup)9(/sup)/L;全部(初+复)推片镜检。

11.Fos#(嗜酸粒细胞绝对计数)>2.0x10(sup)9(/sup)/L;全部(初+复)推片镜检。

12.Baso#(嗜碱粒细胞绝对计数)>0.Sxl0(sup)9(/sup)/l;全部(初+复)推片镜检。

13.WBC IP Message(白细胞异常散点图);全部(初+复)推片镜检。

14.WBC lP Message(未成熟粒细胞);全部(初十复)推片镜检。

15.WBC lP Message(核左移);全部(初+复)推片镜检。

16.WBC IP Message(异形淋巴细胞或原始细胞);全部(初+复)推片镜检。

17.WBC IP Message(原始细胞);全部(初+复)推片镜检。

18.WBC lP Message(有核红细胞);全部(初+复)推片镜检。

19.PLT lP Message(除PLT聚集外的PLT和MPV(平均血小板体积)报警);全部(初+复)推片镜检。

20.CBC+DC(新生儿标本);全部(初+复)推片镜检。

21.CBC+DC(血液病标本);全部(初+复)推片镜检一

2结果

2.1镜检结果

3 800份标本的仪器检测数据和显微镜人工镜检结果:①根据“血细胞涂片复审41条国际规则”的检测结果进行统计学分析,真阳性率为13.73%(522/3800),假阳性率为32.05%(1218/3800),真阴性率为51.05%(1940/3800),假阴性率为3.11%(120/3800),涂片复审率为45.78%;②按Sysmex公司提供的21条规则对检测结果进行统计学分析,真阳性率为11.37%(432/3800),假阳性率为17.97%(683/3800),真阴性率为66.58%(2530/3800),假阴性率为4.08%(155/3800),涂片复审率为2934%。

2.2验证试验

为了验证svsmex公司提供的21条复检规则的有效性,将这21条复检规则设置在xE-2100血细胞分析仪的Lab-msn程序中,选择300份(主要是血液病、感染性疾病、新生儿和肿瘤化疗患者)血标本在xE-2100血细胞分析仪上进行检测,并与涂片镜检结果对比分析。结果显示:真阳性率为53.33%(160/300),假阳性率为30.67%(92/300),真阴性率为12.33%(37/300),假阴性率为3.67%(11/300),血液病细胞及原幼细胞无阳性漏检现象发生。

3讨论

为了保证血液细胞形态学检查结果的准确,原则上每个标本都应镜检,但实际是不可能做到的,因此复检筛选标准的制订至关重要。这是解决当前“供需矛盾”最有效的办法,而准确的筛选取决于适合本实验室具体情况和要求的筛选标准的制订及严格、准确的实施。在IS015189认可现场评审开出的“不符合项”或“观察项”主要集中在有关细胞形态学检验相关方面的工作缺乏适合本实验室使用的仪器筛选标准和复片率过低等现象。

血涂片复审虽然是血细胞分析后质量保证措施,但显微镜检查为定性或半定量分析方法,对于仪器法定量分析的项目是否适合以镜检“验证”,比如I)“RBC明显大小不等”验证“红细胞体积分布宽度(RDW)增大”、“低色素RBC>0.3”验证“平均红细胞血红蛋白浓度(MCHC)减低”科学与否。另外,由于观察者的技术水平不同和涂片中细胞分布的差异,故要充分认识显微镜检查的局限性。总之。临床实验室制订血涂片复审筛选标准是一项科学性强、涉及面广、影响因素多的工作。应该循证规律,切勿草率从事。

“假阴性”是关键参数。具有诊断意义的重要参数不能出现假阴性。其他参数假阴性率也应

对国际41条复检规则和Sysmex公司提供的21条复检规则进行评估后发现在3800份标本中,国际41条复检规则得到的假阳性率为32.05%(1218/3800);而Sysmex公司提供的21条复检规则得到的假阳性率为17.97%(683/3800);远低于国际41条复检规则,但两者的假阴性率分别为3.11%(120/3800)和4.08%(155/3800),差异不大,均未超过5%的最大可接受的假阴性率标准。如果按照国际41条复检规则进行复检。涂片复审率为45.78%;而按照Sysmex公司提供的21条复检规则进行复检,涂片复审率为29.34%,复审率远低于国际41条复检规则,并且试验血液病细胞及原幼细胞无阳性漏检现象发生。从而在保证检验质量的前提下大大提高了工作效率。综合SysmexXE-2100五分类血细胞分析仪的性能特点和我科的病源常规工作情况,笔者认为Sysmex公司提供的21条复检规则作为“三甲”医院规模的检验科血涂片复审筛选标准较为实用。在实际工作中只需根据具体情况对个别条款加以修正、完善和改进即可。

篇4

关键词:关联规则挖掘;Apriori算法;频繁项目集;侯选数据集

中图分类号:TP311 文献标识码:B 文章编号:1004373X(2008)1807803

Improvement of Apriori Algorithm in Association Rule Mining

ZHU Ye,YE Gaoying

(Chengdu University of Information Technology,Chengdu,610225,China)

Abstract:In this paper,the principle and performance of Apriori algorithm is introduced,and two defects of Apriori algorithm:scanning database too much and creating excessive candidate itemsets are analyzed.A new Apriori algorithm has been designed for finding out the highest dimension frequent itemsets from frequent 1itemset directly.A great number of linking operations in finding frequent itemsets dimension by dimension are canceled over all.The algorithm is improved efficiently.

Keywords:association rule mining;Apriori algorithm;frequent itemset;candidate itemset

1 引 言

数据挖据[1](Data Mining)是一个多学科交叉研究领域,是从大量数据中提取或“挖掘”出未知的、潜在的、有用的知识。从现状来看,数据挖掘的研究仍然处于广泛研究探索阶段,主要包括特征化与比较、关联规则挖掘、分类预测和聚类分析等方法。其中关联规则挖掘(Association Rule Mining)是数据挖掘中最活跃的研究方法之一。

最早由Agrawal等人[2](1993年)针对购物篮分析(Basket Analysis)问题提出的,其目的是为了发现交易数据库(Transaction Database)中不同商品之间的联系规则。通过关联规则发现算法寻找形如“如果,那么”的规则,这种规则以其简洁性已经多次成功应用到决策支持系统,指导人们在各个领域中的活动。在关联规则挖掘算法的研究中,Agrawal提出的Apriori算法最为经典,但该算法本身固有的缺陷[3]是多次扫描数据库,并产生庞大的候选数据集。

本文从这两个缺陷入手,减少扫描数据库的次数,并省去大量候选集的产生过程,从而提高算法效率。

2 关联规则基本概念

一个事务数据库中的关联规则挖掘可以描述如下[3]:设I={i1,i2,…,im}是一个项目集合,事务数据库D={t1,t2,…,tn}是由一系列具有惟一标识TID的事务组成,每个事务ti(i=1,2,…,n)都对应于I上的子集。

定义1 支持度(Support):

指包含项目集(Itemset)I1(I1∈I)的事务在D中所占的百分比。

定义2 信任度(Confidence):

在形如I1I2的关联规则中(I1∈I,I2∈I),信任度指包含I1和I2的事务数与包含I1的事务数之比,即在I1发生的情况下,I2也发生的可能性。

定义3 频繁项目集(Frequent Itemset)和最大频繁项目集:

对项目集和事务数据库D,T中所有满足用户指定的最小支持度的项目集称为频繁项目集。在频繁项目集中挑选出所有不被其他元素包含的频繁项目集称为最大频繁项目集。

定义4 强关联规则(Strong Association Rule):

指D在I上满足最小支持度和用户指定的最小信任度的关联规则。

关联规则挖掘问题就是通过最小支持度和最小信任度在一个事务数据库中寻找强关联规则的过程,划分为2个子问题:

(1) 发现最大频繁项目集;

(2) 在最大频繁项目集中生成强关联规则。第一个子问题是本文的研究重点,即提出一种新的算法来发现最大频繁项目集。

3 Apriori算法及缺点分析

1994年Agrawal等人建立用于事务数据库挖掘的项目集的格空间理论[4]:频繁项目集的子集是频繁项目集,非频繁项目集的超集是非频繁项目集。Apriori算法[3]依据此理论进行剪枝。该算法是通过项目集数目不断增长来逐步发现频繁项目集的,算法输入数据集D和最小支持数minsupcount(最小支持度与事务数的乘积),输出频繁项目集L。算法首先产生1频繁项目L1,然后是2频繁项目集L2,直至不再能扩展频繁项目集的元素数目而算法停止。在第k次循环中,过程先产生k候选项目集的集合Ck,然后通过扫描数据库得到CK的支持度并测试产生k频繁项目集Lk。算法过程[5]是:连接剪枝生成Ck扫描计数比较生成Lk。

从以上分析可以发现,Apriori算法使用逐层搜索的迭代方法,通过低维频繁项目集产生高维频繁项目集[4]。这样,就致使Apriori算法存在2个致命的性能瓶颈:

(1) 多次扫描事务数据库。每次k循环,候选集Ck中的每个元素都必须通过扫描数据库1次来判断其是否加入Lk。如果频繁大项目集包含n项,则至少需要扫描事务数据库n遍,需要很大的I/O负载。

(2) 可能产生庞大的候选集。由Lk-1产生k候选集Ck是呈指数增长的,例如104个1频繁项目集有可能产生接近107个元素的2候选集,如此庞大的候选集对时间和存储空间是一个挑战。

4 改进Apriori算法

Apriori算法使用候选集去找频繁集,算法反复连接、剪枝,导致执行效率低。因此,考虑使用其他方法来取代通过候选集去找频繁集的过程,改变由低维频繁项目集到高维频繁项目集的多次连接运算,这样,既可以避免大量候选集的产生,又可以减少数据库的扫描次数,从而提高算法效率。在介绍具体改进措施之前,引入2条推论:

推论1 如果K频繁项目集Lk中的项目集个数≤K时,则该集合为最大频繁项目集的集合。

证明: 根据项目集格空间理论,假如存在K+1频繁项目集Lk+1,那么对于Lk+1的K+1个K项目子集都是频繁项目集,与题设项目集个数≤K矛盾,所以,如果频繁项目Lk中项目集的个数≤K时,则无法产生K+1频繁项目集Lk+1,因此,该推论成立。

推论2 最大频繁项目集Lk的项目数K小于等于在所有事务中满足支持计数的最大项目数k。对于事务T,若2项集的支持计数为sup2,3项集的支持计数为sup3,…,n-项集的支持计数为supn(n为所有事务中的最大项目数),其中,supk( Minsupport(2(k(n)且supk+1

证明: (反证法)假设K大于k,则存在频繁项目集Lk满足支持计数,而与满足支持计数的项目数k最大矛盾,因此,最大频繁项目数K不可能大于满足支持计数的最大项目数k,推论得证。

一般地,只关心那些不被其他频繁项目集所包含的最大项目集的集合,在这些频繁项目集中发现关联规则。所以,问题归结为如何高效确定最大频繁项目集。改变通常的做法,应用上述推论,先确定最大频繁项目集的项目数K,然后找出所有频繁项集Lk。算法NewApriori描述如下:

输入:事务数据T;最小支持数minsupcount。

输出:最大频繁项目集L。

(1) C[n]=0; //初始化数组C[n],n为所有事务中的最大项目数

(2)for each ti∈Tdo begin

(3) i=|ti|;//i为每个事务所含的项目数

(4) C[i]=C[i]+1

(5)end

(6) L1={large 1-itemsets};//所有满足支持计数的1频繁项目集

(7)for i=nto 2do begin

(8)if(C[i](minsupcount) then begin

(9) k=i;

//根据推论2,k≤i,由于找最大的频繁项集,因此可以假定k=i

(10) Ck={large k-itemsets};//直接从L1中生成Ck

(11) Lk={Ck|Ck.count(minsupcount and Ck.count(k};//根据推论1

(12)if Lk≠hthen

(13)return Lk

(14)end

(15)end

该算法的改进主要体现在以下2方面:

(1) 最大频繁集的产生过程改变为从高维到低维的搜索过程,根据不同项目个数的出现频率,直接从1频繁项目集产生高维频繁项目集,省去多次的连接运算及大量候选集的产生,节约了运行时间和主存空间。

(2) 减少扫描数据库次数,该算法扫描数据库的次数最少可以减少到3次(第1次,计算C\;第2次,得到1频繁项目集;第3次,计算大于支持计数的Lk),而Apriori算法则需要扫描k次,因此,对于维数较高(k值较大)的频繁项目集的计算,效率提高更明显。

5 实例分析

下面给出一个服装店的20个收款机事务记录,每一事务T代表购买的商品集合,I1-I6分别表示不同的商品,最小支持数minsupcount=3,见表1所示。

根据NewAgriori算法

(1) 计算C[n],C[1]=4,C[2]=6,C[3]=5,C[4]=4,C[5]=1;

(2) 得到1频繁项目集L1={{I2},{I3},{I4},{I5},{I6}};

(3) 由于C[5]minsupcount,则先假定最大频繁项目集的项目数k=4,从L1中产生所有4项目集,共5个,分别是:{I2,I3,I4,I5},{I2,I3,I4,I6},{I3,I4,I5,I6},{I2,I4,I5,I6},{I2,I3,I5,I6},扫描数据库计算该5个候选集的支持计数,求得满足最小支持计数的项集为:{I2,I4,I5,I6},其支持计数=4,根据推论1可知,该频繁项目集即是最大频繁项目集,计算结束。如果使用Apriori算法,则需要扫描4次数据库,并且从1频繁项目集到4频繁项目集的连接计算共需产生24个候选集。而使用NewApriori算法,整个过程共扫描了3次数据库,且只产生5个4项候选集,很明显,无需产生大量的候选集同样可以找到最大频繁项目集,同时减少了扫描数据库的次数。但从上述算法流程不难看出,如果第一次假定的k不是所要求的最大频繁项目集的项目数时,则需要再次寻找符合要求的k值,多一次寻找,就多一次对数据库的扫描,候选集的数量也会随之增多。不过,数据库的扫描次数不会超过k次,为了避免过多冗余的候选集,可以将1频繁项目集按支持计数的大小顺序排列,组合支持计数相对少的项目,及早发现非频繁项目,以减少候选集的产生。因此,该算法特别适合于项目数比较大的最大频繁项目的查找。

6 结 语

Apriori算法作为最经典的关联规则挖掘算法被广泛使用,由于其固有的局限性,出现了大量的改进算法。本文提出的NewApriori算法也针对引起性能瓶颈的缺点而做出的改进,提高了系统运行效率。但不足的是,此算法只能找到项数最大的频繁项目集,也就是说,得到的频繁项目集不够完整,因此,还需要进一步完善。

参 考 文 献

[1]Jiawei Han,Micheline Kamber.数据挖掘概念与技术\.范明,孟小峰,译.北京:机械工业出版社,2001.

[2]Agrawal R,Imielinske T,Swami A.Mining Association Rules between Sets of Items in Large Databases.Proc.of the ACM SIGMOD International Conference on the Management of Data,Washington D.C.,1993:207216.

[3]毛国君,段立娟.数据挖掘原理与算法\.北京:清华大学出版社,2005.

[4]Agrawal R,Srikant R.Fast Algorithms for Mining Association Rules.Proc.1994 Int.Conf.Very Large Database.Santiago,Chile,1994:487499.

[5]李小兵.关联规则挖掘算法的改进与优化研究\.厦门大学学报:自然科学版,2005(7):468471.

[6]谢宗毅.关联规则挖掘Apriori算法的研究与改进\.杭州电子科技大学学报,2006(6):7882.

篇5

关键词:数据挖掘;频繁项集;链表数组

中图分类号:TP311 文献标识码:A 文章编号:1007-9599 (2012) 19-0000-03

1 引言

数据挖掘是从大量的数据中,发掘出潜在有用的模式和信息的技术。当前主要的数据挖掘方法有关联规则、分类和聚类。其中,关联规则致力于发现数据中的频繁模式,它最早由R.Agrawal等人针对购物篮问题提出,其目的是为了发现交易数据库中不同商品间的联系,以帮助商家进行商品目录和货架设计,科学安排进货和库存,实施交叉销售。

最经典的频繁项集挖掘算法是Apriori算法[1]。它首次采用了基于频繁项集性质的自底向上的广度优先逐层搜索迭代技术,即利用已知的频繁k-项集推导出频繁(k+1)-项集。Apriori算法有三个主要步骤:(1)用频繁(k-1)-项集进行自连接来产生候选k-项集。(2)用Apriori性质进行对候选k-项集进行剪枝操作。(3)扫描数据库得到候选项集支持度。由上述分析可知,Apriori算法需要多次扫描数据库,I/O开销较大。另外,子集计算、共同前缀项集计算等也极大增加了算法的开销。为提高Apriori算法的效率,先后出现了许多基于Apriori的改进算法。文献[2]提出DHP算法,它利用哈希技术压缩候选项集集合Ck,同时也缩减了数据库的大小,降低I/O开销。此算法缺点在于哈希表会增加算法的内存开销,而且实现起来也较为麻烦。文献[3]提出Partition算法,它采用划分技术成功解决内存不足的问题,具有较好的可扩展性。然而,Partition算法可能产生大量虚假的候选项集。文献[4]提出选样技术,在给定数据的一个子集中挖掘频繁模式。Sampling算法简单并减少了I/O代价,但其产生的结果不精确,即存在所谓的数据扭曲。文献[5]提出DIC算法,它放松了产生候选项集和计数的严格界限,采用动态模式计数法以减少数据库的扫描次数,具有较好效率。

尽管有如上所述的诸多改进方法,但时间效率还不尽理想,为更进一步提高算法性能,提出一种基于Apriori的改进型算法FAA(Fast Apriori Algorithm)。FAA算法通过构造链表数组来快速产生频繁2-项集并减少数据库的扫描次数,优化对项集计数操作;改进连接策略来简化连接算法复杂度。

2 FAA算法思想

2.1 链表数组定义及生成算法。链表数组定义:数组为n个指针的一维数组P[n],对应数据库中的频繁项I1,I2,…,In,对应数组长度n为数据库中频繁项的数量。结点为事务结点,分为事务域、计数域和指针域。事务域是以频繁项为后缀的事务编码。计数域是该事务编码的数量,指针域是指向下一结点的指针。

编码方法:设数据库中有n个频繁项I1,I2,…,In。事务t的编码就是长度为n的0、1位串。在t中出现的项,其相应位置用1表示,否则填0。例如,有四个频繁项a,b,c,d。那么,一个包含a和c的事务就被映射为1010。

篇6

关键词:关联规则;故障模式分析;Apriori算法

现代设备的特点是技术密集、系统庞杂,仅靠人们积累的经验判断零部件故障的局限性很大。任何部件发生故障的机理都十分繁杂,要想从中分门别类地分析故障的特性,就必须首先研究故障模式和机理,探寻故障的规律,寻求预防故障途径的重要环节,因此对于故障模式的分析就显得尤为重要。本文运用Apriori算法[1,2]找出故障模式的频繁项集,并对频繁项集进行分析,找出相应关联规则,对部件进行故障分析,找出满足给定支持度和置信度阈值的故障原因、故障模式与部位的关系,产生有用的关联规则,为部件故障诊断提供科学依据。

1.故障分析的关联规则

Apriori算法是关联规则中产生频繁项集的主要算法,迭代是该算法的核心,该算法的基本过程为[3]:1)首先计算所有的候选1-项集C1;2)扫描数据库,删除其中的非频繁子集,生成频繁1-项集L1;3)将L1与自己连接生成候选2-项集C2;4)扫描数据库,删除C2中的非频繁子集,生成频繁2-项集L2;5)依次类推,通过频繁(k-1)-项集Lk-1与自己连接生成候选k-项集Ck,然后扫描数据库,生成频繁k-项集Lk,直到不再有频繁项集为止。

2.故障模式应用分析

现有某部件单元电气机械零部件的故障数据(表1)

表1某电气机械零部件故障数据表

故障分析的主要目的是寻找影响零部件工作的故障模式和原因,因此最小支持度和最小置信度设置越低越好,为了使得最小支持计数大于1,故设置最小支持度为10%,最小支持计数就为:首先根据故障部位的代码找出频繁1-项集(见表2)。

表2频繁1-项集

从表2中不难看出故障部位代码C的支持计数最多。下面以故障发生最多的轴承部位(C)为例,从源数据库中找出所有C的故障原因或模式,根据频繁1-项集寻找频繁2-项集(表3),依次搜索下去,再根据频繁2-项集寻找频繁3-项集(表4)。直到所有的源数据中包含部位C的数据被搜索完毕就停止。

表3频繁2-项集

表4频繁3-项集

将故障模式、故障原因、原因分类和故障部位之间的规则作为有用规则来对该电气机械系统进行故障原因分析。由于规则由频繁项集产生,每个规则都自动满足最小支持度,所以只要找出最小置信度就可以了,本文设置最小置信度为20%,这样可以找到所有影响该分系统的故障模式和原因。故障模式分析关联规则如表5所示。

表5故障模式分析关联规则表

经过分析,表明该电气机械系统的故障模式主要是磨损的可能性为71%,形变的可能性为29%,使用的故障原因占50%,设计不合理的原因占33%,因此一方面应加强轴承的设计研究,在结构设计、材料选择加大研究力度,另一方面要加强使用维护,提高装备零部件的可靠性。

3.结束语

以某部件单元电气机械零部件的故障数据为研究对象,依据Apriori算法对故障数据库进行频繁项集的关联规则挖掘。通过寻找故障模式、故障原因和部位的频繁集,得出故障部位、故障模式和原因的置信度表及规则,以便提高诊断系统中零部件最容易发生故障的部位和模式的有效性,也为零部件的设计,提高系统的可靠性提供了参考依据。

参考文献:

[1]Jiawei Han Micheline Kamber 著,范明 孟小峰等译,数据挖掘概念与技术[M],北京,机械工业出版社,2005 152-156.

篇7

关键词: 数据挖掘;矩阵;关联规则;Apriori算法;频繁项集

中图分类号:TP18

文献标识码:A文章编号:1672-8513(2010)05-0334-03

A New Algorithm Based on Matrix to Mine Frequent Item Sets

YANG Jing, ZHENG Zhongzhi,SONG Jinge,DUAN Peng

(School of Mathematic and Computer Science, Yunnan University of Nationalities, Kunming 650031, China)

Abstract: Apriori algorithm has been considered as a classic algorithm to mine frequent item sets. But its major defect is that the database has to be scanned many times, and there are a large number of candidate item sets in the result. So this algorithm is inefficient. This research proposes a new algorithm based on matrix to mine frequent item sets and it can help overcome such defect.

Key words: data mining; matrix; association rule; Apriori algorithm; frequent item set

关联规则挖掘是数据挖掘的一种[1-2],是描述在一个事件中不同的项之间同时出现的规律的知识模式,具体地针对一个事务数据库来说,关联规则就是通过量化的数据描述某种物品的出现对另一种物品的出现有多大的影响.

挖掘关联规则主要包含以下2个步骤.

步骤1:发现所有的频繁项集,根据定义,这些项集的频率至少应该等于(预先设置的)最小支持度;

步骤2:根据所获得的频繁项集,产生相应的强关联规则.根据定义这些规则必须满足最小信任度阈值.

此外还可利用有趣性度量标准来帮助挖掘有价值的关联规则知识.由于步骤2中的相应操作极为简单,因此挖掘关联规则的整个性能就是由步骤1中的操作处理所决定.因此,基本上所有关于挖掘关联规则的研究都围绕步骤1展开.

传统的挖掘频繁项集的经典算法是Apriori算法.但是随着研究的深入,它的缺点也暴露出来.Apriori算法有2个致命的性能瓶颈.

1)多次扫描事务数据库,需要很大的I/O负载.对每次k循环,候选集Ck中的每个元素都必须通过扫描数据库1次来验证其是否加入频繁项目集Lk.

2)可能产生庞大的候选集.由Lk-1产生k-候选集Ck是指数增长的.如此大的候选集对时间和主存空间都是一种挑战.

1 基于矩阵的频繁项集挖掘算法

随着研究的不断深入,各种挖掘频繁项目集的算法相继被提出,在文献[3]中作者的主要思想是将矩阵和向量内积结合使用,从而产生频繁项目集,进而挖掘出关联规则;在文献[4]中作者主要思想是在矩阵的基础上,分别统计各个商品的频数,然后计算其他商品相对于该商品的信任度,从而挖掘出事务数据库内的关联规则;而在文献[5]中作者利用矩阵对Apriori算法进行改进,从而避免多次扫描原始事务数据库.除此之外,还有许多其他的关于关联规则的方法被提出[6-8],在这就不一一介绍了.

本文提出了一种基于矩阵的频繁项集挖掘算法.与文献[3]中的方法相比,本文提出的方法更加简洁方便,求解过程中只用到矩阵中行之间的加法,实现程序也非常简单.

该算法的主要思想如下:

首先根据所要分析的事务数据定义1个矩阵,矩阵的每一行表示事务数据库中的每一条购买记录的购买情况,矩阵的每一列表示各种事物的被购买情况.矩阵中的元素只用0和1两个数表示,当矩阵中第i行,第j列的元素为0时,元素0表示第i条购物记录所对应的购物者没有购买j列所对应的商品;相反当矩阵中第i行,第j列的元素为1时,元素1表示第i条购物记录所对应的购物者购买了j列所对应的商品.

其次,由题设的最小支持度要求及数据库的大小计算出相应的最小支持计数,设该最小支持计数为n.

最后,根据以下提出的定理完成频繁项目集的挖掘.

定理 设由题设计算出的最小支持计数为n,则某一频繁项集中包含某一组商品的充要条件是由任意选取已知矩阵中的n个行相加而得到的所有一维数组集中必存在1个一维数组使得该组商品对应该一维数组的分量都为n.

证明 充分性的证明:若任选n个行相加得到的所有的一维数组集中存在1个一维数组使得某组商品对应分量都为n,由于矩阵只由0和1构成,则在原矩阵中必存在n个行使得这n个行对应这组商品的分量的值都为1,即这n条记录所对应的购买者都买了这组商品,那么这组商品也就满足了最小支持计数要求,则频繁项集中必包含这组商品.

必要性的证明:若某一频繁项集中包含某一组商品,也就是说这组商品同时被购买的次数大于或等于要求的最小支持计数n,即在原矩阵中存在m(m>n)个行,使得这些行对应该组商品的分量的值都为1,在这m行里选取n个行相加得到1个一维数组,该一维数组所对应这组商品的分量也就都为n.定理证明完毕.

本文算法的具体描述:

输入:事务数据;

输出:该事务数据的频繁项集;

步骤1:用布尔矩阵A表示事务数据库中的数据;

步骤2:根据数据库大小及最小支持度要求计算出相应的最小支持计数n;

步骤3:计算出由任意选取已知矩阵中的n个行相加而得到的所有的一维数组集;

步骤4:扫描由步骤3得到的所有一维数组,并由这些数组得出所有的频繁项集.

2 本文算法的运用

本例题基于某商场的日常销售事务数据库,数据库中有9条数据记录.这9条记录分别是T1=[A B E],T2=[B D],T3=[B C],T4=[A B D],T5=[A C],T6=[B C],T7=[A C],T8=[A B C E],T9=[A B C].上面9条数据中中括号内的大写字母A,B,C,D,E分别表示5种商品,放在同一个中括号内的字母表示被某顾客同时购买的物品.假定最小支持计数为2.要求:求出该数据库的频繁项目集.

这里先把这9条数据转化为一个9×5的矩阵,矩阵的行分别表示9个事务,矩阵的列依次表示A,B,C,D,E这5种商品被购买情况,根据上面介绍的算法思想,该事务数据库中的数据就可以用如下的一个9×5的矩阵表示:

基于上述理论,我们可以把该矩阵中9个行两两相加,这里有36种可能结果,也就是有36个一维数组构成结果,然后对这36个一维数组进行逐个检查以确定符合要求的频繁项集.例如把原矩阵的第1行和第2行相加便得到如下s矩阵的第1行,根据此行便得知[B]为频繁1-项集;把原矩阵的第1行和第3行相加便得到如下s矩阵的第2行,根据此行也可得知[B]为频繁1-项集;把原矩阵的第1行和第4行相加便得到如下s矩阵的第3行,根据此行就可得知[A B]为频繁2-项集,[A],[B]均为频繁1-项集.把原矩阵中9个行两两相加,得到的结果矩阵s如下所示:

由于矩阵s的各列均含有元素为2,所以[A],[B],[C],[D],[E]均为频繁1-项集,而所有行都没有出现4个或4个以上的2,说明该数据库没有频繁4-项集,也没有频繁5-项集.第7行和第36行出现了3个2,说明该数据库有2个频繁3-项集,分别为[A B C]和[A B E].由Apriori性质[1]可知,[A B C]和[A B E]的2-项子集都是频繁2-项集,所以[A B],[B C],[A C],[A E],[B E]均为频繁2-项集,除此之外,扫描矩阵s发现第10行有两个2,即[B D]也为频繁2-项集.

由分析可知,此事务数据库的

频繁1-项集为:[A],[B],[C],[D],[E];

频繁2-项集为:[A B],[B C],[A C],[A E],[B E],[B D];

频繁3-项集为:[A B C],[A B E].

以上便是基于矩阵的频繁项集挖掘算法具体思想及应用.

如果对这个例题用Apriori算法求解,由于结果中存在13个频繁项集,因此至少需要扫描事务数据库13次,并且在求解过程中需要用大量的连接操作去产生候选频繁项集,产生的候选频繁项集会占用大量的内存空间,在产生候选频繁项集后还需多次使用Apriori性质对这些候选频繁项集进行判断.相比而言,运用本文提出的算法求解就会简单得多,只需扫描事务数据库1次,不需产生候选频繁项集,节省了内存空间,也就避免了反复使用Apriori性质对候选频繁项集进行判断.

3 结语

此方法与Apriori算法相比较,其优点是:首先,算法在执行过程中只需扫描事务数据库1次,扫描的过程中将事务数据库的内容转换为布尔矩阵,减少了频繁扫描原始的事务数据库所需消耗的大量时间,因而有效地解决了Apriori算法迭代产生频繁项集的瓶颈问题;其次,该算法不用产生大量的候选频繁项集,节省了大量的内存空间,更无需反复使用Apriori性质对候选频繁项集进行判断.因此,该算法具有较高的效率.与其他的基于矩阵的方法相比,该算法更简洁明了,方便易懂.其缺点是对于海量数据库,当要求的最小支持计数特别大时,算法所需用的循环将很多并且非常复杂,如何克服这个困难将是下一步着重的研究方向.

参考文献:

[1]HAN Jiawei, KAMBER M. 数据挖掘概念与技术[M]. 北京: 机械工业出版社,2006.

[2]佘玉梅, 段鹏. 人工智能及其应用[M].上海:上海交通大学出版社,2007.

[3]方炜炜,杨炳儒,宋威,等.基于布尔矩阵的关联规则算法研究[J].计算机应用研究,2005,25(7):1964-1966.

[4]高正红,邵良杉,沈学利.基于布尔矩阵的关联挖掘算法[J].科技资讯,2007(4):59-60.

[5]李娟,张明义,汪维清.基于矩阵的关联规则增量式更新算法[J].云南民族大学学报:自然科学版,2007,16(2):148-151.

[6]王新, 赵强.不完全数据库中的关联规则挖掘[J].云南民族大学学报:自然科学版,2005,14(3): 252-258.

篇8

[关键词]统计信息;统计数据;质量评估;方法

[中图分类号]C829.2 [文献标识码]A [文章编号]1005-6432(2013)38-0085-02

统计数据质量决定着统计机构的存亡,统计数据是否准确不但影响着相关决策的科学性和准确性,对统计机构的公信力也起着极其重要的影响。随着网络信息技术的不断发展以及广泛应用,推动了经济全球化的步伐,在社会各界不断加大对统计信息的需求的同时,对统计数据质量的要求也越来越高。近年来,随着国际统计界对统计数据质量方面的深入研究,确定统计数据质量的评估方法,已经成为研究的重要内容。本文阐述了统计数据质量的内涵,并对统计数据质量的评估方法作出了科学分析。

1统计数据质量的内涵

统计数据作为一种统计产品,在信息化时代中占有至关重要的地位,而统计数据质量概念的内涵也越来越丰富。传统的统计数据质量只包括统计数据的准确性,而用来衡量准确性的标准就是统计估计中的误差。在如今市场经济迅猛发展的环境下,准确性已经不再是衡量统计数据质量的唯一标准。统计数据作为统计产品,必须根据用户的需求去判断其质量,应该充分考虑统计数据提供的信息能否满足用户的需求。因此,统计数据质量的内涵必须具有一定的综合性。统计数据质量是一个相对的属性概念,其标准会根据用户的不同和时间的不同发生变化,因此,统计数据质量是指统计信息满足用户需求的程度,其内涵应该包括以下内容。

1.1完整性

应该确保相关数据无任何缺失,从而确保有足够的深度和广度去满足研究的需求。

1.2有用性

有用性具体是指数据本身的利用价值以及它的使用给用户所带来的利益程度。数据所提供的信息必须是用户需要的,并且要具有一定的利用价值。此外,有用性还应该包括安全问题,也就是说数据的使用权应该受到一定的限制,从而确保数据的保密性。

1.3时效性

对相关的研究来说,数据必须是最新的。时效性是判断统计数据是否满足用户需求的重要标准,相关数据必须在用户作出决策之前提供给用户,这样的数据对用户来说才是有利用价值的。

1.4准确性

数据必须具备准确性和可靠性,并能有效地反映实际情况。如何判断准确性,主要决定于目标值和统计估算值之间的差异程度,统计误差越小则说明准确性越高。数据的准确性还具体包括表述的准确性和一致性,准确性就是对数据的描述语言应该满足准确和简洁的标准,而一致性则是数据集内部、前后期以及其他数据来源和统计框架之间必须保持相互一致。

2统计数据质量的评估方法

2.1从核算角度进行的评估

从核算角度对数据进行评估,首先要以被评估指标要求的核算方法为基础,并深入分析指标核算中存在的问题及其原因,然后充分利用现有的资料进行重新估算,通过估算结果去检验官方估计值。又通过从核算角度重新对统计数据进行核算的方法也存在一些问题,例如,对相同的数据使用不同的估算方法,估算的结果会存在很大的差异,如果没有准确的信息,就很难解释这种差异。此外,由于缺乏和基础数据有关的信息,因此,在估算过程中必须通过建立假设进行估算,这样很可能会造成估算结果出现偏差,从而影响估算结果的准确性。虽然此方法存在一些问题,但是只要严格按照相关规范对指标进行重新估算,就可以有效地检验官方的统计数据,同时可以针对该指标的参考提供相应的统计数据,因此,对于宏观统计数据质量评估而言,此方法更具规范性。但是,由于宏观统计数据的估算存在较大的复杂性,而且收集数据的难度较大,因此,此方法只适合专门的研究人员和机构使用。

2.2从误差的角度对数据质量进行评估

误差是数据质量问题中最为常见的,所谓的误差就是客观的社会经济现象实际的数量特征与统计数据之间存在的差距。在现实中没有哪些数据是绝对准确的,因此,只能将精确度作为判断数据的标准,如果精确度能满足社会经济现象数量规律以及数量特征的需要,就可以判断此统计数据是准确的。然而,误差的大小是决定数据精确度高低的关键,因此,从误差的角度对数据质量进行评估的方法可行性较强。统计数据中存在的误差具体包括抽样误差以及非抽样误差。在进行样本推断的过程中,抽样误差是无法避免的,由于其本身并非错误产生的结果,且目前对抽样误差的研究已经取得了较高的成果,因此,只要成功的设计出样本的估计量,就能得出该估计量的误差公式。除此之外,其他所有的误差都属于非抽样误差。目前有两种方法可以判断非抽样误差,一种是针对估计值建立起总误差模型,并对非抽样误差在总误差中的份额大小以及其的具体数值进行测算,但此方法在理论和实践中都存在较大的复杂性,且成本较大。针对这种情况,相关学者研究出了另一种方法:先对原始资料中是否存在失真资料进行判断,并找出这些失真资料,然后进行必要的整理和修改,以避免误差的出现,从而确保统计数据的质量。从误差角度对数据质量进行评估的方法适用于检验和控制原始调查数据的质量。随着抽样调查技术的应用和发展,此方法在原始数据质量的评估中发挥着非常重要的作用,但是,针对计量误差的检测,此方法还有待进一步的完善。

2.3统计数据质量的逻辑性评估方法

2.3.1基于相关性的逻辑性评估方法

目前,有很多社会经济现象在数量上形成了一种相辅相成的关系,当某个社会经济现象出现数量上的变化时,也对其他的社会经济现象的数量造成直接的影响,而且在生产技术条件达到一定标准时,反映现象的不同指标之间保持着较为稳定的关系。基于相关性的逻辑性评估方法,具体是指在相关性较高的指标中,结合指标之间存在的关联,用已经确定的正确指标给出被评估指标的评估意见,如果各指标之间存在的关系出现大幅度的变动,就可以基本判断出被评估指标存在质量问题。此方法是以指标的弹性系数、各指标的比例关系以及总体指标和部分指标的结构关系等条件为判断依据,同时也可以采用主成分分析以及回归分析等计量方法。在对统计数据质量进行评估的过程中使用此方法时必须注意一些问题:各指标之间存在的关系并不会永远保持稳定的状态;必须确保和被评估指标相互联系的统计数据具备可靠性;和被评估指标相互联系的指标一般有很多,而根据不同的相关指标得出的判断结果应该是相同的,如果根据不同指标的变动来判断被评估数据的质量,得出的判断结果应该完全相反。

2.3.2基于规则的逻辑性评估方法

基于规则的逻辑性评估方法具体是指将一些已经通过专业审核的相关的统计数据资料进行集中,然后从总体上对各项数据之间的逻辑性和平衡性进行检验。逻辑平衡审核评估方法主要分为几种:相关平衡方法具体是指检查一些存在大于、小于以及等于关系的指标,如果检查结果出现异常,就可以基本判断数据存在错误;利用使用和生产的平衡关系进行评估的方法,具体是指判断一些有着明显内在关联的指标,尤其是使用和生产之间存在平衡关系的指标存在的误差是否在合理的范围内;同项相等的方法具体是指判断相同的指标在不同的标准上产生的数据是否一样;差额平衡法具体是指根据不同增减关系的数据,判断运算结果是否平衡。基于规则的逻辑性评估方法适用于原始调查资料和数据汇总,但是应该注意的是此方法只对存在逻辑平衡关系的数据有效,虽然使用计算机也可以检查和修改不同数据间存在的逻辑性错误,但是针对原始数据中庞大且复杂的非逻辑平衡的数据,要做出准确地判断存在很大的难度。

3结论

综上所述,由于影响统计数量的质量因素较多,而且这些因素存在于数据生产的各个环节,因此,统计数据的质量评估存在一定的复杂性。本文分析总结了几种评估方法,并对每个方法的特点和应用做了详细阐述,在对统计数据进行质量评估的过程中应该根据统计数据的使用对象以及类型,选择合适的评估方法,从而正确的判断统计数据的质量。

参考文献:

[1]胡安荣,王光彩,等.基层统计数据质量控制研究[J].统计制度方法研究,2009(4).

[2]邵建利,丁玲丽.统计数据质量控制和评估机制的研究[C].贯彻落实科学发展观推进上海统计改革与发展优秀论文选编,2005.

[3]黄秉成,孙宗进.统计调查数据质量的甄别与控制[J].上海统计,2010(1).

[4]成邦文,石林芬,杨宏进.统计数据质量检查与异常点识别的模型与方法[J].系统工程,2001(3).

篇9

【关键词】数据;关联规则;Apriori算法

一、Apriori算法概述

Apriori算法是一种最有影响力的挖掘布尔关联规则的频繁项集的算法,它是由Rakesh Agrawal和Ramakrishnan Skrikant提出的。它使用一种称作逐层搜索的迭代方法,k-项集用于探索(k+1)-项集。首先,找出频繁1-项集的集合。该集合记作L1。L1用于找频繁2-项集的集合L2,而L2用于找L2,如此下去,直到不能找到k-项集。每找一个Lk需要一次数据库扫描。为提高频繁项集逐层产生的效率,一种称作Apriori性质的重要性质用于压缩搜索空间。其运行定理在于一是频繁项集的所有非空子集都必须也是频繁的,二是非频繁项集的所有父集都是非频繁的。

二、Apriori算法思想

Apriori中提出了一个基于两阶段频集思想的方法,其核心思想如下:(1)连接步:为找Lk,通过Lk-ι与自己连接产生候选k-项集的集合。该候选项集的集合记作Ck。设I1和I2是Lk-1中的项集。记号Li[j]表示Li的第j项。为方便计,假定事物或项集中的项按字典次序排序。如果它们前(k-2)个项相同,则它们是可连接的。如果:(L■1)=L■1∧(2)=L■2∧…(L■K-2=(L■K-2)∧(L■K-1<L■k-1),条件L■K-1<L■k-1是保证不产生重复,则Lk-1中的元素I1和I2是可连接的,结果项集是I11I12…I1k-1I2k-1。(2)剪枝步:Ck是Lk的超集;即,Ck的成员可能是或可能不是大项集,但所有k-大项集都包含在Ck中。扫描数据库,确定每个侯选集的计数,计数值不小于最小支持度的所有侯选集为大项集,从而确定Lk。然而Ck,可能很大,因此要确定侯选计数的量可能很大。为压缩Ck,可由性质:任何非频繁(k-1)项集都不可能是k-项集的子集。因此,如果一个侯选k-项集的(k-1)项子集不在Lk-1中,则该侯选项集也不是频繁的,从而可从Ck中删除。

三、Apriori算法具体方法

Apriori算法在于Apriori使用根据候选生成的逐层迭代找出频繁项集。输入事物数据库D,最小支持度阂值min_supp;输出D中的频繁项集L。方法如下:={large1-itemsets};for(k=2;Lk-1≠¢;k++){ Ck=Apriori_gen(Lk-1,min_supp);//产生侯选集for each transaction t∈D { Ct=subset(Ck,t);//交易t中包含的侯选集for each candidate c∈Ct c.count++;}//end for t Lk={c∈Ck|c.count≥min_supp}}//end for k ReturnL=∪kLk;Procedure Apriori_gen(Lk-1;frequent(k-1)-itemsets;min_supp){ for each itemset L1∈Lk-1 for each itemset L2∈Lk-1 if(L■1)=L■1∧(2)=L■2∧…(L■K-2=(L■K-2)∧(L■K-1<L■k-1){ c=L1×L2;//连接步 产生侯选集 if has_infrequent_subset(c,) Delete c;//剪枝步 删除不频繁侯选else add c to Ck;} RenturenCk } Procedure has_infrequent_subset(c:candidate;k-itemset;Lk-1) { for each(k-1)-sebset s of c if s∈Lk-1 Return True;else Return False;}

四、Apriori算法的不足之处

Apriori首先产生频繁1-项集L1,然后是频繁2-项集L2,直到有某个r值使得Lr为空,这时算法停止。这里在第k次循环中,过程先产生候选k-项集的集合Ck,Ck中的每一个项集是对两个只有一个项不同的属于Lk-1的频集做连接来产生的。Ck中的项集是用来产生频集的候选集,最后的频集Lk必须是Ck的一个子集。Ck中的每个元素需在交易数据库中进行验证来决定其是否加入Lk,这里的验证过程是算法性能的一个瓶颈。这个方法要求多次扫描可能很大的交易数据库,即如果频集最多包含10个项,那么就需要扫描交易数据库10遍,这需要很大的I/O负载,因而挖掘效率很低。其次,该算法使用起来不方便,因为它只让用户提供最小支持度和最小可信度,然后将所有满足条件的关联规则都挖掘出来,导致结果集很大,用户难以理解,需要进行大量的筛选才能抽取有用的规则。由此可见,关联规则所采用的算法应注重用户的参与性,因为不可能简单的通过把许多数据输入一个“黑匣子”以期望得到有用的知识。同时用户必须了解所属领域的背景知识,然后才可选择感兴趣的数据集合和模式。因此,关联规则的任务应该是一个交互式工具而非仅仅是自动分析。

参 考 文献

[1]朱其祥,徐勇,张林.基于改进Apriori算法的关联规则挖掘研究[J].计算机技术与发展.2006(7)

[2]李晓虹,尚晋.一种改进的新Apriori算法[J].计算机科学.2007(4)

[3]文蓉,李仁发.一种优化的Apriori算法[J].计算机系统应用.2008(1)

篇10

一、民营经济和统计数据质量的内涵

(一)民营经济的内涵

关于民营经济的定义,尚未形成一致的观点。一种较为认可的定义是,民营经济是指除了国有及国有控股、集体经济、外商和港澳台商独资及其控股的经济组织,其主要成分是私营企业、个体工商户和农民专业合作社。其中,私营企业和个体工商户在民营经济中占据了绝大部分。在当前有关民营经济的统计资料和研究文献中,基本上也是按照如上的构成成分加以统计和分析研究的。

(二)统计数据质量的内涵

关于统计数据质量的涵义,不同统计机构和学者对此有不同的定义。例如,加拿大统计局确定了衡量数据质量的6个方面标准:即实用性、准确性、及时性、可取得性、衔接性、可解释性;英国统计局提出的数据质量的标准是准确性、及时性、有效性和客观性。厦门大学博导曾五一教授在他的研究中认为,统计数据的质量并不限于通常人们理解的准确性,它的完整内涵应当包括:准确性、适用性、时效性、可比性与可获得性等五个方面的要求。本文就借用曾教授的观点,依照这五个标准来提高统计数据的质量。

二、民营经济统计数据质量的现状

政府对外公布的民营经济相关数据颇多,比如民营经济增加值、民营经济的营业收入、民营经济规模以上企业数、民营经济对GDP的贡献率等。民营经济数据的质量高低对以其为依据所做的有关决策和结论的科学性有重大影响,所以提高民营经济统计数据的质量具有重要意义。从总体上看,目前的统计数据可以反映我国经济发展的大体趋势。由于民营经济统计的对象复杂多变且分布广泛,使得民营经济统计数据的质量还存在诸多问题,不能满足使用者的需求。

(一)民营经济统计数据失真的现象很严重

统计数据失真的现象早已被社会公众所熟知,例如东北多个GDP造假县域经济规模超香港,地方GDP“增速高于全国、总量大于全国”等。统计数据失真主要是由统计制度不够完善造成的。通过对福建省某市统计局的走访,了解到目前民营经济统计没有专门的部门负责,而是将民营经济中的不同行业分给不同的部门负责统计,在统计人员中也分出了调查队和统计组两个队伍,数据的收集主要是由各级政府层层上报。有的政府上报的数据完全是虚假数据,这样的统计制度难免会出现数据失真的现象。统计数据虚假是最常见的统计数据质量问题,也是危害最为严重的统计数据质量问题。这些统计数据完全是虚构杜撰的,根本就没有事实依据。

(二)民营经济统计指标不统一造成各地统计数据难以衔接

目前,从国家层面看,全国没有统一的民营经济定义,也没有统一的民营经济统计口径和统计指标,也没有明确一个部门牵头负责民营经济工作。各省对民营经济统计工作没有参照的标准,只能自成一体。各级政府部门都是根据自身的统计需要来制定各自的统计指标和统计口径,这使得不同省份的民营经济统计数据不具有可比性,相互间难以衔接。以山东省为例,工商联、工商局、中小企业局三个部门都在抓民营经济,而市一级多数由中小企业主管部门负责。从统计口径上看,省工商局所统计的民营经济指标实际上只是个体工商户和私营企业,省中小企业局执行的是以前乡镇企业的指标体系,基本不用民营经济这个概念,但到了市一级,中小企业、民营经济用的都是这个数据,而概念和标准都十分清楚的中小企业从上到下都没有专门的统计。概念界定不清、统计口径不统一、统计体系不健全,给基层工作带来很大不便。对此,山东省宏观经济研究院经济研究所所长高福一认为,面对大数据时代,统计体系不完备,会对政府的科学决策造成一定影响。

(三)民营经济配合统计工作的积极性不高,申报的数据较随意

民营经济的统计工作,仅仅依靠统计部门及其他政府部门远远不够,需要各民营经济实体的积极配合。从当前情况来看,由于缺乏相应的法律约束,民营经济实体在这种“纯义务”的统计工作上,很少采取主动配合的态度,对统计部门需要的统计资料也是敷衍了事,甚至有时要统计人员再三催促,才随意地报上一组数据应付。这种不准确的数据严重影响统计报表的准确性,不利于我国民营经济的统计工作。同时,民营经济体对于涉及企业销售总额与营业利润等企业的敏感性数据,抵触心理严重,这主要是其“怕征税、怕露富、怕泄密”的心理造成的,如此一来,在对待民营经济统计工作的态度上,民营经济体本身就不愿意参与,也不会主动配合,大大降低了民营经济统计工作的效率。由此可见,缺乏相应的法律约束,使民营经济提供的数据与报表资料随意性很大,给我国民营经济的统计工作带来非常大的困扰,这也是我国民营经济统计数据质量不高的重要原因。

三、数据挖掘技术在提高民营经济统计数据质量中的应用

数据挖掘的正式研究开始于1989年举行的第十一届国际联合人工智能学术会议,从数据库中发现知识(KDD)一词首次在该会议中被提出。数据挖掘技术从一开始就是面向应用的,在国外很多领域,如金融、生物、电信、保险、交通、零售等领域,数据挖掘的应用都起到了明显的效果。世界上研究数据挖掘的组织、机构和大学有很多,比如卡内基梅隆大学、斯坦福大学和麻省理工学院等。与国外相比,国内对数据挖掘的研究稍晚,没有形成整体力量,直到1993年国家自然科学基金才首次支持该领域的研究项目,到上世纪90年代中后期,初步形成了知识发现和数据挖掘的基本框架。此后一批研究学术论文逐渐发表,但是基本上还是以学术研究为主,实际应用上处于起步阶段。在大数据时代,利用数据挖掘提升竞争力已成为各行各业都在追逐和挑战的目标,数据挖掘被认为是大数据中最关键和最有价值的工作。目前有研究者提出将数据挖掘技术应用于统计中,为相应的部门提供服务。比如,将数据挖掘应用在政府统计、人口普查、经济普查中。民营经济作为我国的一大经济支柱,其中包含了大量复杂的信息,数据质量高低不容忽视。因此,有必要对数据挖掘技术在民营经济统计数据质量控制方面进行研究。

(一)微观层面

我国民营经济包含的对象复杂多样,各单位的规模大小不一,其分布又十分广泛。面对如此庞大的群体,民营经济统计工作的难度可想而知。我国没有统一的民营经济统计,都是各省各部门根据自身的需要进行相关统计。据某统计局工作人员介绍,在收集民营经济统计数据时,按照企业规模的大小分为两种渠道,规模以上的企业通过网络直报提交数据,规模以下的通过调查队或者当地基层政府提交相关数据。在收集数据时,根据行业不同又分工为不同科室负责,比如有的科室负责钢铁行业,有点科室负责文化产业行业等,这样容易导致重复统计或者遗漏统计。目前我国对于民营经济申报的统计数据没有任何法律约束,导致上报的数据很随意,常常与实际值偏离巨大。在初始环节严把数据的质量,对后期的数据加工具有重要的意义。1.孤立点的识别。孤立点指的是在数据集合中与大多数数据的特征不一致的数据。孤立点挖掘可以描述为,给定一个n个数据点或对象的集合,以及预期的孤立点的数目k,发现与剩余的数据相比是显著不一致的头k个对象就是孤立点。目前挖掘孤立点的算法主要包括七类:基于统计的方法、基于距离的方法、基于密度的方法、基于偏离的方法、基于聚类的方法、基于粗糙集的方法和基于人工神经网络的方法。在民营经济统计数据采集过程中,由于采集的对象庞大,政府统计工作人员无法做到对每次收集的数据一一核实,只能对采集的数据进行一次筛选,将其中可能存在显著差异的数据找出来,然后对这些数据进行核实,剔除一些无效的数据,以保证原始数据的真实性。对于民营经济各个单位上报的统计数据,无论是故意的还是无意的都会出现一些孤立点,这些孤立点的存在无疑会影响数据的质量。我们可以通过基于聚类的方法来找到这些孤立点,首先将民营经济统计数据集利用已经成熟的模型进行聚类分析,使数据集形成簇,而那些不在簇中的数据即被视为异常点,然后对这些异常点进行一一核实,这样工作量就大大缩小了。2.缺失数据的替代。缺失数据是指数据集中某些记录的属性值丢失或空缺,一般缺失的属性值代表了缺失的信息。民营经济统计指标体系涵盖的内容广泛,而民营企业大部分规模较小,数据记录的制度不健全,面对政府部门收集数据的任务,有时是提交空白数据,有时是随便填报个数据敷衍了事。统计部门收集到的空白数据,最简单的办法是直接去掉,这样势必会影响到最终统计结果的真实性。为了提高数据的质量,必须要对这些缺失值找到一个合理的替代值。缺失数据的替代方法有单值替代、类均值替代和回归替代,这些方法都可以解决缺失数据的替代问题。单值替代是使用一个常量代替所有的缺失值,常量的选择由应用的目的而定,可选择平均值、最大值、最小值等统计指标。类均值替代是用缺失数据记录所在类别的属性平均值代替缺失数据。回归替代是应用回归分析技术,对包含有缺失属性值的属性和相关的其他属性建立预测模型,并用相应的预测值代替缺失属性值。3.虚假数据的修正。在民营经济统计中,会收集很多不可避免的虚假数据。造成统计数据虚假的因素多种多样,如一些经济主体受经济利益驱使,捏造虚假数据,在财务报表上大做文章。比如,一些效益好的企业为了偷税漏税故意少报利润和销售收入,而一些效益不好的企业少报亏损或者高账面盈利,以骗取银行贷款并树立企业形象。还有一些企业长期搞多本账,报给财税部门的是“苦账”,报给银行获得贷款的是“喜账”,报给上级主管部门的是应付账,留给自己的才是真实账。虚假数据俗称为含水分的数据,如果这些数据水分不大,可以不去理会,因为统计数据是反映一个大体概况和趋势的,不需要毫厘不差。如果这些数据水分较大,汇总在一起的高水分的数据容易放大或者缩小实际经济状况,这时就必须在初始数据采集时严控数据中的水分。这些数据一般不会像孤立点那样容易被发现,具有一定的隐蔽性,必须要借助于数据挖掘方法才能识别其中的水分,比如数据挖掘中的聚类分析。聚类分析是将一个数据集划分为若干聚类,并使得同一个聚类内的数据对象具有较高的相似度,而不同聚类中的数据对象的相似度尽可能低。在民营经济统计数据库中将具有相似属性的企业归为同一个聚类,对于同一个聚类中某个企业的某项属性明显存在巨大差异,则可以判断此属性数据可能存在严重虚假,然后再进一步调查核实和修正。

(二)宏观层面

大部分地方统计部门在处理和分析统计数据时还处于手工操作或半手工操作,计算机的使用仅限于做一些简单的汇总和指标计算,统计分析也主要是事后分析,没能利用发达的计算机技术通过信息共享等方式进行事前分析和预测。1.关联规则的应用。关联规则是近几年研究较多的数据挖掘方法,具有高度的灵活性和重要性,应用也是最为广泛的。关联规则挖掘的主要对象是事务数据库,在事务数据库中,事务1中出现了属性项甲,事务2中出现了属性项乙,事务3中则同时出现属性甲和乙。那么属性甲和乙在事务中的出现互相之间是否有规律可循就是关联规则要挖掘的隐含信息,以查找容易被忽略或与人们熟知相背离的事件。经济统计中运用关联规则能够挖掘出汇总数据中联系密切的行业,这些关系密切的行业有已知的,也有未知的。尤其在民营经济的统计数据中,有些内部信息汇报人不愿如实填写数据,导致汇总后的数据与实际数据相差甚远,此时可以通过已经建立的规则关系来识别和修正一些水分较大的数据。在实际运用当中,很多属性之间所存在的关系为人们所知晓,被称为平凡规则,如提升工业总产值能够带来生产总值的增加。通过平凡规则,我们能够对数据质量的高低进行判断,以此达到消除虚假数据的目的。2.决策树的应用。决策树是一种用于分类、聚类和预测的建模方法,在民营经济统计数据中可以用决策树进行分类和预测分析。我国民营经济统计没有统一的口径,很多数据是通过统计人员根据收集部分数据推断出来的,所以需要一种有效可行的预测方法。决策树算法十分直观,这一过程的关键是有效构建决策树,主要分为建树和剪枝阶段。通过决策树对数据分类主要由两个步骤组成:其一,决策树模型的构建,即通过训练集实现一颗决策树的构建及精化;其二,将输入的数据通过决策树进行分类处理。当将数据输入决策树时,会由根节点对属性值依次进行测试并记录,然后到达叶子节点,来实现寻找记录所在类。从整体来看,决策树算法属于递归过程,一直进行到满足终止条件为止。分割停止要满足两个条件:其一为某一个节点上数据都同属一类;其二是能够进行数据分割的点已经耗尽。这一过程主要用于解决数据挖掘的预测及分类方面问题。

四、提高民营经济统计数据质量的对策

民营经济统计是一项综合的统计工作,涵盖了民营经济的各行各业,必须着眼于整个统计工作,从政府和企业相结合的角度建立一套行之有效的机制,来切实规范企业的行为,夯实企业的统计基础,并调整部门间的信息共享。

(一)政府应做的工作

1.加大统计执法检查力度,做好统计基础工作。对民营企业中存在的虚报、瞒报、拒报等统计违法行为,要鼓励执法人员勇于执法、善于执法,在保护民营企业遵纪守法正常发展的同时加大对一些典型的统计违法案件的曝光力度,以案说法,扩大教育面,促进这些企业的统计工作正常开展。同时,各级统计部门要重视对民营企业特别是新建的民营企业统计基础工作的指导工作,要组织力量搞好培训工作,督促企业依法建立健全原始记录和统计台账,夯实基础工作,严把统计数字质量关,要优选专兼职统计工作人员,切实做到业务精、责任心强,保证统计数字上报的及时性和准确性。2.将数据挖掘技术嵌入到网上直报系统,增强统计数据的自动化处理能力。在信息技术飞速发展的今天,先进的信息技术已经成为进行统计工作必不可少的工具,利用数据挖掘技术辅助网上直报系统,从而使得原始数据采集、储存加工以及信息传递实现了现代化,这不仅提高了统计数据传递的及时性,而且也提高了统计数据的准确性。同时伴随着信息技术的发展,调查技术也在不断地改善,一些新的调查方法将会逐步代替旧的调查方法,例如计算机辅助调查、计算机输入数据搜集系统等等。与此同时,还要不断推进统计信息自动化建设,提高各级统计部门的配机率和数据信息的处理能力,集中力量做好统计数据处理的软件开发和综合数据库建设,进而提高统计数据的质量。

(二)民营企业应做的工作

1.民营企业的领导层要重视配合政府统计部门的工作。要搞好统计工作必须得到企业领导的支持和其他职能部门的通力配合。统计工作涉及企业的销和人财物各个方面,对一个企业的生产经营活动起到监督、检查和指导作用,因此没有领导的重视和支持,没有企业中各个部门的积极配合,就无法保障统计数据的准确,资料来源渠道的畅通。2.民营企业自身要加强规范化统计基础工作。企业必须要有健全的原始记录、统计台账及财务报表,且能同时满足相关部门的需要,财务报表能满足统计需要的不再布置统计报表,并且根据会计决算的实际期效,统一上报时间。以减轻企业的劳动负担,增强企业积极配合统计的意愿,这样也避免了在财务决算之前“瞎估乱报”的现象。根据企业的实际情况,可以将会计、统计合并为一个综合部门,共同承担会计、统计任务,解决基层企业力量配置及劳务成本的问题。但无论人员如何配置,必须保证提供准确可靠的原始数据,做到不迟报、不漏报,确保源头数据的真实性,以提高民营经济统计的数据质量。

作者:柯芳 单位:福建师范大学协和学院

参考文献

[1]曾五一.国家统计数据质量研究的基本问题[J].商业经济与管理,2010,(12).

[2]高敏雪.从外部监督入手解决统计数据质量问题的努力[J].统计研究,2009,(8).

篇11

关键词:建筑企业 统计数据 统计信息质量

统计数据的质量高低是评价统计工作效果的关键因素,也是评价统计工作的主要标尺和依据。统计信息所具有的及时性和准确性,是衡量企业统计职能是否充分发挥的标准,也是企业进行发展规划的导向,是企业领导者作出科学决策的依据,更是影响统计部门工作质量以及存在价值的关键因素。

一、建筑企业统计数据质量不高的原因

1.统计人员素质不高,责任心不强。

有一部分统计人员缺乏起码的责任心,在进行统计工作时不深入到施工现场对工程项目的进度进行详细的了解,就凭借经验进行判断,这是导致统计数据失真的主要原因。另外,有一部分统计人员专业素质较低,上岗前没有通过系统的培训,导致统计数据的质量低下,造成监理部门的不满。

2.领导干部的干涉。

在一部分建筑企业中,有的领导为了表现其在职期间所做的巨大贡献,或者为了谋取个人利益,而将统计的重点放在了统计数据上面,弄虚作假,虚报数据,或者利用自身的领导地位,对统计人员施以压力,使他们不得不在领导的干扰下出具虚假的统计信息。另外,在建筑企业特别是在企业的基层单位有不少分管经济工作的领导,对企业经营尤其是对统计管理工作还比较生疏, 业务水平不高,这不能不影响到统计数据的真实性。

3.管理不严,基础管理工作不扎实。

在一些企业的基层单位统计管理工作松驰, 上级主管部门制定的管理制度在这里并没有得到很好的贯彻执行例如, 工程量完成情况统计台帐, 个别基层单位要么没有专人管理, 要么干脆没人管理, 致使在向建设单位和上级主管部门汇报工作时, 竞不知已完成了多少, 还需要完成多少工程量, 结果汇报的数字水份极大。企业检查监督不严。由于平日不对基层单位进行必要的检查, 又不对发现的问题进行及时处理,基层单位自然放松对统计工作的管理,统计人员也容易放松对统计数据的认真核实与计算工作, 以及统计台帐的建立与完善工作。

4.统计方法不利,信息传输不畅。

统计工具落后。在一部分建筑企业特别是基层单位的统计工作中还不能普遍使用计算机。统计信息沟通不畅。目前, 随着科学技术的进步,一些现代的通讯不断发展, 在一定程度上可以加快人与人之间的信息沟通速度。但是,对一部分财力有限的单位来说使用先进的通讯工具还有一定困难,因而,信息沟通不畅, 妨碍了企业统计的主管部门对基层单位的业务指导, 并且发现的问题也不能得到及时纠正。统计人员队伍不稳定。

二、提高统计数据质量的途径

1 、建设一支高素质的企业统计队伍

当今是“以人为本”的信息时代,人力资源是企业赖以成功的关键。所以,要提高统计数据质量,核心是建设一支高素质的企业统计队伍。建设途径有两个方面:一是改良,对现有统计人员进行科学的综合性培训,提高素质适应新时代要求;二是革新,剔除现有不合格统计人员,聘用高素质、高学历统计人才。何谓高素质统计人才?首先,应有良好的职业道德。不受外界干扰,严格按照《统计法》要求,保证统计“用事实说话”的特性和要求;其次,应具有新观念,不断更新知识。积极发挥统计各项职能,使统计工作不断创新。要在坚持国家统计制度、完成上级统计任务的前提下,从企业实际情况出发,创造性的开展工作,为企业经营发展服务;再次,应具有全新知识结构和观念。一个高素质的企业统计人才,不仅要有统计专业知识,而且还要具有计算机和网络技术、经济、金融等社会经济系统各个方面相关知识。

2 、加快现行统计改革,建立健全建筑企业行业统计制度

现行建筑业统计规则和统计制度的内容需要不断改善,尤其是对于一些实际工作中遇到的新问题,如对一些重要表外信息及重要非经济信息的统计。在制定建筑企业统计制度、规则、方法时,应尽量克服或减少其本身的不确定性。对制度中某些统计指标设立和解释要规范,给出明确权威性解释,表明各种理解的适用情况,这样就不会使规则的使用者造成误解,对一些统计核算方法选择的规定上,少用模糊性词语,使同一内容规定一致。建立新的有利于环境资本、人力资本、社会资本形成,有利于成本控制、运营资本管理和决策的数据资料统计体系,使建筑企业统计标准化。

3 、加强对企业统计数据监督,加大对建筑企业统计执法力度

加强对统计数据的监督力度,对上报数据准确性要通过数据审核、评估、定期检查、公布及举报制等增加统计数据透明度来遏制基层企业统计数据造假现象,确保统计数据质量。管理部门应建立审核制度,核对工程项目统计依据是否一贯,统计时间是否准确连续,统计数据逻辑性、勾稽关系是否正确等。另外,还要对统计数据进行评估。掌握企业近几年运行轨迹,选择适当方法进行综合评价。通过一系列措施,形成综合统计监督体系。

4 、深化统计职责范围,创新方法手段

在进一步深化改革完善统计制度的客观要求下建立一套科学实用的统计调查方法体系和报表制度是必然趋势。建筑企业要从为上级部门服务为主,转变为企业服务为主的方向上来。统计工作要以企业的生存发展为前提,大力开发信息资源,不断改进形成一套适合企业生产经营特点的一系列定期报表制度和抽样调查、典型调查、重点调查相结合的统计调查方法体系。通过加强基层统计数据管理,从源头上杜绝统计数据弄虚作假现象,提高统计数据质量。

5 、加强统计分析工作

统计人员不仅要为企业发展提供高质量统计数据,而且要搞好统计资料分析,并对企业生产经营状况提出建议、措施以增强对行业发展预测和对企业经营决策的预见性、科学性、有效性、指导性,从而为企业领导制定正确的经营决策提供可靠依据,同时也体现了统计工作的巨大作用。

结束语:

统计信息的质量是影响企业综合竞争力的一个重要因素,因此加强对统计信息质量的管理有着十分重要的意义。在建筑企业中,统计数据的真实性和完整性是确保施工能够保质保量完成的一个关键因素,因此,建筑施工企业应当从提高统计队伍人员素质、加强统计数据的分析以及监督机制的完善等几个方面,提高统计数据的准确性,为管理者科学的决策提供依据。

参考文献

[1]彭华,刘德峰,赵西旺.浅谈如何提高建筑企业统计数据质量[J].中国科技信息,2006,(06)

[2]张美清.关于提高统计数据质量的几点思考[J].内蒙古统计,2006,(01)

[3]于美莲.浅议如何提高统计数据质量[J].科技情报开发与经济,2009,(32)

篇12

关键词:数据挖掘;贝叶斯分类算法;入侵检测

中图分类号:TP393文献标识码:A 文章编号:1009-3044(2007)06-11644-03

1 引言

随着计算机网络的广泛应用和Internet的迅速发展,网络的开放性和共享程度越来越强,网络安全越来越成为广泛关注的焦点。入侵检测就是通过运用一些分析方法对从各种渠道获得的反映网络状况和网络行为的数据进行分析、提炼,再根据分析结果对这些数据进行评价,从而能够识别出正常和异常的数据或者对潜在的新型入侵做出预测,以保证网络的安全运行。

传统的入侵检测技术可以分为两大类型:异常入侵检测和误用入侵检测。目前在入侵检测系统模型构造中,常用的捡测方法还有统计方法、软计算方法、基于专家系统的入侵检测方法。但是,都有其自身的局限性:其系统模型是通过手工的或特殊的方法构造的;其设计和实现需要系统建造者对计算机系统和已知入侵方式有很深的了解;检测的只是侧重于某种入侵渠道的系统审计数据,无法适应千变万化的入侵方式,这样构造出来的系统的有效性和适应

性在新的计算环境和新的入侵方式面前受限。而数据挖掘的一些思路和方法非常适合解决这些问题。

2 数据挖掘技术简述

数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,非平凡的抽取一些隐含的、系统未知的、潜在有用的信息和知识的过程。一般来讲,基于数据挖掘的入侵检测系统的基本思路是:

首先,把原始审计数据(从网络或主机上获取的二进制的审计数据)转换成ASCII格式的网络分组信息,再把网络分组信息经过数据预处理程序处理成连接记录。其次,用数据挖掘算法中的关联分析算法和序列分析算法挖掘连接记录数据库中的频繁模式,如关联规则和频繁序列。利用这些频繁模式,为连接记录构造附加特征,如时间统计特征。最后,进行人侵检测模型的构建,数据挖掘有很多模型和算法,其中大部分算法都不是专为解决某个问题而特制的,算法之间也不相互排斥。在这些算法中,有几种算法对于分析网络审计数据和检测入侵非常有用,它们是关联规则算法、频繁序列算法和分类算法。

关联算法:通过得到的系统审计数据中各属性之间的频繁关系,确定构造入侵检测系统中所需的合适的属性。

频繁序列模式算法:发现系统审计事件中频繁发生的时间序列,该算法可为最后生成入侵检测模型提供时间统计属性。比如:通过对含有拒绝服务攻击方式的网络通信数据进行研究可知检测模型中应该包含与某段时间内同一主机和同一服务类型相关的时间统计属性。

分类规则挖掘算法:取得足够多的有关某个程序或用户的“正常”或者“异常”活动的审计数据,然后对其应用分类算法得到分类规则,根据分类规则判断新的审计数据属于正常还是异常类,生成分类规则的难点在于分类标签的选择及相关属性的确定。

利用这些算法及其它工具,可以从收集到的原始审计数据中建立入侵检测模型。在上面三步中,最核心的部分是第三步,即入侵检测模型的建立。

3 基于分类算法的入侵检测系统模型

3.1 入侵检测的分类思想

对于入侵检测模型的建立,由于分类算法理论比较成熟,而且在实际应用中效果也比较好,因此得到比较广泛的应用。

入侵检测的分类思想的基本思路是 :使用带标记的连接记录数据(训练数据)对分类器进行训练学习,该训练过程可能需要不断地反复和评估,如果分类器的分类效果不好,就需要通过频繁模式的挖掘和比较,构造更有助于分类的特征项。训练完成后的分类器就可以用于检测过程,将当前连接记录输入给分类器,分类器将输出该连接记录所属的类别。

3.2 分类模型的建立

分类就是在已有数据的基础上,通过学习,构造一个分类函数或分类模型,也称之为分类器。该函数或模型能够把数据库中的记录映射到给定类别中的某一个,从而应用于数据预测。分类的目的输出是离散的类别值。运用分类器检测入侵事件,可以判断哪些代码是恶意的攻击,从而采取措施,避免不良的后果。

从数学的角度来看,分类是一个映射的过程,分类器将未标明类别的二进制代码映射到不同的类别中,用数学公式表示如下:f: AB。其中,A为待分类的代码集合,B为分类体系中的类别集合。构造分类器是进行分类的关键。

图1

要构造分类器,首先必须掌握每类若干样本的数据信息,将这些数据分为训练样本集和测试样本集两部分,然后经过训练、测试和算法应用3个阶段来构造代码分类器。在训练阶段,分析训练样本集合中的数据记录的特征属性,通过特征抽取,总结出分类的规律性,建立相应的判别公式和判别规则,从而为每种类型标识生成精确的分类规则描述,也就是分类的映射规则。在测试阶段,利用这些分类规则对测试样本集合中的数据进行测试,来检验分类规则的正确性和精度,并根据测试结果,修正分类的映射规则。在此基础上,运用贝叶斯算法,进行机器学习,从而构造出代码分类器,在遇到新人侵时,就可以运用这个分类器对实际数据进行分类,确定入侵的类别。本文中运用的是贝叶斯算法。构造的分类模型如上图所示。

3.3 基于贝叶斯分类算法的入侵检测模型

由于目前基于数据挖掘入侵检测的最大弊端是实时性不高,因此本文在选择分类算法时选择了贝叶斯分类算法,该算法具有实现简单、分类速度快,利于实时检测的优势。基于分类算法的入侵检测系统的系统结构示意图如下图所示。

整个系统的工作过程由训练过程和检测过程组成。在训练过程中,系统使用大量网络连接记录组成的带标记的训练数据集,对贝叶斯分类器进行训练,通过不断循环反馈使得分类器可以分辨或预测哪些行为是正常的,哪些行为是不正常的。在检测过程中,系统利用训练过程中得到的知识库,使用训练好的贝叶斯分类器对当前连接记录进行分类,从而判断出当前行为是正常行为还是异常行为。

(1)训练阶段

数据源:按照需要的不同数据源可以是网络数据也可以是主机数据。当网络数据流在网段中传播时,采用特殊的数据提取技术收集网络中传输的数据作为入侵检测中的网络数据源。基于主机的数据源主要包括:历史审计记录和系统日志,还包括基于应用的审计信息和基于目标的对象信息。

图2

数据预处理及特征属性提取:将日志中的网络的数据包还原成基于传输层的连接记录,从中提取出可以用于对传输层连接记录进行分类的特征属性。对于在传输层无法判断的连接记录则进行高层的协议解析按照服务类型分解成相应的会话例如ftp telnet 等,针对每一种高层协议提取出可以用于判断的特征属性,得到用来生成规则的训练数据。

数据挖掘:针对不同的用途,采用不同的数据挖掘算法生成可用于入侵检测的规则,用来描述用户的正常行为、异常行为以及入侵行为。

数据采集模块:采用的是tcpdump程序。tcpdump截获的数据不能直接用分类算法进行分析,因此首先需要对它进行预处理,从中提取有意义的特征。

(2)入侵检测阶段

数据源:对基于网络数据的入侵检测系统通常用libpcap接口从链路层获取数据帧作为下一步处理的数据源基于主机的数据源是操作系统的当前审计记录和系统日志。

数据预处理及特征属性提取:与训练阶段的过程相同该过程的输出结果是用户的当前行为模式并作为下一步入侵检测的输入。

数据采集预处理模块:主要负责网络连接记录的采集、预处理,以及形成训练数据集。

响应:系统作出报警,采取防护措施防止进一步入侵以及记录日志等不同的响应方法,同时系统继续对当前用户行为或者网络数据进行监测。

在检测过程中,数据采集模块从网络上采集当前网络流数据,并通过数据预处理模块将其转换为当前连接记录。这两个模块的工作原理与前述相同。当前连接记录被送到贝叶斯分类器中,由贝叶斯分类器依据相应的知识库对其进行分类检测,从而决定是否有违反安全策略的入侵行为发生,并把结果再反馈给数据收集模块。

3.4 利用未标记数据提高贝叶斯分类器性能的基本思想

上面系统是利用未标记数据提高贝叶斯分类器性能思想。本文提出的基本思想是:设有两类数据CN(正常类)和CA(入侵类),首先用少量的带标记的训练数据(数据集D1)对贝叶斯分类器进行训练,得到分类器C,然后依次将大量的未带标记的数据(数据集D2)输入给C,由C对每条未带标记的连接记录r进行分类,因为贝叶斯分类的原理是计算r分别属于CN 和CA的概率,设r属于CN 的概率为PN,属于CA 的概率为PA,如果PN大于PA,则认为r属于CN,否则认为r属于CA。

为此,我们的思路是,设定一个阈值,对于连接记录r,如果PN/PA>e,即r属于类CN 的概率远大于r属于类CA 的概率,则将r归为类CN;如果PA/PN>P,即r属于类CA的概率远大于r属于类CN 的概率,则将r归为类CA;如果PN和PA不符合上面两个条件,即不能判断r明确属于哪个类,这时通过人工干预进行判断,确定r的明确归属。通过这种方式给大量未带标记的数据进行自动标记,然后继续对贝叶斯分类器进行训练,以得到检测性能更好的分类器。

根据上述利用未标记数据提高贝叶斯分类器性能的基本思想,本文设计r利用未标记数据提高贝叶斯分类器性能的算法是:利用未标记数据提高贝叶斯分类器性能的算法。输入:未训练的贝叶斯分类器C;判断概率差的阈值 ;带标记的训练数据集D1;未带标记的训练数据集D2;输出:训练好的贝叶斯分类器C;知识库K。方法:

(1)用带标记的数据集D1对贝叶斯分类器进行训练,得到分类器C和知识库K;

(2)for(D2中的每一条连接记录r)

(3)用C和K对r进行分类,计算PN和PA;

(4)如果PN /PA>e,则r为正常数据,TC中相应计数器加1;

(5)否则,如果PA/PN'~e,则r为入侵数据,TC巾相应计数器加1;

(6)否则,r需人工判断,将r保存于人工判断数据集D3,转;

(7)计算新的C和K;

(8)end for;

(9)for(D3中的每一条连接记录r)

(10)人工判断r属于何种类型数据;

(11)计算新的C和K;

(12)end for;

(13)return C和K。

该算法首先用带标记的数据集D1对贝叶斯分类器进行训练,得到分类器C,然后将分类器C作用于未带标记的训练数据集D2,对D2中的每一条连接记录r,用C对其进行分类(也可能需要人工干预),然后根据分类结果训练分类器C,得到新的C和K。

研究表明:利用未标记数据提高贝叶斯分类器性能的方法是有效的,在使用少量带标记的训练数据对贝叶斯分类器进行训练的基础上,通过对大量未带标记的训练数据进行自动标记从而继续对其进行训练,可以提高贝叶斯分类器的分类性能,从而较好地解决了训练数据集问题。

4 结束语

本文根据Wenke Lee提出的用基于分类的数据挖掘技术建立入侵检测模型的思路,构造了一个基于贝叶斯分类的入侵检测原型系统。尽可能减少了在构造入侵检测系统时手工的特殊的因素,用分类规则代替了对入侵模式和系统行为活动简档的编写,系统属性和系统度量标准的选择是通过系统审计数据采用数据挖掘算法确定的,减少了对专家经验的依赖。另外,入侵检测模型易于更新,将之移植到新的计算环境或处理新的入侵方式只须对新的系统审计数据进行相应的数据挖掘即可。采用贝叶斯分类算法还可以使系统实时性能大大提高。

参考文献:

[1]薛静锋,曹元大.基于贝叶斯分类的分组入侵检测技术研究[J].计算机科学,2005.

[2]郭爱伟,陈立潮, 叶树华.基于贝叶斯分类算法的安全捡测[J].科学情报开发与经济,2006.

[3]唐正军,网络入侵检测系统的设计于实现[M].北京:电子工业出版社,2002.

篇13

一、当前基建投资统计工作的现状和特点

1.基本建设投资统计指标综合性强、数据量大,计算过程复杂

基建投资统计的数据处理比较复杂。报表中看似简单的一个统计指标,背后却包含了大量基础数据的收集、加工和计算。稍有不慎,就会直接影响到最终的统计数据质量。例如:为了填报主要工程量完成情况月报中某一基建项目的 “自年初累计完成隧道延长米”的指标,数据整理过程如下:

⑴依次统计该项目各座隧道自年初累计完成的开挖、二衬、铺底和水沟电缆槽等长度;

⑵将以上各项基础数据按规定折算系数折算,计算出每座隧道的折合成洞米;

⑶再把该项目中每座隧道的折合成洞米相加,才能得出该项目所需填报的建设项目自年初累计完成隧道延长米(折合成洞米)的数据。

由此可见,基建投资统计的数据处理量是比较大的,报表中的每一个统计数据指标都包含了大量的基础数据的统计和计算过程,在数据处理过程中如果在某一环节中出现错误,将直接影响到最终的统计数据质量。

2.统计指标内涵丰富、涉及知识面广,不易准确理解和把握

2010年1月起执行的新版《铁路固定资产投资统计规则》(以下均简称《统规》),对基建投资统计的各项指标和口径都作了明确、清晰的解释。但在实际工作中,让不同文化程度、不同技术专业背景和不同工作经历的人,在千变万化的不同环境下,准确地运用这本统计规则指导具体统计实践,仍存在着不知所云、不知所以、不知从何下手的等困难。

例如:建设项目中关于跨线公路桥(指在铁路线路上方修建的保证公路顺利通过铁路线路的跨线桥)的投资,在建设项目概算编制体系中,它被列入第十章:其他费用。而在《统规》中,它属于各种建筑物、构筑物、房屋等类型的建造工程投资,须按本年完成投资的构成分类,划入“建筑工程”费用。遇到此类问题,填写统计报表时以何为据呢?不仅初次兼职统计工作的人员容易犯晕,有时一些老统计人员也会糊里糊涂地把跨线公路桥的投资完成,统计为“其他费用”中。

3.大中型项目设计复杂、影响因素多,施工过程中变化大

目前,大部分铁路基建项目在初步设计批复后就开始招投标、安排施工进场了,建设过程中多次变更设计,工程内容设计总量变化大,造成统计依据不足,错报漏报时有发生。

以呼铁局的新建张集铁路项目为例:Ⅰ线初步设计为164.562公里。增建Ⅱ后初步设计为164.439公里,最终里程在哪里发生变化。若未认真、及时地学习增建二线初步设计,就不能准确反映建设规模。

4.工程建设周期长,基础资料面广量大,基础工作牵涉精力多

大中型铁路基建项目的建设周期,一般在2-4年左右,因此固定资产投资统计需要动态地不断追踪、保存、整理建设项目的基础信息。在实际工作中,很多基建项目所跨区域大、建设时间长,所涉及的方面很多,而基层单位从事基建投资统计工作的人员,几乎都是兼职的。基建投资统计的基础工作离不开真实、完整的原始记录保存和统计台帐的科学管理,这些都对基层统计人员的业务能力和敬业精神提出了非常高的要求。

二、影响基建投资统计数据质量的主要因素

1.统计工作责任大、要求高,现场从事人员业务素质参差不齐

1.1对统计规则及报表制度理解不透

“十一五”以来铁路建设步伐加快,推动了铁路建设过程中的管理方法和投融资渠道的不断创新和变化,为了准确、全面地反映工程建设的投资规模和速度,规范投资统计范围、指标口径和计算方法,铁道部在广泛征求意见的基础上,对2004年颁布的《统规》做了大量修订,并从2010年1月1日起执行新版规章。全路对新《统规》进行了全路性的统计培训,但是部分统计人员,一是对新的《统规》还没有全面认真地学习,对各项指标解释理解还不透彻,造成指标计算错误。例如统计规划用地面积及征用土地面积时,误将临时用地统入;二是没有认真阅读理解当年下发的报表制度,对当年的新规定及新要求没有领会贯通,造成报表统计时,资料信息没有按照要求采集,造成误统或错统。

1.2对铁路工程建设项目概(预)算编制办法及相关知识学习不够

基建投资统计取数的依据是验工计价,验工计价表是按照项目概预算章节表根据工程项目的完成进度编制的。目前,我公司还有部分项目统计人员对概(预)算章节内容及费用构成不熟悉,常在一些投资完成额按构成、按建设资金来源分类方面出现一些低级错误。另外,还有一些统计人员对基本建设程序从设计阶段到实施阶段到建成投产验收阶段不清楚,对基本建设概算管理、财务管理、施工管理等的基本程序和内容不掌握,不能及时对所统计项目的建设内容和设计、概算变动情况进行了解,造成所统计的项目与实际相矛盾。

1.3 基层统计队伍不稳,统计人员变动频繁,部分同志责任心不强

一是基层统计人员兼职多、压力大,统计工作处于被应付状态,个别单位竟会在同一报表指标上经常出现错误。二是基层统计人员调动频繁,公司没有几个基建项目的投资统计人员是从头做到结束的,常常干1、2年就又换人了,好不容易教会了一个人,他们却又换人了。三是新开工项目增加,项目的统计人员没有经过培训就上岗,对统计指标计算不清楚。四是部分同志心情浮躁,思想上不重视统计工作。五是统计工作要求高,待遇低,巨大的反差令一部分人员不安心、不尽心统计工作,不注意认真核对报表资料。

2.统计人员工作不主动,基础管理工作不到位

2.1惰性思想作祟,深入现场不够,主动了解计划变更情况不够

对施工进度情况的了解,是正确统计实物数量及投资额完成的关键。统计人员如果没有深入现场查看,对完成的工程量进行估算,就会造成对验工计价报表所反应出的工作量没有正确的判断能力。目前有些单位负责统计报表的人员与编制验工计价报表人员不是同一人,如果验工计价报表数据虚报,统计人员不进行现场调查,是难以发现其错误,从而影响统计数据的准确性。

统计人员应主动与计划、施工及设计等相关部门沟通,及时掌握计划调整、变更设计及施工图变化等情况。如果对变化情况不掌握,就会对计划数、设计数量的更新不及时,造成相关指标统计不准确。这一方面我们一些统计人员作得还不够。

2.2基建投资统计台帐还缺乏统一有效的管理

基建投资统计报表,尤其是年报卡片,涉及的指标数值较多,有建设概况、设计数量、征地拆迁、施工规模、计划投资、资金到位、资本金到位,新增生产能力等方面的指标。这些指标的收集,需要建立基础台帐,并且在指标发生变化时,不断地及时更新。一般来说,至少每个月都要进行数据更新(如资金到位情况是每月都会发生变化的),但是,现在的基建投资统计台帐,没有几个项目管理单位已经有效地建立并运行起来。

3. 投资计划管理模式对统计工作有负面影响

3.1基建计划的年末调整时间晚及超前下达计划,影响报送铁道部与国家统计局数据的一致性

铁路基建计划管理的特殊性,导致了每年最后一次调整计划项目管理单位很晚才能收到。特别是遇到销号项目的计划调整,必定引起投资完成额的变化。由于各局报部、报送地方统计局的年报截止日期不同(2月28日、1月5日),会影响到铁道部与国家统计局所汇总数据的一致性。

3.2将银行贷款全部列入部资金来源,影响投资完成额的准确归类

铁道部对银行贷款采取的是“统借统还”管理,将银行贷款全部列入部资金来源,这在合资铁路建设中引起了很多的地方股东感到不满。他们认为这些贷款的风险、偿还,是由各方股东按股比承担的,岂能因贷款列入了部资金计划,投资完成也就全部列入铁道部的投资完成额。但是若对这类投资的完成额按股比进行分劈,既影响了本局的部、地方资金计划完成率,也未必与其他局的做法相统一。

三、提高铁路基建投资统计数据质量的应对措施

1.要加强学习,坚定理念,不断提高业务素质和工作能力

1.1要加强思想教育。统计管理工作,首先应注重人的思想理念教育。正确认识统计工作在建设管理中的重要性,统计科学决策和管理的一项重要基础工作,是制订计划的重要依据。铁路基建投资统计工作需要打造一只热爱铁路、热爱统计工作的坚强队伍,各级领导管理部门应以身作则,切实培育统计工作人员爱岗敬业的思想理念和工作作风。

1.2要认真学习统计规则和相关统计理论。应以学习《铁路固定资产投资统计规则》和年度《铁路固定资产投资统计报表制度》为重点,提高对统计指标及计算方法的理解,统计指标在统计规则中有严格的界定。在实际工作中始终保持清醒的认识,遇到难点和不清楚的地方,能主动学习请教。尤其像《铁路固定资产投资统计报表制度》的学习,是对统计规则的补充解释,是对当年投资统计中出现的新情况、新问题的进一步说明,对统计年报的填制具有现实指导意义。

1.3要主动学习铁路工程概(预)算编制方面的知识。熟悉本建设项目批复的概算编制办法、定额采用以及概算的组成,认真梳理工程概(预)算的章节与投资统计相关指标的对应关系,是正确计算投资完成额按构成分的关键所在。目前工程项目的验工计价报表都是按照工程概(预)算章节来编制的,验工计价报表是统计数据取数的依据。要主动学习工程概(预)算编制方面的知识,在实际工作中认真总结概预算章节费用与投资完成额按构成分之间的对应关系。

2.应注意抓好基础工作,不断改进工作方法

2.1建立健全基建投资统计基础台帐,做好统计基础工作。建立统计基础台帐,不能仅仅局限于统计报表要求填报的统计指标需要,必须根据建设项目管理实际需要,尽可能全面、细致地建立台帐。例如:在建立工程完成台帐时,可细化到每一路基里程段、每一座桥梁、每一座隧道等单位工程。

台帐建立之后,必须定期深入施工现场,了解并掌握工程实际进展状况,及时做好统计台帐数据的更新工作。

2.2 加强上下级及业务部门之间沟通,确保指标口径一致。在日常统计工作中,会遇到对指标的理解模棱两可的时候,要加强与上级部门沟通,形成共识,才能保证统计数据计算方法及口径准确。同时要加强与业务部门间的沟通,如与建设管理处加强联系,确保不同部门间上报铁道部完成情况数据的一致性。

2.3加强统计分析,发挥统计功能。做好基建投资统计工作,除了统计数据以外,更重要一点,还要运用科学的统计分析方法,对统计数据进行认真分析,通过表格、图文等多种方式客观地反映现场完成情况、存在问题及建议,充分发挥统计信息功能。

2.4加强对新开工项目的统计人员及时培训指导。项目开工后,按照报表制度要求就应定期上报相应的月报,项目需配备新的统计人员接手统计工作。一方面要及时对他们进行统计规章及统计信息系统培训,并在具体工作中进行指导,以便尽快上手。另一方面,要组织统计人员进行统计基础知识、统计法相关知识及地方统计管理条例的系统学习,通过学习合格取证,实行持证上岗。

3.投资统计工作需要上级的大力支持和科学指导

3.1期待上级下达的年度投资计划更加科学合理。各投资计划人员,要全面了解各个施工项目的实际工程进度情况,正确预测各施工项目在年度内能完成的工作量,通过工程量计算年度内完成的投资额,制定建议投资计划时,不能凭感觉,要有依据,要维护计划的权威性,避免多次调整计划,更不要发生跨年度调整计划。

篇14

关联规则最初是针对购物篮分析问题提出的,目的是发现事务数据库(TransactionDatabase)中不同商品之间的联系。关联规则是形如A=》B的蕴涵式,其中A称为该关联规则的前项,B称为该关联规则的后项。事务,是一个明确定义的商业行为,如顾客在商店购物就是一次典型的事务。由用户设定的支持度和置信度的门槛值,当sup-port(A=>B)、confidence(A=>B)分别大于等于各自的门槛值时,认为A=>B是有趣的,此两值称为最小支持度(minsupport)和最小置信度(minconfidence)。同时满足minsupport和minconfidence的这种关联规则就叫做强的关联规则。设任务相关的数据D是数据库事物的集合,当项集的支持计数≥D中事务总数|D|与minsup-port的乘积时,就叫做频繁项集,当项集的支持计数可能≥D中事务总数|D|与minsupport的乘积时,就叫做侯选项集。所有侯选项集K-项集的集合记作Ck,所有频繁项集K-项集的集合常记作Lk,很明显Lk奂Ck。如果仅依赖最小支持度和最小置信度这两个参数的限制,所挖掘出的强关联规则不一定是用户感兴趣的,因此,用户可以根据实际应用的需求,再结合自身的领域知识,通过选择与实际分析任务有关的数据集,设置不同的参数,限定前项和后项的个数,选择前项和后项包含的属性等操作,对关联规则的挖掘进行约束。

2模糊集理论的引入

在讨论实际问题的时候,需要判定模糊概念涵义,如判断某个数据在模糊集的定义和归属,这时就需要普通集合与模糊集合可依某种法则相互转换。模糊理论中的截集是模糊集合和普通集合之间相互转换的一座桥梁。

3基于事务间数值型关联规则的数据挖掘算法

假设有一就业数据库,先通过数据整理,将原始数据记录值区间[0,10]偏置10个单位。由此就得到了经过偏置后的数据库记录。再依滑动窗口方法,设maxspan=1(该值可以依实际情况的需要来定),就可将偏置后的数据库数据整理转化为扩展事务数据库。再把扩展事务数据库记录通过隶属度函数转化为对应的隶属度。

4结语