发布时间:2023-09-25 11:24:39
序言:作为思想的载体和知识的探索者,写作是一种独特的艺术,我们为您准备了不同风格的14篇神经网络文本分类,期待它们能激发您的灵感。
关键词:Web文本分类;RBF网络;高斯函数;梯度下降法
中图分类号:TP18文献标识码:A文章编号:1009-3044(2011)13-3107-02
The Researching of Web Text Classification Based on RBF Neural Network
XU Chun-yu
(Information Engineering Department, Liaoning Provincial College of Communications, Shenyang 110122, China)
Abstract:Web text classification is the automatic classification for Web information and it makes the use of text classification technology. The technology makes user find resource that they want quickly. The data from the Web is divided into sample data set and test data set after feature extraction in the process of text classification. Sample data set is inputted to the RBF network and the RBF network is trained. Test data set is inputted the RBF to validate after training the network. Experimental results show that RBF network achieved better classification results.
Key words: web text classification; RBF network; gauss Function; gradient descent algorithm
近年来,web已经成为拥有数十亿个异构的、半结构化的、动态的分布式信息空间,这些web信息源中有80%以上的信息是以web文本的形式出现的,如何从这些海量的web信息资源中寻找并获取有价值的信息和知识模式,已经成为信息处理的一个关键问题,web文本分类有助于人们完成这个目标[1]。
1 web文本分类
文本分类就是先根据已有的样例文本找出能描述并区分文本类别的分类器,然后利用该分类器对新的未分类的文本进行分类。根据机器学习的观点,文本自动分类问题可以归结为一个机器学习任务:假定全体文本空间为D,预定义的文本类别集合为C{c1,c2,…,c3}。待学习分类法称为目标分类器,记作y,一般来说,y是从文本集到类别集的一个映射,即y:DC,通常情况下该映射存在,但没有解析表达式。文本分类中机器学习的目的就是找到映射y的一个近似表达式或估计:y:DC,使对于D中所有文本d有h(d)=y(d),或使得h(d)≠y(d)的概率最小。其中h为分类器[3]。
随着web上海量文本信息的增加,文本分类技术的处理对象从普通的文档扩展到了web文本,即形成了web文本分类技术,显然,文本分类技术是web文本分类技术的基础。
2 RBF神经网络
径向基函数(Radial Basis Function,简称RBF)神经元网络是在借鉴生物局部调节和交叠接受区域知识的基础上提出的一种采用局部接受域来执行函数影射的人工神经元网络。在人的大脑皮层区域中,局部调节及交叠的感受是人脑反映的特点。RBF网络同BP网络类似,也是一种三层前馈式神经网络,输入层节点传递输入信号到隐含层,隐含层节点由像高斯函数那样的辐射状作用函数构成,而输出层节点通常是简单的线性函数。网络模型如图1所示。
从RBF的网络模型图可以看出,RBF网络由两部分组成,第一部分为非线性变换层,它的输出公式如公式(1)所示:
(1)
其中X={x1,x2,…xn}为输入向量,Ci={Ci(1),Ci(2),…Ci(N)}为第i个非线性变换单元的中心向量,Ct(q)表示第t个中心的第q个分量,σi为第i个非线性变换单元的宽度,||・||表示的是范数,通常情况下取2范数,g(・)表示的是非线性函数关系,一般取Gauss函数,Gauss函数的函数关系如公式(2)所示:
(2)
第二部分:线性合并层,它的作用是将变换层的输出线性加权合并,公式如(3)所示,其中l为隐含层神经元的个数,m为输出层神经元的个数。
(3)
RBF网络通过径向基函数能够更确切的描述人类神经元的活动特性。在中心附近的区域内网络的输出最大,网络的输出随着中心距离的增大,逐渐减小,而这个过程的快慢则是由σ参数来决定的,σ越大则函数输出曲线越平缓,对输入的变化就越不敏感,因此,可以通过调节σ来进一步模拟人类的神经元。RBF网络最常用的算法是梯度下降法,常用的训练就是选定某种性能指标,然后采用梯度下降的方法来校正网络参数,使该网络性能指标取得最优值,因此RBF网络的学习实质上就是一个最优化问题。具体的训练算法为:对于一般的RBF网络结构,取性能指标如公式(4)所示。
(4)
其中,i为网络的输出,具体关系式如下面的(5)式、(6)式和(7)式所示:
(5)
(6)
(7)
由上面的三个公式可以看出, J是关于Cj,wjt和σj的函数。网络的训练过程就是调整以上三组参数,使J趋于最小。求取J对各网络参数wts,ct(q),σt的偏导数,其中1≤t≤P(P是隐含层单元的个数),1≤s≤M(M是输出层单元的个数),1≤q≤N(N是输出层单元的个数),得到参数的校正方法。具体的校正方法为:权值wts的校正方向如公式(8)所示:
(8)
中心ct(q)的校正方向如公式(9)所示:
(9)
宽度σt的校正方向如公式(10)所示:
(10)
由此,可以得到RBF网络的梯度下降法校正公式如(11)所示:
(11)
其中,1≤t≤P,1≤s≤M,1≤q≤N,P为隐含层单元个数,N为输入层单元个数,M为输出层单元个数,λ为步长,通常λ=0.05左右。
隐含层到输出层之间的变换是线性变换,所以采用的是比较成熟的RLS算法。给定样本输入,则在当前的网络隐含层单元中心Cj及宽度σj(1≤j≤P)参数下,隐含层单元输出向量为HT=[h1,h2,…,hP],P为隐含层单元个数。
Y=HTW (12)
其中,Y=[y1,y2,…,yM],W=[w1,w2,…,wM],wi=[w1i,…,wpi],这样,根据RLS算法有权值的修正递推公式如公式(13)所示:
(13)
这样,按照上面的公式对网络参数不断地进行循环校正,最终网络性能将达到所要求的性能指标[5]。
3 实验
实验过程中,首先设计网络拓扑结构,确定RBF网络输出层神经元个数,根据类别的个数来确定输出层神经元的个数,实验数据分别属于10个类别,因此网络输出层神经元个数为10。输入层神经元的个数为文档在进行特征提取之后向量的维数,实验中,经过降维以后的每篇文档特征向量的维数为30,所以将网络的输入层神经元的个数选取为30。由于输入样本空间是确定的,可以预先给定一个隐含层节点数,只要与输入样本的实际类别数相差不是很大时,就可以使用梯度下降法来不断修正网络的中心值,使网络的特性逼近于实际系统,这种方法比较简单,也是一种比较常用的方法,因此,实验中隐含层神经元的个数取值为9。
RBF网络结构设计完成之后就可以对网络进行训练了,实验数据来自中国期刊网上下载的600篇文档,涵盖了政治、经济、教育、娱乐等10个类别,每个类别包含60篇文档,选取其中的500篇文档作为样本训练集,每个类别选择50篇,另外100篇文档作为网络的测试集。首先需要对实验数据进行文本特征提取、降维等过程。其次采用的是Matlab软件进行编程以实现网络的训练,网络训练完成以后,输入测试集中的数据,测试网络能否正确地将相关的文档区分到各个类别中。表1是RBF网络的分类结果。
4 结论
从上面的训练结果分析,RBF网络能够将大部分的文本正确地划分到所属类别,对于体育、娱乐、外语方面的文档能够取得较高的识别率,对于政治、经济、军事等方面的文档的识别率较低,主要原因是这些类别的文档中互相包含着相关的特征信息,这种类型的文档在进行文本分类的时候,需要在文本特征提取的时候进行相应的处理,以使得在输入神经网络的时候能够得到正确的分类结果。从实验结果可以看出,RBF网络完全可以应用到文本分类中来,并且能够取得较好的分类效果。
参考文献:
[1] 蒲筱哥.Web自动文本分类技术研究综述[J].情报科学,2009:233.
[2] Crimmins F, Smeaton A, Dkaki T, et al.Information discovery on the internet[J].IEEE Intell.Syst.,1999(14):55-62.
[3] 王晓庆. 基于RBF网络的文本自动分类的研究[D].南昌:江西师范大学,2003:9.
[4] Abhijit S, Rober B. 神经网络模式识别及其实现[M].徐勇,荆涛,译.北京:电子工业出版社,1999:30-32,57-114.
[5] 柯慧燕. Web文本分类研究及应用[D].武汉:武汉理工大学,2006:14-15,16-17.
[6] 飞思科技产品研发中心. 神经网络理论与MATLAB7实现[M].北京:电子工业出版社,2005:17.
关键词:个性化;信息检索;文本分类
中图分类号:TP311文献标识码:A 文章编号:1009-3044(2008)29-0265-02
Method of Text Categorization in Personalized Retrieval
PENG Ye-ping, XIAO Da-guang
(Information science and Engineering college,Central South University,Changsha 416000,China)
Abstract: Personalized retrieval is becoming a hot topic for research, this paper mainly discusses about the text categorization algorithm, its principles and scope of application.
Key words: personalized; retrieval; text categorization
1 引言
搜索引擎在信息检索中起了重要作用,但是由于引擎的通用性,使其不能满足不同目的,背景,时期的用户查询需求,因此需要针对拥护特征向用户提供个性化服务。文本分类方法通过构造某种分类模型,并以此判断样本所属的类别。文本分类对合理组织,存储文本信息,提高信息检索速度,提高个性化信息检索效率的基础。
2 分类方法
2.1 朴素贝叶斯方法
朴素贝叶斯方法是一种在已知先验概率与条件的情况下的模式识别方法,假设词条之间是相互独立的。设d为一任意文本,它属于文档类C{c1,c2,…,ck}中的一类Cj,引用词条和分类的联合概率来计算给定文档的分类概率的公式如下:
计算所有文本类在给定d情况下的概率,概率值最大的那个类就是文本d所属的类,既:
2.2 贝叶斯网络分类法
贝叶斯网络分类法考虑了特征之间的依赖关系,该方法更能真实反映文本的情况,但是计算复杂度比朴素贝叶斯高的多。
2.3 决策树方法
决策树极强的学习反义表达能力使得其适合于文本分类,它是通过一组无序,无规则的实例推理出树型的分类规则,采用自顶向下的递归方式,在决策树的内部结点进行属性值的比较并根据不同的属性值进行判断从该结点向下的分支,在决策树的叶结点得到结论,决策树的建立算法有很多,文献[5]其中包括基于信息增益的启发式计算ID3;基于信息增益率的解决联系属性的算法C4.5;基于Gini系数的算法CART和可并行性算法SPRINT算法。决策树方法特点是使用者只要将训练样例能够使用属性-结合式的方法表达出来,就能够用该方法来学习,但是这种算法生成的仍是多叉树。
2.4 K-邻近方法
K-邻近方法,根据测试文本在训练文本中与之最相近的K篇文本的类别来判定它的类别,其中,K是一个重要的参数,文献[4]K值过大,则与待分类文本实际上并不相似的一些文本也被包含,造成噪音增加;K值太小,则不能充分体现待分类文本的特点.一般对K会选定一个初值,相似值的判定可取欧拉距离或余旋相似度等,若分类系统中相似值的计算采用余旋相似度,则公式如下:
Sim(x,di)为相似度公式,X为新文本的向量,y(di,cj)为类别属性函数,若d∈cj,则y(di,cj)=1;否则y(di,cj)=0;将新文本分到权重最大的类别中去。
2.5 支持向量机
Vapnik提出在结构风险最小化准则理论上的支持向量机方法,能有效解决小样本集的机器学习问题,向量机主要是针对两类分类问题,在高维空间寻找一个满足分类要求的最优超平作为两类的分割,既保证分类精确度,又要使超平面两侧的空白区域最大化,以保证最小的分类错误率,文献[1]对于大于两类的多类文本分类,就对每个类构造一个超平面,将这一类与其余的类分开,有多个类就构造多个超平面,测试时就看哪个超平面最适合测试样本。支持向量机方法避免了局部性问题,样本中的支持向量数,能够有效地用于解决高纬问题。
2.6 神经网络方法
神经网络是模仿人脑神经网络的基本组织特性构成的新型信息处理系统,其性质取决于网络拓扑结构,网络的权值和工作规则.通常由等于样本特征数的输入层,输出层,等于样本类数的神经元组成。其中,每一个连接都有一定的权值,通过训练类来训练的过程就是调整这些权值的过程,从而使神经网络与可以正确地预测类别。
3 几种方法的比较
3.1 朴素贝叶斯与网络贝叶斯
朴素贝叶斯方法使用概率去表示所有形式的不确定性,学习或其他形式的推理都用概率规则来实现,但是大部分情况是文本特征之间的依赖关系是相互存在的,所以特征独立性会影响朴素贝叶斯分类的结果;网络贝叶斯能够考虑特征之间的依赖关系,但是计算复杂度比朴素贝叶斯高得多;
3.2 支持向量机方法
支持向量机方法的优点:首先,该方法是针对有限样本情况的分类方法,其算法最终将转化为一个二次型寻优万恶提,理论上得到的将是全局最优点,避免了局部极值问题;其次,该方法计算的复杂度不再取决于空间维度,而是取决于样本数,这可能有效地用于解决高维度问题;再次,该方法对稀疏数据不敏感,能更好地捕捉数据的内在特征。缺点是:该方法参数的调整比较困难,分类比较费时。
3.3 神经网络方法
神经网络方法的优点:首先,具有自适应功能,它能根据所提供的数据,通过学习找出输出结果之间的内在联系,从而球的问题的解答;其次,神经网络善于联想、概括、类比和推广,任何局部的操作都不会影响整体效果;再次,具有高速寻找优化解的能力。缺点:该方法根据输入输出的关系训练网络,缺少解释能力,受训练样本影响大,训练过程较慢,不适应大量数据的学习。
3.4 决策树方法
决策树方法的优点是它在学习过程中不需要使用者了解很多背景知识,只要训练样例能够使用属性-结论式的方法表示出来,就能使用该方法。缺点是测试属性的选择对该方法影响较大。
3.5 K-邻近方法
K-邻近方法的优点是该方法训练过程较快,且可随时添加或更新训练文本来调整;缺点是因为需要很大的空间来保存文本,所以它分类的开销很大,K值确定较慢,分类效果较差.
4 文本分类方法效果评价
1) 精确度(查全率):是指通过分类系统正确分类的文本数与实际分类的文本数的比值,其公式如下:
精确度:=
2) 召回率(查全率):是指通过分类系统正确分类的文本数与人工分类中应有的文本数的比值,公式如下:
召回率:=
3) F1测试值:对查权率和查准绿的综合测试
F1测试值:=
参考文献:
[1] 史忠植.知识发现[M].北京:清华大学出版,2002.
[2] 朱明.数据挖掘[M].合肥:中国科技大学出版社,2002.
[3] 王继成,潘金贵,张福炎.web文本挖掘技术研究[J].计算机研究与发展,2000,37(5):513-520.
关键词:卷积神经网络;语言模型;分析
1 卷积神经网络语言模型
CNN语言模型基本结构包括输入层、卷积层、池化层及后续的分类层。输入层是表示语言的矩阵,该矩阵可以是通过Google word2vec或GloVe预训练得到的词嵌入表示,也可以是从原始数据重新训练的语言的向量表示。输入层之后是通过线性滤波器对输入矩阵进行卷积操作的卷积层。在NLP问题中,输入矩阵总是带有固定顺序的结构,因为矩阵的每一行都表示离散的符号,例如单词或者词组等。因此,使用等宽的滤波器是非常合理的设置。在这种设置下,仅需要考虑滤波器的高度既可以实现不同尺寸的滤波器做卷积操作。由此可知,在处理NLP问题时,卷积神经网络的滤波器尺寸一般都是指滤波器的高度。
然后,将卷积层输出的特征映射输入池化层,通过池化函数为特征映射进行降维并且减少了待估计参数规模。一般的,CNN池化操作采用1-max池化函数。该函数能够将输入的特征映射统一生成维度相同的新映射。通过池化操作,可以将卷积层生成的特征连接成更抽象的高级特征,所得到的高级特征尺寸与输入的句子不再存在直接关系。
最后,将得到的高级特征输入softmax分类层进行分类操作。在softmax层,可以选择应用dropout策略作为正则化手段,该方法是随机地将向量中的一些值设置为0。另外还可以选择增加l2范数约束,l2范数约束是指当它超过该值时,将向量的l2范数缩放到指定阈值。在训练期间,要最小化的目标是分类的交叉熵损失,要估计的参数包括滤波器的权重向量,激活函数中的偏置项以及softmax函数的权重向量。
2 卷积神经网络语言模型应用分析
CNN语言模型已经广泛应用于诸如文本分类,关系挖掘以及个性化推荐等NLP任务,下面将对这些应用进行具体的介绍与分析。
2.1 CNN在文本分类中的应用分析
kim提出了利用CNN进行句子分类的方法。该方法涉及了较小规模的参数,并采用静态通道的CNN实现了效果很优异的句子分类方法。通过对输入向量的调整,进一步提高了性能实现了包括情感极性分析以及话题分类的任务。在其基础上为输入的词嵌入设计了两种通道,一种是静态通道,另一种是动态通道。在卷积层每一个滤波器都通过静态与动态两种通道进行计算,然后将计算结果进行拼接。在池化层采用dropout正则化策略,并对权值向量进行l2约束。最后将该算法应用于MR、SST-1与SST-2、Subj、TREC、CR以及MPQA等数据集。MR数据集为电影评论数据集,内容为一句话的电影评论,其分类包括积极情感极性与消极情感极性两类。SST-1与SST-2数据集为斯坦福情感树库是MR数据集的扩展,但该数据集已经划分好了训练集、验证集及测试集并给出了细粒度的标记,标记包括非常积极、积极、中性、消极、非常消极等情感极性。Subj数据集为主观性数据集,其分类任务是将句子分为主观句与客观句两类。TREC数据集为问题数据集,其分类任务是将所有问题分为六类,例如关于数字、人物或位置等信息的问题。CR数据集为评论数据集,包括客户对MP3、照相机等数码产品的评论,其分类任务是将其分为积极评价与消极评价两类。MPQA数据集是意见极性检测任务数据集。通过实验证明,该方法在这几个典型数据集上都能取得非常优异的效果。
2.2 CNN在关系挖掘中的应用分析
Shen等人提出了一种新的潜在语义模型,以词序列作为输入,利用卷积-池化结构为搜索查询和Web文档学习低维语义向量表示。为了在网络查询或网络文本中捕捉上下文结构,通过输入单词序列上下文时间窗口中的每个单词来获取词汇级的n-gram语法特征,将这些特征聚合成句子级特征向量。最后,应用非线性变换来提取高级语义信息以生成用于全文字符串的连续向量表示。该模型的不同之处在于,输入层与卷积层之间加入了word-n-gram层与letter-trigram层,它们能够将输入的词序列转变为letter-trigram表示向量。在卷积层通过上下文特征窗口发现相邻单词的位置特征,并变现为n-gram形式。然后通过max池化将word-n-gram特征合并为句子级的高级特征。在池化层之后增加了语义层来提取更高级的语义表示向量。
2.3 CNN在个性化推荐中的应用分析
Weston等人提出了一种能够利用标签(hashtag)有监督的学习网络帖子短文本特征表示的卷e嵌入模型(Convolutional Embedding Model)。该方法利用提出的CNN模型在55亿词的大数据文本上通过预标注的100,000标签进行训练。该方法除了标签预测任务本身能取得好的效果外,学习到的特征对于其它的文本表示任务也能起到非常有效的作用。该模型与其它的词嵌入模型类似,输入层为表示文本的矩阵,但是,在用查找表表示输入文本的同时将标签也使用查找表来表示。对于给定的文档利用10万条最频繁出现的标签通过评分函数对任何给定的主题标签进行排序。
其中,econv(w)表示CNN的输入文档,elt(t)是候选标签t的词嵌入表示。因此,通过对分数f(w,t)进行排序可以获取所有候选主题标签中排序第一的话题进行推荐。实验数据集采用了两个大规模语料集,均来自流行的社交网络文本并带有标签。第一个数据集称作people数据集,包括搜集自社交网络的2亿1000万条文本,共含有55亿单词。第二个数据集被称作pages,包括3530万条社交网络文本,共含有16亿单词,内容包括企业、名人、品牌或产品。
3 结束语
卷积神经网络应用于语言模型已经取得了非常大的发展,对于自然语言处理中的各项任务均取得了优异的结果。本文通过对几项典型工作的分析,探讨了不同卷积神经网络模型结构在不同任务中的表现。通过综合分析可以得出以下结论。首先,CNN的输入采用原始数据训练的向量表示一般效果会优于预训练的词嵌入表示;其次,在卷积层滤波器的尺寸一般采用宽度与输入矩阵宽度相等的设置;最后,为了优化结果可以采用dropout正则化处理。
——基于深度神经网络的标题分类研究
班级:XX
学号:XX
姓名:XX
2020年10月25号
基于深度神经网络的标题分类研究
XX
摘要:新闻是人们对时事、最新行业相关消息了解的重要途径,本文将新闻标题作为新闻分类的切入点,由于新闻标题属于文本中的短文本类别,所以本文主要通过利用深度学习相关方法对新闻标题短文本进行分类,针对前期分类出现过的问题,结合深度学习网络并引入的SVM 模型,解决新闻分类以及短文本分类过程中的常见困难问题。
关键词:深度学习;SVM;标题分类
1 引言
随着大数据时代的来临,我们日常的信息规模呈现出爆炸式增长的趋势。数据挖掘和人工智能逐渐成为时代的主题。缩小信息规模的方法有很多种,而分类就是其中一种极其有效的方式,所以它当前仍是吸引国内外学者研究的重点问题和热点问题。文本分类是在自然语言处理领域广泛研究的问题,在工业领域内,现在已经有着较为成熟的应用,无论是朴素贝叶斯还是决策树又或是最大熵以及神经网络都在工业领域有着相关应用。而文本分类技术在新闻分类领域的应用仍然有限,当前的文本分类系统大多基于统计学原理再结合相关机器学习方法训练相关数据集,从而得到所需的分类器并使用其达成对无标签数据进行分类的目的。在2017 年自然语言处理及中文计算会(NLPCC)也曾对新闻分类相关问题设立相关课题,这也间接表现出了其可能为文本分类领域的发展研究做出较大的贡献。
由于中文新闻文本分类起步较晚,再加以复杂精深的汉语语法的影响,使得之前关于中文新闻文本分类的研究相比于英文显得稍微落后,但现在伴随各种中文新闻语料库的出现和完善,中文新闻文本分类渐渐走上正轨。以往对新闻进行分类时通常是解析新闻的正文,由于部分新闻的篇幅较长,往往导致了新闻分类时的效率低下。而通过中文新闻标题对中文新闻文本进行分类,相比与传统的新闻分类来说在分类效率上可以得到很大的优化。除此之外,新闻标题往往是对新闻主题的高度概括,以有限的字数对全文内容进行凝炼,所以这属于一个短文本分类领域的相关问题。通过对中文新闻标题分类的研究,对短文本分类领域的部分问题有着借鉴意义。
2 算法原理与系统设计
2.1 算法原理
支持向量机(Support Vector Machine ,SVM)的主要思想是:建立一个最优决策超平面,使得该平面两侧距离该平面最近的两类样本之间的距离最大化,从而对分类问题提供良好的泛化能力。对于一个多维的样本集,系统随机产生一个超平面并不断移动,对样本进行分类,直到训练样本中属于不同类别的样本点正好位于该超平面的两侧,满足该条件的超平面可能有很多个,SVM正式在保证分类精度的同时,寻找到这样一个超平面,使得超平面两侧的空白区域最大化,从而实现对线性可分样本的最优分类。支持向量机中的支持向量(Support Vector)是指训练样本集中的某些训练点,这些点最靠近分类决策面,是最难分类的数据点。SVM中最优分类标准就是这些点距离分类超平面的距离达到最大值;“机”(Machine)是机器学习领域对一些算法的统称,常把算法看做一个机器,或者学习函数。SVM是一种有监督的学习方法,主要针对小样本数据进行学习、分类和预测,类似的根据样本进行学习的方法还有决策树归纳算法等。
2.2 详细设计
简单的Python机器学习实现新闻标题自动分类,爬虫获取的新浪新闻的分类,先对新闻进行分词,手动分类一些分词后的标题,然后以它为输入做SVM模型训练,然后用训练好的SVM模型对其他标题做预测。
3 系统实现
#news_classify.py
import xlrd
import xlwt
import jieba
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.svm import SVC
def read_data(file, sheet_index=0):
"""读取文件内容"""
workbook = xlrd.open_workbook(file)
sheet = workbook.sheet_by_index(sheet_index)
data = []
for i in range(0, sheet.nrows):
data.append([x for x in sheet.row_values(i) if x.strip()])
return data
def get_classified_sample():
"""返回手动分类的新闻"""
data = read_data('test.xls')
return {
'经济': data[1] + data[14] + data[20],
'社会': data[2] + data[3] + data[4] + data[9] + data[17] + data[18],
'政法': data[5] + data[6] + data[7] + data[8] + data[11] + data[13] + data[15] + data[16] + data[19],
'军事': data[10],
'娱乐': data[12],
}
def classify():
"""进行分类"""
# 一共分成5类,并且类别的标识定为0,1,2,3,4
category_ids = range(0, 5)
category = {}
category[0] = '经济'
category[1] = '社会'
category[2] = '政法'
category[3] = '军事'
category[4] = '娱乐'
corpus = []# 语料库
classified_sample = get_classified_sample()
for k, v in classified_sample.items():
line = ' '.join(classified_sample[k])
corpus.append(line)
data = read_data('test.xls')
# 把未分类的文章追加到语料库末尾行
# 21开始是因为我手动分类了前20条
for lst in data[21:]:
line = ' '.join(lst)
corpus.append(line)
# 计算tf-idf
vectorizer = CountVectorizer()
csr_mat = vectorizer.fit_transform(corpus)
transformer = TfidfTransformer()
tfidf = transformer.fit_transform(csr_mat)
y = np.array(category_ids)
# 用前5行已标分类的数据做模型训练
model = SVC()
model.fit(tfidf[0:5], y)
# 对5行以后未标注分类的数据做分类预测
predicted = model.predict(tfidf[5:])
# 结果
# print(len(predicted))
for i in range(len(predicted) - 1):
print(corpus[i + 5], '============》', category[predicted[i]])
if __name__ == '__main__':
classify()
4 实验或测试结果
程序运行后出现如下界面(一部分):
中巴经济走廊“围堵”印度?新华社: 印度想太多了============》娱乐
央行报告:上海已经基本确立国内金融中心地位============》社会
国网北京电力: 北京地区煤改电今年累计破100 万户============》娱乐
湖南沅江原市长肖胜利犯三罪判5 年: 为升迁送13 万============》娱乐
颜宁为何从清华跳槽去普林斯顿?她终于说出原因============》娱乐
国家文物局公布346 万件全国馆藏文物信息供监督============》娱乐
里皮首次对续约中国男足表态:我说了我愿意( 图) ============》经济
5 结论
本项目实现的是以标题分类为核心的Python程序的一个简单尝试,本项目采用爬虫获取的新浪新闻的分类,利用机器学习,深度学习的方法完成了标题分类任务,但模型还有待改进。
参考文献
[1]杨崧. 基于LSTM-Attention的中文新闻标题分类研究[D].中南财经政法大学,2019.
关键词:数据挖掘;贝叶斯;分类
中图分类号:TP311文献标识码:A文章编号:1009-3044(2008)23-1024-02
The Application of Bayesian Classification
ZHONG Dai-jun
(Chongqing University of Arts and Sciences, Chongqing 402160, China)
Abstract: This paper elaborates the necessity and importance of Bayesian classification when designing system using the technique of artiffisal intelligence,introduced the basic technique ofBayesian classification, given the advantage and disadvantage and future of it. Explained with some sample of theapplicationg of Bayesian classification.
Key words: data mining; bayes; classification
1 引言
数据的丰富带来了对强有力的数据分析工具的需求,大量的数据被描述为“数据丰富,但信息贫乏”。快速增长的海量数据收集、存放在大型和大量的数据库中,没有强有力的工具,理解它们已经远远超出了人的能力。
分类作为数据挖掘的一种模式,可以用于提取描述重要数据的模型,通常是预测分类标号(或离散值)。例如,可以建立一个分类模型,对银行贷款的安全或风险进行分类。许多分类的方法已被机器学习、专家系统、统计学和神经生物学方面的研究者提出。
贝叶斯分类是数据分类中的一个基本技术。在大型数据库,贝叶斯分类已表现出高准确率和高速度。贝叶斯分类中又有朴素贝叶斯分类和贝叶斯信念网络。
2 什么是分类
数据分类(data classification)是一个两步过程。第一步,建立一个模型,描述预定的数据类集。通过分析有属性描述的数据库元组来构造模型。假定每个元组属于一个预定义的类,由一个称作类标号属性(class label attribute)的属性确定。对于分类,数据元组也称作样本、实例或对象。为建立模型而被分析的数据元组形成训练数据集。训练数据集中的单个元组称作训练样本,并随机地由样本群选取。由于提供了每个训练样本的类标号,该步也称作有指导的学习(即模型的学习在被告知每个训练样本属于哪个类的“指导”下进行)。它不同于无指导的学习(或聚类),那里每个训练样本的类标号是未知的,要学习的类集合或数量也可能事先不知道。
通常,学习模型用分类规则、判定树或数学公式的形式提供。例如,给定一个顾客信用信息的数据库,可以学习分类规则,根据他们的信誉度优良或相当好来识别顾客。这些规则可以用来为以后的数据样本分类,也能对数据库的内容提供更好的理解。
第二步,使用模型进行分类。首先评估模型(分类法)的预测准确率。模型在给定测试集上准确率是正确被模型分类的测试样本的百分比。对于每个测试样本,将已知的类标号与该样本的学习模型类预测比较。如果模型的准确率根据训练集评估,评估可能是乐观的,因为学习模型倾向于过分适合数据。
如果认为模型的准确率可以接受,就可以用它对类标号未知的数据元组或对象进行分类。(这种数据在机器学习文献中也称为“未知的”或“先前未见到的”数据)。
分类具有广泛的应用,包括信誉证实、医疗诊断、性能预测和选择购物。
3 Bayesian 分类技术介绍
3.1 Bayesian分类与其他分类技术的比较
基于统计的分类算法主要包括:相似度模型(Rocchio,K一近邻)、概率模型(贝叶斯)、线性模型(LLSF,SVM)、非线性模型(决策树、神经网络)和组合模型.对于这些分类算法,国内外很多研究者进行了客观评测。
分类方法可以根据下列标准进行比较和评估:
预测的准确率:这涉及模型正确地预测新的或先前未见过的数据的类标号的能力。
速度:这涉及产生和使用模型的计算花费。
强壮性:这涉及给定噪声数据或具有空缺值的数据,模型真切预测的能力。
可伸缩性:这涉及给定大量数据,有效地构造模型的能力。
可解释性:上涉及学习模型提供的理解和洞察的层次。
数据库研究界对数据挖掘的分类一直强调可伸缩性。
“贝叶斯分类的效率如何?”理论上讲,与其他所有分类算法相比,贝叶斯分类具有最小的出错率。然而,实践中并非总是如此。这是由于对其应用的假定(如类条件独立性)的不准确性,以及缺乏可用的概率数据造成的。然而,种种实验研究表明,与判定树和神经网络分类算法相比,在某些领域,该分类算法可以与之媲美。
贝叶斯分类还可用用来为不直接使用贝叶斯定理的其他分类算法提供理论判定。例如,在某种假定下,可用证明正如朴素贝叶斯分类一样,许多神经网络和曲线拟合算法输出最大的后验假定。
3.2 贝叶斯分类
3.2.1 贝叶斯定理
设X为一个类别未知的数据样本,H为某个假设,若数据样本X属于一个特定的类别C,那么分类问题就是决定P(H/X),即在获得数据样本X时,H假设成立的概率P(X)是建立在H基础之上的x成立的概率。具体公式描述如下:
3.2.2朴素贝叶斯分类(简单贝叶斯分类)
朴素贝叶斯分类方法[3]是机器学习中常用的方法之一。朴素贝叶斯分类法将训练实例I分解成特征向量W和决策类别变量C。朴素贝叶斯分类法假定特征向量的各分向量间相对于决策变量是相对独立的。对文本分类来说,假设各个单词wi和wj之间两两独立。
设训练样本集分为k类,记为C={C1,C2,…,Ck},则每个类Ci的先验概率为P(Ci), I=1,2, …,k,其值为Ci类的样本数除以训练集总样本数N。对于样本d,其属于Ci类的条件概率是P(d|Ci)。文本d有其包含的特征词表示,即d= (w1, …,wi, …,wm),m是d的特征词个数|d|,wj是第j个特征词。根据贝叶斯定理,Ci类的后验概率为P(Ci|d)
因为P(d)对于所以类均为常数,朴素贝叶斯分类器将未知样本归于类的依据,如下
文档d由其包含的特征词表示,即d=(w1, …,wi, …,wm) ,m是d的特征词个数|d|,wj是第j个特征词,由特征独立性假设,则得
式中P(wj|Ci)表示分类器预测单词wj在类Ci的文档中发生的概率。
3.3 改进的贝叶斯分类在文本分类中的应用
关键的一个技术是特征提取。文本分类征提取的步骤包括:词语切分,词频统计,加权计算和特征选择(二者通常结合在一起进行)。
在文本分类中有很多权重计算和特征选择的公式,如信息增益、期望交叉嫡、文本证据权、zx统计量等,其中最著名的是TFIDF公式.那么,权重计算和特征选择的公式究竟哪个为优呢?其实在这些公式中,关键在于特征选择时的倾向:高频词或稀有词,也就是公式中的P(w)因子起很大作用。因此,在特征选择时,理想的做法应该是充分考虑P(w)因子的作用,最好能兼顾到高权高频词和低频高权词。
有学者对TF*F和TF*IWF*IWFF公式进行了分析并作了一些改进,认为关键词在某类的权重受3个因素的影响:该词在当前类中的出现频率;该词在总语料中的出现频率;该词在不同类别之间出现频率的差异。最终得到关键词在类中的权重计算公式:
类别区别度用来表示某一个词语对于文本分类的贡献程度,即词语的领域区别程度。直观地看,如果一个词语在每一类中都比较均匀地出现,那么它对于分类的贡献几乎为零,类别区别度很低;如果某一词语只在某一类中出现,那么它对于分类的贡献很高,有的几乎可以一词定类,类别区别度也就很高了。比如,虚词“的、我、在”的类别区别度很低,而“魔兽争霸、重仓股、手机操作系统”这样的词语其类别区别度就很高。
3.4 贝叶斯信念网络
朴素贝叶斯分类假定类条件独立,即给定样本的类标号,属性的值相互条件独立。这一假定简化了计算。当假定成立时,与其他所有分类算法相比,朴素贝叶斯分类是最精确的。然而,在实践中,变量之间的依赖可能存在。贝叶斯信念网络(Bayesian belief network)说明联合条件概率分布。它允许在变量的子集间定义类条件独立性。它提供一种因果关系的图形,可用在其上进行学习。这种网络也被称为信念网络、贝叶斯网络和概率网络。
信念网络有两部分定义。第一部分是有向无环图,其每个节点代表一个随机变量,而每条弧代表一个概率依赖。如果一条弧有节点Y到Z,则Y是Z的双亲或直接前驱,而Z是Y的后继。给定双亲,每个变量条件独立于图中的非后继。变量可以是离散的或连续值的。它们可以对应于数据中给定的实际属性,或对应于一个相信形成联系的“隐藏变量”。
“贝叶斯信念网络如何学习?”在学习或训练信念网络时,许多情况都是可能的。网络结构可能预先给定,或由数据导出。网络变量可能是可见的,或隐藏在所有或某些训练样本中。隐藏素净的情况也称为空缺值或不完全数据。
如果网络结构已知并且变量是可见的,训练网络是直截了当的。该过程由计算CPT(条件概率表)组成,与朴素贝叶斯分类涉及的计算概率类似。
当网络结构给定,而某些变量是隐藏的时,则可使用梯度下降方法训练信念网络。目标是学习CPT项的值。设S是s个训练样本X1,X2,…,Xs的集合,Wijk是具有双亲Ui=uik的变量Y=yij的CPT项。Wijk可以看作权,类似于神经网络中隐藏单元的权。权的集合总称为w。这些权被初始化为随机概率值。梯度下降策略采用贪心爬山法。在每次迭代中,修改这些权,并最终收敛到一个局部最优解。
4 结束语
简要阐述了分类在数据挖掘中的位置,着重介绍了贝叶斯分类的基本技术和它的相关应用。
参考文献
[1] 史忠植.知识发现[M].北京:清华大学出版社,2002.
关键词:主题模型;特征表达;多示例多标记学习;场景分类;文本分类
中图分类号: TP181
文献标志码:A
Multiinstance multilabel learning method based on topic model
YAN Kaobi1, LI Zhixin1,2*, ZHANG Canlong1,2
1.Guangxi Key Laboratory of MultiSource Information Mining and Security, Guangxi Normal University, Guilin Guangxi 541004, China
2.Guangxi Experiment Center of Information Science, Guilin Guangxi 541004, China
Abstract: Concerning that most of the current methods for MultiInstance MultiLabel (MIML) problem do not consider how to represent features of objects in an even better way, a new MIML approach combined with Probabilistic Latent Semantic Analysis (PLSA) model and Neural Network (NN) was proposed based on topic model. The proposed algorithm learned the latent topic allocation of all the training examples by using the PLSA model. The above process was equivalent to the feature learning for getting a better feature expression. Then it utilized the latent topic allocation of each training example to train the neural network. When a test example was given, the proposed algorithm learned its latent topic distribution, then regarded the learned latent topic allocation of the test example as an input of the trained neural network to get the multiple labels of the test example. The experimental results on comparison with two classical algorithms based on decomposition strategy show that the proposed method has superior performance on two realworld MIML tasks.
英文关键词Key words:
topic model; feature expression; multiinstance multilabel learning; scene classification; text categorization
0引言
传统的监督学习问题通常定义为单示例单标记学习问题,一个对象用一个示例来表示,同时关联一个标记。定义X为示例空间,Y为标记集合。单示例单标记学习的目的是从一个给定的数据集{(xi,yi)|1≤i≤N}中学习一个函数f:xy,其中:xi∈X是一个示例,yi∈Y是示例xi的一个标记。在机器学习技术[1]日益成熟的条件下,传统的单示例单标记学习方法已经取得了很大的成功。
然而,在现实世界中,一个对象通常是多义性的复杂对象,如果仍用传统的单示例单标记学习方法,不但不能很好地表达出对象丰富的内容信息,而且不能得到对象准确的语义标记集合,因此对于这种多义性对象,可以采用多标记学习方法来处理。在多标记学习[2]方法下,一个对象用一个示例来表示,但是关联多个标记。多标记学习的目的是从一个给定的数据集{(xi,yi)|1≤i≤N}中学习一个函数f:x2y,其中:xi∈X是一个示例,yiY是示例xi的一个标记集合{(yi1,yi2,…,yili)},li是标记集合yi中标记的个数。虽然多标记学习已经取得了很大的成就,但是只用一个示例来表示多义性对象不能有效地表达出多义性对象的复杂内容。
事实上,在多标记学习中,一个标记对应着对象不同的区域,如果能够对一个确定的区域(不是一个整体的对象)和一个特定的标记直接建立对应的模型,将会有效地减少噪声对分类准确性的影响,因此可以采用多示例学习的方法来表示多义性对象的复杂内容。多示例学习[3]的任务是从一个给定的数据集{(xi,yi)|1≤i≤N}中学习一个函数f:2xy,其中:xiX是一个包的示例集合{(xi1,xi2,…,xini)},ni是包xi中示例的个数,yi∈Y是包xi上的一个标记。然而,多示例学习主要用于单标记问题,对于多标记问题需要分解为多个单标记问题进行处理。
为了克服多标记学习和多示例学习方法的缺点,将二者结合起来形成一种多示例多标记学习方法[4],来处理带有复杂内容的多义性对象将会更加合理和有效。多示例多标记学习的目的是从一个给定的数据集{(xi,yi)|1≤i≤N}中学习一个函数f:2x2y,其中,xiX是一个包的示例集合{(xi1,xi2,…,xini)},ni是示例集合xi中示例的个数,yiY是包xi的一个标记集合{(yi1,yi2,…,yili)},li是标记集合Yi中标记的个数。
近年来,多示例多标记学习已经取得了很大的进展,同时也面临着三个主要的难题。首先,由于图像分割技术[5]的限制,很难划分出具有完整语义标记的示例;其次,在划分示例后,传统的做法是提取示例的底层特征,然后建立特征向量和语义标记之间的映射模型,由于特征提取[5]和机器学习技术[1]的限制,如何自动提取示例的高层特征及建立映射模型也是一个难点;最后,由于标记之间复杂的相关性[6],如何建立能够捕获标记之间相关性的模型[7]也是一个难点,同时文献[8]指出了大数据问题也是多示例多标记学习面临的一个新问题。如果能够克服这些主要难题,可以建立一个完美的多示例多标记模型,该模型可以直接学习示例和标记之间的映射关系,同时可以捕获到标记之间的相关性。
1相关研究
1.1多示例学习
多示例学习中,一个样本被看成是一个包含多个示例的包,当需要对一个包进行标记的时候,如果包中至少有一个示例具有对应的标记含义,则将这个包标记为正包,否则标记为负包。虽然多示例学习框架被限制在单标记问题上,但是多示例学习方法已经取得了很多研究成果,针对不同的问题提出了不同的多示例学习方法,此外多示例学习还可以用于图像检索。
1.2多标记学习
对于多义性对象,可以采用多标记学习的方法来处理。文献[6]对多标记学习作了一个全面的综述报告;文献[9]提出了一种基于神经网络的多标记学习方法。从现有的多标记算法可以看出,可以采用两个策略来处理多标记学习问题:一是将多标记问题分解为多个单标记问题。但是在很多情况下标记之间是有相关性的,例如天空和海洋可能会同时出现在同一个场景中,如果仍然用这个策略来处理多标记学习问题,将会丢失这种对提升多分类性能很有帮助的信息。二是直接对示例和标记集合之间建立模型。在一些复杂的模型中,不但可以直接建立示例和标记集合的对应关系,同时也可以得到标记之间的一些相关性。
1.3多示例多标记学习
对于多示例多标记学习,文献[4]中对多示例多标记学习作了一个全面的介绍,并且提出了MIMLBOOST和MIMLSVM算法。MIMLBOOST算法首先将多示例多标记问题转化为多示例问题,然后再采用MIBOOST[10]来处理多示例问题;MIMLSVM算法首先将多示例多标记学习问题转化为多标记问题,然后采用MLSVM[11]算法来处理多标记问题。传统的监督学习方法、多示例学习方法和多标记学习方法都可以通过分解策略从多示例多标记学习中得到,但是采用这种分解策略会丢失很多蕴藏在训练样本中的信息,同时也不能考虑到标记之间存在关联性的问题。后来,文献[12]提出了一种直接学习示例和标记之间映射关系的MIMLRBF算法;文献[7]提出了一种联合多示例和多标记的新颖算法,该算法不但可以直接对示例集合和标记集合之间进行建模,同时还可以捕获到标记之间的关联性;文献[8]则提出了一种针对大数据问题的快速多示例多标记算法。然而,上述文献中提到的方法都没有考虑如何来更好地表示对象的特征这一因素。针对这一问题,本文考虑将特征学习模型融入多示例多标记学习中,以学习到一个更好的特征表达方式,从根源上提升分类算法的准确性。概率潜在语义分析模型可以学习到样本中潜在的主题这一高层特征,本文结合这一特性提出一种新的多示例多标记学习方法PLSANNMIML,以解决多示多标记学习中如何更好地表示对象特征这一问题。
2PLSANNMIML方法
2.1概率潜在语义分析
Hofmann[13]首次提出用概率潜在语义模型对文本进行建模的方法。当用概率潜在语义分析模型处理图像数据时,可以把图像看成是文档,用概率潜在语义分析模型对图像进行建模来发现图像潜在的主题分布。
假设D={d1,d2,…,di}代表一个图像数据集,W={w1,w2,…,wj}代表一个视觉词汇表,这种用概率潜在语义分析模型对图像进行建模的模型是一个发现共现矩阵隐变量的模型,而该共现矩阵的值由nij=(wj,di)组成,其中nij=(wj,di)是一个视觉词wj出现在图像di中的数量。设Z={z1,z2,…,zk}代表没有观测到的潜在主题变量, P(di)代表观测到一张具体图像的概率, P(zk|di)代表一张特定图像在潜在主题空间下的概率分布, P(wj|zk)代表一个视觉词出现在一个确定主题变量下的条件概率。这种生成模型可以用如下步骤表示:
1)以一定的概率P(di)选择一张图像di;
2)以一定的概率P(zk|di)选择一个主题zk;
3)以一定的概率P(wj|zk)生成一个词wj。
经过上面的过程,当得到一个观测点(wj,di)时,潜在的主题变量zk被忽略,产生下面的联合概率模型:
L=logP(wj,di)=∑d∈D∑w∈Wn(wj,di)logP(wj,di)
(1)
在遵循似然原则的条件下,采用期望最大化算法[12]最大化似然函数的对数,从而得到P(wj|zk)和P(zk|di),似然函数的对数表现形式如式(2)所示:
L=logP(wj,di)=∑d∈D∑w∈Wn(wj,di)logP(wj,di)
(2)
2.2神经网络
神经网络[14]由于其在信息处理中具有非线性的自适应能力,已经在人工智能领域中取得了广泛的应用。算法通过具有三层结构的前向神经网络模型[15]来得到样本的标记集合,每层由不同的神经元组成,第一层叫输入层,中间层叫隐藏层,最后一层叫输出层。在每一层中的每个神经元都连接着下一层的所有神经元,但在同一层中的神经之间是没有连接的,当信息从一层传到下一层时,前层中的每个神经元都会有一个激活函数对信息进行变换,该函数选择的是S型的激活函数,其定义是:f(x)=1-ex1+ex。在训练神经网络时,采用的是反向传播学习算法[15]来学习神经网络中神经元的权值。
2.3PLSANNMIML方法
算法主要包括训练和测试两个阶段,流程如图1所示。
2.3.1训练阶段
训练过程包括两个步骤:首先通过概率潜在语义分析模型从所有的训练样本中学习到每个样本的特定主题分布P(zk|di)和每个主题的特定词分布P(wj|zk),每个样本就可以用P(zk|di)来表示;其次再用每个样本的特定主题分布来训练神经网络,具体细节如下所示:
式(3)描述的是神经网络在样本xi上的误差函数。训练过程中算法采用概率潜在语义分析模型将xi转化为主题向量zk。假定标记空间Y有Q个标记,神经网络具有与主题向量zk维数相同的输入和Q个输出,其中Q个输出对应着Q个标记,向量w是在神经网络中需要学习的权值向量。
Ei(w)=∑Qq(ciq-diq)2
(3)
其中:ciq是训练时样本xi在第q个类上的实际输出;而diq是样本xi在第q个类上的目标输出,如果q∈yi则diq的值为1,否则其值为-1。通过结合误差反向传播策略[14],采用随机梯度下降法来最小化式(3)中的误差函数,其过程如下:
假定xji是单元j的第i个输入, wji是关联输入xji的权值大小,netj=∑iwjixji是单元j的网络输出,oj=f(netj)是单元j的实际输出,tj是单元j的目标输出,根据随机梯度下降算法可以得到每个权值的更新公式如下:
wji=wji-ηEiwji
(4)
其中η是学习速率的大小。计算式Eiwji的值时,分两种情况讨论:
当j是输出层的单元时,推导出式(5):
Eiwji=-(tj-oj)oj(1-oj)
(5)
当j是隐藏层的单元时,推导出式(6):
Eiwji=-oj(1-oj)xji∑k∈S[(tj-oj)oj(1-oj)]wkj
(6)
其中S是单元j的输出所能连接到的单元的集合。
2.3.2测试阶段
给定一个测试样本pX,算法首先利用在训练阶段得到的每个主题的特定词分布P(wj|zk)来学习到测试样本的特定主题分布P(zk|dt),然后将学习到的主题分布输入到已经训练好的神经网络,神经网络将会有Q个输出,采用文献[9]介绍的方法选择阈值,通过选择合适的阈值,得到标记的相关集合。
3实验结果与分析
3.1实验步骤
根据选择的模型,算法涉及到三个需要确定的参数变量,分别是词的数量、主题的数量和神经网络中隐层神经元的数量,分别用Words、Topics、Neurons来表示。由于这三个参数对算法的性能有很重要的作用,因此首先需要确定这三个参数的最优值。在确定参数的最优值时,采用汉明损失(Hamming loss)和1错误率(oneerror)这两个评价指标来评估参数对算法性能的影响。确定算法的最优参数后,算法对现实世界中的两种多示例多标记学习任务进行实验,并与现有的多示例多标记算法MIMLBOOST和MIMLSVM进行比较。
实验涉及到两个数据集,每个数据集都有2000个样本。实验时先把每个数据集划分为三部分:1000个样本的训练集合、500个样本的验证集和500个样本的测试集。
其中500个样本的验证集用于确定算法的最优参数。当确定算法的最优参数后,再将1000个样本的训练集和500个样本的验证集合并形成一个1500个样本的训练集,最终每个数据集对应着一个1500个样本的训练集和一个500个样本的测试集。表1是对实验中所用数据集的具体描述。
【答:文本数据集每个包划分出的示例都不相同,一个平均值表示的是一次实验时每个包的示例的平均数,表格中平均数有个范围是对数据集进行不同的划分,进行多次实验时的一个平均值范围,所以是3.56±2.71,也与后面表中的实验数据一致。上面场景数据集,每幅图片都划分成9个示例,所以平均数不变,也可以写成9.00±0.00;
3.1.1场景数据集
实验使用的场景数据集包含2000幅自然场景图像,整个数据集包含的类标记有沙漠、山、海洋、日落、树。数据集中每幅图像的标记都是人工标记的,数据集中超过22%的图像具有多个标记,平均每幅图像的标记数量是1.24±0.44。对图像划分示例后,通过提取每个示例的颜色和纹理特征将其中的每个示例表示为一个18维的向量,并用这个特征向量代表这个示例。
3.1.2文本数据集
实验使用的文本数据集又名为Reuters21578数据集。实验时先对这个数据集进行预处理,形成一个具有2000个文档的数据集。整个文档数据集包含7个类标记,大约15%的文档具有多个标记,平均每个文档的标记数量是1.15±044。当进行示例划分时,采用滑动窗口的技术[16]来形成文档的示例,每个示例对应着一个被大小为50的滑动窗口所覆盖的文本段,最后采用基于词频[17]的词袋模型表示方法来表示生成的示例。
3.2实验结果
图2是采用部分场景数据集作为实验数据,观测不同参数值配置对算法性能的影响。图2(a)~(f)中参数变量的取值范围为[3,21],并且参数变量取整数值;
算法中,学习速率η的值设置为0.1。通过改变参数的配置,采用汉明损失和1错误率来评估参数对算法性能影响,进行了多组实验来确定算法的最优参数值。
实验开始时,如图2(a)和(b)中显示,先确定Neurons和Topics这两个参数的值,其值设置为Neurons=3,Topics=3,Words的变化范围为[3,21]。从图2(a)和(b)中可以看到,当Words取值为7时,汉明损失和1错误率指标取得最小值,算法的分类性能最好。
在图2(c)和(d)中,参数Neurons的值与图2(a)和(b)中的值相同,但是Words的值设置为7,Topics的变化范围为[3,21]。从图2(c)和(d)中可以看出,当Topics取值为9时,汉明损失和1错误率指标取得最小值,算法的分类性能最好。
在图2(e)和(f)中,根据前面的实验结果,参数Words的值设置为7,Topics的值设置为9,Neurons变化范围为[3,21]。从图2(e)和(f)中可以看出,当Neurons取值为9时,汉明损失和1错误率指标取得最小值,算法的分类性能最好。确定算法的最优参数值后,算法对现实世界中的两种多示例多标记学习任务进行实验,并和MIMLBOOST和MIMLSVM进行比较,采用文献[12]中提到的五种多标记学习评价指标来评估算法的性能。表2和表3分别是各个算法在场景数据集和文本数据集上进行实验的结果,同时表4还给出了各个算法在这两个数据集进行实验时所需要的时间。在表2和表3中,表示数值越小算法性能越好,而表示数值越大算法性能越好。
从表2、3中的数据可以看出,对于表中的所有评价指标,PLSANNMIML算法在场景数据集和文本数据集上具有更好的性能。
从表4中可以看出,PLSANNMIML方法在时间上也具有更好的性能,在训练和测试阶段,算法需要的时间都比MIMLSVM算法稍微少些,而且远远要少于MIMLBOOST算法所需要的时间。从所有的实验结果可以看出,PLSANNMIML方法在现实世界中的两种多示例多标记学习任务中具有更优越的性能。
4结语
现有的大部分多示例多标记学习算法都没有考虑怎么样更好地表示对象的特征这一因素,因此提出了一种结合概率潜在语义分析和神经网络的多示例多标记学习方法。概率潜在语义分析模型可以学习到样本中的潜在语义这一高层特征,而神经网络在多标记问题中具有良好的分类性能。对现实世界中的两种多示例多标记学习任务进行实验表明,PLSANNMIML算法对其他的多示例多标记学习算法而言具有很强的竞争力,解决了在多示例多标记学习算法中怎么更好地表示对象的特征这一问题;同时也存在着不足之处,算法依然采用的是分解策略来处理多示例多标记学习问题,同时还忽略了标记之间的相关性。下一步将在融入特性学习模型的基础上寻找其他策略来处理多示例多标记问题,同时也要考虑标记之间的相关性。
参考文献:
[1]
BISHOP C M. Pattern recognition and machine learning: information science and statistics [M]. New York: Springer, 2006: 67-459.
[2]
ZHOU Z, ZHANG M,ZHANG S, et al. Multiinstance multilabel learning [J]. Artificial Intelligence, 2012, 176(1): 2291-2320.
[3]
ZHOU Z. Multiinstance learning: a survey [R/OL]. Nanjing: Nanjing University, National Laboratory for Novel Software Technology, 2004 [20150206]. http:///zhouzh/zhouzh.files/publication/techrep04.pdf.Nanjing, China, Mar. 2004.
[4]
ZHOU Z, ZHANG M, HUANG S, et al. Multiinstance multilabel learning [J]. Artificial Intelligence, 2012, 176(1): 2291-2320.
[5]
PRATT W K. Digital image processing [M]. DENG L, ZHANG Y, translated. Beijing: China Machine Press, 2005:345-398. (PRATT W K. 数字图像处理[M].邓鲁华,张延恒,译. 北京:机械工业出版社,2005:345-398.)
[6]
LI Z, ZHUO Y, ZHANG C, et al. Survey on multilabel learning [J]. Application Research of Computers, 2014, 31(6): 1601-1605. (李志欣,卓亚琦,张灿龙,等.多标记学习研究综述[J].计算机应用研究,2014,31(6):1601-1605.)
[7]
ZHA Z, HUA X, MEI T, et al. Joint multilabel multiinstance learning for image classification [C]// CVPR 2008: Proceedings of the 2008 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2008: 1-8.
[8]
HUANG S, ZHOU Z. Fast multiinstance multilabel learning [C]// AAAI 2014: Proceedings of the 28th AAAI Conference on Artificial Intelligence. Menlo Park: AAAI Press, 2014: 1868-1874.
[9]
ZHANG M, ZHOU Z. Multilabel neural networks with applications to functional genomics and text categorization [J]. IEEE Transactions on Knowledge and Data Engineering, 2006, 18(10): 1338-1351.
[10]
XU X, FRANK E. Logistic regression and boosting for labeled bags of instances [C]// PAKDD 2004: Proceedings of the 8th PacificAsia Conference on Knowledge Discovery and Data Mining, LNCS 3056. Berlin: Springer, 2004: 272-281.
[11]
BOUTELL M R, LUO J, SHEN X, et al. Learning multilabel scene classification [J]. Pattern Recognition, 2004, 37(9): 1757-1771.
[12]
ZHANG M, WANG Z. MIMLRBF: RBF neural networks for multiinstance multilabel learning [J]. Neurocomputing, 2009, 72(16/17/18):3951-3956.
[13]
HOFMANN T. Unsupervised learning by probabilistic latent semanticanalysis [J]. Machine Learning, 2001, 42(1/2): 177-196.
[14]
SCHMIDHUBER J. Deep learning in neural networks: an overview [J]. Neural Networks, 2015, 61: 85-117.
[15]
HAYKIN S. Neural networks [M]. YE S, SHI Z, translated. 2nd ed. Beijing: China Machine Press, 2004: 109-176. (HAYKIN S. 神经网络原理[M].叶世伟,史忠植,译.2版.北京:机械工业出版社,2004:109-176.)
[16]
SEBASTIANI F. Machine learning in automated text categorization [J]. ACM Computing Surveys, 2001, 34(1): 1-47.
1 需求分析
这里需要一种可以运行在云端的文本分类软件,软件主要运行在安卓客户端和云端服务器之间。要求软件使用最小数据量实现最大程度的云端数据整合和文本分析准确率。
1.1 流程分析
本文需求并不要求更智能化的识别方式,而是通过语义分析法,通过对特殊关键词和关键词组合的方式进行识别得到文本分类结果。本文的研究内容主要用于识别和分析500字符之内的自然文本。这部分自然文本主要应用在对网络页面文本进行分析,同时用于对捕捉到的超文本标识代码进行内容文本和代码段的识别,业务流程图如图1所示。
1.2 模块分析
传统语义分析算法来自人工输入的特定文本之间的判断,一般语义分析算法只能识别80~120个关键词[5]。但此种规模的识别字典完全不能适应本文要求对自然文本的识别,所以本文采用三层识别方法见图2。
P1.1:根据固定关键词,识别超文本标识语言中的标识段数据,并将其剔除。
P1.2:根据自学习关键词,识别自然文本中的关键词,根据词频和关联度进行价值估计。
P1.3:根据自学习关键词,识别自然文本的含义,评估不同文本段之间的相似度,对文本段进行归纳整理。
而本软件的自学习部分(P2)不从传统的人工智能算法中得到关键词字典,而是采用语义分析中常用的联系算法进行关键词管理[6]。自学习部分放在云端服务器上,自学习结果采用软件更新的方式发送到客户端。自学习产生的流量来自服务器与互联网之间的联系,并不占用GPRS通道。
软件的移动端部分(P3)通过相对固定的关键词字典集合,根据实际分析得到的数据匹配结果进行远端比较,但大部分数据需要提交到P1模块进行局端比较。在移动端形成比较字符串后,可以较大程度地实现GPRS链路的数据最小化。
1.3 数据流分析
P1模块输入数据D1.1为P1.1的关键词字典数据,该数据以数据库表的形式保存在数据库中,形成表dataPinSOL。该数据主要用于辅助识别字段中的无信息量字符串,如超文本标识语言中的标识字符串等。
P1模块输入数据D1.2为P1.2的关键词字典数据,该字典数据来自自然文本中经常出现的字符串,以及用户易搜索的字符串。这部分字符串来自对海量信息的比较,海量信息来自互联网遍历捕捉文本和搜索引擎的采集文本。
P1模块输入数据D1.3为P1.3的关键词字典数据,该字典数据来自对D1.2数据进行进一步挖掘得到的与D1.2数据经常合并出现的字典数据。这部分字典数据同样来自语义分析的分析法。
因为本文算法不采用无限递归法[7],而是采用了三层计算的架构,而将语义分析段代码用于多层不限制递归。所以P1模块的数据流相对简单。P1模块的输出数据流为DL1,定义为比较结果字符串。该字符串作为搜索引擎对语义识别的结果字符串,不具备人脑识别的功能,但可以在计算机论文中给自然语言提供镜像,可以让较为模糊的自然语言在计算机中得到识别和模糊对比。
P2有两个输入量,P2.1来自合作搜索引擎的搜索字符串数据,该数据运行在光纤数据干线上,数据量较大,不会在GPRS链路中出现。此部分合作搜索引擎的数据采集内容主要包括搜索字符串,搜索时间,发生IP,发生IP地域,捆绑账号等。P2.2来自网络随机遍历采集的各种超文本,这些超文本数据采用单字段采集和多关键词分析的方式进行挖掘,所以数据结构较为简单。
2 算法设计
因为篇幅限制,本文仅讨论和展示部分核心代码和算法的设计,较复杂的算法过程不再给出伪码。P1.1是超文本对比算法,超文本对比算法使用了最经典的语义分析算法。而P1.2和P1.3采用的算法是在经典的语义分析算法的基础上做的扩增[8],这部分扩增可以让语义分析算法更加适用于自然语言下的文本分类。
本文算法的最主要成果是使用最小的CPU和RAM资源,对自然语言文本进行比较,从而获得更高效的适应当前互联网云服务市场的软件[9]。
2.1 超文本对比函数算法(P1.1局部)
读字典数据表,做对比循环函数。
对比循环函数伪码如下:
OPEN TABLE DICT
DO WHILE DICT NOT EOF
GET DIG_DICT RECORDSET FORM DICT
OPEN TEXTFILE
GET L_DIG_DICT LENTH DIG_DICT
FOR I 0 TO LENTH TEXTFILE
GET T_TEXTFILE MIDDLE TEXTFILE I L_DIG_DICT
GET SUMSHOW COMPARE DIG_DICT T_TEXTFILE
NEXT I
LOOP
RETURN SUMSHOW
2.2 数据逻辑网络的实现(P1.2局部)
数据逻辑网络主要是在数据库中使用数据结构实现数据的逻辑网络,每个数据都有若干个上级数据和若干个下级数据[10]。每个单个数据一般不超过15个汉字(32字符)。上级数据和下级数据使用专用字段存储,每个字段使用二维数组的方式进行管理。二维数组包括目标字符串(32字符),响应频率,最后响应时间3项。
为了充分调动数据逻辑网络,采用了全新的遍历算法,对每个记录下的两个二维数组字段进行分别遍历,以对文章内容进行逐一比较和计算。在比较中同时记录其他词语的词频,进一步对两个二维数组字段进行维护和更新。因为篇幅限制,只在本文模型下进行设计分析。
2.3 文本相似度评估算法(P1.3局部)
本文采用的文本相似度评估算法分为两段:
第一段对输入文本进行比较评估,对字典中每个关键词进行词频分析,同时对关键词出现的位置进行[t]检验和[χ2]检验,将结果使用Minmax处理为(0,1)值域。将每个处理结果进行汇总制表。与此同时,将输入文本与每个关键词的关联词进行词频分析,同时对关键词的关联词位置进行[t]检验和[χ2]检验,将结果同样使用Minmax处理为(0,1)值域。Minmax结果设计为小数点后12位小数。将每个处理结果进行汇总制表。
第二段将第一段中形成的两个数据表与系统中存储的数据表进行[t]检验和[χ2]检验,获取检验结果的[P]值。当[P<]0.05时,认为两篇文章具有相似度,且[P]值越小,文章的相似度越高。本文算法经过检验,完全相同的两篇自然语言文章输入系统后,两篇文章的[P]值接近于0,表示本文算法拥有较高的识别性。
3 结 语
本文就基于语义分析在计算机技术文本分类中的应用进行了软件工程分析和设计,在面向对象的设计模型中,本文实现了不使用任何神经网络递归算法就可以得到高效率的软件系统。这个算法系统可以在移动互联网设备中得到较广泛的应用。
参考文献
关键词: 情感分析; 情感倾向性; 词典扩充; 电力客服工单; 主动服务
中图分类号: TN915.853?34; V249 文献标识码: A 文章编号: 1004?373X(2017)11?0163?04
Dictionary expansion based sentiment tendency analysis of power customer service order
GU Bin, PENG Tao, CHE Wei
(State Grid Jiangsu Electric Power Company, Nanjing 210000, China)
Abstract: In order to improve the customer satisfaction and active service consciousness of the electric power enterprises effectively, the textual characteristic of the power customer service order is combined to construct the sentiment analysis model of the power customer service order. The keywords of the service order are extracted according to TF?IDF thought. The word2vec training is used to get the word vector of each word. The cosine similarity is calculated to expand the high similarity field vocabulary to the sentiment dictionary. The service order sentiment analysis and text classification are performed. The validity of the method is verified with experimental analysis. The results show that, in comparison with the original sentiment dictionary, the method of dictionary expansion and service order sentiment tendency analysis is superior, has higher accuracy, and can provide a certain reference significance for the customer relation management of power enterprise.
Keywords: sentiment analysis; sentiment tendency; dictionary expansion; power customer service order; active service
0 引 言
随着电力体制改革的逐步深化,配电市场竞争不断加剧,迫切需要供电企业改变传统的思维方式和工作模式,进一步树立市场化服务意识,从客户需求出发,挖掘客户的潜在需求和内在价值,从而提升客户满意度和运营效益。作为与客户交流、沟通的重要窗口,电力企业95598客服系统记录了海量的客户信息,若能彻底挖掘客服工单中的客户特征、情感信息并了解客户的关注焦点,对电力企业和客户都将具有十分重要的意义[1]。
电力客服工单情感倾向性分析可以有效地发掘客户情感信息和需求,可根据客户情感倾向性识别潜在的投诉客户,可根据反馈信息判别某项业务的实施效果等。针对文本情感倾向性分析,现有的理论研究比较侧重于文本特征提取以及采用机器学习方法对文本进行分类,但是基于具体业务特征进行情感词典扩充的研究还比较少,导致情感倾向性计算往往会存在一定的差异,因此,根据电力行业的特c,进行客户服务工单情感词典扩充及情感倾向性的研究非常有必要。
情感分析是指利用文本挖掘、机器学习技术分析挖掘隐藏在文本中的情感信息,并将其分类为积极情感态度和消极情感态度[2]。目前,国内外关于文本情感倾向性分析已经进行了较多的研究工作[3?7],文献[3]基于情感词间的点互信息和上下文约束,提出一种两阶段的领域情感词典构建算法,提升了情感词情感倾向的识别能力。文献[4]研究了基于矩阵投影(MP)和归一化向量(NLV)的文本分类算法,实现对商品评价的情感分析,不仅可以有效识别商品评论情感性倾向,而且提升了识别效率。文献[5]将词级别向量和字级别向量作为原始特征,采用卷积神经网络提取文本特征并进行情感倾向性分析,结果表明字级别向量可取得较高的准确率。文献[6]提出一种词图模型的方法,利用PageRank算法得到情感词的褒贬权值,并将其作为条件随机场模型特征预测情感词倾向,提升了具体语境下预测的准确性,但是针对文本数量较大的情况准确率较低。文献[7]结合句子结构上下文语义关联信息,提出一种基于深度神经网络的跨文本粒度情感分类模型,提升了分类准确率,但该方法只适应于特定领域,泛化能力较低。
鉴于以上研究现状,本文以电力客户服务领域文本特征为突破口,构建了电力客服工单情感分析模型,基于工单关键词提取对原始的情感词典进行扩充,并对工单情感倾向性进行分析,最后,通过算例应用验证了本文所提方法的有效性。
1 相关工作
1.1 情感分类
情感分类技术的主要目标是基于文本数据识别用户所表达的情感信息,并将文本数据分为正类和负类。当前,针对情感分类的研究,主要从监督学习、基于规则方法、跨领域情感分析等方面展_研究,与此同时,针对文本特征的提取和特征情感判别是情感分类研究的两个关键问题。
1.2 Word2vec介绍
word2vec是Google在2013年开源的一款将词表征为实数值向量(word vector)的高效工具,采用的模型有CBOW(Continuous Bag?of?Words,即连续的词袋模型)和Skip?Gram两种,word2vec采用的是Distributed Representation的词向量表示方式,经过对输入集数据进行训练,可以实现将文本词汇转换为维空间向量,然后基于空间向量相似度来表达文本语义相似度,模型输出结果可用于自然语言处理领域相关工作,比如文本聚类、词典扩充、词性分析等。
word2vec生成词向量的基本思想来源于NNLM(Neural Network Language Model)模型,其采用一个三层神经网络构建语言模型,假设某个词的出现只与前个词相关,其原理示意图如图1所示。
图1中,最下方的为前个输入词,并根据其预测下一个词每个输入词被映射为一个向量,为词语的词向量。网络的第一层(输入层)为输入词语组成的维向量网络第二层(隐藏层)计算为偏置因子,使用激活函数tanh;网络第三层(输出层)包含个节点,每个节点表示下一词的未归一化log概率,并使用softmax激活函数将输出值归一化,最后使用随机梯度下降法对模型进行优化。
图1 NNLM原理模型图
模型的目标函数为:
需要满足的约束条件为:
2 电力客服工单情感分析模型
本文以某电力公司客服工单数据为研究对象,在深入理解电力业务及工单文本语义特点的基础上,建立了一种电力客服工单情感分析模型。首先,在进行文本预处理的基础上,对文本进行分词处理并且完成关键词提取;然后,采用word2vec训练工单数据,并基于关键词进行情感词典扩充,构建电力客服领域专用情感词典;最后,进行工单情感倾向性分析。
2.1 工单文本预处理
由于工单文本数据中存在大量价值含量较低甚至没有价值意义的数据,在进行分词、情感分析中会对结果产生较大的影响,那么在文本挖掘之前就必须先进行文本预处理,去除大量没有挖掘意义的工单数据。工单文本预处理工作主要包括:删除未标注业务类型数据、分句处理、文本去重、短句删除等。
分句处理:将工单数据处理成以句子为最小单位,以句尾标点符号为标志分割,包括“,”,“。”,“;”,“!”等符号。
文本去重:就是去除工单数据中重复的部分,常用的方法有观察比较删除法、编辑距离去重法、Simhash算法去重等。
短句删除:删除过短的文本,如“还可以”,“非常好”等,设置文本字符数下限为10个国际字符。
2.2 电力客户服务领域情感词典构建
2.2.1 分词
本文采用python的jieba分词工具对数据集进行分词,并完成词性标注和去除停用词,由于情感分析通常由名词、形容词、副词和连词等反映出来,因此删除词性为动词的词汇。jieba中文分词工具包包含三种分词模式:精确模式、全模式和搜索引擎模式,综合分词效果及后文的研究,本文选择精确模式进行分词,三种模式的分词效果如表1所示。
另外,在实际的分词过程中,出现了个别分词结果与实际的语义不符,原因是字典中缺少相关的专有名词,或者是这些词语的词频较低,比如“客户/咨询/抄/表示/数等/信息”,“客户/查户/号”,“变压器/重/过载”,“查/分/时/电价”等,因此,需要对原有词典进行更新。python中采用jieba.load_userdict(dict.txt)语句添加自定义词典,其中dict.txt是保存字典内容的文件,其格式为每一行分三部分:一部分为词语;另一部分为词频;最后为词性(可省略),用空格隔开。
2.2.2 关键词提取
构建电力客户服务领域专属情感词典,需要尽可能保证领域词典的多样性,关键词的提取要求一方面能够尽量反应出这个特征项所属的类别,另一方面能够把自身属于的类别与其他类别有效地区分开来,依据此原理,本文采用TF?IDF思想进行电力客户服务领域关键词的提取,关键词选取的权重决定了情感词典的多样性,为下文情感词典的扩充做好基础,算法原理如下。
将工单文档和特征项构建成二维矩阵,各条工单的特征向量可表示为:
式中:表示第个工单中第个特征中的词频。则与为:
式中:表示语料库中的文件总数;表示包含词语的文件总数,防止分母为零的情况,通常对分母做+1的处理。因此,的计算公式为:
实际应用中,依据维度的大小确定相应的权重大小,这样就形成了代表语料特征的关键词集。
2.2.3 基于word2vec进行情感词典扩充
随着经济技术的发展及客户文化的差异,不同的客户通常使用不同的词汇描述同一个对象特征,且电力行业中存在许多专用词汇,同样也表达了一定情感,但这些词脱离于现有的情感词典,因此,有必要对现有的情感词典进行扩充,进而提升工单情感倾向性分析的准确性[8]。选取中国知网情感词集和大连理工大学林鸿飞教授整理和标注的中文情感词汇本体库作为基础的情感词典,然后依据权重较大的关键词对原有词典进行扩充[9]。基于上文电力客户服务工单中提取的关键词,采用word2vec工具对工单数据集进行训练,根据CBOW模型或Skip?Gram模型训练出每个词的词向量,并通过计算余弦相似度得到文本语义上的相似度,并将相似度较高的词语加入到情感词典中。
依据上文分词后得到的工单文本数据,采用Linux Version2.6环境对数据进行训练,操作命令如下:
./word2vec ?train data95598.txt ?output vectors_95598data.bin ?cbow 0 ?size 200 ?winodw 5 ?negative 0 ?hs 1 ?sample le?3 threads 12 ?binary 1
其中,data95598.txt为输入数据集;vectors_95598data.bin为模型输出文件;采用Skip?Gram模型进行训练,词向量维度设置为200;训练窗口大小设置为5;-sample表示采样的阈值,训练结果采用二进制方式存储。这样,得到的模型文件中就包含了每个词的词向量。
采用余弦相似度计算关键词的相似词,即基于生成的词向量计算两个维向量的相似度,因为word2vec本身就是基于上下文语义生成的词向量,因此,余弦值越大,表明两个词语的语义越相似。向量与的余弦计算公式如下:
通过distince命令计算输入词与其他词的余弦相似度,经过排序返回相似词列表,再经过人工筛选,将这些词加入到原有情感词典中,实现对原有情感词典的扩充。
2.3 工单情感倾向性分析
工单情感倾向性分析是基于构建的情感词典,计算每个客服工单的情感分值,从而判断工单的情感倾向性。通过上文处理,每一个客服工单都可以被分割成一个个子句片段,表示为每个子句片段由一系列分词后的词语构成,提取每个句子的情感词、否定词等,表示为依据情感词典中给定词的极性值计算每个子句的情感值,分别算每个句子的正向和负向情感分值,计算公式如下:
式中:SenSum表示某个客服工单的情感分值;表示第个子句中第个正向情感词的极性值;表示第个子句中第个负向情感词的极性值。
在否定子句中,当为偶数时,否定子句情感为正;当为奇数时,否定子句情感极性为负。对所有的子句情感分值求和并求均值,就得到了整个客服工单的情感值,进而判断客服工单的情感倾向性,若SenSum为正,表示工单情感为正向;否则,工单情感为负向。
3 实验分析
3.1 实验数据准备
本文的实验环境基于Linux系统,采用python语言进行算法的实现,抽取某电力公司95598客服工单数据作为研究对象,运用jieba包进行中文分词处理,并采用word2vec训练数据生成词向量及扩充情感词典。由于工单数据是按照业务类型生成的,因此选取业务类型为表扬的工单作为正类,选取业务类型为投诉的作为负类,其中,正类和负类数据比例为21,共得到20 000条数据作为实验数据集,随后进行情感倾向性分析,随机选择70%的数据作为训练集,30%的数据作为测试集。
3.2 评价指标
当前针对文本分类效果评估有许多方法,本文选择准确率(precision)、召回率(recall)和值进行文本情感分类效果的评估,准确率是对分类精确性的度量,召回率是对分类完全性的度量,值越大说明分类效果越好,准确率和召回率是一组互斥指标,值是将二者结合的一个度量指标,值越大,分类效果越好,并将通过本文情感分析模型得到的结果与业务员标注的类型做对比分析。它们的计算公式如下:
3.3 实验结果及分析
本文基于抽取到的客服工单数据,结合设计的电力客服工单情感分析模型,实现对电力客户服务领域情感词典的扩充,并基于构建的电力客服领域专属词典进行工单情感倾向性分析,70%的数据用于训练word2vec并进行情感词典的扩充,30%的数据用于测试工单情感分类的准确性。测试集共包含工单数6 000条,其中正类工单3 895条,负类工单2 105条。将采用本文情感分析模型得到的结果与原始基础情感词典得到的结果进行对比分析,见表2。
由表2可知,采用本文构建的电力客服工单词典针对正向和负向的情感词都有较高的准确率、召回率和值,由此可知,本文设计的电力客服工单情感分析模型是合理的,且具有明显的性能优势。
4 结 语
本文设计了一种电力客服工单情感分析模型,构建了电力客服领域情感专用词典并进行工单情感倾向性分析。采用word2vec工具对采集到的数据进行训练,并用测试集数据对本文提出的模型进行验证分析,结果表明,本文所提方法具有一定的合理性和可行性,可为电力企业客户关系管理提供一定的参考意义,促进企业客户满意度及运营效益的提升。此外,本文主要研究了基于构建的电力客服专用情感词典进行客户情感倾向性分析,但是对于无监督性学习方法情感倾向性分析以及情感强度的分析还有待进一步研究。
参考文献
[1] 李胜宇,高俊波,许莉莉.面向酒店评论的情感分析模型[J].计算机系统应用,2017,26(1):227?231.
[2] SINGH VK, PIRYANI R, UDDIN A, et al. Sentiment analysis of movie reviews: a new feature?based heuristic for aspect?level sentiment classification [C]// Proceedings of 2013 International Multi?Conference on Automation, Computing, Communication, Control and Compressed Sensing (iMac4s). Kottayam: IEEE, 2013: 712?717.
[3] 郗亚辉.产品评论中领域情感词典的构建[J].中文信息学报,2016,30(5):136?144.
[4] 钟将,杨思源,孙启干.基于文本分类的商品评价情感分析[J].计算机应用,2014,34(8):2317?2321.
[5] 刘龙飞,杨亮,张绍武,等.基于卷积神经网络的微博情感倾向性分析[J].中文信息学报,2015,29(6):159?165.
[6] 黄挺,姬东鸿.基于图模型和多分类器的微博情感倾向性分析[J].计算机工程,2015,41(4):171?175.
[7] 刘金硕,张智.一种基于联合深度神经网络的食品安全信息情感分类模型[J].计算机科学,2016,43(12):277?280.
整浇楼盖主梁的不动铰支分析
锚杆静压桩在地基加固中的应用
多层砌体结构内廊圈梁设计
浅谈地震区框架柱轴压比限值
洛阳某主干道石灰土稳定层裂缝分析与对策
浅谈市政施工用电的保护系统
辊压机粉磨技术在水泥厂的应用
居住区水暖管网管理系统的一种实现方法
DSS的系统分析和设计方法初探
模糊控制分区方法研究
核子秤的一种特殊使用方法
HDL技术简介与应用
无穷小的阶在计算中的应用
傅立叶级数展开CAI课件的设计与实现
高校选修课成绩管理系统的研制
海螺模式的启示
谈直观教学在《机械设计基础》课中的运用
城市特色文化研究
浅谈多媒体CAI课件制作工具
自蔓延高温合成机理研究方法的分析
商品混凝土浇筑杯口基础方案的探讨
粗糙集和神经网络在文本分类中的应用研究
数据通信模拟实验系统的设计与实现
逆向工程技术在模型制作中的应用
双转子轴系五主轴轴承试验机主体结构设计与计算
关于水泥机立窑除尘技术的探讨
基于P2P构架的大型异构网络管理模型研究
冲击电流计特性研究实验中对偏转线圈运动状态的数学分析
一种新的拉曼散射——表面增强拉曼散射
基于WinCe的PLC通讯系统的设计
洛阳市技术创新能力问题分析及战略研究
企业内部审计的现状和对策
高分子材料应用技术专业教改的思路与实践
我校电子商务专业教学研究初探
对“测试技术基础”教学的探讨
新建本科院校体育教学模式初探
浅析网络会计软件的隐患
元认知型学习策略在外语写作教学中的应用
论大学英语分级教学模式对学生自主学习习惯的影响
连续梁抗剪性能与裂缝分析
中天山特长隧道施工GPS控制网的建立及横向贯通误差预计分析
微分求积法求解功能梯度材料梁的弯曲问题
一种装置点火单元可靠性评估方法研究
基于S7-200的AS-i网络设计与数据传输
基于GA-BP算法的水电机组故障诊断模型
基于MSP430单片机的小功率锂电池组保护器设计
GIS管理系统中图形对象实体点选的处理方法
一种简单有效的碰撞检测算法的实现
基于CLucene的WORD文档全文检索系统研究与开发
2. 应用领域安防
实时从视频中检测出行人和车辆。
自动找到视频中异常的行为(比如,醉酒的行人或者逆行的车辆),并及时发出带有具体地点方位信息的警报。
自动判断人群的密度和人流的方向,提前发现过密人群带来的潜在危险,帮助工作人员引导和管理人流。
医疗
对医学影像进行自动分析的技术。这些技术可以自动找到医学影像中的重点部位,并进行对比比分析。
通过多张医疗影像重建出人体内器官的三维模型,帮助医生设计手术,确保手术
为我们每个人提供康建议和疾病风险预警,从而让我们生活得更加健康。
智能客服
智能客服可以像人一样和客户交流沟通。它可以听懂客户的问题,对问题的意义进行分析(比如客户是询问价格呢还是咨询产品的功能呢),进行准确得体并且个性化的回应。
自动驾驶
现在的自动驾驶汽车通过多种传感器,包括视频摄像头、激光雷达、卫星定位系统(北斗卫星导航系统BDS、全球定位系统GPS等)等,来对行驶环境进行实时感知。智能驾驶系统可以对多种感知信号进行综合分析,通过结合地图和指示标志(比如交通灯和路牌),实时规划驾驶路线,并发出指令,控制车子的运行。
工业制造
帮助工厂自动检测出形态各异的缺陷
3. 概念什么是人工智能?
人工智能是通过机器来模拟人类认知能力的技术。
人工智能的三种训练方式分别是监督学习、非监督学习、强化学习。下文会一一介绍。
二、这是不是鸾尾花(分类器)1. 特征提取人类感官特征
花瓣数量、颜色
人工设计特征
先确定哪些特征,再通过测量转化为具体数值
深度学习特征
这里先不提及,文章后面会说
2. 感知器
老师给了一道题:
要区分两种鸾尾花,得画出一条直线区分两类花,你可以画出无数条直线,但是哪条才是最好的呢?
怎么办呢?我可是学渣啊,靠蒙!
随便找三个数a=0.5、b=1.0、c=-2 带入 y = ax[1] + bx[2] + c,
每朵花的两个特征也代入x[1]、x[2],比如带入(4, 1) 得出 y[预测] = 1,此时 y[实际] = 1 (样本设定变色鸾尾花为 1,山鸾尾为 -1 ),所以y[实际] – y[预测] = 0.
重复以上两步,得出所有的『实际值和预测值的差距的综合,记为 Loss1
可怎么知道是不是最优的直线呢?继续猜啊!继续懵!像猜世界杯一样猜就好了。
通过沿 y = ax[1] + bx[2] + c 梯度(梯度就是求导数,高中有学的!)下降的方向继续猜数字,具体过程大概是这样子的:
上述所属的实际值和预测值的差距 实际上是一种损失函数,还有其他的损失函数,比如两点间直线距离公式,余弦相似度公式等等可以计算预测结果和实际结果之间的差距。
划重点:损失函数就是现实和理想的差距(很残酷)
3. 支持向量机
*判断依据的区别也导致了损失函数的不同(但依旧是猜)
直观的说,缝隙(上图的分类间隔)越大越好
4. 多分类
如果有多种花怎么办?
一趟植物课上,老师请来了牡丹鉴别专家、荷花鉴别专家、梅花鉴别专家。老师拿出了一盘花给各个专家鉴定,牡丹角色这是牡丹的概率是0.013、荷花专家角色这是荷花的概率是0.265、梅花专家角色这是梅花的概率是0.722。
老师综合了各位专家的意见后,告诉同学们,这是一盘梅花。
小明:这老师是不是傻,一朵花是啥都不知道,还要请三个专家
老师:你给我滚出去
实际计算过程就是通过用 2.2 和 2.3 等方法训练的二分类器,分别输出对应的分类值(比如三种花的分类器分别输出-1,2,3),那怎么把这些分类值转化成概率呢?这就要用到归一化指数化函数 Softmax(如果是二分类就用 Sigmoid函数),这里就不拿公式来说,可以直观的看看书中这个表格就懂了:
5. 非监督学习第 2.2 能从预测值和实际值的差别判断”是否猜对了”,是因为生物老师告诉了学渣,哪些样本是山鸾尾花,哪些变色鸾尾花。但如果老师连样本实际的类别也不告诉学渣(非监督式学习),学渣不知道样本分别是什么花。
那该怎么办呢?
机器学习的入门课程总是在讲鸾尾花,也是够烦的。
这里我们换个场景:
假如你是某直播老板,要找一堆小主播,这时候你有一堆应聘者,然而你只有她们的胸围和臀围数据。一堆8份简历摆在你面前,你是不知道哪些更加能干( capable啊 ! ) 的,更能吸引粉丝。你也没空全部面试,那应该怎么挑选呢?
这时候你把她们的胸围和臀围都标准在一张二维坐标图上:
这是你随手一划,把她们分成两组,可以说“聚成两类了”。
用某种计算方式(比如平均值)找到这个聚类的中心。点离聚类中心越近,代表越相似。
求出每个聚类中的点到蓝色聚类中心点和黄色聚类中心的距离
如果一个点离黄色聚类中心更近却被你随手划到了蓝色分组(上图用红色边框标出的小方块),那么就把它划入黄色分组。
这时因为分组范围和分组内包含哪些小姐姐都发生了变化。这时候你需要以 步骤3 的方法重新计算聚类的中心
重复步骤 4 (算点中心距离)-> 重复步骤 5 (调整黄色小姐姐们和蓝色小姐姐们)-> 重复步骤 3 (算中心),一直循环这个过程直到蓝色和黄色聚类下所包含的小姐姐不再发生变化。那么就停止这一循环。
至此,小姐姐们已经被分为两大类。你可以得出两类小姐姐:
计算机在没有监督的情况下,成功把小姐姐们分成两类,接下来就可以在把两种主播各投放2个到平台看看谁更能干。效果更好的,以后就以那个聚类的样本特征扩充更多能干的主播。
小明:有什么了不起的,我一眼就能看出黄色小姐姐更能干
老师:你给我滚出去
上面聚类小姐姐的算法就叫做 K 邻近算法,K 为要聚类的数量(这需要人工指定),上述例子 K=2.那么如果分成三类就是 K=3,训练过程可以看下图,有个直观的了解:
三、这是什么物品(图像识别)1. 特征提取人类感官特征
花瓣颜色、花瓣长度、有没有翅膀(区分猫和小鸟)、有没有嘴巴和眼睛(飞机和小鸟)
感官的特征通过量化得到颜色(RGB值)、边缘(圆角、直角、三角)、纹理(波浪、直线、网格)数值特征
人工设计特征
深度学习特征
通过卷积提取图像特征
划重点:卷积的作用就是提取图像有用信息,好比微信把你发出的图片压缩了,大小变小了,但是你依旧能分辨出图像的主要内容。
1维卷积 1*5+2*4+3*3=22、1*4+2*3+3*2=16、1*3+2*2+3*1=10
2维卷积 1*2+3*0+2*4+4*2=28…
通过卷积就可以得到图像的特征信息,比如边缘
垂直边缘检测
水平边缘检测
方向梯度直方图
2. 深度学习和传统模式分类的区别既然有传统模式分类,为什么还要神经网络呢?
区别就在于传统的模式分类需要人为设置特征,比如花瓣长度、颜色等等。而深度学习省略掉人工设计特征的步骤,交由卷积操作去自动提取,分类器的训练也同时融入到神经网络当中,实现了端对端的学习
划重点:端对端学习(End to End)就是从输入直接得出输出,没有中间商,自己赚差价。
3. 深(多)层神经网络存在的问题一般来说,神经网络层数增多,会提高准确率。但是,网络层数加深导致:
过拟合学渣把高考预测试题的答案都背一遍而不理解,考试的时候,如果试题是考生背过的,那么考生就能答对;如果没背过那么考生就不会回答了。我们就可以说,学渣『过拟合了预测试题。
与之对应的是:欠拟合渣得不能再渣的人,连预测试题都背不下来,即使考试试题和预测试题一模一样,他也只能答对30%。那么就可以说这种人~~欠揍~~欠拟合。
有兴趣的还可以了解一下梯度弥散和梯度爆炸下面是网上很火很励志的一个公式,权重在多层网络中相乘,比如每一层的权重都是0.01,传递100层 就是 0.01 的100 次方,变得非常小,在梯度下降 Gradient Descent 的学习过程中,学习将变得非常慢。(好比从一个碗顶部放下一个小球,在底部徘徊的速度会越来越慢)
非凸优化学习过程可能在局部最小值(极小值)就停止了,因为梯度(斜率)为零。在局部最低停止而不是全局最低停止,学习到的模型就不够准确了。
看图感受一下
你说的底不是底,你说的顶是什么顶
解决的办法
均匀初始化权重值(Uniform Initialization)、批归一化(Batch Normalization)、跳远链接(Shortcut)涉及到比较多数学逻辑,这里就不展开说明了。
4. 应用人脸识别
自动驾驶把汽车顶部拍摄到的图片切分层一个个小方块,每个小方块检测物体是车还是行人还是狗,是红灯还是绿灯,识别各种交通标识等等。再配合雷达等判断物体距离。
四、这是什么歌(语音识别)1. 特征提取人类感官特征音量、音调、音色
通过采样、量化、编码。实现声波数字化(声波转电信号)
人工设计特征梅尔频率在低频部分分辨率高,高频部分分辨率低(这与人耳的听觉感受是相似的,即在一定频率范围内人对低频声音比较敏感而对高频声音不敏感)。
关系为:
在每一个频率区间对频谱求均值,它代表了每个频率范围内声音能量的大小。一共有26个频率范围,从而得到26维的特征。倒谱操作后,得到 13 维的梅尔频率倒谱系数(Mel-FrequencyCepstralCoefficients,MFCCs)
深度学习特征通过 3.1 所介绍的 1维卷积进行特征提取
2. 应用音乐风格分类
输入:音频文件特征:声音特征输出:音乐种类
语音转文字
输入:音频文件特征:声音特征输出:声学模型(比如26个英文字母)
再把声学模型送入另外的学习器
输入:声学模型特征:语义和词汇输出:通顺的语句(可以查看第6点,如何让计算机输出通顺的语句)
听歌识曲通过窗口扫描(把音乐分割成一小段一小段的),然后通过4.1说的方法提取这一段的特征,就得到一个特征向量。对数据库的歌和用户录音的歌做同样的操作得到特征向量,然后两两之间计算相似度(两个向量的距离可以用余弦公式算夹角大小或者两点间距离公式来算)
五、视频里的人在做什么(视频理解,动作识别)1. 介绍视频,本质是由一帧帧图片连续组成的,因为人视觉的暂留效应(Persistence of vision,人眼在观察景物时,光信号传入大脑神经,并不立即消失,让人产生画面连续的印象),看上去是连续的,也就是视频。识别视频里面有什么物体,可以用上文说过的图像识别和分类方法去实时分析单帧图像,比如:
但是视频相对于图像有一个更重要的属性:动作(行为)。
怎么从一个连续的视频分析动作呢?
举个例子,像上图那只二哈,腿部的像素点相对于黄色的方框(框和狗相对静止)在左右”移动”,这里的”移动”我们引入一个概念——光流(一个像素点从一个位置移动到另一个位置),通过像素点移动形成的光流作为神经网络的训练特征(X),『奔跑作为训练目标值(Y),经过多次的迭代训练,机器就可以拟合得出一个 Y = f(X) 用于判断视频中的物体(Object)是否在奔跑。
2. 光流假设,1)相邻两帧中物体运动很小2)相邻两帧中物体颜色基本不变
至于神经网络是怎么跟踪某个像素点的,这里不展开说明。
第 t 时刻的点指向第 t+1 时刻该点的位置,就是该点的光流,是一个二维的向量。
整个画面的光流就是这样:
整个视频的光流(轨迹)是这样的
不同的虚线代表图像上某个点移动的轨迹
假设视频宽width、高 height、一共有 m 帧,那么该视频可以用 width * height * m * 2 的张量(就是立体的矩阵)来表示,把向量喂到神经网络即可进行分类训练。
进一步优化,可以把光流简化为8个方向上的,把视频某一帧的所有光流累加到这八个方向上得出某一帧的光流直方图,进一步得出 8 维的特征向量。
六、一段文字在表达什么(自然语言处理)1. 特征提取
这里有4个句子,首先进行分词:
去掉停用词(副词、介词、标点符合等等,一般在文本处理上都有一个停用词表)
编码词表
句子向量化
这样就得到一个句子19 维 的 特征向量,再把这19维的特征向量用普通卷积网络或者 LSTM 循环神经网络作为 X 读入(喂它吃东西),文本的分类(比如积极、消极)作为训练标签值 Y,迭代训练得到的模型可以用于情感分析或文本分类等任务。
2. 进阶词向量化厉害-牛逼、计算机-电脑是同义词。光从上面的步骤,我们可能认为厉害和牛逼是两个完全不一样的词语,但其实他们是近似的意思,怎么才能 AI 学习知道这点呢?需要从多个维度去进一步给词语更丰富的内涵,比如:
举例来说,男性用1表示,女性用0表示,不带性别倾向就是0.5。多个维度扩展之后,就得到“男人”这个词的特征向量(1,0, 0.5,0,1)
逆向文档频率一个词在一类文章出现的多,而在另外分类的文章出现的少,越能说明这个次能代表这篇文章的分类。比如游泳在体育类的文章中出现的多(2次),而在工具类的文章出现的少(0次),相比其他词语(1次)更能代表体育类的文章。
假设句子中有 N 个词, 某个词出现次数为 T,一共有 X 个句子,该词语在 W 个句子出现,则逆向文档频率 TF-IDF 为 T/N * log(X/W)
3. 应用
七、让计算机画画(生成对抗网络)从前有个人,以卖临摹名家的画来赚钱。他开始临摹一副名画:
第一次他画成这样子了:
鉴赏家一眼就看出来是假的,他不得不回去画第二幅画、第三幅画…
经过了10万次”画画-鉴别”的过程,这个临摹者画出来的画,鉴赏家居然认为这是真的原作,以高价买入了这副画。
这种生成(画画)- 鉴别(鉴伪)的模式正是生成对抗网络(GAN)的核心。
通过生成器,把随机像素点有序排列形成具有意义的画面,再通过鉴别器得出生成的画面的分类、和真实画面之间的差距,并告诉生成器要往什么方向去优化。多轮的训练之后,生成器就学会了画『真画了。
计算机是怎么把随机像素点变成有意义的画面的呢?我们通过一个简化的例子来看看。
直线上一些均匀分布的点,经过 y=2x+1变换后变成了非均匀分布。一张随机排布的像素点画面,经过某个f(x) 变换后就会变成具有某种意义的画面,而生成器就是不停地去近似f(x), 就像 2.2 感知器拟合一条直线那样。
下图为计算机生成手写数字的过程
划重点:函数可以变换数据分布(库克说:可以把直的变成弯的)
八AlphaGo是怎么下棋的?(强化学习)1. 粗略认知监督/无监督训练:尽可能让每一次任务正确强化学习:多次任务是否达成最终目标
每一次任务都准确,不就是能达成最终目标吗?我们来看一个例子:
一家批发商店的老板爱丽丝要求她的经理比尔增加销售额,比尔指导他的销售员多卖一些收音机,其中一个销售员查尔斯弄到了一个可以获利的大单,但是之后公司因为供应紧缺无法交付这些收音机。
应该责怪谁呢?
从爱丽丝的角度来看,查尔斯的行为让公司蒙羞了(最终任务没完成)。
但是从比尔的角度,查尔斯成功地完成了他的销售任务,而比尔也增加了销量(子任务达成)。——《心智社会》第7.7章
2. AlphaGo下围棋,最古老的办法是决策树,从左上角的位置开始到右下角的位置遍历,每一个空的位置就是一个分支,然后预测每种棋局赢的概率,找出最大概率的走法玩。这就是落子预测器。
但是由于围棋19X19的超大棋盘,空间复杂度高达10的360次方,要穷尽所有的走法几乎是不可能的,如大海捞针。
要降低复杂度,关键是要降低搜索的广度和深度。
我们栽培一颗小盆栽的时候,如果不对枝叶进行修剪,那么养分就会浪费在没长好的枝条上。需要及时对枯萎或者异常的枝条进行修剪以保证养分往正常(或者说我们希望它生长的方向)枝条上输送。
同样的道理,有限的计算机算力如果浪费在穷尽所有围棋走法上,将导致棋局推演非常慢,而且耗费大量的时间也难以找到最优的方案。
是否可以通过 “修剪” 落子选择器这颗庞大的决策树,加快较优落子方案的选择呢?怎么判断哪些是好的”枝条”,哪些是坏的”枝条”呢?这就需要棋局价值评估器(哪个棋盘的赢的概率更大),把没有价值的棋局先去掉不再往下遍历,这就同时减少了搜索的广度和深度。
其中,落子预测器有个名称,叫做政策网络(policy network)价值评估器有个名称,叫做价值网络(value network)政策网络(policy network)利用蒙特卡洛搜索树从当前棋局推演(随机下棋)到最终的棋局,最终胜则回报为正,反之回报为负。之后该算法会反向沿着该对弈过程的落子方案步步回溯,将路径上胜者所选择的落子方案分数提高,与此对应将败者的落子方案分数降低,所以之后遇到相同局面时选择胜者方案的概率就会增加。因此可以加速落子选择,称为快速走子网络。
通过 政策网络 + 价值网络 + 蒙特卡洛搜索树 实现最优落子方案的选择,同时两个机器人互相对弈,这样就不停地训练网络,学习落子方案。
3. 定义接下来说一下枯燥的定义
什么是强化学习?
当我们关注的不是某个判断是否准确,而是行动过程能否带来最大的收益时使用强化学习(reinforeement learning)。比如在下棋、股票交易或商业决策等场景中。
强化学习的目标是要获得一个策略(poliey)去指导行动。比如在围棋博弈中,这个策略可以根据盘面形势指导每一步应该在哪里落子;在股票交易中,这个策略会告诉我们在什么时候买入、什么时候卖出。
一个强化学习模型一般包含如下几个部分:
一组可以动态变化的状态(sute)
对于围棋棋盘上黑白子的分布位置对于股票交易来说,就是股票的价格
一组可以选取的动作(metion)
对于围棋来说,就是可以落子的位置;对于股票交易来说,就是每个时间点,买入或者卖出的股票以及数量。
一个可以和决策主体(agent)进行交互的环境(environment)这个环境会决定每个动作后状态如何变化。
棋手(主体)的落子会影响棋局(环境),环境给主体奖励(赢)或惩罚(输)操盘手(主体)的买入或卖出会影响股票价格(环境,供求关系决定价格),环境给主体奖励(赚钱)或惩罚(亏钱)
2.基于检测树的抗原合法性快速检测方法孙秋丽,韩芳溪,王晓琳,SUNQiu-li,HANFang-xi,WANGXiao-lin
3.运用改进的SPEA2算法优化网格工作流调度方法李金忠,夏洁武,曾劲涛,王翔,LIJin-zhong,XIAJie-wu,ZENGJin-tao,WANGXiang
4.一种基于AR模型的非线性盲源提取方法及其应用蔡英,王刚,CAIYing,WANGGang
5.基于B样条FFD模型配准的虹膜图像融合方法吴国瑶,马立勇,WUGuo-yao,MALi-yong
6.关于T范数的广义模糊子坡(理想)芮眀力,廖祖华,胡淼菡,陆金花,RUIMing-li,LIAOZu-hua,HUMiao-han,LUJin-hua
7.融合PSO算法思想的进化算法刘建华,黄添强,严晓明,LIUJian-hua,HUANGTian-qiang,YANXiao-ming
8.基于偏最小二乘降维的分类模型比较曾雪强,李国正,ZENGXue-qiang,LIGuo-zheng
9.OPHCLUS:基于序关系保持的层次聚类算法雷小锋,庄伟,程宇,丁世飞,谢昆青,LEIXiao-feng,ZHUANGWei,CHENGYu,DINGShi-fei,XIEKun-qing
10.采样特异性因子及异常检测孙静宇,余雪丽,陈俊杰,李鲜花,SUNJing-yu,YUXue-li,CHENJun-jie,LIXian-hua
11.一种基于SVM的快速特征选择方法戴平,李宁,DAIPing,LINing
12.一种ReliefF特征估计方法在无监督流形学习中的应用谭台哲,梁应毅,刘富春,TANTai-zhe,LIANGYing-yi,LIUFu-chun
13.基于agent的模式表示模型AIM程显毅,朱倩,管致紧,CHENGXian-yi,ZHUQian,GUANZhi-jin
14.歌词与内容相结合的流行音乐结构分析梁塽,许洁萍,李欣,LIANGShuang,XUJie-ping,LIXin
15.基于免疫网络的无监督式分类算法梁春林,彭凌西,LIANGChun-lin,PENGLing-xi
16.舌体图像分割技术的实验分析与改进李国正,史淼晶,李福凤,王忆勤,LIGuo-zheng,SHIMiao-jing,LIFu-feng,WANGYi-qin
17.基于退火遗传算法的NURBS曲线逼近刘彬,张仁津,LIUBin,ZHANGRen-jin
18.基于Harris角点的木材CT图像配准张训华,业宁,王厚立,ZHANGXun-hua,YENing,WANGHou-li
19.基于词语量化相关关系的句际相关度计算钟茂生,刘慧,邹箭,ZHONGMao-sheng,LIUHui,ZOUJian
20.iCome:基于多义性的图像检索系统陈虎,黎铭,姜远,周志华,CHENHu,LIMing,JIANGYuan,ZHOUZhi-hua
21.基于字的词位标注汉语分词于江德,睢丹,樊孝忠,YUJiang-de,SUIDan,FANXiao-zhong
22.不均衡问题中的特征选择新算法:Im-IG尤鸣宇,陈燕,李国正,YOUMing-yu,CHENYan,LIGuo-zheng
23.基于流形学习的图像检索算法研究贺广南,杨育彬,HEGuang-nan,YANGYu-bin
24.基于BIRCH的木材缺陷识别吴东洋,业宁,WUDong-yang,YENing
25.基于自扩展与最大熵的领域实体关系自动抽取雷春雅,郭剑毅,余正涛,毛存礼,张少敏,黄甫,LEIChun-ya,GUOJian-yi,YUZheng-tao,MAOCun-li,ZHANGShao-min,HUANGPu
26.层次聚类算法的有效性研究胡晓庆,马儒宁,钟宝江,HUXiao-qing,MARu-ning,ZHONGBao-jiang
27.基于相异性和不变特征的半监督图像检索宿洪禄,李凡长,SUHong-lu,LIFan-zhang
28.基于方向场信息的指纹图像质量评测李铁军,刘倩,张宇,LITie-jun,LIUQian,ZHANGYu
29.一种基于概念格的用户兴趣预测方法茅琴娇,冯博琴,李燕,潘善亮,MAOQin-jiao,FENGBo-qin,LIYan,PANShan-liang
30.基于鲁棒性神经模糊网络的脉冲噪声滤波算法李岳阳,王士同,LIYue-yang,WANGShi-tong
31.CAN2:构件组合式神经网络吴和生,王崇骏,谢俊元,WUHe-sheng,WANGChong-jun,XIEJun-yuan
1.基于半马尔可夫对策的多机器人分层强化学习沈晶,刘海波,张汝波,吴艳霞,程晓北,SHENJing,LIUHai-bo,ZHANGRu-bo,WUYan-xia,CHENGXiao-bei
2.文本分类中一种新的特征选择方法王法波,许信顺,WANGFa-bo,XUXin-shun
3.模因机制下人类元音系统演化的计算模型云健,江荻,潘悟云,YUNJian,JIANGDi,PANWu-yun
4.基于ICA的语音信号表征和特征提取方法董治强,刘琚,邹欣,杜军,DONGZhi-qiang,LIUJu,ZOUXin,DUJun
5.预测状态表示综述王历,高阳,王巍巍,WANGLi,GAOYang,WANGWei-wei
6.基于多天线的机器人定位和高效节能无线互联网络孙毅,肖继忠,FlavioCabrera-Mora,SUNYi,XIAOJi-zhong,FlavioCabrera-Mora
7.基于均值距离的图像分割方法王新沛,刘常春,白曈,WANGXin-pei,LIUChang-chun,BAITong
8.整车物流企业联盟的协同收益分配模型刘鹏,吴耀华,许娜,LIUPeng,WUYao-hua,XUNa
9.蒙特卡罗方法模拟生物组织中光的分布高迪,魏守水,任晓楠,崔建强,徐从娟,GAODi,WEIShou-shui,RENXiao-nan,CUIJian-qiang,XUCong-juan
10.变时滞神经网络的时滞相关全局渐近稳定新判据刘国彩,刘玉常,鞠培军,LIUGuo-cai,LIUYu-chang,JUPei-jun
11.用H∞控制器抑制Buck变换器中的参数扰动贤燕华,冯久超,XIANYan-hua,FENGJiu-chao
12.云神经网络的函数逼近能力于少伟,YUShao-wei
13.一种胶原支架材料的结构与性能表征胡顺鹏,赵洪石,王冠聪,曹成波,刘宏,李文波,杨晓宇,HUShun-peng,ZHAOHong-shi,WANGGuan-cong,CAOCheng-bo,LIUHong,LIWen-bo,YANGXiao-yu
14.TiO2/ZnO纳米光催化剂的制备及性能研究徐青,吕伟,XUQing,L(U)Wei
15.溶剂热法合成CeO2纳米微晶于丽丽,刘宝,钱立武,钱雪峰,YULi-li,LIUBao,QIANLi-wu,QIANXue-feng
16.碳纤维用流化炉计算机控制与性能测试高学平,朱波,于宽,GAOXue-ping,ZHUBo,YUKuan
17.地铁隧道衬砌管片承载力试验及计算方法周海鹰,李立新,陈廷国,ZHOUHai-ying,LILi-xin,CHENTing-guo
18.济南城市防洪汛情预警等级判定方法王育奎,徐帮树,李术才,WANGYu-kui,XUBang-shu,LIShu-cai
19.分散性土的鉴别及改性试验李华銮,高培法,穆乃敏,王琳,LIHua-luan,GAOPei-fa,MUNai-min,WANGLin
20.大跨度钢管拱吊装中温度荷载效应分析及应用孙国富,李术才,张波,SUNGuo-fu,LIShu-cai,ZHANGBo
21.地震作用下大型桥梁群桩基础动水压力效应分析李富荣,何山,王志华,LIFu-rong,HEShan,WANGZhi-hua
22.两性荧光增白剂的合成及其性能杨晓宇,曹成波,周晨,胡顺鹏,YANGXiao-yu,CAOCheng-bo,ZHOUChen,HUShun-peng
23.[BPy]Br和[BMIm]Br微波辅助合成动力学徐鸣,XUMing
24.聚合物/表面活性剂二元体系油水乳化过程动态表征方法研究马宝东,高宝玉,卢磊,张永强,MABao-dong,GAOBao-yu,LULei,ZHANGYong-qiang
25.天然气发动机三效催化剂张强,李娜,李国祥,ZHANGQiang,LINa,LIGuo-xiang
26.单轴并联式混合动力客车动力总成匹配牛礼民,赵又群,杨攀,李佳,NIULi-min,ZHAOYou-qun,YANGPan,LIJia
27.二级增压系统中高压级压气机性能研究何义团,HEYi-tuan
28.高精度电阻数据自动采集与动态显示系统设计王泽静,秦敬玉,米春旭,WANGZe-jing,QINJing-yu,MIChun-xu
29.循环泵启动瞬间排水系统壅水数值模型分析高坤华,张成义,胡亦工,徐士倩,郑冠军,王伟,GAOKun-hua,ZHANGCheng-yi,HUYi-gong,XUShi-qian,ZHENGGuan-jun,WANGWei
30.基于对偶树复小波-Contourlet变换的自适应多传感图像融合算法赵文忠,ZHAOWen-zhong
31.激活能测试装置设计及微晶硅薄膜激活能测试陈庆东,王俊平,张宇翔,卢景霄,CHENQing-dong,WANGJun-ping,ZHANGYu-xiang,LUJing-xiao
32.Mintegration:一种针对大规模数据的并发数据集成方案陈胜利,李俊奎,刘小东,CHENSheng-li,LIJun-kui,LIUXiao-dong
1.基于极大圆盘引导的形状插值实现三维表面重建秦通,孙丰荣,王丽梅,王庆浩,李新彩,QINTong,SUNFeng-rong,WANGLi-mei,WANGQing-hao,LIXin-cai
2.结构大间隔单类分类器冯爱民,刘学军,陈斌,FENGAi-min,LIUXue-jun,CHENBin
3.基于蚁群系统的聚类算法研究沙露,鲍培明,李尼格,SHALu,BAOPei-ming,LINi-ge
4.一种采用动态策略的模拟捕鱼优化方法王勇,庞兴,WANGYong,PANGXing
5.一种基于微粒群思想的蚁群参数自适应优化算法夏辉,王华,陈熙,XIAHui,WANGHua,CHENXi
6.基于雷达图像的运动目标形态检测及跟踪技术刘文亮,朱维红,陈涤,张泓泉,LIUWen-liang,ZHUWei-hong,CHENDi,ZHANGHong-quan
7.人机交互中基于可穿戴式计算的手势和活动辨识盛卫华,祝纯,SHENGWei-hua,ZHUChun
8.基于炼油过程生产特性的优化调度模型李明,李歧强,郭庆强,丁然,LIMing,LIQi-qiang,GUOQing-qiang,DINGRan
9.一种新型微流体主动混合器的仿真与分析徐昊,魏守水,张敬涛,XUHao,WEIShou-shui,ZHANGJing-tao
10.混合变时滞二重边复杂网络自适应同步反馈控制赵永清,江明辉,ZHAOYong-qing,JIANGMing-hui
11.超高强度钢板热冲压及模内淬火工艺的发展现状李辉平,赵国群,张雷,贺连芳,LIHui-ping,ZHAOGuo-qun,ZHANGLei,HELian-fang
12.莱钢120吨转炉冶炼超低硫钢工艺优化王庆春,李木森,范树璐,张继军,WANGQing-chun,LIMu-sen,FANShu-lu,ZHANGJi-jun
13.热加工材料动态再结晶介观组织模拟模型的研究进展王丽君,关小军,禹宝军,赵健,WANGLi-jun,GUANXiao-jun,YUBao-jun,ZHAOJian
14.模拟体液中类骨羟基磷灰石的合成张爱娟,ZHANGAi-juan
15.洋葱状富勒烯的硬脂酸修饰姚延立,马国利,YAOYan-li,MAGuo-li
16.Eu3+掺杂生物多孔硅酸钙发光材料性能赵其斌,周淑君,范同祥,丁剑,张获,ZHAOQi-bin,CHOWSuk-kwun,FANTong-xiang,DINGJian,ZHANGDi
17.Al-Zn-Mg-(Sc)-(Zr)合金时效初期微结构演化的MonteCarlo模拟孙媛,王桂青,SUNYuan,WANGGui-qing
18.地下工程突水机理及其研究最新进展李利平,路为,李术才,张庆松,许振浩,石少帅,LILi-ping,LUWei,LIShu-cai,ZHANGQing-song,XUZhen-hao,SHIShao-shuai
19.基于趋势检查法的遗传神经网络模型及工程应用邱道宏,张乐文,崔伟,苏茂鑫,孙怀凤,QIUDao-hong,ZHANGLe-wen,CUIWei,SUMao-xin,SUNHuai-feng
20.新陈代谢GM(1,1)模型在建筑物沉降预测中的应用边培松,王登杰,于少华,BIANPei-song,WANGDeng-jie,YUShao-hua
21.地铁管片抗裂度及裂缝宽度试验和计算方法周海鹰,李立新,陈廷国,ZHOUHai-ying,LILi-xin,CHENTing-guo
22.信息动态
23.FRP-螺栓联合加固技术锚固参数的研究管延华,苗海涛,宋修广,GUANYan-hua,MIAOHai-tao,SONGXiu-guang
24.多孔安山岩在沥青路面中的应用研究郭德栋,许宏妹,李小刚,GUODe-dong,XUHong-mei,LIXiao-gang
25.基于自治域的RBAC访问控制模型龙军,曾小仨,张祖平,LONGJun,ZENGXiao-sa,ZHANGZu-ping
26.无线传感器网络节点定位算法夏少波,许娥,XIAShao-bo,XUE
27.微切削加工A17050-T7451过程切屑形貌及尺度效应研究周军,李剑峰,孙杰,ZHOUJun,LIJian-feng,SUNJie
28.乙酸乙酯生成过程的间歇反应精馏的模拟和优化冯震恒,张忠诚,FENGZhen-heng,ZHANGZhong-cheng
1.知识保持的嵌入方法张道强,ZHANGDao-qiang
2.基于多级结构相似度的快速指纹匹配算法杨栋,杨公平,尹义龙,张利明,YANGDong,YANGGong-ping,YINYi-long,ZHANGLi-ming
3.基于混沌动力学模型的群体目标检测与分类乔伟,王汇源,吴晓娟,刘鹏威,QIAOWei,WANGHui-yuan,WUXiao-juan,LIUPeng-wei
4.基于图像分解的敦煌壁画图像修复方法黄伟,王书文,杨筱平,贾建芳,HUANGWei,WANGShu-wen,YANGXiao-ping,JIAJian-fang
5.基于模糊神经网络的移动机器人自适应行为设计李贻斌,李彩虹,,LIYi-bin,LICai-hong,SONGYong
6.约束环境下的多移动机器人自适应伸展算法谈金东,陈曦,TANJin-dong,CHENXi
7.配送中心分拣订单合批策略的研究王艳艳,吴耀华,孙国华,于洪鹏,WANGYan-yan,WUYao-hua,SUNGuo-hua,YUHong-peng
8.基于四元数MUSIC的双极化散射中心参量提取蔡倩,汪飞,张焕春,CAIQian,WANGFei,ZHANGHuan-chun
9.双轴压缩试验中砂土剪切带形成的离散元模拟分析蒋明镜,李秀梅,JIANGMing-jing,LIXiu-mei
10.长期交通荷载作用下粉砂土累积变形本构模型构建及数值积分格式张宏博,苗海涛,宋修广,ZHANGHong-bo,MIAOHai-tao,SONGXiu-guang
11.多元多方程地应力反演与工程应用研究岳晓蕾,李术才,陈启辉,葛雁平,YUEXiao-lei,LIShu-cai,CHENQi-hui,GEYan-ping
12.蒸压粉煤灰多孔砖砌体偏心受压承载力试验研究徐春一,刘明,王广林,XUChun-yi,LIUMing,WANGGuang-lin
13.二层框架填充墙出平面反应分析的试验研究程云,刘明,刘晓伟,CHENGYun,LIUMing,LIUXiao-wei
关键词: 云计算;数据挖掘;分布式
中图分类号:TP393.08 文献标识码:A 文章编号:1671-7597(2012)0220104-01
0 引言
信息技术的出现导致各种格式(如记录、文档、图像、声音、航空数据等)的海量数据存储在数据仓库中,如何从海量的数据中找到有价值的信息是当前的一个热点,对人类社会具有非常重要的社会价值和经济利益,数据挖掘就是实现这一功能的技术。数据挖掘从早期的单独算法对单系统、单机器进行对向量数据的挖掘,到与数据库相结合,支持多个算法的挖掘,以及和预测模型相集成,支持Web数据、半结构化的数据的网络化计算,发展到了分布式数据挖掘。分布式数据挖掘(Distributed Data Mining,DDM)作为一种成熟的挖掘技术已被广泛应用到各个领域,是数据挖掘领域的热点之一。“分布”的含义包括数据的分布和计算的分布两层含义。在分布式计算环境中,用户、数据、计算硬件、数据挖掘软件均可能在地域上分散。分布式数据挖掘旨在解决分散的同构和异构数据库的挖掘问题;同时,数据的分布性带来处理的并行性,则可能解决海量数据挖掘的可伸缩性(Scalability)瓶颈[1]。
随着科学技术的飞速发展,人类社会信息正以每18个月产生的数量等于过去几千年的总和的速度不断增加[1]。尤其是随着物联网产业的迅猛发展,越来越多的应用终端被接入网络,随之带来的庞大的数据量极大的增加了人们从海量数据中发现有用知识的难度。物联网产生的数据具有数量大,高度分散的特点,传统的分布式数据挖掘已经无法解决现有数据处理瓶颈问题[2]。作为新兴商业计算模型的云计算,为分布式数据挖掘提供了许多新的解决思路和方案。云计算是数据管理技术发展的必然趋势,能对分布在大量计算机上存储的资源池上进行操作,使基于云计算平台的应用能根据需要获取所需的存储空间,软件服务和计算能力。目前,IT巨头正在相继开发云计算平台、云计算终端和服务器。
1 数据挖掘算法分类
数据挖掘算法有很多,从不同的视角,数据挖掘技算法可以有根据发现知识的种类分类、根据挖掘的数据库的种类分类和根据采用的技术分类的几种常见分类标准[3]。
1)根据发现的知识种类,数据挖掘算法有:关联规则发现、分类或预测模型知识发现、数据总结、数据聚类、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等多种算法。
2)根据挖掘的数据库的种类,数据挖掘有基于各种数据库的挖掘算法:关系型、面向对象数据库、空间数据库、时态数据库、文本数据源、交易型、多媒体数据库、异质数据库、遗留数据库等,已经基于数据仓库、基于Web的挖掘算法等。
3)根据挖掘方法采用的技术,可分为:统计分析、机器学习方法、模式识别、面向数据库或数据仓库的技术、可视化技术和神经网络等挖掘算法。其中,常用的统计方法可细分为回归分析、判别分析、聚类分析(系统聚类、动态聚类等)、探索性分析等。机器学习方法可细分为:归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传算法等。数据库方法主要是多维数据分析或OLAP方法,另外还有面向属性的归纳方法。
基于云计算分布式数据挖掘算法是在这些数据挖掘算法的基础上,采用云计算平台实现的数据挖掘算法,也可以采用这样的分类标准进行分类。然而,由于有各式各样的数据存在,每一种挖掘算法都应用到具体的数据类型上,对数据类型的要求是有限制的,一种算法不可能会适应所有数据类型的挖掘应用。因此,在考虑不同数据类型的挖掘和具体的应用时,如何选择合适的挖掘算法是非常重要的。当然,在实际应用中,往往结合多方面的因素,考虑算法的优缺点,采用多种算法实现有效的挖掘。
2 不同数据类型对应的挖掘算法
随着信息量的剧增,数据的种类也不断增多。从粗粒度来看,数据挖掘常应用到如下几种数据形式:文本型(Textual)、关系型(Relational)、
事务型(Transactional)、面向对象型(Objected-Oriented)、主动型(Active)、空间型(Spatial)、时间型(Temporal)、多媒体(Multi-Media)、异质(Heterogeneous)数据库和遗留(Legacy)系统等。从挖掘的数据特性出发,专家和相关研究人员将数据挖掘归为如下几种技术:[4,5]
1)分类。分类算法适用于以元组构成的关系型数据形式,关系型中的一个数据属性可以看作分类输出的目标属性,其他属性作为分类算法数据模式(输入)。这类算法的主要目的是对训练的数据集进行挖掘,以发现另外的数据为目标得出数据分类的原理,这个原理可以用于后加入数据的分类。如果预测的变量是离散的,这类问题成为分类;如果预测的变量是连续的,这类问题成为回归。基于云计算常用的分布式挖掘算法实现关系型数据的挖掘主要有基于K-最邻近方法的分类算法、云计算环境下朴素贝叶斯文本分类算法、基于神经网络、基于范例的推理、决策树和径向基函数等分类算法。
2)聚类分析。聚类分析和分类算法相似适用于关系型数据的挖掘。聚类是在事先不规定分组规则的情况下,将数据按照其自身特征划分成不同的群组进行挖掘,以期从潜在的数据中发现新的、有意义的数据分布模式。聚类方法主要有划分聚类、层次聚类、基于密度的聚类、基于网格的聚类和基于模型的聚类。云计算聚类算法常用的有基于云计算的并行k均值聚类算法等。
3)关联规则。关联规则适用于事务型、交易型和关系型数据,但对关系型数据要求按事务分组。最适合处理的变量类型是布尔型和数值型。布尔型关联规则处理的值都是离散的、种类化的,而数值型关联规则可以和多维关联或多层关联规则结合起来。关联规则挖掘主要是发现大量数据中项集之间有趣的关联或相关联系,关联规则研究有助于发现交易数据库中不同商品(项)之间的联系以应用于商品货架布局、货存安排以及根据购买模式对用户进行分类。云计算环境下的常用关联规则分布式挖掘算法有:Apriori算法,已经出现了多种对Apriori算法改进的版本。
4)基于模式的相似性查找。该算法适用于于文本型和时间型数据,进行文本相似性搜索和时间相似性。时间序列数据是一类重要的复杂数据对象,对时间序列数据库进行挖掘能发现时间序列中所蕴涵的知识,数据挖掘技术在时间序列中的主要应用有规则发现、周期模式挖掘、相似性搜索和序列模式发现等方面。文本数据是最常见的一种数据,基于文本相似型的挖掘可以实现文本雷同度与相似性的研究。常用的算法有基于云模型的时间序列分段聚合近似方法、基于模糊聚类的文本挖掘算法、基于云计算的ARMA算法和基于离散傅立叶变换的时间序列相似性查找算法等。
5)时间序列或趋势发现和分析。该技术主要用于时间型数据,通过对不同时间点以前时间数据值的变化,发现或预测未来可能的变化和趋势,如股票的预测就是这种一个好的时间序列趋势析例子。常用的算法有神经网络算法、支持向量机算法等。
此外,除了上面提到的常用数据类型的挖掘,对空间数据的挖掘多采用空间聚类分析和空间OLAP等方法;对多媒体数据的挖掘多采用基于规则的决策树分类算法;对于应用在智能终端上的普适数据多采用机器学习和统计的挖掘算法。
3 结束语
本文首先介绍了云计算和分布式数据挖掘的相关知识,随着Internet的普及和数据的海量增加,二者相结合能解决分布式数据挖掘的瓶颈问题,是今后的一个发展方向。本文重点针对不同的数据类型采用的基于云计算的分布式挖掘算法进行了对比,为基于云平台的分布式数据挖掘系统的开发提供了支持。云计算为海量和复杂数据对象的数据挖掘提供了基础设施,为网络环境下面向大众的数据挖掘服务带来了机遇。
参考文献:
[1]张诚、郭毅,专访中国科学院计算技术研究所-何清博士,数字通信,2011,3:5-7.
[2]陈磊、王鹏、董静宜、任超,基于云计算架构的分布式数据挖掘研究,成都信息工程学院学报,2010,12:777-579.
[3]邵峰晶、于忠清著,数据挖掘原理与算法,北京:水利水电出版社,2003.08.
[关键词]支护;围岩稳定性;模糊聚类;matlab;可视化
中图分类号:TD322 文献标识码:A 文章编号:1009-914X(2016)19-0339-03
0 引言
目前,煤矿巷道支护设计很大程度上依赖于工程技术人员的工程判断力和实践经验,具有很大的盲目性,导致有些巷道支护效果不佳,部分巷道出现前掘后修、前修后坏的状况。有些巷道支护设计参数偏于保守,制约着矿井安全高效水平的提高。科学地寻找支护参数设计在安全和经济两方面的最佳结合点,是开展巷道围岩稳定性分类研究的主要目的。据统计,相当一部分巷道失稳的原因是由于基本的支护方案不合理造成的,究其原因是不准确的巷道围岩分类。因此,准确地把握巷道围岩稳定性分类是巷道支护设计的基础,开发出便于现场工程技术人员能够直接使用的可视化围岩分类系统亟待解决。本文以模糊聚类理论基础,建立回采巷道围岩稳定性分类Fuzzy模型,利用matlab语言编写模型程序,实现了回采巷道围岩稳定性分类可视化系统。
1 回采巷道围岩分类Fuzzy模型
影响回采巷道围岩稳定性的因素很多,依照指标选取的重要性原则、独立性原则、明确性原则、易获取原则[1],选取巷道埋深、巷道底板岩层强度、巷道顶板8m范围内综合强度、巷道帮部岩(煤)层强度、直接顶厚度与采高比值N、直接顶初垮步距、巷煤柱宽度7个指标,以神东布尔台矿区为工程背景,收集回采巷道样本。其中顶板岩层的综合强度,采用顶板8m范围内各个岩层的单轴抗压强度的综合平均值。大量的实践经验表明,距离巷道顶部表面的岩层越近对巷道稳定性的影响越大[2]。如图1所示,顶板岩层的强度采用如下公式(1)计算。
(1)
式中:
A――巷道顶板上部三角形区域面积;
a――巷道宽度;Ai为第i分层区域面积;
――第i分层的单轴抗压强度。
1.1 数据无量纲化及单位化处理
样本分类的7个指标的量纲不尽相同,在数据使用必须对原始数据进行无量纲化处理,按照统计学原理,本文采用公式(2)进行无纲量化处理(Z-score)。
(2)
(3)
(4)
式中:
――第i个样本的的第j个指标;
――第j指标的平均值,计算公式(3);――第j指标的标准差,计算公式(4)。
为消除各指标绝对值大小对聚类分析的影响,要对去量纲化的样本数据进行单位化[2],如公式(4)所示,把原始数据压缩在0~1之间。
(5)
式中:
{xij}min――第j个指标实测中最小值;
{xij}max――第j个指标实测中最大值。
1.2 回采巷道分类指标加权处理
数据无量纲化及单位化处理没有改变各指标对分类结果的影响,事实上,各个分类指标对巷道围岩稳定性的影响程度是不同的,有主次之分。如果把这些影响程度不同的指标平等的对待,无疑是要影响分类结果的准确性[3]。因此,在进行模糊聚类分析时,为区分这些指标对围岩稳定性的影响程度,需要对每一个指标进行加权处理。加权的具体实施方法,就是在各指标经标准化处理后的数据上乘以相应的权值。确定权值的途径很多,这是里采用多元回归分析法确定本分类中7个指标的权值,并用层次分析法加以检验[4],最终得到各指标分类权值如表1所示。
1.3 数据标定及聚类
标定就是计算出被分类对象间相似程度的统计量(i,j=1,2,……n。n为被分类对象的个数),从而确定论域上的模糊关系矩阵。常用的方法有:欧氏距离法、数量积法、相关系数法、夹角余弦法等[5]。本文采用欧氏距离法来进行标定。如公式(6)所示。
(6)
式中:
――表示第条回采样本巷道的第k个标准化处理后的指标 ;
――表示第条回采样本巷道的第k个标准化处理后的指标。
聚类就是在已经建立的模糊相似矩阵的基础上[6],以不同的阈值进行截取,从而得到不同的分类。这里采用基于模糊等价关系的聚类法。具体作法是,将加权模糊相似矩阵进行改造,使之具有传递性,转化为加权模糊等价关系矩阵,给出不同的阈值进行聚类[7]。最终把寸草塔二矿回采巷道围岩稳定性分为分为5类:非常稳定;稳定;较稳定;不稳定,极不稳定。上述对围岩稳定性的评语用拉丁字母表示为:I,II,III,IV,V;各指标聚类中心值如表2所示。
1.4 构造单项指标的隶属函数
回采巷道围岩稳定性状态共分为5类,分类指标数为7,Xi (i=1,2,…,7)表示第i分类指标取巷道聚类中心值的集合,论域Xi上模糊子集完全由它的隶属函数所确定,其中为某类别巷道第i指标的聚类中心值,隶属函数中的应当满足[8]:
(1) 当时,,其中为第j级巷道第i分类指标的的聚类中值。显然,第j级标准巷道应100%属于第j级;
(2) 当远离时,隶属函数值应变小。隶属函数种类很多,如正态型、戒上型、戒下型和降半型等。根据巷道各分类指标的分布特征,本文采用如公式(7)的正态型分布函数。
(7)
式中:
――取各级聚类中心值的第i指标的标准差。
1.5 巷道模糊综合评判及顶底板移近量预测
利用上述单项指标隶属函数,计算回采巷道的隶属函数值,得到初始模糊关系矩阵R。因为各分类指标的权值矩阵是单位化的,为方便分类结果的使用,初始模糊关系矩阵R必须单位化。单位化后的模糊关系矩阵为运用模糊单位化后的模糊关系矩阵,与各分类指标所占权值矩阵A进行矩阵相乘运算,权值矩阵由表3中得出,即:
A=(0.122 0.1 0.21 0.03 0.11 0.113 0.3)
运算见下公式(8)。
(8)
得到隶属度矩阵,求得最大隶属度及最大隶属度所在的列向量位置,进而判别巷道稳定性类别。
通过该隶属矩阵可以进一步预测巷道顶底板移近量,目前预测巷道顶底板移近量尚无精确的公式,通过巷道围岩稳定性隶属度矩阵预测巷道顶底板移近量(如表3)不失为一种简单有而又相对准确的方法,如公式(9)。
U=u1×b1+ u2×b2+……+ u5×b5 (9)
上式中:
b1,b2,……b5――巷道围岩稳定性隶属矩阵中各类巷道的隶属度;
u1,u2,……u5――各类巷道围岩移近量的平均值。
2 可视化系统开发
Matlab是一款优秀的面向对象的数值计算软件[11],在GUI编程过程中需要使用变量来实现函数之间的数值传递,借用Eidt Text(编辑文本)及Listbox(下拉类表)的Tag(标签)来定义、使用函数变量;本系统主要有四大功能模块组成:1)求聚类中心;2)顶板综合强度计算;3)数据装载及运算;4)显示模型运算结果;系统运行调试结果如图2所示。
3 系统应用
3.1 应用工程背景
根据某矿43301工作面为工程背景,工作面北部北部为43煤辅运、胶运和回风三大巷,西侧为43301工作面已准备完毕,东侧为43303工作面已回采完毕,南侧为43煤风氧化带边界,43302-1与43302-2工作面南北间隔5条排矸巷相距128m;上部18-28m有42201、42202、42224工作面采空塌陷区。
3.1.1、煤层顶板、底板特征
43302工作面老顶为细砂岩,厚度约为13.7-18.8m,平均15.35m,白色,泥质胶结,水平层理。
直接顶为泥岩,厚度约为0-1.5m,平均1.15m,灰黑色,粉砂质,质软,易冒落,底部含有植物叶碎片化石。
直接底为泥岩,厚度约为0.10-0.70m,平均0.35m,深灰色,含岩屑及植物化石,遇水泥化严重。
3.1.2、地质构造及水文地质特征
工作面地表广覆第四系松散沉积物,地形起伏变化比较大,43302-1回采区上部18-22m有42煤42201、42202综采工作面采空塌陷区。43302-2回采区上部22-28m有42煤42201、42103、42224综采工作面采空塌陷区。工作面内地层总的趋势是以极缓的坡度向北西倾斜的单斜构造,倾角1-3°,断层不发育,后生裂隙发育。
工作面地表广覆第四系松散沉积物,地形起伏变化比较大,43302-1工作面回采区上部18-22m有42煤42201和42202工作面采空塌陷区,43302-2工作面回采区上部22-28m有42煤42201、42103、42224综采工作面采空塌陷区,采空区内有大量积水,施工探放水孔11个,累计疏放积水17800m3,采空区内局部低洼地带可能仍有少量积水,因此必须加大雨季工作面采空塌陷区沟谷地带洪水的管理工作,以确保矿井安全生产。
工作面地表沟壑发育,上覆松散层厚度变化较大,雨季大气降水一方面通过松散层及基岩裂隙直接下渗补给井下,用类比法预测切眼地段初次垮落时的涌水量为30m3/h,工作面正常回采涌水量20m3/h,工作面最大涌水量50m3/h。
3.2 巷道围岩稳定性分类
根据以上地质因素和采矿技术因素,量化各分类指标,如见表4所示,运用建立的模糊聚类模型进行巷道围岩稳定性分类。
代入公式7,得到初始隶属函数矩阵R。由于权值矩阵是单位化的,所以要对初始隶属函数矩阵R单位化,得到单位化的隶属函数矩阵。
把代入公式8,得到隶属度矩阵。从中可以看出该巷道围岩稳定性的隶属度,I类巷道围岩隶属度为0.0973,II类巷道围岩隶属度为0.1679,III类巷道围岩隶属度为0.2145,IV类巷道围岩隶属度0.3059,V类巷道围岩隶属度为0.2144,最大隶属度为0.3059,从而判定该巷道从属于IV类巷道,属于不稳定较难支护围岩。
3.3 预测巷道顶底板移近量
依照表3,建立巷道顶底板移近量单位行向量U=(30,75,250,500,1200),把行向量U与列向量B代入公式9,预测该巷道顶底移近量U为496.3mm。接近IV围岩顶底板平均移近量500mm,处于400-600mm之间,很大程度上证明了该模型的可靠性。
4 结论
利用影响回采巷道围岩稳定性的7个指标因素,采用模糊聚类理论,建立围岩稳定性分类模型,实现分类的综合评判及巷道顶底板移近量预测,为巷道支护设计提供依据;考虑到顶板岩层节理的影响,以巷道宽度、各岩层强度及厚度、8米内岩层数为基本参数,求得顶板综合强度,采动系数以直接顶厚度与采高比值N量化。采用matlab语言编写,完成系统四大功能模块,实现系统的可视化,方便现场工程技术人员使用。
参考文献
[1] 邓福康.基于人工神经网络的巷道围岩分类与支护参数优化研究[D],安徽理工大学,2009,6.
王存文.基于BP人工神经网络的煤巷围岩稳定性分类研究[D],山东科技大学,2005,5.
[2] 李迎富.潘三深井动压回采巷道围岩稳定性分类及其支护设计[D].安徽理工大学,2006,3-5.
[3] Hurt K. New Development in rock bolting[J].Colliery Guardian,2006,27(7):53-54.
[4] 贺超峰.基于BP神经网络的回采巷道围岩分类[J].矿业工程研究,2012,27(3):6-9.
[5] 刑福康,蔡坫,刘玉堂.煤矿支护手册[M]. 北京:煤炭工业出版社,1998:483-487.
[6] bination of The Boundary Element and Finite Element Methods[J] .Prog in Boundary Element Meth,2004,46(1):3-7.
[7] 王广德.复杂条件下围岩分类研究[J].中国煤炭,2010,23(08):27-29.
[8] 黄其芳.人工神经网络对隧道围岩进行分类的应用研究[J].西部探矿工程,2007,38(5):18-22.
作者简介:
一、数据挖掘的层次
一直想整理下对数据挖掘不同层次的理解,这也是这两年多的时间里面,和很多金融领域、互联网做数据相关工作的小伙伴,聊天交流的一些整理和归纳。大概可以分为四类。
(一)纯粹的数据加工
侧重于变量加工和预处理,从源系统或数据仓库,对相关数据进行提取、加工、衍生处理,生成各种业务表。然后,以客户号为主键,把这些业务表整合汇总,最终可以拉出一张大宽表,这张宽表就可以称之为“客户画像”。即,有关客户的很多变量和特征的集合。
在这个阶段,主要的数据加工工具为SQL和SASbase。
(二)傻瓜式的挖掘工具
较为典型的就是SASEM和clementine,里面嵌入很多较为传统成熟的算法、模块和节点(例如逻辑回归、决策树、SVM、神经网络、KNN、聚类等)。通过鼠标的托拉拽,流程式的节点,基本上就可以实现你挖掘数据的需求。
傻瓜式操作的优点就是使得数据挖掘,入手非常快,较为简单。但是,也存在一些缺陷,即,使得这个挖掘过程变得有点单调和无趣。没办法批量运算模型,也没办法开发一些个性化的算法和应用。用的比较熟练,并且想要进一步提升的时候,建议把这两者抛弃。
(三)较为自由的挖掘工具
较为典型的就是R语言和Python。这两个挖掘工具是开源的,前者是统计学家开发的,后者是计算机学家开发的。
一方面,可以有很多成熟的、前沿的算法包调用,另外一方面,还可以根据自己的需求,对既有的算法包进行修改调整,适应自己的分析需求,较为灵活。此外,Python在文本、非结构化数据、社会网络方面的处理,功能比较强大。
(四)算法拆解和自行开发
一般会利用python、c、c++,自己重新编写算法代码。例如,通过自己的代码实现逻辑回归运算过程。甚至,根据自己的业务需求和数据特点,更改其中一些假定和条件,以便提高模型运算的拟合效果。尤其,在生产系统上,通过C编写的代码,运行速度比较快,较易部署,能够满足实时的运算需求。
一般来说,从互联网的招聘和对技能的需求来说,一般JD里面要求了前三种,这样的职位会被称为“建模分析师”。但是如果增加上了最后一条,这样的职位或许就改称为“算法工程师”。
二、模型的理解:传统的和时髦的
据理解,模型应该包括两种类型。一类是传统的较为成熟的模型,另外一类是较为时髦有趣的模型。对于后者,大家会表现出更多的兴趣,一般是代表着新技术、新方法和新思路。
(一)传统的模型
传统的模型,主要就是为了解决分类(例如决策树、神经网络、逻辑回归等)、预测(例如回归分析、时间序列等)、聚类(kmeans、系谱、密度聚类等)、关联(无序关联和有序关联)这四类问题。这些都是较为常规和经典的。
(二)时髦有趣的模型
比较有趣、前沿的模型,大概包括以下几种类型,即社会网络分析、文本分析、基于位置的服务(Location-BasedService,LBS)、数据可视化等。
它们之所以比较时髦,可能的原因是,采用比较新颖前沿的分析技术(社会网络、文本分析),非常贴近实际的应用(LBS),或者是能够带来更好的客户体验(数据可视化)。
(1)社会网络的应用
传统的模型将客户视为单一个体,忽视客户之间的关系,基于客户的特征建立模型。社会网络是基于群体的,侧重研究客户之间的关联,通过网络、中心度、联系强度、密度,得到一些非常有趣的结果。典型的应用,例如,关键客户的识别、新产品的渗透和扩散、微博的传播、风险的传染、保险或信用卡网络团伙欺诈、基于社会网络的推荐引擎开发等。
(2)文本挖掘的应用
文本作为非结构化数据,加工分析存在一定的难度,包括如何分词、如何判断多义词、如何判断词性,如何判断情绪的强烈程度。典型的应用,包括搜索引擎智能匹配、通过投诉文本判断客户情绪、通过舆情监控品牌声誉、通过涉诉文本判定企业经营风险、通过网络爬虫抓取产品评论、词云展示等。
文本和湿人。关于文本分析,最近朋友圈有篇分享,很有意思,号称可以让你瞬间变成湿人。原理很简单,就是先把《全宋词》分词,然后统计频数前100的词语。然后你可以随机凑6个数(1-100),这样就可以拼凑出两句诗。比如,随机写两组数字,(2,37,66)和(57,88,33),对应的词语为(东风、无人、黄花)和(憔悴、今夜、风月)。组成两句诗,即“东风无人黄花落,憔悴今夜风月明”。还真像那么一回事,有兴趣可以玩一玩。
(3)LBS应用
即基于位置的服务,即如何把服务和用户的地理位置结合。当下的APP应用,如果不能很好地和地理位置结合,很多时候很难有旺盛的生命力。典型的APP,例如大众点评(餐饮位置)、百度地图(位置和路径)、滴滴打车、微信位置共享、时光网(电影院位置)等服务。此外,银行其实也在研究,如何把线上客户推送到距离客户最近的网点,完成O2O的完美对接,从而带来更好的客户体验。
(4)可视化应用
基于地图的一些可视化分析,比较热门,例如,春节人口迁徙图、微信活跃地图、人流热力图、拥堵数据的可视化、社会网络扩散可视化等。
如果你想让你的分析和挖掘比较吸引眼球,请尽量往以上四个方面靠拢。
三、互联网和金融数据挖掘的差异
博士后两年,对银行领域的数据挖掘有些基本的了解和认识,但是面对浩瀚的数据领域,也只能算刚刚入门。很多时候,会很好奇互联网领域,做数据挖掘究竟是什么样的形态。
很早之前,就曾在知乎上提了个问题,“金融领域的数据挖掘和互联网中的数据挖掘,究竟有什么的差异和不同”。这个问题挂了几个月,虽有寥寥的回答,但是没有得到想要的答案。
既然没人能够提供想要的答案,那就,根据自己的理解、一些场合的碰壁、以及和一些互联网数据小伙伴的接触,试图归纳和回答下。应该有以下几个方面的差异。
(一)“分析”和“算法”
在互联网中,“分析”和“算法”,分得非常开,对应着“数据分析师”和“算法工程师”两种角色。前者更多侧重数据提取、加工、处理、运用成熟的算法包,开发模型,探索数据中的模式和规律。后者更多的是,自己写算法代码,通过C或python部署到生产系统,实时运算和应用。
在银行领域,基本上,只能看到第一种角色。数据基本上来源于仓库系统,然后运用SQL、SAS、R,提取、加工、建模和分析。
(二)数据类型
数据类型,主要包括“结构化”和“非结构化”两类数据。前者就是传统的二维表结构。一行一条记录,一列一个变量。后者包括文本、图像、音频、视频等。
银行里面的数据,更多的是结构化数据,也有少量的非结构化数据(投诉文本、贷款审批文本等)。业务部门对非结构化数据的分析需求比较少。因此,在非结构化数据的分析建模方面,稍显不足。
互联网,更多的是网络日志数据,以文本等非结构化数据为主,然后通过一定的工具将非结构化数据转变为结构化数据,进一步加工和分析。
(三)工具、存储和架构
互联网,基本上是免费导向,所以常常选择开源的工具,例如MySql、R、Python等。常常是基于hadoop的分布式数据采集、加工、存储和分析。
商业银行一般基于成熟的数据仓库,例如TD,以及一些成熟的数据挖掘工具,SASEG和EM。
(四)应用场景
在应用场景上,两者之间也存在着非常大的差异。
(1)金融领域
金融领域的数据挖掘,不同的细分行业(如银行和证券),也是存在差别的。
银行领域的统计建模。银行内的数据挖掘,较为侧重统计建模,数据分析对象主要为截面数据,一般包括客户智能(CI)、运营智能(OI)和风险智能(RI)。开发的模型以离线为主,少量模型,例如反欺诈、申请评分,对实时性的要求比较高。
证券领域的量化分析。证券行业的挖掘工作,更加侧重量化分析,分析对象更多的是时间序列数据,旨在从大盘指数、波动特点、历史数据中发现趋势和机会,进行短期的套利操作。量化分析的实时性要求也比较高,可能是离线运算模型,但是在交易系统部署后,实时运算,捕捉交易事件和交易机会。
(2)互联网
互联网的实时计算。互联网的应用场景,例如推荐引擎、搜索引擎、广告优化、文本挖掘(NLP)、反欺诈分析等,很多时候需要将模型部署在生产系统,对实时响应要求比较高,需要保证比较好的客户体验。
四、数据挖掘在金融领域的典型应用
别人常常会问,在银行里面,数据挖掘究竟是做什么的。也常常在思考如何从对方的角度回答这个问题。举几个常见的例子做个诠释。
(一)信用评分
申请评分。当你申请信用卡、消费贷款、经营贷款时,银行是否会审批通过,发放多大规模的额度?这个判断很可能就是申请评分模型运算的结果。通过模型计算你的还款能力和还款意愿,综合评定放款额度和利率水平。
行为评分。当你信用卡使用一段时间后,银行会根据你的刷卡行为和还款记录,通过行为评分模型,判断是否给你调整固定额度。
(二)个性化产品推荐
很多时候,你可能会收到银行推送的短信或者接到银行坐席的外呼,比如,向你推荐某款理财产品。这背后,很可能就是产品响应模型运算的结果。银行会通过模型,计算你购买某款理财产品的概率,如果概率比价高的话,就会向你推送这款理财产品。
此外,很多时候,不同的客户,银行会个性化的推荐不同的产品,很可能就是产品关联分析模型运算的结果。