《人工智能的文本分类方法简述.docx》由会员分享,可在线阅读,更多相关《人工智能的文本分类方法简述.docx(7页珍藏版)》请在三一办公上搜索。
1、人工智能的文本分类方法简述摘要:本文阐述了一些基本的文本分类的方法,以及一些改进的文本文类的方法,并包含了一些文本分类的实际应用。其中着重阐述了贝叶斯分类以及一些其他的的文本分类方法。最后提出了现在文本分类方法中存在的一些问题。关键词:文本分类;贝叶斯方法;数据挖掘;分类算法。0 引言文本分类是指在给定分类体系下 , 根据文本内容 (自动) 确定文本类别的过程。20世纪90年代以前 ,占主导地位的文本分类方法一直是基于知识工程的分类方法 , 即由专业人员手工进行分类。目前在国内也已经开始对中文文本分类方法进行研究 , 相比于英文文本分类 , 中文文本分类的一个重要的差别在于预处理阶段: 中文文
2、本的读取需要分词 , 不像英文文本的单词那样有空格来区分。从简单的查词典的方法 , 到后来的基于统计语言模型的分词方法 , 中文分词的技术已趋于成熟。并在信息检索、Web文档自动分类、数字图书馆、自动文摘、分类新闻组、文本过滤、单词语义辨析以及文档的组织和管理等多个领域得到了初步的应用。人工智能的基本方法就是对人类智能活动的仿真。小样本数据可以看作是一种先验知识不完全的数据集。人类在处理类似的决策问题时,通常采用的策略为: 1,利用多专家决策来提高决策的可信度; 2,专家的决策技能在决策的过程中可以得到不断的增强,即专家具有学习功能; 3,在专家的技能得到增强的基础上,再进行决策可以提高决策的
3、正确性。这种方法同样适用于小样本数据的分类识别。通过对上述方法的仿真,本文提出了智能分类器,它不仅可以对未知样本进行分类,同时它还具有多专家决策、 预分类和学习功能。1 分类的基本概念分类就是根据数据集的特点找出类别的概念描述, 这个概念描述代表了这类数据的整体信息,也就是该类的内涵描述,并使用这种类的描述对未来的测试数据进行分类。分类的过程一般分为两个步骤:第一步, 通过已知数据集建立概念描述模型; 第二步, 就是利用所获得的模型进行分类操作。对各种分类方法的评估可以根据以下几条标准进行: 1)预测准确率,指模型能够正确预测未知数据类别的能力; 2)速度,指构造和使用模型时的计算效率; 3)
4、 鲁棒性,指在数据带有噪声或有数据遗失的情况下,模型仍能进行正确预测的能力; 4) 可扩展性, 指对处理大量数据并构造相应有效模型的能力; 5) 易理解性, 指所获模型提供的可理解程度。2 常用的分类算法 2.1基于决策树的分类所谓决策树就是一个类似流程图的树型结构,其中树的每个节点对应一个非类别属性,每条边对应这个属性的每种可能值,而树的每个叶结点代表一个类别( 如图 1)。生成决策树的一个著名的算法是 Quinlan 提出的 ID3算法, ID3 算法从树的根节点处的所有训练样本开始, 选取一个属性来区分这些样本, 属性的每一个值产生一个分支。将分支属性值的相应样本子集移到新生成的子节点上
5、。这个算法递归地应用于每个子节点, 直到一个节点上的所有样本都分区到某个类中。属性选择采用信息增益的方法来确定。选择具有最高信息增益( 熵减少的程度最大) 的属性作为当前结点的测试属性, 这样保证所产生的决策树最为简单,工作量最小。设 S 为一个包含了 S 个数据样本的集合,且类别属性可以取 m 个不同的值 C 1, C 2, Cm 。假设 Si 为类别Ci 中的样本个数; 则对一个给定数据对象进行分类所需要的信息量为:其中 p i= s i/ s。设一个属性 A 取 v 个不同的值 a1 , a2, av , 利用属性 A 将S 划分为 v 个子集 S 1, S 2 , Sv , 设 S i
6、 j 为子集 Sj中属于Ci 类别的样本数。那么利用属性 A 划分当前样本集合所需要的信息(熵)可以按如下公式计算:这样利用属性 A 对当前分支结点进行相应样本集合划分所获得的信息增益就是:通过以上公式计算每个属性的信息增益。选择具有最高信息增益的属性作为给定集合 S 的测试属性, 创建一个节点,并以该属性标记, 对属性的每个值创建分支,进行样本划分。ID3 算法在选择属性时利用了信息增益的概念,算法的基础理论清晰;决策树的每个分支都对应一个分类规则, 因此产生的分类规则易于理解;同时, 分类速度较快,准确率较高。但是 ID3 算法也存在着许多不足: 1) 不能够处理连续值属性; 2) 计算信
7、息增益时偏向于选择取值较多的属性; 3)对噪声较为敏感; 4) 在构造树的过程中, 需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效; 5) 只适合于能够驻留于内存的数据集使用,当训练集大得无法在内存容纳时程序无法运行。ID3 的改进算法有 C4. 5, C4. 5 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择属性值多的属性的不足。此外,在树构造过程中或构造完成后进行剪枝, 提高了抗噪声能力;能够对连续值属性进行离散化处理; 能够对不完整数据进行处理。常用的决策树算法还有 SLIQ 算法。SLIQ 算法对 C4. 5分类算法的实现方法进行了改进,在决策树的构造过程中采用了
8、预排序与广度优先增长策略,使得该算法能够处理更大的训练集,因此在一定程度上具有良好的随记录个数和属性个数增长的可扩展性。但是它仍然存在着一些不足; 1) 由于需要将类别列表存放于内存,在一定程度上限制了可以处理的数据集的大小; 2) 由于采用了预排序技术, 而排序算法的复杂度本身并不是与记录个数成线性关系, 因此使得SLIQ 算法不可能达到随记数目增长的线性可扩展性。2.2 贝叶斯分类贝叶斯分类是统计学分类在方法,它可以预测一个给定样本属于某一类别的概率。贝叶斯分类是基于贝叶斯定理而构造出来的。基本贝叶斯分类( Naive Bayes) 首先假设一个属性值对给定类的影响独立于其它属性的值, 即
9、类条件独立, 它可以帮助有效减少在构造贝叶斯分类器时所需要的计算量。基本贝叶斯分类的工作过程如下:给定一个没有类标号的数据样本 X ,用 X = x 1, x 2 ,x n表示,分别描述 X 在 n 个属性 A 1 , A 2 , An 上的属性值。设有 m 个类 C1 , C2 , Cm ,那么, 将样本 X 分配给类Ci 的条件就是:根据贝叶斯定理:其中, P ( X )对于所有类来说为常数, P ( Ci) = si/ s。假定各属性值相互条件独立(类条件独立) , 这样 P ( X | Ci )的计算可使用公式:概率 P( x k | Ci)可以由训练样本估算: 1) 如果 Ak 是分
10、类属性, 则 P ( x k | Ci) = s ik / si。2) 如果 Ak 是连续值属性,则通常假定该属性服从高斯分布, 用高斯密度的数计算。因而, 对未知样本 X 分类,样本 X 被分类到类 Ci,而且仅当基本贝叶斯分类假定类条件独立, 简化了计算。当假定成立时, 与其它分类算法相比,基本贝叶斯分类是最精确的。但实际上变量间的相互依赖情况是较为常见的。为解决这个问题, 可使用贝叶斯信念网络描述这种相互关联的概率分布。该网络能够描述各属性子集之间有条件的相互独立, 它提供了一个图形模型来描述其中的因果关系。贝叶斯分类在处理大规模数据库时, 表现出了较高的分类准确性和运算性能。它还可为其
11、它分类算法提供理论判定。但是, 该算法没有直接的分类规则输出。2.3 神经网络神经网络就是一组相互连接的输入输出单元( 又称神经元) , 单元之间的每个连接都与一个权重相关联。在网络学习阶段, 网络通过调整权重来实现输入样本与其相应类别的对应。神经网络训练完毕后, 只要把数据输入到已训练好的神经网络输入端, 就可以从输出端直接得到分类结果。神经网络分类过程可以分为训练和分类两个阶段。在训练阶段,首先定义网络的拓扑结构, 再对训练样本中的每个属性的值进行规范化预处理, 然后用神经网络对已预处理的输入进行学习。训练完毕后, 用训练好的神经网络对标识样本进行分类。目前的神经网络模型很多, 而反向传播
12、模型( BP模型)是使用最多的典型神经网络。反向传播算法在多层前馈神经网络上学习, 如图 2。其中的输入对应每个训练样本的各个属性取值; 输入赋给输入层单元,这些单元的输出结合相应的权重馈给第二层( 隐藏层) 单元;隐藏层的带权输出又作为输入再馈给另一隐层等等,最后的隐层结点带权输出馈给输出层单元, 输出层单元最终给出相应样本的预测输出。神经网络法的优点是有较强的抗噪能力,对未经训练的数据也具有较好的预测分类能力。神经网络的主要缺点是它的知识表示问题,也就是说用加权链连结单元的网络所表示的知识很难被人理解。此外, 神经网络法的学习时间较长,仅适用于时间容许的应用场合; 对于如网络结构等关键参数
13、,通常需要经验方能有效确定。 3 智能文本处理策略由于文本本身的复杂性、不规律性的特征 ,文本自动分类系统是一个涉及多方面综合的系统 ,想获得 良好的文本分类效果 ,不仅仅是单纯的分类处理算法的问题 ,必须运用多种手段加以解决 ,特别是文档分类系统作为一个有指导的学习系统,与其它控制系统具有类似的特性 ,可以借鉴其它的智能控制技术加以解决。为此 ,根据文本自动分类处理的特点,我们给出一种文本分类系统的多策略智能解决方案,从影响分类处理的几个主要环节入手 ,来优化处理分类系统的流程 ,从而从效果上大大提高分类处理效果 ,为文本分类处理提供综合的解决方法。处理上主要从以下几方面对分类系统进行了改善
14、 训练 文档 的优化 从整个系统的入口环节入手 ,对系统进行学习的样本进行控制 ,提高学习样本的质量 ,从而为分类模型的建立提供较好的保证。分类模型的运用 策略 从具体分类模式的运用上 ,进一步增强系统的分类效果 。分类 系统 的反债 学习 实现系统在使用过程中不断的自我学习 、自我完善 ,从而达到其分类性能不断提高的目的。模糊分类处理 提高分类处理的智能化 ,使分类处理结果更能反应文本类别的真实特征 ,从而达到减小误分类、提高分类精度的目的。3.1 多模型处理技术对于信息分类技术的研究,长期以来形成了各种各样的方法 ,如 Rule-based、Naive Bayesian、kNN、Decis
15、ion Tree、SVM、Boosting 等,不同的方法都有各自不同的特点,是从不同的方面实现了对分类问题的描述,并且,一些简单的分类方法往往也可以达到一个较好的效果就目前的研究来看,SMV方法作为性能较好的分类处理方法,比其它的分类方法具有一定的优越性。但从实验结果表明 ,其分类性能比传统的简单的分类方法 ,如kNN也并没有一个太大的提高 ,这是由我们所提到的文本本身的复杂性所决定的同时,采用Boosting方法的试验结果表明其也可取得较好的分类效果,Boosting的主要思想用一些弱的分类规则实现较高分类效果的目的。因此 ,针对这种情况 ,在具体处理时 ,我们可以将几种不同的方法结合起来
16、进行处理 ,如将支持向量机方法与基于规则的方法相结合等 ,使各种分类方法取长补短 ,互相补充 ,即几个不同分类器的结合 ,其整体分类性能将高于任何一个 ,从而提高分类的精度与效率。3.2 模糊分类处理技术模糊性是客观事物的本质特性。在分类处理中 ,对于待分类的文本 ,都是在某种程度上属于某一个类别 ,而并非是绝对二值逻辑。在我们根据具体的分类模型进行分类处理时 ,我们得到的往往也是待分类文档属于各个类别的数值信息 ,在一般情况下往往是根据最大的结果数值来判定系统的分类结果 ,这将会丢失大量的信息,造成大量的误分类情况。而模糊处理技术正是根据事物本身模糊性的特征 ,在处理过程中根据模糊规则进行处
17、理 ,从而更能真实地反映事物的本来面 目因此 ,为提高分类的智能性、准确性 ,在进行分类处理时 ,可以运用模糊处理技术 ,对分类结果进行模糊规则处理 ,即先对分类模型的分类结果进行模糊化处理 ,将具体的数值量转换成模糊变量 ,然后根据具体情况制定相应的分类处理规则 ,实现模糊推理。运用模糊分类处理 ,也可以很好地处理文本分类中的兼类、拒类等情形 。当只有属于某一个类别的可信度为高时 ,则该类别为其所对应分类 当同时对应于两个或多个类别的可信度都高时 ,则该文档可同时被分为多个类 ,即是兼类 而当文档所对应的所有分类的可信度皆为低时 ,则为拒类 从而使分类处理具有了专家分类处理时的智能性 ,当然
18、也就更能准确地反应文本本身所具有的实际类别特征。4 改进的贝叶斯分类在文本分类中的应用关键的一个技术是特征提取。文本分类中特征提取的步骤包括: 词语切分, 词频统计, 加权计算和特征选择(二者通常结合在一起进行)。在文本分类中有很多权重计算和特征选择的公式, 如信息增益、 期望交叉嫡、 文本证据权、 zx统计量等, 其中最著名的是 TFIDF公式.那么, 权重计算和特征选择的公式究竟哪个为优呢? 其实在这些公式中, 关键在于特征选择时的倾向: 高频词或稀有词, 也就是公式中的 P(w)因子起很大作用。 因此, 在特征选择时, 理想的做法应该是充分考虑 P(w)因子的作用, 最好能兼顾到高权高频
19、词和低频高权词。有学者对 TF*F 和 TF*IWF*IWFF 公式进行了分析并作了一些改进, 认为关键词在某类的权重受 3 个因素的影响: 该词在当前类中的出现频率; 该词在总语料中的出现频率; 该词在不同类别之间出现频率的差异。最终得到关键词在类中的权重计算公式:其中, Lj是类 cj含有的所有词的次数之和, Tij是词 i 在类 cj出现的次数;,其中 m为类别数; N(wi)表示训练语料中出现词 wi的次数, N是训练语料中所有词出现次数之和; n1。类别区别度用来表示某一个词语对于文本分类的贡献程度, 即词语的领域区别程度。直观地看, 如果一个词语在每一类中都比较均匀地出现, 那么它
20、对于分类的贡献几乎为零, 类别区别度很低;如果某一词语只在某一类中出现, 那么它对于分类的贡献很高,有的几乎可以一词定类, 类别区别度也就很高了。比如, 虚词“ 的、 我、 在” 的类别区别度很低, 而“ 魔兽争霸、 重仓股、 手机操作系统”这样的词语其类别区别度就很高。5 文本分类方法研究存在的问题分词是影响文本分类的重要因素之一 , 分词的速度和准确率与最终的分类结果密切相关。尤其是Web上不断出现新词汇 , 对分词理论的创新和词典的构造都提出了较高的要求。 由于中文文本分类起步晚和中文不同于英文的特性 , 目前中文 Web 文本分类还没有标准的开放的文本测试集 , 各研究者大多使用自己建
21、立的文本集进行训练和测试 , 其分类结果没有可比性 , 不利于交流和提高。 将自然语言理解和处理技术、语义 Web 概念、Agent 技术和机器翻译等技术应用于 Web 文本分类中 , 进一步解决中文文本分类的难点 , 提高文本分类的智能化水平。 目前存在多种成熟的文本分类算法 , 大部分分类系统都是应用某一种分类算法 , 分类性能受到制约。6 结束语信息技术的发展,使得文本自动分类技术的应用日渐迫切,而文本本身的复杂性,使得文本分类处理不是一个简单的过程,需要通过综合的策略加以解决。本文从分类系统的特点出发,针对分类处理的多个环节,给出了综合的智能解决方案,通过该方法的实施,为进一步提高分类
22、系统的效果,提高分类系统的实际应用性能提供了有效的途径。参考文献:1 钟代军 浅析Bayes ian 分类的应用 电脑知识与应用 2008 1024-10252 张海笑 徐小明 数据挖掘中分类方法的研究 山西电子技术 2005(2)3 杨 晔 网上教学资源挖掘与文本自动分类系统 广东商学院 2005(2)4 王卫东 郑宇杰 杨静宇 智能分类器方法 江苏科技大学学报 2007(1)5 蒲筱哥 自动文本分类方法研究述评 情报科学 2008(3)6 孙晋文 肖建国 自动文本分类中的智能处理技术 计算机科学 2003(8)7 张小峰,邹海林,贾世祥,张利锋 最优约简在分类问题中的应用 计算机工程与应用 2009(15)8 谷文祥 李丽 李丹丹 规划识别的研究及其应用 东北师范大学 2007(2)9 王利民 李雄飞 张海龙 基于广义信息论的贝叶斯分类器动态建模 吉林大学报 2009(3)10 李文静 浅谈数据挖掘中的分类算法 信息技术 2007(3)