KNN和SVM算法在中文文本自动分类技术上的比较研究.doc

上传人:laozhun 文档编号:4015437 上传时间:2023-04-01 格式:DOC 页数:13 大小:159.50KB
返回 下载 相关 举报
KNN和SVM算法在中文文本自动分类技术上的比较研究.doc_第1页
第1页 / 共13页
KNN和SVM算法在中文文本自动分类技术上的比较研究.doc_第2页
第2页 / 共13页
KNN和SVM算法在中文文本自动分类技术上的比较研究.doc_第3页
第3页 / 共13页
KNN和SVM算法在中文文本自动分类技术上的比较研究.doc_第4页
第4页 / 共13页
KNN和SVM算法在中文文本自动分类技术上的比较研究.doc_第5页
第5页 / 共13页
点击查看更多>>
资源描述

《KNN和SVM算法在中文文本自动分类技术上的比较研究.doc》由会员分享,可在线阅读,更多相关《KNN和SVM算法在中文文本自动分类技术上的比较研究.doc(13页珍藏版)》请在三一办公上搜索。

1、KNN和SVM算法在中文文本自动分类技术上的比较研究日期:2009-07-22来源: 作者:字体:大 中 小 马建斌,李谨,滕桂法,王芳,赵洋摘要:中文文本分类技术在中文信息智能处理方面具有十分重要的作用比如:中文信息检索和搜索引攀等KNN、贝叶斯、SVM等算法都可以应用到中文文本分类技术上,本研究分析和比较了KNN和SVM两种分类算法,并通过实验比较这两种算法对中文文本分类技术的效果。结果表明:SVM算法较优,是一种较好的中文文本分类算法。ThecomParisonstudiesonthealgorithmofKNNandSVMforchinesetextClassificationAbtr

2、aet:Chinesetextelassifieation15importantforehineseintelligentinformationmanagement,suehasehineseinformationretrievaland rehengine.AIOtofalgorithmseanbeusedforChinese textelassifieation,suehasKNN,BayesandSVMete.ThePaperhasanalyzedandcomparedtheKNNandSVMalgorithm.AndtheeffectofthetwoagorithmsonChinese

3、textelassifieationwasgotbytheexperiments.TheresultsindieatedthattheSVMalgorithmwasbetterthantheKNNalgorithm,whiehprovedthattheSVMalgorithmwasoneexcellentehinesetextelassifieation algorithm.Keywords:Chinesetextelassifieation;KNN;SVM随着计算机技术、信息技术的发展,尤其是互联网的日益普及,以半结构化或完全非结构化为主的电子信息呈几何级数增长,当前,仅google搜索引攀

4、搜索的网页就达40多亿。如此海量的信息,为网络用户的工作和生活带来了极大的便利,但是如何从海量的信息中快速、准确地找到用户感兴趣的内容成为一个需要迫切解决的问题。基于内容的信息检索和数据挖掘逐渐成为备受关注的领域。其中,文本分类技术是信息检索和文本挖掘的重要基础,其主要任务是在预先给定的类别标记(label)集合下,根据文本内容判定它的类别。文本分类在自然语言处理与理解、信息组织与管理、内容信息过滤等领域都有粉广泛的应用。20世纪90年代以前,占主导地位的文本分类方法一直是基于知识工程的分类方法,即由专业人员手工进行分类。人工分类非常费时,效率过低.20世纪90年代以来,众多的统计方法和机器学

5、习方法应用于自动文本分类,文本分类技术的研究引起了研究人员的极大兴趣。目前英文自动分类已经取得了丰硕的成果,提出了多种成熟的分类方法,如最近邻分类(Knearestneighbor,KNN)、贝叶斯分类川、决策树以及支持向量机(Sup因rtveetormaehine,svM),、向量空间模型(vesto:spaeemedel,vSM)、回归模型和神经网络川等方法,但对于中文文本的自动分类技术研究尚不尽人意。目前国内中文文本分类研究主要集中在朴素贝叶斯、KNN、向量空间模型和支持向量机等技术上。本研究分析和比较KNN和SVM这两种机器学习算法在中文文本自动分类技术上的应用,并通过实验比较这两种分

6、类算法的效果。1中文文本分类技术自动文本分类也就是在已有数据的基础上学会一个分类函数或分类模型,即所谓的分类器(Classifier)。为文档集合中的每个文档确定一个类别。现在主流的文本分类方法是基于机器学习的方法,此方法首先使用训练样本进行特征选择和分类器训练,然后把特征形式化待分类样本输人到分类器进行类别判定,最终得到输人样本的类别。基于机器学习的自动文本分类方法的基本过程包括文本的特征表示、特征提取、特征选择、文本分类等过程。1.1文本特征衰示和特征提取用简单而准确的方法将文档表示成计算机能够处理的形式是进行文本分类的基础,它是对从文本中抽取出的特征项进行量化,以一定的特征项表示目标信息

7、。最经典文本形式化表示方法是20世纪60年代Salton等人提出的向量空间模型(VSM)。向量空间模型的基本思想把文档简化为以项的权重为分量的向量表示:(w,w:,w3w,),其中w为第i个特征项的权重,一般选取词作为特征项。向量用词频表示。词频分为绝对词频和相对词频:绝对词频,即词在文本中出现的频率,相对词频为归一化的词频,其计算方法主要运用TF一IDF公式:1.2特征选择由于一个训练文档集中的候选特征项通常很多,可高达几十万个,不同特征项对于文档的重要性和区分度是不同的。去除区分度较小的噪音特征项可以提高分类准确率,去除重要性较低的低频特征项可以加快运行速度。因此,在分类之前,对特征项进行

8、特征选择是必要的,常见的特征选择方法有文档频次、互信息、信息增益、才统计里等。CarnegleMellonUniversity的Yiming对这些方法进行了比较。1.3特征匹配与分类特征匹配是利用特征项评价未知文档与用户目标的相关度,找到最大匹配文档。文本转换为向t形式并经特征提取后,便可以进行分类挖掘,即模式匹配。基于机器学习的文本分类问题分为训练和分类两个阶段,方法是利用机器学习算法进行自动文本分类。当前用于文本分类的主要机器学习算法有:贝叶斯方法、决策树、神经网络、KNN、支持向t机等。2KNN和SVM算法原理21KNN算法该算法的基本思路是:在给定新文本后考虑在训练文本集中与该新文本距

9、离最近的K篇文本,根据这K篇文本所属的类别判定新文本所属的类别,具体的算法步骤如下:STEPI:根据特征项集合重新描述训练文本向量;STE刃:在新文本到达后,根据特征词分词新文本,确定新文本的向量表示;STEP3:在训练文本集中选出与新文本最相似的K个文本,计算公式为:i表示第i篇档的特征向量j表示第j篇文档的特征向量,M为特征向量的维数,sim(d,峨)表示第i和j篇文档的相似度,讯为向量的第k维。STEP4:在新文本的K个邻居中,依次计算每类的权重,计算公式如下:其中,牙为新文本的特征向量,sim(,)为相似度计算公式,而到,c为类别属性函数,如果属于cj类,那么函数值为1,否则为0。sT

10、EPS:比较类的权重,将文本分到权重最大的那个类别中。KNN算法简单,且分类准确率较高,但是,由于KNN算法需要将所有样本首先存储起来,进行分类时就临时进行分词,降维等计算处理,因此,当训练样本或者测试样本数目迅速增加时,就会导致计算量迅速增加,速度较慢。. 2.2SVM算法支持向量机(SVM)是由vaPnik等人根据统计学习理论导出的结构风险最小化原则基础上的机器学习算法。其主要思想是针对2类分类问题,在高维空间中寻找一个超平面作为2类的分割,以保证最小的分类错误率。SVM是从线性可分情况下的最优分类面发展而来的,基本思想可见图1。分割线1和分割线2都能正确地将2类样本分开,这样的分割线有无

11、线多条,但分割线1使2类样本的间隙最大,称之为最优分类线(更高维即为最优分类面或最优超平面)。设线性可分训练集(x,y:),(x,yt),x1Rn, y1-1,1l为样数。n维空间中线性判别函数的一般形式为g(x)二wx+b,分类面的方程为wx+b二0。将判别函数归一化,等比例调节w和b,使两类所有样本都满足!g(x)1,这样,分类间隔就等于2/|w类样本的间隔最大变为求日|w|其中满足g(x)=1的样本点离分类线(平面)最近,它们决定了最优分类线(平面),称之为支持向量。可见,求最优分类面的问题转化为优化问题:满足约束条件:本优化问题可以转化为:满足约束条件:通过求解,可得最优分类函数为:其

12、中,N,为支持向量个数 对于线性不可分问题,vapnik引入了核空间理论:将低维的输人空间数据通过非线性映射函数映射到高维属性空间。上面介绍的是二值分类器,基于SVM的多值分类器的构造可以通过组合多个二值分类器来实现,具体的构造方法有一对一和一对多两种。3 kmN和SVM算法对中文文本分类实验结果3.1方法在一个具有2846篇中文文本语料库上测试KNN和SVM这两种分类算法,并对其效率和结果进行比较分析。语料库的文本都是新华社的新闻稿,所有这些新闻稿都由领域专家事先进行分类,一共有十类,包括:环境、交通、计算机、教育、经济、军事、体育、医药、艺术、政治,其中,每一类中的2/3用作训练集,剩下的

13、1/3用作测试集,抽取1000个词语作为特征项。本文采用文本分类研究普遍接受的评估指标来评价文本分类的性能,即准确率(Precision)、查全率(Reeall)和FI测试值。3.2结果通过上述的实验方法试验KNN和SVMZ种算法的实验结果,假设特征选择采用信息增益方法,其分类结果如表1所示。可以看出,SVM算法比KNN算法的文本分类结果好的多,表明SVM是一种比较好的文本分类算法。为了比较几种特征选择方法的效果,比较了3种特征选择方法,用KNN算法进行了试验,结果如表2所示。从表2可以看出,3种特征选择方法对最终的分类结果相差不大,但是统计量特征选择方法稍微好些。4结论本研究分析和比较了KN

14、N和SVM两种分类算法,并在2846篇中文文本语料库上比较KNN和SVM这两种分类算法对中文文本分类的效果KNN,算法的F,测试值为87.8%,而SVM的F,测试值为95.3%,结果表明svM算法比KNN算法的文本分类结果好,证明SVM是一种较好的中文文本分类算法。另外,比较了信息增益、互信息和统计量3种特征选择方法对中文文本分类的效果,结果表明统计量特征选择方法稍微好些。参考文献:lMiguelERuiz,padminiSrinivasan.Hierarchiealneural networksfortextcategorlzation C/proceedin of SIGIR一99:22n

15、dACMIntemationalCbnfereneeon ResearehandDevel mentinInformationRetrieval,NewYork:ACMPress,1999:281一282.2AlfonsJuan,HermannNey.ReversingandSmoothing theMultinomialNaiveBa TextClassifierCl/InZnd IntemationalWorkshoPonPatternrecogmtionin informationsystems,Germany:sPringer,2002:200一212.3 TJoaehims.Text

16、eategorizationwithsup tvector maehines:LearningwithmanyrelevantfeaturesCl/InProceedin oftheEuropeanCbnfereneeonMaehineLearning,Germany:SPri4庞剑锋,卜东波,白硕.基于向量空间模型的文本自动分类系统的研究与实现【J.计算机应用研究,2001,18(9):23一26.【5都云琪,肖诗斌.基于支持向量机的中文文本自动分类研究J.计算机工程,2002,28(11):137一138.6YimingYang,Jan0Pedersen.ACbmparativeStudy

17、onFeatureSelectioninTextCategodzationG/In14thInternationalConfereneeonMaehineLearning(ICML),SanFraneisco:MorganKaufmannPubishers,1997:21一29.7eCbrtes,vvapnik.sup卯rtvectornetworksJ.MaehineLearning,1995,20,273一297.毕业论文答辩开场白尊敬的主持人、评委老师:早上好,我是09春行政管理本科的学生xxx。我的毕业论文题目是论我国城市公共物品及其供给,指导老师是xxx老师。我的论文从确定题目、拟定

18、提纲到完成初稿、二稿、三稿到最后的定稿,得到了x老师的精心指导,使我很快掌握了论文的写作方法,并在较短的时间内完成了论文的写作。不论今天答辩的结果如何,我都会由衷的感谢指导老师的辛勤劳动,感谢各位评委老师的批评指正。首先,我想谈谈这个毕业论文设计的目的及意义。随着全球经济一体化的突飞猛进,国家之间的经济界限渐趋模糊,但却使国家次级的经济形式城市经济的重要性日渐突出起来,城市之间的竞争正成为国家之间竞争的重要依托。世界各国(地区)政府都正积极致力于培育和提高城市竞争力,而城市公共物品的供给则是推动城市竞争力提高的重要因素,城市公共物品的供给理所当然地受到了各国(地区)政府的高度重视。在二十一世纪

19、的今天,城市化不仅是我国经济增长的一个支撑点,也是增进国民福利的重要手段,若处理不当则会成为我国经济持续高速发展的障碍。未来10几年,中国城市化将进入从40%发展到70%的国际公认的加速发展时期。随着中国城市化进程的日益加快,如何在新的形势下,实现城市公共物品有效地供给以满足城市发展的需要,成为我们当前急需解决的重大问题。为此,研究我国城市公共物品的问题,具有十分重要的理论和现实意义。于是最终将论文题目定为论我国城市公共物品及其供给。其次,说说文章的具体结构。论文阐述了城市公共物品的定义及特点,分析了我国城市公共物品供给不足的现状及城市公共物品供给方式,着重探讨目前提高我国城市公共物品供给的方

20、法:树立“公共财政”观念,转变政府职能 ;加快投资融资体制的改革,加大对城市公共物品的投资 ;改进政府对公共物品生产的管制方法 ;发挥市场与社会的力量,形成供给主体多元化格局等。只有切实做好对城市公共物品的供给,才能使公共物品满足城市公众的需要,更有效地为社会和民众服务。唯有如此,和谐社会的建设才会事半功倍。我想谈谈这篇论文存在的不足:限于各种条件的制约,使得本论文对城市公共物品的供给方式探索不够深入,还需要继续进行思考和探索。最后,再次感谢x老师在我的毕业论文写作过程中所给与的悉心帮助与指导;其次我要感谢各位专业老师在这两年来我的教育与培养,使我初步掌握了行政管理专业的基本知识,还要感谢本专

21、业同学对我的关心与支持,和你们生活在一起的日子很快乐!也很难忘!恳请各位老师、同学们进行批评指正。谢谢大家!我的大学爱情观目录:一、 大学概念二、 分析爱情健康观三、 爱情观要三思四、 大学需要对爱情要认识和理解五、 总结1、什么是大学爱情:大学是一个相对宽松,时间自由,自己支配的环境,也正因为这样,培植爱情之花最肥沃的土地。大学生恋爱一直是大学校园的热门话题,恋爱和学业也就自然成为了大学生在校期间面对的两个主要问题。恋爱关系处理得好、正确,健康,可以成为学习和事业的催化剂,使人学习努力、成绩上升;恋爱关系处理的不当,不健康,可能分散精力、浪费时间、情绪波动、成绩下降。因此,大学生的恋爱观必须

22、树立在健康之上,并且树立正确的恋爱观是十分有必要的。因此我从下面几方面谈谈自己的对大学爱情观。2、什么是健康的爱情:1) 尊重对方,不显示对爱情的占有欲,不把爱情放第一位,不痴情过分;2) 理解对方,互相关心,互相支持,互相鼓励,并以对方的幸福为自己的满足; 3) 是彼此独立的前提下结合;3、什么是不健康的爱情:1)盲目的约会,忽视了学业;2)过于痴情,一味地要求对方表露爱的情怀,这种爱情常有病态的夸张;3)缺乏体贴怜爱之心,只表现自己强烈的占有欲;4)偏重于外表的追求;4、大学生处理两人的在爱情观需要三思:1. 不影响学习:大学恋爱可以说是一种必要的经历,学习是大学的基本和主要任务,这两者之

23、间有错综复杂的关系,有的学生因为爱情,过分的忽视了学习,把感情放在第一位;学习的时候就认真的去学,不要去想爱情中的事,谈恋爱的时候用心去谈,也可以交流下学习,互相鼓励,共同进步。2. 有足够的精力:大学生活,说忙也会很忙,但说轻松也是相对会轻松的!大学生恋爱必须合理安排自身的精力,忙于学习的同时不能因为感情的事情分心,不能在学习期间,放弃学习而去谈感情,把握合理的精力,分配好学习和感情。3、 有合理的时间;大学时间可以分为学习和生活时间,合理把握好学习时间和生活时间的“度”很重要;学习的时候,不能分配学习时间去安排两人的在一起的事情,应该以学习为第一;生活时间,两人可以相互谈谈恋爱,用心去谈,

24、也可以交流下学习,互相鼓励,共同进步。5、大学生对爱情需要认识与理解,主要涉及到以下几个方面:(一) 明确学生的主要任务“放弃时间的人,时间也会放弃他。”大学时代是吸纳知识、增长才干的时期。作为当代大学生,要认识到现在的任务是学习学习做人、学习知识、学习为人民服务的本领。在校大学生要集中精力,投入到学习和社会实践中,而不是因把过多的精力、时间用于谈情说爱浪费宝贵的青春年华。因此,明确自己的目标,规划自己的学习道路,合理分配好学习和恋爱的地位。(二) 树林正确的恋爱观提倡志同道合、有默契、相互喜欢的爱情:在恋人的选择上最重要的条件应该是志同道合,思想品德、事业理想和生活情趣等大体一致。摆正爱情与

25、学习、事业的关系:大学生应该把学习、事业放在首位,摆正爱情与学习、事业的关系,不能把宝贵的大学时间,锻炼自身的时间都用于谈情说有爱而放松了学习。 相互理解、相互信任,是一份责任和奉献。爱情是奉献而不时索取,是拥有而不是占有。身边的人与事时刻为我们敲响警钟,不再让悲剧重演。生命只有一次,不会重来,大学生一定要树立正确的爱情观。(三) 发展健康的恋爱行为 在当今大学校园,情侣成双入对已司空见惯。抑制大学生恋爱是不实际的,大学生一定要发展健康的恋爱行为。与恋人多谈谈学习与工作,把恋爱行为限制在社会规范内,不致越轨,要使爱情沿着健康的道路发展。正如马克思所说:“在我看来,真正的爱情是表现在恋人对他的偶

26、像采取含蓄、谦恭甚至羞涩的态度,而绝不是表现在随意流露热情和过早的亲昵。”(四) 爱情不是一件跟风的事儿。很多大学生的爱情实际上是跟风的结果,是看到别人有了爱情,看到别人幸福的样子(注意,只是看上去很美),产生了羊群心理,也就花了大把的时间和精力去寻找爱情(五) 距离才是保持爱情之花常开不败的法宝。爱情到底需要花多少时间,这是一个很大的问题。有的大学生爱情失败,不是因为男女双方在一起的时间太少,而是因为他们在一起的时间太多。相反,很多大学生恋爱成功,不是因为男女双方在一起的时间太少,而是因为他们准确地把握了在一起的时间的多少程度。(六) 爱情不是自我封闭的二人世界。很多人过分的活在两人世界,对

27、身边的同学,身边好友渐渐的失去联系,失去了对话,生活中只有彼此两人;班级活动也不参加,社外活动也不参加,每天除了对方还是对方,这样不利于大学生健康发展,不仅影响学习,影响了自身交际和合作能力。总结:男女之间面对恋爱,首先要摆正好自己的心态,树立自尊、自爱、自强、自重应有的品格,千万不要盲目地追求爱,也不宜过急追求爱,要分清自己的条件是否成熟。要树立正确的恋爱观,明确大学的目的,以学习为第一;规划好大学计划,在不影响学习的条件下,要对恋爱认真,专一,相互鼓励,相互学习,共同进步;认真对待恋爱观,做健康的恋爱;总之,我们大学生要树立正确的恋爱观念,让大学的爱情成为青春记忆里最美的风景,而不是终身的遗憾!

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 办公文档 > 其他范文


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号