信息检索课件精简版文本分类.ppt

上传人:牧羊曲112 文档编号:5230049 上传时间:2023-06-16 格式:PPT 页数:12 大小:334.97KB
返回 下载 相关 举报
信息检索课件精简版文本分类.ppt_第1页
第1页 / 共12页
信息检索课件精简版文本分类.ppt_第2页
第2页 / 共12页
信息检索课件精简版文本分类.ppt_第3页
第3页 / 共12页
信息检索课件精简版文本分类.ppt_第4页
第4页 / 共12页
信息检索课件精简版文本分类.ppt_第5页
第5页 / 共12页
点击查看更多>>
资源描述

《信息检索课件精简版文本分类.ppt》由会员分享,可在线阅读,更多相关《信息检索课件精简版文本分类.ppt(12页珍藏版)》请在三一办公上搜索。

1、文本分类,给定分类体系,将文本分到某个或者某几个类别中。分类体系一般人工构造政治、体育、军事中美关系、恐怖事件这里讲的分类主要基于内容其他分类:文体、态度、风格人工方法费时费力费钱难以保证一致性专家有时候凭空想象自动方法快速一致性好来源于真实文本,可信度高,自动文本分类的核心问题,文本分类与其它分类一样,其方法可以归结为根据待分类数据的某些特征来进行匹配当然完全的匹配不太可能必须根据某种评价标准选择最优的匹配结果核心问题用哪些特征表示文本才能准确、快速地分类对特征的选择主导了不同的文本分分类方法流派词匹配法、知识工程方法、统计学习法,词匹配法,词匹配法是最早被提出的分类算法该方法仅根据文档中是

2、否出现了与类名相同的词来判断文档是否属于某个类别至多再加入同义词的处理很显然,这种过于简单机械的方法无法带来良好的分类效果。,知识工程方法,后来兴起过一段时间的知识工程的方法借助于专业人员的帮助,为每个类别定义大量的推理规则,如果一篇文档能满足这些推理规则,则可以判定属于该类别。这 里与特定规则的匹配程度成为了文本的特征。由于在系统中加入了人为判断的因素,准确度比词匹配法大为提高。,知识工程方法的缺陷,分类的质量严重 依赖于这些规则的好坏,也就是依赖于制定规则的“人”的好坏制定规则的人都是专家级别,人力成本大幅上升常常令人难以承受而知识工程最致命的弱 点是完全不具备可推广性一个针对金融领域构建

3、的分类系统,如果要扩充到医疗或社会保险等相关领域,则除了完全推倒重来以外没有其他办法,常常造成巨大的 知识和资金浪费。,统计学习法,后来人们意识到,究竟依据什么特征来判断文本应当隶属的类别这个问题,就连人类自己都不太回答得清楚有太多所谓“只可意会,不能言传”的东西在里面人类的判断大多依据经验以及直觉因此自然而然的会有人想到何让机器像人类一样自己来通过对大量同类文档的观察来自己总结经验,作为今后分类的依据。这便是统计学习方法的基本思想,统计学习法,需要一批由人工进行了准确分类的文档作为学习的材料(称为训练集)注意由人分类一批文档比从这些文档中总结出准确的规则成本要低得多计算机从这些文档中挖掘出一

4、些能够有效分类的规则这个过程被形象的称为训练而总结出的规则集合常常被称为分类器训练完成后,用分类器对计算机从来没有见过的文档进行分类 现如今,统计学习方法已经成为了文本分类领域绝对的主流主要的原因在于其中的很多技术拥有坚实的理论基础,存在明确的评价标准,以及实际表现良好相比之下,知识工程方法中专家的主观因素居多,文本分类的过程,Rocchio 核心向量法,Rocchio是一种传统的分类方法该方法为每一类别都构造一个核心向量该核心向量是通过求这个训练集合的正负反馈的特征项权重(Feature Weight)的平均值在分类中,比较测试文本的向量和核心向量的相似度。,Rocchio 核心向量法,训练文本 Rocchio分类,+政治-军事*体育,K-Nearest Neighbor,给定一组分完类的训练文本,在此基础上对一个未知文本进行分类。当指定K的个数时,计算每一个训练文本与测试文本的相似度,从其中取K个相似度最大的文本。对这K的文本的类别进行统计,若第i个类别的文本数目最多,则认为测试文本属于第i类。,K-Nearest Neighbor,训练文本 待分类文本 KNN分类(K=5),+政治-军事*体育,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号