《基于信息提取的面向行业应用的文本分类算法.ppt》由会员分享,可在线阅读,更多相关《基于信息提取的面向行业应用的文本分类算法.ppt(12页珍藏版)》请在三一办公上搜索。
1、基于信息提取的面向行业应用的文本分类算法,郭 峰兰州大学 信息科学与工程学院2005年8月,提纲,背景介绍课题来源实现功能整体流程CIETC算法简介相关数学定义算法流程说明总结,背景介绍,课题来源对人名专用搜索引擎的需求传统搜索引擎的不能解决的问题更方便的查找查找结果的分类自然语义的提取要求产品化申请项目甘肃省自然科学基金,背景介绍,实现功能按人名的重要属性对搜索结果进行分类,与北大名人系统的区别,背景介绍,整体流程元搜索引擎的实现分布式并行元搜索引擎的实现信息提取和自然语意理解CIETC算法 前台显示,补偿式信息抽取的主题文本分类算法(compensated information extr
2、action text classification,CIETC)有指导的、不需要建立训练集的通过信息抽取和文本聚类循环增加类的数目和类内项的通过聚类补偿文本属性的一种文本分类算法,CIETC算法简介,CIETC算法简介,相关数学定义I/P:划分P=A1,A2,,Am(AiA,AiAj=null)构成了I的一个特定划分,记为I/P。A是属性的集合core(P):核知识,不可省略划分文档D 是可区分的:对于主题文档D,AD=A1,A2,Am是文档D 拥有的属性集,如果core(P)AD,则称文档D是可区分的。,CIETC算法简介,算法流程说明1、选择主题属性行业知识选择通过信息熵,数据挖掘的决策
3、树算法,取重要属性 H=-ki=1,nPi2Pi,2、初步文本分类 对所有测试文档U,以core(P)=职业,工作单位,出生年月进行信息抽取。将所有文档分为可辨分文档UIND和不可分辨文档UND。在信息抽取过程中构建了关于人名的core(P)属性抽取的句法,采用了中国科学院概率句法分析器ICTPROP和中国科学院freeICTCLAS词法分析器。,算法流程说明3、给每篇文档和类建立空间向量模型,用最邻近学习算法(nearest-neighbor learning algorithm)将UND聚到UIND/core(P)中去,CIETC算法简介,CIETC算法简介,算法流程说明4、通过类间最邻近算法提高文档的属性度 通过最邻近相似文本分类处理后,提升了一部分UND文档,还有一部分剩余UND未被处理,需要对其中可以提高信息度的文本补偿分类结果。,总结,本文使用信息抽取的方法对中文文本的分类进行了研究。实验结果显示,基于信息提取的面向行业应用的文本分类算法是一种非常有前途的分类器。如果将其应用于不同的行业,将会带来很大的社会效益。信息抽取需要建立大量的句法模型及属性词库,如果句法模型不全,会导致测试结果相差较大,这些问题还有待进一步研究。分类的速度有待提高,算法还可以优化创新点:将信息提取应用于文本分类;通过核知识来对指导文本分类;通过分类补偿文本属性,谢 谢!请各位专家批评指正!,