非网页数字资源分类.ppt

上传人:小飞机 文档编号:5887748 上传时间:2023-08-29 格式:PPT 页数:13 大小:1.41MB
返回 下载 相关 举报
非网页数字资源分类.ppt_第1页
第1页 / 共13页
非网页数字资源分类.ppt_第2页
第2页 / 共13页
非网页数字资源分类.ppt_第3页
第3页 / 共13页
非网页数字资源分类.ppt_第4页
第4页 / 共13页
非网页数字资源分类.ppt_第5页
第5页 / 共13页
点击查看更多>>
资源描述

《非网页数字资源分类.ppt》由会员分享,可在线阅读,更多相关《非网页数字资源分类.ppt(13页珍藏版)》请在三一办公上搜索。

1、非网页数字资源分类,山东大学邵海敏,王川川,陈军报告人:陈竹敏2008.4,任务描述,给定资源实体,预测其内容类别。方法:利用资源中包含的文件、子目录的名字、大小、内部目录结构等信息,合理形成特征,找到适当的分类方法,预测资源的内容类别。,实现过程,cwt_cdal_train.9346,解压,预处理,特征选择,cwt_cdal_test.6223,分类模型,特征表示,分类结果,特征选择,原始特征:文件格式 文件数量文件名字特征选择就是对这些原始特征进行处理,选择,扩展.,文件大小资源名字,文件格式,从训练集中出现的所有文件格式中选择了100个构成格式特征空间首先去掉出现频率很低的文件格式合并

2、语义相同的格式(如.r01,.r02等,只保留一个.r01)格式特征提取类别Ci(i=1 to 26),格式Fj(j=1 to m),根据格式Fj的资源在类别Ci(i=1 to 26)的资源中所占的比例,取出区分力度大的前100个格式,文件格式、文件大小和文件数量,两种方式格式相关 文件格式,文件数量,文件大小,即Fj,N(r,Fj),AS(r,Fj)N(r,Fj)资源r中包含的格式为Fj的文件数量AS(r,Fj)资源r中包含的格式为Fj的文件的平均大小格式无关 资源r的总大小,即(j=1 to 100)(N(r,Fj)*AS(r,Fj),资源名字和文件名字(1),名字的特点资源的名字都是专有

3、的,资源名字,文件名字,路径名都太短,信息不足,难以利用两个类别相同的资源,其名字之间并没有太大的共性,但其上下文环境应该大体相似名字上下文获取上下文,分析同类资源的共性和不同类资源的差异,资源名字和文件名字(2),名字上下文的获取名字上下文:使用名字作为关键字在百度中搜索得到的一条结果称为一个名字上下文(只是利用了百度的搜索结果页面,而没有去爬取结果对应的页面)。关键字的选择首选完整的资源名,若失败则使用净化处理后的资源名(比如,存在书名号的,只保留书名号之内的文字;若名字中有中英文,则其中的英文字符去掉等),若失败则使用随机的一个文件名,若仍失败打印错误报告,退出99%以上的资源可以成功获

4、取30个上下文,资源名字和文件名字(3),基于名字上下文的特征选择首先,取资源r的上下文中出现频率2的词,表示为FS1然后,取属于FS1,且在某类的20%以上的上下文中出现的词,表示为FS2然后,基于方差的方法,从中选出对类区分度大的词构成特征空间(维数200),资源名字和文件名字(4),特征扩展(应用在第3组结果)取前100个特征词,添加到特征空间FS使用FS对测试集进行分类计算每个类别对的误判率ER(ci,cj),如果大于阈值10%从ci和cj的特征词中选取N1*log2(ER(ci,cj)*N2+1)个词添加到FS再次使用FS进行分类.若总的误判率没有下降,则FS回滚一次,算法结束;否则

5、跳转到3,资源名字和文件名字(5),特征词权重计算对FS中的每个词t,计算t在资源r的上下文中出现的频率F(t,r)权重w(t,r)Z=log2(F(t,r)+1)w(t,r)=Z 4?1:Z/5,提交3组结果,从训练集中随机抽取1/3的样本,作为测试集,剩余2/3作为训练集,分别采用KNN和SVM构建分类器,利用测试集,逐步调整特征向量,对分类器进行优化.提交3组结果1.CWT_CDRC_IRSDU_TDS1.txt(KNN分类器)2.CWT_CDRC_IRSDU_TDS2.txt(SVM分类器)3.CWT_CDRC_IRSDU_TDS3.txt(SVM分类器)1,3 完全自动实现;2在特征选择的过程中加入了部分人工确认;3采用了特征扩展的方法,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号