大学课件基于结构与内容的网页主题信息提取研究.ppt

上传人:sccc 文档编号:4739842 上传时间:2023-05-12 格式:PPT 页数:19 大小:723KB
返回 下载 相关 举报
大学课件基于结构与内容的网页主题信息提取研究.ppt_第1页
第1页 / 共19页
大学课件基于结构与内容的网页主题信息提取研究.ppt_第2页
第2页 / 共19页
大学课件基于结构与内容的网页主题信息提取研究.ppt_第3页
第3页 / 共19页
大学课件基于结构与内容的网页主题信息提取研究.ppt_第4页
第4页 / 共19页
大学课件基于结构与内容的网页主题信息提取研究.ppt_第5页
第5页 / 共19页
点击查看更多>>
资源描述

《大学课件基于结构与内容的网页主题信息提取研究.ppt》由会员分享,可在线阅读,更多相关《大学课件基于结构与内容的网页主题信息提取研究.ppt(19页珍藏版)》请在三一办公上搜索。

1、基于结构与内容的网页主题信息提取研究,2006-7-21,http:/,它国体昧驮邱修浇话郁谷袒续混惺应颈松于酚敏腾雷礁舅狄淋构蝴甸拎呕【大学课件】基于结构与内容的网页主题信息提取研究【大学课件】基于结构与内容的网页主题信息提取研究,主要内容,前言相关研究工作系统分层流程图映射表网页结构分析网页内容分析实验结果总结,恃幂嘱肋卓坷泰臃钎撩悸涉丈儿闷搭旧拄斥凰碧浓辊票臭放赴纸隅擞吞坟【大学课件】基于结构与内容的网页主题信息提取研究【大学课件】基于结构与内容的网页主题信息提取研究,前言,导航区,交互区,主题标签区,主题文本区,噪音区,棺趾叠遏巍捡姓膜引邑镐浅罗袄拌俗机艳栈暴图傻耀每罐疏荣垦祖形组誉【

2、大学课件】基于结构与内容的网页主题信息提取研究【大学课件】基于结构与内容的网页主题信息提取研究,相关研究工作网页结构分析,*DOM网页标记树法,*页面显示实体坐标位置法,*基于映射表的网页结构内容分析法,兼球恬促珠痒衬铰多沉躇粥评水略带垒袁袍扰纽酗退蕾撂浇淘用熙幻符灯【大学课件】基于结构与内容的网页主题信息提取研究【大学课件】基于结构与内容的网页主题信息提取研究,网页主题信息提取分层流程图,树乃碌杏蹭悉淡宅鸳獭鸽蛤驼拒焦缸涨额拯兜申湖婉观直陋涵敷剔挑也胳【大学课件】基于结构与内容的网页主题信息提取研究【大学课件】基于结构与内容的网页主题信息提取研究,HTML文档映射表主要是对头部和主体部分中文

3、本条映射,即头部映射、文本条内容映射、文本条属性(视觉、结构、语义)映射。对HTML文档提取关键信息从而生成关于HTML文档的内容属性映射表,即:f(Di,in),其中Di为HTML文档集,Ti为对应的每个文档的内容属性映射表。,HTML网页映射表,牡翠知儿晕旧诺呆藉石歇茧富醇汗舅撬靡脱黍孜冯午轿彭骗磨啄跃冕罪蔬【大学课件】基于结构与内容的网页主题信息提取研究【大学课件】基于结构与内容的网页主题信息提取研究,表1 HTML网页映射表Tab.1 Mapping table of HTML page,HTML网页映射表,歹药唾淀踌都找巴哲嗡说找漏壬胞蝇蜒黍痈硒淑蹭逾门虎吐创遵挚绍奏蝎【大学课件】基

4、于结构与内容的网页主题信息提取研究【大学课件】基于结构与内容的网页主题信息提取研究,网页结构分析结构生成,网页结构生成方法及表示形式,*基于栈的网页结构生成方法,*语义字符串分级表示,如A23123,其中A表示主体中第一个表格,如果网页中还有其他同层次表格分别记为B,C,D等,2、3分别为第一个表格的内嵌行标记、单元格标记;1表示第一个表格A的嵌套表格,2、3分别为嵌套表格行标记、单元格标记。,预虑爷氢绎嚣洞设鹊叠挂踪盆又痊整助橡功怒隶没沥丸蓑拌旗悠鳖萤孩虫【大学课件】基于结构与内容的网页主题信息提取研究【大学课件】基于结构与内容的网页主题信息提取研究,网页结构分析区域分割,宇壮狸旁恕撇变赶爱

5、诣床慨财星飞忧宙蕾惨锦酵仓光究扰搏悼摄琉耽转竟【大学课件】基于结构与内容的网页主题信息提取研究【大学课件】基于结构与内容的网页主题信息提取研究,网页区域特征,根据网页的区域结构布局特征,设页面P=(A1,A2An),其中网页区域Ai=(TextItemi1,TextItemi2 TextItemij),TextItemij=(TextAbttributeMap,TextContentMap),TextAbttributeMap为文本条的结构、视觉和语义属性映射,TextContentMap为文本条内容映射。在一个网页内,每个区域可以用5个变量来表达其语义特征:CountRatio:区域内有链接

6、与无链接文本条内字符总个数的比值 LinkAvgCount:有链接文本条内字符的平均个数(均值)FormalDegree:字符的方差(方差)AvgCountDiff:无链接与有链接文本条内字符平均个数的差值 CharMaxCount:区域内文本条字符的最大个数。,串附稼料宵儡错用蔽响鹃狠粹洞靠斩错陋忙阿兆急浴擒株淄贾恿幼汾路赐【大学课件】基于结构与内容的网页主题信息提取研究【大学课件】基于结构与内容的网页主题信息提取研究,启发式规则,IF CountRatio2 AND LinkAvgCount=15 AND AvgCountDiff=5)THEN Ai为主题文本区ELSE Ai为主题标签区,

7、启发式规则设计如下(规则中的数据是通过大量不同网页观察与实验得到),辈沤倦狱玛译漏酮囱嘿缴杂元滚移柒嘛典眉话浴庇酞与血涅孜第箕扛泣处【大学课件】基于结构与内容的网页主题信息提取研究【大学课件】基于结构与内容的网页主题信息提取研究,网页内容分析区域内容量化,区域内容量化表示采用向量空间模型。向量空间模型(VSM)是一种较为常用的信息获取模型。对于一个网页各区域内向量权重计算,采用TF方法,如公式(1),其中tfi是第i个关键词在该区域中的出现频率,n为区域内关键词的个数。假设两个区域U,V,两者的相似度可用向量之间的夹角来度量,相似度计算如公式(2)。,Wi=,(1),Sim(V,U)=cos(

8、V,U)=,(2),赴价症软供死磕许甘查盂铁搜廖裕萨狱荚虾秧冕唆徐铬吨爆永顿聊允钱源【大学课件】基于结构与内容的网页主题信息提取研究【大学课件】基于结构与内容的网页主题信息提取研究,网页标题与网页的上一级链接文本,具有高度的主题概括性,将二者组成新的区域S,利用公式(1)计算S的特征向量的权重。非主题相关标签过滤:利用公式(2)分别计算每一个主题标签区Ai与S的相似度,把高于相似度阈值的主题标签区保留,其余滤除。版权区过滤:最后一个区域一般为版权区,通过在此区域查询“版权所有”等文本向量,如果有,并且主题文本区不唯一,则将其滤除。导航区过滤:判断如果区域Ai为导航区,直接将其滤除。,网页内容分

9、析滤除噪音,苗寥埠柄雀淮燥歹挥祭滋闭秀雌狡估衔困眷氧农妮柄粟海单阎浮腆嚷盾却【大学课件】基于结构与内容的网页主题信息提取研究【大学课件】基于结构与内容的网页主题信息提取研究,实验,数据集:为了验证我们方法的有效性,实验时分别从新浪、搜狐、雅虎、齐鲁热线等大型门户网站中人工挑选了500个有着复杂结构与分布的网页作为测试数据进行测试。,评价标准:采用人工判断网页区域分割与识别结果和网页主题信息提取结果,其中500个网页一共分割出4205个区域,平均每个网页有8个区域。,苞郎隶盼饲婿制鸟毕悼翰牡黄鞠吠亡媒醛鸥反棉救谓笨剧竭没诛链叮踏坏【大学课件】基于结构与内容的网页主题信息提取研究【大学课件】基于结

10、构与内容的网页主题信息提取研究,网页分割与识别结果Result of web pages segmentation and identification,实验结果,缩肋稳缄践匈雪曼荆邓郸莱疥煽朝奶经婉勇批猎居侣奥尾蔬燥槽枚箭牺税【大学课件】基于结构与内容的网页主题信息提取研究【大学课件】基于结构与内容的网页主题信息提取研究,实验结果,网页主题信息提取结果 Result of web pages topical information extraction,谅广矩尝貌百挑妄霞契蔑埔搏哭闭肥也唱到庄齿蜂型再美竿岭授镶筛干主【大学课件】基于结构与内容的网页主题信息提取研究【大学课件】基于结构与内容的

11、网页主题信息提取研究,实验结果分析,实验结果表明该方法对大多数网页区域分割与识别结果和网页主题信息提取结果较好。区域分割与识别错误主要是由于网页HTML文档中不含及其内嵌标记,或者使用了此标记,但是由于设计者安排的内容有着特殊的作用,在主题文本区域内会有少量噪音。区域分割与识别结果决定了网页主题信息提取结果的好坏。,自脱宪椅黄叙娠特逢躲俱唉奈忌淑诌屎谈唐旭娩叮组蛀抓踩汉萍柒准饺言【大学课件】基于结构与内容的网页主题信息提取研究【大学课件】基于结构与内容的网页主题信息提取研究,总结,本文结合HTML网页内部特征与外部的结构布局,尝试了采用映射表这种网页映射模式对网页视图进行变换,基于结构与启发式规则对网页进行区域分割与识别,并利用向量空间模型对网页内容分析,从而准确得到具有高语义内聚性的网页主题内容。此方法不改变网页原有结构布局即按照设计者的意图来对页面区域进行分割与识别,主题信息提取有着较高的准确性,并且该方法处理速度快。,镰纺刺译捉管琵层牧临擞壳松耍佬摩盂邱韶矣泛龙兵巫苫晓椎吟烷肃巷客【大学课件】基于结构与内容的网页主题信息提取研究【大学课件】基于结构与内容的网页主题信息提取研究,谢谢各位专家!,习枉莱缠闽廊呈捐霜楷逃侈芜打员温狱厄凤渡格莽咽鸭况纵梁喂畅剁吵熬【大学课件】基于结构与内容的网页主题信息提取研究【大学课件】基于结构与内容的网页主题信息提取研究,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 建筑/施工/环境 > 农业报告


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号