基于HTML语义分析的网页正文提取.doc

资源描述

《基于HTML语义分析的网页正文提取.doc》由会员分享，可在线阅读，更多相关《基于HTML语义分析的网页正文提取.doc（8页珍藏版）》请在三一办公上搜索。

1、基于HTML语义分析的网页正文提取摘要：随着网络的迅猛发展，web服务已经成为研究的热点之一。本文介绍了一种常用的文件类型网页文件的文本信息预处理技术。该方法能够解析网页文件的组成结构，并从中提取出主体文本以供处理。测试表明该方法能有效地得到大部分HTML网页的主体部分。文中对HTML文件的解析不仅可以用于提取出HTML文件的主体文本，也可以用于得到HTML文件中其他的元素的内容，具有推广应用价值。关键词： HTML；网页正文； web服务Research on Main Text Extraction for Chinese Web Pages Based on Semantic An

2、alysis of HTMLAbstract: With the increasing of Internet, web Service has been the focus of research. The paper proposes a Chinese web pages preprocessing method. The method can parse web pages, and extract the main part from the web pages. The experiment shows that the method is feasible to parse we

3、b pages. The method proposed in this paper can be used not only to extract main text of web pages but also to get other element of web pages.Key words: HTML; Main Text of Web Pages; Web Service1 引言随着Internet的迅猛发展, 尤其是WWW的全球普及,带来了现代社会的信息爆炸。在这众多的信息中，以网页形式出现的文本信息占了很大的比重1,2。如何从网页的海洋中找到符合用户要求的有用信息, 成为一个

4、很重要、迫切的问题。通过对网页分析，我们发现网页通常包含两部分的内容：一部分是网页的正文内容，它反映了网页的主题信息；另一部分则是与网页主题信息无关的内容，包括导航条、广告信息、无关超链接等。而这些与网页主题无关的内容会严重影响搜索引擎、信息检索等web服务的效果，使用户不能快速找到有效信息。因此，能准确提取网页的正文内容成为web服务所要解决的首要问题。2 HTML简介HTML是超文本标记语言“Hyper Text Markup Language”的英文缩写，是网页编写的基本语言。想要实现网页的正文提取，必须先要对HTML的语法结构有个清楚的认识。HTML的语法中主要包括4部分内容：实体（E

5、ntity），元素（Element），属性（Attribute）以及注释（Comment）。3 实体是指用作HTML标签的特殊字符（如等）的HTML编码，也叫转义字符，主要用于表示一般无法用键盘输入的字符，或者可能和HTML中有特定含义的字符相互冲突的字符。实体一般以 “&”开始，用“；”结束。常用的有：“ ；”表示空格；“<；”表示。元素用来表示网页的结构和希望的操作，一个-基金项目：高等学校博士学科点专项科研基金资助课题(20030611016)元素包括3个部分：开始标签，元素的内容和结束标签。开始标签可以表示成，其中element-name表示元素的名称，其相应的结束标签可以

6、表示成。如超链接，表示一个超链接元素。HTML允许有些元素没有结束标签，如等。还有些元素没有内容，如等。属性用来表示元素的特性，它以“属性=值”的形式放在元素的开始标签中，如下例中，元素H1的属性align可以表示为。一个元素的开始标签中可以有多个属性，它们之间用空格隔开。注释包含在“”之间，用来增加HTML文档的可读性，不对网页的结构产生任何影响。如，说明网页的内容是从人民日报网站上转载的，但是网页上不会显示出注释的内容。3 网页正文提取3.1 现有的网页正文提取方法网页文档本身是半结构化或无结构的，其数据结构不规则或不完整，复杂程度远远高于普通的文本文档，其数据结构隐含、模式信息量大、模

7、式变化快。网页文档与典型的具有结构化数据的数据库系统不同，如雇员记录信息。在这里结构化不仅是指数据都符合统一的格式，就像一条记录类型的描述一样，并且一条记录中的字段也须由具有确定意义单一数据类型构成。而如果为一个网页文档定义数据类型，就拿一篇新闻网页来说，为它的正文、数字和图片的组成成分定义的数据类型远没有一条雇员记录的一个字段的类型意义清晰。一个电子邮件就是半结构化数据的例子，它的头域有明确的定义而它的正文体却是半结构化的。因此，要实现网页的正文提取，不能像数据库系统一样，提取某一特定字段就可以实现，而是要分析其HTML语义，从而在HTML文档中找到正文所在的位置并加以提取。当前网页正文提取

8、的方法有很多，文献4的方法是对于使用同一个模板生成的网页集,找出在该网页集中多次出现的内容,作为冗余内容,而在该网页集中共同出现较少的内容块就是有效的网页正文。实验证明该方法是有效的,但该方法必须局限在基于同一个模板的网页集,而Web上的网页模板不计其数,因此该方法显然不够通用。还有一种比较流行的方法是通过对网页划分为多个块，然后根据某种算法进行取舍，找到正文所在的那个块，提取出来。现在存在多种网页划分成块的方式，如基于DOM的分割5，基于位置的分割6，还有Vision-based Page Segmentation7。在文献8中作者使用Site Style Tree(SST)来描述网页的版面

9、和内容，并定义了SST中节点的重要程度，通过节点的删剪来得到网页正文。以上方法都是对HTML语义结构进行分析，找到网页正文所在的位置进行处理，提取出网页的正文。但这些方法对于网页结构出现非常规现象时，效果不好。比如网页的正文极短，而该网页中的广告栏含有的文字量很大，这样会把广告所在的部分当成了正文部分提取出来，造成提取的失败。3.2 HTML元素选择删除法本文基于以上分析，提出了一种HTML元素选择删除法的新算法。该算法主要思想是通过对HTML标签语义进行分析，先删除无用的HTML标签元素，再通过分块的方法提取出网页的正文部分。元素选择删除的分析过程如下：首先是网页正文存放的位置，它是包含在之

10、间，作为某个HTML元素的内容出现的，比如元素的内容。因此我们只需要对有内容的元素进行分析，而那些没有内容只有标签的元素可以删掉。例如注释标签，等就被删除。对于有内容的HTML元素，例如style和script等元素不包含正文。style元素主要是用来改善网页的显示效果的，它的内容主要是设计网页显示的属性，和网页正文无关；script元素是脚本程序，用来设计动态网页，它的内容也和网页正文无关。因此要将这两个元素删除。而超链接标签在这里也被删除，虽然超链接有可能出现在正文中，但是本文只是研究网页的主体正文提取，对超链接的恰当处理可参阅文献9的“压缩超链接树”的算法。删除无用HTML元素之后，再通

11、过对网页分块，找到网页正文所在的元素，提取出该元素的内容，得到网页的正文。HTML元素选择删除法的具体算法如下：1 将网页的HTML代码以文本形式读入字符串s中；2 将s中的字符全部小写化，便于后面的字符匹配；3 调用删除无用元素模块，对s进行净化；4 调用转义字符转换模块，把s里面的转义字符转化成正常字符；5 网页分块，将s中包含网页正文的元素提取出来组成新的字符串s1；6 提取出s1中元素的内容，保存，其即为网页的正文部分。程序流程图如图1所示：图1 程序模块流程图3.3 删除无用元素模块在删除无用元素模块中，由于style元素，script元素，a元素是必须有结束标签的，所以很容易定位

12、这些元素所对应的子字符串在字符串s中的位置和长度，但考虑到很多网页的不规范性，为提高程序的容错性能，采用了一种标签配对的方法，将这些要删除的元素各部分补齐，然后再进行匹配删除。标签配对的方法如下：由于在style元素、script元素和a元素的内容中，除了存在注释标签外，不会出现其他的标签，因此从开始标签向后查找，在除注释标签之外的其他标签之前插入结束标签即可完成标签配对。虽然HTML协议允许出现元素的交叉，即的情况，但style元素，script元素和a元素不会出现这种情况，故在此不再考虑这种情况。4 实验数据及结果HTML元素选择删除法的程序实现是采用的Delphi7设计的，开发的硬件平台

13、为：pentium4 2.4G的CPU，512M内存。为了验证这个新算法的正确性，特从各大网站下载了1万张网页进行了实验，并随机抽取了1000张网页的处理结果进行验证，只有少数几个网页没有抽取出正文，经分析发现是由于该网页是一个网站的首页，全部是链接构成的，没有正文部分，故认为程序是正确的。该程序在执行效率上也是很好的，对一个1000字左右的网页抽取正文，平均时间为573毫秒。并且本算法克服了分块算法容易出现的错误，即找错网页正文所在的块。如链接地址为图2 网页正文提取实例经过一些有代表性的网站（见表1）测试，我们认为该方法能有效得到大部分HTML网页的正文部分。表1 经过测试的网站为了验证

14、本算法的效果，采用聚类实验来检验。在聚类实验中，准备五类网页，分别为：算命类、主持人类、计算机类、政治类、宠物类，每类网页数为30。本文做了两组实验，在第一组实验中，没有使用网页正文提取而直接对网页提取特征描述，然后采用遗传算法与k-means结合的聚类方法聚类，记录聚类的实验数据。在第二组实验中，先调用本文中的算法来得到网页测试集的正文，然后得到网页的特征描述，最后采用的与第一组相同的聚类方法聚类，记录聚类的实验数据。在这里本文使用网页的召回率和精确率来描述聚类的结果。两组实验的数据结果对比如图3、图4所示：图3 召回率对比图4 精确率对比通过图3、图4所做的对比可知，在使用了本算法的第二

15、组数据中，聚类的召回率和精确率都有了改进，特别是精确率有了明显的提高。5 结束语网页文档是网上应用最多的文件格式，处理好网页文档对处理网上的信息内容有很大的意义。本文提出了一种网页文档提取正文的方法，该方法通过对HTML的语义分析，得到网页的正文。测试表明该方法能有效地得到大部分网页的主体部分。本文中对HTML文件正文提取的方法不仅可以用于提取出HTML文件的主体文本，还可以用于网页的特征提取以及网页的分类、推荐等web服务领域，具有较强的推广应用价值。参考文献1Tkach D. Technology Text Mining: Turning Information into Knowledg

16、eR. A White Paper from IBM, 1998.2Baizilay R, Elhadad M. Using Lexical Chains for Text SummarizationC. Madrid,Spain:Proceeding of the ACL97 / EACL97 Workshop on Intelligent Scalable Text Summarization, 1997.3Lemay L, Danesh A. 宛延闿, 周晓牧, 苏俊等译. HTML Web页面制作教程M. 北京: 清华大学出版社, 2000.4ShianHuaLin,JanMingHo

17、.Discovering informative content blocks from Web documentsJ. SIGKDD, 2002.5Chen ,J . , Zhou ,B. , Shi ,J . , Zhang , H.-J . ,Qiu , F. Function Based Object Model Towards Website Adaptation. Procrrdings of the 10th World Wide Web conference ,2001 .587596.6Kovaceivic , M. , Diligenti , M. , Gori , M.

18、, Milutinovic , V. .Recognition of Common Areas in a Web Page Using Visual InformationC. A possible application in a page classification.Proceedings of 2002 IEEE International Conference on Data Mining( ICDMp02) ,2002 .250.7Yu ,S. ,Cai ,D. ,Wen ,J .-R. ,Ma ,W.-Y. . Improving Pseudo Relevance Feedbac

19、k in Web Information retrieval Using Web Page SegmentationC. Proceedings of twelfth World Wide WebConference (WWW 2003) ,2003 .1118.8Lan Yi ,Bing Liu , Xiaoli Li. Eliminating Noisy Information in Web Pages for Data MingC. Proceedings of the ninth ACM SIGKDD international conference on Knowledge discovery and data mining, 2003 .296305.9因特网上文本网页信息处理和自动分类研究D. 清华大学硕士学位论文，2000.

展开阅读全文