《数字图书馆中的热点研究主题提取1.doc》由会员分享,可在线阅读,更多相关《数字图书馆中的热点研究主题提取1.doc(9页珍藏版)》请在三一办公上搜索。
1、精品论文数字图书馆中的热点研究主题提取1韩晓晖,马军 山东大学计算机科学与技术学院,济南(250101) E-mail: xiaohhan摘要:随着数字图书馆中科技论文数量的飞速增长,对于研究者来说收集、组织和利用那 些他们感兴趣的论文成为一项困难的工作。此外,蕴含在数字图书馆中的深层知识并没有被 很好的挖掘出来。本文首先提出了一种结构化论文相似度计算方法,然后提出了一种从数字 图书馆的论文集里提取一定时间段内的热点研究主题的方法,其主要思想为:首先基于提出 的结构化相似度度量将论文集和聚类成簇,每个簇被看作是一个主题。其后,每个主题的热 度被计算出来,有最高热度值的主题被选择为热点主题。实验
2、结果证明了结构化论文相似度 计算方法和热点研究主题提取方法的有效性。 关键词:主题检测,数字图书馆,科技论文,相似度中图分类号:TP3911.引言随着互联网技术的快速发展,万维网已经成为一种越来越流行的科技论文发表和共享介 质。越来越多的期刊被数字化后放在互联网上,许多研究者在网上发表论文的预印版本。这 为研究者的研究工作提供了丰富而且及时的科技信息资源。但是,这也带来了一个问题,那 就是信息爆炸。 每天都有大量新的科技论文发布在网上, 对于研究者来说,收集和使用自 己需要的论文资源变得越来越困难,他们不得不花费大量的时间和精力来选择对他们有用的 论文,降低了研究的效率。数字图书馆的出现在一定
3、程度上解决了这个问题,其目的是提供 对电子文献资源的存储,组织和查找。许多企业、研究机构和出版商已经建立了他们自己的 数字图书馆来共享数字论文资源。如: Google Scholar 提供良好的工具帮助研究者在线查找科 技论文;Citeseer 提供对计算机领域科技论文的检索,并使用一种通过引文链接检索论文的 方式,方便用户找到自己感兴趣的论文及其引用和被引用信息;ACM Porta 建立在传统图书 馆编目的概念上,提供对美国计算机协会的各种电子期刊、会议记录、快报等文献的查询和 浏览;ePrint 提供对物理学、数学、非线性科学和计算机科学等学科预印论文的电子版的检 索,缩短了审稿和出版的延
4、迟。但是,这些论文库提供的查找一般都是基于关键字匹配的, 或者是提供给用户一个层次化的目录1。这种方式的缺点是:一个查询往往导致数目很大 的检索结果,并且其中的大多数往往与用户的需求并不相关。文献12使用神经网络对结果 进行分类,以提高检索结果的质量,减少查询时间。然而上述的方法都是利用了论文的浅层 信息,并没有对蕴含在整个论文集中的深层信息进行发掘。本文提出了一种新的方法挖掘隐含在在数字图书馆中的深层信息,通过对论文集进行主 题分析,找到当前的热点研究主题,为研究者了解本领域的发展情况和确定研究方向提供依 据。 其主要贡献为: 1) 根据科技论文本身具有结构化的特点,提出了一种新的结构化科技
5、 论文相似度计算方法。2) 在结构化科技论文相似度的基础上,提出了一种基于单遍聚类算 法的热点研究主题提取方法。本文下面的内容将这样组织,第二章介绍与本文内容相关的一些研究进展。在第三章,1本课题得到高等学校博士学科点专项科研基金“科技论文网络发表平台的管理和可持续发展问题的研究”(20070422107)和山东省科技攻关项目“垂直检索系统的研究与开发”(2007GG10001002)的资助。- 9 -提出了一种适用于科技论文的结构化相似度计算方法。第四章我们将给出热点研究发现方法。结构化论文相似度计算及热点研究主题提取的有效性在第五章用 2 个实验验证。第六章 对全文进行总结,并提出未来的工
6、作。2.相关工作文本相似度的计算在信息检索领域已经做了广泛和深入的研究。大多数传统的文本相似 度度量是基于“bag of words”的,文档之间的共性和不同根据词或短语在文档中的共现情 况度量。比较常用的度量方法如余弦相似度,Jaccard 相似度,Overlap 相似度9,11及信息 论度量10等等都是基于这种思想。这些相似度度量适合于类别之间差别较大的文本分类或 聚类应用。但是,同一领域的论文通常使用很多相同的词语或短语,因此,用上述的相似度 度量方法很难区分同一领域中不同子研究主题的论文。文献4了一种结构化的相似度度量 方法,将一片文档看作是有一定主题结构的文本,通过比较两篇文档的子主
7、题结构,可以更 精确的计算两篇文档的相似度。这种相似度度量适用于普通文档,这些文档通常没有显式的 结构, 而科技论文有本身具有良好的结构, 即一篇科技论文通常由题目,摘要,关键词, 正文内容和引用组成。因此我们可以更进一步利用这种结构进行相似度计算以便更好的区分 不同的主题。本文根据科技论文的结构特点提出了一种新的相似度计算方法来提高相似度计 算的有效性。热点主题提取问题在主题检测与跟踪(TDT)中已经做了一定的研究。文献5通过进行时 间线分析和多维句子模型的方法从新闻集中提取出一定时间段内的热点主题。论文7, 8提 出了一种自动提取 BBS 中的热点主题的方法,它使用基于 BP 神经网络的分
8、类算法来根据 流行度、质量和时间分布判断一个主题的热度。文献6使用单遍聚类的方法检测 BBS 和网 页中的主题,利用所谓主题关注度的度量来评估一个主题的热度。然而, 科技论文的结构 和特点不同于新闻,论坛和网页,因此上述热点提取发现算法并不完全适合于科技论文。 因 此本文通过分析科技论文的特征,提出了一种用于数字图书馆的科技论文热点研究主题提取 发现算法。3.科技论文相似度计算科技论文本身可以看作是一种结构化的文本数据,一篇科技论文通常由标题、作者、摘 要、关键词、正文和参考论文组成。每一部分在整个论文中所起的作用不同,因此每一部分 在文章当中的重要性也不同,在计算两篇论文之间的相似度时,应当
9、将这些不同考虑进去。 本章首先对论文的整体结构和每一部分进行分析,进而根据每一部分的特征,提出一种结构 化的相似度计算公式。3.1 论文结构分析绝大部分的科技论文有着相似的固定结构。图 1 说明了一篇科技论文的每一部分及它们 与文章中心思想的关系。每一部分的分析如下: 论文头部:本文将题目、摘要和关键词称为论文头部,因为这三个部分可以是看作论文内容 的精确概括。题目通常是描述文章中心思想的一个句子。关键词包含了最能反映文章主题的 若干个词。摘要是作者主要思想的一个很好的概括,它包括对研究方法,研究目标,结果和 结论的简洁的描述。在摘要中没有修饰和冗余的内容。因此,这三个部分的内容在相似度计 算
10、的时候应当给予较高的权重。Head: Title Abstract KeywordsSummaryCentral ideaReferencesSupportContentDescribe图 1 科技论文组成结构Fig.1 Components of a scientific literature.内容:正文内容一般包括引言,相关工作描述,作者的研究工作和验证作者观点正确性的实 验。正文当中的内容往往是冗繁的,并且包含了一些可能降低相似度计算精度的噪声词。所 以,在本文提出的相似度计算方法中会适当的降低正文内容的权重 参考文献:参考文献包含一个作者所引用文章的列表。作者的研究工作就是建立在这些文
11、献 的基础之上的。文献23使用公共引用数来估计两篇文章的相关度,其主要思想是如果两 篇科技论文引用了一些相同的出版物,那么这两篇论文可能是相似的。然而实际上,同一主 题的两篇论文并不是严格的引用一些相同的论文。直觉上可以认为如果两篇论文引用了主题 相似的论文(并不一定是相同的),那么这两篇论文的主题仍然可能是相同的。因此我们将 23中的条件放宽,利用两篇论文所引用的参考文献的题目的相似度来评估相关性。3.2 论文头相似度因为一篇科技论文头部的内容往往很短小,所以我们选择 Jaccard 相似度来计算两篇论 文头部的相似度。计算公式如下:SimHead (a, b) = ta b (wa ,t
12、wb ,t ) 2 2 (1)ta wa ,t + tb wb,t ta b (wa ,t wb ,t )其中, a和b分别为两篇论文的头部;wa,t,wb,t为词项t分别在a和b中的权重。在本文中, 如果词t在文档a中出现则 wa,t为 1,否则为 0。wb,t与之相同。3.3 论文内容相似度本文使用信息检索中最常用的向量空间模型来表示正文内容。向量空间模型将文档看作 是词的集合,一篇论文的正文内容被表示成为一个特征向量:rX d = (w1 , w2 , w3 ,.wn )其中wdi是第i个特征项的权重,其计算公式如下:wdi =(0.5 + 0.5 fdi ) log( D )fd ma
13、xni(2) jd (0.5 + 0.5fdjfd max)2 (logN D )2n j其中fdi为第i个特征项在文档d中的频率;fdmax为d中的最高的词频,D为论文集中论文的总数,ni为包含特征相i的文档数量。通常,使用余弦相似度来计算两个向量Xa和 Xb间的相似度。所以本文将两篇论文的正文相似度定义为:SimContent = X a X b(3)X a X b其中,Xa、Xb分别为论文a和论文b的正文向量。3.4 引文相似度本文仍然使用公式 1 来计算两篇文章参考文献之间的相似度。由于本文只考虑了参考文 献的标题,所以,我们要提取出参考文献列表中所有引文的标题来。这是一项很困难的工作
14、, 因为不同文章的参考文献格式不尽相同。但是,它们之间仍有一些共性。例如,参考文献的 编号总是出现在一个引用条目的最前面,对于所有条目其格式都是相同的。作者信息往往出 现在题目的前面,而题目后面紧跟的是出版商的信息。所以,我们可以使用下面的启发规则 来提取参考文献的题目:1)将引用的内容按照标点符号分割成段。2)计算每一个段的长度。3)通常题目段和出版信息段是长度最长的两个段,因为出版信息总是在题目之后,因此分 析长度最长的两个段的先后顺序,以及是否有“Proceeding”,“journal”,“conference” 等期刊、杂志标题中经常出现的短语,最后判定哪一个是题目。图 2 是一些参
15、考文献的示例。图 3 显示了我们题目提取方法的准确率。我们从不同的期 刊和杂志上收集了 100 篇参考文献格式不同的论文。结果表明,对于绝大多数的引用类型, 我们的方法是有效的。图 2 参考论文样例Fig.2 Examples of References.Precision of Reference Title Etraction959085Precision8075706560555020 40 60 80100Number of papers图 3 参考论文题目提取精度Fig.3 Precision of Reference Title Extraction.3.5 结构化论文相似度公式我
16、们将上述三种相似度结合起来,形成结构化论文相似度计算公式:sim( p1, p2 ) = SimHead + SimContent + SimRef(4)其中,p1、p2是两篇科技论文,SimHead是两篇论文头部的相似度,SimConent是两篇文章的正文相似度,而SimRef是引文的相似度。其中,是不同相似度因子的权重,满足 + +=1。在本文中取=0.5,=0.3 and =0.2。4.论文热点主题提取算法本章将讨论本文提出的热点研究主题提取算法,算法主要包括两个部分,第一部分使用 单遍聚类算法根据结构化论文相似度将论文聚合成簇,每一个簇被看作是一个主题。然后在 第二部分,计算每一个主题
17、的热度,选择热度最高的 k 个主题作为热点研究主题。本章的其 余部分将详细讨论这两个阶段的内容。4.1 论文主题检测本文使用单遍聚类算法对论文进行主题聚类。单遍聚类已经在 TDT 中广泛的使用, 并 且获得了比较好的结果。其较单链接聚类或完全链接聚类要快,并且复杂度更低。算法如下:算法 1:研究主题检测 输入:按时间顺序排列好的科技论文集合 输出:一个主题簇的集合C1,C2,Cn。1)创建一个只包含论文L1的簇2)对于顺序集合中接下来的每篇论文Li :a)计算论文Li与所有已经处理的论文之间的结构化论文相似度b)找到与 Li最相似的论文Lk, 即Lk = arg max sim(Lk , Li
18、 )Dk ic)如果sim(Lk, Li),那么创建一个新簇只包含Li,否则将Li加入到Lk所在的簇当一篇新的论文到达时,如果该论文的主题不是新的,那么它将被加入到现有的某个簇 中。如果它与先前的论文有足够的不同之处,那么它成为了一个新簇的种子。该聚类算法是 一种增量的算法,因此,它可以在线的处理论文。这个属性使得该算法非常适合于数字图书 馆。4.2 主题热度评估在主题发现过程之后,得到表示研究主题的簇。接下来,每个主题被赋予一个热度值。 对主题簇i中的一篇论文Lij,使用下面的公式来评价其热度:Hotness(Li j ) =pi(tc t p )(5)其中tc是当前的时间(本文中以天为单位
19、);tp是Lij发表的时间,pi是Lij所在期刊的影响因子。本文使用SCI所公布的影响因子。我们基于这样的假定:新发表的影响力高的文章更能够代表 当前的研究趋势。这样,一个主题簇的热度按照下面的公式计算:TopicHotness(Ci ) = Hotness(Lij )jCiNdis(Lij )(6)i其中,Ni是簇Ci中的论文数量,dis(Lij)是Lij与最靠近簇i质心的文档的距离。 最后,热度最高的 k 个簇被看作是热点研究主题。本文使用词频统计的方法来为每个主题提取关键词,这些关键词被用作表示主题的标签。5.实验及分析本章将使用两个实验来验证本文两个主要部分的有效性。首先,为了评估本文
20、提出的结 构化论文相似度计算方法用来计算主题相似度的性能,我们使用若干篇论文作为查询,通过 不同的相似度计算方法从论文集中检索主题相似的论文。然后,使用 PN 来进行评估。在 第二个试验中,将测试热点研究主题提取算法的效果。5.1 实验数据集本文为实验建立了两个实验数据集,称为 Data I 和 Data II。Data I 的数据是从 FSKD 2008 论文集中收集的。该论文集共有 664 篇论文,这些论文已经被专家分成了 56 个主题。我们 去掉了包含论文数量太少的主题,为实验一选择了 18 个主题。这 18 个主题的平均论文数量 为 21。对于 Data I,同一个主题内的论文被看作是
21、相同或相关的。我们从每个主题中随机提 取一篇论文作为查询,同一主题内的其他所有论文被看作是主题相关的,不同主题中的论文 被看作是不相关的。除去查询论文的所有论文被看作用来产生查询结果的文档集。对于 Data II,我们从 IEEE Explorer、Citeseer 等数字图书馆中收集了信息检索领域 178 篇论文,所有这些论文都是在 2006 年 8 月到 2008 年 8 月之间发表的。本文使这个数据集来 证明热点研究主题提取方法的效果。5.2 数据预处理对于两个数据集中的数据,本文使用下面的步骤进行预处理: 1)使用 pdfbox14将论 文从 pdf 格式转换成文本文件。2)提取每篇文
22、章的题目、摘要、关键词,正文内容和参考文 献。3)使用一个停止词列表去除停止词。4)使用 P-Stemming 算法进行词干提取。5.3 实验结果本文使用 PN 来评估提出的结构化论文相似度的有效性。 一个查询的 PN 精度按照下面的公式计算:C I RP N =N其中,R 为我们的方法返回的前 N 个最相似的文档,C 是预先定义好的给定查询的相关文档集。然后,平均所有查询的 PN 值作为结果。表 1 实验中用到的相似度度量Tab.1 Similarity measures used in experiment.labelmeasureS1根据全文使用 Jaccard 度量计算S2全文(除去参
23、考论文)使用 Cosine 相似度计算S3根据头部使用 Jaccard 度量计算S4使用结构化论文相似度在本文的实验中,使用 P5 和 P10 作为评价标准。表 1 列出了实验中所用到的相似度计算方法,不同方法的实验结果在表 2,图 4 和图 5 中列出。表 2 P5 及 P10实验结果Tab.2 Results of P5 and P10.S1S2S3S4P50.31980.33650.28640.4007P100.28770.31250.2520.3831P5 ResultP10 Result0.450.45precision0.350.350.250.250.15S1S2S3S4simi
24、l arity0.15precision1234similarity图 4 P5 实验结果图 5 P10 实验结果Fig.4 Result of P5Fig.5 Result of P10在图 4 和图 5 中可以看出,尽管所有的准确率都不是很高,本文提出的相似度度量方法 在 Data I 上的结果还是比其他的方法要好。S1,S2 和 S4 之间的结果比较表明根据科技论文 的结构化特点进行相似度计算要比直接使用全文内容效果要好。S2 与 S4 的结果比较说明利 用参考论文献的主题相似性可以提高相似度计算的精度。S3 与 S4 的比较表明,尽管论文头 部是整个论文内容的很好的概括,并且正文内容是
25、冗繁的,正文中的一些细节信息仍然可以 提高相似度计算的有效性。表 5 展示了本文提出的热点研究主题提取方法在 Data II 上的运行结果。我们列举了热度 最高的 5 个主题。这个结果来自我们的原型系统科技论文在线管理系统,该系统使用本 文提出的方法进行热点研究主题提取。然而,目前没有一个很好的基准或标准来验证该方法的正确性。但是我们发现使用该方 法提取出的热点主题与 SIGIR 和 WWW 会议的部分主题相同。这两个会议是信息检索领域 的顶级会议,可以代表当前的研究趋势。这一定程度上证明了我们的方法的正确性。在表 5 中我们可以看出,不同的主题往往会有很多共同的主题词。实验结果可能受我们人工
26、数据收 集过程的影响,但是我们整个的收集过程是十分客观的。表 5 热点研究主题提取的结果Tab.5 Result of hot research topic detection.labelsHotnessNumber of literaturesXML, XPath Qurery, Schema inference, queryevaluation, XML query processing, structural data0.13817Image retrieval, multimedia, image classification,Clustering, semantic model0.0
27、9422Web 2.0, social networks, social discovery, graphpartitioning, community structure0.07113Ontology, semantic web, semantic similarity, WordNet,query0.0339Personalized Search, crawler, ontology, user model0.012296.结论本文首先提出了一种结构化的论文相似度计算方法,该方法非常适用于计算两篇科技论 文的主题相似性。随后,提出了一种热点研究主题提取算法,来帮助数字图书馆的用户找到 他们
28、感兴趣领域的热点研究主题。该方法首先根据结构化论文相似度计算方法将数字图书馆 的论文集合使用单遍聚类算法划分成主题,然后为每个主题计算一个热度值,选择 k 个具热 度最高的主题作为热点研究主题。最后,通过两个实验分别验证了结构化论文相似度计算和 热点主题提取的有效性。在今后的研究工作中,我们将: 1)在计算两篇论文的相似度时考虑论文上下文的语义信 息。2)尽管使用单遍聚类算法取得了不错的效果,但是该算法有一个缺点,即一旦一篇论文 被归入一个主题,它再也不能被划分到另一个主题。然而该论文可能和其后的某个主题更为 接近。如何避免这种情况是我们将要研究的一个问题。3)怎样为热点研究主题提取建立一个
29、测试基准也是我们未来的工作参考文献1 Jun Ma, YingNan Yi, Tian Tian and Yuejun Li. Retrieving Digital Artifacts from Digital LibrariesSemantically A. LNCS.3644 C, Springer, pp.340-349, 2005.2 C. Lee Giles, Kurt D. Bollacker, Steve Lawrence. CiteSeer: An Automatic Citation Indexing System A.Digital Libraries 98 - Third
30、 ACM Conference on Digital Libraries C, ACM Press, New York, pp. 8998,1998.3 Kurt D. Bollacker, Steve Lawrence, and C. Lee Giles. A System For Automatic Personalized Tracking ofScientific Literature on the Web A. Proceedings of the Fourth ACM Conference on Digital Libraries C, ACM Press, New York, p
31、p. 105113, 1999.4 XiaojunWan. Beyond topical similarity: a structural similarity measure for retrieving highly similar documentsA. Knowledge and Information Systems C, Springer, London, pp.55-73, 2008.5 Kuan-Yu Chen, Luesak Luesukprasert, and Seng-cho T. Chou. Hot Topic Extraction Based on Timeline
32、Analysis and Multidimensional Sentence Modeling A. IEEE Transactions on knowledge and data engineering C, IEEE Computer Society, pp.1016-1025, 2007.6 Ye Hui-min, Cheng Wei and Dai Guan-Zhong. Design and Implementation of On-Line Hot Topic DiscoveryModel A. Wuhan University Journal of Natural Science
33、 C, Vol.1, pp.21-26, 2006.7 Lan You, et al. Exploring Various Features to Optimize Hot Topic Retrieval on WEB A. Proceeding of TheInternational Symposium Neural Networks 2004 C, Springer-verlag, London, pp.1025-1031, 2004.8 Lan You, Yongping Du, Jiayin Ge, Xuanjing Huang, and Lide Wu. BBS Based Hot
34、Topic Retrieval UsingBack-Propagation Neural Network A. Lecture Notes in Artificial Intelligence C, Springer-Verlag, Berlin pp.139-148, 2005.9 Baeza-Yates R, Ribeiro-Neto B. Modern information retrival M. ACM Press and Addison Wesley, 1999.10 Aslam JA, Frost M. An information-theoretic measure for d
35、ocument similarity A. Proceedings of the 26th international ACM/SIGIR conference on research and development in information retrieval C, pp 449450,2003.11 Van Rijsbergen CJ. Information retrieval M. Butterworths, London, 1979.12 Mengjie Zhang, Xiaoying Gao, Minh Duc Cao, and Yuejin Ma. Neural Networ
36、ks for Scientific PaperClassification A. Proceedings of the First International Conference on Innovative Computing C, Information and Control, IEEE, 2006.13 http:/www.icnc-14 http:/www.pdfbox.org/Hot Research Topic Extraction in Digital LibrariesXiaohui Han, Jun MaSchool of Computer Science and Tech
37、nology, Shandong Univ., Jinan (250101)AbstractAs the amount of scientific literatures in digital libraries increasing rapidly, it is difficult for researchers to gather, organize and make sense of the literatures they are interested in. Further more, the knowledge implicated in the digital libraries
38、 has not been discovered. In this paper, a novel approach is proposed to extract hot research topics during a time period from the corpus of digital libraries. A structural literature similarity is presented firstly. Then the similarity measure is used to group the literatures into topics. Finally,
39、the hotness of each topic is evaluated and the topics with highest hotness are selected as hot research topics. The results of our experiments show the effectiveness of the approach.Keywords: Topic detection, Digital Libraries, Scientific literature, Similarity.作者简介:韩晓晖,男,1983 年生,博士研究生,主要研究方向为信息检索,文本挖掘。