从引文分析看网络结构挖掘.doc

上传人:仙人指路1688 文档编号:4020175 上传时间:2023-04-01 格式:DOC 页数:7 大小:38KB
返回 下载 相关 举报
从引文分析看网络结构挖掘.doc_第1页
第1页 / 共7页
从引文分析看网络结构挖掘.doc_第2页
第2页 / 共7页
从引文分析看网络结构挖掘.doc_第3页
第3页 / 共7页
从引文分析看网络结构挖掘.doc_第4页
第4页 / 共7页
从引文分析看网络结构挖掘.doc_第5页
第5页 / 共7页
点击查看更多>>
资源描述

《从引文分析看网络结构挖掘.doc》由会员分享,可在线阅读,更多相关《从引文分析看网络结构挖掘.doc(7页珍藏版)》请在三一办公上搜索。

1、从引文分析看网络结构挖掘洪光宗深圳图书馆 广东 深圳 518026摘要本文在阐述引文分析的原理及作用的基础上,分析了网络结构挖掘的原理和作用,并给出了网络结构挖掘技术在搜索引擎中几例初步应用。关键词引文分析 网络结构挖掘 网络数据挖掘Analyzing Web Structure Mining From Citation Analysis AspectHong GuangzongShenzhen Library, Shenzhen , Guangdong 518026AbstractThe method of web structure mining originates from citat

2、ion analysis, the article at first sets forth the principle and function of the citation analysis, then analyses the principle and function of web structure mining. At present, the technology of web structure mining is applied into search engine and has got a good effect on it.KeywordCitation; Citat

3、ion analysis; Web structure mining; Web data mining1955 年,加菲尔德博士发表了具有划时代意义的引文索引论文Citation Indexes for Science: A New Dimension in Documentation through Association of Ideas, 1964 年,推出了第一个科学引文索引。如今,世界各地的研究人员利用引文索引深入地研究和评估他们的工作。时代已经跨入21世纪,互联网风行全球,大量的数据资源以二进制的形式存贮,并以超级链接的形式将这些资源联结成一个立体网络。那么,挖掘出这些数据资源之间

4、的内在联系,为我们科学地分析和评估这些数据资源提供帮助,这正是网络结构挖掘的作用之所在。1 引文分析的原理及作用1.1 引文及引文分析 任何一篇论文都不是孤立存在的, 而是相互影响和相互联系的,不同文献间的联系突出表现在文献间的相互引用。那么,什么叫引文呢?简单而言,引文就是引用他人的著述。在科学著述活动中,作者往往要直接或间接地引用他人的著述,以提供文章的佐证,提供历史背景材料,来加强论述的可信度,帮助读者更好地理解作者的观点。详细而言,引文便可以这样描述:在文献甲中提到或描述了文献乙,并以文后参考书目或脚注的形式列出了文献乙的出处,其目的在于指出信息的来源、提供某一观点的依据、借鉴陈述某一

5、事件(实)等。这时,便称文献乙为文献甲的引文,称文献甲为文献乙的引证文献。引文通常也称为被引文献或参考文献,引证文献通常也称为来源文献。文献间的相互引用,表明知识信息内容的继承和利用, 标志着学术研究的进展。正因为引文在科学发展、学术研究中的特殊作用,对引文进行研究分析,可以让我们更清楚地发现文献间的内在联系。所谓引文分析,就是对专业人员论著之间的引用与被引用的现象运用统计、归纳、比较、抽象、概括等分析方法, 对科学期刊、论文、著者等各种分析对象的引用或被引用现象进行分析,以揭示各种文献集合以及与文献交流有关的各种集合特征和集合之间联系的文献计量研究方法。引文分析作为一项学术成果,同时作为一种

6、研究方法,其应用十分广泛。比如说,我们可以用引文分析法来进行机构和人才的评价,作为科学管理的工具;也可以用来研究引文间立体网络关系,从而提示科学发展、历史背景、前景等;还可以用来进行文献检索,对期刊地位进行学术评价等。1.2 引文分析的原理从宏观的角度来看,文献间引用和被引用的特有关系构成了文献信息的整体,整个文献信息构成一张网,这张网是以文献(作者或期刊)为节点、以文献引证关系为边的链型、树型、网型的结构,这些链、树、网可以用加权有向图统一描述。根据划分的标准不同,网络结构也不一样。时序网络。在一组重要的具有代表性的引文中,每篇论文(或著者、或某期刊) 作为节点,按时间先后标以序号,连接这些

7、节点并以引用次数或其被引率为权值,即构成引文时序网络图。时序网络图能够展示出某个研究主题的论文源流、最初著者以及该主题发展的来龙去脉,从中可以探讨科学技术的历史发展和研究规律。同引网络。当两篇或两篇以上的文献共同被后来的一篇或多篇的文献引用,则称这两篇文献为同引,具有同引关系的两篇文献分别与其他文献构成同引关系,这些具有同引关系的文献形成的网络被称为同引网络。利用同引关系进行分析研究,可以展示和预测科学情报交流、传递的结果,同时也是文献检索的一种好方法。耦合网络。若两篇文献共同引用了一篇或多篇文献,则称这两篇文献有耦合关系,如果多篇文献间具有耦合关系,则构成一个耦合网络。从文献耦合关系可以定量

8、地分析文献,描绘出某一领域内的科学研究趋向,还可弥补传统检索方法的不足。1.3 引文分析的作用科学文献的相互引用,说明了知识信息内容的继承和利用,标志着科学循序渐进的发展。利用引文分析,我们可以通过影响因子来评价期刊的影响程度,也可以利用论文被引证次数可以评价个人,同时还可以对期刊和学科的学术影响力进行评价。因此,引文分析的作用是多方面的。(1)研究文献结构和科学结构。引用文献与被引文献在学科上是相关的,这种相关性使文献在学科上建立了的有机联系,并以学科自行组织,构成前后连贯的脉络。通过求本溯源,找出文献之间的联系,从而研究文献结构和学科结构。(2)研究文献的动态规律和用户行为特征。引用数据显

9、示了用户利用文献的习惯和特征,无需通过其他方式对用户进行调查就可以获得用户的习惯与特征。了解了用户的引用习惯,我们可以为其提供针对性很强的信息服务。 (3)研究科学发展史。每一篇文献和引用文献都是科学发展进程中一个特定事件的记录,因此,通过引文分析可以展现这些事件的发生和发展、揭示某种思想和实验的改善、扩充及修正等等,据此进行科学发展史的研究。 (4)评价人才、机构和成果。文献被引的多少、次数,可以作为学术水平、价值的测度。目前,利用引文来评价机构的科研实力的做法已被较为普遍地采用,例如中国科技信息研究所每年都根据SCI收录的论文数和论文被引次数对我国高校和科研院所进行排名,以比较这些高校和科

10、研院所的创造能力。引文分析除了上述列举的应用之外,许多国家还用引文分析来确定科研资助政策和重点研究领域等等。2 网络数据挖掘网络信息挖掘是指在大量样本的基础上,得到数据对象间的内在特征,并以此为依据进行有目的的信息提取。例如,当信息挖掘系统发现“信息源”,它就会自动过滤掉与“信息源”无关的数据,这样可以大大减少用户的检索时间和成本。即除了处理传统数据库中的数值型结构化数据外,还可以是文本、图形、图像、网络信息资源等半结构、非结构的数据。根据挖掘的对象不同, 网络数据挖掘可以分为网络内容挖掘、网络结构挖掘以及网络用法挖掘。2.1 网络内容挖掘网络内容挖掘即从网络的内容/数据/文档中发现有用信息的

11、过程。在互联网中,一些信息是显性的,而另外有一些网络信息是“隐藏”着的数据, 如由用户的提问而动态生成的结果, 或存在于数据库管理系统中的数据, 它们无法被索引, 从而无法提供对它们有效的检索方式。而通过网络内容挖掘,可出找出隐含在web页面中的内容,进行更深层次的加工与处理。2.2 网络用法挖掘通过网络用法挖掘, 可以了解用户的网络行为数据所具有的意义。网络用法挖掘面对的是在用户和网络交互的过程中抽取出来的第二手数据。这些数据包括: 网络服务器访问记录、代理服务器日志记录、浏览器日志记录、用户简介、注册信息、用户对话或交易信息、用户提问式等等。2.3 网络结构挖掘网络结构挖掘即挖掘Web 潜

12、在的链接结构模式。这种思想源于引文分析, 即通过分析一个网页链接和被链接数量以及对象来建立Web 自身的链接结构模式。这种模式可以用于网页归类, 并且可以由此获得有关不同网页间相似度及关联度的信息。网络结构挖掘有助于用户找到相关主题的权威站点, 并且可以概观指向众多权威站点的相关主题的站点。3 从引文分析看网络数据结构挖掘网络结构挖掘理论源自于引文分析,它是引文分析在网络领域的继续与发展。引文分析主要着重于平面文献之间的信息挖掘,找出引用文献与被引文献之间的逻辑关系,进而为科学评估与科学管理、决策等服务,而网络结构挖掘着重于网络文献之间和网络文献内部的信息挖掘,找出同一主题下各超级链接间的链接

13、与被链之间的逻辑关系,进而找出同一主题下的中心站点、中心网页和权威站点、权威网页,为用户能够准确、快捷地使用网络信息资源服务。3.1网络中超级链接网络就像由成千上万个互相连接、交织在一起的细胞组织起来的一个复杂结构,它将世界各地的众多的计算机用户和企业产品放在一个巨大的数据库中。这些网络中的庞大的数据资源正是通过超级链接作用到一起的。这些超链一方面引导用户进行网页浏览,另一方面也反映出网页创建者的一种判断,即如果网页甲存在一条超链指向网页乙,那么表明网页甲的作者认为网页乙包含了有价值的信息,网络结构挖掘正是分析与研究WWW中超链结构信息的工具。3.2网络结构挖掘原理正是由于这些网络资源并不是有

14、序的,而是处于杂乱、无序的状态。例如,同一主题的问题它会出现在不同的站点中,并且这些内容相关的WEB网页并不一定会有链接。在互联网中,超级链接的使用是随机的,并非所有的超级链接都包含十分重要的信息,有的只是为了给用户的浏览提供方便,而没有其它的意义,我们在这种提供浏览方便的超级链接称为浏览超级链接。而那些包含有语义信息的超级链接叫做语义超级链接。只有挖掘出语义超级链接才能帮助我们理解网页文档之间的意义,因此,我们在进行网络结构挖掘时要删去浏览超级链接,找出语义超级链接。网络结构挖掘的原理正是来源于引文分析,它认为若网页甲通过超链指向网页乙,则网页乙与网页甲是主题相关的,网页乙对于网页甲来讲是值

15、得关注的网页,其中隐含着对网页甲来说有价值的信息。在互联网中,相关主题的站点和页面之间一般都存在大量的链接,通过这种链接方式相聚集。但主题相同的所有站点或页面不一定会围绕一个中心相聚集,也就是说一个主题会存在多个聚集中心。聚集中心的站点或页面之间的链接关系最为密切,内容也最为相似,随着内容相似度的降低,相互的链接关系也会逐渐减少。另外,内容上的关联关系也会随着链接级数的增加而降低,会从一个主题逐渐演化为另外一个主题。3.3网络结构挖掘的作用正如引文分析的作用一样,我们分析网络结构挖掘,是因为它能够为我们在进行网站评估、网站分析等提供量化的佐证。(1)了解各网站受欢迎和关注的程度。如果一个网站在

16、同类网站中被用户点击的次数越多,那么它就越受用户的关注。同样,如果一个网站在同类网站中被别的网站链接的次数越多,那么它也受到同类网络主管的重视。相反,根据马太效应,一个网站很少被点击或者很少被链接,那么,它就会沉没在茫茫网海中,无人问津。(2)了解本站点与其它站点之间的关系。如果一个站点被别的站点链接,我们在除掉浏览超链的基础上,那么这两个站点之间应该有语义相关关系,这两个站点就可能为同一主题的相关站点。通过网络结构挖掘,我们可以找出同一主题下分布在世界各地的站点中的相关文档。(3)快速了解一个网站的内部结构。超链分为站内超链和站外超链,通过网络结构挖掘分析站内超链,可以找出本网页和父网页、子

17、网页之间的关系,进而了解一个网站的内部结构,为我们进行网站设计提供参考与借鉴。(4)找出中心站点和核心站点。卡耐尔大学的Jon Kleinberg充分利用网站间的链接关系为人们在无序的网络世界中找出自己感兴趣的、权威知识提供了一种方法。由于一个好的站点,它的管理及设计人员都愿意提供链接可信度高的链接。因此,一个站点可以通过它所链接的网站的权威程度来衡量,同时它会推荐用户许多好的权威站点。反过来,这些又对其它网站的权威性起到了一定的增强作用,一个站点,如果链接了许多权威站点,那么它就是一个中心站点;如果一个站点被其它中心站点链接,那么它就是一个权威站点。(5)找出同链关系和藕合链接关系。同链关系

18、即二个或二个以上网站(页)同时被一个或多个网站(页)链接,藕合链接是二个以上的网站(页)同时链接一个或多个其它网页。通过对它们进行结构挖掘,可以找出网站(页)之间的相互关系,同时,还可以作为网站(页)检索的一个好方法。3.4网络结构挖掘的应用网络结构挖掘最典型的应用是用于搜索引擎中,著名的网络搜索引擎Google就是利用网络结构挖掘的相关原理。Google是通过爬虫软件在网上“爬行”,URL服务器则负责向这些爬虫提供URL的列表,爬虫所找到的网页被送到存储服务器中,存储服务器于是就把这些网页压缩后存入一个知识库中。在存储服务器中每个网页都有一个关联ID,当一个新的URL从一个网页中解析出来时,

19、就会被分配一个关联ID。索引库负责从知识库中读取记录,将文档解压并进行解析,同时分析网页中所有链接并将重要信息存在相应的文档中。这个文档包含了足够信息,可以用来判断一个链接被链入或链出的结点信息。URL分解器阅读节点文档,并把相对的URL转换成绝对的URLs。同时,它还产生链接数据库。这个链接数据库可以用于计算所有文档的页面等级。从Google的搜索原理中可以看到,其关键而具有特色的一步是利用URL分解器获得Links信息,并且运用一定的算法得出了页面等级的信息,这采用的技术正是网络结构挖掘技术。作为一个新兴的搜索引擎,Google正是利用这种对WWW的连接进行分析和大规模的数据挖掘的技术,使

20、其搜索技术远胜一筹。4结束语加菲尔德50多年前提出的引文分析方法,并建立了科学引文索引(SCI),为人们进行科学研究、管理决策提供了科学的依据,而随着科学技术的发展,互联网已成为人们日常生活中必不可少的一部分,人们也越来越习惯于从网络中获取信息,但如何获取正确、权威的知识也正是人们头疼的事情。网络结构挖掘技术应运而生,它充分利用了引文分析的原理,揉合了许多新的技术、新方法。相信随着人们对它的认识不断加强,它的应用将会越来越广泛。参考文献1马费成.CSSCI与社会科学评价.南京大学学报(哲学.人文科学.社会科学版),2000(4)2刘丽珍等.网络结构挖掘的关键分析.计算机应用研究,2003(5)

21、3刘君玉.引文分析的评价.情报理论与实践,1998(2)(来稿时间:2006-07-12 责编:冉文格)作者简介洪光宗,男,1976年生,硕士,深圳图书馆馆员,发表学术论文十余篇。我的大学爱情观1、什么是大学爱情:大学是一个相对宽松,时间自由,自己支配的环境,也正因为这样,培植爱情之花最肥沃的土地。大学生恋爱一直是大学校园的热门话题,恋爱和学业也就自然成为了大学生在校期间面对的两个主要问题。恋爱关系处理得好、正确,健康,可以成为学习和事业的催化剂,使人学习努力、成绩上升;恋爱关系处理的不当,不健康,可能分散精力、浪费时间、情绪波动、成绩下降。因此,大学生的恋爱观必须树立在健康之上,并且树立正确

22、的恋爱观是十分有必要的。因此我从下面几方面谈谈自己的对大学爱情观。2、什么是健康的爱情:1) 尊重对方,不显示对爱情的占有欲,不把爱情放第一位,不痴情过分;2) 理解对方,互相关心,互相支持,互相鼓励,并以对方的幸福为自己的满足; 3) 是彼此独立的前提下结合;3、什么是不健康的爱情:1)盲目的约会,忽视了学业;2)过于痴情,一味地要求对方表露爱的情怀,这种爱情常有病态的夸张;3)缺乏体贴怜爱之心,只表现自己强烈的占有欲;4)偏重于外表的追求;4、大学生处理两人的在爱情观需要三思:1. 不影响学习:大学恋爱可以说是一种必要的经历,学习是大学的基本和主要任务,这两者之间有错综复杂的关系,有的学生

23、因为爱情,过分的忽视了学习,把感情放在第一位;学习的时候就认真的去学,不要去想爱情中的事,谈恋爱的时候用心去谈,也可以交流下学习,互相鼓励,共同进步。2. 有足够的精力:大学生活,说忙也会很忙,但说轻松也是相对会轻松的!大学生恋爱必须合理安排自身的精力,忙于学习的同时不能因为感情的事情分心,不能在学习期间,放弃学习而去谈感情,把握合理的精力,分配好学习和感情。3、 有合理的时间;大学时间可以分为学习和生活时间,合理把握好学习时间和生活时间的“度”很重要;学习的时候,不能分配学习时间去安排两人的在一起的事情,应该以学习为第一;生活时间,两人可以相互谈谈恋爱,用心去谈,也可以交流下学习,互相鼓励,

24、共同进步。5、大学生对爱情需要认识与理解,主要涉及到以下几个方面:(一) 明确学生的主要任务“放弃时间的人,时间也会放弃他。”大学时代是吸纳知识、增长才干的时期。作为当代大学生,要认识到现在的任务是学习学习做人、学习知识、学习为人民服务的本领。在校大学生要集中精力,投入到学习和社会实践中,而不是因把过多的精力、时间用于谈情说爱浪费宝贵的青春年华。因此,明确自己的目标,规划自己的学习道路,合理分配好学习和恋爱的地位。(二) 树林正确的恋爱观提倡志同道合、有默契、相互喜欢的爱情:在恋人的选择上最重要的条件应该是志同道合,思想品德、事业理想和生活情趣等大体一致。摆正爱情与学习、事业的关系:大学生应该

25、把学习、事业放在首位,摆正爱情与学习、事业的关系,不能把宝贵的大学时间,锻炼自身的时间都用于谈情说有爱而放松了学习。 相互理解、相互信任,是一份责任和奉献。爱情是奉献而不时索取,是拥有而不是占有。身边的人与事时刻为我们敲响警钟,不再让悲剧重演。生命只有一次,不会重来,大学生一定要树立正确的爱情观。(三) 发展健康的恋爱行为 在当今大学校园,情侣成双入对已司空见惯。抑制大学生恋爱是不实际的,大学生一定要发展健康的恋爱行为。与恋人多谈谈学习与工作,把恋爱行为限制在社会规范内,不致越轨,要使爱情沿着健康的道路发展。正如马克思所说:“在我看来,真正的爱情是表现在恋人对他的偶像采取含蓄、谦恭甚至羞涩的态

26、度,而绝不是表现在随意流露热情和过早的亲昵。”(四) 爱情不是一件跟风的事儿。很多大学生的爱情实际上是跟风的结果,是看到别人有了爱情,看到别人幸福的样子(注意,只是看上去很美),产生了羊群心理,也就花了大把的时间和精力去寻找爱情(五) 距离才是保持爱情之花常开不败的法宝。爱情到底需要花多少时间,这是一个很大的问题。有的大学生爱情失败,不是因为男女双方在一起的时间太少,而是因为他们在一起的时间太多。相反,很多大学生恋爱成功,不是因为男女双方在一起的时间太少,而是因为他们准确地把握了在一起的时间的多少程度。(六) 爱情不是自我封闭的二人世界。很多人过分的活在两人世界,对身边的同学,身边好友渐渐的失去联系,失去了对话,生活中只有彼此两人;班级活动也不参加,社外活动也不参加,每天除了对方还是对方,这样不利于大学生健康发展,不仅影响学习,影响了自身交际和合作能力。总结:男女之间面对恋爱,首先要摆正好自己的心态,树立自尊、自爱、自强、自重应有的品格,千万不要盲目地追求爱,也不宜过急追求爱,要分清自己的条件是否成熟。要树立正确的恋爱观,明确大学的目的,以学习为第一;规划好大学计划,在不影响学习的条件下,要对恋爱认真,专一,相互鼓励,相互学习,共同进步;认真对待恋爱观,做健康的恋爱;总之,我们大学生要树立正确的恋爱观念,让大学的爱情成为青春记忆里最美的风景,而不是终身的遗憾!

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 办公文档 > 其他范文


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号