《同类网站查询接口的集成系统设计与实现毕业论文.doc》由会员分享,可在线阅读,更多相关《同类网站查询接口的集成系统设计与实现毕业论文.doc(24页珍藏版)》请在三一办公上搜索。
1、毕业论文(设计)论文题目:同类网站查询接口的集成系统设计与实现学生姓名: 学 号:0808210132所在院系:计算机与信息工程系专业名称:计算机科学与技术届 次:2013届指导教师: 淮南师范学院本科毕业论文(设计)诚信承诺书1.本人郑重承诺:所呈交的毕业论文(设计),题目同类网站查询接口的集成系统设计与实现是本人在指导教师指导下独立完成的,没有弄虚作假,没有抄袭、剽窃别人的内容; 2.毕业论文(设计)所使用的相关资料、数据、观点等均真实可靠,文中所有引用的他人观点、材料、数据、图表均已注释说明来源; 3. 毕业论文(设计)中无抄袭、剽窃或不正当引用他人学术观点、思想和学术成果,伪造、篡改数
2、据的情况; 4.本人已被告知并清楚:学院对毕业论文(设计)中的抄袭、剽窃、弄虚作假等违反学术规范的行为将严肃处理,并可能导致毕业论文(设计)成绩不合格,无法正常毕业、取消学士学位资格或注销并追回已发放的毕业证书、学士学位证书等严重后果; 5.若在省教育厅、学院组织的毕业论文(设计)检查、评比中,被发现有抄袭、剽窃、弄虚作假等违反学术规范的行为,本人愿意接受学院按有关规定给予的处理,并承担相应责任。 学生(签名): 日期: 年 月 日目 录同类网站查询接口的集成系统设计与实现学生:魏敏(指导老师:陈磊)(淮南师范学院计算机与信息工程系)摘 要:随着Internet与网络技术的飞速发展,网上的信息
3、以海量方式增长,然而我们却不能快速而准确获取有效的信息。海量信息只能通过查询接口访问获得,为了能够同时访问同一领域多个Web数据库,需要对多个Web数据库的查询接口进行集成通过实验分析,基于查询条件的深网查询接口集成方法不仅简化了模式匹配的复杂过程,而且很大程度上提高了模式集成的精度因此,此集成方法是高效可行的研究深度网的最终目的是为获取隐藏于Web应用之后的网络数据库中的数据,通过查询接口在线访问后台数据库,这改变对传统的基于搜索引擎的查询和获取信息的方式带来了巨大的挑战。传统的搜索引擎只能进行静态页面的搜索,现有的接口集成方法主要集成各个网站提供的高级搜索接口,这样建立的集成接口由于包含过
4、多的属性,面在一些属性上可代用户选择的候选值更是繁杂,不便用户使用,于是设计了基于查询条件的集成接口,避免了浏览复杂的查询接口。关键词:查询接口;数据库;接口集成;搜索;属性抽取Congener website query interface integration system design and implementationStudent: Wei Min (Faculty Adviser:Chen lei)(Department of computer and information engineering, Huainan Normal University)Abstract:Wit
5、h the rapid development of Internet and network technology, the information on the net growth in vast amounts of way, but we cant get effective information for accurate and fast. Can only be acquired through query interface to access vast amounts of information, in order to be able to access to the
6、same field at the same time multiple Web database, the need for multiple Web database query interface integration. Through the experimental analysis, based on the query conditions of deep Web query interface integration method not only simplifies the complex process of pattern matching, and largely
7、enhances the precision of model integration. Therefore, based on the query conditions of deep Web query interface integration method is efficient and feasible. The ultimate goal of network research depth is for hidden in the Web application after the network data in the database, through online acce
8、ss to background database query interface, which changed the traditional way based on search engine query and access to information brings great challenge. Traditional search engines can only carry on the static page search, the existing interface integration approach mainly integrated each site off
9、ers advanced search interface, so that establish the integration of the interface due to contain too many attributes, face on some of the properties for the users choice of candidate values is more complex, inconvenient to users, so the integration interface design based on the query conditions, avo
10、iding the browse complex query interface.Key word:Query interface; Database; The interface integration;Search; Attribute sampling前言论文主要任务是针对当前同一领域的不同站点所提供的各个查询接口进行集成,为用户提供一个统一的查询接口,从而节省用户的查询时间。用户在统一的查询接口上输入查询条件,这个查询条件会被分解并传送到各个站点,并被提交,从而得到站点的部分查询结果,再将各站点得到的查询结果进行整合,最终为用户返回一个完整的查询结果。使用本体(ontology定义为用
11、户浏览和查询处理领域知识)的“桥梁”作用,设置属性之间的映射关系不同的接口模式,准确地识别语义之间的关联不同的界面特性,模型融合,根据模式匹配的结果,合并网站数据库查询接口设置在相同的语义属性,并且尽量保持查询接口领域的结构特点和属性顺序,以取得集成查询界面。互联网包含了大量的可获取信息,它的内容存储在一个真正的在线数据库,但是这个信息获得得通过查询接口来访问。为了提供给用户属于网络特定的区域根据去问的途径需要对网络数据库查询接口集成。因此,同类查询接口集成可以看作是同领域各本地查询接口之上的全局视图。同类查询接口集成主要完成两个方面的工作:模式的集成与模式的匹配。从模式匹配来看,传统的模式匹
12、配方法主要由对比匹配发现属性相关性和统一的全局模型。然而,由于Web数据库的自治性导致查询接口形式和内容的多样性,和最终所有可能的属性组合的搜索空间很难,使模式匹配面临更多的挑战。使属性之间高精度匹配,查询接口模式匹配使用领域本体概念映射方法,遵循本体语义元信息,计算的模式统一,建立属性之间的映射关系不同的接口模式,实施不同的深层网络查询接口属性匹配。在模式融合方面,传统模式融合方法没用充分考虑属性的模式信息,只是针对属性标签,导致集成结果不够完善和精确,因此,查询接口模式融合通过定义模式融合规则对模式匹配结果进行处理,以最终获得源模式集的全局查询接口。目前国内在利用计算机实现集成的网站查询接
13、口集成系统设计和这一领域的研究还有很大可能的研究空间,所以选择了这个主题,力求在这个领域作出贡献。 模式匹配方法模式匹配方法主要包括基于本体、基于统计模型和基于聚类。1.1模式匹配方法基于本体每个源接口形式化为XML架构,并产生相应的XML架构的基础,然后再定义一组规则,形成主体匹配的自定义域本体概念,产生集成接口。然而,由于这种方法的匹配精度依赖于所定义的匹配规则,需要大量的人工定义精确的规则。基于本体的关系数据库模式匹配的方法,先计算输入的单词相似的本体,然后使用聚类方法和定义的概念聚集近似映射功能映射得到的最终结果。然而,在计算的输入字和本体相似时,考虑只有这两个关键词的相似性,没有得到
14、充分利用本体语义级别的功能。基于本体的集成方法,通过建立综合查询接口领域本体,然后定义推理规则消除冲突,使每个查询的界面和集成的查询接口匹配。然而,这第一场比赛后可能使综合查询接口集成方法不能完全与本地查询接口匹配,导致在一个综合的结果是不可靠的,全面,准确。在模式融合方面,提出并实现查询接口集成的原型系统的首要条件是设计一种交互式聚类匹配算法,得到不同查询接口属性之间的对应关系,将获得匹配关系的属性聚集到同一类中,并根据聚类规则选出每一类中的特征属性。由于复杂的映射关系频繁出现,不能完全自动化实现集成的过程,需要通过用户交互方式指导解决映射过程中不确定的问题,最后将每一类的特征属性作为统一查
15、询接口的属性。但是,该方法忽略了查询接口中很多有用的信息,并且需要用户交互来解决问题。由此可见,虽然同类网站查询接口集成取得了一些研究成果,但是,仍然有很多关键问题有待进一步改善。在模式集成,综合查询界面,提出并实施了一个原型系统的首要条件是要设计一个互动的聚类匹配算法,以获得不同的查询接口属性之间的映射关系将被匹配到同一类物业聚集,根据规则选择每个集群在要素属性类。由于复杂的映射经常发生,不能完全实现自动化,从而实现集成的过程,需要通过用户交互指导解决问题的过程中的不确定性映射,最后是每类作为一个统一的查询接口属性的特性。然而,该方法忽略了很多有用的信息的查询接口,需要用户交互来解决问题,并
16、给用户带来不便,有一些关键问题有待进一步改进。1.2模式匹配方法基于统计模型基于统计模型:分析统计模型属性名称同时出现的频率和模式,应用“正关联”和“负关联”双重算法同时处理简单的1:1匹配和复杂的M:N匹配,正相关”往往对应元素之间的“群组关系”,而“负关联”通常对应于“同义关系”,然后把得到的相关知识应用于辅助匹配。使用关联搜索方法获得属性间的复杂匹配,该方法通过应用关联公式计算属性间的关联值,然后定义函数选择、同义属性匹配。然而,这种方法基于统计抽样空间,没有充分考虑属性语义之间的关联。1.3模式匹配方法基于聚类优先选择用于获取相关的属性的匹配方法,首先通过聚类相关的属性的集合,然后用最
17、大的选择策略和贪婪策略和设计新的选择策略相结合的策略,删除不正确的属性关联。然而,该方法只考虑查询接口的属性标记,并忽略其它有用的信息,在同时,不识别匹配的复杂性。然而,这种方法不考虑之间的语义关联的属性和属性忽略了其他有用的信息。基于集群的模式匹配方法,先在小组赛使用的相关属性,那么相似的概念来计算通过聚类的代名词属性终于可以用贪心算法来匹配选择。然而,这种方法将查询接口一组平图案的属性作为一个实体,忽略了丰富的结构信息查询接口。2 深网查询接口集成分析属性分析是查询接口集成的最主要途径,利用查询接口的模式信息和语义信息识别不同查询接口属性之间的匹配关系,从而获得一个集成的查询接口,其框架如
18、图所示:图 深网查询接口集成框架2.1 模式匹配数据库的自治性使得不同查询接口语义相似或相同的属性具有不同的标签、不同的数据格式与组织结构。为了获得统一的查询接口,对不同的语义查询接口要匹配的属性相同。因此,模式匹配是网络的异构信息集成的关键问题。定义1:模式匹配(schema matching)。可以形式化定义为函数schema matching(I1,I2,),其中I1,I2为输入信息,A为辅助信息,满足如下条件:)I1S1,D1S1为输入模式信息,D1为满足模式S1的数据实例。)I2S2,D2S2为输入模式信息,D2为满足模式S2的数据实例。)A表示所有可利用的帮助更好理解模式语义并协助
19、完成匹配任务的所有辅助信息,如字典、本体等。)匹配函数schema matching(I1,I2,)在执行过程中先产生模式元素间候选对应关系集,经辅助工具判断最终生成模式元素间确定的对应关系集作为输出。候选对应关系集(candidate correspondence set,CSS)的 形 式 化 描 述 为CSS S1i,S2j,similarysimilary,0,1,其中S1i表示模式S1中第i个元素按语义规则书写的表达式。S1表示模式元素的个数,如果S1m,那么0,m。S2j与S1i类似,表示S2中第j个元素按语义规则书写的表达式,S2表示模式元素的个数,如果S2n,那么j0,n。si
20、milary表示S1i与S2j的相似度,表示相似度阈值,如果S1i与S2j的相似度大于(等于)阈值,那么意味着S1i与S2j相似,将相似关系记录于确定的匹配对应关系集 (matching correspondence set,MCS)中,最后,将作为匹配函数的输出。通过模式匹配模式定义,根据现有的资料,发现语义对应模式成员之间正确的映射,它包含2种类型匹配:简单的和复杂的匹配。简单的匹配是指以1:1的语义属性之间的映射。不同于简单的1:1匹配,复杂匹配的是属性频繁1:M匹配或M:n匹配,即M模式属性匹配另一个模式的N个属性。目前的研究重点是1:1匹配,简化了复杂的匹配,主要由于在搜索空间的属性
21、的所有可能组合的消耗是非常困难的。2.2 模式融合匹配关系模型之间的融合性能,通过建立统一的全局查询接口,集成查询接口。定义2 模式融合可以看作一个三元组(DS,IS,IS*):)DSdS1,dS2,DSn,DS表示在线数据库集合,DSi(1in)为一个在线数据库;)ISIS1,IS2,ISM,IS表示查询接口模式集合,IS(1jm)为一个数据库的查询接口模式;)IS*IS1IS2ISM,IS*表示在模式IS1,IS2,ISM匹配基础上,合并了网站查询接口集合中表示同一语义的属性,同时尽可能地保持该领域查询接口的属性顺序和结构特征,产生的集成查询接口页面。一个设计良好的集成查询接口应具备以下3
22、个特点:)完备性(conciseness):在同一领域的深网查询接口中,如果其他查询接口中的任何属性与之都不相似,那么这个属性应该出现在集成查询接口中。)一致性(coherence):源自不同查询接口语义相似的属性以统一的通用属性显示在集成查询接口中,集成查询接口中的属性标签具有一定的共性,能够传递不同查询接口中同义属性的含义。)用户友好性(friendly):集成查询接口的属性标签应该是该领域中最常用的词汇,且属性间的结构合理,布局恰当,为用户提供较好的可视化效果。3 基于本体的深网查询接口集成3.1 本体构建和本体概念模型为了提高本体的构建效率,并在一定程度上能够保证领域本体的质量,提出了
23、一种半自动构建本体的算法。Step1、通过本体构建工具构建核心本体:1)领域术语抽取。确定领域类型,从特定领域深网查询接口表单中对领域术语进行抽取。2)领域概念抽取。领域核心本体要求领域概念必须是语义明确的,所以需要用领域内最通用的语义来描述该类术语。3)概念间层次关系获取。捕获术语间的语义关系,例如同义(Synonymy)关系、继承(ISA)关系、包含(part-of)关系等。4)领域本体精炼。本体工程师以本体工程学标准对已获取的领域本体概念及概念间的语义关系进行修正。5)领域本体描述。采用本体描述语言(如RDF,XML,OWL等)描述领域本体,本体描述语言提供了机器对文档内容可处理的机制。
24、Step2、如果某个术语不存在于核心本体中,那么通过匹配方法确定术语和本体概念之间的语义关系。Step3、如果相匹配,那么将匹配的概念加入到核心本体适当位置,以完成本体的自动扩展。完成本体构建后,本体可以形式化地表示为概念层次结构,用户的查询以及相关数据可以映射到概念空间,它可以看作是一个保存概念和概念之间关系的知识系统。定义3 :领域本体概念模型(domain ontology concept model,DOCM)。描述了特定领域实体的术语组织以及术语之间的关系,每个概念可以形式化为ClassAi,DTi,Si,CIi,CAi,SCi,nI1,nI2,nIk,Ni,表示与该概念相关的数据信
25、息,其中:Ai表示概念主类,它是特定领域下通用的、人们易于理解的词汇,该词汇表示一类概念,可以看作描述这类概念的关键字;DTi表示概念所属的数据类型;Si表示概念主类的同义词集合,即概念别名;CIi表示概念主类的实例集合;CAi表示与概念相关的条件属性集合,主类与条件属性表示包含关系;SCi表示概念主类的子类集合,主类与子类表示继承关系;nI1,nI2,nIk表示概念主类的k个实例的计数器;Ni表示概念主类的计数器。DOCM具有良好的组织结构,能够清晰地描述概念及概念之间的关系。本体构建采用Protg(是一个史丹佛大学开发的本体编辑和知识获取软件,开发语言采用Java,属于开放源码软件)作为本
26、体编辑工具,并以OWL作为本体描述语言。通过对OWL文件的操作,可以很容易地实现对DOCM的调用。3.2 基于本体的模式匹配基于本体的网站查询接口模式匹配方式有属性级和实例级2种匹配:定义4:本体的属性级匹配。假设A*表示Web数据库查询接口的属性,Ai表示DOCM中概念节点的概念主类,Si表示Ai的同义词集合,CAi表示Ai的条件属性,SCi表示Ai的子类,Sim(A*,Ai)表示应用基于本体的短语相似度算法。计算A*与Ai的相似度值,表示相似度阈值,Ni表示Ai的计数器。属性级匹配存在以下几种情况:)如果A*Si或者A*Ai,那么表示A*与Ai是1:1的属性匹配,Ai的计数器加,即;)如
27、果A*Si,A*Ai,且Si(A*,Ai),那么表示A*与Ai是1:1的属性匹配,同时,将A*作为Ai的一个同义词加入同义词集合Si中,Ai的计数器加1,即NiNi1;)如果A*CAiSCi,那么表示A*与Ai是M:1的属性匹配,Ai的计数器加,即NiNi1;)如果A*DOCM,且Ai,Si(A*,Ai),表示A*与Ai不存在匹配关系,那么创建一个新类Class,将A*作为Class的主类加入DOCM中,并设置A*的计数器为。定义5:基于本体的短语相似度算法。给定短语P1和短语P2,通过预处理将短语P1和短语P2分别表示为词集P1c1,c2,cm和P2cl1,cl2,cln,对于短语P1中的每
28、个词汇ci(1im,借助通用本体WordNet分别计算其与短语P2中每个词汇clj(1jn)的相似度,其计算如式(1)所示:其中,overlap(ci,clj)表示词汇ci与词汇clj的语义重合度,即在WordNet概念树中,词汇ci与词汇clj之间包含相同上位概念的个数。Depth(ci)表示词汇ci的概念深度,即词汇ci在WordNet概念树中到达根节点的层次深度,同理,depth(clj)表示词汇clj在WordNet概念树中到达根节点的层次深度。如果短语P1中词汇ci与短语P2中词汇clj相同,那么Sim(ci,clj)1。然后,在短语P2中找到与短语P1中词汇ci相似度最大的值作为短
29、语P1相似度值集中的一个值Si,从而获得短语P1的相似度值集Sim1S1,S2,Sm,采样同样方法获得短语P2的相似度值集Sim2sl1,sl2,sln。短语P1和P2的最后相似度通过每个短语中词汇各自的相似度占总单词个数的比例获得,其计算如式(2)所示:假设给定短语P3,为相似度阈值。如果Sim(P1,P2)Sim(P1,P3)成立,那么可以推测短语P2和短语P3是语义相似的,都应记录于匹配对应关系集中。通过关键字属性级匹配方法,可以准确识别DOCM中类或属性与来自不同查询接口属性之间的匹配关系,不仅能够识别简单匹配,而且能够识别复杂匹配。相比于传统模式匹配方法,大大提高了匹配精度并降低了模
30、式匹配过程的复杂性。假设属性来自查询接口QI1,属性来自查询接口QI2,即eQI1,fQI2,同时,在DOCM中存在主类g,该主类g包含2个同义词汇e和f,那么,在比较查询接口QI1中属性e和查询接口QI2中属性f时,首先比较查询接口QI1中属性e与DOCM中主类的相似度。通过比较,如果发现查询接口QI1中属性e与DOCM中主类g相似,并且在g的同义词集合中包括同义词f,那么DOCM中的主类g可以看作“桥接”,进而推出查询接口QI1中属性e和查询接口QI2中属性f是相似的,此时查询接口QI1中属性e和查询接口QI2中属性f为1:1的简单匹配。对于M:N匹配,首先将其转换为M1匹配和1:N匹配,
31、进而获得M:N匹配。例如:某个源查询接口中存在属性“公共属性”,它包含2个条件属性“date from”和“date to”,当查找DOCM时,DOCM中包含类属性“from”和“to”,并且类属性“from”和“tp”在DOCM中的概念主类为“出版日期,那么通过比较可知源查询接口属性“publication”与DOCM中主类“出版日期”是相似的,进而可以推知“publication”与“from”和“to”为1:M匹配,“date from”与“publication date”为M1匹配,“from”和“to”与“date from”和“date to”为M:N匹配。定义6:基于本体的实例
32、级匹配。假设A*表示Web数据库查询接口的属性,Ai表示DOCM中概念节点Ci的概念主类,CI*表示A*的实例集合,CIi表示Ai的实例集合,NI1,NI2,Nik表示Ai的k个实例计数器集合。如果A*与Ai相似,那么SiM(A*,Ai)成立,其中表示A*和Ai的相似度阈值。对于查询接口属性A*的实例Ins*j,Ins*jCI*,存在以下几种情况:1)如果IN*jCIi,那么NihjNij1;2)如果INs*jCIi,CIiINS1,INsk,SiM(Ins*j,INsM)MSiM(Ins*j,INS1),SiM(Ins*j,INS2),SiM(IN*j,INsk),1Mk,那么NiMNiM1
33、,否则表示实例INs*j的概念不存在于Ai的实例中,那么将INs*j作为一个新实例加入DOCM中类Ai的CIi中,同时,将新实例的初始计数器设置为1。例、假设源查询接口包含属性“category”,其实例空间为“architecture and photograhy”,“philosophy”,“Biography”,DOCM中包含主类“subject”,其实例空间为“history”,“philosophy”,“architecture”。由于源查询接口属性“category”与DOCM中主类“subject”相似,因此,需要合并属性值,以确定实例空间。通过基于本体的短语相似度算法计算“ar
34、chitecture and photograhy”与“architecture”是相似的,那么DOCM中主类“subject”的实例“architecture”计数器加1;源查询接口属性实例“philosophy”在DOCM中主类“subject”的实例值中,那么DOCM中主类“subject”的实例“philosophy”计数器加1;源查询接口属性实例“Biography”与DOCM中主类“subject”的所有实例值均不相似,表明实例“Biography”不存在于DOCM中主类“subject”的实例值中,那么将“Biography”作为主类“subject”的一个新实例加入DOCM中主
35、类“subject”的实例值中,并将计数器初始值设置为1,以丰富本体实例。查询接口集成模式匹配详细流程如图2所示:图2 查询接口集成模式匹配过程其过程可以分为3个阶段:1)、数据预处理为了避免因为形式上的差别导致丢失匹配,在执行匹配过程之前,需要对查询接口及DOCM进行标准化处理。标准化步骤:Step1、考察每个词汇,如果词汇中含有不属于集合,0,9的字符,那么将其用空格字符替换。Step2、转换所有的大写字符为与之等价的小写字符。Step3、停用词移除。停用词是指那些在语言中常常出现、但是可以忽略的单词。它们作为句子的组成成分,却不能表达文档的任何内容。Step4、转换词汇中的缩写和简写。S
36、tep5、通常,一个词汇在不同的语境中有着不同的语法形式,词干提取使得匹配过程能接受单词的不同变化形式,从而提高查全率。因此,需要对每个词汇使用词干分析算法提取词干。2)、匹配发现Step1、依次遍历每个源查询接口的模式链表,获取每个逻辑属性的属性标签;Step2、通过基于本体的属性级匹配算法对该属性标签进行匹配;Step3、如果源查询接口属性含有实例集合,那么调用基于本体的实例级匹配算法;Step4、最后将匹配结果存储于映射表中。3)、记录匹配关系映射表结构如图3所示,它记录了DOCM中每个本体概念与之相匹配的所有源查询接口属性之间的映射关系。映射表以链表形式表示,每个本体概念结点链接了与该
37、结点相匹配的源查询接口属性信息,这些信息包括URL,Action,Name,type,label,value,constraint。图3映射表通过映射关系能够自动识别相同语义查询接口的不同表现形式,将异构数据库进行整合。3.3 模式融合规则模式融合通过由模式匹配器识别出的属性映射关系合并源查询接口的模式,以构造全局查询接口。接口模式的融合包括4个方面:1)、查询接口集成属性标签的确定网站查询接口集成以源查询接口模式作为输入,通过DOCM建立语义相近属性间的映射关系,将多个数据库模式生成为模式元素间属性与DOCM中概念的映射,在不同查询接口间发现1:1匹配和M:N匹配,使这些模式合并为统一的全局
38、模式。由于不同查询接口界面不同,并且对于同一查询条件命名方式也不相同,因此,通过基于本体的深网接口模式匹配,将不同查询接口的属性标签映射为DOCM中的类(概念),用DOCM中的主类对不同查询接口表示相同语义的元素统一命名,作为集成查询接口的属性标签,同时保留集成查询接口与各源查询接口的映射关系。2)、查询接口集成属性类型的确定根据类型识别器识别各属性的类型,属性类型由以下两个规则确定:规则1、如果所有已匹配同义属性具有相同的类型(MAiNe),那么全局属性的属性类型为该类型。规则2、如果各源查询接口同义属性的类型不完全相同,那么分别记录各源查询接口同义属性类型个数,在集成查询接口中,以出现次数
39、最多的属性类型作为集成查询接口该属性的类型。3)、查询接口集成的属性值(即搜索空间)的确定在查询接口集成属性值的选择过程中,根据属性类型的不同,属性值融合分为2种方式:字符类型属性值融合和数值类型属性值融合。对于不同查询接口的同义属性,如果该属性的属性值与DOCM中同义主类的实例相匹配,那么不作处理;如果该属性的属性值与DOCM中同义主类的实例不相匹配,那么,将源查询接口属性的属性值作为该主类的新实例加入到DOCM中。字符类型值融合(Merging alphabetic domains):使用值之间的语义关系来合并它们并生成全局值集合。选择方法包括以下2种:字符串匹配(approximates
40、t string matching)。两个属性名字的一种近似字符串匹配是找出两个名字字符串的编辑距离是否在一个允许的阈值内。编辑距离,即将一个字符串转换成另一个字符串所需要插入、删除和替换的字符数。例如,将NKN转换成NIKON需要添加2个字符,而较长的字串长度为5,因此它们的编辑距离为2.5,即0.4。短语相似度匹配(phrase similarty matching)。即使用基于本体的短语相似度算法获得两个包含多个单词的属性值的相似度,如果相似则选择最常用的值作为全局属性值。例4、如图4所示,属性“subject”和属性“category”来自2个不同的源查询接口,DOCM中包含主类“su
41、bject”,因此,集成查询接口中该同义属性以DOCM中的主类为主,即为“subject”,经过相似度计算,合并每个查询接口的实例值,得到集成查询接口属性“subject”的实例值。图4合并字符型实例值例子数值类型值融合:分为离散型数值和区间型数值。对于离散型数值融合只需将各源查询接口同义属性的离散数值合并即可。对于区间型数值一般由数值和区间(range)修饰语联合表示。例如,“baby”被解释成“under 3 years”,“teen”表示“1318years”,“adult”表示“over 18 years”。此时,需要建立一个语义词典保存常用的range标识,并记录range的含义,如
42、表1所示:范围修饰符符号小于超于远超于表1 区间标识符字典例5、如果2个源查询接口的同义属性的属性值均含有数值区间类型值,那么在合并值的过程,首先解析属性值,对于未出现于区间标识符字典中的字符(除数字外)用空格表示,出现过的字符,根据区间标识符字典,将属性值表示为数值区间。当属性的属性值匹配完毕后,按照升序对属性值进行排序,并在每两个相邻值之间增加区间标识,如图5所示:图5 区间型数值合并过程4)、集成查询接口布局的确定。一般情况下,用户友好的、重要的、使用频率高的属性出现在查询接口的前面位置。在源查询接口中,每个属性都有各自的位置,而属性布局的位置反映了属性的重要程度。通常,查询接口的前几个
43、属性的使用频率比后面属性的使用频率高。为了保证重要的属性仍然在全局查询接口的前面位置,引入属性位置平均值概念,用于确定全局查询接口属性的排序。定义7、属性位置平均值 (attribute average position)。集成查询接口属性的位置平均值等于该属性在所有源查询接口中位置的总和与其出现次数总和的比值,其计算如式(3)所示:其中M表示所有包含与ci匹配的源查询接口个数;lposk(ci)表示属性ci在查询接口k中的位置;lfeok(ci)表示属性ci在查询接口k中出现的次数,如果是1:1匹配,则为1;如果是复杂匹配,则为查询接口中复杂匹配的属性个数。查询接口集成的布局规则如下:规则1
44、、当布局集成查询接口时,首先按照全局属性的位置平均值升序排序,值较小的属性排列在前面。规则2、如果属性位置平均值相同,那么按照全局属性的出现频率和的顺序排列,频率和较大说明属性较为重要,需要放在前面。规则3、如果集成查询接口的属性包括所有源查询接口属性,那么集成查询接口属性的数量可能会较多。为了消除一些不重要的属性,可以考虑设置一个阈值,用来表示集成查询接口中所期望的属性个数。4 实验应用Protg工具构建领域本体,并通过java API对Protg进行调用。在比较相似度的过程中,通过JWNL API调用WordNet,同时,借助DOCM获取所有接口间的模式匹配,实现查询接口的集成。以图书领域
45、为例,如果集成查询接口属性个数阈值设置为10,相似度阈值设置为0.8。图6深网集成查询接口示例其中:区域1表示参数设置;区域2表示源查询接口的URL集合;区域3表示一个查询接口界面;区域4表示集成查询接口界面;区域5表示查询接口间的匹配过程。如果用户从区域2中选择一些URL,那么经过模式抽取和模式匹配后,将在区域4中产生这些的集成查询接口;如果用户需要比较某个源查询接口和集成查询接口的差异时,用户可以从区域2中选择源查询接口的URL,双击该URL,其接口结构将在区域3中显示。通过区域3和区域4,用户可以很容易地了解不同查询接口之间的差异。为了进一步验证本文方法的可行性和高效性,分别进行以下3个
46、实验:实验1、模式匹配采用信息检索中的查全率、查准率和FMeasure来评价查询接口模式匹配的精度。查全率指由算法所识别出的正确匹配占所有匹配的百分比,查准率指由算法所识别出的正确匹配占所识别匹配的百分比,FMeasure是一个把查全率和查准率结合起来的指标,FMeasure值越大系统性能越好。网站查询接口集成的数据集来自UIUC集成知识库,从该数据集中选择46个图书领域查询接口用以验证本文的方法。如果属性匹配阈值设置为0.8,那么模式匹配结果如表2所示:数值属性编号查全率查准率F-Measure10860.9180.9290.923201400.9210.9350.928302060.932
47、0.9320.932463060.9350.9410.938表2 基于本体的模式匹配结果实验结果表明,随着查询接口数目的增加,查全率、查准率和FMeasure逐渐提高。原因在于模式匹配的过程中,不断地将未包含于本体中的概念加入到本体的适当位置,使得领域本体不断完善。由于模式匹配的精度在很大程度上依赖于本体知识库的完备性。因此,一般来说,领域本体知识库越完备属性匹配精度越高。实验2、模式融合采用信息检索中的查全率、查准率和FMeasure来评价查询接口模式融合的精度。查全率指由算法所识别出的正确融合属性占所有融合属性的百分比,查准率指由算法所识别出的正确融合属性占所识别融合属性的百分比。由于属性值级的合并精度主要取决于属性类型为“select”和“text area