《生物医学文本挖掘目前研究工作综述.ppt》由会员分享,可在线阅读,更多相关《生物医学文本挖掘目前研究工作综述.ppt(61页珍藏版)》请在三一办公上搜索。
1、生物医学文本挖掘目前研究工作综述,A survey of current work in biomedical text mining,Aaron M.Cohen,MD is a postdoctoral fellow in the medical informatics programme at OHSU.Dr Cohen works in the area of text mining,focusing on issues and applications important to biomedical researchers.He was chairman of the W3Cworki
2、ng group that produced version 2 of the Synchronized Multimedia Integration Language(SMIL 2.0).William Hersh,MD is Professor and Chair of the Department of Medical Informatics&Clinical Epidemiology in the School of Medicine at Oregon Health&Science University(OHSU)in Portland,Oregon.Dr Hershs resear
3、ch focuses on the development and evaluation of information retrieval systems for biomedical practitioners and researchers.HENRY STEWART PUBLICATIONS 1467-5463.BRIEFINGS IN BIOINFORMATICS.VOL 6.NO 1.5771.MARCH 2005,作者简介,文章来源,Aaron M.Cohen,医学博士,俄勒冈卫生科学大学医学信息学项目的博士后研究员,研究方向是文本挖掘,主要集中在文本挖掘的应用及存在的问题,他是W
4、3C工作组的主席,创建了同步多媒体整合语言版本2(SMIL 2.0).William Hersh,医学博士,是俄勒冈州波特兰市俄勒冈卫生科学大学医学院,医学信息学和临床流行病学专业的教授和主席,研究方向是信息检索系统的开发和评价。BRIEFINGS IN BIOINFORMATICS.VOL 6.NO 1.5771.MARCH 2005,背景和目的,公开发表的生物医学研究成果以及由此带来的潜在的生物医学知识正以越来越快的速度增长,几个世纪以来科技信息通常都是以指数增长2004年MEDLINE数据库含有1250多万条记录,目前仍以每年50万条记录的速度增长。,背景和目的,生物医学研究的目标是发现
5、知识并以诊断、预防和治疗的方式把知识应用到实践。人们很可能没有发现生物医学知识各个要素之间的重要联系,因为没有人建立必要的联系。必须建立一些方法来帮助研究者和内科医生高效地利用现有的研究成果,并把这些研究成果应用到实践,背景和目的,文本挖掘和知识抽取是帮助研究者处理信息过载的方法文本挖掘不同于信息检索(IR)和文本摘要(TS)文本挖掘也不同于自然语言处理(NLP)文本挖掘和知识提取主要集中在解决特定领域的具体问题例如:寻找与偏头痛的生物学过程有关的药理学物质来确定偏头痛可能的新的治疗方法,背景和目的,生物医学文本挖掘的目的是帮助研究者更加有效地识别所需要的信息以及发现被大量的可获得信息掩盖的关
6、系就是通过对文献中及生物医学数据库自由文本中的大量生物医学知识应用算法、统计方法和数据处理方法,把信息过载的压力从研究者转嫁给计算机。,目前研究的活跃领域,命名实体识别文本分类关系抽取同义词缩写词提取假说形成集成框架,命名实体识别(NER),目的是在文本集合中识别出特定类型事物的所有名称,例如在期刊论文集中识别出所有药物的名称,在medline摘要中识别出所有基因名称及符号,命名实体识别具有挑战性,不存在一个完整的包含各种类型的生物医学命名实体的字典相同的词或短语由于上下文不同表达的是不同的事物许多生物学实体有多个名称 PTEN和MMAC1 需要解决候选名称重复的问题可能是由多个词构成的词组
7、例如:颈动脉 carotid artery 因此需要判断实体名称的边界,方法,基于字典的方法:将自然语言文本与事先存在的包括大量生物医学命名实体名称的字典词条进行比对,根据匹配的结果进行实体识别。精确、模糊匹配基于规则的方法:通过规则的定义将实体与其他文本划分为不同的类,进而识别出来,大写字母+符号+数字基于统计的方法:将命名实体识别问题转化为分类问题。通过使用分类工具,对训练文本进行机器学习,进而区分出各种命名实体类型,最终识别出测试文本中的命名实体。混合方法,系统评价指标,准确率(预测正确的命名实体数除以预测命名实体总数)召回率(预测正确的命名实体数除以文本中的命名实体总数)召回率和准确率
8、的调和均值 F-measure=2PR/P+R召回率和准确率的平衡点,NER系统,Tanabe和Wilbur开发的AbGene系统是比较成功的基于规则曾被多个研究者作为命名实体识别组件用于关系抽取研究当中。AbGene系统把Brill的词性标注扩展到包括基因和蛋白质名称作为标记类型使用生物医学文本的7000个手工标注的句子作为训练语料之后AbGene使用手工生成的基于语言统计特性的后处理规则进一步识别基因名称的上下文以及消除假阳性假阴性系统达到了85.7%的准确率和66.7%的召回率。,NER系统,Chang创建了GAPSCORE系统根据词的外观、形态和上下文对句子中的每个词打分,然后采用分类
9、器训练这些特征。分数较高的词更可能是基因或蛋白质名称或符号。利用Yapex语料库进行训练,根据精确匹配和模糊匹配分别计算召回率、准确率和F值模糊匹配(召回率81%、准确率74%、F值77%)的系统性能好于精确匹配(召回率50%、准确率59%、F值54%)。,NER,Hanisch等人利用基因与蛋白质名称的大型词典语义分类可能在蛋白质名称附近出现的词 特异度为95%,敏感度为90%Zhou等人使用基于丰富特征集合的方法训练了隐马尔可夫模型,【构词特征(大写)、形态特征(前缀、后缀)、词性特征、语义触发(核心名词和动词)、别名特征】在GENIA语料库上获得了66.5%的准确率,66.6%的召回率。
10、其他的系统包括Narayanaswamy等人的、Settles的以及Mika和Rost的,NER,Chen和Friedman采用MEDLEE系统识别与生物医学文本中表现型信息对应的短语利用自然语言方法识别期刊论文摘要中的表现型短语以及在文本中由分散的词组成的表现型短语。由于研究较少,可获得的表现型相关的术语知识库较小自动引入成千上万的与语义类型有关的UMLS术语以及来自哺乳动物本体的上千个术语,并且还手工加入了其他术语对300篇文档进行可行性研究,系统的准确率为64%,召回率为77.1%。性能低于基因和蛋白质命名实体识别系统,NER,总之,目前基因和蛋白质NER系统的性能指标F值大约在75%-
11、85%之间。这个值与2002年Hirschman等人研究的结果和2004年BioCreative专题讨论会任务1A的结果一致。虽然性能最好的系统也没有超过前几年的,但是研究者对不同数据集采用不同的方法都得到了一致的结果。,NER,为了解决性能平台,Tanabe和Wilbur利用AbGene生成大型的高质量的词典,包括在生物医学文本中出现的基因和蛋白质名称把AbGene应用到MEDLINE数据库产生了一个包含200多万个预测基因和蛋白质名称的初始集。利用主题分析提纯这些名称列表利用归纳逻辑编程学习规则在主题内区分基因名称和非基因名称利用假阳性过滤器去除明显不正确的名称,例如含有“http”或是以
12、“tion”结尾的名称。最终产生了含有1,145,913个基因名称的集合。随机样本评估得到的准确率约为82%。利用语料库进行评价,精确匹配的准确率为61%,部分匹配的准确率为88%,NER,目前讨论的主题是NER性能多好才能有助于文本挖掘。如果假设关系提取需要识别三个生物医学术语(两个实体和一个关系),那么关系提取的性能应该近似等于NER性能的立方。对于提取新闻文章,这个独立性假设看起来是对的。但这个假设并不适用于生物学关系我们还没有为生物医学文本挖掘获得标准的NER系统构建方法或者是更新词典的方法,所以这一领域的研究工作还要继续。,文本分类,文本分类试图自动测定文档或文档的某部分是否含有感兴
13、趣的特征,通常是根据文档是否讨论某一特定的主题或者是含有特定类型的信息。感兴趣的信息并不是被用户明确指定的,而是提供阳性训练集(已经发现含有感兴趣特征的文档集)和阴性训练集文本分类系统应该能够自动提取可以区分阳性和阴性的特征并把这些特征应用到候选文档进行决策,文本分类,精确的文本分类系统对数据库管理者尤其有用,数据库管理者可能不得不浏览数据库中的大量文献来寻找含有某种信息的少量文献越来越多的生物医学信息都是以文本形式创建,数据库管理者需要把这些信息转换编码数据因此强烈的需要一种有效的方式把文本分类方法应用到生物医学文本。,文本分类,Yeh等人组织了文本挖掘竞赛,是2002年KDD国际竞赛的一部
14、分。任务是要评价FlyBase数据集的论文并根据有没有果蝇基因产物来确定是否应该管理那篇论文性能最好的条目是利用一套手工创建的规则生成的,这些规则是基于词性标注、词典和语义限制创建的,语义限制是通过检测训练文档形成的得到的F值为78%,文本分类,另一个有效的方法是根据文中有没有基因产物对生物医学论文进行分类,进行特征提取后利用朴素贝叶斯分类器分类有两个性能不错的系统,利用规则的表达式(interact+gene name+bind)去寻找词的模式,然后利用支持向量机(SVM)对论文分类,文本分类,Donaldson等人使用支持向量机作为分类器,对文献摘要进行分类,提取出与蛋白质相互作用相关的文
15、献摘要,同时还用来判断句子是否涉及具体的蛋白对100个摘要进行评价得到的准确率为96%,召回率为84%。他们估计这个分类系统能减少约三分之二管理者需要阅读的摘要数目。,文本分类,为了管理Swiss-Prot数据库的信息,有研究利用概率潜在分类(Probabilistic LatentCategoriser,PLC)和KL(KullbackLeibler)分歧重新排序PubMed返回的文档评价显示准确率召回率平衡点大约为70%,相对于原来的40%而言,准确率改善了25-45%Liu等人把文本分类独特的应用到图像说明。在试验研究中,他们分类图像库中的文本来寻找含有表示蛋白质相互作用和信号事件的图像
16、,文本分类,把文本分类应用到生物医学管理者和标引者的实际工作过程中的研究才刚刚开始。2004年TREC Genomics Track中的任务之一就是文本分类问题这个任务试图模仿手工标注者为了寻找含有基因实验证据信息的文档而在小鼠基因组信息学(MGI)系统中浏览过程最后建成标准通用标记语言(SGML)格式的全文集合利用效用测量来评价任务的性能为了将来能够满足管理者和其他用户的需求,改进生物医学文本分类的研究工作必须继续,同义词、缩写词提取,生物医学文献增长的同时生物医学术语也在增长。生物医学实体有多个名称和缩写,如果有一种自动的搜集同义词和缩写词的方法来帮助研究者进行文献研究将是非常有益的。此外
17、,如果实体的所有的同义词和缩写词都映射到表示概念的一个术语上,其他的文本挖掘任务也能更加有效地完成。同义词、缩写词提取的大多数研究都是集中在揭示基因名称的同义词和生物医学术语的缩写词。,同义词提取,许多研究者利用在线数据库生成基因名称同义词列表这些基因数据库多数为基因的正式名称,相对于文献中实际出现的基因名称是不完全的为了创建在文献中出现的有代表的基因和蛋白质名称的同义词列表,需要从生物医学自由文本中自动提取基因名称同义词,同义词提取,Yu和Agichtein结合了AbGene 基因命名实体识别系统,采用统计方法、基于SVM的分类器、基于自动模式提取以及手工生成规则等算法对全文期刊论文进行同义
18、词提取系统的召回率约为80%,准确率约为9%,总的F-measure值约为30%,同义词提取,Cohen采用自动模式抽取方法对MEDLINE摘要进行同义词提取,通过分析同义词共现网络结构选取最佳的同义词模式由于并没有使用成熟的基因NER系统,系统评价的召回率为21%,准确率为23%,F-measure值为22%。该系统可以根据文本中出现的词之间的逻辑关系推断是否为同义词,与没有类似推断功能的系统相比,召回率提高了大约百分之十。,缩写词提取,其他的研究者利用文本挖掘方法提取生物医学命名实体缩写词及其全称形式方法主要依赖于全称与缩写词的接近程度,一般而言,全称或者缩写词通常在括号里,因此,识别缩写
19、词被简化为寻找最佳的缩写词和对应全称的对齐过程。这个步骤还应用了许多排列和评分方法,缩写词提取,Liu和Friedman在大量MEDL1NE文本中统计缩写词和全称的搭配,以此作为规则来检测缩写 词与全称的配对,取得了 96.3%的准确率,88.5%的召回率。Yu等人采用手工创建的模式匹配规则集合识别缩写词及其全称,获得了的95%准确率和70%的召回率Schwartz 和Hearst在1000篇MEDLINE摘要集合中识别与酵母有关的缩写词,获得96%的准确率和82%的召回率。Chang等人用缩写词特征训练逻辑回归模型,并用这些特征评价候选全称形式,在Medstract语料库上获得了80%的准确
20、率和83%的召回率。,同义词、缩写词提取,在单篇文章中自动识别生物医学缩写词和相应全称的问题已经基本解决,上述识别系统都取得了较高的准确率和召回率。今后的研究将把缩写词识别与其他文本挖掘任务结合,并应用到实际的生物医学文本挖掘系统当中例如,在线的医学缩写词词典可以整合到PubMed来扩大检索提取特定期刊论文中未定义的公共领域缩写词是更困难的问题,这需要特定领域专家的知识以及文本附近的上下文。,同义词、缩写词提取,基因和蛋白质名称的同义词抽取研究结果的精度普遍还较低,因此更具挑战性。虽然,自动更新同义词列表对提高文献检索和文本挖掘系统的性能是很有价值的,但是自动提取系统的准确率太低可能引起令人无
21、法接受的噪音。然而,目前正在进行的工作是要标准化正式基因蛋白质名称及其符号的使用,所以将来由于准确率低而引起噪音的问题可能减少。另一方面,仍有一些文献使用非正式的名称。,关系抽取,关系抽取的目标是检测特定类型的一对实体如基因、蛋白质和药物名称等之间是否存在预先指定类型的关系,如蛋白质之间的抑制关系实体之间的从属关系等。实体的类型通常都是特定的(基因、蛋白质或药物),关系的类型可能是泛泛的(如任何生物医学关系),也可能是特指的(一种调节关系)。,关系抽取方法,基于规则的方法是对于与已知有关系的实体相邻近的文本进行模式的抽象,再利用生成的模式对测试语料集的文本进行模式匹配,最终得到关系抽取的结果基
22、于统计的方法是通过查找彼此经常同时出现而不是随机出现的实体进而鉴别出关系基于自然语言处理的方法是是通过对句子从词法(lexical)、句法(syntactic)和语义(semantic)上进行解析,把自然语言文本分解为可以从中提取出关系的结构,关系抽取,在基因组时代,大多数关系提取的研究都是围绕着基因和蛋白质之间的关系基因可以根据包含他们名称的文本中共有词的多少进行分组或聚类。Raychaudhuri等人利用邻近分歧变量来衡量一组基因的“功能一致性”对1900随机组合的成群酵母菌基因,鉴别出19个正确的基因分组,得到的敏感度为79%,特异度为100%。后来他们将研究扩展到包括小鼠基因、苍蝇基因
23、、蠕虫基因和酵母菌基因,获得的功能基因分组的敏感度分别为96%,92%,82%和45%,特异度均为99.9%5,关系抽取,Glenisson等人利用向量空间方法和k-中心点算法研究了基于文本的基因聚类Wren和Garner通过分析图的凝聚性和特异性识别相关基因,图是根据MEDLINE记录中基因与基因共现情况产生的结果类似于Raychaudhuri等人的结果,特异度约为97%,敏感度为85%。,关系抽取,其他的研究集中在提取基因、蛋白质以及其他生物实体之间特定类型的关系。Gaizauskas等人的PASTA系统使用类型和词性标注、手工创建的模板以及从生物学数据库集成的词典提取氨基酸残基之间的关系
24、以及它们在蛋白质中的功能应用手工标注的MEDLINE摘要语料库作为金标准,系统的平衡召回率和准确率约为82%。,关系抽取,Albert等人利用蛋白质和相互作用术语词典识别两个蛋白质和一个相互作用术语三者同时在一个句子中出现的情况把这个方法应用到MEDLINE数据库寻找蛋白质和核受体之间的相互作用关系,最后发现3308个正相关的关系准确率为22%,关系抽取,McDonald等人在单一的句子解析过程中结合句法/语义语法提取了各种各样的基因通道关系利用生物学家评论的100条摘要进行评价,系统准确率为61%,召回率为35%,关系抽取,提取基因、蛋白质或基因本体(GO)编码之间的关系具有直接的实际意义,
25、因而受到很大关注Chiang和Yu的MeKE系统利用基因本体(GO)编码作为功能名称的词典,将其与LocusLink的基因与基因产物名称词典结合同时利用句子排列系统确定与基因功能相关的模式随后将模式与朴素贝叶斯分类器结合提取含有有关基因产物功能信息的句子,关系抽取,Raychaudhuri等人通过训练文本分类器将基因本体(GO)编码分配给带有摘要的相关基因把熵值最大的相关基因本体(GO)编码分配给基因利用酵母菌基因子集和基因本体(GO)编码进行评价,72%的基因本体(GO)编码预测都是准确的2004年BioCreative任务2也是从自由文本中为基因提取相关的基因本体(GO)编码,关系抽取,P
26、an等人的Dragon TF关联挖掘系统对术语和神经网络进行线性判别分析创建模型来识别含有转录因子(TFs)与基因本体(GO)编码和疾病相关联的信息的摘要得到的平衡敏感度和特异度大约是80%,关系抽取,有许多研究者应用文本挖掘提取新的、感兴趣的关系。Eskin和Agichtein将文本和序列挖掘与支持向量机(SVM)结合来预测蛋白质亚细胞的定位,其中SVM结合了文本与基因组序列核预测蛋白质在胞浆中的位置,系统性能达到87%的准确率和71%的召回率预测蛋白质在过氧化物酶体中的位置,其准确率为44%,召回率为21%,关系抽取,Srinivasan和Wedemeyer研究了疾病发生率和所研究国家的关
27、系Kostoff利用简单的MEDLINE查询去计算器官癌症的不对称性,得到了与国际癌症研究所SEER数据库一致的结果Xu等人利用MEDLEE将文本形式的病理报告转换成编码数据以促进乳腺癌研究,关系抽取,从前面的研究我们发现:通常,提取非特定的关系看起来更容易,而提取特定的关系仍然具有挑战性,因为特定的关系必须有精确的支持文本证实(例如GO编码分配)。识别带有相应支持文本的特定关系的代价很高,因此特定关系提取的研究必须继续得到关注。,假说形成,关系提取主要是提取在文本中可以明确找到的实体之间的关系,而假说形成试图揭示不存在于文本中而是通过其他更明确的关系推断出来的关系。目的就是揭示之前未发现的值
28、得进一步研究的关系,假说形成,实际上,假说形成的所有研究都是利用20世纪80年代Swanson提出的“非相关文献的互补结构”(CSD)的想法ABC模型:A影响B,并且B影响C,那么A可能影响C在1980s和1990s早期Swanson给出了许多利用ABC模型挖掘新假设的例子,如:鱼油治疗雷诺氏病;镁缺失和头痛的关系,假说形成,Swanson是手工应用他的模型,许多研究者试图把这个过程自动化。自动假说形成系统可能产生许多潜在的假说,因而需要一些方法来评价这些系统,假说形成,第一种评价方法 尝试重新创建Swanson挖掘模型第一个使用这种方法的很可能是Gordon和 Lindsay,几年后是Wee
29、ber等人最近,Srinivasan使用这种方法验证了她的基于MeSH主题词和UMLS语义类型的方法的可行性,假说形成,另一个评价方法是人工浏览支持所提取假说的文献,从而发现假说的科学合理性和相关性这是重新创建Swanson挖掘模型后很自然的一步Weeber等人利用“基于文献的科学知识发现工具”检测MEDLINE标题和摘要中术语共现情况,发现了镇静剂新的应用Srinivasin等人继续精炼前人的系统,挖掘出生姜对视网膜疾病、克罗恩病和脊髓损伤具有治疗效果的隐含证据,假说形成,科技文献和基因表达数据的同时增加可能会给许多科学家带来一种许多重要的发现被信息爆炸掩埋的不舒服的感觉,因此需要计算工具帮
30、助他们排序可获得的信息假说挖掘系统目前还不是生物学家的标准工具,但可能有一天会是需要继续进行研究来提高系统处理大量不同类型数据的能力,目前这些数据必须科学家手工研究还需要更好的方法来评价对比这些系统的结果,从而可以记录系统的改进之处以及做出明确的选择。,集成框架,为了解决各种各样的用户需求,许多研究组正在开发综合的文本挖掘框架Novichkova等人的MedScan系统将词典和句法、语义模板集合成一个提取生物医学实体关系的通用文本挖掘系统Glenisson等人开发了TXTGate,利用多个在线生物学数据库都含有的信息执行基于基因的文本轮廓和聚类,集成框架,Becker等人创建了PubMatri
31、x工具,它通过结合PubMed多个查询的结果列出了基因名称和功能术语的二维比较列表Corney等人的BioRAT系统是另一个基于模板的系统,它将模板设计工具和定位与检索全文期刊论文的网络蜘蛛结合Muller等人的Textpresso系统利用专门创建的本体在句子水平,灵活地结合关键词与概念共现检索线虫文献Nenadic等人和Chiang等人还报道了其他的通用文本挖掘框架,集成框架,所有的这些系统都还在研究和开发阶段评价倾向于简洁系统还没有进行彻底的用户评价,能否满足生物医学研究团体的需求仍有待观察只是满足生物医学研究者需求的一个阶段,面临的挑战,综上所述,我们可以发现生物医学文本挖掘具有巨大的潜
32、力。然而这种潜力并没被意识到。文本挖掘工具不像搜索引擎和序列排序工具那样是生物医学研究者标准工具的一部分。接下来5-10年文本挖掘工作的主要挑战是创建对研究者有明确帮助的文本挖掘工具,从而使他们在信息增长所带来的挑战不断增加的情况下更加多产。研究焦点必须更多的放在帮助生物医学研究者解决阻碍研究步伐的实际问题,更少的放在与满足用户需求无关的系统输出的评价上。,未来的发展方向,首先,必须更容易获取全文及文档集合 期刊论文中的一些科技信息在摘要和MeSH主题词中并未提到,目前的文本挖掘研究已经从标题和摘要转向全文,但是全文的获取仍受版权的限制。因此,研究团体必须与出版者合作获取各种各样的内容用于文本
33、挖掘,未来的发展方向,接下来,在解决特定的文本挖掘任务时,需要更多的研究工作来测定什么特征和什么类型的特征是有用的。用于文本挖掘的特征空间是一个巨大的特征类型数组,特征类型包括(但不限于)词、概念、主题词、格式、作者、参考文献和链接。流行已久的词袋方法可以应用到各种不同来源的文本,但忽略了文档的位置以及段落信息,可能无法从提供位置以及段落信息的全标记文本中产生最有鉴别能力的特征集由于各种各样的潜在特征和特征类型的存在,因此需要额外的分析方法为特定应用选择最优特征集。,未来的发展方向,最后,生物医学领域共同挑战任务的一致评价方法必须继续研究基于实际需求来选择任务和评价结果必须取得更多的进步。最近这种类型合作的例子包括2004年的BioCreative和TREC Genomics Track,两者都利用生物学数据库管理者日常工作过程中做出的评价作为金标准,结论,很明显,未来发展的主要主题是学科间协调与合作文本挖掘研究者必须一起合作,出版者和生物医学研究者通过提供能产生一致的、可测量的、可证实的结果的系统来满足用户需求研究人员必须带头协调努力来实现生物医学文本挖掘全部的科学潜力,