《生物信息学数据库检索.ppt》由会员分享,可在线阅读,更多相关《生物信息学数据库检索.ppt(100页珍藏版)》请在三一办公上搜索。
1、生物信息学数据库,信息检索教研室薛晓芳2010年11月2日,生物信息学概念,生物信息学是对生物学数据进行收集、处理、存储、检索和分析的一门交叉学科研究生物信息的采集、处理、存储、传布、分析和解释等各个方面,通过综合数学、计算机科学和生物学的工具与技术来揭示大量而复杂的生物数据所赋有的生物学奥秘研究目标是发展和利用先进计算技术解决生物学难题,生物信息学数据库,大量生物学数据的存储和利用离不开数据库用于结构化存储生物数据,以便进一步对数据进行分析和利用,数据库的数据来源,两大主要来源经典的生物医学研究:大量生物医学科研工作者根据自己的兴趣开展的个别研究大规模组学研究:代表性工作是大规模人类基因组学
2、和蛋白质组学研究,经典生物医学研究,针对某较小领域开展深入研究,采集的生物学数据对大量零碎的生物学数据,进一步收集、整理和利用,对推动生物医学的研究有重要意义最具代表性的是KEGG数据库,该数据库整理收录了大量代谢网络(PATHWAY)的研究成果,描绘了生物体内代谢网络涉及的各种分子及关系,大规模组学研究,上世纪90年代初启动人类基因组计划,短时间内产生海量生物学数据随着基因组计划进行,多种相关高通量研究逐渐开展起来基于表达序列标签(EST)和DNA微阵列的高通量转录组研究基于生物质谱的蛋白质组表达谱和修饰谱研究基于酵母双杂交等技术的高通量蛋白质-蛋白质相互作用组研究代谢组等相关的组学研究,组
3、学数据库分类,一级数据库:通过收集组学数据构建的数据库二级和三级数据库:对一级数据库数据进一步分析、归纳和整理,目的性和实用性TRANSFAC:转录因子和结合位点数据库SMART、pFam数据库:收录了可能的蛋白质结构域信息,并提供了特定算法工具,生物信息学数据库的地位和作用,生物信息学数据库类型,核酸研究(Nucleic Acids Research)杂志每年第一期为生物信息学数据库专刊,收录最主要的生物学相关数据库2010年的核酸研究杂志提供的数据库列表将国际上生物学数据库归纳为14类(),核酸研究的14类数据库,Nucleotide Sequence Databases 核酸序列数据库R
4、NA sequence databases RNA序列数据库Protein sequence databases 蛋白质序列数据库Structure Databases 结构数据库Genomics Databases(non-vertebrate)基因组数据库(非脊椎动物)Metabolic and Signaling Pathways 代谢和信号通路Human and other Vertebrate Genomes 人和其他脊椎基因组Human Genes and Diseases 人基因和疾病Microarray Data and other Gene Expression Databa
5、sesProteomics Resources微阵列和其他基因表达数据库蛋白质组资源Other Molecular Biology Databases 其他分子生物学数据库Organelle databases 细胞器数据库Plant databases 植物数据库Immunological databases 免疫学数据库,常用分类类型,序列数据库结构数据库功能数据库其它专业数据库,主要内容,生物信息学数据库类型序列数据库结构数据库 功能数据库其它专业数据库生物信息学数据库的检索检索方法概述检索实践和案例,一、序列数据库,主要收录核酸和蛋白质序列数据包括由基因组计划产生的基因组及其表达序列,
6、由基因组序列所推测的编码和非编码核酸和蛋白质序列,以及个别生物学实验中测序获得的核酸和蛋白质序列,一、序列数据库(基因组),Genome Database(GDB)数据库Ensembl,由EMBL-EBI和Sanger研究所联合开发,对后生动物基因组的自动注释和维护包括人、鼠、斑马鱼和果蝇4种真核生物基因组的注释分析,主要依据已测序获得的基因组序列,定位所有已知基因,并预测未知新基因,同时为这些基因提供功能、疾病相关特征等方面的注释信息;Ensembl基因组注释的核心是基因预测,考虑到现有预测方法的限制,该系统整合了多种预测方法,并提供了各种预测方法结果的下载 UCSC Genome Brow
7、ser,加州大学圣克鲁兹分校建立,包括各种脊椎和无脊椎动物,以及主要模式生物的基因组数据,一、序列数据库(核酸),GenBank、EMBL、DDBJ http:/,http:/,http:/三个数据库每天互相交换数据GenBank可通过NCBI的检索系统Entrez获取,Entrez集成来自主要DNA和蛋白序列数据库的数据,包括物种、基因组、定位、蛋白结构和结构域等信息各种专业核酸数据库非冗余参考序列数据库RefSeq 密码子使用数据库Codon Usage Database CUTG基因可变剪接数据库ASDB转录因子数据库TRANSFAC,一、序列数据库(蛋白质),国际主要蛋白质数据库的数据
8、来源及其关系吴松锋等,遗传,2005,27(5):687-693,主要蛋白质序列数据库,UniProthttp:/www.uniprot.org 由Swiss-Prot、TrEMBL和PIR蛋白质数据库联合构建,提供蛋白质序列和功能注释的核心资源。由三个子库组成:(1)UniProtKB,知识库(2)UniRef:参考簇(3)UniParc,所有公开的蛋白质序列,包括每个序列源数据库的追溯信息 IPI http:/IPI/国际蛋白质索引数据库,针对蛋白质组研究中利用数据库搜索鉴定蛋白的策略而构建的参考数据库,月更新整合国际上主要的蛋白质数据库(SwissProt,Refseq,PIR,TrEM
9、BL,RefSeq,Ensembl,H-Inv DB翻译的蛋白数据),整合过程中,直接接受手工注释结果NrNCBI构建,非冗余蛋白质数据库,为每个蛋白质序列记录赋予一个唯一的gi号,并将序列完全一致的非冗余蛋白质合并成簇,蛋白质功能模体和结构域数据库,功能模体或活性位点数据库(protein domains,families and functional sites)PROSITE http:/,收集了上千个序列模体PRINTS(Protein motif fingerprint database)http:/结构域数据库(families,domains,regions,sites)Pfam
10、 SMART InterPro,二、结构数据库,核酸和蛋白质的空间结构数据库,一般通过X射线衍射和核磁共振获得数据,也有同源建模等计算方法获得,二、结构数据库(核酸),核酸结构数据库(NDB,)收录核酸的晶体结构数据,包含X射线衍射和核磁共振的结果,可通过ADIT(the AutoDep Input Tool)同时将结构存储到NDB和PDB中,提供序列号检索功能,可以用NDB或PDB的ID号检索,结果包含核酸结构的简要信息和图片Rfam数据库,RNA家族多重序列比对,一致性二级结构和协方差模型,基于多重序列比对的非编码RNA家族的变异模式,二、结构数据库(蛋白质),PDB http:/RCSB
11、(Research Collaboratory for Structural Bioinformatics)国际上专门用于处理和发布生物大分子三维结构的知识库,提供数据库的检索和下载服务,以及PDB数据文件格式和其它文档的说明,使用软件可对PDB数据库记录用多种模式显示生物大分子三维结构蛋白质结构分类数据库SCOP/包含从PDB数据库中提取的所有结构域,并详细描述已知蛋白质结构之间的关系 MMDB NCBI的分子模型数据库包括由x射线衍射和核磁共振实验得到的所有PDB生物分子三维结构,与原始的PDB结构相比,增加一些附加信息:经程序验证的显性化学图像信息、一致的二级结构衍生定义、与MEDLIN
12、E相匹配的引用、基于源自生物实体的蛋白质或核酸链进行分类的分子匹配,三、功能数据库,收录生物分子的功能数据,由ID号与序列和结构数据链接组织表达谱和亚细胞定位根据不同组织中的EST、SAGE或芯片杂交信号,绘制出不同组织中表达基因的图谱:亚细胞定位数据库:膜蛋白质数据库TMPDB http:/bioinfo.si.hirosaki-u.ac.jp/TMPDB/线粒体蛋白质数据库MitoP2 http:/www.mitop.de:8080/mitop2/,三、功能数据库,蛋白翻译后修饰,磷酸化、糖基化和硫修饰,也收录和蛋白质翻译后修饰相关的生物信息,确认的修饰信息、Swiss-Prot蛋白中可能
13、存在的三类修饰信息、部分针对某种修饰的数据库部分某种修饰数据库 O-GlycBase(http:/databases/OGLYCBASE/)只收录O糖基化数据;PhosphoBase(http:/)只收录磷酸化位点的数据;RESID(http:/RESID/)收录蛋白质修饰的注释和结构的数据 蛋白质-蛋白质相互作用数据库DIP,由实验验证的蛋白质-蛋白质相互作用数据,包括蛋白质的信息、相互作用的信息和检测相互作用的实验技术 IntAct,提供用于蛋白质相互作用数据存储、展示和分析的开源数据库和工具包,可对相互作用数据在网页上进行文本和图像的展示,允许用户通过GO注释或InterPro结构域注释
14、进行网络的扩充,三、功能数据库,代谢网络和信号途径 KEGG(Kyoto Encyclopedia of Genes and Genomes)系统分析基因功能、联系基因组信息和功能信息的知识库GENES收录完整和部分测序的基因组序列;PATHWAY数据库存储更高级的功能信息,包括图解的细胞生化过程和同系保守的子通路等信息;LIGAND数据库收录关于化学物质、酶分子和酶反应等信息,四、其它专业数据库,人类基因和疾病数据库 OMIM()收录所有已知的遗传病、遗传性状和基因,除简略描述各种疾病的临床特征、诊断、治疗和预防外,还提供致病基因的连锁关系、染色体定位、组织结构、动物模型及其参考文献等信息d
15、bSNP(SNP)收录已经识别的SNPs的数据库HapMap Project(http:/snp.cshl.org)收录了三大人群(非洲人,高加索人和亚洲人群)主要的变异模式,所选择的SNPs具有相对代表性CGED(http:/lifesciencedb.jp/cged/)收录多种癌症的临床和基因表达数据,更新到2007年,四、其它专业数据库,基于电泳和生物质谱的蛋白质组数据库SWISS-2DPAGE(http:/www.expasy.org/ch2d/)收录各种双向电泳或SDS的电泳图,并提供蛋白在电泳图中的位置及其信息PRIDE()数据库收集国际蛋白质组计划所产出的鉴定结果数据/)收录大规
16、模LC-MS/MS实验鉴定的蛋白信息,并将信息匹配到Ensembl数据库dbLEP()为肝脏蛋白质组计划设计,提供鉴定结果及可追溯的信息,包括可供评估结果质量的鉴定肽段数和质谱图谱等,同时还提供大量的注释信息,更新到2007年,四、其它专业数据库,免疫学数据库IMGT()数据库是关于免疫球蛋白、T细胞受体、主要组织相容性复合体以及人类和哺乳动物免疫系统相关蛋白的综合数据库,由序列数据库、基因组和结构数据库、网站资源数据库和各种研究工具数据库组成dbMHC()提供人类组织相容性抗原(HLA)的序列数据和临床上干细胞移植及风湿性关节炎等数据,也提供全世界90多个人群的HLA位点、等位基因和单倍型频
17、率的遗传检测工具,生物信息学数据库总结,如此多的数据库如何掌握?不用掌握,只需要有印象(某些领域著名数据库),需要时再找相应的数据库:新的或较小的数据库以上所讲数据库皆为各类数据库,多数重要的是数据集本身,对于检索来讲,需要在常用生物信息学系统上进行(如Entrez、SRS和Expasy,大多数据库集成于此)数据库是不断更新和发展的,网址变化、新的数据库出现、旧数据库不再维护数据不存在等等,需要从互联网上不断寻找数据库之间的关系,以及数据库中内容等等需要同学自己在互联网中寻找自己所关心的内容,在数据库网站上看简介和使用方法,搜索引擎查询某些同类数据库的关系,发信询问服务器(如NCBI)等以上所
18、讲数据库只是给一些概念和印象,希望同学以后在自己所研究领域或平时接触到的领域中碰到这些数据库有所了解,不陌生,生物信息学数据库的检索,主要检索系统和工具Entrez(National Center for Biotechnology Information,NCBI)SRS(European Bioinformatics Institute,EBI)ExPasy Expert Protein Analysis System(Swiss Institute of Bioinformatics,SIB)日本、欧洲、美国其他研究机构的工具平台,一、数据库字段检索,http:/例1:用ID号检索pro
19、tein数据库序列及相关信息人TPA(tissue plasminogen activator)蛋白质ID号:AAO34406,一、数据库字段检索,检索步骤在NCBI界面中选择“protein”数据库在检索框中填写“AAO34406”,点击“GO”,Fasta格式,蛋白质特性,参考文献,物种起源,原序列复制后,可到BLAST中进行相似性对比,例2:同时获得多个蛋白的信息,获得多个蛋白信息,Display设置,输送到文件、剪切板等,例3:一次性获取几百/上千蛋白信息使用Batch Entrez 将序列号存储在文件中(每个序列号一行,不要有其它任何字符),点击“浏览”即可得到结果列表http:/,
20、上传序列文件,关键字检索数据库记录,数据库字段未知例4:查询tissue plasminogen activator蛋白信息,315条记录,70条记录,选择题名中有RecName被识别序列的记录tissue plasminogen activator and human and Recname,名称是所需要的,蛋白SwissProt号以P/Q开头,gi号,Fasta格式序列,例6:获取核酸序列:人类血小板衍生因子的序列关键词:Platelet derived growth factor homo sapiens限定字段:基因定义(标题)Platelet derived growth facto
21、rTI and homo sapiensTI,基因定义,碱基数、核酸类型,序列长度,物种来源,参考文献,染色体特性,NCBI structure查询,分子模型数据库(MMDB),各种蛋白质的结构信息蛋白质域数据库(CDD),在proteins(CDs)内保存的功能领域序列和结构对准表达目录检索和观看结构,从结构上查找特定蛋白质的相似蛋白质,辨认功能位点,检索步骤,检索栏中直接输入的检索词包括:PDB 代码,蛋白质名,作者,或期刊名搜寻,得出检索初步结果,需注意筛选也许出现多个指定的蛋白质存在的记录,反映不同实验技术情况,并出现或缺乏各种配合基或金属离子也许包含全长分子的不同片段还有许多突变体蛋
22、白质结构包含了PDB记录(实验性描述,PDB代码),显示结构概略页点击次要结构 Secondary Structure按钮对观看3D 分子的结构有用观看完整蛋白质结构按钮FullProtein Structures(须下载Cn3D软件)Viewing 3D Structures,实例,例7:查找铁氧化还原蛋白的三维结构蛋白质代码:1doi铁氧化还原蛋白名:ferredoxin fe,蛋白质代码,蛋白质描述:来自死海古菌的铁氧化还原蛋白,发表文献,生物体分类名称,显示三维结构,参考文献,蛋白质链栏,鼠标放在栏上,显示残基;点击显示分子各条链、邻族结构,点击显示存储域,点击显示序列,Genome数
23、据库检索,Map Viewer(图形显示器),可观看数据库内带有综合遗传和自然图的各种有机体基因组、全部染色体、序列集成数据通常检索的是序列全长序列cDNA,难以检索某一序列特定区域,了解5或3的核酸序列或对内含子等其它分子生物学内容进行分析例8:利用Map Viewer获取特定基因周围的基因组序列,选择“Genome数据库,找到Map viewer工具点击进入,获取FMR1基因组3,5端序列,OMIM数据库,例9:查找角化过度症(营养不良性神经病)Keratoderma,palmoplantar,染色体位点,内容目录,相关数据库连接,OMIM 基因图谱,二、序列数据的相似性检索,常用工具:B
24、LAST(Basic Local Alignment Search Tool)、FASTAhttp:/5种查询方式 例10:检索人TPA蛋白的同源蛋白序列选择“protein blast”,5种查询方式,输入SP号,gi号或序列,上传比对序列文件,工作名称,选择比对数据库,生物组织名称,选择算法参数,可用默认值,类似性图谱,比对结果描述,详细比对结果,比对积分报告,数据库标识符,蛋白定义,积分值,比对结果,检索序列,匹配的数据库记录,打分情况,匹配结果,引物设计,引物:在聚合反应中作为底物引发聚合产物的短的序列统称为引物。PCR反应中扩增一个已知序列DNA,对其引物须有一定的满足条件,才能有效
25、地扩增模板序列,这些条件有:(1)引物长度为20个碱基(2)引物序列与被扩增的序列不具有同源性(3)引物中G+C碱基的含量以40%60%为宜等根据引物设计条件,进行计算机程序处理,便可方便地进行自动引物设计,常用软件primer3,http:/,进入Primer3输入序列,序列,1 cctgcgtccc cgccccgcgc agccgccgcg ctcctgcgct ccgaggtccg aggttcccga 61 gatgaaggtc tggctgctgc ttggtcttct gctggtgcac gaagcgctgg aggatgttac 121 tggccaacac cttcccaa
26、ga acaagcgtcc aaaagaacca ggagagaata gaatcaaacc 181 taccaacaag aaggtgaagc ccaaaattcc taaaatgaag gacagggact cagccaattc 241 agcaccaaag acgcagtcta tcatgatgca agtgctggat aaaggtcgct tccagaaacc 301 cgccgctacc ctgagtctgc tggcggggca aactgtagag cttcgatgta aagggagtag 361 aattgggtgg agctaccctg cgtatctgga cacctt
27、taag gattctcgcc tcagcgtcaa 421 gcagaatgag cgctacggcc agttgactct ggtcaactcc acctcggcag acacaggtga 481 attcagctgc tgggtgcagc tctgcagcgg ctacatctgc aggaaggacg aggccaaaac 541 gggctccacc tacatctttt ttacagagaa aggagaactc tttgtacctt ctcccagcta 601 cttcgatgtt gtctacttga acccggacag acaggctgtg gttccttgtc gggt
28、gaccgt 661 gctgtcggcc aaagtcacgc tccacaggga attcccagcc aaggagatcc cagccaatgg 721 aacggacatt gtttatgaca tgaagcgggg ctttgtgtat ctgcaacctc attccgagca 781 ccagggtgtg gtttactgca gggcggaggc cgggggcaga tctcagatct ccgtcaagta 841 ccagctgctc tacgtggcgg ttcccagtgg ccctccctca acaaccatct tggcttcttc 901 aaacaaagt
29、g aaaagtgggg acgacatcag tgtgctctgc actgtcctgg gggagcccga 961 tgtggaggtg gagttcacct ggatcttccc agggcagaag gatgaaaggc ctgtgacgat 1021 ccaagacact tggaggttga tccacagagg actgggacac accacgagaa tctcccagag 1081 tgtcattaca gtggaagact tcgagacgat tgatgcagga tattacattt gcactgctca 1141 gaatcttcaa ggacagacca cagt
30、agctac cactgttgag ttttcctgac ttggaaaagg 1201 aaatgtaatg aacttatgga aagcccattt gtgtacacag tcagctttgg ggttcctttt 1261 attagtgctt tgccagaggc tgatgtcaag caccacaccc caaccccagc gtctcgtgag 1321 tccgacccag acatccaaac taaaaggaag tcatccagtc tattcacaga agtgttaact 1381 tttctaacag aaagcatgat tttgattgct tacctacat
31、a cgtgttccta gtttttatac 1441 atgtgtaaac aattttatat aatcaatcat ttctattaaa tgagcacgtt tttgtaaaaa 1501 at,参数设定,输出结果,起始序列数,引物长度,熔点,引物中碱基gc的比例,引物起始处与寡合苷酸任意区域的互补指数,引物与寡合苷酸3端的互补指数,引物序列,三、功能数据库的高级检索,通过序列建模等方法,构建特定模型用新序列搜索构建模型,实现对新序列所包含的结构域等信息的识别 SMART通过隐马尔科夫算法构建蛋白质结构域模型,搜索识别新蛋白质序列中可能含有的结构域/例11:预测TPA蛋白质的结构域,
32、点击“normal mode”将fasta格式序列粘贴到“sequence”栏,结构域名称、起始位置、终止位置、可靠性概率,图形化的结构域示意图,蛋白质结构预测,常用软件,SWISS-MODEL:http:/CPHmodels:http:/,SwissModel界面,自动模式,联配模式,项目模式,自动模式用于建模的氨基酸序列或是 Swiss-Prot/TrEMBL 编目号,可直接通过 web界面提交。服务器会完全自动地为目标序列建立模型联配模式需多序列联配的结果,序列中至少包括目标序列和模板;服务器会基于比对结果建模;用户需指明哪条序列作为目标序列,哪条作为模板项目模式允许用户提交经手工优化的
33、请求给服务器,例12:使用SWISS-MODEL建立mouse FAS antigene ligand 蛋白质分子模型步骤:获取序列(识别号:p41047)http:/选择SWISS-MODEL的“Automated Model”粘贴序列提交建模任务结果需要几天出来,用MyWorkspace看结果,在蛋白质数据库中输入关键词或识别号(如:p41047)获取序列,选择序列格式显示,选择fasta格式,复制序列,结果,蛋白质功能预测,InterPro 在domain的水平上对未知的序列进行注释软件:InterProScan例13:对给定的未知功能的序列example预测功能http:/,未知功能蛋
34、白质ATP-binding subunit of an ABC-type osmolyte transporter序列MASVSFEQVTKQFDDYVAVNNLNLEIEDGEFLVFVGPSGCGKTTSLRLLAGLETVSQGQICIGDRRVNEL SPKDRDIAMVFQSYALYPHMSVYENMAFSLDLQGKPKEEIRQRVCSAAELLGIEKLLHRKPKELSGGQRQ RVAVGRAIVRKPSVFLMDEPLSNLDAMLRVQARKEISKLHSDLATTFIYVTHDQVEAMTMGDRIAVMKDG ILQQVDSPANLYNQPANLFVAGFIGSPA
35、MNFFQVERLSQEGKEKLSLDGVVLPMPDSVAKNGDRPLTLGI RPENIYHPQYLPLEIEPMELPATVNLVEMMGNELIVYAQTPAGTEFVARIDPRVNIKQKDSVKFVVDTQR FYYFDREMETAIF,输入框中输入待测序列,选择匹配记录,蛋白质特征数据库Pfam、PROSITE中获取,功能描述,实习题,利用Entrez的检索方法获得Plasminogen蛋白的ID号(选择Swissprot数据库的记录)利用题1中获得的ID号在SRS检索该蛋白的相关信息(包括序列)/用题2获得的序列,做同源性检索,获得该蛋白鼠的同源序列(选择匹配最好的)查询Plasminogen蛋白结构域的类型和组成方式,