ncbi数据库检索解读课件.ppt

上传人:牧羊曲112 文档编号:1481229 上传时间:2022-11-30 格式:PPT 页数:75 大小:4.31MB
返回 下载 相关 举报
ncbi数据库检索解读课件.ppt_第1页
第1页 / 共75页
ncbi数据库检索解读课件.ppt_第2页
第2页 / 共75页
ncbi数据库检索解读课件.ppt_第3页
第3页 / 共75页
ncbi数据库检索解读课件.ppt_第4页
第4页 / 共75页
ncbi数据库检索解读课件.ppt_第5页
第5页 / 共75页
点击查看更多>>
资源描述

《ncbi数据库检索解读课件.ppt》由会员分享,可在线阅读,更多相关《ncbi数据库检索解读课件.ppt(75页珍藏版)》请在三一办公上搜索。

1、,第二章数据库检索,2.1 综合性数据库 NCBI,美国参议员Claude Pepper率先意识到信息计算机化过程方法对指导生物医学研究的重要性,发起了在1988年11月4日建立国立生物技术信息中心的立法.(National Center for Biotechnology Information , NCBI). NCBI隶属于国立医学图书馆( National Library of Medicing, NLM)。NLM在创立和维护生物医学数据库方面有丰富的经验。,http:/www.ncbi.nlm.nih.gov/,2.1.1 NCBI简介,NCBI的任务,开发新的信息技术,来帮助理解控

2、制健康和疾病的基本分子和遗传过程,1 建立自动化系统用于储存和分析分子生物学,生物化学和遗传学方面的知识,2 为研究人员和医学团体使用这些数据库和软件提供便利,3 在国家和国际范围内搜集先进的生物技术信息,为分析生物重要分子的结构和功能提供先进的基于计算机的信息分析处理方案,2.1.2 NCBI数据库介绍,1 全核苷酸数据库,2 蛋白质数据库,3 基因组数据库,4 结构数据库,Expression sequence tag ,EST,genome survey sequence,GSS,orenucleotide,翻译DNA所得PIR,SWISS-PROT PDB,已测序物种的基因组视图,染色

3、体完整序列图,遗传图和物理图,又称为分子模型数据库MMDB,包含从晶体结构和核磁共振实验中确定下来的蛋白质等大分子结构信息,主要来源于PDB,使用软件浏览结构,5 三维结构域数据库,6 保守域数据库,7 uniSTS数据库,8 基因数据库,包含来自Entrez结构数据库的蛋白质结构域,蛋白质结构域数据库,从Pfam,SMART,COG数据库中获得数据.,是一个整合的,非冗余的STS数据库,可通过基因名称,同义词,编号,出版物,染色体号等属性寻找基因,9 UniGene数据库,GenBank 中基因序列的集合,10 SNP数据库,11 PopSet,用于存储包括单核苷酸替换,一两个碱基的插入或缺

4、失等多态性信息,包含用于群体进化或变异研究的比对序列,12 GEO数据库,准确的基因表达谱数据和大规模的分子实验数据,13 PubMed Central数据库,14 MesH 数据库,15 Bookshelf 数据库,公众医学信息中心,是NLM在生命科学领域期刊文献的数字存档,医学主题词数据库,生物医学方面的书箱,16 OMIM 数据库,主要着眼于可遗传或遗传性的基因疾病,包括文献,序列记录,染色体定位图谱及相关的数据库的链接,2.1.3 Entrez 简介,是一个全局的生物医学搜索引擎,它可以检查的数据库主要包括3类:文献数据库:PubMed ,PubMedCentral,Journals,

5、Books,OMIM,OMIA.序列数据库:Nucleotide,Protein,Genome,Structure,SNP 其它数据库:Taxonomy, Gene,UniGene,HomoloGene,Conserved Domains,3D Domains, UniSTS,PopSet,GEO Profiles, GEO Datasets, PubChem BioAssay, PubChem Compound,PubChem Substance,Cancer Chromosomes, Probe,MeSH,Journals,NLM Catalog,2.1.4 Entrez 检索实例,已知菜

6、豆斑驳病毒(bean pod mottle virus, BPMV)的名字,查询BPMV的基因组信息,核酸序列信息,蛋白序列信息和结构信息,BPMV,1 Genome数据库查询结果,2核酸数据库查询结果,3蛋白质数据库查询结果,4 结构数据库查询结果,5序列的下载,2.2 综合性数据库EMBL- EBI,2.2.1 EBI简介,EBI(欧洲生物信息学中心)全称是European Bioinformatics Institute,是一个非盈利性的学术机构,是欧洲分子生物学实验室(EMBL,全称是European Molecular Biology Laboratory)的一部分。它的主要任务是建

7、立、维护和提供生物学数据库以及信息学服务,从而支持生物学数据的存放和进一步挖掘,位于德国海德尔堡,是世界上著名的生命科学研究机构。 提供免费数据和生物信息学服务生物信息学研究提供生物信息学培训将技术应用于产业,2.2.2 EBI数据库简介,1 核酸序列数据库,2 UniProt Knowledgebase,3 大分子结构数据库,与GenBank DDBJ同步,通用蛋白质资源数据库, 最全面的储存蛋白质信息的数据库,收集并储存大分子结构信息,部分来源于PDB,4 Ensembl,提供并及时更新后生生物的全基因组序列以及最为精确的注释.,5 UniProtKBSwiss-prot,是一个蛋白质信息

8、最为准确的蛋白质数据库,它所提供的蛋白质信息有着最详尽的注释和最少的冗余.,2.2.4 SRS 检索实例,已知BPMV的名字,查询其基因组的信息,核酸序列信息,蛋白质序列信息和结构信息,SRS系统每次只能查询一个数据库,Genome数据库查询结果,数据库格式简介,历史原因:没有完全统一的数据库格式; 了解所用数据库格式的重要性 一般由两部分组成: 文字注释 内容(序列,),EMBL和GenBank数据库的主要内容和格式 序列名称、长度、日期序列说明、编号、版本号物种来源、学名、分类学位置相关文献作者、题目、刊物、日期序列特征表碱基组成序列(每行60个碱基) GenBank采用GBFF格式,实例

9、: E. coli k-12全基因组序列文件,例子:EMBL和GenBank数据库的格式,描述符,长度,生物分子类型,形状,分类码,数据第一次被公开的日期,简单的描述,检索号,版本号,序列改变,版本加1,Geninfo identifier 基因信息号,序列来源的生物名称,参考文献,作者及参考文献题目,期刊,及发表年份,卷及期、页码,评注,特征表,关键字,BASE COUNT ?A ?C ?G ?TORIGIN 1 agcttttcat tctgactgca acgggcaata tgtctctgtg tggattaaaa aaagagtgtc 61 tgatagcagc ttctgaactg

10、 gttacctgcc gtgagtaaat taaaatttta ttgacttagg 121 tcactaaata ctttaaccaa tataggcata gcgcacagac agataaaaat tacagagtac 181 acaacatcca tgaaacgcat tagcaccacc attaccacca ccatcaccat taccacaggt 241 aacggtgcgg gctgacgcgt acaggaaaca cagaaaaaag cccgcacctg acagtgcggg 301 cttttttttt cgaccaaagg taacgaggta acaaccat

11、gc gagtgttgaa gttcggcggt 361 acatcagtgg caaatgcaga acgttttctg cgtgttgccg atattctgga aagcaatgcc 421 aggcaggggc aggtggccac cgtcctctct gcccccgcca aaatcaccaa ccacctggtg 4639021 caacatcaac tgcaagcttt acgcgaacga gccatgacat tgctgacgac tctggcagtg 4639081 gcagatgaca taaaactggt cgactggtta caacaacgcc tggggcttt

12、t agagcaacga 4639141 gacacggcaa tgttgcaccg tttgctgcat gatattgaaa aaaatatcac caaataaaaa 4639201 acgccttagt aagtattttt c/,序列部分,EMBL和GenBank数据库的行识别标志比较,ID U00096 standard; circular genomic DNA; CON; 4639221 BP.AC U00096;SV U00096.1DT 24-JUL-2003 (Rel. 76, Last updated, Version 3)DE Escherichia coli K-1

13、2 MG1655 complete genome.KW .OS Escherichia coli K12OC Bacteria; Proteobacteria; Gammaproteobacteria; Enterobacteriales;OC Enterobacteriaceae; Escherichia; Escherichia coli.RN 1RP 1-4639221RX MEDLINE; 97426617.RX PUBMED; 9278503.RA Blattner F.R., Plunkett G. III, Bloch C.A., Perna N.T., Burland V.,R

14、T The complete genome sequence of Escherichia coli K-12;RL Science 277(5331):1453-1474(1997).DR GOA; O32528.DR REMTREMBL; AAC74436; AAC74436.DR SPTREMBL; O32530; O32530.DR SWISS-PROT; O32528; YPDI_ECOLI. ,CC This sequence was determined by the E. coli Genome Project at theCC University of Wisconsin-

15、Madison (Frederick R. Blattner, director).CC Supported by NIH grants HG00301 and HG01428 (from the Human GenomeCC Project and NCHGR). The entire sequence was independentlyCC determined from E. coli K-12 strain MG1655. Predicted open readingCC frames were determined using GeneMark software, kindly su

16、pplied byFH Key Location/QualifiersFT source 1.4639221FT /db_xref=taxon:83333FT /mol_type=genomic DNAFT /organism=Escherichia coli K12FT /strain=K12FT /sub_strain=MG1655FT promoter 71.99FT /note=factor Sigma70; predicted +1 start at 106FT CDS 190.255FT /codon_start=1FT /db_xref=GOA:P03059FT /db_xref

17、=SWISS-PROT:P03059FT /note=o21; 100 pct identical to LPT_ECOLI SW: P03059FT /transl_table=11FT /gene=thrLFT /function=leader; Amino acid biosynthesis: ThreonineFT /product=thr operon leader peptideFT /protein_id=AAC73112.1FT /translation=MKRISTTITTTITITTGNGAG“,SQ Sequence 4639221 BP; 1142136 A; 1179

18、433 C; 1176775 G; 1140877 T; 0 other; agcttttcat tctgactgca acgggcaata tgtctctgtg tggattaaaa aaagagtgtc 60 tgatagcagc ttctgaactg gttacctgcc gtgagtaaat taaaatttta ttgacttagg 120 tcactaaata ctttaaccaa tataggcata gcgcacagac agataaaaat tacagagtac 180 acaacatcca tgaaacgcat tagcaccacc attaccacca ccatcacca

19、t taccacaggt 240 aacggtgcgg gctgacgcgt acaggaaaca cagaaaaaag cccgcacctg acagtgcggg 300 cttttttttt cgaccaaagg taacgaggta acaaccatgc gagtgttgaa gttcggcggt 360 acatcagtgg caaatgcaga acgttttctg cgtgttgccg atattctgga aagcaatgcc 420 aggcaggggc aggtggccac cgtcctctct gcccccgcca aaatcaccaa ccacctggtg 480 gcg

20、atgattg aaaaaaccat tagcggccag gatgctttac ccaatatcag cgatgccgaa 540 tattgctatc aattagcaac attaatacaa caaccggcga aaagtgatgc aacggcagac 4639020 caacatcaac tgcaagcttt acgcgaacga gccatgacat tgctgacgac tctggcagtg 4639080 gcagatgaca taaaactggt cgactggtta caacaacgcc tggggctttt agagcaacga 4639140 gacacggcaa

21、tgttgcaccg tttgctgcat gatattgaaa aaaatatcac caaataaaaa 4639200 acgccttagt aagtattttt c 4639221/,PubMed 概述,PubMed是美国国家医学图书馆(NLM)所属的国家生物技术信息中心(NCBI)开发的因特网生物医学信息检索系统,位于美国国立卫生研究院(NIH)的平台上。,PubMed覆盖了全世界70多个国家4300多种主要生物医学期刊的摘要和部分全文。其覆盖的时间段也非常长,早的可以追溯到20世纪60年代,通常而言,这已经足够早了,很少有人会需要查阅在此之前的文献。当然,研究生物医学史的工作者可能

22、是个例外。而最新的文献几乎就在此时此刻。,与PubMed挂钩的出版商会自动向PubMed提供最新的文献摘要,而往往在这个时候文献还没有正式出版。所以尽管生物医学的文章从被期刊接受到出版往往要好几个月的时间,但借助于PubMed,我们仍旧可以随时掌握最新的动向,从而大大有利于自己的临床和研究工作。还有些出版商通过PubMed提供文献的全文,有时甚至是免费的,这样,我们就可以在PubMed上真正享受坐拥书城的感觉了,PubMed comprises more than 23 million citations for biomedical literature from MEDLINE, life science journals, and online books. Citations may include links to full-text content from PubMed Central and publisher web sites.,维生素C对于普通感冒的防治作用,课后练习,1.用PDB数据库搜索SARS病毒2OP9蛋白质的结构并保存,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号