生物信息数据库：2序列注释格式.ppt

资源描述

《生物信息数据库：2序列注释格式.ppt》由会员分享，可在线阅读，更多相关《生物信息数据库：2序列注释格式.ppt（109页珍藏版）》请在三一办公上搜索。

1、分子数据库结构,曹毅,GenBank数据库结构,作用：了解序列数据库的格式，有助于更好地提高数据库检索的效率和准确性。DDBJ数据库的内容和格式与GenBank相同，此处不作详细介绍。分别介绍EMBL和GenBank的数据库结构,GenBank数据库数据注释(/),GenBank库包含所有已知的核酸序列和蛋白质序列,以及与它们相关的文献著作和生物学注释。NCBI可提供广泛的数据查询、序列相似性搜索以及其它分析服务。数据库序列文件：注释内容文章索引文件：检索目录文摘,GenBank数据库结构,完整的 GenBank数据库包括序列文件，索引文件以及其它有关文件。索引文件是根据数据库中作者、参考文献

2、等建立的，用于数据库查询。GenPept是由GenBank中的核酸序列翻译而得到的蛋白质序列数据库数据格式为FastA。,GenBank数据记录,GenBank数据记录,GenBank数据库结构,GenBank中最常用的是序列文件。序列文件的基本单位：是序列条目，包括核苷酸碱基排列顺序和注释两部分。生物信息资源中心通过计算机网络提供该数据库文件。注释条目：文章的格式,GenBank数据库结构,GenBank序列文件由单个的序列条目组成。序列条目由字段组成，每个字段由关键字起始，后面为该字段的具体说明。字段分若干次子字段，以次关键字或特性表说明符开始。每个序列条目以双斜杠“/”作结束标记,Gen

3、Bank数据库结构,序列条目的格式非常重要，关键字从第一列开始，次关键字从第三列开始，特性表说明符从第五列开始。每个字段可占一行，也可以占若干行。若一行中写不下时，继续行以空格开始,GenBank数据库,物种：GenBank 库里的数据按来源于大约100,000个物种，其中56%是人类的基因组序列(所有序列中的34%是人类的EST序列)记录：每条GenBank数据记录包含对序列的简要描述，它的科学命名，物种分类名称，参考文献，序列特征表，及序列本身,GenBank数据库,序列特征表：包含对序列生物学特征注释如：编码区、转录单元、重复区域、突变位点或修饰位点等分类：所有数据记录被划分为如细菌类、

4、病毒类、灵长类、啮齿类，以及EST数据、基因组测序数据、大规模基因组序列数据等16类，其中EST数据等又被分成若干文件,注释内容,序列条目关键字：LOCUS(代码),DEFINITION(说明)，ACCESSION(编号)，NID符(核酸标识),KEYWORDS(关键词)，SOURCE(数据来源)，REFERENCE(文献)，FEATURES(特性表)，BASE COUNT(碱基组成)ORIGIN(碱基排列顺序)。先版的核酸序列数据库将引入新的关键词SV(序列版本号)，用“编号.版本号”表示，并取代关键词NID,LOCUS,LOCUS(代码)：是该序列条目的标记，或者说标识符，蕴涵这个序列的功

5、能：如HUMCYCLOX表示人的环氧化酶。序列长度类型种属来源以录入日期等说明字段是有关这一序列的简单描述,ACCESSION,ACCESSION(编号)：具有唯一性和永久性，在文献中引用这个序列时，应该以此编号为准。,KEYWORDS,KEYWORDS(关键词)字段：由该序列的提交者提供，包括该序列的基因产物其它相关信息,SOURCE,SOURCE(数据来源)字段：说明该序列是从什么生物体、什么组织得到的次关键字ORGANISM(种属)：指出该生物体的分类学地位,REFERENCE,REFERENCE(文献)字段：说明该序列中的相关文献，包括AUTHORS(作者),TITLE(题目)及JOU

6、RNAL(杂志名)等,以次关键词列出。MEDLINE的代码：该代码实际上是个超文本链接，点击它可以直接调用上述文献摘要。一个序列可有多篇文献,以不同序号表示，并给出该序列中哪一部分与文献有关。,FEATURES,FEATURES(特性表)：具有特定的格式，用来详细描述序列特性。特性表中带有/db-xref/标志的字符可以连接到其它数据库，如分类数据库(taxon 9606),以及蛋白质序列数据库(PID：g181254)。序列中各部分的位置都在表中标明，5非编码区，编码区，3非编码区，多聚腺苷酸重复区域等。翻译所得信号肽以及最终蛋白质产物碱基含量字段，给出序列中的碱组成,ORIGIN,ORIG

7、IN行是序列的引导行下面便是碱基序列以双斜杠行“/”结束。,GenBank数据库数据库格式,FASTA格式 gi|1293613|gb|U49845.1|SCU49845 Saccharomyces cerevisiae TCP1-beta gene,partial cds;and Axl2p(AXL2)and Rev7p(REV7)genes,complete cdsGATCCTCCATATACAACGGTATCTCCACCTCAGGTTTAGATCTCAACAACGGAACCATTGCCGACATGAGACAGTTAGGTATCGTCGAGAGTTACAAGCTAAAACGAGCAGTAG

8、TCAGCTCTGCATCTGAAGCCGCTGAAGTTCTACTAAGGGTGGATAACATCATCCGTGCAAGACCAAGAACCGCCAATAGACAACATATGTAACATATTTAGGATATACCTCGAAAATAATAAACCGCCACACTGTCATTATTATAATTAGAAACAGAACGCAAAAATTATCCACTATATAATTCAAAGACGCGAAAAAAAAAGAACAACGCGTCATAGAACTTTTGGCAATTCGCGTCACAAATAAATTTTGGCAACTTATGTTTCCTCTTCGAGCAGTACTCGAGCCCTGTCTCAAGAA

9、TGTAATAATACCCATCGTAGGTATGGTTAAAGATAGCATCTCCACAACCTCAAAGCTCCTTGCCGAGAGTCGCCCT（该序列没有完全列出）,GenBank数据库数据库格式(1),FASTA格式：将一个DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或氨基酸字符串。大于号（）表示一个新文件的开始结束用（/）FASTA格式并没有什么特殊的要求。,FASTA格式序列的提交,GenBank数据库数据库格式(1),FASTA格式特点：只存储了最少量的信息它将所存储的信息转化为简单的字符串人和计算机对其存储的信息都具有极大的可读性FASTA格式在许多分子生物学软件包中

10、得到广泛应用。,GenBank数据库数据库格式(2),GenBank纯文本文件格式(GenBank flatfile,GBFF):GenBank、EMBL、DDBJ每天都相互同步更新各自的数据库，它们是怎样交换数据的呢？,GBFF文件格式,GBFF是GenBank数据库的基本信息单位，是最为广泛使用的生物信息学序列格式之一。,LOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999DEFINITION Saccharomyces cerevisiae TCP1-beta gene,partial cds,and Axl2p(AXL2)and Rev7p(REV7)g

11、enes,complete cds.ACCESSION U49845VERSION U49845.1 GI:1293613KEYWORDS.SOURCE bakers yeast.ORGANISM Saccharomyces cerevisiae Eukaryota;Fungi;Ascomycota;Hemiascomycetes;Saccharomycetales;Saccharomycetaceae;Saccharomyces.REFERENCE 1(bases 1 to 5028)AUTHORS Torpey,L.E.,Gibbs,P.E.,Nelson,J.and Lawrence,C

12、.W.TITLE Cloning and sequence of REV7,a gene whose function is required for DNA damage-induced mutagenesis in Saccharomyces cerevisiae JOURNAL Yeast 10(11),1503-1509(1994)MEDLINE 95176709REFERENCE 2(bases 1 to 5028)AUTHORS Roemer,T.,Madden,K.,Chang,J.and Snyder,M.TITLE Selection of axial growth site

13、s in yeast requires Axl2p,a novel plasma membrane glycoprotein JOURNAL Genes Dev.10(7),777-793(1996)MEDLINE 96194260REFERENCE 3(bases 1 to 5028)AUTHORS Roemer,T.TITLE Direct Submission JOURNAL Submitted(22-FEB-1996)Terry Roemer,Biology,Yale University,New Haven,CT,USAFEATURES Location/Qualifiers sou

14、rce 1.5028/organism=Saccharomyces cerevisiae/db_xref=taxon:4932/chromosome=IX/map=9 CDS 1.206/codon_start=3/product=TCP1-beta/protein_id=AAA98665.1/db_xref=GI:1293614/translation=SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEA AEVLLRVDNIIRARPRTANRQHM gene 687.3158/gene=AXL2 CDS 687.3158/gene=AXL2/note=

15、plasma membrane glycoprotein/codon_start=1/function=required for axial budding pattern of S.cerevisiae/product=Axl2p/protein_id=AAA98666.1/db_xref=GI:1293615/translation=MTQLQISLLLTATISLLHLVVATPYEAYPIGKQYPPVARVNESF（有部分序列未列出）VDFSNKSNVNVGQVKDIHGRIPEMLBASE COUNT 1510 a 1074 c 835 g 1609 tORIGIN 1 gatcc

16、tccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg 61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct（有部分序列未列出）4921 ttttcagtgt tagattgctc taattctttg agctgttctc tcagctcctc atatttttct 4981 tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc/,GBFF格式,按域（Field）可以划分为三个部分头部包含整个

17、记录的信息（描述符）；第二部分包含了注释这一记录的特性；第三部分是核苷酸序列本身。所有序列数据库记录都在最后一行以“/”结尾。,GBFF格式头部Locus行,所有的GBFF都起始于LOCUS行：-+-+-+-+-+-1 10 20 30 40 50 60 LOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999,GBFF格式头部Locus行,1、LOCUS行：第一项是LOCUS名称:最初这一名称是用来表示本记录描述的基因座，以方便检索相似序列：前三个字母代表特定物种的名称第四、第五个字母代表如基因产物等特定的类别名称。如HUMHBB。,GBFF格式头部Locus行,

18、LOCUS这种“十字符”命名方式已经无法满足基因在基因座中所包含的信息。LOCUS名称目前唯一的作用是它在数据库中是独一无二的，已不在具有任何实际意义。仅使用检索号码(acession number)以满足对LOCUS名称的要求1 10 20 30 40 50 60LOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999,GBFF格式头部Locus行,第二项是序列长度。GenBank对提交的序列长度没有上限要求。根据国际序列数据库合作计划的协议，为方便不同的软件处理序列，规定单条数据库记录的长度不能超过350kb。GenBank已经很少接受长度低于50bp的序列。1

19、 10 20 30 40 50 60LOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999,GBFF格式头部Locus行,第三项表明序列的分子类型：其序列必须是一种单一的分子类型。包括：基因组DNA、RNA、RNA前体、mRNA(cDNA)、tRNA等。1 10 20 30 40 50 60LOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999,GBFF格式头部Locus行,第四项是GenBank分类码：由三个字母组成，分类码将GenBank数据库分为17个分支1 10 20 30 40 50 60LOCUS SCU49845 502

20、8 bp DNA PLN 21-JUN-1999,GenBank分类码（GenBank Division）,GBFF格式头部Locus行,第五项是最后修订日期。某些时候，它也是数据第一次被公开的日期。这项简单的信息并无法对此做出判断。1 10 20 30 40 50 60LOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999,GBFF格式头部DEFINITION行,2、DEFINITION行：主要对GenBank记录中所含的生物学意义做出总结。它的说明内容包括来源物种、基因/蛋白质名称；-+-+-+-+-+-1 10 20 30 40 50 60 DEFINITI

21、ON Saccharomyces cerevisiae TCP1-beta gene,partial cds,and Axl2p(AXL2)and Rev7p(REV7)genes,complete cds.,GBFF格式头部DEFINITION行,如果序列是非编码区，则包含对序列功能的简单描述；如果序列是一段编码区，则标明该序列是部分序列(partial cds)还是全序列(complete cds)。-+-+-+-+-+-1 10 20 30 40 50 60 DEFINITION Saccharomyces cerevisiae TCP1-beta gene,partial cds,an

22、d Axl2p(AXL2)and Rev7p(REV7)genes,complete cds.,GBFF格式头部-ACCESSION行,3、检索号（ACCESSION）:是序列记录的唯一指针。检索号通常由一个字母加5个数字（U12345）或者由两个字母加6个数字（AF123456）组成。-+-+-+-+-+-1 10 20 30 40 50 60ACCESSION U49845Dear GenBank Submitter:Thank you for your direct submission of sequence data to GenBank.We have provided a Gen

23、Bank accession number for your nucleotide sequence:bankit660463 AY795899 We strongly recommend that this GenBank accession number appears in any publication that reports or discusses these data,as it gives the community a unique label with which they may retrieve your data from our on-line servers.,

24、GBFF格式头部-ACCESSION行,检索号在数据库中是唯一而且不变的，即使数据的提交者改变数据的内容。在 ACCESSION行中可能出现多个检索号，可能是因为数据提交者提交了一条与原记录相关的新记录，或者新提交的记录覆盖了原有的旧记录。第一个检索号为主检索号，而其余的统称为二级检索号。,GBFF格式头部VERSION行,4、版本号行：它的格式是：检索号.版本号。版本号于99年2月由三大数据库采纳使用。主要用于识别数据库中一条单一的特定核苷酸序列。在数据库中，如果某条序列数据发生了变化，即使是单碱基的改变，它的版本号都将增加，而它的检索号保持不变如由U12345.1变为U12345.2。-+

25、-+-+-+-+-+-+-1 10 20 30 40 50 60 70 79VERSION U49845.1 GI:1293613,GBFF格式头部VERSION行,版本号系统与跟在其后的GI（GenInfo Identifier）号系统是平行运行当一条序列改变后，它将被赋予一个新的GI号，同时它的版本号将增加。当依据核酸序列的内部序列进行蛋白质翻译时，蛋白质的翻译发生任何变换，核酸序列都将被赋予一个新的GI号。-+-+-+-+-+-+-+-1 10 20 30 40 50 60 70 79VERSION U49845.1 GI:1293613,GBFF格式头部KEYWORDS行,5、关键词行

26、：是用来描述序列的。如果该行中没有任何内容，那么就只包含一个“.”。由于没有对照词汇表，所以NCBI GenBank拒绝接受关键词，它只存在于旧的记录中。-+-+-+-+-+-+-+-1 10 20 30 40 50 60 70 79KEYWORDS.,GBFF格式头部 SOURCE行,6、序列来源行：没有做特殊的规定，它通常包含序列来源生物的简称，有些时候也包含分子类型。Organism：以NCBI的分类数据库为依据，指明物种的正式科学名称。-+-+-+-+-+-+-+-1 10 20 30 40 50 60 70 79SOURCE bakers yeast.ORGANISM Sacchar

27、omyces cerevisiae Eukaryota(真核);Fungi(真菌);Ascomycota(子囊菌门);Hemiascomycetes(半子囊菌纲);Saccharomycetales;Saccharomycetaceae;Saccharomyces.,GBFF格式头部REFERENCE行,7、参考文献行：将与该数据有关的参考文献均收录在内，将最先发表的文献列于第一位。如果序列数据没有被文献报道，该行将显示“in press”或“unpublished”如所引用文献存在于MEDLINE数据库中，将出现一个MEDLINE单一指针(unique identifier,UID)以便检索

28、。-+-+-+-+-+-+-+-1 10 20 30 40 50 60 70 79REFERENCE 1(bases 1 to 5028)AUTHORS Torpey,L.E.,Gibbs,P.E.,Nelson,J.and Lawrence,C.W.TITLE Cloning and sequence of REV7,a gene whose function is required for DNA damage-induced mutagenesis in Saccharomyces cerevisiae JOURNAL Yeast 10(11),1503-1509(1994)MEDLIN

29、E 95176709,GBFF格式头部REFERENCE行,如果序列是直接提交而未经发表的，就将在标题(TITLE)中注明“直接提交(Direct Submission)”在期刊（JOURNAL）中注明提交日期，提交者姓名以及提交者的工作单位。-+-+-+-+-+-+-+-1 10 20 30 40 50 60 70 79REFERENCE 1(bases 1 to 1939)AUTHORS Yi,CAO.,Dairong,QIAO.,Qinghua,HE.and Shunji,HE.TITLE Cloning and expression studies of a cDNA encoding

30、 UDP-glucose dehydrogenase from Dunaliella salina JOURNAL Unpublished,GBFF格式中部,特性表(FEATURES):它描述基因和基因的产物，以及与序列相关的生物学特性。特性表提供一个参考词汇表以对合法的特性进行注释这些特性包括该序列是否执行一个生物学功能；它是否与一个生物学功能的表达相关；它是否与其它分子相互作用；它是否影响一条序列的复制；它是否与其它序列的重组相关；它是否是一条已识别的重复序列；它是否有二级或三级结构；它是否存在变异或者它是否被修订过。,GBFF格式中部,特性表格式：按表单的方式设计的，包含三个部分：第一，

31、特性关键词(Feature key)；第二，特性位置(Location)；第三，限定词(Qualifiers)。FEATURES Location/Qualifiers source 1.5028/organism=Saccharomyces cerevisiae/mol_type=genomic DNA/db_xref=taxon:4932/chromosome=IX/map=9,GBFF格式中部FEATURES,第一，特性关键词(Feature key),是一个简要说明功能组的关键词，允许加入新的或未定义的特性；第二，特性位置(Location)，指明在特性表中的什么地方找到相关特性，在位

32、置特性中可以包含操作符(Operator)和功能性描述符(Descriptor)以指明序列需经过怎样的处理才能得到相应的特性；第三，限定词(Qualifiers),相关特性的辅助信息，限定词使用一组标准化的对照词汇表以利于计算机从中提取信息。,GBFF格式中部FEATURES,例1Key Location/QualifiersCDS 23.400/product=alcohol dehydrogenase/gene=adhI特性表含义：该编码序列（CDS）起始于第23碱基，终止于第400碱基产物是乙醇脱氢酶基因名称是“adhI”。,GBFF格式中部FEATURES,例2Key Location

33、/QualifiersCDS join(544.589,688.1032)/product=T-cell receptor beta-chain特性表含义：它表示记录中所存储的序列为部分编码序列，表达产物“T-细胞受体beta链”由序列内两个片段结合生成指明两个片段在序列中所处的位置。,GBFF格式中部特性表关键词,1、特性表的关键词：以树型结构生成misc_feature 生物学特性无法用特性表关键词描述的序列misc_difference 序列特性无法用特性表关键词描述的序列conflict 同一序列在不同的研究中在位点或区域上有差异unsure 序列不能确定的区域old_sequence

34、该序列对以前的版本做过修订variation 包含稳定突变的序列modified_base 修饰过的核苷酸gene 已识别为基因或已命名的序列区域misc_signal 无法用信号特性关键词描述的信号序列promoter 转录起始区CAAT_signal 真核启动子上游的CAAT盒，与RNA结合相关TATA_signal 真核启动子的TATA盒-35_signal 原核启动子中的-35框-10_signal 原核启动子Pribow盒GC_signal 真核启动子的GC盒RBS 核糖体结合位点polyA_signal RNA转录本的剪切识别位点enhancer 增强子attenuator 与转

35、录终止有关的序列terminator 转录终止序列rep_origin 双链DNA复制起始区,GBFF格式中部特性表关键词,misc_RNA 无法用RNA关键词描述的转录物或RNA产物prim_transcript 初始转录本precursor_RNA 前体RNAmRNA 信使RNA5clip 前体转录本中被剪切掉的5端序列3clip 前体转录本中被剪切掉的3端序列5UTR 5非翻译区3UTR 3非翻译区exon 外显子CDS 蛋白质编码序列sig_peptide 编码信号肽的序列transit_peptide 转运蛋白编码序列mat_peptide 编码成熟肽的序列intron 内含子pol

36、yA_site RNA转录本的多聚腺苷酸化位点rRNA 核糖体RNAtRNA 转运RNAscRNA 小细胞质RNAsnRNA 小核RNAsnoRNA 加工和修饰rRNA的小核RNA,GBFF格式中部特性表关键词,immunoglobulin_relatedC_region 免疫相关蛋白上的稳定区D_segment 码免疫球蛋白重链的可变区基因之一J_segment 编码免疫球蛋白轻链和重链的可变区基因之一N_region 插入重排免疫球蛋白片段间的核苷酸S_region 免疫球蛋白重链的开关区V_region 免疫球蛋白轻链和重链的可变区，和T细胞受体，和链；编码可变的氨基末端部分；可由V_s

37、egment,D_segment,N_region和J_segment组成 V_segment 免疫球蛋白轻链和重链的可变区段，和T 细胞受体，和链；编码大多数可变区（v_region）和前导肽的最后几个氨基酸repeat_region 基因组中所包含的重复序列,GBFF格式中部特性表关键词,repeat_unit 单个的重复元件LTR 长末端重复序列Satellite 卫星重复序列misc_binding 无法描述的核酸序列结合位点primer_bind 复制、转录的引物结合位点protein_bind 蛋白质结合区STS 测序标签位点misc_recomb 无法用重组特性关键词描述的重组事

38、件iDNA 通过重组所消除的DNAmisc_structure 无法用结构关键词描述的核酸序列高级结构或构型stem_loop 发夹结构D-loop 线粒体中DNA中的取代环,GBFF格式中部Location,2、特性位置（Location）：用来描述在序列中的什么区域能够找到相关的特性，位置特性可以包含Complement、Join、Order等三个操作符（Operator）。467 指明序列中的单个碱基340.565 指明包括起始和中止碱基在内的一段连续序列345.500 指明序列起始于起始碱基号之前的某个位置，但起始碱基号之前的特性边界未知,GBFF格式中部Location,1.888

39、指明特性起始于第一个已测序的碱基之前(102.110)指明正确位置未知，但包含在102和110号碱基之间(23.45).600 指明序列特性起始碱基在23和45碱基之间，终止于600号碱基(122.133).(204.221)指明序列特性起始于122和133碱基之间，终止于204和221号碱基之间123124 指明123和124号碱基之间的位点，如限制性酶切位点145177 指明145和177碱基之间的某个位点,GBFF格式中部Location,join(12.78,134.202)12至78碱基及134至202碱基之间序列相应连以构成一段连续序列complement(join(2691.45

40、71,4918.5163)纪录中的特性处于2691至4571碱基以及4918至5163碱基之间的序列相连构成的连续序列的互补链上join(complement(4918.5163),complement(2691.4571)将4918至5163碱基之间序列的互补链与2691至4571间序列的互补链结合以构成一段连续序列,GBFF格式中部Location,complement(34.(122.126)指明序列特性起始于与122至126碱基之间某个互补的碱基，终止于与34号碱基互补的碱基J00194:100.202 指明起始于100号碱基，终止于202号碱基的序列在数据库中的主检索号为J00194

41、,GBFF格式中部 Qulifier,3、限定词(Qulifier):为进一步说明特性表关键词和特性位置提供的信息给出了一个通用机制。格式:在“/”后跟上限定词名称，加上“=”,其后是限定词的值Key Location/QualifiersCDS 86.742/product=hypoxanthine phosphoribosyltransferase/label=hprt/note=hprt catalyzes vital steps in the reutilization pathway for purine biosynthesis and its deficiency leads t

42、o forms of gouty arthritisrep_origin 234.243/direction=leftCDS 109.564/usedin=X10009:catalase,常见的特性表关键词所使用的限定词,常见的特性表关键词所使用的限定词(续),GBFF格式尾部ORIGIN,序列：类似于FASTA格式给出了所记录的序列。ORIGIN 1 gatcctccat atacaacggt atctccacct caggtttaga 41 tctcaacaac ggaaccattg ccgacatgag acagttaggt 81 atcgtcgaga gttacaagct aaaacg

43、agca gtagtcagct（有部分序列未列出）4921 ttttcagtgt tagattgctc taattctttg agctgttctc4961 tcagctcctc atatttttct tgccatgact cagattctaa 5001 ttttaagcta ttcaatttct ctttgatc/,总结,全面了解GBFF文件格式及其所涉及的各个方面GBFF是核苷酸和蛋白质序列数据库最常用的数据格式。正确地理解数据库格式成分的含义，知道从中如何提取生物学知识在数据库中进行检索，使用不同的工具进行生物信息学分析，具有十分重要的意义。,EMBL,生化实验技术质谱分析(Mass Sp

44、ectrometry)等细胞生物学(Cell Biology)，研究细胞膜上蛋白和脂肪的分布，包括膜运输、微管网络、细胞核及细胞周期，焦点是Rab蛋白。细胞生物物理(Cell Biophysics)，重点是理论创新和实际应用的研究，尤其是光学显微镜的完善使用。分化(Differentiation)，集中研究果蝇的早期发育。,EMBL的研究内容,基因表达(GeneExpression)，研究基因到蛋白质信息传递的过程，尤其是核糖体合成在整个细胞生命过程中的重要作用。结构生物学(StructureBiology)，在过去9年中建立了cDNA测序技术、生物计算、蛋白工程、晶体学、电子显微镜(EM)及

45、核磁共振(VMR)，研究肌肉巨型蛋白分子Titin。Grenoble研究分部，主要研究蛋白质合成过程，尤其揭示了G-蛋白-鸟苷酸交换因子偶联物的结构Hamburg研究分部，有关长期的分子生物学国际合作研究历史，着重于结构生物学研究，如光学测量系统、晶体学、X-线吸收光谱及小角散射。,EMBL的研究内容,Hinxton研究分部EBI，重点是与世界上其他分子生物学数据库进行合作研究，主要有EMBL核酸序列数据库,于1980年开始建立,随后参予了与日内瓦大学共同进行的SWISS-PROT的建设。在SWISS-PROT与EMBL核苷酸序列库之间的数据转移的基础上，产生了新的数据库TREMBL,即使核苷

46、酸序列库的核苷酸序列自动翻译成SWISS-PROT蛋白序列库中的蛋白序列。放射性杂交数据库(Radiation Hybrid Database)。Monterotondo研究中心：EMBL和欧洲其他研究机构一起，加入到哺乳类生物学和生物医学等的研究行列,该中心位于意大利罗马北部的Monterotondo。EMBL着重于鼠遗传学研究,EMBL数据记录,EMBL数据库结构,EMBL数据库的基本单位也是序列条目，包括核甘酸碱基排列顺序和注释两部分。序列条目由字段组成，每个字段由标识字起始，后面为该字段的具体说明。有些字段又分若干次子字段，以次标识字或特性表说明符开始，最后以双斜杠“/”作本序列条目结

47、束标记。,EMBL数据库结构,条目的关键字包括：ID(序列名称)，DE(序列简单说明)，AC(序列编号)，SV(序列版本号)，KW(与序列相关的关键词)，OS(序列来源的物种名)，OC(序列来源的物种学名和分类学位置)，RN(相关文献编号或递交序列的注册信息)，RA(相关文献作者或递交序列的作者)，,EMBL数据库结构,RT(相关文献题目)RL(相关文献杂志名或递交序列的作者单位),RX(相关文献Mediline引文代码)，RC(相关文献注释)，RP(相关文献其他注释)，CC(关于序列的注释信息)，DR(相关数据库交叉引用号)，FH(序列特征表起始)，FT(序列特征表子项)，SQ(碱基种类统计

48、数),EMBL数据库记录注释代码和内容说明,相关文献数据库(DR)的说明,许多二级数据库内容来自初始数据库OMIM数据库是有关人类遗传疾病的数据，如OMIM中的一个记录与EMBL中一个已知序列的基因有关，则该基因将与该记录建立联系，EMBL库中该序列的DR栏中将包括OMIM和OMIM中相关记录的名称。DR栏中有该DNA序列翻译成蛋白质序列的SWISS-PROT记录号等。,EMBL数据库记录,相关文献数据库,相关文献数据库(DR)的说明,DR栏内容有助于了解与该原始DNA序列相关信息的状况和存贮站点。与DR栏有关的数据库：SWISS-PROT、EMBL、OMIM、PROSITE(保守蛋白质模序数

49、据库)、HSSP、PDB、PIR、MEDLNE(与RL栏相关的文献摘要数据库)等。,相关文献数据库(DR)的说明,注释中另一个需要说明的重要内容是主表数据(feature table data,FT)栏。主表试图将尽可能多的序列信息囊括其中，并以计算机可以阅读的格式编排。3个主要DNA数据库(EMBL、GenBank和DDBJ)已经对该表的表述格式达成了一致。具体表述在：,General Information,Additional Information,Additional Information,Sequence,Primary Accession头部,Primary Accession

50、中部,Primary Accession尾部,序列文件格式,文本格式简单文本格式Line,Plain TextStadenFASTABionet(allows comments)加入注释的文本格式GenBankGCG二进制格式(通常都带有注释)MacVector,序列文件格式例子（Fasta）,gi|995614|dbj|D49653|RATOBESE Rat mRNA for obese.CCAAGAAGAAGAAGACCCCAGCGAGGAAAATGTGCTGGAGACCCCTGTGCCGGTTCCTGTGGCTTTGGTCCTATCTGTCCTATGTTCAAGCTGTGCCTATCC

展开阅读全文