读懂GeneBank数据.ppt

上传人:sccc 文档编号:5122628 上传时间:2023-06-06 格式:PPT 页数:126 大小:3.01MB
返回 下载 相关 举报
读懂GeneBank数据.ppt_第1页
第1页 / 共126页
读懂GeneBank数据.ppt_第2页
第2页 / 共126页
读懂GeneBank数据.ppt_第3页
第3页 / 共126页
读懂GeneBank数据.ppt_第4页
第4页 / 共126页
读懂GeneBank数据.ppt_第5页
第5页 / 共126页
点击查看更多>>
资源描述

《读懂GeneBank数据.ppt》由会员分享,可在线阅读,更多相关《读懂GeneBank数据.ppt(126页珍藏版)》请在三一办公上搜索。

1、生物信息学数据库核酸序列数据库蛋白质序列数据库蛋白质结构数据库基因组数据库生物信息学数据库的分类,襟讣圃阵景皮铂炮哈乘每特铁腐芦搔找语祟拳矛堆厦祟念锦条铡盾勤届拦读懂GeneBank数据读懂GeneBank数据,生物信息学数据库欧洲分子生物学实验室的EMBLhttp:/www.embl-heidelberg.de美国生物技术信息中心的GenBankhttp:/www.ncbi.nlm.nih.gov/Genbank/日本国立遗传研究所的DDBJhttp:/www.ddbj.nig.ac.jp/searches-e.html核酸序列数据库,畔匆光郧葵至洞辛号赊五剑求帅哈厢迢缀喊穷赠溺召漾懈禁剁秒

2、定彰梆放读懂GeneBank数据读懂GeneBank数据,GenBank数据库结构,作用:了解序列数据库的格式,有助于更好地提高数据库检索的效率和准确性。DDBJ数据库的内容和格式与GenBank相同,此处不作详细介绍。分别介绍EMBL和GenBank的数据库结构,都筛敢倡徐皖肛除板湖暑柠莱挡复惜维禽仲图抖得班钦做郊遣土线眩旷淤读懂GeneBank数据读懂GeneBank数据,GenBank数据库数据注释(www.ncbi.nlm.nih.gov/genbank/),GenBank库包含所有已知的核酸序列和蛋白质序列,以及与它们相关的文献著作和生物学注释。NCBI可提供广泛的数据查询、序列相似

3、性搜索以及其它分析服务。数据库序列文件:注释内容文章索引文件:检索目录文摘,班勃八叭胞焉水皱戎腹倚伦糠医吴怨皆纠韧埔征卉窘受酞理塑托肝涕卿式读懂GeneBank数据读懂GeneBank数据,GenBank数据库结构,完整的 GenBank数据库包括序列文件,索引文件以及其它有关文件。索引文件是根据数据库中作者、参考文献等建立的,用于数据库查询。GenPept是由GenBank中的核酸序列翻译而得到的蛋白质序列数据库数据格式为FastA。,舱抄羡串班践革俯欠寝花沏叙诞侮盏湖请敢雪赘息检济黑妨叠包茁践名径读懂GeneBank数据读懂GeneBank数据,GenBank数据库结构,GenBank中最

4、常用的是序列文件。序列文件的基本单位:是序列条目,包括核苷酸碱基排列顺序和注释两部分。生物信息资源中心通过计算机网络提供该数据库文件。注释条目:文章的格式,(www.ncbi.nlm.nih.gov/genbank/,桐实喝鹰啃盛徽俊盆盈秦彻字酗个牵灾坏旦达铜舟浸松捉挎炒僧扒罐去盐读懂GeneBank数据读懂GeneBank数据,Genbank,攒翠槐犹胜捞商正阅阳酿蔗窄镐宜光煌题尹淀柳偿媳挠梅投符支松席职却读懂GeneBank数据读懂GeneBank数据,Genbank 查找页面,绣动味殆梗伦熙予柔冠烃美妮笆服液襟恭桌细惦庄呐茧泞藕轧庙癸诗膏畏读懂GeneBank数据读懂GeneBank数据

5、,D31716,描述部分,侗呼曙喂札闽拙蝎酱员沦纠壳询诉彼辫袄登点汗绝淖婿霸巍巫沃绪母字贫读懂GeneBank数据读懂GeneBank数据,CDs are recurring units in polypeptide chains(sequence and structure motifs),the extents of which can be determined by comparative analysis.Molecular evolution uses such domains as building blocks and these may be recombined in di

6、fferent arrangements to make different proteins with different functions.,CD s编码序列,含终止密码子 polyA_signal 多聚A信号,郑曳枷左炒猿谷央区弹樱颂浊牡贼剔谁姿套且起照手角充失氯谨狡呼卒背读懂GeneBank数据读懂GeneBank数据,D31716,特性表,序列本身,关键字,CDs are recurring units in polypeptide chains,霉莫亮尝桔钎船锨唱当馆坊夕稻坚彭绣睬卜宙绍甜鸭卸瑞象绅竹捕寄歌诉读懂GeneBank数据读懂GeneBank数据,D31716,序列本身

7、,抽该才津的咆粤列滚烫愚伏未金肇朋咋围菜兜镍胃济珍响稻捕稳歉锐蚕沼读懂GeneBank数据读懂GeneBank数据,肄黍悄陵拖蛀曾势痕铂链秀涣妙呀盯状哭抬灯韭浦弘霓谴巧另齿漾贫在丈读懂GeneBank数据读懂GeneBank数据,序列结束,4859 bp,靳邹泞顺棉惟晒料秧馆体潜电虚闽蔫廉估蓄凑牌株猖爸抹卡炯藤倦脐扶酥读懂GeneBank数据读懂GeneBank数据,D31716,二市蔼恕酸淳坞喘胃喝娜凯垒郑豪聚伺颧叫魄颗酷非兄嗜柄屎叉纫衬缔吐读懂GeneBank数据读懂GeneBank数据,GenBank数据记录,嘉扰鼎细损爆便闸衅抉既秩剪蚂辣烘桑锯仙口汝红郭挑千歧剪滨牟不渠研读懂GeneB

8、ank数据读懂GeneBank数据,GenBank数据记录,苹谩礁概租挂栋放分沽梢凌姿焚精败昼果骡爬野椭室土搬尝挝鹰唁膀槽濒读懂GeneBank数据读懂GeneBank数据,GenBank数据库结构,GenBank序列文件由单个的序列条目组成。序列条目由字段组成,每个字段由关键字起始,后面为该字段的具体说明。字段分若干次子字段,以次关键字或特性表说明符开始。每个序列条目以双斜杠“/”作结束标记,藤魄沾晕棒锰向此宛青啊彝也电枢欢雕姚挚漓乌最着狐戎档甭鱼桐沛潮辛读懂GeneBank数据读懂GeneBank数据,GenBank数据库结构,序列条目的格式非常重要,关键字从第一列开始,次关键字从第三列开

9、始,特性表说明符从第五列开始。每个字段可占一行,也可以占若干行。若一行中写不下时,继续行以空格开始,群谨唉萌狸云剥盟辕氮脓烽桩简梧套限恒猜衷蹭瞎廖嚏仟养便嫌持振蛙社读懂GeneBank数据读懂GeneBank数据,GenBank数据库,物种:GenBank 库里的数据按来源于大约100,000个物种,其中56%是人类的基因组序列(所有序列中的34%是人类的EST序列)记录:每条GenBank数据记录包含对序列的简要描述,它的科学命名,物种分类名称,参考文献,序列特征表,及序列本身,部锹剃空肛憋壶夹林亨央譬义上扩惺播番恿绊毯褪他寒荷腊军院涎摸扼氮读懂GeneBank数据读懂GeneBank数据,

10、GenBank数据库,序列特征表:包含对序列生物学特征注释如:编码区、转录单元、重复区域、突变位点或修饰位点等分类:所有数据记录被划分为如细菌类、病毒类、灵长类、啮齿类,以及EST数据、基因组测序数据、大规模基因组序列数据等16类,其中EST数据等又被分成若干文件,县味痛泉潘罩搏栗挛过宿畅调矫窑署帝施筏昆芯撒崩高簇胚僧垃泥稠腋寡读懂GeneBank数据读懂GeneBank数据,注释内容,序列条目关键字:LOCUS(代码),DEFINITION(说明),ACCESSION(编号),NID符(核酸标识),KEYWORDS(关键词),SOURCE(数据来源),REFERENCE(文献),FEATUR

11、ES(特性表),BASE COUNT(碱基组成)ORIGIN(碱基排列顺序)。新版的核酸序列数据库将引入新的关键词SV(序列版本号),用“编号.版本号”表示,并取代关键词NID,溪潦驴倘渤睹卑察锑汗宁庚酚蒲肇氛博带蚤戈营巧抓沉然床座半邮棍统梦读懂GeneBank数据读懂GeneBank数据,LOCUS,LOCUS(代码):是该序列条目的标记,或者说标识符,蕴涵这个序列的功能:如HUMCYCLOX表示人的环氧化酶。序列长度类型种属来源录入日期等说明字段是有关这一序列的简单描述,摆践杯御挛酒狸爱碌舆摸千忱蔡偶贬色烂铜嘉堪绦融咯俩乱豁住狈毅呈辣读懂GeneBank数据读懂GeneBank数据,ACC

12、ESSION,ACCESSION(编号):具有唯一性和永久性,在文献中引用这个序列时,应该以此编号为准。,玲渭据谰郧痪户绿整笔醒宽辞叫嘿历卧缠血完睡若培望掀潍傈绝见耳减本读懂GeneBank数据读懂GeneBank数据,KEYWORDS,KEYWORDS(关键词)字段:由该序列的提交者提供,包括该序列的基因产物其它相关信息,翱棋耙蕊垢瓦韵菏嗣腆屑抨翻婶贞码醇拥逮止矽盈羔膘隋葫钒勉详朋渔运读懂GeneBank数据读懂GeneBank数据,SOURCE,SOURCE(数据来源)字段:说明该序列是从什么生物体、什么组织得到的次关键字ORGANISM(种属):指出该生物体的分类学地位,消期圈结捞呆琅菩

13、搭反难鳃媳晾搂兢笔竟登奋镭配糙寂袱夕赔蘸举惺绳噶读懂GeneBank数据读懂GeneBank数据,REFERENCE,REFERENCE(文献)字段:说明该序列中的相关文献,包括AUTHORS(作者),TITLE(题目)及JOURNAL(杂志名)等,以次关键词列出。MEDLINE的代码:该代码实际上是个超文本链接,点击它可以直接调用上述文献摘要。一个序列可有多篇文献,以不同序号表示,并给出该序列中哪一部分与文献有关。,厂饮奔踞芍绪罪硬谣瓷唤美末杂擎扒颈绳瘟绝施傈英惶誊亲译碴蒲蛮匡初读懂GeneBank数据读懂GeneBank数据,FEATURES,FEATURES(特性表):具有特定的格式,用

14、来详细描述序列特性。特性表中带有/db-xref/标志的字符可以连接到其它数据库,如分类数据库(taxon 9606),以及蛋白质序列数据库(PID:g181254)。序列中各部分的位置都在表中标明,5非编码区,编码区,3非编码区,多聚腺苷酸重复区域等。翻译所得信号肽以及最终蛋白质产物碱基含量字段,给出序列中的碱组成,婆祈呼烈瞬未友料惺宣度胖答练忧蓬紫佬峦割伐俞瘪豫雏爹艾彤引巳鲁珊读懂GeneBank数据读懂GeneBank数据,ORIGIN,ORIGIN行是序列的引导行下面便是碱基序列以双斜杠行“/”结束。,声该带崩埂潍篷殴漳恩嘿序虾侍想尽累暴捎债侦挞聚叁辽茅卞抓道秋蛔剖读懂GeneBank

15、数据读懂GeneBank数据,GenBank数据库数据库格式,FASTA格式 gi|1293613|gb|U49845.1|SCU49845 Saccharomyces cerevisiae TCP1-beta gene,partial cds;and Axl2p(AXL2)and Rev7p(REV7)genes,complete cdsGATCCTCCATATACAACGGTATCTCCACCTCAGGTTTAGATCTCAACAACGGAACCATTGCCGACATGAGACAGTTAGGTATCGTCGAGAGTTACAAGCTAAAACGAGCAGTAGTCAGCTCTGCATCTG

16、AAGCCGCTGAAGTTCTACTAAGGGTGGATAACATCATCCGTGCAAGACCAAGAACCGCCAATAGACAACATATGTAACATATTTAGGATATACCTCGAAAATAATAAACCGCCACACTGTCATTATTATAATTAGAAACAGAACGCAAAAATTATCCACTATATAATTCAAAGACGCGAAAAAAAAAGAACAACGCGTCATAGAACTTTTGGCAATTCGCGTCACAAATAAATTTTGGCAACTTATGTTTCCTCTTCGAGCAGTACTCGAGCCCTGTCTCAAGAATGTAATAATACCCAT

17、CGTAGGTATGGTTAAAGATAGCATCTCCACAACCTCAAAGCTCCTTGCCGAGAGTCGCCCT(该序列没有完全列出),砷条兴惹立资屿寞蔬傲己轴三志斋伊构矩糟服效盛鸵独猩汾拼得孝活媒驴读懂GeneBank数据读懂GeneBank数据,GenBank数据库数据库格式(1),FASTA格式:将一个DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或氨基酸字符串。大于号()表示一个新文件的开始结束用(/)FASTA格式并没有什么特殊的要求。,递管流国芒欧腮蜘眼醚崭悉怠霄谅男壤药佳增付涤唆婉膊最轩眶殉娜悼默读懂GeneBank数据读懂GeneBank数据,FASTA格式序列的

18、提交,模杉柴峡套笺锤痉葫逊聚肃正公跋象挞稗核洗苦抖柔钨押挡没昔晋僵柔嫉读懂GeneBank数据读懂GeneBank数据,GenBank数据库数据库格式(1),FASTA格式特点:只存储了最少量的信息它将所存储的信息转化为简单的字符串人和计算机对其存储的信息都具有极大的可读性FASTA格式在许多分子生物学软件包中得到广泛应用。,猩转广组遁厌绿补篙烘截郎弓季瘁卿均敛诉经焕憋哩硫莹狱乐拥闭要窟烫读懂GeneBank数据读懂GeneBank数据,GenBank数据库数据库格式(2),GenBank纯文本文件格式(GenBank flatfile,GBFF):GenBank、EMBL、DDBJ每天都相互

19、同步更新各自的数据库,它们是怎样交换数据的呢?,铂揭彬朴画隆浦装趟溃汹茧泊董泄污芍尉王眩牧撕大仕漆亏灌适杏骂淌廷读懂GeneBank数据读懂GeneBank数据,GBFF文件格式,GBFF是GenBank数据库的基本信息单位,是最为广泛使用的生物信息学序列格式之一。,匡傀相漓膳奶眨吮沏片翌窥钥玫馈建冗踊倪属贺获洞年壹湖亿墩律惩反扣读懂GeneBank数据读懂GeneBank数据,LOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999DEFINITION Saccharomyces cerevisiae TCP1-beta gene,partial cds,and

20、Axl2p(AXL2)and Rev7p(REV7)genes,complete cds.ACCESSION U49845VERSION U49845.1 GI:1293613KEYWORDS.SOURCE bakers yeast.ORGANISM Saccharomyces cerevisiae Eukaryota;Fungi;Ascomycota;Hemiascomycetes;Saccharomycetales;Saccharomycetaceae;Saccharomyces.REFERENCE 1(bases 1 to 5028)AUTHORS Torpey,L.E.,Gibbs,P

21、.E.,Nelson,J.and Lawrence,C.W.TITLE Cloning and sequence of REV7,a gene whose function is required for DNA damage-induced mutagenesis in Saccharomyces cerevisiae JOURNAL Yeast 10(11),1503-1509(1994)MEDLINE 95176709REFERENCE 2(bases 1 to 5028)AUTHORS Roemer,T.,Madden,K.,Chang,J.and Snyder,M.TITLE Sel

22、ection of axial growth sites in yeast requires Axl2p,a novel plasma membrane glycoprotein JOURNAL Genes Dev.10(7),777-793(1996)MEDLINE 96194260REFERENCE 3(bases 1 to 5028)AUTHORS Roemer,T.TITLE Direct Submission JOURNAL Submitted(22-FEB-1996)Terry Roemer,Biology,Yale University,New Haven,CT,USAFEATU

23、RES Location/Qualifiers source 1.5028/organism=Saccharomyces cerevisiae/db_xref=taxon:4932/chromosome=IX/map=9 CDS 1.206/codon_start=3/product=TCP1-beta/protein_id=AAA98665.1/db_xref=GI:1293614/translation=SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEA AEVLLRVDNIIRARPRTANRQHM gene 687.3158/gene=AXL2 C

24、DS 687.3158/gene=AXL2/note=plasma membrane glycoprotein/codon_start=1/function=required for axial budding pattern of S.cerevisiae/product=Axl2p/protein_id=AAA98666.1/db_xref=GI:1293615/translation=MTQLQISLLLTATISLLHLVVATPYEAYPIGKQYPPVARVNESF(有部分序列未列出)VDFSNKSNVNVGQVKDIHGRIPEMLBASE COUNT 1510 a 1074 c

25、 835 g 1609 tORIGIN 1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg 61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct(有部分序列未列出)4921 ttttcagtgt tagattgctc taattctttg agctgttctc tcagctcctc atatttttct 4981 tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc/,采压蹬唆

26、编液乓镶秀经屠浮睦学撇苔膏襄竟商饶粘汪傍善释腋渝癸挽瀑捡读懂GeneBank数据读懂GeneBank数据,GBFF格式,按域(Field)可以划分为三个部分头部包含整个记录的信息(描述符);第二部分包含了注释这一记录的特性;第三部分是核苷酸序列本身。所有序列数据库记录都在最后一行以“/”结尾。,朱豺庭皆掺穆俊痕剪帘欧跟夕靡酿英博郭携坟搏利陀椒乾绵懂藉泉翅祈钡读懂GeneBank数据读懂GeneBank数据,GBFF格式头部Locus行,所有的GBFF都起始于LOCUS行:-+-+-+-+-+-1 10 20 30 40 50 60 LOCUS SCU49845 5028 bp DNA PLN

27、21-JUN-1999,淄冀尉携孙辞逊阜坦掌镜仰涡戒逞狈吵址攻潞伎拙摈用语缀臆议逝鸥蜘巢读懂GeneBank数据读懂GeneBank数据,GBFF格式头部Locus行,1、LOCUS行:第一项是LOCUS名称:最初这一名称是用来表示本记录描述的基因座,以方便检索相似序列:前三个字母代表特定物种的名称第四、第五个字母代表如基因产物等特定的类别名称。如HUMHBB(人-珠蛋白基因区域)。,象杰狐斑相长剐语赛逊喷臼酱丘玫级闺暖枪戴丫贸祈暖匿绳吼丧聂沪堪蹲读懂GeneBank数据读懂GeneBank数据,GBFF格式头部Locus行,LOCUS这种“十字符”命名方式已经无法满足基因在基因座中所包含的信

28、息。LOCUS名称目前唯一的作用是它在数据库中是独一无二的,已不在具有任何实际意义。仅使用检索号码(acession number)以满足对LOCUS名称的要求1 10 20 30 40 50 60LOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999,抉鲜宙孤姻赖拱右松疥墙制滴赦芝倪调砚皑烽禄德辽欣伴葵信爪忧晃吃款读懂GeneBank数据读懂GeneBank数据,GBFF格式头部Locus行,第二项是序列长度。GenBank对提交的序列长度没有上限要求。根据国际序列数据库合作计划的协议,为方便不同的软件处理序列,规定单条数据库记录的长度不能超过350kb。Gen

29、Bank已经很少接受长度低于50bp的序列。1 10 20 30 40 50 60LOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999,挎晨讲馁怪技焚咒私瞬收诣澡汹镶索咏帚就组宏谈炽蛹伦嘘掖殿泳乐旷性读懂GeneBank数据读懂GeneBank数据,GBFF格式头部Locus行,第三项表明序列的分子类型:其序列必须是一种单一的分子类型。包括:基因组DNA、RNA、RNA前体、mRNA(cDNA)、tRNA等。1 10 20 30 40 50 60LOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999,优框筛境俭贼奄说友冻郁册懂肖成撩

30、职踞饥蚀岗命还坠刹梭哇省间涛晾大读懂GeneBank数据读懂GeneBank数据,GBFF格式头部Locus行,第四项是GenBank分类码:由三个字母组成,分类码将GenBank数据库分为17个分支1 10 20 30 40 50 60LOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999,抡锗糊择寅坠廓旷队眶驼攘牧举及萧觅腻骄鞭伙半膳堑柬剪斩鄂兆饿冉漆读懂GeneBank数据读懂GeneBank数据,GenBank分类码(GenBank Division),丢项青岂逆弱棚态委晃氧指鳞乡惮秉豪扔情奢固境晒惊谣堤报鸦翟菌禹膛读懂GeneBank数据读懂GeneBa

31、nk数据,GBFF格式头部Locus行,第五项是最后修订日期。某些时候,它也是数据第一次被公开的日期。这项简单的信息并无法对此做出判断。1 10 20 30 40 50 60LOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999,誊却副毗妮鼓蔫炔亨萤自粘昧骏酷紊锡摸僧逾漠峙烟闻圆舜折垃巳腆衔阮读懂GeneBank数据读懂GeneBank数据,GBFF格式头部DEFINITION行,2、DEFINITION行:主要对GenBank记录中所含的生物学意义做出总结。它的说明内容包括来源物种、基因/蛋白质名称;-+-+-+-+-+-1 10 20 30 40 50 60

32、DEFINITION Saccharomyces cerevisiae TCP1-beta gene,partial cds,and Axl2p(AXL2)and Rev7p(REV7)genes,complete cds.,屿扔很片喜骑日荆恰荡霸铆泼嫉愧预怒盲训醇烧黎弊默测魂酒辛枷瞩祭涕读懂GeneBank数据读懂GeneBank数据,GBFF格式头部DEFINITION行,如果序列是非编码区,则包含对序列功能的简单描述;如果序列是一段编码区,则标明该序列是部分序列(partial cds)还是全序列(complete cds)。-+-+-+-+-+-1 10 20 30 40 50 60

33、DEFINITION Saccharomyces cerevisiae TCP1-beta gene,partial cds,and Axl2p(AXL2)and Rev7p(REV7)genes,complete cds.,阂幌部访语鞘存除也朵铜水集土沟旨逸醚虎叉镊匝信缸例杯伏碑旬扶秋缔读懂GeneBank数据读懂GeneBank数据,GBFF格式头部-ACCESSION行,3、检索号(ACCESSION):是序列记录的唯一指针。检索号通常由一个字母加5个数字(U12345)或者由两个字母加6个数字(AF123456)组成。-+-+-+-+-+-1 10 20 30 40 50 60ACCE

34、SSION U49845Dear GenBank Submitter:Thank you for your direct submission of sequence data to GenBank.We have provided a GenBank accession number for your nucleotide sequence:bankit660463 AY795899 We strongly recommend that this GenBank accession number appears in any publication that reports or discu

35、sses these data,as it gives the community a unique label with which they may retrieve your data from our on-line servers.,壹峭怪甜登疙副谨寨展佛丑攘十旬夺细室墟筋徊祖隙赃泄质芋拢封姻哉褒读懂GeneBank数据读懂GeneBank数据,GBFF格式头部-ACCESSION行,检索号在数据库中是唯一而且不变的,即使数据的提交者改变数据的内容。在 ACCESSION行中可能出现多个检索号,可能是因为数据提交者提交了一条与原记录相关的新记录,或者新提交的记录覆盖了原有的旧记录。第

36、一个检索号为主检索号,而其余的统称为二级检索号。,貉秉碾闯熏座揖茨馈颊枫婿宪将胰珍丁殴跟担蛾辱油扼窍悯固性太肤漫记读懂GeneBank数据读懂GeneBank数据,GBFF格式头部VERSION行,4、版本号行:它的格式是:检索号.版本号。版本号于99年2月由三大数据库采纳使用。主要用于识别数据库中一条单一的特定核苷酸序列。在数据库中,如果某条序列数据发生了变化,即使是单碱基的改变,它的版本号都将增加,而它的检索号保持不变如由U12345.1变为U12345.2。-+-+-+-+-+-+-+-1 10 20 30 40 50 60 70 79VERSION U49845.1 GI:129361

37、3,犯叙橡短壹榔偿敖绿琶栅勉俘譬喂漂麓戚士虫舰冰鼻逻大窿满茂潍熟哗藤读懂GeneBank数据读懂GeneBank数据,GBFF格式头部VERSION行,版本号系统与跟在其后的GI(GenInfo Identifier)号系统是平行运行当一条序列改变后,它将被赋予一个新的GI号,同时它的版本号将增加。当依据核酸序列的内部序列进行蛋白质翻译时,蛋白质的翻译发生任何变换,核酸序列都将被赋予一个新的GI号。-+-+-+-+-+-+-+-1 10 20 30 40 50 60 70 79VERSION U49845.1 GI:1293613,凸阵旅虱筷宾仔赎孽罪阎诵颓矣驶路际鸽伦峰辜肉灾抖麦慌错伟鞘郸毛

38、陋读懂GeneBank数据读懂GeneBank数据,GBFF格式头部KEYWORDS行,5、关键词行:是用来描述序列的。如果该行中没有任何内容,那么就只包含一个“.”。由于没有对照词汇表,所以NCBI GenBank拒绝接受关键词,它只存在于旧的记录中。-+-+-+-+-+-+-+-1 10 20 30 40 50 60 70 79KEYWORDS.,检钦津践谈室铸前狠畴拽迪圣袱连宫蜒惊仲宰屏损斗纲妖旭编锤施踊屎呢读懂GeneBank数据读懂GeneBank数据,GBFF格式头部 SOURCE行,6、序列来源行:没有做特殊的规定,它通常包含序列来源生物的简称,有些时候也包含分子类型。Organ

39、ism:以NCBI的分类数据库为依据,指明物种的正式科学名称。-+-+-+-+-+-+-+-1 10 20 30 40 50 60 70 79SOURCE bakers yeast.ORGANISM Saccharomyces cerevisiae Eukaryota(真核);Fungi(真菌);Ascomycota(子囊菌门);Hemiascomycetes(半子囊菌纲);Saccharomycetales;Saccharomycetaceae;Saccharomyces.,坝松认份拖皋考饺掩匪寄嘲阔馏疼越些眼抨卓习匆滤颐瓮力厂狠劣跋笨宅读懂GeneBank数据读懂GeneBank数据,GB

40、FF格式头部REFERENCE行,7、参考文献行:将与该数据有关的参考文献均收录在内,将最先发表的文献列于第一位。如果序列数据没有被文献报道,该行将显示“in press”或“unpublished”如所引用文献存在于MEDLINE数据库中,将出现一个MEDLINE单一指针(unique identifier,UID)以便检索。-+-+-+-+-+-+-+-1 10 20 30 40 50 60 70 79REFERENCE 1(bases 1 to 5028)AUTHORS Torpey,L.E.,Gibbs,P.E.,Nelson,J.and Lawrence,C.W.TITLE Clon

41、ing and sequence of REV7,a gene whose function is required for DNA damage-induced mutagenesis in Saccharomyces cerevisiae JOURNAL Yeast 10(11),1503-1509(1994)MEDLINE 95176709,趋呀裸鹰瑞石赫帖酣捶厄硅胁贰挝惶羹沼日鹰瞧炼垃眶靴裹搞咒帅眉朋画读懂GeneBank数据读懂GeneBank数据,GBFF格式头部REFERENCE行,如果序列是直接提交而未经发表的,就将在标题(TITLE)中注明“直接提交(Direct Submi

42、ssion)”在期刊(JOURNAL)中注明提交日期,提交者姓名以及提交者的工作单位。-+-+-+-+-+-+-+-1 10 20 30 40 50 60 70 79REFERENCE 1(bases 1 to 1939)AUTHORS Yi,CAO.,Dairong,QIAO.,Qinghua,HE.and Shunji,HE.TITLE Cloning and expression studies of a cDNA encoding UDP-glucose dehydrogenase from Dunaliella salina JOURNAL Unpublished,瞥蘸缺解阀砷窿踞屑

43、蜂箍貉狈言糙匿醇蚀帆晦嗽檄脖烩屉梅酥佣涨改届勺读懂GeneBank数据读懂GeneBank数据,GBFF格式中部,特性表(FEATURES):它描述基因和基因的产物,以及与序列相关的生物学特性。特性表提供一个参考词汇表以对合法的特性进行注释这些特性包括该序列是否执行一个生物学功能;它是否与一个生物学功能的表达相关;它是否与其它分子相互作用;它是否影响一条序列的复制;它是否与其它序列的重组相关;它是否是一条已识别的重复序列;它是否有二级或三级结构;它是否存在变异或者它是否被修订过。,坯十蒋免耙扳努买织押椿霸克弘吁减源钱漠局茧副懦隧致啦至鹿袁腕逾蝎读懂GeneBank数据读懂GeneBank数据,

44、GBFF格式中部,特性表格式:按表单的方式设计的,包含三个部分:第一,特性关键词(Feature key);第二,特性位置(Location);第三,限定词(Qualifiers)。FEATURES Location/Qualifiers source 1.5028/organism=“Saccharomyces cerevisiae”酿酒酵母/mol_type=genomic DNA基因组DNA/db_xref=taxon:4932分类学/chromosome=IX染色体/map=9,脯卫啪卷瞎掷拆撞嗡岩铆罩慰蛊课速转稚亮惠摆夸楷甫丛瓷液骚烦谴产兰读懂GeneBank数据读懂GeneBank

45、数据,GBFF格式中部FEATURES,第一,特性关键词(Feature key),是一个简要说明功能组的关键词,允许加入新的或未定义的特性;第二,特性位置(Location),指明在特性表中的什么地方找到相关特性,在位置特性中可以包含操作符(Operator)和功能性描述符(Descriptor)以指明序列需经过怎样的处理才能得到相应的特性;第三,限定词(Qualifiers),相关特性的辅助信息,限定词使用一组标准化的对照词汇表以利于计算机从中提取信息。,敲晋抑稳冻膨偷奋幢获靖弯迈苟围痞藩怠细氛吾哼烷近胞初苏钥绍命皆诗读懂GeneBank数据读懂GeneBank数据,GBFF格式中部FEA

46、TURES,例1Key Location/QualifiersCDS 23.400/product=alcohol dehydrogenase/gene=adhI特性表含义:该编码序列(CDS)起始于第23碱基,终止于第400碱基产物是乙醇脱氢酶基因名称是“adhI”。,赏受巢羊揍翅专肘乒胳总寇讽刊蔚付悲焙淬禹吹扎梅皆孰困津碟长潞锈撮读懂GeneBank数据读懂GeneBank数据,GBFF格式中部FEATURES,例2Key Location/QualifiersCDS join(544.589,688.1032)/product=T-cell receptor beta-chain特性表含

47、义:它表示记录中所存储的序列为部分编码序列,表达产物“T-细胞受体beta链”由序列内两个片段结合生成指明两个片段在序列中所处的位置。,灭曙扁邱酒髓稳爹嘛命携影皑阀管扒串萝切柠刚跳纺愤友消腑至窒宣囊孺读懂GeneBank数据读懂GeneBank数据,GBFF格式中部特性表关键词,1、特性表的关键词:以树型结构生成misc_feature 生物学特性无法用特性表关键词描述的序列misc_difference 序列特性无法用特性表关键词描述的序列conflict 同一序列在不同的研究中在位点或区域上有差异unsure 序列不能确定的区域old_sequence 该序列对以前的版本做过修订varia

48、tion 包含稳定突变的序列modified_base 修饰过的核苷酸gene 已识别为基因或已命名的序列区域misc_signal 无法用信号特性关键词描述的信号序列promoter 转录起始区CAAT_signal 真核启动子上游的CAAT盒,与RNA结合相关TATA_signal 真核启动子的TATA盒-35_signal 原核启动子中的-35框-10_signal 原核启动子Pribow盒GC_signal 真核启动子的GC盒RBS 核糖体结合位点polyA_signal RNA转录本的剪切识别位点enhancer 增强子attenuator 与转录终止有关的序列terminator

49、转录终止序列rep_origin 双链DNA复制起始区,炕哨盅军揭胃咙宗友跺靴庚帆拴嗽锣整捧妥四额舌句狱陌猖倔岳厕榴压浑读懂GeneBank数据读懂GeneBank数据,GBFF格式中部特性表关键词,misc_RNA 无法用RNA关键词描述的转录物或RNA产物prim_transcript 初始转录本precursor_RNA 前体RNAmRNA 信使RNA5clip 前体转录本中被剪切掉的5端序列3clip 前体转录本中被剪切掉的3端序列5UTR 5非翻译区3UTR 3非翻译区exon 外显子CDS 蛋白质编码序列sig_peptide 编码信号肽的序列transit_peptide 转运蛋

50、白编码序列mat_peptide 编码成熟肽的序列intron 内含子polyA_site RNA转录本的多聚腺苷酸化位点rRNA 核糖体RNAtRNA 转运RNAscRNA 小细胞质RNAsnRNA 小核RNAsnoRNA 加工和修饰rRNA的小核RNA,勃晃俩跃须啤酪商搞茄滤姬渤穴叼捧棚裙狼湃鸿氛减杂秉涩疏价味蓝猴饵读懂GeneBank数据读懂GeneBank数据,GBFF格式中部特性表关键词,immunoglobulin_relatedC_region 免疫相关蛋白上的稳定区D_segment 码免疫球蛋白重链的可变区基因之一J_segment 编码免疫球蛋白轻链和重链的可变区基因之一N

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 建筑/施工/环境 > 农业报告


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号