NCBI获取序列数据ppt课件.ppt

上传人:牧羊曲112 文档编号:2003345 上传时间:2022-12-30 格式:PPT 页数:68 大小:8.53MB
返回 下载 相关 举报
NCBI获取序列数据ppt课件.ppt_第1页
第1页 / 共68页
NCBI获取序列数据ppt课件.ppt_第2页
第2页 / 共68页
NCBI获取序列数据ppt课件.ppt_第3页
第3页 / 共68页
NCBI获取序列数据ppt课件.ppt_第4页
第4页 / 共68页
NCBI获取序列数据ppt课件.ppt_第5页
第5页 / 共68页
点击查看更多>>
资源描述

《NCBI获取序列数据ppt课件.ppt》由会员分享,可在线阅读,更多相关《NCBI获取序列数据ppt课件.ppt(68页珍藏版)》请在三一办公上搜索。

1、,NCBI:获取核酸和蛋白质序列数据,生物信息学,本课程主要学习的内容,1、获取文献信息和序列数据2、序列比对基础与BLAST入门 3、核酸序列分析4、蛋白质序列分析及结构模拟5、系统发育分析6、基因组分析,NCBI :获取核酸和蛋白质序列数据,要想在 NCBI 中获取核酸和蛋白质的序列有多种路径(殊途同归)。本次课通过一个示例(RBP4)主要介绍一种方法 。,NCBI :获取核酸和蛋白质序列数据,获取序列信息的途径何谓参考序列GenBank 序列格式的读解,示 例,假定我们对人类视黄醇结合蛋白4(retinol-binding protein 4,RBP4)感兴趣,我们可能关心以下几个问题:

2、想获取编码RBP4的mRNA(cDNA)序列 获取RBP4核酸序列想获取RBP4这个蛋白质的氨基酸序列 获取RBP4蛋白质序列想获取编码RBP4的基因信息 获取RBP4基因(DNA),DNA,mRNA,Central dogma of molecular biology,复制,转录,翻译,protein,cDNA,RBP4,路径 1:直接通过 NCBI 主页的 Search下拉条,2、输入查询内容,1、选择数据库GeneNucleotideProtein,Nucleotide 数据库包括了,路径2:搜索所有数据库显示结果会是什么呢?,NCBI的Entrez 检索系统在所有数据库中搜索含有Rbp

3、4的记录,通过 Entrez Gene 获取人类RBP4的参考序列(RefSeq),使用Limits功能限定种属为人类,人类Rbp4基因,HGNC 人类基因命名委员会,HPRD 人类蛋白质参考库,1. 概要,2. 基因区域图,3. 基因定位图,mRNA links,DNA links,Protein links,4. NCBI参考序列,RBP4 蛋白质参考序列的链接,RBP4 mRNA参考序列的链接,NCBI :获取核酸和蛋白质序列数据,获取序列信息的途径何谓参考序列GenBank 序列格式的读解,RefSeq(Reference Sequences, 参考序列),GenBank中对应于某个基

4、因(DNA)、mRNA(cDNA)或蛋白质的序列可能有上百个,但相应的 RefSeq 记录只有一个。RefSeq 是NCBI将 GenBank 的序列再做详细整理的非冗余(non-redundent)序列。RefSeq 对应于最稳定、最被人们承认因而也是最具代表性的序列。,当存在可变剪切的情况下,一个基因的表达产物就会对应不止一个 RefSeq 记录。 例如 :human myoglobin (人类肌红蛋白)有3个 RefSeq 记录:,RefSeq(Reference Sequences, 参考序列),NM_005368 NM_203377 NM_203378,NP_005359 NP_97

5、6311 NP_976312,当不同的基因编码的蛋白具有相同的氨基酸序列时,这些蛋白质具有各自不同的 RefSeq 标识符,例如: 人类 alpha-1 globin 和 alpha-2 globin 基因编码的蛋白质其氨基酸序列相同,但分别具有各自的 RefSeq 标识符:NP_000549 和 NP_000508。,RefSeq(Reference Sequences, 参考序列),4. NCBI参考序列,点击RBP4 mRNA参考序列的链接获取序列信息,以GenBank 序列格式显示RBP4mRNA序列的详细信息,NCBI :获取核酸和蛋白质序列数据,获取序列信息的途径何谓参考序列Gen

6、Bank 序列格式的读解 以rbp4的mRNA(cDNA)参考序列为例,GenBank 序列格式(教材 Page 1318),GenBank 数据库采用的GenBank 序列格式已经成为序列标准格式的一种。GenBank 序列格式中对序列信息分不同的字段进行详细的标注,如序列的名称、性质、种属来源、相应的参考文献等。,LOCUS:该字段所包含的内容从左至右依次为 Locus 名称:NM_006744 序列长度:941 bp 分子类型:mRNA(cDNA) linear(线性) GenBank数据分类:PRI(灵长类序列) 序列最后修改日期:01-MAR-2009,GenBank 数据分类(教材

7、 Page 1314,表 2-3),GenBank 将数据库分成18个部分:1. PRI primate sequences 灵长类序列2. ROD rodent sequences 啮齿类序列3. MAM other mammalian sequences 其他 哺乳类序列,GenBank 数据分类,4. VRT other vertebrate sequences 其他脊椎动物序列5. INV invertebrate sequences 无脊椎动物序列6. PLN plant, fungal, and algal sequences 植物、真菌和藻类序列,GenBank 数据分类,7.

8、BCT bacterial sequences 细菌序列8. VRL viral sequences 病毒序列9. PHG bacteriophage sequences 噬菌体序列,GenBank 数据分类,10. SYN synthetic sequences 人工合成的序列11. UNA unannotated sequences 未经注释的序列12. EST EST sequences (expressed sequence tags) EST序列(表达序列标签),GenBank 数据分类,13. PAT patent sequences 专利序列14. STS STS sequenc

9、es (sequence-tagged sites) STS序列(序列标签位点)15. GSS GSS sequences (genome survey sequences) GSS序列(基因组调查序列),GenBank 数据分类,16. HTG HTGS sequences (high throughput genomic sequences) HTGS序列(高通量基因组序列)17. HTC HTC sequences (high throughput cDNA sequences) HTC序列(高通量 cDNA 序列)18. ENV environmental sampling seque

10、nces 环境采样序列,DEFINITION:简短的序列描述 Homo sapiens retinol binding protein 4, plasma ( RBP4 ), mRNA.,ACCESSION:Accession number(索引号) NM_006744 序列记录的唯一识别码,通常为1个字母后跟5个数字(如 U12345),或2个字母后跟6个数字(如 AF123456) RefSeq(参考序列)的索引号比较特别,索引号(Accession Numbers),在数据库中,为了检索方便,DNA和蛋白质序列都被打上了索引号码作为标签。索引号码是一段由412个数字和/或字符组成的编码。

11、除序列外,索引号码也可用作其他数据记录的标签,如蛋白质结构、基因表达实验的结果等。不同的数据库,索引号码的记录格式不同。,Types of Accession Numbers,Types of Accession Numbers,RefSeq 的索引号,RefSeq 记录的索引号通常由2个字母跟一下划线后再加6个或更多数字组成例如: NC_123456 完整的基因组 NT_123456 基因组重叠群(contig) NM_123456 mRNA(cDNA) NP_123456 蛋白质,The RefSeq accession number format and molecule types,T

12、he RefSeq accession number format and molecule types,VERSION:序列版本号及GI号 NM_006744.3 GI:55743121 如果序列有任何改变,则版本号会增加,但前面的索引号不变。 GI是“ Geninfo Identifier ”的缩写,序列的任何改变都会被分配一个新的GI号。,SOURCE:种属来源,学名(或俗名) Homo sapiens ( human )ORGANISM:种属的科学命名 Homo sapiens,链接到 NCBI 的Taxonomy Database,REFERENCE:参考文献 AUTHORS:作者

13、TITLE:文献标题 JOURNAL :发表的杂志名 PUBMED:PMID REMARK:注释,链接到PubMed,COMMENT:评论,FEATURES:序列信息表(序列特征表) 有关基因和基因产物的信息,以及序列中具有生物学意义的区域,其中包含序列中生成蛋白质和RNA分子的密码区域和一些其他特征。,FEATURES:序列信息表(序列特征表) source:每一条记录必须标注的序列特征,一般包括序列长度、序列来源、序列分子类型、物种分类进化树的位置及染色体定位等。,gene:一段被确认为是基因的区域并且已经命名,内容主要有基因位置、基因名称以及到其他相关数据库的链接。 *国际人类基因命名委

14、员会(Homo sapiens Official Gene Symbol and Name,HGNC),链接到Gene,外显子,CDS:编码区(coding sequence),即在核酸序列中能翻译成蛋白质氨基酸序列的部分(有起始密码子和终止密码子),Protein_id=NP_006735.2编码蛋白的索引号,信号肽成熟肽,外显子,ORIGIN:序列开始标志(该行为空行)/:序列结束标志,选择FASTA格式(教材p11),FASTA格式,示 例,至此,我们从寻找人类RBP4(视黄醇结合蛋白)的基因,顺藤摸瓜获得了它的mRNA(cDNA)序列,并同时获取了与该序列相关的诸多信息。现在,我们顺便也想获取RBP4的蛋白质序列,甚至蛋白质的三级结构,那么我们是否需要重新检索呢?,蛋白质序列链接,核酸序列页面,Links链接,核酸序列页面,蛋白质序列链接,核酸序列页面,蛋白质序列页面,蛋白质序列页面,蛋白质结构链接,示 例,至此,我们从寻找RBP4(人类视黄醇结合蛋白)的基因,顺藤摸瓜获得了它的mRNA(cDNA)序列,并同时获取了与该序列相关的诸多信息。进一步,我们通过相关链接顺便获取了RBP4的蛋白质序列,以及相关的蛋白质高级结构。,Half day on the web,half month in the lab.,saves you,- Alan Bleasby,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号