分子生物信息数据库.ppt_三一办公31ppt.com

资源描述

《分子生物信息数据库.ppt》由会员分享，可在线阅读，更多相关《分子生物信息数据库.ppt（182页珍藏版）》请在三一办公上搜索。

1、第二章分子生物信息数据库,第一节基因组计划与分子生物信息数据库,一.基因组计划,基因组DNA 基因（Gene）：生物体的遗传单位，由脱氧核糖核酸（DNA）组成。DNA由4种核苷酸（A、T、C、G）组成。,（1）密码子 1.1 密码子的使用是非随机的如果密码子的第一、第二位碱基是A、U，那么第三位将尽可能使用G、C；反之亦然。如果三位都用G、C，则配对容易，分解难；三位都用A、U，则相反。,一般地说，高表达的基因，要求翻译速度快，要求密码子和反密码子配对快、分手也快。,1.2 密码子的使用有一定的规律对同义密码子的使用存在着偏爱不同种属偏爱的密码子不同,密码子的使用偏性与基因功能、蛋白质结

2、构相关,1.3 密码子中的密码三个碱基的位置与所编码的氨基酸性质存在着联系例如：芳香族氨基酸以U作为第一位碱基中间位置碱基的性质与氨基酸是亲疏水性相关疏水氨基酸的密码子，其第二位碱基是U亲水氨基酸的密码子，其第二位碱基是A第二位碱基是G、C的密码子所编码的氨基酸亲水性、疏水性居中。,(2)基因组信息,遗传信息与功能相关的结构信息进化信息,2.基因组计划,基因组一个物种中所有基因的整体组成,单个基因组分析基因序列基因功能基因的表达调控基因产物基因多态性,比较基因组分析物种关系物种进化物种起源,人、鼠基因组比较老鼠约75%的基因与人类相同。,人基因组鼠基因组鼠染色体上的颜色和数字代表在人

3、染色体上对应的片段.,3.人类基因组计划(Human Genome Project),“人类基因组计划”与“曼哈顿原子弹研制计划”、“阿波罗登月计划”并称为人类科学史上的“三大计划”。,（1）人类基因组DNA 人类基因组DNA是一个长度为3109的一维序列，只有4个字符（碱基A、T、G、C），它没有段落，也没有标点符号，而目前人类对它了解甚少。,人类基因组构成24条染色体和线粒体,“Whats Human Genome Project?”“One base One dollar!”,（2）人类基因组计划的发展历史,1985年，美国能源部（DOE）率先提出 1986年美国宣布启动“人类基因组启动

4、计划”1989年，美国国家卫生研究院（NIH）建立国家人类基因组研究中心（NCHGR）1990年，NIH和DOE联合提出美国人类基因组计划，正式启动HGP，计划于15年内提供30亿美元的资助，在2005年完成人类基因组全部序列的测定,1999年12月1日，首条人类染色体完成测序，人类第22号染色体DNA全序列测定宣布完成。2000年4月6日，美国Celera遗传信息公司宣布，该公司已破译出一名实验者的完整遗传密码。2000年5月，科学家聚集美国冷泉港，宣布人类基因组草图的完成。,2000年6月26日克林顿宣布人类基因组草图绘制完成,（3）人类基因组计划的概念人类基因组计划于1990年正式启动,

5、投入30亿美元，完成人类全部24条染色体的3109脱氧核苷酸对(bp)的序列测定，分析人类基因组DNA分子的基本成分及碱基的排列顺序，绘制成序列图。其主要任务还包括作图(遗传图谱、物理图谱的建立及转录图谱的绘制)和基因识别。其中还包括模式生物(如大肠杆菌、酵母、线虫、小鼠等)基因组的作图和测序，以及信息系统的建立。作图和测序是基本的任务，在此基础上解读和破译生物体生老病死以及和疾病相关的遗传信息。,（4）参与的国家中国、德国、法国、日本、英国与美国6个国家的16个中心组成国际协作组，倡导“全球合作、免费共享”的原则。,美国：WASHMIT等7家研究中心，贡献率为54。英国：SANGER一家研

6、究中心，贡献率为33。日本：RIKEN等两家研究中心，贡献率为7。法国：GENOSCOPE研究中心，贡献率为2.8。德国：IMB等3家研究中心，贡献率为2.2。中国：北京华大研究中心、国家南北方基因研究中心等三家，贡献率为1。,（5）人类基因组计划的任务5.1 四张图谱,遗传图谱物理图谱序列图谱转录图谱,遗传图谱（genetic map）又称连锁图谱(linkage map)，它是以具有遗传多态性（在一个遗传位点上具有一个以上的等位基因，在群体中的出现频率皆高于1%）的遗传标记为“路标”，以遗传学距离（在减数分裂事件中两个位点之间进行交换、重组的百分率，1%的重组率称为1cM）为图距的

7、基因组图。遗传图谱的建立为基因识别和完成基因定位创造了条件。,遗传图谱,遗传连锁图：通过计算连锁的遗传标志之间的重组频率，确定它们的相对距离，一般用厘摩(cM，即每次减数分裂的重组频率为1%)表示。,物理图谱,物理图谱（physical map）是指有关构成基因组的全部基因的排列和间距的信息，它是通过对构成基因组的DNA分子进行测定而绘制的。绘制物理图谱的目的是把有关基因的遗传信息及其在每条染色体上的相对位置线性而系统地排列出来。,1998 年完成了具有52,000个序列标签位点(STS)，并覆盖人类基因组大部分区域的连续克隆系的物理图谱。,敲碎基因组，分析研究内容所处的染色体位置,中心粒,一

8、对紧密,相邻的标志,一对相邻,较远的标志,染色体图,序列图谱,随着遗传图谱和物理图谱的完成，测序就成为重中之重的工作。DNA序列分析技术是一个包括制备DNA片段化及碱基分析、DNA信息翻译的多阶段的过程。通过测序得到基因组的序列图谱,大规模基因组测序,Megabace 测序仪,3700 测序仪,人类基因组计划1%测序中国实验室,大规模测序基本策略,逐个克隆法：对连续克隆系中排定的克隆逐个进行亚克隆测序并进行组装（公共领域测序计划）全基因组鸟枪法：在一定作图信息基础上，绕过大片段连续克隆系的构建而直接将基因组分解成小片段随机测序，利用超级计算机进行组装（美国Celera公司）,运用计算机软件进行

9、序列拼接,转录图谱,转录图谱是在识别基因组所包含的蛋白质编码序列的基础上绘制的结合有关基因序列、位置及表达模式等信息的图谱。,通过定位克隆技术寻找疾病基因的过程,5.2基因识别,基因识别（gene identification）是HGP的重要内容之一，其目的是识别全部人类的基因。基因识别包括：识别基因组编码区识别基因结构,基因识别目前常采用的有二种方法：从基因组序列中识别那些转录表达的DNA片段从cDNA文库中挑取并克隆,5.3 模式生物基因组的作图和测序,酵母,大肠杆菌,果蝇,线虫,老鼠,(6)人类基因组计划的实施意义,人类基因组计划为我们研究生物信息的组织、结构、遗传、表达带来了极大的

10、方便，使人类对自身有一个根本的了解。人类是最高级、最复杂、最重要的生物，如果搞清楚人类基因组，那么再研究其它的生物就容易得多。研究多种模式生物基因组将有助于研究地球生物的进化史。,(7)人类基因组计划的实现对医学事业的影响,对致病基因的克隆也是人类基因组计划的内容疾病与基因直接或间接相关，通过生物学、医学等技术对相关基因进行抑制或调控，即可达到治疗某一疾病的效果如果掌握了与某种疾病相关的基因及突变，则可以对该疾病进行预测、诊断，甚至治疗。,基因变异与疾病,基因组多态性,用于人类疾病治疗取得重要进展,通过基因分析，对一些遗传性很高或较高的疾病的发病机理有了新的认识。如地中海贫血、肌肉萎缩、乳腺

11、癌等疾病的研究中，找到了至个致病基因，约占遗传病的。通过基因检测和使用基因药物，已能治疗一些疾病。如运用破坏性基因治疗脑肿瘤，将外来破坏性基因接入脑肿瘤细胞，已取得了比单纯开刀更好的疗效。今后的重点将放在糖尿病、动脉硬化、焦虑症与抑郁症、高血压、老年痴呆、精神分裂症、乳腺癌，以及其它一些癌症的探索上。,基因与疾病的关系,人类第13号和第19号染色体已得到准确而完整的测序，并进行了相关的分析。至此，科学家已对人类23条染色体中的9条进行了精确测序和序列分析，并已发表测序结果。这9条染色体是第6、7、13、14、19、20、21、22号和Y染色体。,第13号染色体携带与乳腺癌有关的BRCA2和RB

12、1基因，以及与精神分裂症有关的DAOA基因，并且发现在慢性B淋巴细胞白血病细胞中该染色体经常发生重排。,第19号染色体有5580万碱基对。它具有高G+C含量、高复制率和高重排率的特点，这预示该染色体在生物进化中有重要意义。其中许多基因与呈孟德尔式遗传规律的疾病有关，包括家族性高胆固醇血症、非胰岛素依赖性糖尿病等。,第号染色体是迄今破译的对人类染色体中最大的一对，对其万个碱基完成了测序，找到了包括与糖尿病、肥胖症、小儿湿疹等疾病相关的基因。此外，第号染色体上还有一个基因能增加部分人群感染新型克雅氏症的危险，这将增进人们对该疾病的了解。新型克雅氏症是疯牛病在人身上的表现形式，在疯牛病危机之后的英国

13、备受关注。,血栓形成与基因有关,迄今为止，我们只知道老年人、血脂高者和缺乏锻炼者，其体内较容易形成血栓，但最进科学家们已识别并成功地定位出了一个名为“VKORC1”的基因。它在危害人体的血栓形成的过程中发挥着重要作用。这一发现将有助于人们进一步寻找出治疗心律不齐及冠心病等疾病的新疗法。德国、英国和美国的科学家在各自独立的实验中，以产生了抗药性的实验鼠和血栓患者的基因为研究对象，并与天生就具有抗血栓特性人的基因进行比较，结果是这个基因可以帮助人们理解血液稀释药物的工作原理。,确定雀斑致病基因位置,我国科学家在国际上首次确定雀斑致病基因位置，为找到雀斑致病基因并最终根治雀斑奠定了重要的基础。所以，

14、市面上的激光去斑、药物去斑等方法都只是治标不治本。只有从基因上入手，才可能彻底根治雀斑。为此，科学家采用全基因组扫描技术，通过对一个中国汉族雀斑大家族的样本进行分型和连锁分析，发现在人类第4号染色体的某个区域中存在雀斑致病基因。,导致弱智与癫痫的基因变异,科学家首次发现人体内一个基因如果发生变异，有可能会同时导致弱智与癫痫。这个新基因，位于人体染色体上。他们对全球范围内个有遗传病史的家族进行研究后发现，该基因发生特定的变异，不仅会引发多种癫痫症状，而且也会导致弱智。他们的研究还显示，该基因似乎对与人大脑正常认知功能相关的其他一些基因具有调控作用，可以影响这些基因的工作时间和方式等。科学家们因此

15、推测，受新发现的这种基因控制的其他基因，在癫痫或弱智的发病过程中可能也起到了一定作用。,语言产生可能与基因变异有关,德国科学家最新研究发现，20万年前发生在一个基因上的两次关键的变异可能和语言的产生有关。这一研究为说明该基因在人类语言能力的发展中所扮演的重要角色提供了强有力的证据。研究人员认为，语言的优势使人类能够排挤掉那些比较原始的竞争对手。变异基因赋予人类祖先更好的控制嘴巴和喉咙肌肉的能力，从而使他们能够发出更丰富、更多变的声音，为语言的产生打下基础。,第二节生物分子数据库,一.生物分子数据库概述,1.生物分子数据库应满足5个方面的主要需求（1）时间性（2）注释（3）支撑数据

16、（4）数据质量（5）集成性,2.生物分子数据库的特征：,（1）数据库的更新速度不断加快，数据量呈指数增长趋势（2）数据库使用频率增长更快（3）数据库的复杂程度不断增加,（4）数据库网络化（5）面向应用（6）先进的软硬件配置,3.生物分子数据库一级数据库数据库中的数据直接来源于实验获得的原始数据，只经过简单的归类整理和注释。二级数据库对原始生物分子数据进行整理、分类的结果，是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。,基因组数据库的主体是模式生物基因组数据库，此外还包括染色体，基因突变，遗传疾病，分类学，比较基因组，基因表达和调控，放射杂交，基因图谱等各种数据库。,二.

17、基因组数据库,一)人类基因组数据库 GDB,GDB：1990年美国John Hopkins大学建立的重要的人类基因组数据库.它用包括基因组结构数据,等位基因等基因多态性数据，并显示基因组图谱。GDB还提供了与核酸序列数据库，遗传疾病数据库等信息资源的链接。,目前GDB包含对下述三种对象的描述：,（1）人类基因组结构数据包括基因、克隆、PCR标记物、断点、细胞点、EST、综合区域、contigs、重复等；（2）人类基因组图谱包含细胞遗传学图谱、连接图谱、辐射混合图谱、contig 图谱、集成图谱，所有这些图谱都可以被直观地显示出来；（3）人类基因组多态性数据包括基因突变和基因多态性，加上等

18、位基因频率数据。,与染色体相关的信息,二)人类基因组数据库Ensembl,Ensembl包括所有公开的人类基因组DNA序列，通过注释形成的关于序列的特征。现在包括其他基因组，如大鼠、小鼠、线虫、果蝇等。网址：http:/www.ensembl.org/例如：通过实验发现的或者是通过GenScan程序预测的其他的特征：单核苷酸多态性（SNP）、重复序列等,Ensembl 数据库结构图,Ensembl提供多种查询方式1.通过关键字查询2.用BLAST进行相似序列的搜索另一种更直观的方式是显示各染色体用户用户可以在染色体水平上选择感兴趣的位点，逐层放大浏览整个基因组,三)其他模式生物的基因组数

19、据库,模式生物基因组模式生物的基因组数据库,噬菌体（Bacteriophage）,模式生物(Model Organism),病毒（Virus）,电子显微镜下的SARS冠状病毒,100nm,大肠杆菌是研究得最为详尽的一个模式生物。这种只有1.6微米长的、可以迅速繁殖的单细胞原核生物，已经成为实验室和基因工程的重要工具。,Escherichia coli O157:H7,Escherichia coli K12,大肠杆菌(Escherichia coli),真菌界的单细胞真核生物，有16个染色体。它的全基因组已在1996年测定。,酿酒酵母(Saccharomyces cerevisiae),一种透

20、明的、生活在海滩泥沙中的小虫。,细胞数目一定：成虫细胞数目只有959个，其中包括302个神经元；有6条染色体，全基因组于1998年测定，长9.7Mb。,秀丽线虫(Caenorhabditis elegans),繁殖很快、容易诱发变异的小昆虫。总长达1.8亿核苷酸。,果蝇（Drosophila melanogaster）,个体生活周期只有6周的十字花科小草，是一种理想的模式植物。,拟南芥（Arabidopsis thaliana）,非洲瓜蟾（Xenopus lavias）,1个受精卵在24小时内分裂到各种器官初具雏形的程度；,斑马鱼（Danio rerio）,身体透明的小鱼，生活周期约3个月，是

21、研究脊椎动物发育过程的良好对象。,小鼠（Mus musculus）,基因组大小与人类相近,约30亿个核苷酸对,19条染色体,三、核酸序列数据库,国际上权威的核酸序列数据库（1）欧洲分子生物学实验室的EMBL http:/www.embl-heidelberg.de（2）美国生物技术信息中心的GenBank http:/www.ncbi.nlm.nih.gov/Web/Genbank/index.html（3）日本遗传研究所的DDBJ http:/www.ddbj.nig.ac.jp/,核酸序列数据的增长趋势（纵轴代表总的核酸序列长度，单位：百万bp）,三个数据库中的数据基本一致，仅

22、在数据格式上有所差别，对于特定的查询，三个数据库的响应结果一样。这三个数据库是综合性的DNA和RNA序列数据库，每条记录代表一个单独、连续、附有注释的DNA或RNA片段。,一.EMBL数据库,欧洲分子生物学实验室网址：http:/www.embl-heidelberg.de,EMBL中的数据分类情况（单位：Gigabases）（EST-Expressed sequence tags;STS-sequence tagged sites）（取自http:/www3.ebi.ac.uk/Services/DBStats/）,21 Mar 2003 37,943,364,438 bases in 24

23、,353,128 records.,“ID”为序列的标识符行，包括登录号、类型，分子的长度,“AC”为登录号行；“XX”为分隔符号行；“DT”为创建和更新日期行,“DE”为序列描述行；“KW”为关键字行；“OG”行描述细胞组织；“OS”行描述生物体种属；“OC”行描述生物体分类信息；“RN”描述参考文献的编号；“RP”描述参考文献的页码；“RA”描述参考文献的作者；“RT”描述参考文献的题目；“RL”描述参考文献的出处；“RC”描述参考文献的注解；“RX”、“DR”行描述交叉引用信息；“FH”为特征开始符号；“FT”为特征表行（1）Feature Key，它是描述域生物功能的关键字；（2）Lo

24、cation，指明特征在序列中的特定位置；（3）Qualifiers，描述关于一个特征的辅助信息；,文件体由序列本身所组成，由“SQ”标志的行开始。序列结束的标记是“/”。,EMBL核酸数据库中的每一个序列数据被赋予一个登录号，它是一个永久性的唯一标识,EMBL的序列数据用外在的ASCII文本文件来表示，而每一个文件分为文件头和文件体两大部分,文件头由一系列的信息描述行所组成，文件头实际上对应于一个序列的注释（annotation）,使用EMBL,（1）CD-ROM形式（2）ftp服务器（3）Gopher服务器（4）WWW服务器,（1）序列查询（2）核酸同源性搜索,EMBL提供一些与序列相关的

25、检索操作（基于3W服务器）,（1）序列查询,最简单的查询就是通过序列的登录号（如X58929）或序列名称（如SCARGC）直接查询。,如果找到所查询的序列，则服务器将查询结果以HTML文件返回给用户如果数据库中该序列有到MEDLINE的交叉索引，则系统同时返回与包含参考文献摘要等信息的MEDLINE链接如果该序列有到其它数据库的交叉索引，也返回相应的链接,（2）核酸同源性搜索,3W服务器支持用户使用FastA程序进行核酸同源搜索。Fast A根据给定的目标序列在数据库中搜索其同源序列。,二.GenBank数据库美国生物技术信息中心网址：http:/www.ncbi.nlm.nih.gov/We

26、b/Genbank/index.html,GenBank数据库是由美国国立生物技术信息中心（NCBI）维护的一级核酸序列数据库。,GenBank数据库的数据来源有三种：直接来源于测序工作者提交的序列与其它数据机构协作交换的数据美国专利局提供的专利数据,检索界面,简介,基本检索输入框,基本检索界面：,执行检索按钮,基本检索输入框,基本检索界面：,rasGENE,点击进入跨库检索,跨库检索界面：,rasGENE,执行检索按钮,跨库检索界面：,点击进入GenBank数据库,GenBank数据库界面：,GenBank数据库界面：,点击进入核苷酸序列数据库检索界面,GenBank数据库界面：,特征栏提供

27、辅助检索功能,核苷酸序列数据库检索界面：,核苷酸序列数据库检索界面：,基因序列查询在GenBank中,可通过序列登录号(如Y12618)或序列名称(如 PPF-1)直接查询通过序列的登录号（如Y12618）查询通过序列名称（如 PPF-1）查询,通过序列的登录号（如Y12618）查询（1）键入 WWW.NCBI.NIH.GOV 进入网站显示1（2）选择Nucleotide项，再键入Y12618显示2（3）点击Y12618进入序列所在页面查找序列及相关信息显示3,通过序列名称（如 Pisum sativum PPF-1）查询（1）键入 WWW.NCBI.NIH.GOV 进入网站显示1（2）

28、选择Nucleotide项，再键入Pisum sativum PPF-1 显示2（3）点击Y12618进入序列所在页面查找序列及相关信息显示3,特殊标志符的格式（核酸序列）：,2.GenBank/EMBL/DDBJ序列接受号：(1)1个字母+5个阿拉伯数字 e.g.：U12345(2)2个字母+6个阿拉伯数字 e.g.：AY123456，Af123456,1.序列辨认号（GI）：一串阿拉伯数字 e.g.：6995995,3.RefSeq（Reference Sequence）序列接受号:(1)mRNA 记录（NM_*）:e.g.:NM_000492(2)基因组DNA重叠群（NT_*):e.g

29、.:NT_000347(3)完整的基因组或染色体（NC_*）:e.g.:NC_000907(4)基因组的局部区域（NG_*）:e.g.:NG_000019(5）从人类基因组序列注释、加工得到的序列模型记录（XM，XP，or XR_*）：e.g.:XM_000483,各种基因测序得到的序列已经占了数据库寸的50%以上，而且增长速度很快。对于基因测序得到的序列进行单独分类，包括表达序列标签（EST），高通量基因测序（HTG），序列标签位点（STS），基因组概览序列（GSS）。其中EST序列数目占整个核酸序列数据库的一半。,三.表达序列标记数据库dbEST,EST（Expressed Sequenc

30、e Tags）方法已被证明是识别转录序列的最有效方法，EST序列大约覆盖了人类基因的90%。,DbEST NCBI链接NCBI dbEST.mht是GenBank的一个部分，该数据库包括不同生物的EST序列数据及其它相关信息，主要是从大量不同组织和器官得到的短mRNA片段。,WEB页面或email,有关EST的数据,dbEST数据库,FTP,四.序列标记位点数据库dbSTS,STS（Sequence Tagged Sites）是序列标记位点dbSTS http:/www.ncbi.nlm.nih.gov/dbSTS是NCBI的一个数据源，包含基因组短标记序列（STS）的组成和定位信息。可以通过

31、BLAST搜索STS序列。,五.面向基因聚类数据库UniGene,网址：http:/www.ncbi.nlm.nih.gov/UniGeneUniGene数据库将GenBank中的序列进行自动分类，形成面向基因群的非冗余集合。,每个UniGene群包含:代表一个唯一基因的多个序列，附有该基因相关的信息,如基因表达的组织类型、定位图谱除了基因的序列之外，还包括大量的EST序列。目前，UniGene中包括人类、大鼠、小鼠、牛的相关数据,因为这些生物有大量的EST数据。,http:/www.ddbj.nig.ac.jp/,三.日本遗传研究所核酸数据库DDBJ,第四节蛋白质序列数据库,重要蛋白质序

32、列数据库：SWISSPROT(欧洲)PIR(美国),SWISSPROT,瑞士日内瓦大学医学生物化学系和欧洲生物信息学研究所(EBI)合作维护（1986年）在EMBL和GenBank数据库上均建立了镜像站点数据库包括了从EMBL翻译而来的蛋白质序列，这些序列经过检验和注释 SWISS-PROT的网址：http:/cn.expasy.org/sprot,SWISS-PROT中的数据来源于不同源地（1）从核酸数据库经过翻译推导而来（2）从蛋白质数据库PIR挑选出合适的数据（3）从科学文献中摘录（4）研究人员直接提交的蛋白质序列数据,SWISS-PROT有三个明显的特点：1）注释2）最小冗余3）与其

33、它数据库的连接,1）注释在SWISS-PROT中，数据分为核心数据和注释两大类。核心数据包括：序列数据、参考文献、分类信息（蛋白质生物来源的描述）注释包括：（A)蛋白质的功能描述(B)翻译后修饰,(C)域和功能位点，如钙结合区域、ATP结合位点等(D)蛋白质的二级结构(E)蛋白质的四级结构，如同构二聚体、异构三聚体等(F)与其它蛋白质的相似性(G)由于缺乏该蛋白质而引起的疾病(H)序列的矛盾、变化等,2）最小冗余如果不同来源的原始数据有矛盾，则在相应序列特征表中加以注释。,3）与其它数据库的连接,对于每一个登录项，有许多指向其它数据库相关数据的指针，这便于用户迅速得到相关的信息。,现有的交叉索

34、引有：到EMBL核酸序列数据库的索引到PROSITE模式数据库的索引到生物大分子结构数据库PDB的索引等,提交序列数据（a）编辑电子表格（b)利用Authorin程序（c）WWW服务器使用SWISS-PROT（a）CD-ROM形式（b）ftp服务器（c）Gopher服务器（d）WWW服务器（SRS）,与序列相关的操作（a）序列查询（b）搜索同源蛋白质序列,TrEMBL(http:/www.ebi.ac.uk/trembl/index.html)是与SWISS-PROT相关的一个数据库。包含从EMBL核酸数据库中根据编码序列(CDS)翻译而得到的蛋白质序列，并且这些序列尚未集成到SWISS-

35、PROT数据库中。,TrEMBL有两个部分：（1）SP-TrEMBL(SWISS-PROT TrEMBL)包含最终将要集成到SWISS-PROT的数据，所有的SP-TrEMBL 序列都已被赋予SWISS-PROT的登录号。（2）REM-TrEMBL(REMaining TrEMBL)包括所有不准备放入SWISS-PROT的数据，因此这部分数据都没有登录号。,PIR(protein information resource)由美国NCBI翻译自GenBank的DNA序列，可帮助研究者鉴别和解释蛋白质序列信息，研究分子进化、功能基因组。在EMBL和GenBank数据库上均建立了镜像站点网址：h

36、ttp:/www-nbrf.georgetown.edu/数据依据注释的质量分为4类。,PIR数据库的分类情况(Release 51.03),除了蛋白质序列数据之外，PIR还包含以下信息：(1)蛋白质名称、蛋白质的分类、蛋白质的来源；(2)关于原始数据的参考文献；(3)蛋白质功能和蛋白质的一般特征，包括基因表达、翻译后处理、活化等；(4)序列中相关的位点、功能区域。,PIR提供三种类型的检索服务:一是基于文本的交互式查询，用户通过关键字进行数据查询。二是标准的序列相似性搜索，包括BLAST、FastA等。三是结合序列相似性、注释信息和蛋白质家族信息的高级搜索，包括按注释分类的相似性搜索、结构域

37、搜索等。,三个子数据库,SWISS-PROT与PIR数据库的对比,SWISS-PROT的序列经过严格的审核，注释完善，但数据量小。PIR数据量较大，但包含未经过验证的序列，注释也不完善。,蛋白质结构数据库,PDB（protein data bank）目前最主要的蛋白质分子结构数据库 1970年代建立，美国Brookhaven国家实验室维护管理 1988年，由美国RCSB(research collaboratory for structural biology)管理,Number of unique folds(defined by SCOP)in PDB,year,structures,1,

38、000,500,updated 8-22-06,2006,2000,1990,1980,以文本格式存放数据，包括原子坐标、物种来源、测定方法、提交者信息、一级结构、二级结构等；PDB的网址：http:/www.rcsb.org/pdb(美国),PDB中含有通过实验（X射线晶体衍射，核磁共振NMR）测定的生物大分子的三维结构蛋白质核酸糖类其它复合物,一种是隐式序列信息(implicit sequence)PDB的隐式序列即为立体化学数据，包括每个原子的名称和原子的三维坐标。,一种是显式序列信息（explicit sequence）在PDB文件中，以关键字SEQRES作为显式序列标记，以该关键字打

39、头的每一行都是关于序列的信息。,显示分子结构（RasMol，ChemView）,1.点击 www.pdb.org 显示一2.输入 4MBN(a myoglobin)显示二3.点击 4MBN 显示三4.点击 WebMol5.点击 Rama,A Ramachandran plot shows favored conformations of amino acids,Many alpha helices are evident.The plot excludes proline no phi angle,1.点击 www.pdb.org 显示一2.输入4MBN(a myoglobin)显示二3.点击

40、 4MBN 显示三4.点击 Biology and Chemistry Report 显示四5.点击 Sequence Details显示五,PDBsum数据库：PDB注释信息综合数据库，具有检索、分析、可视化的功能。PDBsum的网址：http:/www.biochem.ucl.ac.uk/bsm/pdbsum,从NCBI进入PDB的途径,Fig.9.14 Page 289,蛋白质结构分类数据库,SCOP(Structural Classification of Proteins)CATH(Class,Architecture,Topology,Homology),SCOP（Structur

41、al Classification of Protein）英国医学研究委员会分子生物学实验室和蛋白质工程中心开发的基于web的蛋白质结构数据库分类、检索和分析系统；SCOP的网址：http:/scop.mrc-lmb.cam.ac.uk/scop/CATH(class,architecture,topology,homology)英国伦敦大学开发维护；CATH的网址：http:/www.biochem.ucl.ac.uk/bsm/cath,SCOP数据库(http:/scop.mrc-lmb.cam.ac.uk/scop/）的目标是提供关于已知结构的蛋白质之间结构和进化关系的详细描述，包括蛋白

42、质结构数据库PDB中的所有条目。SCOP数据库除了提供蛋白质结构和进化关系信息外，对于每一个蛋白质还包括下述信息：到PDB的连接，序列，参考文献，结构的图像等。,按结构和进化关系对蛋白质分类，分类结果是一个具有层次结构的树，其主要的层次是家族、超家族和折叠:(1)家族：具有明显的进化关系(2)超家族：具有远源进化关系，具有共同的进化源(3)折叠类：主要结构相似,http:/scop.mrc-lmb.cam.ac.uk/scop/,http:/scop.mrc-lmb.cam.ac.uk/scop/,http:/scop.mrc-lmb.cam.ac.uk/scop/,http:/www.bio

43、chem.ucl.ac.uk/bsm/cath_new/index.html,http:/www.biochem.ucl.ac.uk/bsm/cath_new/index.html,二次数据库,在内容信息上它以基因组数据库，序列数据库和结构数据库为基础，并结合文献资料。在使用上以Web界面为基础，具有文字信息，而且以表格，图形图表等方式显示数据库内容,分类基因组信息二次数据库蛋白质序列二次数据库蛋白质结构二次数据库,基因组信息二次数据库大肠杆菌基因组数据库系统http:/,蛋白质序列二次数据库Prosite 数据库它是基于对蛋白质家族中同源序列多重序列比对得到的保守性区域，这些区域通常与生物

44、功能有关，例如酶的活性位点，配体或金属结合位点。网址：http:/www.expasy.ch/prosite,蛋白质序列指纹图谱数据库http:/www.bioinf.man.ac.uk/abbrowser/PRINT,蛋白质结构二次数据库,蛋白质二级结构构象参数数据库（DSSP）蛋白质家族数据库（FSSP）同源蛋白质数据库（HSSP）,重要数据库网址,GDB http:/www.gdb.org/国内镜像 http:/AceDB http:/www.acedb.orgSGD http:/genome-www.etanford.edu/Saccharmyces,GenBankhttp

45、:/www.ncbi.nlm.nih.gov/Web/Genbank/EMBLhttp:/www.ebi.ac.uk/emblSWISS-PROThttp:/www.expasy.ch/国内镜像：http:/,PIRhttp:/pir.georgetown.edu/PDBhttp:/www.rcsb.org/pdb/SCOPhttp:/scop.mrc-lmb.cam.ac.uk/scop,CATHhttp:/www.biochem.ulc.ac.uk/bsm/cathPDBsumHttp:/biochem.ucl.ac.uk/bsm/pdbsum/PDBreporthttp:/swift.embl-heidelberg.de/pdbreport/,

展开阅读全文