《生物信息学的应用.ppt》由会员分享,可在线阅读,更多相关《生物信息学的应用.ppt(140页珍藏版)》请在三一办公上搜索。
1、生物信息学的应用,生物信息学(Bioinformatics),概念(广义),生物体系和过程中信息的存贮、传递和表达,细胞、组织、器官的生理、病理药理过程的中各种生物信息,信息科学,生命科学中的信息科 学,概念(狭义),生物分子数据,深层次生物学知识,分子生物信息学Molecular Bioinformatics,挖掘,获取,生物分子信息的获取、存贮、分析和利用,生物信息学主要研究两种信息载体DNA分子蛋白质分子,生物分子至少携带着三种信息遗传信息与功能相关的结构信息进化信息,第一节 生物信息学与基因组学,一、生物信息学概述(一)生物信息学发展简史生物信息学发展的3个阶段:前基因组时代 基因组时
2、代 后基因组时代 生物信息学的发展脉络:1956年,在美国田纳西州盖特林堡(Gatlinburg)召开的首次“生物学中的信息理论研讨会”上,孕育了生物信息学的概念.,1987年,佛罗里达州立大学32岁的林华安()博士首创“Bioinformatics”一词,被誉为“世界生物信息之父”。,1990年,林华安博士发起第一届国际 Bioinformatics学术会议。1990年10月,被誉为生命科学“阿波罗登月计划”的国际人类基因组计划(HGP)启动。1995年,美国人类基因组计划第一个五年总结报告中给出生物信息学一个较为完整的定义。2000年6月26日,美、英、日、德、法、中等六国科学家共同努力,
3、完成人类基因组工作草图,这是人类科学史上又一个里程碑式的事件。2003年4月14日,国际人类基因组测序组隆重宣布:美、英、日、德、法和中国科学家历经13年共同努力,人类基因组序列图(“完成图”)提前绘制成功。人类迈入“后基因组时代”(Post-genomic Era)。,(二)生物信息学的主要研究内容,1生物信息的收集、存储、管理与提供2基因组序列信息的提取和分析3功能基因组相关信息分析4基因表达数据的分析与处理5 蛋白质结构预测,基因组数据库,蛋白质序列数据库,蛋白质结构数据库,DDBJ,EMBL,GenBank,SWISS-PROT,PDB,PIR,1、生物分子数据的收集与管理,2、数据库
4、搜索及序列比较,搜索同源序列在一定程度上就是通过序列比较寻找相似序列 序列比较的一个基本操作就是比对(Alignment),即将两个序列的各个字符(代表核苷酸或者氨基酸残基)按照对应等同或者置换关系进行对比排列,其结果是两个序列共有的排列顺序,这是序列相似程度的一种定性描述多重序列比对研究的是多个序列的共性。序列的多重比对可用来搜索基因组序列的功能区域,也可用于研究一组蛋白质之间的进化关系。,发现同源分子,3、基因组序列分析,遗传语言分析天书 基因组结构分析基因识别基因功能注释基因调控信息分析基因组比较,4、基因表达数据的分析与处理,基因表达数据分析是目前生物信息学研究的热点和重点 目前对基因
5、表达数据的处理主要是进行聚类分析,将表达模式相似的基因聚为一类,在此基础上寻找相关基因,分析基因的功能,基因芯片,二维电泳图,5、蛋白质结构预测,蛋白质的生物功能由蛋白质的结构所决定,蛋白质结构预测成为了解蛋白质功能的重要途径蛋白质结构预测分为:二级结构预测空间结构预测,蛋白质折叠,二级结构预测,在一定程度上二级结构的预测可以归结为模式识别问题 在二级结构预测方面主要方法有:立体化学方法图论方法统计方法最邻近决策方法基于规则的专家系统方法分子动力学方法人工神经网络方法 预测准确率超过70%的第一个软件是基于神经网络的PHD系统,空间结构预测,在空间结构预测方面,比较成功的理论方法是同源模型法
6、该方法的依据是:相似序列的蛋白质倾向于折叠成相似的三维空间结构 运用同源模型方法可以完成所有蛋白质10-30%的空间结构预测工作,(三)生物信息学研究现状与展望,1国外生物信息学研究现状2我国生物信息学研究现状3我国生物信息学研究目标 实现基因组数据、蛋白质组和结构基因组数据、天然及合成化合物数据的计算机处理、分析和可视化,以及生物实验和生物分子的模拟设计,解析蛋白质三维结构和蛋白质组的时空表达关系等,蛋白质研究为生物信息学提供了极为丰富的研究数据,极大地推动了生物信息学的发展。生物信息学在蛋白质的序列分析、结构预测、功能预测、分子设计等方面具有重要应用。,二、生物信息学与蛋白质,序列比对是生
7、物信息学的基础,通过比较两个或多个蛋白质序列的相似区域和保守性位点,确定相互间具有共同功能的序列模式和分子进化关系,进一步分析其结构和功能。把未知结构的蛋白质序列与已知具有三维结构的蛋白质序列进行序列比对,有助于进一步了解该未知结构蛋白质的空间折叠信息,(一)蛋白质序列分析,(二)蛋白质结构预测,蛋白质结构预测内容 二级结构预测 三维结构预测蛋白质结构预测方法 理论分析方法:是在理论计算的基础上进行结构预测。统计分析方法:是在对已知结构的蛋白质进行统计分析的基础上,建立由序列到结构的映射模型,对未知结构的蛋白质直接从氨基酸序列预测其结构。,(三)蛋白质功能预测,(引自HPDB蛋白质数据库(),
8、(四)蛋白质分子设计,蛋白质分子设计类型:按照被改造部位的多少可以分为“小改”、“中改”和“大改”三种。“小改”:即通过对目标蛋白质进行定位突变或化学修饰改变其结构和功能。“中改”:即通过对来源于不同蛋白质的结构域进行拼接和组装,从而较大程度的改变其结构和功能。“大改”:即完全从头设计出一种具有特异结构与功能的全新蛋白质。,常用的数据库有:核酸序列数据库(Nucleotide Sequence Databases)RNA 序列数据库(RNA sequence databases)蛋白质序列数据库(Protein sequence databases)结构数据库(Structure Databa
9、ses)基因组数据库(Genomics Databases(non-vertebrate))代谢酶相关产物(Metabolic and Signaling Pathways)人类和其他脊椎动物基因组(Human and other Vertebrate Genomes)人类基因和疾病(Human Genes and Diseases)芯片和其他基因表达数据库(Microarray Data and other Gene Expression Databases);蛋白组资源(Proteomics Resources);其他分子生物学数据库(Other Molecular Biology Dat
10、abases)细胞器官数据库(Organelle databases);植物数据库(Plant databases);免疫学数据库(Immunological databases),第二节 常用数据库,生物信息学数据库类型一次数据库:数据直接来源于实验获得的原始数据,仅对原始数据进行简单的归类整理和注释。如Genbank、EMBL和DDBJ等核酸序列数据库;SWISS-PROT、PIR等蛋白质序列数据库;PDB等蛋白质结构数据库。二次数据库:针对不同的研究内容和需要在一次数据库、实验数据和理论分析的基础上对相关生物学知识和信息进行进一步分析和整理。如人类基因组图谱库GDB、转录因子和结合位点库
11、TRANSFAC、蛋白质结构家族分类库SCOP等。,图6-2 生物信息学数据库相互关系,生物信息学数据库相互关系,常用数据库,一、核酸数据库,(一)核酸序列数据库 目前,国际上主要有Genbank、EMBL、DDBJ三大核酸序列数据库,三大核酸数据库之间每天相互交换数据,保持数据同步更新。,1.GenbankGenbank由美国国立生物技术信息中心(NCBI)建立维护,其主页如图6-3所示。,Genbank数据直接来源 测序工作者提交的序列、测序中心提交的大量EST序列、其它测序数据以及与其它数据机构协作交换的数据。Genbank内容 所有已知的核酸序列和蛋白质序列,还包括对序列的简要描述、科
12、学命名、物种分类名称、参考文献、序列特征表等辅助信息。Genbank对数据记录的处理 划分为 细菌类、病毒类、灵长类、啮齿类,EST数据、基因组测序数据、大规模基因组序列数据等16类。,()Genbank数据检索,通过NCBI 首页“Search”选项中的“gene”或“Nucleotide”等选项,在检索窗口输入检索词进行直接检索;利用NCBI网站的综合生物信息数据库检索系统Entrez提供的限制条件(Limits)、索引(Index)、检索历史(History)和剪贴板(Clipboard)等功能进行精细检索,图6-4 NCBI-Entrz gene检索界面,Entrez 综合生物信息数据
13、库检索系统将核酸序列、蛋白质序列、基因图谱、蛋白质结构等数据库整合在一起。而且可以通过其生物医学文献摘要数据库(MEDLINE),获取序列相关的文献信息。可以利用Entrez cross-database 数据库进行综合信息检索(图6-5)。,图6-5 NCBI-Entrez cross-database检索界面,美国国家生物技术信息中心(NCBI),Entrez,Entrez,The Life Sciences Search Engine,BLAST(Basic Local Alignment search Tool)是 DNA 或氨基酸序列比对分析的重要软件,TaxBrowser:Taxo
14、nomy browser 分类浏览器,Structure:该目录下最重要的资源是分子模型数据库 MMDB 及 Cn3D 生物大分子三维模型查看软件,EMBL和GenBank数据库识别标志,GenBank核酸数据库实例,以人畜共患的病源菌鼠伤寒沙门氏菌(Salmonella typhimurium)H1相抗原基因H-1-i为例,简要说明GenBank核酸数据库的数据格式。,LOCUS STYFLGH1I 1485 bp DNA linear BCT 26-APR-1993DEFINITION Salmonella typhimurium H-1-i gene encoding phase 1 f
15、lagellar filament protein(flagellin),complete cds.ACCESSION M11332VERSION M11332.1 GI:153978KEYWORDS flagellin.SOURCE Salmonella typhimurium ORGANISM Salmonella typhimurium Bacteria;Proteobacteria;Gammaproteobacteria;Enterobacteriales;Enterobacteriaceae;Salmonella.REFERENCE 1(bases 1 to 1485)AUTHORS
16、 Joys,T.M.TITLE The covalent structure of the phase-1 flagellar filament protein of Salmonella typhimurium and its comparison with other flagellins JOURNAL J.Biol.Chem.260(29),15758-15761(1985)PUBMED 2999134,序列标识简单描述序列编号版本号关键词物种来源物种分类引文编号引文作者引文标题引文出处,361 acccagcgtc tgaacgaaat cgaccgtgta aatggccaga c
17、tcagttcag cggcgtgaaa421 gtcctggcgc aggacaacac cctgaccatc caggttggtg ccaacgacgg tgaaactatc481 gatatcgatc tgaagcagat caactctcag accctgggtc tggatacgct gaatgtgcaa541 caaaaatata aggtcagcga tacggctgca actgttacag gatatgccga tactacgatt601 gctttagaca atagtacttt taaagcctcg gctactggtc ttggtggtac tgacgagaaa661
18、attgatggcg atttaaaatt tgatgatacg actggaaaat attacgccaa agttaccgtt721 acggggggaa ctggtaaaga tggctattat gaagtttccg ttgataagac gaacggtgag781 gtgactcttg ctgcggtcac tcccgctaca gtgactactg cgacagcact gagtggaaaa841 atgtacagtg caaatcctga ttctgacata gctaaagccg cattgacagc agcaggtgtt901 accggcacag catctgttgt ta
19、agatgtct tatactgata ataacggtaa aactattgat961 ggtggtttag cagttaaggt aggcgatgat tactattctg caactcaaga taaagatggt1021 tccataagta ttgatactac gaaatacact gcagataacg gtacatccaa aactgcacta1081 aacaaactgg gtggcgcaga cggcaaaacc gaagtcgtta ctatcgacgg taaaacctac1141 aatgccagca aagccgctgg tcatgatttc aaagcagaac c
20、agagctggc ggaacaagcc1201 gctaaaacca ccgaaaaccc gctgcagaaa attgatgctg ctttggcaca ggttgacacg1261 ttacgttctg acctgggtgc ggtacagaac cgtttcaact ccgctattac caacctgggc1321 aacaccgtaa acaacctgtc ttctgcccgt agccgtatcg aagattccga ctacgcgacc1381 gaagtctcca acatgtctcg cgcgcagatt ctgcagcagg ccggtacctc cgttctggcg
21、1441 caggcgaacc aggttccgca aaacgtcctc tctttactgc gttaa/,记录结束,少量序列利用BankIt提交,大量序列利用Sequin程序进行提交。NCBI网站提供数据查询、序列相似性搜索等服务,从其FTP服务器上可免费下载Genbank数据。NCBI网址:http:/BankIt网址:http:/Sequin网址:http:/Sequin/Genebank网址:Entrez gene网址:Entrez cross-database网址:,(2)向Genbank提交序列数据,EMBL核酸序列数据库创建于1982年,由欧洲生物信息学研究所(EBI)管理维
22、护。使用序列提取系统(SRS)进行查询检索,利用基于网络的WEBIN工具,或利用Sequin软件向EMBL核酸序列数据库提交序列。EMBL网址:http:/SRS的网址:http:/WEBIN网址:/Sequin网址:,2.EMBL核酸序列数据库,DDBJ核酸序列数据库创建于1986年,由日本国家遗传学研究所负责维护和管理。使用SRS工具进行数据检索和序列分析,利用Sequin软件向该数据库提交序列。为方便检索DDBJ主页可进行日文和英文互换。DDBJ的日文版网址:/DDBJ的英文版网址:/,3.DDBJ数据库,(二)基因组数据库GDB,基因组数据库(GDB)创建于1990年,是一个专门汇集人
23、类基因组数据的数据库,以对象模型来保存数据,提供基于网络的数据对象检索服务,可搜索各种类型的对象,并以图形方式观看基因组图谱。GDB的网址是:http:/,(一)蛋白质序列数据库 常用的蛋白质序列数据库有SWISS-PROT、PIR、TrEMBL、UniProt、GenPept等,分述如下。1SWISS-PROT SWISS-PROT数据库提供蛋白质序列查询及相似蛋白质序列搜索等服务。,二、蛋白质数据库,图6-6 Swiss-Prot数据库网站主页,SWISS-PROT数据库内容 核心数据:包括蛋白质序列、引用文献、分类信息等。注 释:包括结构域、功能位点、跨膜区域、二硫键位置、翻译后修饰、与
24、其它蛋白质的相似性等。SWISS-PROT将广泛收集的相关数据进行合并,且与蛋白质三维结构数据库(PDB)等其他数据库交互索引。通过SWISS-PROT数据库可以得到某蛋白质的序列,再通过交互引用从PDB数据库得到其结构。SWISS-PROT数据由数据行排列组成,数据格式与EMBL数据库数据格式基本相同(见表6-3)。,表6-3 SWISS-PORT 数据库的行识别标志及含义,中止符号,Termination line,/,序列标头,Sequence header,SQ,特征表,Feature table data,FT,关键词,Keywords,KW,交叉引用数据库,Database cro
25、ss-reference,DR,评注或注释,Comments or notes,CC,引文出处,Reference location,RL,引文标题,Reference tile,RT,引文作者,Reference authors,RA,交叉引用,Cross-reference,RX,相关内容,Reference comments,RC,引文位置,Reference position,RP,引文序号,Reference number,RN,物种分类,Organism classification,OC,来源细胞器,Organelle,OG,来源物种,Organism species,OS,基因
26、名称,Gene name(s),GN,描述,Description,DE,登录日期或最后更新日期,Date,DT,序列编号,Accession Number,AC,标识号,Identification,ID,含 义,全 称,缩写,以鼠伤寒沙门氏菌Salmonella typhimurium H1-i基因编码的鞭毛蛋白FLIC_SALTY为例介绍SWISS-PORT数据库的数据格式。,ID FLIC_SALTY Reviewed;495 AA.AC P06179;P97160;Q02871;Q56088;DT 01-JAN-1988,integrated into UniProtKB/Swiss
27、-Prot.DT 23-JAN-2007,sequence version 4.DT 24-JUL-2007,entry version 69.DE Flagellin(Phase 1-I flagellin).GN Name=fliC;Synonyms=flaF,hag;OrderedLocusNames=STM1959;OS Salmonella typhimurium.OC Bacteria;Proteobacteria;Gammaproteobacteria;Enterobacteriales;Enterobacteriaceae;Salmonella.OX NCBI_TaxID=60
28、2;RN 1RP NUCLEOTIDE SEQUENCE GENOMIC DNA.RX MEDLINE=86059460;PubMed=2999134;RA Joys T.M.;RT The covalent structure of the phase-1 flagellar filament protein of Salmonella typhimurium and its comparison with other flagellins.;RL J.Biol.Chem.260:15758-15761(1985).,序列标识 序列编号登录日期描述基因名称来源物种物种分类物种分类号引文序号引
29、文位置交叉引用引文作者引文标题引文出处,SWISS-PROT 数据库条目实例,RN 9RP NUCLEOTIDE SEQUENCE GENOMIC DNA OF 476-495.RC STRAIN=LT2/ATCC 23564;CC-!-FUNCTION:Flagellin is the subunit protein which polymerizes to form the filaments of bacterial flagella.CC-!-MISCELLANEOUS:Individual Salmonella serotypes usually alternate between
30、the production of 2 antigenic forms of flagella,termed phase 1 and phase 2,each specified by separate structural genes,fliC and fljB.CC-!-SIMILARITY:Belongs to the bacterial flagellin family.CC-DR EMBL;M11332;AAA27072.1;-;Genomic_DNA.DR EMBL;D13689;BAA02846.1;-;Genomic_DNA.DR EMBL;AE008787;AAL20871.
31、1;-;Genomic_DNA.DR EMBL;X51740;CAA36029.1;-;Genomic_DNA.DR EMBL;J01801;AAA27074.1;-;Genomic_DNA.DR PIR;A24262;A24262.DR PIR;S16121;S16121.DR PDB;1IO1;X-ray;A=54-451.DR PDB;1P95;Model;A=57-451.DR PDB;1UCU;EM;A=1-495.,相关内容评注功能 其他特性 相似性交叉引用数据库 EMBL核酸序列数据库 PIR蛋白序列数据库 PDB蛋白结构数据库,PE 1:Evidence at protein
32、level;KW 3D-structure;Complete proteome;Flagellum.FT INIT_MET 1 1 Removed(By similarity).FT CHAIN 2 495 Flagellin.FT/FTId=PRO_0000182578.FT CONFLICT 127 127 S-N(in Ref.1).FT CONFLICT 133 133 N-S(in Ref.1).FT HELIX 3 32FT TURN 37 39FT HELIX 44 98,关键词特征表不同来源数据库的冲突位点二级结构信息,2.PIR,PIR的子数据库:蛋白质序列数据库(PIR-P
33、SD)蛋白质分类数据库(iProClass)非冗余的蛋白质参考资料数据库(PIR-NREF)PIR数据库按照数据性质和注释层次分四个部分:PIR1序列已经验证,注释最为详尽;PIR2为尚未确定的冗余序列;PIR3序列既未检验,也未注释;PIR4序列来自其它渠道,既未验证,也无注释。,美国国家生物医学研究基金会与国际蛋白质信息中心(PIR-International)共同维护。PIR是第一个蛋白质分类和功能注释数据库,PIR作用:提供基于文本的交互式检索、序列相似性 搜索以及结合序列相似性、注释信息和蛋白质家族信息的高级检索。PIR网址:http:/,3.TrEMBL,是一个经计算机注释的蛋白质
34、数据库,采用SWISS-PROT数据库格式。主要包含从EMBL/Genbank/DDBJ三大核酸数据库中根据编码序列翻译的、尚未集成到SWISS-PROT数据库中的蛋白质序列。TrEMBL为SWISS-PROT数据库及时提供补充。TrEMBL网址:http:/,4.UniProt,UniProt将SWISS-PROT、PIR、TrEMBL三个数据库合并。通过文本检索、序列相似检索以及UniProt Ftp网站可获得蛋白质序列。如图6-7所示,图6-7 UniProt网站主页,UniProt包含UniProtKB、UniRef 和UniParc 3个部分:(1)UniProtKB数据库(UniP
35、rot Knowledgebase):蛋白质序列、功能、分类、交叉引用等信息存取中心;(2)UniRef数据库(UniProt Reference Clusters):为提高检索的速度,将紧密相关的蛋白质序列合并到同一条记录中。目前,根据序列相似程度可将UniRef数据库分为UniRef100、UniRef90和UniRef50 3个子库(3)UniParc(UniProt Archive):储存大量蛋白质研究的历史信息。,利用UniProt 可方便的进行蛋白质序列的交互检索,Salmonella typhimurium H-1项鞭毛蛋白P06176的UniProt检索截图如下。UniProt
36、网址:http:/,图 6-8 核心数据,图 6-9 核心数据(续)、引用文献与评注,图 6-10 交互检索与关键词,图 6-11 特征表与序列信息,5.GenPept数据库,GenPept数据库特点 由Genebank数据库的核酸序列经翻译后产生。GenPept数据量大,随核酸数据库的更新而更新,但未经实验证实,也未有详细注释。GenPept蛋白质数据库实例 以鼠伤寒沙门氏菌S.typhimurium H-1-i基因编码的鞭毛蛋白为例进行GenPept数据库检索。,GenPept蛋白质数据库实例,GenPept的网址是:ftp:/,国际上主要的蛋白质序列数据库的种类和特点,(引自生物信息学,
37、赵国屏等 编著,科学出版社,2002),(二)蛋白质序列二次数据库,1.PROSITE PROSITE是蛋白质家族保守区域和功能位点数据库,也是第一个蛋白质序列二次数据库,收录蛋白质家族中同源序列多重比对所确定的保守性区域:如酶活性位点、配体结合位点、金属离子结合位点、其它蛋白质结合位点等已知具有重要生物学功能蛋白质位点和序列模式。PROSITE数据库组成 包含Prosite(数据文件)和PrositeDoc(说明文件)两个文件数据库。PROSITE数据库主页如图6-12所示。,图6-12 PROSITE数据库主页,PROSITE数据库作用:可确定一段新蛋白质序列中包含的功能位点以及其归属的蛋
38、白质家族。PROSITE的网址:http:/或 http:/PROSITE的中国镜像网址是:http:/,2.PRINTS PRINTS蛋白质指纹图谱数据库将多个保守的序列模式作为识别蛋白质家族的特征,与PROSITE数据库的单个序列模式相比,PRINTS具有更好的识别率。PRINTS 网址:http:/,3.BLOCKS 序列模块(block):是通过序列比对得到的若干蛋白质序列中具有较高相似性的序列片段。BLOCKS由通过自动检测PROSITE数据库和PRINTS蛋白质指纹图谱数据库中蛋白质家族高度保守区域产生的序列模块组成。BLOCKS的网址:http:/,(三)蛋白结构数据库,1.PD
39、BPDB(Protein Data Bank)蛋白质结构数据库是国际上最完整的蛋白质、核酸、糖类、蛋白质-核酸复合物及病毒等生物大分子三维结构数据库。PDB主页,如图6-13所示。其数据库增长曲线,如图6-14所示。,图6-13 PDB数据库主页,图6-14 结构数据库增长曲线截图红色图:总结构数 蓝色图:新增结构数(引自http:/=molType-protein&seqid=100),PDB数据库作用 提供序列详细信息、原子坐标、三维结构、交叉检索等与结构相关的信息。PDB数据库实例 以鼠伤寒沙门氏菌Salmonella typhimurium H1-i鞭毛蛋白(P06176)F41片段晶
40、体结构为例,图示PDB数据库格式(框6-4)和网页格式(图6-15)。三维结构的动态展示(如图6-16 所示)。PDB 的地址:http:/,框6-4 PDB格式实例,图6-15 PDB数据库网页格式实例,图6-16 Salmonella typhimurium H1-i鞭毛蛋白(P06176)F41片段PDB三维结构图(SWISS-PDB Viewer),2.MMDB(Molecular Modeling Database)是Entrez的组成部分。只收录通过X射线晶体衍射和核磁共振实验测定的生物大分子结构数据。增加了附加信息如:大分子的生物学功能及产生机制、分子进化历史、生物大分子之间关系
41、等。具有生物大分子三维结构模型展示、结构分析和结构比较等功能。实例如图6-17所示。,图6-17 Salmonella typhimurium H1-i鞭毛蛋白(P06176)F41片段MMDB三维结构图(Cn3D 4.1)。MMDB 的地址为:http:/Structure/,(四)蛋白质结构二次数据库,1.DSSP(Database of Secondary Structure of Protein)是一个二级结构推导数据库,用于研究蛋白质序列与蛋白质结构的关系。将蛋白质二级结构分为7种类型,如表6-5所示。针对PDB数据库中蛋白质的原子坐标,计算其各个氨基酸残基中氢键、二面角、二级结构类
42、型等二级结构构象参数,从而根据三维结构推导出其对应的二级结构。,表6-5 DSSP的7种二级结构类型,DSSP 的网址:,2.HSSP(Homology-Derived Secondary Structure of Protein)是一个蛋白质同源序列比对数据库,将相似序列的蛋白质聚集成结构同源的家族,并隐含二级结构和空间结构信息。HSSP用于分析蛋白质保守区域、确定序列模式及蛋白的折叠、进化关系、分子设计等研究。HSSP的网址是:/,(五)蛋白质结构分类数据库,1.SCOP(Structural Classification of Proteins)性质:是一个蛋白质结构分类数据库。功能:提
43、供蛋白质之间的结构和进化关系的信息。提供PDB链接、蛋白质序列、空间结构图像展 示、参考文献链接等服务。SCOP结构分类图:如图6-18所示。,图6-18 Scop结构分类图SCOP的网址是:/,2.CATH CATH数据库层次:类型层次:分为主类、主类、-类(/型和+型)、低二级结构类4类。构架层次:依据由螺旋和折叠形成的超二级结构排列方式进行分类,而不考虑它们之间的连接关系。拓扑层次:为二级结构的形状和二级结构间的联系。同源性层次:通过序列比较和结构比较确定。序列层次:根据序列同源性不同分为S、O、L、I、D五种。CATH的网址:http:/,3.PDBsum 通过对PDB数据库中所有蛋白
44、质结构信息进行总结和分析,给出蛋白质的主链数目、配体、金属离子、二级结构、折叠图等相关信息。提供检索蛋白质各级结构信息的统一界面。PDBsum的网址:/,(六)蛋白质分类数据库,ProtoMap蛋白质分类数据库是利用计算机对SWISS-PROT、TrEMBL 和TrEMBL-new数据库中全部蛋白质进行层次分类,将相关的蛋白质聚类分组而成。ProtoMap数据库有助于对已知蛋白质家族进行精细划分,阐释家族间的相互关系。ProtoMap网址:http:/,第三节 蛋白质结构预测,蛋白质结构预测方法:主要有理论分析方法和统计方法两种。蛋白质结构预测流程:如下图所示,图6-19 蛋白质结构预测流程图
45、(参考:,一、蛋白质序列比对,序列比对的功能:探寻分子进化关系及产生共同功能的序列模式;分析和预测一些新基因的功能;预测蛋白质的空间结构及生物学功能;获得有价值的参考信息。序列比对常用软件:Blast、ClustalW等,可从NCBI和EBI网站免费下载到本地比对,也可进行网上远程比对。NCBI 网站Blast的基本类型:见下表:,表6-6 BLAST 基本类型,表6-7 基本氨基酸简写字符表,22种基本氨基酸对应的单字符,鼠伤寒沙门氏菌Salmonella typhimurium H-1-i基因ClustalW多重比对截图:,ClustalW多重比对图,H-1-i基因在鼠伤寒沙门氏菌不同菌株
46、间(H1-i-1500、H1-i-1826、H1-i-1485)具有极高的同源性,而与其他沙门氏菌具有较高的同源性。,鼠伤寒沙门氏菌Salmonella typhimurium H-1-i蛋白blastp比对,运行界面图,blastp比对,鼠伤寒沙门氏菌Salmonella typhimurium H-1-i鞭毛蛋白blastp比对同源性图,blastp比对序列同源性,鼠伤寒沙门氏菌Salmonella typhimurium H-1-i编码蛋白质blastp双重比对截图,blastp双重比对,鼠伤寒沙门氏菌H1相鞭毛蛋白与其他沙门氏菌H1相鞭毛蛋白质之间具有极高的同源性。,二、蛋白质基本性质
47、分析,利用生物信息学软件可直接预测蛋白质的许多基本性质,如氨基酸组成、相对分子质量(MW)、等电点(pI)、疏水性、电荷分布、信号肽、跨膜区域及结构功能域分析等。用于蛋白质基本性质预测的生物信息学软件:SWISS-PROT数据库相关的蛋白质基本性质预测软件。,(一)等电点和相对分子质量预测,利用Compute pI/MW程序可以计算出蛋白质序列的等电点和相对分子质量。输入FASTA格式的蛋白质序列,Compute pI/MW程序会自动计算出输入序列的等电点和相对分子质量。或直接提供蛋白质序列的SWISS-PROT数据库序列编号(AC)或SWISS-PROT标识(ID)Compute pI/MW
48、程序对于碱性蛋白质预测的等电点可能不准确。,(二)蛋白质理化参数预测,利用ProtParam程序可以预测蛋白质序列的理化参数。将蛋白质序列整理成FASTA格式后输入ProtParam程序,会自动给出输入序列的氨基酸组成、分子式、等电点、相对分子质量等理化参数。直接提供蛋白质序列的SWISS-PROT数据库序列编号或SWISS-PROT标识,利用ProtScale程序预测该条目的理化参数。,(三)疏水性分析,利用ProtScale程序可以计算蛋白质的疏水性区域将FASTA格式的蛋白质序列输入ProtScale程序,预测蛋白质的疏水性区域。或直接提供蛋白质序列的SWISS-PROT数据库序列编号或
49、SWISS-PROT标识,利用ProtScale程序预测该条目的疏水性区域。SAPS(蛋白质序列统计分析程序)也可预测蛋白质序列的氨基酸组成、电荷分布、疏水性区域、跨膜区域、重复结构等信息。,(四)酶切肽段预测,利用PeptideMass程序可以预测蛋白质在特定蛋白酶作用下的酶切产物或化学试剂作用下的内切产物。将FASTA格式的蛋白质序列输入PeptideMass程序,可以预测胰蛋白酶(trypsin)、糜蛋白酶(chymotrypsin)等蛋白酶酶切产物,CNBr等化学试剂的内切产物。或直接提供蛋白质序列的SWISS-PROT数据库序列编号或SWISS-PROT标识,利用PeptideMas
50、s程序预测该条目的酶切结果。,三、蛋白质二级结构预测,(一)二级结构预测二级结构预测方法:1.统计方法:如Chou-Fasman方法、GOR(Garnier-Gibrat-Robson)方法、神经网络方法(neural network method)、最近邻居方法(nearest neighnor method)等。2.基于已有知识的预测方法:Lim方法和Cohen方法。3.混合方法:常用的蛋白质二级结构预测程序:1.nnPredict程序:准确率可达到79。2.PredictProtein程序:准确率可达到72以上。3.SSPRED程序:与PredictProtein程序相似。4SOPMA