《实验四蛋白质序列、结构的获取和显示ppt课件.ppt》由会员分享,可在线阅读,更多相关《实验四蛋白质序列、结构的获取和显示ppt课件.ppt(57页珍藏版)》请在三一办公上搜索。
1、实验四:蛋白质序列、结构的获取和显示,杜 娟,基因与蛋白质组学数据分析,2,实验项目四:蛋白质序列、结构的获取和显示一、 实验目的和要求: 掌握蛋白质序列数据库Uniprot的查询方法及格式特点掌握蛋白质结构数据库PDB的及格式特点 掌握蛋白质结构显示软件Pymol的使用,3,UniProt:Universal Protein Resource 收录蛋白质序列目录最广泛、功能注释最全面的数据库;包含三个子库:UniProtKB(UniProt Knowledgebase)UniRef(UniProt Reference Clusters)UniParc(Uniprot Archive),一 U
2、niProt数据库,1. 简介,4,2. 数据来源,European Bioinformatics Institute (EMBL-EBI),SIB Swiss Institute of Bioinformatics,Protein Information Resource (PIR),Swiss-Prot and TrEMBL,Protein Sequence Database (PIR-PSD),5,UniProt的网址: http:/www.uniprot.org/,3.数据查询 Uniprot检索号,包括6个字符串,可由大写字母AZ和数字09组合而成。 也可以用关键词检索,检索演示,例
3、1:查询草履虫细胞周期蛋白依赖的蛋白激酶(CDK2)的结构数据(1)登陆Uniprot网站 http:/www.uniprot.org/(2)在搜索栏选中“Protein knowledgebase(UniProtKB)” ,在文本框中输入“Paramecium tetraurelia CDK2”,单击Site Search按钮,出现结果。,8,9,10,11,12,13,与其他数据库的链接,14,15,4. UniProt数据格式,ID Q9XYV1_PARTE Unreviewed; 301 AA.AC Q9XYV1;DT 01-NOV-1999, integrated into UniP
4、rotKB/TrEMBL.DT 01-NOV-1999, sequence version 1.DT 21-MAR-2012, entry version 71.DE SubName: Full=Cyclin-dependent protein kinase Cdk2;GN Name=CDK2;OS Paramecium tetraurelia.OC Eukaryota; Alveolata; Ciliophora; Intramacronucleata;OC Oligohymenophorea; Peniculida; Parameciidae; Paramecium.OX NCBI_Tax
5、ID=5888;,头部区,16,引文区,RN 1RP NUCLEOTIDE SEQUENCE.RC STRAIN=51S;RX MEDLINE=99448661; PubMed=10519216;RX DOI=10.1111/j.1550-7408.1999.tb06065.x;RA Zhang H., Berger J.D.;RT A novel member of the cyclin-dependent kinase family in ParameciumRT tetraurelia.;RL J. Eukaryot. Microbiol. 46:482-491(1999).评论区CC
6、-CC Copyrighted by the UniProt Consortium, see http:/www.uniprot.org/termsCC Distributed under the Creative Commons Attribution-NoDerivs LicenseCC -,相关文献编号或递交序列的注册信息,序列注释信息,17,交叉引用数据库区,DR EMBL; AF126147; AAD34354.1; -; Genomic_DNA.DR HSSP; P24941; 1OIQ.DR ProteinModelPortal; Q9XYV1; -.DR GO; GO:0005
7、524; F:ATP binding; IEA:UniProtKB-KW.DR GO; GO:0004674; F:protein serine/threonine kinase activity; IEA:InterPro.DR InterPro; IPR011009; Kinase-like_dom.DR InterPro; IPR000719; Prot_kinase_cat_dom.DR InterPro; IPR017441; Protein_kinase_ATP_BS.DR InterPro; IPR002290; Ser/Thr_dual-sp_kinase_dom.DR Int
8、erPro; IPR008271; Ser/Thr_kinase_AS.DR Pfam; PF00069; Pkinase; 1.DR SMART; SM00220; S_TKc; 1.DR SUPFAM; SSF56112; Kinase_like; 1.DR PROSITE; PS00107; PROTEIN_KINASE_ATP; 1.DR PROSITE; PS50011; PROTEIN_KINASE_DOM; 1.DR PROSITE; PS00108; PROTEIN_KINASE_ST; 1.,18,序列区,KW ATP-binding; Cyclin; Kinase; Nuc
9、leotide-binding; Transferase.SQ SEQUENCE 301 AA; 34675 MW; E839F1A5EA0D5CB5 CRC64; MDLAQSEERY QKLEKIGEGT YGLVYKARDN QTGDIVALKK IRMDHEDEGV PSTAIREISL LKEVQHPNIV PLKDVVYDES RLYLIFDFVD LDLKKYMESV PQLDRMQVKK FINQMIQALN YCHQNRVIHR DLKPQNILVD IKQQNTQIAD FGLARAFGLP LKTYTHEVIT LWYRAPEILL GQRQYSTPVD IWSLGCIF
10、AE MAQKRPLFCG DSEIDQLFKI FKIMGTPKES TWPGVSTLPD FKSTFPRWPT PTNPAATLGK DITNLCPLGL DLLSKMITYD PYARITAEEA LKHAYFDELN N/,氨基酸统计数,19,DNA代码,氨基酸代码,20,FASTA文件格式,21,在Uniprot中查询拟南芥的光敏色素phyE编码蛋白的详细信息,阅读序列格式的解释,列出共包含哪几个部分?标出头部区主要字段的含义。在Uniprot中查询(1)拟南芥油菜素内酯受体gibberellin receptor GID1C 、 (2)水稻独角金内酯水解酶strigolactone
11、 hydrolase D14的蛋白质序列,这两个蛋白包含多少个氨基酸?写出它们所对应的mRNA检索号(类似于这样的格式N*_*)、GeneID号。,作 业,二 蛋白质结构数据库,PDB Protein DataBank,美国Brookhaven国家实验室管理生物大分子三维空间结构原子坐标数据库 http:/www.rcsb.org/pdb/ NCBI STRUCTURE: MMDB (Molecular Modelling DataBase),包含了从PDB获取的实验确定的生物高聚物结构分子模型数据库 。,PDB数据库( protein data bank ),1. 简介 美国Brookhav
12、en实验室1971年建立的大分子结构数据库PDB 蛋白质晶体结构资料数据库 (Protein Data Bank)。 PDB数据库的维护由结构生物信息学研究合作组织(Research Collaboration for Structural Bioinformatics, RCSB)负责。,2.数据来源 通过实验(X射线晶体衍射,核磁共振,电子显微镜方法等)测定的生物大分子的三维结构。 主要是蛋白质的三维结构,还包括核酸、糖类、蛋白质与核酸复合物的三维结构。,3.数据统计 截止2013年11月,PDB数据库已含有95644 个结构数据,其中约92.5%是蛋白质的结构。,4.数据查询 PDB中的
13、记录有唯一的PDB-ID,包括4个字符串,可由大写字母AZ和数字09组合而成。 PDB和它的镜像站点提供每个PDB记录的查询,可按一些专门的查询项目(如提交数据、作者姓名、结构表达)进行检索。,检索演示,例1:查询人类泪液载脂蛋白的结构数据(1)登陆PDB网站 http:/www.rcsb.org/pdb/(2)在上方的搜索栏选中“Everything” ,在文本框中输入“HUMAN TEAR LIPOCALIN”,单击Site Search按钮,出现结果。,第一步: 输入关键字“HUMAN TEAR LIPOCALIN” 也可输入ID号,第二步: 选择人类泪液载脂蛋白1XKI,数据查看:,(
14、3)分别单击标签3D view,Sequence,Annotations,Seq.Similarity, 3D Similarity, Literature, Biol.& Chem., Methods, Geometry观察数据信息。(4)回到Summary标签,在右侧的Biological Assembly区域可以观察蛋白的三维结构。(5)单击右侧目录中的Download Files下载不同格式和内容的文件;或下载FASTA序列文件;也可下载PDB文件(1XKI.pdb)。,第三步:观察数据信息 1XKI,第四步: 1XKI结构展示图,下载PDB结构文件,5.数据结构,PDB中对于每一个结
15、构记录,包含名称、参考文献、序列、一级结构、二级结构和原子坐标等信息。 每条记录有两种序列信息,一种是显式序列信息(explicit sequence),一种是隐式序列信息(implicit sequence)。,在PDB文件中,以关键字SEQRES作为显式序列标记,以该关键字打头的每一行都是关于序列的信息;PDB的隐式序列即为立体化学数据,包括每个原子的名称和原子的三维坐标。,PDB文本文件, 用写字板打开,标题部分,分子类别转运蛋白,该文件的公布日期,该化合物的pdb代码,该化合物的来源,结构测定者名字,REMARK是此pdb文件的参考书目、最大分辨率、注解等,一级结构,杂因子,二级结构,
16、连接注释,晶胞特征及坐标变换,连通性部分,坐标部分,1-6 “ATOM 或 HETATM”,7-11 原子序列号,13-16 原子名称,18-20 残基名,22 链标识符,23-26 残基序列号,31-38 X坐标,39-46 Y坐标,47-54 Z坐标,55-60 位置,61-66 温度因子,79-80 原子带的电荷,77-78 元素符号,三 结构显示软件-PyMOL简介,http:/www.pymol.org/,All指所有的对象,3ODU指刚才打开的文件,(sele)是选择的对象按钮A:代表对这个对象的各种action,S:显示这个对象的某种样式,H:隐藏某种样式,L:显示某种label
17、,C:显示的颜色,点击all中的H,选择everything,隐藏所有点击3ODU中的S,选择cartoon,以cartoon形式显示蛋白质点击3ODU 中的C , 选择by ss , 以二级结构分配颜色, 选择点击右下角的S,窗口上面出现蛋白质氨基酸序列,找到1164位ITD,是配体,点击选择ITD ,此时sele中就包含ITD这个残基,点击(sele)行的A,选择rename selection,窗口中出现,更改sele为IDT,点击(IDT)行的S选择sticks,点击C,选择by element,选择,调整窗口使此分子清楚显示。,IDT行点击A 选择find,选择polar conta
18、cts,再根据需要选择,这里选择to other atoms in object ,分子显示窗口中出现几个黄色的虚线,这就是氢键的对象,点击这一行的C,选择red,把氢键显示为红色。,接着再显示跟IDT形成氢键的残基,点击3ODU行的S,选择lines,显示出所有残基的侧链,使用鼠标转动蛋白质寻找与 IDT以红色虚线相连的残基,分别点击选择这些残基。注意此时 selecting 要是 residures,55,在PDB结构数据库中查询(1)拟南芥茉莉酸受体、(2)拟南芥油菜素内酯受体、(3)水稻独角金内酯水解酶的结构,每个蛋白共搜索到几个PDB结构?用Pymol软件观察下载到的结构,对每个蛋白的几个结构有何区别?利用Pymol,做出拟南芥茉莉酸受体与茉莉酸结合的作用图,背景白色,分子显示成棍状模型,蛋白显示为cartoon模型。,作 业,56,实验报告,到网络教学平台-基因与蛋白质组学数据分析B2100029-教学材料-实验课件下载基因与蛋白质组学数据分析实验报告模版将上述问题答案整理到实验报告中,正反打印放在1张纸上(不超过1张),下次实验课上交。,谢谢大家!,