微生物基因组学ppt课件.ppt

上传人:牧羊曲112 文档编号:1829263 上传时间:2022-12-21 格式:PPT 页数:87 大小:7.96MB
返回 下载 相关 举报
微生物基因组学ppt课件.ppt_第1页
第1页 / 共87页
微生物基因组学ppt课件.ppt_第2页
第2页 / 共87页
微生物基因组学ppt课件.ppt_第3页
第3页 / 共87页
微生物基因组学ppt课件.ppt_第4页
第4页 / 共87页
微生物基因组学ppt课件.ppt_第5页
第5页 / 共87页
点击查看更多>>
资源描述

《微生物基因组学ppt课件.ppt》由会员分享,可在线阅读,更多相关《微生物基因组学ppt课件.ppt(87页珍藏版)》请在三一办公上搜索。

1、微生物基因组学,胡松年北京基因组研究所,微生物基因组研究概况微生物基因组的特点微生物基因组研究的意义,微生物基因组学,一 微生物基因组研究概况,微生物基因组重要纪事年限 事件1994年美国DOE启动MGP1995年Science发表了第一株细菌-流感嗜血杆 菌全基因组1995年发表了集胞藻菌株PCC6803的测序和注释1996年Science发表了第一个完成的古细菌-詹 氏甲烷球菌全基因组序列1996年酵母基因组序列发表1997年大肠杆菌K-12基因组序列发表,已发表微生物基因组数量图。数据由NCBI微生物基因组数据库提供,截至2009年5月9号,研究现况及内容,二 微生物基因组的特点,原核生

2、物基因组的大小原核生物基因组的编码序列(CDS/ORF)原核生物染色体结构GC 含量重复序列DNA链组成的非对称性最小基因组,微生物基因组的特点,1. 原核生物基因组的大小-基因组较小的原核生物,Prokaryocyte Genome(kb) ORFMycoplasma genitalium G-37B0 580 468Buchnera sp 640 583Buchnera aphidicola SG 641 545Glossina brevipalpis 679 621Ureaplasma urealyticum serovar 3B0 751 613Mycoplasma pneumonia

3、e M129B0 816 677Mycoplasma pulmonis 963 782Borrelia burgdorferi B31B1 910 853Treponema pallidumNichols B1 1,138 1,041Chlamydia trachomatis serovar D 1,042 894Chlamydia trachomatis MoPnB1 1,069 924Chlamydia pneumoniae J138 1,228 1,070Chlamydia pneumoniae AR39B1 1,229 1,052Chlamydia pneumoniae CWL029B

4、1 1,230 1,052Rickettsia conorii Malish 7 1,268 1,374Rickettsia prowazekii Madrid EB1 1,111 834,1. 原核生物基因组的大小-基因组较大的原核生物,Prokaryocyte Genome(kb) ORFXanthomonas campestris 5,076 4,182Xanthomonas axonopodis 5,273 4,386Methanosarcina acetivorans C2A 5,751 4,540Ralstonia solanacearum GMI1000 5,810 5,120E

5、scherichia coli O157:H7. Sakai 5,996 5,448Pseudomonas aeruginosa PAO1B6 6,264 5,570Nostoc sp. PCC 7120 6,413 5,366Sinorhizobium meliloti 6,690 6,205Mesorhizobium loti MAFF303099 7,036 6,752Streptomyces coelicolor A3(2) 8,667 7,825,1. 原核生物基因组的大小-真核生物基因组的大小,Chr. Genome(kb) ORFGuillardia theta 3 551 46

6、4Encephalitozoon cuniculi 1 2,500 1,997Saccharomyces cerevisiae S288C 16 12,069 6,294Schizosaccharomyces pombe 3 14,000 4,824Caenorhabditis elegans 6 97,000 19,099Arabidopsis thaliana 5 115,428 25,498Drosophila melanogaster 6 137,000 14,100Oryza sativa L. ssp. Indica 12 420,000 50,000Oryza sativa ss

7、p. Japonica 12 420,000 50,000Homo sapiens 24 3,000,000 30,000Dictyostelium discoideum Chr. 2 6 8,000 2,799Leishmania major Friedlin Chr. 1 36 257 79Plasmodium falciparum 3D7 Chr. 3 14 1,060 220Plasmodium falciparum 3D7 Chr. 2 14 947 205,2. 原核生物基因组的编码序列(Coding sequence),占原核生物基因组总序列的90 基因的平均大小为1kb,ORF

8、,2. 原核生物基因组的编码序列 不同生物编码序列的比较,Organism Genome (kb) ORFs ORF size Coding Sequence(%)Buchnera sp 640 583 988 90Aquifex aeolicus 1,551 1,512 956 93Saccharomyces cerevisiae 12,069 6,294 1,092 57 Schizosaccharomyces pombe 14,000 4,820 2,033 70 Caenorhabditis elegans 97,000 19,099 1,311 27 Arabidopsis thal

9、iana 115,428 25,498 460 29Homo sapiens 3,000,000 3,100 1,340 2,基因组编码序列的注释,确定编码序列 序列同源性比较 ,如BLAST 概率型方法,基于隐马尔可夫模型的GENSCAN 基因的功能注释 已知功能的蛋白质基因的序列 已知功能蛋白质的motif/domain 有同源序列的未知基因 无同源序列的疑是基因,2. 原核生物基因组的编码序列-ORF的注释,Organism Date Genome (kb) ORFs known hypo. unique Hypo.MycoplasmaGenitalium 95-10 580 470 3

10、18(68%) 56(12%) 96(20%) Brucella suis 02-10 2,160 2,175 1,333 (61%) 623 (29%) 219 (10%) Clostridiumperfringens 02-01 3,031 2,660 1,492(56%) 502(19%) 666(25%)Methanosarcina Acetivorans 02-07 5,751 4,524 2,226 (49%) 908 (20%) 1,390 (31%),2. 原核生物基因组的编码序列Distribution of E. coli proteins among 22 functio

11、nal groups,Functional class Number PercentageRegulatory function 45 1.05Putative regulatory proteins 133 3.10Cell structure 182 4.24Putative membrane proteins 13 0.30Putative structural proteins 42 0.98Phage, transposons, plasmids 87 2.03Transport and binding proteins 281 6.55Putative transport prot

12、eins 146 3.40Energy metabolism 243 5.67DNA replication, recombination, modification, and repair 115 2.68Transcription, RNA synthesis, metabolism, and modification 55 1.28Translation, posttranslational protein modification 182 4.24,2. 原核生物基因组的编码序列 Distribution of E. coli proteins among 22 functional

13、groups (continued),Functional class Number Percentage Cell processes (including adaptation, protection) 188 4.38Biosynthesis of cofactors, prosthetic groups, and carriers 103 2.40Putative chaperones 9 0.21Nucleotide biosynthesis and metabolism 58 1.35Amino acid biosynthesis and metabolism 131 3.06Fa

14、tty acid and phospholipid metabolism 48 1.12Carbon compound catabolism 130 3.03Central intermediary metabolism 188 4.38Putative enzymes 251 5.85Other known genes (gene product or phenotype known) 26 0.61Hypothetical, unclassified, unknown 1632 38.06Total 4288 100.00,2. 原核生物基因组的编码序列 原核生物(高温菌)基因组的内含子,

15、Sulfolobus solfataricus P2: 18个tRNA基因含有单个内含子 一个胱氨酸tRNA基因含有2个内含子A.pernix tRNA基因中 发现 14个内含子 Staphylothermus marinus和运动脱硫球菌 23S rRNA基因中也发现内含子,3. 原核生物染色体结构,大多数原核生物:一条环状闭合双链DNABrucella suis 1330:两条环状闭合双链DNA 2,107,792 bp (Chr I) 1,207,381bp (Chr II) Vibrio cholerae: 两条环状闭合双链DNA 2,961,146 bp (Chr I) 1,072,

16、314 bp(Chr II) Borrelia burgdorferi B31: 910,725 bp ( linear Chromosome) 21 linear and circular plasmidsTreponema pallidum:一条环状闭合双链DNA 1,138,006 bp,4. GC 含量,原核生物基因组GC含量为:25.5-67.9 %嗜温菌基因组GC含量与 rRNA、tRNA的GC含量成正比嗜热菌rRNA、tRNA的GC含量与 基因组GC含量不成正比,但与OGT成正比tRNA GC含量 总是大于rRNA的GC含量,4. GC 含量嗜温菌基因组G + C 含量(%),O

17、rganism Genome rRNA tRNA Uure 25.5 45.4 52.9 Buch 26.3 48.1 53.3 Mpul 26.6 46.2 54.8 Bbur 28.6 46.7 54.5 Rpxx 29.0 48.2 55.2 Cjej 30.5 48.1 56.4 Cace 30.9 50.5 55.1 Mgen 31.7 45.6 52.5 SaurN 32.8 50.5 57.6,GC 含量 嗜温菌基因组G + C content (%)(续),Organism Genome rRNA tRNA Xfas 52.7 53.1 59.8 Tpal 52.8 53.1

18、57.2 Mlep 57.8 55.7 61.6 Atum 59.4 54.6 58.4 Smel 62.7 54.5 61.5 Mlot 62.7 56.3 60.5 Mtub 65.6 58.0 62.0 Paer 66.6 53.1 60.1 Drad 67.0 56.5 58.8 Ccre 67.2 55.0 61.2 Hbsp 67.9 58.1 62.4 linear regression 0.88 0.80,4. GC 含量 嗜热菌最适生长温度(OGT)与GC含量的关系,OrganismOGT() Genome rRNA tRNA Pabyssi 103 0.45 0.670.7

19、0 Pyro 98 0.42 0.63 0.71Aero 95 0.56 0.680.73Mjan 85 0.31 0.61 0.66 Aquae 85 0.43 0.650.68 Aful 83 0.49 0.63 0.68 Ssol 80 0.36 0.62 0.67 Tmar 80 0.46 0.63 0.65Tten 75 0.38 0.590.60 Mthe 65 0.50 0.57 0.62 Tvol 60 0.40 0.53 0.61 Tacid 59 0.46 0.530.61 linear regression 0.01 0.92 0.90,基因组非编码序列的注释,非编码区的

20、注释 各类重复序列 基因表达的调控序列 信号序列等,5. 重复序列,非编码重复序列编码重复序列 paralogous genes family,5. 重复序列Repeats in T. maritima genome,Class Length Copies Database matchSR-01 30 143 tttccatacctctaaggaattattgaaacaLR-01 1,897 2 hypothetical proteinLR-02 1,403 2 a-glucosidaseLR-03 1,137 4 putative transposaseLR-04 1,082 2 methy

21、l-accepting chemotaxis proteinLR-05 858 2 putative transposaseLR-06 555 2 helicaseLR-07 252 2 excinucleaseLR-08 241 2 putative transposase,5. 重复序列腾冲嗜热厌氧菌基因组的部分重复序列,Short, non-coding repeatsRepeat ID Length(bp) Number of Copies Identity(%)TSR001 30 305 (67/238) 100 TSR001a (GTTTTTAGCCTACCTAAAAGGGATTG

22、AAAC ) TSR001b (GTTTTTAGCCTACCTAAGAGGGATTGAAAC)TSR027 250 18 87,5. 重复序列腾冲嗜热厌氧菌基因组的部分重复序列(续),Long, coding repeats Copies Repeat ID length Complete Partial Identity (%) Database matchTLR028b3,5654599 Transposase + hypothetical TLR393c3,0452198 ABC transporters + hypothetical TLR3152,603294 ABC transpo

23、rters + Permease TLR4082,490298 Ferredoxin oxidoreductases, TLR0762,021291 Hypothetical proteinTLR2712,020292 ABC transportersTLR2641,9865198 TransposaseTLR2941,851298 ABC transporters + PermeaseTLR0041,8191498 TransposaseTLR0051,800798 TransposaseTLR1581,7741289TPR-repeat-containing proteinsTLR0481

24、,711299 TransposaseTLR2231,629297 TransposaseTLR0081,5962192 Hypothetical proteinTLR0141,59214387 Hypothetical protein ,重复序列 Number of repeats by type in N. meningitidis Z2491,Type Size (bp) FrequencyDNA uptake sequence: gccgtctgaa 10 1,892RS 24161 681dRS3: attcccnnnnnnnngggaat 20 772Correia (full)

25、150159 173Correia (internal deletion) 104 84Correia (partial) 37145 29ATR 183 19REP 2 59154 26REP 3 60 13REP 4 26 20REP 5 20 9IS1016 256740 14 (including partial)IS1106 2631219 22 (including partial)IS1655 1,0741,257 7 (including partial)Prophage 2,33038,964 5Correia elements (CEs, 156-bp sequences

26、bounded by 26-bp inverted repeats),重复序列 Largest families of paralogous genes,Family Number of genes (total 312) (total 853) ATP-binding subunits of ABC transporters 23Reductases/dehydrogenases 12Two-component system, regulatory proteins 12Hypothetical proteins 10Transcriptional regulators 9Fimbrial

27、proteins 9Two-component system, sensor proteins 9,6. DNA链组成的非对称性 GC分布不对称 (GC skew) AT分布不对称(AT skew),前导链含有较多的G(A) 而后随链含有较多的C(T) 计算公式为(nG-nC)/(nG+nC) (nA-nT)/(nA+nT) 累计skew (cumulative skew)用于复制起点和终点的定位,6. DNA链组成的非对称性(真细菌) 基因方向性偏好,基因方向性偏好 (gene orientation bias) 先导链上编码的基因总是多于后随链,6. DNA链组成的非对称性(真细菌) GC

28、 skew, AT skew , gene orientation bias,Organism (34株) Gene biasc(%)GC skewd AT skeweTten 86.7 0.1920.075Llact 80.7 0.0990.034Mgen 80.4 0.0450.045 Spneu 80.2 0.102 0.016Spyo 79.4 0.0940.022Cace 79.0 0.2120.078Bhal 77.4 0.1000.034 Mpneu 77.3 0.014 0.022 SaurN 74.7 0.122 0.051Bsub 74.2 0.0790.045Uure 6

29、8.1 0.0590.029 Bbur 66.2 0.182 - 0.086 . Ccre 54.3 0.016 - 0.014,GC skewd of T. tengcongensis genome,微生物基因组的特点,Jean R.Lobry Microbiology Today Vol 26,Circular representation of the genome of T. tengcongensis MB4,6. DNA链组成的非对称性 密码子使用偏好(codon usage bias),先导链和后随链密码子的不同 在先导链,以G或T开头或结尾的密码子显著地多于后随链,常见的有GT

30、G、GCG和GAG 在后随链以C或A开头或结尾的密码子多于先导链,如CTC、GCC、CCC、ATC和ACC,6. DNA链组成的非对称性 原核生物基因组先导链和后随链密码组成的差异,Org. Bases Codon bases AA Codons - + - + - + - +Smel C GC3A3 G3G1T3 T P V E GCC CCC ACC CTC GGT GGG GTT GAG Ecoli C GC3 G3 G1 T H I V G GCC CCC ACC CTC GCG GTG CGT GGGHinf C GTC3 G3 T3 T N P V ACC GCC CTC AAC

31、GAG GTG CGT GCTTacid C GC3C1 G3 H L DT V Q ACC CCC GCC CTC GGT CCG GTG CAG Nmen C GC3A3 G3 T I HP V M CTC GCC GGC CTA TTG GAG GCG GGT Ctra C GC3C1 G3G2G1 T P IL V G R CTC CGC CTA CAA GGG GAG AAG GTG Cpneu C GC3C1 G3G2G1 T I PN V R CTA ATC CAA AAC TTG GTT GTG GATCcre C GTA3C3 G3 T P H V G E CCC GCC C

32、GC ACA GGG GCT GGT CGT每一株原核生物的密码子、氨基酸及组成密码子的核苷酸等的使用情况。每组最后一位的频率大于或等于本组最大值的一半。“”表示先导链,“”表示后随链。,6. DNA链组成的非对称性 基因密度和密码子使用的差别,高度表达基因: 核蛋白体蛋白基因,与翻译和转录有关的因子基因,分子伴侣基因和与主要的能量代谢相关的基因 大多编码于前导链通常都有密码子偏好(核蛋白体蛋白基因密码子的第三位多为G )快速生长的细菌(大肠杆菌、霍乱弧菌、枯草芽孢杆菌和流感嗜血杆菌) 主要的糖酵解和三羧酸循环基因为高度表达基因产甲烷菌,与甲烷代谢有关的基因为高度表达基因 高度表达基因: 那些

33、在密码子使用上与一般基因相差很大,与核蛋白体蛋白基因,翻译和转录相关基因,伴侣-降解蛋白基因等在密码子使用上高度相似的基因为高度表达基因。,微生物测序及分析流程图,数据分析软件,序列拼接组装 Phred/Phrap/Consed, Oligo 6基因组注释 Glimmer2.0, BLAST, tRNAscan-SE比较基因组分析 BLAST, MUMmer, ACT, perl script, Clustal W,Finishing阶段,Blastn 或Blastp参照序列,确定Contigs之间关系,设计引物,PCR,测序,数据添加至原有的数据,利用基因order信息,Finishing阶

34、段,Finishing阶段,多重PCR结果,引自Tettelin H.等文章,Finishing阶段,短片段文库构建填补二级结构区示意图,摘自Amanda A等文章,Finishing阶段,基于转座子技术来完成重复序列区的测序,摘自Scott E等文章,副血链球菌FW213基因组基本特征,副血链球菌FW213基因组基本特征,副血链球菌比对结果,COG分类,COG分类图,JKL编码信息加工和储存的蛋白质的基因;DVTMNUO代表细胞加工和信息处理基因;CGEFHIPQ是与代谢相关的基因;RS为功能未知的基因,代谢途径,代谢途径,728691bp 735072bp,精氨酸操纵子示意图,精氨酸脱亚氨

35、酶(arginine deiminase,arcA), 鸟氨酸氨基甲酰转移酶(ornithine carbamyltransferase,arcB), 氨甲基酶(carbamate kinase,arcC), 逆向运输蛋白 (arginine-ornithine antiporter,arcD), 二肽酶(dipeptidase,arcT)和调控蛋白(regulator,arcR),比较基因组分析,副血链球菌基因组和血链球菌基因组比对的全部MUM点阵图。横坐标,副血链球菌,2171616bp; 纵坐标, 血链球菌。对角线代表可以对齐区域,斜率-1的对角线代表大规模的染色体倒位,比较基因组分析,

36、副血链球菌基因组和其他六株细菌全基因组比对结果图。a,和肺炎链球菌CGSP14比对的结果;b,戈登氏链球菌;c,变异链球菌;d,化脓性链球菌;第e,猪链球菌;f,嗜热链球菌,比较基因组分析,进化分析,毒力基因,基因组小岛(fwislet1),基因组岛(fwisland),抗药性,二元信号转导系统,三 微生物基因组研究的意义基因组研究在医学的应用 基因组研究的生物技术应用 微生物的进化,A 基因组研究在医学的应用,致病相关基因的鉴定 设计特异的实验诊断方法疫苗的研究 新型抗生素的开发,1. 致病相关基因的鉴定 通过基因组比较鉴定病原相关基因,流感杆菌: 7种内毒素(脂多糖)基因25种新基因 细胞

37、表面定居的粘附分子重复序列,1. 致病相关基因的鉴定 致病相关基因的预测,致病物质多为病原体细胞壁成分、 表面蛋白和一些分泌性蛋白质 PHD预测基因组的跨膜蛋白 SIGNALP预测分泌性蛋白质,1. 致病相关基因的鉴定 致病相关基因的预测(续),功能相同的蛋白质往往相邻并受共同的调控序列调控 operon同一菌种的致病菌株与非致病菌株的基因组进行比较 E. coli K12 MG 1655 4.1 + 0.53 M (528genes) E. coli O157:H7 EDL 933 4.1 + 1.34 M (1387genes),2. 设计特异的实验诊断方法,寻找高度特异的核酸序列 实验技

38、术 PCR 杂交技术(Microarray,DNA chip) 应用 鉴定病原种类进行临床诊断 病原分型的流行病学研究 预测疾病进展及临床疗效,3. 疫苗的研究,通过全基因组序列的同源性比较,寻找致病菌的属特异、群特异、种特异、型特异、甚至亚型特异的抗原 Pizza等和Tettelin等对血清型B脑膜炎奈瑟菌近350种抗原的研究Wizemann等对肺炎链球菌的基因组的抗原性蛋白研究,4. 新型抗生素的开发,药靶的特征:药靶应是病原生物必需的,在进化上是保守的可作为药靶的微生物基因或蛋白质: 毒力基因、必需基因、菌种专一基因、独特酶类、膜转运蛋白等,毒力基因作为靶位,毒力基因的发现:非致病菌(E

39、.coli K12)与致病菌( E.coli O157, 沙门氏菌,耶尔森氏菌)基因组的比较致病岛(Pathogenicity islands)编码的功能已知蛋白作为药靶,必需基因作为药靶,寻找必需基因的方法: 比较基因组:在不同进化阶段保守的基因 往往是必需基因 缺失致死或转座子插入 转座子插入PCR寻找流感嗜血杆菌, 肺炎链球菌必需基因 致病菌特殊且必需的蛋白作为靶位,菌种专一基因作为药靶,寻找菌种专一基因的方法: 比较基因组方法病原生物基因组中存在但 近缘种属中缺少的基因可能是致病关键基因幽门螺杆菌(与大肠杆菌和流感杆菌比较)找到594个特有基因,73个编码种专一蛋白,如丙酮酸:铁氧还蛋

40、白氧化还原酶,可作为靶位,独特酶类作为药靶,所有细菌独特酶类均可作为靶位: 如: 参与细胞壁合成的酶类 叶酸合成酶类 核酸合成酶类,膜转运蛋白作为靶位,衣原体和立克次体的ATP/ADP转位酶是致病菌必需,而只有植物叶绿体、线粒体具有类似酶细菌多药运输蛋白(泵),新型抗生素的开发,药靶的种类共有药靶菌种或某菌种的致病菌株的特异性药靶 某一部位常见致病菌的共同药靶,新型抗生素的开发,Timothy等的研究:肺炎链球菌,流感嗜血杆菌,脑膜炎奈瑟菌 共有基因32个 其中2个甲硫氨酸亚砜还原酶基因 疑是毒力决定子,B 基因组研究的生物技术应用,生物降解作用酶工业食品生物技术抗生物质,生物降解作用,Dei

41、nococcus radiodurans:抵御放射性物质Thermotoga maritima:降解单体或复合植物 聚合物, 如木聚糖和纤维素Dehalococcoides ethenogenes:降解四氯乙烯Pseudomonas putida:降解多种毒性有机废料, 包括多种芳香族化合物,酶工业,Thermotoga maritima:耐热Aquifex aeolicus:耐热Methanogenium frigidum:耐寒Halobacterium:耐盐,降解塑料Pseudomonas putida:降解塑料,食品生物技术,Lactococcus latis: 生产发酵食品,微生物营养

42、添加剂,抗生物质,Streptomyces coelicolor: 生产抗生素,用于人类,兽医和农业Photorhabdus luminescens: Bacillus thuringiensis Xenorhabdus nematophilus 产生杀昆虫毒素蛋白 转基因抗昆虫植物,C 微生物的进化,基于16S rDNA的系统进化树: Woese等的生物 三域 真细菌域、古生菌域和真核生物域 单个基因的进化并不等同于物种的进化 基因的水平转移,基因的水平转移 的意义,研究微生物的进化史研究菌种新功能的来源研究微生物的生命过程预测基因功能,基因水平转移的方式,转化接合转导,鉴定基因水平转移的方法,鉴定基因组区段的组成 比较不同基因的系统发生 最大相似性分析 基因在生物的分布谱,易被水平转移的基因,难被转移的基因:informational genes 进化核心基因易被转移的基因:operational genes 氨酰tRNA合成酶基因 剪切因子 重组酶 DNA聚合酶,Thanks,E-mail: ,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号