《数据库简介-北大罗静初课件.ppt》由会员分享,可在线阅读,更多相关《数据库简介-北大罗静初课件.ppt(113页珍藏版)》请在三一办公上搜索。
1、第三讲分子生物信息数据库与生物信息学基本问题,永乐大典明永乐元年至六年(14031408)翰林学士解缙等奉旨编纂,共22877卷,目录60卷,11095册,总字数约3.7亿。是中国古代最大的“百科全书”。中国国家图书馆现藏永乐大典仅221册。,人类获取信息的能力在不断进步之中,3.1分子生物信息数据库简介,1960年代,第一个分子生物学数据库Fred Sanger的胰岛素序列测定(1955)蛋白质数据库PSD(Protein Sequence Database)Margaret Dayhoff: 1960年代,创立PSD,即PIR的前身 1978,scoring matricesPAM,3.1
2、.1 分子生物信息数据库概述,Pioneer in BioinformaticsDr. Margaret O. Dayhoff(1925-1983),Fred Sanger at The Wellcome Trust Sanger Institute,1982年,第一个核酸序列数据库GenBank(Los Alamos)1982年,606条序列,长度680,338bp2004年,约43,322,756条序列,长度约7.11010bp,2005:International sequence databases exceed 100 gigabases !,一级数据库 直接来源于实验获得的原始数据
3、,只经过简单的归类、整理和注释。 一级核酸数据库:GenBank数据库、EMBL数据库、DDBJ数据库 一级蛋白质序列数据库:SWISS-PROT库、PIR库 一级蛋白质结构数据库:PDB数据库,二级数据库 在一级数据库、实验数据和理论分析的基础上,针对不同的研究内容和需要,对生物学知识和信息的进一步整理得到的数据库。 人类基因组图谱库GDB、转录因子和结合位点库TRANSFAC、蛋白质序列功能位点数据库Prosite等。,建立分子生物信息数据库的流程图,一个数据库记录(entry)一般由两部分组成: 1. 原始序列数据(sequence data) 2. 描述这些数据生物学信息的注释(ann
4、otation)注释中包含的信息与相应的序列数据同样重要和有应用价值,数据的完整性和注释工作量: 1. 序列数据广,序列注释不够完整 2. 库数据面窄,序列注释全面,数据库的动态更新: 1. 不断增加 2. 不断修正,人类遗传信息数据与科学家的社会责任,“如果你们想使你们一生的工作对人类有益,那么你们只了解应用科学本身还是不够的。关心人本身必须始终成为一切技术努力的目标,要关心如何组织人的劳动和商品分配,从而以这样的方式保证我们科学思维的结果可以造福于人类,而不致成为诅咒的祸害。当你们沉思你们的图表和方程式时,永远不要忘记这一点!”爱因斯坦,人类遗传数据国际宣言纲要(修正稿)联合国教科文组织国
5、际生命伦理学委员会2003年1月,巴黎“它们关系到对人权和基本自由的保护,关系到在收集、处理和储存科学数据以及医疗数据、个人数据和敏感数据时对人类尊严的尊重,承认人类遗传数据因其敏感的性质所拥有的特殊地位,因为它们既可以提供医学信息又可以提供关系一生的个人信息,而且可能含有关于家庭的信息,包括子孙后代,或者在某种情况下涉及到当事人所属社群的信息,考虑到人类遗传数据的收集、处理、使用和储存对于科学与医学的进步,以及对于把它们用于非医学目的、特别用于司法目的是至关重要的。”“尽管如此,意识到人类遗传数据的收集、处理、使用和储存,对于人权和基本自由的行使与遵守,以及对于人类尊严的尊重有着潜在的风险,
6、重申世界人类基因组与人权宣言制定的原则,以及平等、公正、团结、尊重人类尊严、人权和基本自由的原则,既有研究的自由又有对隐私的保护,这些必须是人类遗传数据的收集、处理、使用和储存的基础,宣布遵循这些原则,并采用目前的宣言。”,术语的含义人类遗传数据:指通过核酸分析或其它科学分析获得的有关个人遗传特性的不明显信息。生物学样本:指含有核酸并且包含个人特有的遗传组成的任何生物学材料(例如,血液、皮肤和骨细胞或血浆)。基于人群的遗传学研究:指以了解种群内个体间和/或跨种群个体间遗传变异的性质和程度为目的的研究。行为遗传学研究:指以建立遗传特征和行为之间的可能联系为目的的研究。纲要摘要个人身份每个人都有一
7、套独特的基因结构。尽管如此,一个人的身份不应被归结为基因特性,因为它是由复杂的教育和其它环境因素以及与他人的情感、社会、精神和文化纽带决定的。特殊意义人类遗传数据和用于产生它们的生物学样本可能对个人或者群体有特殊的文化意义,因此需要给予它们特殊的考虑和尊重。研究目的人类遗传数据只能以诊断和卫生保健目的,医学和其它科学研究,包括流行病学研究目的、法医学目的,在民事和刑事诉讼中的司法目的,以及任何其它与有关基因组和人权的世界宣言以及国际人权法一致的目的被收集、处理、使用和储存。,程序人类遗传数据应在透明的和伦理上可接受的程序的基础上被收集、处理、使用和储存,这些程序使社会作为一个整体知情参加。不歧
8、视和不羞辱人类遗传数据不应用于歧视目的,其使用也不应可能导致对一个人、一个家庭或者一个群体的羞辱。应该特别关注以人群为基础的遗传学研究和行为遗传学研究的结果以及对这些结果的解释。同意对于人类遗传数据的收集应该要求得到事先的、自由的、知情的和明确表达的同意,这种收集或者通过侵入性或者通过非侵入性的程序,以及对于它们随后的处理、使用和储存也应该如此,不管这些是由公立机构还是私人机构进行。决定是否被告知研究结果的权利当为了医学和科学研究目的,包括流行病学和以人群为基础的遗传学研究,或者为了遗传筛查的目的收集人类遗传数据的时候,同意应包括让个人做出是否被告知研究或筛查检测结果的选择。利益分享为了医学和
9、科学研究,包括以人群为基础的遗传学研究而收集的人类遗传数据,通过使用它们产生的利益应该由整个国际社会分享,可以采取以下形式: 对参加研究的个人和群体的特殊援助; 获得医疗保健; 为源于研究的新的治疗方法或药物提供便利; 为卫生服务提供支持; 符合本宣言提出的原则的任何其它形式;,3.1.2 一级数据库,世界三大核酸序列数据库(公共序列数据库,Public Sequence Database) GenBank(美国) EMBL(欧洲) DDBJ(日本),GenBank,DDBJ,EMBL,A) 核酸(DNA)序列数据库,GenBank(美国国家生物技术信息中心,NCBI) 1980s NIH(N
10、ational Institute of Health) Los Alamos National Lab NCBI(National Center for Biotechnology Information) NLM(National Library of Medicine),GenBank网址 http:/www.ncbi.nih.gov/Genbank/,EMBL(欧洲分子生物学实验室,EMBL) 1982 European Molecular Biology Laboratory EBI(European Bioinformatics Institute),EMBL网址 http:/ww
11、w.ebi.ac.uk/embl,DDBJ(日本国家遗传学研究所,NIG) 1986 Databank of Japan NIG(National Institute of Genetics),DDBJ网址 http:/www.ddbj.nig.ac.jp,EMBL数据库序列记录增长趋势,568,43,322,756,EMBL数据库序列总长增长趋势,5.8105 bp,7.11010bp,EMBL2003年8月数据状况(Release 76) Division Entries Nucleotides 表达序列标签(ESTs) 18,001,332 9,172,848,447 真菌(Fungi)
12、 81,533 124,814,006 基因组检测序列(GSSs) 5,951,552 3,541,699,334 高通量cDNA(HTC) 148,033 198,301,795 高通量基因组(HTG) 69,070 11,827,270,957 人(Human) 253,122 3,999,942,455 无脊椎动物(Invertebrates) 126,656 618,391,776 其它哺乳动物(Other Mammals) 51,211 117,048,169 鼠(Mus musculus) 79,168 1,331,593,999 细胞器(Organelles) 217,902 1
13、80,804,604 专利(Patents) 1,326,009 717,107,725 噬菌体(Bacteriophage) 2,321 9,413,526 植物(Plants) 214,323 700,212,325 原核生物(Prokaryotes) 200,833 690,274,487 啮齿动物(Rodents) 25,459 64,607,453 序列标签位点(STSs) 239,292 114,379,671 合成(Synthetic) 9,196 16,869,561 未分类(Unclassified) 1,860 2,167,222 病毒(Viruses) 196,817 1
14、75,615,411 其它脊椎动物(Other Vertebrates) 52,583 282,545,232 总计 27,248,475 33,885,908,155,EMBL2004年8月数据状况(Release 80),来源于人类基因组计划及各种模式生物基因组计划 1977年,最早获得的生物基因组全序列是噬菌体(53kb) 1995年,第一个自由生物体流感嗜血菌(H. inf)被完全测序,B) 基因组数据库,部分生物基因组计划网址 老鼠(Mouse) http:/www.informatics.jax.org/mgd.html 小鼠(Rat) http:/ratmap.gen.gu.se
15、 狗(Dog) http:/mendel.berkeley.edu/dog.html 牛(Cow) http:/locus.jouy.inra.fr/cgi-bin/bovmap/intro2.pl 猪(Pig) http:/www.ri.bbsrc.ac.uk/pigmap/pigbase/pigbase.html 羊(Sheep) http:/dirk.invermay.cri.nz 鸡(Chicken) http:/www.ri.bbsrc.ac.uk/chickmap/chickbase/manager.html 斑马鱼(Zebra fish) http:/zfish.uoregon.
16、edu 线虫(C. elegans) http:/www.ddbj.nig.ac.jp/htmls/celegans/html/CE_INDEX.html 果蝇(Drosophila) http:/morgan.harvard.edu 蚊子(Mosquito) http:/klab.agsci.colostate.edu 拟南芥(Arabidopsis) http:/genome-www.stanford.edu/Arabidopsis 棉花(Cotton) http:/algodon.tamu.edu 玉米(Maize) http:/www.agron.missouri.edu 水稻(Ric
17、e) http:/www.staff.or.jp 大豆(Soya) http:/mendel.agron.iastate.edu:8000/main.html 树(Trees) http:/s27w007.pswfs.gov,GDB(美国、加拿大) 1990年,John Hopkins大学建立,后由加拿大儿童医院生物信息中心管理,2003年起,GDB-related software and public data were transferred to RTI International .数据内容:基因组结构数据、基因组图谱、基因多态性数据与其它分子生物信息网络资源(EMBL、GenBan
18、k)的链接,GDB网址 http:/www.gdb.org/,AceDB 线虫基因组数据库。既是一个数据库,又是一个数据库管理系统。 提供很好的图形界面,用户能够从大到整个基因组小到序列的各个层次观察和分析基因组数据。 数据内容:限制性图谱,基因结构信息,质粒图谱,序列数据,参考文献,AceDB网址 http:/www.acedb.org,SWISSPROT(欧洲) PIR(美国),C) 蛋白质序列数据库,SWISSPROT 1. 日内瓦大学医学生物化学系和欧洲生物信息学研究所(EBI)合作维护(1986年); 2. 在EMBL和GenBank数据库上均建立了镜像站点; 3. 数据库包括了从E
19、MBL翻译而来的蛋白质序列,这些序列经过检验和注释; 4. 数据记录包括两部分: 序列 注释(结构域、功能位点、跨膜区域、二硫键位置、翻 译后的修饰、突变体等) 5. 数据存在滞后性 TrEMBL数据库的建立,SWISS-PROT的网址: http:/cn.expasy.org/sprot,TrEMBL的网址: http:/www.ebi.ac.uk/trembl/index.html,PIR(protein information resource) 1. 由美国NCBI翻译自GenBank的DNA序列(1984年); 2. 在EMBL和GenBank数据库上均建立了镜像站点; 3. 数据依
20、据注释的质量分为4类。,PIR数据库的分类情况(Release 51.03),PIR网址: http:/www-nbrf.georgetown.edu/,PDB(protein data bank) 1. 目前最主要的蛋白质分子结构数据库; 2. 1970年代建立,美国Brookhaven国家实验室维护管理; 3. 1988年,由美国RCSB(research collaboratory for structural biology)管理; 4. 以文本格式存放数据,包括原子坐标、物种来源、测定方法、提交者信息、一级结构、二级结构等; 5. PDBsum数据库:PDB注释信息综合数据库,具有检
21、索、分析、可视化的功能。(已移至EBI),D) 蛋白质结构数据库,PDB网址:http:/www.rcsb.org/pdb(美国),PDBsum网址:http:/www.ebi.ac.uk/thornton-srv/databases/pdbsum/,SCOP(Structural Classification of Protein) 英国医学研究委员会分子生物学实验室和蛋白质工程中心开发的基于web的蛋白质结构数据库分类、检索和分析系统;SCOP的网址:http:/scop.mrc-lmb.cam.ac.uk/scop/ CATH(class, architecture, topology,
22、 homology) 英国伦敦大学开发维护;CATH的网址:http:/www.biochem.ucl.ac.uk/bsm/cath,E) 蛋白质结构分类数据库,SCOP网址:http:/scop.mrc-lmb.cam.ac.uk/scop/,CATH网址:http:/www.biochem.ucl.ac.uk/bsm/cath,3.1.3 二级数据库简介,二级数据库的形式:大多以web界面为基础,具有文字信息、表格、图形、图表等方式显示数据库内容; 一级数据库与二级数据库之间并无明确的界限。 (例如:GDB、AceDB、SCOP、CATH等都已经具有二级数据库的特色),E. coli基因组
23、数据库Colibri 德国Pastear研究所建立。 除具有浏览、检索、搜寻功能外,还对环状基因组实现可视化。 网址:http:/ TransFac (真核生物基因转录调控因子数据库) 德国生物工程研究所开发维护,始建于1988年。 包括顺式调控位点、基因、转录因子、细胞来源、分类和调控位点核苷酸分布6个子库。TransFac的网址:http:/,A) 基因组信息二级数据库,ColiBri网址:http:/,TransFac网址:http:/,Prosite (蛋白质序列功能位点数据库) 始建于1990年代初,由瑞典生物信息学研究所SIB负责维护。 基于对蛋白质家族中同源序列多重序列比对得到的
24、保守区域,这些区域通常与生物学功能相关。 数据库包括两个数据库文件:数据文件Prosite;说明文件PrositeDoc。,B) 蛋白质序列二级数据库,Prosite网址:http:/cn.expasy.org/prosite,DSSP (Definition of Secondary Structure of Proteins) 蛋白质二级结构构象参数数据库 DSSP的网址:http:/www.cmbi.kun.nl/gv/dssp/ FSSP (Families of Structural Similar Proteins) 蛋白质家族数据库 FSSP的网址:http:/www2.embl
25、-ebi.ac.uk/dall/fssp/ HSSP(Homology Derived Secondary Structure of Proteins) 同源蛋白质数据库 HSSP的网址: http:/www.cmbi.kun.nl/gv/hssp/,C) 蛋白质结构二级数据库,DSSP网址:http:/www.cmbi.kun.nl/gv/dssp,FSSP网址:http:/www2.embl-ebi.ac.uk/dall/fssp,HSSP网址: http:/www.cmbi.kun.nl/gv/hssp,Nucleic Acids Research每年第一期为数据库专辑Database
26、issue,3.1.4 数据库格式简介,历史原因:没有完全统一的数据库格式; 了解所用数据库格式的重要性 一般由两部分组成: 文字注释 内容(序列,),EMBL和GenBank数据库的主要内容和格式 序列名称、长度、日期序列说明、编号、版本号物种来源、学名、分类学位置相关文献作者、题目、刊物、日期序列特征表碱基组成序列(每行60个碱基),实例: E. coli k-12全基因组序列文件,例子:EMBL和GenBank数据库的格式,LOCUS U00096 4639221 bp DNA circular BCT 18-NOV-1998DEFINITION Escherichia coli K-1
27、2 MG1655 complete genome.ACCESSION U00096KEYWORDS .SOURCE Escherichia coli. ORGANISM Escherichia coli Bacteria; Proteobacteria; gamma subdivision; Enterobacteriaceae; Escherichia.REFERENCE 1 (bases 1 to 4639221) AUTHORS Blattner,F.R., Plunkett,G. III, Bloch,C.A., Perna,N.T., Burland,V., TITLE The co
28、mplete genome sequence of Escherichia coli K-12 JOURNAL Science 277 (5331), 1453-1474 (1997) MEDLINE 97426617COMMENT This sequence was determined by the E. coli Genome Project at the University of Wisconsin-Madison (Frederick R. Blattner, director). Supported by NIH grants HG00301 and HG01428 (from
29、Human Genome Project and NCHGR). The entire sequence was independently determined from E. coli K-12 strain MG1655. Predicted open reading frames were determined using GeneMark software, kindly supplied by ,FEATURES Location/Qualifiers source 1.4639221 /organism=Escherichia coli /strain=K-12“ /sub_st
30、rain=MG1655 /db_xref=taxon:562 promoter 71.99 /note=factor Sigma70; predicted +1 start at 106 promoter 104.132 /note=factor Sigma70; predicted +1 start at 139 promoter 188.212 /note=factor Sigma32; predicted +1 start at 219 gene 190.255 /note=b0001 /gene=thrL CDS 190.255 /gene=thrL /function=leader;
31、 Amino acid biosynthesis: Threonine /note=o21; 100 pct identical to LPT_ECOLI SW: P03059 /codon_start=1 /transl_table=11 /product=thr operon leader peptide /db_xref=PID:g1786182 /translation=MKRISTTITTTITITTGNGAG “ BASE COUNT 1142136 a 1179433 c 1176775 g 1140877 t,ORIGIN 1 agcttttcat tctgactgca acg
32、ggcaata tgtctctgtg tggattaaaa aaagagtgtc 61 tgatagcagc ttctgaactg gttacctgcc gtgagtaaat taaaatttta ttgacttagg 121 tcactaaata ctttaaccaa tataggcata gcgcacagac agataaaaat tacagagtac 181 acaacatcca tgaaacgcat tagcaccacc attaccacca ccatcaccat taccacaggt 241 aacggtgcgg gctgacgcgt acaggaaaca cagaaaaaag cc
33、cgcacctg acagtgcggg 301 cttttttttt cgaccaaagg taacgaggta acaaccatgc gagtgttgaa gttcggcggt 361 acatcagtgg caaatgcaga acgttttctg cgtgttgccg atattctgga aagcaatgcc 421 aggcaggggc aggtggccac cgtcctctct gcccccgcca aaatcaccaa ccacctggtg 4639021 caacatcaac tgcaagcttt acgcgaacga gccatgacat tgctgacgac tctggca
34、gtg 4639081 gcagatgaca taaaactggt cgactggtta caacaacgcc tggggctttt agagcaacga 4639141 gacacggcaa tgttgcaccg tttgctgcat gatattgaaa aaaatatcac caaataaaaa 4639201 acgccttagt aagtattttt c/,ID U00096 standard; circular genomic DNA; CON; 4639221 BP.AC U00096;SV U00096.1DT 24-JUL-2003 (Rel. 76, Last update
35、d, Version 3)DE Escherichia coli K-12 MG1655 complete genome.KW .OS Escherichia coli K12OC Bacteria; Proteobacteria; Gammaproteobacteria; Enterobacteriales;OC Enterobacteriaceae; Escherichia; Escherichia coli.RN 1RP 1-4639221RX MEDLINE; 97426617.RX PUBMED; 9278503.RA Blattner F.R., Plunkett G. III,
36、Bloch C.A., Perna N.T., Burland V.,RT The complete genome sequence of Escherichia coli K-12;RL Science 277(5331):1453-1474(1997).DR GOA; O32528.DR REMTREMBL; AAC74436; AAC74436.DR SPTREMBL; O32530; O32530.DR SWISS-PROT; O32528; YPDI_ECOLI. ,CC This sequence was determined by the E. coli Genome Proje
37、ct at theCC University of Wisconsin-Madison (Frederick R. Blattner, director).CC Supported by NIH grants HG00301 and HG01428 (from the Human GenomeCC Project and NCHGR). The entire sequence was independentlyCC determined from E. coli K-12 strain MG1655. Predicted open readingCC frames were determine
38、d using GeneMark software, kindly supplied byFH Key Location/QualifiersFT source 1.4639221FT /db_xref=taxon:83333FT /mol_type=genomic DNAFT /organism=Escherichia coli K12FT /strain=K12FT /sub_strain=MG1655FT promoter 71.99FT /note=factor Sigma70; predicted +1 start at 106FT CDS 190.255FT /codon_star
39、t=1FT /db_xref=GOA:P03059FT /db_xref=SWISS-PROT:P03059FT /note=o21; 100 pct identical to LPT_ECOLI SW: P03059FT /transl_table=11FT /gene=thrLFT /function=leader; Amino acid biosynthesis: ThreonineFT /product=thr operon leader peptideFT /protein_id=AAC73112.1FT /translation=MKRISTTITTTITITTGNGAG“,SQ
40、Sequence 4639221 BP; 1142136 A; 1179433 C; 1176775 G; 1140877 T; 0 other; agcttttcat tctgactgca acgggcaata tgtctctgtg tggattaaaa aaagagtgtc 60 tgatagcagc ttctgaactg gttacctgcc gtgagtaaat taaaatttta ttgacttagg 120 tcactaaata ctttaaccaa tataggcata gcgcacagac agataaaaat tacagagtac 180 acaacatcca tgaaac
41、gcat tagcaccacc attaccacca ccatcaccat taccacaggt 240 aacggtgcgg gctgacgcgt acaggaaaca cagaaaaaag cccgcacctg acagtgcggg 300 cttttttttt cgaccaaagg taacgaggta acaaccatgc gagtgttgaa gttcggcggt 360 acatcagtgg caaatgcaga acgttttctg cgtgttgccg atattctgga aagcaatgcc 420 aggcaggggc aggtggccac cgtcctctct gccc
42、ccgcca aaatcaccaa ccacctggtg 480 gcgatgattg aaaaaaccat tagcggccag gatgctttac ccaatatcag cgatgccgaa 540 tattgctatc aattagcaac attaatacaa caaccggcga aaagtgatgc aacggcagac 4639020 caacatcaac tgcaagcttt acgcgaacga gccatgacat tgctgacgac tctggcagtg 4639080 gcagatgaca taaaactggt cgactggtta caacaacgcc tgggg
43、ctttt agagcaacga 4639140 gacacggcaa tgttgcaccg tttgctgcat gatattgaaa aaaatatcac caaataaaaa 4639200 acgccttagt aagtattttt c 4639221/,EMBL和GenBank数据库的行识别标志比较,3.1.5 如何获得序列数据,LocusLink 基因和蛋白质信息的概括性资源【NCBI】 RefSeq 最稳定、最被承认的基因和蛋白质的序列【NCBI】 UniGene 给出基因序列、以及图谱信息、同源基因、表达信息【NCBI】 Entrez 用于提取序列信息,很好的查询、提取和显示系
44、统【NCBI】 Ensemble 与Entrez同样功能的系统【EBI】 ExPASy 用于获取蛋白质及其相关数据【 SIB】(Swiss Institute of Bioinformatics ) Every road leads to Rome!,获得DNA和蛋白质序列的几种途径,例子:E. coli K-12基因组,以使用Entrez进行查询为例,查询Escherichia coli K12基因组的信息:,DNA polymerase II,3.2生物信息学的基本问题,后基因组时代的生物信息学 重大转变:从基因组测序转向对基因组表达的分析,转向对蛋白质组结构与功能的预测,转向用系统生物信
45、息学观点研究生物调控的基本规律 系统复杂性的体现:无论是基因的表达还是蛋白质的功能,在很多情况下,都是多个基因、多种蛋白质相互作用的结果 学科发展趋势:数学、物理、计算科学、系统科学、控制科学、信息科学与生物学的综合应用,核心与源头:基因组信息学 “读懂”基因组的核苷酸顺序,即全部基因在染色体上的确切位置以及各DNA片段的功能 在发现了新基因信息之后进行蛋白质空间结构模拟和预测 依据特定蛋白质的功能进行药物设计 了解基因表达的调控机理,根据生物分子在基因调控中的作用,描述人类疾病的诊断、治疗内在规律,3.2.1 基因与基因组学,基因与基因组数据:以核酸序列、蛋白质序列为主(一维数字序列) 目的
46、:解读遗传语言的奥秘 当前关注较多的工作: 编码区(coding regions) 部分调控序列(regulatory regions) 绝大部分的非编码区:未知?,大规模测序的每一个环节都与数据分析紧密相关 过程复杂、工作量大 有效的数据分析算法与软件,A) 大规模测序中的数据分析,大规模测序及数据分析过程,大规模测序数据分析的关键问题 序列拼接(Assemble) 填补序列间隙 举例: Phrap软件(Green & Ewing, 1998) (http:/www.genome.washington.edu/UTGC/analysistools/phrap.htm) GigAssemble
47、r软件(Kent & Haussler, 2000) 将测序得到的原始序列拼接成片段重叠群(contig),并进一步拼接成更大的contig。 核心算法问题:优化算法,如动态规划算法、贪婪算法(greedy algorithm),通过计算分析从EST数据库发现新基因 EST(Expressed Sequence Tags):基因表达的短cDNA序列,从DNA序列计算预测基因编码区 三种方法的综合: 1、从mRNA和EST得到直接的证据; 2、从已知基因和蛋白的序列同源性得到间接证据; 3、结合各种统计性质的从头预测(ab initio prediction)方法。 HMM方法 语言学方法 人工
48、神经网络、模式识别方法 ,B) 新基因的发现,非编码区占人类基因组的95%以上,其生物学意义目前尚不是很清楚;(“Junk” DNA?)一般认为,它们的生物学功能可能体现在对基因表达的时空调控上 ;非编码区信息解读的途径: (1)基于已有的已经为实验证实的所有功能已知的DNA元件的序列特征,预测非编码区中可能含有的功能已知的DNA元件,从而预测其可能的生物学功能,并通过实验进行验证;(2)通过理论直接探索非蛋白编码区的新的未知的序列特征,并从理论上预测其可能的信息含义,最后同样通过实验验证。,C) 非编码区的信息解读,生命的本质: 生命现象是基因组中所有功能单元相互作用共同制造出来的。(复杂网
49、络系统、复杂现象) 基于基因芯片的数据挖掘: 基因芯片(gene chip / DNA microarray)技术:可以监测基因组在各种时间断面上的整体转录表达状况,因此成为一项非常重要和关键的实验技术; 对该技术所产生的大量实验数据进行高效分析,从中获得基因组运转以及调控的整体系统的机制或者是网络机制,是生物信息学在该领域中首先要解决的问题。 探针设计的优化算法 基因芯片的信息管理 数据挖掘算法 基因转录调控网络分析方法 ,D) 基因组整体功能及其调控网络的系统把握,E) 基因组演化与物种演化,基因组整体组织方式的演化: 基因组整体组织方式在研究物种演化历史中起着重要作用而不仅仅是个别基因起
50、作用。基因组是物种所有遗传信息的储藏库,从根本上决定着物种个体的发育和生理。 因此,从基因组整体结构组织和整体功能调节网络方面,结合相应的生理表征现象,进行基因组整体的演化研究,将是揭示物种真实演化历史的最佳途径; 发展比较基因组学的新方法、新算法。,当前分子进化研究的局限: 尽管已经在分子演化方面取得了许多重要的成就,但仅仅依靠某些基因或者分子的演化现象,就想阐明物种整体的演化历史似乎不太可靠。 例:人与黑猩猩之间有98%99%的结构基因和蛋白质相同,但表型上却差异巨大。 Building block、复杂系统,3.2.2 蛋白质组(proteome),基因芯片技术,基因组,RNA,蛋白质,