生物信息学幻灯讲义课件.ppt

资源描述

《生物信息学幻灯讲义课件.ppt》由会员分享，可在线阅读，更多相关《生物信息学幻灯讲义课件.ppt（109页珍藏版）》请在三一办公上搜索。

1、Bioinformatics,生物信息学,授课教师:贾小平单位:河南科技大学农学院,第一章：绪论,第一节生物信息学及其发展历史第二节生物信息学主要研究内容第三节生物信息学的基本方法和技术第四节生物信息学应用与展望,生物信息学是一门新兴的交叉学科，它将数学和计算机知识应用于生物学，以获取、加工、存储、分类、检索与分析生物大分子的信息，从而理解这些信息的生物学意义。,生物信息学的概念：,生物信息学的概念：,“Bioinformatics is the science of using information to understand biology.Its the discipli

2、ne of obtaining information about genomic or protein sequence data.This may involve similarity searches of databases,comparing your unidentified sequence to the sequences in a database,or making predictions about the sequence based on current knowledge of similar sequences.”Claverie（2000）,生物信息学的诞生：,

3、生物信息膨胀,生物信息学发展史,(1)萌芽期(60-70年代)序列比较(2)形成期(80年代)分子数据库和BLAST等相似性搜索程序(3)高速发展期(90年代-至今)基因组测序与分析,1962 Pauling提出分子进化理论 1967 Dayhoff构建蛋白质序列数据库 1970 Needleman-Wunsch算法被提出 1977 Staden利用计算机软件分析DNA序列 1981 Smith-Waterman算法出现 1981 序列模序(motif)的概念被提出(Doolittle)1982 GenBank数据库(Release3)公开；EMBL创立 1982-噬菌体基因组被测序1983

4、Wilbur和Lipman提出序列数据库的搜索算法(Wilber-Lipman算法)1985 快速序列相似性搜索程度FASTP/FASTN发布 1988 美国家生物技术信息中心(NCBI)创立 1988 欧洲分子生物学网络EMBnet创立；三大核酸数据库(GenBank、EMBL和DDBJ)开始国际合作,1990 快速序列相似性搜索程序BLAST发布 1991 表达序列标签(EST)概念被提出，从此开创EST测序 1993 英国Sanger中心在英国休斯顿建立 1994 欧洲生物信息学研究所在英国Hinxton成立 1995 第一个细菌基因组测序完成 1996 酶母基因组测序完成 1997 P

5、SI-BLAST(BLAST系列程序之一)发布 1998 PhilGreen等人研制的自动测序组装系统Phred-Phrap-Consed系统正式发布1998 多细胞线虫基因组测序完成 1999 果蝇基因组测序完成 2000 人类基因组测序基本完成 2001 人类基因组初步分析结果公布,生物信息学研究内容,建立和管理各种生物数据库生物信息数据库使用生物信息学中的数学模式和方法研究数据库接口和检索工具的研制HGP的实施，对信息采集和处理提出的要求从大量数据中提取新知识DNA芯片和微阵列的发展,生物信息学基本方法和技术,建立生物数据库各种公共数据库本地化数据库数据库检索各种数据检索工具的开发和使

6、用Entrez检索体系 BLAST检索体系,生物大分子序列分析Homologous sequence analysis（同源序列分析）Multiple sequence alignment 多序列比对 Evolution analysis（进化分析）Phylogenetic prediction（系统发育分析）进化方式分析进化位点分析基因组分析序列拼接序列注释,基因功能、结构分析蛋白质功能、结构分析蛋白质三维结构预测蛋白质修饰 Electron PCR统计模型Hidden Markov model（HMM，隐马尔可夫模型）基因识别和药物设计 Maximum likelihood mod

7、el（最大似然模型）序列进化分析,数学算法自动序列拼接外显子预测同源序列比较,生物信息学应用与展望,基础研究和教学分子生物学研究的重要手段之一生命科学的教学药物开发新药筛选药靶设计分子药理学研究,疾病诊断利用疑难病症的病原DNA序列诊断疾病遗传病其他环境监测食品安全检测海关检测,展望用于序列分类、相似性搜索、DNA序列编码区识别、分子结构与功能预测、进化过程的构建等方面的计算工具已成为研究工作的重要组成部分生物信息学研究的一个核心问题是数据库的开发数据的共享性和应用性非常重要在我国，生物信息学随着人类和水稻等基因组研究的展开已显露出蓬勃发展的势头。生物信息学作为基因研究的有力武

8、器，被广泛用于新基因的发现，以达到将有用新基因抢先注册专利的目的。在这场抢基因的国际竞争中，如何结合我国科研、开发状况，重点投入以求得局部优势和商业回报，是中国科学家和相关部门必须面对的新课题。,第二章:生物信息学数据库,第一节模式生物第二节生物数据库,human,Arabidopsis拟南芥,Thermotoga maritima,Escherichia coli大肠杆菌,Buchnerasp.APS,Rickettsia prowazekii,Ureaplasma urealyticum,Bacillus subtilis,Drosophila melanogaster,Thermop

9、lasma acidophilum,Plasmodium falciparum,Helicobacter pylori,mouse,Caenorhabitis elegans,rat,Borrelia burgorferi,Borrelia burgorferi,Aquifex aeolicus,Neisseria meningitidis Z2491,Mycobacterium tuberculosis,常见的模式生物,人类基因组，模式生物基因组计划,1、人类基因组计划与曼哈顿原子计划、阿波罗登月计划并称的人类科学史上的重大工程。于1990年首先在美国启动，后有德、日、英、法、中等国的

10、科学家先后正式加入。,60年代初，美国总统Kennedy提出两个科学计划：登月计划攻克肿瘤计划人类遗传信息的复杂性,人类基因组计划(HGP，Human Genome Project)目标：整体上破解人类遗传信息的奥秘,为什么提出HGP？,HGP的历史回顾,1984.12 犹他州阿尔塔组织会议，初步研讨测定人类整个基因组DNA序列的意义1985 Dulbecco在Science撰文“肿瘤研究的转折点:人类基因组的测序”美国能源部(DOE)提出“人类基因组计划”草案1987 美国能源部和国家卫生研究院（NIH）联合为“人类基因组计划”下拨启动经费约550万美元1989 美国成立“国家人类基

11、因组研究中心”，Watson担任第一任主任1990.10 经美国国会批准，人类基因组计划正式启动,James Watson,Walter Gilbert,第一个自由生物体流感嗜血菌(H.inf)的全基因组测序完成1996 完成人类基因组计划的遗传作图启动模式生物基因组计划,H.inf全基因组,Saccharomyces cerevisiae酿酒酵母,Caenorhabditis elegans秀丽线虫,1997 大肠杆菌(E.coli)全基因组测序完成1998 完成人类基因组计划的物理作图开始人类基因组的大规模测序 Celera公司加入，与公共领域竞争启动水稻基因组计划1999.7 第

12、5届国际公共领域人类基因组测序会议，加快测序速度,大肠杆菌及其全基因组,水稻基因组计划,2001年2月15日Nature封面,2001年2月16日Science封面,At the White House on June 26,Francis Collins(r),Director of the National Human Genome Research Institute,President Clinton,and J.Craig Venter,President of Celara Genomics,lauded the thousands of scientists who contri

13、buted to the genome sequence.,1999.7 第5届国际公共领域人类基因组测序会议，加快测序速度2000 Celera公司宣布完成果蝇基因组测序国际公共领域宣布完成第一个植物基因组拟南芥全基因组的测序工作2000.6.26 公共领域和Celera公司同时宣布完成人类基因组工作草图2001.2.15 Nature刊文发表国际公共领域结果2001.2.16 Science刊文发表Celera公司及其合作者结果2003年，6国科学家宣布人类基因组序列图绘制成功，HGP的所有目标全部实现。,Drosophila melanogaster果蝇,Arabidopsis th

14、aliana拟南芥,HGP的最初目标通过国际合作，用15年时间(19902005)至少投入30亿美元，构建详细的人类基因组遗传图和物理图，确定人类DNA的全部核苷酸序列，定位约10万基因，并对其它生物进行类似研究。4张图：HGP的终极目标阐明人类基因组全部DNA序列；识别基因；建立储存这些信息的数据库；开发数据分析工具；研究HGP实施所带来的伦理、法律和社会问题。,遗传图,物理图,序列图,转录图,Homo sapiens 智人,蛋白质编码基因数在2.7万至4万之间（但最新的估计在6.5万至7.5万之间）,2、模式生物基因组计划酵母、线虫、果蝇、细菌、水稻等共约50多种已完成,已经完成全序列测

15、定的基因组,http:/www.ebi.ac.uk/genomes/,viruses,plasmids,bacteria,fungi,plants,algae,insects,mollusks,reptiles,birds,mammals,Genome sizes in nucleotide pairs(base-pairs),104,108,105,106,107,1011,1010,109,The size of the humangenome is 3 X 109 bp;almost all of its complexityis in single-copy DNA.The human

16、 genome is thoughtto contain 30,000 to 40,000 genes.,bony fish,amphibians,噬菌体（Bacteriophage）寄生于细菌内的病毒如：大肠杆菌噬菌体(coliphages)遗传物质：单链/双链、环状/线状、DNA/RNA,模式生物(Model Organism),模式生物(Model Organism),病毒（Virus）不具有细胞形态结构，仅由核酸和蛋白质构成；如：人艾滋病毒HIV、SARS冠状病毒体积小，10300nm；严格的专性细胞内寄生；对抗生素不敏感。,电子显微镜下的SARS冠状病毒,100nm,Escher

17、ichia coli（大肠杆菌）,大肠杆菌是研究得最为详尽的一个模式生物。这种只有1.6微米长的、可以迅速繁殖的单细胞原核生物，已经成为实验室和基因工程的重要工具。,Escherichia coli O157:H7,Escherichia coli K12,模式生物(Model Organism),Saccharomyces cerevisiae（酿酒酵母）,真菌界的单细胞真核生物，有16个染色体。它的全基因组已在1996年测定。,模式生物(Model Organism),秀丽线虫（Caenorhabditis elegans）,细胞数目一定：成虫细胞数目只有959个，其中包括302个神经元有

18、6条染色体，全基因组于1998年测定，长9.7Mb,模式生物(Model Organism),Drosophila melanogaster（果蝇）,繁殖很快、容易诱发变异的小昆虫。总长达1.8亿核苷酸。,模式生物(Model Organism),Arabidopsis thaliana（拟南芥）,个体生活周期只有6周的十字花科小草，是一种理想的模式植物。,模式生物(Model Organism),模式生物(Model Organism),非洲瓜蟾（Xenopus lavias）1个受精卵在24小时内分裂到各种器官初具雏形的程度；,模式生物(Model Organism),斑马鱼（Danio

19、rerio）身体透明的小鱼，生活周期约3个月，是研究脊椎动物发育过程的良好对象。,模式生物(Model Organism),小鼠（Mus musculus）基因组大小与人类相近，约30亿个核苷酸对，有19条染色体；,生物信息数据库,基因和基因组数据库 GenBank美国国家生物技术信息中心(National Center for Biotechnology Information,NCBI)建立可与EMBL、DDBJ合作交换数据包含了所有已知的核酸序列和蛋白质序列，以及与它们相关的文献著作和生物学注释www.ncbi.nlm.nih.gov/Genbank/GenbankSearch.htm

20、l(登陆网址),EMBL核酸序列数据库由欧洲生物信息学研究所(EBI)维护的核酸序列数据构成可与GenBank、DDBJ合作交换数据登陆网址：http:/www.ebi.ac.uk/embl/DDBJ数据库日本DNA数据仓库全面的核酸序列数据库，与Genbank和EMBL核酸库合作交换数据登陆网址：http:/www.ddbj.nig.ac.jp/,GenBank,PublicfreeAvailableviaInternet,EMBL Data Library,DDBJ(DNA Data Bank of Japan),三大DNA数据库之间的关系,基因组数据库（GDB）人类基因组图谱数据包括人类

21、基因组区域（基因、克隆、EST、遗传标记等）、人类基因组图谱、人类基因组变异网址：http:/www.gdb.org http:/,部分生物基因组计划网址生物种类 Organism 网址(Address)曲霉菌 Aspergillus http:/www.ncbi.nlm.nih.gov/genome/guide/aspergillus 蜜蜂 Bee http:/www.ncbi.nlm.nih.gov/genome/guide/bee 猫 Cat http:/www.ncbi.nlm.nih.gov/genome/guide/cat 青蛙 Frog http:/www.ncbi.nlm.n

22、ih.gov/genome/guide/frog 老鼠 Mouse http:/www.ncbi.nlm.nih.gov/genome/guide/mouse 小鼠 Rat http:/www.ncbi.nlm.nih.gov/genome/guide/rat/index.html 狗 Dog http:/www.ncbi.nlm.nih.gov/genome/guide/dog 牛 Cow http:/www.ncbi.nlm.nih.gov/genome/guide/cow 猪 Pig http:/www.ncbi.nlm.nih.gov/genome/guide/pig 羊 Sheep

23、http:/www.ncbi.nlm.nih.gov/genome/guide/sheep鸡 Chicken http:/www.ncbi.nlm.nih.gov/genome/guide/chicken斑马鱼 Zebra fish http:/www.ncbi.nlm.nih.gov/genome/guide/zebrafish/index.html,海胆 Sea urchin http:/www.ncbi.nlm.nih.gov/genome/guide/sea_urchin 线虫 Caenorhabditis elegans http:/www.ncbi.nlm.nih.gov/geno

24、me/guide/nematode Dictyostelium discoideum http:/www.ncbi.nlm.nih.gov/genome/guide/dicty 蚊子 Mosquito http:/www.ncbi.nlm.nih.gov/mapview/map_search.cgi?果蝇 Drosophila http:/www.ncbi.nlm.nih.gov/genome/guide/fly 黑猩猩 Chimp http:/www.ncbi.nlm.nih.gov/genome/guide/chimp 人 Human http:/www.ncbi.nlm.nih.gov/

25、genome/guide/human 拟南芥 Arabidopsis http:/www.ncbi.nlm.nih.gov/mapview/map_search.cgi?taxi棉花 Cotton http:/algodon.tamu.edu 玉米 Maize http:/www.ncbi.nlm.nih.gov/mapview/map_search.cgi?taxid=4577水稻 Rice http:/www.ncbi.nlm.nih.gov/mapview/map_search.cgi?taxid=4530小麦 Wheat http:/www.ncbi.nlm.nih.gov/mapvi

26、ew/map_search.cgi?taxid=4565大麦 Barley http:/www.ncbi.nlm.nih.gov/mapview/map_search.cgi?taxid=4513大豆 Soybean http:/www.ncbi.nlm.nih.gov/mapview/map_search.cgi?taxid=3847 西红柿 Tomato http:/www.ncbi.nlm.nih.gov/mapview/map_search.cgi?taxid=4081 高粱 Sorghum http:/www.ncbi.nlm.nih.gov/mapview/map_search.c

27、gi?taxid=4557,完成测序的生物基因组信息查询,基因组测序进展状况查询,（EBI的Genome MOT主页）,蛋白质数据库,SWISS-PROT由日内瓦大学医学生物化学系和欧洲生物信息学研究所(EBI)合作维护包括了从EMBL翻译而来的蛋白质序列，这些序列经过检验和注释尽可能减少了冗余，与其它30多个数据库建立交叉引用登陆网址：http:/www.ebi.ac.uk/swissprot/,PIR（http:/pir.georgetown.edu/）由美国家生物技术信息中心(NCBI)翻译自GenBank的DNA序列PIR根据注释程度(质量)分为4个等级分类名称说明记录数(Na

28、me)（Comment）(Number of entries)PIR1 分类并注释(Classified and 20685 annotated)PIR2 注释(Annotated)262300 PIR3 未核实(Unverified)24 PIR4 未翻译(Unencoded or 407 untranslated),PROSITE蛋白质位点和序列模式库鉴定蛋白质归属，发现隐含功能域，有效分析序列登陆网址：http:/www.expasy.ch/prosite/PDB蛋白质结构数据库来源于X光晶体衍射和核磁共振数据登陆网址：http:/www.rcsb.org/pdb,SCOP(Struct

29、ural classification of proteins)可以比较某一蛋白质与已知结构蛋白的结构相似性对已知结构蛋白质进行等级分类登陆网址：http:/scop.mrc-lmb.cam.ac.uk/scop,功能数据库,KEGG系统分析基因功能，联系基因组信息和功能信息GENES数据库存储基因组信息，功能信息存储在PATHWAY数据库登陆网址：http:/www.genome.ad.jp/kegg/,DIP蛋白质相互作用数据库包括蛋白质信息、相互作用信息、检测实验技术可以根据蛋白质、物种、关键词、引用文献来查询数据库登陆网址：http:/dip.doe-mbi.ucla.edu/,TRR

30、D转录调控区数据库包括转录因子结合位点、启动子、增强子及基因表达调控模式包含5个数据表：TRRDGENES：包含基因信息和调控单元信息 TRRDSITES：包含调控因子结合位点信息 TRRDFACTORS：包含与各位点结合的调控因子信息 TRRDEXP：包含基因表达模式描述 TRRDBIB：包含所有参考文献登陆网址：http:/wwwmgs.bionet.nsc.ru/mgs/dbases/trrd4/,TRANSFAC转录因子及其结合位点数据库由SITE、GENE、FACTOR、CLASS、MATRIX、CELLS、METHOD、REFERENCE等数据表构成有四个扩展库 PATHODB：导

31、致病态突变转录因子和结合位点 S/MARTDB：染色体结构变化相关蛋白因子及结合位点 TRANSPATH：与转录因子相关信号传递网 CYTOMER：人类转录因子时空表达情况登陆网址：http:/transfac.gbf.de/TRANSFAC/,其它数据库资源 DBCat生物信息数据库的目录数据库收集了500多个数据库的信息根据用途对这些数据库进行了分类登陆网址:http:/www.infobiogen.fr/services/dbcat/下载地址:ftp:/ftp.infobiogen.fr/pub/db/dbcat/,PubMedNCBI维护的文献引用数据库提供对MEDLINE、Pre-M

32、EDLINE等文献数据库的引用查询对大量网络电子期刊的链接登陆网址：http:/www.ncbi.nlm.nih.gov/,生物信息数据库记录格式,数据库记录（entry）组成原始序列数据描述数据生物信息的注释（annotation）注释与序列数据同等重要不同数据库注释质量不同,EMBL数据库记录格式,EMBL数据库记录注释代码和内容说明代码(Code)全称(Full meaning)说明(Comments)ID identifier（身份号）该行的第一项内容是该数据库记录的名称，该名称是唯一的，是由 EMBL数据库给定的。其它内容注明了该记录的一些状况(如是否已经被核实本例中为

33、已核实，即standard；记录的碱基数等)。AC accession 每个记录号均是唯一的，并从不更改，number（记录号）是由GenBank给定的。如果两个记录被合并成一个记录，原始上的2个记录号均会被注明。DT data（日期）2个日期被注出，一个是该数据第一次被记录时间，另一个是最后一次的时间。DE description（描述）对该基因的文字描述 KW keywords（关键词）描述该基因的关键词 OS organism(species)物种名称（物种）,OC organism(classification)（分类）物种的一个简单分类，该分类并不一定定准确，应谨慎从事

34、。OG Organelle（细胞器）该基因是否在某一个特殊的细胞器中RN reference number（文献编号）RC reference comment（文献说明）RP reference positions（文献大小）与该记录研究相关的文献信息 RX cross-reference（相关文献）RA reference authors（文献作者）RT reference title（文献题目）RL reference location（文献出处）DR database cross-reference（相关文献数据库）见文中说明 FH feature header（主表头）该记录主要内容列

35、表表头 FT feature table data（主表数据）见文中说明 CC comments（说明）对记录的文字说明 XX spacer line（空白行）SQ sequence header（序列头）有关该序列大小和组成的信息 Blank sequence data（空白）/termination line（终止行）一个记录的终止符号,GENEBANK数据库记录格式,GENEBANK数据库记录注释代码和内容说明,LOCUS 原指描述本记录的基因座位，现在没有实际意义,DEFINITION 说明序列来源,ACCESSION 检索号，是从数据库中检索一个记录的主要关键词，这个号码将在参考文献

36、中被引用,KEYWORDS 关键词，作用不大，NCBI不鼓励使用,SOURCE 包含生物的通用名或科学名称,ORGANISM 生物的分类信息,REFERENCE 参考文献部分，每个GenBank记录至少要有一篇参考文献，许多情况下有两篇或多篇。,FEATURES 该记录的特征说明部分，包括序列来源、序列特性描述,Gene 基因名称及长度范围,CDS 存在的或者潜在的编码区,Source 序列详细来源信息,GENEBANK中必须出现,/translation=编码序列的翻译产物 ORIGIN 序列开始/结束符号,数据库信息检索系统Entrez(美国NCBI建立)http:/www.ncbi.nl

37、m.nih.gov/entrez基于Web界面在线检索工具可检索核酸、蛋白质序列、基因组图谱等多种数据SRS(Sequence retrieval System)(欧洲分子生物学实验室建立)http:/可应用于大量不同的数据库序列一般可通过记录号(如来自1篇发表的论文)或是该序列注释中的一些信息进行检索,Entrez检索步骤,1.进入entrez,2.选择数据库,3.查询关键词,4.开始查询,各类数据库的介绍,Entrez检索步骤,显示格式,每页显示数目,检索到的记录数,检索到条目，点击进入,点击可以将结果保存到文件,Entrez检索步骤,Genbank格式的序列记录,Entrez 特点,使用

38、十分方便，它把序列、结构、文献、基因组、系统分类等不同类型的数据库有机的结合在一起，通过超文本链接，用户可以从一个数据库直接转入另外一个数据库把数据库和应用程序结合在一起。例如，通过“Related sequence”工具，可以直接找到与查询所得蛋白质序列同源的其它蛋白质。在查询文献数据库摘要得到结果后，可以通过点击“Related Articles”继续查找相关文献。,SRS检索步骤,标准查找,扩展查找,展开所有数据库,快速查找,选取数据库,输入查询词,SRS的特点,统一的用户界面 SRS具有为统一的Web用户界面，用户只需安装Netscape等网络浏览器即可通过Internet查询世界各地

39、SRS服务器上的300多个数据库。SRS支持以文本文件形式存放的各种数据库，包括序列数据库EMBL、结构数据库PDB，资料数据库AAIndex、文献数据库MedLine等。高效的查询功能SRS系统采用了建立数据库索引文件的手段，即使是含几百万个序列的EMBL数据库，只需几分钟即可实现整库查询，得到所需结果。,灵活的指针链接通过超文本指针链接实现信息资源的有机联系，是目前Internet信息服务的主要趋势。SRS采用实时方式，根据查询结果产生链接指针，而不是在原始数据库中增加超文本标记，既节省了存储空间，也便于数据库管理。方便的程序接口将序列分析等常用程序整合到基本查询系统中，是SRS的另一

40、个重要特点。用户可以对查询结果直接进行进一步分析处理。例如，查询所得的蛋白质序列，可立即用BLAST和FASTA查询程序进行数据库搜索，找出其同源序列用ClustalW程序进行多序列比较。,向数据库提交序列数据许多学术期刊在发表含有序列数据的论文时，均要求作者先将该序列发送并存贮到某一数据库中提交系统向GenBank提交序列BankItSequin http:/www.ncbi.nlm.nih.gov/BankIthttp:/www.ncbi.nlm.nih.gov/Sequin/index.html,http:/www.ncbi.nlm.nih.gov/Genbank/index.html,

41、Authors,Sequin,BankIt,Sequence data,GenBank,Accession number,2 days,Draftrecord,GenBank提交序列示意图,在线提交序列（BankIt）,BankIt是NCBI提供的一个在线提交序列的工具。由一系列表单，包括联络信息、发布要求、引用参考信息、序列来源信息、以及序列本身的信息等。用户提交序列后，会从电子邮件收到自动生成的数据条目，Genbank的新序列编号，以及完成注释后的完整的数据记录。,用户还可以在BankIt页面下修改已经发布序列的信息。BankIt适合于独立测序工作者提交少量序列，而不适合大量序列的提交，也

42、不适合提交很长的序列，EST序列和GSS序列也不应用BankIt提交。,在线提交序列步骤,1.登陆BankIt页面 http:/www.ncbi.nlm.nih.gov/BankIt2.填写表单内容。3.确认表单内容。4.等待电子邮件返回信息。,输入网址登陆,BankIt页面:提交工具选择,BankIt提交过程,BankIt页面:提交政策,BankIt提交过程,BankIt页面:在线提交,1、输入提交序列大小,2、点击进入列表页,更新序列,BankIt提交过程,表单内容项,BankIt提交过程,提交生成ID号,总提交信息:多重提交信息,总提交信息:联系方式,BankIt提交过程,总提交信息:序

43、列公开时间,总提交信息:是否为原创数据,BankIt提交过程,文献信息:序列作者,BankIt提交过程,文献信息:第一引用文献,BankIt提交过程,文献信息:第二引用文献,BankIt提交过程,来源信息:来源生物,BankIt提交过程,来源信息:来源改造物,来源信息:引物信息,BankIt提交过程,来源信息:其它来源描述,BankIt提交过程,DNA序列的输入,BankIt提交过程,其他信息,1、补充说明,2、保存信息,3、点击确认继续,BankIt提交过程,加入序列特征说明,BankIt 浏览页,BankIt提交过程,修改内容,点击提交,GenBank 生成的记录,BankIt提交过程,完

44、成提交,序列提交工具（sequin）,大量的序列提交可提交来自系统进化、种群和突变研究的序列，可以加入比对的数据可以用于序列的分析Sequin软件下载:ftp:/ftp.ncbi.nih.gov/sequin/使用说明:http:/www.ncbi.nlm.nih.gov/Sequin/QuickGuide/sequin.htm,向EMBL提交数据,在线WEBIN工具 http:/www.ebi.ac.uk/embl/Submission/webin.htmlSequin软件,以前提交过数据,新用户提交,WEBIN提交页面,TPA提交,下一步序列信息描述,WEBIN提交页面,数据库的冗余与偏差

45、冗余数据导致的错误如果包含了大量非常相关序列族，相应的统计分析将偏向这些族，使这些族的特性被夸大序列间不同部分的显著相关可能是在数据样本抽样时是有偏的和不正确的如果这些数据是被用于预测，则这些序列将使预测方法如人工智能方法发生偏离,去除冗余可能产生的问题过于苛刻地去除“太过于相似的序列”可能导致一些有价值的信息被删除,如同一位点上的2个等位基因、同一生物体内的2个同功酶解决方法应在数据规模和非冗余之间找到一个合理的平衡点从数据库随机选取数据随机进行同源分析，从各同源组选取一个样本组合成代表性样本,序列数据偏差产生原因载体序列污染异源(heterologous)序列污染序列的重排和缺失重复序列

46、污染测序误差和自然多态性：测序过程存在一定的误差概率解决方法用去除污染的专门软件系统扫描目的数据去除载体污染在线服务：http:/www.ebi.ac.uk/blastall/vectors.html 特殊序列数据库：EMVEC,获取数据库服务的途径E-mail服务发服务指令到EBI的mail to：netserv.ebi.ac.uk地址，想获得记录号为X55652的DNA序列，在指令栏中键入“GET NUC：X55652”，这样EBI服务器便会将该序列的信息发到你的信箱中匿名FTP服务可利用本地的FTP(file transfer protocol)程序连接到相应的数据库主机上，以“anonymous”(匿名)为用户名和自己的E-mail地址为口令进入www服务通过网络直接进入相关数据库网址，进行数据检索、数据传送等,

展开阅读全文