《总结课程》PPT课件.ppt

上传人:牧羊曲112 文档编号:5510603 上传时间:2023-07-15 格式:PPT 页数:51 大小:1.75MB
返回 下载 相关 举报
《总结课程》PPT课件.ppt_第1页
第1页 / 共51页
《总结课程》PPT课件.ppt_第2页
第2页 / 共51页
《总结课程》PPT课件.ppt_第3页
第3页 / 共51页
《总结课程》PPT课件.ppt_第4页
第4页 / 共51页
《总结课程》PPT课件.ppt_第5页
第5页 / 共51页
点击查看更多>>
资源描述

《《总结课程》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《总结课程》PPT课件.ppt(51页珍藏版)》请在三一办公上搜索。

1、生物信息学 复习重点,生物信息学概念,生物信息学第一讲,生物信息学从事对基因组研究相关生物信息的获取、加工、储存、分配、分析和解释。,一是对海量数据的收集、整理与服务,也就是管好这些数据。另一个是从中发现新的规律,也就是用好这些数据。,生物信息学数据库,生物信息学第二讲,生物信息学数据库,序列数据库,结构数据库,基因组数据库,一次数据库,DNA序列,蛋白质序列,蛋白质结构,人类基因组以及其它生物基因组,生物信息学数据库,序列数据库,结构数据库,基因组数据库,二次数据库,文献数据库,生物信息学数据库,专家,序列数据库,DNA数据库,DDBJ,GenBank,EMBL,1988年,NCBI,NIG

2、,EBI,数据记录格式,数据搜索系统,Entrze检索系统:NCBISRS检索系统:EMBL、DDBJ,检索系统,数据格式,GenBank,EMBL,DDBJ,GenBank格式,EMBL格式,DDBJ格式,fasta,The Swiss-Prot groups from the SIB and the EBI(2002)-(Photo by:Amos Bairoch,SIB),Uniprot 特点,高质量更新速度快与其他数据库联系密切使用快捷方便分析工具齐全,结构数据库,1.PDB数据库,1971年建立于美国布鲁海克海文国家实验室。该数据库中收集了通过X射线衍射和核磁共振(NMR)试验测定的

3、蛋白质结构的精确坐标数据。这种数据即蛋白质中的原子坐标是蛋白质结构的最细致的层次。该数据库的管理者是结构生物信息学合作研究组织(Research Collaboration for Structural Bioinformatics,RCSB,2.MMDB,MMDB:分子模型数据库 一个关于三维生物分子结构的数据库,结构来自于 X-ray 晶体衍射 和 NMR 色谱分析,NCBI,UCSC,ensembl,基因组数据库,NCBI,生物信息学第三、四讲,“对于总是把他们亲爱的人的健康摆在首位的美国公民来说,他们可以为他们的国立医学图书馆而骄傲。因为她从研究中获取生命科学的知识,加以组织并传播给最

4、可能利用这些知识的人,以便他们同疾病、伤残作斗争,提高我们大家生命的素质”。,1986年1月29 日,里根总统签署了一项声明,宣布1986年为美国国立医学图书馆150 周年纪念年。,MEDLINE,PreMEDLINE,Publisher supplied citations,Pubmed,http:/,MeSH是MedicalSubjectHeadings的缩略词,即医学主题词,是用规范化的医学术语来描述生物医学概念。NIH的工作人员按MeSH词表规定,浏览生物医学期刊全文后标引出每篇文献中的MeSH主题词,其中论述文献中心的主题词称主要主题词(major topicheadings),论述

5、主题某一方面的内容的词称为副主题词。,(二)短语检索如果在短语上加双引号,将不执行转换功能例如:“single cell”,(三)布尔逻辑运算:AND、OR、NOT必须大写比如“single cell”AND“Vitamin C”,(四)截词检索:*例:输入bacter*,检出bacteria、bacterium等备注:将不执行转换功能;截词检索只限于单词,对词组无效,,NCBI,检索文献,检索序列,比对序列,PubMed,GenBank,GenBank,Entrze,Entrze,Blast,最主要的以下三种,High-Throughput Genomic Sequence(HTGS)Who

6、le Genome Shotgun Sequences(WGS)EST,STS,and GSS,EST:表达序列标签STS:序列标签位点GSS:基因组短序列,生物信息学第五、六讲,序列比对,建立评分矩阵,执行比对(动态规划算法),确定最佳途径,Pam250,blosum62,fasta,blast,序列比对的过程,Dr.Margaret Oakley Dayhoff,credited as the founder of Bio-Informatics,ca.1980,历史寻踪,最大的成绩或许就是得分矩阵的出现,Dayhoff被称作生物信息学之父或许更合适。,简单了解 Dayhoff 矩阵,Re

7、lationship between scoring matrices.The BLOSUM62 has become a de facto standard scoring matrix for a wide range of alignment programs.It is the default matrix in BLAST,PAM模型可用于寻找蛋白质的进化起源BLOSUM模型则用于发现蛋白质的保守域,生物信息学第七、八讲,BLAST,BLAST,BLAST(Basic Local Alignment Search Tool)is a set of similarity search

8、programs that explore all of the available sequence databases for protein or DNA.,BLAST(基本局部相似性比对搜索工具)是一套用来探索可供使用的序列数据库中所有DNA或者蛋白质的相似性搜索程序,Local:局部研究对象:DNA或者蛋白质搜多对象:数据库,E-value,BLAST相似度的主要评测指标,HHAFDEG ACDEGGG,4-2+6+5+6=19,生物信息学第九、十讲,Genome,A,B,C,A,B,C,大片段contig,小片段测序拼装,有特异性的分子路标,拼接准确,错误少,但为确定分子路标而构建

9、图谱相当耗时,A,B,C,A,B,C,A,B,C,A,B,C,小片段测序,计算机拼装,优点:不需预先了解任何基因组的情况,缺点:容易错误装配,2001年2月,文特尔小组所做的人类基因组测序报告发表在科学杂志上,科林斯带领的公共资金支持的实验室联合体的报告同时发表在自然杂志上,Public HGP,Celera Genomics,“复杂而没有生命的化学物质可以构成我们的遗传密码,这是如此的奇妙,更能体现人类的精神,足以让哲学家和诗人们感叹一千年”,去生活,去犯错,去跌倒,去胜利,去用生命再创生命。-詹姆斯乔伊斯,名词翻译,STS:序列标签位点EST:表达序列标签ORTHOLOGS:直系同源PAR

10、ALOGS:旁系同源CDS:编码序列EXON:外显子ORF:开放阅读框PHI-BLAST:模式识别BLASTPSI-BLAST:位置特异的迭代BLASTSNP:单核苷酸多态性,名词解释,Fasta格式:FASTA格式又称Pearson的格式,该种序列格式要求序列的标题行以大于号开头,下一行起为具体的序列。一般建议每行的字符数不超过80个,以比对程序的处理。医学主题词MeSH是MedicalSubjectHeadings的缩略词,即医学主题词,是用规范化的医学术语来描述生物医学概念。NIH的工作人员按MeSH词表规定,浏览生物医学期刊全文后标引出每篇文献中的MeSH主题词,其中论述文献中心的主题

11、词称主要主题词(major topicheadings),论述主题某一方面的内容的词称为副主题词。直系同源:Orthologs是指来自于不同物种的由垂直家系(物种形成)进化而来的蛋白,并且典型的保留与原始蛋白有相同的功能。序列模体(motif):通常指蛋白序列中相邻或相近的一组具有保守性的残基,与蛋白质分子及家族的功能有关。计分矩阵(scoring matrix):记分矩阵是描述残基(氨基酸或碱基)在比对中出现的概率值的表。在记分矩阵中的值是两种概率比值的对数,一个是在序列比对中氨基酸随机发生的概率。这个值只是指出每个氨基酸出现的独立几率的概率。另一个是在序列比对中,一对残基的出现的有意义的概

12、率。这些概率来源于已知有效的真实的序列的比对的样本。,6.遗传图谱(Genetic map)又称连锁图谱(linkage map)或遗传连锁图谱(genetic linkage map),是指人类基因组内基因以及专一的多态性DNA标记(marker)相对位置的图谱,其研究经历了从经典的遗传图谱到现代遗传图谱的过程。7.物理图谱(Physical map)用物理学方法构建的由不同的DNA结构按其在染色体上的原始顺序和实际距离排列的图谱。以定位的DNA标记序列如序列标签位点STS作为路标,以DNA实际长度即bp、kb、Mb为图距的基因组图谱。8.转录图谱以EST(expressed sequenc

13、e tag,表达序列标签)为标记,根据转录顺序的位置和距离绘制的图谱。9.序列图谱(分子水平的物理图谱)序列图谱是指整个人类基因组的核苷酸序列图,也是最详尽的物理图谱,既包括可转录序列,也包括非转录序列,是转录序列、调节序列和功能未知序列的总和。10.旁系同源用来描述在同一物种内由于基因复制而分离的同源基因。也可译作并系同源、横向同源。旁系同源体常见于同一物种,但也不是绝对如此。例如鼠的a球蛋白和b球蛋白基因是paralog;并且,鼠的a球蛋白和鸡的b球蛋白基因的关系也是paralog,简答题,什么是生物信息学?生物信息学从事对基因组研究相关生物信息的获取、加工、储存、分配、分析和解释。这一定

14、义包括了两层含义,一是对海量数据的收集、整理与服务,也就是管好这些数据;另一个是从中发现新的规律,也就是用好这些数据。1)基因组相关信息的收集、储存、管理与提供 2)新基因的发现与鉴定 3)非编码区信息结构分析 4)生物进化的研究 5)完整基因组的比较研究 6)基因组信息分析的方法研究 7)大规模基因功能表达谱的分析 8)蛋白质分子空间结构的预测、模拟和分子设计 9)药物设计,2、PubMed检索的四个主要特点?1)支持词汇自动转换2)支持词组检索(需要加引号)3)支持布尔逻辑运算4)支持截词检索,4、全基因组鸟枪法测序的步骤,鸟枪法测序的特点?全基因组鸟枪法测序的主要步骤是:第一,建立高度随

15、机、插入片段大小为2kb左右的基因组文库。克隆数要达到一定数量,即经末端测序的克隆片段的碱基总数应达到基因组5倍以上。第二,高效、大规模的末端测序。对文库中每一个克隆,进行两端测序,TIGR在完成流感嗜血杆菌的基因组时,使用了14台测序仪,用三个月时间完成了必需的28,463个测序反应,测序总长度达6倍基因组。第三,序列集合。TIGR发展了新的软件,修改了序列集合规则以最大限度地排除错误的连锁匹配。第四,填补缺口。有两种待填补的缺口,一是没有相应模板DNA的物理缺口,二是有模板DNA但未测序的序列缺口。他们建立了插入片段为15-20kb的文库以备缺口填补。(只写红字内容即可)鸟枪法测序的缺点1、随着所测基因组总量增大,所需测序的片段大量增加。2、高等真核生物(如人类)基因组中有大量重复序列,导致判断失误。,Good Luck,不许作弊,考试顺利,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号