生物信息学复习重点.docx_三一办公31ppt.com

资源描述

《生物信息学复习重点.docx》由会员分享，可在线阅读，更多相关《生物信息学复习重点.docx（9页珍藏版）》请在三一办公上搜索。

1、生物信息学复习重点生物信息学是一门交叉学科, 包含了生物信息的获取、加工、存储、分配、分析、解释等在内的所有方面, 它综合运用数学、计算机科学和生物学等的各种工具来阐明和理解大量数据所包含的生物学意义。生物信息学宗旨在揭示基因组信息结构的复杂性及遗传语言的根本规律。从生物分子获得和挖掘深层次生物学知识。人类基因组计划：获得遗传图、物理图、序列图、转录图；终极目标：阐明人类基因组全部DNA序列；识别基因；建立储存这些信息的数据库；开发数据分析工具；研究HGP实施所带来的伦理、法律和社会问题。其中我国承担了人类3号染色体短臂。记录：一个数据库记录一般由两部分组成：原始序列数据和描述这些数据生物

2、学信息的注释。冗余：在一个数据库存在着多个相同的项，如两个或者更多的记录中有一个相同序列 Fasta格式开始于一个标识符：，然后是一行描述。 GenBank格式：每个基因描述可有多个描述行，包含一行以LOUCUS开头描述行，基因序列以ORIGN开头，以/结尾。 EMBL：入口标识符ID，序列开始标识符SQ，结束是/。数据库的特点：数据库是可以检索的，即具有检索功能；数据库应该是定时更新的，即不断有新版内容发布；数据库是交叉引用的，特别是在互联网时代，数据库应该通过超链接与其他数据库相连。 EST序列：表达序列标签对cDNA文库测序得到的，是转录的DNA序列。 STS序列：序列标签位点染色体

3、上位置已定的、核苷酸序列已知的、且在基因组中只有一份拷贝的DNA短片断,(200bp500bp)。STS序列标签位点是基因组上定位明确、作为界标并能通过PCR扩增被唯一操作的短的、单拷贝DNA 序列，用于产生作图位点。 GSS序列：基因组概览测序基因组DNA克隆的一次性部分测序得到的序列。 HTG序列：高通量基因组序列三大数据库： NCBI(GenBank)：美国生物技术中心，建立了一系列生物信息数据和各种服务。 EMBL：欧洲分子生物学实验室。 DDBJ：日本遗传研究所。同源性基因系指起源于同一祖先但序列已经发生变异的基因成员。基因同源性只有“是”和“非”的区别,是一种质的判断。直系同

4、源基因：分布在不同物种间的同源基因又称直系同源基因。旁系同源基因：同一物种的同源基因则称旁系同源基因, 水平基因由重复后趋异产生。一致性：序列中同一碱基位置的相同的碱基成员, 或者蛋白质的同一氨基酸位置的相同的氨基酸成员的百分比。相似性：序列中同一位置相同或相似序列的百分比。如同源蛋白质的氨基酸序列中一致性氨基酸和可取代氨基酸所占的比例。可取代氨基酸系指具有相同性质如极性氨基酸或非极性氨基酸的成员, 它们之间的代换不影响蛋白质(或酶)的生物学功能。相似性和同源性关系：一般来说序列间的相似性越高的话，是同源序列的可能性就更高，所以经常可以通过序列的相似性来推测序列是否同源。序列比对：确

5、定两个或多个序列之间的相似性以至于同源性，而将它们按照一定的规律排列。任务：通过比较生物分子序列，发现它们的相似性，找出序列之间共同的区域，同时辨别序列之间的根本差异。相似性：可能是核酸氨基酸序列的相似、可能是结构的相似、可能是功能的相似主要的blast程序：程序名 Blastn Blastp Blastx Tblastn TBlastx 查询序列核酸蛋白质核酸蛋白质核酸数据库核酸蛋白质蛋白质核酸核酸搜索方法核酸序列搜索逐一核酸数据库中的序列蛋白质序列搜索逐一蛋白质数据库中的序列核酸序列6框翻译成蛋白质序列后和蛋白质数据库中的序列逐一搜索。蛋白质序列和核酸

6、数据库中的核酸序列6框翻译后的蛋白质序列逐一比对核酸序列6框翻译成蛋白质序列，再和核酸数据库中的核酸序列6框翻译一进行比对。 Score：使用打分矩阵对匹配的片段进行打分，这是对各对氨基酸残基打分求和的结果，一般来说，匹配片段越长、相似性越高则Score值越大。 E value：在相同长度的情况下，两个氨基酸残基随机排列的序列进行打分，得到上述Score值的概率的大小。E值越小表示随机情况下得到该Score值的可能性越低。分子钟：某一蛋白在不同物种间的取代数与所研究物种间的分歧时间接近正线性关系，进而将分子水平的这种恒速变异称为“分子钟”。中性学说：突变大多数是中性的,中性突变通过随机的遗

7、传漂变在群体里固定下来,分子进化是遗传漂变的结果,在分子进化上自然选择不起作用。分子进化系统发育树的研究目的：物种分类及关系：从物种的一些分子特性出发，构建系统发育树，进而了解物种之间的生物系统发生的关系大分子功能与结构的分析：同一家族的大分子，具有相似的三级结构及生化功能，通过序列同源性分析，构建系统发育树，进行相关分析和功能预测进化速率分析：例如，HIV的高突变性，哪些位点易发生突变末端节点：代表最终分类，可以是物种，群体或者蛋白质、DNA、RNA分子等。系统发育树是由一系列节点和分支组成，其中每个节点代表一个分类单元，而节点之间的连线代表物种之间的进化关系。树的节点又分为外部节点

8、和内部节点。外部节点代表实际观察到的分类单元。内部节点又称为分支点，代表分类单元进化历程中的祖先。一个DNA序列在物种形成或基因复制时，分裂成两个子序列，因此系统发育树一般是二叉树。有根树:从最早共同祖先，即根开始，随着时间的连续分支事件引起的一组相关物种的分歧。无根树：表示分类单元之间的进化关系，但不鉴别最早的共同祖先。距离：对一个有根树来说，沿着每个分支的进化方向是确定的。反之，对无根树来说，并不清楚内部分支的祖先物种是从哪里进化而来相关序列间的差异称为距离。不同物种的两条同源序列的度量被称为遗传距离或进化距离。外群/外围枝：与当前研究的主要物种或基因相对较远的一组序列，可以辅助定

9、位树根，选择条件：序列必须与剩余序列关系较近，但外围支序列与其他序列间的差异必须比其他序列之间的差异更显著系统发育树构建步骤：多序列比对；建立取代模型；建立进化树；进化树评估。进化树的可信度检验自展法：从排列的多序列中随机有放回的抽取某一列，构成相同长度的新的排列序列；重复上面的过程，得到多组新的序列；对这些新的序列进行建树，再观察这些树与原始树是否有差异，以此评价建树的可靠性建树一般原则：1.可靠的待分析数据2.准确的多序列比对3.选择合适的建树方法：A.序列相似程度高，MP(简约法)B.序列相似程度较低，ML(似然法)C.序列相似程度中等，NJ(邻接法)D.序列相似程度太低，无意义

10、bootstrap为每个分支指派一个数值，表示这些分支在bootstrap测试中出现的百分比，暗示它们关联的化分是否被数据很好地支持。越接近100，可信度越高。 GO：基因本体联合会所建立的数据库，旨在建立一个适用于各种物种的，对基因和蛋白质功能进行限定和描述的，并能随着研究不断深入而更新的语义词汇标准。 GO语义的分类：分子功能描述在个体分子生物学上的活性，如催化活性或结合活性。生物学过程由分子功能有序地组成的，具有多个步骤的一个过程。细胞组件指基因产物位于何种细胞器或基因产物组中(如糙面内质网，核糖体，蛋白酶体等)，即基因产物在什么地方起作用。语义之间有三种关系：is a(I)part

11、of(P)regulates(R) 语义之间的关系：1.“语义”用“结点”表示2.用父子结点来表示语义之间的关系，其中父结点离根结点较近，表示相对宽泛的语义，而子结点离叶子结点较近，相对父结点其语义所代表的内容更为具体。3.实线表示结点之间的关系4.虚线表示推理而并未证明的关系 GO语义之间的关系是单向的，结构像是有向非循环树，但与有向非循环树不同的是，本体论结构图中的结点可以有两个及其以上的父结点。在“Qualifier”用“NOT”标注，如“nurse cell apoptosis”，其说明根据实验数据，该基因产物并不在“nurse cell apoptosis”过程中起明显作用，因而该

12、基因产物用该语义注释只是研究者的一种推测与期望，此推测的根据是该基因产物与那些在“nurse cellapoptosis”起明显作用的基因产物有着非常相似的序列结构。间隔区是一片位于基因之间的DNA序列。非编码DNA间隔区的一个子集。偶尔有些间隔DNA的作用来控制基因附近，但目前大部分没有已知的功能。它有时也被称为“垃圾DNA”的DNA序列之一，最近被称为“暗物质”或“暗物质转录间隔区的DNA片段”。重复序列的分析：对于真核生物的核酸序列而言，在进行基因辨识之前都应该把简单的大量的重复序列标记出来并除去，因为很多情况下重复序列会对预测程序产生很大的扰乱，尤其是涉及数据库搜索的程序。等值区

13、：大部分真核基因组表现出一种称为等值区的组织形式。等值区定义为“具有一致碱基组成的长区域”：等值区基因组序列的长度超过1,000,000对碱基；虽然不同的等值区其GC含量差别显著，但同一等值区的GC含量始终相对均衡，即在等值区全长序列上移动的1,000bp滑动窗口中的GC含量与整个序列的GC含量相差不超过1%。人类基因组大约可以划分为五个不同类型的等值区：其中有两个区域缺乏G和C，分别被称作L1和L2，平均GC含量分别为39%和42%；另三个区域所含的G和C相对丰富，分别被称作H1、H2和H3，GC含量平均值分别为46%、49%和54%。真核生物的H等值区中含有丰富的基因，是开始基因组测序的

14、最佳位置。 SD序列：mRNA翻译起点上游与原核16S 核糖体RNA或真核18S rRNA 3端富含嘧啶的7核苷酸序列互补的富含嘌呤的37个核苷酸序列(AGGAGG)，是核糖体小亚基与mRNA结合并形成正确的前起始复合体的一段序列。 Kozak规则，即第一个AUG侧翼序列的碱基分布所满足的统计规律，若将第一个AUG中的碱基A，U，G分别标为1，2，3位，则：第4位的偏好碱基为GAUG的5端约15bp范围的侧翼序列内不含碱基T；在-3，-6和-9位置，G是偏好碱基；除-3，-6和-9位，在整个侧翼序列区，C是偏好碱基真核生物中的基因预测程序的分类： 1. 基于同源性的方法2. 基于从头算的方法

15、3. 基于一致性的算法蛋白质数据库：提供详细的蛋白质序列、功能信息，如蛋白质功能描述、结构域结构、转录后修饰、修饰位点、变异度、二级结构、三级结构等同时提供其它数据库，包括序列数据库、三维结构数据库、2-D凝聚电泳数据库、蛋白质家族数据库的相应链接 Reviewed 和 Unreviewed代表数据的可性度。可性度的标签主要有三种：人工验证的数据；从其他数据源引用过来的数据；通过程序添加或者产生信息的。蛋白质3D结构预测的方法可分为三大类：同源建模法折叠识别法从头预测法生物芯片：生物活性物质以点阵的形式有序地固定在固相载体上。在特定条件下与荧光标记过的待检测样品进行生化反应。反应结果用化

16、学方法显示，光学仪器进行数据采集，通过计算机软件进行数据分析，得到样品的分子信息。基因芯片数据处理和分析：1.基因芯片数据的获取2.芯片数据的标准化3.差异表达基因的分析4.基因共表达分析5.基因表达数据的聚类6.基因表达数据的分类7.后续分析误差来源：图像分析扫描DNA杂交过程(温度、时间、混合均匀程度等)探针的标记RNA的抽提加样其他芯片数据的标准化：为了消除由于实验技术所导致的表达量的变化，并使各样本和平行实验的数据处于相同的水平，从而得到具有生物学意义的基因表达量的变化。数据过滤：过滤掉非正数，通过图像扫描软件，将每个杂交点的光强度转化为表达量时，会产生负的数值或者0，这主要是

17、软件的算法对背景噪音处理时所产生的。由于负数和零是不能对数化的，故过滤掉这些数据是非常必要的。归一化采用的一个基本假设是：在测试样本与对照样本间大多数的基因是没有显著差异表达的，而在有差异表达的基因中，在测试样品中高表达的基因与低表达的基因在数量上也是大致相当的，因此芯片上所有基因的相对表达量应该是以0为中心的分布。平均数、中位数标准化：由于不同的实验样本是分别在不同的芯片上杂交试验，因而也有系统误差，应通过标准化将芯片的数据调整到同一水平。芯片间的数据标准化常采用，常用的方法是平均数、中位数标准化。即：将不同组实验的数据对数比值的中位数或平均数调整到同一大小差异表达基因的分析：目的：比

18、较两个条件下的基因表达差异，从而识别出与条件相关的特异基因或者显著差异表达基因基因显著差异表达：通常是指一个基因在两个条件中的表达水平的检测值在排除实验、检测等因素后达到一定的差异，具有统计学意义，同时也具有生物学意义。基因共表达分析：在N个不同的条件下，考察基因X和Y的表达是否相似。共表达：正相关：相似的表达谱，可能存在正关联；负相关：相反的表达谱，可能存在负调控 Pearson相关系数：r -1, 1； r 1，正相关；r -1，负相关基因表达数据的聚类：从数据矩阵出发，将表达模式相同的基因聚为一类。从数学角度：聚类得到的基因分组，一般是组内各成员在数学特征上彼此相似，但与其他组

19、中的成员不同。从生物学角度：聚类分析方法所隐含的生物学意义和基本假设是，组内基因的表达谱相似，它们可能有相似的功能。基因表达数据的分类：根据基因表达的数据将样本分成两类或多类。有督导学习：根据发现的模式进行预测。应用：癌症vs.正常组织；癌症的亚型、不同阶段(良性的vs.恶性的)；对药物的敏感性。有监督学习：在样本标签已知的情况下，可以统计出各类训练样本不同的描述量，如其概率分布，或在特征空间分布的区域等，利用这些参数进行分类器的设计。已知训练样本，用已知类别的样本训练分类器，以求对训练集的数据达到某种最优，并能推广到对新数据的分类。无监督学习：样本数据类别未知，需要根据样本空间的相似性对样本集进行分类，试图使类内差距最小化，类间差距最大化，不需要任何先验领域知识，利用聚类结果，可以提取数据集中隐藏的信息，对未来数据进行预测和分类。有/无监督学习区别：有监督学习方法必须要有训练集与测试样本。在训练集中找规律，而对测试样本使用这种规律；非监督学习没有训练集这一说，只有一组数据，在该组数据集内寻找规律。有监督学习方法得目的是识别事物，识别的结果表在给待识别数据加上标号。因此训练样本集必须由带有标号的样本组成。非监督学习只有要分析数据集本身，则可按自然的聚集性分类，但不以与某种预先的分类对上号为目的

展开阅读全文