《差异表达分析》PPT课件.ppt

资源描述

《《差异表达分析》PPT课件.ppt》由会员分享，可在线阅读，更多相关《《差异表达分析》PPT课件.ppt（63页珍藏版）》请在三一办公上搜索。

1、第七讲,Quantile Normalization,使每张芯片/通道的强度值有相同的分布(intensity distribution),Quantile normalization,Before,After,Quantile normalization,R语言和bioconductor,差异表达基因分析,单张cDNA芯片差异表达基因,差异表达基因分析,基因表达谱芯片实验的主要目的之一是发现两个样本间差异表达基因。通常采用基因在实验组和对照组中信号的比值作为衡量基因在两种状态下基因的表达差异，在双色荧光系统中，用Cy5/Cy3的比值来衡量基因的表达差异，也称表达差异值。在Affymetrix

2、等短的寡核苷酸芯片中，采用单色荧光标记的方式，实验组和对照组分别用两张芯片进行检测，表达差异值即为两张芯片的信号比值。噪声和芯片本身的一些因素以及生物学本身的特点给筛选差异表达基因带来了很大的麻烦。必须设定一个差异表达基因的判定标准。这个筛选的标准就称为差异表达基因的阈值。,倍数法,倍数法,倍数法是比较常用的一种方法，因为比较简单和直接。但是，这种方法也是有其重大缺陷的。比如，在某个实验中，基因表达水平的变化不大，如果选择判别域值为2倍，则有可能找不到几个差异表达的基因，假阴性率比较高。但如果是主观缩小判断域值，又有可能增大假阳性率。这一方法没有考虑到差异表达的统计显著性。,Z值法,在一张cD

3、NA芯片上一般都点了很多基因，其实这些基因中只有很小一部分表达有差异，所以一般都假设表达的比率值满足正态分布。Z=(X-)/.|Z|=1.96在寡核苷酸芯片中，芯片上的基因在相应实验条件下或相应组织中也只是有很小一部分基因有表达，可以假定强度满足对数正态分布，同样可以对其作Z变换，使其具有统计意义。如果实验体系中没有一条差异表达的基因，Z值法还是会挑选出5的差异表达基因。这是因为在芯片实验中，总有一些由于背景噪声产生的假阳性点。如果实际上实验中有大量的基因发生表达改变，Z值法还是机械的找出5的差异表达基因，丢失了一部分真阳性点。,一般性的方法,选择一个统计量给基因排秩来证明表达有差异为排秩统

4、计量选择一个判别值，在它之上的值将被认为是显著的前面一个部分更为重要，所以研究的较多，方法也更多，后面那部分的方法稍微简单,重复芯片（replicates）M值,根据比率平均值或对基因排序。M值为信号强度比值的log2值，是任一特定基因在重复序列中M值的均值。这一排序法忽略了一个基因在重复实验中的不同芯片上表达水平的差异程度。例如，可能某一个基因在某一张芯片上M值很大，但在其他芯片上M值很小，其实这条基因并没有差异表达，但由于个别M值的影响，从而显示出一个差异表达的特性，造成假阳性。,T值排序,假如一个基因在几张重复芯片的M值都很小，但是这些M值非常接近，所以s值也非常小，这样可能会导致t

5、值很大，从而会把这个本没有差异表达的基因误认为差异表达。,修正的T值,修正值由样本方差的均数和标准差估计而得。结果显示：在一个模拟的数据集中，虽然带有一些经验性质，但用修正t-统计量给基因排秩比用均数和一般的t-统计量效果要好。,单通道寡核苷酸芯片差异基因（两个样本直接比较）,Affymetrix，illumina芯片由于有探针重复，可以利用统计方法计算出一个统计性的P值或者score值，筛选差异表达基因,不同类样本差异基因识别,评价一组数的统计量,平均值标准差,比较多组数的方法,T检验：平均值F检验：方差,SAM（significance analysis of microarrays）,

6、单通道Oligo芯片，尤其是affymetrix芯片数据分析用得较多,双通道cDNA芯片数据分析用得较多,False Discovery Rate(FDR),错误发现率是评估检验统计显著性的最有力工具。统计学家都想用更符合统计学的手段得到差异基因，具体说来就是想用假设检验后赋予每个基因统计显著性或者P值，使得每个基因的判别更有统计学上的意义。为了达到这个目的，统计学家们常常用控制错误发现率（False Discovery Rate）的方法来判断差异基因。,Multiple test(Pvalue adjustment),火山图（volcano plot）,Statistical test:Pv

7、alueFold change:Ratio,其他方法,B-statistics(Smyth,2004)Bayes T-test(Baldi and Long,2001)SAMROC(Broberg,2002)Zhao-Pan method(Zhao and Pan,2003),Improved Detection of Differentially Expressed GenesTime series microarray dataset,聚类分析,基因表达数据矩阵(Affymetrix GeneChip oligonucleotide arrays),基因表达数据矩阵(glass slide

8、s),数据矩阵具体形式,数据形式,数据矩阵,基因数远大于样品数,对任意一个基因来说,样本值是特征值,数据的维数是M对任意一个样本来说,基因值是特征值,数据的维数是N,聚类时考虑基因之间的相似性，从数学上讲就是看对应的M维数据之间的相似性,Cluster&Treeview软件,Cluster&Treeview软件,Genesis软件,预分析（Pre-Analysis）,重复值合并（replicate handling）数据转换和标准化（data transformation and standardization）缺失数据处理（missing value management）基因筛选（patt

9、ern selection）,重复值合并,基因不同命名,重复值合并,Gene ID converter,重复值合并,在特定条件下把所有的重复值合并成一个数值可能更为方便，而这一个值是给定基因/条件的代表。通常的合并是指计算这些重复值的集中趋势指标，如均数、中位数或众数。然而，使用一个集中趋势指标代替一组数值意味着信息的丢失，因此数据的合并应谨慎。去除奇异值。可以通过计算原始数据的均数和标准差，去除位于给定区间外的数据（如均数加减3个标准差外的数据）。剩余的数据重新计算均数和标准差，并消除给定区间外的数据。,数据转换和标准化,数据变换的目的是在尽量保证原始数据特征不变的前提下，使变换后的数据更适

10、于进行统计分析。对数转化（log-transformation）中心化处理（center）单位圆化正态化（均值为0，方差为1）,缺失数据处理,芯片上的某些点可能因为芯片的缺陷、点像素强度达到饱和、点像素强度非常小等因素而产生异常的数据点，在数据的预处理阶段把这些数据点删除。未观测点若后续的统计分析要求数据满足完整性，如特征基因提取的奇异值分解、某些基因的聚类分析方法等，则需要对含有缺失值的数据进行处理删除含有缺失值的整条记录，这种方法操作简单，但却因为个别值的缺失而删除整个记录，可能丢失大量有价值的信息填充或修补缺失数据,缺失数据的处理,固定值法，比如0或者1行平均法使用重复数据点对缺失数

11、据进行填充。对于生物学重复中缺失数据的填充应慎重，应当使用尽量同质的样品对缺失值进行估计。使用基因间的相关性对缺失数据进行填充。奇异值分解法，KNN法。其他方法，最小二乘法拟合修补，方差迭代分析，最大可能性分析,KNN法,K最近邻法（K-nearest neighborhood method）：假定某个基因在某个指标上含有缺失值，计算此包含缺失值的基因与在该指标上无缺失的基因间的相似性指标或距离指标（相似性或距离的计算中不包括欲估计的指标），与该基因相似性最大的K个基因称为该基因的K个最近邻（k nearest neighborhoods），这K个基因在该观测指标上的数据就是估计缺失基因数据的

12、基础，估计值可以是这K个基因在该指标上的均数，也可以是这K个基因的加权均数。在加权均数中，权重为上面计算的基因间的相似性。K值的确定具有一定的经验性，但不宜太大和太小。,基因筛选（gene selection）,在进行分析之前，要先选择用来分析的基因。不然所有的基因有上万条，也就是数据矩阵有上万行时，既增加了运算的难度，又引入了不必要的基因，也增加了解释结果的难度，要预先进行基因的滤取。当一条基因表达谱数据中的无效数据个数超过一定的范围时，这条基因就认为是一条无效基因，在以后的聚类分析中不把这条基因考虑在内。一条基因表达谱数据的波动很小，也就是说，数据的方差小于一定的范围，意味着这条基因与所要

13、研究的生物过程或对象关联很小，也被滤掉，不进行聚类分析。差异表达次数,基因筛选,针对特别目的选取，比如选取不同类之间差异表达基因。常用的方法，假设检验，比如t检验，F检验等不改变整体数据矩阵的数据结构，去除数据的冗余性。常用方法，主成分分析等。,发展,新算法,新角度,合并多种方法,主成分分析(Principle Component Analysis),降维概述,降维是指将样本从输入空间通过线性或非线性映射到一个低维空间。,降维可以减少无用信息和冗余信息，将高维数据转换为易于处理的低维数据，减少了后续步骤处理的计算量，当降至三维以下时还可用于可视化技术，从而发挥人在低维空间感知上的优点，发现数据集的空间分布、聚类性质等结构特征。,主成分分析（PCA，principal component analysis）,对于一组原始随机变量为X1,Xp，寻找一个新的变量Z1，这个新的变量是原始变量的线性组合，Z1=a11X1+a21X2+ap1Xp，并使得Z1的变异最大化Z1即为原始变量的最大主成分，它使用一个变量试图最大化地包含一组变量的变异。通常一个变量还不足够，因此，需要寻找第二个主成分Z2，Z2与Z1不相关，且是除Z1外具有最大方差的原始变量的线性组合。,

展开阅读全文