基因芯片数据分析.ppt

上传人:小飞机 文档编号:6412104 上传时间:2023-10-28 格式:PPT 页数:45 大小:2.43MB
返回 下载 相关 举报
基因芯片数据分析.ppt_第1页
第1页 / 共45页
基因芯片数据分析.ppt_第2页
第2页 / 共45页
基因芯片数据分析.ppt_第3页
第3页 / 共45页
基因芯片数据分析.ppt_第4页
第4页 / 共45页
基因芯片数据分析.ppt_第5页
第5页 / 共45页
点击查看更多>>
资源描述

《基因芯片数据分析.ppt》由会员分享,可在线阅读,更多相关《基因芯片数据分析.ppt(45页珍藏版)》请在三一办公上搜索。

1、基因芯片数据分析,1.基因芯片(Microarray)简介2.图像处理与数据标准化3.基因芯片的数据分析,1.基因芯片简介,基因芯片(1987):固定有寡核苷酸、DNA或cDNA等的生物芯片。利用这类芯片与标记生物样品进行杂交,可对样品基因表达谱生物信息进行快速定性和定量分析。高通量、点阵以及Northern杂交同时测定细胞内数千个基因的表达情况将mRNA反转录成cDNA与芯片上的探针杂交芯片的体积非常小:微量样品的检测基因表达情况的定量分析,生物芯片的基本要点,1、芯片方阵的构建:芯片制备是先将玻璃片或硅片进行表面处理,然后使DNA片断或蛋白质分子等生物分子按顺序排列在芯片上的过程。2、样品

2、的制备:生物样品往往是非常复杂的生物分子混合体,除少数特殊样品外,一般不能直接与芯片反应。可将样品进行处理,获取其中的蛋白质或DNA、RNA,并且加以标记,以提高检测的灵敏度。3、生物分子反应:生物分子反应为芯片上的生物分子之间的反应,是芯片检测的关键一步。通过选择合适的反应条件使生物分子间反应处于最佳状态中,减少生物分子之间的错配率。4、信号检测:常用的芯片信号检测方法是将芯片置入芯片扫描仪中,进行信号检测,以获得有关生物学信息。,将样品中的DNA/RNA标上荧光标记,则可以定量检验基因的表达水平,碱基互补,基因芯片的密度:100-1 million DNA 探针/1cm2,A.按技术手段、

3、探针类型分类1.Short oligonucleotide arrays(Affymetrix)2.cDNA arrays(Brown/Botstein)3.Long oligo arrays(Agilent)4.Serial analysis of gene expression(SAGE)B.按实验要求分类1.单通道(Single Channel):一次检验一种状态 2.双通道(Dual Channel):差异表达基因的筛选,基因芯片技术的类型,(1).cDNA microarrays:将5005,000bp的cDNA固载到介质上(例如玻璃)。Stanford开发设计,通常为双通道,常用于

4、差异表达基因的筛选。(2).DNA chips:将寡核苷酸探针(2080-mer)合成到芯片上。Affymetrix开发设计,通常为单通道,一次检验一种状态。,两类主流的DNA芯片,载玻片,cDNA clones,(1)cDNA microarrays,Treatment/controlNormal/tumor tissueBrain/liver,荧光标记的靶基因,差异表达基因的筛选,(2)DNA chips,探针长度:25 bp每个基因:22-40个探针Perfect Match(PM)vs.MisMatch(MM)probes,DNA chips的制备:Affymetrix photoli

5、tography,A.选择硅片、玻璃片、瓷片或聚丙烯膜、尼龙膜等支持物B.采用光导化学合成和照相平板印刷技术在硅片等表面合成寡核苷酸探针;或者通过液相化学合成寡核苷酸链探针,或PCR技术扩增基因序列,由阵列复制器,或阵列机及电脑控制的机器人,将不同探针样品定量点样于带正电荷的尼龙膜或硅片等相应位置上C.紫外线交联固定后即得到DNA微阵列或芯片,三、基因芯片数据分析,1.基因芯片(Microarray)简介2.图像处理与数据标准化3.基因芯片的数据分析,2.图像处理与数据标准化,单通道基因芯片 white(very high)red(high)Yellow(a little high)green

6、(medium)blue(low)black(no),植根区域生长法(SRG),Fixed Circle,栅格化:确定点的位置图象分割(Segmentation):将点从背景中分离出来。抽提亮度:各个像素亮度的平均值(mean)或中位数(median)背景校正:局部或全局,图像处理,对于每个点,可以计算 Red intensity=Rfg-Rbgfg=foreground,bg=background,and Green intensity=Gfg-Gbgand combine them in the log(base 2)ratio Log2(Red intensity/Green inten

7、sity)Green intensity(medium):1,基因表达量的定量,1.图像分析2.扫描3.DNA杂交过程(温度、时间、混合均匀程度等)4.探针的标记5.RNA的抽提6.加样7.其他,系统误差随机误差,Microarray:误差的来源,运用哪些基因进行标准化处理芯片上大部分基因(假设芯片上大部分基因在不同条件下表达量相同)不同条件间稳定表达的基因(如持家基因)控制序列(spiked control)合成DNA序列或外源的DNA序列,在不同条件下表达水平相同。,before,after,数据标准化,目的是消除系统偏差引起的高相关性,同时保留由真正生物学原因引起的基因表达水平高相关性。

8、,三、基因芯片数据分析,1.基因芯片(Microarray)简介2.图像处理与数据标准化3.基因芯片的数据分析,3.基因芯片的数据分析,(1)差异表达基因的分析(2)基因共表达分析(3)基因表达数据的聚类(4)基因表达数据的分类(5)Map to GO(6)Gene regulatory network,(1)差异表达基因的分析,差异表达基因的分析:寻找处理前后表达上调或者下调的基因Are the treatments different?使用标准的统计学方法检验(t-test or f-test),发现统计显著性差异表达的基因,如果处理本身并不显著,则结果无意义,Fold change,一般

9、2-fold increase or decrease(平行实验的样本较少)p-value(平行实验的样本较多),统计学分析,T-test:学生分布Excel函数:TTEST(array1,array2,tails,type)Array1为第一个数据集Array2为第二个数据集Tails指示分布曲线的尾数。如果 tails=1,函数 TTEST 使用单尾分布。如果 tails=2,函数 TTEST 使用双尾分布Type为 t 检验的类型1 成对 2 等方差双样本检验 3 异方差双样本检验,P-value:学生分布,一般选择双尾分布异方差双样本检验Excel函数:=TTEST(B2:D2,E2:

10、G2,2,3)C:对照组;T:实验组,P-value:学生分布,(2)基因共表达分析,在N个不同的条件下(时间序列的芯片数据),考察基因X和Y的表达是否相似。Gene 1#是否与Gene 2#、Gene 3#和Gene 4#共表达?共表达:正相关:相似的表达谱,可能存在正关联负相关:相反的表达谱,可能存在负调控,Eisen MB,et al.,(1998)PNAS 95:14863-14868,r-1,1r 1,正相关r-1,负相关,结论:Gene 1#与Gene 2#表达正相关,与Gene 3#表达负相关,与Gene 4#无关联,基因相关性分析:Pearson相关系数,Excel函数:=PE

11、ARSON(array1,array2),(3)基因表达数据的聚类,将表达谱相似的基因聚类在一起发现新的模式聚类方法:A.Hierarchical clusteringB.K-means clustering,用树状结构来表征基因表达之间的相似性/相关性,Distance matrix,A.Hierarchical clustering,对数据进行聚类必须给定结果分成多少类假设该例中,指定为聚成5类,B:K-means clustering,软件:Cluster 3.0,Michael Eissen,Stanford最终结果:所有基因芯片数据被聚成5类,B:K-means clustering

12、,(4)基因表达数据的分类,根据基因表达的数据将样本分成两类或多类督导学习(supervised learning):根据发现的模式进行预测应用:癌症 vs.正常组织癌症的亚型、不同阶段(良性的 vs.恶性的)对药物的敏感性(tamoxifen for breast cancer),(5)Map to GO,通过基因芯片,找到了一批“interesting”的基因生物学功能上是否存在关联?基因本体(Gene Ontology,GO):GO数据库把基因的功能分为三类:分子功能,生物学过程和细胞组分。在每一个分类中,都提供一个描述功能信息的分级结构。,(5)Map to GO,研究者可以通过GO分

13、类号将分类与具体基因联系起来,从而对基因的功能进行描述。在芯片的数据分析中,研究者可以找出哪些变化基因属于一个共同的GO功能分支,并用统计学方法检定结果是否具有统计学意义,从而得出变化基因主要参与了哪些生物功能。比较著名的基于GO分类法的芯片数据分析网络平台有七十多个:Name Internet SiteOnto-Tools GOToolBox GOstat GFINDer EASE,(6)Gene regulatory network,早期观点:表达谱相似的基因可能存在功能上的关联,可能有相互作用(直接作用)。当前的观点:表达谱相似的基因可能具有共同的调控元件(基因UTR区域存在共同的Pro

14、motor),能够被同一个上游因子所调控。,基因转录调控网络,基因转录调控网络是以转录因子和受调控基因作为节点,以调控关系作为边的有向网络。,基因转录调控数据库,1.TRANSFAC数据库,TRANSFAC数据库是关于转录因子、它们在基因组上的结合位点的数据库。,2.TRRD数据库,http:/,TRRD数据库是在不断积累的真核生物基因调控区结构功能特性信息基础上构建的。每一个TRRD的条目里包含特定基因各种结构功能特性:转录因子结合位点、启动子、增强子、静默子、以及基因表达调控模式等。,3.RegulonDB数据库,http:/,RegulonDB数据库是一个提供转录起始和调控网络信息的数据

15、库。,蛋白质互作网络,代谢网络和信号传导网络,代谢通路 是指细胞中代谢物在酶的作用下转化为新的代谢物过程中所发生的一系列生物化学反应。代谢网络 是指由代谢反应以及调节这些反应的调控机制所组成的描述细胞内代谢和生理过程的网络。信号传导 是指细胞将一种类型的生物信号或刺激转换为其它生物信号最终激活细胞反应的过程。信号传导网络 是指参与信号传导通路的分子和酶以及其间所发生的生化反应所构成的网络。,(一)通路数据库,KEGG数据库,http:/,KEGG数据库是关于基因、蛋白、生化反应以及通路的综合生物信息数据库。,KEGG代谢通路,来源:KEGG数据库,BioCyc数据库,http:/,BioCye数据库是为不同物种单独构建的代谢通路数据库的合集。,信号传导通路,网络无处不在,手机、电视、火车、汽车,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号