芯片数据的基本处理和分析课件.ppt

上传人:牧羊曲112 文档编号:1551595 上传时间:2022-12-04 格式:PPT 页数:83 大小:6.41MB
返回 下载 相关 举报
芯片数据的基本处理和分析课件.ppt_第1页
第1页 / 共83页
芯片数据的基本处理和分析课件.ppt_第2页
第2页 / 共83页
芯片数据的基本处理和分析课件.ppt_第3页
第3页 / 共83页
芯片数据的基本处理和分析课件.ppt_第4页
第4页 / 共83页
芯片数据的基本处理和分析课件.ppt_第5页
第5页 / 共83页
点击查看更多>>
资源描述

《芯片数据的基本处理和分析课件.ppt》由会员分享,可在线阅读,更多相关《芯片数据的基本处理和分析课件.ppt(83页珍藏版)》请在三一办公上搜索。

1、实习三:芯片数据的基本处理和分析,王 斌王 丹 阮 陟 胡望雄,浙江加州国际纳米技术研究院(ZCNI),课程内容,基因组学,转录物组学,蛋白质组学,系统生物学,芯片数据分析的一般流程:,芯片杂交实验 ,芯片数据采集(读取扫描图)数据基本处理数据提交公共数据库数据生物信息学分析,实习内容:,TIGR TM4 软件的介绍和使用GenMAPP软件的介绍和使用GEO数据库的介绍,Cy3,Cy5,Cy5-cDNA,Cy3-cDNA,RT,RT,cDNAarray,样本 mRNA,对照 mRNA,TIF 扫描图,常见的双通道(dual channel)实验流程:,对照基因(reference gene):

2、绿色荧光标记(G)样本基因(sample gene):红色荧光标记(R),区块(block),非饱和区域,饱和区域,信号杂交的一些概念,背景,探针区域,A package of Open Source software programs for Microarray analysis,芯片数据采集(读取扫描图),数据基本处理,存储整理芯片数据(数据库),芯片数据分析结果的图形显示,( http:/www.tm4.org/ ),TIGR TM4:,GenePix格式(.gpr),Agilent 格式 (.txt):,MEV文件:MEV格式的芯片数据,Express Converter: 芯片数据

3、的格式转换,下载地址:http:/www.tm4.org/programs/ExprConvt2_1.zip;下载后,解压安装即可。 “开始” “所有程序”处打开。需要先安装Java,Java下载地址:http:/;,Express Converter主界面:,ExpressConverter使用方法:,选择“Input FormatGenPix”,指定输入的文件格式; 选择“FileSelect input files”,选定一个或多个需要转换的文件;选择“FileStart converting”,格式开始转换。,待状态栏显示“Converting is successful”后, 格式转

4、换完成。此时在原genepix存放的文件夹中会出现文件名相同但扩展名不同的.mev和.ann的文件。,input,output,程序运行前,程序运行结果,MEV文件:MEV格式的芯片数据,MEV注释文件(后缀名为.ann),课堂练习,使用ExpressConverter将testdata.gpr转换成testdata.mev和testdata.ann。用记事本查看testdata.gpr,testdata.mev和testdata.ann。,ExpressConverter快捷方式: “开始”“所有程序”testdata.gpr:C:Program FilesExpressConverters

5、amples,MIDAS: 数据基本处理,下载地址是:http:/www.tm4.org/midas.html此程序不用安装下载后解压就可以使用。(需要先安装Java)进入文件夹,双击打开Midas.bat文件,会出现后台运行窗口和图形界面窗口。,低质量数据过滤,根据Flag过滤根据信号和背景值过滤,MEV文件:MEV格式的芯片数据,Flags in Mev file:,A 0 non-saturated pixels in the spotB 0-50 non-saturated pixels in the spotC 50 or more non-saturated pixels in t

6、he spotX spot is rejected, due to spot shape and intensity relative to backgroundY background is higher than spot intensityZ spot not detected by Spotfinder,good,由于样本差异、荧光标记效率和检出率的不平衡等因素,需对cy3和cy5的原始提取信号进行均衡和修正才能进一步分析实验数据,Normalization正是基于此种目的。,芯片内的数据标准化(Normalization),MIDAS 可选的数据处理方法,标准化处理方法,Total

7、Intensity normalization,低质量数据过滤方法,Invalid-intensity checking,LOWESS (Locfit) normalization,Iterative linear regression normalization,Iterative log mean centering normalization,Ratio Statistics normalization,Low intensity filter,Standard deviation regularization,Slice analysis (non-statistical),In-sl

8、ide replicates analysis,Flip-dye consistency checking,Ratio Statistics confidence interval checking,Signal/Noise checking,Cross-file-trim,Spot QC flag checking,MA-ANOVA,Cross-slide replicates t-test (statistical),Cross-slide one-class SAM (statistical),差异表达基因识别方法,芯片内的数据标准化(Normalization),A,A,MA plot

9、,In many microarray gene expression experiments, the general assumption is that most of the genes would not see any change in their expression. Therefore the majority of the points on the y axis (M) would be located at 0, since log(1) is 0.,M=log2(R/G),A=log2R*G,区块间均一化处理,用MIDAS处理单张双色芯片的基本流程,芯片数据的读入;

10、低质量数据的过滤;标准化(包括区块间的均一化);结果文件的输出。,MIDAS 程序主界面,可选的数据处理步骤,数据分析流程设计,各个处理步骤的相应参数,程序运行状况显示,Step 1:芯片数据的读入,Step 2:低质量数据的过滤,Step 3:标准化(包括区块间的均一化),Step 4:结果文件的输出,MIDAS统计作图(MIDAS Investigation窗口查看),log-ratios histogram(.his),Box plot (.box),Intensity plot (.ity),R-I (.prc),Intensity plot (.lty),课堂练习,使用MIDAS处理

11、testdata.mev,并查看结果文件;MIDAS程序位置:C:zcnishiyan3MIDAS2_19,双击Midas.bat打开程序;输入文件testdata.mev由ExpressConverter产生,在C:Program FilesExpressConverterSamples。,芯片数据聚类分析和差异表达基因筛选,基因表达研究中通常假设表达水平相似的基因可能参与相同或相似的生物学过程,因而它们具有相似的基因表达谱。 例: 在临床或诊断学等领域中,为研究某些疾病的发生机制,通常对正常组织和肿瘤组织细胞间的基因表达情况作比较分析,从中筛选出具有显著差异的表达基因。,下载地址:http

12、:/www.tm4.org/mev.html 。此程序不用安装下载后解压就可以使用(需要先安装Java)进入软件所在的文件夹(免安装),双击打开TMEV.bat文件,会出现后台运行窗口和图形界面窗口。,MeV 4.6.2支持的文件格式,MIDAS MEV, TAV 格式表格格式GEO格式Affymetrix格式GPR格式Agilent格式,MeV 4.6.2程序主界面,常用工具栏,导航栏,结果界面,芯片数据聚类分析和差异表达基因筛选,1 表格格式数据的读入与转化2 系统聚类法对基因和样本聚类3 使用SAM(significance analysis for microarrays)查找差异表达

13、基因,1 表格格式数据的读入与转化,1 选择“FileLoad Data”弹出导入数据对话框,数据起始位置,不同颜色表示相对表达量,样本名,基因名,Heatmap View,2 系统聚类法对基因和样本聚类,聚类分析结果图:,存储和注释感兴趣的分类:,单击鼠标左键选中目标分类使其高亮化;右键选择菜单中的Store Cluster,并设置注释的名称和颜色等信息。,3 使用SAM查找差异表达基因,不同实验类型,样本分组,SAM结果:Expression Images,SAM结果:Centroid Graphs,SAM结果:Expression Graphs,SAM结果:Table Views,课堂练

14、习,使用MeV处理TDMS_format_sample.txt ,并查看结果文件;MEV程序位置:C:zcnishiyan3MeV_4_6,双击TMEV.bat打开程序;输入文件TDMS_format_sample.txt位于:C:zcnishiyan3MeV_4_3data。,GenMAPP一款将芯片数据和代谢途径结合起来的图形化显示工具,Why Pathway Analysis?,Intuitive to BiologistsProvide a biological context for resultsMore efficient than searching databases gen

15、e-by-geneIntuitive data display for sharing data Computation on Pathway ContentAnalyze over-representation of changed genes on pathways and ontologiesGenerate and compare pathway signatures between models,下载地址: http:/www.genmapp.org;双击安装文件安装GenMAPP;打开GenMAPP程序,从菜单“DataDownload Data from GenMAPP.org”

16、下载自己感兴趣物种的MAPP文件和Gene Database。,GenMAPP安装和更新,GenMAPP基本概念,MAPP:描述了模式生物的代谢途径图。 目前MAPP数据库中包含了人(H.sapiens)、小鼠 (M.musculus)、大鼠 (R.norvegicus)、酵母 (S.cerevisiae)、 线虫 (C.elegans)、狗 (C.familiaris)、鸡 (G.gallus)、牛 (B.taurus)、果蝇 (D.melanogaster)和斑马鱼 (D.rerio)等模式生物。,Supported Species,Fruit flyHumanMouseRatWormYe

17、astZebrafishChickenDogCowMosquitoBy request:Any Ensembl speciesDatabases by other groups:Fission yeastE. coliSoon: Arabidopsis,心肌炎患者数据-脂肪酸降解途径,GenMAPP基本概念,Gene database:包含了上述物种所含基因的注释及其基因标识号(ID)。 对于每个基因,Gene Database会建立它在各个gene ID system中的对应关系。比如,Trp53基因在MGI(小鼠基因组数据库)中的标识号为MGI:98834,而在UniGene数据库中标识号

18、为Mm.222,在Ensembl数据库中标识号为ENSMUSG00000059552。,Step 1:打开“GenMAPP 2”程序。选择菜单“DataChoose Gene Database”按照实验物种选择合适的基因库。,Step 2:从菜单“FileOpen”打开相应的MAPP文件。,Step 3:从菜单“Data Choose Expression Dataset”打开表达量文件(.gex)并选择相应的颜色集。,Step 4: 点击感兴趣的基因查看注释,如何制作.gex表达量文件?,将芯片数据用Excel按一定格式整理,2. 将Excel另存为文本文件(txt后缀名或csv后缀名),可

19、在Data菜单“Expression DatasetsNew dataset”导入该文本文件。此时,程序会向用户提问文件中的数据是数值型还是文本型,对文本文件要在图示框中选勾,点击“OK”即可,一般Control Average、Treated Average、Fold Change和p-value为数值型,其他为文本型。,如何制作颜色集(color set)?,在菜单“DataExpression Dataset Manager ”界面下从菜单“Color setsnew”新定义一个颜色集。,课堂练习,在“开始”“所有程序”处打开GenMAPP 2程序;Gene Database文件位置:C

20、:GenMAPP 2 DataGene Databases;MAPP文件位置:C:GenMAPP 2 DataMAPPs;芯片表达量文件位置:C:GenMAPP 2 DataExpression Datasets;,芯片数据库介绍,常用的芯片数据库,NCBI GEO: http:/www.ncbi.nlm.nih.gov/geo/EBI ArrayExpress: http:/www.ebi.ac.uk/microarray-as/aer/?#ae-main0 Stanford Microarray Database: http:/genome-www5.stanford.edu/UCSC M

21、icroarray Database: http:/www.cbse.ucsc.edu/research/research_microarraydata.shtml,GEO (Gene Expression Omnibus) 主页,检索入口,登录提交入口,也可这样检索:NCBI主页Search “GEO Datasets”,以检索人类癌症相关的芯片实验为例,输入“human AND cancer”:,每条记录包含的信息:,Platform: 芯片信息。描述了芯片的特性,如 cDNA,寡核苷酸等。Sample: 样本信息。描述了单独的待测生物样本是如何从未处理状态到形成最后的提交数据。Serie

22、s: 系列信息。一个系列包括一组相关的样本,以及对整个研究的介绍。,Microarray Data Flow,Image Analysis,Raw Gene Expression Data,Normalized Data with Gene Annotation,Interpretation of Analysis Results,.tiff Image File,Gene Annotation,Normalization / Filtering,Expression Analysis,Data Entry / Management,GenMAPP 流程,导入数据,设置和应用颜色集,数据在代谢途径中图形化显示,原始数据的处理和准备,选定相应的代谢途径,代谢途径全局分析,个别基因分析,谢谢!,浙江加州国际纳米技术研究院,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号