生物信息学ppt课件:7 转录组.pptx

上传人:牧羊曲112 文档编号:1785744 上传时间:2022-12-18 格式:PPTX 页数:64 大小:55.63MB
返回 下载 相关 举报
生物信息学ppt课件:7 转录组.pptx_第1页
第1页 / 共64页
生物信息学ppt课件:7 转录组.pptx_第2页
第2页 / 共64页
生物信息学ppt课件:7 转录组.pptx_第3页
第3页 / 共64页
生物信息学ppt课件:7 转录组.pptx_第4页
第4页 / 共64页
生物信息学ppt课件:7 转录组.pptx_第5页
第5页 / 共64页
点击查看更多>>
资源描述

《生物信息学ppt课件:7 转录组.pptx》由会员分享,可在线阅读,更多相关《生物信息学ppt课件:7 转录组.pptx(64页珍藏版)》请在三一办公上搜索。

1、转录组分析,张彩华20151031,1 转录组的定义,转录组: 广义转录组 是指某一生理条件下,细胞中所有转录和加工的RNA分子(包括 信使RNA, 核糖体RNA, 转运RNA和非编码RNA)。 狭义转录组 是指可直接参与翻译蛋白质的mRNA总和。,2 转录组的研究内容和意义,转录组的研究主要包括三个内容,发育调控,环境适应,免疫互作,发育调控,发育调控研究的核心内容是形态建成;形态建成是高等动植物外部形态和内部结构的起源、发育和建成的过程。例如:动物胚胎发育过程,植物种子萌发及形态建成等一直是研究的热点。,环境适应,含水量变化;新陈代谢变化(分解大于合成);激素变化(ABA/IAA/GA)光

2、合强度变化等;,光合作用下降;酶活性变化;破坏正常物质代谢(蛋白质分解,脯氨酸积累,破坏核酸代谢);激素变化。,SOD活性下降;光合作用变化;叶绿素含量降低;蛋白质分解;脯氨酸、甜菜碱含量变化,激素变化。,酶的变化,增加或分解(如混合功能氧化酶等),超氧化物歧化酶、蛋白质合成或DNA修复均会受到影响。,蛋白质变性;膜脂液化;有毒物质积累等;,低温及冻害,高温,干旱及洪涝,盐碱,环境污染,哺乳动物,植物,微生物,海洋生物,昆虫,免疫互作,自然环境中,动植物常会经历各种病原物(病毒、细菌、真菌、害虫)侵害,严重危害动植物生长、发育及健康。在长期演化过程中,为更好的适应坏境,动植物逐渐形成了多种与病

3、原物对抗的生理途径。,转录组的研究意义,转录组的研究不仅可以解释细胞或组织的基因组的功能元件,揭示分子成分,还可以用来认识生物学进程和疾病发生机制,同时,对基因及其转录表达产物功能研究的功能基因组学,将为疾病控制和新药开发、作物和畜禽品种的改良提供新思路,为人类解决健康问题、食物问题、能源问题和环境问题提供新方法。,3 转录组研究方法,三代转录组测序,基于杂交技术的cDNA芯片和寡聚核苷酸芯片,3 转录组研究方法,3 转录组研究方法,基于Sanger测序法的SAGE、 LongSAGE和MPSS,3 转录组研究方法,基于二代测序技术的转录组测序(RNA-Seq),3 转录组研究方法,RNA-s

4、eq的优势,4 转录组测序(RNA-seq)的原理和流程,样品制备(植物RNA提取的方法),4 转录组测序(RNA-seq)的原理和流程,1. 利用RNeasy Plant Mini Kit提取总RNA2. 利用TRIZOL试剂盒提取RNA3. CTAB法提取植物总RNA,RNA质检参数OD260/OD280,OD260/OD230 A230: 测定其它碳源物质,如酚,糖类等。 A260:核酸的吸收峰测,测RNA,DNA,引物等的浓度用的。 A280:蛋白质的吸收峰。RIN值:RIN=RNA integrity number,即 RNA 分子完整数,从 0-10,直接反应了 RNA 质量的好坏

5、,此数值越大表明 RNA 质量越好越完整。,4 转录组测序(RNA-seq)的原理和流程,RNA样品检测,RIN=6.0,RIN=10,合格标准:1. rRNA 比率28s/18s 1.1, RNA完整系数(RIN) 7 2. 28s和18s条带明显(变性琼脂糖凝胶电泳) 3. 比率260nm/280nm 2.0 (分光光度计测量)。,4 转录组测序(RNA-seq)的原理和流程,RNA文库构建,文库库检,4 转录组测序(RNA-seq)的原理和流程,文库构建完成后,分别使用Qubit2.0和Agilent 2100对文库的浓度和插入片段大小( Insert Size)进行检测,使用Q-PCR

6、方法对文库的有效浓度进行准确定量,以保证文库质量,上机测序,5 转录组分析方法,测序数据处理和过滤,测序数据以fq格式保存:,碱基质量值 = (字符的)ASCII值 64/33范围:2-40 碱基质量值与测序错误率的对应关系:Qphred = -10 log10(e),5 转录组分析方法,测序数据过滤:1.去除含接头的reads;2.去除 unknown bases(碱基N) 比例高于5%的reads;3.去除低质量reads(一个read中质量值 7 的碱基含量高于65%)数据要求:1.Q20%80%;2.有效数据量达到要求;NewMaster:/home/share/users/zhang

7、caihua2013/projects/Pop.Timeseries.Transcriptome/NaCl/02.filter_fastq_gz.pl,5 转录组分析方法,5 转录组分析方法,两种组装思路,Assembly-first (de novo) Trinity SOAPdenovo(-Trans) (Trans-)AByss Velvet OasesMapping-first (reference-based): Tophat Cufflinks Scripture,5 转录组分析方法,5 转录组分析方法(de novo组装), de novo组装流程,5 转录组分析方法(de no

8、vo组装原理),对于一个给定的read: GTCGAGGread长度:7bps取kmer长度为4bps如下:,构建De Brui jn 图:,5 转录组分析方法(de novo组装原理),5 转录组分析方法,简化,5 转录组分析方法(de novo组装原理),纠错:Tips removed,5 转录组分析方法(de novo组装原理),纠错:Bubbles removed,5 转录组分析方法(de novo组装原理),解开短的重复序列(If therere reads assigning one outgoing branch for each incoming branch),5 转录组分析

9、方法(de novo组装原理),构建Scaffold:Map reads to contigs,5 转录组分析方法(de novo组装原理),Contigs are connected by paired reads to form a scaffolding graph,将reads比到 scaffolds ,根据 overlap 在gap处延伸,5 转录组分析方法(de novo组装原理),Trinity,5 转录组分析方法(de novo组装),5 转录组分析方法(de novo组装),1. 构建kmer库(k = 25);2. 去掉潜在的测序错误k-mer;3. 选取最高频的k-mer

10、 作为种子进行组装;4. 将种子序列向两边延伸, 使用过的k-mer 从库中去除掉;5.若序列不能继续延长,则输出该contig;6. 重复第3-5步,直到kmer库中的所有kmer被用完。,Inchworm,5 转录组分析方法(de novo组装),1. 利用contig之间的overlap关系,将具有k-1个 overlap关系的contig作为一个cluster;2. 对每一个cluster,以k 1作为节点,构建一个De Bruijn graph;3. 通过比对,将reads分配给contig(该reads至少必 须有k-1个碱基与contig有overlap)。,Chrysalis,

11、5 转录组分析方法(de novo组装),1. 对De Bruijn graph图进行简化,将连续的节点合并。2. 利用reads的支持关系,去掉不可信的边,最后输出转录本序列。,Butterfly, 聚类去冗余步骤,5 转录组分析方法(de novo组装),1.所有scaffolds用mgblast进行相似性比对2.以scaffold作为节点,以scaffold之间的相似性作为边连接形成 一个图,每一个连通的子图作为一个类(cluster)。3.对每一个cluster,用CAP3组装软件分别进行组装,得到 consensus序列(构建UniGene)。, 聚类去冗余工具,5 转录组分析方法(

12、de novo组装),TGICLCAP3(或phrap)Cd-hit,NewMaster:/home/users/luowenchun2010/Project/LuSongShaxi/03.cap3/CAP3,1.Contig长度分布、Scaffold长度分布、Unigene长度分布;2.N50:将序列按照长度递减累加,当累加之和刚好大于 总长度的一半时,最后被累加的那条序列长度, 即为N50;3.组装准确性(注释,近缘物种之间相似性分析)。, 组装评估,5 转录组分析方法(de novo组装), 预测CDS,5 转录组分析方法(de novo组装),使用transdecoder从trinit

13、y的转录本中提取coding region,得到对应 的protein序列 ,利于下一步的功能注释。,OldMaster:/home/share/software/trinity/trinityrnaseq_r20131110/trinityplugins/TransDecoder_r20131110/TransDecoder,按优先级数据库顺序将Unigene序列与以上 蛋白库做blastx比对,如果某个Unigene序列比对上高优先级数据库中的蛋白,则不进入下一轮比对,否则自动跟下一个库做比对,如此循环直到跟所有蛋白库比对完。我们取blast比对结果中rank最高的蛋白确定该Unigene

14、的编码区序列,然后根据标准密码子表将编码区序列翻译成氨基酸序列,从而得到该Unigene编码区的核酸序列和氨基酸序列。,比对不上的Unigene用软件ESTScan预测其编码区。,NRKEGGSWISS-PROTCOGGO, 功能注释,5 转录组分析方法(de novo组装),GO(gene ontology) 基因本体,是对基因或者蛋白质进行注解和分类的系统。三个本体(Ontology): 分子功能(Molecular function),元件的活性。例如:结合活性、 催化活性 生物过程(Biological process ),某些代谢过程从开始到终止的过 程。例如:嘧啶代谢、 配糖基的运

15、输 细胞组分(Cellular component),基因产物的位置。例如: 细胞核、线粒体基质。, GO数据库,5 转录组分析方法(de novo组装),功能注释,5 转录组分析方法(de novo组装),1.去掉较短的组装序列(如要求:L 200);2.对数据库进行物种分类(近缘种);3.blastx比对,得到同源蛋白序列,对unigene进行功能注释。,表达量的计算,RPKM :Reads Per Kilobase per Million readsFPKM :Fragments/Reads Per Kilobase of exon per Million fragments mappe

16、d,Xt :map至该基因的外显子上的片断数M :所有map至基因组的测序reads的碱基数Lt:该基因外显子碱基全长,Nat Biotechnol. 2010,28(5):511 Bioinformatics 2009, 25(8):1026 Geno Biol. 2010, 11:R106,5 转录组分析方法(de novo组装),= 10 6 Xt / 10 3, 表达量的计算,5 转录组分析方法(de novo组装),Final.assembly.fa.1.bt2 Final.assembly.fa.2.bt2Final.assembly.fa.3.bt2 Final.assembly

17、.fa.4.bt2Final.assembly.fa.rev.1.bt2 Final.assembly.fa.rev.2.bt2,NewMaster:/home/share/users/zhangcaihua2013/projects/Pop.Timeseries.Transcriptome/NaCl/01.Bowtie2/4.RPKM.pl, 表达量,5 转录组分析方法(de novo组装), 差异表达基因(DEGs),5 转录组分析方法(de novo组装),NewMaster:/home/share/users/zhangcaihua2013/projects/Pop.Timeserie

18、s.Transcriptome/NaCl/03.edgeR/2.run_edgeR.pl.sh,FDR= 2,5 转录组分析方法(Reference-based 组装),Tophat and Cufflinks,5 转录组分析方法(Reference-based 组装),Tophat and Cufflinks pipeline,5 转录组分析方法(Reference-based 组装),转录组重构,Bowtie第一步建库:/opt/blc/genome/biosoft/bowtie-0.12.8/bowtie-build *.fa *.ebwt 第二部比对:/opt/blc/genome/b

19、iosoft/bowtie-0.12.8/bowtie,Tophat/programs/tophat -o TophatOutputPE/ -p 8 /programs/indexes/hg19 Experiment1.r1.fastq Experiment1.r2.fastq,5 转录组分析方法(Reference-based 组装),表达量的计算,cufflinkscufflinks -p 8 -G transcript.gtf -library-type fr-unstranded -o cufflinks_output tophat_out/accepted_hits.bam,5 转录

20、组分析方法(Reference-based 组装),差异表达基因的筛选,5 转录组分析方法,https:/,5 转录组分析方法,同源基因鉴定(Orthologs),5 转录组分析方法,几种简单的聚类方法,简单聚类 层次式聚类 K-means聚类 SOM自组织映射神经网络,热图,K-means聚类,SOM 自组织映射聚类,5 转录组分析方法,K-means聚类,1 导入已经标准化的数据,3 计算FOM值,5 转录组分析方法,K-means聚类,5 转录组分析方法,K-means聚类,6 聚类参数设置,7 聚类结果,5 转录组分析方法,K-means聚类,8 图片结果保存, GO,5 转录组分析方

21、法,Blast2GOWEGO, COG, 功能富集,5 转录组分析方法, GO功能富集,5 转录组分析方法,SI S2 S3,PHYA、PHYB:红光或远红外光信号基因,参与花芽发育早期的调控,S1到S3逐渐下调。,6 与研究背景相关联,实验设计:来源于20个生长区域的珊瑚2个环境(29、35)2个时间(5h、20h)共152个样品。,测序方法及数据量:HiSeq2000,SE50bp;每个样品平均1M 的reads,6 与研究背景相关联,1.数据组装:经组装得到33469条unique contigs,并与UniProt、KEGG及GO等进行比对注释。,2. 差异基因分析:在处理组样品中,共

22、检测到8372个差异基因,其中部分基因在处理5h后表达量回复正常。,1.对照组中相同时间点之间样品整体差异较小,但处理时间跨度较大的2个样品间差异明显增大;2.对照组与处理5h后样品间基因表达模式明显不同。随处理时间增加,部分与高温胁迫相关的转录本表达会恢复到处理前;3.受温度胁迫瞬时表达的差异基因主要出现在处理5h后的样品中,而非处理后20h样品中。,6 与研究背景相关联,研究结果-PCA分析表达模式,TRAF3应答因子与珊瑚褪色表现出极度正相关。在处理过程中,TRAF3低表达时珊瑚褪色不明显, TRAF3高表达时珊瑚褪色最明显。,将处理20h后基因的表达与珊瑚褪色观测值进行关联分析,仅5.3%的contigs与珊瑚褪色为正相关,大部分contigs延迟应答。,研究结果-测序数据与表型数据关联分析,6 与研究背景相关联,谢谢!,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号