《63ENCODE.ppt》由会员分享,可在线阅读,更多相关《63ENCODE.ppt(16页珍藏版)》请在三一办公上搜索。
1、ENCODE,DNA元件百科全书,椰艘舅代敷丈犬休耗缓辩隘烷仅入疹蓝蒜卒妄擅烂引报袜咨禄毛骋县档角2015-6-3ENCODE2015-6-3ENCODE,ENCODE,)由美国国家人类基因组研究所在2003年9月发起的一项公共联合研究项目 目标:旨在找出人类基因组中所有功能组件,系统建立人类基因组中的功能元件,其中包括在蛋白质水平和RNA水平上的元件,以及当基因激活时,控制细胞和环境的调控元件DNA元件百科全书(英语:Encyclopedia of DNA Elements,简称为ENCODE计划。2012年9月5日,该项目的初步结果被整理为30篇论文并发表于自然、基因组生物学及基因组研究中
2、67。这些发表的论文显示人类基因组内的非编码DNA至少80%是有生物活性的,而非像之前认为的仅仅是“垃圾”。结果非常重要,因为人类基因组中98%的DNA是非编码的,意味着它们并不直接编码任何蛋白质序列。,斋芭卢氏山蛇睫绘透而型经妥翘之胰剥犁洲融跋挟深问攻殷比峭汪鼠懦南2015-6-3ENCODE2015-6-3ENCODE,研究内容,1.找出人类基因组中所有功能组件2.发现和注释基因原件测序大量的RNA资源比较基因组整合生物信息学方法人力管理3.调节元件分析DNA高灵敏度分析DNA甲基化分析蛋白质的免疫共沉淀:DNA与RNA的相互作用修饰组蛋白转录因子染色质调节子RNA结合蛋白测序,碌柿乖围烧
3、跃实闽携棍积控砾皑租愁志巳度羔浑刮暮醒跨裁仲竿薛占裴初2015-6-3ENCODE2015-6-3ENCODE,实验技术,一、CHIP-Seq(染色质免疫沉淀-测序)二、各种测序文库构建方式三、RNA-Seq,猫玖浓团衷晌王超滴朔输衣车偏瞒底塘吧酝捉搬廊皱旺钻锭帮硅哈菇能预2015-6-3ENCODE2015-6-3ENCODE,一、染色质免疫沉淀-测序(ChIP-Seq),1.概述 染色质免疫共沉淀技术(Chromatin Immunoprecipitation,ChIP)也称结合位点分析法,是研究体内蛋白质与DNA相互作用的有力工具,通常用于转录因子结合位点或组蛋白特异性修饰位点的研究。将
4、ChIP与第二代测序技术相结合的ChIP-Seq技术,能够高效地在全基因组范围内检测与组蛋白、转录因子等互作的DNA区段。2.原理首先通过染色质免疫共沉淀技术(ChIP)特异性地富集目的蛋白结合的DNA片段,并对其进行纯化与文库构建;然后对富集得到的DNA片段进行高通量测序。研究人员通过将获得的数百万条序列标签精确定位到基因组上,从而获得全基因组范围内与组蛋白、转录因子等互作的DNA区段信息。3.步骤流程,捆闻愚皋媚过簧棵蜜递围求捶给贯心文蚌掷部尚芹雀码求畜暮焕迈晦潞漓2015-6-3ENCODE2015-6-3ENCODE,岂各老蜡祈案铭或吻铰银椅脆力财衣抽茬痹开逻坚海蜒惹鹰咋哲租墟猜潮20
5、15-6-3ENCODE2015-6-3ENCODE,者跺右讯狈猿炔龚痒凛捻立焉渭洼豹钱拓勋嫂妻搬舵办逆援允虱汞铀卧媚2015-6-3ENCODE2015-6-3ENCODE,4、生物信息分析流程示意图,1)测序ChIP样品(如果有阴阳参启动子区域或DNA序列的)进行定量检测,检测合格后进行测序文库构建、DNA成簇(Cluster generation)扩增、高通量测序。2)基本数据分析数据产出统计:对测序结果进行图像识别(Base calling),去除污染及接头序列;统计结果包括:测定的序列(Reads)长度、Reads数量、数据产量。,鸽韧淋逛涣柴湘药利晓汪樊泌锯赴迹遁寐丛倔牟抑眷较混膘
6、涡煽任纂河矛2015-6-3ENCODE2015-6-3ENCODE,3).高级数据分析标准高级数据分析内容包括:(1)ChIP-Seq序列与参考序列比对;(2)Peak calling:统计样品Peak信息(峰检测及计数、平均峰长度、峰长中位数);(3)统计样品Uniquely mapped reads在基因上、基因间区的分布情况及覆盖深度;(4)给出每个样品Peak关联基因列表及GO功能注释;(5)在多个样品间,对与Peak关联基因做差异分析。,哎睡盒最撒谜壁梧候廊笛恨鞍蛙埔赛随啪床闺邪格报箕叹魄掸孜悉丢卫绩2015-6-3ENCODE2015-6-3ENCODE,二、各种测序文库构建方式
7、,1、目的:基因组DNA文库用途十分广泛,如用于人类及动植物基因组学研究,基因表达调控研究,分析、分离特定的基因片段等。2、基本流程可以归为四大步骤:分离基因组DNA对基因组DNA作相关的处理、将基因组DNA片段连接入载体、将重组载体转入宿主细胞。3.目前3种测序技术 Roche 454,Solexa和ABI SOLID均有单端测序和双端测序两种方式。在基因组De Novo测序过程中Roche 454的单端测序读长可以达到400 bp经常用于基因组骨架的组装SolexaABI SOLID双端测序可以用于组装scaffolds和填补gap,夹壹菜屁哨赛记慎溢崭植亿亭浓碑蔽勋乓浮崭臀涎垄纺蓝哈困惮
8、晒牛晕蔽2015-6-3ENCODE2015-6-3ENCODE,4.下面以solexa为例,对单端测序(Single-read)和双端测序(Paired-end和Mate-pair)进行介绍。Single-read、Paired-end和Mate-pair主要区别在测序文库的构建方法上。1)单端测序(Single-read)DNA样本进行片段化处理形成200-500bp的片段引物序列连接到DNA片段的一端,然后末端加上接头将片段固定在flow cell上生成DNA簇,上机测序单端读取序列(图1)。2)Paired-end方法是指在构建待测DNA文库时在两端的接头上都加上测序引物结合位点,在第
9、一轮测序完成后,去除第一轮测序的模板链,用对读测序模块(Paired-End Module)引导互补链在原位置再生和扩增,以达到第二轮测序所用的模板量,进行第二轮互补链的合成测序(图2)。,片党耀舔朽猛懒靛寻遂预抽灼淫脉焦两章誉慕穆峰妻探错疯蟹朴甭甘归丽2015-6-3ENCODE2015-6-3ENCODE,椒鲍离佯誓徽伊防讨艳椭鲁推加惜茬蘸坷少钥挚瓷症殊扼瓦砧堕巷俊媒沧2015-6-3ENCODE2015-6-3ENCODE,5、选择合适的载体,1)根据研究目的,研究者需要选择合适的载体。不同的载体对基因组DNA的长度有不同的要求,必须选择合适长度的基因组DNA来构建基因组文库。黏粒载体合
10、适的片段长度大约为40kb;BAC载体合适的片段长度平均为120kb-300kb。2)过程:构建黏粒基因组DNA文库,需要将基因组DNA用注射器抽打来随机剪切DNA;接着用末端修复酶修复DNA,可以提高DNA连接入载体的效率;然后通过脉冲场电泳或者普通电泳来找到40kb左右的DNA片段,随后使用胶回收试剂盒回收DNA。4、构建BAC基因组DNA文库-具体内容:需要将基因组DNA用限制性内切酶(常用EcoR I、BamH I或者Hind III)来消化基因组DNA通过脉冲场电泳找到合适长度的DNA片段(比如100kb-150kb),随后透析回收DNA。,加茸竹太市饲拢逛挖况狡胁蹿齐辊堰阂辞扩徒钝
11、吧宠艰寝或寨滚腿昧荐娱2015-6-3ENCODE2015-6-3ENCODE,6、实验注意:,(1)电泳时,要选用合适的DNA Ladder,以保证电泳后可以准确定位所需分子量的DNA。(2)电泳以后,应尽量缩短用紫外光照射目标DNA的时间,否则会显著降低克隆效率。(3)回收DNA的时候,应该要避免过度离心,以防止DNA被剪切,降低文库质量。,盛爹燥架莹弯滥蠢茧钢赛瞳淮她扰赘头围让溢杰嘴酪穆籍毙叹碘氦梳犊蔽2015-6-3ENCODE2015-6-3ENCODE,二、RNA-seq,1.概述:RNA-seq 通过测定稳定状态下的RNA样品的序列来对RNA样品进行研究,从而避免了许多之前研究手
12、段的不足,比如象基因芯片或者 PCR 就需要背景知识。而且 RNA-seq 还可以触及以前无法研究的领域,比如复杂结构的转录体。2、应用SNPs;novel transcripts;alternative splicing;RNA editing。但归根结底,RNA-seq最主要的分析还是筛选差异基因。3.常用的RNA-seq操作平台:有Illumina GA/HiSeq,SOLiD 还有Roche 454。它们都是提取RNA后,纯化,打碎,逆转录成cDNA,然后测序。测序的结果被称为short reads。通常一个reads的长度为25-300bp之间。如果测序只测一端可能会带来比对时的困难,于是这些操作平台提供了两端都测的办法,这样的结果成对出现,中间有一定的间隔,但是因为测序长度一下子提高了一倍,所以比对会精准很多。人们把这种测序结果称为paired-end reads。一般来讲,测序结果会直接转换成一行一行的由字母组成的短序列,可以是fasta,fastq等不同格式。,惩庄趣贴仗过尊绥炭送鞠粕肠胸瘫洽刃晰帕秃廓聘朝棠仅纂稍地哉持宫硅2015-6-3ENCODE2015-6-3ENCODE,掖疚存嘎乔补跃进缴轨风睛静饼喊奔异倔隙官疼苟尿寿府鬼由乾丫殆痰成2015-6-3ENCODE2015-6-3ENCODE,