《数据处理流程》PPT课件.ppt

上传人:牧羊曲112 文档编号:5519474 上传时间:2023-07-16 格式:PPT 页数:36 大小:908.50KB
返回 下载 相关 举报
《数据处理流程》PPT课件.ppt_第1页
第1页 / 共36页
《数据处理流程》PPT课件.ppt_第2页
第2页 / 共36页
《数据处理流程》PPT课件.ppt_第3页
第3页 / 共36页
《数据处理流程》PPT课件.ppt_第4页
第4页 / 共36页
《数据处理流程》PPT课件.ppt_第5页
第5页 / 共36页
点击查看更多>>
资源描述

《《数据处理流程》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《数据处理流程》PPT课件.ppt(36页珍藏版)》请在三一办公上搜索。

1、,数据处理流程,计算机集群,测序控制PC,测序仪,1.控制测序过程决定测序长度、填加试剂、控制温度、控制反应时间、拍照2.图像分析对测序仪拍照的图片进行图像分析,得到亮点的光强度和坐标3.basecalling由光强度得到碱基序列,4.数据传输将basecalling结果(二进制文件bcl)传输到计算机集群的存储上,5.数据处理将bcl文件转化为后续信息分析所使用的文本文件(fastq,qseq)6.index拆分7.数据质量分析8.数据备份9.后续信息分析.,图像分析及basecalling基本原理,Cycle1 Cycle2 Cycle3,对A发出的光拍照,对C发出的光拍照,对G发出的光拍

2、照,对T发出的光拍照,图像分析及basecalling基本原理,Cycle1 Cycle2 Cycle3,由4个cluster得到4条序列:ATA.CCT.GCG.GAC.,图像分析,对每个图片独立的处理图像锐化对图片进行快速傅里叶变换(FFT),在傅里叶空间乘以滤波函数后反变换识别cluster/亮点信噪比(亮度/背景值)大于阈值的亮点区域计算亮点光强度和位置坐标在亮点区域,对光强度进行二维插值,求出最大光强度,以及最大光强度对应的位置坐标,将同一个tile的所有图片中的亮点坐标对齐重叠不同图片之间存在偏移/拉伸/压缩(offset)系统、稳定的:4种光折射率不同、滤波片不同、光路不同,所以

3、造成成像的偏移/拉伸/压缩,可利用crosstalk,计算出偏移/拉伸/压缩的数值(offset参数)偶然、随机的:flowcell表面不平、自动调整焦距、机械移动不够精确、随机振动,可利用crosstalk解决,CrosstalkAC光谱间有交叠,GT光谱间有交叠,所以:碱基A的图片中包含C发出的光碱基C的图片中包含A发出的光碱基T的图片中包含G发出的光不利:不能直接比较光强度大小而得到碱基有利:利用图片中共同的亮点,将所有图片对齐重叠,解决offset问题,图像分析流程,Template Generation利用AC之间的crosstalk、GT之间的crosstalk,将前 2个cycl

4、e的图片,与第一个cycle的A的图片对齐重叠,确定所有cluster的位置坐标(x,y),Registration and Intensity Extraction对于每一个cycle:将4张图片(ACGT)中的所有亮点与cluster坐标(x,y)对应,计算每个cluster的4种光强度,对每个图片独立的处理图像锐化、识别cluster/亮点、计算亮点光强度和位置坐标,Template Generation利用AC之间的crosstalk、GT之间的crosstalk,将前 2个cycle的图片,与第一个cycle的A的图片对齐重叠,确定所有cluster的位置坐标(x,y),图像分析结果

5、,Basecalling,Crosstalk 校正4种光强度归一化(用DNA样品计算参数),Phasing/Prephasing校正(用DNA样品计算参数),对于每个cluster:在每个cycle中,比较4种光强度,光强度最大的就是当前cycle测到的碱基,各cycle测到的碱基连起来组成这个cluster的碱基序列;计算每个碱基的质量值,4种光强度归一化,A,C,G,T,phasing,Sequencing primer,prephasing,Basecalling结果:qseq文件,每一行表示一条reads(一个cluster)每行有11列,tab分隔:机器编号、run序号、Lane号、

6、Tile号、X坐标、Y坐标、index标志、read1/read2标志、碱基序列、质量序列、是否通过默认的质量筛选标准 Single-end(SE)测序:1个qseq文件 Pair-end(PE)测序:2个qseq文件分别存放read1和read2的数据;2个文件的同一行属于同一个cluster 每条序列(reads)长度=上机测序循环(cycle)数量;测序cycle数量受测序试剂盒的试剂量限制,对于GA有:36SE、36+7/8SEindex、45PE、36+7+45PEindex、76PE、74+7+76PEindex、73+8+76PEindex、101PE、101+7/8+101PE

7、index 等 对于Hiseq:91PE、91+8+91PEindex、101PE、101+8+101PEindex,Basecalling结果:qseq文件,fastq文件,每4行表示一条reads(一个cluster)第一行:序列ID,包含index序列及read1或read2标志:第二行:碱基序列,大写“ACGTN”第三行:“+”,省略了序列ID第四行:质量值序列:字符的ASCII码值-64=质量值 Single-end(SE)测序:1个fastq文件 Pair-end(PE)测序:2个fastq文件分别存放read1和read2的数据;Read1的fastq文件*1.fq中第一条rea

8、ds:FC61FL8AAXX:1:17:1012:19200#GCCAAT/1CCACTGTCATGTGAACATCACAGAGACATTTCTTGA+bbbbbbbbbbabbbbbbbbbbbbbbaaaaaaaaa_Read2的fastq文件*2.fq中第一条reads:FC61FL8AAXX:1:17:1012:19200#GCCAAT/2AAAATTAGCCAGGCAATGGTGGTGCATGCCTTTAATCCCAGCTA+QVVVVYVYWWYPWYYTYYWUYYYVVWW,质量值FC61FL8AAXX:1:17:1012:19200#GCCAAT/1CCACTGTCATGTG

9、AACATCACAGAGACATTTCTTGA+bbbbbbbbbbabbbbbbbbbbbbbbaaaaaaaaa_表示方法 Illumina:字符的ASCII值-64=质量值(Sanger:字符的ASCII值-33=质量值)范围 GA Illumina1.3+(09年3月之后):2,35 B,c GA Illumina1.0(09年3月之前):-5,40;,h Hiseq:2:38 B,f质量值与错误率理论关系:Q=-10 log10(e)质量值计算方法:根据光强信号信噪比、光强度衰减、GC含量等参数,计算质量值,fastq文件,fastq文件,每条序列(reads)长度read1和rea

10、d2分别去除了最后一个碱基,即:36 SE 有效长度为 35101 PE 有效长度为 100(read1)+100(read2)101+8+101 PEindex 有效长度为 100(read1)+100(read2)Read1中所有reads长度相同,Read2中所有reads长度相同,但是Read1和Read2长度可以不相同,取决于上机测序循环(cycle)数量 质量筛选(PF):Illumina标准流程输出的fastq文件,去除了qseq文件中没有通过默认质量筛选标准的低质量序列(reads)GA正常PF比例:DNA 8090%,RNA 7085%每个Lane的正常产量范围:GA 203

11、0M PF reads Read1和Read2各有2030MHiseq 6080M PF reads Read1和Read2各有6080M碱基总产量=Read1的产量+Read2的产量=reads数量(Read1的长度+Read2的长度),fastq文件产量(GA),fastq文件产量(Hiseq vs GA),文库质控问题1:Pair-end关系,800bp及以下文库,与参考序列比较或者:总之,Read1,Read2与参考序列比对结果:一正(F)一反(R),且F的位点坐标小于R的位点坐标,Read1,总之,Read1,Read2于参考序列比对结果:一正(F)一反(R),且F的位点坐标小于R的

12、位点坐标文库插入片段长度,F,2100检测报告文库长度分布,与参考序列比对得到insert-size分布,正常insert-size分布,基因组DNA,外显子,PCR-free文库,异常insert-size分布,2K及以上文库,文库质控问题1:Pair-end关系,与参考序列比较或者:总之,Read1,Read2于参考序列比对结果:一正(F)一反(R),且F的位点坐标大于R的位点坐标,正常insert-size分布,2K,56K,PCR-free文库,10K,异常insert-size分布,文库问题2:adapter污染,空载:adapter与adapter直接连接,中间没有插入片段,导致r

13、ead1测到3adapter,read2测到5adapter的反向互补reads尾部测到adapter 插入片段过短插入片段长度小于上机测序循环(cycle)数,导致read1尾部测到3adapter,read2尾部测到5adapter的反向互补,adapter空载较多导致碱基含量波动,客户PCR引物污染导致碱基含量波动,文库质控问题3:文库随机性,GC含量偏差:实验技术(打断、PCR、测序)本身特点,导致高GC和低GC区域测序覆盖度偏低,甚至某些区域覆盖不到;PCR-free建库技术可减少PCR带来的随机性问题 duplication PCR扩增出很多一模一样的母版分子,测序结果中很多条re

14、ads是一样的;基因组自身重复序列含量高导致duplication偏高;数据量越大,duplication比例越高,文库质控问题4:其它物种、样品污染,测序质控问题,raw Cluster密度 正常raw Cluster密度:2030万/GAtile,200350万/HiSeqtile Cluster制备时,控制文库浓度,达到适当的raw Cluster密度 密度过低产量低;密度过高质量差 样品差异:200小片段能够容忍的密度较高,800bp片段以及RNA样品、特殊样品,应适当降低密度 通过默认质量筛选标准比例(PF)用read1前25cycle的信噪比进行筛选;正常PF比例:DNA 80%,

15、RNA 70%;raw Cluster密度越高,PF比例越低;当raw Cluster密度超高时,图像分析识别出的raw Cluster数量小于真实值,此时PF比例会低于正常;,测序质控问题,光强度信号 受到环境温度、测序仪温度控制、测序仪聚焦、CS试剂、测序试剂、样品等因素共同影响;测序长度越长,光强度降低越多;碱基含量不均匀的样品,光强度会有波动,但属于正常 碱基含量 样品本身 测序问题导致有偏向性的测序错误 质量值 Q20:质量值大于等于20的碱基数量/所有碱基数量 reads尾部质量低 Error-rate 与参考序列比较,能够map的reads中:错误的碱基数量/(正确的+错误的碱基总数);与参考序列质量有关;人、小片段文库:101PE 1%2%环化大片段error-rate高于小片段文库 reads尾部error-rate高,正常光强度、碱基含量、质量值、Error-rate,异常光强度、碱基含量、质量值、Error-rate,异常光强度与碱基含量,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号