《基因重组分析软件RDP4分析演示.docx》由会员分享,可在线阅读,更多相关《基因重组分析软件RDP4分析演示.docx(10页珍藏版)》请在三一办公上搜索。
1、1、要分析一个重组事件,首先需要一些基础软件的支持,其中最重要的是mega。2、打开一个.meg格式的文件:左击鼠标open按钮。3、点击页面顶端options按钮,进入General页面选择一系列参数:选择你的序列是环状还 是线性,检测所需要的方法,建议选择默认的选项(RDP, GENECONV and MAXCHI)你选 择的方式越多,消耗时间越长。如果你分析的是小型数据(小于50个序列),你还可以 选择CHIMAERA,BOOTSCAN和SISCAN。一般不使用LARD方法,除非在验证重组时间 或检测小于20个序列的数据时。再看右边的选项,在你第一次分析数据时,应该选上 disentan
2、gle overlapping events选项,如果分析时卡住了再取消分析,把这个选项删掉就 可以了。其他选项选择默认就可以了4、一旦所有选项都调试好之后,左击主界面上的X-over按钮开始进行重组分析。如果你认 为耗费的时间超出了你的预期,你可以点击stop按钮,如果你不想分析其中的某个序列, 可以点击Sequence display界面中右侧序列的名字,左击一下名字变灰,为mask这个序 列,即对这个序列不进行重组分析,但依然作为参考序列在做树中显示出来;左击两下 名字变白,disable这个序列,即完全除去这个序列。这样的处理可以提高分析重组的能 力,集中精力分析你需要的序列。5、 分
3、析完毕后出现四个界面,顺时针方向依次为Sequence display,The recombination informationdisplay.,Schematic sequence display 以及 Plot display。下面分四个部分具 体讲解。1. The Sequence DisplaySeq u en g display-. .Seq ue=n ce n am.Pdmitian indicator.,T&ggIe:5equence displ1I dentity di平layId entity i ndicator.v-Toggle identity display.tSJ
4、.0.y.ffi. 3Xl鼠乏&.9戈j魏奶;左击序列中的部位可以显示不同颜色代表的含义TACTACTkCCAkAGTGCTACTACTkCCAAAGTGJ 100 Identity* T羿 Identity 50 冬 Iderrtrty 25% Identity网 IdentitykGTGCJgcgciLGTGCiGTGCIlGTGCLGTGCTATTACTkCCILIGTGCHcHctHcHa kUGTGC鼠标悬空在某个核苷酸上会显示出该核苷酸处于何序列的具体位置。右击鼠 标可以保存不同形式你想要的序列。Infti_pTn TTATGTG 7TA.TGT: TATGTO TTA/GTG T
5、TACGT- TTATGT7 7TAJGT.J TTATGTC TTATGTG CCGKT TATGT 7TATGTT TTATGTG tTCGTT 7TATGTG TATGT- T巳广口 mTir.TlclTrlr2.Trlr.TlrlTTl-LiT LCCCCCCCCCCCCCCCC1 T TrT TrT-r-TECLTn-匚 c c r-ILT巧TGTGLGTIrI TJ r r nJ rJ - r r r r r I r r A .J-.A .J- .A.-I,- .AI-.A *IAuilA.lA.AlAIAijl.ia.uiIA.IA.IJL1A1A.F H KPCCFCCEFCC
6、CC飞籍 pccpl_l_ J MX J CCTAA1 AGTHC: CCiCCAAAl CCj.AAL c -I- IT- CGSave nlirs eftiisnlT GrayT MqILsA QXlBVI Hht hMrfhc也RDPGENECD般diimarticin Tabi z:* geqg demoted 卜11111lstitbuttil allgrnent fviti. reconbinant rcgianz sepaittdj5ali gTin*rit vi th rc*c inbi nunt i bquA7b20E rcadSave aligmnent with recc
7、nbinant regions renure 1Split EJ-igrijrbGXLt inte rriultiplb riflw cl】 gTiQirts: bused g i:t4t4d brdqoint poELtioiLE Split the alipuneEit into rultiple nev alienrieiits lased un detected reccobLriajits Save onlp enailed zequejiceaS b.v c-Tbly di 0.bLad SQqu4itc4 sParsimony 0| HND8Save entire alignme
8、nt.:保存整个比对结果,可以保存成多种形式。Save alignment with recombinant sequences removed:保存没有重组序列的比对 结果。即在plot display板块中为一个完整的长条的序列。Save alignment with recombinant columns removed.:将去除所有与重组相关的 序列,如果一个比对结果中与重组相关的序列太多,很可能结果是一个空白 或接近于空白。Save alignment with recombinant regions removed .:所有与重组相关的核苷酸 将被取代为一或.Save alignm
9、net with recombinant regions seperated.:重组序列将被分割成两部 分,一部分与重组无关,一部分是重组部分。可以分别与其他序列进行比对。Split alignment into common mosaics.:具有同一重组镶嵌体的序列和其余的非 重组序列被分裂为两个单独的比对结果。Save only enabled sequences.:只有被enable的序列才会保存。这个选项有助于手动将同一组的序列保存成新的比对结果。Save only disabled sequences.:只有 mask 和 disable 的序列被保存下来如果你想单独分析某一组序列
10、,右击鼠标选择select groups,点击你想选择的 序列,变为蓝色即为选中,未选中的为黑色。如果你想专门看某个序列,右键点击go to ,然后在schematic sequence display 中会显示这个序列。5、The Recombination Information Display这些信息包括用于检测的方法,重组事件的编号,可能的断点,序列的名字,可能的突变 位点,与该重组毒株密切相关的,可能父母代的序列名字(主要和次要的父母)和次要父 母代毒株比主要父母代毒株与重组序列的关系更密切的概率,以及?值的大小。如果出现以下情况,该界面还会出现warning标示(红色):(1)在比
11、对序列中只有一个可能为父母代毒株的序列(2)有可能(约30%或更大的可能)误认为重组序列(即实际上父母代的序列中的某个才是真正的重组毒株) 如果是这样会在后面显示出实际上可能为重组毒株的父母代毒株的名字。(3)无法识别出一个或全部两个突变位点。(4)一个或两个突变位点是错位的。(5)重组信号微弱(6)如果复合信号可能是一个分析错误的人工制品。“confirmation table”部分表明了用不同方法检测出发生该重组事件的毒株数和关于目前 检测到的重组事件的符合程度Confirmation table下面是一个总结性的柱状图,对于99%的用户来说前三条柱状图代表的是有 用的信息。柱状图下面的分
12、数大于60分代表这该毒株几乎确定为重组毒株。大于40小于60的 分数代表软件可能犯了错误,但也可能没有。小于40表示该毒株很可能不是重组毒株。BackgroundregionSave subsequenceRecombinantalignmentCycle throughdisplay optionsCurrent viewFigure 2. The schematic sequence display6、Schematic sequence display每一个长条都代表一个重组序列。不同的颜色可以代表不同的意思:1. 每一个最可能为重组事件供体的序列被赋予独一无二的颜色。2. 用于检测重组
13、序列的方法。3. 他们相关的P值4. 它们与推测的父母代序列之间的关联性大小。可以通过cycle through display options”选项t改变颜色。而这些颜色代表的意思可以通过左 击击灰色部分看到。右击鼠标灰色部分可以将该图拷贝到剪贴板或保存成.emf文件。该图表可以转换三种模式(1) “Show all events for sequence X” (sequence X是你的鼠标 距离最近的序列)(2) “Show only best events for all sequences,” and (3) “Show all events for all sequences.B
14、是有的重组事件可能用所有方法都可以检测到,而有的重组事件只有一 到两种方法可以检测到。如果你选择(2)的话只有最优的重组事件会显示出来(即P 值最低)。你可以通过键盘上的PgDn和PgUp浏览重组事件。在序列彩色条上右击鼠标会出现一系列的选项,你可以通过“接受或不接受该重组事件” 选项来人为修改你认为RDP出现的错误,也可以将父母代供体和重组毒株相互调换,但 必须慎重,因为这个调换是不可恢复的,如果你要取消调换只能重新分析。而且,尽管 RDP可能出现错误,但它至少是一个客观的判断方法,没有人的主观性。所以,除非你 有充足的理由,否则不要随便调换。在你浏览这些重组序列的时候,应该时刻accept
15、你认为正确的重组序列,这样有利于你 记录自己的进度,也有利于修改RDP的错误,因为一旦RDP在这里出现错误,那么它 在后面出现错误的几率也会增大。所以,在accept之后就选择选项栏的Re-Identify recombinant sequences for all unaccepted events 或者点击下面的“Re-scan”按钮重新进彳亍 分析。检测RDP的误差可以通过选择show all evidences选项 来观察不同方法检测到的重组事 件的breakpoints是否不同,如果不同的话就值得你人工去观察到底哪个是正确的。如果 你认为两个重组事件来源于一个祖代毒株,可以选择通过M
16、erge events选项将其合并为 一个重组事件7.The Plot DisplayKeyPress to abort a checkPlot displayPress to select methodP-value cutoffX and Y coordinates of the mouse pointerFigure 4. The plot display. See section 8 for details on what is plotted.双击这个区域的任何位置都会在上方的sequence display panel显示出相应的序列。鼠标移动到任何位置都会显示出X轴和Y轴的数值。
17、5.5 The Tree Displays如果你按下“tree按钮,一系列表示该重组毒株与其他毒株关系的树将会以两种不同的方式展示如果单击屏幕顶部在命令面板的“tree”按钮两棵树将会并排显示。而如果你按下recombination information display 上方的“Tree”按钮则会在该区域显示一株进化树。JITG-J-Ci. iTCTC( ATGTCi: ATiJCi:Raartial rstombinaiTtwith eviden&t of the sbitis reoombir囱ionFtcercial nrwr paremPocertlal m 距h parentUPG
18、Ma goring recombnatmCELOFo_adenalruFovd Fd料1 Fov.dadenairuadenairu adenairuHake FoL_aiiejiDVLm the najar jar entMake FwL-Nen 商 ru the nincir jar entGo to FowL_ai&nDvirTiectieck plot th. Tovl.aiienaviixL.FD闸郁即 Whj .rDwl_sdenovru FDwl_Qdeno?ru -Fpffljdcnoyru iaI adenavlruin点击右上角的“ cycle through trees
19、”按钮即可以用该序列的不同部分进行做树分析。包 括:(1)根据重组序列的不同部分分别作树(2)只有已确认的重组区域做树(即用minor parent部分)(3)只用已确认的非重组区域做树(即major parent部分)(4)忽略重组 的所有区域做树。在同一个页面显示两棵树可以追踪一个序列在不同区域做树后的变化,左击 树上的某个序列可以标记这个序列在树上的位置。在树的部位右击会出现一系列 的选项,比如“清除颜色”“自动选择颜色”“自主选择颜色”等,可以把树上 的序列分别弄上不同的颜色。你还可以选择不同方法做树,包括: neighbour joining, least squares, maxi
20、mum likelihood, and Bayesian trees.“Mark sequence name as also having evidence of this event” 和“Mark sequence name as not having evidence of this event.”选项可以使你在树上手动修改你认为RDP所犯的错误, 就是如果你认为这个序列不属于这个重组事件你可以把它从该事件中剔除,或这个序列 本应属于该重组事件,但RDP把他排除在外了,你可以认为把它加进去。“Go to sequence name ”选项可以指引你在schematic sequence
21、display板块看到这个序列。”Recheck plot with sequence name as recombinant/minor parent/major parent ”选项可以 使你看到如果你替换了重组序列/次要母本/主要母本(即树中的红色、蓝色和绿色序列) 其中的一个序列后,进化树会变成什么样子。The Matrix Display点击主面板上的Matrix选项,就会显示出矩阵图像,有好多种矩阵的显示方法供你选择。右击鼠标或者点击主面板上的下拉三角都可以选择。8.1如果你确定一个重组事件真的发生了,这时你就要仔细检查RDP有没有准确判断出重组 发生的位点,和有没有夸大或过小分组
22、的现象,你就要用其他RDP提供的附加应用进行 验证。AAGGCGATAGCAGGTAGGCTTATATTACGGCATAACGCGATTGCAGGAAGGCATATGTTATGGCATAAGGCGATTCCTGGAAGCCTTACGTAATGGCATAAGGTGATAGCAGGTAGCCTTACATAATCGCATAAGGCGATAGCAGGTAGGCTTACGTTATCGCATAAGGCGATAGCAGGTGGCCTTACATTATGGCATMultiple sequence alignmentRecord significant evidenceof recombinationP =GxN
23、xGAGATGTTATCCTGAAGATGTTGTCTACTCGATSelect three sequences and discard all non-informative sitesRepeat with the nextthree sequences)pNX(1-p)N-m *Calculate significance where:G is the total number of of possible sequence tripletsL is the Length of the sequenceN is the length of the putatively recombina
24、nt regionm is the proportion of nucleotides in common between the putative recombinant and parental sequences in the recombiant region p is the proportion of nucleotides in common between the putative recombinant and parental sequences in the entire sequence.B使用的方法简介:Information-richsub-sequenceMove
25、 a sliding window acrosssub-sequence and calculatepairwise identitiesCheck for evidence of recombinationPotential recombinant regionRDP method, GENECONV, Bootscanning, MaxChi, Cimaera, 3SEQ and SiScan是 7 种基本验证程序,0 LARD, PHYLPRO, distance plots and TOPAL是四种附加验证程序。Positions of informative sitesyRDP: e
26、GENECONV& 0.51.07 X 10-6Major parent : recombinant plotP-ValueMinor parent : recombinant plotMinor parent : major parent plot0.01760152122823043Position in alignmentFigure 8. The original RDP method. A The analysis procedure. B An example pairwise identity plot.Discard monomorphic sitesAAGGCGATAGCAG
27、GTAGGCTTATATTACGGCATAACGCGATTGCAGGAAGGCATATGTTATGGCATAAGGCGATTCCTGGAAGCCTTACGTAATGGCATAAGGTGATAGCAGGTAGCCTTACATAATCGCATAAGGCGATAGCAGGTAGGCTTACGTTATCGCATAAGGCGATAGCAGGTGGCCTTACATTATGGCATMultiple sequence alignmentGCAGATAGTTATCGCCTGAAAGATGTTGGCAGATAGTTATCGCCTGAAAGATGTTGGCTCTAACTCGATGGTAGATACTCAATCGCAG
28、ATAGTCGTTCGCAGATGCTCATTGSelect 2 sequencesfrom the polymorphicsite alignmentSelect the next two sequencesRecord significant fragmentsUsing “fragment scores” look for regions in the pairwise alignment where sequences have unusually high similarityCalculate significance of fragmentscores by permutatio
29、n testing and/or calculation of Karlin-AltshulBLAST- like P-valuesFragment score = I -Where:I is the number of identical sites in a fragmentD is the number on non-identical sites in a fragmentNt is the total number of polymorphic sites in the original alignment Nd is Total number of non-identical si
30、tes in the sequence pair G is the G-scale value.Potential recombinant regionGlobal P-Value cutoffLocal P-Value cutoffHigh scoring aligned pair (HSAP)Position in alignment_EPotential recombinant regionA 1.63.30.0Position in alignmentGlobal P-Value cutoffMinor parent : recombinant HSAPLocal P-Value cu
31、toffMajor parent : recombinant HSAPMinor parent : major parent HSAPFigure 9. The GENECONV method. A The analysis procedure. B An example plot of high scoring aligned pairs (HSAPs or fragments).C Anexample plot in which GENECONV is used to check the RDP derived result in Fig 8 B.8.2 Bootscanning8.3注意
32、事项:RDP4只是一种检测手段,也会出现很多的错误,不能完全依赖RDP4来判断 重组。我们可以从以下几方面入手来减少RDP4发生错误的概率:1、尽量多收集与你最感兴趣的序列同源性大于50%的序列,尽可能搜集全。Select 3 sequences anddiscard monomorphic sitesAAGGCGATAGCAGGTAGGCTTATATTACGGCATAACGCGATTGCAGGAAGGCATATGTTATGGCATAAGGCGATTCCTGGAAGCCTTACGTAATGGCAT AAGGTGATAGCAGGTAGCCTTACATAATCGCATAAGGCGATAGCAGGT
33、AGGCTTACGTTATCGCATAAGGCGATAGCAGGTGGCCTTACATTATGGCATGAGATGTTATCCTGAAGATGTTGTCTACTCGATZ-Select 2 sequencesfrom the polymorphicsite alignmentMultiple sequence alignmentGAGATGTTATCTGAAGATGTRecord significant evidenceof recombinationRepeat with the nextthree sequencesMove a sliding window with acentral p
34、artition across the pair-wise alignment and calculate a2x2 %2 of the difference betweenthe proportions of sites occupiedby the same and different baseson either side of the partitionRepeat with the next 2 sequences or proceed to the next stepWhen all three pairwise scans are completecheck significan
35、ce of peaks using 博P-value and/or a permutation test andmatch peaks to find recombinant regionsCheck for evidence ofrecombination breakpointsPotential recombinant regionrQDg-J-0.04.1MC corrected P-Value cutoffChi square P-value plot2.0Uncorrected P-Value cutoff1304376015212282Position in alignmentFi
36、gure 11. The MaxChi method. A The analysis procedure when the MaxChi“scan triplets” setting is used. When the “scan entire dataset simultaneously setting is used the analysis procedure is the same except that there is only one analysis cycle with the polymorphic site alignment being produced from the entire alignment (instead of it being produced from the currently selected triplet) B An example of Chi squared P-value plots used to confirm the RDP derived result in Fig 8 B. C An example plot in which MaxChi is used to checkthe GENECONV derived result in Fig 9 B.