《EST数据分析平台的构建.ppt》由会员分享,可在线阅读,更多相关《EST数据分析平台的构建.ppt(70页珍藏版)》请在三一办公上搜索。
1、EST数据分析平台的构建,石河子大学动物科技学院贾 斌,功能分类及代谢途径分析,目标基因的分析及应用,cDNA文库的构建,随机挑取克隆进行5或3端测序,序列前处理,聚类和拼接,EST数据注释,分析平台的构建,文献检索与数据收集,数据公布,形成文章,一、硬件介绍:1、个人电脑(PC机)2、PC Cluster(集群)3、小型服务器 4、大型机二、Unix操作系统及其常用命令简介(man、ls、cd、more、rm、mkdir、chmod、gzip、tar)三、常用EST数据分析软件的安装:例:1、BLAST 2、ClustalW 3、InterProScan 4、Perl,一、硬件介绍,1、个人
2、电脑(较少数据,简单运算):EST分析所需的基本配置:处理器:1.7G CPU;内存:518MB以上;(BLAST:4000条EST与nt库比对,30MB)硬盘:50GB以上;,一组完整的计算机互联,作为统一的计算资源一起工作,并有一台机器的印象。,2、PC Cluster(较多数据、较复杂运算),优点:自由组装,良好的可扩展性;性价比高;抗突发性;速度快。缺点:不够稳定。,2、PC Cluster,品牌:IBM、HP、SUN、Intel、DELL、曙光、浪潮、联想、方正等。外形:塔式、机架式、刀片和机柜式。,3、小型服务器(较多数据、较复杂运算):,选购标准:(1)稳定性能(最重要)(2)针
3、对性原则(3)够用原则,3、小型服务器,低档配置 中档配置 高档配置CPU Xeon DP 2.6G*1 Xeon MP 3.0GHz*1 Xeon MP 3.0GHz*2Opetron 2.0G*1Opteron 2.6G*2(Intel)缓存:512KB 缓存:1024KB 缓存:8192KB(AMD)1024KB 1024KB 内存(标准)512MB 1024MB 1024MB*2(最大)4096MB 30786MB 30786MB(工作频率)133MHz 266MHz 400MHz硬盘 73G*2 73G*2 0价格 7000-10000元 14000-16000元 20000-400
4、00元,3、小型服务器,3、小型服务器(数据安全),缺点:价格较高;操作系统、设备和部件比较专用,用户 本身维护困难;可扩展性不强。,3、小型服务器,一般指system/360 开始的一系列的IBM计算机;也可以指其他厂商制造的兼容系统。特点:并行性;软硬件协同。,4、大型机(海量数据、复杂运算):,优点:高可靠性;高可用性;高服务性。缺点:设备昂贵;维护困难;可扩展性不强等。,4、大型机,EST数据分析常用硬件设备比较,二、Unix/Linux及其常用命令简介,1、Unix概述:功能强大的操作系统,管理计算机资源。典型的服务:执行新程序;打开文件;读文件;分配存储区等。,2、不同风格的Uni
5、x:1)Linux:自由软件(免费、修改、传播);具有Unix的全部功能;对硬件要求低;稳定。比较流行的版本:Red Hat Linux、Turbo Linux、Slackware Linux、SuSe Linux。,主要特点:(1)开放性;(2)多用户;(3)多任务;(4)良好的可移植性;(5)可靠的安全系统:对读、写控制、带保护 的子系统、审计跟踪、核心授权等。,1)Linux:,2)其他常见的Unix版本:BSD(伯克利软件发布版);各种商业版的Unix系统,比如:SCO Unix。品牌机常用:Solaris(Sun),IRIX(SGI),Digital Unix(Compaq),HP-
6、UX(HP)和AIX(IBM)。,(一)Linux与MS-DOS:有些命令相同或相似,如cd(.)cd(.)、telnettelnet等;Linux的多用户、多任务、网络等功能是MS-DOS所不能比的;,3、Linux与其他系统的比较:,(二)Linux与Windows:Windows:专用系统,开发公司控制接口和设 计,建立严格的标准,价格高。Linux:自由软件。,3、Linux与其他系统的比较:,1)系统需求:安装Red Hat Linux 9.0所需的最低配置:200MHz奔腾或者以上的CPU;256MB以上内存;最少475MB的硬盘空间,如果希望完全安装,需要5.0GB的硬盘空间。,
7、4、建立一个Linux工作站:,2)对硬盘进行分区;3)选择安装方式:.最小(约需475MB);.所有推荐软件包(约需10 0 0MB);.所有推荐软件包加上商业软件包(约需要5 0 0 0MB)。,4、建立一个Linux工作站:,具体安装步骤可参考以下资料:http:/;http:/;Linux安装与配置指南清华大学出版社 高鹏 著,4、建立一个Linux工作站,5、Linux的应用:(1)系统的登陆,登陆到服务器:文字界面方法:telnet登陆。如:打开“开始”“运行”,在跳出的窗口中键入“telnet+服务器IP地址”。登陆到服务器后,键入用户名和密码。,登陆到服务器:,图形化界面方法:
8、用Windows下的X-server软件(如:X-win等)登陆到服务器上工作(输入服务器IP地址,键入用户名和密码),结果显示在本地计算机上。,(2)shell提示符:编写、启动、挂起、停止程序。Unix系统常用的shell:bash、tcsh、csh、ash、sh、zsh、ksh等。Linux默认shell为bash。,(3)常用Linux命令(区分大小写):命令名称 作用 man 获取帮助 ls 列出当前目录下的文件 cd 切换子目录 more 显示文件内容 rm 删除文件 pwd 显示所在位置的完整路径 mkdir 建立子目录 chmod 改变文件的权限 gzip 压缩文件、解压缩 t
9、ar 归档,1)使用man命令获取帮助:阅读man命令的使用手册页:$man commandname,(3)常用Linux命令:,2)文件和目录操作:使用ls命令列出当前目录下的文件:$ls-options filename 参数:-l:长格式列出目录内容(存取权限、文件 个数、所有者、文件长度、建立日期、文件名)-a:列出全部文件,包括隐藏文件,(3)常用Linux命令:,(3)常用Linux命令:,使用cd(切换子目录)命令进入不同的目录:cd 命令后跟一个路径名:可直接进入另一个子目录;cd.命令:在目录树中向上移一级;cd 或者cd:回到自己的用户子目录。,用more显示文件内容:$m
10、ore filename 当一页显示不下时,分页显示,按空格往后翻页,按b往前翻。,(3)常用Linux命令:,(3)常用Linux命令:,用rm命令删除文件:$rm-options filename 参数:-i:对于每一个文件都询问是否删除-f:不做提示直接删除指定文件-r:删除目录中的所有内容并删除目录本身,(3)常用Linux命令:,用pwd显示所在位置的完整路径:$pwd,用mkdir命令建立子目录:$mkdir dirname,(3)常用Linux命令:,用chmod命令改变文件的权限:$chmod MODE filename 4-2-1对应权限:r(读)-w(写)-x(执行)。rw
11、xrwxrwx(-所有者-分组-其他用户-),(3)常用Linux命令:,用gzip命令压缩文件:$gzip filename 解压缩文件,可以使用gunzip命令或gzip命令的-d解压缩参数。,(3)常用Linux命令:,用tar命令进行归档(生成包含多个子目录和多个文件的档案文件):$tar-options tarfilename files/directories 参数:-c:创建一个归档文件;-v:要求tar在归档时显示每一个文件的名称;-f:说明tarfilename是要创建的归档的文件名称;-x:用来对归档文件进行释放。-z:用gzip压缩/解压缩文件,(3)常用Linux命令:
12、,Linux命令操作参考资料:http:/;http:/http:/=2291Linux权威指南(第三版)中国电力出版社 洪峰 译Linux实用大全科学出版社 陈向阳 著Red Hat Linux实用指南电子工业出版社 孙天泽/袁文菊/闫守孟等 译,三、常用EST数据分析软件,软件名 用途 操作系统 Phrap 序列组装 Linux CAP3 序列组装 Linux TigrAssembler 序列组装 Linux Gap4 序列组装 Linux/Windows BLAST 序列联配 Linux/Windows InterProScan 序列功能注释 Linux ClustalW 多序列联配 L
13、inux/Windows GO 序列功能分类 网上运行 KEGG 序列代谢途径分析 网上运行 COG 序列功能分类 网上运行 getORF 基因编码区分析 网上运行 Spidey 基因编码区分析 网上运行 ProtParam 蛋白质理化性质分析 网上运行 ProtScale 蛋白质理化性质分析 网上运行 Cn3D 蛋白质三级结构分析 Windows Phylip 系统发育分析 Windows,EST专题软件列表,(一)Windows下:下载所需软件至本地,解压缩后打开此文件夹,找到setup.exe文件,双击即可安装。若下载的程序为可执行文件,直接双击此文件即可安装。,软件安装方法概述:,查看
14、Readme文档,(二)Linux下:下载软件包至本地并解压,(1)有的程序直接可以运行;(如:BLAST、ClustalW等)(2)有的程序需要用CONFIG命令进行编译后才 能运行;(如:InterProScan等)(3)有的程序需要先运行Configure进行编译,然 后用make命令安装后运行。(如:perl等)必要时测试安装是否成功。,1、BLAST(Basic Local Alignment Search Tool):序列比对工具。ftp:/blast/db/。安装:下载可执行文件blast-20041205-ia32-win32到本地,直接双击安装即可。,软件安装实例:,2、Cl
15、ustalW:多序列联配工具。ftp:/ftp-/。安装:把clustalw文件复制到本地并解压,双击可执行文件clustalw.exe即可。,3、InterProScan:蛋白质结构、功能分析工具。ftp:/。1)(X为版本号);2);3)。4)Readme.txt,下载后,将这三个包传到要安装的机器目录上,解压:$tar zvxf 解开后的三个包会放在同一新建的目录下(/student0/chaihui/InterProScan/iprscan)。,3、InterProScan安装:,安装:$perl CONFIG.pl(一般按Enter键默认即可)测试安装是否成功:$./iprscan-
16、cli-i./test.seq-iprlookup-goterms 在bin目录下操作,如成功,会输出如下类似信息:(tmp/20041011/iprscan-20041011-11123456)。,3、InterProScan安装:,自由格式的编程语言。提供:正则表达式,丰富的公共函数和模块,功能奇特的内置变量。作用:提高效率。特点:适应性强;样式灵活;语法简单,易学易用。,4、Perl(Practical Extraction and Report Language):,(1)在Windows 上安装:ActiveState Tool公司提供了一个自行安装Perl的工具ActivePerl
17、。http:/。下载ActivePerl的Windows MSI版本到本地,双击打开安装文件(类似ActivePerl-5.8.6.811-MSWin32-x86-122208)。,(2)在Linux系统上安装:在Linux系统安装选择组件时,可直接选择安装perl。,第一步 下载Perl源模块包的拷贝()。http:/第二步 拆包:$tar zxf 第三步 编译:$sh Configure,(2)在Linux上安装Perl:,第四步 安装:$make 第五步 键入以下命令:$make test#make install(#是根用户提示符)第六步 测试Perl的安装情况:$perl-v,(2)
18、在Linux上安装Perl:,Perl参考资料:Perl5语言全教程(电子书):Perl手册(电子书):Perl语言入门(第三版)中国电力出版社 李晓峰 译Perl教程(win32版)中国电力出版社 张大江 译,Linux系统软件安装总结,不同的软件可能有不同的安装方法,即使同一个软件不同版本的软件安装方法可能还会不一样。软件一般提供一个Readme文件,可以使用more命令查看。,Linux系统软件安装总结,(1)RPM(Red Hat Package Manager)格式:$rpm-ivp MYsoftware-1.2-1.i386.rpm(名称-版本-修正版-类型)参数:-i:安装软件。-t:测试安装,不是真的安装。-p:显示安装进度。-f:忽略任何错误。-U:升级安装。-v:检测套件是否正确安装。,Linux系统软件安装总结,(2)用源代码安装:解压数据包:.gz-gunzip;.Z-uncompress;.zip-unzip;.bz2-bunzip2。编译软件(根用户身份):$tar soft1.tar.gz$cd soft1$./configure$make#make install,谢 谢!,