《《用户使用手册》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《用户使用手册》PPT课件.ppt(35页珍藏版)》请在三一办公上搜索。
1、中国科学院合肥分院物质科学计算中心,浪潮天梭用户手册,目录,集群硬件配置集群软件配置登录、退出系统主要目录使用计算任务投放软件安装及使用规范关机和启动维护人员联系方式,一:集群硬件配置,集群物理拓扑图,用户,提交作业,编译调试可视化,集群的并行配置信息,Inspur group,集群硬件配置,112个NX7140N计算刀片(双路四核Nehalem 2.8GHz处理器,DDR3 3GB/core)一个刀片为两颗CPU,8核心,最大内存为24Gb 24 Xeon X7460(2.66GHz/6c)/16M L3/1066MHz,4GB/core 共两个胖节点,每个胖节点四颗CPU,24核心,最大内
2、存为96Gb 16.2T容量的LUSTRE并行文件系统 8T容量的存储系统(4Gb光纤存储)1个登陆节点和管理节点,2个网格节点 高速互联网络环境(20Gbps InfiniBand计算网络+1000M管理网络)合肥分中心的聚合计算能力为10万亿次/秒,总存储容量24.2T。,二:集群软件配置,三:登录、退出系统,1.登录方式 SSH:缺省提供,该登录方式有一定强度的加密安全保证 软件可以使用Putty,Sshclient,Xmanager等2.文件上传与下载 SFTP:缺省提供,暂不提供FTP方式Windows下传送文件:Sshclient,Xmanager等自带文件传输功能 软件还可以使用
3、SecureFX、WinSCP等Linux下传送文件:scp-r 文件夹名 dyliu202.127.207.132:/lustre/ISSP2/dyliu/scp 文件名 dyliu202.127.207.132:/lustre/ISSP2/dyliu/,三:登录、退出系统,3.长时间误操作,请结束访问,避免占用系统资源4.结束系统访问必要操作 非停电、断网等意外设备故障导致,严禁在终端上直接关闭访问窗口或直接关闭终端电源实现结束系统访问。SSH访问必需主动使用exit命令一到多次确保最终结束连接。5.为安全考虑,系统具有防火墙配置,用户如果发现在非断网情况下无法登陆节点,有可能是自己的IP
4、不在防火墙允许的IP段,需要查看自己的IP地址,把IP段告知管理员开放。,登陆天梭集群系统:提交作业 登陆节点 ssh-l your count 用户可以在登录节点查看目录、编辑文件、查看提交作业情况等。但是用户不允许在登录节点运行计算程序或前后处理程序,也不允许进行程序编译。编译、调试、可视化 胖节点1 ssh-l your count 用户可以登录编译节点(胖节点1)进行程序编译。第一次登陆,修改密码 yppasswd username 设置环境变量 vi/.bashrc source/opt/intel/impi/3.1/bin64/mpivars.sh h 保存退出后 source/.
5、bashrc,三:登录、退出系统,四:主要目录使用,主目录:为登录后缺省进入的目录/home/每用户默认限制容量为50Gb,用于安装自用软件,备份文件,保存计算结果文件 主目录用于系统存放管理用户的登陆和所使用软件配置文件,可以安装个人所需软件,严禁用户随意存放执行程序的临时文件和非相关的文件,避免占用和耗费宝贵的系统存储资源,影响登陆连接服务。每次登陆后在属主目录下使用命令 du-kh|sort n主动检查异常或较大的文件并作相应清理。2.工作目录:/lustre/yourid总容量9.6TB,单用户无容量限制,作为运算临时文件目录,请及时删除临时文件,三个月内无访问的文件将被系统自动删除,
6、存储空间使用,系统使用lustre并行文件系统提高I/O性能,作为工作目录,由于其承载压力较大,容易出现硬盘故障,因此,该目录只存放计算中的临时文件,请及时将结果文件备份回主目录或自己的个人电脑中。主目录(home)只允许存放最终结果文件,严禁将运算临时目录指向属主目录,如违规操作,造成属主目录损坏,管理员有权追究其责任。主目录有磁盘配额限制,如需扩大容量(例如需要安装专用软件),可向管理员申请协调。应及时清除临时文件和计算中程序设计生成的监控跟踪记录文件。临时性文件存放不要超过三个月。重要数据应打包或再压缩存放。工作目录(lustre)中存放的临时文件,请及时清除,管理员会定期清理长时间无访
7、问文件,如因未及时备份而被误删,管理员不承担任何责任。严禁在主目录中存放无关文件,如发现违反,管理员将调低该用户磁盘配额。,五:计算任务投放,1.不论任务有多紧急,请务必先检测提交程序的正确性以及资源占用的合理适度,通过小批量测试数据预估占用CPU、内存和存储资源,强烈建议进行代码优化以减少CPU、内存、I/O资源占用,及时释放申请的内存,优化文件目录读写访问等I/O功能,避免资源和计算时间的浪费。总内存利用不能超过(平均每刀片节点:24Gb+8Gb(swap);大内存任务投放至胖节点队列(fuque):96Gb+16Gb(swap),否则会造成作业杀不掉、死机等情况。2.大规模资源占用(占用
8、实际内存超过1/4)或紧急任务时务必先联系管理员协调。3.计算任务提交后,应注意定时查看自己任务状态,当需要杀死自己进程或删除任务时,以用qdel命令,如果无法删除必要时联系管理员协助。4.应及时清除临时文件和计算中程序设计生成的监控跟踪记录文件。临时性文件存放不要超过三个月。重要数据应打包或再压缩存放。5.不能在主目录(home)下存放任务临时文件,提交作业时必须指定作业输出路径为工作目录(lustre)。6.不能在登陆节点上直接运行任务,只能在登陆节点提交查看作业、简单的 vi编辑、查看、管理自己的数据以及程序。,PBS基本组件pbs command:用于提交、监视、修改和删除作业。pbs
9、 server:提供基本的批处理服务,例如接收/创建一个批处理作业,管理维护作业队列,管理输出结果等。pbs mom:是一个守护进程,从pbs server处接收作业后放入其执行队列中等待执行。scheduler(maui):对用户提交的作业进行调度,五:计算任务投放,在登录节点,用户必须通过作业脚本提交作业!,作业调度软件采用Pro PBS,计算任务是通过脚本文件提交到作业管理系统的。,PBS基本命令qsub 作业提交脚本qstat 参数qdel 作业号,五:计算任务投放,(1)提交作业的命令 qsub 作业提交脚本 此命令执行后,会给出个作业号(2)查询作业命令 qstat 参数-q 列出
10、系统队列信息-Q:列出队列的一些限制信息-an:列出队列中的所有作业-r:列出正在运行的作业-f jobid:列出指定作业在信息-Qf queue:列出指定队列的所有信息-B:列出PBS服务器的相关信息,目前可用队列:paraque 并行队列,可用资源:108 nodes x 8核心;serique 串行队列,可用资源:4 nodes x 8 核心;fuque 胖节点队列,可用资源:2 nodes x 24核心,(3)作业删除命令 qdel 作业号 其中作业号为qsub提交后系统所给出的一个号码注意事项 1、非root用户只能查看、删除自己提交的作业 2、在提交作业时一定要根据自己的使用的机器
11、数估算内存,选择正确的队列:串行作业一定要放在serique队列,并行作业放在paraque,大内存需求(24Gb)作业放在fuque队列。3、检查PBS脚本是否正确,一定要严格按照规范格式书写。不规范的PBS脚本可导致作业提交失败,甚至造成作业杀不掉,计算刀片死机等。,五:计算任务投放,提交作业,查询作业(1),五:计算任务投放,作业管理,查询作业(2),查询作业(3),作业管理,五:计算任务投放,删除作业,作业管理,五:计算任务投放,五:计算任务投放,作业脚本的编写基本参数#!/bin/bash#PBS-d/lustre/ISSP2/dyliu/workdir#PBS-o/lustre/I
12、SSP2/dyliu/output#PBS-e/lustre/ISSP2/dyliu/error#PBS-l nodes=2:ppn=8#PBS-l walltime=240:00:00#PBS-l mem=4gb#PBS-q paraque作业脚本可到计算中心网页下载,五:计算任务投放,配置MPI环境(VASP)ulimit-s unlimitedsource/opt/intel/Compiler/11.1/046/bin/intel64/iccvars_intel64.shsource/opt/intel/Compiler/11.1/046/bin/intel64/ifortvars_in
13、tel64.shsource/opt/intel/impi/3.1/bin64/mpivars.sh,五:计算任务投放,配置MPI环境(VASP)NP=cat$PBS_NODEFILE|wc-lNN=cat$PBS_NODEFILE|sort|uniq|tee/tmp/nodes.$|wc-lcat$PBS_NODEFILE/tmp/nodes.$sed-i s/$/-ib:8/tmp/nodes.$mpdboot-n$NN-f/tmp/nodes.$-r sshmpiexec-genv I_MPI_DEVICE rdma-machinefile/tmp/nodes.$-n$NP$EXECmp
14、dallexitrm-f/tmp/nodes.$,五:计算任务投放,配置环境wien2kalias lsi=ls-aslp*.in*alias lso=ls-aslp*.ou*alias lsd=ls-aslp*.defalias lsc=ls-aslp*.cl*alias lss=ls-aslp*.sc*alias lse=ls-aslp*.erroralias pslapw=ps-ef|grep lapwalias cdw=cd$curdirexport EDITOR=xterm-e viexport SCRATCH=$curdir,四:计算任务投放,配置环境wien2kexport WI
15、ENROOT=/opt/issp2/wien2kexport W2WEB_CASE_BASEDIR=$curdirexport STRUCTEDIT_PATH=$WIENROOT/SRC_structeditor/binexport PDFREADER=acroreadexport PATH=$PATH:$WIENROOT:$STRUCTEDIT_PATH:.export OCTAVE_EXEC_PATH=$PATH:export OCTAVE_PATH=$STRUCTEDIT_PATH:export PATH=$PATH:$WIENROOT:.ulimit-s unlimitedalias
16、octave=octave-p$OCTAVE_PATH,五:计算任务投放,配置环境wien2k EXEC=/opt/issp2/wien2k/runsp_lapw-ec 0.00001-cc 0.00001-i 400-pcat$PBS_NODEFILE nodelist.$sed-i s/$/-ib/nodelist.$echo#.machinesecho granularity:1.machinesecho lapw0:sed-n 1p nodelist.$.machinesfor i in cat nodelist.$do echo 1:$i.machinesdoneecho extra
17、fine:1.machinesrm-f nodelist.$EXEC,五:计算任务投放,配置环境Gaussian export GAUSS_EXEDIR=/opt/issp2/g03export g03root=/opt/issp2/export PATH=/opt/issp2/g03:/opt/issp2/g03/linda7.2/opteron-linux-I8/bin:$PATHexport GAUSS_SCRDIR=/lustre/ISSP2/dyliu/g03tmpexport LINDA_PATH=/opt/issp2/g03/linda7.2/opteron-linux-I8so
18、urce/opt/issp2/g03/bsd/g03.profile/opt/issp2/g03$FILENAME,作业脚本注意事项 为减少资源消耗,系统配置采用autofs,20分钟无操作,即会卸载目录,因此,在脚本中,需使用绝对路径,保证任务可以正常运行作业脚本参考VASPWien2kg03castepdmol3espresso,五:计算任务投放,六:软件安装及使用规范,1.系统默认安装了部分公用软件,位置在/opt 下,主要为Intel 编译器、MPI及数学库。2.各研究室公用应用软件分别安装在/opt/目录下 3.用户如果有特殊软件需求,可以申请安装于公用目录下,也可以安装于自己属主目
19、录下,如果该软件使用人员较多,推荐安装于公用目录下,减少对属主目录的空间占用。4.使用时,应注意用户的环境变量,修改属主目录下的.bashrc文件,设置正确的用户环境变量。5.作业脚本中,应使用软件绝对路径指明应用软件所在位置。6.严禁未经许可擅自修改公用软件。,六:软件安装及使用规范,应用软件按照各研究室安装于/opt/目录下,如issp2:,六:软件安装及使用规范,用户环境变量配置举例:vi/.bashrc#g03#export GAUSS_EXEDIR=/opt/issp2/g03export g03root=/opt/issp2export PATH=/opt/issp2/g03/:/
20、opt/issp2/g03/linda7.2/opteron-linux-I8/bin:$PATHexport GAUSS_SCRDIR=/lustre/ISSP2/export LINDA_PATH=/opt/issp2/g03/linda7.2/opteron-linux-I8source/opt/issp2/g03/bsd/g03.profile#intel#source/opt/intel/impi/3.1/bin64/mpivars.sh,七:关机和启动,1.遇有紧急情况和计划性维护工作时,系统将关机,请各用户接获通知后,应注意保证投放的任务能够在预定的关机时间前结束。2.系统重新启
21、动后,具体应用项目组应安排人员及时启动相应服务。紧急关机并重新启动后,请各自应检查关机前计算任务的状态和结果,注意确保计算结果的无误和完整,并注意文件和目录(特别是高度重要的数据)是否出现的访问异常情况。,八:账号的申请和使用,1.严禁使用大型机账号及计算、存储资源进行与账号所属项目无关的任何活动和行为,违者必究并将视影响、损失轻重予以锁闭账号等处理。2.主机资源申请,联系系统管理员进行申请。管理员联系方式见本指南维护人员联系方式。3.建议避免公用账号,避免项目移交的时候数据混乱。4.人员发生调动时,请调动人员做好数据移交,并及时通知管理员申请权限改动。5.临时用户项目结束或阶段性完成时,请及
22、时通知管理员清理/锁闭/注销临时账号及项目组成员账号。6.注销账号时请整理好用此账号建立的所有数据,做好移交及备份清理工作,并至少提前一天通知管理员。7.数据和程序(非公用程序)文件一律存放于自己的属主目录下,计算临时文件存放于工作目录下(lustre),计算临时文件不得存放于自己的属主目录下。8.个人账号只限个人使用,严禁将帐号和密码泄露给外单位和项目组外人员,公共组账号由管理员负责控制和使用分发。9.密码应定期(三个月)更换,建议8位以上并注意加强密码复杂度。,八:维护人员联系方式,王瑞宁 5591464-330周望怀 5591464-326 刘大勇 5591464-329,计算中心网页:http:/,2023/7/20,Inspur group,谢谢大家!,