《AIX高级系统管理培训手册.ppt》由会员分享,可在线阅读,更多相关《AIX高级系统管理培训手册.ppt(141页珍藏版)》请在三一办公上搜索。
1、AIX 高级系统管理,第四章磁盘管理,3,学会描述LVM的信息解决ODM库的问题如何建立镜像可以解释quorum机制能够描述物理硬盘的状态,4,LVM概念,5,Mirror 概念,6,Stripe的概念,7,Raid级别的介绍,常用的raid级别0,1,5,10的区别不同的raid的不同的优势了解系统级raid0和raid1的概念介绍硬件级别的raid产品(fastT,ssa),8,基本的逻辑卷管理,了解什么是LVM管理如何创建卷组如何识别pv如何使用pv如何创建lv如何创建文件系统Lv和fs的关系如何管理lv和fs,9,概念,Vgda(卷组描述区)Vgsa(由镜像产生)LVCB(逻辑卷控制块
2、)AIX文件,10,VGDA,11,如何查看VGDA,12,如何查看LVCB,13,ODMandVGDA,14,PV在ODM中的信息,15,续,16,续,17,与VG相关的ODM库,18,续,19,与LV相关的ODM,20,ODM相关的LV的错误,21,解决问题,22,Rootvg的ODM错误,23,下面介绍mirror,24,系统级的镜像,Rootvg镜像镜像的方法镜像以后的工作如何完成一个完整的rootvg镜像,25,非rootvg的镜像,概念Mklvcopy镜像的方法如何查询镜像的结果,26,镜像中的问题,27,如何创建mirrorLV,28,VGDA的数量,29,Quorum的概念,3
3、0,如何理解一个没有quorum的卷组,Quorum的用途Mirror不需要quorum(默认),31,如何varyonvg不正常的VG,32,Mirror的联系,练习做rootvg的mirror练习做lv的copy联系作mklvcopy,33,第四章磁盘管理,在任何情况下替换磁盘Vg fail的解决如何纠正不一致的错误导入导出卷组,34,磁盘替代的过程,35,情况一(disk mirror),36,在线应用的磁盘,37,特别对于rootvg,38,磁盘彻底损坏,39,续,40,非rootvg磁盘的彻底损坏,41,磁盘删除问题,42,解决方案,43,Exportvg和importvg,44,i
4、mportvg,45,Importvg问题,46,文件系统冲突,47,如何同时mount两个同名fs,48,续,Importvg之前没有使用exportvg解决方法,49,50,第五章备份恢复,52,VG的保存和恢复,创建,鉴别,恢复mksysb利用mksysb创建clone如何减小文件系统和逻辑卷替换磁盘安装备份,恢复非rootvg如何进行jfs的在线备份,53,mksysb,54,磁带中的内容,55,验证系统备份,验证系统备份的方法,56,Mksysb的控制文件,57,磁带安装的恢复,58,续,59,用mksysb克隆系统,60,恢复时修改pp,61,恢复系统并减小文件系统,62,硬盘克隆
5、,63,第一种方法,64,通过smit完成,65,磁盘的克隆,66,通过smit进行,67,删除,68,如何备份非rootvg,69,Vgname.data,70,Savevg的恢复,71,在线的fs备份,72,分开这个mirror,73,重新整合这个fs,74,linux和unix下常用解压和压缩命令:,-.tar解包:tar xvf FileName.tar打包:tar cvf FileName.tar DirName(注:tar是打包,不是压缩!)-.gz解压1:gunzip FileName.gz解压2:gzip-d FileName.gz压缩:gzip 解压:tar zxvf 压缩:
6、tar zcvf DirName,75,linux和unix下常用解压和压缩命令:,.Z解压:uncompress FileName.Z压缩:compress 解压:tar Zxvf 压缩:tar Zcvf DirName-.tgz解压:tar zxvf FileName.tgz解压:tar zxvf 压缩:tar zcvf FileName-.zip解压:unzip FileName.zip压缩:zip FileName.zip DirName,第六章系统DUMP,77,本章目的,了解在系统dump时保存的数据确认和改变主dump设备和第二dump设备创建系统的dump,78,系统DUMP概
7、述,当发生一个意外的系统中断或系统故障就会创建一个系统DUMPDUMP是指把系统物理内存中部分或全部内容复制到指定的设备,即把内核所使用的内存区域的数据保存。系统崩溃或手工执行,对操作系统状态的快照0c0:DUMP成功,79,smitty dumpsysdumpdev lsysdumpdev esysdumpdev P p|-s lvnamesydumpdev L显示统计信息snap,80,产生dump的途径,Copies kernel data structure to a dump device,Via keyboard initiation,Via reset button,At une
8、xpected system halt,Via smit,Via comand,Classial RS/6000 only,81,Dump 里的内容,不包含PAGED MEMORY的内容包含系统的变量和状态进程表当前运行的进程和其相关信息用户区当前用户运行的进程和其相关的详细信息文件描述表(FDT)虚拟文件系统的信息当前mounted的文件系统Inode tableopen file table,82,Dump 里的内容(续),内核堆栈系统Buffer终端信息MbufsThese are the memory buffers for data which have been sent/rece
9、ived across a networkSocketsTimers,83,命令sysdumpdev,列出当前的dump设备及状态#sysdumpdev-lprimary/dev/hd6secondary/dev/sysdumpnullcopy directory/var/adm/rasforced copy flag TRUEalways allow dump FALSE,84,命令sysdumpdev(续),设置dump设备#sysdumpdev-P-p|-s device参数P代表永久的改变,参数p代表主dump设备查看当前系统的dump大小#sysdumpdev-e0453-041 E
10、stimated dump size in bytes:31631360显示出以前dump的信息#sysdumpdev-L,85,Methods of Starting a Dump,86,通过smit产生dump,#smit dump,87,拷贝系统的Dump,88,发送dump到IBM系统支持中心,拷贝dump到磁带上#/usr/sbin/snap-gfkD-o/dev/rmtxdump磁带的标记PMR(Problem Management Record)号创建磁带的命令块大小IBM通过crash命令处理dump磁带,第七章错误分析和诊断,90,本章目的,了解AIX错误报告工具的组成部分解
11、释错误报告监测和维护错误日志,91,错误日志和系统日志,能够分析错误日志能够鉴别和维护产生的错误用syslogd纪录系统消息,92,错误日志的目的,在监测到硬件、软件和操作错误时记录相应的信息用户其他的相关信息被记录下来报告通过记录产生用户能够客户化错误信息当发生某些特定的错误时,系统发出指定信息可以查询到建议操作,93,Errorlog过程,94,syslogd,配置文件:/etc/syslog.conf选择器:功能名,功能名.优先级;处理方法:接受信息目标位置(文件、用户、主机)循环:,95,通过smit使用error log功能,96,通过smit产生错误报告,97,通过smit产生错误
12、报告,显示所有的错误报告#errpt打印错误报告的模板#errpt-t按时间产生报告#errpt-a-s mmddhhmmyy只报告硬件错误#errpt-d-H描述ID为F49E2A17的错误报告#errpt-a-j F49E2A17,98,报告实例,#errpt,99,参数详解,标识C:错误归类H:硬件S:软件O:系统信息已经记录U:不能确定标识T:错误类型PERM(并且C为H):显示系统遇到硬件问题并且无法自动修复PERD(并且C为H):系统硬件变为不可用并引起一系列错误系统PERM(并且C为S):显示系统遇到软件问题并且无法自动修复TEMP(并且C为S):显示系统遇到软件问题并且已经自动
13、修复,100,磁盘错误类型,DISK_ERR1(cd,disk or R/W optical operation failure)PERMfailure of physical volume mediaDISK_ERR2(cd,disk or R/W optical operation failure)PERMfailure in disk assembly(for example,poer loss)DISK_ERR3(cd,disk or R/W optical operation failure)PERMfailure was detected by the SCSI adapter,1
14、01,磁盘错误类型(续),DISK_ERR4(cd,disk or R/W optical recovered error)TEMPerror caused by a bad block or event of a recovered errorDISK_ERR5(Undetermined Error)PERMSCSI device driver failure of unknown type,102,磁盘错误的处理,诊断程序帮助确定问题的严重性可以格式化磁盘或进行磁盘片的检查磁盘片的检查检查在磁盘上的每一个块报告磁盘全面状况总结报告三种应该更换磁盘的情况噪声很大(Noise)经常出错错误严重
15、,103,错误日志的清除(自动),在root用户的cron表中,缺省有两个entry0 11*/usr/bin/errclear-d S,O 30每天清除一次,清除三十天以前的软件错误0 12*/usr/bin/errclear-d H 90 每天清除一次,清除九十天以前的硬件错误,104,错误日志的清除(手工),root用户通过手工命令errclear直接清除错误日志#errclear 10清除10天以前的所有日志#errclear-d H 0清除所有硬件的错误#errclear-N disk 0删除所有资源组为disk的记录#errclear-T UNKN 0删除所有类型为unknown的
16、记录#errclear 0删除所有记录,105,在出错日志中加入信息,#errlogger“(字符)”,106,通过errdemon命令管理错误日志(壹),显示error log的特性#/usr/lib/errdemon-lError Log Attributes-Log File/var/adm/ras/errlogLog Size 1048576 bytesMemory Buffer Size 8192 bytes,107,通过errdemon命令管理错误日志(贰),改变错误日志的存放文件#/usr/lib/errdemon-i filename改变文件的大小#/usr/lib/errde
17、mon-s logsize改变内存缓冲区的大小#/usr/lib/errdemon-B buffersize,108,出错处理命令软件包,bos.rte 包含errinstall,errupdate,errstop命令bos_sysmgt.serv_aid包含errmsg,errclear,errdead,errlogger,errmsg,errpt,sysdumpstart 命令,第八章性能监测和优化,110,本章目的,通过AIX标准命令研究系统中CPU,内存和I/O瓶颈了解AIX相关的AIX命令使用PDT产生系统状况的报告使用perfpmr工具调整内核参数,111,硬件资源和逻辑资源,11
18、2,Performance Tools,#nice#renice#ps#sar#vmstat#iostat#tprof#svmon#filemonPDT(Performance Diagnostic Tool)perfpmr(Performance Problem Management Report),113,CPU瓶颈?,内存瓶颈?,I/O瓶颈?,网络瓶颈?,vmstatpslspssvmon,vmstatsar niceps,iostatlslvfilemonfileplace,More test,netstatnfsstat,nfsonoifconfignetpmon,Y,Y,Y,Y,N
19、,N,N,N,114,进程的生命周期图示,115,进程的生命周期说明(一),初始化(I)阶段Before a process is created,itneeds a slot in the process table;at this stage it is in the SNONE stateWhile a process is undergoing creation,waiting for resources to be allocated,it is in the SIDL state,116,进程的生命周期说明(二),运行(A)阶段R:Ready to runS:等待I/O操作T:st
20、op 与restart 中的暂停阶段Runing:运行阶段退出死亡(A)阶段When a process dies(exit)it becomes a zombie,117,进程的优先级,优先级由run-queue slot 确定最高的优先级为0,最低为127优先级分为两种:固定的:确定的内核进程通过setpri()设置为实时应用没有nice值不固定的:Run at initial priority level which subsequently changesCPU-intensive(running)processes not favoredI/O-intensive(sleeping)
21、processes favored,118,优先级的查看,参数C:recent CPU usage value参数PRI:priority value优先级参数NI:nice value,119,优先级的计算,priority value=base value+nice value+(CPU penalty based on recent CPU usage)base value(the user-process-priority value):40在ksh下,默认的nice值:前台是20,后台是24CPU penalty=(recent CPU use value)*(r value/32)
22、r 默认值为16,120,nice行命令格式,#nice-i command 参数i(或者n):从默认的NI值中增加或减少相应的值。参数范围为-24到+19,缺省为10,121,命令nice 示例,#nice-10 sleep 100000nice-n-15 sleep 100000nice-n-10 sleep 100000nice-n-10 sleep 100000,用ps-le|grep sleep命令输出如下:,F S UID PID PPID C PRI NI ADDR SZ WCHAN TTY TIME CMD200001 A 0 18112 2492 0 74 34
23、35fa 44 9ef72d8 pts/3 0:00 sleep200001 A 0 9666 2492 0 49 9 2bf5 44 9ef7658 pts/3 0:00 sleep200001 A 0 16068 2492 0 54 14 21f0 44 9ef7698 pts/3 0:00 sleep200001 A 0 10182 2492 0 50 10 fe7 44 9ef76d8 pts/3 0:00 sleep,122,renice行命令格式,用来改变一个正在运行的进程NI值renice-p-u,123,命令ps,ps-efE选项:列出所有的用户进程l选项:列出优先级信息#ps
24、 aux查看所有进程占用CPU,内存,时间#ps-mo ThREADTID 参数:象PID一样是Thread-idBND 参数:使用数,124,性能分析流程,125,性能分析流程,126,CPU 使用情况(一),#sar 1 10,当%usr+%sys 80%时,CPU 紧张,127,CPU 使用情况(二),#sar-q 1 3系统队列活动情况,runq-sz:average length of run queue%runocc:percentage of time run queue occupiedswpq-sz%swpocc:,当runq-sz大于4时,CPU资源紧张,128,sar a
25、 3 5查看文件读/写情况iget/s:每秒调用I节点查找函数的次数lookuppn/s:每秒调用目录查找函数的次数dirblk/s:为一个文件调用目录查找函数的次数,129,sar d块设备活动情况%busy 50%或 avwait avscrv则需要查看磁盘I/Osar c系统调用情况,130,sar r 查看页面调度情况slots:页面空间上空闲页数量cycle/s:每秒页面交换周期数fault/s:每秒页面错误个数odio/s:每秒非磁盘I/O页面调用数,131,Paging 信息(一),#vmstat 1 3,当内存资源十分紧张时,将引起paging-stealing 和 pagin
26、g-space activity,进而产生I/O 问题,132,Paging 信息(二),Kthrr:CPU运行的队列b:等待I/O的队列memory:avm:number of active virtual 4k pagesfre:size of the free list-the number of free 4k frames of RAM,133,Paging 信息(三),pagere:pi/po:page-ins/page-outsusing the paging-spacefr/sr:pages freed/scanned by the page-straler,the progr
27、am that free RAMcy:clock cycles used by page-replacement algorithm-very unlikely to be non-zero,as that would indicate frantic memory cleansing behaviour!faultsin:设备中断次数sy:系统调用的次数cs:kernel thread context switches,134,I/O 信息,#iostat,%tm_act is the percent of time the device was active over the period
28、Kbps is the number of kilobytes per second transferred.tps is number of transfers per second,135,确定CPU瓶颈,在确定了CPU瓶颈之后,进一步确定程序使用CPU的情况在AIX中用tprof命令产生报告,136,内存情况,Pinned memory:不能被page-stealer的内存AIX内存中的三种类型:Persistent:This is used to hold pages read form filesystemsClient:For NFS data,and CD-ROM pages s
29、trangelyWorking:Here we hold the data and variables of a program,137,查看内存整体的使用情况(一),#svmon-G,138,查看内存整体的使用情况(一),Memorysize:真正的内存大小inuse:使用的内存free:没使用的内存pin:pinned memory的 大小,139,调整性能参数,smitty chgsysAio(smitty etherchannel命令 调aio经验值范围1040,一般是数据库I/O接口速度)chpsvmo(vmtune),140,调整性能参数(2),lsattr El ent0tx_que_sizerx_que_size调整网络的工具:nochdev ifconfig,141,调整性能参数(3),no ano o thewall设置mbuf为3MB:no o thewall=3072no o tcp_spendspace=16384no o tcp_recvspace=16384修改非永久,若需要则加入到/etc/文件,