AIX系统日常维护管理.ppt

上传人:牧羊曲112 文档编号:5414995 上传时间:2023-07-05 格式:PPT 页数:66 大小:493KB
返回 下载 相关 举报
AIX系统日常维护管理.ppt_第1页
第1页 / 共66页
AIX系统日常维护管理.ppt_第2页
第2页 / 共66页
AIX系统日常维护管理.ppt_第3页
第3页 / 共66页
AIX系统日常维护管理.ppt_第4页
第4页 / 共66页
AIX系统日常维护管理.ppt_第5页
第5页 / 共66页
点击查看更多>>
资源描述

《AIX系统日常维护管理.ppt》由会员分享,可在线阅读,更多相关《AIX系统日常维护管理.ppt(66页珍藏版)》请在三一办公上搜索。

1、内容提要,系统健康检查常用操作故障的处理IBM 服务热线,系统健康检查,系统健康检查,机房环境检查电源线的母头是否为左零右火电压值是否为240V零地电压是否小于1V温度(摄氏)10 40湿度(%)8%80%查看硬件情况检查设备故障灯,一般为橙色并有 标志。有没有异常声响,如硬盘、风扇等。有没有破损的电缆等,系统健康检查,检查文件系统查看有没有“满”的文件系统。文件系统满可导致系统不能正常工作,尤其是AIX的基本文件系统。如/(根文件系统)满则会导致用户不能登录。,#df-k(查看AIX的基本文件系统)Filesystem 1024-blocks Free%Used Iused%Iused Mo

2、unted on/dev/hd4 24576 1452 95%2599 22%/dev/hd2 614400 28068 96%22967 15%/usr/dev/hd9var 8192 4540 45%649 32%/var/dev/hd3 167936 157968 6%89 1%/tmp/dev/hd1 16384 5332 68%1402 35%/home,系统健康检查,除/usr文件系统,其他文件系统都不应太满,一般不超过80%。处理方法1:找出(删除)垃圾文件#du-sk*|sort r n|head 查找出当前目录下占空间最大的子目录,逐层往下直到找出占空间最大的文件。(要区分哪

3、些目录是文件系统的 mount point,哪些是文件系统的子目录)删除文件,释放空间。有时删除文件后空间并不马上释放,这是由于你删除的文件正被某个程序打开。只有当这个程序停止后空间才释放,有时甚至需要重起系统。,系统健康检查,处理方法2:增加文件系统大小#smitty chjfs 文件系统可以在任何时候加大,前提是卷组(VG)中有剩余空间。检查文件系统的完整性#umount filesystem_name#fsck filesystem_name#fsck-y filesystem_name注意:文件系统必须先umount,再做检查和修复,否则可导致未知的后果。,系统健康检查,查看卷组信息l

4、svg-l vg_name有没有stale状态的逻辑卷。用syncvg 命令修复。#smitty syncvg,LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINThd5 boot 1 2 2 closed/syncd N/Ahd6 paging 48 96 2 open/syncd N/Apaging00 paging 32 64 2 open/syncd N/Ahd8 jfslog 1 2 2 open/syncd N/Ahd4 jfs 1 2 2 open/syncd/hd2 jfs 32 64 2 open/syncd/usrhd9var jfs

5、5 10 2 open/syncd/varhd3 jfs 4 8 2 open/syncd/tmphd1 jfs 1 2 2 open/syncd/home,系统健康检查,检查内存交换区(paging space)使用率#lsps-s使用率不要超过70%。增加交换区,或增加内存。观察内存大小的命令:lsattr El mem0,#lsps-sTotal Paging Space Percent Used 2048MB 15%#lsps aPage Space Physical Volume Volume Group Size%Used Active Auto Typehd6 hdisk0 ro

6、otvg 2048MB 15 yes yes lv,系统健康检查,网络检查netstat-i 查看网卡状态Ierrs/Ipkts 和 Oerrs/Opkts是否1%ping host_name/IP Address查看是否通和是否有丢包。路由表#netstat-rn查看路由表是否正确,ping 各路由器是否通。核 对 主 机 名#hostname,系统健康检查,#ifconfig-a,en0:flags=4e080863lo0:flags=e08084binet6:1/0,#ifconfig 用法ifconfig en0 inet 11.0.0.1 upifconfig en0 ns 110:

7、02.60.8c.2c.a4.98 up(还有很多),系统健康检查,#lsattr El inet0,authm 65536 Authentication Methods Truehostname qtsms Host Name Truegateway Gateway Trueroute net Route Truebootup_option no Serial Optical Network Interface Truerout6 FDDI Network Interface Trueroute属性是否有相应的路由信息。格式为:如果没有缺省路由,执行命令:其中为网关如果缺省路由不正确,则先删

8、除路由,再增加缺省路由:,系统健康检查,检查dump设置#sysdumpdev l primary/dev/hd6secondary/dev/sysdumpnullcopy directory/var/adm/rasforced copy flag TRUEalways allow dump FALSEdump compression OFF若不正确请用下列命令修改:#sysdumdev P p/dev/hd6 s/dev/sysdumpnull,系统健康检查,系统故障记录(errorlog)errdemon 进程在系统启动时自动运行记录包括硬件、软件及其他操作信息故障记录文件为/var/ad

9、m/ras/errlog,可备份下来或拷贝到别的机器上分析errpt 命令的使用(普通用户权限也可使用),系统健康检查,系统健康检查,系统健康检查,系统健康检查,发给root的mail信息#mail#mail f;查看已经存起来的邮件#Ctrl+d;存盘退出,存在/var/spool/Mail目录下,每个用户一个文件#mhmail;将邮件另存至/Mail/inbox目录下,每个邮件一个文件 系统会定期将PD的结果以邮件形式发送给root,比errlog更详细准确。,系统健康检查,磁带机磁带机应定期清洁,每使用30小时(8mm20GB为72小时)或至少每月清洁一次,不要等故障灯亮起后再清洁。不同

10、类型的带机用要不同的清洗带,不要混用。用/usr/lpp/diagnostics/bin/utape-c-d rmt0-n 可查看磁带机使用时数。4mm DDS3磁带机可读写DDS2,但对DDS1只能读。8mm20GB磁带机只能读5GB和7GB磁带,而且在读过低密度磁带后需要清洗,所以最好不要使用低密度磁带。需要清洗时液晶板上有提示信息。,系统健康检查,磁盘阵列状态检查(ssa disk)如果在errlog或mail中发现了ssa的报错,则进入smitty ssaraid详细观察,系统健康检查,Listing All Defined SSA RAID ArraysCOMMAND STATUSC

11、ommand:OK stdout:yes stderr:noBefore command completion,additional instructions may appear below.hdisk3 095231779F0737K good 3.4G RAID-5 arrayhdisk4 09523173A02137K good 3.4G RAID-5 arrayF1=HelpF2=Refresh F3=Cancel F6=CommandF8=Image F9=Shell F10=Exit/=Findn=Find Next,系统健康检查,Listing or Identifying S

12、SA Physical Disk Drives,系统健康检查,ssa 在 errlog 中的报错形式Open Link;不一定是故障Resource Unavailable;Pdisk error;Others.pdisk 的状态Good,Failed Free,System,Array Candidate,Hotspare,Rejectedssa raid的状态Good,Exposed,Degraded,Rebuilding,Offline,常用操作,常用操作-系统备份,系统备份除每日进行正常的用户数据备份外,建议定期进行系统备份。备份前先停止业务系统软件和HACMP 软件的运行。其他无关的

13、用户退出,停止无关的操作。系统备份只备份 ROOTVG,除系统 基本的5个文件系统外,其他 ROOTVG上已 mount 上的文件系统也会被备份。用 smitty mksysb 命令进行系统备份,备份前先清掉root的密码。每当系统作变更(安装新软件、补丁程序等)前后,都需要做系统备份。,常用操作-系统备份,Back Up the SystemType or select values in entry fields.Press Enter AFTER making all desired changes.TOP Entry Fields WARNING:Execution of the mk

14、sysb command will result in the loss of all material previously stored on the selected output medium.This command backs up only rootvg volume group.*Backup DEVICE or FILE/dev/rmt0+/Create MAP files?no+EXCLUDE files?no+List files as they are backed up?no+Generate new/image.data file?yes+EXPAND/tmp if

15、 needed?yes+Disable software packing of backup?no+MORE.2F1=Help F2=Refresh F3=Cancel F4=ListEsc+5=Reset Esc+6=Command Esc+7=Edit Esc+8=ImageEsc+9=Shell Esc+0=Exit Enter=Do,常用操作-系统备份,检查系统备份带是否有效用备份带启动机器,但不要进行安装,我们只是验证系统备份带是否能用于启动。出现以下菜单后,关机即可。Welcome to Base Operating System Installation and Maintena

16、nceType the number of your choice and press Enter.1 Start Installation Now with Default Settings 2 Change/Show Installation Settings and Install3 Start Maintenance Mode for System Recovery 88 Help?99 Previous Menu,常用操作-系统备份,#smitty lsmksysb;检查系统备份带的内容。系统备份不是万能的。备份最好有两份。用户数据备份文件系统可用 tar 命令,切记不要使用绝对路径

17、。数据库可用数据库的备份方式备。逻辑卷(LV)可用dd 命令。smitty savevg 用户卷组备份只备份mount起的文件系统。注意:不备份逻辑卷(裸设备)。,常用操作-系统备份,磁带机卡带子时可尝试RESET磁带机。按住磁带机的弹出按钮1530秒,直到磁带机液晶面板显示RESET。磁带RESET后磁带应能弹出。(此方法仅适用于8mm20GB磁带机)#diag-cd rmt0#tctl-f/dev/rmt0 reset如果上述方法均不奏效,则只有重起机器。,常用操作-镜像,镜像(rootvg)lspv,lsvg l rootvg,lsvg rootvg,lsvg p rootvg,lslv

18、 m lv_name,lsvg M rootvgextendvg f rootvg hdisk1chvg a y Q n rootvgmirrorvg S rootvg hdisk0 hdisk1bosboot a l/dev/hd5 d/dev/hdisk1bootlist m normal hdisk0 hdisk1syncvg v rootvg,常用操作-镜像,拆镜像(rootvg)lsvg M rootvg;检查有效的pv,确认hdisk1坏unmirrorvg rootvg hdisk1bosboot a d/dev/hdisk0bootlist m normal hdisk0 cd

19、0mkboot c d/dev/hdisk1sysdumpdev l;检查dump所在的lv(缺省hd6)sysdumpdev P p/dev/hd6;reducevg rootvg hdisk1rmdev dl hdisk1shutdown-Fr,常用操作-HACMP的操作,HACMP的操作启动:smitty clstart停止:smitty clstop启动/停止过程可以查看/tmp/hacmp.out文件:#tail f/tmp/hacmp.out 检查Cluster是否运行正常Cluster进程是否运行:#lssrc g cluster,至少两个进程,且为active。IP地址是否获取

20、:#netstat i,看boot IP是否变为service ip。VG是否varyon:#lsvg o文件系统是否mount:#mount应用进程是否启动:#ps ef|grep app_name,常用操作-HACMP的操作,HACMP相关日志/usr/es/adm/cluster.log;以事件为单位的纪录/tmp/hacmp.out;详细记录/usr/sbin/cluster/history/cluster.mmdd;历史纪录,常用操作-dump设置,dump的有关设置估算系统dump的大小,在系统最繁忙时(内存使用最多)#sysdumpdev-e0453-041 Estimated

21、dump size in bytes:53477376#lsps-aPage Space Physical Volume Volume Group Size%Used Activepaging00 hdisk0 rootvg 480MB 1 yeshd6 hdisk1 rootvg 544MB 1 yes当前的设置#sysdumpdev-lprimary/dev/hd6-dump的主设备secondary/dev/sysdumpnullcopy directory/var/adm/ras-dump拷贝的目录forced copy flag TRUEalways allow dump TRUE

22、hd6应比估算值稍大。,常用操作-dump设置,/var/adm/ras 是默认的dump拷贝目录,比较估算值,保证/var文件系统有足够的剩余空间拷贝dump文件。否则机器重起时会提示用户插入磁带。dump文件名为vmcore.#建立一个新的dump设备#smitty lv例如:lv_name=dump_lv,type=sysdump#sysdumpdev P p/dev/dump_lv,故障处理,故障处理-故障的定义,弄清楚系统发生了什么问题系统现在能做什么?不能做什么?故障什么时候发生的?有没有做平时不同的操作?故障有没有规律?定时还是不定时?发生的频率有多高?是一台机器出现故障还是多台

23、机器故障?故障现象是否相同?最近有没有做改动?如安装了新的硬件、软件,改变了系统的一些设置(如 HACMP配置)等。,故障处理-故障信息的收集,收集故障信息对于判断、诊断故障原因,修复系统非常重要。系统故障记录(errorlog)errdemon 进程在系统启动时自动运行记录包括硬件、软件及其他操作信息故障记录文件为/var/adm/ras/errlog,可备份下来或拷贝到别的机器上分析errpt 命令的使用(普通用户权限也可使用),故障处理-故障信息的收集,控制面板上的LED 代码8 位代码,通常系统故障灯会同时亮起。某些机型还会同时显示故障设备位置代码。(注:S85正常启动过程中有合法的8

24、位代码。)4 位代码,通常是Exxx。3 位代码,通常为0yyy,只看后3位。8 位和4位代码可查看系统服务手册(Service Guide)。3 位代码可查看系统诊断手册(Diagnostic Information for Multiple Bus System)。,故障处理-故障信息的收集,控制面板上的LED 代码查看Diagnostic Information for Multiple Bus Systems手册,故障处理-故障信息的收集,控制面板上的LED 代码(续)闪动的 888,系统崩溃,硬件或软件原因造成。按reset 键会显示更多内容。888-102 一般为软件故障(888-

25、102-207 例外)系统会产生一个dump。888-102-xxx-0C9 系统正在做dump,请等待。888-102-xxx-0C0 系统dump完成,可关电重启。888-103 或 105 硬件故障,一般有 SRN 代码及位置代码。,故障处理-故障信息的收集,SMS(System Management Service)故障记录如何进入SMS 菜单当主控台出现键盘图标后(LED 显示E1F1时)按F1键。字符终端按1键。(X80 机型则无论是字符主控还是图形主空台,一律按键盘左上角的1键)选择Utilities“,选择Error Log,抄下8位故障代码在SMS 中还可以更改系统启动顺序表

26、#mail系统会向root用户发mail报告出错信息。通常系统出现故障后没有进行检查修复,系统会定时提醒root,故障处理-故障信息的收集,其他用于收集系统信息的命令lsdev-C 系统设备信息#lsdev-Cc diskhdisk0 Available 00-06-00-2,0 4.5 GB 16 Bit SCSI Disk Drivehdisk1 Available 00-06-00-1,0 4.5 GB 16 Bit SCSI Disk Drivehdisk2 Defined 00-06-00-4,0 16 Bit SCSI Disk Drive lspv 查看物理卷信息#lspvhdi

27、sk0 0007821160af3d76 rootvghdisk1 000782117f571294 rootvghdisk2 0000000045c45bde datavglsvg 查看卷组信息,故障处理-故障信息的收集,故障处理-故障信息的收集,故障处理-故障信息的收集,故障处理-系统不能启动,系统不能正常启动可能由多种原因引起,硬件或软件。观察系统的启动过程。设备的故障灯是否亮起。异常的声音,如硬盘的怪声。注意LED上显示的代码,这是故障分析最重要的信息。主控台上最后显示的信息也很重要,必须记录下来。alog-ot系统的启动顺序,故障处理-系统不能启动,故障处理-系统不能启动,系统停在S

28、tage 1,可能为电源、系统板、CPU、内存等硬件故障。记录故障代码通知IBM工程师。系统停在Stage 2,可能是启动顺序表(bootlist)损坏或I/O子系统故障。可尝试进入SMS 菜单检查启动顺序表,并修改。若在选择bootlist时没有硬盘设备可选或显示的硬盘信息不正确则可能是硬盘故障。若根本没有SCSI设备可选则链路有问题。系统停在Stage3,可能是硬盘数据损坏,系统设置文件出错,或I/O子系统故障。,故障处理-系统停在551,555或557,发生在系统启动的第三阶段(Stage 3),可能是:文件系统损坏文件系统日志(jfslog)损坏 rootvg中有坏硬盘修复方法用系统光

29、盘或系统备份带启动(必须与硬盘中的操作系统版本一致)启动后选择选项3Start Maintenance Mode for System Recovery Access a Root Volume Group Access this volume group and start a shell before mounting the file systems,故障处理-系统停在551,555或557,格式化文件系统日志(jfslog)#/usr/sbin/logform/dev/hd8检查修复文件系统#fsck-y/dev/hd1(/home 文件系统)#fsck-y/dev/hd2(/usr

30、文件系统)#fsck-y/dev/hd3(/tmp 文件系统)#fsck-y/dev/hd4(/文件系统)#fsck-y/dev/hd9var(/var 文件系统).用 exit 命令退出,文件系统会自动 mount 起来。重建bootimage#lslv-m hd5 找出bootimage所在的硬盘,如hdisk0#bosboot-ad/dev/hdisk0#bootlist-m normal/dev/hdisk0 重建启动顺序表。,故障处理-系统停在551,555或557,重启动系统#shutdown-Fr如上述步骤不奏效用系统备份带恢复系统。如备份带不能恢复,用诊断光盘(Diagnost

31、ic CDROM)检查是否坏硬盘。通知IBM工程师。,故障处理-主控台不能登录,字符终端有时会出现不能登录的情形,可先尝试关掉终端,重开。如果不行则可能是getty进程运行不正常。远程 telnet 登录检查getty进程是否运行正常#ps-ef|grep consoleroot 29170 1 0 Jul 24 lft0 0:00/usr/sbin/getty/dev/console如getty正常,查看主控台端口是否正确#lscons查看主控台设备/dev/tty0#lsdev-C-l tty0查看端口是否可用,连线是否正确tty0 Available 01-S1-00-00 Asynch

32、ronous Terminal#lsattr-El tty0 看端口参数是否正确,如波特率,故障处理-主控台不能登录,如getty没有运行在主控台上,检查/etc/inittab文件有否cons:0123456789:respawn:/etc/getty/dev/console更正后运行init Q 命令激活主控端口。如getty确实在运行,则可能是终端的硬件问题。,故障处理-CDE图形界面挂死,CDE 运行时不要更改网络参数(如:主机名和IP 地址)更改网卡设置,请先退出CDE图形环境,选择命令行方式登录,在字符界面下更改。如CDE 已经挂死远程 telnet 登录找出所有dt有关的进程用k

33、ill命令杀掉#ps-ef|grep dt.#kill PID检查当前主机名#hostname uname-atscf50,故障处理-CDE图形界面挂死,查看主机名是否对应有效的IP地址#netstat-i|grep tscf50 tr0*1500 9.185.40 tscf50 506049 0 28247 0 0更改主机名或IP地址,使主机名与当前有效的IP地址存在对应关系。#smitty tcpip 重新启动CDE界面#/etc/rc.dt HACMP环境下可把主机名alias到上#cat/etc/hosts127.0.0.1 loopback localhost tscf50#loop

34、back(lo0)name/addressbvg,故障处理-系统dump,发生在系统崩溃时,AIX会做dump(系统内存的快照)。此时机器会显示闪动的888 102 xxx 0cx 代码:0c9系统dump 进行中。0c9状态可能会维持超过2分钟,不要关电和按reset,等待dump做完。0c0dump 成功完成,这时可以断电重起。0c2 手动启动dump 功能0c4dump 设备空间不足,只有部分信息保存下来0c5 不明原因导致dump 失败 mostly hdisk or sysplaner error,故障处理-系统dump,一般dump是由于软件出错引起(888-102-207 除外)

35、,机器通常可以重启。重启时可能提示用户插入磁带拷贝dump文件,不要选择退出,这样会丢失重要的故障信息。,故障处理-系统dump,dump打包#snap-a-o/dev/rmt#或#snap-a-c 把/tmp/ibmsupt目录做成一个压缩文件 如果/tmp文件系统空间不够,可用-d directory 参数指定别的目录代替/tmp/ibmsupt#smitty dump,故障处理-诊断程序(Diag)的使用,运行故障诊断程序(Diagnostic),对系统硬件进行检查和诊断。当发现有硬件故障时应立即使用diag#diag 选高级诊断(Advance Diagnostic)选问题诊断(Pro

36、blem Determination)或 选系统检查(System Verification)(选PD 会对系统错误记录进行分析)diag运行后会给出SRN 代码,故障设备名称及百分比,地址代码等。对于PCI机型应在系统报错7天之内运行diag程序对出错记录里的sense数据进行分析。,故障处理-诊断程序(Diag)的使用,concurrent 模式 多用户模式下(系统正常运行时)运行硬盘上的诊断程序。如果可能尽量使用该模式(但不要在应用程序运行时使用)。#diag运行该命令需要root权限Stand-alone 模式 用硬盘上的诊断程序,在机器启动时钥匙打到Service 位置(MCA机型)

37、或按F6/6(PCI机型)。系统启动后自动运行诊断程序。Diagnostic CDROM 用诊断光盘启动,通常在硬盘无法启动时使用。,故障处理-诊断程序(Diag)的使用,故障处理-诊断程序(Diag)的使用,故障处理-诊断程序(Diag)的使用,定时的mail报错信息的处理每天定时收到mail报错信息,而所指的硬件确实是好的。这种情况经常发生在系统意外掉电后,或更换设备后没有运行诊断程序。处理方法#diag选高级诊断(Advanced Diagnostics Routines)选系统检查(System Verfication)选mail里所指的设备,如果报电源、风扇故障,选择sysplanar0 进行检查。如果硬件确实没有问题,诊断程序会提示该设备曾经有出错信息,问是否已更换或更正?选中该设备按F7 确认。退出诊断程序,如果还是继续收到mail,通知IBM,故障处理-诊断程序(Diag)的使用,故障处理-诊断程序(Diag)的使用,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号