软件系统项目日常运维指导手册.docx

上传人:李司机 文档编号:6853164 上传时间:2024-03-08 格式:DOCX 页数:58 大小:263.06KB
返回 下载 相关 举报
软件系统项目日常运维指导手册.docx_第1页
第1页 / 共58页
软件系统项目日常运维指导手册.docx_第2页
第2页 / 共58页
软件系统项目日常运维指导手册.docx_第3页
第3页 / 共58页
软件系统项目日常运维指导手册.docx_第4页
第4页 / 共58页
软件系统项目日常运维指导手册.docx_第5页
第5页 / 共58页
点击查看更多>>
资源描述

《软件系统项目日常运维指导手册.docx》由会员分享,可在线阅读,更多相关《软件系统项目日常运维指导手册.docx(58页珍藏版)》请在三一办公上搜索。

1、软件系统项目日常运维指导手册1 .概述31.1、 1目的31.2、 适用范围31.3、 内容31.4、 参考文档32 .项目软件系统运维流程33 .主要角色和职责43.1、 角色及职责43.2、 巡检执行人应具备的条件54 .项目资料要求64.1、 网络环境64.2、 主机及存储74.3、 数据库系统环境84.4、 应用软件环境84.5、 支撑软件104.6、 界面功能105 .巡检对象和基本要求105. 支撑运行环境H6. 1.1、网络环境117. 1.2、主机与存储环境138. 1.3、数据库系统环境159. 1.4、备份系统315.1、 系统功能315.1.1、 地图功能335.1.2、

2、 业务功能345.1.3、 业务数据355.1.4、 对外接口3552.5、366 .系统与数据备份367 .系统故障处置基本要求377.1、 故障发现377.2、 故障信息收集387.3、 故障定位387.4、 系统恢复397.5、 记录和报告407.6、 服务时间418 .团队组织428.1、 组织结构和分工421、 1.1、项目经理428、 1.2、服务台人员429、 1.3、一、二线支持人员4210、 1.4、三线支持人员438.2、 值班管理438.2.1、 1、主要内容438.2.2、 人员管理448.2.3、 7*24小时值班448.2.4、 执行原则459 .运维;赧呈459.

3、1、 巡检流程459.2、 故障处置流程4610 .附录4810.1、 巡检记录表单集481、 .1.1、支撑环境检查表4810、 1.2、业务功能巡检表5310.2、 报修跟踪记录表5610.3、 巡检排班表5810.4、 值班记录表581.概述1. K目的软件系统日常运行维护的目标,主要是通过常驻运行维护人员和后台支撑团队,提供常态、规范和专业的巡检、故障应急抢修服务来保证系统可靠稳定运行。本指南主要是为了系统运维目标的实现,提供规章制度的保证,规定了运维对象和范围,确保巡检和抢修活动有操作要求、流程可依,并指导读者如何进行现场软件系统日常运维,如何制定软件系统日常运维手册,确保软件系统在

4、预定的环境中使用。1.2、适用范围本用于公司负责所有建设项目的系统试运行、正式运行和软件质保阶段,以及公司负责的所有维护项目的合同期。1.3、内容本指南主要涵盖了对软件系统资料整理、日常运维工作(巡检)和系统故障处置等方面的要求。同时,指南也从实际出发,对运维活动给出了团队组成、规模以及排班的建议。1.4、参考文档2 .项目软件系统运维流程项目软件系统运维整体主要流程如下:项目软件系统运维流程:口:。理就件项目控理巡检执行人Ss空头安伟梧关人员制定第目钦件系线这桂方案够调相关人员配合软件项目履理制定方案4目系统功能造幡手而怛税修检fIH申3 .主要角色和职责3.1、 角色及职责在制定软件系统日

5、常运维手册、实施系统日常运维和故障处置的过程中,所涉及的角色和职责如下:角色职责项目经理1.协调相关人员,包括设备厂商技术人员。2.确定巡检执行人。软件项目经理L安排相关人员共同制定项目软件系统现场维护手册;2 .负责制定项目系统功能巡检手册的制定;3 .负责对巡检执行人进行培训;集成工程师1 .负责整理项目集成相关资料;2 .负责项目网络运行环境、主机与存储环境巡检手册的制定;3 .协助软件项目经理对巡检执行人进行培训;数据库管理员1 .负责整理项目数据库系统相关资料;2 .负责项目数据库系统环境巡检手册的制定;3 .协助软件项目经理制定关键业务表巡检手册;4 .协助软件项目经理对巡检执行人

6、进行培训;交通工程小组1.协助软件项目经理制定系统功能巡检手册;设备厂商L协助集成工程师、数据库管理员制定巡检手册;巡检执行人L确认项目软件系统现场维护手册的所有内容可操作;2.根据项目软件系统现场维护手册执行日常维护工作;3. 2、巡检执行人应具备的条件熟练使用WindoWS系统,会查询与查看系统日志;能熟练运用sql语句;熟悉ORACLE、SQLSERVERMYSQL等常用数据库的使用;熟悉WebIogic、ApacheTomcatJBOSS等常用中间件的使用;熟悉LinUX基本操作,能够部署软件、系统等操作;4.项目资料要求4.1、 网络环境网络环境项目资料应包括:设备的IP分配表(外场

7、,主机,网络设备)设备ip地址分配表参考格式如下:序号设备id设备类型(必填)安装位置(必填)IP地址(必填)掩码(必填)网关(必填)MAC连通情况(必填)接入交换机iP其他属性1巳连通/未连通2设备id:设备的唯一标示设备类型:如线圈车检器、电子警察、车牌识别、防火墙、网闸、交换机、服务器、数据库等安装位置:设备安装的位置,如路口名、断面名、桩号;内场设备应表明安装的机房、机柜号;应便于运维人员识别。ip地址:设备配置的ip地址掩码:设备配置的子网掩码网关:设备配置的网关地址MAC:设备的MAC地址连通情况:设备的实际连通情况,需根据情况及时更新接入交换机ip:设备接入的交换机ip其他属性:

8、上述未尽描述的其他属性网络设备配置信息表序号设备id设备类型(必填)配置策略配置文件存放位置1端口:tcp/udp/单向访问/双向访问2设备id:设备的唯一标示设备类型:如防火墙、网闸、交换机等设备互联的拓扑图及相应的设计说明;如果比较复杂的话,可以考虑提交逻辑拓扑及物理拓扑如果网络系统和外系统有互联关系,请说明外系统互联的要求及相应约束(IP分配、安全策略要求、路由策略要求等)如果设计中存在冗余链路的设计,请说明采用的冗余技术及策略要求如有其他非常规的网络技术运用(负载均衡、VPDN.AAA.策略路由、路由图等)请提供专文说明其他未尽事宜需要一事一议4.2、 主机及存储关于主机及存储项目资料

9、应包括:设备基本信息表设备基本信息表参考格式如下:序号设备id系统用户名及密码(必填)操作系统版本(必填)CPU(必填)内存侬第本地硬盘容量(必填)阵列容量(必填)使用网口其他连接12设备id:设备的唯一,jj系统用户名及密码:巡检管理访问的系统用户名及密码操作系统版本:设备安装的操作系统版本,包括补丁版本;CPU:设备的CPU配置内存:设备的内存配置本地硬盘容量:主机本地硬盘的配置阵列容量:服务器被分配的存储阵列的容量使用网口:接入系统使用的网口号,设备上也应做好标示,当网线脱落时,应能帮助运维人员找到正确的接入口。其他连接:与其他设备连接的端口描述如光纤口等。4. 3、数据库系统环境数据库

10、基本信息表序号项目内容备注1数据库系统软件版本2字符集3数据库服务名4数据库IP/端口5最大连接数6设计的最大存储空间数据库存储说明表空间信息;序号表空间名表空间增长策略表空间最大设计容量用途12数据表存储说明表如下:序号表名存储分区分区策略索引策略设计最大记录数12用户信息序号用户名用户描述类型12数据库字典包含表、视图、作业、存储过程4.4、 应用软件环境项目需整理应用软件部署情况,参考格式如下:应用软件静态属性表服务器ip程序名可执行文件名应用软件类别安装地址功能描述192.168.32.21视频事件交换软件数据交互/通信软件/计算处理/展示软件/管理软件/统计软件服务器ip:软件部署的

11、服务器ip地址程序名称:软件中文名称可执行文件名:应用软件可执行程序文件名应用软件类别:按照应用软件的用途分为数据交互、通信软件、计算处理、展示软件、管理软件和统计软件。安装地点:软件安装的目录位置。功能描述:软件实现的功能。应用软件运行属性表:服务器ip程序名称应用软件输入应用软件输出运行周期中间件日志位置配置文件及重要属性192.168.32.21视频事件交换软件服务器ip:软件部署的服务器Ip地址程序名:软件名称应用软件类别:按照应用软件的用途分为数据交互、通信软件、计算处理、展示软件、管理软件和统计软件。应用软件输入:是指软件的数据来源,如数据库的某业务表,则列明表名。应用软件输出:是

12、指软件正常运行情况下的输出形式,如数据库的某业务表或者xml文件等。运行周期:软件运行的周期。中间件:软件运行所需要的中间件名、版本、安装位置等;日志位置:软件日志存放位置及名称,该日志为软件异常时,需要巡检人员作为附件一起上报的日志。配置文件及重要属性:软件运行相关配置文件的存放位置,及重要属性,如数据库连接串的相关描述;4. 5、支撑软件arcgis基本信息序号项目内容备注1gis软件版本2Sde库连接名3数据库连接名4本地文件夹连接图层信息序号图层名图层描述安装位置1234. 6、界面功能界面功能描述表:访问地址:访问地址:巡检用户名及密码菜单名功能描述功能操作及操作结果访问地址:界面访

13、问的地址,或者巡检界面安装地址巡检用户名及密码:巡检用户使用的用户名及密码菜单名:功能菜单访问名,如为多级菜单则用“-”分割,如“信息发布”-“情报板人工发布”功能描述:菜单功能的描述信息功能操作及操作结果:巡检人员进行界面功能日常巡检时应做的操作步骤及应看到的结果描述5. 巡检对象和基本要求根据系统的不同等级,实行不同的巡检周期。系统级别级别定义巡检周期A类系统业务实时性较高,或者受众用户每日至少一次多,易产生社会不良效应。如采处发系统、集成指挥平台平台;B类系统业务实时性较高,但受众用户有限,系统故障时,影响有限范围,如卡口系统;每两日一次C类系统业务实时性较低,受众用户也有限,系统故障时

14、,只要能恢复故障时的业务即可,例如电警系统;每周一次A类系统,应实行每日巡检,每日上午9-10时和下午16-17时,应根各根据巡检流程对关键业务进行完整巡检,其他时间可不定期进行项目基本巡检,发现问题应及时解决。B类系统,应实行每两日一次巡检,应根各根据巡检流程对关键业务进行完整巡检,其他时间可不定期进行项目基本巡检,发现问题应及时解决。C类系统,应实行每周一次巡检,应根各根据巡检流程对关键业务进行完整巡检,其他时间可不定期进行项目基本巡检,发现问题应及时解决。定期维护:系统涉及的服务器每月应进行一次系统健康检查,检查服务器和数据库运行状态,清理磁盘空间、无用的交换文件备份、垃圾文件和过期的日

15、志文件,相关设备之间连接状态,备份系统日志、操作系统日志和必要的业务数据并做好相关维护记录。以上周期均可根据项目实际情况进行调整。5.1、 支撑运行环境支撑运行环境主要是指支撑软件运行的各种外部系统、硬件或环境。主要的运行支撑环境包括网络、主机系统、数据库和存储。5.L1、网络环境从支撑软件系统运行的角度,对网络环境日常巡检的基本要求主要是确保主干网网络连通性和网络服务质量(QoS)0巡检内容:巡检项I巡检方法i参考值I频率连通性检查采用Ping命令进行,建议至少对每个目标点做两组重复测量,每组测量次数不要少于200个。专网:丢包率应为0、时延应不超过IOms互联网:丢包率应接近0,时延不超过

16、300ms,但应比较稳定无线链路(GSM、HSDPA等):丢包率最高不要超过5%,时延不超过300ms每天路由路径检查采用TracertZtraceroute命令检查,检查实际路由路径与设计路由路径是否一致。应一致。每月网络设备的CPU、内存负荷运用命令/管理界面(不同的厂商不一样)对网络设备的运行时CPU、内存负荷进行检查。CPU5分钟利用率和内存利用率都应小于45%,45%-49%建议较快处理(建议4天内响应),250%急需处理(建议2天内响应)每天以上内容的巡检结果需填写到巡检记录表单RPOOl,RP005o5.1.1.L连通性检查在自建有线网络的情况下,Ping丢包率应为0,建议至少对

17、每个目标点做两组重复测量,每组测量次数不要少于200个;Ping的时延数据依赖于通信的网络带宽及Ping包的长度,目前典型的百兆/千兆情况下应不超过Ioms,且时延分布应比较窄(没有特别高的时延值出现),一般应在IomS内;Internet链路的Ping,丢包率应接近0,时延可能为几十或几百毫秒(200-300ms),但应比较稳定。运营商的无线链路(GSM、HSDPA等),丢包率应接近0(最高不要超过5%T0%),时延可能为几十或几百毫秒(200-300ms)o根据项目ip地址分配表,对中心所有服务器、重要工作站进行连通性检查,检查时需记录测试主机ip、延时和丢包情况。巡检结果记录到表单RPO

18、O5。5.1.1.2.路由路径检查Tracert/traceroute用于检查三层路由转发是否符合设计要求,具体的正常值和网络的拓扑设计、冗余设计等均相关。通常采用Tracert/traceroute命令检查,检查实际路由路径与设计路由路径是否一致。巡检结果记录到表单RPOO6。5.1.1、 3.网络设备的CPU、内存负荷一般网络设备的CPU及内存负荷应低于45%当负载过高时,会引起网络时断时通的现象、网速变慢等现象。运用命令/管理界面(不同的厂商不一样)对网络设备的运行时CPU、内存负荷进行检查。CPU5分钟利用率和内存利用率都应小于45%,45%-49%建议较快处理(建议4天内响应),25

19、0席急需处理(建议2天内响应)。巡检结果记录到表单RPOO1。5.1.2、 主机与存储环境对主机环境的运维服务包括:主机设备的日常监控,设备的运行状态监控,故障处理,操作系统维护,补丁升级等内容。5.1.2.1,主机及存储环境巡检项主机及存储环境基本巡检内容:巡检项说明频率显示器每月键盘/鼠标每月硬磁带机每月电源及风扇每月件线缆每月HBA卡状态每周SAN端口状态每周网卡状态每周系系统指示灯状杰前面板指示灯每周电源指示灯每周磁盘指示灯每周统系统控制板指示灯(CPU/MEM,I/O等)每周系统日志信息IML日志按需操作系统日志每日系统性能CPU(使用率小于80%)每日内存(使用率小于80%)每日交

20、换区(使用率小于80%)每日磁盘I/O性能每日磁盘分区使用率Windows系统磁盘工具/Unix系统用命令df-k每周系统时间校时偏差每日XX进程占用资源Top-c进程名,察看具体某个进程占用资源的具体情况每日集群进程状态每日集群日志每月以上内容的巡检结果需填写到巡检记录表单RP002o5.1.2.2.硬件信息外部设备运行状态,对磁盘阵列、磁带机、外置光驱、维护终端等的状态、设置进行检查;对风扇、后备电池、磁盘、磁带、键盘等敏感部件进行重点检查,查看是否有故障征兆。连接件检查,对连接插头、电缆、电源插座等进行检查5.1.2.3.系统指示灯状态前面板指示灯:查看是否有黄灯、红灯告警;电源指示灯:

21、查看是否有黄灯、红灯告警;磁盘指示灯:查看是否有黄灯、红灯告警;系统控制板指示灯(CPU/MEM,I/O等):查看是否有黄灯、红灯告警;如有,则对异常进行上报;5.1.2.4.系统日志信息通过控制面板或者系统命令获得系统日志,首先对比系统日志文件的大小,查看是否有异常增长,如发现增长异常,则需进一步分析操作系统日志文件内容。检查系统日志中是否有设备重启日志。如存在多次重启,则需将问题上报,待技术人员对其进行分析。5.1.2.5.系统性能通过控制面板或者系统命令获得服务器当前CPU、内存、交换区使用率与磁盘I/O情况,应至少观察5分钟,获得性能平均值,并观察是否有异常的波动。各项指标平均使用率应

22、低于80%,如超过则应将此异常情况上报。5.1.2.6.磁盘分区使用率通过控制面板或者系统命令获得主要磁盘的使用率、剩余空间。至少应查询的,windows系统:C盘、D盘。IinUX系统:usrvaro如剩余空间比例小于10%则应进行磁盘清理操作或将结果上报。5.1. 2.7.系统时间通过控制面板或者系统命令获得系统时间与参考服务器时间,并检查服务器是否按计划校时。如系统时间与参考服务器时间差超过1分钟,则应进行人工校时操作,如人工校时失败,则应将此异常情况上报。5.1.2. 8.进程占用资源通过控制面板或者系统命令获得进程占用资源,首先应观察相应的进程是否正常开启,如没有被开启,则应启动相应

23、的进程。接着观察进程占用资源,应至少观察5分钟,获得平均占有资源,并观察是否有异常的波动。如进程资源比过高,或者出现异常的波动,则应首先重启相应进程与相关进程,如重启后问题仍未解决,则应将此异常情况上报。5.1.3. 数据库系统环境5.1. 3.L数据库系统环境巡检项数据库系统主要的巡检内容如下: 实例状态 监听状态 会话 进程 定时作业 表空间由于不同版本、不同集成方式的数据巡检方法差异较大,故巡检项的巡检方法、参考值等将在后续章节展开。以上内容的巡检结果需填写到巡检记录表单RP003o5.1.3.2.oracle数据库RAC状态巡检项检查RAC状态首先需要了解数据库包含几个实例节点,也就是

24、说组成数据库集群的有几台服务器,数据文件是通过何种方式存储的。目前RAC数据库的文件的存储方式有两种一种是裸设备,一种是自动存储管理。只有使用了自动存储管理方式才需要查看自动管理实例状态。巡检项巡检方法参考值频率RAC总体状态crs_stat-tState字段为OnIine每天RAC实例状态Srvctlstatusdatabase-dInstanceisnotrunning每天on实例名,表示异常。RAC监听状态SrvctlstatuslistenerListener监听名is每天enabled1.istenerisrunningonnode(s):dbl自动管理实例状态(可选)srvctls

25、tatusasmASMisrunningon每天dbl,db2RAC节点状态srvctlstatusnodeapps每天5.1.3.2.1.RAC总体状态RAC是oracle集群软件运行的基础,需要重点关注.RAC集群软件有若干个管理进程组成,其中最重要的3个是crsd,cssd,evmd.服务名称服务器描述应有状态OSSD服务OCSSd是最关键的进程.如果这个进程出现异常,会导致系统重启.CSS服务通过多种心跳机制实时监控集群健康状态,提供rac主机群间的信息同步保护等服务功能OnlineCRSD服务CRSD服务是实现高可用性服务的进程.这个服务的功能是监控应用层资源,并在这些资源运行异常时

26、进行干预,包括关闭,重启进程或者转移服务。OnlineEVMD服务EVMD服务负责发布CRS产生的各种事件.另外负责CRS和CSS两个服务间的通讯。OnlineRacgimon服务此进程负责检查数据库健康状态,负责SerViCe的启动,停止,故障转移.这个进程会建立到数据库的持久连接,定期检查SGA中的特定信息。OnlineOPROCD服务如果是非IinUX平台上,此功能由第三方集群软件提供.此进程是用来检测集群中主机CPU运行状态.如果超过预设时间CPU没有回应,就认为主机工作异常,会重启主机。Online命令:crs_stat-t结果中有以下几个内容,服务名称类型应有状态实际状态节点主机名

27、NameTypeTargetstateHost只要保证实际状态列中都是Online就说明RAC状态时完全正常的.其中重点保证type列中是db、viplsnrasm的服务状态是OnIineo并记录下服务状态不是Online的服务名称。5.1.3.2.2.RAC实例状态实例进程组提供整套数据库管理服务的核心功能,如果集群中有一个节点出现故障,数据库软件的性能会大幅下降。所以需要重点关注实例状态,发现故障必须及时修复。命令:Srvctlstatusdatabase-d数据库名结果:可以看到数据库下所有实例的状态是runing就是正常的.例如以下InstanceisrunningonraclInst

28、anceisnotrunningonrac20贝U表示异常。5.1.3.2.3.RAC监听状态监听服务是用来接受客户端机器对oracle提出请求的。集群中每个节点都会有一个监听进程。如果监听进程出现故障,则除集群内服务器外的所有请求都无法响应。命令:Srvctlstatuslistener结果:LiStener监听名isenabled1.istener监听名isrunningonnode(s):dbl,db2005.1.3.2.4.ASM管理服务实例状态ASM管理服务是IOg以后出现的服务进程。他是用来管理数据文件所在的磁盘空间的一个软件。只有使用ASM方式管理存储系统才需要关注此服务的运行状

29、态。命令:srvctlstatusasm结果:ASMisrunningondbl,db25.1.3.3.单节点oracle数据库系统环境巡检项巡检内容:巡检项巡检方法参考值频率实例状杰selectinst_id,instance_name,statusfromgv$instanceStatus为online每天监听状杰LsnrctlstatusInstance监听名,statusREADY,has1handler(s)forthisservice每天系会话查询会话Selectinst_id,count(*)fromgv$sessiongroupbyinst_id应低于250。(可视不同系统实际

30、情况而定)每天统死锁selectb.owner,b.object_name,b.object_type,a.*fromv$locked_objectaleftjoin(selectdistinctowner,object_name,object_typeformdba_objects)bona.OBJECT_ID=b.object_id应为空每天进程ps-efgrepcrs每天ps-efgrepora定时作业selectjob,log_user,last_date,next_date,broken,failuresfromdba_jobsorderbyjobFAILURES列的值应为0每天表空

31、间利用率selecta.tablespace_name,a.mbytesastotal_size,nvl(b.mbytes,0)asfree_size,round(a.mbytes-nvl(b.mbytes,O)*100/ci.mbytes,2)asused_ratiofrom(selecttablespace_name,sum(bytes)/1024/1024asmbytesfromdba_data_fil.esgroupbytablespace_nameunionallselecttablespace_name,sum(bytes)/1024/1024asmbytesfromdba_tem

32、p_filesgroupbytablespace_name)aleftjoin(selecttablespace_name,sum(bytes)/1024/1024asmbytesfromdba_free_spacegroupbytablespace_nameunionallselecttablespace_name,sum(s.free_space)/1024/1024asmbytesfromdba_temp_free_spacesgroupbytablespace_name)bona.tablespace_nameb.tab1espace_name;used_ratio列应低于90%每天以

33、上内容的巡检结果需填写到巡检记录表单RP003o5.1.3.3.1.数据库实例数据库实例是数据库管理程序。检查数据库实例状态就是查看数据库软件是否在正常运行。方法如下:(1)使用数据库DBA用户登录数据库(2)命令SeIeCtinstid,instancename,VerSion,StatUSfromgv$inslance主要查看status这个字段的值如果是open表示数据库实例是正常的否则就是不正常。另外需要注意的是如果是oraclerac的版本,需要知道有几个节点,以上语句的查询出来的结果就有几行数据,数据条数少于节点数也表示数据库实例不正常。5.1.3.3.2.数据库监听单节点数据库监

34、听检查方法使用Oraele用户登录安装数据库软件的服务器,在操作系统命令行的模式下输入如下命令:ISnrCtIStaXus单实例结果反馈是下面的红色字符显示表示监听是正常的。Serviceorclhas2instance(s).Instanceorcl,statusUNKNOWN,has1handler(s)forthisservice.Instanceorcl”,statusREADY,has1handler(s)forthisservice.Servicez,orclXDBz,has1instance(s).Instanceorcl”,statusREADY,has1handler(s)f

35、orthisservice.ThecommandcompletedsuccessfullyRAC数据库监听检查方法使用oracle用户登录安装数据库软件的服务器,在操作系统命令行的模式下输入如下命令:SrVCtlStatusIiStener结果中会显示出每个节点的监听状态,只要每个节点的监听都处于运行(running)的状态就表示监听状态是正常的。5.1.3.4.ORACLE数据库运行环境巡检项巡检项巡检方法参考值频率系会话查询会话Selectinst_id,count(*)fromgv$sessiongroupbyinst_id应低于250o(可视不同系统实际情况而定)每天统死锁select

36、b.owner,b.object_name,bobject_type,a.*from应为空每天v$locked_objectaleftjoin(selectdistinctowner,object_name,object_typeformdba_objects)bona.OBJECT_ID=b.object_id进程ps-efIgrepcrsps-efIgrepora每天定时作业selectjob,log_user,last_date,next_date,broken,failuresfromdba_jobsorderbyjobFAILURES列的值应为0每天表空间利用率selecta.tab

37、lespace_name,a.mbytesastotal_size,nvl(b.mbytes,0)asfree_size,round(a.mbytes-nvl(b.mbytes,0)*100/a.mbytes,2)asused_ratiofrom(selecttablespace_name,sum(bytes)/1024/1024asmbytesfromdba_data_filesgroupbytablespace_nameunionallselecttabIespacejame,sum(bytes)/1024/1024asmbytesfromdba_temp_filesgroupbytabl

38、espace_name)aleftjoin(selecttablespace_name,sum(bytes)/1024/1024asmbytesfromdba_free_spacegroupbytablespace_nameunionallselecttabIespacejame,sum(s.free_space)/1024/1024asmbytesfromdba_temp_free_spaceSgroupbytablespace_name)bona.tabIespacejameb.tab1espace_name;used_ratio列应低于90%每天5.1.3.4.1.会话及连接要定时对数据

39、库的连接情况进行检查,看与数据库建立的会话数目是不是正常,如果建立了过多的连接,会消耗数据库的资源。同时,对一些“挂死”的连接,可能会需要DBA手工进行清理。每个实例下会话数查询方法:Selectinst_id,count(*)fromgV$sessiongroupbyinstid检查每个实例的会话数是否超过参考值。视各个应用系统而定,参考值一般为250/实例.5.1. 3.4.2.死锁对象死锁对象查询:selectb.owner,b.objectname,b.objecttype,a.*fromv$lockedobjectaleftjoin(selectowner,objectname,ob

40、jecttype,objectidfromdbaobjects)bona.OBJECT_ID=b.object_id将对象记录到检查表中。5.1.3.4.3.进程进程查询语句:ps-efIgrepcrsps-efIgrepora5.1. 3.4.4.定时作业如果数据库使用了Oracle的JOB来完成一些定时作业,要对这些JOB的运行情况进行检查,selectjob,log_user,last_date,next_date,broken,failures,whatfrodba_jobsorderbyjob如果FAILURES列是一个大于0的数的话,说明JOB运行失败,需要记录下失败JOB的编号,

41、以及调用的程序的名称,从而进一步的检查失败的原因。5.L3,45.表空间表空间是数据以及索引存储的媒介,如果表空间中利用率大于90%可能会引起诸多书就写入表的性能问题,当表空间利用率98%以上时可能会使大部分的数据无法写入表中。因此观察表空间的使用情况是保证数据库正常运行非常关键的项目。oracle的表空间分为系统表空间,数据表空间,UNDO表空间,TEMP表空间。以下是各类表空间利用率的上限参考值。类型上限参考值系统表空间90%用于oracle系统管理,如果此表空间写满会直接导致数据库软件挂死数据表空间90%保存应用数据,如果此类表空间写满会导致数据无法写入。UNDO表空间95%用于数据的事

42、物处理回滚操作,一般有回收和重复利用。数据库需要避免大数据事务操作,否则也会导致表空间增长或写满。如果此表空间利用率过高会影响其他数据写入到库中。TEMP表空间95%用于字段排序中间结果保存。如果利用率过高,会导致Oraderby命令执行报错查询表空间利用率的语句:selecta.tablespacename,a.mbytesastotal_size,nvl(b.mbytes,0)asfreesize,round(a.mbytes-nvl(b.mbytes,0)*100/a.mbytes,2)asuscdratiofrom(selecttablespace_name,sum(bytes)/10

43、24/1024asmbytesfromdbadatafilesgroupbytablespacenameunionallselecttablespace_name,sum(bytes)/1024/1024asmbytesfromdbatempfilesgroupbytablespacename)aleftjoin(selecttablespacename,sum(bytes)/1024/1024asmbytesfromdba_free_spacegroupbytablespacenameunionallselecttablespace_name,sum(s.freespace)/1024/1024asmbytesfromdbatempfree_spacesgroupbytablespacename)bona.tablespacc_name=b.tab1espaccname;结果格式:表空间名称类型总容量(兆字节)空闲空间(兆字节)占有率先

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号