《日志审计与分析系统课件QAX第4章日志存储.pptx》由会员分享,可在线阅读,更多相关《日志审计与分析系统课件QAX第4章日志存储.pptx(53页珍藏版)》请在三一办公上搜索。
1、第4章 日志存储,第4章 日志存储,目录,4.1 概述4.2 日志存储策略4.3 存储方式,目录4.1 概述,本章学习目标,1.了解日志存储的必要性;2.了解日志存储策略;3.了解日志存储格式的种类;4.理解关系数据库存储、键值数据库和分布式存储的优缺点;5.理解存储方式的优缺点;6.掌握存储方式;7.掌握日志存储的实际应用;,本章学习目标1.了解日志存储的必要性;,概述,4.1,概述4.1,(1)日志存储是进行日志审计分析的基础,目前一些中小型企业留存的日志记录已经增长到TB甚至是PB级别。(2)面对大数量级的日志数据,日志的存储策略和存储方式对后续日志的分析有着重要的影响。,日志存储的必要
2、性,(1)日志存储是进行日志审计分析的基础,目前一些中小型企业留,日志存储策略,4.2,日志存储策略4.2,(1)基于文本日志目前最为丰富的日志类型。(2)基于文本日志记录的丰富主要归功于生成该类型日志时较低的成本,以及现有的许多计算机语言中包含了可以轻松生成基于文本日志的框架。,基于文本的日志记录特点,7,(1)基于文本日志目前最为丰富的日志类型。基于文本的日志记录,(1)应用程序写入基于文本的日志文件,从CPU以及I/O资源来说代价很低。(2)文本格式是典型的便于人们理解、可读的格式,可用常规文本工具(如grep和awk,都是各种Unix/Linux操作系统变种的固有工具)处理和查阅。(3
3、)许多常见的基于文本的日志格式已经存在,例如syslog。使得运营和安全团队易于使用一种通用方法来解析日志,构造一个更完善的日志管理系统。,基于文本的日志记录的优点,(1)应用程序写入基于文本的日志文件,从CPU以及I/O资源,(1)定义:基于二进制日志文件是应用程序生成的机器可读的日志文件,需要专有的工具或者程序去阅读处理它们。(2)应用案例:Windows事件日志和Microsoft Internet信息服务日志等。,基于二进制文件定义,(1)定义:基于二进制日志文件是应用程序生成的机器可读的日,(1)未来5年甚至10年后阅读二进制日志所使用工具的可用性。保留一台专用读取二进制日志的服务器
4、很多年,并进行取证分析,几乎是不可能的。(2)二进制日志文件在磁盘空间利用上非常高效,但是无法进行很大的压缩。与文本文件日志记录相比,二进制文件所需的存储空间会比较大。,存二进制日志文件原生格式的问题,(1)未来5年甚至10年后阅读二进制日志所使用工具的可用性。,(1)含义:基于压缩文件的日志存储主要将每个周期的日志文件进行压缩,压缩成一个新的日志文件。(2)作用:这样可以使得日志所占的磁盘空间越来越小,从而节约宝贵的存储空间。,基于压缩文件的存储含义和作用,(1)含义:基于压缩文件的日志存储主要将每个周期的日志文件,(1)定义:由网络系统内部的运行程序产生的,记录着系统运行的状况是否正常。(
5、2)作用:日志数据可以用来检查系统发生错误的原因;查找受到入侵留下的线索。,日志数据定义和作用,(1)定义:由网络系统内部的运行程序产生的,记录着系统运行的,(1)定义:关系数据库建立在关系数据库模型基础上的数据库,借助于集合代数等概念和方法来处理数据库中的数据。(2)主要内容:关系数据库内容主要包含关系的数据结构、关系操作集合和关系完整性约束。,关系数据库定义及其主要内容,(1)定义:关系数据库建立在关系数据库模型基础上的数据库,借,(1)单一的数据结构关系,也就是说现实世界的实体以及实体间的各种联系均用关系来表示。(2)数据的逻辑结构二维表,从用户的角度关系模型数据逻辑结构为一张二维表。,
6、关系的数据结构,(1)单一的数据结构关系,也就是说现实世界的实体以及实,(1)关系操作集合是关系数据库的主要内容之一。(2)查询包括选择,投影,除,并,交,差和连接。(3)数据的更新包括插入,删除和修改。而其中的查询是最主要的部分。,关系操作集合主要内容,(1)关系操作集合是关系数据库的主要内容之一。关系操作集合主,(1)实体完整性:由关系系统自动支持,参照完整性,早期的系统不支持,目前大型的系统都能自动支持。(2) 用户定义的完整性:反应应用领域要遵守的约束条件,体现了具体领域中的语义约束,用户定义后由系统支持。,关系完整性约束,(1)实体完整性:由关系系统自动支持,参照完整性,早期的系,(
7、1)头信息:通常包括某事件发生的时间戳以及事件涉及的IP地址。(2)消息体:通常就是事件的消息,在数据库中存储这些消息主要是用来构建实时报警系统。(3)分析和总结。,通常被存入关系数据库信息,(1)头信息:通常包括某事件发生的时间戳以及事件涉及的IP地,(1)优先级消息的重要性或相对重要性。(2)日期和时间表明事件什么时候发生。(3)主机生成这个事件的系统。(4)消息事件发生的详细信息。,被用到的数据项,(1)优先级消息的重要性或相对重要性。被用到的数据项,(1)数据库的易用性和较低的成本,企业可以使用标准的SQL 语句快速搜索和检索日志记录。(2)数据库系统具有健全的用户访问和权限系统,这些
8、工具可以使用编程语言作为查询日志数据的工具,并不需要使用需要特定的知识和权限的平台。(3)许多编程语言内建立了数据库处理的支持,可以开发用于日志数据实时查看与分析。,关系数据库日志存储的特点,(1)数据库的易用性和较低的成本,企业可以使用标准的SQL,(1)数据量太庞大、臃肿。(2)从数据库读取或者写入日志消息都会有显著的开销,向数据库中写数据在速度上明显比写入本地磁盘文本文件慢,主要是因为网络延迟、SQL解析、索引更新以及向磁盘提交信息时造成网络的拥堵。(3)使用数据库存储日志对磁盘空间需求也较高,主要是因为实现快速搜索和检索需要大量索引文件,压缩数据的选项也较为有限。,关系数据库日志存储的
9、缺点,(1)数据量太庞大、臃肿。关系数据库日志存储的缺点,(1)定义:键值数据库 是一种轻量级的数据库,引领下一代数据库的发展方向即非关系、分布式、开源和易扩展。,键值数据库,键值数据库定义,(1)定义:键值数据库 是一种轻量级的数据库,引领下一代数据,(1)无数据模式,键值数据库没有关系数据库中的内模式、逻辑模式、外模式等的概念,其只由Key、Value决定,是在程序内实现。(2)复制相对简单,由于其容易支持分布式所以在网络上的数据库间能轻松地实现复制备份。(3)接口简单,键值数据库提供简单的接口,包括基本的读、写等接口函数用户只需要调用读写接口就可以操纵数据库。(4)数据最终一致性,键值数
10、据库并不一定遵循ACID特性,但能保证数据库最终是一致的。,键值数据库的特点,(1)无数据模式,键值数据库没有关系数据库中的内模式、逻辑模,(1)网络连接层:网络连接(2)公共服务层:提供服务(3)虚拟存储层:负责存储(4)存储引擎层:存储检索,键值数据库系统总体架构,键值数据库系统总体架构,(1)网络连接层:网络连接键值数据库系统总体架构键值数据库系,关系数据库与键值数据库对比,数据库定义关系数据库Key-value数据库数据库由表组成,,(1)能够高效地进行海量数据的存储和访问。(2)能够满足高并发地读写请求。(3)具有高扩展性和高可用性。,NoSQL数据库应该满足的特点,(1)能够高效地
11、进行海量数据的存储和访问。NoSQL数据库应,(1)定义:分布式存储系统利用系统的可拓展性将将数据分散存储在多台独立的设备上。(2)优势:提供可靠性和安全性。满足大规模存储应用且可拓展。,分布式存储的系统定义以及优势,(1)定义:分布式存储系统利用系统的可拓展性将将数据分散存储,(1)基于Hadoop生态圈的日志存储是分布式存储策略系统的代表。(2)与传统数据库系统相比,分布式存储策略利用分布式技术将较大日志文件存储到多个非本地节点中。,基于Hadoop生态圈的日志存储,(1)基于Hadoop生态圈的日志存储是分布式存储策略系统的,(1)定义:HDFS为海量数据提供存储模型。HDFS(Hado
12、op Distributed File System)全称为分布式文件系统。(2)作用:专门负责对存储在Hadoop集群上的数据的存储、管理、冗余备份以及出错恢复处理。,HDFS定义及作用,(1)定义:HDFS为海量数据提供存储模型。HDFS(Had,(1)满足超大规模的数据集需求。(2)支持流式的数据访问。(3)可容忍节点失效的发生。(4)有很强的扩展性。(5)存储文件时会将文件分割为多个数据块。,HDFS文件系统特点,(1)满足超大规模的数据集需求。HDFS文件系统特点,(1)Namenode是管理节点,主要存储和管理整个文件系统的namespace和元数据。(2)Namenode还负责文
13、件的读取写入过程。(3)一个文件被分割为一个或多个数据块,这些数据块分别存储在不同Datanode上。,HDFS中Namenode的作用,(1)Namenode是管理节点,主要存储和管理整个文件系统,集群开始正常运行后(1)Datanode和Namenode会建立连接并不断地保持心跳,心跳信息中包含Datanode的状态和Namenode对Datanode的命令等。(2)Datanode接受对数据的访问,响应数据的读写请求。(3)Datanode之间也会通过心跳保持联系以达到相互协调地工作。,HDFS中Datanode的作用,集群开始正常运行后HDFS中Datanode的,存储方式,4.3,存
14、储方式4.3,(1)在线存储:在线存储又称线上存储,典型应用为云存储。(2)近线存储:近线存储介于在线存储和离线存储之间的选择。(3)离线存储:离线存储又称为线下存储。,数据存储的方式概述,(1)在线存储:在线存储又称线上存储,典型应用为云存储。数据,(1)在线存储是指将信息实时存储,存储设备和所存储的数据时刻保持“在线”状态。(2)在线存储可以使得在线日志信息可以立即访问和检索并且可供用户随时读取。,在线存储定义,34,(1)在线存储是指将信息实时存储,存储设备和所存储的数据时,(1)一次存储(或备份)、随时随地访问。(2)数据共享。(3)在线同步。(4)存储空间大、容易扩展。,在线存储的特
15、点,(1)一次存储(或备份)、随时随地访问。在线存储的特点,(1)云存储是一种新兴的在线存储方式,它是在云计算概念上延伸和发展出来的一个新的概念。(2)云存储通过集群应用、网络技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统。,云存储,(1)云存储是一种新兴的在线存储方式,它是在云计算概念上延伸,(1)数据存储层:数据存储(2)基础管理层:设备协同(3)应用接口层:提供接口(4)用户访问层:提供接口,云存储平台整体结构划分,(1)数据存储层:数据存储云存储平台整体结构划分,(1)成本低。(2)便捷访问。(3
16、)具备海量扩展能力。(4)实现负载均衡。(5)可实现量身定制。,云存储优势,(1)成本低。云存储优势,(1)数据安全与可用性之间的权衡。(2)性能和数据传输速率的限制。(3)可管理性的缺乏。(4)互操作性与协议转换的困境。,云存储服务面临的挑战,39,(1)数据安全与可用性之间的权衡。云存储服务面临的挑战39,(1)定义:近线存储是介于在线存储和离线存储之间的存储选择,即所谓的分级存储。(2)作用:经常应用于数字电视中的播出控制系统和存储一些客户长期保存但是不常用的文档。,近线存储定义和应用,(1)定义:近线存储是介于在线存储和离线存储之间的存储选择,,(1)存储数据分类:用户经常需要访问的数
17、据与不需要访问的数据。 (2)主要特征:近线存储将那些不是经常用到,或者说数据的访问量并不大的数据存放在性能较低的存储设备上。,近线存储特点,(1)存储数据分类:用户经常需要访问的数据与不需要访问的数,(1)近线存储采用硬盘、磁带或光盘作为存储介质,并使用相应的近线存储管理软件对存储文件进行管理。(2)近线存储大容量的数据时,硬盘相比于磁带和光盘更具有优势。,近线存储介质概述,(1)近线存储采用硬盘、磁带或光盘作为存储介质,并使用相应的,(1)近线系统的数据检索部分位于硬盘,其读写速度。(2)近线系统将大量使用频率较低的数据迁移到磁带库或光盘库中,既有离线存储系统数据容量近于无限的优点,又节省
18、在线部分的硬盘空间。,近线存储系统的优点,(1)近线系统的数据检索部分位于硬盘,其读写速度。近线存储系,(1)响应速度快。(2)节省空间。(3)可为网络中心存储设备提供安全备份。,近线存储的主要优势,(1)响应速度快。近线存储的主要优势,近线存储的缺点,(1)要求近线存储设备所需的容量相对较大。(2)需要采用数据吞吐能力较大的介质存取设备,介质成本较高。,近线存储的缺点,近线存储的缺点(1)要求近线存储设备所需的容量相对较大。近线,(1)存储再利用:存储时间长达几个月,满足素材的大容量存储和再利用。(2)上载速度:迁移的速度要远远大于1:1的上载速度。(3)资源的利用:迁移过程在系统空闲时执行
19、,不会占用播出系统的网络资源,以保证网络的安全和稳定。(4)系统安全性:将服务器和其他网络分离,不会对硬盘播出造成任何威胁。(5)设备位置要求:可以在任何地方进行节目素材的上载和传送。(6)成本因素:降低了成本,相对服务器的本地存储有较低的成本。,近线存储再播出系统中的优势,(1)存储再利用:存储时间长达几个月,满足素材的大容量存储和,近线存储可以提供冗余存储从而保证数据的完整性和灾难保护,但是在大多数情况下由于不常用的数据要占总数量的比较大的比重,这也就要求近线存储设备所需的容量相对较大。,近线存储的硬件架构,近线存储的硬件架构,近线存储可以提供冗余存储从而保证数据的完整性和灾难保护,但,(
20、1)存储介质: 目前主要使用的是光盘或磁带存储。(2)用途:大多数情况下用于对在线存储的数据进行备份,以防范可能发生的数据灾难,因此又称备份级的存储。,离线存储概述,(1)存储介质: 目前主要使用的是光盘或磁带存储。离线存储概,(1)磁带:磁带属于传统的离线存储介质,具有存储量大,保存时间长的优点;但是读取数据流程较繁琐。(2)光盘:主要以光盘塔和光盘库两种存储方式进行存储,具有较高抗震、抗冲击性,但是重复读写次数较少,速度较低。(3)硬盘:以磁盘为存储介质,具有存储容量大、数据传输率高等特点,是目前离线存储中非常流行的存储介质。,离线存储的介质,(1)磁带:磁带属于传统的离线存储介质,具有存
21、储量大,保存时,介质海量数据离线管理系统的对比,介质磁带光盘硬盘物理优点易生产使用广泛数据不可修改存储容量大,(1)具有海量日志接收和存储能力。接收日志数据的速率峰值能够达到30000条每秒,并以每秒6000条处理和关联分析数据。检索时,百万条数据检索大约5秒,上亿条数据检索小于60秒。(2)具有分布式和本地部署两种部署方式。(3)系统所采用的存储算法可以使小数据库也能达到上述性能,降低成本。,网神SecFox日志收集与分析特点,(1)具有海量日志接收和存储能力。网神SecFox日志收集与,(1)在线存储:存储容量约千万级别的日志记录,可供实时查询、分析这些数据。(2)近线存储:存储一些不经常使用的日志数据可供使用者随时调出。(3)离线存储:存储历史日志数据,供用户备份使用。,网神SecFox日志收集与分析系统存储方式,(1)在线存储:存储容量约千万级别的日志记录,可供实时查询、,(1)该系统可以提供多种日志存储策略,能够方便地进行日志备份和恢复。(2)该系统部署方式多样,支持多种方式部署,包括分布式部署和本地部署两种方式。(3)系统实时性较强,可以快速分析数据。,网神SecFox日志收集与分析系统优势,(1)该系统可以提供多种日志存储策略,能够方便地进行日志备份,