《IT运维分析与海量日志搜索.ppt》由会员分享,可在线阅读,更多相关《IT运维分析与海量日志搜索.ppt(35页珍藏版)》请在三一办公上搜索。
1、IT运维分析与海量日志搜索,日志易CEO 陈军,提纲,IT 运维分析(IT Operation Analytics)日志的应用场景过去及现在的做法日志搜索引擎日志易产品介绍,IT 运维分析,从 IT Operation Management(ITOM)到 IT Operation Analytics(ITOA)大数据技术应用于IT运维,通过数据分析提升IT运维效率可用性监控应用性能监控故障根源分析安全审计 Gartner估计,到2017年15%的大企业会积极使用ITOA;而在2014年这一数字只有5%,ITOA 的四种数据来源,机器数据(Machine Data)日志 通信数据(Wire Da
2、ta)网络抓包,流量分析 代理数据(Agent Data)在.NET/Java 字节码里插入代码,统计函数调用、堆栈使用 探针数据(Probe Data)在各地模拟ICMP ping、HTTP GET请求,对系统进行检测,ITOA 四种数据来源使用占比,ITOA 四种数据来源的比较,机器数据(日志)日志无所不在但不同应用输出的日志内容的完整性、可用性不同 通信数据(网络抓包)网络流量信息全面但一些事件未必触发网络流量 代理数据(嵌入代码)代码级精细监控但侵入性,会带来安全、稳定、性能问题 探针数据(模拟用户请求)端到端监控但不是真实用户度量(Real User Measurement),日志,
3、我们重要的数据资产,IT系统(服务器、网络设备)每天都产生大量的日志,包含了各种设备、系统、应用、用户信息,日志:时间序列机器数据,带时间戳的机器数据IT 系统信息服务器网络设备操作系统应用软件用户信息用户行为业务信息日志反映的是事实数据“The Log:What every software engineer should know about real-time datas unifying abstraction”,Jay Kreps,LinkedIn engineer深度解析LinkedIn大数据平台(),一条 Apache Access 日志,180.150.189.243-15/A
4、pr/2015:00:27:19+0800“POST/report HTTP/1.1”200 21“https:/“Mozilla/5.0(Windows NT 6.1;WOW64;rv:37.0)Gecko/20100101 Firefox/37.0”“10.10.33.174”0.005 0.001字段:Client IP:Timestamp:15/Apr/2015:00:27:19+0800Method:POSTURI:/reportVersion:HTTP/1.1Status:200Bytes:21Referrer:https:/Agent:Mozilla/5.0(Windows NT
5、 6.1;WOW64;rv:37.0)Gecko/20100101 Firefox/37.0X-Forward:Request_time:0.005Upstream_request_time:0.001,日志的应用场景,运维监控可用性监控应用性能监控(APM)安全审计安全信息事件管理(SIEM)合规审计发现高级持续威胁(APT)用户及业务统计分析,过去,日志没有集中处理登陆每一台服务器,使用脚本命令或程序查看日志被删除磁盘满了删日志黑客删除日志,抹除入侵痕迹 日志只做事后追查没有实时监控、分析 使用数据库存储日志无法适应TB级海量日志数据库的schema无法适应千变万化的日志格式无法提供全文检
6、索,近年,Hadoop批处理,不够及时查询慢数据离线挖掘,无法做 OLAP(On Line Analytic Processing)Storm/Spark Hadoop/Storm/Spark都只是一个开发框架,不是拿来即用的产品 NoSQL不支持全文检索,现在,对日志实时搜索、分析日志实时搜索分析引擎 快日志从产生到搜索分析出结果只有几秒的延时 大每天处理 TB 级的日志量 灵活Google for IT,可搜索、分析任何日志 Fast Big Data,日志3.0:实时搜索引擎,需要开发成本批处理,实时性差不支持全文检索,固定的schema无法适应 任意日志格式无法处理大数据量,日志2.0
7、:Hadoop 或 NoSQL,日志1.0:数据库,日志管理系统的进化,实时灵活全文检索,日志易亮点,可编程的日志实时搜索分析平台 搜索处理语言(Search Processing Language,SPL)SPL命令用管道符(“|”)串接成脚本程序在搜索框里写 SPL 脚本,完成复杂的查询、分析 可接入各种来源的数据日志文件数据库恒生电子交易系统二进制日志 企业部署版 SaaS 版每天500MB日志处理免费,Schema on Write vs.Schema on Read,Schema on Write索引时(入库前)抽取字段,对日志做结构化检索速度快但不够灵活,必须预先知道日志格式 Sc
8、hema on Read检索时(入库后)抽取字段,对日志结构化灵活,检索时根据需要抽取字段但检索速度受影响 日志易同时支持 Schema on Write 和 Schema on Read日志易实现机制由用户选择需要的策略,日志易功能,搜索 告警 统计事务关联 配置解析规则,识别任何日志把日志从非结构化数据转换成结构化数据 安全攻击自动识别 开放API,对接第三方系统 高性能、可扩展分布式架构索引性能:100万 EPS(Event Per Second),20TB/天检索性能:60秒内检索1000亿条日志,日志易分析事件优势,客户案例:某大型综合金融机构,使用日志易之前逐台登陆服务器,无法集中
9、查看日志,无法对海量数据进行挖掘、用户行为分析日志查询方式比较原始,只能 less、grep 和 awk 等常见的 Linux 指令,无法多维度查询(时间段、关键字、字段值)无法进行日志的业务逻辑分析和告警 使用日志易之后,接入160多个应用的日志,10TB/天省去登陆服务器的操作,快速,降低人为登陆服务器误操作引发生产故障查询条件多维度,提升定位异常原因的效率可以对日志数据进行数据挖掘、用户行为分析并产生相应的报表,同时还可以针对应用系统健康指数提前告警,而不是事后补漏,客户案例:中移动某省分公司,使用场景和解决的问题分析营业厅业务办理日志聚合出每个营业员每项业务的详细操作步骤,对每个步骤操
10、作时长进行告警、统计分析 Search Processing Language 范例,json.url:“/charge/business.action?BMEBusiness=charge.charge&_cntRecTimeFlag=true”|transaction apache.dimensions.cookie_CURRENT_MENUID startswith=eval(json.action:“查询”×tamp30m)endswith=json.action:提交,1.先通过url过滤出所有缴费业务日志,2.通过menuid进行分组聚合,3.将“查询”动作作为步骤起点,
11、4.默认30分钟内营业员处理完一笔完整业务,5.将“提交”动作作为步骤结束,客户案例:中移动某省分公司,一笔缴费业务营业员所有操作步骤一目了然,每个步骤所需要的执行时间按步骤顺序排列,网络处理时间,服务器处理时间按步骤顺序排列,客户案例:国家电网,安全信息与事件管理终端信息安全事件日志的调查、分析、取证在各省分公司信息安全事件现场使用快速排查事件日志保留的证据,为事件取证提供支持,客户,日志易介绍:总览,日志易介绍:日志结构化,日志易介绍:字段抽取、统计,日志易介绍:搜索,日志易介绍:统计,日志易介绍:告警,日志易介绍:仪表盘,日志易-网络安全部门仪表盘,日志易-应用监控仪表盘,日志易-网络设备部门仪表盘,公司情况,融资2014年3月,获得真格基金等天使投资人1400万元天使投资2015年12月,获得红杉资本6000万元A轮投资 团队来自 BAT、360的核心研发团队来自著名外企的核心销售团队,日志易,日志分析更容易,微信公众号,