《大数据大数据技术交流37 精品ppt课件.ppt》由会员分享,可在线阅读,更多相关《大数据大数据技术交流37 精品ppt课件.ppt(37页珍藏版)》请在三一办公上搜索。
1、大数据平台技术交流,吴敏达 资深技术顾问,2,从各种各样类型的巨大数据中,快速获得有价值信息的能力,就是大数据技术,什么是大数据,Variety: 管理复杂的多角度关系和非关系类型的数据 (你是否忽略利用的非结构化数据进行决策吗)Velocity: 流数据或者大量数据的移动 (你是否希望通过实时操作提供更好的结果)Volume: 数据量从TB级到ZB级 (你是否收集了所有数据,并在使用它吗),Veracity:1/3 的领导在做业务决策时候不相信获得的信息,大数据参考架构,超越传统的数据仓库概念,流计算,Internet级别,传统数据仓库,In-Motion Analytics,Data An
2、alytics, Data Operations & Model Building,Results,Internet Scale,Database &Warehouse,At-Rest Data Analytics,Results,Ultra Low Latency Results,InfoSphere BigInsights,传统/关系型数据源,非传统/非关系型数据源,传统/关系型数据源,非传统/非关系型数据源,Cloud | Mobile | Security,IBM大数据平台和应用框架,通过可视化的方法采集、抽取、以及探查数据,应用加速器,加速应用开发,快速实现分析价值,BI / Rep
3、orting,BI / Reporting,Exploration / Visualization,FunctionalApp,IndustryApp,Predictive Analytics,Content Analytics,Analytic Applications(分析应用),IBM Big Data Platform(大数据平台),Systems Management,Applications & Development,Visualization & Discovery,分析流数据,以及在大数据的是谁数据洞察,数据管控(数据质量、生命周期、),低成本地分析PB级结构化和非结构化数据
4、,操作型数据或者历史数据的,基于数据仓库内嵌分析,索引和联邦的上下文相关分析,议程,IBM hadoop平台BigInsightsIBM 流计算Streams IBM数据仓库平台pure Data基于大数据平台的数据分析-DataExplorerIBM大数据优势汇总,6,Forrester Wave关于大数据的报告,BigInsights 企业版,连接和集成,基础架构,可选 IBM 产品,分析和探查,应用,. . .,管理和开发工具,管理控制台 Monitor cluster health, jobs, etc. Add / remove nodes Start / stop services
5、 Inspect job status Inspect workflow status Deploy applications Launch apps / jobs Work with distrib file systemWork with spreadsheet interfaceSupport REST-based API . . .,Eclipse 开发工具 Text analytics MapReduce programming Jaql, Hive, Pig development BigSheets plug-in development Oozie workflow gener
6、ation,IBM,GPFS FPO,BigInsights 优势列表,High Performance & Availability GPFS-FPO At least 2X faster than open source Hadoop17x throughput speedup for document index lookupsFault resistance for Real Time DataPOSIXAdaptive MapReduce SQL Interface ( BigSQL )Integrated Install & Mgt Consoles Security LDAP+H
7、igh speed LZO CompressionDevelopment Toolingenvironment, testing, and optimizationWarehouse RDBMS & Streams Integration,SystemT Text AnalyticsBlazing Fast, Uses Unstructured data does not require structuring, (MapReduce)Customized AnnotatorsBigSheetsInsight Engine for analytics on Massive amounts of
8、 data in BigInsights. Power of Map/Reduce within reach of the Business professional with a familiar Spreadsheet-like environment.Built in VisualizationsSystemML Machine Leaning (Watson)Directly implemented ML algorithms on MapReduceDeep Statistical / Mining embedded into BigInsights PlatformBigIndex
9、Distributed indexing and searchParallel indexing and search,企业级别基础设施,企业级别分析能力,GPFS-FPO与HDFS各项指标对比,IBM Adaptive MapReduce 提供强大的企业级管理,用于在可扩展的共享网格上运行分布式应用程序和大数据分析。它可加速数十个并行应用程序,以加快实现成果并更好地利用所有可用资源。,TeraSort,Throughput,SWIM,10 times fewer CPU cores,6 times faster,60 times faster,Berkley SWIM is a worklo
10、ad benchmark developed at University of California at Berkley.,Measure core scheduling efficiency of MapReduce workloads at Hadoop World 2011,Multi-tenant resource management,10 x Less hardware for the fastest TeraSort score.,Big SQL: 让 Hadoop 原生支持 SQL,原生 SQL 支持 BigInsightsANSI SQL 92+Standard synta
11、x support (joins, data types, )真正的 JDBC/ODBC Prepared statementsCancel supportDatabase metadata API supportSecure socket connections (SSL)优化Leveraging MapReduce parallelismorDirect access for low-latency queries多种数据源HBase (including secondary indexes)CSV, Delimited files, Sequence filesJSONHive tabl
12、es,Big SQL Engine,BigInsights,Data Sources,SQL,Hive Tables,HBase tables,CSV Files,JDBC / ODBC Server,JDBC / ODBC Driver,使用报表工具,Cognos BI server 可以下推计算到 BigInsights更快响应时间没有 Hive 的限制,Application (Map-Reduce),Storage(HBase, HDFS),InfoSphere BigInsights,Cognos BI Server,Explore & Analyze,Report & Act,可以
13、使用已有的工具: SQuirreL SQL,Using existing SQL tooling against BigDataSupport for “standard” authentication!(not supported for Hive, but supported by Big SQL!),13,可以使用已有的工具: Eclipse,Using existing SQL tooling against BigDataSame setup as for existing SQL sources!Support for “standard” authentication!,14,集
14、成的基于Web的安装,无缝的单节点或者集群模式安装开源组件和IBM组件的安装验证检查,确保系统正常运行,基于Web的管理控制平台,任务和工作流管理系统健康监控集群以及文件系统管理,基于表单的分析,仪表盘,议程,IBM hadoop平台BigInsightsIBM 流计算Streams IBM数据仓库平台pure Data基于大数据平台的数据分析-DataExplorerIBM大数据优势汇总,计算模式的变革,动态数据的实时分析 流数据结构或非结构化动态数据流 流计算实时对流数据进行分析计算,静态数据的历史分析批处理模式查询驱动:静态数据提交查询依靠数据库,数据仓库,传统计算模式,流计算模式,Qu
15、eries,Memory,Disk,Updates,Memory,Disk,Event Data,Queries,Alerts Actions,20,IBM InfoSphere Streams,A platform for real-time analytics on BIG data一个处理流数据的低延迟平台毫秒级,甚至微妙级端到端的延迟一个可高度扩展的,用于实时分析的高性能平台通过横向增加硬件获得近线性的处理能力扩展高达125个节点扩展一个灵活的、动态的平台Streams应用灵活部署支持动态部署新的分析应用,Millions of events per second,Microsecon
16、d Latency,Traditional / Non-traditional data sources,Real time decisions,PowerfulAnalytics,Algo Trading,Telco churnpredict,SmartGrid,CyberSecurity,Government /Law enforcement,ICUMonitoring,EnvironmentMonitoring,21, 连续注入,连续分析,实现可扩展: 将应用分布到多个计算节点 在流连接的硬件节点之间分发,Streams流计算平台,基础设施提供服务:在跨硬件/软件节点中调度分析建立流媒体
17、连接,变换,过滤 / 采样,分类,关联,注释,在适当的地方,处理单元可以是“融合”在一起从而消除通信的延迟,Streams Toolkit (常用),Join,Functor,Aggregate,Punctor,Sort,Filter,高度可并行扩展能力,同时利用几十台、上百台进行实时数据流处理,高可用、集群部署能力,Processing Element Container,Processing Element Container,Processing Element Container,Processing Element Container,Processing Element Conta
18、iner,优化调度器把操作符分配到不同的节点运行,并持续监控资源的使用情况,自适应资源、工作负载、数据速率的变化,在低成本硬件上运行从单节点PC到刀片服务器到多阵列集群,26,参考性能数据 吞吐性能和延迟,1,975 streams,2,133 streams,163 streams,24 channels,163 Decision Engines356 Blue Gene Nodes356 Processing Elements4,274 streams,Data Feed,每秒500万条记录平均延迟 150 微秒最小延迟50 微秒65K中49条延迟 2 毫秒,大数据的实时分析平台分析不同的
19、数据源,每秒分析上百万个事件易用性能图形化应用开发模式,容易管理和监控集成能力集成XML ,MQ, DataStage,HDFS等高级工具包和加速器事件序列和地理信息数据库工具箱和CEP处理 可定制化的电信和媒体分析加速器帮助快速部署应用.,InfoSphere Streams,InfoSphere Streams,议程,IBM hadoop平台BigInsightsIBM 流计算Streams IBM数据仓库平台pure Data基于大数据平台的数据分析-DataExplorerIBM大数据优势汇总,专家集成数据系统,议程,IBM hadoop平台BigInsightsIBM 流计算Stre
20、ams IBM数据仓库平台pure Data基于大数据平台的数据分析-DataExplorerIBM大数据优势汇总,Name change and new release,IBM InfoSphere Data Explorer,结合企业各类数据,包括大数据的分析结果,FileSystems,RelationalData,ContentManagement,Email,CRM,Velocity Platform,Commenting,Rating,SharedFolders,IDE给最终用户提供整合的企业级的信息探查,Application Framework,Real TimeAnalyti
21、cs,Internet ScaleAnalytics,In-DatabaseAnalytics,FederatedDiscovery,Navigation and Visualization,33,Enterprise DataConnectors,IDE InfoSphere Data Explorer平台架构,议程,IBM hadoop平台BigInsightsIBM 流计算Streams IBM数据仓库平台pure Data基于大数据平台的数据分析-DataExplorerIBM大数据优势汇总,IBM BigData 方案的价值,提供最为广泛的平台支持-解决了海量数据处理的多种需求IBM研究和研发实验室的先进数据处理技术融入到产品当中接受,拓展,延伸并反馈到开源社区产品支持和保持领先的专业知识与能力,以确保客户的成功处理海量数据的完整技术支持其他的友商只能提供部分的支持,或通过其他厂商的方案进行融合专注于企业品质和诉求经过实践的性能管理与开发工具支持IBM内部和IBM外部的信息管理技术的深度整合安全性和数据治理高可用与备份恢复IBM的服务和咨询IBM的先进技术和长久积累下的经验沉淀.,谢谢,