《理解大数据实践大数据概述.pptx》由会员分享,可在线阅读,更多相关《理解大数据实践大数据概述.pptx(48页珍藏版)》请在三一办公上搜索。
1、理解大数据,实践大数据,内容,对大数据的理解拓尔思大数据产品布局和应用实践,反对派认为,我们现在处在一个盲目的大数据崇拜时代,大数据产生的背景,数据的爆发式增长和社会化趋势,新摩尔定律大数据已经成为一种自然资源机器数据日益重要大数据不被利用就是成本,大数据产生的背景,现有的商业软件难以处理大数据的规模和复杂性获取(capture)存贮(storage)搜索(search)分享(sharing)分析(analysis)可视化(visualization),奥巴马大数据战略,2012年3月29日,白宫发布美国政府的大数据计划通过提高从大型复杂的数字数据集中提取知识和观点的能力,承诺帮助加快在科学与
2、工程中的步伐,加强国家安全,并改变教学研究,大数据的4V特性,体量Volume,多样性Variety,价值密度Value,速度Velocity,非结构化数据的超大规模和增长总数据量的8090%比结构化数据增长快10倍到50倍是传统数据仓库的10倍到50倍,大数据的异构和多样性很多不同形式(文本、图像、视频、机器数据)无模式或者模式不明显不连贯的语法或句义,大量的不相关信息对未来趋势与模式的可预测分析深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、报告等),实时分析而非批量式分析数据输入、处理与丢弃立竿见影而非事后见效,对大数据的理解,大数据比云计算更为落地大数据不仅仅是“大”软件是大数
3、据的引擎大数据的应用不仅仅是精准营销管理大数据“易”,理解大数据“难”,1、大数据比云计算更为落地,商业模式驱动,应用需求驱动,云计算本身也是大数据的一种业务模式,2、大数据不仅仅是“大”,多大?PB 级,比大更重要的是数据的复杂性,有时甚至大数据中的小数据如一条微博就具有颠覆性的价值,3、软件是大数据的引擎,和数据中心(Data Center)一样,软件是大数据的驱动力,软件改变世界,大数据生态:软件是引擎,4、大数据的应用不仅仅是精准营销,通过用户行为分析实现精准营销是大数据的典型应用,但是大数据在各行各业特别是公共服务领域具有广阔的应用前景,消费行业,金融服务,食品安全,医疗卫生,军事,
4、交通环保,电子商务,气象,5、管理大数据“易”理解大数据“难”,虽然大数据是一个重大问题,真正的问题是让大数据更有意义目前大数据管理多从架构和并行等方面考虑,解决高并发数据存取的性能要求及数据存储的横向扩展,但对非结构化数据的内容理解仍缺乏实质性的突破和进展,这是实现大数据资源化、知识化、普适化的核心非结构化海量信息的智能化处理:自然语言理解、多媒体内容理解、机器学习等,拓尔思大数据产品布局,TRS机器数据挖掘引擎,TRS SMAS 舆情云服务,TRS 大数据管理系统V7.0,TRS 大数据管理系统发展历程,TRS 全文数据库,TRS 非结构化数据库,TRS 大数据管理系统,TRS 大数据管理
5、系统V7.0,TRS 大数据管理系统V7.0,分布式并行计算、多副本机制、没有单点的高可靠体系架构,兼容Hadoop标准支持结构化、半结构化、非结构化数据的管理和搜索支持实时及用户行为数据的高效管理和分析支持PB级的海量数据管理支持海量用户的高并发访问(千万级用户、万级并发)充分释放硬件的潜力(多核、大内存等)大规模部署的自动化和运行状态监控创新的多检索引擎机制,提供开放的二次开发接口,数据备份,大数据管理系统,数据存储,开发接口,基于Hadoop的数据分析,CKM文本挖掘与数据挖掘,关联规则与序列模式挖掘,推荐引擎的离线分析,MapReduce,数据库监控,机器数据搜索引擎,用户行为挖掘与推
6、荐引擎,基于时间分段的大数据检索与索引接口,搜索引擎,日志采集监控,数据存储层,数据分析层,日志发送节点,Angent 1,Angent 2,Angent 3,Angent n,日志接收集群,Collector 1,Collector 2,Collector 3,Collector n,Master管理集群,Master 1,Master 2,Master n,日志采集,TRS 机器数据挖掘引擎,TRS 机器数据挖掘引擎特点,支持主流格式机器数据的实时采集、解析、管理和搜索。基于时间分段和负载均衡的大数据索引与检索机制。基于Web的机器数据搜索与分析界面。兼容Hadoop平台的日志挖掘和用户行
7、为分析。基于多种推荐模型的在线推荐引擎大规模部署的自动化和运行状态监控,TRS SMAS功能框架图,舆情管理,服务共享,信息挖掘,信息来源,新闻,论坛,博客,搜索引擎,微博,wiki,自动排重、自动分类、自动摘要、自动分析,舆情分类,热点跟踪,热点统计,微博分析,人物分析,微博运营,趋势分析,整合统计,关联图谱,动态走势,兴趣图谱,未知探索,热点变化,意见领袖,传播图谱,关系分类,个性展示,敏感预警,自由分布,数图导出,图表切换,多维检索,探针追踪,元搜索,外网微博论坛SNS网媒,官网提高销量用户满意度,用户设计,趋势分析,竞争分析,质量缺陷,设计缺陷,使用缺陷,KOL维护,声誉管理,危机预警
8、,事件评估,行为分析,产品,公关,营销,SMAS用户感知,研发,情绪感知,及时服务,口碑监测,媒介监测,S-CRM,广义服务,TRS SMAS 作用于企业2.0,TRS 在大数据领域的应用实践,新华社多媒体数据库国家知识产权局专利检索系统某部信息监控系统TRS SMAS 云服务(大数据服务)国家质监局国家药监局北京市环保局国家气象局每日微博热点分析,新华社多媒体数据库系统,是新华社的核心业务支撑,典型的非结构化数据管理应用场景,持续IT投资已经超过6亿人民币以新华社遍布全球的新闻信息及采集网络为依托,全面整合新华社的文字、图片、图表、音视频、报刊等全部资源和社会上有价值的新闻信息资源,拥有包括
9、中、英、法、俄、西、阿及中文繁体在内的 6个文种,数据量超PB最早采用文件系统,后来改为Oracle,效率很低,再改为Oracle+TRS,持续服务至今从大型机改为PC服务器集群,1.5亿条原创新闻资讯,26000小时权威原创视频,700万张图片,27000家注册用户,8000多种资源分类,PB级数据量,多语种数据,新华社多媒体数据库数据流转图,新华社多媒体库的技术特点,非结构化数据和结构化数据统一管理TRS多语言检索引擎全面采用TRS文本挖掘技术良好的集群扩展能力索引服务器读写分离,国家知识产权局专利检索服务系统,1998年专利局引进了欧洲EPOQUE系统,基于大型机的专利检索系统,每年的系
10、统维护费用就达数千万元2005年开始建设自主可控可持续发展的专利检索和服务系统,采用大量的PC服务器典型的非结构化/半结构化数据应用场景目前公共检索和审查员检索系统全部使用TRS检索引擎,专利检索系统的需求特点,数据多样性结构化、半结构化和非结构化数据的结合申请人、申请号、名称等著录项很多;权利要求书、说明书等全文数据规模大各库数据结构差异大查询要求高严格的查全和查准要求基于领域知识的智能检索结构化和非结构化信息联合查询相关专利推荐,专利检索与服务系统的数据种类与规模,6亿多条专利记录,多渠道异构资源整合,100%查全率,1秒响应时间,700-1000并发,724稳定可靠,1万注册用户,专利检
11、索引擎数据流转图,专利检索与服务系统-外观图像检索,专利图像外观检索,局部检索形状检索纹理检索不变性特征检索草图检索数据分类数据聚类基于相关反馈的检索跨语言检索,600万幅专利图片查询性能从原来的分钟级提高到秒级索引性能从原来的天级提高到现在的小时级,某部网监智能搜索和挖掘系统,系统特点:巨大的数据量多样性数据数据极快速增长系统现状已经部署数千台服务器,满足了业务需求挑战性能和可扩展性整合和调度,数据量远超过互联网,目前部署TRS 系统2000多套,SMAS的用户,国家质检总局,2012.1 蒙牛致癌门,2012.2 苏泊尔质量门,2012.3 辽源注水肉,2012.3 315质量报告,201
12、2.4 含氯可口可乐,2012.4 蜜饯质量问题,2012.5菲律宾香蕉质量,2012,仅在2012年上半年,拓尔思运营团队就为质检总局在产品质量、食品安全方面提供超过40余项服务,借助数据中心的大数据与云服务平台,进行全面的整合、统计与分析。,国家质检总局,质检总局的服务依托云服务平台(SMAS),从媒体调性、平台分布、网民意见、趋势发展等多种角度进行解析,结合系统的自动分析与分析团队的整合,最终以专题报告的方式,第一时间呈现,为质检总局在公共服务的决策提供重要参考。,国家药监局,2012年4月15日央视曝光的“毒胶囊”事件掀起药品行业的巨大波澜,SMAS运营团队对该事件进行了长时间的跟踪与
13、分析,并用一系列的数据、图表和报告捕获了网络数据里的真相与民意。,国家药监局,关键人物,传播趋势,主流观点,关键地区,SMAS分析团队连续30天跟踪毒胶囊事件,从整体传播趋势、观点、人物、地区等视角,还原了这起颇具影响力的公共事件。,-毒胶囊事件-,北京市环保局PM2.5分析,报 道 量 排 行,高,低,两会代表委员热议PM2.5“京V”排放标准首规定PM限值,珠三角成首个公布PM2.5城市群珠三角PM2.5严重超标环保局回应PM2.5数据质疑,借助数据中心的大数据与云服务平台,从区域分布的角度对PM2.5的相关信息进行归类,进行全面的整合、统计与分析,得到上图分析内容。,北京市环保局PM2.
14、5分析,PM2.5均匀分布,监测点为何 不均匀分布?,PM2.5监测不能 背离公众感受,PM2.5监测,关键词是“真实”,20亿元清单,能否换来清新?,微博TOP10意见领袖排行,作家,通过SMAS平台的抽样分析,提取网民热点话题内容,得到TOP10意见领袖排行。对意见领袖的代表性微博进行传播链分析,可知“意见领袖”巨大的传播影响力。,第一层,第二层,第三层,第四层,第五层,第六层,传播了712次 占转发数百分比:54.39%,传播了432次 占转发数百分比:33.00%,博主自身的二次转发,北京市环保局PM2.5分析,气象舆情监测,日本核辐射,极端天气频发,有多少是人为之祸?公众对气象部门的气象服务有了全新的期待。,依托数据中心与云服务平台,拓尔思运营团队还原热点气象事件引发的网络舆情,总结气象部门应对气象危机的得失,为气象部门开拓气象服务新领域、提升气象服务水平提供参考。,中国气象局,气象信息月度走势图,年度热门气象事件排行榜,全国气象舆情热度概览,气象口碑媒体分布图,借助数据中心的大数据与云服务平台,拓尔思运营团队为气象局提供了全面的多维度分析。,中国气象局,关系可视化,每日微博热点分析,拓尔思大数据技术的优势,架构,集群,分析,非结构化信息处理方面的技术工程能力,满足企业级客户的能力和存储、数据库等厂商相比,更强调大数据的分析和挖掘的能力,谢 谢!,