数据仓库概述.docx

上传人:李司机 文档编号:6830632 上传时间:2024-03-01 格式:DOCX 页数:23 大小:67.96KB
返回 下载 相关 举报
数据仓库概述.docx_第1页
第1页 / 共23页
数据仓库概述.docx_第2页
第2页 / 共23页
数据仓库概述.docx_第3页
第3页 / 共23页
数据仓库概述.docx_第4页
第4页 / 共23页
数据仓库概述.docx_第5页
第5页 / 共23页
点击查看更多>>
资源描述

《数据仓库概述.docx》由会员分享,可在线阅读,更多相关《数据仓库概述.docx(23页珍藏版)》请在三一办公上搜索。

1、数据仓库概述(1)数据仓库概述随着计算机技术的飞速进展与企业界不断提出新的需求,数据仓库技术应运而生。传统的数据库技术是单一的数据资源,即数据库为中心,进行从事事务处理、批处理到决策分析等各类类型的数据处理工作。近年来,随着计算机应用,网络计算,开始向两个不一致的方向拓展,一是广度计算,一是深度计算,广度计算的含义是把计算机的应用范围尽量扩大,同时实现广泛的数据交流,互联网就是广度计算的特征,另一方面就是人们对以往计算机的简单数据操作,提出了更高的要求,希望计算机能够更多的参与数据分析与决策的制定等领域。特别是数据库处理能够大致地划分为两大类:操作型处理与分析型处理(或者信息型处理)。这种分离

2、,划清了数据处理的分析型环境与操作型环境之间的界限,从而由原先的以单一数据库为中心的数据环境进展为一种新环境:体系化环境。数据库系统作为数据管理手段,从它的诞生开始,就要紧用于事务处理。通过数十年的进展,在这些数据库中已经储存了大量的日常业务数据。传统的业务系统通常是直接建立在这种事务处理环境上的。随着技术的进步,人们试图让计算机担任更多的工作,而数据库技术也一直力图使自己能胜任从事务处理、批处理到分析处理的各类类型的信息处理任务。后来人们逐步认识到,在目前的计算机处理能力上,根本无法实现这种功能,而且,另一方面,事物处理与分析处理具有极不相同的性质,直接使用事务处理环境来支持决策是行不通的。

3、事务处理环境不适宜DSS应用的原因要紧有下列五条:(1)事务处理与分析处理的性能特性不一致。在事务处理环境中,用户的行为特点是数据的存取操作频率高而每次操作处理的时间短;在分析处理环境中,用户的行为模式与此完全不一致,某个DSS应用程序可能需要连续几个小时,从而消耗大量的系统资源。将具有如此不一致处理性能的两种应用放在同一个环境中运行显然是不适当的。(2)数据集成问题。DSS需要集成的数据。全面而正确的数据是有效的分析与决策的首要前提,有关数据收集得月完整,得到的结果就越可靠。当前绝大多数企业内数据的真正状况是分散而非集成的。造成这种分散的原因有多种,要紧有事务处理应用分散、“蜘蛛网”问题、数

4、据不一致问题、外部数据与非结构化数据。(3)数据动态集成问题。静态集成的最大缺点在于,假如在数据集成后数据源中数据发生了变化,这些变化将不能反映给决策者,导致决策者使用的是过时的数据。集成数据务必以一定的周期(比如24小时)进行刷新,我们称其为动态集成。显然,事务处理系统不具备动态集成的能力。(4)历史数据问题。事务处理通常只需要当前数据,在数据库中通常也是存储短期数据,切不一致数据的储存期限也不一样,即使有一些历史数据储存下来了,也被束之高阁,未得到充分利用。但关于决策分析而言,历史数据是相当重要的,许多分析方法务必一大量的历史数据为依托。没有历史数据的全面分析,是难以把握企业的进展趋势的。

5、DSS对数据在空间与时间的广度上都有了更高的要求,而事务处理环境难以满足这些要求。(5)数据的综合问题。在事务处理系统中积存了大量的细节数据,通常而言,DSS并不对这些细节数据进行分析。在分析前,往往需要对细节数据进行不一致程度的综合。而事务处理系统不具备这种综合能力,根据规范化理论,这种综合还往往由因此一种数据冗余而加以限制。要提高分析与决策的效率与有效性,分析型处理及其数据务必与操作型处理及其数据相分离。务必把分析型数据从事务处理环境中提取出来,按照DSS处理的需要进行重新组织,建立单独的分析处理环境,数据仓库正是为了构建这种新的分析处理环境而出现的一种数据存储与组织技术。数据仓库应用概述

6、当今世界充满了剧烈竞争,正确及时的决策是企业生存与进展的最重要环节。现在,愈来愈多的企业认识到,企业要想在竞争中取胜,获得更大的收益,至关重要的是,务必利用计算机与网络技术、数据仓库技术,深层次地挖掘、分析当前与历史的生产业务数据,与有关环境的有关数据,自动快速获取其中有用的决策信息,为企业提供快速、准确与方便的决策支持。通过对企业生产与计划的完成情况及有关环境数据进行多角度多层次的分析,以使企业的决策者及时掌握企业的运行情况与进展趋势,并对制定生产计划与长远规划提供理论指导,提高企业的管理水平与竞争优势。下列就对数据仓库的应用、技术、市场、前景等几方面进行简述。第一篇数据仓库技术在各行业的应

7、用与实例一.在证券业的应用关键字:数据仓库、证券数据仓库技术在证券业的应用十分广泛,它可处理客户分析、帐户分析、证券交易数据分析、非资金交易分析等多个业界关心的主题,这是证券业扩大经营、防范风险的预警行动。证券公司利用客户行为分析系统数据仓库技术将所有客户的操作记录进行归类与整理,并结合行情走势、上市公司资料、宏观微观经济数据等,在掌握大量数据的情况下,对客户的行为与市场各因素的关联、客户的操作习惯、客户的持仓情况、客户的盈亏情况、公司的利润分布等进行统计与分析。从而获得以往一直想获得但却无法获取的关于客户在本公司的行为、盈亏、习惯等关键信息。证券商在获得这些信息后,就有能力为客户提供针对其个

8、人习惯、投资组合的投资建议,从而真正作到对客户的贴心服务。实例:深圳国信证券建立数据仓库1999年4月,深圳国信证券的数据仓库系统(由Sybase公司提供解决方案)一期工程完成,该项首期投资近200万元数据仓库系统建设的出发点是为当前公司的决策者提供快速有效的各类报表与分析方式,提高公司的市场反应速度与竞争力水平。更有效地发挥OLTP系统的效益,在此基础上“多快好省”地建设DataWarehouse/DSSo同时,考虑到公司业务系统的不断完善与决策支持的更高要求,对不断增长的企业数据具有无限的可扩展性并提供可控的快速查询响应时间。该系统包含了客户分析、账户分析、证券汇总分析、资金交易分析、非资

9、金交易分析等多个业界关心的主题。公司用户能够通过固定灵活报表、多维分析等多种形式实现多个层面的数据访问,数据访问的手段包含访问授权的内部Web站点、通过自动E-Mail邮件转发、直接Client/Server连接等多种方式。该系统的完成是国内开放平台数据仓库系统建设的一个成功案例。二.在银行领域的应用:关键字:数据仓库、银行随着社会主义市场经济改革的深化,传统的计划金融模式逐步瓦解,市场金融模式逐步形成。在这个变革过程中,由于体制、市场、企业、个体等经济要素变化、进展的不平衡性,带来了银行对各类金融变量操纵的随机性与模糊性,如何防范银行的经营风险、实现科学管理与进行决策,成为当今金融研究的一个

10、重要课题。90年代出现的数据仓库、OLAP(联机分析)、数据采掘、多媒体、高带宽网络技术,使银行的科学管理有了一个新的技术支持。利用数据仓库的强大功能,银行能够建立企业客户群、个人客户群的数据库,并对企业的结构、经营、财务、市场竞争等多个数据源进行统一的组织,形成一个一体化的存储结构,为决策分析奠定基础。通过先进的信息加工、分析、处理软件,加上银行的经营决策、信贷营销人员的个人经验,对每一个投资方向、每一笔贷款作出科学的推断,能够有效操纵投资、信贷风险。银行决策支持系统是建立在银行管理信息系统基础之上的、以银行数据库与数据仓库为基础,包含各类辅助制定货币政策、开拓金融业务等的模型库、方法库与知

11、识库。目前,在国外运用非常成功的有决策支持系统。比如有许多著名的金融机构从基于大型主机信息管理的多个系统,转向一种客户/服务器结构下的数据仓库解决方案。惠普开放数据仓库是被用在金融服务中增加决策支持的框架,这个金融业后台管理的工具更类似于传统的“仓库”一旦它的数据项被下载,在一个集中的存储单元以一种有序的方式登录及存储,能对数据进行检索、求合,以各类格式装入多个地址。能够给决策支持一个共同的信息源,消除很多金融服务机构的“数据混乱”的现象。实例1:南京市利用数据仓库技术实施贷款证制度实例2:中国银行省、市两级金融管理信息系统使用数据仓库技术中国银行省、市两级金融管理信息系统是中国银行广东省分行

12、承担开发的国家“八五”科技攻关项目(子专题编号:85-712-14-9-9)。该系统在工程组织与总体方案设计上使用数据仓库(DATAWAREHOUSE)及联机分析处理(OLAP)理论。系统重点围绕中国银行资产负债管理的要求,建立覆盖全省22家分行的数据采集网络,初步实现了计算机业务系统数据与手工报表数据采集、存储的自动化。同时面向各级经营管理人员,开发出财务分析、业务管理、动态报表与金融资讯计50余项管理分析应用。1996年3月,系统在本行投入使用,至97年7月,系统已在广东省22家分行全面推广使用,成为中国银行省、市分行实行科学管理的有力工具。中国银行省、市两级FMlS系统在利用与规范现有网

13、络资源、系统资源的基础上,构造出数据采集、数据仓库、数据呈现三个分系统框架。与中国银行收付清算网络、中国银行办公自动化网络、香港德励财经资讯网络,与ES/9000.AS/400主机业务系统均实现了连接与集成。附例:明日银行的展示ATM(自动柜员机)或者自助终端提供商NCR,其新近在英国苏格兰生产厂开发生产了视网膜识别ATM系统,该系统结合数据仓库技术模拟了未来银行的运作过程:步入这家银行,该客户便被作为特殊的个人对待。通过终端擦过其银行卡,便会给出一个特别编号的排队票,该票直接与银行的数据仓库连接,瞬时识别用户,并送出一条是谁在等待的信息。此后代表用户的就是一个号码。柜员机顶上的视频屏幕显示出

14、按照用户剪裁的广告。比如在数据仓库储存的交易说明,用户已申请一项抵押,屏幕上就可能出现一个家庭保险的广告。在柜台旁边这是一对一的关系,而柜员机随时拥有同一用户的信息,并可提供特殊顾问的帮助。整个过程不用纸与笔,用户在电子键盘上与银行达成协议。传统银行潜力有限,运营成本太高。“明日银行”告别了烦琐的手续与规定,假如一项贷款需要资深经理审批,银行的网络系统便会自动将电子文件与一条电文发送给这位经理,让其对此发出指示。挪威联合银行估计,仅表格一项每年就可节约100O万美元。银行员工也不再需要在每天结束工作前,花费一两个小时填各类报表、跟踪贷款请求与其他管理业务。NCR己帮助挪威联合银行设计并实施一种

15、新型总体“银行平台”,包含用户与银行打交道时用到的所有信息、规则与过程,从银行到ATM电话与IntCrnct。NCR在几周内帮助这家银行建立了一家“Internet”银行。实现从银行到数据仓库,再到每个交付渠道的经营业务新模式。三.在税务领域的应用:关键字:数据仓库、税务增加税收、提高效率、改善执法的一致性与公平性、降低对纳税人的负担与干扰,是税务稽征部门的重要目标。然而这些目标往往又是相互冲突的,要在其间找到最适当的平衡点非常困难。通过应用数据仓库技术,对税收部门的内部与外部数据进行综合分析处理,能够解决三个方面的问题:一是查出应税未报者与瞒税漏税者,并对其进行跟踪;二是对不一致行业、产品与

16、市场中纳税人的行为特性进行描述,找出普遍规律,谋求因势利导的税务征稽策略;三是对不一致行业、产品与市场应收税款进行预测,制定最有效的征收计划。数据仓库技术之因此能够查出漏税者,其基本思想是通过对大量数据资料的分析来掌握各行各业、各类产品与各类市场的从业人员与企业的纳税能力,并与事实上际纳税金额进行对比,从而查出可能的偷漏税者。数据资料获取与匹配技术是这一功能的基础,数据挖掘技术(DataMining)也必不可少。这些技术所面临的一大挑战就是数据来源的多样性。数据量非常大,而且以不一致的形式来自不一致的地方与部门。有效利用这些数据就是NCR推出可伸缩数据仓库(SCaIabIeDataWarehO

17、USe)的目的。可伸缩数据仓库是由纳税人特征描述系统对纳税人过去的行为进行分析,由市场划分系统将具有相似特征的纳税人归入同一类,继而对这一类纳税人的普遍行为做出预测,设计出适合这类纳税人的税务征稽方案。数据仓库技术在政府税收部门的应用带来的效益是可观的。澳大利亚政府税务部门将数据仓库技术用于支持税收业务。系统通过3年的运行,投入回报率达到1:15。美国德克萨斯州政府税务部门使用数据仓库技术半年,而且工程尚未结束,每月已可带来600万美元的收益,估计每年的收益将超过8000万美元。实例:深圳市国税局与深圳奥尊电脑公司合作开发新一代税务信息化系统近日,深圳市国税局与深圳奥尊电脑公司合作,以蛇口国税

18、为试点,开发了新一代税务信息化系统,目前已投入运行。该税务信息系统以办公自动化为核心,实现跨平台、跨区域、多功能的智能办公系统全面融合电话报税系统、网上税局技术,使纳税人通过电话或者Internet进行纳税申报与企业报表填报,提供税务系统的业务数据统计分析功能及数据仓库系统决策支持功能。这种税务电子一体化的技术既方便了纳税人,实现了多渠道报税,又减轻了税务人员的工作负担,实现了业务处理上的申报自动化;同时通过企业填报各类发票清单与财务报表,使税务稽查变得有据可依,而且在这些丰富的数据基础上利用数据仓库技术,实现决策支持,提供有用的统计分析结果。四.在保险业的应用与实例:关键字:数据仓库、保险业

19、随着商业保险公司业务系统日趋完善,数据交换与处理中心的建立,如何满足保险行业日益增长的各类查询、统计、报表与分析的需求,如何提高防范与化解经营风险的能力,如何有效利用这些数据来实现经营目标,预测保险业的进展趋势,甚至如何利用这些数据来设计保险企业的进展宏图,在猛烈的竞争中赢得先机是保险决策支持系统需要解决的问题,也是目前保险企业在信息技术应用上的首要难题。数据仓库技术、联机分析处理技术的日趋成熟与Internet的普及加速了决策支持的有用化过程。实例:菲奈特与深圳华安保险公司的合作五.操纵金融风险的应用:关键字:数据仓库、金融操纵金融领域的风险是当前全球经济界最关注的问题之一,去年开始的东南亚

20、金融危机不但没有缓与,反而有波及全球的趋势,其中一个重要原因就是各金融机构缺乏风险管理。中国也面临着类似的问题。从金融业务角度来讲,在70年代,金融业务大多运行在主机系统上,系统庞大而且复杂,由IT部门来掌管,业务人员几乎100%地听从IT技术人员的安排。在这一阶段,几乎能够说是金融机构中的IT部门带动金融业务的进展;到了80年代末期,PC机大规模普及,金融机构的业务人员自己就能够购买到小巧、有用的应用软件,在此基础上开展了很多新的应用,不再受制于IT部门。这一方面丰富了业务种类,另一方面也形成了很多“信息孤岛”,使金融机构很难将各类各样的应用统一起来,领导决策层也很难搞清晰机构的整体运作情况

21、,存在风险的可能性更大。从技术角度来讲,在这种情况下,数据仓库是使这些信息集成起来的最有力的方式,数据仓库技术与与其他软件有机集成,能够有效地进行金融运作中的风险管理。这也是数据仓库技术与产品近年来十分流行的原因。防范金融风险的关键是强化中央银行的金融监管能力。特别是一旦人民币可自由兑换,我国的金融业将直接面临国际金融市场的冲击,中央银行的金融监管作用就愈加重要。为加强金融监管与调控能力,从80年代中期开始,人民银行就在加快金融电子化建设,建立了金融卫星通信网,运行全国电子联行系统等多项业务系统,1993年还开通了金融信息快速采集传输系统工程。在此基础上,应不失时机地建立相应的基于数据仓库上的

22、金融预警系统与智能化的金融监控系统。一旦这些系统建成,并能实现互动操作,就将构成完整的中央银行的支付体系与金融监控体系,将为有效地履行中央银行的职能提供强有力的保证,才能使我国的金融监控体系建立在可靠的基础之上,才能实时地监控着整个国民经济的运行情况,防范各类金融风险于未然。实例:多家证券、银行机构使用数据仓库技术目前,华尔街62%的银行、保险、证券等机构使用数据仓库技术进行风险管理,其中包含著名的摩根斯坦利、花旗银行、加拿大蒙特利尔银行、加皇银行等。数据仓库服务器SybaseIQ,复制服务器Rep1icationServer,与其他有关软件,帮助金融机构进行风险的评估、预测与防范等工作,从而

23、使风险操纵到最小。六.在客户服务及营销方面的应用:关键字:数据仓库、客户、营销D在客户服务方面数据仓库是以数据库技术为基础但又与传统的数据库应用有着本质区别的新技术,CRM就是基于数据仓库技术的一种新应用。但是,从商业运作的角度来讲,CRM事实上应该算是一个古老的应用了。比如,酒店对客人信息的管理,酒店很自然地会明白常客的某些习惯与喜好,当客人再次光临时,不用客人自己提出来,酒店就会提供客人所喜欢的服务。这就是一种CRM,只是它并没有使用高科技手段,而是通过古老的诸如记在卡片上等方式来实现的。CRM是一个新兴的客户服务市场,据GartnerGroup的DataqUeSt的市场研究说明,美国的C

24、RM市场开发利用尚不到20%,而在欧洲与亚太地区,该市场还是一片空白。估计CRM市场到2002年将以44%的年复合增长率迅猛进展,假如Internet商务(I-COmmerCe)的进展速度比预期的更快,这个数字会更高。适合CRM市场的软件要紧是把现有传统系统与多年来收集的客户数据进行集成的产品。现代商业竞争越来越猛烈,客户群体越来越庞大,客户对服务的要求也越来越高,因此CRM远远超过了上述简单的内容,仅靠手工是难以完成的。但是,由于不一致企业的客户群各不相同,客户管理的内容也千差万别,因此开发出放之四海而皆准的万能CRM产品也是不现实的,而是需要针对不一致行业提供不一致的CRM产品。目前,Sy

25、baSe能够提供面向4个行业领域的CRM产品,即:电信、金融、保险、医疗保健。在这4个产品中,有80%的功能是共性的,有20%的功能需要SybaSe与合作伙伴共同针对不一致客户的不一致需求进行开发。其中80%共性功能包含7个模块:客户概况分析(Profiling)包含客户的层次、风险、爱好、习惯等;客户忠诚度分析(PerSiStenCy)指客户对某个产品或者商业机构的忠实程度、持久性、变动情况等;客户利润分析(PrOfitability)指不一致客户所消费的产品的边缘利润、总利润额、净利润等;客户性能分析(PerfOrmanCe)指不一致客户所消费的产品按种类、渠道、销售地点等指标划分的销售额

26、;客户未来分析(PrOSPeCting)包含客户数量、类别等情况的未来进展趋势、争取客户的手段等;客户产品分析(Product)包含产品设计、关联性、供应链等;客户促销分析(Promotion)包含广告、宣传等促销活动的管理。这就是CRM中所谓的7P。2)在营销方面市场信息数据仓库有一个新的挑战:保持用户。这需要找到一种方法,运用收集到的数据来预测用户未来的购买行为,这就是数据库营销法的所在。数据库营销就是把数据库采掘与预测模型与台式显示工具结合起来,以帮助市场营销人员对客户行为作深入的洞察分析。最终的目标是预测用户的忠诚度,也就是什么用户对该品牌依然衷情,什么用户甘愿转向其他。假如能够预测到

27、这些行为,就能够有更大的机会来留住客户。减少用户的转向,保持原有的用户市场比开发许多市场要廉价得多,特别是在电信与无线通信领域更是如此。电信与家电领域的管制撤销意味着用户有了更多的选择,用户的多种选择关于公司来说又意味着用户流失的风险与更高的市场营销费用。成功实现数据库营销系统的关键在于3方面组件的集成:(1)存储在数据仓库或者数据处理机中的事实数据大都来自于帐目系统;(2)统计技术或者使用预测模型的工具;(3)功能强大的展示工具。目标是实现一个能产生精确描述客户群的程序。一旦数据采掘引擎从数据仓库中挑出一组客户,下一步是进一步推测分析精确的客户特征,这些特征反应什么用户最有可能转向一项竞争产

28、品或者服务,对每一轮新产生的客户数据,都产生一组新的统计模型来分析客户群。懂得预测模型与他们如何实现并不是很容易的事,事实是大多数IS商家都没有独立进行这种项目的准备。在这个领域,大多数的IS经理们认为他们组件建立不了预测模型,而务必结合数据仓库技术与数据采掘技术懂得预测模型。实例:南加利福尼亚石油公司实施数据库营销计划在南加利福尼亚石油公司,管制撤销是启动数据库营销计划的推动力,这家公司利用它的大型机与DB2数据库,并完善了它现有的数据分析工具来聚焦它的营销目标。在过去两年里,该公司使用数据采掘技术来预测用户行为,使其直接营销费用节约了大约40万美元。使用数据库营销技术、市场部能够全面描述最

29、可能继续合作的用户群。运用SAS来推测什么用户需要石油,便可集中注意力于这些用户,给予他们最优厚的夏冬季差价。然后,建立一个模型用来分析每一位用户,把最可能的客户选出,因此就把市场注意力转向他们。这样做关于直接营销来说,在7%到11%之间回应率是很可观。七.在保健领域的应用:关键字:数据仓库、保健实例1:美国Columbia/HCA保健公司使用3C0M信息技术提供保健保证在保健方面,美国ColUmbia/HCA保健公司,美国一家赢利性医院系统,使用一项3C0M信息技术来帮助它在这个不断变化的时代提供保健保证。在3C0M技术中就成功地用到数据仓库,它用来跟踪结果与制订连续性保健协议。Columb

30、ia/HCA是个庞大企业,该公司的信息系统机构有3万名雇员、约350家医院(平均拥有大约200张床位)、150个流淌手术中心、180个技术熟练的护理中心与100多个精神病保健单位。该公司每天接待10多万名病人,而每年就要给病人做190万个手术。数据仓库利用3C0M技术较好地解决了公司机构的复杂性。实例2:美国健康服务公司AetnaHealthcare建立数据仓库美国一家大型的健康服务公司AetnaHealthCare为了实现以较低费用获取较高质量的治疗效果,制订出适当而可靠的标准,建立了一个独立完整的数据仓库,它根据医疗诊断、门诊、药房到实验室数据资料,揭示出如何以较低费用获取较高质量的治疗策

31、略趋势与模式,从而实现低成本高效益。八.在其它领域的应用关键字:数据仓库实例1:NCR联合太平洋铁路公司,将几百个数据库合并转换成数据仓库应用系统,能准确识别豁免税购买,一年能节约100万美元营业税。通过在部分铁轨上提速,每月节约30万美元。应用系统在可支付帐目、设备保护、市场营销与汽车与火车头调动等方面提高了操作效率,改进了服务质量。实例2:Sears服装集团公司建立的数据仓库应用系统能够监视每个分店的销售情况,并使他们实现具有本地市场特点的战略目标。如零售商能够在竞争对手的商店中适当安排电子类产品,扩大营销范围。在地区与少数民族市场上,为顾客提供他们所需的花色齐全的服装。实例3J:比利时国

32、家电信经纪人使用数据仓库建立的顾客信息系统,其中数据仓库拥有超过1万亿字节的数据,包含四个多月的电话通信记录。通过欺骗检测功能,能够很快发现反常电话与欺骗性的打电话方式,并能在造成重大经济缺失之前终止这种欺骗行为。实例4:美国东北部农场主所有的最大联营公司之一AgWay公司,在被竞争对手抢走了一些市场份额后,建立了数据仓库应用系统,将焦点对准市场机遇,扩大了销售额,提高了利润,使市场情况得到好转。此外,英国电信使用数据仓库应用系统保证了关键性业务的处理,福特汽车公司、Motorola.GE总部、AT&T等在高端信息系统中也应用到数据仓库技术。上海集装箱码头的项目、深圳华为、上海强生、上海日立、

33、广东省长话计费系统、新飞集团、浙江省移动通讯计费系统等也成功使用了数据仓库技术。第二篇数据仓库有关技术一.技术上获取信息存在的问题数据仓库作为决策支持系统与联机分析应用数据源的结构化数据环境所要研究与解决的问题就是从数据库中获取信息。将大量的业务数据应用于分析与统计原本是一个非常简单与自然的办法,但在实际的操作中,要获得有用的信息并非如想像的那么容易:1 .所有联机事务处理强调的是密集的数据更新处理性能与系统的可靠性,并不关心数据查询的方便与快捷。联机分析与事务处理对系统的要求不一致,同一个数据库在理论上都难以做到两全。2 .业务数据往往被存放于分散的异构环境中,不易统一查询访问,而且还有大量

34、的历史数据处于脱机状态,形同虚设。3 .业务数据的模式针对事务处理系统而设计,数据的格式与描述方式并不适合非计算机专业人员进行业务上的分析与统计。二.数据仓库系统的三个工具层关键字:数据仓库、工具OLAP的查询分析型工具、DSS的分析预测型工具、数据挖掘的挖掘型工具一起构成了数据仓库系统的工具层,它们各自的侧重点不一致,适用范围与针对的用户也不相同。具备了这三种工具的数据仓库系统,才能真正高效地利用数据仓库中蕴藏的大量宝贵的信息。1)联机分析处理(OLAP)联机分析处理(OnLineAnalyticalProcessing,OLAP)要紧通过多维的方式来对数据进行分析、查询与报表。它不一致于传

35、统的联机事物处理(OnlineTransactionProcessing,OLTP)应用。OLTP应用要紧是用来完成用户的事务处理,如民航订票系统、银行储蓄系统等等,通常要进行大量的更新操作,同时对响应时间要求比较高。而OLAP应用要紧是对用户当前及历史数据进行分析,辅助领导决策。其典型的应用有对银行信用卡风险的分析与预测、公司市场营销策略的制定等,要紧是进行大量的查询操作,对时间的要求不太严格。目前常见的OLAP要紧有基于多维数据库的MOLAP及基于关系数据库的RoLAP。在数据仓库应用中,OLAP应用通常是数据仓库应用的前端工具,同时OLAP工具还能够同数据挖掘工具、统计分析工具配合使用,

36、增强决策分析功能。2)决策支持系统(DSS)决策支持系统(DSS)与数据仓库的目标用户相同,都是面向企业的中高层领导,它们执行的都是决策与趋势分析类的应用,DSS中的一些技术能够很好地集成到数据仓库中,并使数据仓库的分析能力更加强大。比如:DSS中的传统统计分析模型能够帮助用户对数据仓库中的数据进行更加有效、更加深入的分析,从而更好地掌握与利用信息。而一些智能决策技术,如人工神经网络在发现顾客行为模式、预测金融市场行为等方面显示了强大的功能。这些DSS的核心技术在数据仓库中的应用不但会大大提高数据仓库的决策支持能力,同时也使DSS的应用范围更加广泛。3)数据挖掘数据挖掘是当前业界的热门技术,已

37、经在多个应用领域产生了巨大的效益。数据挖掘不一定需要建立在数据仓库的基础上,但是假如将数据挖掘与数据仓库协同工作,则能够简化数据挖掘过程的某些步骤,从而大大提高数据挖掘的工作效率。同时由于数据仓库的数据来源于整个企业,保证了数据挖掘中数据来源的广泛性与完整性。数据挖掘技术是数据仓库应用中比较重要也是相对独立的部分。目前,数据挖掘技术正处在进展当中。数据挖掘涉及到数理统计、模糊理论、神经网络与人工智能等多种技术,技术含量比较高,实现难度较大。此外,数据挖掘技术还会同可视化技术、地理信息系统、统计分析系统相结合,丰富数据挖掘技术及工具的功能与性能。二.数据仓库的关键技术与关系数据库不一致,数据仓库

38、并没有严格的数学理论基础,它更偏向于工程。由于数据仓库的这种工程性,因而在技术上能够根据它的工作过程分为:数据的抽取、存储与管理、数据的表现与数据仓库设计的技术咨询四个方面。三.几家公司的数据仓库解决方案:关键字:数据仓库、解决方案DSybaSe的数据仓库解决方案Sybase的数据仓库解决方案uickStartDataMart,包含SybaseIQCaletonPASSPoR、BrioQueryCognosPowerplay等一系列软件,支持DB2MS、VSAM、Sybase、OracleInfOrnIiX等关系型数据库,还有文本格式的数据。它能够同时处理几十个即席查询,其BitTyiSe技术

39、与垂直数据存储技术使系统只访问特定的少量数据,使得查询速度比传统的关系型数据库管理系统快100倍。2) )Platinumtechnology公司解决方案Platinumtechnology公司的数据仓库解决方案为企业提供完整、一致的数据,以保持商业决策的及时、正确性。PlatinUmtechnology的数据仓库解决方案包含数据抽取与提炼、数据分布、元数据管理、数据存取与分析(OLAP、EIS、报表)、保险、销售与营销决策支持等几个方面。它提供的数据仓库工具包含异构数据库之间数据双向复制的应用系统开发工具InfoPUmP与功能强大灵活的关系型OLAP工具InfoBeacon等;提供的数据仓库

40、前端业务智能解决方案工具包含使用户能够快速建立与使用的图形化企业信息系统应用的基于Windows的查询与报表工具Forest&Trees,能够利用多个大型数据库在桌面机或者服务器上生成报表的企业级报表的工具InfoReports,使用户在服务器上生成在用户端制作的企业报表的工具InfoReportsServero这些工具使用户不需编程即可查询关系数据库、数据仓库或者数据文件的数据。3) HP公司解决方案HP公司是在HP9000高端解决方案之上提出的各应用数据仓库解决方案。惠普公司的开放式数据仓库是基于简洁(SimPliCity)标准(StandarClS)技巧(SkilIS)三点原则而设计的。

41、它向用户提供从关系型数据库到基于Internet的报告/查询工具与数据采集等多种多样的数据仓库工具。HP所提供的咨询与项目服务涵盖了从数据处理设计,到网络架构、硬件设计、备份、灾难恢复、客户访问、培训I、帮助、管理等各个方面。此外,它的数据仓库计划包含了HP智能数据仓库(IntelligentWarehouse),简化了数据仓库的管理,提高了异构数据仓库的性能,并能运行于多种平台。4) IBM解决方案IBM的商业智能解决方案融汇了众多合作伙伴与第三方开发商的产品,比如,在查询工具中有Cognos的ImpromptuBusinessObjects的BusinessObjects、Lotus的Ap

42、proach与IBM的QueryManagementFacility,多维分析OLAP工具有Arborsoftware的ESSbaSe、IBM的DB20LAP服务器(与Arbor联合开发),统计分析工具有SAS公司的SAS系统,数据挖掘工具有IBM的智能挖掘机(IntelligentMiner)。许多这种应用软件与工具都具有内置的Web浏览器支持与LotusNotes,使用户能够在熟悉的桌面环境内获得所需的信息。5) Informix公司解决方案6) Oracle数据仓库解决方案Oracle数据仓库解决方案在定义、建立与使用数据仓库的过程中存在下列三部曲:a)对最终用户的商业需求建立模型。数据

43、仓库的设计者务必从各类最终用户中熟悉信息需求,然后将这些信息需求转变为数据模型。设计得务必以严密、精确的方法确保模型的完整性.b)为元数据建立模型。在为最终用户需求建立模型的同时,数据仓库设计者还务必为元数据(关于数据的数据)建立模型。该信息确定了进入数据仓库的数据范围,与与数据有关的规定。由于数据仓库是面向主题的,元数据的建模可能跨越数个功能性商业区域.c)最后应该选择满足用户需要的工具,用户将使用这些工具访问数据仓库中存储信息。关于数据仓库,全面参见“Oracle数据仓库白皮书”。四.一些工具软件:关键字:数据仓库、技术、工具、SAS、SPSS、datawarehousinguIBM数据仓

44、库提供的有关软件VisualWarehouseBD20LAPServerIntel1igentMiner等u可视数据仓库ViCUaIWarohouse0针对特定行业用户使用环境的解决方案包含专门为金融行业设计的DecisionEdgeforFinance、端到端的保险业解决方案DecisionEdgeforInsurance、为满足银行业保留客户需求而设计的应用程序套件IBMDiscoverySeriesforBanking、为电讯行业提供完美的客户服务的应用程序套件IBMDiscoverySeriesfortelecommunications、在JDEdWardS事务处理系统环境下建立数据仓

45、库的解决方案BusinessAnalvsisSuiteforJDEdwards、在SAP事务交易处理系统基础上建立数据仓库的套件BUSineSSAnalysSuiteforSAP、用于分析Web站点利用率的数据采集应用程序Surf-Aid,与帮助企业向客户提供有特殊个性行销资料的套件InforPrintBusinessIntelligenceSolutionouBusinessObjects是集查询、报表与OLAP技术为一身的智能决策支持系统,它使用特殊的“语义层”技术与“动态微立方”技术来表示数据库中的多维数据,具有较好的查询与报表功能,提供钻取(DriII)等多维分析技术,支持多种平台与多

46、种数据库,同时它还支持InternetZlntranet,能够通过WWW进行查询、报表与分析决策。uOrac1eDiSCoVererTM工具uOrac1e最新推出的oracle8i是一个面向Internet计算环境的数据库,它改变了信息管理与访问的方式,将强大的新型功能引入到了联机事务处理(OLTP)与数据仓库应用之中。OraCIe8i还对Oracle数据服务器的几乎所有方面都给予了增强,全面改进了质量、可用性、性能、可管理性、多媒体数据类型支持与复制功能。Oracle的决策支持产品包含数据仓库与OLAP商业智能工具。商业智能要求今天的机构能够生成企业报表,能够查询分析与进行在线访问处理。通过

47、OracleReportstOracleDiscoverer-OracleExpress,Oracle是唯一的厂商提供低成本解决方案,为各类复杂问题提供快速解答,满足接连不断的商业智能系统需求。uORACLE公司的新产品与技术:-OracleRDBMSV7- Orac1eExpressServer- OracleExpressObject- Orac1eExpressAnaIyZer等。uSybase与Ardent软件公司合作开发的PowerStage,是为使用客户/服务器数据源进行项目建立而提供的,这些数据源包含运行于WindowsNT与UNlX平台上的业务系统。有了PowerStagC,数

48、据仓库开发者能够使用产品的虚拟设计应用,直接对数据的移动与处理进行建模。开发者不再需要进行编码,也不必使已有的转换程序成为一个重用组件。Sybase的习惯性服务器,一旦数据被抽取与转换后,它务必在数据仓库或者者数据集市中进行分布与存储。当数据仓库环境中出现不一致的负载时,Sybase提供的习惯性服务器产品系列使用优化的数据存储技术。u微软公司新的数据中心/数据仓库选中PIatinUm技术公司的软件InfoBeaCon与InfoPUnIP作为其数据分析与数据转移解决方案的工具0Platinum的InfoBeacon是关系型在线分析处理(OLAP)工具,用于直接访问并优化微软的SQLSerVer,另外,它在数据转移与复制领域也有一定的优势。USybase公司推出用于保险、医疗、电信与零售金融业的WarehouseStudios的工业专用产品:Property&CasualtyInsuranceWarehouseStuclio2.OaHealthcareWarehouseStudio2.0、TelcoWarehouseStudio2.0与RetaiIBankingWarehouseStudio2.O0uWarehouseStUdioS由套装应用构成,包含一个使公司能对这些应用进行定制化处理的框架、一个使公司能建立一个数据模型的数据仓库设计与一个使公

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号