数据仓库与OLAP介绍.docx

上传人:牧羊曲112 文档编号:5306154 上传时间:2023-06-24 格式:DOCX 页数:16 大小:158.59KB
返回 下载 相关 举报
数据仓库与OLAP介绍.docx_第1页
第1页 / 共16页
数据仓库与OLAP介绍.docx_第2页
第2页 / 共16页
数据仓库与OLAP介绍.docx_第3页
第3页 / 共16页
数据仓库与OLAP介绍.docx_第4页
第4页 / 共16页
数据仓库与OLAP介绍.docx_第5页
第5页 / 共16页
亲,该文档总共16页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《数据仓库与OLAP介绍.docx》由会员分享,可在线阅读,更多相关《数据仓库与OLAP介绍.docx(16页珍藏版)》请在三一办公上搜索。

1、第一章 数据仓库与OLAP介绍1.1数据仓库基本概念数据仓库为商务运作提供结构与工具,以便系统的组织、理解和使用数据进 行战略决策。大量组织机构已经发现,在当今这个充满竞争和快速发展的世界, 数据仓库是一个有价值的工具。什么是数据仓库呢?按照W .H .Inmon这位数据仓库系统构造方面的领头设 计师的说法,“数据仓库是一个面向主题的、集成的、时变的、非易失的数据集 合,支持管理部门的决策过程”。这个简短而又全面的定义指出了数据仓库的主 要特征。四个关键词,面向主题的、集成的、时变的、非易失的,将数据仓库与 其他数据存储系统(如关系数据库系统、事务处理系统和文件系统)相区别。让 我们进一步看看

2、这些关键特征。 面向主题的(subject-oriented):数据仓库围绕一些主题,如顾客、供 应商、产品和销售组织。数据仓库关注决策者的数据建模与分析,而不 是集中于组织机构的日常操作和事务处理。因此,数据仓库排除对于决 策无用的数据,提供特定主题的简明视图。集成的(integrated):通常,构造数据仓库时将多个异种数据源,如关 系数据库、一般文件和联机分析处理记录,集成在一起。使用数据清理 和数据集成技术,确保命名约定、编码结构、属性度量等的一致性。 时变的(time-variant):数据存储从历史的角度(例如过去5-10年)提 供信息。数据仓库中的关键结构,隐式或显式的包含时间元

3、素。 非易失的(nonvolatile):数据仓库总是物理的分离存放数据;这些数据 源于操作环境下的应用数据。由于这种分离,数据仓库不需要事务处理、 恢复和并发控制机制。通常,它只需要两种数据访问:数据的初始化装 入和数据访问。概言之,数据仓库是一种语义上一致的数据存储,它充当决策支持数据模型 的物理实现,并存放企业战略决策所需信息。数据仓库也常常被看作一种体系, 通过将异种数据源中的数据集成在一起而构造,支持结构化的和专门的查询、分 析报告和决策制定。数据仓库与传统的数据库系统不同,它不仅仅是为了满足日常操作性系统的 应用要求,而是在操作型系统的大量数据之上,发展一种成功的策略和计划,为 企

4、业的决策支持所用制定相关的市场策略和发展策略,发现企业历史数据后面的 隐含规律,例如顾客的消费模式、消费预测、不同产品和服务的相互影响关系等。 总之,数据仓库可用于管理,包括对过去的理解和对未来的规划。利用数据仓库, 用户可以在适当了解商业环境的基础上来看待生成的信息和事实,接着就可以利 用商业技巧及对该事实的经验来提取知识,最后利用所提取的知识做出判断或决 策。数据仓库主要有三方面的作用:首先,数据仓库提供了企业级标准的报表和图表功能。数据仓库其中的数据 来源于不同的多个事务处理系统,并对数据进行汇总归纳,因此,数据仓库的报 表和图表反映的是整个企业的一致信息、是关于整个企业集成信息的报表和

5、图 表。这项功能是对传统的联机事务处理系统(0LTP )的扩充。其次,数据仓库支持多维分析(Multi_dimenslonal analysis) o多维分析是通 过把一个实体的多项重要的属性定义为多个维度,使得用户能方便地汇总数据 集,简化了数据的分析处理逻辑,并能对不同维度值的数据进行比较,而维度则 表示了对信息的不同理解角度,例如,时间和地理区域是经常采用的维度。应用 多维分析可以在一个查询中对不同阶段的数据进行纵向或横向比较,这在决策过 程中非常有用。第三,数据仓库是实现数据挖掘(Data Mining )技术的关键基础。数据挖掘技 术要在已有数据中识别数据的模式,以帮助用户理解现有的

6、信息,并在已有信息 的基础上,对未来的状况做出预测。由于数据仓库提供了关于整个企业全局的、 一致的信息,因此,在数据仓库的基础上进行数据挖掘,就可以针对整个企业的 状况和未来发展做出比较完整、合理、准确的分析和预测。1. 2联机分析处理(OLAP)基本概念OLAP是针对特定问题的联机数据分析,是数据仓库上的分析展示工具。它 建立在数据多维视图的基础上,可以提供给用户强大的统计、分析、报表处理功 能及进行趋势预测能力。主要有两个特点:一是在线性(OnLine),体现为对用 户请求的快速响应和交互式操作;另一特点是多维分析( Multi Dimension Analysis)o数据的多维视图使用户

7、能从多角度、多侧面、多层次的查看包含在数 据中的信息。联机分析处理于联机事务处理是有区别的。联机操作数据库系统的主要任务 是执行联机事务和查询处理,这种系统称为联机事务处理(OLTP)系统。它们 涵盖了一个组织的大部分日常操作,如购买、库存、制造、银行、工资、注册、 记账等。另一方面,数据仓库系统在数据分析和决策方面为用户或“知识工人” 提供服务。这种系统用不同的格式组织和提供数据,以便满足不同用户的形形色 色需求,这种系统统称为联机分析处理(OLAP)系统。OLTP与OLAP的主要区别概述如下:用户和系统的面向性:OLTP是面向顾客的,用于办事员、客户和信息 技术专业人员的事务和查询处理。O

8、LAP是面向市场的,用于知识工人 (包括经理、主观和分析人员)的数据分析。数据内容:OLTP系统管理当前数据。通常,这种数据太琐碎,难以用 于决策。OLAP系统管理大量历史数据,提供汇总和聚集机制,并在不 同的粒度级别上存储和管理信息。这些特点使得数据容易用于见多识广 的决策。数据库设计:通常,OLTP系统采用实体-关系(ER)模型和面向应用的 数据库设计。而OLAP系统通常采用星型或雪花模型和面向主体的数据 库设计。 视图:OLTP系统主要关注一个企业的或部门内部的当前数据,而不涉 及历史数据或不同组织的数据。相比之下,由于组织的变化,OLAP系 统常常跨越数据库模式的多个版本。OLAP系统

9、也处理来自不同组织的 信息,由多个数据存储集成的信息。由于数据量巨大,OLAP数据也存 放在多个存储介质上。访问模式:OLTP系统的访问主要有短的原子事务组成。这种系统需要 并行控制和恢复机制。然而,对OLAP系统的访问大部分是只读操作(由 于大部分数据仓库存放历史数据而不是当前数据),尽管许多可能是复 杂的查询。OLTP和OLAP的其他区别包括数据库大小、操作的频繁程度、性能度量等。 这些都概括在表1-1中。特征OLTPOLAP特征操作处理信息处理面向事务分析用户办事员、DBA、数据库专业人员知识工人(如经理、主管、分析员)功能日常操作长期信息需求、决策支持DB设计基于E-R,面向应用星型/

10、雪花,面向主题数据当前的,确保最新历史的,跨时间维护汇总原始的,高度详细汇总的,统一的视图详细,一般关系复杂查询存取读/写大多为读关注数据进入信息输出操作主关键字上索引/散列大量扫描访问记录数量数十个数百万用户数数千数百DB规模100MB 到 GB100GB 到 TB优先高性能,高可靠性高灵活性,端点用户自治度量事务吞吐量查询吞吐量,响应时间表1-1 OLTP系统和OLAP系统的比较1. 3数据仓库与OLAP虽然数据仓库和联机分析处理(OLAP)这两个术语有时可互换使用,但它 们却适用于通常称为决策支持系统或业务智能系统的不同组件。这些类型的系统 的组件包括一些数据库和应用程序,用于为分析人员

11、提供支持组织机构决策制定 所需的工具。数据仓库是一个数据库解决方案,包含那些通常表示某个组织机构业务历史 的数据。通过分析这些历史数据,可以支持对分散的组织单元进行从策略计划到 性能评估的多级业务决策。对数据仓库中的数据进行组织是为了支持分析,而不 象在联机事务处理系统(OLTP)中那样是为处理实时事务。OLAP技术使数据仓库能够快速响应重复而复杂的分析查询,从而使数据仓 库能有效地用于联机分析。OLAP的多维数据模型和数据聚合技术可以组织并汇 总大量的数据,以便能够利用联机分析和图形工具迅速对数据进行评估。当分析 人员搜寻答案或试探可能性时,在得到对历史数据查询的回答后,经常需要进行 进一步

12、查询。OLAP系统可以快速灵活地为分析人员提供实时支持。第二章DWR的数据库结构设计3.1数据仓库数据库的结构设计3.1.1主题的确定数据仓库的数据是面向主题的。数据以数据模型中所定义的各个主题域为基 础,与应用相独立。主题域又可分为表示企业中一系列基本实体的主题,以及表 示实体间联系的主题。正是由于数据仓库中的数据是面向主题的,从而决定了其设计由数据驱动。 传统的操作型环境则是面向应用、由需求驱动的。考虑零售业的行业特点,我们 分别以商品、员工以及顾客为主线,确定了如下主题。销售库存订货 顾客员工每个主题都对应一个事实表及一些维表,事实表中除了连接各个维表的键值 信息之外,还有一些度量值。例

13、如,销售事实表中有商品编号、时间编号、顾客 编号等键值,还有分店销售额、分店销售量、分店成本等度量值;员工事实表中 有员工编号、部门编号、职务编号等键值,还有月工资等度量值。销售主题主要面向销售情况分析。通过该主题的确定,我们可以分析某一时 间段某商品的销售情况,某分店的整体销售情况等等。订货主题使得我们能够从 时间、商品、供应商等多个角度来查看订货产品的订货、交货、退货付款等情况。 通过员工主题,我们可以查询某年某部门职员总人数、支付工资总数、平均年龄; 也可以查询某时期年龄在20至30之间的经理人数等等,从而更深入的了解企业 职员的现况。3.1.2粒度设计粒度可以定义为数据仓库所维护的概念

14、级别。然而,数据仓库通常包含有不 同层次的粒度。在创建数据仓库或数据集市时,必须将数据的粒度定义为数据仓 库定义的一部分。粒度还可定义为数据仓库的数据单位中保存数据的细化或综合程度的级别。 细化程度越高,粒度级别就越小;相反,细化程度越低,粒度级别就越大。在数据仓库中定义粒度时,应考虑下列因素:要进行的分析类型计划在数据仓库中进行的分析类型直接影响数据仓库的粒度。如果打算使用 数据仓库对每天的信息进行分析,就不能将粒度的层次定义为周。如果定义的粒 度层次过高,就不能在该数据仓库中进行更细致的操作。可接受的集合的最低层次数据仓库通常可在同一模式中采用多个层次的粒度。如当年的数据可采用天 为粒度,

15、而2-5年的数据可能以月或周为单位进行了汇总。这是以数据仓库中所 需的最低集合级别为基础的。能存储的数据量数据仓库可用的磁盘空间量,也限制粒度的定义。但是,如果是基于硬件限 制来设计数据仓库,就会在数据仓库中加入人为的限制,从而大大缩短了系统的 寿命。目前,磁盘的价格非常便宜,所以应尽可能根据信息需求定义粒度的层次。在DWR中,由于每天要处理的数据能达到几百兆字节,处理的数据量十分 庞大,所以采取双重级别定义粒度。粒度的双重级别分为轻度综合级和“真实档 案”细节数据级。细节数据级存放销售明细等具体信息;轻度综合级存放经过汇 总的数据,主要用于决策分析。通过在数据仓库的细节级上创建两种粒度级,可

16、以一举两得。大部分决策处 理是针对被压缩的、存取效率高的轻度综合级数据进行的,如果需要分析更低的 细节级,可以到数据的真实档案层。这样即保证了大部分分析需求的响应时间, 又保证了当用户查询细节时,能提供有效数据。3.1.3多维数据模型实体-关系数据模型广泛用于关系数据库设计。在那里,数据库的模式由实 体的集合和它们之间联系组成。这种数据模型适用于联机事务处理。然而,数据 仓库需要简明的、面向主题的模式,便于联机数据分析。下面介绍两种用于数据 仓库的多维数据模型:星型模型和雪花模型。星型模型(Star Schema):最常见的模型范例是星型模型,其中数据仓库包 括:1. 一个大的包含大批数据和不

17、含冗余的中心表(事实表)2. 一组小的附属表(维表)这种模式图很象星星爆发,维表围绕中心表显示在射线上.如图3-1所示,是某公司的数据立方体“销售”,它采用星型模型。该模型 中包含一个中心事实表“销售”,它包含四个维的关键字和两个度量销售额、销 售量。在星型模式中,每维只用一个表表示,每个表包含一组属性。这一限制可 能造成某些冗余。例如,“地点”维表包含属性集地点关键字,省、市、街道。 而长春、吉林都是吉林省的城市。“地点”维表中这些城市实体的属性“省”中 会有冗余。维表图3-1面向销售的星型模型雪花模型(Snowflake Schema):雪花模型是星型模型的变种,当维度需要 向外延伸至更详

18、细的类别时,星型模型就被扩展成雪花模型。其中某些维表是规 范化的,因而把数据进一步分解到附加的表中。结果,如图3-2所示,模型图形 成类似雪花的形状。时间销售商品际关号蠢.目季度J一额重 间品店占童&】 商分地销崩建字涟j 神方:商品关窿字 海品名称 类别.fife供应商供应商关禳字 供应商类型维表字字 Hi 二-二 键 走*- 占ffi.道 地城衡.维表分店分店关裸字 分店名称 3半理、 11I _, ,- I ,1维表图3-2面向销售的雪花模型雪花模型是对星型模型的进一步标准化,它的优点是最大限度的减少数据存 储量以及把最小的标准化表联合在一起来改善性能。雪花模型和星型模型的主要不同在于,

19、雪花模型的维表可能是规范化形式, 这种表易于维护,并节省存储空间,因为当维结构作为列包含在内是,大维表可 能非常大。然而,与巨大的事实表相比较,这种空间的节省可以忽略。此外,由 于执行查询需要更多的连接操作,雪花结构可能降低浏览的性能。这样,系统的 性能可能相对受到影响。因此,在数据仓库设计中,雪花模型不如星型模型流行。DWR主要面对零售业用户,而且DWR有一个重要的功能就是支持数据挖 掘。考虑零售业的行业及其操作型数据库的特点,再加上数据挖掘其它功能模块 的需求,DWR中的多维数据结构将有针对性地采用合适的模型。例如,为了满 足商品类别间关联规则发现,DWR在销售模型中使用了雪花模型,扩展了

20、商品 类别等等。数据仓库数据库DBR的物理层实体关系图(ERD)清楚地展示了数据库中 所有的对象,它描述了所有表格(实体)以及它们之间的关联方式。如图3-3是 涉及销售部分的ERD仓库类别*长应_卖用_那 描坯盘点事实*商品一梅号时间-始号升患-帽号1落1弁店一支F商品尊飞商品-类异iq号,SKUSM3毛里S明史收包岐舌诋脂尽舌是整体ERD的一部分。商品玉别,促销*二Z促饷-褊号促饷-区险够1号 壤止日朗ZJ分店*升度一煽号升店一类受血区一树号赫-瞄市掘-壁wCK箸事实*时间-帕号防密_邮 促解L输号 升店一输号 升店_饷售赫 升虑_cl客*城市省国莪胁容一一曲1电曲出生年月Gear区*时间*

21、时间帕妃眩区-细号人姑弯城市日朝年商品.一类异1_输号 商品一干类别 商&一类用 麴遹1 商品 累划图3-3 ERD销售部分3.2联机分析处理子系统立方体结构设计3.2.1多维数据集(立方体)数据仓库和OLAP工具基于多维数据模型。该模型将数据看作数据立方体 (Data Cube)形式。数据立方体允许以多维对数据建模和观察。它由维和事实 定义。一般的,维是关于一个组织的想要记录的透视或实体。例如,某公司要创建 一个数据仓库“销售”,记录商店的销售,涉及维时间、商品、分店、地点。这 些维使得商店能够记录商品的月销售,销售商品的分店和地点。每一个维都有一 个表与之相关联。该表称为维表,它进一步描述

22、维。例如,商品的维表可以包含 商品名称,类型、型号等。通常,多维数据模型围绕中心主题(例如销售)组织。该主题用事实表表示。 事实是数值度量的。把它们看作数量,是因为我们想根据它们分析维之间的关系。 例如,销售数据仓库的事实包括销售额、销售量和纯利润。事实表包括事实的名 称或度量,以及每个相关维表的关键字。通常意义的立方体都是3-D几何结构,在数据仓库中,数据立方体是n-D 的。图3-4立方体如图3-4,立方体的维由产品维、地区维、时间维构成,度量是销售额,立 方体中的每个单元都存储了销售额度量信息,给出产品、时间和地区坐标,就可 以确定任何销售额。3.2.2维度的设计维度一般是有层次的,但不必

23、一定有层次。OLAP领域中的维度与星型模型 中的维度不同。星型模型中的维度的属性一般比OLAP维度多得多。如,在星 型模型中的顾客维度如下:顾客关键字姓名性别出生年月城市省图3-5星型模型中的维度从中可以看出,顾客的所有属性都包含在一个维度中。另一方面,在OLAP地领域中,顾客的属性常常在多个维度中表示。通常将顾客的属性分为两个单独的 维度,顾客维度以及城市维图3-6 OLAP中的维度OLAP系统应设计成易于用户访问和操纵数据,有一些特定的维度一般都是 报表所需的维度。如:时间维度该维度在与数据维度一起使用时,能很容易地报告不同时间之间的比较。字母表维度该模式很易于访问数据。如果有1000个客

24、户,但是没有客户层,可使用的技 术是将客户按字母排列,以帮助用户查找客户。范围维度范围维度对于分离某个范围的数据非常有效。如,定义价格范围维度,就可 以很方便的显示购买了价格在0-10元范围内的产品的客户列表。在设计维度时必须记住,尽力限制维度个数。维度个数太多,将使分析过于 复杂。维度的父子比率应限制为约1: 10,即任何父层都不要有超过10个子层, 这会使浏览更简单。在立方体设计一节中,我们将详细介绍本系统中的维度。3.2.3事实的设计事实是商务的度量,是如收益、成本、总利润、总利润率、数量、和价格。 事实通常是可相加的,或为半可相加的,并直接与模型中的维度相关。事实如何 汇总是非常重要的

25、。如收入事实是可相加的,就可以按图3-7中的方式汇总,每个层可汇总到上 一层。有一些事实是不能充分相加的,如利润率,若按收入的方式相加是不正确的。 如将这些值相加,企业的总利润率可能达到百分之几千,这个结果是没有意义的; 然而,对它进行平均,可得到企业的平均利润率。图3-7事实的汇总事实是使OLAP有意义的东西,是用户关心的。理解商务中必要的关键度 量可建立一个完善而相关的系统。设计OLAP中的事实,必须面向用户,因为 事实为用户提供了解信息、商务的度量。3.2.4立方体存储设计根据存储结构的不同,OLAP又分为ROLAP、MOLAP、HOLAP。现在考 虑存储设计。MOLAP存储模式意味着将

26、所有的详细立方体数据保存在多维数据库中。这 意味着要将数据源中事实表、维度表里的数据,写入优化的数据库中ROLAP存 储模式意味着将所有的详细立方体数据和统计数据保存在关系数据库中。这意味 着要所有在事实表、维表中的详细立方体数据都被存在关系数据库中,没有将数 据迁移出来。这种存储模式不能提供像MOLAP那样的性能,但是它具有良好的 可扩展能力,允许公司充分利用现有的存储能力。HOLAP是混合物。它是指将 所有详细信息保存在关系数据库中,但将统计信息保存在多维数据库中。这种模 式体现了前两种模式的优点:MOLAP的性能与ROLAP的可扩展性。可根据需 求的特点以及存储结构的不同特点来决定采何种

27、物理结构。立方体真正建立过程是CPU密集的操作。必须从事实表格中检索核心信息, 计算并存储集合。如选择ROLAP,MS OLAP需要在关系型数据库中建立汇总表 格以存储这些信息;如果选择MOLAP,MS OLAP需要在多维数据库中存储该 事实表。3.2.5 OLAP立方体模型设计本文设计了一些零售业用的基本立方体模型,具有通用性。介绍本文设计的OLAP多维立方体模型之前,首先介绍维度映射表以及事 实映射表。因为立方体的主要构成因素就是维度和事实。维度映射表包括了立方体的所有维度以及每个维度中的层。如图3-8所示。时间维度季度月图3-8维度映射表例事实映射表包括OLAP立方体事实(度量)和如何计

28、算及汇总的细节。如图 3-9所示。度量汇总 分店销售额总计分店成本总计销售量总计分店净销售额总计图3-9事实映射表例下面就用维度映射表和事实映射表来描述本文设计的OLAP立方体的基本 模型。1. 销售明细立方体模型维度映射表:时间商品分店顾客价格范围销售人员促销方式年季度大类小类国家 省客户类型编号客户编号范围销售人员类型销售人员号促销方式月细类部门小组品牌产品名市区 分店名事实映射表事实汇总计算销售额总计价格平均成本总计总利润(GM)总计销售额-成本总利润率(GM%)再计算数量总计本立方体可完成的功能为:从时间、商品、顾客、价格范围、分店、销售人员多个角度来查看销售产品 的销售额、利润等情况

29、。如可以查询某月某种产品的销售量,销售总额;也可以 查询某月某销售人员的销售总额等等。2 .库存立方体模型维度映射表:时间商品库位年大类省季度小类市月部门分店周小组库位品牌产品名事实映射表事实汇总计算入库数量累计总计入库金额累计总计报损数量累计总计报损金额累计总计盘点溢缺数量累计总计盘点溢缺金额累计总计捐赠数量累计总计捐赠金额累计总计领用数量累计总计领用金额累计总计销售数量累计总计销售金额累计总计不含税销售成本累计总计含税销售成本累计再计算其他数量累计总计其他金额累计总计变价增值累计总计库存数量总计库存金额总计本立方体可完成的功能为:分析一定时间内不同商品在不同仓库内的入库、库存、销售以及领用

30、、销售、 报损、盘点溢缺、捐赠等情况,用来掌握商品的流动速度、使用方向等。3. 订货立方体模型维度映射表:时间商品分店供应商付款方式订货人员年季度月周大类小类部门小组品牌产品名国家省市区分店名供应商类型编号供应商编号付款类型号订货人员号事实映射表事实汇总计算订货数量总计订货金额总计交货数量总计交货金额总计退货数量总计退货金额总计订货次数总计交货延时总计平均交货延时平均交货延时/订货次数少货数量总计定货数-交货数已付款额总计应付款额总计未付款额总计应付款额-已付款额本立方体可完成的功能为:从时间、商品、供应商、分店、订货人员、付款方式多个角度来查看订货产品 的订货、交货、退货、订货次数、交货延时

31、、付款等情况。如可以查询某月某种产品 的订货量,订货总额;也可以查询某月向某供应商的订货总额等等。4 .职员管理立方体模型维度映射表:时间工作地点部门级别职务性别年龄范围工资范围年 月省市分店名部门 小组级别职务性别年龄工资范围事实映射表事实汇总计算人员数总计平均年龄平均工资支付总计平均工资平均工资支付/人员数本立方体可完成的功能为:从时间、工作地点、部门、级别、职务、性别、年龄范围、工资范围多个角度来查看职员的年龄、工资、人数等情况。如可以查询某年某部门职员总人数、 支付工资总数、平均年龄;也可以查询某时期年龄在20至30之间的经理人数等 等,从而更深入的了解企业职员的现况。5 .顾客立方体

32、模型维度映射表:时间家庭地点顾客类型收入教育程度性别年龄婚姻年 月国家省市区顾客类型收入范围教育程度性别年龄范围婚姻状况事实映射表事实汇总计算顾客数总计消费金额总计消费次数总计折扣金额总计帐户余额总计本立方体可完成的功能为:从时间、家庭地点、顾客类型、收入、教育程度、性别、年龄、婚姻多个角 度来查看顾客的消费、人数、帐户余额等情况。如:可以查询某月持金卡、年龄 在30到50之间顾客总人数;也可以查询某时期某一地区女性顾客消费金额、消 费次数等等,从而更深入的了解顾客的消费情况,面向不同特征的顾客提供更好 的促消方法。建立这些立方体模型的总体目标是使决策者更好的从多角度了解商业情况, 从而了解企

33、业运行情况,人员工作情况等,有助与尽早发现问题,解决问题,加 强管理。项目所含技术内容:本项目的主要研制内容有以下几点。目前已经确定了各种挖掘目标的的 模型和算法,并用了大量的仿真数据验证了其可行性和有效性。1. 用多维数据分析方法实现数据总结,数据总结的目的是对数据进行浓缩,给 出它的紧凑描述。采用多维数据分析方法的核心内容是利用数据仓库技术实现数据总 结。即把数据分析中经常用的诸如求和、总计、平均、最大、最小、方差值等预先计 算并存储在数据仓库中,以便于决策支持系统的使用。2. 分类发现:分类的目的是把数据库中的数据项映射到给定类别中的某一类, 从历史数据中自动推导出给定数据的推广描述,从

34、而能对未来数据进行预测,分类发 现也可用于针对某一类商品或服务发现潜在的客户,以便采用更积极有效的促销方 式。使用课题组提出并完成的一种新型模糊神经网络模型实现。3. 聚类发现:聚类是把一组个体依据相似性归成若干类别,目的是得到属于 同一类的个体之间的距离尽可能地小。聚类可用于把客户按照其购物特征的相似性区 分为不同的群体,决策者可根据每个群体的不同特点采用有针对性的营销策略。使用 课题组改进的ART自适应共振理论网络模型和算法实现。4. 关联规则的发现:关联规则是形式如下的一类规则,“在购买面包和黄油的顾 客中,有90%的人同时也买了牛奶”。用于关联规则发现的主要对象是事务型数据库, 也称货

35、篮数据。可以帮助如何摆放货架上的商品(把顾客经常同时购买的商品放在一 起),帮助如何规划市场(如何互相搭配进货)。使用课题组提出并完成的一种模糊加 权神经网络模型实现。5. 市场行销预测:包括数据库行销、货篮分析和市场营销预测。这些预测值使 决策者在宏观上进行人、财、物的调拨时具有相应的数据依据。使用课题组提出并完 成的将模糊神经网络和BP前向神经网络相结合的组合神经网络模型和算法实现。6. 库存量及进货时间的择优选择:应用对市场需求的预测可进一步计算分析得 到商品合理库存量的知识,这为压缩库存和安排合理的进货时间提供了基本、最直接 的依据。使用课题组提出并完成的一种快速收敛和能对多值优化的遗

36、传算法实现。7. 营销图表分析:包括输出各种曲线,二维三维直方图、饼形图及各种报表分 析。使用传统的回归分析和统计分析方法实现。技术难点及技术关键:本项目的研制目标是开发完成商业数据库中数据挖掘软件 系统,包括:数据总结模块、分类发现模块、聚类发现模块、关联规 则发现模块、市场行销预测模块、库存量及进货时间择优选择模块和 营销图表分析模块。其技术难点和技术关键是:1.根据数据挖掘目标选择确立或者提出新的高效率数据挖掘 算法,使得挖掘任务速度快,计算复杂度小;发现的知识及预测的结 果准确率高。例如,从海量数据中提取出有用的关联规则,其时间、 空间开销巨大,而且算法的选择不当将会导致提取出大量的适

37、用性低 的规则。为解决这一关键问题,将使用课题组完成的“基于快速模糊 规则搜索的模糊神经网络”模型和算法,该算法不但能快速提取关联 规则,而且能删除掉那些“适合度”低的规则,保留那些“适合度” 高的少数规则。再者,对市场行销预测来说,预测的准确度是该软件 模块的指标,对这一问题将使用课题组完成的“模糊神经网络和BP 前向神经网络相互结合的组合网络”模型及算法,其预测的准确度可达到7580%。1.挖掘算法所开采知识的知识表示及知识冲突的消解将是另一技 术关键。知识表示力求简洁度高,易读性好,这包括从商业管 理专家处获取知识,并用各种图形、表格、曲线、文字描述等 输出。知识间相互冲突,例如:新发现

38、的关联规则间的不相容, 新旧知识相矛盾,为解决这一问题将使用课题组完成的“模糊 加权推理法的神经网络”模型算法来解决,对各种知识或规则 通过模糊加权推理法来消解冲突。项目的特色和创新之处:目前国内外对于数据挖掘的的研究,存在的主要问题是数据挖掘过程的自动化、 智能化水平较低,特别是挖掘复杂数据间隐含的知识,为解决这一矛盾,近年来我们 一直研究和探索将计算智能(Computational Intelligence),包括神经网络、模糊 系统和进化计算的模型、算法及其相互融合技术应用与数据挖掘过程的自动化和智能 化,并取得了一批科研成果。由于计算智能具有自适应、自组织、自学习、自优化和 极度并行等

39、智能计算的特征,对于大型数据库中的复杂数据,使用这些模型和算法就 可以自动发现满足用户要求的知识,而无需需要过多的领域专家的知识。本课题的特 色和创新之处在于:1. 建立以计算智能为基础的数据挖掘自动化理论是本项目的理论特色。关于计算 智能的理论研究,课题组做了大量的应用基础方面的研究工作,已发表了二十 几篇高水平的学术论文,一些和本项目相关的原型系统已完成。2. 利用计算智能的内在并行性,实现数据挖掘过程的并行化是本项目技术上的特 色。课题组已实现了一种快速收敛、避免陷于局部最优、并能求解多点优化问 题的新型遗传算法,及一种快速模糊规则搜索的模糊神经网络模型。这些模型 和算法将实现数据挖掘过

40、程的并行、分布式计算,并能大大提高收敛速度。这 些技术的实现在国内外并未见过报道。3. 目前,国外的数据挖掘软件的挖掘算法大多采用传统的机器学习法中的归纳学 习、基于范例学习、决策树、粗糙集等;或者使用统计方法中的回归分析、判 别分析、探索分析等;或者使用神经网络算法(如IBM公司)中的BP前向神 经网络用于分类发现,和Kohonen自组织映射网络用于聚类发现等。这些方法 给出的知识大多是确定性知识,因而推理法也是确定性推理。本项目首次将模 糊加权推理法的神经网络模型应用于数据挖掘中的知识发现,所挖掘的知识, 如:关联规则的发现为模糊关联规则,这将更加切合商业管理人员的模糊推理 过程。本课题将

41、使用课题组提出并完成的一种新型模糊神经网络模型用于 分类发现;使用课题组改进的ART自适应共振理论网络模型用于聚类发现;使用 课题组提出并完成的一种模糊加权推理法的神经网络模型用于关联规则的发现; 使用课题组提出并完成的将模糊神经网络和BP前向神经网络相结合的组合神经 网络模型用于市场行销预测;使用课题组提出并完成的一种新型遗传算法实现库 存量及进货时间的择优选择。4. 本项目使用申请者所提出的一种加权推理法的模糊神经网络用于市 场行销分析及发展趋势的预测、分类发现以及关联规则自动提取;使用申请者 提出的模糊聚类神经网络用于聚类发现;使用申请者提出的回嗍遗传算法用于 规划市场、库存量及进货时间、搭配进货等的择优选择。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号