《毕业设计(论文)基于数据关联规则的医药管理系统的分析与设计.doc》由会员分享,可在线阅读,更多相关《毕业设计(论文)基于数据关联规则的医药管理系统的分析与设计.doc(36页珍藏版)》请在三一办公上搜索。
1、目 录1. 概述11.1 课题的研究意义11.2 课题的研究背景11.2.1 我国医药零售企业的发展现状11.2.2 关联规则技术在数据挖掘中的应用现状21.2.3 电子信息技术在医药零售企业中的应用现状31.3 课题的研究内容32. 系统分析42.1 医药管理信息系统分析42.1.1 医药管理信息系统需求分析42.1.2 数据流程分析52.1.3 数据字典72.2 基于关联规则的医药零售数据挖掘方法分析92.2.1 数据挖掘流程92.2.2 基于关联规则的数据挖掘算法92.2.3 数据关联规则在医药零售数据中的应用分析133. 系统设计153.1 医药信息管理系统开发平台设计163.1.1
2、系统开发软件平台163.1.2 系统开发硬件平台163.2 医药信息管理系统功能模块设计163.2.1 功能结构设计.163.2.2 功能模块说明173.3 数据库设计183.3.1 逻辑设计193.3.2 数据库表设计193.3.3 数据库连接代码设计233.4 代码设计233.5 系统界面设计243.6 安全性设计274 系统实现284.1 程序设计284.2 系统测试335. 总结331 概述1.1 课题的研究意义许多医药零售企业因为不能记录药品销往单位,无需填制销售凭证,在手工管理下无法分类统计客户群。另外还有些大型零售医药公司的药品销售,由于品种种类较多,库存数量及结构变动性较强,在
3、手工操作条件下,营业员不仅经销药品,同时经营货款,极容易出现款货黑洞1。针对以上手工管理医药零售企业普遍存在的问题,课题开发的腾龙医药管理系统可分类统计客户群,可对某类客户做一标识。对大流量的数据进行收集,既可收款迅速准确,又强化了前后台管理;同时收款机作为销售前哨,可为后台提供准确无误的信息;后台软件进行加工、处理、分析、统计,从而实现人、财、物、购、销、存一体化管理。医药零售企业对于销售品种、货源单位的选择极为重视, 腾龙医药管理系统将每种药品的经营状况与货源单位对应,将每笔业务各环节的处理对应到各岗位的每位员工。腾龙医药管理系统提供的不仅仅是一套收款系统,同时也是一套智能考核货源单位和员
4、工业绩的管理型软件。在企业引入管理信息系统的背景下,我们同时也意识到企业信息化的最大效益来自信息的最广泛共享、最快捷的流通和对信息进行深层次的挖掘。因此, 信息化建设中的根本性问题, 不是通信网络、计算机选型、建设网站等问题, 而是如何将分散、孤立的各类信息变成网络化的信息资源并进行整合, 实现信息的快捷流通和共享2。信息资源是企业最重要的资源之一,开发信息资源既是企业信息化的出发点, 又是企业信息化的归宿。在信息化建设过程中, 建设高质量的数据体系, 是开发企业信息资源、建立全面支持企业信息化运行的IT资源平台的基本工作。因此数据分析技术已经成为企业应用关注的一个焦点,但由于历史原因,大部分
5、人对传统的统计分析和新的数据挖掘技术都不太了解, 存在着许多模糊认识3。数据体系的设计目标是规范、标准、可控、支持高效数据处理和深层数据分析的数据结构以及稳定、统一的数据应用体系及管理架构。近年来,随着信息产业的急剧发展, 数据大量地产生和被搜集, 使得传统的数据管理方法不能有效地使用这些数据为企业服务。因此本课题基于腾龙医药管理系统介绍的关联规则的数据挖掘技术将会启发更多的医药零售企业利用已有数据为自己服务。1.2 课题的研究背景1.2.1 我国医药零售企业的发展现状长期以来,由于药品的特殊性,我国医药流通领域一直采用“统购包销、逐级调拨”的流通管理模式,严格控制药品的流通。医疗体制僵化使医
6、院成为药品销售的终端4。进入20世纪90 年代末以后,随着改革开放的进一步深化,医药零售行业的严格管制开始松动,这些为国内医药零售业带来了难得的发展机遇。2000年以来,我国针对医药零售业出台了几大政策:处方药和非处方药分类管理办法的出台,百姓的用药消费从医院向药店分流,使得在药品零售中,医院所占市场份额约85 % ,药店所占市场份额约为15 %;我国对外资放开医药分销服务业,外商可以在我国从事采购、仓储、配送、批发、零售及售后服务;国家有关部门首次取消了对跨省市办医药连锁店的限制,连锁药店成为众多医药零售企业开展服务的基本途径;药店定址“零距离”的规定,药店之间可以紧挨着开,有实力的药店可以
7、凭借其服务质量等优势开展平等竞争5。时代在进步,社会在发展,居民生活水平不断提高的同时健康意识也有了十足的进步,人们开始追求健康、便利、实惠。公费医疗并不能全民普及的今天,自费医疗的公众更愿意在大中型药店、连锁店,他们认为在医院购买除了要交纳药品费用之外,还要交纳其他的费用,如:挂号费、处方费、处置费等,附加费用较高。为了了解目前公众购买药品的场所及考虑的因素,中国消费报社和中国社会调查所在全国范围内联合进行了一项全国药品销售的调查,发现人们对药品的售后服务也提出了更高的要求:送药上门、健康讲座、家庭医生等6。药品零售市场作为我国医药健康产业中,市场化程度最高的板块,十多年来发展迅速。医院已不
8、再是人们购买药品的首选,这为医药零售企业提供了前所未有的机遇与挑战,改革开放的逐步推进,同时也给我国医药零售企业带来了来自全世界的挑战,信息化不足,经营理念落后,利润太低等7。1.2.2 关联规则技术在数据挖掘中的应用现状数据挖掘就是从大量的数据中提取或挖掘知识,就是应用一系列技术从大型数据库或数据仓库中提取人们感兴趣的信息和知识。这些知识或信息是隐含的,事先未知而潜在有用的,提取的知识表示为概念、规则、规律、模式等形式8。也可以说,数据挖掘是一类深层次的数据分析,数据挖掘应该更正确地命名为从数据中挖掘知识。关联规则是如下形式的逻辑蕴涵: A B ,其中A. B是项集, A I, B I, A
9、 B = 。一般用两个参数描述关联规则的属性。关联规则数据挖掘的一个典型例子是购物篮分析。市场分析员要从大量的数据中发现顾客放入其购物篮中的不同商品之间的关系。如果顾客买牛奶,他也购买面包的可能性有多大? 什么商品组或集合顾客多半会在一次购物时同时购买?例如,买牛奶的顾客有80%也同时买面包,或买铁锤的顾客中有70%的人同时也买铁钉,这就是从购物篮数据中提取的关联规则。关联规则挖掘是数据挖掘研究的一个重要分支,关联规则是数据挖掘的众多知识类型中最为典型的一种9。自从提出关联规则挖掘的概念之后,人们对它的研究从来没有停止过,不但在理论上对它进行了卓有成效的分析和研究,而且在实践上也提出了不少有效
10、的算法,为关联规则挖掘的理论和应用奠定了基础。主要研究的关联规则算法有:搜索算法、多循环力式的挖掘算法、深度优先算法,其中最为经典的算法是Apriori算法10。关联规则挖掘在数据挖掘中是一个重要的课题,从大量商务事务中发现有趣的相关联系,有助于许多商务决策的制定,如分类设计、交叉销售和顾客购买习惯分析等。近几年随着电子信息技术的广泛应用,关联规则挖掘已经广泛应用于如:企业销售管理系统,通过一定的关联规则制定营销策略;超级市场销售管理系统,进行商品货架设计、货存安排以及根据购买模式对用户进行分类;图书管理系统,从读者的大量借阅信息中挖掘出各学科之间的关联程度,从而科学地进行建议借阅和图书推荐等
11、服务,在一定程度上可以辅助图书馆的购书工作、教师的教学工作以及优化图书馆藏布局11。 1.2.3电子信息技术在医药零售企业中的应用现状“创造在市场竞争中不可取代位置”的企业才能够生存下来。而企业要建立不可取代的位置,很重要的一点就是要有比别人更快获取和处理资讯的能力12。正是意识到这一点,在竞争如此激烈的医药零售业中,不少医药零售企业采用了电子信息技术。电子商务成为企业展开竞争的一种手段与竞争优势,医药产业作为国民经济的支柱产业,与互联网经济相结合,即开展电子商务已是必不可挡的趋势。全球最大的20家制药业现已开展电子商务,通过电子商务医药零售企业可以减少其在采购、销售环节中的交易层次,减少寻找
12、交易信息的时间,大幅度降低交易成本13。例如,我国成功的民生医药电子商务网,通过这种方式企业拓宽了销售渠道。同时,传统的制药企业面对电子商务的滚滚大潮,发展企业自身信息化是首要任务。在中国有这样一个特点,电子商务名词概念先于电子商务的应用和发展,是先进的网络和电子技术推动企业电子商务的应用与发展。实际上,企业的电子商务的发展程度很大一部分取决于企业自身信息化的程度,有相应的信息化水平,才能应用相应的电子商务。信息化水平并不取决于企业拥有多少台计算机,而是企业通过计算机能够得到多少有用的信息14。因此很多医药零售企业内部也采用了管理信息系统,来进行药品、人员、客户信息管理。1.3 课题的研究内容
13、在本课题中主要探讨的内容是医药零售企业内部管理信息系统的设计与实现以及基于数据关联规则的数据挖掘技术在此医药管理系统中的应用分析。通过分析医药零售企业独特的营销特点来设计出合适的管理信息系统。本课题为腾龙企业设计实用的管理系统,完成销售管理、进货管理、库房管理、财务管理、客户信息管理、企业人员信息管理、药品信息管理、供应商信息管理。以设计出来的腾龙医药管理系统的事务数据库为基本,应用关联规则的数据挖掘算法,通过数据预处理、设置数据源等有序步骤,得到概率和正确性较高的一些关联规则,帮助医药零售企业进行合适的药品货架设计、货存安排以及根据购买信息对用户进行分类。2 系统分析2.1 医药管理信息系统
14、分析2.1.1 医药管理信息系统需求分析医药零售企业分为两种形式,一是纯正的零售药店,另外一种是连锁企业下属的零售分店15,医药零售企业的业务流程如图2-1所示。客户柜台开票系统进行库存药品审核销售登记销售报表返还交款单客户库存信息返还收款单查询销售记录质量检查退货登记退货报表销售信息库存信息选定商品退货未通过go库存有通过通过未通过go未通过图2-1 业务流程图顾客购货顾客选中所要购买的商品后,由柜台营业员开出小票,顾客持单到收款处交款。计算机系统记录下此次销售信息。顾客凭POS机上打印出的交款单到柜台取货。顾客购货过程结束。如果柜台上的同一种药品具有两个不同的批号,营业员在售货时应该严格按
15、照批次在先的药品先销售的原则。顾客退货一般情况下,退货时,顾客要声明退货原因并出示POS机上打出的“收款单”,凭此“收款单”查找历史销售记录,确认货物是本店售出的,并对药品进行质量检查。同意退货后,在计算机系统中做一笔负销售。对退回来的货,无论其质量情况如何,均按负出库处理,有 质量问题的再作报废或退货处理。通过对以上两种医药零售企业形式的销售业务流程考察后,需要了解企业的应用需求,表2-1列出了医药零售企业主要的功能需求。表2-1 主要功能需求序号名称主要内容输入数据输出数据1药品管理药品名称、标识、产地等其他相关的信息;药品进、销、存明细账;药品在后库的上下限控制;药品在货架的补货临界;药
16、品消费对象的采集、管理;药品销售以及入库记录;等等查询关键字药品列表2供应商的管理药品供应商单位的档案信息; 从各供应单位购进药品的销售、库存情况; 供应单位的应付款及结算明细账;等等。查询关键字供应商信息列表3员工管理各员工的档案资料维护与管理; 各员工定岗、定责与系统处理权限的对应关系; 各员工在组织机构中的隶属关系; 各员工工作业绩的统计、考核;等等。查询关键字员工信息列表4财务管理药品销售总额; 药品退货总额; 药品入库总额;核算报表制作与打印;药品销售支出财务报表2.1.2 数据流程分析销售药品提供药品回执回执图2-2 腾龙医药管理信息系统顶层DFD医药管理信息系统客户X供应商由以上
17、的业务流程分析得出医药管理信息系统的顶层数据流程图如图2-2: 腾龙医药管理信息系统第一层DFD如图2-3:客户X1库房管理库存信息入库登记D1D2库存信息药品信息X2销售管理X4财务管理D3D4D5供应商信息客户信息员工信息X3基础信息管理员工图2-3 腾龙医药管理信息系统第一层DFD供应商信息供应商腾龙医药管理信息系统第二层DFD库房管理DFD如图2-4:药品订购药品X1.1X1.2仓库名称订单处理D6库存管理供应商入库单D7客户D8出库单库存D9X1.3订单D10结算管理报表D11图2-4 腾龙医药管理信息系统第二层DFD腾龙医药管理信息系统底层DFD如图2-5:X1.1.1入库管理供应
18、商反馈X1.1.2仓位查询仓库名称D6X1.1.4入库单D7库存查询X1.1.3库存盘点出库单D8D9X1.1.5库存入库退货管理图2-5 腾龙医药管理信息系统底层DFD2.1.3 数据字典数据字典是关于数据的信息集合,也就是对数据流程图中包含所有元素定义的集合。具体来讲,它是对数据流程图中的数据项、数据结构、数据流、数据存储、处理逻辑的定义和描述。数据项的描述:数据项是数据的最小单位,具有逻辑不可再分性。表2-2表示对数据元素“仓库名称”的描述。表2-2 仓库名称描述编号dm-01标识符SPDJ名称仓库名称别名库名含义存储药品的仓库识别标志类型数值型长度20值域099999999999.9数
19、据结构的描述:数据元素在系统中以满足某种应用的要求组合在一起,构成了一定的数据结构。例如将药品信息的组合以“药品标识”来命名,表2-3表示“药品标识”的数据结构。表2-3 药品标识描述编号S-01名称药品标识含义标识药品实体组成药品名称+药品编号+简称+单位相关数据流药品入库单、药品出库单、药品销售信息相关处理逻辑药品信息管理、药品销售管理、财务统计数据流描述:在数据字典中,可以对数据流程图中由外部项输入到系统中的数据流和从系统输入到外部项的数据流进行描述,表2-4表示对“药品入库单”的描述。表2-4 药品入库单描述编号L-01名称药品入库单含义仓库药品的入库信息数据流来源库房管理模块数据流去
20、向药品入库单组成仓库名称、药品名称、数量、金额流通量2份/天高峰流通量10份/天数据存储描述:在数据字典中,只描述数据存储的逻辑存储结构,而不涉及其物理结构。表2-5表示对“药品信息”的描述。表2-5 商品信息描述编号C-01名称药品信息含义存储药品的基本信息组成药品基本信息、药品入库日期关键字入库日期、药品编号、药品名称备注填表人:杨江涛 日期:2006年5月18日处理逻辑的定义与描述:数据字典对数据流程图中的处理逻辑进行了简单的描述。表2-6表示对“库房管理”的描述。表2-6 订单管理描述编号XS02.1名称库房管理简述管理库房药品情况,包括库存药品查询、库房盘点、库房报表输入出入库药品信
21、息与出入库药品数量、库房名称处理1) 根据输入库房名称进行库房盘点2) 根据输入的药品名称进行各仓库内药品查询,进行采购与销售决策3) 管理员可以根据库房盘点生成库房报表输出库存药品信息、库房报表2.2 基于关联规则的医药零售数据挖掘方法分析2.2.1 数据挖掘流程数据挖掘是指从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘有用知识的过程。对数据挖掘的理论研究主要在以下六个方面:OLAP 技术、面向属性的归纳法、关联规则、分类和预测、聚类和与数据仓库的集成技术16。数据挖掘分为描述性和预测性两类。描述性数据挖掘提供数据的一般规律;预测性数据挖掘产生关于数据的预测。数据挖掘的五项主要内容有
22、17:关联分析:寻找数据项之间的关联关系18。演变分析:描述时间序列数据随时间变化的数据的规律或趋势,并对其建模。包括时间序列趋势分析、周期模式匹配等。聚类分析:根据最大化类内的相似性、最小化类间的相似性的原则将数据对象聚类或分组。分类分析:找出描述并区分数据类的模型,以便能够使用模型预测给定数据所属的数据类。异常分析:一个数据集中往往包含一些特别的数据,其行为和模式与一般的数据不同,这些数据称为“异常”。对“异常”数据的分析称为“异常分析”。数据挖掘的过程一般由五个步骤组成19,具体过程如图2-6 所示。目标数据预处理数据转换数据模式选择转换预处理数据开采数据图2-6 数据挖掘过程2.2.2
23、 基于关联规则的数据挖掘算法关联规则作为数据挖掘中的一种技术,描述了交易数据集DB中两组不同项目之间存在的某种关联关系20。关联规则定义的形式化描述如下:给定一个交易数据库DB,I=I1,I2,Im为DB中m个不同交易事务集合,其中每个事务T是项的集合,使得TI。每一个交易事务有一个唯一的标识,记作TID。定义1 k项集定义为项集中包含的项的个数,集合A1,A2,Ak称为k项集。定义2 若A,B为项集,AI,BI,并且AB=。则形如AB的表达式称为关联规则。定义3 支持度S。即任务相关的事务占总交易事务的百分比,表达为:S(AB)=P(AB)。定义4 规则AB具有可信度C, 即在DB中包含A的
24、事务同时也包含B的百分比,表达为C(AB)=P(B A)=P(AB)/P(A)。如买面包又买牛奶的顾客占买面包顾客中的90%,可信度C为90%。定义5 设最小支持度为Smin,k频繁模式集和k非频繁模式集分别定义为:Lk=A1,A2AkAii,(i=1,2,k),S(A1A2Ak/DB)Smin;Lk=AlA2AkAii,(i=1,2,k),S(A1A2Ak/DB)= minConf) / 这里,m + k = n,其中k m是一个关联规则 AR = AR (km); return AR;下面以挖掘最简单的关联规则(即单维、单层、布尔关联规则)为例说明寻找频繁项集的方法,用某一鲜菜超市某天内1
25、4位顾客购买的情况进行实例介绍24,如表2-7 所示(“0”表示某时刻未购买,“1”表示某时刻购买)。表2-7 鲜菜超市某天某时段销售记录事务项 芦笋 大豆 卷心菜 鸡蛋 青椒 黄瓜 番茄1 0 0 1 1 1 0 02 1 0 0 1 0 1 03 0 1 0 1 0 1 14 0 1 0 1 1 0 05 1 1 1 0 0 0 06 1 1 0 0 0 1 17 0 0 0 1 0 0 18 0 0 1 1 0 0 19 1 1 0 0 1 0 110 0 1 0 0 0 1 011 0 1 1 1 0 0 012 1 1 0 0 0 1 013 1 1 0 1 0 1 014 0 1
26、1 1 1 0 1假定支持度阈值为4/14,则支持度记数为4 ,则满足支持度的一元频繁项集如表2-8所示。若无法形成关联规则,如何找出二元频繁项集?我们可以先由一元频繁项集得出二元候选集,如表2-9所示。结合表2-7销售情况及由一元频繁项集得出二元候选集, 找出满足支持度的二元频繁项集如表2-10所示。以上信息,可用于生成二元关联规则,同时可用于生成三元频繁项集。但不能通过连接一、二元频繁项集生成三元频繁项集的候选项集,可以利用自连接二元频繁项集生成三元频繁项集的候选项集如表2-11所示,继而采用上述方法生成三元频繁项集及三元关联规则。三元候选项集要成为频繁项集,必须满足支持检测各个三元候选项
27、集的每一个子集是否满足支持度。三元频繁项集为芦笋、大豆、黄瓜及大豆、鸡蛋、番茄。表2-8 一元频繁项集 表2-9 二元候选项集芦笋6 大豆10卷心菜5鸡蛋8 青椒5黄瓜7番茄6芦笋、大豆卷心菜、鸡蛋芦笋、卷心菜卷心菜、青椒芦笋、鸡蛋卷心菜、黄瓜芦笋、青椒卷心菜、番茄芦笋、黄瓜鸡蛋、青椒芦笋、番茄鸡蛋、黄瓜大豆、卷心菜鸡蛋、番茄大豆、鸡蛋青椒、黄瓜大豆、青椒青椒、番茄大豆、黄瓜黄瓜、番茄大豆、番茄 表2-10 满足支持度的二元频繁项集芦笋、大豆5芦笋、黄瓜5大豆、鸡蛋5大豆、青椒6大豆、番茄4卷心菜、青椒4鸡蛋、番茄4芦笋、大豆、黄瓜芦笋、大豆、鸡蛋芦笋、大豆、番茄大豆、鸡蛋、黄瓜大豆、鸡蛋、番
28、茄大豆、黄瓜、番茄表2-11 三元候选项集2.2.3 数据关联规则在医药零售数据中的应用分析关联分析法广泛应用于零售行业事务分析中,可以找出哪些药品可能随某些药品一同被购买,通过从销售记录挖掘关联信息,可以发现买某一类药品的顾客很可能购买其他商品,这类信息可用于形成一定的购买推荐,帮助顾客选择合适的医药品,增加销售额,如某些药房或药店货架上的合适的药品摆放,可以达到促销的目的25。医药零售业与其他行业一样,关键是信息的获取及其有效利用, 数据挖掘可以帮助医药零售企业提高市场份额和增加利润,了解顾客群的特点,进行价格与进货库存的调整决策来提高企业利润26。关联规则挖掘发现大量数据中项集之间有趣的
29、关联或相关联系,关联规则挖掘的一个典型例子是购物篮分析(Market Basket Analysis),该过程通过发现顾客放入其购物篮中不同商品之间的联系,分析顾客的购物习惯。通过了解哪些商品频繁地被顾客同时购买,这种关联地发现可以帮助零售商制定营销策略27。例如,在同一个药店内,如果顾客购买了银翘片,他同时购买板蓝根的可能性有多大? 通过分析,零售商有选择地经销和安排货架,这种信息可以引导销售。例如,将这两类药品尽可能放近一些,可以进一步刺激顾客同时购买这些商品。以我们开发的腾龙医药管理系统为例,由前面提到的关联规则技术知道,为了在医药管理系统的后台事务数据库中挖掘有效的关联规则,必须首先定
30、义最小支持度和最小可信度,关联规则的挖掘就是在数据库中寻找满足SSmin和CCmin的所有关联规则28。挖掘关联规则关键在于寻找频繁项集。结合数据挖掘的基本步骤和关联规则的Apriori算法,Apriori算法的设计可以分解为两步骤来执行挖掘:求出事务集D中满足最小支持度min_sup 的所有频繁集;利用频繁集生成满足最小可信度min_conf 的所有关联规则。关联规则在医药管理系统中应用的基本过程如图2-7所示: 关联分析算法事务数据库预处理医药销售数据关联规则挖掘图2-7 关联规则在医药管理系统中的应用过程在进行关联分析前,首先要进行数据准备工作,将医药品销售数据进行预处理,形成关联分析所
31、需的事务数据库,然后应用算法进行关联分析,最后挖掘出有效的关联规则。数据选取:数据源来自腾龙医药管理系统数据库文件,本系统主要是对药品销售记录进行关联数据挖掘。该数据库的信息见图2-8。图2-8 药品销售记录数据预处理:数据源中的数据可能不完整(如某些属性的值不确定或空缺)、含噪声和不一致(如同一个属性在不同表中的名称不同)。在这些不完整、含噪声、不一致的数据在进行数据挖掘,其质量难以得到保证,而且数据源中的数据量大,可能包含冗余,数据状况分散,不易综合查询访问等问题。这些都会影响数据挖掘的效率。因此可以在数据挖掘前使用清理、集成、变换、归约等预处理方法改善数据质量,从而提高数据挖掘的效率和质
32、量。数据的连接与导入:数据的连接是在Excel 环境下进行的,连接成一个文档后在SQL Server 2000环境下进行数据的导入及提取,导入后的数据库结构和内容见图2-9。图2-9 数据库表数据筛选:选取所需的信息,即姓名和所购药品。查询语言为:use 医药管理系统 select 姓名,药品名称 into JSJ 药品销售登记表 from 药品销售登记表 where length(khqc)(客户全称) 4 执行后,得到所需的个体客户药品购买记录表,见图2-10。图2-10 个体客户药品购买记录表从图2-10中可以看出:数据库(表)的每一行只描述了个体客户某次购买行为,将项目信息分散了,这种
33、格式的数据不符合关联规则算法的输入要求,是不能直接进行关联规则采掘的。其解决方法是使用SQL Server所带的DTS工具可将数据转换成算法所需要的布尔型事务数据库。数据转换:建立所需的事务数据库,例如,在本系统实例中,形成的布尔型事务数据库,如表2-12所示:表2-12 药品销售事务库姓名阿司匹林银翘片板蓝根周秦FTF李三TTF夏爽FTT基于Apriori 算法的药品销售关联规则的挖掘:本系统是基于Apriori 算法的关联规则挖掘,它将数据预处理后所得到的文本文件作为参数入口,对布尔型事务数据库进行挖掘。挖掘分为两个步骤,先选择最小支持度与可信度,然后实现算法。支持度与可信度的选择:在Apriori 算法中,选择恰当的支持度与可信度是挖掘有效关联规则的关键。由于个人购买者和团体购买者的药品购买信息之间的关联程度有很大的不同,因此本系统中是通过对个人药品购买信息进行数据挖掘,并将结果进行分析、比较,最后确定相对精确的支持度和可信度的值。例如,在本系统中,对个人购买者的购买记录进行挖掘后,可以得出支持度、可信度以及关联规则数目的对比关系