《煤矿安全管理中数据挖掘的可视化研究.doc》由会员分享,可在线阅读,更多相关《煤矿安全管理中数据挖掘的可视化研究.doc(5页珍藏版)》请在三一办公上搜索。
1、煤矿安全管理中数据挖掘的可视化研究陈金翠,姜利群,赵作鹏(中国矿业大学 计算机科学与技术学院,江苏 徐州 221116)510152025303540摘要:研究煤矿隐患数据挖掘的可视化,以实现利用历史数据进行决策支持。在分析可视化技术、数据挖掘和煤矿隐患数据特点的基础上,提出数据挖掘的可视化是必然的趋势要求。设计了基于煤矿隐患历史数据的数据挖掘可视化模型,指出了煤矿隐患数据挖掘可视化的若干方法。实践结果表明,可视化数据挖掘能够充分利用人类的认知能力,提高数据挖掘结果的有效性和直观性。关键词:计算机应用;煤矿隐患;数据挖掘;可视化中图分类号:TP391Visualization research
2、 of data mining in the Coal MineSafety ManagementChen Jincui, Jiang Liqun, Zhao Zuopeng(China University of Mining and Technology, College of Computer Science and Technology,Jiangsu Xuzhou 221116)Abstract: For making use of mass hidden danger data to support determine, the data visualizationof coal
3、mine hidden danger is researched. Based on the analysis about the technology of datavisualization and the characteristic of data of coal mine hidden danger, that the visualization ofdata mining is an inevitable requirement is raised. The model of the data mining visualizationbased on the history dat
4、a of coal mine hidden danger is designed. And pointed several methods forit. Practical application shows that the visualization of data mining make full use of humancognitive abilities, and improved effectiveness and intuitive nature of data mining results.Key words: Computer Application;Coal mine h
5、idden danger;Data mining;Visualization0 引言科学计算可视化研究的主要任务是把有限元分析中产生的大量难以理解的数据转化为动态或静态的图形图像信息展现在用户面前,使用户可从概念上直观地理解有限元计算生成的各种结果1-3。数据库知识发现最终的目标是面向用户的,因此数据挖掘的可视化是必然的发展趋势4。数据挖掘可视化是将数据可视化和数据挖掘技术相结合,运用计算机图形学和其它多媒体技术,将源数据、数据挖掘中间结果、数据挖掘的最终结果,以直观、形象、易于理解的方式呈现出来,并进行交互处理的理论、方法和技术5。数据挖掘可视化技术扩展了数据的表达和理解力,在数据挖掘中起着
6、越来越重要的作用,正受到日益广泛的重视。在对煤矿隐患数据进行数据挖掘的过程中,通过利用关联、时序等数据挖掘技术能够发掘隐患发生的潜在规律,指导煤矿安全生产。然而数据挖掘技术和直接的挖掘结果因为非常抽象而让决策者难以理解和使用,因此需要可视化技术支撑隐患数据的挖掘。进而研究了可视化技术与数据挖掘的相结合。可视化数据挖掘能够更有效的发现具有实际意义的预测知识,摒除无意义的规则,大大提高数据挖掘的效率。因此可视化数据挖掘技术将有力地支撑海量煤矿隐患数据的有效利用,引导决策支持。作者简介:陈金翠(1988-),女,硕士研究生,研究方向:数据挖掘,分布式计算通信联系人:姜利群(1956-),女,副教授,
7、硕士生导师,研究方向为计算机网络和应用集成. E-mail:jlq5656-1-1 数据挖掘可视化技术可视化技术的目标是帮助人们增强认知能力6。数据挖掘可视化技术即寻找和分析数据库,找到数据库中潜在的、有用的信息的过程,并以直观的图形方式将信息模式、数据的关联或预测知识呈现给客户。通过可视化技术能够帮助决策者直观、方便地分析数据间的关45505560657075系,提供给客户相关的决策支持信息。数据挖掘的可视化技术主要包括数据、模型和过程三方面的可视化。其中,数据可视化主要有直方图、散点图和饼图等;模型可视化具体方法则与数据挖掘采用的算法有关,例如,决策树算法采用树形表示;过程可视化则采用数据
8、流图来描述知识的发现过程。数据挖掘的可视化技术主要有基于几何投影技术、图像技术、分层技术的可视化方法和面向像素的可视化方法6-9等。(1)几何投影技术,目标是发现多维数据集的令人感兴趣的投影。几何投影技术主要有散布矩阵技术、测量图、探测性统计学、平行坐标可视化技术、放射可视化技术。(2)基于图像技术,目标是把每个多维数据项映射为一个图像。基于图像技术主要有线条图、Chernoff 脸谱图、符号图、星型图和色彩图。(3)基于分层技术,对 K 维空间进行再分,并以分层的方式来表示子空间。分层技术最常用的是维度层积。维度层积是一种递归可视化技术,用于表示高维数据。(4)面向象素的技术,目标是把每个数
9、据值映射到有色象素中。并在分开的窗口中表示每个属性的数据值。现有的可视化应用一般是基于上述技术的混合技术,例如多维统计图、地理信息系统等具体的可视化方式应用。2 数据挖掘可视化工具数据可视化工具和技术的目的在于帮助用户创建可视化的数据挖掘模型,利用这些模型发现业务数据集中存在的模式,从而辅助决策支持以及预测新趋势10。数据可视化工具在准备好的业务数据集上创建二维和三维的图形,并且利用这些图形,如柱形图、条形图和饼图,将各种对于数据集的认识和其他的数据、业务分析人员和决策制定者分享。可视化数据挖掘工具能够创建二维或三维的图片以直观地显示数据挖掘模型是如何产生它的规则,从而辅助指定决策的。使用哪一
10、种可视化工具取决于数据集的种类和发现的模型的基本结构。MATLAB 提供强大的图形处理和编辑功能,能够将经过数据处理、运算和分析后的结果通过图形的方式直观的进行表示,使用户能够直观地观察数据间的关系,也可以十分方便地分析各种数据分析的结果。例如,树型可视化工具能够将图形数据表中的数据展示成一个带有分支和叶子的树,并且能够让你与之交互,树型图最适合用于层次和结构化分析;地图可视化可用于探索业务数据集内空间的关系,最适合用于空间和地理分析,此外还有面积图、折线图、散点图、雷达图等。3 基于煤矿隐患数据的数据挖掘可视化模型煤矿隐患排查系统中积累的大量数据都是多维的、异构的、不完全的、随机的和模糊的,
11、对这些原始数据直接进行挖掘不是有效的挖掘模式,需利用面向空间数据的概化方法提取数据字段整合到关系表中。数据挖掘以多维数据库中的大量数据为基础,自动地发现数据中的潜在模式,并以这些模式为基础自动做出预测。煤矿隐患包含人为隐患和非人为隐患,从统计学观点看,煤矿安全生产系统的发展变化具有其内在规律性,因此可以对其变化作出预测。图 1 为可视化技术运用于创建挖掘模型过-2-80程的示意图。图 1 煤矿隐患数据挖掘可视化模型Fig.1 The model of the data mining visualization of coal mine hidden danger8590在此模型中,可视化技术主
12、要用于据挖掘的数据预处理、挖掘模型建立与显示、挖掘模型验证与评估三个阶段,尤其对于数据预处理阶段更为重要。数据预处理阶段在整个挖掘流程中占有重要的位置,挖掘模型建立之前一定要针对选定的数据集进行数据清洗、数据转换等操作。使用数据可视化技术,使繁琐的数据准备工作变得相对简单,并协助系统为下一步的挖掘模型建立工作提供可靠的数据源。煤矿隐患数据可视化是交互调节的、从手动和自动采集的原始隐患数据到多种可视化视图再到人的感官系统的映射。结合煤矿隐患数据特点,参照 Card 等人提出的信息可视化参考模型11,图一给出了煤矿隐患数据的可视化模型。该模型包括从原始隐患数据到人(从左到右的系列箭头)的数据形式变
13、换和从人到每个变换(从右到左的系列箭头)的控制和调整。从图一可以看出,隐患数据可视化要解决的主要问题就是如何实现模型中的映射、变换和交互控制。95视图原始隐患数据(自动/手动采集)关系数据库数据挖掘或其它处理可视化结构二维表多维图WebGis数据格式转换可视化映射视图变换用户信息交互图 2 煤矿隐患数据可视化模型Fig.2 The model of the data visualization of coal mine hidden danger100105110从原始隐患数据到用户的系列变换中,首先把原始数据映射为关系数据库中的数据表(数据的相关性描述),在对隐患数据进行挖掘和其它处理之后,
14、把数据表转换为可视化结构(结合了空间基、标记和图形属性的结构),最后通过定义位置、图形缩放、剪辑等图形参数创建可视化结构的视图。从人到每个变换(从右到左)的操作中,用户通过交互动作来控制变换的参数,例如把视图约束到特定的数据范围,或者改变变换的属性等。结合具体的系统,最终的隐患数据能够以二维表、多维图、WebGIS 的形式进行显示。在挖掘模型建立和验证评估阶段,利用的是模型可视化技术。挖掘模型建立过程中,利用模型可视化技术将难以理解的规则知识和数据关系以图形等直观的方式展现出来,使所建立的挖掘模型更容易被用户理解和运用;模型验证评估过程中,需要用测试数据集对挖掘模型进行精度验证与评估,以符合实
15、际应用的要求。通过信息可视化技术将模型的验证与评估结果直观地展现出来,使模型的验证和评估结果更加清晰易懂。信息可视化具有交互性、多维性、可视性等特点,用户可以以交互的方式管理和开发数据,数据可以按其每一维的值,-3-进行分类、排序和组合,用图象、曲线、二维图形、三维体和动画来显示,并可对其模式和相互关系进行可视化分析。信息可视化可以在人与数据、人与人之间实现图像通信,从而使人们能够观察到数据中隐含的现象,为发现和理解科学规律提供有力工具;信息可视化还可115120125130135140以实现对计算和编程过程的引导和控制.4 基于关联算法的隐患数据挖掘应用Fp-Growth 算法是研究和应用较
16、为成熟和高效的关联算法。其思想是将发现长频繁模式的问题转化成递归地发现短模式,然后连接后缀。挖掘过程中不产生候选项集,只需两次扫描数据库,能够高效地处理海量数据。下面以 Fp-Growth 算法为例,对隐患数据进行挖掘。第一步,进行数据选择(数据清理),从煤矿隐患数据仓库中选择隐患部门、地点、名称等属性数据,得到的结果如表 1 所示。表 1 部分隐患数据第二步,进行数据预处理。每个隐患数据项由一个包含 6 个数据的集合组成,由于同一属性的不同取值在一个项集中不可能同时出现,为了防止不同属性列所取值相同,需要为每个属性值添加一个标识位,每个项集可标记为(Ai,Bj,Ck,Dl,Em,Fn)其中
17、A、B、C、D、E、F 分别代表隐患部门,地点,名称,类别,级别,时间,其中 im 的取值范围是小于对应列取值个数的所有整数。其中时间这一列值需要量化,进行区间划分,如 2008-7-月份的所有项用 2008-7 表示。第三步,利用 Fp-Growth 算法进行频繁项集的挖掘,数据预处理后使用 Fp-Growth 算法进行操作,假设最小支持度为 0.05,如表 2 所示得到的频繁项集。表 2 挖掘结果 1-频繁项集第四步,导出关联规则,规则 X Y 的置信度定义为 con(X Y)=P(X Y)/P(X) ,表示包含 X 的事务同时也包含 Y 的可能性。给定一个最小置信度 C,得到的关联规则
18、X Y都必须满足置信度大于等于 C。系统挖掘出的关联规则及其对应的置信度如表 3 所示。表 3 挖掘结果 2-关联规则-4-隐患部门地点隐患名称类别级别时间掘一队13507 探巷迎头第二排锚杆 3 根出现网兜、不贴顶。顶板C2008-7-1412:34:56安装队1123 运料巷木棚子拉条不全,多个拉条用料少。运输C2008-5-521:23:30机掘队1197 运料巷运料巷迎头断层错头 2 米,应加打锚索。一通三防C2008-9-2314:56:04项集支持度计数支持度项集支持度计数支持度掘一队5300.1310掘二队6110.1511顶板14590.3608运输8270.2045综采队,1
19、427 工作面,级别 C2160.0533综采队,1427 工作面2160.0533掘一队,顶板,2520.0615顶板,2008-42640.0652规则左边(X)规则右边(Y)支持度(%)置信度(%)1522 工作面,2008-4安装队116698.37掘一队顶板6.1565.4综采队,2008-41427 工作面5.4160.891528 补运输巷,2008-3顶板11.2361.86基于上述的挖掘结果,通过置信度和支持度数据,可以得到许多很多潜在规律。例如关联规则:综采队 1427 工作面,置信度为 59.91%,表示责任部门为综采队的隐患主要发生在 1427 工作面,即 1427 工
20、作面就是综采队的重点监测区;关联规则:1528 补运输巷 2008-3 顶板,置信度为 61.86%,1528 补运输巷 2008-6 运输,置信度为 51.86%,145150155160165170说明 1528 补运输巷 3 月份主要发生顶板类的隐患,6 月份主要发生运输类的隐患。这两条规则挖掘出的规律为煤矿安全决策提供支持。5 结论将可视化技术作为数据挖掘工具,可以利用可视化技术丰富的图形表达能力与高度的交互机制,充分调动用户的主观能动性,融入用户的知识与经验,真正实现探索性数据分析。分析了数据可视化技术和煤矿隐患数据的特点,给出了隐患数据可视化模型及常用的多维隐患数据可视化工具,并针
21、对数据挖掘直接的挖掘结果非常抽象而让决策者难以理解的问题,设计了煤矿隐患数据挖掘可视化模型。并在煤矿隐患排查与决策支持系统中进行了实现,经过在冀中能源葛泉矿的应用表明,基于隐患数据的可视化数据挖掘不仅降低了矿井安全生产事故发生率,而且至少可以每月节约企业目标生产成本的 510%。参考文献 (References)1 孙家广,杨长贵.计算机图形学M.北京:清华大学出版社.19942 刘永军,李宏南,林奉.有限元计算结果可视化显示J.大连理工大学学报,2002, 42(6):728-731.3 王璋奇.安利强,王孟.有限元分析结果的可视化处理方法J工程图学学报,2002,(1):71-76.4 徐
22、燕,柳长安,祖向荣. 基于虚拟现实技术的数据挖掘结果可视化J,计算机应用研究,2004,125 周宁,张李义,信息资源可视化模型方法M,科学出版社,2008,8Zhou Ning,Zhang,Model and Method of information resource visualizationJ, Science Press, 2008,86 耿学华,傅德胜,可视化数据挖掘技术研究J,计算机应用与软件,2006,23(2):85-87Geng Xue-hua,Fu De-sheng, RESEARCH ON VISUAL DATA M INING TECHNIQUEJ, Computer
23、Applications and Software, 2006,23(2):85-877 Mehmed Kantardzic,DataMining Concep ts,Models,Methods and Algorithms, IEEE Press, 2002.8 David Hand, HeikkiMannila, Padhraic Smyth, Princip les of DataMining, ChinaMachine Press, 2003.9 史忠植,知识发现M.北京:清华大学出版社, 2002(第一版).Shi Zhong-zhi, Knowledge Discovery(Version one),Beijing, Tsinghua University Press,200210 Tom Soukup Ian Davidson 著,朱建秋,蔡伟杰译.可视化数据挖掘M.电子工业出版社,2004:8-21.11 Card, Mackinlay, and Shneiderman, Readings in Information Visualization: Using Vision to ThinkM,Morgan Kaufmann,1999.-5-