外文翻译不确定性数据挖掘:一种新的研究方向.doc

上传人:laozhun 文档编号:2396139 上传时间:2023-02-17 格式:DOC 页数:23 大小:246KB
返回 下载 相关 举报
外文翻译不确定性数据挖掘:一种新的研究方向.doc_第1页
第1页 / 共23页
外文翻译不确定性数据挖掘:一种新的研究方向.doc_第2页
第2页 / 共23页
外文翻译不确定性数据挖掘:一种新的研究方向.doc_第3页
第3页 / 共23页
外文翻译不确定性数据挖掘:一种新的研究方向.doc_第4页
第4页 / 共23页
外文翻译不确定性数据挖掘:一种新的研究方向.doc_第5页
第5页 / 共23页
点击查看更多>>
资源描述

《外文翻译不确定性数据挖掘:一种新的研究方向.doc》由会员分享,可在线阅读,更多相关《外文翻译不确定性数据挖掘:一种新的研究方向.doc(23页珍藏版)》请在三一办公上搜索。

1、毕业设计(论文)外文资料翻译系 部: 计算机科学与技术系 专 业: 计算机科学与技术 姓 名: 洪维坤 学 号: 0807012215 外 文 出 处: Proceeding of Workshop on the (用外文写) of Artificial,Hualien,TaiWan,2005 指导老师评语:签名:年 月 日不确定性数据挖掘:一种新的研究方向Michael Chau1, Reynold Cheng2, and Ben Kao31:商学院,香港大学,薄扶林,香港2:计算机系,香港理工大学九龙湖校区,香港3:计算机科学系,香港大学,薄扶林,香港摘要由于不精确测量、过时的来源或抽样误

2、差等原因,数据不确定性常常出现在真实世界应用中。目前,在数据库数据不确定性处理领域中,很多研究结果已经被发表。我们认为,当不确定性数据被执行数据挖掘时,数据不确定性不得不被考虑在内,才能获得高质量的数据挖掘结果。我们称之为“不确定性数据挖掘”问题。在本文中,我们为这个领域可能的研究方向提出一个框架。同时,我们以UK-means聚类算法为例来阐明传统K-means算法怎么被改进来处理数据挖掘中的数据不确定性。1.引言由于测量不精确、抽样误差、过时数据来源或其他等原因,数据往往带有不确定性性质。特别在需要与物理环境交互的应用中,如:移动定位服务15和传感器监测3。例如:在追踪移动目标(如车辆或人)

3、的情境中,数据库是不可能完全追踪到所有目标在所有瞬间的准确位置。因此,每个目标的位置的变化过程是伴有不确定性的。为了提供准确地查询和挖掘结果,这些导致数据不确定性的多方面来源不得不被考虑。在最近几年里,已有在数据库中不确定性数据管理方面的大量研究,如:数据库中不确定性的表现和不确定性数据查询。然而,很少有研究成果能够解决不确定性数据挖掘的问题。我们注意到,不确定性使数据值不再具有原子性。对于使用传统数据挖掘技术,不确定性数据不得不被归纳为原子性数值。再以追踪移动目标应用为例,一个目标的位置可以通过它最后的记录位置或通过一个预期位置(如果这个目标位置概率分布被考虑到)归纳得到。不幸地是,归纳得到

4、的记录与真实记录之间的误差可能会严重也影响挖掘结果。图1阐明了当一种聚类算法被应用追踪带有不确定性位置的移动目标时所发生的问题。图1(a)表示一组目标的真实数据,而图1(b)则表示记录的已过时的这些目标的位置。如果这些实际位置是有效的话,那么它们与那些从过时数据值中得到的数据集群有明显差异。如果我们仅仅依靠记录的数据值,那么将会很多的目标可能被置于错误的数据集群中。更糟糕地是,一个群中的每一个成员都有可能改变群的质心,因此导致更多的错误。图1 数据图图1.(a)表示真实数据划分成的三个集群(a、b、c)。(b)表示的有些目标(隐藏的)的记录位置与它们真实的数据不一样,因此形成集群a、b、c和c

5、”。注意到a集群中比a集群少了一个目标,而b集群中比b集群多一个目标。同时,c也误拆分会为c和c”。(c)表示方向不确定性被考虑来推测出集群a,b和c。这种聚类产生的结果比(b)结果更加接近(a)。我们建议将不确定性数据的概率密度函数等不确定性信息与现有的数据挖掘方法结合,这样在实际数据可利用于数据挖掘的情况下会使得挖掘结果更接近从真实数据中获得的结果。本文研究了不确定性怎么通过把数据聚类当成一种激励范例使用使得不确定性因素与数据挖掘相结合。我们称之为不确定性数据挖掘问题。在本文中,我们为这个领域可能的研究方向提出一个框架。文章接下来的结构如下。第二章是有关工作综述。在第三章中,我们定义了不确

6、定性数据聚类问题和介绍我们提议的算法。第四章将呈现我们算法在移动目标数据库的应用。详细地的实习结果将在第五章解释。最后在第六章总结论文并提出可能的研究方向。2.研究背景近年来,人们对数据不确定性管理有明显的研究兴趣。数据不确定性被为两类,即已存在的不确定生和数值不确定性。在第一种类型中,不管目标或数据元组存在是否,数据本身就已经存在不确定性了。例如,关系数据库中的元组可能与能表现它存在信任度的一个概率值相关联1,2。在数据不确定性类型中,一个数据项作为一个封闭的区域,与其值的概率密度函数(PDF)限定了其可能的值3,4,12,15。这个模型可以被应用于量化在不断变化的环境下的位置或传感器数据的

7、不精密度。在这个领域里,大量的工作都致力于不精确查找。例如,在5中,解决不确定性数据范围查询的索引方案已经被提出。在4中,同一作者提出了解决邻近等查询的方案。注意到,所有工作已经把不确定性数据管理的研究结果应用于简化数据库查询中,而不是应用于相对复杂的数据分析和挖掘问题中。在数据挖掘研究中,聚类问题已经被很好的研究。一个标准的聚类过程由5个主要步骤组成:模式表示,模式定义,模式相似度量的定义,聚类或分组,数据抽象和造工评核10。只有小部分关于数据挖掘或不确定性数据聚类的研究被发表。Hamdan与Govaert已经通过运用EM算法解决使混合密度适合不确定性数据聚类的问题 8。然而,这个模型不能任

8、意地应用于其他聚类算法因为它相当于为EM定制的。在数据区间的聚类也同样被研究。像城区距离或明考斯基距离等不同距离测量也已经被用来衡量两个区间的相似度。在这些测量的大多数中,区间的概率密度函数并没有被考虑到。另外一个相关领域的研究就是模糊聚类。在模糊逻辑中的模糊聚类研究已经很久远了13。在模糊聚类中,一个是数据簇由一组目标的模糊子集组成。每个目标与每个簇都有一个“归属关系度”。换言之,一个目标可以归属于多个簇,与每个簇均有一个度。模糊C均值聚类算法是一种最广泛的使用模糊聚类方法2,7。不同的模糊聚类方法已被应用在一般数据或模糊数据中来产生的模糊数据簇。他们研究工作是基于一个模糊数据模型的,而我们

9、工作的开展则基于移动目标的不确定性模型。3.不确定数据的分类在图2中,我们提出一种分类法来阐述数据挖掘方法怎么根据是否考虑数据不准确性来分类。有很多通用的数据挖掘技术,如: 关联规则挖掘、数据分类、数据聚类。当然这些技术需要经过改进才能用于处理不确定性技术。此外,我们区分出数据聚类的两种类型:硬聚类和模糊聚类。硬聚类旨在通过考虑预期的数据来提高聚类的准确性。另一方面,模糊聚类则表示聚类的结果为一个“模糊”表格。模糊聚类的一个例子是每个数据项被赋予一个被分配给数据簇的任意成员的概率。图2. 不确定性数据挖掘的一种分类 例如,当不确定性被考虑时,会发生一个有意思的问题,即如何在数据集中表示每个元组

10、和关联的不确定性。而且,由于支持和其他指标的概念需要重新定义,不得不考虑改进那些著名的关联规则挖掘算法(如Apriori)。同样地,在数据分类和数据聚集中,传统算法由于未将数据不确定性考虑在内而导致不能起作用。不得不对聚类质心、两个目标的距离、或目标与质心的距离等重要度量作重新定义和进行更深的研究。4不确定性数据聚类实例在这个章节中,我们将以不确定性数据挖掘的例子为大家介绍我们在不确定性数据聚类中的研究工作。这将阐明我们在改进传统数据挖掘算法以适合不确定性数据问题上的想法。4.1 问题定义用S表示V维向量xi的集合,其中i=1到n,这些向量表示在聚类应用中被考虑的所有记录的属性值。每个记录oi

11、与一个概率密度函数fi(x)相联系,这个函数就是oi属性值x在时间t时刻的概率密度函数。我们没有干涉这个不确定性函数的实时变化,或记录的概率密度函数是什么。平均密度函数就是一个概率密度函数的例子,它描述“大量不确定性”情景中是最糟的情况3。另一个常用的就是高斯分布函数,它能够用于描述测量误差12,15。聚类问题就是在数据集簇Cj(j从1到K)找到一个数据集C,其中Cj由基于相似性的平均值cj构成。不同的聚类算法对应不对的目标函数,但是大意都是最小化同一数据集目标间的距离和最大化不同数据集目标间的距离。数据集内部距离最小化也被视为每个数据点之间距离xi以及xi与对应的Cj中平均值cj距离的最小化

12、。在论文中,我们只考虑硬聚类,即,每个目标只分配给一个一个集群的一个元素。4.2 均值聚类在精确数据中的应用这个传统的均值聚类算法目的在于找到K(也就是由平均值cj构成数据集簇Cj)中找到一个数据集C来最小化平方误差总和(SSE)。平方误差总和通常计算如下: (1)| . |表示一个数据点xi与数据集平均值cj的距离试题。例如,欧氏距离定义为: (2)一个数据集Ci的平均值(质心)由下面的向量公式来定义: (3)均值聚类算法如下:1. Assign initial values for cluster means c1 to cK2. repeat3. for i = 1 to n do4.

13、Assign each data point xi to cluster Cj where | cj - xi | is the minimum.5. end for6. for j = 1 to K do7. Recalculate cluster mean cj of cluster Cj8. end for9. until convergence10. return C 收敛可能基于不同的质心来确定。一些收敛性判别规则例子包括:(1)当平方误差总和小于某一用户专用临界值,(2)当在一次迭代中没有一个目标再分配给不同的数据集和(3)当迭代次数还达到预期的定义的最大值。4.3 K-means

14、聚类在不确定性数据中的应用为了在聚类过程中考虑数据不确定性,我们提出一种算法来实现最小化期望平方误差总和E(SSE)的目标。注意到一个数据对象xi由一个带有不确定性概率密度f(xi)的不确定性区域决定。给定一组数据群集,期望平方误差总和可以计算如下: (4)数据集平均值可以如下给出: (5)我们到此将提出一种新K-means算法,即UK-means,来实现不确定性数据聚类。1. Assign initial values for cluster means c1 to cK2. repeat3. for i = 1 to n do4. Assign each data point xi to

15、cluster Cj where E(| cj - xi |) is the minimum.5. end for6. for j = 1 to K do7. Recalculate cluster mean cj of cluster Cj8. end for9. until convergence10. return CUK-mean聚类算法与K-means聚类算法的最大不同点在于距离和群集的计算。特别地,UK-means基于数据不确定性模型来计算预期的距离和数据集质心。同时,收敛可按照不同的标准来定义。注意到如果收敛依赖于下平方误差,那么在方程式(4)中E(SSE)应该替代SSE使用。在

16、第4步中,常常很困难用代数方法来确定E(| cj - xi |),特别地,各种各样的几何图形不确定性区域(如,线,圆)和不同的不确定性概率密度函数意味着需要使用数值积分法。鉴于此,比较容易获得的E(| cj - xi |2)用来替代E(| cj - xi |)。这使我们能够确定在聚类任务(即步骤4)中使用简单的代数表达式。5一个案例研究和评估5.1线性移动不确定性数据聚类在最后一章提出的UK-means算法可适用于任意一个不确定性区域和概率密度函数。为了证明方法的可行性,我们将描述所推荐的算法是如何运用于特定于在平面空间中移动的目标的不确定性模型。我们也会介绍算法的评估结果。这个算法已被应用于

17、一个含有单向线性移动不确定性的模型中。在这个模型里,我们需要让每一目标在某一方向移动的位置均匀地分布在一段直线上。假设我们在一个质心c=(p,q)和一个数据对象x被指定在一个线性不确定的均匀分布的区域中。让线性不确定性线段的终结点为(a,b)和(c,d)。这样这个线性方程式可用参数表示为(a+t(c-a),b+t(d-b)),其中t属于0,1。使用f(t)表示不确定性概率密度函数。同时,不确定性线段的距离表示为。 我们可以得到: (6)其中B = 2(c - a) (a - p) + (d - b) (b - q)C = (p - a) 2 + (q - b) 2如果函数f(t)是均匀分布的,

18、那么当f(t)=1时,上面的公式就变成: (7)从而我们就能很容易为均匀分布的线性移动不确定性计算出期望平方距离。这些公式很容易被UK-means算法用于决定群集分配。但是,均匀分布的应用在这里仅仅是一个特定的例子。当概率密度函数不是均匀分布时(如,高斯分布),采样技术可能被用来估计E(| cj -xi |)。5.2实验实验的开展是为了评估UK-means算法的可行性。我们目标是研究考虑数据不确定性是否会提高聚类质量。我们模拟以下情景:一个可以追踪一组移动目标位置的系统已经拍了一组反应这些目标位置的快照。这个位置数据存在记录集中。其中的每个对象都有着一定的不确定性。我们使用这些不确定性因素来捕

19、捉不确定性信息。接下来我们来比较两种聚类方法的不同之外:(1)把K-means方法应用于记录中和把UK-means方法应用于记录中+不确定性。更具体地说,我们首先一个100100的二维空间产生一组随机数据点作为记录。对于每个数据点,我们根据单向线性不确定性模型为其随机产生不确定性。一个目标的不确定性规格包括不确定性的类型(双向线性)、目标能够移动的最小距离d以及目标能够移动的方向。接下来,这些目标的真实位置就根据记录和不确定性来模拟目标已经从累存记录中的原始位置偏移来产生。特别地,对于每个数据点,我们把它的位置记录在案,然后随机产生一个数据决定目标可能的移动距离。如果它属于自由移动(多向)或双

20、向不确定性,那么我们将产生另外一个数据来决定目标可能的移动方向。我们使用实际值来表示这些目标的位置。理论上,一个系统需要知道实际情况且把K-means方法应用于实际位置中。尽量不是实际的,但是这个聚类结果却可视为聚类结果质量的一个很好的参照。因此,我们计算和比较以下数据集的聚类输出结果:(1)记录(使用传统K-means)(2)记录+不确定性(使用UK-means)(3)真实值(使用传统K-means)为了核实UK-means算法在产生的数据群集接近从真实数据中产生的数据集群中的作用,我们采用广泛使用的用来计算聚类结果间相似度的调整兰德指数(ARI)16。ARI值越高,则两个聚类结果相似度越高

21、。我们将对由(2)与(3)产生的数据群集间的ARI指数和(1)与(3)产生的数据群集间的ARI指数进行比较。目标的个数(n)、群集的个数(K)以及目标可能移动的最小距离(d)这三个参数的值在实验中将改变。表1呈现是当保持n=1000和K=20时改变d的值所得到的不同实验结果。在不同的参数组合情况下,我们做了500次的实验。每一次实验,我们事先生成记录、不确定性度、实际值的组合。这些数据组合是同时在三种聚类过程中被使用。相同的质心集合也被同时使用到三种聚类过程中,这样可以避免由K-means方法和UK-means方法初始条件引起的偏差。每一次实验,我们允许K-means方法(1)中和(3)中)和

22、UK-means方法(2)中)在一直运行到当在群集中的所有目标在两次连续迭代中没有变化时或迭代次数达到10000次时才结束。调整兰德指数和时间间隔由分别的UK-means方法和K-means方法500次实验取平均值得到。从表1可以看到,在应用于记录数据中,UK-means算法的调整兰德指数始终比传统K-means算法高。成对测试结果表明,在所有的设置条件下(每一个用例中p 0.000001)两种方法的调整兰德指数值不同之处是明显的。这个结果表明,由UK-means算法得到的数据群集更接近于从真实世界获得的数据群集。换言 ,UK-means算法能获得一个数据群集,而这个数据群集是从真实世界可利用

23、数据中得到数据群集的一个较好的预测。表1. 实验结果D2.557.5102050ARI(UK-means)0.7330.6890.6520.6320.5060.311ARI(K-means)0.7000.6260.5730.5230.3510.121改进0.0330.0630.0790.1090.1550.189改进百分比4.77%10.03%13.84%20.82%44.34%155.75%在效率方面,我们发现UK-means方法比K-means方法需要更多的计算时间,但是它常常只需要合理数量的额外时间。这是合乎情理的,因为它考虑了不确定性使得聚类质量更好。我们通过给n、K及d赋予不同的值且

24、保持其他变量恒定来进行深入地实验。在所有情况下,我们发现UK-means方法比传统的K-means方法改进了,而且两者的差异有统计学意义(如图所示每一种情况试验结果)。我们的初步研究表明当不确定性程度增加时,UK-means算法的改进度也就越高。另一方面,除了当群集的个数非常小的时候,目标的个数和群集的个数对UK-means算法的作用是不会有大的影响。6. 总结与展望传统的数据挖掘算法没有考虑数据项中固有的不确定性而且产生的挖掘结果与真实世界的数据不相符。在本论文中,我们提出了在不确定性数据挖掘领域研究的一个分类方法。同时我们以UK-means算法作为案例研究和阐明该算法是如何被应用的。随着由

25、先进传感器设备带来的现实数据日益复杂,我们相信不确定性数据挖掘是一个重要和有意义的研究领域。感谢我们要感谢Jackey Ng(香港大学),David Cheung(香港大学),Edward Hung(香港理工大学),和Kevin Yip(耶鲁大学)的宝贵建议。参考文献1. Barbara, D., Garcia-Molina, H. and Porter, D. “The Management of Probabilistic Data,” IEEE Transactions on Knowledge and Data Engineering, 4(5), 1992.2. Bezdek, J.

26、 C. Pattern Recognition with Fuzzy Objective Function Algorithms. Plenum Press, New York(1981).3. Cheng, R., Kalashnikov, D., and Prabhakar, S. “Evaluating Probabilistic Queries over Imprecise Data,”Proceedings of the ACM SIGMOD International Conference on Management of Data, June 2003.4. Cheng, R.,

27、 Kalashnikov, D., and Prabhakar, S. “Querying Imprecise Data in Moving Object Environments,”IEEE Transactions on Knowledge and Data Engineering, 16(9) (2004) 1112-1127.5. Cheng, R., Xia, X., Prabhakar, S., Shah, R. and Vitter, J. “Efficient Indexing Methods for Probabilistic Threshold Queries over U

28、ncertain Data,” Proceedings of VLDB, 2004.6. de Souza, R. M. C. R. and de Carvalho, F. de A. T. “Clustering of Interval Data Based on CityBlock Distances,” Pattern Recognition Letters, 25 (2004) 353365.7. Dunn, J. C. “A Fuzzy Relative of the ISODATA Process and Its Use in Detecting Compact Well-Sepa

29、rated Clusters,” Journal of Cybernetics, 3 (1973) 32-57.8. Hamdan, H. and Govaert, G. “Mixture Model Clustering of Uncertain Data,” IEEE International Conference on Fuzzy Systems (2005) 879-884.9. Ichino, M., Yaguchi, H. “Generalized Minkowski Metrics for Mixed Feature Type Data Analysis,” IEEE Tran

30、sactions on Systems, Man and Cybernetics, 24(4) (1994) 698708.10. Jain, A. and Dubes, R. Algorithms for Clustering Data. Prentice Hall, New Jersey (1988).11. Nilesh N. D. and Suciu, D. “Efficient Query Evaluation on Probabilistic Databases,” VLDB (2004) 864-875.12. Pfoser D. and Jensen, C. “Capturin

31、g the Uncertainty of Moving-objects Representations,” Proceedings of the SSDBM Conference, 123132, 1999.13. Ruspini, E. H. “A New Approach to Clustering,” Information Control, 15(1) (1969) 22-32.14. Sato, M., Sato, Y., and Jain, L. Fuzzy Clustering Models and Applications. Physica-Verlag, Heidelberg

32、(1997).15. Wolfson, O., Sistla, P., Chamberlain, S. and Yesha, Y. “Updating and Querying Databases that Track Mobile Units,” Distributed and Parallel Databases, 7(3), 1999.16. Yeung, K. and Ruzzo, W. “An Empirical Study on Principal Component Analysis for Clustering Gene Expression Data,” Bioinforma

33、tics, 17(9) (2001) 763-774.Uncertain Data Mining: A New Research DirectionMichael Chau1, Reynold Cheng2, and Ben Kao31: School of Business, The University of Hong Kong, Pokfulam, Hong Kong2: Department of Computing, Hong Kong Polytechnic University Kowloon, Hong Kong3: Department of Computer Science

34、, The University of Hong Kong, Pokfulam, Hong KongEmails: mchaubusiness.hku.hk, csckchengcomp.polyu.edu.hk, kaocs.hku.hkAbstractData uncertainty is often found in real-world applications due to reasons such as imprecise measurement, outdated sources, or sampling errors. Recently, much research has b

35、een published in the area of managing data uncertainty in databases. We propose that when data mining is performed on uncertain data, data uncertainty has to be considered in order to obtain high quality data mining results. We call this the Uncertain Data Mining problem. In this paper, we present a

36、 framework for possible research directions in this area. We also present the UK-means clustering algorithm as an example to illustrate how the traditional K-means algorithm can be modified to handle data uncertainty in data mining.1. IntroductionData is often associated with uncertainty because of

37、measurement inaccuracy, sampling discrepancy,outdated data sources, or other errors. This is especially true for applications that require interaction with the physical world, such as location-based services 15 and sensor monitoring 3. For example,in the scenario of moving objects (such as vehicles

38、or people), it is impossible for the database to track the exact locations of all objects at all time instants. Therefore, the location of each object is associated with uncertainty between updates 4. These various sources of uncertainty have to be considered in order to produce accurate query and m

39、ining results.In recent years, there has been much research on the management of uncertain data in databases, such as the representation of uncertainty in databases and querying data with uncertainty. However, little research work has addressed the issue of mining uncertain data. We note that with u

40、ncertainty, data values are no longer atomic. To apply traditional data mining techniques, uncertain data has to be summarized into atomic values. Taking moving-object applications as an example again, the location of an object can be summarized either by its last recorded location, or by an expecte

41、d location (if the probability distribution of an objects location is taken into account). Unfortunately, discrepancy in the summarized recorded values and the actual values could seriously affect the quality of the mining results. Figure 1 illustrates this problem when a clustering algorithm is app

42、lied to moving objects with location uncertainty. Figure 1(a) shows the actual locations of a set of objects, and Figure 1(b) shows the recorded location of these objects, which are already outdated. The clusters obtained from these outdated values could be significantly different from those obtaine

43、d as if the actual locations were available (Figure 1(b). If we solely rely on the recorded values, many objects could possibly be put into wrong clusters. Even worse, each member of a cluster would change the cluster centroids, thus resulting in more errors.Figure 1Figure 1. (a) The real-world data

44、 are partitioned into three clusters (a, b, c). (b) The recorded locations of some objects (shaded) are not the same as their true location, thus creating clusters a, b, c and c. Note that a has one fewer object than a, and b has one more object than b. Also, c is mistakenly split into c and c. (c)

45、Line uncertainty is considered to produce clusters a, b and c. The clustering result is closer to that of (a) than (b).We suggest incorporating uncertainty information, such as the probability density functions (pdf) of uncertain data, into existing data mining methods so that the mining results cou

46、ld resemble closer to the results obtained as if actual data were available and used in the mining process (Figure 2(c).In this paper we study how uncertainty can be incorporated in data mining by using data clustering as a motivating example. We call this the Uncertain Data Mining problem. In this

47、paper, we present a framework for possible research directions in this area.The rest of the paper is structured as follows. Related work is reviewed in Section 2. In Section 3 we define the problem of clustering on data with uncertainty and present our proposed algorithm. Section 4 presents the application of our algorithm to a moving-object database. Detailed ex

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 建筑/施工/环境 > 项目建议


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号