相似性和相异性的度量.docx

资源描述

《相似性和相异性的度量.docx》由会员分享，可在线阅读，更多相关《相似性和相异性的度量.docx（15页珍藏版）》请在三一办公上搜索。

1、相似性和相异性的度量相似性和相异性的度量相似性和相异性是重要的概念，因为它们被许多数据挖掘技术所使用，如聚类、最近邻分类和异常检测等。在许多情况下，一旦计算出相似性或相异性，就不再需要原始数据了。这种方法可以看作将数据变换到相似性空间，然后进行分析。首先，我们讨论基本要素-相似性和相异性的高层定义，并讨论它们之间的联系。为方便起见，我们使用术语邻近度表示相似性或相异性。由于两个对象之间的邻近度是两个对象对应属性之间的邻近度的函数，因此我们首先介绍如何度量仅包含一个简单属性的对象之间的邻近度，然后考虑具有多个属性的对象的邻近度度量。这包括相关和欧几里得距离度量，以及Jaccard和余弦相似性

2、度量。前二者适用于时间序列这样的稠密数据或二维点，后二者适用于像文档这样的稀疏数据。接下来，我们考虑与邻近度度量相关的若干重要问题。本节最后简略讨论如何选择正确的邻近度度量。 1)基础 1. 定义两个对象之间的相似度的非正式定义是这两个对象相似程度的数值度量。因而，两个对象越相似，它们的相似度就越高。通常，相似度是非负的，并常常在0和1之间取值。两个对象之间的相异度是这两个对象差异程度的数值度量。对象越类似，它们的相异度就越低。通常，术语距离用作相异度的同义词，正如我们将介绍的，距离常常用来表示特定类型的相异度。有时，相异度在区间0, 1中取值，但是相异度在0和之间取值也很常见。 2.

3、变换通常使用变换把相似度转换成相异度或相反，或者把邻近度变换到一个特定区间，如0, 1。例如，我们可能有相似度，其值域从1到10，但是我们打算使用的特定算法或软件包只能处理相异度，或只能处理0, 1区间的相似度。之所以在这里讨论这些问题，是因为在稍后讨论邻近度时，我们将使用这种变换。此外，这些问题相对独立于特定的邻近度度量。通常，邻近度度量被定义为或变换到区间0, 1中的值。这样做的动机是使用一种适当的尺度，由邻近度的值表明两个对象之间的相似程度。这种变换通常是比较直截了当的。例如，如果对象之间的相似度在1和10之间变化，则我们可以使用如下变换将它变换到0, 1区间：s = (s-1)/9

4、，其中s和s分别是相似度的原值和新值。一般来说，相似度到0, 1区间的变换由如下表达式给出：s=(s-min_s) / (max_s - min_s)，其中max_s和min_s分别是相似度的最大值和最小值。类似地，具有有限值域的相异度也能用d = (d - min_d) / (max_d - min_d) 映射到0, 1区间。然而，将邻近度映射到0, 1区间可能非常复杂。例如，如果邻近度度量原来在区间0 1000上取值，则需要使用非线性变换，并且在新的尺度上，值之间不再具有相同的联系。对于从0变化到1000的相异度度量，考虑变换d = d / (1 + d)，相异度0、0.5、2、10、1

5、00和1000分别被变换到0、0.33、0.67、0.90、0.99和0.999。在原来相异性尺度上较大的值被压缩到1附近，但是否希望如此则取决于应用。另一个问题是邻近度度量的含义可能会被改变。例如，相关性是一种相似性度量，在区间 -1, 1上取值，通过取绝对值将这些值映射到0, 1区间丢失了符号信息，而对于某些应用，符号信息可能是重要的。将相似度变换成相异度或相反也是比较直截了当的，尽管我们可能再次面临保持度量的含义问题和将线性尺度改变成非线性尺度的问题。如果相似度落在0, 1区间，则相异度可以定义为d = 1 - s。另一种简单的方法是定义相似度为负的相异度。例如，相异度0，1，10和1

6、00可以分别变换成相似度0,- 1,- 10和- 100。负变换产生的相似度结果不必局限于0, 1区间，但是，如果希望的话，则可以使用变换 s = 1/(d + 1)，。对于变换s = 1/(d + 1)，相异度0, 1, 10, 100分别被变换到1, 0.5, 0.09, 0.01；对于，它们分别被变换到1.00, 0.37, 0.00, 0.00；对于s =，它们分别被变换到1.00, 0.99, 0.00, 0.00。在这里的讨论中，我们关注将相异度变换到相似度。一般来说，任何单调减函数都可以用来将相异度转换到相似度。当然，在将相似度变换到相异度，或者在将邻近度的值变换到新的尺

7、度时，也必须考虑一些其他因素。我们提到过一些问题，涉及保持意义、扰乱标度和数据分析工具的需要，但是肯定还有其他问题。 2) 简单属性之间的相似度和相异度通常，具有若干属性的对象之间的邻近度用单个属性的邻近度的组合来定义，因此我们首先讨论具有单个属性的对象之间的邻近度。考虑由一个标称属性描述的对象，对于两个这样的对象，相似意味什么呢？由于标称属性只携带了对象的相异性信息，因此我们只能说两个对象有相同的值，或者没有。因而在这种情况下，如果属性值匹配，则相似度定义为1，否则为0；相异度用相反的方法定义：如果属性值匹配，相异度为0，否则为1。对于具有单个序数属性的对象，情况更为复杂，因为必须考虑序

8、信息。考虑一个在标度poor, fair, OK, good, wonderful上测量产品质量的属性。一个评定为wonderful的产品P1与一个评定为good的产品P2应当比它与一个评定为OK的产品P3更接近。为了量化这种观察，序数属性的值常常映射到从0或1开始的相继整数，例如，poor = 0, fair =1, OK = 2, good = 3, wonderful = 4。于是，P1与P2之间的相异度d(P1, P2) = 3-2 = 1，或者，如果我们希望相异度在0和1之间取值，d(P1, P2) = (3-2)/4 = 0.25；序数属性的相似度可以定义为s = 1-d。序数属

9、性相似度的这种定义可能使读者感到有点担心，因为这里我们定义了相等的区间，而事实并非如此。如果根据实际情况，我们应该计算出区间或比率属性。值fair与good的差真和OK与wonderful的差相同吗？可能不相同，但是在实践中，我们的选择是有限的，并且在缺乏更多信息的情况下，这是定义序数属性之间邻近度的标准方法。对于区间或比率属性，两个对象之间的相异性的自然度量是它们的值之差的绝对值。例如，我们可能将现在的体重与一年前的体重相比较，说我重了10磅。在这类情况下，相异度通常在0和x之间，而不是在0和1之间取值。如前所述，区间或比率属性的相似度通常转换成相异度。表2-7总结了这些讨论。在该表中，

10、x和y是两个对象，它们具有一个指明类型的属性，d(x, y)和s(x, y)分别是x和y之间的相异度和相似度。其他方法也是可能的，但是表中的这些是最常用的。表2-7 简单属性的相似度和相异度下面两节介绍更复杂的涉及多个属性的对象之间的邻近性度量：(1)数据对象之间的相异度；(2)数据对象之间的相似度。这样分节可以更自然地展示使用各种邻近度度量的基本动机。然而，我们要强调的是使用上述技术，相似度可以变换成相异度，反之亦然。 3) 数据对象之间的相异度本节，我们讨论各种不同类型的相异度。我们从讨论距离开始，然后给出一些更一般的相异度类型的例子。距离我们首先给出一些例子，然后使用距离的常见

11、性质更正式地介绍距离。一维、二维、三维或高维空间中两个点x和y之间的欧几里得距离d由如下熟悉的公式定义：其中，n是维数，而xk和yk分别是x和y的第k个属性值。我们用图2-15、表2-8和表2-9解释该公式，它们展示了这个点集、这些点的x和y坐标以及包含这些点之间距离的距离矩阵。公式给出的欧几里得距离可以用公式的闵可夫斯基距离来推广：其中r是参数。下面是闵可夫斯基距离的三个最常见的例子。 r = 1，城市街区距离。一个常见的例子是汉明距离，它是两个具有二元属性的对象之间不同的二进制位个数。 r = 2，欧几里得距离。 r = ，上确界距离。这是对象属性之间的最大距离。更正式地，L 距离由

12、公式定义：注意不要将参数r与维数n混淆。欧几里得距离、曼哈顿距离和上确界距离是对n的所有值定义的，并且指定了将每个维上的差的组合成总距离的不同方法。表2-10和表2-11分别给出表2-8数据的L1距离和L 距离的邻近度矩阵。注意，所有的距离矩阵都是对称的，即第ij个表目与第ji个表目相同，例如，在表2-9中，第4行第1列和第1行第4列都包含值5.1。距离具有一些众所周知的性质。如果d(x, y)是两个点x和y之间的距离，则如下性质成立。 (1) 非负性。(a) 对于所有x和y，d(x, y)0，(b) 仅当x = y时d(x, y) = 0。 (2) 对称性。对于所有x和y，d(x, y

13、) = d(y, x)。 (3) 三角不等式。对于所有x，y和z，d(x, z) d(x, y) + d(y, z)。满足以上三个性质的测度称为度量。有些人只对满足这三个性质的相异性度量使用术语距离，但在实践中常常违反这一约定。这里介绍的三个性质是有用的，数学上也是令人满意的。此外，如果三角不等式成立，则该性质可以用来提高依赖于距离的技术的效率。尽管如此，许多相异度都不满足一个或多个度量性质。下面我们给出两个这种测度的例子。例1 非度量的相异度：集合差。基于集合论中定义的两个集合差的概念举例。设有两个集合A和B，A-B是不在B中的A中元素的集合。例如，如果A = 1, 2, 3, 4，而

14、B = 2, 3, 4，则A-B = 1，而B-A = 空集。我们可以将两个集合A和B之间的距离定义为d(A, B) = size(A-B)，其中size是一个函数，它返回集合元素的个数。该距离测度是大于或等于零的整数值，但不满足非负性的第二部分，也不满足对称性，同时还不满足三角不等式。然而，如果将相异度修改为d(A, B) = size(A-B) + size(B-A)，则这些性质都可以成立。例2 非度量的相异度：时间。这里给出一个更常见的例子，其中相异性测度并非度量，但依然是有用的。定义时间之间的距离测度如下：例如，d(1PM, 2PM) = 1小时，而d(2PM, 1PM) = 23

15、小时。这种定义是有意义的，例如，在回答如下问题时就体现了这种定义的意义：如果一个事件在每天下午1点发生，现在是下午2点，那么我们还需要等待多长时间才能等到该事件再度发生？ 4）数据对象之间的相似度对于相似度，三角不等式通常不成立，但是对称性和非负性通常成立。更明确地说，如果s(x, y)是数据点x和y之间的相似度，则相似度具有如下典型性质。 (1) 仅当x = y时s(x, y) = 1。 (2) 对于所有x和y，s(x, y) = s(y, x)。对于相似度，没有与三角不等式对应的一般性质。然而，有时可以将相似度简单地变换成一种度量距离。稍后讨论的余弦相似性度量和Jaccard相似性度

16、量就是两个例子。此外，对于特定的相似性度量，还可能在两个对象相似性上导出本质上与三角不等式类似的数学约束。例3 非对称相似性度量。考虑一个实验，实验中要求人们对屏幕上快速闪过的一小组字符进行分类。该实验的混淆矩阵记录每个字符被分类为自己的次数和被分类为另一个字符的次数。例如，假定0出现了200次，它被分类为0160次，而被分类为o40次。类似地，o出现200次并且分类为o170次，但是分类为0只有30次。如果取这些计数作为两个字符之间相似性的度量，则得到一种相似性度量，但这种相似性度量不是对称的。在这种情况下，通过选取s(x, y) = s (y, x) = (s(x, y) + s(y,

17、x)/2，相似性度量可以转换成对称的，其中s是新的相似性度量。 5) 邻近性度量的例子本节给出一些相似性和相异性度量的具体例子。 1. 二元数据的相似性度量两个仅包含二元属性的对象之间的相似性度量也称为相似系数，并且通常在0和1之间取值，值为1表明两个对象完全相似，而值为0表明对象一点也不相似。有许多理由表明在特定情形下，一种系数为何比另一种好。设x和y是两个对象，都由n个二元属性组成。这样的两个对象的比较可生成如下四个量： f00 =x取0并且y取0的属性个数 f01 =x取0并且y取1的属性个数 f10 =x取1并且y取0的属性个数 f11 =x取1并且y取1的属性个数简单匹配系数

18、,一种常用的相似性系数是简单匹配系数，定义如下：该度量对出现和不出现都进行计数。因此，SMC可以在一个仅包含是非题的测验中用来发现回答问题相似的学生。 Jaccard系数,假定x和y是两个数据对象，代表一个事务矩阵的两行。如果每个非对称的二元属性对应于商店的一种商品，则1表示该商品被购买，而0表示该商品未被购买。由于未被顾客购买的商品数远大于被其购买的商品数，因而像SMC这样的相似性度量将会判定所有的事务都是类似的。这样，常常使用Jaccard系数来处理仅包含非对称的二元属性的对象。Jaccard系数通常用符号J表示，由如下等式定义：例4 SMC和Jaccard相似性系数。为了解释这两种相

19、似性度量之间的差别，我们对如下二元向量计算SMC和J： x = (1, 0, 0, 0, 0, 0, 0, 0, 0, 0) y = (0, 0, 0, 0, 0, 0, 1, 0, 0, 1) f01 = 2 x取0并且y取1的属性个数 f10 = 1 x取1并且y取0的属性个数 f00 = 7 x取0并且y取0的属性个数 f11 = 0 x取1并且y取1的属性个数 2. 余弦相似度通常，文档用向量表示，向量的每个属性代表一个特定的词在文档中出现的频率。当然，实际情况要复杂得多，因为需要忽略常用词，并使用各种技术处理同一个词的不同形式、不同的文档长度以及不同的词频。尽管文档具有数以百千计

20、或数以万计的属性，但是每个文档向量都是稀疏的，因为它具有相对较少的非零属性值。这样，与事务数据一样，相似性不能依赖共享0的个数，因为任意两个文档多半都不会包含许多相同的词，从而如果统计0-0匹配，则大多数文档都与其他大部分文档非常类似。因此，文档的相似性度量不仅应当像Jaccard度量一样需要忽略0-0匹配，而且还必须能够处理非二元向量。下面定义的余弦相似度就是文档相似性最常用的度量之一。如果x和y是两个文档向量，则其中， . 表示向量点积，即：。例5 两个文档向量的余弦相似度。该例计算下面两个数据对象的余弦相似度，这些数据对象可能代表文档向量：如图2-16所示，余弦相似度实际上是x和

21、y之间夹角的度量。这样，如果余弦相似度为1，则x和y之间夹角为0 ，并且除大小之外，x和y是相同的；如果余弦相似度为0，则x和y之间夹角为90 ，并且它们不包含任何相同的词。图2-16 余弦度量的几何解释公式可以写成公式的形式：其中， = x / | x |，而 = y / | y |。x和y被它们的长度除，将它们规范化成具有长度1。这意味在计算相似度时，余弦相似度不考虑两个数据对象的量值。对于长度为1的向量，余弦度量可以通过简单地取点积计算。从而，在需要计算大量对象之间的余弦相似度时，将对象规范化，使之具有单位长度可以减少计算时间。 3. 广义Jaccard系数广义Jaccard系数

22、可以用于文档数据，并在二元属性情况下归约为Jaccard系数。广义Jaccard系数又称Tanimoto系数。该系数用EJ表示，由下式定义： 4. 相关性两个具有二元变量或连续变量的数据对象之间的相关性是对象属性之间线性联系的度量。更准确地，两个数据对象x和y之间的皮尔森相关系数由下式定义：这里我们使用标准的统计学记号和定义：例6 完全相关。相关度总是在 -1到1之间取值。相关度为1意味x和y具有完全正线性关系，即Xk = aYk + b，其中a和b是常数。下面两个x和y的值集分别给出相关度为- 1和+ 1的情况。为简单起见，第一组中取x和y的均值为0。 x = (- 3, 6, 0,

23、3,- 6) y = (1,-2, 0,- 1, 2) x = (3, 6, 0, 3, 6) y = (1, 2, 0, 1, 2) 例7 非线性关系。如果相关度为0，则两个数据对象的属性之间不存在线性关系。然而，仍然可能存在非线性关系。在下面的例子中，数据对象的属性之间存在非线性关系yk =xk2，但是它们的相关度为0。 x = ( 3,- 2,- 1, 0, 1, 2, 3) y = (9, 4, 1, 0, 1, 4, 9) 例8 相关性可视化。通过绘制对应属性值对可以很容易地判定两个数据对象x和y之间的相关性。图2-17给出了一些这种图，x和y具有30个属性，这些属性的值随机地产生，

24、使得x和y的相关度从 -1到1。图中每个小圆圈代表30个属性中的一个，其x坐标是x的一个属性的值，而其y坐标是y的相同属性的值。图2-17 解释相关度从 -1到1的散布图如果通过减去均值，然后规范化使其长度为1来变换x和y，则它们的相关度可以通过求点积来计算。注意，这与其他情况下使用的标准化不同，在其他情况下，我们使用变换和。 Bregman散度。本节，我们简略介绍Bregman散度，它是一族具有共同性质的邻近函数。这样，可以构造使用Bregman发散函数的一般数据挖掘算法，如聚类算法，具体的例子是K均值聚类算法。注意，本节需要向量计算方面的知识。 Bregman散度是损失或失真函数。

25、为了理解损失函数，考虑如下情况：设x和y是两个点，其中y是原来的点，而x是它的某个失真或近似，例如，x可能是由于添加了一些随机噪声到y上而产生的。损失函数的目的是度量用x近似y导致的失真或损失。当然，x和y越类似，失真或损失就越小，因而Bregman散度可以用作相异性函数。有如下正式定义。定义：Bregman散度给定一个严格凸函数，由该函数生成的Bregman散度D(x, y)通过下面的公式给出：例我们使用平方欧几里得距离给出Bregman散度的一个具体例子。为了简化数学计算，我们仅限于一维。设x和y是实数，而 (t) 是实数值函数，。在此情况下，梯度归结为导数，而点积归结为乘积

26、。例如，公式变成公式。该例的图形在图2-18中给出，其中y = 1。在x = 2和x = 3上给出了Bregman散度。图2-18 图示Bregman散度 6）邻近度计算问题本节讨论与邻近性度量有关的一些重要问题：(1)当属性具有不同的尺度或相关时如何处理；(2)当对象包含不同类型的属性时如何计算对象之间的邻近度；(3)当属性具有不同的权重时，如何处理邻近度计算。 1. 距离度量的标准化和相关性距离度量的一个重要问题是当属性具有不同的值域时如何处理。前面，使用欧几里得距离，基于年龄和收入两个属性来度量人之间的距离。除非这两个属性是标准化的，否则两个人之间的距离将被收入所左右。一个相

27、关的问题是，除值域不同外，当某些属性之间还相关时，如何计算距离。当属性相关、具有不同的值域、并且数据分布近似于高斯分布时，欧几里得距离的拓广，Mahalanobis距离是有用的。具体地说，两个对象x和y之间的Mahalanobis距离定义为：其中是数据协方差矩阵的逆。注意，协方差矩阵是这样的矩阵，它的第ij个元素是第i个和第j个属性的协方差，由公式定义。例在图2-19中有1000个点，其x属性和y属性的相关度为0.6。在椭圆长轴两端的两个大点之间的欧几里得距离为14.7，但Mahalanobis距离仅为6。实践中，计算Mahalanobis距离的费用昂贵，但是对于其属性相关的对象来说是

28、值得的。如果属性相对来说不相关，只是具有不同的值域，则只需要对变量进行标准化就足够了。图2-19 二维点的集合。两个大点代表的点之间的Mahalanobis距离为6，它们的欧几里得距离为14.7 2. 组合异种属性的相似度前面的相似度定义所基于的方法都假定所有属性具有相同类型。当属性具有不同类型时，就需要更一般的方法。直截了当的方法是使用表2-7分别计算出每个属性之间的相似度，然后使用一种导致0和1之间相似度的方法组合这些相似度。总相似度一般定义为所有属性相似度的平均值。不幸的是，如果某些属性是非对称属性，这种方法效果不好。例如，如果所有的属性都是非对称的二元属性，则相似性度量先归结为

29、简单匹配系数-一种对于二元非对称属性并不合适的度量。处理该问题的最简单方法是：如果两个对象在非对称属性上的值都是0，则在计算对象相似度时忽略它们。类似的方法也能很好地处理遗漏值。概括地说，算法2.1可以有效地计算具有不同类型属性的两个对象x和y之间的相似度。修改该过程可以很轻松地处理相异度。 3. 使用权值在前面的大部分讨论中，所有的属性在计算邻近度时都会被同等对待。但是，当某些属性对邻近度的定义比其他属性更重要时，我们并不希望这种同等对待的方式。为了处理这种情况，可以通过对每个属性的贡献加权来修改邻近度公式。如果权的和为1，则公式变成闵可夫斯基距离的定义也可以修改为： 7）选取正

30、确的邻近性度量下面是一些一般观察，可能会对你有所帮助。首先，邻近性度量的类型应当与数据类型相适应。对于许多稠密的、连续的数据，通常使用距离度量，如欧几里得距离等。连续属性之间的邻近度通常用属性值的差来表示，并且距离度量提供了一种将这些差组合到总邻近性度量的良好方法。尽管属性可能有不同的取值范围和不同的重要性，但这些问题通常都可以用前面介绍的方法处理。对于稀疏数据，常常包含非对称的属性，通常使用忽略0-0匹配的相似性度量。从概念上讲，这反映了如下事实：对于一对复杂对象，相似度依赖于它们共同具有的性质数目，而不是依赖于它们都缺失的性质数目。在特殊的情况下，对于稀疏的、非对称的数据，大部分对象都

31、只具有少量被属性描述的性质，因此如果考虑它们都不具有的性质的话，它们都高度相似。余弦、Jaccard和广义Jaccard度量对于这类数据是合适的。数据向量还有一些其他特征需要考虑。例如，假定对于比较时间序列感兴趣。如果时间序列的量值是重要的，则可以使用欧几里得距离。如果时间序列代表不同的量，通常需要确定时间序列是否具有相同的形状，而不是相同的量值，那么相关度可能更可取。在某些情况下，为了得到合适的相似性度量，数据的变换或规范化是重要的，因为这种变换并非总能在邻近性度量中提供，例如，时间序列数据可能具有显著影响相似性的趋势或周期模式。此外，正确地计算相似度还需要考虑时间延迟。最后，两个时间序列可能只在特定的时间周期上相似，例如，气温与天然气的用量之间存在很强的联系，但是这种联系仅出现在取暖季节。实践考虑也是重要的。有时，一种或多种邻近性度量已经在某个特定领域使用，因此，其他人已经回答了应当使用何种邻近性度量的问题；另外，所使用的软件包或聚类算法可能完全限制了选择；如果关心效率，则我们可能希望选择具有某些性质的邻近性度量，这些性质可以用来降低邻近度计算量。然而，如果通常的实践或实践限制并未规定某种选择，则正确地选择邻近性度量可能是一项耗时的任务，需要仔细地考虑领域知识和度量使用的目的。可能需要评估许多不同的相似性度量，以确定哪些结果最有意义。

展开阅读全文