空间相关性与分类比例在不同抽样设计中对准确性测量的影响——翻译.docx

资源描述

《空间相关性与分类比例在不同抽样设计中对准确性测量的影响——翻译.docx》由会员分享，可在线阅读，更多相关《空间相关性与分类比例在不同抽样设计中对准确性测量的影响——翻译.docx（41页珍藏版）》请在三一办公上搜索。

1、空间相关性与分类比例在不同抽样设计中对准确性测量的影响DongMei Chen_, Hui Wei加拿大，金士顿ON K7L 3N6，皇后大学，地理系摘要：本文仿真了四幅结合两种空间相关性标准、两种不同的分类比例的二进制的专题图以研究借助不同抽样设计的分类准确性效果。11种抽样类型（从25到1296）按3种常用的抽样设计，包括简单随机抽样（SRS），系统抽样（SYS），分层随机抽样（StrRS）在4幅仿真地图上被仿真。常见的误差矩阵和相关的准确性度量也被考虑进每一个仿真中。同时，3种抽样设计的不同精度估计也相互比较。某一特别的抽样方法和抽样类型的选择依赖于空间相关性的程度、分类比例的差异以及应

2、用中所需的精度要求。通常，一幅地图分类比例的差异比空间相关性对抽样方法的效果影响更大。对于估计个体类的精度，特别在小型类中StrRS的效果比SRS和SYS的效果更好。对于估计总精确度，不同的抽样设计的效果相似。为了得到更好的KAPPA系数，推荐StrRS用于高类别比例差异的地图，推荐SRS用于低空间相关性和低类别比例差异的地图。关键词：精度评估；分类误差；抽样；分类比例1.引言随着遥感技术的发展，从遥感数据得到的专题地图被广泛应用于不同的环境建模，监控，以及计划中。但这些专题地图通常不能完美的代表现实，还常常包含误差和不确定性（Foody,2002）。在设计中使用这样的地图却不知道其中的误差和

3、不确定性会导致严重的风险。因此，在最近10年，对专题地图的准确性评估的需要不断增长（Congalton and Green， 1999；Congalton and Plourde，2002；Congalton，2002； Foody，2002；Lunetta and Lyon，2004；Stehman and Czaplewski，1998）。基于遥感的专题图的精确度涉及到一幅地图或分类的正确性（Foody，2002），或者涉及导出信息与参照数据（或地面实况）相吻合的程度（Campbell 1996）。常用的估计遥感专题图准确度的方法是比较参照数据和专题图。由于时间，花费上的限制，以及物理访问

4、的权限，想要获得地图上所有像素上的参考信息是不实际的，因此常常需要抽样参考数据。一旦搜集到参考数据以后，它们会和地图中此类数据对比，从定量精度指数产生误差矩阵，例如总体准确度、用户准确度、生产准确度等，另外也能计算出总体和个体的KAPPA系数（Congalton，1991；Congalton 和 Green，1999）。抽样方法和抽样量（或抽样大小）是两个决定精度评估的效率和花费的最重要的因素（Jensen，1996）。现在已经有很多发表的方程和指导方针以确定合适样本量的选择（Cochran，1977； Jensen，1996）。其中，二项分布和二项分布的正态常数经常用于计算所需的抽样大小(C

5、ongalton，1991)。然而，这些方程是基于正确的分类抽样的比例和某些允许的错误，可能并不合适产生一个误差矩阵（Congalton，2004）。当前的文献不能提供一个一致所需最小样本量的方法。Genderen et al（1978）表示，为了接受派生专题图95%的置信区间，至少需要30大小的样本量。Ginevan（1979）和 Hay （1979）按更加保守的方法，得出最小样本量应为50，以避免拒绝一个精确的地图。Congalton（2004）根据经验推荐每个类的误差矩阵最少使用50的样本量。然而，在研究大型区域或一幅地图存在大量类别时最小样本量应该增加到75-100（Congalto

6、n,，2004）。不同的抽样方法被用来选择抽样单位以进行地图精度评估。常用的方法包括简单随机抽样、分层随机抽样、系统抽样、系统随机抽样、系统不对齐抽样和集群抽样（Cochran，1977；Congalton，1977；Stehman，1992）。Congalton（1988b）在三幅不同的土地覆盖地图上比较了五个抽样方案（简单随机抽样、分层随机抽样、系统抽样、系统随机抽样、系统不对齐抽样）不同的空间复杂性。他的结果表明，根据地图的空间复杂性，简单随机抽样在样本容量足够大时总能提供足够的估计，而系统抽样和分层系统不对齐抽样会高估分类误差及其方差。Stehman（1992）指出，Congalton

7、对系统抽样偏见的结论与Maling（1989）和Berry和Baker（1968）认为分层系统不对齐抽样是最公正的抽样设计的观点互相矛盾。基于使用两个精度措施（误分整体比例，kappa系数协议）的仿真研究，Stehman（1992）发现，除了具有周期模式的地图，系统抽样比简单随机抽样更为精确。然而，在专题地图的精度估计中比较了5中抽样方法的效果后，Lo和Watson（1998）得出的结论是，分层随机抽样最为适合混有简单和复杂空间模式的植被地图。上述研究中对立的结论突出了一幅的地图空间模式和复杂性对不同抽样方法效果的影响。.之前的研究表明，从遥感分类地图生成的图片往往是空间自相关的（Congal

8、ton，1988a；Hypannen，1996；Pugh和Congalton，2001）。空间自相关涉及相邻像素之间分类结果的相关性，并且与地图上周期性或空间模式有关。Congalton（1991）指出，现有专题地图上存在的空间相关性将推翻大多数取样方法中样本独立性的假设。若不考虑分类地图上空间自相关的影响，可能导致抽样设计对估计精度的偏差（Campbell，1996；Congalton，1988a，2001；Foody，2002；Pugh和Congalton，2001；Stehman，2004a）。几个研究人员对空间自相关抽样设计和分析精度评估中潜在的负面影响表示担忧（Congalton和G

9、reen，1999；Dicks和Lo，1990；Muller et al .，1998；Stehman，2000）。更高空间分辨率图像产生的地图导致空间自相关水平增大，导致空间自相关精度评估这个问题变得更加严重（Chen et al .，2004；Congalton，1988 b；Stehman，2000）。Congalton（1988 b）表示，系统和分层系统抽样的设计应避开这些具有高空间自相关性的地图。先前大多数关于最佳采样策略和适当样本量的结论都是基于总体精度（或误分类的总体比例）和/或kappa系数的实证检验。然而，人们却很少关注个体类的准确性。遥感图像生成的分类地图包括多个类，不同类

10、别的比例可能会有所不同。Rosenfield et al.（1982）和Congalton与Green （1999）推荐在抽样中应特别注意那些小型，却很重要的类。然而，很少有研究检查在不同的抽样方法中，涉及到个体类的准确性时，空间自相关和类别比例以及整体精度和/或kappa系数对结果的共同影响。本研究的目的是通过仿真实验检查空间自相关和类别比例是如何影响精度评估中抽样方法和样本量的选取。研究中控制图像的分类错误生成了若干仿真图像，让它们代表不同空间自相关程度和类别比例的分类地图。本文估计的抽样方法仅限于简单随机抽样(SRS)、系统抽样(SYS)和分层随机抽样(StrRS)；按照个体类、总体精度

11、、kappa协议系数分析结果。2.方法论2.1.具有不同类别比例的空间自相关地图仿真仿真的第一步是生成具有不同空间自相关程度的参考地图。在ArcGIS中，结合创建随机栅格、焦点均值分析和重分类函数，生成两个代表高(H)和低(L)自相关程度的模型即可完成。首先，使用创建随机栅格函数生成一幅属性值从0到1的500 * 500随机栅格图像。500 * 500大小的选择兼顾了计算效率和实践中的图像尺寸。接着，应用具有不同邻域大小的焦点均值分析函数生成具有某些高或低自相关程度的随机图像。生成高自相关图像，应用3 * 3、9 * 9、16 * 16的窗口，而生成低自相关图像只用3*3、9*9的窗口。对每个

12、焦点进行分析后计算结果图像Morans I，检验新派生的图像是否达到所需的空间自相关程度。为了简化分析，从焦点分析得到的图像的值经阈值判断分为两类（Class 1和Class2）。这个阈值由每幅地图设计的分类比例决定的。例如，准备生成一幅90%像素属于Class 1，10%属于Class 2的二进制地图，如果地图上有90%像素的值小于0.7，那么阈值可设为0.7，这样小于0.7的值划分为Class 1，剩下的就划分为Class 2。这个简化的地图是地图上任何被抽样个体点的二进制代表。例如，如果一个森林类被抽样，那么，地图上的所有其他类可以被重新归类为非林地类。先前的研究已经表明在决定适当的抽样

13、方法和样本量时小型类是一个关注点（Congalton，1991；Congalton和Green，1991；Rosenfield et al .，1982）。因此，对应于每个空间自相关程度，各生成一高一低两幅类别比例差异图。在两幅类别比例差异高的地图上，大约90%的像素被分为大型类（Class 1），另外的10%分为小型类（Class 2）。两幅低类别差异图（H46和L46）的两类类别比例几乎相等（约60%的像素归为Class 1，40%的像素归为Class 2）。结合空间自相关程度和类别比例，仿真生成了四幅500 * 500专题地图（H91、L91 H46和L46），如图1所示，表1列出了详细

14、的配置。这四幅地图表示了四种类别比例（10%，10%，40%，和90%）和两种空间自相关程度（Morans I 0.80）的8种示例。四幅仿真图的Morans I相关图如图2所示。图1.仿真空间自相关性的参考图：（a）高空间相关性和高类别比例差异(H91);（b）高空间相关性和低类别比例差异(H46);（c）低空间相关性和高类别比例差异(L91);（d）低空间相关性和低类别比例差异(L46)。黑色为Class 1，白色为Class 2。表1 仿真参考图的参数仿真地图空间相关性（Morans I）Class 1Class 2H910.880.900.10H460.900.590.41L9

15、10.180.900.10L460.060.580.42仿真图像被用来代替真实图像的原因是，很难获得一系列具有可控空间自相关程度和类别比例的分类参考图像。在实际图像中，因为很难控制空间自相关程度和错误的百分比，会使系统分析变得困难。通过仿真的图像,我们可以控制空间自相关的程度并且在所有图像上产生恒定的错误。通过这种方式，任何在输出中的差异就只由可控制因素的变化而决定。2.2.分类误差的注入先前的研究指出，由分类所产生的误差并非随机分布在专题地图（Bian和Butler，1999；Congalton，1988 b）。通常会存在一个由传感器的属性所造成，对应于专题错误之空间分布的清晰模式（Foo

16、dy，2002；Plourde和Congalton，2003），和/或在分类边界有空间性关联且存在误差的地面条件（Congalton，1988 b，Edwards和Lowell，1996；鲍威尔et al .，2004；Steele et al .，1998）。大多数发生在边界的错误与标准数据集和混合像素的误差配准有关。鉴于上述考虑，本研究中使用的仿真地图使用频率分布模型仿真注入在分类边界附近区域的误差。每幅地图中大约注入了误差的20%作为分类误差，这个误差比例往往存在于监督和非监督分类中。不同地图中注入的误差模式如图3所示。注入误差的地图被视为分类地图；没有注入误差的原始地图被视为参考地图。

17、表2详细展示了每一幅分类地图的分类错误和准确性措施，Class12表示Class1的误差注入Class2，Class21表示Class2的误差注入Class1，正确分类的Class1和Class2分别表示为Class11和Class22。图2.四幅仿真参考图的相关图（X-轴：滞后距离，单位像素；Y-轴：按Morans I测算的空间自相关程度）。（H46：高空间相关性和低类别比例差异；H91：高空间相关性和高类别比例差异；L46：低空间相关性和低类别比例差异；L91：低空间相关性和高类别比例差异）。表2 注入误差的仿真地图的参数仿真地图Class 11的比例Class 22的比例Class 12

18、的比例Class 21的比例总体精度Kappa系数H910.720.080.180.020.800.35H460.470.320.120.080.790.58L910.720.080.180.020.800.35H960.460.330.130.080.790.57（Class11：正确分类的Class1；Class22：正确分类的Class2；Class12：Class1的误差注入Class2；Class21：Class2的误差注入Class1；H46：高空间相关性和低分类比例差异；H91：高空间相关性和高分类比例差异；L46：低空间相关性和低分类比例差异；L91：低空间相关性和高分类比例差

19、异）图3.不同地图中注入的分类误差（白色显示）模式：（a）高空间相关性和高分类比例差异(H91);（b）高空间相关性和低分类比例差异(H46);（c）低空间相关性和高分类比例差异(L91);（d）低空间相关性和低分类比例差异(L46)。2.3.抽样分类地图和参考地图仿真后，在ArcGIS环境中实现三种抽样方法（简单随机抽样（SRS）、系统抽样（SYS）和分层随机抽样（StrRS）的抽样。遥感图像通常以单个像素为单位进行抽样。每个地图使用11个不同的样本大小（从25到1296），按3种抽样方式各仿真抽样100次。换句话说，需要仿真实验重复100次以检查稳定性措施的精度。仿真次数的选择要兼顾统计的

20、稳定性和计算成本。从统计学的观点来看，30次仿真应足以提供统计置信需要（Bian和Butler，1999；Openshaw和Alvanides，1999）。应该注意，这里使用的最大样本量只是像素总数的0.52%左右，这远远小于Congalton（1988 b）和Stehman（2000）的研究中最大人口抽样比例。简单随机抽样（SRS）不放回、独立、随机地选取每个像素（Congalton，1988 b），每个像素被选取的概率相同。在系统抽样(SYS)中，只有第一个抽样像素是随机选择的，其他所有采样像素选择以固定间隔从最初的像素中选取（Congalton，1988 b）。SYS抽样使用的间隔由样

21、本大小决定，并使样本在空间上均匀分布。在分层随机抽样（StrRS）中，每个分类地图再被分为两层：Class 1和Class 2，然后每层内随机选择抽样像素。StrRS中每个类的总样本量大小与该类在地图上的大小成正比（Fitzpatrick-Lins，1981）。本文使用的分层抽样不同于Congalton（1988 b）使用的，这里进行了几何分层而不是类范畴的分层。按地图类的分层是一种常见的实现精度评估的分层方式，可以提高用户准确性估计的精度（Stehman，2004 b）。对于每一次抽样，都对比其在分类图和参考图中采样像素的类别值，并生成传统的误差矩阵。然后对每次抽样中Class 11、Cla

22、ss 22、Class 12和Class 21的比例求和。每次仿真都生成包括整体精度和kappa系数在内的准确性检验参数。同时还要计算这些估计量的均值和方差。2.4.抽样方法的比较对比变异系数（CV）和每个估计量的离差。变异系数是标准差与均值的比，因为它还考虑了均值，通常被称为相对标准差（Burt和Barber，1996）。估计量由为每种采样方法和样本量进行的100次仿真的真值得到。使用变异系数代替Congalton（1988 b）研究中使用的均值和方差是为了确保直接比较不同的精度措施。对于每个样本大小和不同的抽样方法，变异系数测出了一幅仿真图像中一系列估计精度与预期均值（即每个测量的真值）的

23、接近程度。如果从仿真估计的标准差是均值的一半，则其CV值为0.5（或50%）。抽样法的CV越低，从每幅仿真图中获得的精度的变异性就越小，因此其精度也越高。为了比较不同的抽样方法，Stehman（2000）使用“设计效果”计算评估了SYS的精度和StrRS相对于SRS的精度。对于每个样本的大小，设计效果的是方差与SYS的比值或StrRS与SRS方差的比值。在这项研究中，准确性测量的方差估计使用以下公式：这里P是一个测量精度的真值，Pi是仿真量i的估计值。SYS和StrRS的设计效果是为了计算Class 11、Class 22、kappa系数和整体精度所占的比例。设计效果乘以100是为了达到采样方

24、法所需的观测数量，以提供与SRS抽样100个观察对象相同精度的样本大小。如果某抽样设计的设计效果小于1，那么这个设计就比随机抽样抽样具有更好的精度。3.结果与讨论3.1.变异系数（CV）的分析图4-6中显示了正确分类的Class 1（Class 11），Class 2（22）的变异系数，总体精度，SRS，SYS，StrRS的kappa系数。和预期结果一样，除了系统抽样中的一些异常，对于所有抽样方法和精度的措施，CV值都随样本量的增加而减少。对于所有三种抽样方法，尽管这些差异随着样本量的增加而减少，但四种精度评价中CV值的差异在高分类比例地图（H91和L91）中要比低分类比例地图（H46和L46

25、）的差异大。这表明不同的抽样方法的精度差异更多是由相异分类比例造成的，而不是空间自相关的程度。图4：与仿真地图中简单随机抽样所需样本量相对应的变异系数(CV): （a）高空间相关性和高分类比例差异(H91);（b）高空间相关性和低分类比例差异(H46);（c）低空间相关性和高分类比例差异(L91);（d）低空间相关性和低分类比例差异(L46)。从图4-6可以观察到，不同的场景中的不同精度的CV值以不同的曲线显示。其中在所有的地图中Class 11的比例高于Class 22，不论地图的空间自相关程度如何，其CV值的方差都显示比类22的方差低。两个类别之间的差异越高，CV中观察到的差异就越高。这意

26、味着存在高比例类的精度措施将有一个更高精度。在三个不同的抽样方法中比较类11和22的CV值，可以看出类22的分层随机方法产生了较低的CV值。这表明，分层抽样(StrRS)可以提高小比例类的精度。在图4-6中比较整体精度的CV值，可以看出总准确度的精度受采样方法和分类比例差异的影响不大。在所有的数据里，总准确度的CV值随样本量的增加略有下降趋势。相反kappa系数的CV值，受分类比例差异的影响极大。高差异的地图（H91 L91）中，kappa系数的CV值远远大于低差异地图（H46 L46）的CV值。这表明kappa系数对高分类差异地图更敏感。例如，使用随机抽样设计的25个样本量，H46和L46地

27、图里kappa系数的CV值分别0.27和0.28 而在相同的条件下H91和L91地图的CV值为0.50。在所有数据里，kappa系数的CV值更接近那些低比例分类（Class 22）的值，然而总准确度使CV值更类似于高比例类（类11）。这意味着总准确度的精度受大类的影响更大，而kappa系数的精度由小类的精度决定。这一趋势在高类比例差异的地图中更加明显，尤其在随机和系统抽样的设计中。比较图4 6中不同精度措施的CV值，发现在低分类比例差异的地图（H46和L46）上三种不同抽样设计提供了类似的精度。然而，在高分类比例差异的地图（H91和L91）上，kappa系数和类22的CV值在使用分层随机抽样设

28、计是显著降低。很明显，StrRS大大提高了小类的精度和kappa系数。这就证实了Congalton和Green（1999）,Foody（2002）与Stehman和 Czaplewski（1998）提出的建议：推荐使用分层随机抽样处理小类问题。空间自相关影响准确度测量的精度。通过比较高、低空间自相关程度的CV值，高空间相关性的地图比低空间自相关性的地图的CV值高。随着样本量的增加，具有高空间相关性的地图上的CV值并不总是遵循严格递减的趋势。例如，在地图H46中以系统抽样的方法，样本量为144的样本的CV值高于样本量为100的样本的CV值。在地图上可以找到类似的异常H91在81年和144年的样本

29、大小。从这些数据中没有明显的迹象表明这些样本量是如何与地图上空间自相关程度在质量上相关的。3.2.对最小需要样本量的分析从仿真实验的到的CV值可以被认为是一个估计量（总精确度、kappa系数等）的相对标准误差。当对所有可能的样本的平均估计的平均值等于其预期值（即真实值）时，则这个估计是无偏（Congalton，1988 b）且它的CV值应该是零。然而，在现实中完全无偏估计是很罕见的。如果平均有真值的10%（CV值为0.1）是允许的最大相对标准误差的估计，我们可以根据不同精度的措施从仿真实验（表3）的CV值来总结所需的最小样本大小。如表3指出，为了达到类似水平的精度，不同精度所需要的最小样本量就

30、会差别很大。样品所需的大型类少于小类来达到同样的精度。一幅地图上两个类的比例差别越大，每个类所需最小样本量的差异就越大。表3：对于不同仿真实验的精度措施总体精度从真值中达到10%的平均相对标准误差需要样本量。在所有情况下，总体精度所需的样本最少，而kappa系数达到相同的精度最需要样品最多。根据地图和抽样方法，总体精度从真值中达到10%的平均相对标准误差需要样本量为25 49，而kappa需要的样本量为196-1296。比较使用不同的抽样方法达到相同的精度测量所需的样本大小，很明显，分层随机抽样大大减少所需的最小样本量。例如，在地图H46，SRS和SYS分别需要100和196大小的样本，而对于

31、CLASS 11，StrRS只需要81个样本。同样的趋势也存在于其他估算精度措施中。空间自相关行对不同精度措施所需的最小样本量略有影响。对于StrRS而言，这种对高分类比例差异的地图上的影响比低分类比例差异的影响更大。当使用StrRS时，高空间自相关地图（H91）所需的大型类和总体精度的样本量比低空间自相关地图（L91）要少。除了H91地图上的一个案例，在地图上高类比例差异地图（H91和L91）上，SRS和SYS所需的最小样本大小对于不同精度的措施是相同的。然而，在低分类差异的地图（H91和L91）上为了得到大型类、总体精度和kappa系数，空间自相关对所需的最小样本量的影响是明显的。高空间自

32、相关性增加了为了获取大型类和整体精度所需的最小样本量，另外在使用系统抽样代替简单随机抽样时，也增加了为了获取kappa系数所需最小样本量。图5：与仿真地图中系统抽样所需样本量相对应的变异系数(CV): （a）高空间相关性和高分类比例差异(H91);（b）高空间相关性和低分类比例差异(H46);（c）低空间相关性和高分类比例差异(L91);（d）低空间相关性和低分类比例差异(L46)。图6. 与仿真地图中分层随机抽样所需样本量相对应的变异系数(CV): （a）高空间相关性和高分类比例差异(H91);（b）高空间相关性和低分类比例差异(H46);（c）低空间相关性和高分类比例差异(L91);（d）

33、低空间相关性和低分类比例差异(L46)。3.3 设计效果分析表4-7分别列出了设计效果、用来估计分类1（CLASS11）和分类2（CLASS22）正确分类比例的StrRS和SYS设计效果对SRS的方差的比、总体精度、kappa系数。设计效果测量了相对于简单随机抽样的其它抽样设计的精度。为了使系统或分层设计可以达到与SRS100个仿真观测对象相同的精度，表4-7中设计效果的真值都乘以100作为仿真的观测对象。当设计效果大于1时，SRS比使用的抽样设计的精度高；否则，使用的抽样设计比SRS的精度高。不同的抽样设计在不同的空间自相关水平，不同区域的比例的地图上显示不同的设计效果。对于CLASS11（

34、表4），除了极少的例外StrRS的设计效果小于1。很明显，在高空间自相关的地图、低空间自相关且低分类差异的地图上，StrRS总是比SRS的精度高。表4中SYS显示的一个不一致贯穿了研究的不同样本量。例如，在H91地图中，SYS对样本量为25，49，和81的前三个样本的设计效果小于1，对样本量为100，144的样本设计效果大于1，并且再次下降远低于1，直到在400样本量时大于1，之后再次下降到低于1。在11个样本大小中，H91地图中286大小的样本SYS比SRS实现更好的精度，地图H46中，625达到了更好的精度。然而，在低空间自相关地图（L91和L46）中，大多数SYS的设计效值大于1，系统设

35、计效果的范围值波动也小于那些地图上高空间自相关的地图。这表明对于CLASS 11，SRS在低空间自相关的地图上可以达到更高的精度。基于CLASS 22（表5）的SYS和StrRS设计效果也可以看到相似的趋势。不管样本大小如何StrRS的设计效果都远远小于1。在L91地图上样本大小为1296时，StrRS设计效果达到最大值0.504。与CLASS 11相比，CLASS 22的StrRS设计效果的真值在大部分的样本大小中要小得多，这表明无论样本大小或空间格局如何StrRS都取得了比SRS更好的精度评估的准确度。这符合先前的CV值的结果，并且确认使用StrRS估计小类效果更好。和CLASS 11类似

36、，在低空间自相关的地图（L91H和L96）上大部分CLASS 22进行SYS抽样的设计效果的真值都大于1；在高空间相关性地图H91和H46上的11个类型中只有2个的真值大于1。几何所有高空间相关的地图中小类别的分类SYS比SRS的精度要高。然而，在低空间相关性的地图上正好相反。比较SYS和StrRS的设计效果发现StrRS除了在H46中1296这个最大样本中外在所有类型的地图上的值都很小。很明显，在SRS，SYS和StrRS中，StrRS对所有小类别类型的精度最高。当样本量较小时StrRS的优势就更加明显。表6列出了估计总体精度的不同抽样方式的设计效果值。与表4、表5中对CLASS 11和CL

37、ASS 22和估计的设计效果不同，表6中没有一行是所有值都小于1的。StrRS总体精度的设计效果值远远大于表4、5中相应的值。这表明与SRS相比，StrRS在估计总体精度时其精度不会有很明显的优势。总体精度效果值的范围在不同地图和不同样本量上分布多样化，并且在1上下浮动。例如，对于H91上的系统抽样，SYS的设计效果值从样本量25开始到81下降到0.91，到144时增长到1.21，然后在接下来的3个样本上又继续下降。在样本量为400时，设计效果值从0.65激增到1.95，然后继续下降。Stehman（2000）在SYS的方差和SRS相比情况下对误分类的比例估计中也发现了类似的不一致性，尽管在其

38、研究中设计效果的值比表6中的分布差异更大。一般来说，在更多的情况下，估计低空间相关性的地图的总体精度时与SYS和StrRS相比SRS可以达到更好的精度。相对于表4、5，表6中的值更接近于1。表6中的最小值为0.64，而表4、5中的最小值分别为0.31和0.18。很明显，这三种抽样方法在估计总体精度比估计正确分类的个体类的差异样小很多。针对kappa系数和总体精度的设计效果（表7）与CLASS 11和CLASS 22相比展现了一种不同的模式。对于StrRS而言，类别差异的比空间自相关对设计效果的影响更大。所有高分类差异的地图（H91和L91）其StrRS的设计效果值小于1。在地图H91和L46上

39、相同样本大小时，StrRS的设计效果值一直比SYS和SRS的相应值要低。这表明在这3中抽样中，StrRS对kappa系数的估计效果最好。然而，在低空间差异的地图（H46和L46）上没有类似的情况。在地图H46和L46上空间自相关的影响是证明存在的，但很难对三种抽样的设计效果进行有效的排名。更多的情况是L46与H46相比其设计效果大于1，表明在低空间自相关的地图上估计kappa系数时SRS可以取得更好精度。表4 相对于SRS针对CLASS 11不同抽样方法的不同设计效果表5 相对于SRS针对CLASS 22不同抽样方法的不同设计效果表6 相对于SRS针对估计总体精度不同抽样方法的不同设计效果表7

40、相对于SRS针对估计kappa系数不同抽样方法的不同设计效果4.总结借助于这些仿真的二进制地图，这次研究发现在不同抽样设计下不同精度措施的精度受分类比例差异的影响要比空间自相关程度大。一幅地图上某个类的比例越大，不管地图上空间自相关程度如何，这个类的分类精度就越好。一般情况下，总体精度的准确度受那些大类的影响较大，kappa系数受那些小类的影响较大。类别比例、空间自相关程度、抽样设计的变化对kappa系数和小类的准确影响相对较大，对总体精度和大类的精度影响相对较小。不同的准确性措施想要达到相同的精度所需的最小样本量差别很大。一个类别的比例越大，所需的样本量就越少。在本次研究所受测试的措施中，

41、总体精度需要的样本最少，kappa系数需要的却最多。相对于其他抽样方法，分层随机抽样(StrRS)大大减少了所需的最小样本量。空间自相关程度对StrRS所需的最小样本量的影响在高分类差异的地图上表现的更加明显，然而在小比例地图上对随机抽样和系统抽样的影响更大。本研究的意义是，空间自相关和分类比例的效果对抽样方法和样本大小的选择是复杂的。推荐某一特别抽样方法和大小取决于的空间自相关程度、类别比例差异和某一给定应用所需的精度指数。这也部分解释了本文中对合适抽样方法和样本大小的选择的矛盾性结论（1988 b Congalton；Maling，1989；Lo和Watson，1998；Stehman，2

42、000)。对于估算一个小类正确分类的比例，StrRS可以有效地降低其方差和所需的最小样本量。与SRS和SYS相比，StrRS在估计小类时一直取得最好的精度。当样本量很小，分层抽样估计小类的优势更明显。这与以前的研究结论一致（Congalton和Green，1999；Rosenfield et al .，1982）。StrRS也实现精度比SRS在所有情况下，对于估算一个大型类正确分类的比例，除了在一幅高分类差异比例、高空间自相关的地图上，在另外所有情况下，StrRS也取得了比SRS更好的分类精度。在高空间自相关和低类别比例差异的地图上，对于大型类的精度估计，SYS比SRS更有可能取得更好的精度，

43、然而在高空间自相关和高类别比例差异的地图上，SRS更有说服力。不同的抽样设计中对总体精度的精度估计的变化相对少一些。总体精度所需的最小样本量远远小于其他的精度措施。如果某一应用需要总体精度，那么相对较少的样本量将达到一个高精度的估计并且不同的抽样设计结果也不会有什么太大的不同至于更好地估计kappa系数，建议在高类别比例差异的地图上选择StrRS以减少所需的最小样本量。然而在低类别比例差异的地图上，优先推荐低空间自相关的地图使用SRS，高空间自相关的地图使用系统或分层抽样，尽管这两个的优势并不明显。上面的结果只有在空间自相关模式和类别比例差异类似的二进制地图上才适用本研究的结果。对于超过两个类

44、别的地图，地图应该转化为一系列的二进制地图以直接使用本文描述的结果。地图配置改变时，这项研究其观察到的所需的设计效应值和最小样本大小可能不适用（例如两个类的比例变化至70%和30%，空间自相关程度变化，或者类似空间自相关但不同地图配置的地图）。因为在真正的遥感应用中会遇到许多不同的地图模式和类结构，还需要进一步的仿真和研究系统地评估不同的空间模式和类别比例带来的变化。致谢本研究得到了加拿大国家科学与工程研究委员会探索资金的支持。作者要感谢Jie Tie和Dr. Paul Treiz在此次研究项目中的建设性意见和帮助。作者还赞赏富有洞察力的六个匿名评论者的评论和建议。The effect of

45、spatial autocorrelation and class proportion on the accuracy measures from different sampling designsDongMei Chen_, Hui WeiDepartment of Geography, Queens University, Kingston, ON K7L 3N6, CanadaAbstract：Four binary thematic maps with combinations of two spatial autocorrelation levels and two differ

46、ent class proportions are simulated to study their effect on the precision of accuracy measures from different sampling designs. A series of eleven sample sizes (from a minimum of 25 to a maximum of 1296) are simulated using three popular sampling designs, including simple random sampling (SRS), sys

47、tematic sampling (SYS), and stratified random sampling (StrRS) on the four simulated maps. The conventional error matrix and related accuracy measures are calculated for each simulation, and the precision of different estimates of accuracy measures is compared among the three sampling designs. The s

48、election of a particular sampling design and sample size depends on the spatial autocorrelation level, the class proportion difference, and the accuracy indices that a given application requires. In general, the class proportion difference has a greater impact on the performance of different sampling methods than the spatial autocorrelation level does on a map. For estimating the accuracy of individual classes, stratified sampling achieves better precision than SRS and SYS with smaller sample sizes, especially for estimating the small cl

展开阅读全文