《时空异常扫描和关联规则挖掘ppt课件.ppt》由会员分享,可在线阅读,更多相关《时空异常扫描和关联规则挖掘ppt课件.ppt(40页珍藏版)》请在三一办公上搜索。
1、时空异常扫描关联规则挖掘,2014.4.21,GIS空间分析方法 第十六讲,本讲的主要内容,时空异常扫描关联规则挖掘,1.空间异常扫描,Spatial Scan Statistic任务:使用扫描统计方法在空间点集中发现聚类(如发现疾病发生的空间聚集区域)。主要研究内容:二项分布的概率表达式扫描窗口(Scan Window)的形状和大小的定义及空间扫描的过程目标函数乳腺癌的实例不规则异常区域的识别,空间扫描,二项分布的概率,掷一枚硬币,独立掷5次,求2次正面朝上的概率。,其中,c 为朝上的次数,n 为掷硬币的次数,p 为硬币朝上的概率。,假设:存在两个二项分布模式(其一为病例高发区;其二为背景)
2、。目标函数的建立:求在概率最大的情况下,两个二项式分布的空间区域。,空间异常区域,空间二项式似然函数,其中,c为异常区内的case,n为异常区内的总pop.,C为整个区域的case,N为整个区域的pop.,Breast Cancer MortalityNortheastern United States,States:Maine,N.H.,Vermont,Mass.,R.I.,Connecticut,N.Y.,N.J.,Pennsylvania,Delaware,Maryland,D.C.Years:1988-1992Deaths:58,943Population:29,535,210Geog
3、raphical Aggregation:245 countiesAuthor:M Kulldorff,E Feuer,B Miller,L FreedmanNCI-National Cancer Institute采用SatScan软件(www.satscan.org)。,Breast Cancer Mortality,假定每个县内死亡数符合泊松分布假设:不同年龄段,各县死亡风险相同(区域内经年龄调整的死亡率为常数)圆形窗口平移圆心在县重心,半径依次增大,覆盖面积不超过一半人口最大似然,Breast cancer mortality,p=0.0001,Breast cancer mortal
4、ityMost likely cluster,Most Likely Clusters,Location Obs Exp RRLLR pNY/Philadelphia24,04423,0401.07435.70.001Buffalo 1,416 1,280 1.109 7.1 0.12Washington DC 712 6181.154 6.90.15Boston 5,966 5,726 1.047 5.5 0.40Eastern Maine 267 229 1.166 3.0 0.99,RR Risk ratio,Relative ratio 相对危险度Log-likelihoodratio
5、(LLR)极大似然估计值,14,优点 Spatial scan statistic,可调整任意混杂因素不需要预定聚类的大小和位置,减少预选偏差基于似然法的统计检验返回检验p值原有假设被拒绝时,可确定出引起拒绝的聚类的位置,http:/www.satscan.org/references.html,不规则空间异常区域,SatScan的结果,原始数据,背景信息,异常区域,最优路径,属性信息,空间点,蚁群算法,节点网络,基于蚁群算法的异常区域识别方法,Pei T,et al.2011.Detecting arbitrarily shaped clusters using ant colony opt
6、imization.International Journal of Geographical Information Science,DOI:10.1080/13658816.2010.533674.(www.geokd.org),路径构建,随机比例规则:对于每只蚂蚁k,路径记忆向量Rk按照访问顺序记录了所有k已经经过的城市序号。设蚂蚁k当前所在城市为i,则其选择城市j作为下一个访问对象的概率为:,信息素更新,m是蚂蚁个数;是信息素的蒸发率,规定0 1,通常设置为=0.5;是第k只蚂蚁在它经过的边上释放的信息素量,它等于蚂蚁k本轮构建路径长度的倒数;Ck 表示路径长度,它是 Rk 中所有边的
7、长度和。,原始数据(1973-1975)(来源:肿瘤研究所),SAScan结果,AntScan2.0结果,研究实例华北地区食管癌高发区的识别,2 空间关联规则挖掘,关联规则及概念什么是空间关联规则基于配置的关联规则挖掘,2.1 关联,事件A的发生和事件B的发生存在一致性一致性的含义(同时、同地、先后、方位),“尿布与啤酒”典型关联分析案例,采用关联模型比较典型的案例是“尿布与啤酒”的故事。在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,超市也因此发现了一个规律,在购买婴儿尿布的年轻父亲们中,有30%40%的人同时要买一些啤酒。超市随后调整了货架的摆放,把尿布和啤酒放在一起,明显增加了销售
8、额。同样的,我们还可以根据关联规则在商品销售方面做各种促销活动。,关联规则挖掘基本概念,可信度(confidence)在事务集W中,如果支持数据项集A的事务中有c%也同时支持数据项集B,则c%称为关联规则AB的可信度。购买面包的顾客中有70的人也购买了黄油,因此购买黄油和面包的关联规则可信度为70。,支持度(support)如果事务集W中有s%的事务同时支持数据项集A和B,则s%称为关联规则的支持度。如果某天共有1000个顾客去商场购物,其中有100个顾客同时购买了面包和黄油,那么上述的关联规则的支持度就是10。,从关系数据库中挖掘规则,挖掘单维布尔关联规则,Apriori算法是根据有关频繁项
9、集性质的先验知识而命名的。该算法使用一种逐层搜索的迭代方法,利用k-项集探索(k+1)-项集。,具体做法:首先找出频繁1-项集的集合,记为L1;再用L1找频繁2-项集的集合L2;再用L2找L3 如此下去,直到不能找到频繁k-项集为止。找每个Lk需要一次数据库扫描。,26,Apriori算法,25,Apriori算法示例,Database TDB,1st scan,C1,L1,L2,C2,C2,2nd scan,C3,L3,3rd scan,Maximal vs Closed Itemsets,2.2 什么是空间关联规则,事件之间的一致性为空间关系,2.3 时空配置关联规则挖掘,解决问题:多变量
10、之间的复杂时空规则(难以用函数表达的关系)创新点:包含多种不同性质的空间变量属性之中包含空间配置、相关信息同时考虑“时间”和“空间”的信息,温锋(蓝色)与渔场(红色)形成的空间位置关系示意图,空间配置关联规则挖掘,渔场与温锋之间空间关系难以定量刻画,空间化示意图,栅格的空间示意图,空间数据关系数据库,对温度值离散化:A:12.9;B:13.015.0;C:15.1对平均网产离散化:有:WC 500箱/网;无:WC=2;N:Tg-T1 2,关系数据库离散化,离散关系数据库,(ta,b)(t6,b)(tg-t1,Y)(渔场,有)可信度80,支持度40。,是否形成渔场取决于左边的温度以及东南与西北的温差。该渔区要形成渔场的条件是:左边两角的温度处于1315间且东南与西北温差大于2,则形成渔场。,WC依赖于 ta,t6,tg-t1,也就是空间配置 ta,t6,tg-t1决定WC,关联规则提取结果,思考问题,空间异常扫描目标函数的及扫描原理。空间关联规则挖掘的基本概念及关联规则聚合原理。,40,StaTScanhttp:/www.satscan.org/references.html裴韬主页http:/,资料,