条件随机场详细ppt课件.ppt

资源描述

《条件随机场详细ppt课件.ppt》由会员分享，可在线阅读，更多相关《条件随机场详细ppt课件.ppt（85页珍藏版）》请在三一办公上搜索。

1、条件随机场conditional random fields,条件随机场模型是Lafferty于2001年，在最大熵模型和隐马尔科夫模型的基础上，提出的一种判别式概率无向图学习模型，是一种用于标注和切分有序数据的条件概率模型。,条件随机场概述,CRF最早是针对序列数据分析提出的，现已成功应用于自然语言处理(Natural Language Processing，NLP）、生物信息学、机器视觉及网络智能等领域。,序列标注,标注：人名地名组织名,观察序列：毛泽东,标注：名词动词助词形容词副词 ,观察序列：今天天气非常好！,实体命名识别,汉语词性标注,四、隐马尔可夫模型（Hidden

2、Markov Model，HMM）,一、产生式模型和判别式模型（Generative model vs. Discriminative model）,二、概率图模型（Graphical Models）,五、最大熵模型（Maximum Entropy Model，MEM）,七、条件随机场（conditional random fields，CRF）,三、朴素贝叶斯分类器（ Naive Bayes Classier）,六、最大熵马尔可夫模型（MEMM）,一、产生式模型和判别式模型（Generative model vs. Discriminative model）,产生式模型：构建o和s的联合分布

3、p(s,o)，因可以根据联合概率来生成样本，如HMM，BNs，MRF。,产生式模型：无穷样本 = 概率密度模型 = 产生模型 =预测判别式模型：有限样本 = 判别函数 = 预测模型 =预测,判别式模型：构建o和s的条件分布p(s|o)，因为没有s的知识，无法生成样本，只能判断分类，如SVM，CRF，MEMM 。,o和s分别代表观察序列和标记序列,一个举例：,(1,0), (1,0), (2,0), (2, 1),产生式模型：P (x, y)：P(1, 0) = 1/2, P(1, 1) = 0, P(2, 0) = 1/4, P(2, 1) = 1/4.,判别式模型：P (y | x)：P(0

4、|1) = 1, P(1|1) = 0, P(0|2) = 1/2, P(1|2) = 1/2,两种模型比较：,Generative model ：从统计的角度表示数据的分布情况，能够反映同类数据本身的相似度，不关心判别边界。,优点:实际上带的信息要比判别模型丰富，研究单类问题比判别模型灵活性强能更充分的利用先验知识模型可以通过增量学习得到,缺点：学习过程比较复杂在目标分类问题中易产生较大的错误率,Discriminative model：寻找不同类别之间的最优分类面，反映的是异类数据之间的差异。,优点:分类边界更灵活，比使用纯概率方法或生产模型得到的更高级。能清晰的分辨出多类或某一类与其他类

5、之间的差异特征在聚类、viewpoint changes, partial occlusion and scale variations中的效果较好适用于较多类别的识别,缺点：不能反映训练数据本身的特性。能力有限，可以告诉你的是1还是2，但没有办法把整个场景描述出来。,二者关系：由生成模型可以得到判别模型，但由判别模型得不到生成模型。,二、概率图模型（Graphical Models）,顶点/节点，表示随机变量,边/弧,两个节点邻接：两个节点之间存在边，记为，不存在边，表示条件独立,路径：若对每个i，都有，则称序列为一条路径,概率图模型：是一类用图的形式表示随机变量之间条件依赖关系的概率

6、模型，,是概率论与图论的结合。图中的节点表示随机变量，缺少边表示条件独立假设。,根据图中边有无方向，常用的概率图模型分为两类：,有向图：最基本的是贝叶斯网络(Bayesian Networks ,BNs),举例,有向图模型的联合概率分解,每个节点的条件概率分布表示为：,P(当前节点|它的父节点),联合分布：,无向图：马尔可夫随机场(Markov Random Fields, MRF),马尔可夫随机场模型中包含了一组具有马尔可夫性质的随机变量，这些变量之间的关系用无向图来表示,马尔科夫性：,举例,团(clique) ：任何一个全连通（任意两个顶点间都有边相连）的子图最大团(maximal cli

7、que)：不能被其它团所包含的团,例如右图的团有C1=X1, X2, X3和C2=X2, X3, X4,无向图模型的联合概率分解,势函数（potential function）,是关于上随机变量的函数,设x是一个类别未知的数据样本，Y为类别集合，若数据样本x属于一个特定的类别yj，那么分类问题就是决定P(yj|x)，即在获得数据样本x时，确定x的最佳分类。所谓最佳分类，一种办法是把它定义为在给定数据集中不同类别yj先验概率的条件下最可能的分类。贝叶斯理论提供了计算这种可能性的一种直接方法。,三、朴素贝叶斯分类器（ Naive Bayes Classier）,如果没有这一先验知识，那么可以简

8、单地将每一候选类别赋予相同的先验概率。不过通常我们可以用样例中属于yj的样例数|yj|比上总样例数|D|来近似，即,P(yj)代表还没有训练数据前，yj拥有的初始概率。P(yj)常被称为yj的先验概率(prior probability) ，它反映了我们所拥有的关于yj是正确分类机会的背景知识，它应该是独立于样本的。,是联合概率，指当已知类别为yj的条件下，看到样本x出现的概率。,若设,则,条件独立性：,在给定随机变量C时，a，b条件独立。,假定：在给定目标值 yj 时，x的属性值之间相互条件独立。,P(yj|x )被称为Y的后验概率（posterior probability），因为它反映了

9、在看到数据样本x后yj成立的置信度。,是后验概率，即给定数据样本x时yj成立的概率，而这正是我们所感兴趣的。,后验概率,基本假设,朴素贝叶斯分类器的概率图表示,隐马尔可夫模型的概率图表示,三、隐马尔可夫模型（Hidden Markov Model,HMM）,马尔可夫模型：是一个三元组 =(S, , A)其中 S是状态的集合，是初始状态的概率, A是状态间的转移概率。,一阶马尔可夫链,晴云雨,一阶马尔可夫模型的例子,问题：假设今天是晴天，请问未来三天的天气呈现云雨晴的概率是多少？,隐马尔可夫模型(HMM),HMM是一个五元组 = (Y, X, , A, B) ，其中 Y是隐状态（输出变量）的

10、集合，）X是观察值（输入）集合，是初始状态的概率，A是状态转移概率矩阵，B是输出观察值概率矩阵。,HMM实例,实验进行方式如下：根据初始概率分布，随机选择N个缸中的一个开始实验根据缸中球颜色的概率分布，随机选择一个球，记球的颜色为x1，并把球放回缸中根据缸的转移概率分布，随机选择下一口缸，重复以上步骤。,最后得到一个描述球的颜色的序列x1,x2,称为观察值序列X。,问题2：给定观察序列以及模型，如何选择一个对应的状态序列，使得Y能够最为合理的解释观察序列X？,问题1：给定观察序列以及模型 , 计算,问题3：给定观察序列，调整模型参数 , 使最大？,评价问题,解码问题,参数学习问题,

11、基本算法：,问题1：给定观察序列以及模型 , 计算,终结：,递归：,定义前向变量：,初始化：,前向算法：,前向算法举例：,前向法示意图,后向法,定义后向变量,终结：,递归：,初始化：,问题2：给定观察序列以及模型，如何选择一个对应的状态序列，使得Y能够最为合理的解释观察序列X？,定义：,要找的就是T时刻所代表的那个状态序列,Viterbi 算法：,Viterbi 算法：,初始化,递归,结束,得到最优路径,Viterbi 算法举例：,思想：给定一个模型和输出字符序列，任意设定初始参数值，通过不断循环更新参数的方法，设法达到最优。Baum 1970,算法步骤：,2. 基于 0 以及观察值序

12、列X，训练新模型；,1. 初始模型（待训练模型）0,3. 如果 logP(X| ) - log(P(X| 0) Delta，说明训练已经达到预期效果，算法结束。,4. 否则，令 0 ，继续第2步工作,问题3：给定观察序列，调整模型参数 , 使最大？,Baum-Welch算法,定义：,重新估计,该算法又称为向前向后算法（Forward-backward algorithm）经常得到局部最优解,HMMs等生产式模型存在的问题：,1.由于生成模型定义的是联合概率，必须列举所有观察序列的可能值，这对多数领域来说是比较困难的。,2.基于观察序列中的每个元素都相互条件独立。即在任何时刻观察值仅仅与

13、状态（即要标注的标签）有关。对于简单的数据集，这个假设倒是合理。但大多数现实世界中的真实观察序列是由多个相互作用的特征和观察序列中较长范围内的元素之间的依赖而形成的。,四、最大熵模型（Maximum Entropy Model，MEM）,最大熵的原理认为，从不完整的信息（例如有限数量的训练数据）推导出的唯一合理的概率分布应该在满足这些信息提供的约束条件下拥有最大熵值。求解这样的分布是一个典型的约束优化问题。,最大熵模型主要是在已有的一些限制条件下估计未知的概率分布。,熵的计算公式：,熵的性质：,其中X在离散分布时是随机变量的个数；,当X为确定值，即没有变化的可能时，左边等式成立；,可以证明，当

14、X服从均匀分布时，右边等式成立，即均匀分布时熵最大。,定义条件熵,模型目的,定义特征函数,约束条件,（1）,（2）,该条件约束优化问题的Lagrange函数,最大熵模型：,最大熵模型的概率图,2 不同之处无向图模型因子是势函数，需要全局归一有向图模型因子是概率分布、无需全局归一,有向图模型和无向图模型的对比,1 共同之处将复杂的联合分布分解为多个因子的乘积,3 优缺点无向图模型中势函数设计不受概率分布约束，设计灵活，但全局归一代价高有向图模型无需全局归一、训练相对高效,HMMs,MEMs,？,NBs,MEMM：用一个P(yi | yi-1 ,xi)分布来替代HMM中的两个条件概率分布，它表示从

15、先前状态，在观察值下得到当前状态的概率，即根据前一状态和当前观察预测当前状态。每个这样的分布函数都是一个服从最大熵的指数模型。,HMM：状态集合Y，观察值集合X，两个状态转移概率：从yi-1到yi的条件概率分布P(yi | yi-1)，状态yi的输出观察值概率P (xi| yi)，初始概率P0(y).,六、最大熵马尔可夫模型（MEMM）,参数学习,目的：通过学习a使得MEMM中的每个转换函数达到最大熵。,GIS（Generalized Iterative Scaling）算法,编码问题,Viterbi算法的思想,MEMM存在的问题：标记偏见（ Label Bias Problem）问题,HM

16、Ms,MEMs,linear-chain CRF,NBs,五、条件随机场（conditional random fields，CRF）,简单地讲，随机场可以看成是一组随机变量的集合（这组随机变量对应同一个样本空间）。当给每一个位置按照某种分布随机赋予一个值之后，其全体就叫做随机场。,当然，这些随机变量之间可能有依赖关系，一般来说，也只有当这些变量之间有依赖关系的时候，我们将其单独拿出来看成一个随机场才有实际意义。,马尔科夫随机场（MRF）对应一个无向图。这个无向图上的每一个节点对应一个随机变量，节点之间的边表示节点对应的随机变量之间有概率依赖关系。因此，MRF的结构本质上反应了我们的先验知识哪

17、些变量之间有依赖关系需要考虑，而哪些可以忽略。,具有马尔科夫性质：离当前因素比较遥远(这个遥远要根据具体情况自己定义）的因素对当前因素的性质影响不大。,现在，如果给定的MRF中每个随机变量下面还有观察值，我们要确定的是给定观察集合下，这个MRF的分布，也就是条件分布，那么这个MRF就称为CRF。它的条件分布形式完全类似于MRF的分布形式，只不过多了一个观察集合x。,最通用角度来看，CRF本质上是给定了观察值 (observations)集合的MRF。,CRF定义：,设G=（V，E）是一个无向图，,是以G中节点v为索引的随机,在给定的条件下，如果每个随机变量服从马尔可,夫属性，即,则就构成

18、,一个条件随机场。,最简单且最常用的是一阶链式结构，即线性链结构（Linear-chain CRFs）,Linear-chain CRFs 模型：,令表示观察序列，,是有限状态的集合，,根据随机场的基本理论：,对于观察序列的标记位置i-1与i之间的转移特征函数,观察序列的i位置的状态特征函数,将两个特征函数统一为：,关键问题,1.特征函数的选择,2.参数估计,3.模型推断,特征函数的选取直接关系模型的性能。,从已经标注好的训练数据集学习条件随机场模型的参数，即各特征函数的权重向量。,在给定条件随机场模型参数下，预测出最可能的状态序列。,1.特征函数的选择,CRFs模型中特征函数的形式定义：,

19、在定义特征函数的时候，首先构建观察值上的真实特征b(x,i)的集合，即所有i时刻的观察值x的真实特征，结合其对应的标注结果，就可以获得模型的特征函数集。,它是状态特征函数和转移特征函数的统一形式表示。特征函数通常是二值函数，取值要么为1要么为0。,2.参数估计,极大似然估计（Maximum Likelihood Estimation，MLE),假定对于训练数据有一组样本集合,样本是相互独立的，为训练样本中(x,y)的经验概率，,取对数形式：,对于某个条件模型，训练数据D的似然函数公式为：,CRFs模型中极大似然函数：,对求导：,模型分布中特征的期望等于经验分布中的期望值最大熵原理,令上式

20、等于0，求,Lafferty提出两个迭代缩放的算法用于估计条件随机场的极大似然参数 GIS算法（Generalised Iterative Scaling） IIS算法（Improved Iterative Scaling）,迭代缩放是一种通过更新规则以更新模型中的参数，通过迭代改善联合或条件模型分布的方法。更新规则如下：,其中更新值使得新的值比原来的值更接近极大似然值。,1、迭代缩放,迭代缩放的基本原理,假定我们有一个以为参数的模型,并且要,的模型具有更高的对数似然值。,通过迭代，使之最终达到收敛。,对于条件随机场对数似然值的变化可以表示为：,引入辅助函数：,定义为在观察序列和标记序

21、列为(x,y)的条件下，特征值为1的特征的个数。,使用迭代算法计算最大似然参数集。,（A）将每个设初始值；,（B）对于每个，计算，即,迭代过程：,应用更新规则，更新每个参数，直到收敛。,GIS算法：,GIS是迭代缩放的一种，为了确保参数收敛的结果达到全局最优，GIS需要对特征集进行约束，即令每个训练数据中的事件。,定义了一个全局修正特征S(x,y)：,其中C是训练语料中所有的x和y情况下T(x,y)的最大值，即等于最大可能的特征个数，特征S(x,y)的加入确保了T(x,y)=C。,假定对于所有的事件，条件随机场选定的特征的总和是常量C。,更新值按下式计算,1.GIS算法的收敛速度由

22、计算更新值的步长确定。C值越大，步长越小，收敛速度就越慢；反之C值越小，步长越大，收敛的速度也就越快。,问题：,2.GIS算法是依赖于一个额外的全局修正特征S(x,y)，以确保对于每个(x,y)对的有效特征的总和是一个常量。但是一旦加入这个新的特征，就认为这个特征和特征集中所有其他的特征之间是相互独立的，并且它的参数也需要使用上式来更新。计算期望需要对所有可能的标记序列求和，这将是一个指数级的计算过程。,IIS算法：,重新定义：,将每个对观察序列和标记序列对(x,y)起作用的特征值的和近似等于对于观察序列x的最大可能的观察特征的和,使用牛顿一拉夫森方法求解,L-BFGS算法：,Jorge No

23、cedal用Fortran语言实现了L-BFGS工具包来进行条件随机场的参数估计与训练，该数学工具包可从http:/www.ece.northwestern.edu/nocedal/下载。,另外，Taku Kudo实现了L-BFGS算法的c语言版本，该工具集成在了其开发的CRF+工具包中，网址为http:/www.chasen.org/taku/software/CRF+/。,Dong C. Liu and Jorge Nocedal : 【On The Limited Memory BFGS Method For Large Scale Optimization】,2、梯度算法,3.模型推断

24、,第二个问题通过Viterbi算法解决。Viterbi算法是一种动态规划算法，其思想精髓在于将全局最佳解的计算过程分解为阶段最佳解的计算。,二、对于未标记的序列，求其最可能的标记。,常见的两个问题：一、在模型训练中，需要边际分布和；,第一个问题采用前向后向法解决；,最大熵马尔科夫模型举例基于文本的网络地址信息抽取,任务：完成地址，电话，传真，E-mail 等信息的识别和抽取,流程图,页面预处理,页面文本中加入#用于保留结构信息和页面内容的自然划分，便于对文本页面的进一步处理。,模型建立,确定状态集合Y ，观察值（特征）集合 X,状态集合包含：邮编、电话、电邮、地址、联系人、账号、手机、网址

25、、传真，对于其他可能出现的状态定义了“other”来代表。,特征集合包含：“具有符号”,“最大数字串长度为6”,“最大数字串长度为11”,“最大数字长度大于15”,“最大数字长度小于6，字符串总长度介于8到30”,“最大数字长度小于6，字符串总长度小于6”，,“最大数字串长度介于6到11”,“最大数字长度小于6，字符串总长度大于30”,特征函数表示数据集的特性：,进一步引入一系列的特征函数,参数学习,用上述的状态和特征集对初步抽取样本进行统计，得到每个状态所对应的样本集，通过对于每个这样的样本集合采用 GIS算法进行参数学习，最终得到 MEMM。,说明：,GIS算法要求对于每一个,特征之和

26、达到一个常数C，即有,如果不满足，则令,并加入一个修正函数，使得,1.初始,2.,(a)计算每个特征的,(b),(c)用当前的值计算,(d)更新,(e)满足收敛条件，结束；否则转到(b),GIS算法的步骤：,通过GIS算法得到状态转移函数，这些状态转移函数的集合组成了MEMM模型,识别和抽取,（1）输入观察值序列,（2）递归,（3）结束,改进的Viterbi算法,评测指标,关键：特征的选择,100%,100%,在中文信息处理领域，命名实体识别是各种自然语言处理技术的重要基础。,命名实体：人名、地名、组织名三类,条件随机场模型举例中文命名实体识别,模型形式,关键：特征函数的确定,适用于人名的特

27、征模板,“上下文”，指的是包括当前词w0及其前后若干个词的一个“观察窗口”(w-n，w-n+1，w0，wn)。理论上来说，窗口越大，可利用的上下文信息越多，但窗口开得过大除了会严重降低运行效率，还会产生过拟合现象；而窗口过小，特征利用的就不够充分，会由于过于简单而丢失重要信息。,通过一些模板来筛选特征。模板是对上下文的特定位置和特定信息的考虑。,还建立了若干个资源列表，包括：中国人名姓氏用表、中国人名名字用表、欧美俄人名常用字表、日本人名常用字表。,“人名的指界词”：主要包括称谓词、动词和副词等，句首位置和标点符号也可。,根据指界词与人名同现的概率的大小，将人名的左右指界词各分为两级，生成4个

28、人名指界词列表：,定义了用于人名识别特征的原子模板，每个模板都只考虑了一种因素：,当特征函数取特定值时，特征模板被实例化就可以得到具体的特征。,“当前词的前一个词w-1在人名1级左指界词列表中出现”,类似的，做地名、组织名的特征提取和选择，并将其实例化，得到所有的特征函数。,模型训练流程图,评测指标,整体评价：,优点：条件随机场模型既具有判别式模型的优点，又具有产生式模型考虑到上下文标记间的转移概率，以序列化形式进行全局参数优化和解码的特点，解决了其他判别式模型(如最大熵马尔科夫模型)难以避免的标记偏见问题。,缺点：模型训练时收敛速度比较慢,2007年，Charles Sutton，Andre

29、w McCallum,【Dynamic Conditional Random Fields: Factorized Probabilistic Models for Labeling and Segmenting Sequence Data】,Asela Gunawardana等人,【Hidden Conditional Random Fields for Phone Classification】,2001 年，卡耐基梅隆大学的 Lafferty 教授针对序列数据处理提出了 CRF 模型。【Conditional random fields- Probabilistic models for

30、 segmenting and labeling sequence data】,2003 年，Kumar 博士将 CRF 模型扩展到 2-维格型结构，开始将其引入到图像分析领域，吸引了学术界的高度关注。,CRF的研究进展：,【Conditional Random Fields for Object Recognition】,Ariadna Quattoni Michael Collins Trevor Darrell,基础的参考文献：,【An Introduction to Variational Methods for Graphical models】,【Classical Probabi

31、listic Models and Conditional Random Fields】,【An Introduction to Conditional Random Fields for Relational Learning】,【Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data】,【Operations for learning with Graphical models 】,概率图,经典概率模型与CRF,有用的参考文献：,【Efficient Training

32、 of Conditional Random Fields】,【Efficiently Inducing features of random fields】,【A maximum entropy approach to natural language processing】,【Multiscale Conditional Random Fields for Image Labeling】,【Training Conditional Random Fields via Gradient Tree Boosting】,Arbitrarily structured CRFs,Linear Chain,Skip Chain,1.复杂拓扑结构的CRF,CRF的发展方向,2.模型训练和推断的快速算法,3.CRF模型特征的选择和归纳,1.复杂拓扑结构的CRF,CRF的发展方向,

展开阅读全文