HMM隐马尔可夫模型解析课件.ppt

上传人:小飞机 文档编号:1480820 上传时间:2022-11-30 格式:PPT 页数:52 大小:856KB
返回 下载 相关 举报
HMM隐马尔可夫模型解析课件.ppt_第1页
第1页 / 共52页
HMM隐马尔可夫模型解析课件.ppt_第2页
第2页 / 共52页
HMM隐马尔可夫模型解析课件.ppt_第3页
第3页 / 共52页
HMM隐马尔可夫模型解析课件.ppt_第4页
第4页 / 共52页
HMM隐马尔可夫模型解析课件.ppt_第5页
第5页 / 共52页
点击查看更多>>
资源描述

《HMM隐马尔可夫模型解析课件.ppt》由会员分享,可在线阅读,更多相关《HMM隐马尔可夫模型解析课件.ppt(52页珍藏版)》请在三一办公上搜索。

1、隐马尔可夫模型Hidden Markov model,目 录,HMM的历史HMM的由来HMM的表述HMM的分类HMM的应用,HMM的历史,70年代,由Baum等人创立HMM理论80年代,由Bell实验室的Rabiner等人对HMM进行了深入浅出的介绍90年代,HMM被引入计算机文字识别和移动通信核心技术“多用户的检测”近年来,HMM在生物信息科学、故障诊断等领域也开始得到应用,HMM的由来,马尔可夫性马尔可夫链隐马尔可夫模型,马尔可夫性,如果一个过程的“将来”仅依赖“现在”而不依赖“过去”,则此过程具有马尔可夫性,或称此过程为马尔可夫过程。由俄国数学家A.A.马尔可夫与1907年提出。X(t+

2、1) = f( X(t) )现实中存在很多马尔可夫过程,马尔可夫链,时间和状态都离散的马尔可夫过程称为马尔可夫链记作Xn = X(n), n = 0,1,2,在时间集T1 = 0,1,2,上对离散状态的过程相继观察的结果链的状态空间记做I = a1, a2, aiR. 条件概率Pij ( m ,m+n)=PXm+n = aj|Xm = ai 为马氏链在时刻m处于状态ai条件下,在时刻m+n转移到状态aj的转移概率。,马尔可夫链转移概率矩阵,阴天,晴天,下雨,晴天 阴天 下雨晴天 0.50 0.25 0.25阴天 0.375 0.25 0.375下雨 0.25 0.125 0.625,马尔可夫链

3、转移概率矩阵性质,由于链在时刻m从任何一个状态ai出发,到另一时刻m+n,必然转移到a1,a2,诸状态中的某一个,所以有当Pij(m,m+n)与m无关时,称马尔科夫链为齐次马尔可夫链,通常说的马尔科夫链都是指齐次马尔科夫链。,几种典型形状的马尔可夫链,(a)转移矩阵没有零值的Markov链(b)转移矩阵有零值的Markov链(c)和(d)是左-右形式表示的Markov链,HMM实例,HMM实例描述,设有N个缸,每个缸中装有很多彩球,球的颜色由一组概率分布描述。实验进行方式如下根据初始概率分布,随机选择N个缸中的一个开始实验根据缸中球颜色的概率分布,随机选择一个球,记球的颜色为O1,并把球放回缸

4、中根据描述缸的转移的概率分布,随机选择下一口缸,重复以上步骤。最后得到一个描述球的颜色的序列O1,O2,,称为观察值序列O。,HMM实例约束,在上述实验中,有几个要点需要注意:不能被直接观察缸间的转移从缸中所选取的球的颜色和缸并不是一一对应的每次选取哪个缸由一组转移概率决定,HMM概念,HMM的状态是不确定或不可见的,只有通过观测序列的随机过程才能表现出来观察到的事件与状态并不是一一对应,而是通过一组概率分布相联系 HMM是一个双重随机过程,两个组成部分: 马尔可夫链:描述状态的转移,用转移概率描述。 一般随机过程:描述状态与观察序列间的关系, 用观察值概率描述。,HMM组成,HMM组成示意图

5、,Markov链(, A),随机过程(B),状态序列,观察值序列,q1, q2, ., qT,o1, o2, ., oT,HMM的表述,用模型五元组 ( N, M,A,B)用来描述HMM,或简写为 =(,A,B),HMM可解决的问题,评估问题:给定观察序列O=O1,O2,OT,以及模型 =(,A,B), 如何计算P(O|)? 算法:Forward-Backward算法解码问题:给定观察序列O=O1,O2,OT以及模型,如何选择一个对应的状态序列S = q1,q2,qT,使得S能够最为合理的解释观察序列O? 算法:Viterbi算法 学习问题:如何调整模型参数 =(,A,B),对于给定观测值序列

6、O=O1,O2,OT,使得P(O|)最大? 算法:Baum-Welch算法,HMM的应用(1),词性标注已知单词序列w1w2wn,求词性序列c1c2cn HMM模型:将词性理解为状态将单词理解为输出值训练:统计词性转移矩阵aij和词性到单词的输出矩阵bik求解:Viterbi算法,HMM的应用(2),疾病分析已知疾病序列w1w2wn,求表征序列c1c2cn对应状态转移过程 HMM模型:将每种疾病理解为状态将输入的表征现象理解为输出值训练:统计从一种疾病转移到另一种疾病的转移矩阵aij和某一疾病呈现出某一症状的概率矩阵bik求解:Viterbi算法,HMM的三个基本问题,评估问题解码问题学习问题

7、,基本问题之一:评估问题,给定一个固定的状态序列Q=(q1,q2,q3) 表示在qt状态下观测到Ot的概率 由此的复杂度:2TNT,N=5, M=100, 计算量1072,基本问题之一:前向算法,定义前向变量初始化:递归:终结:,复杂度:N2T,基本问题之一:前向后向算法,1 . t t+1 .,a1j,at1,qN.qi.qj.q1,atN,ati,aNj,aij,基本问题之一:后向算法,与前向法类似,只是递推方向不同.定义后向变量初始化:递归:终结:,基本问题之一:后向算法,后向算法示意图:,基本问题之二: Viterbi算法,目的:给定观察序列O以及模型,如何选择一个对应的状态序列Q ,

8、使得Q能够最为合理的解释观察序列O?N和T分别为状态个数和序列长度定义:我们所要找的,就是T时刻最大的 所代表的那个状态序列,基本问题之二: Viterbi算法(续),初始化:递归:终结:求S序列:,我们考虑计算t时刻到达状态X的最可能的路径;这条到达状态X的路径将通过t-1时刻的状态A,B或C中的某一个。因此,最可能的到达状态X的路径将是下面这些路径的某一个(状态序列),A,X(状态序列),B,X (状态序列),C,X我们想找到路径末端是AX,BX或CX并且拥有最大概率的路径。即:Pr (到达状态A最可能的路径) .Pr (X | A) . Pr (观察状态 | X) 因此,到达状态X的最可

9、能路径概率是:泛化得:,基本问题之三:学习问题,目的:给定观察值序列O,通过计算确定一个模型l ,使得P(O| l)最大。算法步骤:1. 初始模型(待训练模型) l0 ,2. 基于l0以及观察值序列O,训练新模型 l0 ;3. 如果 logP(X|l) - log(P(X|l0) Delta ,说明训练已经达到预期效果, 算法结束。4. 否则,令l0 l,继续第2步工作,定义:,Baum-Welch算法(续),参数估计:,Baum-Welch算法(续2),HMM结构,全连接从左至右无跨越有跨越并行,HMM认为语音按时间顺序,从相对稳定的一段特性(状态)随机地过渡到另一段特性,每个状态又随机地输

10、出一个观察值。HMM认为语音t+1时刻的状态由t时刻状态的统计特性,即状态转移概率确定;这个状态产生的输出亦为随机的,取决于该状态生成语音观察量的概率。,无跨越模型符合人类的语音特点,广泛应用于语音识别中。有跨越用于反映音素在发音中可能被吸收或删除的情况。,Two types of HMM,State-emission HMM (Moore machine):The output symbol is produced by states:By the from-stateBy the to-stateArc-emission HMM (Mealy machine): The output sy

11、mbol is produce by the edges; i.e., by the (from-state, to-state) pairs.,Output symbols are generated by the from-states,State sequence: X1,nOutput sequence: O1,n,Output symbols are generated by the to-states,State sequence: X1,n+1Output sequence: O1,n,Are the two types of HMMs equivalent?,For each

12、state-emission HMM1, there is an arc-emission HMM2, such that for any sequence O, P(O|HMM1)=P(O|HMM2).The reverse is also true.,DHMM:离散的符号作为观测量,CHMM: 观测量为连续概率密度函数 每个状态有不同的一组概率密度函数,SCHMM:观测量为连续概率密度函数 所有状态共享一组概率密度函数,观测序列概率表示方法,HMM应用中的问题,/注:有些问题结合语音识别来具体解释。梁大为,初始模型选取多个观察值序列训练数据下溢训练数据不足,初始模型选取,Baum-Welc

13、h 算法的基础参数。全局最大值与局部最大值 和A的初值选取对结果影响不大。 : 1=1 ,i=0。 A: B的初值对训练出的HMM参数影响较大。对离散HMM,可以采用均值或随机设置;在连续HMM中,包含的参数越多越复杂,参数初值的设置对于迭代计算的结果越至关重要。语音单位较小时可以用手工对输入的语音进行状态划分并统计出相应的概率分布作为初值;对于较大的语音单位,普遍采用分段K-均值算法。,将所有观察值序列 平均分为N段,每段对应1个HMM状态Xi;利用3-8所示分段K-均值算法对属于每个状态的所有序列分别进行聚类,得到连续混合正态分布(GMM),获得初始参数。根据经验、随机或间隔选取M个点,分

14、别作为高斯混合函数中M个类空间 的中心点C1, C2, , CM,其中 表示Xi段中第j个类空间,该类中包含的观察值个数记为 ;根据观察值到各中心点最短的原则,将本段中的所有观察值序列 分配到类空间 中去,并记类 的根据上一过程中每个类 所获得的观察值序列,计算新的中心点:,将此段中所有观察值序列 到其对应类中心距离的平方和 作为算法收敛的条件。若 与上一次循环相比,如果基本没有变化,则算法收敛,转入第8步,如果循环次数小于最大循环次数K,则转入第4步继续循环;根据上述循环计算得到的观察值序列分别情况,利用下列公式,对状态下的模型参数进行初始化,其中,,多个观察值序列训练,用N个观察序列训练H

15、MM时,要Baum-Welch算法的重估公式加以修正。设N个观察序列为O(n),n=1, 2, , N,其中假定各个观察值序列相互独立,则有重估公式修正为:,数据下溢问题,在前向-后向算法中,计算前向概率变量 和后向概率变量 的过程中,每个参与运算的乘积项都是小于1。在递归过程中,由于多项连乘,使得变量越来越小,可能会使数据无限地趋向于零,甚至会超出计算机所能表示的范围,带来数据的溢出问题。 每一步都除以一个小于1的标定系数,使递归过程中的变量所处的数量级基本不变。最后,为了使最后结果不受标定系数的影响再将标定系数进行分离。令t时刻的标定系数为 ,标定后的前向变量和后向变量为: ,,1.对 的

16、处理 初始化: 递 归:2.对 的处理 初始化: 递 归:,3.对 的处理,4.对重估公式的处理,5.对Viterbi算法的处理:对数化将 重新定义为:,训练数据不足,模型参数较多,需要大量的训练数据。简单地减少模型中的状态数和每个状态上的混合高斯分量数,也有实际的困难。 将一个训练较充分,但细节较差的模型1与一个训练虽不充分,但细节较好的模型2进行混合。可以在1中将有些状态转移概率及观察输出概率相近的进行“捆绑”,即一些转移概率或观察值输出概率共享相同的值,从而可以减少模型参数。 合并两个HMM的问题可以表示为: =1 +(1-)1 =(, A, B)合为结果模型, 1=(1, A1, B1)和2 =( 2, A 2, B 2)为待合并模型。,设 和 为1和2中状态j对应的观察值概率, 为中状态j对应的观察值概率,则: 估计的问题可以转化为训练HMM参数的问题。所以,可以将所以的训练数据分成几部分,一部分数据用来估计,其余的数据用来训练1和2 。,End!,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号