《《概率主题模型》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《概率主题模型》PPT课件.ppt(20页珍藏版)》请在三一办公上搜索。
1、概率主题模型Probabilistic Topic Models,靳 婷,目 录,引言TF-IDF模型LSI模型(Latent Semantic Index,潜在语义索引)概率主题模型简介一元混合模型(Mixture of unigrams)PLSI模型(Probabilistic Latent Semantic Index,概率潜在语义索引)LDA模型(Latent Dirichlet Allocation)模型描述抽取算法,TF-IDF模型,主要思想:建立一个矩阵|V|*|D|,|V|词典中单词的个数,|D|语料库中文本的TF:对于每一个词,在所有文本中出现的次数IDF:包含这个词的文本数
2、的倒数贡献:不足:不对语义进行识别存储空间、计算量非常大,长度不固定的文本,长度固定的矩阵,LSI模型(Latent Semantic Index,潜在语义索引),奇异值分解:,对角矩阵,行代表一个词,列代表一个文档,概率主题模型,主要思想文档是若干主题的混合分布每个主题又是一个关于单词的概率分布,一元混合模型(Mixture of unigrams),一元模型:每个文本的词语都是独立地从一个多项式分布产生,简单直观的词频概率模型,没有考虑文本的主题,一元混合模型(Mixture of unigrams),首先选择一个主题z,然后根据条件多项式 独立地生成该文本的N个词语,每个文本的概率为:,
3、这个模型只允许一篇文本有一个主题,p(z)是z的分布,p(w|z)可看作一个k|V|的矩阵,一元混合模型(Mixture of unigrams),V=Film,Music,Tax,Million,Student,Teacher,School,T=Arts,Budgets,Education.k=3p(w|z)是37矩阵,若p(w|z)的第1行表示主题Education,这个主题的文本中Student,Teacher,School的词频会高些,该行的行向量所表示的分布 p(w|z)会在Student,Teacher,School附近出现峰值若第2行表示主题Budgets,p(w|z)就会在 T
4、AX,MILLION附近出现峰值在生成一篇文档前先随机选出p(w|z)的第z行(根据分布p(z));再依次随机选出第z行的w1,w2,wN列(每次选取都根据分布p(w|z)),这就生成了文本中的所有单词,PLSI模型(Probabilistic Latent Semantic Index,概率潜在语义索引),放弃了LSI所用的矩阵转换的方法,采用生成模型引入了“潜在主题”一个随机生成过程当中的潜在变量,PLSI模型(续),PLSI 是一个k*|D|矩阵 是先验概率:只建立在已见的训练集的基础上,训练集之外的未见文本,没有一个合适的先验概率训练样本增加,矩阵的大小也线性增加,存在过度拟合问题离散
5、,不同主题之间在概率上是相互独立的,LDA模型(Latent Dirichlet Allocation),非监督机器学习识别隐含的主题信息Dirichlet概率分布,连续分布,可以给未知文本分配属于某个主题集的概率,产生一个主题的集合,LDA模型(续),假设有 个主题,所给文本中的第 个词汇 可以表示如下:,潜在变量,表明第 个词汇记号 取自该主题,词汇 记号属于主题 的概率,给出主题 属于当前文本的概率,LDA模型(续),表示对于主题,个词汇上的多项分布 表示对于文本,个主题上的多项分布,LDA模型(续),文本上的主题分布,主 题,主题上的单词分布,单 词,文 本,LDA模型(续),LDA概
6、率主题模型生成文本的过程:根据泊松分布 得到文本的单词数目根据Dirichlet分布 得到该文本的一个主题分布概率向量对于该文本 个单词中的每一个单词从 的多项式分布随机选择一个主题从主题 的多项式条件概率分布选择一个单词作为,LDA模型(续),Choose parameter p();For each of the N words w:Choose a topic z p(z|);Choose a word w p(w|z);其中是一个1k的随机行向量,p()是的分布,它的具体函数形式就是Dirichlet分布,这一分布保证的k个分量 _1,_2,_k都取连续的非负值,且_1+_2+_k=1
7、z_n是离散随机变量,在主题T中取k个离散值,p(z|)是给定时z的条件分布,它的具体函数形式很简单,就是把直接拿来作为概率值p(z=i|)=_i,也就是说z取第 1,2,k个主题的概率分别是_1,_2,_kw_n是离散随机变量,在词汇表V中取|V|个离散值,p(w|z)是给定z_n时 w的条件分布,看作k|V|的矩阵,LDA模型(续)-生成过程,先随机生成一个1k的向量(根据Dirichlet分布p())然后随机选取p(w|z)的第z_1行(根据分布p(z|))接着随机选取z_1行的w_1列(根据分布p(w|z=z_1)),同样的方法依次选出z_2,w_2,z_N,w_N,Mixture of unigram,PLSI,LDA,EM(Expectation Maximization)算法,期望最大化算法,分为两步E-Step:estimate the expected valuesM-Step:re-estimate parameters迭代使用EM步骤,直至收敛。,EM(Expectation Maximization)算法,E-Step:对每一篇文档,计算参数,M-Step:最大化,求出此时的,