《《主题模型综述》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《主题模型综述》PPT课件.ppt(14页珍藏版)》请在三一办公上搜索。
1、主题模型概述THOMAS HOFMANNDepartment of Computer Science,Brown University,Providence,USA,Unsupervised Learning by Probabilistic LatentSemantic Analysis,Content,Latent semantic analysis(LSA)SVDProbabilistic latent semantic analysis(PLSA)Expect Maximum(EM)LDA(Latent Dirichlet Analysis)各种变种及应用(扩展部分),LSA,主要用于
2、文本分析思想:找低阶的矩阵对terms-doc矩阵进行分解,得到doc的潜在语义可以处理多义词和同义词的问题求解方式:SVD(奇异值分解),SVD奇异值分解,词项文档矩阵做SVD分解求解方法:迭代法、并行方法、求NN的特征值法,PLSA,Generate model其中:P(di):表示生成这篇文章的先验概率P(zk|di):表示在di这篇文章中选择主题zk的概率P(wj|zk):表示在Zk主题下选择单词wj的概率,最大似然函数,EM(期望最大化算法),EM算法的步骤是:(1)E步骤:求隐含变量Given当前估计的参数条件下的后验概率。(2)M步骤:最大化Complete data对数似然函数的期望,此时我们使用E步骤里计算的隐含变量的后验概率,得到新的参数值。两步迭代进行直到收敛。,解决方法(MLE),拉格朗日乘子法,求解方程组得到,LDA,涉及到的数学知识,概率 条件概率、贝叶斯、GammaBetaDirichlet分布、共轭分布、随机过程之马尔科夫链随机抽样:MCMC、GibbsSamples,