汉语词与句子切分技术及机器翻译评估方法探讨.docx

资源描述

《汉语词与句子切分技术及机器翻译评估方法探讨.docx》由会员分享，可在线阅读，更多相关《汉语词与句子切分技术及机器翻译评估方法探讨.docx（104页珍藏版）》请在三一办公上搜索。

1、分类号密级 UDC 编号中国科学院研究生院硕士学位论文汉语词与句子切分技术及机器翻译评估方法研究刘丁指导教师宗成庆研究员博士中国科学院自动化研究所申请学位级别工学硕士学科专业名称模式识别与智能系统论文提交日期 2004年6月论文答辩日期 2004年6月培养单位中国科学院自动化研究所学位授予单位中国科学院研究生院答辩委员会主席 Approaches to Chinese Word Analysis, Utterance Segmentation and Automatic Evaluation of Machine TranslationDisserta

2、tion Submitted toInstitute of Automation, Chinese Academy of Sciencesin partial fulfillment of the requirementsfor the degree ofMaster of EngineeringbyDing Liu(Pattern Recognition and Intelligence System)Dissertation Supervisor: Professor Chengqing Zong独创性声明本人声明所成交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除

3、了文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确地说明并表示了谢意。签名：_导师签名：_ 日期：_关于论文使用授权的说明本人完全了解中国科学院自动化研究所有关保留、使用学位论文的规定，即：中国科学院自动化研究所有权保留送交论文的复印件，允许论文被查阅和借阅；可以公布论文的全部或部分内容，可以采用影印、缩印或其他复制手段保存论文。（保密的论文在解密后应遵守此规定）签名：_导师签名：_ 日期：_摘要本论文以统计模型为基础，在参考了大量前人工作的基础上，对汉语词法分析、口语句子切分和机器翻译评估进行了较为

4、深入的探讨和研究。汉语词法分析是大部分中文处理的第一步，其重要性不言而喻；句子切分是语音翻译中连接语音识别和文本翻译的桥梁，无论语音识别和文本翻译单独的效果有多么好，这座桥没搭好，综合的性能依然无法提高；机器翻译的自动评估是构建机器翻译系统中很重要的辅助工作，其可以加速翻译系统的开发速度，缩短其开发周期。简言之，这三方面同属于自然语言处理的基础的研究领域，其效果直接影响到高层应用的水平。在词法分析上，我们利用隐马尔可夫模型（HMM）提出了一种融和了分词、词性标注和命名实体识别的一体化词法分析方法。最初我们用基于类别的HMM，其优点是对词的覆盖面广，系统开销小；缺点是不能精确地预测词的出现概率。

5、为了提升模型的准确率，我们引入基于词汇的HMM，并将两者有机地结合，并用一个“词到字”的概率平滑方法对基于词的HMM进行平滑。实验结果显示，我们的混合模型由于综合考虑到了字、词、词性以及命名实体的知识，在切分的准确率和召回率上都明显优于单纯基于类别或者基于词的HMM。此外在分词系统的实现上，我们借助对通用分词系统APCWS的整体框架和各功能模块的介绍，讨论了如何有效地存储和加载数据等一些技术细节问题。在口语句子切分上，我们提出了基于双向N元模型和最大熵模型的句子切分算法，这种算法由于通过最大熵有机地将正、逆向N元切分结合起来，综合考虑到了切分点左、右的上下文，从而得到了很好的切分效果。我们在中

6、、英文语料上训练我们的模型并作测试，结果显示其在性能上明显优于基本的正向N元切分。在此基础上，我们分析并对比了各模型的切分结果，从而验证了我们当初对于模型的预计：其一方面保存了正向N元算法的正确切分，一方面用逆向N元算法有效地避免了正向算法的错误切分。在机器翻译的自动评估上，我们首先介绍了两种常用的基于参考译文的评估算法BLEU和NIST，然后给出了一种基于N元模型的句子流畅度评估方法E3。这种方法不需要借助任何参考译文，它通过区别地对待句子中不同的词的转移概率，达到了很好的评估效果。综上所述，本文针对汉语词法分析、口语句子切分和机器翻译评估提出了以统计模型为基础的创新方法，它们不仅仅在科学方

7、法上有重要的参考价值，对于实际应用中也有重要意义。ABSTRACTThis thesis proposed our novel statistical approaches on Chinese word analysis, utterance segmentation and automatic evaluation of machine translation (MT). Word analysis is the first step for most application based on Chinese language technologies; utterance segment

8、ation is the bridge which connects speech recognition and text translation in a speech translation system; automatic evaluation of machine translation (MT) system can speed the research and development of a MT system, reduce its developing cost. In short, the three aspects all belong to the basic re

9、search area of Natural Language Processing (NLP) and have significant meaning to many important applications such as text translation, speech translation and so on.In Chinese word analysis, we proposed a novel unified approach based on HMM, which efficiently combine word segmentation, Part of Speech

10、 (POS) tagging and Named Entity (NE) recognition. Our first model is a class-based HMM. So as to increase its accuracy, we introduce into the word-based HMM and combine it with the class-based HMM. At last we used a “word-to-character” smoothing method for predicting the probability of those words w

11、hich dont occur in the training set. The experimental results show that our combined model, by comprehensively considering the information of Chinese characters, words, POS and NE, achieved much better performance in the precision and recall of the Chinese word segmentation. Based on the knowledge o

12、f our combined model, we described the details in implementing the general word segmentation system APCWS. We discussed some technical problems in the data saving and loading, and described our modules of knowledge management and word lattice construction.In utterance segmentation, this paper propos

13、ed a novel approach which was based on a bi-directional N-gram model and Maximized Entropy model. This novel method, which effectively combines the normal and reverse N-gram algorithm, is able to make use of both the left and right context of the candidate site and achieved very good performance in

14、utterance segmentation. We conducted experiments both in Chinese and in English. The results showed the effect of our novel method was much better than the normal N-gram algorithm. Then by analyzing the experimental results, we found the reason why our novel method achieved better results: it on one

15、 hand retained the correct segmentation of the normal N-gram algorithm, on the other hand avoided the incorrect segmentation by making use of reverse N-gram algorithm.In automatic evaluation of MT systems, we first introduced two classic methods on automatic evaluation which relied on reference tran

16、slations. Then we proposed our novel sentence fluency evaluation method based on N-gram model. This method, called as E3, doesnt need any reference translations and achieved very well evaluation performance by discriminately use the different transmission probabilities of words in the evaluating sen

17、tence. In summarization, this thesis proposed novel approaches for the three basic researches in NLP: Chinese word analysis, utterance segmentation and automatic evaluation of MT systems. We believe the original ideas in them not only have important reference value for other researches, but also can

18、 be used to improve the performance of NLP applications.目录第一章绪言1第二章统计语言模型32.1 N元模型32.1.1 N元模型定义32.1.2参数估计42.2 隐马尔可夫模型82.2.1 定义82.2.2 和HMM相关联的三个问题92.3 最大熵模型132.3.1 介绍132.3.2 定义152.3.3 参数训练172.4 小结20第三章基于隐马尔可夫模型的一体化中文分词方法213.1 相关工作213.2 基于类别的隐马尔可夫分词框架233.2.1 词的定义243.2.2 基于类别的隐马尔可夫模型243.2.3词的生成模型263

19、.2.4 基于类别的隐马尔可夫模型的小结293.3 对于基于类别的隐马尔可夫模型的改进293.3.1 基于类别和基于词的隐马尔可夫模型的合并303.3.2 “词到字”的平滑方法313.4 实验323.4.1 训练和测试语料323.4.2 各模型的测试结果323.4.3 错误分析343.5 通用分词系统APCWS实现介绍353.5.1 APCWS系统框架353.5.2 APCWS的数据装载以及知识管理363.5.3 APCWS的切分模块403.6 小结45第四章基于双向N元模型和最大熵模型的句子切分464.1 相关工作474.2 最大熵平衡的双向N元切分算法504.2.1 正向N元切分算法50

20、4.2.2 逆向N元切分算法514.2.3 双向N元切分算法524.2.4 基于最大熵模型的切分算法534.2.5 最大熵平衡的双向N元切分算法544.3 实验564.3.1 训练和测试语料564.3.2 实验结果564.3.3 结果分析584.4 小结59第五章机器翻译自动评估方法研究605.1 相关工作605.2 基于参考译文的评估方法625.2.1 BLEU (Bilingual Evaluation Understudy)算法625.2.2 NIST算法635.2.3 改进的NIST算法645.3 基于统计的句子流畅度评估方法655.3.1 基于N元模型的句子流畅度评估655.3.2

21、实验685.4 小结72第六章结论73参考文献75附录1：本论文的研究工作得到如下项目资助81附录2：攻读硕士学位期间发表的论文81致谢82第一章绪言近十几年来，随着计算机硬件设备的飞速发展，其单位存储和计算成本大幅度降低，使一些基于大规模搜索和迭代的复杂算法能够在PC上广泛地实现和应用；而随着行业信息化的普及和网络资源的迅猛膨胀，可用语料资源也大为丰富，这一切给基于大规模语料库的统计自然语言处理提供了所需的硬件和软件环境。统计自然语言处理以数学模型和大规模语料库为基础，其核心思想是建立数学模型以表述某一种语言现象，然后在大规模语料库中对那种模型进行训练，使其满足已经获知的经验知识，然后

22、用训练好的模型对于未知的现象进行预测。几乎所有基于统计的方法都可以归结到上述的框架中去。相比传统的基于规则的自然语言处理，统计方法有如下好处。第一，它不依赖于人主观的先验知识，这也是本文认为统计方法最重要的优点。大规模语料库实际上和规则一样，都是一种知识的表征形式。不同的是语料库相比规则而言，有更强的独立性和客观性。大家知道，规则往往是针对某一特定的应用，由某方面的专家按照一定的形式所书写的指导原则，它是专家在自己的经验基础上对语言现象的一种总结，具有很强的主观性。往往不同的专家所书写的规则会有不同，甚至同一位专家在不同时候所写规则也会有出入，而随着规则的不断增加，新旧规则之间会产生矛盾，当

23、规则的数目达到一定程度以后往往就不可能再增加新的规则了。而语料库很简单，任何一篇电子文档都可以成为一个小的语料库，即使对于那些经过人工处理后的熟语料，由于大家是在一定规范地约束下进行的，那些规范相对而言都是比较简单和机械的规范，所以人的主观影响会小得多，即使在某些个别的词或句上出现矛盾，也不会对整体造成很大影响。第二，统计方法相比基于规则的方法有更强的鲁棒性。规则的方法是离散的，一条规则只能总结有限数目的语言现象；而统计模型是连续的，它可以对全部的现象进行描述。规则是人对于经验知识的一种抽象，这种抽象是零散的，它并不保证所有的规则的总和可以描述全部的语言现象，所以每遇到一个不能处理的实例，我

24、们必须增加新的规则以满足需求。而统计模型所依赖的语料库虽然也是离散的，语料库中包含的现象也只是全部现象的一个真子集，但由于我们是用严密的数学模型来对现象进行的抽象和归纳，它就可以保证训练出的模型适用于所有的实例，从而保证了强的鲁棒性。当然，不同的统计模型对现象描述的准确程度是不一样的。第三，统计方法将知识和算法分离。前文已提过，规则往往是由某方面的专家针对某一特定的应用所书写的指导原则，而同一个语料库可以为多种算法、多种应用服务，它是很独立的知识库。这样语料库的建立和完善可以和算法的设计并行，不仅节省了人力物力，也给一些标准化测试提供了基础。另外这项优点给基于统计方法的系统的维护和更新带来了

25、很大的方便。随着应用的扩展，我们往往要考虑到新的语言现象，这时基于统计方法的系统只需要用更大的语料库重新训练一下模型就可以了，而基于规则的方法则需要增加大量的规则，而如上文以前提过的，这并非一件容易的事情。正是由于这些优点，统计方法在近十年来得到了飞速发展，它逐步取代传统基于规则的方法，成为自然语言处理领域的主流技术。在中文处理方面，统计方法已经有很多成功的应用，如词性标注、音字转化及拼音输入等，但由于汉语本身的复杂性和灵活性，有很多问题依然尚待解决。本文试图以统计模型为基础，研究汉语自动分词、分句及机器翻译自动评估的解决方法。分词是大部分中文处理系统的第一步，其重要性不言而喻；句子切分是语音

26、翻译中连接语音识别和文本翻译的桥梁；而机器翻译的自动评估可以提高一个机器翻译系统的开发速度和节约其成本。简言之，这三类问题同属于中文信息处理领域的基础研究课题，它们的效果直接关系到其他高层应用，所以我们的研究不仅仅在科学方法上有重要的参考价值，对于实际应用也有重要意义。后面的章节是这样安排的：第二章介绍三种常用的统计模型，这是本文所提出的方法的理论基础；第三章介绍基于隐马尔可夫模型的一体化汉语分词方法；第四章介绍基于N元模型和最大熵模型的句子切分方法；第五章介绍基于N元模型的句子流畅度评估方法；第六章对全文进行总结。第二章统计语言模型本论文的所有工作均是基于统计方法，因此在本章里，我们将介绍一

27、些常用的统计模型。其构成了我们的方法的理论支撑。统计模型是一种抽象的数学模型，用来对事物进行一种近似的描述，它首先假设某类现象满足一种模型，然后用已知的现象实例对模型进行训练，以得到模型的相关参数，然后用这个训练过的模型来预测未知的现象。对于自然语言处理而言，最常用的有N元模型、隐马尔可夫模型、最大熵模型等。2.1 N元模型2.1.1 N元模型定义N元模型是自然语言处理中最常用的一种数学模型。它的定义如下。图1：N元模型的定义假设序列w1w2wm是一个N阶马尔可夫链，那么某一元素wi出现的概率只和其前面N-1个元素相关，即：（1）如果我们假设语言也满足马尔可夫性，那么某一个词在某个句子中的出现

28、概率就可以用公式(1)进行计算，进而一个句子的概率可以计算为：(2)一般N越大，模型越精确，但所用参数和所需要的训练集也越大（如果训练集不够大将导致严重的数据稀疏问题）。假设词汇量为100K（实用中文系统的词汇量），下表给出了不同的N元模型的参数形式以及所用的参数数目。表1：N元模型实例及参数个数模型参数参数个数0-gramp(w)=1/|V|11-gram(unigram)p(w)1e52-gram(bigram)p(wi|wi-1)1e103-gram(trigram)p(wi|wi-2 wi-1)1e154-gram(tetragram)p(wi| wi-3 wi-2 wi-1)1e20

29、在实际运用中，考虑到训练所需的语料规模，N一般取3，也就是所谓的Trigram。2.1.2参数估计2.1.2.1最大似然估计虽然我们已经介绍了N元模型的基本概念，但要真正使用它，还需要进行参数估计这一步，也就是将表1中的那些参数计算出来。以Trigram为例，用最大似然估计计算参数的公式为：(3)其中count(wi,wj)表示wi,wj在训练语料中同现的次数。最大似然估计可以计算出训练语料中出现过的N元组对应的Trigram参数，但如果我们碰到没有出现过的N元组怎么办呢？最简单的办法是认为那些参数为0，但这样做会导致系统的适应能力很低，一旦碰到未出现过的N元组，系统就基本上处理不了。为了解决

30、这一问题，Laplace提出了一种简单机制，就是给每个N元组，无论其有无在训练语料中出现，都加上1。如下图所示。图2：Laplace法则PLap(w1,wn)=count(w1 ,wn)+1/(C+B)C: 训练集中N元组出现的总次数B: N元参数的总个数Laplace法则可以粗略解决“0次数”问题，但它将所有未出现的N元组都赋予出现次数1是不符合语言模型的实际情况的，因为很多词的组合（N元组）其实根本就不存在。Lidstone在Laplace的基础上又做了一点改进，他给所有N元组加上的不是整数1，而是一个待确定的小数。如下图所示。图3：Lidstone法则PLid(w1,wn)=count(

31、w1 ,wn)+B/(C+B)C: 训练集中N元组出现的总次数B: N元参数的总个数:待确定的小数是一个小于1的小数，可以在通过如下方式训练得到：将训练语料分为2部分A和B，首先用A对N元模型进行训练，然后对B进行预测，调节直到1，使得对B的预测达到最佳；然后用B作训练，A作测试，调节直到2, 使得对A的预测达到最佳；最终的值为1和2的算术平均值。2.1.2.2参数平滑Laplace和Lidstone法则仅仅是对“0次数”问题的一个粗糙的解决方式，它们都无法针对不同的N元组做出不同的预测，我们需要更为细致的参数平滑算法来帮助我们进行参数估计。从机理上划分，目前的参数平滑算法可以分为折扣法（Di

32、scounting）、回退法（Back-off）和插值法（Interpolation）。在这里我们只介绍其中的回退法。回退法是最常用的一种平滑算法，它的基本思想是当高阶参数不存在时，回退到低阶参数，当然，为了保证每一阶参数的总和要为1，对于那些存在的参数要进行一些减弱。我们以Modified Kneser-Ney Smoothing为例来介绍回退法，这种平滑方法被认为是对于N元模型最有效的平滑算法之一，也是本文所实现的系统中所实用的方法。Modified Kneser-Ney Smoothing算法见图4。从图4中我们可以看出，对于已经存在的N元组，Modified Kneser-Ney Sm

33、oothing根据他们出现的次数给出不同的消减，对于不存在的N元组，它根据一定的比例回退到低阶参数，而低阶参数的计算和高阶类似，可以回退到更低阶。值得注意的是Modified Kneser-Ney Smoothing对于一元参数的计算方法，它没有使用语料中的绝对统计数目，而是用和它相邻的不同的一元组的数目，这样可以避免如下的错误回退发生：假设词组AB在语料中出现的频度很高，但是对于B而言，它只出现在A的后面，也就是p(B|A)=1，这样如果统计B的出现频度，是很高的，而当我们计算某个p(B|C)时，显然语料中找不到CB这个词组，因而回退到p(B)，而p(B)的值是很大的，这样就形成了一种误导。

34、而如果我们用B左边出现的不同词的个数作为一元概率的统计基础，那么B左边只有A这一个词，个数为1，当我们再回退到B时，就不会出现很高的概率，从而避免了这种误导。图4：Modified Kneser-Ney Smoothing其中： nx为次数为x的n元组的个数2.2 隐马尔可夫模型2.2.1 定义隐马尔可夫模型（Hidden Markov Model）是自然语言处理和语音识别中又一非常常用的数学模型，它于20世纪60年代末被Baum提出，在70年代处被CMU的Baker第一次用于语音识别，其后慢慢流行开来并被用于自然语言处理的一些领域中。它假设在观测现象的背后有一系列隐藏的状态，观测序列是由这些

35、隐藏状态序列所生成，其定义如下图所示。图5：隐马尔可夫模型隐马尔可夫模型可表示为一个五元组： (x , o, A, B, )其中： x = q1,., qn：隐状态的有限集合 o = o1,.,om：观测现象的有限集合 A = aij，aij = p(Xt+1 = qj |Xt = qi)：转移概率 B = bik，bik = p(Ot = ok | Xt = qi)：输出概率 = i， i = p(X1 = qi)：初始状态分布和隐马尔可夫模型相伴随的一般有三项假设：马尔可夫假设、不动性假设和输出独立性假设。马尔可夫假设是假设状态序列满足一阶马尔可夫性，即某一状态序列出现的概率只和它前面一个

36、状态相关，这点和二元模型是一致的；不动性是状态的转移和时间无关；独立性是某一观测现象只和当前状态相关。如果我们用O1 ,O2,OT表示观测序列，X1 ,X2,XT表示状态序列，这三项假设可以用下图表示。图6：隐马尔可夫假设马尔可夫假设： p(Xi|Xi-1X1) = p(Xi|Xi-1)不动性假设： p(Xi+1|Xi) = p(Xj+1|Xj)，对任意i,j成立输出独立性假设： p(O1,.,OT | X1,.,XT) = p(Ot | Xt) 2.2.2 和HMM相关联的三个问题和N元模型一样，在给出了定义之后，我们自然想到如何去训练和使用它。一般而言，和隐马尔可夫模型相关的有三个经典问题

37、：评估问题，解码问题和学习问题。以下我们将分别介绍。2.2.2.1评估问题（前向算法）评估问题是给定模型，求某一观测序列O1,.,OT的概率。为了简化这个问题，我们首先假设观测序列是由状态Q=q1,qT生成的，在这个假设下，观测序列的概率为：（4）而给定，状态序列Q=q1,qT的概率为：（5）由于我们并不知道观测序列是由哪一种状态序列所生成，我们必须考虑所有的情况，也就是：（6）公式6给出了计算观测序列的方法，但从公式中我们可以看出，其时间复杂度很高，假设状态空间长度为N，q1,qT有NT种可能组合，而总的时间复杂度将为：指数级复杂度的算法在实际应用中一般是无法实现的。为此我们引入动态规划来缩

38、减计算量，由于HMM中的状态的转移概率只和其前一状态相关，这给我们的计算带来了很大好处。我们定义前向变量it为：给定模型，在t时刻状态为Si的部分观测序O1Ot的概率。用公式表述如下：（7）基于it，kt+1可以计算为：（8）这是一个迭代公式，其初始值为：（9）而我们最终所要得到的结果为：（10）而对于公式10的迭代计算，在每一个观测值我们要考虑所有N个状态，对于每个状态我们需要考虑其前面N个状态，那么总的时间复杂度为N*N*T=N2*T，大大小于先前的NT*2T，这个复杂度是可以实现的。2.2.2.2解码问题（韦特比算法）解码问题就是给定，模型和观测序列，找到最可能的状态序列。这个问题也是H

39、MM在大多数实际应用中的运作方式。比如对于词性标注，我们把词看作观测序列，词性看作状态序列，标注的过程就是找到最可能的状态序列的过程。对于解码问题的精确数学描述如下：（11）事实上解码问题和评估问题很相似，评估是计算所有可能的状态序列产生的观测序列的概率的总和，而解码则是从这些状态序列中挑出最有可能的，也就是概率最大的。和评估问题类似，如果我们遍历所有可能的状态序列，计算的时间复杂度会很高，我们同样采用动态规划来解决解码问题。我们定义it为t时刻到达状态i的最优路径（状态序列）：（12）这样在t+1时刻到达状态k的最优路径为：（13）对于每个状态，我们通过公式13选择其最优的前一状态并记录下来

40、，一直到最末的状态T，然后遍历T的各个状态，选择最优的一个，最后通过各状态的前驱得到完整的最优路径，也就是状态序列。这个过程可以用下图表示。图7：韦特比搜索初始化：1= i = N迭代向前：1= k = N ; 2= t = T结束：2.2.2.3学习问题（前向后向算法）学习问题也就是训练问题，即给定观测序列，找到最优的，使观测序列的概率也就是P(O|)最大。这个问题是三个问题中最难的一个，一般我们用前向后向算法（EM算法在HMM参数估计上的应用）来预测。包含三方面，初始概率分布、状态间转移概率、和状态到观测值的生成概率。我们首先来考虑如何计算这三种参数的期望值。首先我们引入后向变量jt：给定

41、t时刻的状态Sj和模型，部分观测序列Ot+1 Ot+2 OT的概率。（15）我们定义t(i,j)为：给定观测序列和模型，在时间t为状态Si，在时间t+1为状态Sj的概率：（14）带入前向和后向变量，t(i,j)可表示为：（15）那么在时刻t状态为Si的概率rit为：（16）从而状态Si的期望次数为：（17）从状态Si转移到Si的期望次数为：（18）从公式17、18，我们可以给出HMM各参数的期望值，然后修正后的模型参数又可以用来计算状态的期望次数以及状态转移的期望次数，如此循环，直到收敛，也就是我们所要求的最优参数。算法如图8所示。图8：前向后向算法初始化：给设置初始值，1=i,j=N; 1=

42、k=T迭代：循环进行下面的迭代直到收敛。1 用公式15和16计算t(i,j)和rit的值，1=i,j=N; 1=t=T2 用t(i,j)和rit重新估算：从图8我们可以看出，前向后向算法实际上是EM算法在HMM隐参数估计上的运用。需要说明的一点是以上介绍的训练方法是在我们只有观测序列的条件下的方法，如果我们的训练集包含状态序列，那么和N元模型类似，只需要用最大似然估计和平滑算法就可以计算出各参数的值。2.3 最大熵模型2.3.1 介绍最大熵模型是自然语言处理中广泛使用和功能强大的一种统计模型，它可以利用多种上下文信息特征对一些归类问题进行决策。下面我们先看一个例子来大致了解最大熵的思想。考虑这

43、样一个天气预测问题：假设一个地区天气的种类有晴朗、多云、小雨、暴雨、小雪、暴雪六种，我们来预测一下每种天气出现的概率。首先我们有如下的概率归一限制：但是满足上面限制的概率分布有无穷种，比如我们可以选择P(晴朗)=1，这个分布假设那个地区的天气永远是晴朗，或者我们选择P(晴朗)=P(多云)=1/2，这个分布假设那个地区的天气不是晴朗就是多云，而且两者的概率相同。这些假设都满足上式的限制，但我们应该选择哪一种呢？事实上，以上两种分布都是缺乏根据的，因为我们没有更多的信息告诉我们那六种天气之间的频度关系，在这种条件下，最客观（均衡）地估计应该是：也就是六种天气具有相同的概率。不过很多时候我们并非对以

44、往的经验一无所知，比如我们如果知道一般会有一半的时间天气是晴朗和多云，那么又该如何安排这六者的概率呢？这时的限制条件有如下两个。在此条件下，我们可以选择的分布依然有无穷多个，而在未知其他信息的情况下，比较明智的做法仍然是选择最均衡的估计：也许我们从以往的经验里又得到了一条信息：多云和小雨出现的次数占1/3，那么限制条件变为：这时要选择一个最均衡的分布就不那么容易了，我们面临两个问题：1，什么样才算是均衡的概率分布；2，给定均衡的标准后，如何在给定限制条件下得到这个分布。这两个问题都可以用最大熵模型加以解决，而最大熵模型的本质思想也就是在满足所有已知事件的基础上对未知事件作最客观均一地估计。2.

展开阅读全文