《【大学课件】统计自然语言处理基本概念.ppt》由会员分享,可在线阅读,更多相关《【大学课件】统计自然语言处理基本概念.ppt(72页珍藏版)》请在三一办公上搜索。
1、统计自然语言处理基本概念,http:/,模型,真实世界中的系统,模型1,Input,Output,模型2,Output1,Output2,如果Output1总是和Ouput接近,Output2总是和Output偏离,我们就认为模型1比模型2好,http:/,真实系统,模型1,模型2,Input,Output,http:/,模型由体系结构和参数两部分构成举例:住宅楼多层板楼高层板楼高层塔楼参数层数:户型:三室一厅,两室一厅,举架高度:供热方式:地热?暖气片?,http:/,目录,样本空间(Sample Space)估计器(Estimator)和随机过程(Stochastic Process)信息
2、论(Information Theory)数据集分类(Data Set Classification)性能评价(Performance Measure),http:/,样本空间(Sample Space),http:/,试验(Experiment),试验一个可观察结果的人工或自然的过程,其产生的结果可能不止一个,且不能事先确定会产生什么结果例如连掷两次硬币样本空间是一个试验的全部可能出现的结果的集合举例连掷两次硬币=HH,HT,TH,TT,H:面朝上;T:面朝下,http:/,事件(Event),事件一个试验的一些可能结果的集合,是样本空间的一个子集举例:连掷两次硬币A:至少一次面朝上B:第二
3、次面朝下A=HT,TH,HH,B=HT,TT,http:/,事件的概率,事件的概率重复m试验,如果事件A出现的次数为n,则事件A的概率为P(A)=n/m,这称为概率的频率解释,或称统计解释频率的稳定性又称为经验大数定理举例:连掷两次硬币A:至少一次面朝上B:第二次面朝下P(A)=3/4,P(B)=1/2当试验不能重复时,概率失去其频率解释的含义,此时概率还有其他解释:贝叶斯学派和信念学派一个人出生时的体重,一个人只能出生一次,http:/,举例,举例:连续三次掷硬币样本空间=HHH,HHT,HTH,HTT,THH,THT,TTH,TTT事件A:恰好两次面朝下A=HTT,THT,TTH做1000
4、次试验,计数得386次为两次面朝下估计:P(A)=386/1000=0.386继续做7组试验,得:373,399,382,355,372,406,359,共8组试验计算平均值:P(A)=(0.386+0.373+)/8=0.379,或累计:P(A)=(386+373+)/8000=3032/8000=0.379统一的分布假设为:3/8=0.375,http:/,概率空间,概率空间的三个公理P(A)0P()=1P(AB)=P(A)+P(B)if AB=这三条公理也是概率的原始定义推论:P()=0;A BP(A)P(B);P()=1-P(A)不是所有0和1之间的值都是概率例如:|cos(x)|就不
5、是概率,http:/,概率空间图示,A,B,AB,http:/,联合事件,A和B两个事件的联合概率就是A和B两个事件同时出现的概率A和B的联合概率表示为:P(A,B)或P(A B)举例:连掷两次硬币事件A:第一次面朝上,A=HH,HT事件B:第二次面朝下,B=HT,TT联合事件A B=HT,http:/,条件概率,在事件B发生的条件下事件A发生的概率P(A|B)=P(A,B)/P(B)P(A|B)=(c(A,B)/T)/(c(B)/T)=c(A,B)/c(B)c(A)代表事件A出现的次数,c(B)同理T是试验总次数举例:两次掷硬币问题事件A:第一次面朝上,A=HH,HT事件B:第二次面朝下,B
6、=HT,TTA B=HTP(A|B)=1/2条件概率可以被视为从另外一个样本空间产生,http:/,概率的乘法原理,P(A,B)=P(A|B)P(B)=P(B|A)P(A)Chain RuleP(A1,A2,An)=P(A1)P(A2|A1)P(A3|A1,A2)P(An|A1,A2,An)举例1:词性标注P(det,adj,n)=P(det)P(adj|det)P(n|det,adj)举例2:计算一个句子的概率p(w1,w2,wn)=p(w1)p(w2|w1)p(wn|w1wn-1),http:/,独立和条件独立,独立定义:P(A,B)=P(A)P(B)P(A|B)=P(A),P(B|A)=
7、P(B)条件独立定义:P(A,B|C)=P(A|B,C)P(B|C)=P(A|C)P(B|C)P(A|B,C)=P(A|C),P(B|A,C)=P(B|C)Nave Baiysian:假定各特征之间条件独立P(A1,A2,An|B)=i=1,nP(Ai|B)避免一个错误:P(A|B,C)=P(A|B)P(A|C),http:/,独立和条件独立,独立不意味着条件独立举例:色盲和血缘关系A:甲是色盲B:乙是色盲C:甲和乙有血缘关系P(A,B)=P(A)P(B)P(A,B|C)P(A|C)P(B|C)条件独立不意味着独立P(肺癌,买雪茄|吸烟)=P(肺癌|吸烟)P(买雪茄|吸烟)P(肺癌,买雪茄)P
8、(肺癌)P(买雪茄),http:/,Bayes Rule,根据乘法原理:P(A,B)=P(A)P(B|A)=P(B)P(A|B)得到贝叶斯原理:P(A|B)=P(A)P(B|A)/P(B)应用1argmaxAP(A|B)=argmaxAP(A)P(B|A)/P(B)=argmaxAP(A)P(B|A)应用2A1,A2,An是特征,B是结论P(B|A1,A2,An)=P(A1,A2,An|B)P(B)/P(A1,A2,An)其中:P(A1,A2,An|B)=i=1,nP(Ai|B),http:/,Bayes举例,应用3英汉统计机器翻译P(CW1,CWm|EW1,EWn)=P(EW1,EWn|CW
9、1,CWm)P(CW1,CWm)/P(EW1,EWn)汉语句子CW1,CWm英语句子EW1,EWm翻译模型:P(EW1,EWn|CW1,CWm)目标语语言模型:P(CW1,CWm),http:/,随机变量(Random Variable),随机变量是一个函数X:R。是样本空间,R是实数集合人们常常关心和样本点有关的数量指标数值也比事件更易于处理,举例打靶的环数举例:X=0=TT;X=1=TH,HT;X=2=HHX是两次掷硬币面朝上的次数数值可以是连续值,也可以是离散值PX(x)=P(X=x)=dfP(Ax),Ax=a:X(a)=x,通常简写作P(x),http:/,期望Expectation,
10、期望是随机变量的均值E(X)=x X()xPX(x)(对于离散值)E(X)=RxP(x)dx(对于连续值)举例:六面掷骰子问题:E(X)=3.511/6+21/6+31/6+41/6+51/6+61/6=3.5两次六面掷骰子得到的点数和:E(X)=721/36+32/36+43/36+=7方差(Variance)E(X-E(X)2)=x X()(x-E(X)2PX(x)(对于离散值)E(X-E(X)2)=R(x-E(X)2P(x)dx(对于连续值)王励勤和王皓的期望接近,王励勤的方差大,http:/,概率分布,多项式分布(Multinomial Distribution)P(n1,nm)=n!
11、/(n1!nm!)p1n1 pmnmini=n,做n次试验输出第i种结果的次数是ni,第i种结果出现的概率是pi二项式分布(Binomial Distribution)输出:0或1做n次试验关心的是试验成功的次数的概率Pb(r|n)=Cnrpr(1-p)n-rCnr是从n个元素中任意取出r个元素的组合数p是成功的概率如果是等概率分布,则p=1/2,Pb(r|n)=Cnr/2n,http:/,协方差和相关系数,协方差(Covariance)Cxy=E(X-E(X)(Y-E(Y)相关系数(Correlation Coefficient)xy=Cxy/(xy)x是随机变量X的方差y是随机变量Y的方差
12、-1 1,0正相关,0负相关,=0不相关,http:/,参数估计Parameter Estimation,http:/,参数估计,研究对象的全体所构成的集合成为总体(population)数理统计的任务:已经知道总体的一部分个体的指标变量值,以此为出发点来推断总体分布的性质简单样本(simple sample)是指这样的样本(X1,X2,Xn),它的分量Xi,i=1,n是独立同分布的随机变量(向量),http:/,估计器,设(X1,X2,Xn)为一个样本,它的一个与总体分布无关的函数(或向量函数)f(X1,X2,Xn)称为一个统计量(statistics)举例:掷硬币问题X:面朝上/面朝下T(
13、X1,X2,Xn):面朝上的次数估计器(Estimator)根据样本计算参数一个估计器是随机变量的函数,同时其自身也可以视为一个随机变量估计器的准确率依赖于采样数据的大小,http:/,参数估计,所有参数都是从一个有限的样本集合中估计出来的一个好的估计器的标准:无偏(unbias):期望等于真实值有效(efficient):方差小一致(consistent):估计的准确性随样板数量的增加而提高一些常用的估计方法极大似然估计最小二成估计贝叶斯估计,http:/,极大似然估计,极大似然估计Maximum Likelihood Estimation(MLE)选择一组参数,使似然函数L()达到最大L(
14、)=f(x1,x2,xn|)=i=1,nf(xi|)举例:罐里有黑球和白球,比例3:1,今连续抽取两球全为黑球,问罐里黑球多还是白球多?设黑球概率为p,抽取n次拿到x次黑球的概率符合二项分布:fn(x,p)=Cnxpx(1-p)n-x今抽取两次全是黑球f2(2,p)=C22p2(1-p)0=p2若p=1/4,则f2(2,p)=1/16;若p=3/4,则f2(2,p)=9/16选择概率大的:p=3/4,黑球多,http:/,随机过程,随机过程(Stochastic Process)X(t),tTX是一组随机变量T是过程的索引集合,例如时间或位置如果T是可数集,则X(t)是离散时间过程举例:词性标
15、注C(t),C是词性,t是位置C(1)=noun,C(2)=verb,C(n)=pron,http:/,马尔可夫过程,马尔可夫过程,也称马尔可夫链Marcov Chain离散时间,离散状态无后效性:已知现在状态,则未来和过去无关P(Xn=xn|X1=x1,X2=x2,Xn-1=xn-1)=P(Xn=xn|Xn-1=xn-1)举例:拼音输入法一本书(输,淑,叔,舒,)P(书|一,本)=P(书|本),http:/,信息论,http:/,信息,控制论创始人(维纳 Norbert Wiener)信息既不是物质也不是能量,是人类在适应外部世界时以及在感知外部世界时而作出协调时与外部环境交换内容的总和。信
16、息论奠基者(香农 Clause Shannon)信息就是能够用来消除不确定性的东西,是一个事件发生概率的对数的负值Robert M.Losee信息可以被定义为一个处理过程的特征,这些特征就是输入和处理过程中产生的信息信息存在于客体间的差别,而非客体本身题帕三绝新消息的信息量大布什是美国总统(熟知,信息量小)马其顿总统遇难(新知,信息量大),http:/,信息论,1948年美国Shannan香农“通信的数学理论”,用概率测度和数理统计的方法,系统地讨论了通信的基本问题,奠定了信息论的基础信息的度量有三个基本方向:结构的、统计的和语义的香农所说的信息是狭义的信息,是统计信息,依据是概率的不确定性度
17、量,http:/,自信息量,自信息量(Self-information)I(X)=-logP(X)小概率事件包含的信息量大,大概率事件包含的信息量小,http:/,互信息Mutual Information,I(x,y)=log2p(x,y)/(p(x)p(y)比如计算两个词的搭配I(伟大,祖国)=log2p(伟大,祖国)/(p(伟大)p(祖国)此值较高,说明“伟大”和“祖国”是一个比较强的搭配I(的,祖国)=log2p(的,祖国)/(p(的)p(祖国)此值较低,因为p(的)太高,“的”和“祖国”不是一个稳定的搭配I(x,y)0:x和y关联强度大I(x,y)=0:x和y无关I(x,y)0:x和
18、y具有互补的分布,http:/,熵(Entropy),熵(Entropy)Chaos(混沌),无序物理学:除非施加能量,否则熵不会降低举例:把房间弄乱很容易,整理干净不容易是不确定性(Uncertainty)的衡量不确定性越高,熵越高,我们从一次实验中得到的信息量越大,http:/,熵的公式,熵H(X)=-xp(x)logxp(x)假设PX(x)是随机变量X的分布基本输出字母表是单位:bits熵是X的平均信息量,是自信息量的期望E(X)=x p(x)xI(X)=-logp(x),取2为底,I(X)=-log2p(x)E(I(X)=E(-log2p(x)=x p(x)(-log2p(x)=H(X
19、)H(X)=H(p)=Hp(X)=HX(p)=H(pX),http:/,熵的例子,掷均匀硬币,=H,Tp(H)=.5,p(T)=.5H(p)=-0.5log20.5+(-0.5log20.5)=132面的均匀骰子,掷骰子H(p)=-32(1/32)log2(1/32)=5事实上,21=2,25=32(perplexity)掷不均匀硬币p(H)=0.2,p(T)=0.8,H(p)=0.722p(H)=0.01,p(T)=0.99,H(p)=0.081,http:/,好书店,差书店,http:/,什么时候H(p)=0?试验结果事先已经知道即:x,p(x)=1;y,p(y)=0 if yx熵有没有上
20、限?没有一般的上限对于|=n,H(p)log2n均衡分布的熵是最大的,http:/,等概率分布2个输出的等概率分布,H(p)=1bit32个输出的等概率分布,H(p)=5bits43亿输出的等概率分布,H(p)=32bits非等概率分布32个输出,2个0.5,其余为0,H(p)=1bit怎样比较具有不同数量输出的“熵”,http:/,混乱度Perplexity,混乱度G(p)=2H(p)平均每次试验有多少种可能的结果在NLP中,如果词表中的词具有统一的分布概率,则最难预测,熵最大,混乱度最高反之,分布越不均衡,熵越小,混乱度越小,http:/,联合熵和条件熵,两个随机变量:X(空间是),Y()
21、联合熵(Joint Entropy)(X,Y)被视为一个事件H(X,Y)=-x yp(x,y)log2p(x,y)条件熵(Conditional Entropy)H(Y|X)=-x yp(x,y)log2p(y|x)p(x,y)是加权,权值是没有条件的,http:/,条件熵,H(Y|X)=xp(x)H(Y|X=x)=xp(x)(-yp(y|x)log2p(y|x)=-x yp(y|x)p(x)log2p(y|x)=-x yp(x,y)log2p(y|x),http:/,熵的性质,熵的非负的H(X)0Chain RuleH(X,Y)=H(Y|X)+H(X)H(X,Y)=H(X|Y)+H(Y)H(
22、X,Y)H(X)+H(Y),X和Y独立时相等H(Y|X)H(Y),条件熵比熵小,http:/,熵的编码意义,如果一个符号序列是满足概率分布p的随机过程产生的,那么对这个序列进行编码至少需要的bit数是H(p)压缩问题如果数据中有很多重复的模式,则易于压缩,因为熵小否则,熵大,不容易压缩,http:/,编码实例,怎样给ISO Latin 1编码?通常用8位经验表明:有的字符经常出现,有的字符很少出现我们可以给经常出现的字用较少的bit来表示,给很少出现的字符用较多的bit来表示假设:p(a)=0.3,p(b)=0.3,p(c)=0.3,其余p(x)=0.0004编码:a:00,b:01,c:10
23、,其余:11b1b2b8对于符号串:acbbcbaac,编码为:a c b b c b a a c0010010111000011111001000010如果每个符号用8位编码,需要80位,现在需要28位,http:/,语言的熵,p(cn+1|c1cn)ci是语言中的一个字符c1cn是历史h举例:汉语,n=3p(赵|围魏救):高p(去|我曾经):低计算语言的条件熵-hH cp(c,h)log2p(c|h),http:/,各种语言的熵,按字母计算的零阶熵法文:3.98 bits意大利文:4.00 bits西班牙文:4.01 bits英文:4.03 bits德文:4.10 bits俄问:4.35
24、bits中文(按汉字计算):9.65 bits中文(按笔画计算):3.43 bits按词汇计算的零阶熵英语:10.0 bits汉语:11.46 bits说明汉语的词汇丰富语言的冗余度英语:73%;俄语:70%;汉语:63%;古文更低,http:/,Kullback-Leibler距离,假设通过一组试验估计得到的概率分布为p,样本空间,随机变量X真实的分布为q,相同的和X现在的问题是:p和q相比,误差多大?Kullback-Leibler距离给出的答案是:D(q|p)=xq(x)log2q(x)/p(x)=Eplog(q(x)/p(x),http:/,KL距离(相对熵),习惯上0log0=0pl
25、og(p/0)=Distance or Divergence(分歧)不对称D(q|p)D(p|q)也不满足三角不等式事实上,D(q|p)不是距离,而是分歧H(q)+D(q|p):根据q分布,对p进行编码需要的bit数(交叉熵),http:/,平均互信息,随机变量:X;Y;pXY(X,Y);pX(x);pY(y)两个离散集之间的平均互信息I(X,Y)=D(p(x,y)|p(x)p(y)=x y p(x,y)log2(p(x,y)/p(x)p(y)这里说的是两个离散集的平均互信息互信息衡量已知Y的分布时,对X的预测有多大的帮助,或者说Y的知识降低了H(X)或者说p(x,y)和p(x)p(y)之间的
26、距离,http:/,http:/,互信息的性质,I(X,Y)=H(X)-H(X|Y)=H(Y)-H(Y|X)I(X,Y)=H(X)+H(Y)-H(X,Y)因为:H(X,Y)=H(X|Y)+H(Y)I(X,X)=H(X)(因为H(X,X)=0)I(X,Y)=I(Y,X)I(X,Y)0,http:/,交叉熵Cross-Entropy,典型情况:我们得到一个观察序列T=t1,t2,tn,ti估计:y:p(y)=c(y)/|T|,定义:c(y)=|tT,t=y|但是,真实的q不知道,再大的数据也不够问题:用p对q进行估计是否准确?方法:用一个不同的观察序列T估计实际的q,http:/,交叉熵,Hp(p
27、)=H(p)+D(p|p)Hp(p)=-xp(x)log2p(x)p当然也不是真实的分布,但是我们视为真实世界的分布,以便测试p交叉混乱度:Gp(p)=2Hp(p),http:/,条件交叉熵,实践中计算的往往是条件交叉熵两个样本空间样本空间:,随机变量Y,yY上下文样本空间:,随机变量X,xX实验得到的分布p(y|x),“真实”分布p(y|x)Hp(p)=-y,x p(y,x)log2p(y|x)条件交叉熵中的权值是p(y,x),不是p(y|x),http:/,在实际应用中,在全部两个样本空间上做累加通常不是很方便,因此常常简化使用如下公式:Hp(p)=-y,x p(y,x)log2p(y|x
28、)=-1/|T|i=1|T|log2p(yi|xi)事实上,就是在T上进行累加,然后归一化=-1/|T|log2 i=1|T|p(yi|xi),http:/,举例,=a,b,z,概率分布(估计值)p(a)=0.25,p(b)=0.5,p()=1/64,c,r,p()=0,s,z测试数据为:barb,p(a)=p(r)=0.25,p(b)=0.5在上做累加 a b c d q r s z-p()log2p()0.5 0.5 0 0 0 1.5 0 0=2.5也可以在测试数据上进行累加,然后归一化si b a r b-log2p(si)1 2 6 1=10(1/4)10=2.5,http:/,H(
29、p)和Hp(p)之间可能有各种关系包括,举例(参照上例)H(P)=2.5测试数据:barbHp(p)=1/4(1+2+6+1)=2.5测试数据:probableHp(p)=1/8(6+6+6+1+2+1+6+6)=4.25测试数据:abbaHp(p)=1/4(2+1+1+2)=1.5,http:/,交叉熵的使用,不是比较数据,而是比较分布如果我们有两个分布p和q,哪一个更好呢?面对“真实数据”S,p和q谁的交叉熵低,谁就更好HT(p)=-1/|S|log2 i=1|S|p(yi|xi)HT(q)=-1/|S|log2 i=1|S|q(yi|xi),http:/,http:/,数据集分类,htt
30、p:/,训练集Training Set用来获得模型参数测试集Testing Set从训练集以外独立采样反映系统面对真实世界的处理能力测试集经常被无意识地“做了手脚”交叉确认集Cross-Validation Set从训练集和测试集以外独立采样主要用来帮助做设计决策,http:/,测试集,测试集从训练集去评价系统的性能,结果往往过于乐观如果模型的参数比需要的多很多时,获得100%的准确率也是可能的过拟和(Over-fitting)常常出现在训练数据的数量不足以支持模型的复杂程度之时为此,我们需要另一个数据集来模拟用户的真实需要,http:/,在设计阶段,不允许偷看测试数据的细节,以保证测试数据不
31、被污染你不能参照测试数据来决定模型的复杂度,特征空间的维数,以及什么时候决定停止训练过程等设计决策可以参照交叉确认数据进行每一个阶段采用一个不同测试集当你试图选择一个最好的方法使测试效果达到最佳时,实际上已经在无意识地使你的系统偏向测试集问题的关键在于测试集并不是真实数据本身,如果面向测试集调整参数,可能造成系统对于从未见过的真实数据效果下降,http:/,交叉确认集如果在训练集合上获得了比较差的结果,我们必须重新设计如果在训练集合上获得了比较好的结果,那可能是因为:模型确实好(在测试数据上性能一样会好)模型过拟和(在测试数据上性能会下降)由于不允许使用测试集来改进系统设计,因此需要另一个数据集,http:/,性能评价,http:/,使用有限的样本进行性能测试有估计误差性能评价的结果和测试数据的大小有关不同数据集的测试结果往往不同性能上限Performance Upper Bound人与人取得一致的指标就是系统性能的上限,http:/,联立表(Contingency table),http:/,准确率P(Precision)N11/(N11+N21)召回率R(Recall)N11/(N11+N12)错误率E(Error Rate)(N12+N21)/(N11+N12+N21+N22)F-measure2PR/(P+R),http:/,谢谢!,http:/,