统计自然语言处理基本概念课件.ppt

上传人:小飞机 文档编号:3926979 上传时间:2023-03-28 格式:PPT 页数:84 大小:586KB
返回 下载 相关 举报
统计自然语言处理基本概念课件.ppt_第1页
第1页 / 共84页
统计自然语言处理基本概念课件.ppt_第2页
第2页 / 共84页
统计自然语言处理基本概念课件.ppt_第3页
第3页 / 共84页
统计自然语言处理基本概念课件.ppt_第4页
第4页 / 共84页
统计自然语言处理基本概念课件.ppt_第5页
第5页 / 共84页
点击查看更多>>
资源描述

《统计自然语言处理基本概念课件.ppt》由会员分享,可在线阅读,更多相关《统计自然语言处理基本概念课件.ppt(84页珍藏版)》请在三一办公上搜索。

1、统计自然语言处理基本概念,模型,真实世界中的系统,模型1,Input,Output,模型2,Output1,Output2,如果Output1总是和Ouput接近,Output2总是和Output偏离,我们就认为模型1比模型2好,真实系统,模型1,模型2,Input,Output,模型由体系结构和参数两部分构成举例:住宅楼多层板楼高层板楼高层塔楼参数层数:户型:三室一厅,两室一厅,举架高度:供热方式:地热?暖气片?,目录,样本空间(Sample Space)估计器(Estimator)和随机过程(Stochastic Process)信息论(Information Theory)数据集分类(D

2、ata Set Classification)性能评价(Performance Measure),样本空间(Sample Space),试验(Experiment),试验一个可观察结果的人工或自然的过程,其产生的结果可能不止一个,且不能事先确定会产生什么结果例如连掷两次硬币样本空间是一个试验的全部可能出现的结果的集合举例连掷两次硬币=HH,HT,TH,TT,H:面朝上;T:面朝下,事件(Event),事件一个试验的一些可能结果的集合,是样本空间的一个子集举例:连掷两次硬币A:至少一次面朝上B:第二次面朝下A=HT,TH,HH,B=HT,TT,事件的概率,事件的概率重复m试验,如果事件A出现的次

3、数为n,则事件A的概率为P(A)=n/m,这称为概率的频率解释,或称统计解释频率的稳定性又称为经验大数定理举例:连掷两次硬币A:至少一次面朝上B:第二次面朝下P(A)=3/4,P(B)=1/2当试验不能重复时,概率失去其频率解释的含义,此时概率还有其他解释:贝叶斯学派和信念学派一个人出生时的体重,一个人只能出生一次,举例,概率空间,概率空间的三个公理P(A)0P()=1P(AB)=P(A)+P(B)if AB=这三条公理也是概率的原始定义推论:P()=0;A BP(A)P(B);P()=1-P(A)不是所有0和1之间的值都是概率例如:|cos(x)|就不是概率,概率空间图示,A,B,AB,联合

4、事件,A和B两个事件的联合概率就是A和B两个事件同时出现的概率A和B的联合概率表示为:P(A,B)或P(A B)举例:连掷两次硬币事件A:第一次面朝上,A=HH,HT事件B:第二次面朝下,B=HT,TT联合事件A B=HT,条件概率,在事件B发生的条件下事件A发生的概率P(A|B)=P(A,B)/P(B)P(A|B)=(c(A,B)/T)/(c(B)/T)=c(A,B)/c(B)c(A)代表事件A出现的次数,c(B)同理T是试验总次数举例:两次掷硬币问题事件A:第一次面朝上,A=HH,HT事件B:第二次面朝下,B=HT,TTA B=HTP(A|B)=1/2条件概率可以被视为从另外一个样本空间产

5、生,概率的乘法原理,P(A,B)=P(A|B)P(B)=P(B|A)P(A)Chain RuleP(A1,A2,An)=P(A1)P(A2|A1)P(A3|A1,A2)P(An|A1,A2,An)举例1:词性标注P(det,adj,n)=P(det)P(adj|det)P(n|det,adj)举例2:计算一个句子的概率p(w1,w2,wn)=p(w1)p(w2|w1)p(wn|w1wn-1),独立和条件独立,独立定义:P(A,B)=P(A)P(B)P(A|B)=P(A),P(B|A)=P(B)条件独立定义:P(A,B|C)=P(A|B,C)P(B|C)=P(A|C)P(B|C)P(A|B,C)

6、=P(A|C),P(B|A,C)=P(B|C)Nave Baiysian:假定各特征之间条件独立P(A1,A2,An|B)=i=1,nP(Ai|B)避免一个错误:P(A|B,C)=P(A|B)P(A|C),独立和条件独立,独立不意味着条件独立举例:色盲和血缘关系A:甲是色盲B:乙是色盲C:甲和乙有血缘关系P(A,B)=P(A)P(B)P(A,B|C)P(A|C)P(B|C)条件独立不意味着独立P(肺癌,买雪茄|吸烟)=P(肺癌|吸烟)P(买雪茄|吸烟)P(肺癌,买雪茄)P(肺癌)P(买雪茄),Bayes Rule,根据乘法原理:P(A,B)=P(A)P(B|A)=P(B)P(A|B)得到贝叶斯

7、原理:P(A|B)=P(A)P(B|A)/P(B)应用1argmaxAP(A|B)=argmaxAP(A)P(B|A)/P(B)=argmaxAP(A)P(B|A)应用2A1,A2,An是特征,B是结论P(B|A1,A2,An)=P(A1,A2,An|B)P(B)/P(A1,A2,An)其中:P(A1,A2,An|B)=i=1,nP(Ai|B),Bayes举例,应用3英汉统计机器翻译P(CW1,CWm|EW1,EWn)=P(EW1,EWn|CW1,CWm)P(CW1,CWm)/P(EW1,EWn)汉语句子CW1,CWm英语句子EW1,EWm翻译模型:P(EW1,EWn|CW1,CWm)目标语语

8、言模型:P(CW1,CWm),随机变量(Random Variable),随机变量是一个函数X:R。是样本空间,R是实数集合人们常常关心和样本点有关的数量指标数值也比事件更易于处理,举例打靶的环数举例:X=0=TT;X=1=TH,HT;X=2=HHX是两次掷硬币面朝上的次数数值可以是连续值,也可以是离散值PX(x)=P(X=x)=dfP(Ax),Ax=a:X(a)=x,通常简写作P(x),期望Expectation,期望是随机变量的均值E(X)=x X()xPX(x)(对于离散值)E(X)=RxP(x)dx(对于连续值)举例:六面掷骰子问题:E(X)=3.511/6+21/6+31/6+41/

9、6+51/6+61/6=3.5两次六面掷骰子得到的点数和:E(X)=721/36+32/36+43/36+=7方差(Variance)E(X-E(X)2)=x X()(x-E(X)2PX(x)(对于离散值)E(X-E(X)2)=R(x-E(X)2P(x)dx(对于连续值)王励勤和王皓的期望接近,王励勤的方差大,概率分布,多项式分布(Multinomial Distribution)P(n1,nm)=n!/(n1!nm!)p1n1 pmnmini=n,做n次试验输出第i种结果的次数是ni,第i种结果出现的概率是pi二项式分布(Binomial Distribution)输出:0或1做n次试验关心

10、的是试验成功的次数的概率Pb(r|n)=Cnrpr(1-p)n-rCnr是从n个元素中任意取出r个元素的组合数p是成功的概率如果是等概率分布,则p=1/2,Pb(r|n)=Cnr/2n,协方差和相关系数,协方差(Covariance)Cxy=E(X-E(X)(Y-E(Y)相关系数(Correlation Coefficient)xy=Cxy/(xy)x是随机变量X的方差y是随机变量Y的方差-1 1,0正相关,0负相关,=0不相关,参数估计Parameter Estimation,参数估计,研究对象的全体所构成的集合成为总体(population)数理统计的任务:已经知道总体的一部分个体的指标变

11、量值,以此为出发点来推断总体分布的性质简单样本(simple sample)是指这样的样本(X1,X2,Xn),它的分量Xi,i=1,n是独立同分布的随机变量(向量),估计器,设(X1,X2,Xn)为一个样本,它的一个与总体分布无关的函数(或向量函数)f(X1,X2,Xn)称为一个统计量(statistics)举例:掷硬币问题X:面朝上/面朝下T(X1,X2,Xn):面朝上的次数估计器(Estimator)根据样本计算参数一个估计器是随机变量的函数,同时其自身也可以视为一个随机变量估计器的准确率依赖于采样数据的大小,参数估计,所有参数都是从一个有限的样本集合中估计出来的一个好的估计器的标准:无

12、偏(unbias):期望等于真实值有效(efficient):方差小一致(consistent):估计的准确性随样板数量的增加而提高一些常用的估计方法极大似然估计最小二成估计贝叶斯估计,极大似然估计,极大似然估计Maximum Likelihood Estimation(MLE)选择一组参数,使似然函数L()达到最大L()=f(x1,x2,xn|)=i=1,nf(xi|)举例:罐里有黑球和白球,比例3:1,今连续抽取两球全为黑球,问罐里黑球多还是白球多?设黑球概率为p,抽取n次拿到x次黑球的概率符合二项分布:fn(x,p)=Cnxpx(1-p)n-x今抽取两次全是黑球f2(2,p)=C22p2

13、(1-p)0=p2若p=1/4,则f2(2,p)=1/16;若p=3/4,则f2(2,p)=9/16选择概率大的:p=3/4,黑球多,随机过程,随机过程(Stochastic Process)X(t),tTX是一组随机变量T是过程的索引集合,例如时间或位置如果T是可数集,则X(t)是离散时间过程举例:词性标注C(t),C是词性,t是位置C(1)=noun,C(2)=verb,C(n)=pron,马尔可夫过程,马尔可夫过程,也称马尔可夫链Marcov Chain离散时间,离散状态无后效性:已知现在状态,则未来和过去无关P(Xn=xn|X1=x1,X2=x2,Xn-1=xn-1)=P(Xn=xn|

14、Xn-1=xn-1)举例:拼音输入法一本书(输,淑,叔,舒,)P(书|一,本)=P(书|本),信息论,信息,控制论创始人(维纳 Norbert Wiener)信息既不是物质也不是能量,是人类在适应外部世界时以及在感知外部世界时而作出协调时与外部环境交换内容的总和。信息论奠基者(香农 Clause Shannon)信息就是能够用来消除不确定性的东西,是一个事件发生概率的对数的负值Robert M.Losee信息可以被定义为一个处理过程的特征,这些特征就是输入和处理过程中产生的信息信息存在于客体间的差别,而非客体本身题帕三绝新消息的信息量大布什是美国总统(熟知,信息量小)马其顿总统遇难(新知,信息

15、量大),信息论,自信息量,自信息量(Self-information)I(X)=-logP(X)小概率事件包含的信息量大,大概率事件包含的信息量小,互信息Mutual Information,I(x,y)=log2p(x,y)/(p(x)p(y)比如计算两个词的搭配I(伟大,祖国)=log2p(伟大,祖国)/(p(伟大)p(祖国)此值较高,说明“伟大”和“祖国”是一个比较强的搭配I(的,祖国)=log2p(的,祖国)/(p(的)p(祖国)此值较低,因为p(的)太高,“的”和“祖国”不是一个稳定的搭配I(x,y)0:x和y关联强度大I(x,y)=0:x和y无关I(x,y)0:x和y具有互补的分布

16、,熵(Entropy),熵(Entropy)Chaos(混沌),无序物理学:除非施加能量,否则熵不会降低举例:把房间弄乱很容易,整理干净不容易是不确定性(Uncertainty)的衡量不确定性越高,熵越高,我们从一次实验中得到的信息量越大,熵的公式,熵H(X)=-xp(x)logxp(x)假设PX(x)是随机变量X的分布基本输出字母表是单位:bits熵是X的平均信息量,是自信息量的期望E(X)=x p(x)xI(X)=-logp(x),取2为底,I(X)=-log2p(x)E(I(X)=E(-log2p(x)=x p(x)(-log2p(x)=H(X)H(X)=H(p)=Hp(X)=HX(p)

17、=H(pX),熵的例子,好书店,差书店,什么时候H(p)=0?试验结果事先已经知道即:x,p(x)=1;y,p(y)=0 if yx熵有没有上限?没有一般的上限对于|=n,H(p)log2n均衡分布的熵是最大的,等概率分布2个输出的等概率分布,H(p)=1bit32个输出的等概率分布,H(p)=5bits43亿输出的等概率分布,H(p)=32bits非等概率分布32个输出,2个0.5,其余为0,H(p)=1bit怎样比较具有不同数量输出的“熵”,混乱度Perplexity,混乱度G(p)=2H(p)平均每次试验有多少种可能的结果在NLP中,如果词表中的词具有统一的分布概率,则最难预测,熵最大,

18、混乱度最高反之,分布越不均衡,熵越小,混乱度越小,联合熵和条件熵,两个随机变量:X(空间是),Y()联合熵(Joint Entropy)(X,Y)被视为一个事件H(X,Y)=-x yp(x,y)log2p(x,y)条件熵(Conditional Entropy)H(Y|X)=-x yp(x,y)log2p(y|x)p(x,y)是加权,权值是没有条件的,条件熵,H(Y|X)=xp(x)H(Y|X=x)=xp(x)(-yp(y|x)log2p(y|x)=-x yp(y|x)p(x)log2p(y|x)=-x yp(x,y)log2p(y|x),熵的性质,熵的非负的H(X)0Chain RuleH(

19、X,Y)=H(Y|X)+H(X)H(X,Y)=H(X|Y)+H(Y)H(X,Y)H(X)+H(Y),X和Y独立时相等H(Y|X)H(Y),条件熵比熵小,熵的编码意义,如果一个符号序列是满足概率分布p的随机过程产生的,那么对这个序列进行编码至少需要的bit数是H(p)压缩问题如果数据中有很多重复的模式,则易于压缩,因为熵小否则,熵大,不容易压缩,编码实例,语言的熵,p(cn+1|c1cn)ci是语言中的一个字符c1cn是历史h举例:汉语,n=3p(赵|围魏救):高p(去|我曾经):低计算语言的条件熵-hH cp(c,h)log2p(c|h),各种语言的熵,Kullback-Leibler距离,假

20、设通过一组试验估计得到的概率分布为p,样本空间,随机变量X真实的分布为q,相同的和X现在的问题是:p和q相比,误差多大?Kullback-Leibler距离给出的答案是:D(q|p)=xq(x)log2q(x)/p(x)=Eplog(q(x)/p(x),KL距离(相对熵),习惯上0log0=0plog(p/0)=Distance or Divergence(分歧)不对称D(q|p)D(p|q)也不满足三角不等式事实上,D(q|p)不是距离,而是分歧H(q)+D(q|p):根据q分布,对p进行编码需要的bit数(交叉熵),平均互信息,随机变量:X;Y;pXY(X,Y);pX(x);pY(y)两个

21、离散集之间的平均互信息I(X,Y)=D(p(x,y)|p(x)p(y)=x y p(x,y)log2(p(x,y)/p(x)p(y)这里说的是两个离散集的平均互信息互信息衡量已知Y的分布时,对X的预测有多大的帮助,或者说Y的知识降低了H(X)或者说p(x,y)和p(x)p(y)之间的距离,互信息的性质,I(X,Y)=H(X)-H(X|Y)=H(Y)-H(Y|X)I(X,Y)=H(X)+H(Y)-H(X,Y)因为:H(X,Y)=H(X|Y)+H(Y)I(X,X)=H(X)(因为H(X,X)=0)I(X,Y)=I(Y,X)I(X,Y)0,交叉熵Cross-Entropy,典型情况:我们得到一个观察

22、序列T=t1,t2,tn,ti估计:y:p(y)=c(y)/|T|,定义:c(y)=|tT,t=y|但是,真实的q不知道,再大的数据也不够问题:用p对q进行估计是否准确?方法:用一个不同的观察序列T估计实际的q,交叉熵,Hp(p)=H(p)+D(p|p)Hp(p)=-xp(x)log2p(x)p当然也不是真实的分布,但是我们视为真实世界的分布,以便测试p交叉混乱度:Gp(p)=2Hp(p),条件交叉熵,实践中计算的往往是条件交叉熵两个样本空间样本空间:,随机变量Y,yY上下文样本空间:,随机变量X,xX实验得到的分布p(y|x),“真实”分布p(y|x)Hp(p)=-y,x p(y,x)log

23、2p(y|x)条件交叉熵中的权值是p(y,x),不是p(y|x),在实际应用中,在全部两个样本空间上做累加通常不是很方便,因此常常简化使用如下公式:Hp(p)=-y,x p(y,x)log2p(y|x)=-1/|T|i=1|T|log2p(yi|xi)事实上,就是在T上进行累加,然后归一化=-1/|T|log2 i=1|T|p(yi|xi),举例,=a,b,z,概率分布(估计值)p(a)=0.25,p(b)=0.5,p()=1/64,c,r,p()=0,s,z测试数据为:barb,p(a)=p(r)=0.25,p(b)=0.5在上做累加 a b c d q r s z-p()log2p()0.

24、5 0.5 0 0 0 1.5 0 0=2.5也可以在测试数据上进行累加,然后归一化si b a r b-log2p(si)1 2 6 1=10(1/4)10=2.5,交叉熵的使用,不是比较数据,而是比较分布如果我们有两个分布p和q,哪一个更好呢?面对“真实数据”S,p和q谁的交叉熵低,谁就更好HT(p)=-1/|S|log2 i=1|S|p(yi|xi)HT(q)=-1/|S|log2 i=1|S|q(yi|xi),数据集分类,训练集Training Set用来获得模型参数测试集Testing Set从训练集以外独立采样反映系统面对真实世界的处理能力测试集经常被无意识地“做了手脚”交叉确认集

25、Cross-Validation Set从训练集和测试集以外独立采样主要用来帮助做设计决策,测试集,测试集从训练集去评价系统的性能,结果往往过于乐观如果模型的参数比需要的多很多时,获得100%的准确率也是可能的过拟和(Over-fitting)常常出现在训练数据的数量不足以支持模型的复杂程度之时为此,我们需要另一个数据集来模拟用户的真实需要,在设计阶段,不允许偷看测试数据的细节,以保证测试数据不被污染你不能参照测试数据来决定模型的复杂度,特征空间的维数,以及什么时候决定停止训练过程等设计决策可以参照交叉确认数据进行每一个阶段采用一个不同测试集当你试图选择一个最好的方法使测试效果达到最佳时,实际

26、上已经在无意识地使你的系统偏向测试集问题的关键在于测试集并不是真实数据本身,如果面向测试集调整参数,可能造成系统对于从未见过的真实数据效果下降,交叉确认集如果在训练集合上获得了比较差的结果,我们必须重新设计如果在训练集合上获得了比较好的结果,那可能是因为:模型确实好(在测试数据上性能一样会好)模型过拟和(在测试数据上性能会下降)由于不允许使用测试集来改进系统设计,因此需要另一个数据集,性能评价,使用有限的样本进行性能测试有估计误差性能评价的结果和测试数据的大小有关不同数据集的测试结果往往不同性能上限Performance Upper Bound人与人取得一致的指标就是系统性能的上限,联立表(C

27、ontingency table),准确率P(Precision)N11/(N11+N21)召回率R(Recall)N11/(N11+N12)错误率E(Error Rate)(N12+N21)/(N11+N12+N21+N22)F-measure2PR/(P+R),谢谢!,饭卡打开巴士风格反对广泛的,的非官是大苏打 发的发非官方共和国符合国家和国际撒的方大哥 给飞得更高是个搜狗是归属感是搞后呵呵敢死队敢死队敢死队好地方 个地方豆腐花 哈哈动画的发挥和家具风格就 国防军广泛几个房间房管局房管局法国加工费交付给交付给交付给警方根据高房价法国警方交付给,地方官梵蒂冈地方官方的说法暗室逢灯啊,的非官是

28、大苏打 发发射机的骄傲给大家仨个地方大师傅艰苦绝对是九回复肯定是解放后肯定是国防部换个风格大富大贵士大夫但是发交付给,地方大师傅大大规划风格化地方士大夫,时的感到十分的官方电话奖和国家的骄傲还是看见好看的顺丰单号健康博客程序客户贷款空间很大防空识别的看不舒服的看不到看见对方看世界杯的咖啡酒吧的设备发的空降兵反抗波斯的反抗波斯的包括舍不得放开白色的反馈博客大巴是否看不上大夫开博客大巴发,发的高科技恢复的很快就北方港口宾馆饭店,免费感受到覅好的伤口缝合第三部分难道是扩大解放和开始变得反抗集散地和反抗精神美女部门你先吃吧每年从小便考多少分可接受的反抗集散地和付款计划的司法环境快递费还是给客服电话给客

29、服电话高考加分梵蒂冈回复后可见风华高科点击返回高科技,辅导功课变得疯狂进攻的伤口缝合可视电话的生命发表的,但是发布的科级干部科技发达韩国可接受的和都是方面你身边的负面报道随便翻开基本上都李开复倒过来看发动了攻击附加山东南面分别明尼苏达白发魔女十点半分工合理分担和管理费的后果都是免费表面蛋白和风格和规范,我却哦网球饿哦我去哦欸开始的方便快捷,反对蒙蔽动漫被父母电脑设备方面你的身边每年颁发的身份决定胜负看得十分愧疚和第三方没办法每个部门的妇女不敢面对疯牛病而微软微软微软为法国空军东方科技很发达客户给开发经费的士大夫大师傅似的犯得上广泛的和广泛化工艰苦户籍科户籍科,饭卡打开巴士风格反对广泛的,的非官

30、是大苏打 发的发非官方共和国符合国家和国际撒的方大哥 给飞得更高是个搜狗是归属感是搞后呵呵敢死队敢死队敢死队好地方 个地方豆腐花 哈哈动画的发挥和家具风格就 国防军广泛几个房间房管局房管局法国加工费交付给交付给交付给警方根据高房价法国警方交付给,地方官梵蒂冈地方官方的说法暗室逢灯啊,的非官是大苏打 发发射机的骄傲给大家仨个地方大师傅艰苦绝对是九回复肯定是解放后肯定是国防部换个风格大富大贵士大夫但是发交付给,地方大师傅大大规划风格化地方士大夫,时的感到十分的官方电话奖和国家的骄傲还是看见好看的顺丰单号健康博客程序客户贷款空间很大防空识别的看不舒服的看不到看见对方看世界杯的咖啡酒吧的设备发的空降兵

31、反抗波斯的反抗波斯的包括舍不得放开白色的反馈博客大巴是否看不上大夫开博客大巴发,发的高科技恢复的很快就北方港口宾馆饭店,免费感受到覅好的伤口缝合第三部分难道是扩大解放和开始变得反抗集散地和反抗精神美女部门你先吃吧每年从小便考多少分可接受的反抗集散地和付款计划的司法环境快递费还是给客服电话给客服电话高考加分梵蒂冈回复后可见风华高科点击返回高科技,辅导功课变得疯狂进攻的伤口缝合可视电话的生命发表的,但是发布的科级干部科技发达韩国可接受的和都是方面你身边的负面报道随便翻开基本上都李开复倒过来看发动了攻击附加山东南面分别明尼苏达白发魔女十点半分工合理分担和管理费的后果都是免费表面蛋白和风格和规范,我却哦网球饿哦我去哦欸开始的方便快捷,反对蒙蔽动漫被父母电脑设备方面你的身边每年颁发的身份决定胜负看得十分愧疚和第三方没办法每个部门的妇女不敢面对疯牛病而微软微软微软为法国空军东方科技很发达客户给开发经费的士大夫大师傅似的犯得上广泛的和广泛化工艰苦户籍科户籍科,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号