《文档的边界信息与信息边界.ppt》由会员分享,可在线阅读,更多相关《文档的边界信息与信息边界.ppt(49页珍藏版)》请在三一办公上搜索。
1、文档的边界信息与信息边界,张 化瑞北京大学 计算语言学研究所Email:,一、从Google搜索引出问题,05:08,3,有些问题比较复杂,不容易比出高低,比如搜索结果的排序;有些问题相对明晰,通过一定的逻辑分析,不难看出是否合理。比如,如果提问者想了解的是“虎”,而回答者提供的几乎全是关于“猫”的信息,提问者提出质疑,答复是:虎也是猫科,民间也有“猫”是“虎”的师傅的说法,因此,“猫”和“虎”的关系还是非常密切的,按照统一的综合多种因素的相关性排序,“猫”就排在了“虎”的前面,没有进行任何人工调整,所提供的结果是客观的。至于背后的原因,也许有猫比虎多得多(虎已是珍稀动物,猫却正大行其道)、与
2、人的关系友好得多(猫是宠物,虎能伤人)等诸多因素,但提问者无法确定。不过提问者怎么也想不通:为什么问“虎”而答“猫”?,05:08,4,近来U盘病毒相当猖獗,作者在分析U盘病毒的传播机制时,发现AutoRun.inf是一个关键的环节,如果能把它变成一个个性化的名字,就能够防止病毒借其自动运行。为此查找相关工具,发现一个名叫CodeFusion的软件。搜索表达式 CodeFusion 使用 查出来的几乎都是关于ColdFusion的(前10个中的前9个),搜索表达式 CodeFusion是什么 的结果更是如此,前10个都是关于ColdFusion的,甚至前100个中都没有关于CodeFusion
3、的,见图(a).搜索表达式 whats codefusion 也是相差无几,见图(b).值得注意的是该图中的提示信息“您是不是要找:whats coldfusion”,这说明Google很清楚用户现在查的不是coldfusion,而且要返回关于coldfusion的结果也应该在用户点击确认之后。从这两个例子可以看到,不管中文英文,字符集的大小,都有这个问题。,05:08,5,05:08,6,05:08,7,那会不会是因为有人用CodeFusion制作破解补丁而被列为不受欢迎的软件呢?CodeFusion只是一个补丁制作工具,完全不具备恶意软件的特征,没有任何理由封杀。就像菜刀在罪犯手里也可能成
4、为凶器,并不能因此就不让人们使用菜刀。事实上,单独搜索 codefusion 出来的都是和CodeFusion相关的,而且数以万计,这也说明Google并没有屏蔽codefusion,因此前面的结果就更能凸显出Google搜索模型的问题所在。,05:08,8,05:08,9,05:08,10,Google的解释,在Google提供的帮助“我的搜索结果:搜索字词不在网页上”:有时,Google 会将不包含您搜索的文字或词组的网页列入您的搜索结果。即使进行词组搜索也可能会出现这种情况。在评估网页的价值和相关性时,Google 不仅会考虑网页本身,还会考虑指向此页的链接的定位文字。如果指向网页的链接
5、包含您搜索的词组,Google 可能会将此网页作为符合查询的匹配项返回。如果发生这种情况,网页的网页快照会显示这些字词仅在指向此页的链接中显示。,05:08,11,Google的解释(2),如果您关注的问题是搜索结果中的某网页并未包含您搜索的短语,建议您与链接该网页的网站管理员联系。如果链接网站的管理员受理了您的请求,下次抓取后我们的搜索结果会反映这些更改。,05:08,12,因为统一,更有问题,这说明Google认为其这样做是合理的,是为了更准确更有效地评估网页的价值和相关性。但我们看到的情况好像不是这样。正是由于Google统一用算法来排序而不进行单独调整,一旦出现典型性的反例,才更能说明
6、其搜索模型中的带有普遍性的问题。,二、从信息定义划分边界,05:08,14,Shannon定义,在Shannon(1948)的通信模型中,更多的关心的是编码/解码的技术层面,是关于信息的形式(语形)的,committer和receiver可以理解为“发报人/发报机”和“收报机/收报人”构成的“人 和/或 机”的人机系统,完成“消息”和“信号”之间的转换工作(编码/解码),凡是和语义相关的部分都是由其中的“人”来完成的。*Shannon,C.A Mathematical Theory of Communication.Bell System Technical Journal,27(1948),
7、379-423,623-656.,05:08,15,Jakobson定义,在Jakobson(1960)的通信模型中的sender和receiver已经是“发送者”和“接收者”,形成了潜在的“作者”和“读者”模式。*Jakobson,R.Linguistics and Poetics,in Style in Language,MIT Press,1960,350-377.,05:08,16,谢清俊 定义,谢清俊、谢瀛春则更明确地把传播过程中的“创作端”和“接收端”作为定义信息的两个基本立场,“作者”情境和“读者”情境的划分非常清晰。*谢清俊,谢瀛春.一个通用的资讯(信息)定义.(A Gener
8、al Definition of Information.)http:/pnclink.org:8080/pnc2006/A_General_Definition_of_Information.pdfpnclink.org:8080/pnc2006/Presentation%20material/keynote%20speech%20-C.C.%20Hsieh.pdf,05:08,17,作者/读者 权限,在创作端,作品内容是由作者构造的,作者对作品内容具有控制权;在接收端,作品内容是由读者解析的,读者对作品内容必须有知情权。作者可控、读者可知,这是对传播中的信息内容的最基本要求。以此作为内部信
9、息/外部信息划分的一个标准。,05:08,18,作者可控/读者可知,返观指向网页的链接文字,在通常情况下,不经非常的额外努力,是作者不可控的、读者不可知的,因而是和这一非常浅显的原则相背离的。,05:08,19,博客/评论,此时应该是博主为第一作者,评论者为联合作者,仍然是作者可控、读者可知的,和这一原则并不相违。如果是在另一个博客上的独立评论,就应该算作链接,不能再归入文档内容。BBS上的同主题合集与该问题类似。,05:08,20,硬性/软性 指标,链接信息并非不可用,但它只宜作为软性指标,用来调整(0,1)间的相关度,而不宜用作硬性指标来判断0,1相关性。让上帝的归上帝,凯撒的归凯撒。,三
10、、边界信息的分层,05:08,22,边界信息,语言态语种字数数字态 文件类型文件长度网络态地域时间,三层作者:语言化作者数字化作者网络化作者三个时间三个地域,内,外,押韵难度的计量考察(与定性讨论),张 化瑞北京大学 计算语言学研究所Email:,一、定义与解释,05:08,25,押韵的形与意,和而不同汉字:主元音之后相同,之前有异英语词:重读音节的元音之后相同,之前有异 险而能平“带着脚镣跳舞”难度越大,语意犹畅,技艺越高,05:08,26,定义,给定:把所有押韵的字/词归为n个韵部(比如,30个)fi 是第 i 个韵部ri中的字/词出现的次数N为所有字/词的个数 那么 择韵自由度RF,可以
11、由以下公式计算:,05:08,27,择韵自由度公式,RF=fi(fi-1)/N2 其中fi 为第i个韵部的频次(type或token)N 为总频次,05:08,28,押韵难度公式,RD=1/RF=N2/fi(fi-1)即押韵难度为择韵自由度的倒数,05:08,29,押韵难度指数,IRD=log2RD=-log2RF 即押韵难度指数为押韵难度的以2为底的对数,单位为比特(bit).,05:08,30,直观意义上的解释,押韵,同一韵部至少要有两个字/词,才可能成立,因此(fi-1)使独韵字词对押韵不产生直接的正面贡献(但有间接的负面贡献,推到极端,就是如果所有词都不押韵,则押韵难度为无穷大)。,0
12、5:08,31,几种特殊情况,如果是散文,完全不要求押韵,则择韵自由度为1,押韵难度指数为0。如果不要求严格押韵,但要求尾字平仄相对,则择韵自由度约为1/2,押韵难度指数约为1bit。如果不要求严格押韵,但要求尾字押调,则择韵自由度约为1/4,押韵难度指数约为2bit。,05:08,32,为什么不是指数熵,指数熵:exppilog(1/pi)相当于 1/pi 的加权几何平均值考察一种极端情况:如果一个韵部出现100次,另外100个韵部各出现一次,按熵计算,平均下来,相当于每个韵部出现10次的难度,05:08,33,为什么不是熵(2),显然,极低频韵起的作用被放大了相当于 1/pi 的加权几何平
13、均值实际上:应该是,由于1次的韵无法相押,等于初次选择的范围缩小了1/2,再次选择的范围也缩小了1/2,总难度提高为原来的4倍。,押韵难度的计算与讨论,05:08,35,押韵难度的取值范围,可以证明,择韵自由度恒小于等于1.因此,押韵难度恒大于等于1.进而,押韵难度指数恒大于等于0.为0时表示没有任何难度,也即没有任何限制,05:08,36,汉语的情况,诗韵:广韵,平声57韵的押韵难度约为40.平水韵,平声30韵的押韵难度约为24.诗韵新编,平声18韵的押韵难度约为12.Q:从平水韵到诗韵新编,押韵难度降低了一半?,05:08,37,减半 还是 未变?,Q:从平水韵到诗韵新编,押韵难度降低了一
14、半?如果从严格押韵的意义上来说,应该是几乎未变:平声分化成了阴平和阳平,押韵难度又增加了将近一倍不能因为对古韵的追求,降低对今韵的要求,05:08,38,减半 还是 未变(2)?,Q:从广韵到平水韵,押韵难度降低了将近一半?如果从近似押韵的意义上来说,应该是变化不大:特别是以平水韵判唐诗,几乎都能入范,这说明只有合,几乎没有分和转,更多的是标准的宽严而非语音的演变怎样看待近似押韵?,05:08,39,一个例子:但丁的神曲,用意大利语写成,押三联韵中文韵译,只有神曲一脔英文韵译,两种,均为近似,E,E,E,E,E,05:08,40,Robert Pinskys translation,Midwa
15、y on our lifes journey,I found myself In dark woods,the right road lost.To tellAbout those woods is hard-so tangled and roughAnd savage that thinking of it now,I feelThe old fear stirring:death is hardly more bitter.And yet,to treat the good I found there as wellIll tell what I saw,thought how I cam
16、e to enterI cannot well say,being so full of sleepWhatever moment it was I began to blunder,05:08,41,Dorothy L.Sayers translation,Midway this way of life were bound upon,I woke to find myself in a dark wood,Where the right road was wholly lost and gone.Ay me!how hard to speak of it-that rudeAnd roug
17、h and stubborn forest!the mere breathOf memory stirs the old fear in the blood;It is so bitter,it goes nigh to death;Yet there I gained such good that,to conveyThe tale,Ill write what else I found therewith.,05:08,42,钱稻孙先生的神曲一脔,方吾生之半路恍余处乎幽林,失正轨而迷误。道其况兮不可禁林荒蛮以惨烈言念及之复怖心!戚其苦兮死何择:惟获益之足谘,愿覼缕其所历。,05:08,43
18、,神曲中的高频韵,ia:648io:393ura:153ente:133etto:131ai:118ue:116enti:111ore:108era:107,05:08,44,神曲的押韵难度,约为160.(指数:7.3bit)译文押韵更难,因为同时受到原文和押韵的约束,其择韵自由度无疑大大减小因此有译诗是否应该押韵之争。实际上不是该不该的问题,而是能不能的问题远高于中文的押韵难度结果中文有韵译低于英语的押韵难度难不在三联韵,而在有原文,进一步的工作,05:08,46,进一步的工作,押韵近似性的度量相押是一种相容关系,而不是等价关系(传统研究大多当作等价关系对待)比如i和y相押,u和y相押,但i和u从不相押语义模糊性的度量,05:08,47,进一步的工作,其它语言的押韵难度的计算 英语日语非常特殊的一点:日语诗歌基本上都不押韵,05:08,48,进一步的工作,形成一个统一的指标体系押韵难度均根匀度指数熵,05:08,49,一个开放问题,诗意的度量形式还是意义风格还是内容,