地名的自动辨识课件.ppt

上传人:牧羊曲112 文档编号:3775049 上传时间:2023-03-21 格式:PPT 页数:33 大小:2.93MB
返回 下载 相关 举报
地名的自动辨识课件.ppt_第1页
第1页 / 共33页
地名的自动辨识课件.ppt_第2页
第2页 / 共33页
地名的自动辨识课件.ppt_第3页
第3页 / 共33页
地名的自动辨识课件.ppt_第4页
第4页 / 共33页
地名的自动辨识课件.ppt_第5页
第5页 / 共33页
点击查看更多>>
资源描述

《地名的自动辨识课件.ppt》由会员分享,可在线阅读,更多相关《地名的自动辨识课件.ppt(33页珍藏版)》请在三一办公上搜索。

1、中國地名、組織機構名稱和英譯名的自動辨識,R94921023 周彥呈,Outline,地名的自動辨識組織機構名稱的自動辨識英譯名的自動辨識,Outline,地名的自動辨識組織機構名稱的自動辨識英譯名的自動辨識,地名的自動辨識,資源地名辨識系統,地名的自動辨識,資源中國地名庫(收錄中華人民共和國地名錄)中國地名用字庫中國地名用詞庫(Ex:水庫、名勝、苗族)二元同現庫(Ex:中國大陸)並列聯繫詞庫(、和 與 並引入可信度)地名指示詞詞庫(在、到、位於、城市、地區)word position basic weight,中國地名用字庫,收錄全部中國地名庫的用字因為用字不集中中國地名庫地名用字在真實文本

2、中的覆蓋情況:可達95%,中國地名用字庫,紀錄該字在地名中出現在中國地名庫的首中尾的次數該字在地名中出現在真實語料的地名的首中尾的次數(與中國地名庫有出入所以須紀錄)該字在真實語料中出現的次數該字做地名首中尾字的使用程度可以訓練例:也、沂(地名出現在首字此數相同,實際使用”也”高出很多),地名的自動辨識,資源地名辨識系統,地名的自動辨識,地名辨識系統地名識別規則庫中國地名辨識系統,地名識別規則,地名識別規則,中國地名辨識系統結構圖,地名辨識範例,1.分詞,地名辨識範例,2.Ps(w)、Pm(w)、Pe(w)Threshold T1=0.005 T2=0.005 T1=0.007,地名辨識範例,

3、3.選出”菜戶營橋”4.收集上下文:位於、下5.推理:用規則確認,左右界確定菜戶營橋中國地名評測語料封閉測試Return rate=93.8%正確率=86.7%,地名的自動辨識的困難,數量大、無規律出現情況複雜到北京、到十二月、到湖鄉中國民間藝術之鄉港、澳同胞湖北京山縣有眼不識泰山老北京最喜歡吃的地名長短:滬vs雙江拉估族佤族布朗族傣族自治縣,Outline,地名的自動辨識組織機構名稱的自動辨識英譯名的自動辨識,組織機構名稱的自動辨識,組織機構名稱的語法性質和語意特性組織機構名稱自動辨識演算法組織機構名稱分析系統組織機構名稱分析系統的改進,語法性質和語意特性,名詞(大部分)|形容詞|序數詞|動

4、詞+機構中心語(名詞)分類地名:北京大學人名:中山大學學科專業、部門系統:電子工業部、教育委員會研究、生產、經營對象:軟件研究所上述綜合:白求恩醫科大學大機構、團體、組織、職業:中國人民解放軍外語學院、中國發明家學會專造的機構名:復旦大學、四通公司創辦工作方式:某某集團、某某股份公司,語法性質和語意特性,|+越是反映事物固定內在本質的定語越靠近中心詞各機構可進一步規範:高校名稱的構造規則-+”大學/學院/院.等”,組織機構名稱自動辨識演算法,組織機構名稱分析系統,組織機構名稱分析系統的改進,附加規則1:首詞為地名且後接有地名人名機構團體或專造名則該地名不包括在高效名稱中。Ex:上海復旦大學、美

5、國華盛頓大學附加規則2:表示地區方位的方位詞(東南西北中)可視為地名或地名的組成部份。Ex:中央音樂學院、中南工業大學附加規則3:高校修飾語不能只含有國家或更大區域的名稱。Ex:中國高中X,組織機構名稱分析系統的改進,前後界定位均正確者Return rate=93.8%正確率=86.7%後界定位正確者Return rate=99.1%正確率=99.4%,Outline,地名的自動辨識組織機構名稱的自動辨識英譯名的自動辨識,英語譯名的自動辨識,英語譯名識別的當用資源英語譯名的自動識別算法,英語譯名識別的當用資源,英語姓名譯名用字表(英語姓名譯名手冊)CC-Only-HeadEx:包牛CC-Not

6、-HeadEx:子琴CC-Only-Tail Ex:生雄CC-Not-Tail Ex:卓強聯想表 Ex:其-奇 汗-漢,英語姓名譯名用字表,英語譯名的自動識別算法,英語譯名的自動識別算法,範例:他對諾貝爾醫學與生理獎獲得者休伯和書塞爾教授的研究成果作出修正靠用字表得出:諾貝爾、生理、得者休伯、書塞爾生-CC-Not-Head 得,者-CC-Not-Head,英語譯名的自動識別算法,範例:任命雷鳥本利斯塔為海軍新聞發布官靠用字表得出:雷鳥本利斯塔為為-CC-Not-Tail,英語譯名的自動識別實測,十萬句隨機抽取1500句含譯名的句子真實譯名有2103個找到2574個潛在譯名裡面1806個正確譯名Return rate=88%正確率=72%可用新英語詞典附錄的常用英語姓名表來提高Return rate和正確率,suah,Thank you,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号