《索引典与资讯检索》PPT课件.ppt

上传人:小飞机 文档编号:5641088 上传时间:2023-08-05 格式:PPT 页数:28 大小:199.99KB
返回 下载 相关 举报
《索引典与资讯检索》PPT课件.ppt_第1页
第1页 / 共28页
《索引典与资讯检索》PPT课件.ppt_第2页
第2页 / 共28页
《索引典与资讯检索》PPT课件.ppt_第3页
第3页 / 共28页
《索引典与资讯检索》PPT课件.ppt_第4页
第4页 / 共28页
《索引典与资讯检索》PPT课件.ppt_第5页
第5页 / 共28页
点击查看更多>>
资源描述

《《索引典与资讯检索》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《索引典与资讯检索》PPT课件.ppt(28页珍藏版)》请在三一办公上搜索。

1、1,索引典與資訊檢索,參考資料:黃慕萱,Chap.8蔡明月,Chap.10 黃惠株。淺談索引典。佛教圖書館館訊第五期(民85年 3月)(2004年5月10日)。張嘉彬。索引典及其於資訊檢索上之探討。書苑季刊36期(民87年4月)(2005年5月23日)。,2,簡介,分類法v.s.索引典Thesaurus其希臘與拉丁的字源本義為寶典(A treasury)1947年到1950年間Mooers提出描述語、資訊檢索與資訊檢索系統等專門術語1957年Brownson第一次正式使用索引典這個術語,他認為解決資訊檢索問題的最佳答案,是應用機械化的索引典,3,國際標準的定義,國際標準組織(ISO 2788)

2、一種受控標引語言詞彙,從編製形式上明確顯示概念間的先顯關係(如:廣義和狹義關係)。美國國家標準(ANSI Z39.19-1980)索引典就是將詞與詞組依照同義關係、層級關係及其他關係與附註規定編輯起來,其功能是提供一部標準化的詞彙,供資訊貯存與檢索之用。聯合國科教文組織全球科技資訊系統(UNISIST,UNESCO)索引典可以其功能或結構定義之。就功能而言,索引典是一種控制詞彙的工具,其用途是將文獻、標引人員或系統使用者所用的自然語言,轉譯成更為規範的系統語言(文獻工作語言,資訊語言)。就結構而言,索引典是一部含有特定知識領域的詞彙,詞彙間有語義或從屬上的關係,且詞彙是控制的、動態的。,4,學

3、術界不同階段的定義,索引典的主要功能是將詞彙依字母順序排列索引典編纂詞彙並顯示詞彙間之同義關係、階層關係或其他關係,藉以提供資訊儲存與檢索一套標準詞彙。索引典應該依據詞彙的意義排列,而不是像字典一樣依據字母順序排列索引典的主要功能是列舉可表達同一概念所有詞彙,藉以協助使用者找出最適合貼切的詞彙來表達他們心中的概念。索引典可以當成人類思路歷程的類比索引典的構造最好和人類大腦的構造一樣,當有一概念產生時,人們可以在自己的思路中尋找最適合的詞彙來表達。,5,綜合各家定義,收集足以表示知識概念的字或詞,以特定結構加以排列控制同義詞,區別同形異義詞,顯現各相關詞彙間階層及語意互屬上的各種關係做為索引者在

4、分析處理資料及讀者在檢索資料時能選用一致的、經過控制的詞彙提供資訊儲存與檢索標準化的用語,6,索引典之目的,在特定的知識領域,提供概念之間的關係指引,幫助標引人員(indexer)及檢索人員(searcher)了解該學科的知識架構。使用者並可藉著詞間關係,由已了解的知識概念來了解新概念的涵義。在特定的知識領域,提供標引人員一套標準化詞彙,確保資料標引的一致性。為了確保資料處理的一致性,索引典為一概念一詞,而其他同義詞則以用代關係指 引。詞與詞之間有明確的詞間關係存在,這些關係能區分各詞在語義網架構中的功能,可作為使用者選擇正確詞彙的指引。當查出的資料太多或太少時,索引典的層級結構可幫助使用者擴

5、大或縮小檢索主題的詞彙範圍。最好能成為該學科的標準用語。,7,索引典之功能,資訊的儲存與檢索提供標準化的語彙,以確保對同一主題,分析及檢索資料時所用的語彙一致Dagobert Soergel認為:索引典的概念結構(conceptual structure)在標引及檢索時能將主題概念表現的恰到好處索引典將同義詞聚集亦有詞彙控制(terminological control)的功能,8,索引典編製基本程序,準備工作詞彙蒐集定詞建立詞間關係編排與展示測試與修正維護與更新,9,準備工作,學科範圍確定資料量及類型詳盡性(exhaustivity)與專指性(speci-ficity)作業表格內容設計,10

6、,詞彙蒐集,經驗法(empirical approach)蒐集該學科的百科全書、字(辭)典、刊物及其他權威性出版品,將出現的詞記錄於作業表格,而後再進行屬性劃分。亦稱石筍式法(stalagmitic)小組匯編法(committee approach)匯編法則是聚集一群學科專家,進行腦力激盪,列出相關詞彙,確定族首詞(top term),再行分族編排。又稱為“鐘乳石法”(stalactitic),11,定詞1/2,按字面排列,將重複詞的所有資料合併於一張卡片,刪除字面重複的詞;但同形異義詞要保留並需以限定語加以說明。採用組面分析方法,將同一概念的詞聚在一起,選出一個常用或正式用法的詞當作選用詞(

7、preferred term),亦稱描述語(descriptor),其他同義詞或類同義詞則當非選用詞(non-preferred term),亦稱非描述語(non-descriptor),以此法消除概念重複的詞,完成定詞工作,12,定詞2/2,選詞原則採用名詞複合名詞形容詞名詞的單數與複數單數特定過程、特性及唯一或不可數的事與物,如painting、conductivity、earth、water複數具實體可數的事與物,如starts、teeth、records若單複數意義不同又必須同時存在,則於其後加上限定語(qualifiers),如painting(entity)、painting(pr

8、ocess),選擇直接款目或間接款目Radar antenna v.s.antenna,radar統一特殊符號Gamma rays v.s.r rays.控制敘述語的縮寫或頭字語COM v.s Computer Output Microform釐定敘述語的不同拼法Theater v.s.theatre,13,建立詞間關係1/3,等同關係 又稱用代關係,參照符號是USE及UF同義(synonyms)指意義完全相同,可互相取代的詞準同義(near-synonyms)指意義相近 意義不同但為了標引目的視為同義的詞 組代關係標引時以數詞組合代表另一概念 描述詞 V.S.非描述詞 範圍註與解說註例如St

9、orage batteries UF Secondary batteriesSecondary batteries USE Storage batteries,14,建立詞間關係2/3,層級關係 又稱屬分、上下或等級關係,參照符號是BT及NT類別屬種(genus-species)集元(set-element)整部(whole-part)多層級(polyhierarchical),判定公式 屬種關係 一些(鳥類)是(鸚鵡),所有(鸚鵡)全都是(鳥類)整部關係(台灣)的一部分是(台北),(台北)是(台灣)的一部分 集元關係 有的(河流)是(長江、黃河),(長江、黃河)一定是(河流),15,建立詞間

10、關係3/3,聯想關係 又稱親緣、類緣或相關關係,參照符號是RT 判定參考原則同一範疇:屬性涵義有部分重疊但非同義的詞可互為RT,如ships和boats。不同範疇:兩詞雖分屬不同的概念體系,但彼此間卻有強烈的提示關係,如學科及對象(林學和森林)。,16,編排與展示,依字順排序依分類排序 依層級排序 依敘述語交替式排序依圖形排序,17,測試與修正,從最近出版的相關刊物上隨機取樣列一雙欄平行的標引工作單,一欄列由隨機取樣文獻中取出之主題詞,另一欄則是由主題詞轉為索引典中最貼切的描述詞標引人員和編製人員根據前述工作單的資料,評斷索引典的詳盡度及專指度,並依此修正檢測詞群架構及詞間關係,18,維護與更

11、新,索引及檢索人員須記錄詞彙使用頻率,利用作業表格記錄新詞彙或舊詞的詞間結構變動情形,然後定期討論,依記錄的資料增(刪)詞或修改詞間關係,19,利用索引典檢索資料之過程-1/2,檢索晤談 對提問進行分析,確定讀者的真正需求 分析的結果轉成索引典詞彙提問主題分析 將概念轉換成索引典中的描述語進行檢索組配 廣義詞檢索 狹義詞檢索 近義詞檢索,20,利用索引典檢索資料之過程-2/2,目的recall ratio v.s.precision ratio 利用索引典的詞間關係檢索 擴檢(Broader Term Search,即廣義詞檢索)縮檢(Narrower Term Search,即狹義詞檢索)聯

12、檢(Related Term Search,即關係詞檢索)族檢(Term Family Search)群檢(Narrower Block Search)邏輯運算,21,索引典應用於資訊檢索上之優點,使用標準的控制詞彙,可以解決同義詞、類同義詞及同形異義詞的問題。促成索引用語與檢索用語的一致性,使得索引作業及檢索作業能以標準詞彙代表各同義詞,避免資料分散與不易查詢。採用前組合的方式編製索引,解決概念錯誤的連結的問題。控制詞彙有良好的結構,使用時可選擇最適當的用語,以提高檢索求全率(recall ratio)與求準率(precision ratio)。容易從事有階層附屬關係的檢索。用語明確一致、清

13、楚固定。可利用參互見結構,得知相關的詞彙。採用控制詞彙方式編製索引,款目較自然語言索引法來得少,故具有高度密集的特性。檢索者負擔輕,不必研究作者可能使用的詞彙,尤其是同義詞的使用。,22,索引典應用於資訊檢索上之缺點,必須由專業人員製作索引,花費較大。必須隨時檢查索引的品質及錯誤。索引人員可能因誤解而導致錯誤的索引,且易因索引者的不一致性產生問題。使用的標準詞彙易於過時,必須隨時更新,維護經費較高。無法隨時增添新的或複雜的概念,更新較困難。索引人員須具備相當的學科背景與訓練,故製作速度較慢。使用者亦必須經過訓練,方會使用。用語受限於索引典,有時稍嫌僵化,不具彈性。用語的表示受到極大的限制。較不

14、具詳盡性。,23,利用索引典檢索資料之評估,結構評價詞彙涵蓋的範圍、顯示方式、易用性、結構的設計、整體結構的嚴密性、功能的成本效益等詞彙評價 詞量多寡、詞組規模(Size of term groups)、等同率(Equivalence ratio)等 使用上的評價 求全率與求準率,24,以索引典為主的系統設計考慮要素,主題範圍資料類型資料量資訊系統類型誰是系統使用者,系統使用人數及頻率問題類型詞彙組合方式資訊系統的資源考慮資訊檢索效率,25,應用於資訊檢索上之發展趨勢1/2,索引典編製標準化第一個具有權威性的標準 1970年UNESCO編製單語科技索引典編製與發展準則ISO 2788:1974

15、單語索引典編製和發展準則的基礎ISO 2788:1986 Documentation-Guidelines for the establishment and development of monolingual thesauri 中國大陸1979年漢語主題詞表GB13190-91漢語敘詞表編製規則GB/T3680-1995 台灣82年6月25日公布西文單一語文索引典編製標準(CNS 13224)分類主題一體化語言Hyper-thesaurus,26,應用於資訊檢索上之發展趨勢2/2,個人化之索引典(personalized thesaurus)讀者自建索引典(user-constructed

16、 thesaurus)將Fuzzy的觀念加入索引典的檢索中 Relevance FeedbackRanking將人工智慧概念應用於索引典的檢索中,27,中文索引典實例,立法資訊系統主題索引典 農委會農業科學資訊服務中心農業科技術語資料庫慈濟文化中心新聞全文資料庫索引典心經索引典淡新檔案索引典,28,西文索引典,LC Thesaurus for Graphic Materials I:Subject Terms(TGM I)MeSHNAL Agricultural Thesaurushttp:/The Astronomy Thesaurus ERIC Thesaurus 從輔大所訂閱的資料庫進入,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号