资讯检索与知识探勘.ppt_三一办公31ppt.com

资源描述

《资讯检索与知识探勘.ppt》由会员分享，可在线阅读，更多相关《资讯检索与知识探勘.ppt（99页珍藏版）》请在三一办公上搜索。

1、資訊檢索與知識探勘,簡介主題檢索關聯分析自動分類自動歸類自動摘要時間事件分析系統展示結語,曾元顯數位媒體中心國立台灣師範大學,文件資訊探勘,（text mining,knowledge discovery in text）意義：擷取隱晦、有用、未被發掘、有潛在價值的資訊或知識互動、反覆的過程來探索文件庫以發現新的、有趣的訊息或規律依賴人工解讀結果，使發現的訊息變成有用的資訊或知識具體項目（工具）：資訊檢索、擷取、關聯、摘要、歸類、分類、時間事件分析應用：資訊搜尋、知識萃取、知識管理、犯罪分析、案例追蹤使用的技術：資料庫管理技術、統計、機器學習、人工智慧、資訊視覺化、資訊科學、圖

2、書館學、簡單的文字處理工具、處理流程的彈性串連考量的因素（面臨的挑戰）：要能處理大量資料要能快速回應、提供互動性多面向、多維度的分析高階、視覺化的使用介面,主題檢索,意義：根據使用者的資訊需求，找出符合需求之文件或文字應用：前案檢索、相似案例檢索（技術專利、法院判例）案例比對案例關聯案例分類案例歸類案例時間事件分析使用技術：information retrieval、NLP、machine learning,自動索引,意義：對文件、詞彙進行分析、轉換、組織便於有效率的高階運用應用：檢索、關聯、分類、歸類、摘要、趨勢分析等工作的核心運算與結構使用的技術：Hash,trie,B-tree,fast

3、 sorting,data compression,Stemming,stopwords,ngrams,Authority control,thesaurus,topic map,ontology,Natural language processing,machine learning,File format parsing,language identification,Security control,user control,access control,robot,Support for different OSs,DBMS,platforms,資訊檢索的問題,字串不匹配（vocabu

4、lary mismatch）：查詢詞與文件記載(或索引詞)不同同義：筆記型電腦vs筆記本電腦(形似)，閣揆vs行政院長廣狹義：攜帶型vs掌上型，使用者需求差異大：同樣的檢索詞，但相關的文件會因人而異Known item search已知作者、人名；已知文件內的字串：嘿嘿嘿、這我不聽他的Unknown item search：無法精確表達查詢字串：人名、地名、機構名、專有名詞、特定領域名稱不知如何表達查詢字串：晶圓代工的發展前景、電視廣告對兒童的影響領域需求差異大：斷詞需求、查詢功能中醫工會：治虛寒，五香、加八角、加薑，加味米酒社文中心：Deng Xiaopings legacy 資料本身不一致

5、、不乾淨，檔案格式差異大民83年 vs 1994、年代日期格式不同異常標點符號、字碼、dash、single quote資料誤植、OCR 雜訊文字Data cleaning is required文件格式、資訊架構、作業環境需要解各種檔案格式：HTML、XML、Office、PDF、ZIP、EMAIL、BBS 資訊來源與權限控管：File systems、DBMS、Web、Notes,檢索系統的五個面向,可從這五點瞭解及預測核心檢索系統的表現（未考慮文件格式、權限控管、資訊架構）索引詞模式檢索模式權重模式索引檔結構查詢模式,索引詞模式,檢索系統建構索引詞所依據的方法關係系統比對查詢字串的能力以

6、詞彙為主（word-based）前組合詞庫更新不及、或涵蓋範圍不足，會有找不到資料的情形以字元為主（character-based）後組合中國會索引成中及國比對到含中國、國中或開發中的國家等文件N-gram索引法N-gram為文件中任意N個連續字元中國社會N=2時產生中國、國社、社會三個索引詞可排除或降低字元法中類似中國與國中的字串順序問題可省去詞彙法中維護詞庫的煩惱,檢索模式,系統比對檢索條件與相關文件的依據布林模式優點：速度快、檢索者可完全控制檢索過程，並預測檢索結果對需求明確的檢索（如明確的作者名、題名）非常有效缺點：結果沒照符合程度排序、一般使用者較難表達複雜查詢條件向量模式轉換文件及

7、查詢語句到向量空間後比對相似度，常用餘弦夾角（cosine）例：李遠哲院長、李院長遠哲兩詞，以（李，遠，哲，院，長，李遠，遠哲，哲院，院長，李院，長遠）為維度，得（1,1,1,1,1,1,1,1,1,0,0）與（1,1,1,1,1,0,1,0,1,1,1）兩向量餘弦夾角為7/9=0.78，在最高值為1的度量中，相似度為0.78可允許使用者輸入任意字串，查詢時不必受資料誤植、錯字、冗字的限制可概略稱為近似字串查詢、容錯查詢、或是模糊搜尋（fuzzy search）、近似自然語言查詢或自然語言查詢機率模式將查詢詞彙與相關文件的不確定性，以機率描述並加以運算亦可做到向量模式的查詢效果，兩者不同處在基

8、本假設與運算模式,向量權重模式,指定索引詞與查詢詞權重的方式權重因素:term frequency(TF)inverse document frequency(IDF)document length(normalization)positional informationNumber of hyperlinks(in-wards or out-wards)常用乘法原則將這些因素組合（不是很精確的作法）查詢詞：詞長、詞頻tf*(3w-1),where w is the length of the term文件詞：詞頻、文長、文件篇數TF*IDF=log(1+tf)*log(N/df)Docume

9、nt length normalization:byte size for document terms vs Cosine,索引檔結構,加快檢索的速度、影響檢索的成效反向索引檔(inverted file)記錄每個索引詞及其出現文件的編號，可直接取得包含某索引詞的所有文件特徵檔（signature file）將文件中編碼成0與1組成的特徵向量，檢索時，第一階段經特徵檔運算，過濾掉不可能的文件，第二階段把誤引（false drop）的文件剔除特色：可快速大量非相關文件的過濾索引建構速度快，漸進式索引（incremental indexing）製作容易隱含語意索引法（latent semanti

10、c indexing）運用向量空間運算縮減索引詞維度，並關連相關文件的方法文件、檢索條件都以此轉換矩陣轉換到縮減的向量空間，再運算相似度特色：轉換後，相關的詞彙會經由文件所包含的內容而產生關連特殊的搜尋樹B 樹：精確比對、後切截檢索、範圍查詢PAT樹後切截檢索、鄰近字串檢索、範圍查詢、最常出現的字串檢索，以及常規式檢索(regular expression search)等功能適合字典或辭典等較少更新的靜態資料庫,使用者查詢模式的進展,Boolean model/布林邏輯 Ranking/重要性排序 Fuzzy search/容錯式、近似字串、近似自然語言 Relevance feedback

11、/相關回饋、漸進式查詢、範例查詢 Information filtering/資訊過濾Query by dialog/個別化、對話式查詢 Query by voice/語音檢索 Query by natural language/自然語言檢索 Intelligent search agent/時空無礙、虛擬實境的檢索精靈,檢索的其他策略,相關詞提示(Term suggestion)相關詞回饋(Term relevance feedback)查詢詞擴展(Query expansion,relevance feedback),相關詞提示與相關詞回饋,檢索成效，非常倚賴檢索詞的品質從文件資料庫中擷取

12、統計上重要的詞彙，作為相關詞提示（term suggestion）：由互動方式挑取檢索詞相關回饋(relevance feedback)：檢出文件中挑取重要特徵回饋系統相關文件回饋（document relevance feedback）相關詞回饋（term relevance feedback）相關回饋的優點：免除使用者選擇檢索語彙與設計查詢條件的細節，允許建構有用的檢索條件而不用對檢索環境及資料庫有深入瞭解；拆解檢索過程成一步步較小的步驟，可以逐漸逼近所要檢索的主題；提供一個控制的查詢修改過程，終端使用者僅需最少的訓練就可有效而合理的進行檢索相關詞提示：Altavista(LiveTopi

13、c,1996,Java-based Interface)英文單字詞回饋 Excite:about 1997,keyword selling,關聯分析,詞彙關聯：索引典、標題表文件關聯：歸類概念關聯：分類,前言,檢索失敗的主要因素之一：字彙不匹配問題查詢詞與索引詞不相同的情況例:筆記型電腦與筆記本電腦,行政院長與閣揆改進方法：查詢擴展、權威檔、索引典查詢擴展(query expansion)加入更多與查詢主題相關的詞彙，或更改查詢詞的權重權威檔(authority file)記錄及解決同義異名詞的工具索引或檢索時，將各種同義異名詞對應起來，視為相同的詞彙處理,前言,索引典(thesaurus)除

14、同義詞外，還有紀錄廣義詞、狹義詞、反義詞、相關詞等列舉主題詞彙，將詞彙間的語意或主題關係標示出來的知識庫查詢時，可互相推薦，以擴展或縮小查詢範圍，或提示相關概念的不同查詢用語例攜帶型電腦：筆記型電腦、掌上型電腦使檢索從字串比對層次，提升到語意比對層次人工製作索引典，準確度高，但召回率低、成本大、建構速度慢、事先選用的詞彙可能與後續或其他新進的文件無關一般目的索引典運用在特定領域的文件檢索上，無法提升檢索效能針對每一種文獻領域製作索引典，耗時費力,前言,共現索引典(co-occurrence thesaurus)利用詞彙的共現性，自動建構詞彙關聯（term association）或稱關聯詞庫成

15、本低、建構速度快、召回率高、與館藏文件用詞一致，但準確率低詞彙關係：主題相關，不一定語意相關例：李登輝與康乃爾、中華電訊與ADSL,研究方法,文獻探討、技術瞭解、優缺點分析、適用範圍分析歸納重點提出改進方法實驗測試成效比較不同研究之間的比較同一研究內，對照組之比較提出適用情況與應用方向持續評估與改進,相關研究：Salton 89,Salton 曾提出建構共現索引典的架構：算出各個詞彙間的相似度相似度：詞彙在各文件之間，共同出現的情形（或主題相似度）重要的索引詞彙，任兩詞彙皆拿來比對相似度計算量至少 M2，M：所有重要詞彙的個數依此相似度將詞彙歸類成索引典類別(thesaurus classes

16、)（或主題類別）,Tj=(d1j,d2j,dnj),n：所有文件的個數,相關研究：Salton 89,歸類方式，主要有：Complete-link:一開始，每個詞彙（元素），都單獨視為一類兩個類別之間的相似度，若超過某個門檻值，就結合並歸成同一類，如此重複歸類兩個類別之間的相似度，定義為跨類別元素之間相似度最低者易產生多數個索引典類別（thesaurus class），但每類僅有少數個詞彙Single-link:同上述作法，但兩個類別之間的相似度，定義為跨類別元素之間相似度最高者易產生少數個類別，但每類都有大量的詞彙透過共現索引典的查詢擴展，檢索成效的召回率，通常可提升 10%至 20%小結：

17、歸類運算量太大，運用在大量文件上，耗時長久,相關研究：Chen 96,相關研究：Chen(JASIS 95),定義非對稱的詞彙相似度詞彙 Tj 在文件 i 中的權重:詞彙 Tj 及 Tk 在文件 i 中的權重:Cluster_weight(Tj,Tk)Cluster_weight(Tk,Tj)若Tj=Artificial Intelligence,wj=2,相關研究：Chen(JASIS 95),從 4714 文件中(共 8 MB),產生了 1,708,551 個詞對（co-occurrence pairs）由於關聯詞對太多，每個詞，限制其關聯詞數最多100 個，如此刪除了 60%的詞對，剩下

18、 709,659 個詞對（由 7829 個不同的詞組成）產生上述的詞對，在 Sun Sparc 工作站上要花 9.2 CPU 小時、磁碟空間 12.3 MB 成效評估：6個受試者，16 個預選的詞，請每個受試者先就每個詞，聯想出相關的詞彙；再從系統提示的關聯詞，判斷哪些是相關或不相關兩種結果比較，召回率分別為 28.60%與 61.89%；精確率為 77.08%及 24.17%小結：人工聯想精確率高、召回率低；機器產生關聯詞較多、準確度較低,相關研究：Sanderson and Croft(SIGIR99),概念階層的範例：from Sanderson and Crofts paper,相關研

19、究：Sanderson and Croft(SIGIR99),目的：從檢出的文件中自動產生概念階層（concept hierarchies），便利使用者瞭解檢出文件的大致內容第一步：詞彙選擇（決定哪些詞彙要列在概念階層中）:來源 1:檢索結果的前幾篇中比對程度較佳的段落裡，找出常常一起出現的詞彙來源 2:每一篇檢出文件的最相關段落裡，取符合下列條件的詞彙：(df_in_retrieved_set/df_in_collection)=0.1 者平均從 TREC 的每個查詢結果的前 500 篇文件中，擷取出 2430 個詞第二步：詞彙關聯分析:任意兩個詞都拿來做包含關係（subsumption

20、 relationship）比較：P(Tj|Tk)=1 and P(Tk|Tj)=0.8 and P(Tk|Tj)1,if Tj 包含 Tk平均每個查詢擷取出 200 包含對（subsumption pairs）由這些包含對產生概念階層，即包含者為父節點，被包含者為其子節點,相關研究：Sanderson and Croft(SIGIR99),成效評估：測試包含者與被包含者的關聯程度（relatedness）由 8 個受試者判斷，67%包含對被判斷為相關（interesting for further exploring）比較：51%詞彙對（隨意配對，而非用包含關係配對者）被判斷為相關小結

21、：此方法在查詢時才進行，查詢反應時間會受影響提示的詞彙只限於檢索結果的前N篇，不是一個全域索引典（global thesaurus）隨機配對，關聯度高，顯示詞彙選擇的重要性,關聯詞分析,先前的作法共現性的單位為文件兩個詞彙在文件中距離越大，關係密切的可能性越低需要分析的詞對個數多，許多詞對的關聯分析徒勞無功計算量：M2n，M:所有詞彙個數,n:所有文件個數例：n=10,000,M=10,000(M=1000),計算量：1012(1010)新的作法共現性的單位縮小到段落或句子需要分析的詞對個數少計算量：K2Sn，K:文件關鍵詞數,S:文件句子數,n:同上例：n=10,000,K=30,S=2

22、0,計算量：6x106,關聯詞分析：新的方法：Tseng 2002,主要分二個步驟：擷取個別文件的關鍵詞關鍵詞的關聯分析與累積關鍵詞擷取關鍵詞：文件內有意義且具代表性的詞彙關鍵詞：呈現文件主題意義的最小單位各種文獻自動化處理的必要步驟。關鍵詞的認定是主觀的判斷，不利於電腦的自動處理重複性假設：如果文件探討某個主題，那麼應該會提到某些特定的字串好幾次具有客觀性、可自動處理假設簡單，可適用於不同領域,關聯詞分析：新的方法：Tseng 2002,第一步：詞彙選擇：每篇文件先用詞庫（長詞優先法）斷詞再由關鍵詞擷取演算法擷取關鍵詞（至少出現2次者）（包含新詞）以停用詞過濾擷取出的關鍵詞，並依詞頻

23、（term frequency）高低排序選詞頻最高的 N 個詞作關聯分析第二步：詞彙關聯分析:每篇文件選出來的詞，以 DICE公式計算兩個詞彙的權重wgt關聯詞的權重超過門檻值（1.0）者，才依下面公式累積其權重關聯詞的最後相似度定義為：原方法：僅單純累加每對關聯詞的權重新方法：加入 IDF(inverse document frequency)及詞彙長度,關鍵詞自動擷取方法,比較：詞庫比對法：詞庫需持續維護更新統計分析法：容易遺漏統計特徵不足者文法剖析法：需詞庫、詞性標記等資源與運算適合作為關鍵詞的名詞片語少於 50%Arppe 1995,關鍵詞自動擷取方法 Tseng 97,9

24、8,99,2000,找出最大重複出現字串（maximally repeated pattern）的演算法token:一個中文字（character）或英文字（word）n-token:輸入文字中，任意連續的 n tokens（與 n-gram 類似）演算法三步驟：步驟一:轉換輸入文字成 2-token 串列步驟二:依合併規則重複合併 n-tokens 成(n+1)-tokens，直到無法合併步驟三:依過濾規則，過濾不合法的詞彙,關鍵詞自動擷取過程範例,輸入文字:“BACDBCDABACD”,假設門檻值=1步驟一:產生 L=(BA:2 AC:2 CD:3 DB:1 BC:1 CD:3 DA:1

25、 AB:1 BA:2 AC:2 CD:3)步驟二:token 合併:第一次:合併 L 成 L1=(BAC:2 ACD:2 BAC:2 ACD:2)丟掉:(BA:2 AC:2 CD:3 DB:1 BC:1 DA:1 AB:1 BA:2 AC:2 CD:3)留住:(CD:3)第二次:合併 L1 成 L2=(BACD:2 BACD:2)丟掉:(BAC:2 ACD:2 BAC:2 ACD:2)留住:(CD:3)第三次:合併 L2 成 L3=()丟掉:()留住:(CD:3 BACD:2)步驟三:無須過濾,關鍵詞自動擷取範例 Tseng 2000：英文範例,Web Document Clustering:

26、A Feasibility DemonstrationUsers of Web search engines are often forced to sift through the long ordered list of document returned by the engines.The IR community has explored document clustering as an alternative method of organizing retrieval results,but clustering has yet to be deployed on the ma

27、jor search engines.The paper articulates the unique requirements of Web document clustering and reports on the first evaluation of clustering methods in this domain.A key requirement is that the methods create their clusters based on the short snippets returned by Web search engines.Surprisingly,we

28、find that clusters based on snippets are almost as good as clusters created using the full text of Web documents.To satisfy the stringent requirements of the Web domain,we introduce an incremental,linear time(in the document collection size)algorithm called Suffix Tree Clustering(STC),which creates

29、clusters based on phrases shared between documents.We show that STC is faster than standard clustering methods in this domain,and argue that Web document clustering via STC is both feasible and potentially beneficial.?,Terms extracted before filtering1.clusters based on:32.document clustering:33.of

30、Web:34.on the:35.search engines:36.STC is:27.Web document clustering:28.Web search engines:29.clustering methods in this domain:210.requirements of:211.returned by:2,Terms extracted after filtering1.clusters based:32.document clustering:33.Web:34.5.search engines:36.STC:27.Web document clustering:28

31、.Web search engines:29.clustering methods in this domain:210.requirements:211.returned:2,關鍵詞自動擷取範例 Tseng 2000：中文範例,Comparison of Three Metadata Related Standards 在本文中，我們介紹了三個跟 metadata 相關的標準，它們分別是 FGDC 的 Digital Geospatial Metadata、Dublin Core、和 URC。雖然它們各有自己的設計目標和特質，但都是假設其操作環境為類似網際網路的環境。FGDC 的 Digit

32、al Geospatial Metadata 是設計來專門處理地理性資料，由於它有聯邦行政命令的支持，可說是已成為美國在地理方面的資料著錄國家標準。Dublin Core 則比較像是 USMARC 的網路節縮版，使非專業人士也能在短時間內熟悉和使用此格式來著錄收藏資料，但在現階段祇針對類似傳統印刷品的電子文件。由 IETE 的 URI 工作小組所負責的 URC，其原始的設計目的雖是用來連結 URL 和 URN，但為因應電子圖書館時代的要求，其內含逐漸擴大，雖然尚在發展中，但由於有 IETE 的支持，未來成為網際網路上通用標準的可能性極大。在此文中，我們也從幾個不同角度，分析和比較這三個 met

33、adata 格式的異同和優缺點。,Terms before filtering1.設計:32.資料:33.網路:34.標準:35.Dublin Core:26.FGDC 的 Digital Geospatial Metadata:27.IETE 的:28.三個:29.文中:210.比較:211.它們:212.由於:213.地理:214.成為:215.我們:216.的支持:217.的設計目:218.格式:219.著錄:220.電子:221.網際網路:222.環境:223.雖然:224.類似:2,Terms after filtering1.設

34、計:3(design)2.資料:3(data)3.網路:3(network)4.標準:3(standard)5.Dublin Core:26.FGDC 的 Digital Geospatial Metadata:27.IETE:28.三個:2(three)9.文中:2(in the article)10.比較:2(comparison)11.它們:2(they)12.由於:2(owing to)13.地理:2(geography)14.成為:2(become)15.我們:2(we)16.支持:2(support)17.設計目:2(incorrect term)18.

35、格式:2(format)19.著錄:2(record)20.電子:2(electronics)21.網際網路:2(Internet)22.環境:2(environment)23.雖然:2(although)24.類似:2(similar),關鍵詞自動擷取範例 Tseng 2000:直接運用於日文,關鍵詞擷取成效評估,評估資料：100篇台灣新聞（抓自2000年6月3日中國時報網站）結果：平均每篇文件有 33 個關鍵詞平均每篇文件有 11(33%)個關鍵詞不在詞庫中（含 123,226 個詞）相異的關鍵詞總共 2197 個其中有 954 個詞（954/2197=43%）不在詞庫中

36、954 個詞中有 79 個是錯誤不合法的詞（人工檢視結果），錯誤率 8.3%整體錯誤率則為 3.6%(=79/2197),單篇文件關鍵詞擷取範例,BMG Entertainment與Sony Music計畫在Internet 上銷售數位音樂。（美國矽谷/陳美滿）根據San Jose Mercury News報導指出，BMG Entertainment計畫在6月上旬或中旬開始在Internet 上銷售數位音樂。消費者將可直接將音樂下載至PC，而無需購買CD或錄音帶。該公司為執行上述計畫已與多家高科技廠商合作，包括IBM、Liquid Audio與Microsoft。BMG隸屬於Bertelsma

37、nn公司。另外，Sony Music也將於下週一宣佈該公司計畫於本月底開始提供數位音樂下載。消費者將可在手提裝置上聆聽下載來的數位音樂。此項數位音樂下載將是市場上首項具有防止盜錄功能的產品。網路音樂市場在過去幾年已顯現市場潛力，主要拜MP3規格之賜。,1:音樂(7)2:數位音樂(5)3:下載(4)4:計畫(4)5:BMG(3)6:Music(2)7:Sony Music(2)8:Entertainment(2)9:BMG Entertainment(2),關聯詞分析：新的方法：Tseng 2002,第一步：詞彙選擇：每篇文件先用詞庫（長詞優先法）斷詞再由關鍵詞擷取演算法擷取關鍵詞（至少出

38、現2次者）（包含新詞）以停用詞過濾擷取出的關鍵詞，並依詞頻（term frequency）高低排序選詞頻最高的 N 個詞作關聯分析第二步：詞彙關聯分析:每篇文件選出來的詞，以 DICE公式計算兩個詞彙的權重 wgt：關聯詞的權重超過門檻值（1.0）者，才依下面公式累積其權重關聯詞的最後相似度定義為：原方法：僅單純累加每對關聯詞的權重新方法：加入 IDF(inverse document frequency)及詞彙長度,關聯詞擷取效率比較,Chen 95 96 的方法：4714 文件,8 MB,費時9.2小時取出 1,708,551 個關聯詞對限制每個詞的關聯詞數最多100 個，共

39、刪除了 60%的詞對2GB文件，費時 24.5 CPU小時，產生4,000,000個關聯詞對Tseng的方法：336,067 新聞文件,323 MB費時約 5.5 小時，擷取出11,490,822 個關鍵詞全部關聯詞數:248,613,平均每個詞有9個關聯詞2004:NTCIR 38萬篇中文新聞文件，51分鐘斷詞、索引詞擷取、關鍵詞擷取、關聯詞分析、反向索引檔建立,關聯詞應用範例（1/3）,關聯詞應用範例（2/3）,關聯詞應用範例（3/3）,關聯詞排序,關聯詞可按三種方式排序強度：即關聯詞共現性的強度詞頻：按關聯詞出現的文件篇數（df）排序，df 越高者，排在越前面時間：按關聯詞出現在最近文件

40、的次序排序目的：讓最近才出現的關聯詞不必累積到足夠大的強度，即可排序在前面如：李登輝的關聯詞中，出現康乃爾，因為李登輝最近又重訪康乃爾對具有時間事件的文件集可能很重要關聯詞提示的順序不同，使用者感覺的關聯度不同,關聯詞排序,查詢詞古蹟的關聯詞，依詞頻,時間,強度排序,關聯詞成效評估,目的瞭解查詢詞與其提示的關聯詞之間的關聯(relatedness)情況以兩種方式評估：直接計數前N（50）個被受試者判定為有關聯的關聯詞數優點：簡單，可回溯比較缺點：不能細微區分排序的差異以精確率與召回率評估哪一種排序方式較好計算平均精確率的程式為 TREC及NTCIR用的 trec_eval 程式評估方式：邀請5

41、位研究所同學，就30個查詢詞（每人6個），從系統提示出來的前50個關聯詞中，判斷是否跟查詢詞相關,trec_eval 的部分輸出,Queryid(Num):4（即查詢詞：古蹟）Total number of documents(terms)(for 古蹟)Retrieved:50 Relevant:43 Rel_ret:35(即找到且被判斷為相關者）Interpolated Recall-Precision Averages:at 0.00 1.0000 at 0.10 1.0000 at 0.20 1.0000 at 0.30 0.9412 at 0.40 0.9130 at 0.50

42、0.8800 at 0.60 0.8438 at 0.70 0.7949 at 0.80 0.7447 at 0.90 0.0000 at 1.00 0.0000 Average precision(non-interpolated)for all rel.terms 0.7315（單一查詢的平均精確率）,Precision:At 5 terms:1.0000 At 10 terms:1.0000 At 15 terms:0.9333 At 20 terms:0.9000 At 30 terms:0.8333 R-Precision(precision after R(=num_rel for

43、 a query)docs retrieved):Exact:0.7442,關聯詞成效評估,從25233篇新聞文件中擷取關聯詞結果：排序詞頻時間強度關聯比例48%59%69%平均精確率0.3020.4030.528詞頻最差，因為高頻詞，代表的主題較範圍較大，以致於跟任何查詢詞的關係都不大結論：依強度排序的效果最好比較：(Sanderson&Croft SIGIR99)關聯比例：67%,結語,共現索引典（關聯詞庫）的優點快速呈現館藏文獻內容，具備主題摘要效果提供館藏內容的有效瀏覽即時反應館藏文件索引、查詢用詞，降低字彙不匹配問題提供非專業使用者專業的導引共現索引典（關聯詞庫）的缺點館藏文獻沒記

44、載、或統計不足的關聯詞無法擷取如：紅樓夢與石頭記關聯屬性沒有標示,中文互動式檢索輔助功能之效益評估以關聯提示詞為例-葉佳昀,2004年以相同文件、相同查詢詞、不同受試者重複實驗小文件集25233篇中文件集15,4720篇小文件集的相關比例為 69.87%中文件集的相關比例為 78.33%文件越多，效果越好30個查詢詞,NTCIR 中文主題檢索成效,012:導演，黑澤明012:查詢日本導演黑澤明的生平大事,國內系統類似功能,自動分類(Classification),意義：將文件按主題自動分配到已定義的類別自動對文件給定某種標籤（labeling）排序、組織文件將非結構化文字訊息，轉成結構化便於

45、利用的資訊相關的處理：自動資訊過濾（information filtering）將新到文件按使用者需求，分送給使用者自動歸類（clustering）將主題相同、或描述同一事件的文件自動歸成一類，而沒有事先定義類別的需要、或限制,Automatic Text Categorization,Text Categorization(document classification)Given a text document,generate some predefined categories based on its content(or topics)The categories may just

46、 be some labels that are irrelevant to the meanings of the documentEx:a high-tech report without talking about confidential materials may be labeled as“confidential”Thus it can also be considered as a“document labeling”taskAutomatic Text CategorizationGenerate the categories by a machine,Human Categ

47、orizerorMachine Classifier,Document,Labels,Applications,Collection sorting or browsing by topicsWeb directories of Yahoo,Kimo,OpenfindTopic-based retrieval keyword-based searches under some topicsDocument managementstorage,access,filing,especially for physical paper documentsEmail,web page filtering

48、Spam filtering,confidential message filteringSexual,violent,filthy web page filteringRouting,information disseminationText mining,knowledge discovery,Approaches,Rule-based:semi-automatic rule inductionbased on some human-crafted rules or knowledgeEx:Area classification(Taiwan,China,US,UK,)“A report

49、about software industry in Silicon Valley”belongs to“US”Learning from training data:fully automatic rule inductionWhen the rules are hard to induce and when there are documents that have been labeled by experts,the knowledge of how to classify documents is all in the training data;machine classifier

50、s can be trained to learn the implicit rules,分類流程圖,主題分類範例,Computation behind the Scene,Each document was parsed into a set of keywordsEach keyword is evaluated to get its weight in each category based on a set training documents,Automatic Rule Induction,Human Categorizer(human knowledge),Document,La

展开阅读全文