《CATAR-文献内容探勘工具.ppt》由会员分享,可在线阅读,更多相关《CATAR-文献内容探勘工具.ppt(42页珍藏版)》请在三一办公上搜索。
1、CATAR-文獻內容探勘工具,簡介安裝使用解讀案例,曾元顯國立臺灣師範大學2016/02/16,文獻內容分析-簡介,相關學科:Bibliometrics、Scientometrics、InfometricsContent analysis in social science相關期刊JASIST,Scientometrics,Journal of Infometrics相關會議ISSI:International Society for Scientometrics and InfometricsSTI:Science and Technology Indicators,2,文獻內容分析-動機,
2、專利的前案分析,希望能在半天內完成引自類比IC設計製造公司副總經理說法鑑往知來、避開重複、促進創新擷取重點、評估形勢、規劃策略找出特定作者、機構邀請投稿、演講、審查、合作、求助科技政策分析與決策輔助作者、機構、國家生產力分析績效評鑑、經費分配,3,文獻內容自動分析,長期目標:自動掃描相關文獻,分析、組織、呈現提供探索、指引,以供後續驗證、決策相關研究Structured Abstract in library science(1987)Automated structured abstract in biology(2007)專利文獻自動分析(2004,NTCIR)研究文獻中的情緒語意分析(2
3、010,STI)科教領域,4,文獻內容自動分析-工具現況(1/2),CiteSpace陳超美,Drexel University(2003)http:/cchen/citespace/擷取科學論文中自然呈現的聚類顯示典範移轉中的轉折點-類別間的橋樑VOSviewer Nees Jan van Eck and Ludo Waltman(2007)CWTS of Leiden University/,5,文獻內容自動分析-工具現況(2/2),Science Mapping Software Tools:Review,Analysis,and Cooperative Study Among Tool
4、sCobo,et al,JASIST 2011 paper比較九種工具(免費、付費)Bibexcel,VantagePoint,Sci2 Tool,沒有一種工具可以涵蓋其他工具的所有功能這類分析(幾乎)有標準流程(Brner et al 2003)CATAR released in 2010(since 2004),6,CATAR簡介,Content Analysis Toolkit for Academic Research曾元顯,2004-2015http:/samtseng/CATAR/CATAR技術細節:Yuen-Hsien Tseng,Chi-Jen Lin,and Yu-I Lin
5、,Text Mining Techniques for Patent Analysis,Information Processing and Management,Vol.43,No.5,2007,pp.1216-1247.Journal clustering of Library and Information Science for subfield delineation using the bibliometric analysis toolkit:CATAR,Scientometrics,Vol.95,No.2,pp.503-528,May 2013.曾元顯、林瑜一(2011)。內容
6、探勘技術在教育評鑑研究發展趨勢分析之應用。教育科學研究期刊,56(1),129-166。曾元顯,文獻內容探勘工具-CATAR 之發展和應用,圖書館學與資訊科學 半年刊,第 37 卷 第 1 期,頁 31-49,2011年 04月.,7,CATAR分析功能,概觀分析(overview)主題歸類分析(clustering)書目對分析(bibliographic coupling)共現字分析(co-word analysis),8,CATAR安裝,安裝Perlhttp:/Perl modules解壓縮到C:,以便產生C:CATAR目錄C:CATARsrc:程式放置處,命令由此目錄下達C:CATARS
7、ource:待分析資料放置處C:CATARResult:執行結果資料放置處C:CATARdoc:執行過程資料放置處,9,待分析資料的準備,待分析資料的界定(最重要的步驟、第二有價值的部分)關鍵詞搜尋的結果核心期刊的論文綜合查詢的結果(期刊+關鍵詞+年代限制)一篇篇專家確認過的文獻WoK資料的搜尋搜尋技巧與資料下載參考:WoS_Record_Download.ppt,10,ISI WoS Publication Record,FN ISI Export FormatVR 1.0PT JAU Tseng,SC Tsai,CCAF Tseng,Sheng-Chau Tsai,Chin-ChungTI
8、 On-line peer assessment and the role of the peer feedback:A study of high school computer courseSO COMPUTERS SELFAB The purposes of this study were to explore the effects and the validity of on-line peer assessment in high schools and C1 Natl Chiao Tung Univ,Inst Educ,Hsinchu 300,Taiwan.Natl Chiao
9、Tung Univ,Ctr Teacher Educ,Hsinchu 300,Taiwan.RP Tsai,CC,Natl Chiao Tung Univ,Inst Educ,1001 Ta Hsueh Rd,Hsinchu 300,Taiwan.EM,CR ROTH WM,1997,SCI EDUC,V6,P373 DOCHY F,1999,STUD HIGH EDUC,V24,P331 NR 23TC 2PU PERGAMON-ELSEVIER SCIENCE LTDPI OXFORDPA THE BOULEVARD,LANGFORD LANE,KIDLINGTON,OXFORD OX5
10、1GB,ENGLANDSN 0360-1315J9 COMPUT EDUCJI Comput.Educ.PD DECPY 2007VL 49IS 4BP 1161EP 1174PG 14SC Computer Science,Interdisciplinary Applications;Education&Educational ResearchGA 218OFUT ISI:000250024100013ER,Only the fields in red color are used.,Cited References are used in the bibliographic couplin
11、g for topic clustering and citation tracking,11,WoS的重要欄位,AU:作者欄,例:Kainz,H;Hofstetter,HTI:論文標題,例:Adaption of the main waste water treatment plant SO:期刊全名,例:WATER SCIENCE AND TECHNOLOGY。DE:作者給定的關鍵詞,例:large wastewater treatment plant;。ID:論文描述詞,例:WATER;CONTAMINATION;PLANT;。AB:論文摘要,約100-300個英文字。C1:作者所屬機構
12、之國家。CR:參考文獻,例:BALDI F,1988,WATER AIR SOIL POLL,V38,P111NR:參考文獻篇數,例:3。TC:被引用的次數,例:1。PY:論文出版年,例:1996。SC:論文所屬領域別,例:Environmental Sciences;Water ResourcesUT:Web of Science 之論文主鍵欄,例:ISI:A1996VF74600009,12,概觀分析,將資料解剖,置於資料庫內,以便於管理從資料庫中,讀取各欄位,進行交叉統計趨勢分析年代篇數序列的線性回歸線斜率作為趨勢指標Yuen-Hsien Tseng,Yu-I Lin,Yi-Yang L
13、ee,Wen-Chi Hung,and Chun-Hsiang Lee,A Comparison of Methods for Detecting Hot Topics,Scientometrics,Vol.81,No.1,Oct.2009,pp.73-90.執行命令(範例):C:CATARsrcperl s automc.pl-OOA SE.Source_DataSEdata,13,待分析資料之路徑名稱,分析結果之目錄名稱,命令選項,命令提示字元(DOS)命令,開啟命令提示字元開始-所有程式-附屬應用程式-命令提示字元變換到磁碟機C:C:變換目錄到CATAR:cd CATAR變換到上一層目錄
14、:cd.絕對路徑:C:CATARSource_DataSEdata相對路徑:若已經在目錄CATARsrc下,則為.Source_DataSEdata,14,概觀分析範例,結果參考:C:CATARResultSE_SE_by_field.xls,15,Document Type=(Article)Databases=SCI-EXPANDED,SSCI,A&HCI Timespan=2005-2009,Year Production:Top 8 Countries,16,Most Productive Authors:Top 10,NC=Normal Count:each co-author is
15、 counted as a single authorFC=Fractional Count:all the co-authors are counted as a single authorIF=TC/NC,FIF=FTC/FC,AU Tseng,SC Tsai,CCTseng,SC:1Tsai,CC:1,AU Tseng,SC Tsai,CCTseng,SC:0.5Tsai,CC:0.5,17,Most Productive Institutes:Top 15,Data are from the C1 field of each record:C1 Natl Chiao Tung Univ
16、,Inst Educ,Hsinchu 300,Taiwan,18,Most Cited References,Data are from the CR field of each record:CR ROTH WM,1997,SCI EDUC,V6,P373,19,Most Cited Authors,Data are from the CR field of each record:CR ROTH WM,1997,SCI EDUC,V6,P373,20,Most Cited Journals,Data are from the CR field of each record:CR ROTH
17、WM,1997,SCI EDUC,V6,P373,21,主題歸類分析,索引建立相似度計算文件歸類-建立主題樹類別標題詞擷取多階段歸類-建立高階主題樹多維縮放(MDS)-建立主題地圖主題與各項資料的交叉分析,22,索引建立,書目對分析:建立書目對強度矩陣計數並正規化引用次數共現字(與任何文字)分析:刪除停用詞(the、of、for、on、and,at,)正規化詞彙(消除單複數、被動、進行式的差異)擷取關鍵片語(已專利之技術Tseng,2002,JASIST)建立詞彙到文件的反向索引資訊檔案,23,相似度之計算,M=9957for 318 EEPA papers,T=2529 for 318 EE
18、PA papers,Sim(A,B)=2x|S(A)S(B)|-|S(A)|+|S(B)|,24,主題樹,根據相似度(距離)矩陣,進行凝聚階層歸類agglomerative hierarchical clustering(AHC)Complete link criterionDendrogram主題樹,25,主題樹範例(電影新聞資料),1(7):161:7 Docs.:0.3478(美國:9.4)2:4 Docs.:1.0000(美國:4.1)13:101765:2006-01-01:納尼亞傳奇 美國片 55:113371:2006-03-19:V怪客 美國片 48:109839:2006-0
19、3-12:北國性騷擾 美國片 1:98663:2006-01-08:惡狼ID 美國片 32:3 Docs.:0.7245(影迷:7.0,美國:2.4)14:2 Docs.:0.9340(影迷:4.0,絕命終結站:3.5,絕命:3.5,飛車:2.8,雲霄飛車:2.8)11:101543:2006-01-15:奪魂鋸2美國片 27:104778:2006-02-26:絕命終結站3雲霄飛車驚魂 16:102575:2006-01-08:偷穿高跟鞋美國片 9(3):28:3 Docs.:0.7614(傑克:10.0,李安:8.9,傑克基倫霍:7.0,基倫霍:7.0,希斯萊傑:3.2)17:2 Docs
20、.:0.9141(李安:11.0,傑克:5.7,斷背山:4.9,希斯萊傑:4.0,傑克基倫霍:3.2)3:98770:2006-01-22:李安靠 斷背山重拾熱情 7:100886:2006-01-22:斷背山 美國片 21:104156:2006-02-26:鍋蓋頭 美國片 12(3):74:3 Docs.:0.5263(奶油:7.3,絕配:6.0,料理:5.1,凱特:4.9,尼克:3.2)58:2 Docs.:0.6041(番紅花:6.3,凱特:6.0,番紅花醬汁:4.9,尼克:4.0,鮮奶:4.0)68:397612:2007-08-25:料理絕配 跟著男主角做義國菜 71:403973
21、:2007-08-25:料理絕配 跟著女主角做法國菜 69:398615:2007-08-25:料理絕配 看電影學用餐禮儀,26,類別序號與篇數,類別編號(下一階使用)與篇數,相似度,類別標題詞,類別標題詞自動擷取,歸類後,自動擷取類別特徵詞,作為類別標題結合相關係數及詞頻排序詞彙,可獲顯著成效 Yuen-Hsien Tseng,Generic Title Labeling for Clustered Documents,Expert Systems With Applications,Vol.37,No.3,15 March 2010,pp.2247-2254.,27,多階段歸類示意圖,Do
22、cs.,Concepts,Topics,Outliers:低於門檻,無法歸入類別者,第一階段,第二階段,每一階段 均為 獨立的 凝聚階層歸類(AHC),28,主題地圖,MDS(Multi-Dimensional Scaling,多維縮放)將n個物件,總共n(n-1)/2個相似度關係,投影到2或3維空間上,以便於視覺化其關係,29,NSC美國專利文獻主題地圖,主題樹與主題地圖,Carbon Nanotube專利文獻分析,30,書目對分析,執行命令(範例):C:CATARsrcperl-s automc.pl-OBC SE.Source_DataSESE.mdb結果:C:CATARResultSE
23、_BC*.html:主題樹*all*.html:主題樹以及各項資料之交叉分析*.xls:各主題與各項資料之交叉分析*titles*.html:每個主題包含之篇名,31,共現字分析,執行命令(範例):C:CATARsrcperl-s automc.pl-OCW SE.Source_DataSESE.mdb結果:C:CATARResultSE_CW*.html:主題樹*all*.html:主題樹以及各項資料之交叉分析*.xls:各主題與各項資料之交叉分析*titles*.html:每個主題包含之篇名,32,分析範例-曾元顯著作-書目對,1(6):34:6 Docs.:0.020000(cluste
24、r:5.1,map:3.0,min:3.0,text:2.1)12:4 Docs.:0.142857(cluster:7.0,patent:5.2,text:3.7,generic:2.6,title:2.6)5:3 Docs.:0.224490(cluster:5.0,generic:3.1,title:3.1,text:2.4,document:2.3)1:2 Docs.:0.692308(generic:4.0,title:4.0,cluster:3.2,document:3.1,correlation coefficient:2.0)2:ISI:000241690200012:2006
25、:Toward generic title generation for clustered documents 6:ISI:000272846500049:2010:Generic title labeling for clustered documents 3:ISI:000246869800006:2007:Text mining techniques for patent analysis 4:ISI:000251991600006:2007:Patent surrogate extraction and evaluation in the context of patent mapp
26、ing 18:2 Docs.:0.052632(education:4.0,content analysi:2.0,content:2.0,media:2.0)7:ISI:000277110400017:2010:Mining concept maps from news stories for measuring civic scientific literacy in media 8:ISI:000279714800001:2010:Trends of Science Education Research:An Automatic Content Analysis 2(3):15:3 Do
27、cs.:0.095238(neural network:3.1,quadratic:2.3,sort:2.3,perceptron:1.7)2:2 Docs.:0.333333(quadratic:3.0,sort:3.0,perceptron:2.3,winner-take-all:1.4,constant-time:1.4)13:ISI:A1995QT09700011:1995:ON A CONSTANT-TIME,LOW-COMPLEXITY WINNER-TAKE-ALL NEURAL-NETWORK 9:ISI:A1992HU15600007:1992:SOLVING SORTING
28、 AND RELATED PROBLEMS BY QUADRATIC PERCEPTRONS 10:ISI:A1992HY58100028:1992:CONSTRUCTING ASSOCIATIVE MEMORIES USING HIGH-ORDER NEURAL NETWORKS 3(2):14:2 Docs.:0.113208(automatic:3.1,chinese:1.4,text:1.4,thesauru:1.4)4(2):3:2 Docs.:0.285714(code:4.0,decoder:1.4,fast:1.4,reed-muller:1.4)11:ISI:A1993MA5
29、8300001:1993:DECODING REED-MULLER CODES BY MULTILAYER PERCEPTRONS 12:ISI:A1993MA58300002:1993:FAST NEURAL DECODERS FOR SOME CYCLIC CODES 5(1):36:1 Docs.:0(hot:2.0,detect:2.0,comparison:2.0,topic:1.1,scientometric:0.7)5:ISI:000270841800006:2009:A comparison of methods for detecting hot topics,33,合理度:
30、100%,門檻=0.0,分析範例-曾元顯著作-書目對(第二階),1(2):1:5 Docs.:0.100000(neural:4.0,perceptron:3.0,code:2.4,decoder:1.8,network:1.8)1:15:3 Docs.:0.095238(neural network:3.1,quadratic:2.3,sort:2.3,perceptron:1.7)3:3:2 Docs.:0.285714(code:4.0,decoder:1.4,fast:1.4,reed-muller:1.4)2(2):2:8 Docs.:0.022556(automatic:5.0,d
31、ocument:4.0,text:4.0,generation:3.0,cluster:1.8)0:34:6 Docs.:0.020000(cluster:5.1,map:3.0,min:3.0,text:2.1)2:14:2 Docs.:0.113208(automatic:3.1,chinese:1.4,text:1.4,thesauru:1.4)3(1):4:1 Docs.:0(hot:2.0,detect:2.0,comparison:2.0,topic:2.0,scientometric:1.0)4:36:1 Docs.:0(hot:2.0,detect:2.0,comparison
32、:2.0,topic:1.1,scientometric:0.7),34,合理度:100%,門檻=0.0,第一階的類別編號與篇數,分析範例-曾元顯著作-書目對(第二階),35,分析範例-曾元顯著作-共現字,1(5):29:5 Docs.:0.0940(term:19.0,document:6.7,algorithm:4.0)7:3 Docs.:0.5403(document:12.2,generic:7.7,cluster:7.6,term:7.4,algorithm:6.0)2:2 Docs.:0.9610(cluster:10.8,generic:10.0,label:7.0,title:
33、7.0,document:5.6)2:ISI:000272846500049:2010:Generic title labeling for clustered documents 6:ISI:000241690200012:2006:Toward generic title generation for clustered documents 3:2 Docs.:0.7090(map:7.7,patent:5.4,term:4.1,scientific:4.0,new:4.0)1:ISI:000277110400017:2010:Mining concept maps from news s
34、tories for measuring civic scientific literacy in media 4:ISI:000251991600006:2007:Patent surrogate extraction and evaluation in the context of patent mapping 2(3):19:3 Docs.:0.2776(automatic:7.3,text:6.9,analysi:4.9,approach:4.6,topic:1.9)4:2 Docs.:0.6881(science:7.4,analysi:6.9,education:5.4,scien
35、ce education:5.4,research:5.4)0:ISI:000279714800001:2010:Trends of Science Education Research:An Automatic Content Analysis 5:ISI:000246869800006:2007:Text mining techniques for patent analysis 3(2):1:2 Docs.:1.00(network:7.7,memory:4.0,associative memory:2.7,winner-take-all:2.0)12:ISI:A1992HY581000
36、28:1992:CONSTRUCTING ASSOCIATIVE MEMORIES USING HIGH-ORDER NEURAL NETWORKS 9:ISI:A1995QT09700011:1995:ON A CONSTANT-TIME,LOW-COMPLEXITY WINNER-TAKE-ALL NEURAL-NETWORK 4(1):30:1 Docs.:0(trend:6.7,different:5.0,better:3.0,trend observation:3.0,choice:3.0)3:ISI:000270841800006:2009:A comparison of meth
37、ods for detecting hot topics,36,有共同的Map或Mapping之詞彙與概念,但其他概念則不相同,合理度:60%-80%,主題趨勢分析,列出主題之年代篇數序列計算其線性回歸線的斜率按此斜率排序主題,可分析趨勢漸增之主題趨勢漸減之主題,37,Breakdown Trends of ICT in Edu.,Dying out topics,Hot topics during that period,Main stream topic,Topic with periodic attraction,Promising topics(not yet mature),解讀(1
38、/2),最有價值的部分Access 檔案:原始資料結構化後放置處可人工修改,再進行書目對與共現字之分析Excel 檔案:各種交叉分析結果,可製作圖表HTML 檔案:主題樹、篇名與交叉分析結果結果檔案,在C:CATARResult 目錄裡:第 n 階的類別,其主題樹在第 n 階的結果目錄裡,其中有上述的各種 html,xls,png 等檔案第 n 階的類別,其主題地圖在第 n+1 階的結果裡,而其中的顏色,代表各個文件所屬的類別,39,解讀(2/2),多用不同參數、方式探索解讀出有意義的資訊為準有意義的資訊,可能散落在不同參數所產生的結果中每一種參數、方式,都有可解讀之處,越多者,越佳配合領域專
39、家、有經驗者(科學計量專家)一起解讀參考:陳超美(2010)。如何選取CiteSpace的參數。,40,分析案例,曾元顯、林瑜一(2011)。內容探勘技術在教育評鑑研究發展趨勢分析之應用。教育科學研究期刊,56(1),1-38。Yueh-Hsia Chang,Chun-Yen Chang,Yuen-Hsien Tseng,Trends of Science Education Research:An Automatic Content Analysis,Journal of Science Education and Technology,Vol.19,No.4,2010,pp.315-331
40、.曾元顯,文獻內容探勘工具-CATAR 之發展和應用,圖書館學與資訊科學 半年刊,第 37 卷 第 1 期,頁 31-49,2011年 04月.,41,先從概觀分析開始才能將WoK資料剖析到資料庫中其後才能進行書目對與共現字分析非WoS資料之分析參考:C:CATARSource_Datamoviemovie.mdbC:CATARSource_Dataeporteport.mdb(感謝本校資訊中心汪耀華整理資料)將自己的資料,依照上述檔案範例放入資料庫中,若無CR欄位則直接進行共現字分析若某欄位要置放多個項目,則每個項目之間以;隔開,如Chang,YH;Chang,CY;Tseng,YH將WoS的SC對應到自己定義的類別編輯:C:CATARbinISI_SC2C.txt如果沒有此項需求,可以不用理會這一點,注意事項,42,