《统计应用软体StatisticalComputationsandAnalysis000002.ppt》由会员分享,可在线阅读,更多相关《统计应用软体StatisticalComputationsandAnalysis000002.ppt(52页珍藏版)》请在三一办公上搜索。
1、統計應用軟體Statistical Computations and Analysis,台大農藝系生物統計組劉力瑜,課程大剛,授課對象:大三以上及研究生先修科目:生物統計學(或統計學)與試驗設計學課程首頁:http:/homepage.ntu.edu.tw/lyliu/compstat/index.html評分標準:(Mostly weekly)homework(40%)Midterm(30%)Final project(30%),授課教師,劉力瑜 TEL:02-33664792E-mail:lyliuntu.edu.twOffice:五號館(生工系館)二樓 202 室Office Hour:
2、Monday through Friday 12AM-1PM,注意事項,指定作業必須在規定日期當天下課前繳交,逾期除依校規請假(國立臺灣大學學生請假辦法),一律不予接受,該次作業則以零分計算。作業與報告用 LaTEX 打字佔成績之 50%兩次最低分的作業將不列入總成績計算,相關規定,http:/homepage.ntu.edu.tw/lyliu/compstat/syllabus.html,上課前的準備,前往課程網頁下載當天上課之powerpoint檔http:/homepage.ntu.edu.tw/lyliu/compstat/handout.html隨時查閱課程網站以獲知最新公告訊息,學
3、長姐的建議,“我未上過試驗設計,這方面完全不懂,學期後半段上起來很吃力”“很後悔沒有善加利用老師的 office hour”“統計與程式必需要多加練習才會熟練,希望交作業的次數可以多一點”,課程內容,Installation/Introduction to RInstallation/Introduction to LaTeX/cwTeXWriting Report with LaTeXBasic Statistical ConceptsProbability and DistributionsDescriptive Statistics and GraphicsHypotheses Test
4、ingTests for Central TendencyTests for Dispersion,Analysis of VariancePost Hoc TestsVariable TransformationCompletely Randomized Design(CRD)Randomized Complete Block Design(RCBD)Latin Square Design(LSD)Cross-Over Design Balanced Incomplete Block Design(BIBD)Nonparametric Methods,Introduction to R,Wh
5、at is R?,R 並非專用統計軟體,而是可用來執行統計分析的環境:匯入適當的 package(套件)應用套件內提供之 function(函式)Packages 由許多熱心人士編寫並免費提供學術使用。You can make your own contribution in the future.,R的優缺點,優點:免費軟體完善的說明文件與討論區漂亮的圖型介面程式容易根據使用者需求做修改缺點:並無 user friendly 之使用者介面需詳知函式名稱與程式編寫邏輯說明文件與討論區使用英文,下載與安裝,Step 1:下載R程式http:/cran.csie.ntu.edu.tw/bin/wi
6、ndows/base/下載目前最新版本 R-2.4.1-win32.exe,執行,Step 2:執行 R-2.4.1-win32.exe安裝完成後,執行桌面上的截徑:,中文版本,如何切換至英文版本?,Step 1:在R的截徑上按滑鼠右鍵,選取“內容”。,如何切換至英文版本?,Step 2:“目標”欄位最後(雙引號之後)加入:LANGUAGE=en再按“確定”。,離開 R,Method 1:File-ExitMethod 2:q()Method 3:R 視窗上方,起始套件,當 R 啟動時,有 7 個常用之 packages 會自動載入:base:基本函式(IO,敘述統計,etc.)stats:常
7、用統計分析(t.test,anova,etc.)methods:定義 classes of objectsutils:基本程式編寫工具graphics:基本繪圖工具grDevices:基本繪圖介面datasets:數據範例,使用介面 File 檔案,匯入已存在的檔案(不開啟編輯視窗),編輯新程式或文件,編輯已存在的程式或文件,顯示已存在的檔案內容(無法編輯),變更工作環境預設:C:/Program Files/R/R-2.4.1,Example:0302_File_example.r,使用介面 Edit 編輯,清除工作視窗畫面,使用介面 Misc 其它,中斷正在執行的工作(ESC),立即顯示結
8、果與否,顯示工作環境下的物件;ls(),移除工作環境下的物件;rm(list=ls(all=T),使用介面-Packages,在目前工作環境中載入套件library(package),設定下載 package 的網站(Taipei,etc.),設定下載 package 的搜尋範圍(cran,etc.),package 網路安裝,package 本機安裝(已下載),package 更新(已安裝之package),使用介面 Windows/Help,Windows:視窗排列方式Help:Getting help from R?command and help(command):查詢特定命令(名稱已
9、知且package已載入)的使用apropos(“keyword”):已載入 package 中含有keyword字串的所有函數Search help:查詢未知名稱的命令(package未載入但已安裝)help.search(“keyword”)search.r-project.org:廣義搜尋,R Console,R 的提示符號:與+,“”為提示符號;當提示符號出現時表示R正在待命中,可以隨時鍵入下一個命令。當提示符號為“+”時,表示程式正在執行中,或在等待未完成的指令。例如:(1.36+0.7+)按“ESC”可強制退出未完成的工作。可利用鍵盤上下鍵重複輸入指令或做小幅度修改,利用R進行簡單
10、計算,2+31 5 sqrt(3/4)/(1/3-2/pi2)1 6.626513 exp(3.72)1 41.26439 sin(pi);log(10);log2(10);log10(10),指定變數名稱,名稱=物件 或 名稱 物件 可由英文字母、數字、英文句點(.)組成。英文大小寫有所區別(ab 與 Ab 可分別代表不同變數)。變數名稱須起始於英文字母。有些英文單字具有特殊意義,不能當做變數名稱:return,break,if,TRUE,FALSE,(T,F).,R 物件(object),單一變數:,Some Simple Examples,單一數值或字元:x1=3.0 x2=“NTU”x
11、3=TRUE計算結果:y1=exp(3.72)y2=y1*3其它:out=lm(yx+z)y=NA,R 物件(object),複合物件:由數個單一變數組成向量:c()所有變數需為同類型或NA若vector內的變數為數字,亦可藉由“:”,“seq”等產生c(5,7,3,9,NA)c(1:10)=1,2,3,4,10seq(0.1,1,0.1)=0.1,0.2,0.3,1.0矩陣:matrix(x,r,c,)所有變數需為同類型或NAmatrix(NA,3,5)=3x5矩陣,每一元素為NAmatrix(1:12,3,4)=3x4矩陣,元素為?,R 物件(object),其它複合物件:listdata
12、.framehigh dimensional array,R 函式(function),R是由“變數”與“函式”組成。前面幾張 slide 已用的 function:c,lm,seq,matrix,exp,etc.基本語法:funcname(參數)查詢function的使用方法:help or?Example:?lm#help(lm),Help Menu,DescriptionUsage ArgumentsDetailsValue ReferencesSee AlsoExamples,apropos,apropos(“matrix”),只查閱函式的參數時,args(“matrix”)參數分為必
13、要與非必要兩種順序不對調時,參數名稱可不給定:matrix(x,3,2)順序對調時參數命稱必須指定:matrix(nrow=3,ncol=2,data=x),R 函式(function),函數也可由使用者自行定義 my.add my.add(1:3)1 4 5 6本課程將會陸續介紹生物統計學與試驗設計學常用的函數。,常用統計函式,中央趨勢:mean(x)#樣本均值 median(x)#樣本中位數 quantile(x,p)#樣本 100p%百分位數變異程度:range(x)#最小值與最大值 var(x)#樣本變方 sd(x)#樣本標準差兩變數的相關程度:cov(x,y)#樣本共變方 cor(x
14、,y)#樣本相關係數,常用統計函式,常用function列表:“Statistical Computing and Graphics Course Notes”by Frank E.Harrell,p 32-39.http:/cran.us.r-project.org/doc/contrib/Harrell-statcomp-notes.pdf,資料輸入:c,輸入少量資料最簡單的方法:c function.Example:西元 1861 1870 年間重大的科學發現或發明數:3 0 2 0 3 2 3 6 1 2 nod=c(3,0,2,0,3,2,3,6,1,2)nod1 3 0 2 0 3
15、 2 3 6 1 2,資料輸入:c,前述指令指定一組數據給名為 nod 之變數;以“=”或“-”進行指定的工作。指定變數 nod 後,其數值不會自動出現在螢幕上;在提示符號後輸入變數名稱,才會顯示其數值。螢幕顯示1 3 0 2 0 3 2 3 6 1 2表示此變數為一向量(vector)。,Data is a vector!,資料是以“向量”或“矩陣”型態組成,元素可用其相對位置做為指標:length(x)#how many elements x2#the 2nd element x1:5#the first 5 elements xc(1,2,5)#specific elements xx3
16、#all greater than 3 xx 2 which(x=5)#which indices are equal to 5 c(x,48,49,51,50,49)#append values to x,Example,nod21 0 nod-41 3 0 2 3 2 3 6 1 2 nodc(1,2,5)1 3 0 3 nodnod 11 3 2 3 2 3 6 2 which(nod 1)1 1 3 5 6 7 8 10,Matrix operation is similar!,y2=matrix(c(1:10),nrow=2,ncol=5)y22,1 y21,y2,4 y2,-2 z
17、2=matrix(c(11:25),nrow=3,ncol=5)rbind(y2,z2)cbind(y2,z2)#error cbind(t(y2),t(z2),變數名稱列指標,行指標,Example,測量基因 AC002378 表現量 12 次結果如下(on log2 scale)0.66,0.51,1.12,0.83,0.91,0.500.41,0.57,-0.17,0.50,0.22,0.71(1)求最大值與最小值(2)計算樣本均值與標準差(3)有多少觀測值 0.5?,Example,測量基因 AC002378 表現量 12 次結果如下(on log2 scale)0.66,0.51,1
18、.12,NA,0.91,0.500.41,0.57,-0.17,0.50,0.22,0.71(1)求最大值與最小值(2)計算樣本均值與標準差(3)有多少觀測值 0.5?,Other Methods to Input Data,類似c的輸入方式(以空格分格,空行結束):x x-scan(what=“”)#input charactersExample:利用 scan 產生 nod=c(3,0,2,0,3,2,3,6,1,2),Other Methods to Input Data,Read from files:x x-scan(“d:/testc.txt”,what=“”)#character
19、sOthers:read.table,read.csv,etc.,read.table vs read.csv,Read Excel Files,xls csv(保留每一行的標題)read.csv(file=“filename”)Example:水稻兩品種與氮肥三種施用量(rice.xls)my.data=read.csv(“d:/rice.csv”)my.data,Summary,Introduction of RDownload and install RR interfaceR as simple calculatorR objectsR functionsData input作業一:http:/homepage.ntu.edu.tw/lyliu/compstat/hw1.pdf,