第一章统计的认识.ppt

上传人:sccc 文档编号:5135864 上传时间:2023-06-07 格式:PPT 页数:82 大小:138.02KB
返回 下载 相关 举报
第一章统计的认识.ppt_第1页
第1页 / 共82页
第一章统计的认识.ppt_第2页
第2页 / 共82页
第一章统计的认识.ppt_第3页
第3页 / 共82页
第一章统计的认识.ppt_第4页
第4页 / 共82页
第一章统计的认识.ppt_第5页
第5页 / 共82页
点击查看更多>>
资源描述

《第一章统计的认识.ppt》由会员分享,可在线阅读,更多相关《第一章统计的认识.ppt(82页珍藏版)》请在三一办公上搜索。

1、1,第一章 統計的認識,統計學 陳順宇 教授著成功大學統計系,2,統計提供決策,日常生活中我們常遇到不確定的情形,等待我們下決定,如果決策錯誤可能造成莫大的損失,因此如何做決策才能使損失 降至最低是現代人所必須研究的課題,3,正確的統計方法收集資料外,也要能對一大堆數據經分析後 說出它的“內涵”,4,1.1 統計的意義,現代是資訊發達的時代,擁有資訊 就擁有權力,統計讓數字說話,就是 將資料變成資訊、再由資訊提供決策,讓企業提昇品質,使企業更具有競爭力。,1.1,5,數字(資料)是雜亂無章的,必須經過整理,簡化成統計圖表或統計量(資訊)才能看出資料的意義,才能解釋現象,做為預測或做計劃依據。下

2、圖說明統計如何提供決策,6,統計提供決策,7,統計是一門科學,收集資料、整理資料、分析資料解釋意義 等規則與程序所組合而成,8,1.3 近期統計之發展,1.大型企業的出現 2.研發、品管的要求 3.電腦科技的衝擊 4.科技研究的需要 5.民意調查,9,企業與統計之關係,1.品質管制 2.預測統計 3.人事管理 4.生產計劃 5.市場研究 6.年度報告,10,1.母體,在一研究中,所有可能的個人或物品或感興趣的測量所成的集合;,11,具有某種共同特性,也就是母體是具有某種共同特性之 所有個體所成的集合,每個個體都擁有研究者想要的 某種共同特徵。,12,母體資料,母體內的個體(人或物)稱為受測者(

3、或稱為受測單位),量測(或收集)每位受測者所得資料 稱為母體資料,13,例1.1、2002年台北市長選舉,選前做民意調查,則所有台北市 合格選民所成的集合為母體,這些選民的共同特徵是都可以投票,每位台北市合格選民為受測者,訪問每位選民要投給那位候選人 所得資料為母體資料,14,例1.2、台灣地區電視收視率調查,台灣地區所有有電視的家庭 所成集合為母體,有電視的家庭為受測者,訪問所有家庭他們正在看那一個電視台所得資料為母體資料,15,例1.3、調查台灣地區90年度申報所得平均是多少?,台灣地區所有所得申報戶所成集合 為母體,受測者為申報戶所有申報戶的所得為母體資料,16,例1.5、調查大華公司某

4、種產品的不良率,此公司所有這種產品所成集合為母體;若此公司生產20000件產品,則這20000件產品所成集合即為母體,每個產品為受測者,測量每個產品是良品或不良品 所得資料為母體資料,17,例1.6、台南市政府想了解 全市成年人(約50萬人)身高、體重、性別與教育程度等,全體成年市民所成的集合即為母體,所有台南市成年人為受測者,母體資料為這50萬人的身高、體重、性別與教育程度等,18,樣本,由於母體太龐大,要得到所有人(或物)的資料有時是很困難的,只能收集部份人(或物),這部份人(或物)所成的集合稱為樣本(Sample),,19,即樣本是由母體所選出一個“部份集合”,測量(或收集)樣本中每個受

5、測者 所得資料為樣本資料,20,例1.7、(例1.1續),由台北市選民抽出1050位,訪問他們要投給哪位候選人,這1050人所成集合為樣本,樣本資料為訪問這1050位 要投給那位候選人所得的資料,21,例1.8、(例1.5續),大華公司品保部門想調查生產 產品的不良率,如果將所有產品一一檢查是良品 或不良品(普查)非常耗時不經濟,通常我們並不是要完全無誤,只是“概估”即可。,22,如果從所有10000件產品中抽出30個,則這30個產品所成之集合即為樣本,記錄這30個產品是否為良品即為 樣本資料,23,例1.9、(例1.6續),台南市政府從全體成年市民中 隨機抽樣50位,這50位市民所成之集合即

6、為樣本。將這50位市民的性別、身高、體重、年齡與教育程度等資料,列表如下:,24,台南市抽樣50位市民資料,25,此資料成矩陣型式,有5行50列,除第一行編號(或員工姓名)外,其他4行每行為一個變數(Variable),共有4個變數每一列為一筆資料(Case),共有50列,即有50筆資料,26,3.抽樣,常用的抽樣方法有簡單隨機抽樣法、系統抽樣法、分層隨機抽樣法,及部落抽樣法等四種,當然也可由這四個抽樣方法混合使用,27,4.普查,是要對母體的每一份子都獲得資料,也就是100%的抽樣。台灣地區常用的普查有工商普查、戶口普查、農業普查等。,28,普查雖可得到全部母體的資料,但有時由於訪查員的失誤

7、,造成資料 不可靠,反而比抽樣所提供資訊不好。而且普查耗時、耗成本、耗人力,除非不得已,很少用此種方法,29,5.參數,是研究者想了解的母體某特性值,通常我們關心的參數有母體平均數、標準差或最大值等,,30,例如品管人員想知道某生產線其產品 不良率是多少,則不良率就是參數,一般參數是未知的定數。參數它在某個時段是一定數,但很可能誰也不知道它是多少,它也許永遠是個謎,31,例1.10、(例1.5續),如果我們想知道某產品的不良率是多少?不良品所佔的比例即為參數。如全部產品20000件中,不良品有2400件,則參數(即不良率)為,32,例1.11、(例1.6續),台南市政府人事部門關心 全體成年市

8、民(單位:公分)平均身高,因此參數為成年市民(50萬)的平均身高。,33,若第1位市民、第2位市民到第500000位市民的身高,分別為175、168、.、155。一般母體平均數以表示,如台南市身高母體平均數為,34,例1.12、(例1.11續)500000位市民的身高,母體變異數為 母體標準差為,35,6.統計量,是由抽樣樣本所計算出的一個量(或一組量),用來對母體參數做推論。如做為參數估計用的統計量就稱為 估計量(Estimator),例如母體平均數的估計量最常用的是 樣本平均數,母體不良率p的估計量 最常用的是樣本不良率,36,例1.13、(例1.5續),若從大華公司生產線上隨機抽出 30

9、件產品,結果有3件不良品,樣本的不良率為 3/30=0.1,它與真正不良率(參數)p=0.12的相差為 0.02這個數值就稱為估計誤差(Estimate Error),好的統計方法(包括抽樣與實驗)就是想辦法使誤差愈小愈好,37,例1.14、(例1.11續),若從台南市成年市民中抽樣50位,得50位的身高如表1.1算出50位平均身高,則稱為樣本平均身高,樣本平均身高與母體平均身高 的相差為 為估計誤差,38,7.統計推論,是由一組樣本資料算出統計量以便對母體的參數做評估。一般統計推論包括估計(Estimation)、預測(Prediction)及檢定(Testing),39,1.6 資料的分類

10、,數值資料如能適當使用,就能獲得好的決策,反之,如果不當的使用不好的資料將導致錯誤的結論。一般而言,統計資料分析方法的採用,決定於資料本身的形態。,40,下面依收集(1)時間順序、(2)收集方法、(3)資料性質 對資料做分類,41,1.依收集時間順序分類,a.橫向資料:收集的是某一時段的資料,如1995年某公司的員工身高、年收入等資料。這種資料為橫向資料。,42,b.縱向資料:收集的是不同時段的資料,如台鐵從民國70年到83年每年的營運 狀況或每年發生交通事故的件數等資料。這種資料為縱向資料或稱之為 時間數列資料。,43,2.依收集方法分類,a.觀察資料:問卷訪談所得資料 或是公司內部現成之資

11、料,而人文社會科學與商業經濟等的資料 也大都是觀察資料。,44,b.實驗設計資料:產業有時為了研究發展探討影響 某種結果(或稱品質特性)因素而做實驗。控制各種因素的水準,實驗後量測出 品質特性的大小,此為實驗設計的資料。,45,3.依資料性質分類,a.連續型資料:如量測身高、體重、產品之容量、重量、長度等資料,它是可以計量的,而且理論上可以到小數點以下幾位數據。這種資料稱為連續型資料Continuous Data)。,46,b.離散型資料:性別、宗教信仰、教育程度等 分類變數是離散型資料(Discrete Data),,47,請看下列兩組數據的差別:,第一組 3 5 5 8 7 6 9 12

12、第二組 3.52 5.63 83.62 7.96 55.33,48,次序資料,第一組數據都是整數,它是計數的,為離散型資料。離散型資料除了上述計數的形式外,,49,如教育程度或是問卷中分別以 1表示非常贊成、2表示贊成、3表示沒意見、4表示反對、5表示非常反對,,50,這1、2、3、4、5數據也是離散型,但他們之間有次序概念,稱為次序(Ordinal)資料。,51,名目資料,再如比賽的名次冠軍、亞軍、季軍、殿軍 也是次序的資料。至於一般分類(Category)資料,性別男生、女生 它們之間無大小之分宗教信仰佛教、基督教、天主教、道教、回教、其他等,也是沒有次序,稱為名目(Nominal)資料,

13、52,第二組數據有小數點,是量測所得資料,為連續型資料。如身高、體重、售價、營業額、雨量、離婚率、失業率、用水量等,都是連續型資料。,53,連續型資料應是小數點以下很多位數,但為了簡捷,常只取小數點後一、兩位數,甚至到整數部份,如我們常說身高172公分、體重65公斤等,但它們仍是連續型資料,54,1.7 資料收集,資料收集方式就如上所述,基本上分兩大類,一種是以問卷為主的抽樣調查,一種是以做實驗為主的實驗設計,,55,前者偏向於人文、社會科學的民意調查、市場調查等,它可透過郵寄問卷、面談或電話訪問等方式進行;後者是以工程、醫學等方面做研究時,為了節省實驗次數所設計的實驗方式,本節主要介紹抽樣調

14、查,56,(1).簡單隨機抽樣法,簡單隨機抽樣法是所有方法中最公正的,抽樣時不摻入人為因素,而且母群體中每一個體被抽中機會均等。,57,簡單隨機抽樣法優點是取樣方便,很容易就獲得抽樣的對象,缺點是有時會因抽到樣本資料偏於一方,造成代表性不足,有高估或低估的現象。,58,常用簡單隨機抽樣方式有(1)抽籤、(2)查亂數表(3)利用電腦製造亂數 等方法做為取樣依據,59,(2).系統抽樣法,基本上是只做第一次隨機抽樣後,就採取依固定間隔數抽出一樣本。例如:母體有15個樣本,我們預計 抽出5個樣本,所以每隔3個即抽出一樣本,60,它的優點是只要抽出第一個種子號碼,就可依間隔數依序列出所有樣本數,此種抽

15、樣法比簡單隨機抽樣法來的方便。但是系統抽樣法會造成統計上 所謂的抽樣偏差,61,(3).分層隨機抽樣法,母體可依某一衡量標準分成數個 不重疊的子群體,稱為層(或稱群、組)。將母體分層後,再從每一層中 利用簡單隨機取樣,這樣的抽樣過程,稱之為分層隨機抽樣法,62,分層隨機抽樣法顧名思義是,先分層再從每一層中各做隨機抽樣,它是4種抽樣法最被推薦使用的,最大問題是如何找到某種“特性”做分層,基本上同層內的性質要相近,63,(4).部落抽樣法,最常用在抽樣對象分離很遠,而且很難蒐集到樣本的時候,也就是部落抽樣是以地理位置為考量。常會把母體分成幾個部落,再從這幾個部落抽出數個部落進行普查。,64,假設每

16、一部落都是母體的縮影,因此部落與部落間的差異性要小,部落抽樣法優點較省時間、金錢、人力,而缺點是當抽到的部落與 母體差異太大時,會造成抽樣誤差,,65,例1.8、中正國中二年級甲班學生,老師想了解全班平均身高(參數)是多少?,66,結論:,本題以分層隨機抽樣法較佳,因為採部落抽樣法(系統抽樣法也一樣)如抽到第一行,則算出的樣本(7位同學)平均身高比母體(49位同學)的平均身高 有偏低的現象,反之如抽到第7行,則有偏高的現象,分層隨機抽樣法較能避免偏於一方,67,統計之應用,(1)主計處每個月做國內失業率與 失業人數的調查。(2)衛生署每年調查一次人們 花在醫療方面的費用。,68,(3)國宅局用

17、抽查方式,了解住屋供需問題。(4)社會局調查人民對成人補習教育的興趣。,69,(5)建設局用抽查方式,獲知哪些人 常利用公園或其他公共設備。(6)電視公司做收視率調查,了解觀看某節目的比例。,70,(7)廠商做顧客滿意度調查,了解顧客對產品的意見。(8)交通管理局用抽查方式 獲得人們乘車的習慣。,71,(9)雜誌社利用抽查方式 了解訂戶所喜愛的內容。(10)教育單位比較電腦輔助教學與 傳統教學效果之差異,72,(11)選舉前民意調查,以便了解選民傾向,做為訂定選舉策略的依據。(12)驗證薪資是否有男高女低的現象?,73,(13)了解台灣地區犯罪率是否逐年上升?(14)驗證某種製程上改善策略是否

18、有效?(15)研究廣告費對銷售量是否有影響?,74,(16)稻米的產量受哪些因素(如水份、肥料、品種、土壤)的影響?(17)了解影響房價有哪些要因?(18)了解失業率與經濟成長率是否有關?,75,圖1.1 數學、社會科學與統計關係圖,76,圖1.2 統計工作流程圖,77,第一章 摘要,1.統計是一門科學,它是用來 對不確定事件做研判與提供決策。2.統計步驟包括:資料收集、整理、分析及解釋四部份。,78,3.了解母體、樣本、抽樣、參數、統計量名詞。4.除了由公民營機構、報章雜誌的 二手資訊外,資料收集方法,主要來源分為實驗設計與抽樣調查兩種。,79,5.通常的民意調查、市場調查 所用抽樣方法有4種(i)簡單隨機抽樣法(ii)系統抽樣法(iii)分層隨機抽樣法(iv)部落抽樣法,80,6.了解各種抽樣法的基本精神,優、缺點及實施上可能的困難,特別強調分層隨機抽樣法的重要性及 如何找到“特性”做分層,,81,7.抽樣調查應注意事項:包括問卷設計、工作人員之訓練、抽樣法、小規模試驗、敏感問題之處理、樣本數的決定等。,82,8.抽樣方法的錯誤常來自“方便的資料”如只抽樣讀者文摘的讀者,或是在某角落訪問過往的行人 或電視節目的Call in電話 或電腦網路等資料等 都不是隨機抽樣的資料,有可能造成方法偏差,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 建筑/施工/环境 > 农业报告


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号