《SPSS课程PPT(生物统计学基本知识).ppt》由会员分享,可在线阅读,更多相关《SPSS课程PPT(生物统计学基本知识).ppt(221页珍藏版)》请在三一办公上搜索。
1、生 物 统 计 与 实 验 设 计 I,Biological Statistics And Experimental Designs I,2,课程内容:,生物统计与试验设计I 所涵盖内容(学科基础,预备课程)生物统计学基础(统计的眼光看问题)统计学基本概念 统计推断参数估计、假设检验 统计分析方法及应用(统计的方法解决问题)方差分析、回归分析、试验设计等等生物统计与试验设计II 所涵盖内容(方法合成,软件应用)协方差分析 统计软件分析及应用(SPSS),3,课程简介,学科基础课 40/2学分,第一章 生物统计学基本知识 第二章 置信区间估计第三章 假设检验第四章 方差分析第五章 回归分析第六章
2、 基本试验设计及其统计分析,考核方式:课堂开卷(需使用计算器),4,基本参考书,1 李春喜、姜丽娜、邵云、王文林,生物统计学(第三版),科学出版社,2006 2 伯纳德.罗斯纳著,孙尚拱译,生物统计学基础(原书第五版),科学出版社,2004,5,第一章 生物统计学基本知识,1、明确统计在做什么事情、将用什么样的方式去做。2、生物统计与统计学的关系,其涉及哪些内容,6,从什么是统计谈起,7,日常生活中,我们常听到很多关于“统计”的词汇.例如:国家统计局公布,2004年全国GDP增长9%;国家气象局预报,明天北京天气阴,降水概率40%;2003年,北京市人平寿命77.93岁,婴儿死亡率为5.56,
3、儿童计划免疫接种率98%.这些主要健康指标已接近或超过中等发达国家的水平.北京日报.京报网,2003年11月20,8,统计是人类思维的一个归纳过程 站在一个路口,看到每过去20辆小轿车时,也有100辆自行车通过而且平均每10个轿车载有12个人于是,你认为小汽车和自行车在这个路口的运载能力为24:100这是一个典型的统计思维过程,9,感受统计(之一),统计在战争中的例子:二战时期,德国的潜艇非常猖狂,而盟国的雷达还不够先进,给英国的运输船队造成巨大的损失,英国人通过多次统计观察,发现有德国潜艇的上方,会聚集大量的海鸟。朝鲜战场上,美国人对志愿军感觉很奇怪,他们的一个军事专家,通过统计发现,志愿军
4、的进攻大约是七天一个周期,打七天,志愿军肯定会跑,或者叫转移。,10,感受统计(之二),撑死的人比饿死的人多!据统计,肥胖并发脑血栓和心衰的发病率比正常体重者高一倍,患冠心病者多25倍,高血压发病率多26倍,合并糖尿病者高4倍,合并胆石症者高46倍。美国生命保险协会的统计调查结果显示,超重25和35的肥胖症者的死亡率比正常人高28和50,表明肥胖程度和死亡率呈正相关。美国每年因肥胖伴有冠心病、高血压、高血脂、糖尿病和脑血管意外而死亡的人数大约有30万人。,11,感受统计(之三),媒体的数字化倾向 统计视线里的社会和经济 文革时期媒体种类数量少得可怜不说,且在有限的报导中空话、大话和假话连篇,较
5、典型和常见的情况就是不敢用数字来实打实地说话。随着改革开放特别是市场经济体制的确立,使得媒体开始“青睐”起数字来。但凡打开任何一张报纸的任何一个版面的任何一条消息,无不或多或少的“充斥”着统计数字。媒体的这种数字化倾向表现出在社会、经济和生活中用数字解说相应问题的现实状况。,12,众所周知,红楼梦一书共120回,一般认为前80回为曹雪芹所写,后40回为高鹗所续,长期以来对这个问题一直有争议。能否从数学上做出论证?1985、1986复旦大学李贤平教授带领他的学生作了这项有意义的工作,他们创造性想法是将120回看成是120个样本,然后确定与情节无关的虚词作为变量(所以要抛开情节,是因为在一般情况下
6、,同一情节大家描述的都差不多,但由于个人写作特点和习惯的不同,所用的虚词是不会一样的),计算出每一回里变量出现的次数,用多元分析中的聚类分析法进行分类,果然将120回分成两类即前80回为一类,后40回为一类,很形象地证实了不是出自同一人的手笔。,后40回出自谁的手笔,13,后40回出自谁的手笔,之后,又进一步分析前80回是否为曹雪芹所写?这时又找了一本曹雪芹的其它著作,做了类似计算,结果证实了用词手法完全相同,断定为曹雪芹一人手笔。而后40回是否为高鹗写的呢?论证结果推翻了后40回是高鹗一个人所写。这个论证在红学界轰动很大,他们用多元统计分析方法支持了红学界观点,使红学界大为赞叹。,14,统计
7、的误用,对同样数据为何会有不同反响数据和信息有本质区别有些统计的误用者是无意的,但有些人却是为达到某种目的故意地隐藏不利资料而突出有利部分,所以统计可以变为制谎者的“工具”和政治家的“手段”。统计“谎言”的一种常见现象较多出现在小样本的观察结果上。,15,Case study该案例的所有内容均来自网络,课程不做任何评论,仅作为思考素材,http:/,16,http:/,17,http:/,http:/,29,1、什么是统计?,统计的原义合计、汇总计算。统计对大量现象数量方面进行的调查研究活动。即指人们为了说明所研究现象的某种数量特征和规律性而对有关数据进行搜集、整理和分析研究。,一、统计学的产
8、生和发展,30,什么是统计学?,统计学的英语单词是statistics,来源于state,即指政府,官方所要求的信息。统计学是研究随机现象规律性的方法学。统计学是一门关于如何收集、分析、解释和表达数据的科学。-Websters International Dictionary,31,2、统计的三种涵义,统计工作统计实践活动,是人们为了说明所研究对象的某种数量特征和数量规律性,而对该现象的数据进行收集、整理与分析的活动。,统计资料即统计数据,是通过统计工作所获得的能够说明现象总体某种特征的数据,是统计实践活动的成果。,统计学即统计科学,是一门研究收集数据、表现数据、分析数据、解释数据,从而认识数
9、量规律的方法论科学。,32,统计学是:“关于收集和分析数据的科学与艺术(art)”。,3、另一种定义 来自不列颠百科全书的定义,艺术性体现在:1)、数据有随机性(带偶然误差)。2)、应用时有人的判断和主动性(“艺术”),不是死套公式。,33,4、统计实践活动的产生和发展,有文字记载的统计实践活动,如埃及建造金字塔时期,中国大禹治水时期。资本主义生产方式出现以前,统计主要限于人口/土地/财产等;随着资本主义生产方式的推进,统计飞速发展统计内容扩展,专门统计机构成立;20世纪50年代以后,统计又得到了迅速发展。,34,5、统计学的产生,国势学派(记述学派)(德)海门尔康令;阿亨瓦尔1749年提出“
10、统计学”。有统计学之名,无统计学之实。政治算术学派威廉配第,约翰.格朗特 用数字描述经济现象和人口状况;虽无统计学之名,但有统计学之实。数理统计学派凯特勒(比利时)。引入概率论,开创近代统计学。使统计学产生了质的飞跃 统计方法成为通用方法;重心从描述统计转移到推断统计 社会统计学派恩斯特.恩格尔;梅尔。从实质论逐渐转向(社会现象数量研究的)方法论,与数理统计学派从对立逐渐转向融合。,35,6、统计学的发展进程,1统计学的初创阶段(17世纪中叶19世纪末)。描述统计和概率论的基本内容和框架逐渐形成。2以推断统计为中心的现代统计学的形成阶段,(20世纪上半叶)。概率论体系日臻完善,推断统计迅速发展
11、,逐渐构筑起了以推断统计为中心的现代统计学的基本框架。3统计理论方法与应用全面发展的新阶段(20世纪50年代起)。统计学研究的新领域层出不穷,开拓了许多新分支和新方法;统计的应用领域也不断扩展;计算机为统计理论和方法的不断完善和深化提供了不可缺少的工具。,36,统计学可以应用于几乎所有的领域:,精算,农业,动物学,人类学,考古学,审计学,晶体学,人口统计学,牙医学,生态学,经济计量学,教育学,选举预测和策划,工程,流行病学,金融,水产渔业研究,遗传学,地理学,地质学,历史研究,人类遗传学,水文学,工业,法律,语言学,文学,劳动力计划,管理科学,市场营销学,医学诊断,气象学,军事科学,核材料安全
12、管理,眼科学,制药学,物理学,政治学,心理学,心理物理学,质量控制,宗教研究,社会学,调查抽样,分类学,气象改善,博彩等。,37,一句话,要记住:统计学(statistics)是用以收集数据,分析数据和由数据得出结论的一组概念、原则和方法。,38,根据研究领域和研究对象,统计学又分为:数理统计、经济统计、生物统计、医学统计、卫生统计在上述学科已经有其特有的方法和特点;如生物统计(biostatistics)、经济计量学(econometrics)以及目前很热门的生物信息(bioinformation)和数据挖掘(Data Mining)的方法主体都是统计。,39,1.采用统计学方法,发现不确定
13、现象背后隐藏的规律。变异(variation)是社会和生物医学中的普遍现象。变异使得实验或观察的结果具有不确定性,如每个人的身高、体重、血压等各有不同。,为什么要学统计学?,40,最大值=6.18,最小值=3.29,极差=2.89 算术均数=4.72,标准差=0.57。,41,二、统计学的研究对象与研究方法,1、统计学的研究对象群体现象的数量方面,即现象总体的数量特征和数量关系。数量性 统计研究现象的数量特征(从数量上来认识事物的性质和规律性).在质与量的辨证统一中研究;不同于纯数量的研究。总体性 研究大量个别事物构成的现象整体的数据。现象的数量规律性只有在总体层面上才能体现出来;研究目的在于
14、说明总体特征,但常常从观察个体数量特征入手,分析时也要注意一般与个别的结合.,42,1)大量观察法 指对总体中的全部或足够多数的单位进行调查观察和综合研究。其数理依据是大数定律从数量关系上揭示了现象的偶然性与必然性的关系。实质上是统计研究的重要思想方法和原则,而不是一种具体的应用方法。2)分组法根据研究目的和现象的性质特点,按照一定的标志将总体分为若干部分的一种研究方法。其应用贯穿于整个统计工作的全过程。,2、统计学的研究方法,43,3)综合指标法指运用各种综合指标来反映和研究现象总体的数量特征和数量关系。数字(即指标数字)是统计的语言。综合指标法既是描述统计的中心,也是推断统计的基础。4)统
15、计模型法根据一定的理论和假定条件,用数学模型去模拟现象之间相互关系、现象变化趋势等的一种研究方法。统计模型包括三个要素变量、数学关系式和模型参数。统计模型的参数由实际观察的数据来估计。,44,5)归纳推断法 从个别到一般、从具体事实到抽象概括的推理方法,称为归纳法。以一定的可信程度,根据样本数据来判断总体数量特征的归纳推理方法称为统计推断法。,45,三、统计学的分类,1、描述统计与推断统计描述统计研究如何对客观现象的数量特征进行计量、观察、概括和表述。用表和图表示,计算特征量(如平均值)等,所论不超出已有数据。推断统计(统计推断)据数据所提供信息对数据所来自的总体(母体)的性质作推断,推断会有
16、错误、误差,用概率论的术语和方法来描述和论证。误差的产生源于数据有误差。怎样尽可能减少推断的错误和误差,是统计推断的中心问题。,46,目的描述数据特征找出数据的基本规律内容确定要研究的数量特征设计统计指标(说明这些数量特征的)搜集数据整理数据计算并显示指标数据,x=30 s2=105,2、描述统计,47,目的对总体特征作出推断。内容参数估计假设检验相关回归分析,3、推断统计,48,4、描述统计与推断统计的关系,反映客观现象的数据,描述统计(统计数据的搜集、整理、显示和分析等),统计学探索现象数量规律性的过程,49,1)理论统计学是关于数据的搜集、整理和分析的最基本原理、原则和方法。适用于各种现
17、象数量特征的分析研究。它是应用统计学共同的理论基础。所谓统计学是一门通用方法论科学,就是指理论统计学而言。2)应用统计学运用于某一特定领域的统计理论和方法。例如:生物统计学、医药统计学、气象统计学、科技统计学、经济统计学(宏观经济统计学、企业经济统计学、金融统计学、保险统计学、价格统计学、对外贸易统计学),5、理论统计学与应用统计学,50,统计学的应用领域,51,1、统计学与数学 联系:一方面,统计学要用到数学知识,统计的数量分析要符合数学原理;另一方面,统计方法和数学方法一样,并不能独立地直接研究和探索现象的规律,而是为各学科提供研究和探索客观规律的数量分析方法。,四、统计学与其他学科的关系
18、,52,区别主要在于:(1)数学研究的是抽象的数量规律性,而统计学研究的是具体的、实实在在的数量规律性。数学研究的是没有量纲或单位的数,而统计学研究的是有具体实物内容或计量单位的数据。(2)数学研究使用的是纯粹的演绎,而统计学是演绎与归纳相结合,且占主导地位的是归纳。,53,2、统计学与哲学 哲学是关于自然、社会和思维发展的普遍规律的科学,包括辨证唯物主义和历史唯物主义,它不仅是正确的世界观,也是科学的方法论。统计学作为一门探索客观事物数量规律性的方法论科学,必然要以哲学作为它的方法论基础。,3、统计学与其他学科的关系 统计方法可以帮助其他学科探索内在的数量规律性,而这种数量规律性的解释(和由
19、数量规律性进而研究各学科内在的规律)只能由各学科的研究完成。,54,生物统计学的概念及主要内容,生物统计学(Biostatistics)是数理统计在生物学研究中的应用,它是应用数理统计的原理,运用统计方法来认识、分析、推断和解释生命过程中的各种现象和试验调查资料的科学。属于生物数学的范畴。,55,二、主要内容,生 的物 基统 本计 内学 容,试 验 设 计,统 计 分 析,基本原则方案制定常用试验设计方法,资料的搜集和整理数据特征数的计算统计推断方差分析回归和相关分析协方差分析主成分分析聚类分析,对比设计随机区组设计裂区设计拉丁方设计正交设计,56,生物统计学的基本作用:,提供整理和描述数据资
20、料的科学方法,确定某些性状和特征的数量特征。,运用显著检验,判断试验结果的可靠性或可行性。,提供由样本推断总体的方法。,提供试验设计的一些重要原则。,57,常用统计学术语,一、总体与样本,具有相同性质或属性的个体所组成的集合称为总体(population),它是指研究对象的全体;组成总体的基本单元称为个体(individual);从总体中抽出若干个体所构成的集合称为样本(sample);总体又分为有限总体和无限总体:含有有限个个体的总体称为有限总体(finitude popuoation);包含有极多或无限多个体的总体称为无限总体(infinitude popuoation).,58,构成样本
21、的每个个体称为样本单位;样本中所包含的个体数目叫样本容量或样本大小(sample size),样本容量常记为n。一般在生物学研究中,通常把n30的样本叫小样本,n 30的样本叫大样本。对于小样本和大样本,在一些统计数的计算和分析检验上是不一样的。研究的目的是要了解总体,然而能观测到的却是样本,通过样本来推断总体是统计分析的基本特点。,59,二、变量与常量,变量,或变数,指相同性质的事物间表现差异性或差异特征的数据。常数,表示能代表事物特征和性质的数值,通常由变量计算而来,在一定过程中是不变的。,60,变量,定性变量,定量变量,连续变量,非连续变量,只有整数出现,可以有任何小数出现,61,为了表
22、示总体和样本的数量特征,需要计算出几个特征数,包括平均数和变异数(极差、方差、标准差等)。描述总体特征的数量称为参数(parameter),也称参量。常用希腊字母表示参数,例如用表示总体平均数,用表示总体标准差;描述样本特征的数量称为统计数(staistic),也称统计量。常用拉丁字母表示统计数,例如用 表 示样本平均数,用S表示样本标准差。,三、参数与统计数,推断inference,62,基本统计参数一、平均数 算术平均数 几何平均数,63,二、变异数 极差 极差又称全距,它是样本变量中最大值和最小值之差,一般用R表示。方差(Variance)样本方差 总体方差,64,标准差(standar
23、d deviation)样本标准差 总体标准差变异系数 Variation coefficient 变异系数是样本变量的相对变异量,是不带单位的纯数。用变异系数可以比较不同样本相对变异程度的大小。,65,四、效应与互作,通过施加试验处理,引起试验差异的作用称为效应。效应是一个相对量,而非绝对量,表现为施加处理前后的差异。效应有正效应与负效应之分。,互作,又叫连应,是指两个或两个以上处理因素间相互作用产生的效应。互作也有正效应(协同作用)与负效应(拮抗作用)之分。,66,五、随机误差与错误,变异,效应,误差,随机误差机误(Random error),系统误差错误(Systematic error
24、),67,随机误差,也叫 抽样误差(sampling error)。这是由于试验中无法控制的内在和外在的偶然因素所造成。如试验动物的初始条件、饲养条件、管理措施等尽管在试验中力求一致,但也不可能达到绝对一致,所以随机误差带有偶然性质,在试验中,即使十分小心也是不可避免的。如果通过良好的试验设计、正确的试验操作,增加抽样或试验次数,随机误差可能减小,但不可能完全消灭。统计上的试验误差一般都指随机误差。随机误差越小,试验精确性越高。,68,系统误差,也叫片面误差(lopsided error)。这是由于试验条件控制不一致、测量仪器不准、试剂配制不当、试验人员粗心大意使称量、观测、记载、抄录、计算中
25、出现错误等人为因素而引起的。系统误差影响试验的准确性。只要以认真负责的态度和细心的工作作风是完全可以避免的。,69,六 准确度与可靠度,准确度(accuracy)或真实性(validity):观察值与真值的接近程度,受系统误差的影响(常用指标:如灵敏度、特异度)。可靠度(reliabiliy)也称精密度(precision)或重复性(repeatability):重复观察时观察值与其均值的接近程度,受随机误差的影响(常用指标:一致百分率、Kappa值)。,70,71,样本的实际发生率称为频率。设在相同条件下,独立重复进行n次试验,事件A出现f 次,则事件A出现的频率为f/n。概率:随机事件发生
26、的可能性大小,用大写的P 表示;取值0,1。,七 频率与概率 frequency and probability,72,必然事件 P=1随机事件 0 P 1不可能事件 P=0 P 0.05(5)或P 0.01(1)称为小概率事件(习惯),统计学上认为不大可能发生。,小概率事件,Certain,Impossible,0.5,0,1,73,数据的组织与表达,A 数据与数据类型 一、原始数据的组织 二、变量的类型 三、定量变量的离散化与有序分类变量的数量化 B 频数分布表 一、定量数据的频数分布表 二、定性数据的频数分布表 三、配对设计定性数据的频数分布表C 统计图形表达,74,一、原始数据的组织,
27、每一行代表一个研究对象(单位)的观测记录每一列代表一个观测指标(变量),75,SPSS软件的数据界面,SPSS-Statistical Package for Social Science(社会科学统计软件包)现改为Statistical Product and Service Solutions(统计产品与服务解决方案),76,SAS软件的数据界面,77,SPSS软件的数据界面,二、变量的类型只有认识了变量的类型,才能正确地选用统计分析方法,按变量测量的精确程度由低到高,将数据分类为:名义变量(如性别、婚姻状况)、有序变量(如疗效,类别间差别大小难以度量)、区间变量(如摄氏体温,类别间差别有
28、实际意义)、比变量(如身高,除具有区间变量的特征外,还具有真实意义的零点。摄氏温度的零点为水结冰时温度,并非绝对意义的零点,所以它不属于比变量),定量变量,定性变量,79,1、定性变量(Qualitative Variable),也称为:计数数据(enumeration(counting)data)(1)名义变量(Nominal variable)二项分类 性别分类,如男性为1,女性为0。多项无序分类 血型的A、B、AB、O型多项无序分类(2)有序(等级)变量(Ordinal or ranking variable)多项有序分类 疗效观测分为显效、有效、好转及无效4个类别。,80,2、定量变量
29、(Quantitative Variable),(1)区间变量(interval variable)或数值变量(numerical variable)如:身高,血压,血清胆固醇浓度,体温,脉搏计数、红细胞计数、玫瑰花环计数、住院天数等。(一般有度量衡单位,类别间的差别大小有实际意义)(2)比变量(ratio variable)以上例子中除体温外(具有真实意义的零点),81,连续型变量(Continuous variable)与 离散型变量(Discrete variables),根据观察数据之间有无缝隙(gap),常将数据分类为离散型变量(有缝隙)与连续型变量(无缝隙)两大类,名义变量一定是离
30、散型变量;连续型变量只能是比、区间和有序变量,但比、区间和有序变量也可以是离散型变量(见图),82,三、定量变量的离散化与有序分类变量的数量化,1、实际年龄-少年、青年、中年、老年2、有序疗效等级:显效、有效、好转、无效 4 3 2 1,丢失信息,赋值的合理性?,定量变量定性变量,例:一组2040岁成年人的血压,以12kPa为界分为正常与异常两组,统计每组例数,8 低血压 8 正常血压 12 轻度高血压 15 中度高血压 17 重度高血压,定量变量,有序分类,定性变量,丢失信息,观察单位observations个体individuals,变量variables,Quantitative dat
31、a 定量数据,Qualitative data 定性数据,Units;elements,85,频数分布表,一、定量数据的频数分布二、(非配对设计)定性数据的频数分布三、配对设计定性数据的频数分布,频数(frequency)将定量数据分类成若干个组段,或将定性数据分类成若干个类别,所清点得到的每一组段或类别的数据出现个数。,86,一、定量数据的频数分布,150名成年男子血清总胆固醇水平(mmol/L)测定,87,(1)求极差(range):即最大值与最小值之差,又称为全距。R=6.29-2.72=3.57 mmol/L(2)决定分组组数、组距 根据研究目的和样本含量n确定分组组数,通常分为101
32、5个组。组距=极差/组数,为方便计,组距=极差/10,再略加调整。3.57/10=0.357 0.4(3)列出组段 第一组段的下限略小于最小值,最后一个组段上限必须包含最大值。2.7 3.1 5.5 5.96.3(4)划记计数:用划记法将所有数据归纳到各组段,得到各组段的频数。,频数表的编制步骤,88,(5)计算频率:Pi=fi/n,如P1=f1/n6/150=0.04(6)计算累计频数(fc)(7)计算累计频率:Pc=fc/n,89,90,二、(非配对设计)定性数据的频数分布,一维频数表二维频数表高维频数表,91,普通二维表的常见类型,92,由原始数据整理成一维频数表,14名成人的婚姻状况,
33、14名成人的原始数据,93,由原始数据整理成二维频数表,不同性别的婚姻状况,14名成人的原始数据,94,三、配对设计定性数据的频数分布1,表2.7 同一样品经两种培养基培养结果,自身配对,95,三、配对设计定性数据的频数分布2,96,统计图形表达,97,1、直方图(Histogram):用于描述定量变量的数据分布特征。,98,2(1)、概率-概率散点图(p-p plot)又称为p-p图或百分点图,横轴为观察累积概率,纵轴为理论(如正态)累积概率,确定样本数据对于理论分布的一致性,图 表2-3数据的p-p图,99,2(2)、分位数-分位数散点图(q-q plot)又称为q-q图,横轴为观察值,纵
34、轴为理论(如正态)分位数,确定样本数据对于理论分布的一致性,图 表2-3数据的q-q图,100,绘PP或QQ图的数据,101,2、茎叶(Stem-Leaf)图,Stem Leaf#62 69 2 60 22 2 58 112 3 56 367 3 54 172789 6 52 22349002223 11 50 7833 4 48 133567836777 12 46 23344457934467 14 44 0355799001445778 16 42 03667013467 11 40 23355680022789 14 38 1255122234568 13 36 12468899146
35、78 13 34 35502455589 11 32 059224 6 30 7044 4 28 4345 4 26 2 1-+-+-+-+Multiply Stem.Leaf by 10*-1,102,3、盒式图(Box plot),103,4、直条图(Bar chart):用直条反映定性变量不同类别下的某指标大小。,四种营养素喂养小白鼠三周后所增体重(克),104,绘制直条图注意事项,纵轴的刻度必须从“0”开始,否则会改变各对比组间的比例关系。(2)横轴各直条一般按统计指标由大到小排列,也可按事物本身的自然顺序排列。(3)各直条的宽度要一致,各直条应有相等的间隔,其宽度一般与直条的宽度相等
36、或为直条宽度的一半。,105,5、饼图(pie Chart):反映定性变量各个分类的构成情况。,106,6.散点图,107,7.线图,108,(8)统计地图(statistical map),统计地图(statistical map):用于表示某现象的数量在地域上的分布。,109,第二部分 概率论、基本分布,第一节 概率的有关概念第二节 随机变量及其概率分布概述第三节 常用的概率分布 二项分布、泊松分布、正态分布 第四节 常用的抽样分布 卡方分布、t分布、F分布,110,第一节 概率的有关概念,样本的实际发生率称为频率。设在相同条件下,独立重复进行n次试验,事件A出现f 次,则事件A出现的频率
37、为f/n。概率:随机事件发生的可能性大小,用大写的P 表示;取值0,1。,一、频率与概率 frequency and probability,必然事件 P=1随机事件 0 P 1不可能事件 P=0 P 0.05(5)或P 0.01(1)称为小概率事件(习惯),统计学上认为不大可能发生。,二、随机事件 Random events,Certain,Impossible,0.5,0,1,样本空间(sampling space):随机试验的所有可能的结果称为样本空间。,频率与概率间的关系:1.样本频率总是围绕概率上下波动 2.样本含量n越大,波动幅度越小,频率越接近概率。,113,随着投掷次数 n 的
38、增大,出现正面和反面的频率稳定在1/2左右,种子发芽与否是不能事先确定的,但从表中可以看出,试验随着n值的不同,种子发芽率也不相同,当n充分大时,发芽率在0.92附近摆动。,例:,频率表明了事件频繁出现的程度,因而其稳定性说明了随机事件发生的可能性大小,是其本身固有的客观属性,提示了隐藏在随机现象中的规律性。,概 率,116,一、随机变量,每次抛两个硬币,记录正、反面结果;结果可记录为:硬币1正面朝上,硬币2正面朝上;2个正面 硬币1正面朝上,硬币2反面朝上;1个正面 硬币1反面朝上,硬币2正面朝上;1个正面 硬币1反面朝上,硬币2反面朝上 0个正面 正面数就是一个随机变量,记为x,我们通常对
39、x的每个取值的概率感兴趣。对于本例,x的取值为0、1、2。,第二节 随机变量及其概率分布概述,117,二、离散型随机变量与连续型随机变量,离散型随机变量(discrete random variable):数据间有缝隙,其取值可以列举。例如抛硬币10次,正面的可能取值x为0、1、2、3、4、5、6、7、8、9、10 连续型随机变量(continous random variable)数据间无缝隙,其取值充满整个区间,无法一一列举每一可能值 例如身高、体重、血清胆固醇含量,118,三、概率分布(probability distribution),概率分布:描述随机变量值xi及这些值对应概率P(X
40、=xi)的表格、公式或图形。,离散型随机变量概率分布连续型随机变量概率分布,119,1.离散型随机变量的概率分布,120,离散型随机变量的概率分布举例,121,2.连续型随机变量的概率分布,变量的取值充满整个数值区间,无法一一列出其每一个可能值。一般将连续型随机变量整理成频数表,对频数作直方图,直方图的每个矩形顶端连接的阶梯形曲线来描述连续型变量的频数分布。,122,123,如果样本量很大,组段很多,矩形顶端组成的阶梯型曲线可变成光滑的分布曲线。大多数情况下,可采用一个函数拟合这一光滑曲线。这种函数称为概率密度函数(probability density function),124,如果连续型
41、随机变量X的密度函数记为:则在区间x1,x2 范围内的概率可由微积分函数定义,125,第三节 常用的概率分布离散型随机变量分布一、二项分布二、泊松分布连续型随机变量分布三、正态分布,126,一、二项分布,毒性试验:白鼠 死亡生存临床试验:病人 治愈未愈临床化验:血清 阳性阴性事件 成功(A)失败(非A)这类“成功失败型”试验称为Bernoulli试验。,127,Bernoulli试验序列,n次Bernoulli试验构成了Bernoulli试验序列。其特点(如抛硬币)如下:(1)每次试验结果,只能是两个互斥的结果之一(A或非A)。(2)每次试验的条件不变。即每次试验中,结果A发生的概率不变,均为
42、。(3)各次试验独立。即一次试验出现什么样的结果与前面已出现的结果无关。,128,成功次数的概率分布二项分布,例 设某毒理试验采用白鼠共3只,它们有相同的死亡概率,相应不死亡概率为1。记试验后白鼠死亡的例数为X,分别求X0、1、2和3的概率,129,130,131,二项分布的概率计算,132,二项分布的性质,133,134,135,136,137,(二)样本率与总体率的比较,二项分布的应用,138,139,二项分布(用Excel计算概率),第1步:进入Excel表格界面,将鼠标停留在某一空白单元格第2步:在Excel表格界面中,直接点击“f(x)”(粘贴函数)命令 第3步:在复选框“函数分类”
43、中点击“统计”选项,在“函数名”中点击“BINOMDIST”选项,然后确定 第4步:在Number_s后填入试验成功次数(本例为1)在Trials后填入总试验次数(本例为5)在Probability_s后填入试验的成功概率(本例为0.04)在Cumulative后填入0(或FALSE),表示计算成功次 数恰好等于指定数值的概率(填入1或TRUE表示计算 成功次数小于或等于指定数值的累积概率值),140,二、泊松分布,当二项分布中n很大,很小时,二项分布就变成为Poisson分布,所以Poisson分布实际上是二项分布的极限分布。由二项分布的概率函数可得到泊松分布的概率函数为:,141,在m处的
44、概率最大,142,在m处的概率最大,143,Poisson分布主要用于描述在单位时间(空间)中稀有事件的发生数,例如:1.放射性物质在单位时间内的放射次数;2.在单位容积充分摇匀的水中的细菌数;3.野外单位空间中的某种昆虫数等。,144,泊松分布的其它例子一定时间段内,某航空公司接到的订票电话数一定时间内,到车站等候公共汽车的人数一定路段内,路面出现大损坏的次数一定时间段内,放射性物质放射的粒子数一匹布上发现的疵点个数一定页数的书刊上出现的错别字个数,145,Poisson分布概率的计算,146,Poisson分布的性质(1),一、Poisson分布的均数与方差相等 即2=m 二、Poisso
45、n分布的可加性,147,第五节 Poisson分布的性质(2),三、Poisson分布的正态近似 m相当大(20)时,近似服从正态分布:N(m,m)四、二项分布的Poisson分布近似,148,泊松分布(用Excel计算概率),第1步:进入Excel表格界面,将鼠标停留在某一空白单元格第2步:在Excel表格界面中,直接点击“f(x)”(粘贴函数)命令 第3步:在复选框“函数分类”中点击“统计”选项,并在“函数名”中点击“POISSON”选项,然后确定 第4步:在X后填入事件出现的次数(本例为6)在Means后填入泊松分布的均值(本例为7)在Cumulative后填入0(或FALSE),表示计
46、算成功次 数恰好等于指定数值的概率(填入1或TRUE表示计算 成功次数小于或等于指定数值的累积概率值),149,1.概率密度函数,三、正态分布(Normal Distribution),2.概率分布函数,150,151,(1)正态分布在横轴上方均数处最高。(2)正态分布以均数为中心,左右对称。(3)正态分布由参数和确定。是位置参数,当不变时,越大,则曲线沿横轴越向右移动;反之,越小,曲线沿横轴越向左移动。是变异度参数,当不变时,越大,表示数据越分散,曲线越平坦;越小,表示数据越集中,曲线越陡峭。(4)正态分布曲线与X轴所围成的面积为1。(5)在的区间内占总面积的68.27%,在1.96的区间内
47、占总面积的95%;在2.58的区间内占总面积的99%。,正态分布特征,152,153,和 对正态曲线的影响,154,正态分布(用Excel计算概率),第1步:进入Excel表格界面,将鼠标停留在某一空白单元格第2步:在Excel表格界面中,直接点击“f(x)”(粘贴函数)命令 第3步:在复选框“函数分类”中点击“统计”选项,并在“函数名”中点击“NORMDIST”选项,然后确定 第4步:在X后填入正态分布函数计算的区间点(本例为70)在Mean后填入正态分布的均值(本例为50)在P Standard_dev后填入标准差(本例为10)在Cumulative后填入1(或TRUE)表示计算事件出现
48、次数小于或等于指定数值的累积概率值,155,标准正态分布,标准正态离差标准正态分布:N(0,1),156,此概率密度函数实质上就是正态分布的概率密度函数中=0,=1的情形。从几何意义上说,此变换实质上是作了一个坐标轴的平移和尺度变换,使正态分布具有平均数为=0,标准差=1。这种变换称为标准化正态变换。因此将这种具有平均数为=0,标准差=1的正态分布称为标准正态分布,记为N(0,1)。,157,普通正态分布与标准正态分布,X,Z,(Z),(Z),158,标准正态分布的累积概率函数,正态分布概率密度曲线在-1+1的区间内占总面积的68.27%,在-1.96+1.96的区间内占总面积的95%;在-2
49、.58+2.58的区间内占总面积的99%。,曲线下面积分布规律,160,正态分布的特征,归纳起来有两点:一是对称性(symmetry)若分布不对称就是偏态,长尾拖向右侧(变量值较大的一侧)叫做正偏态,或右偏态;长尾拖向左侧(变量值较小的一侧)叫做负偏态,或左偏态。二是正态峰(mesokurtosis)峰态系数是描述随机变量陡峭度的参数,分为:正态峰、平阔峰、尖峭峰。,偏度系数和峰度系数,a.尖峭峰 b.正态峰c.平阔峰,正态分布:中间高、两边低、左右对称,正偏态分布:长尾向右延伸,负偏态分布:长尾向左延伸,163,常用的抽样分布,如果总体服从正态分布N(m,s2),则从该正态总体中抽取样本,得
50、到的样本均数也服从正态分布,但该分布为N(m,s2/n),此时的方差是总体的1/n倍,即有,164,如果总体不是正态总体,但其均数和标准差分别为和,则当样本含量n不断增大时,样本均数的分布也趋近于正态分布,且其均数为,标准差为 不论总体的分布形式如何,只要样本含量n足够大时,样本均数的分布就近似正态分布,此称为中心极限定理。,中心极限定理,165,常用的三种抽样分布,一、分布 二、t分布三、F 分布,均为连续型随机变量分布,分布只与自由度,即样本含量有关,166,(一)、2分布(也称样本方差的分布),对于来自正态总体的简单随机样本,则比值 的抽样分布服从自由度为(n-1)2分布,即,167,由