体育统计学1-8章课件.ppt

上传人:小飞机 文档编号:4000934 上传时间:2023-03-31 格式:PPT 页数:282 大小:2.42MB
返回 下载 相关 举报
体育统计学1-8章课件.ppt_第1页
第1页 / 共282页
体育统计学1-8章课件.ppt_第2页
第2页 / 共282页
体育统计学1-8章课件.ppt_第3页
第3页 / 共282页
体育统计学1-8章课件.ppt_第4页
第4页 / 共282页
体育统计学1-8章课件.ppt_第5页
第5页 / 共282页
点击查看更多>>
资源描述

《体育统计学1-8章课件.ppt》由会员分享,可在线阅读,更多相关《体育统计学1-8章课件.ppt(282页珍藏版)》请在三一办公上搜索。

1、,体育统计学课件1-8章1214,第一节 体育统计及其研究对象,统计的作用,客观事物的特征,质的特征,量的特征,统计活动,研,究,体育统计研究对象的特征,运动性特征:反映运动能力心理能力等方面的数量指标是具有 运动性特征的。(1,与运动有关;2,是动态的)综合性特征:兼有自然科学和社会科学的综合属性。客观性特征:数据来源于客观事物本身,是对客观事物的反映。,第二节 体育统计在体育活动中的作用,是体育教育科研活动的基础有助于训练工作的科学化能帮助研究者制定研究设计能帮助研究者有效地获取文献资料,总体与个体1,总体的概念:根据统计研究的具体研究目的而确定的同质对象的全体。2,个体的概念:组成总体的

2、每个基本单位。3,总体的分类:,第三节 体育统计中的若干基本概念,总体,现存总体,假想总体,有限总体,无限总体,有限总体:基本研究单位的边界是明晰的,并且基本研究单位的数量是有限的总体。无限总体:基本研究单位的数量是无限多个的总体。,样本1,样本的概念:根据研究需要与可能,从总体中抽取的部 分研究对象所形成的子集为样本。2,样本的分类:随机样本和非随机样本,样本,随机样本,非随机样本,采用随机抽样方法获得的样本,研究者根据研究需要,制定某些条件获得的带非随机性质的样本,必然事件和随机事件1,必然事件:在确定的条件范围内,必然发生(或不发生)的事件。(具备可预言性)2,随机事件:在一定的实验条件

3、下,有可能发生,也有可能不发生的事件。(具备不可预言性,只能猜)随机变量1,随机变量:随机事件的数量表现。,随机变量,连续型随机变量,离散型随机变量,至少理论上可以穷举,不能穷举,总体参数和样本统计量1,总体参数:反映总体数量特征的指标。2,样本统计量:反映样本数量特征的指标。概率1,古典概率:适用于总体明晰的情况下。2:统计概率:适用于总体状况不明的情况下。,补充内容:连加和的缩写式,在高等数学中,采用连加求和缩写式形式来表示连加求和数,它的一般形式为:其中:连加求和号 变量(一组观测数据)在 中,i 是下标,n 是上标,i、n 表示连加求和的界限,即从通项公式具体分解的第一项开始相加一直到

4、第n项为止。各具体项根据 i 的取值不同而有所不同,i 取1为第一项,取“n”为第n项。,体育中常用的连加求和运算:,为了避免符号过于复杂,今后凡在求和范围可以看清的条件下,通常将号上下标省略不写,简记为,补充内容:连加和的缩写式,课堂练习:展开连加和缩写式,体育统计学,第二章 统计资料的收集与整理,收集资料的基本要求 1:资料的准确性 2:资料的齐同性 3:资料的随机性 收集资料的基本方法 1:日常积累 2:全面普查 3:专题研究,第一节 统计资料的收集,几种常用的抽样方法,简单随机抽样(完全随机抽样)抽取特点:1:不分组,不分类,不排队地抽取;2:总体中每个个体都有被抽中的机会;3:总体中

5、每个个体被抽中的机会是均等的。抽取方法:1:抽签法 2:随机数表法(见随机数表)该方法的优点:样本代表性好该方法的缺点:总体含量大时,编号困难。工作量大。,几种常用的抽样方法,分层抽样抽取步骤方法:1:按属性特征分成若干类型、部分或层;2:在类型、部分或层中按照比例进行简单随机抽样。分层的需注意的问题:1:层间必须有清晰的界面;(类间差异大,类内差异小)2:必须知道各类型中的个体数目和比例;3:层的数目不宜太多,但也不要极少。分层抽样的优点:1:能够提高样本代表性,又不至于给调查工作带来麻烦,在代表性和工作量之间做出了平衡;2:适用于总体情况复杂、个体数目较多的情况。,分层抽样范例,某大学体育

6、系大一新生总体人数合计900人,田径350人,篮球200人,足球150人,网球100人,体操80人,游泳20人,分,层,田径35人,篮球20人,足球15人,网球10人,体操8人,游泳2人,按照10%比例简单随机抽样,研究样本含量为90人,按照学生专项属性分层,继续下一步的研究过程,几种常用的抽样方法,整群抽样整群抽样的特点:区别于简单随机抽样和分层抽样,抽样的单位不再是总体中的个体,是总体中的划分出来的群。划分群应注意的问题:群间差异要小,群内差异要大。讨论:调查广东省初中毕业生体质达标的情况。如何抽样?,第二节 统计资料的整理,资料的审核1:初审简单排误2:逻辑检查专业知识、常识,指标关系间

7、排误3:复核按比例抽样复核,频数整理频数分布表的制作,频数分布表的编制(实例),【例】某小学五年级学生跳绳成绩如下(单位:个/分钟)。对数据进行分组。,117 122 124 129 139 107 117 130 122 125108 131 125 117 122 133 126 122 118 108110 118 123 126 133 134 127 123 118 112112 134 127 123 119 113 120 123 127 135137 114 120 128 124 115 139 128 124 121,分组方法,单变量值分组,1.将一个变量值作为一组2.适合

8、于离散变量3.适合于变量值较少的情况,单变量值分组表,组距分组,将变量值的一个区间作为一组适合于连续变量适合于变量值较多的情况必须遵循“不重不漏”的原则可采用等距分组,也可采用不等距分组,组距分组的步骤(等距分组),求全距(极差)R:R最大值最小值确定组数:组数的确定应以能够显示数据的分布特征和规律为目的。在实际分组时,可以按 Sturges 提出的经验公式来确定组数K确定组距I:组距(Class Width)是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即:组距(最大值最小值)组数(k)确定组限(组限:是指每组的起点值与终点值),5.根据分组整理成频数分布表 填

9、写组限 按照从上到下、从小到大的顺序填写,只写下限,不写上限 划记 将数据逐个划记到相应的组中,五个为一组 计算:频数(f);频率;组中值(组中值该组下限 组距2),组距分组涉及的几个概念,1.下 限:一个组的最小值2.上 限:一个组的最大值3.组 距:上限与下限之差4.组中值:下限与上限之间的中点值,课堂练习,117 122 124 129 139 107 117 130 122 125108 131 125 117 122 133 126 122 118 108110 118 123 126 133 134 127 123 118 112112 134 127 123 119 113 12

10、0 123 127 135137 114 120 128 124 115 139 128 124 121,【例】某小学五年级学生跳绳成绩如下(单位:个/分钟)。对数据进行分组。,1.求全距(极差)R:R最大值(Xmax)139最小值(Xmin)107 322.确定组数:3.确定组距:组距(最大值139-最小值107)组数7 5,1+1.70/0.306.6677,4.确定组限:第一组下限(L1)最小值(Xmin)组距(I)/2 107 5/2 104.5105 其他组组限的确定:从第一组开始,每一组的下限加上组距,就得到该组的上限,此上限又是下一组的下限,于是就形成了一列左闭右开的半开区间5.

11、根据分组整理成频数分布表:(略,参照书P17-P18),需要说明的几个问题,关于组数的确定:1:可以依据已有的成熟的专业经验来确定;2:可参考前苏联专家制定的参考表(如右表)确定:关于图形的绘制:可以绘制直观的图形来方便了解数据的信息。较常使用的图形形式有多边形图和直方图等。图形中,一般横坐标代表组限,纵坐标代表频数。,作业,1.每人准备一本固定的作业本。2.教材P19第二章习题第4题,按照步骤与格式制作频数分布表及其直方图。,体育统计学,第三章 样本特征数,第一节 集中位置量数,数据的分布特征及其测量指标,集中趋势(Central tendency),一组数据向其中心值靠拢的倾向和程度测度集

12、中趋势就是寻找数据一般水平的代表值或中心值不同类型的数据用不同的集中趋势测度值低层次数据的集中趋势指标值适用于高层次的测量数据,反过来,高层次数据的集中趋势指标值并不适用于低层次的测量数据选用哪一个测度值来反映数据的集中趋势,要根据所掌握的数据的类型来确定,中位数(Median),中位数,又称中数,中点数。符号Md(Median),定义:是指位于一组数据中较大一半与较小一半中间位置的那个数。,中位数(Median),特征:此数可能是数据中的某一个,也可能根本不是原有的数据。不受极端值的影响计算方法:将数据依大小次序排列,若数据个数为奇数,则取数列中间的那个数为中数;若数据个数为偶数,则取中间两

13、个数的平均数为中数。,概念:样本观测值在频数分布表中频数最多的那一组的组中值。(分组数据的众数,属于引申概念)原始概念:众数,符号Mo,它指在一组数中出现次数最多的那个数。计算方法是直接找到出现次数最多的那个数。众数具有不唯一性。例如:,众数(Mode),无众数原始数据:10 5 9 12 6 8,一个众数原始数据:6 5 9 8 5 5,多于一个众数原始数据:25 28 28 36 42 42,分组数据中众数的计算,频数最多的那一组的组中值。如书P21-P22:练习:找找众数,利用上次所做的作业。,几何平均数,概念:样本观测值的连乘积,并以样本观测值的总数作为次数,开方所得的数据。主要适用于

14、一组数据中有少量数据偏大或偏小,数据分布呈偏态。计算公式:举例说明:1,2,3,4,8,16,42,108见教材P22,例题3.4,算术平均数,算术平均数简称为平均数或均值,符号为M(Mean)总体算术平均数:希腊字母(音:miu)样本算术平均数:英文字母(音:X bar)。算术平均数是由所有数据之和除以数据个数所得的商数,用公式表示为:,算术平均数在应用上有如下特点:算术平均数是一个良好的集中量数,具有反应灵敏、确定严密、简明易解、计算简单、适合进一步演算和较小受抽样变化的影响等优点。算术平均数易受极端数据的影响,这是因为平均数反应灵敏,每个数据的或大或小的变化都会影响到最终结果。,第二节:

15、离中趋势量数,数据分布的另一个重要特征离中趋势的各指标值是对数据离散程度所作的描述反映各变量值远离其中心值的程度,因此也称为离中趋势从另一个侧面说明了集中趋势测度值的代表程度不同类型的数据有不同的离散程度测度值,全距(极差,两极差),概念:一组数据最大值与最小值之差。公式:R最大值(Xmax)最小值(Xmin)特征与缺陷:1:能够了解数据的范围(区域,区间)。2:只考虑极值,容易受到异常数据的影响,属于粗略的指标值,精细程度不够。,绝对差与平均差,绝对差:平均差;,方差和标准差,1:是离散程度的测量指标值之一,最常用。2:能反映数据的分布。3:能反映各变量值与均值的平均差异。4:根据总体数据计

16、算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差。,总体方差和标准差的计算公式,总体方差的计算公式,总体标准差的计算公式,样本方差和标准差,样本方差的计算公式,样本标准差的计算公式,自由度(degree of freedom),一组数据中可以自由取值的数据的个数当样本数据的个数为 n 时,若样本均值x 确定后,只有n-1个数据可以自由取值,其中必有一个数据则不能自由取值例如,样本有3个数值,即x1=2,x2=4,x3=9,则 x=5。当 x=5 确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值样

17、本方差用自由度去除,其原因可从多方面来解释,从实际应用角度看,在抽样估计中,当用样本方差去估计总体方差2时,它是2的无偏估计量,平均数与标准差在体育中的应用,平均数与标准差在决策中的直接应用。变异系数在稳定性研究中的应用。法在原始数据逻辑审核中的应用。,平均数与标准差在决策中的直接应用,例题:教练员要从两名标枪运动员中决定一人参加 比赛,如何作出决策?队员甲:40.50;41.26;40.44;39.62;40.12 42.10;39.84;40.18;38.70;39.54 队员乙:40.48;42.88;40.50;39.50;38.00;43.32;38.72;41.82;36.84;4

18、0.24简单应用平局数与标准差进行数据决策的步骤:1:确定样本数据的全域。2:确定样本数据的平均水平。3:确定样本数据的离散程度。4:根据专业专项应用要求采取相应不同决策。注意:决策前提是认同所取得的数据是真实客观有效的。,变异系数在稳定性研究中的应用,例题:某运动员主项为100m跑,兼项为跳远,在竞技期内,其主、兼项目测试结果如下:100m:s s 跳远:m m 试比较该运动员主项、兼项成绩的稳定性。(试比较该运动员100m跑、跳远两成绩的离散程度。)解答:二者的指标单位不同且性质不同,不能够直接进行比较。依据变异系数的概念特征,可以计算CV进行比较:由于该运动员100m跑的CV跳远的CV,

19、故该运动员的100m跑的成绩比跳远成绩稳定。(或说100m跑成绩的离散程度小于跳远成绩),例题:随机抽取某市300名初中男生的身高,经检验基本服从正态分布,并得出 cm,cm,在这300名学生中,有三人的身高原始数据为 cm,cm,cm。试用 法检查这三个数据是否为可疑数据。法进行原始数据逻辑审核的步骤:1:求 的下限和上限。2:数据检验,看数据是否存在 下限,上限 区间之内。3:作出初步判定 a:在区间之内,可以初步认定数据正常;b:在区间之外,需要进一步审核数据的准确性。,法在原始数据逻辑审核中的应用,作业,1.计算教材P19第二章习题第4题中样本数据的所有集中量数指标和离散量数指标。2.

20、教材P39第三章习题第2题。3.自习教材第三章与第四章未讲到的内容。,体育统计学,第五章 正态分布,正态分布的概念与性质,200个样本数据的频率分布直方图,总体密度曲线,无穷多个样本数据的频率分布直方图,正态分布的重要性,1.描述连续型随机变量的最重要的分布2.可用于近似连续型的离散变量的分布3.经典统计推断的基础,概率密度函数,f(x):随机变量 X 的频数:总体方差=3.14159;e=2.71828x=随机变量的取值(-x)=总体均值,正态分布函数的一些性质,概率密度函数在x 的上方,即f(x)0正态曲线的最高点在均值,它也是分布的中位数和众数正态分布是一簇分布,每一特定正态分布通过均值

21、和标准差来区分。决定曲线的位置,称为位置参数;决定曲线的形状,称为形状参数。曲线f(x)相对于均值对称,尾端向两个方向无限延伸,且理论上永远不会与横轴相交正态曲线下的总面积等于1,即概率值等于1随机变量的概率由曲线下的面积给出,和 对正态曲线的影响,正态分布的概率,标准正态分布,任何一个一般的正态分布,可通过下面的线性变换 转化为标准正态分布,标准正态分布的概率密度函数,标准正态分布,标准正态分布的重要性,一般正态分布的不同取决于均值和标准差 计算概率时,每一个一般正态分布都需要有自己的正态概率分布表,这种表格是无穷多的。若能将一般正态分布转化为标准正态分布,计算概率时就只需查一张表(标准正态

22、分布表)就可以了。,先将一个一般正态分布转换为标准正态分布计算概率时,查标准正态概率分布表对于负的 x,可由(-x)-x得到对于标准正态分布,即X N(0,12),有P(a X b)b aP(|X|a)2 a 1对于一般正态分布,即X N(,2),有,标准正态分布表的使用,标准化的例子A(5,102),x,=5,=10,一般正态分布,6.2,P(5 X 6.2),标准化的例子B(5,102),一般正态分布,P(2.9 X 7.1),正态分布(实例),【例】设UN(0,12),求以下概率值:(1)P(U2);(3)P(-12)=1-P(U 2)=1-0.9973=0.0227(3)P(-1U 3

23、)=P(U 3)-P(U-1)=(3)-(-1)=(3)1-(1)=0.9987-(1-0.8413)=0.8354(4)P(|U|2)=P(-2 U 2)=(2)-(-2)=(2)-1-(2)=2(2)-1=0.9545,正态分布(实例),【例】设XN(5,32),求以下概率值(1)P(X 10);(2)P(2X 10)解:(1),(2),正态分布(实例),【例】设XN(1,4),求P(0X1.6)解:XN(1,4)XN(1,22)故,=1,=2 P(0X1.6),正态分布理论在体育中的应用,主要应用方面:制定考核标准制定离差评价表进行人数估算在综合评价中统一 变量单位,应用正态分布理论制定

24、考核标准,制定考核标准的步骤:1:制作正态曲线的分布草图。2:计算出从 到 ui值所围成的面积概率。3:查表求得各等级的ui值。4:求得各等级标准的原始成绩xi值。举例说明(如书本例5.1),应用正态分布理论制定离差评价表,制定离差评价表的步骤:1:根据指标总数画好框表。2:将各个指标的平均数填入0标准差等级线与各个指标纵线的交叉处。3:计算1标准差,2标准差,3标准差的对应指标数值,并填入各级标准差等级线与各个指标纵线的交叉处。特别要注意计量的方向性(如:田径中田赛与径赛的计分区别)。4:依据指标成绩基础值和指标变化值画出不同时期的变化图线。5:注意离差等级的划分标准合理制定。(参考标准有两

25、种)举例说明(如书本例5.2),应用正态分布理论进行人数估算,应用正态分布理论进行人数估算的步骤:1:作正态分布曲线的草图,以确定估计范围。2:求各个区间的ui 值。3:查表找到所估计范围的面积概率。4:计算估计范围的人数。举例说明(如书本例5.3),在综合评价中统一 变量单位,U分法:就是依据距离平均数有多少个标准差的距离来确定分数的方法。如果距离平均数在正方向有2个标准差的距离,则记为U分为2分。在负方向有2个标准差距离,则记为U分为-2分。直接用u值来评分。Z分法:是通过U分转换成更加符合实际运用情况的分数计量方法。可以转换为百分计分法,公式为:累计计分法:用于符合正态分布的前提下不等距

26、升分的方法之一。其公式为:百分位数法:用于不符合正态分布的条件下使用变换分数的变量标准化法。其公式见教材P99(5.15)。,作业,1.P49 第三章课后习题第7题。2.P99 第五章课后习题第2题。3.P100 第五章课后习题第3题。4.P100 第五章课后习题第5题。,体育统计学,第六章 统计推断(假设检验),关于误差的说明1:随机误差偶然因素造成,不可避免,无法消除2:系统误差实验条件和研究方法造成的,可以改善3:抽样误差抽出的样本统计量之间或样本统计量与总体参数之间的偏差,主要由于个体间差异造成的,样本含量增大时,抽样误差会有减少的趋势4:人为误差(过失错误)人为过失错误造成的统计数据

27、的失真性。统计处理中最关心的是系统误差和抽样误差。,第一节 参数估计,第一节 参数估计,关于“标准误”的概念表示样本均数(或样本率)与总体均数(或总体率)之间偏差程度的标准差。均数标准误的计算公式:,第一节 参数估计,均数标准误的计算公式:,第一节 参数估计,点估计与区间估计点 估 计选定适当的样本统计量作为参数的估计量。区间估计以变量的概率分布规律来确定未知参数 值的可能范围。置信概率在区间估计中,预选规定的概率。置信区间在区间估计中,按照预选规定的概率确 定下来的区间范围。,置信区间的计算,一:总体均数的置信区间1:大样本含量(n45),可以认定符合正态分布,根据正态分布原理,用u分计算。

28、2:小样本含量(n45),不符合正态分布,只能根据t分布原理,用t分计算。二:总体率的置信区间 样本含量必须足够大(如:n100)p的抽样分布逼近正态分布,用u分计算。计算公式:教材P108-109.,假设检验的基本思想及步骤,主要学习目标:假设检验的基本知识 u 检验 t 检验 卡方检验(不讲),什么是假设?,假设是对总体参数的一种看法总体参数包括总体均值、比例、方差等分析之前必需要有合理的陈述,我认为:蛙跳训练能够促进100m跑成绩的提高!,什么是假设检验?,根据研究目的,对样本所属总体的特征提出一个假设,然后根据样本资料所提供的信息,对这个假设作出拒绝或者不拒绝的判断,这一过程成为假设检

29、验。概念核心:事先对总体参数或分布形式作出某种假设然后利用样本信息来判断原假设是否成立,假设检验的基本思想,.因此我们拒绝假设=173 cm,样本均值,m,=173 cm,抽样分布,H0,这个是我们抽样得出的某个样本均值.,150,假设检验的过程(提出假设抽取样本作出决策),假设检验中的小概率原理,什么是小概率?1.在一次试验中,一个几乎不可能发生的事件发生的概率2.在一次试验中小概率事件一旦发生,我们就有理由拒绝原假设3.小概率由研究者事先确定(与置信区间相关),假设检验的基本步骤,(1)根据实际情况建立原假设H0,备择假设H1(2)选择并计算检验统计量的取值(3)确定显著性水平,查表得出相

30、应的临界值(4)把实值与临界值进行比较,作出统计判断,什么检验统计量?1.用于假设检验问题的统计量2.选择统计量的方法与参数估计相同,需考虑是大样本还是小样本总体方差已知还是未知3.检验统计量的基本形式为,确定适当的检验统计量,提出原假设H0 和备择假设H1,什么是原假设?(Null Hypothesis)1.待检验的假设,又称“0假设、虚无假设”。2.如果错误地作出决策会导致一系列后果。3.总是有等号,或4.表示为 H0 H0:某一数值0 例如,H0:1.73(米),提出原假设H0和备择假设H1,什么是备择假设?(Alternative Hypothesis)1.与原假设对立的假设2.总是有

31、不等号:,或 3.表示为 H1 H1:某一数值,或 某一数值 例如,H1:1.73(米),或 1.73(米),假设检验的几个理论问题,假设检验的基础(1)逻辑基础:反证法(2)数理统计基础:小概率事件原理显著性水平问题(小概率事件发生的概率)0.05 或者0.01临界值问题(见置信区间部分内容),两种检验类型,双侧检验只是强调差异性,不强调方向性单侧检验研究目的着重强调方向性的,有一 定理论和经验基础作为背景,双 侧 检 验,只是强调差异性,不强调方向性,双侧检验图解,双侧检验图解,双侧检验图解,双侧检验图解,单 侧 检 验,研究目的着重强调方向性,是有一定理论和经验基础作为背景的,单侧检验(

32、左侧)图解,单侧检验(左侧)图解,单侧检验(右侧)图解,单侧检验(右侧)图解,假设检验中的两类错误,1.第一类错误(错否定,弃真错误)原假设为真时拒绝原假设第一类错误的概率为,被称为显著性水平2.第二类错误(错接受,取伪错误)原假设为假时接受原假设第二类错误的概率为,H0:无罪,假设检验中的两类错误(决策结果),假设检验就好像一场审判过程,数理统计检验过程,u检验,u 检验,性质:总体平均数或者总体率的检验最佳适用范围:(1)总体方差已知且总体为正态分布。(2)总体方差已知且总体为任何分布的 大样本。,样本均数与总体均数的差异显著性检验 0,样本均数与总体均数的差异显著性检验 0,0 u 检验

33、原始公式:,0 u 检验原始公式的变式:(即:用样本标准差S代替总体标准差),两个样本均数的差异显著性检验1 2,两个样本均数的差异显著性检验1 2,1 2 u 检验原始公式的变式:(即:用样本方差S12和S22分别代替总体方差12和22),1 2u 检验原始公式:,率(比例)的差异显著性检验,样本率与总体率的差异显著性检验(0)样本率与样本率的差异显著性检验(12),其中,t 检验,t 检验背景知识“自下而上的科研”,英国Dublin啤酒公司技师Gorsset想要解决啤酒质量检验问题,可是所涉及的研究对象(如啤酒中的酵母菌的含量等)很难获取大样本的数据。他苦心钻研统计理论,终于想出了一种小样

34、本的检验方法t 检验法,并于1906年以“Student”笔名在Biometrika的杂志上发表了。意义:统计思想上开创了一个新纪元。经过剑桥大学著名统计学专家Fisher教授在数学上的严格证明,创立了与过去描述性统计学炯然不同的推断统计学,标志着推断统计学的诞生。小样本检验理论在许多领域得到了广泛的应用。,t 检验,性质:常用于均数的假设检验最佳适用范围:总体服从正态分布,总体方差未知,样本量n45(30)(或者相对而言样本量较小的时候)。种类:单样本t 检验;独立样本t 检验;配对样本t 检验Spss上的演示(选讲),单样本 t 检验,检验比较的对象:样本均数与一个已知的总体均数检验比较的

35、目的:推断样本所代表的未知总体均数与已知的总体均数0是否相等。(0)例子:“全民健身工程”国民体质检测测试中,已知我国健康成年男子脉搏均数为72次/分(0),某调研人员在一个山区随机调查了25名健康成年男子的脉搏数(具体原始调研数据已知),能否据此认为该山区成年男子的脉搏数()就是(或“就可以代表”)我国健康成年男子脉搏数(0)。,单样本t 检验,公式:练习:P115 例6.6Spss演练(选讲),独立样本t 检验,检验比较的对象:来自两个正态总体且相互独立的两个样本均数检验比较的目的:推断两个样本所代表的总体均数1与2是否相等。(1 2)例子:“全民健身工程”国民体质检测测试中,A调研人员在

36、一个a山区随机调查了25名健康成年男子的脉搏数(具体原始调研数据已知),B调研人员在另一b山区随机调查了28名健康成年男子的脉搏数(具体原始调研数据也已知),能否据此推断两山区健康成年男子的脉搏数没有差异。或者说能否推断两山区健康成年男子的脉搏数同属于一个共同的大总体的两个样本(即来源于同一总体)。,独立样本t 检验,公式(大样本)公式(小样本)书本P118练习:大样本:P116例6.7 小样本:P117例6.8Spss演练(选讲),配对样本t 检验,检验比较的对象:两个数据均能配对的样本检验比较的目的:比较经不同实验处理后或某因素变化后配对单位的差异是否显著。(d 0)例子:某调研人员在一个

37、山区随机调查了25名健康成年男子的脉搏数(具体原始调研数据已知),现在该调研人员对这25人进行了为期三个月的高原体能训练,三个月后再测得了这25名健康成年男子的脉搏数(具体数据已知),想了解这三个月的训练后,这25名健康成年男子的脉搏数是否有了显著性的变化。,配对样本t 检验,公式及其计算过程:教材P120例6.10练习:例6.10Spss演练(选讲),体育统计学,第七章 方差分析(单因素方差分析),下面通过一个实例来介绍方差分析中的有关基本概念。例 题 为检验不同的训练方法对磷肌酸增加有无影响,设计了四种不同的训练方法、,并选取同样条件的名运动员,将他们分成四组,通过三个月的训练后,观察他们

38、磷肌酸增长情况,数据如下表所示:,试通过以上数据推断:不同的训练方法对磷肌酸的增长有无影响?,从表中数据可看出,名运动员磷肌酸的增加量存在差异,这种差异是由以下两方面原因造成的:第方面:由随机误差造成的。第方面:由训练方法不同造成的(系统误差)。方差分析的目的就是将试验中上述两个方面所造成的差异区分出来,并分析哪一方面在试验中起主要作用。,以下是方差分析中所涉及的几个基本概念:1、指标:方差分析中,我们通常把实验所要考察的结果称为指标,也可称之为因变量。2、因素:对试验数据有影响的条件叫因素,其中可控条件叫可控因素,不可控条件叫不可控因素,也称为随机因素。3、因素水平:试验中把可控因素控制在不

39、同范围内,每一个范围就称为一个因素水平。例如,在例6中,训练方法就是一个因素,而训练方法就是一个因素水平,在该试验中共设计了四个因素水平、。4、随机误差:在试验中由随机因素(也称为不可控因素)造成的误差叫随机误差。5、条件误差(系统误差):在试验中由试验条件不同而造成的误差叫条件误差。,6、单因素方差分析:在试验中只考虑一个因素对试验结果的影响,则称此试验为单因素试验,其对应的数据分析方法为单因素方差分析法。7、多因素方差分析:在试验中考虑多个因素对试验结果的影响,则称此试验为多因素试验,其对应的数据分析方法为多因素方差分析法。8、交互作用:多因素方差分析中,不同因素水平间的搭配会对试验结果产

40、生影响,称这种影响为交互作用。,单因素方差分析,一、单因素方差分析的基本思想 单因素方差分析的基本思想就是把观测值的总变异(差异)分解成条件误差与椭机误差两部分,并求得反映它们所起作用大小的量离差平方和,再除以各自的自由度而求得它们各自的方差,通过比较它们方差的“大小”,就可作出试验条件对试验结果是否有影响的统计判断。单因素方差分析的基本原理可简述如下:单方差分析的基本原理:把试验数据的总差异分解成条件误差与随机误差,然后比较“大小”,看哪一个在总差异中占主要地位。这一基本原理也称之为离差分解法,即Q总=Q条件+Q随机,二、单因素方差分析的步骤,单因素方差分析分一般分如下4个步骤:提出假设H0

41、:某因素对试验数据无显著影响。列方差计算表,计算随机误差、条件误差及它们的自由度。列方差分析表,比较条件误差与随机误差的大小。作出结论。当临界值(,)或相伴概率P a时,拒接假设;当临界值(,)或相伴概率Pa时,接受假设。,方差计算表,总差异Q总、条件误差Q条件、随机误差Q随机可由方差计算表中右下方框中的、按以下公式计算:Q条件 Q随机 Q总 Q条件 Q随机 随机误差、条件误差的自由度计算公式为:条件误差的自由度条件 随机误差的自由度随机(其中为水平数),三、单因素方差分析举例 例 为检验不同的训练方法对磷肌酸增加有无影响,设计了四种不同的训练方法、,并选取同样条件的名运动员,将他们分成四组,

42、通过三个月的训练后,观察他们磷肌酸增长情况,数据如下表所示:,试通过以上数据推断:不同的训练方法对磷肌酸的增长有无影响?,【解】1.提出假设H0:不同训练方法对磷肌酸的增长无显著性差异。2.列方差计算表,由上计算表可得:条件误差的离差平方和1、自由度1分别为:1219.7269.2/24=17.291随机误差的离差平方和2、自由度2分别为:2248.31219.7228.622420,列方差分析表。,结论:拒接原假设,即认为不同的训练方法对磷肌酸的增长有显著性影响。,什么是方差分析?,检验多个总体均值是否相等 通过对各观察数据误差来源的分析来判断多个总体均值是否相等2.变量一个定类尺度的自变量

43、2个或多个(k 个)处理水平或分类一个定距或比例尺度的因变量3.用于分析完全随机化试验设计,什么是方差分析?,【例8.1】某饮料生产企业研制出一种新型饮料。饮料的颜色共有四种,分别为橘黄色、粉色、绿色和无色透明。这四种饮料的营养含量、味道、价格、包装等可能影响销售量的因素全部相同。现从地理位置相似、经营规模相仿的五家超级市场上收集了前一时期该饮料的销售情况,见表8-1。试分析饮料的颜色是否对销售量产生影响。,什么是方差分析?,检验饮料的颜色对销售量是否有影响,也就是检验四种颜色饮料的平均销售量是否相同设1为无色饮料的平均销售量,2粉色饮料的平均销售量,3为橘黄色饮料的平均销售量,4为绿色饮料的

44、平均销售量,也就是检验下面的假设H0:1 2 3 4 H1:1,2,3,4 不全相等检验上述假设所采用的方法就是方差分析,方差分析的基本思想和原理(几个基本概念),因素或因子所要检验的对象称为因子要分析饮料的颜色对销售量是否有影响,颜色是要检验的因素或因子水平因素的具体表现称为水平A1、A2、A3、A4四种颜色就是因素的水平观察值在每个因素水平下得到的样本值每种颜色饮料的销售量就是观察值,方差分析的基本思想和原理(几个基本概念),试验这里只涉及一个因素,因此称为单因素四水平的试验总体因素的每一个水平可以看作是一个总体比如A1、A2、A3、A4四种颜色可以看作是四个总体样本数据上面的数据可以看作

45、是从这四个总体中抽取的样本数据,1.比较两类误差,以检验均值是否相等2.比较的基础是方差比3.如果系统(处理)误差显著地不同于随机误差,则均值就是不相等的;反之,均值就是相等的4.误差是由各部分的误差占总误差的比例来测度的,方差分析的基本思想和原理,方差分析的基本思想和原理(两类误差),随机误差在因素的同一水平(同一个总体)下,样本的各观察值之间的差异比如,同一种颜色的饮料在不同超市上的销售量是不同的不同超市销售量的差异可以看成是随机因素的影响,或者说是由于抽样的随机性所造成的,称为随机误差 系统误差在因素的不同水平(不同总体)下,各观察值之间的差异比如,同一家超市,不同颜色饮料的销售量也是不

46、同的这种差异可能是由于抽样的随机性所造成的,也可能是由于颜色本身所造成的,后者所形成的误差是由系统性因素造成的,称为系统误差,方差分析的基本思想和原理(两类方差),组内方差因素的同一水平(同一个总体)下样本数据的方差比如,无色饮料A1在5家超市销售数量的方差组内方差只包含随机误差组间方差因素的不同水平(不同总体)下各样本之间的方差比如,A1、A2、A3、A4四种颜色饮料销售量之间的方差组间方差既包括随机误差,也包括系统误差,方差分析的基本思想和原理(方差的比较),如果不同颜色(水平)对销售量(结果)没有影响,那么在组间方差中只包含有随机误差,而没有系统误差。这时,组间方差与组内方差就应该很接近

47、,两个方差的比值就会接近1如果不同的水平对结果有影响,在组间方差中除了包含随机误差外,还会包含有系统误差,这时组间方差就会大于组内方差,组间方差与组内方差的比值就会大于1当这个比值大到某种程度时,就可以说不同水平之间存在着显著差异,方差分析中的基本假定,每个总体都应服从正态分布对于因素的每一个水平,其观察值是来自服从正态分布总体的简单随机样本比如,每种颜色饮料的销售量必需服从正态分布各个总体的方差必须相同对于各组观察数据,是从具有相同方差的总体中抽取的比如,四种颜色饮料的销售量的方差都相同观察值是独立的比如,每个超市的销售量都与其他超市的销售量独立,方差分析中的基本假定,在上述假定条件下,判断

48、颜色对销售量是否有显著影响,实际上也就是检验具有同方差的四个正态总体的均值是否相等的问题 如果四个总体的均值相等,可以期望四个样本的均值也会很接近四个样本的均值越接近,我们推断四个总体均值相等的证据也就越充分样本均值越不同,我们推断总体均值不同的证据就越充分,方差分析中基本假定,如果原假设成立,即H0:m1=m2=m3=m4四种颜色饮料销售的均值都相等没有系统误差 这意味着每个样本都来自均值为、差为2的同一正态总体,方差分析中基本假定,如果备择假设成立,即H1:mi(i=1,2,3,4)不全相等至少有一个总体的均值是不同的有系统误差这意味着四个样本分别来自均值不同的四个正态总体,单因素方差分析

49、的数据结构,单因素方差分析的步骤,提出假设构造检验统计量统计决策,提出假设,一般提法H0:m1=m2=mk(因素有k个水平)H1:m1,m2,mk不全相等对前面的例子H0:m1=m2=m3=m4颜色对销售量没有影响H0:m1,m2,m3,m4不全相等颜色对销售量有影响,构造检验的统计量,为检验H0是否成立,需确定检验的统计量 构造统计量需要计算水平的均值全部观察值的总均值离差平方和均方(MS),构造检验的统计量(计算水平的均值),假定从第i个总体中抽取一个容量为ni的简单随机样本,第i个总体的样本均值为该样本的全部观察值总和除以观察值的个数计算公式为,式中:ni为第 i 个总体的样本观察值个数

50、 xij 为第 i 个总体的第 j 个观察值,构造检验的统计量(计算全部观察值的总均值),全部观察值的总和除以观察值的总个数计算公式为,构造检验的统计量(前例计算结果),构造检验的统计量(计算总离差平方和 SST),全部观察值 与总平均值 的离差平方和反映全部观察值的离散状况其计算公式为,前例的计算结果:SST=(26.5-28.695)2+(28.7-28.695)2+(32.8-28.695)2=115.9295,构造检验的统计量(计算误差项平方和 SSE),每个水平或组的各样本数据与其组平均值的离差平方和反映每个样本各观察值的离散状况,又称组内离差平方和该平方和反映的是随机误差的大小计算

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号