《167;6.1总体、样本和统计量.ppt》由会员分享,可在线阅读,更多相关《167;6.1总体、样本和统计量.ppt(20页珍藏版)》请在三一办公上搜索。
1、数理统计,数学与计算机科学学院,杜秀丽,按时到课,上课期间请关闭手机:按时完成作业,在每次上课之前交作业,不得在课堂上写作业,杜绝抄袭严禁任何时候任何形式的作弊行为,否则成绩以零分记在考试时切记带学生证期中考试形式:提交一份统计报告,具体内容自定,数据自己收集在掌握手工计算方法的基础上,鼓励使用软件或编程方法计算统计习题建议至少会使用Excel和Matlab成绩计算:作业10分+报告20分+期终考试70分星期二第5节J3 四楼教师休息室恭候诸位答疑 希望我们牛年合作愉快!,基本要求:,一.何谓数理统计学,在正确的前提下,我们可以利用由一般到特殊的演绎推理严格证明一个结论的正确性从确定的前提可以
2、推出有关的确定的事实,我们不会对这种问题有太多的敬畏,总有聪明的人可以准确地做出这种推理。,归纳法是从若干事实概括出它们的共性的一种思想方法,其本质特征是:虽然考察的只是若干个别现象,但所得的结论却能超出考察的范围归纳法不仅是一种逻辑推理方法,也是一种科学研究方法,更是一种科学发现方法归纳推理,就是要从所有可能的结论中挑选出一个自认为是最有可能正确的结论,当然用归纳法得出的结论并非总是正确的,认真思考归纳推理,我们要解决以下问题:1、针对一个问题,怎样合理有效地观测记录有关事实?2、基于已经观测到的事实,有哪些结论可供选择呢?3、能否给出一个统一的方法,告诉我们该选择哪一个结论呢?4、做出选择
3、的同时,我们必须同时承担多大出错的风险呢?,虽然归纳推理的历史和人类发展史一样长,但是直到二十世纪,才出现了处理这种问题的突破口。问题的难点在于,由特殊到一般的归纳推理建立起来的知识是不确定的,只有解决了度量不确定性的问题,才能利用归纳法得到真正有用的知识:,不确定的知识+不确定性的度量=有用的知识,数理统计正是研究这样一种新的逻辑思维方法的一种科学也就是说,数理统计不仅给出结论,还给出结论的不确定性的准确度量,今后,我们把观测到的有关事实叫做数据用传统的语言说,数理统计学就是关于数量信息的收集、整理和分析的学科严格地说,数理统计学就是应用概率论的理论,从实际观察资料出发,对随机现象所蕴含的内
4、部规律进行分析及推断的一门学科,基本任务:,研究如何有效地收集、整理和分析受随机因素影响的数据,并对所考察的问题做出推断和预测,直至为采取决策和行为提供建议和依据,在今天高度复杂的世界里,数理统计变得越来越重要了。即使作为一个普通公民,在很多方面,从经济状况到判断一种牙膏的好坏,都会受到大量数字的困扰,如果不具有一定的统计学知识,很难做出明智的决定如果你在接受高的教育,学习政治,经济,商业,保险,金融,广告,或者是物理,化学,医学,卫生,等等,你会发现统计学是多么重要,二.数理统计学的基本内容,1.试验的设计与研究以获得局部的有代表性的数据,2.统计推断利用有限的信息,以一定的可靠程度对整体进
5、行推断,6.1 总体、样本和统计量,一.总体和样本,ch6 抽样分布,考察下面这些问题中的研究对象:(l)、某地区高中学生的身高发育情况;(2)、袁隆平新水稻品种的亩产量;(3)、某班学生的数学学习成绩;(4)、中国人口状况;(5)、姚明的技术水平(投篮,三分球,命中率,篮板等);(6)、学习成绩与性别的关系:(7)、红楼梦前80回与后40回的用字、用词、用句差异;(8)、某个厂所生产的电子元件的寿命;,1.总体,总体(母体):,具有某一特征的研究对象的全体所构成的集合,个体:,组成总体的各个成员,总体可以是动物,植物,岩石,股票,商品,试验数据,书本,人口等等。,总体容量:,总体中包含的个体
6、总数目,总体的数学描述:我们可以注意到,总体的每个个体都会相联系着一个或几个数字或具体特征。我们感兴趣的也正是这些数字或特征。有时候我们把不同特征也用不同的数字表示。所以我们用一个字母来表示总体例如用X表示袁隆平新水稻品种的亩产量如果X的取值是一个定值,那么我们只要种一块试验田,就可以得出全部信息,不需要归纳推理,也就不需要数理统计了事实上,只要总体不只有一个个体,X的取值就不只一个任意作一次实验、观测或测量,可以看到X可能取这样的值,也可能取那样的值所以我们应该把X看作是一个随机变量当然,如果我们知道这个随机变量的分布,也不需要用再去种实验田、调查数据、研究袁隆平新水稻品种的亩产量了,因为其
7、特性我们已经完全了解了,所以,在数理统计中,我们把研究对象全体叫做总体,并且抽象地将总体看作是一个随机变量或随机向量,用大些英文字母X,Y,Z等表示数理统计的一个基本前提是:总体分布未知,数理统计的基本任务就是搞清楚总体的概率分布但是,利用有限的信息得出的结论总是会出错的,所以我们实际上是要搞清楚它的各种可能的分布,及其相应的可能性大小,2.样本,要想搞清楚总体的分布,我们会遇到种种困难,例如:(1)、不可能把每个个体的特征都记录研究;(2)、不可能收集到所有数据;(3)、即使可能收集到所有数据,但是要花费大量的财力物力;等等,数理统计正是处理上面遇到的窘境的理想手段。所以,数理统计第一步,就
8、是收集数据。从总体中抽取一部分个体出来,叫做一个样本这个过程叫做抽样样本:从总体中抽取部分个体所组成的集合。样本容量:样本中包含的个体总数目。抽取样本的目的是希望通过较少的数据来推断总体的性质。,但是,我们总是测量每个个体相应的数量指标和特征并作为一条记录所以今后把测得的数据全体叫做样本。,(1).代表性:每个Xi与X同分布,(2).独立性:X1,X2,Xn相互独立,样本要有代表性,它应该是总体的一个“雏型”。我们不能用特定的部分个体做样本,那叫报喜不报忧,或者叫弄虚作假。统计最忌讳弄虚作假。所以,容量为n的样本会取到什么值,应该是随机的,即应该是一个随机变量或随机向量因此我们用(X1,X2,
9、Xn)表示,n是样本容量。当一次抽样结束后,我们就得到了n个具体观测值,相应地记为(x1,x2,xn),叫做样本观测值,那么怎样得到一个有代表性的样本呢?一个基本的原则是,在抽取样本时,总体中的每一个个体都有相同的机会被取到特别地,我们所使用的样本(X1,X2,Xn)是满足下面条件的样本,叫做简单随机样本:,今后我们用到的样本如无特别说明,都是简单随机样本,3.联合概率分布,若X1,X2,Xn是抽自总体X的一个简单样本(1)若总体X的分布列为pi=P(X=ai),i=1,2,,则样本的联合分布列为P(X1=x1,X2=x2,Xn=xn)=P(X1=x1)P(X2=x2)P(Xn=xn)(2)若
10、总体X的密度函数为p(x),则样本的联合密度函数为:p(x1,x2,xn)=p(x1)p(x2)p(xn)(3)若总体X的分布函数为F(x),则样本的联合分布函数为:F(x1,x2,xn)=F(x1)F(x2)F(xn),二.统计量,样本来自总体,包含了总体分布的信息但是我们有时候只对总体某方面的信息感兴趣,这时就需要对样本进行加工处理,从样本提取出我们感兴趣的总体信息一个重要的方法就是构造统计量直观上看,统计量就是把本来是多元随机变量的样本进行压缩后的一个一元随机变量。,定义6.1.1 设X1,X2,Xn是抽自总体X的一个样本,T(X1,X2,Xn)是X1,X2,Xn 的不含未知参数的n元实
11、函数,则 称T=T(X1,X2,Xn)为一个统计量。称如此得到的实数t=T(x1,x2,xn)为统计量T的观察值。注:统计量是样本的函数,因此是一个随机变量,统计量的分布称为抽样分布.,比如,T1=X1+X2+Xn,T2=(X1+5)/n,T3=2X2+(是未知参数),2.几个常用统计量,I.样本均值:,II.样本方差:,III.样本标准差:,IV.样本k阶原点矩:,V.顺序统计量:,设(X1,X2,Xn)是来自总体X的一个样本,每当样本得到一组观察值x1,x2,xn,将其按从小到大的次序排列为x(1),x(2),x(n),第k个值x(k)作为X(k)的观察值,则X(k)(k=1,2,n)均为
12、统计量,统称为顺序统计量,X(1)为最小项统计量;X(n)为最大项统计量,样本中位数:,样本极差:,.样本协方差和相关系数,样本协方差:,样本相关系数:,二维总体(X,Y),样本(X1,Y1),(Xn,Yn),设总体X的期望EX=,方差DX=2,则 1),3.和 的数字特征,上式表明,样本均值X有这样的性质:其观测值以总体期望 为中心,波动方差2/n。也就是说,样本容量越大,X的方差就越小,就越向总体期望集中。所以,我们用X的观测值来估计总体期望 是合理的,X把样本中关于 的信息提取出来了。那么,还会不会有比它更好的统计量能更有效地提取 的信息呢?或者说,X是否已经充分地提取了样本中关于 的信息呢?我们在后面会讨论这个问题。,2),令,称为修正的样本方差,称为修正的样本标准差,作业:P212,习题六的第1题2.利用EXCEL或MATLAB或你所熟悉的软件,生成来自于指数分布总体e(1)的容量为10的样本。(提示:先生成标准均匀分布的随机数,然后再利用课本76页均匀分布的特殊性进行变换。),