《统计学期末复习重点概要.doc》由会员分享,可在线阅读,更多相关《统计学期末复习重点概要.doc(13页珍藏版)》请在三一办公上搜索。
1、统计学期末复习重点一单项选择(20 X 2=40)单选题所涉及的知识点,不用死记概念,要理解其内涵,灵活应用!第一章 绪论统计的定义:统计是人们认识客观世界总体数量变动关系和变动规律的活动的总称,是认识客观世界的有力工具。统计学的定义:统计学是关于数据的科学,研究如何收集(如调查与试验)、分析(回归分析)、表述数据(图与表),并通过数据得出基本结论。统计的研究对象的特点:数量性。统计数据是客观事物量的反映。总体性。统计的数量研究是对现象总体中各单位普遍存在的事实进行大量观察和综合分析。变异性。总体各单位的特征表现存在着差异,而且这些差异并不是事先可以预知的。统计的分类:统计可分为描述统计,推断
2、统计、核算统计、理论统计、应用统计描述统计:汇总的表、图和数值。包括搜集数据、整理数据、展示数据推断统计:用样本数据对总体性质进行估计,检验核算统计:对国家或地区经济运行过程及各类总量进行描述和分析总体:根据一定目的确定的所要研究的事物的全体。它是由客观存在的、具有某种共同性质的许多个别事物构成的整体。总体单位(简称单位):是组成总体的各个个体。根据研究目的的不同,单位可以是人、物、机构等实物单位,也可以是一种现象或活动等非实物单位。样本:由总体的部分单位组成的集合。样本容量:样本所包含的总体单位数标志(变量):总体各单位普遍具有的属性或特征。标志的分类:品质标志:单位属性方面的特征。品质标志
3、的表现只能用文字、语言来描述。数量标志:单位数量方面的特征。数量标志可以用数值来表现几种常用的统计软件:SAS SPSS MINITAB STATISTICA Excel思考题:1、在调查某高校学生的学习状况时,总体是( C )A该校全部学生 B该校每个学生C该校全部学生的学习情况D被随机抽取进行数据采集的全部学生2. 要了解全国的人口情况,总体单位是( A )。A.每一个人 B.每一户 C.每个省的人口 D.全国总人口 第二章 数据数据:所收集、分析、汇总表述和解释的事实及数字,数据是进行统计分析研究的基础;是统计学研究对象的特征,是客观事实;不仅仅局限于数字范畴,包括非数字形式的其他信息。
4、个体总体单位:收集数据的实体,也就是数据的承载者变量(标志):个体的特征或者属性 变量值:个体在变量上的具体表现(例如,固定资产是一个变量,各企业固定资产的具体数值是变量值)指标(统计指标):是说明总体的综合数量特征的。标志:总体各单位普遍具有的属性或特征指标与标志的区别:标志是说明总体单位特征的,而指标是说明总体特征的。指标都能用数值表示,而标志中的品质标志不能用数值表示,是用属性表示的。连续型变量:变量的取值在数轴上连续不断,无法一一列举,即在一个区间内可以取任意实数值。(例如,气象上的温度、湿度,零件的尺寸等)离散型变量:变量的取值是整数值,可以一一列举。(例如,企业数,职工人数)数据的
5、分类:品质数据:不能用数字来表述的特征。如人的性别,民族,宗教信仰等数量数据:用数字能够表述的特征,数值型特征,如人的身高,体重等二者的区别:数量数据总是以数字形式表现,品质数据可以是数值型,也可以是非数值型。只有数量数据可以进行数学运算数据的计量尺度:可分为定类尺度、定序尺度、定距尺度、定比尺度定类变量:“名义型变量”,值只能用文字表述,说明事物是属于这一类还是属于那一类,不同类别间地位相等,没有高低优劣之分,如性别,民族,党派。定序变量:“顺序型”变量,变量值只能用文字表述。与定类变量不同的是,定序变量的值有高低、大小、多少、优劣、强弱等方面的区分,即变量的值有顺序性。如考试成绩用优秀,良
6、好,及格,不及格来显示,用文盲、半文盲、小学、初中、高中、大学、研究生来标记每个人的文化程度。定距变量:变量值为数值型,对事物的准确测度,比定序尺度精确,没有绝对零点,变量值只能进行加减计算而不能进行乘除计算,如温度,公元纪年等极少数现象属于定距变量定比变量:数据表现为“数值”对事物的准确测度,与定距尺度处于同一层次,有绝对零点,具有 或 的数学特性,可以进行任何形式的计算截面数据:相同或近似相同的时间点上收集的数据,某个时间点或某瞬间事物或现象的特征情况,静态数据时间序列数据:在几个时期或时点收集到,反映同一主体同一特征情况的数据,动态数据统计调查方式:统计调查方式有普查、抽样调查、典型调查
7、、重点调查普查:为特定目的专门组织的非经常性全面调查,通常是一次性或周期性的;一般需要规定统一的标准调查时间,应用范围比较狭窄,如人口普查,工业普查抽样调查:从总体中随机抽取一部分单位(样本)进行调查,分重复抽样和不重复抽样,目的是推断总体的未知数字特征,遵循随机性原则,存在调查误差,并且可以加以控制,具有经济性、时效性强、适应面广、准确性高等特点典型调查:从调查对象的全部单位中选择少数典型单位进行调查,目的是描述和揭示事物的本质特征和规律,调查结果不能用于推断总体重点调查:从调查对象的全部单位中选择少数重点单位进行调查,调查结果不能用于推断总体,优点在于调查单位少,可以调查较多的项目和指标,
8、了解较详细的情况。即用较少的人力和时间,取得较好的效果。组织重点调查的关键问题是确定重点单位。调查误差:收集的数据资料与真实情况之间的差距,可分为登记性误差和代表性误差,登记性误差:由于调查者或被调查者的人为因素所造成的误差,理论上讲可以消除。代表性误差:用样本数据进行推断时所产生的误差,通常无法消除,但事先可以进行控制和计算。组距分组步骤:确定组数:组数的确定没有专门的规定,应以能够显示数据的分布特征和规律为目的。建议组数:5-20组 组限:变量值区间两端的值,上限和下限,其中上限为一个组的最大值,下限是一个组的最小值确定各组组距:组距是一个组的上限与下限之差,可根据全部数据的最大值和最小值
9、及所分的组数来确定注意:开口组只有一个组限,无法计算组距,开口组以相邻一组的组距作为其组距根据分组整理成频数分布表 组距:上限与下限之差 组距( 最大值 - 最小值) 组数 组中值:下限与上限之间的中点值 组中值=(下限值+上限值)/2第三章 单变量描述统计频数次数:对总体经过分组后形成各组单位数在各组间的分布。也就是各类别中的数据个数。频数分布次数分布,分布数列:总体中的各个类别及其相应的频数全部展示出来的数据集汇总表累计频数 (P62 表3-3)向上累计:将各组次数和比率,由变量值低的组向变量值高的组逐组累计。向下累计:将各组次数和比率,由变量值高的组向变量值低的组逐组累计。众数:出现次数
10、最多的变量值。对单项式分组数列确定众数:出现次数最多的标准值就是众数(书P63例3.2)对组距数列确定众数:出现次数最多的组作为众数所在组中位数:排序后处于中间位置上的值。 中位数位置的确定: (看书P65 例3.4)未分组数据:组距分组数据: (根据向上/下累计法确定中位数) 未分组数据的中位数的计算公式:四分位数:把数据分为4部分,处在分位点的数值四分位数位置的确定:未分组数据:下四分位数位置=(N+1)/4 上四分位数位置=3*(N+1)/4组距分组数据:下四分位数位置=N/4 上四分位数位置=3N/4均值 (P69 例3.10)简单均值的计算公式为 权均值的计算公式为 第四章 两变量描
11、述统计相对指标:两个有联系的指标数值对比得到的综合指标相对指标的表现形式:无名数和有名数 无名数:抽象掉分子和分母的计量单位。表现为百分数,千分数,倍数,系数 有名数:保留分子和分母的计量单位。表现:密度相对指标的具体形式(6种):(具体参考第四章的ppt弄懂) 结构相对数= (各部分比重和为1) 比例相对数= (三个或三个以上的连比)比较相对数= (横向比较,静态)动态相对数= (随时间发展的变化,动态)强度相对数= (两个性质不同但有一定联系的总量指标之比,有名数)计划完成程度相对数= (计划完成的程度)协方差:度量两个具有联合概率分布P(X,Y)的随机变量之间线性关系的指标样本:含有n个
12、个体,每个个体含有两个数据值(x1,y1),(x2,y2)样本协方差公式: 总体协方差:变量离差乘积的数学期望总体协方差公式: 总体相关系数: (总体相关系数记为r)样本相关系数: (样本相关系数记为r)r 的取值范围是 -1,1|r|=1,为完全相关 r =1,为完全正相关r =-1,为完全负正相关 r = 0,不存在线性相关关系-1r0,为负相关 0r1,为正相关|的数值愈接近于1,x与y直线相关程度愈高|的数值愈接近于0,x与y直线相关程度愈低 相关程度评价标准: |0.3称为微弱相关0.3 |0.5称为低度相关0. |0.8称为显著相关0.8 |1称为高度相关或强相关。第五章概率与概率
13、分布正态分布的概率密度函数:f(x) = 随机变量 X 的频数 s2 = 总体方差 p =3.14159; e = 2.71828x = 随机变量的取值 (- x 0 正态曲线的最高点在均值m,它也是分布的中位数和众数正态分布是一个分布族,每一特定正态分布通过均值m的标准差s来区分。 s决定曲线的高度,同时决定曲线的平缓程度,即宽度曲线f(x)相对于均值m对称,尾端向两个方向无限延伸,且理论上永远不会与横轴相交正态曲线下的总面积等于1正态分布的概率: P(axb)=abf(x)dx标准正态分布函数:任何一个一般的正态分布,可通过下面的线性变换转化为标准正态分布标准正态分布的概率密度函数: 标准
14、正态分布的分布函数:标准正态分布表的使用:将一个一般的转换为标准正态分布,计算概率时,查标准正态概率分布表对于负的 x ,可由F (-x)-1=F (x)得到对于标准正态分布,即X N(0,1),有P (a X b)= F (b) -F (a)P (|X| a)= 2F (a) -1对于一般正态分布,即X N(m , s),有 例1 : 设X N(0,1),求以下概率: (1) P(X 2); (3) P(-1X 3) ; (4) P(| X | 2) 解:(1) P(X 2)=1- P(X 2)=1-0.9973=0.0228 (3) P(-1X 3)= P(X 3)- P(X -1) =
15、F(3)- F(-1)= F(3)1-F(1) = 0.9987-(1-0.8413)=0.8354 (4) P(| X | 2) = P(-2 X | 2)= F(2)- F(-2) = F(2)- 1-F(2)=2 F(2)- 1=0.9544例2: 设XN(5,32),求以下概率 (1) P(X 10) ; (2) P(2X 10) 解:(1) (2)另外,第五章第二节:大数定律与中心极限定理大家了解即可,不是重点内容,不放心的可自行参考第五章的ppt内容第九章抽样调查抽样调查的意义:一般所讲的抽样调查,即指狭义的抽样调查(随机抽样), 按照随机原则从总体中抽取一部分单位进行观察,并运用
16、数理统计的原理,以被抽取的那部分单位的数量特征为代表,对总体作出数量上的推断分析。总体:由被调查对象的全部单位所构成的集合体,总体单位数用N表示。抽样总体:抽取出来调查观察的单位,抽样总体的单位数用n表示。n 30 大样本 n 30)和无偏(n30)总体成数:每个总体单位标志值设为0或1 1:具有某种属性的总体单位标志值 0:不具有某种属性的总体单位标志值 总体中具有某种特征的单位占全部总体单位数的比例称为总体成数,记作P成数总体方差:P(1-P)样本成数:从成数总体中抽取样本容量为n的样本,样本中具有此种特征的单位占全部样本单位数的比例称为样本成数,记作p p=n1/n成数是一种特殊的平均数
17、,是总体中具有某个属性的单位占全体单位的比重样本成数p是总体成数P的无偏、一致、有效估计量样本成数的无偏方差是成数总体方差的无偏估计量第十章和第十一章以计算题考核为主,选择题不再细分知识点!二、 简答题(7+8=15,四题中任选两题,必须牢记!)1、 抽样平均误差受哪些因素影响?抽样平均误差不仅是测定样本指标对总体指标代表性高低的一个重要尺度,也是根据样本指标对总体指标进行推断的重要依据,他的大小与总体标志变异度(即总体的标准差大小)成正比,与样本容量成反比,而且与抽样调查的组织形式和抽样方法有关。2、什么是简单随机抽样?具体做法是什么?简单随机抽样是从总体单位中不加任何分组、排队,完全随机地
18、抽取调查单位。具体做法:(1)直接抽选法:总体单位不编号,不编制抽样框(2)抽签法:对总体所有单位进行编号,且签需外形一致(3)随机数表法:总体所有单位编号,使用随机数表抽样(4)计算机模拟法:将随机数字编程3、 什么是时期指标、时点指标,两者之间有什么区别?(1) 时期指标:指反映某种社会经济现象在一段时间内发展变化结果的总量指标,它所反映的是一段时间连续发生的变化过程。例如,社会生产总值,国内生产总值,利润总额,税收总额等。(2) 时点指标:时点指标是反映社会经济现象总体在某一时刻(瞬间)的数量状况,例如,全国总人口数、商品库存数、乡镇企业个数等。区别:时期指标的指标值具有连续性,而时点指
19、标的指标值不具有连续性。 时期指标的指标值可以累计相加,而时点指标的指标值不能累计相加。 时期指标指标值的大小与所包括的时期长短有直接的关系,而时点指标指标值的大小与时间间隔长短无直接关系。4、 举例说明总体、样本、参数、统计量的概念、区别和联系区别:总体是具有某种共同性质的多个个体组成的集合;样本是从总体中抽取的一部分个体构成的集合;参数是用来描述总体特征的概括性数字的度量;统计量是用来描述样本特征的概括性数字度量。联系:样本是从总体中抽取的一部分个体组成的集合;参数是用来描述总体的特征的,统计量是用来描述样本的特征的。举例:如果研究的对象是100人,这100人就是总体。从中抽取10人做研究
20、,那就是样本。参数是反映总体统计特征的数字,如这100人的平均身高,方差等等。统计量就是反应样本的某些特性的量,如10人的身高。或者河南省的所有工业企业构成一个总体,从中抽取100个企业就构成一个样本,对这100个企业构成的样本计算的企业平均工资、企业平均产值等就是统计量,而河南省所有工业企业的平均工资、平均产值则是参数。(这两个例子中任选一个作答即可)三、 计算题(4大题,总共45分)1、 考试范围:第三章:单变量描述统计知识点:(1) 众数:出现次数最多的变量值(2) 中位数:未分组数据: 组距分组数据:(3) 未分组数据的中位数:(4) 四分位数:排序后处于25%和75%位置上的值。未分
21、组数据:组距分组数据(5) P百分位数:p%的数据项的值小于等于P百分位数;(100-p)%的数据项的值大于等P百分位数(6) 均值:一组数据的均衡点所在设一组数据为:X1 ,X2 , ,XN 。简单均值的计算公式为:设分组后的数据为:X1 ,X2 , ,XK ,相应的频数为:F1 , F2, ,FK加权均值的计算公式为各变量值与均值的离差之和等于零各变量值与均值的离差平方和最小(7) 调和平均数 (8) 四分位差(定序数据)上四分位数与下四分位数之差 :QD= QU - QL(9) 极差:未分组数据 :R = max(Xi) - min(Xi);组距分组数据R =最高组上限 - 最低组下限(
22、10) 平均差:未分组数据组距分组数据(11) 异众比率(定类数据)标准差系数:(12) 偏态:偏态系数=0为对称分布;偏态系数 0为右偏分布;偏态系数 0为左偏分布峰度:峰度系数=3,扁平程度适中,正态分布;扁平分布,偏态系数3,变量值的次数在众数周围分布集中请仔细复习P98 第5、6题2、 考试范围:第九章:抽样调查,知识点:抽样估计(1) 样本成数的无偏方差(n30)(3) 样本成数的性质:x1,x2xn的各标志值中有n1个值为1,有n0个值为0,所以(4) 实际抽样推断中采用的公式(*) 重复简单随机抽样:不重复简单随机抽样:(5) 样本成数的抽样平均误差 :重复抽样条件下不重复抽样条
23、件下:例题:(6) 区间估计:设总体参数为 ,由样本确定的两个统计量,对于给定的,有(7) 总体未知参数落在区间内的概率,表示为 (1 - a) %,a 为显著性水平,是总体参数未在区间内的概率 ,常用的置信水平值有 99%, 95%, 90%,相应的 a 为0.01,0.05,0.10(8) 总体均值的置信区间 (s 已知),假定条件:总体服从正态分布,且总体方差(s )已知,如果不是正态分布,可以由正态分布来近似 (n= 30),使用正态分布统计量,总体均值 m 在1-a置信水平下的置信区间为请查阅PPT,课后习题P280.53、 考试范围:第十章:时间序列分析,知识点:序时平均数、时间序
24、列分析指标(1)一、根据绝对数时间数列计算的 根据时期数列计算的 根据时点数列计算的根据连续性时点数列计算的:间隔相等、间隔不等根据间断性时点数列计算的:间隔相等、间隔不等二、根据相对数时间数列计算的三、根据平均数时间数列计算的(2)总量指标时期数列算术平均,连续时点间隔不相等时加权算术平均间断时点数列的序时平均数;间隔相等时,采用首末折半法计算;间隔不相等时,采用时间间隔长度加权平均5、 时间序列指标分析法通过时间序列的分析指标来揭示现象的发展变化状况和发展变化程度。(水平指标,速度指标)水平指标包括:发展水平,平均发展水平,增长量,平均增长量速度指标包括:发展速度,平均发展速度,增长速度,
25、平均增长速度(4) 有逐期增长量与累积增长量之分:逐期增长量,报告期水平与前一期水平之差计算形式为:i=Yi-Yi-1 (i =1,2,n)累积增长量,报告期水平与某一固定时期水平之差,计算形式为:i=Yi-Y0 (i=1,2,n)(5) 逐期增长量:(6) 累计增长量:(7) 二者的关系:,(8) 平均增长量:(9) 发展速度:报告期水平与基期水平之比(10) 环比发展速度:报告期水平与前一期水平之比,(11) 定基发展速度:报告期水平与某一固定时期水平之比,(12) 环比发展速度与定基发展速度的关系:(13) 增长速度:(14) 环比增长速度,报告期水平与前一时期水平之比,(15) 定基增
26、长速度,报告期水平与某一固定时期水平之比,(16) 平均发展速度,(17) 速度的分析与应用,请看PPT相关例题,课后练习题P318 第10、11题4、 考试范围:第十一章:统计指数分析,知识点:综合指数(3) 综合指数:反映多个项目变量的综合变动,如多种商品的价格或销售量的综合变动(4) 拉氏综合指数同度量因素固定在基期;派氏综合指数同度量因素固定在报告期;我国:数量指标指数用拉氏形式,质量指标指数用派氏指数形式(5) 拉氏综合指数,质量指数:,数量指数: (6) 派氏综合指数,质量指数:,数量指数:(7) 理想指数(费雪公式), 以上为计算题知识点的公式,请看PPT例题,以及相关课后练习题,仅供参考!