西交大考研统计学课后问答整理.docx

资源描述

《西交大考研统计学课后问答整理.docx》由会员分享，可在线阅读，更多相关《西交大考研统计学课后问答整理.docx（61页珍藏版）》请在三一办公上搜索。

1、西交大考研统计学课后问答整理统计学问答题整理行管盖小静第一章导论 1. 什么是统计学？怎样理解统计学与统计数据的关系？ 1) 统计学是指收集、处理、分析、解释数据并从数据中得出结论的科学。 2) 关系：它是一门关于数据的科学，它提供的是一套关于数据收集、处理、分析、解释并得出结论的方法，它研究的是来自各个领域的数据。而其中数据收集就是取得统计数据，处理是将数据用图表等形式展示出来，分析是通过统计方法研究数据、并从数据中取得有用信息以帮助决策。 3) 数据分析的方法有描述统计和推断统计。描述统计是指研究数据收集、处理和描述的分支，推断是指研究如何用样本数据来推断总体特征的分支。 2. 统

2、计数据可以分为哪几类？不同类型的数据各有什么特点？不同的数据要采用不同的统计方法来处理和分析 1) 按计量尺度分：分类数据：只能归于某一类别的非数字型数据，由分类尺度计量形成；顺序数据：只能归于某一有序类别的非数字型数据，由顺序尺度计量形成。分类和顺序数据说明的是事物的品质特征，常用文字来表述，其结果表现为类别，故也可称定性数据或品质数据。数值型数据：按数字尺度测量的观测值。其说明的是现象的数量特征，通常用数值表述，也可称定量或数量数据。 2) 按收集方法分：观测数据：通过调查或观测收集到得数据。在没有对事物人为控制的条件下得到，一般有关社会经济现象的数据都是；实验数据：在实验中控制实

3、验对象而收集到的。一般为自然科学领域收集到得数据。 3) 按被描述的现象与时间的关系分：截面数据：在相同或近似相同的时间点上收集的数据。它所描述的是现象在某一时刻的变化情况，通常是在不同空间上获得的数据；时间序列数据：在不同时间上收集到的数据。它是按着时间顺序收集到的，用于描述现象随时间变化的情况。 3. 举例说明总体、样本、参数、统计量和变量的概念。总体：包含所研究的全部个体的集合。样本：从总体中抽取的一部分元素的集合。样本容量：构成样本的元素数目，又称样本量。参数：用来描述总体特征的概括性数字度量。统计量：用来描述样本特征的概括性数字度量。变量：说明事物某种特征的概念。特点是

4、从一次观察到下一次观察会呈现差别或变化。 4. 举例说明什么是有限总体和无限总体。总体根据包含的数目是否可数而划分的： 1) 有限总体：总体的范围能够明确确定，元素的数目有限可数，在每次抽取样本时是不独立的。 2) 无限总体：总体所包含元素是无限不可数的。其每次抽取样本是独立的，即本次抽取不影响下一次的抽样结果。在推断统计中通常是针对无限总体的，因而通常把总体看作随机变量。 5. 变量可以分为哪几类？ 1) 分类变量：说明事物类别的一个名称。其取值即分类数据。 2) 顺序变量：说明事物有序类别的一个名称。其取值即顺序数据。 3) 数值型变量：说明事物数字特征的一个名称。其取值即数值型数据。

5、根据其取值不同可以分为连续和离散变量。连续变量是指可以在一个或多个区间中取任意值的变量，其取值连续不断，不可一一列举；离散变量是指只能取可数值的变量，其取值只能取有限个值，且取值都以整数位断开，可一一列举。在社会和经济问题的研究中离散变量很多时也可以当作连续变量处理。此外，还可以将变量划分为随机和非随机变量，经验变量和理论变量等。经验变量是在周围环境中可以观察到的事物，理论变量是统计学家用数学方法构造出来的变量。 6. 统计学应用的领域有什么。统计学可以应用于所有有数据的领域，如*部门、学术研究领域、日常生活、公司企业的生产经营管理等。如在工商管理中有：企业发展战略、产品质量管理、市场研究

6、、财务分析、经济预测和HR等。统计有助于数据分，数据分析的真正目的是找到规律、获得启发，而不是寻找支持，真正的分析事先是没有结论的，通过数据的分析才能得出结论。当然，统计也不是万能的。第二章数据收集 1. 简述普查和抽样调查的特点。它们都是实际中常用的统计调查方式。此外还有统计报表：按照国家有关法律规定，自上而下的提供基本数据。 1) 抽样调查：从总体中随机抽取一部分单位作为样本进行调查，并根据样本调查结果来推断总体特征的数据收集方法。它具有四大特点：经济性、时效性强、适应面广、准确性高。 2) 普查：为特定目的而专门组织的全面调查。它适合于特定目的特定对象的一种调查方式，主要用于收集某

7、一时间点上的社会经济现象的数量，目的是掌握特定社会经济现象的基本全貌，为国家制定政策措施提供依据。我国进行的主要有人口(末尾0)、工业、农业(6)、经济普查。普查需要耗费大量的人力、物力、财力和时间，通常隔较长时间进行一次，具有周期性。 2. 统计数据的具体收集方法有哪些。间接来源出版物、网络抽样调查非概率抽样调查概率抽样随机抽样分层抽样机械抽样整群抽样数据来源实验工业普查农业普查经济普查普查直接来源询问调查数据收集方法观察实验访问调查观察邮寄调查实验电话调查电脑辅助座谈会个别深访3. 简述调查方案的4个基本结构。 1) 调查目的：调查要达到的具体目标回答为什么调查？调查之前必须明确 2)

8、调查对象和调查单位：调查对象：调查研究的总体或调查范围；调查单位：需要对之进行调查的单位。可以是调查对象的全部单位(全面调查)，也可以是调查对象中的一部分单位(非全面调查)；回答向谁调查？ 3) 调查项目和调查表：即调查的具体内容；通常表现为表格或问卷；回答调查什么？。 4) 其它问题：明确调查所采用的方法；确定调查资料的所属时间和调查工作的期限；调查的组织与实施细则。 4. 什么是问卷？它由哪几部分组成？问卷是用来收集调查数据的一种工具，调查者根据调查目的和要求所设计的，由一系列问题、备选答案、说明以及码表组成的一种调查形式。不同的调查问卷在具体结构、题型、措词、版式等设计上会有所不同，但

9、在结构上一般都由开头部分、甄别部分、主体部分和背景部分四方面组成。 5. 设计问卷的提问项目应该注意哪些问题。 1) 提问的内容尽可能短 2) 用词要确切、通俗可按6W准则加以推敲。Who、Where、When、Why、What、How。 3) 一项提问只包含一项内容 4) 避免诱导性提问 5) 避免否定形式的提问 6) 避免敏感性问题 6. 封闭型问题答案的设计有哪些主要方法。封闭性问题主要是选择回答型，主要包括五种方法： 1) 两项选择法：Y/N 2) 多项选择法：单项、多项以及限制项选择三种。 3) 顺序选择法：对选项按重要程度进行排列。 4) 评定尺度法：即非常好、一般好、不好等

10、。 5) 双向列联法。 7. 问卷中问题顺序的设计应该注意哪些问题。 1) 2) 3) 4) 5) 问题的安排应具有逻辑性。问题的顺序应先易后难。能引起被调查者兴趣的问题放在前面。开放性问题放在后面。版面格式的设计。包括：问卷的结构安排要合理，问卷的主体部分要突出、醒目；不要编排过密，各问题之间要留出一定的空间；外表及内容的印刷要美观 8. 数据误差的产生及消除。 1) 抽样误差：由于抽样的随机性所带来的误差，所有样本可能的结果与总体真值之间的平均性差异，无法消除但可以事先计算和控制。产生原因：未遵循随机原则；样本结构与总体结构有差异；样本量不足等 2) 非抽样误差：相对抽样误差而言

11、，是除抽样误差之外的，由于其他原因造成的样本观察结果与总体真值之间的差异，存在于所有的调查之中。理论上可以消除。产生有：抽样框误差、回答误差和无回答误差、调查员误差、测量误差。 3) 误差的控制：抽样误差可计算和控制。非抽样误差的控制：调查员的挑选；调查员的培训；督导员的调查专业水平；调查过程控制。 9、以及数据质量的要求？ 1. 精度：最低的抽样误差或随机误差 2. 准确性：最小的非抽样误差或偏差 3. 关联性：满足用户决策、管理和研究的需要 4. 及时性：在最短的时间里取得并公布数据 5. 一致性：保持时间序列的可比性 6. 最低成本：以最经济的方式取得数据第三章数据的图表展示

12、 1. 数据的预处理包括哪些内容？ 1) 数据审核：检查数据中的错误 2) 数据筛选：找出符合条件的数据 3) 数据排序：升序和降序；寻找数据的基本特征。排序后的称为顺序统计量。 4) 数据透视表：按需要汇总。自己附加：一、数据审核的具体方法是？ 1. 原始数据： 1) 完整性审核 n 应调查的单位或个体是否有遗漏 n 所有的调查项目或变量是否填写齐全 2）准确性审核 n 数据是否真实反映实际情况，内容是否符合实际 n 数据是否有错误，计算是否正确等 2. 二手数据： 1) 适用性审核 n 弄清楚数据的来源、数据的口径以及有关的背景材料 n 确定数据是否符合自己分析研究的需要 2）时效性

13、审核 n 尽可能使用最新的数据 3）确认是否有必要做进一步的加工整理二数据筛选的内容是什么？ 1. 当数据中的错误不能予以纠正，或者有些数据不符合调查的要求而又无法弥补时，需要对数据进行筛选。 2. 数据筛选的内容将某些不符合要求的数据或有明显错误的数据予以剔除将符合某种特定条件的数据筛选出来，而不符合特定条件的数据予以剔除三、数据排序的方法？ 1. 分类数据的排序字母型数据，排序有升序降序之分，但习惯上用升序汉字型数据，可按汉字的首位拼音字母排列，也可按笔画排序，其中也有笔画多少的升序降序之分 2. 数值型数据的排序 n 递增排序：设一组数据为x1，x2，xn，递增排序后可表示为

14、：x(1)x(2)x(2)x(n) 三、数据排序的目的？ 1. 按一定顺序将数据排列，以发现一些明显的特征或趋势，找到解决问题的线索 2. 排序有助于对数据检查纠错，以及为重新归类或分组等提供依据 3. 在某些场合，排序本身就是分析的目的之一 4. 排序可借助于计算机完成。 2. 数据整理与图示的基本问题是什么？ 1) 要弄清所面对的数据类型，不同类型的数据，采取不同的处理方式和方法： n 对分类数据和顺序数据主要是作分类整理。 n 对数值型数据则主要是作分组整理 2）适合于低层次数据的整理和显示方法也适合于高层次的数据；但适合于高层次数据的整理和显示方法并不适合于低层次的数据。 3. 分类数

15、据和顺序数据的整理和图示方法各有哪些？ A. 都是品质型数据，可计算的统计量有： 1) 频数：落在各类别中的数据个数 2) 比例：某一类别数据占全部数据的比值 3) 百分比：将对比的基数作为100而计算的比值 4) 比率：不同类别数值的比值 5) 累积频数：各类别频数的逐级累加。向上向下两种。 6) 累积频率：各类别频率(百分比)的逐级累加 B图示方法有： 1) 条形图。宽度相同的条形的高度或长短来表示各类别数据的图形，单式条形图、复式条形图等形式。主要用于反映分类数据的频数分布，绘制时，各类别可以放在纵轴，称为条形图，也可以放在横轴，称为柱形图。 2) 帕累托图。按各类别数据出现的频数多少排

16、序后绘制的柱形图 3) 对比条形图。用以对比分类变量的取值在不同时间或不同空间上的差异或变化趋势。 4) 饼图。也是圆形图，是用圆形及圆内扇形的角度来表示数值大小的图形，主要用于表示样本或总体中各组成部分所占的比例，用于研究结构性问题。 5) 累计频率或频数分布图 6) 环形图。类似饼图，中间有一个“洞”，可用于显示多个样本或总体的各个部分所占比例，有利于比较。用于结构比较研究，用于展示分类和顺序数据。 4. 数值型数据的分组方法有哪些？简述组距分组的步骤。数据分组是指根据数据研究需要，将原始数据按照某种标准划分成不同组别。包括： 1) 单变量值分组：一个变量值作为一组，适合于离散变量和变

17、量值较少的情况。 2) 组距分组：将变量值的一个区间作为一组，适合于连续变量和变量值较多的情况，需要遵循不重不漏的原则，可采用等距分组，也可采用不等距分组。组距分组的步骤： 1. 确定组数：组数的确定应以能够显示数据的分布特征和规律为目的。在实际分组时，组数一般为5K 15,可以按 Sturges 提出的经验公式确定组数K- 。 2. 确定组距：一个组的上限与下限之差，可根据全部数据的最大值和最小值及所分的组数来确定，即组距( 最大值 - 最小值) 组数 3. 统计出各组的频数并整理成频数分布表。遵循补充不漏可使用：上下组限重叠时，上组限不在内；上下组限断开；使用开口组。 5. 直方图与

18、条形图有何区别。 1) 条形图是用条形的长度(横置时)表示各类别频数的多少，其宽度(表示类别)则是固定的。 2) 直方图是用面积表示各组频数的多少，矩形的高度表示每一组的频数或百分比，宽度则表示各组的组距，其高度与宽度均有意义。 3) 直方图的各矩形通常是连续排列，条形图则是分开排列。 4) 条形图主要用于展示分类数据，直方图则主要用于展示数值型数据。 6. 绘制线图应该注意哪些问题？它是用来表示时间序列数据趋势的图形，注意三点： 1) 时间一般绘在横轴，数据绘在纵轴 2) 图形的长宽比例大致为10 : 7。 3) 一般情况下，纵轴数据下端应从0开始，以便于比较。数据与0之间的间距过大时，可

19、以采取折断的符号将纵轴折断 7. 饼图和环形图有什么不同？与饼图类似，但又有区别： 1) 饼图只能显示一个总体各部分所占的比例 2) 环形图则可以同时绘制多个样本或总体的数据系列，每一个样本或总体的数据系列为一个环。 8. 茎叶图和直方图相比有什么优点？他们的应用场合分别是什么？ 1) 茎叶图是用于显示未分组的原始数据的分布，由茎和叶两部分构成，其图形是由数字组成的，以该组数据的高位数值作树茎，低位数字作树叶，树叶上只保留最后一位数字。对于n(20 n 300)个数据，茎叶图最大行数不超过 L = 10 lg n 2) 直方图是用矩形长和高即面积来表示频数分布的图形。 3) 茎叶图类似于横置

20、的直方图，但又有区别：直方图可观察一组数据的分布状况，但没有给出具体的数值。茎叶图既能给出数据的分布状况，又能给出每一个原始数值，保留了原始数据的信息。直方图适用于大批量数据，茎叶图适用于小批量数据。 9. 鉴别图表优劣的准则有哪些。好的图表应包括以下基本特征： 1) 显示数据 2) 让读者把注意力集中在图表的内容上，而不是制作图表的程序上 3) 避免歪曲 4) 强调数据之间的比较 5) 服务于一个明确的目的 6) 有对图表的统计描述和文字说明好的图表的鉴别准则是： 1) 精心设计、有助于洞察问题的实质 2) 使复杂的观点得到简明、确切、高效的阐述 3) 能在最短的时间内以最少的笔墨

21、给读者提供最大量的信息 4) 是多维的 5) 表述数据的真实情况 10. 统计表由那几个部分组成？五个部分：表头、行标题、列标题、数字资料、表外附加 11. 制作统计表应该注意哪些问题？ 1) 合理安排统计表的结构 2) 总标题内容应满足3W 要求 3) 数据计量单位相同时，可放在表的右上角标明，不同时应放在每个变量后或单列出一列标明 4) 表中的上下两条横线一般用粗线，其他线用细线 5) 通常情况下，统计表的左右两边不封口 6) 表中的数据一般是右对齐，有小数点时应以小数点对齐，而且小数点的位数应统一 7) 对于没有数字的表格单元，一般用表示 8) 必要时可在表的下方加上注释小结表：

22、品质数据汇总表饼图环形图数据类型数值型数据原始数据分组数据时序数据线图多元数据散点图条形图茎叶图直方图箱线图折线图气泡图雷达图第四章数据的概括性度量 1. 一组数据的分布特征可以从哪几个方面进行测度？ 1) 集中趋势：一组数据向其中心值靠拢的倾向和程度，测度集中趋势就是寻找数据水平的代表值或中心值。且不同类型的数据用不同的集中趋势测度值，低层次数据的测度值适用于高层次的测量数据，但高层次数据的测度值并不适用于低层次的测量数据：分类数据-众数；顺序数据-中位数和分位数；数值型数据-平均数。 2) 离散趋势：数据分布的另一个重要特征，映各变量值远离其中心值的

23、程度，从另一个侧面说明了集中趋势测度值的代表程度。不同类型的数据有不同的离散程度测度值：分类数据-异众比率；顺序数据-四分位差；数值型数据-方差、标准差，此外还有极差和平均差，标准分数和离散系数 3) 偏态和峰态：数据分布偏斜程度的测度和扁平程度的测度。 2. 怎样理解均值在统计学中的地位？ 1) 均值是集中趋势的最常用测度值，主要适用于数值型数据，有简单平均数和加权平均数之分，此外还有几何平均数。 2) 它是进行统计分析和统计推断的基础。从统计思想上看，它是一组数据的重心所在，是数据误差相互抵消后的必然性结果。具有使各变量值与平均数离差平方和最小的数学性质。 3) 但其易受极端值的影

24、响。 3. 简述四分位数的计算方法。是指排序后处于25%和75%位置上的值，不受极端值的影响，主要用于顺序数据，也可用于数值型数据。 1) 定义计算： 2) 较准确计算： 3) 中位数法： 4) Excel计算： 4. 对于比率数据的平均为什么采用几何平均？是指n 个变量值乘积的 n 次方根。适用于对比率数据的平均，主要用于计算平均增长率，因为所掌握的变量值本身就是比率的形式，如果各比率数值相差不大还可以用算术平均，相差大只能用几何平均。用Gm表示。 5. 简述众数、中位数和均值的特点以及应用场合。 1) 众数 n 不受极端值影响 n 具有不惟一性 n 数据分布偏斜程度较大且有明显峰值时应

25、用，主要用于数量较多的分类数据。 2) 中位数 n 不受极端值影响 n 数据分布偏斜程度较大时应用，主要适于顺序数据。 3) 平均数 n 易受极端值影响 n 数学性质优良 n 数据对称分布或接近对称分布时应用，主要适于数值型数据。 6. 简述异众比率、四分位差、方差或标准差的适用场合？ 1) 异众比率：非众数组的频数占总频数的比例，用以衡量众数的代表性。主要适于分类数据。 2) 四分位差：称为内距或四分间距，是上四分位数与下四分位数之差，即Qd = QU QL。反映了中间50%数据的离散程度，不受极端值的影响，用于衡量中位数的代表性，适于顺序型数据。 3) 方差或标准差：数据离散程度的最常用测

26、度值，反映了各变量值与均值的平均差异。主要适于数值型数据。 7. 标准分数有哪些用途？标准分数也称标准化值，是用公式对不同量纲的变量进行标准化处理，用以测度每个值在一组数据中的相对位置，也可用于判断一组数据是否有离群点， 8. 为什么要计算离散系数？离散系数也称为变异系数、标准差系数，是一组数据的标准差与其相应的均值之比，是相对离散程度的测度。其公式是它用于对不同组别数据离散程度的比较，消除了数据水平高低和计量单位的影响，离散系数大的离散程度也就大。 9. 测度数据分布形状的统计量有哪些？ 1) 偏态系数：对数据分布不对称性的度量值。其公式为：分组数据：未分组数据：判断：偏态系数

27、=0为对称分布;偏态系数 0为右偏分布或正偏；偏态系数0为尖峰分布；峰态系数0为扁平分布。数据分布特征集中趋势离散程度异众比率四分位差极差平均差方差或标准差分布形状众数中位数偏态系数峰态系数平均数离散系数第五章概率与概率分布 1. 含义解释：试验与事件、样本空间 1) 试验：对一个或多个实验对象进行一次观察或测量的过程。 2) 事件：试验的每一个可能结果(任何样本点集合)。其中随机事件是每次试验可能出现也可能不出现的事件 3) 样本空间：一个试验中所有结果的集合，用W表示 4) 样本点：样本空间中每一个特定的试验结果，用符号w表示 2. 简述概率与频率的关系

28、。 1) 事件A的概率是一个介于0和1之间的一个值，用以度量试验完成时事件A发生的可能性大小，记为P(A)。 2) 当试验的次数很多时，概率P(A)可以由所观察到的事件A发生次数(频数)的比例来逼近 n 在相同条件下，重复进行n次试验，事件A发生了m次，则事件A发生的概率可以写为 P(A)=事件A发生的次数m=p重复试验次数n重复试验次数3. 什么是互斥事件，其加法规则是什么？在试验中，两个事件有一个发生时，另一个就不能发生，则称事件A与事件B是互斥事件(没有公共样本点。若两个事件A与B互斥，则事件A发生或事件B发生的概率等于这两个事件各自的概率之和，即 P(AB) =P(A)+P(B)

29、4. 概率的基本性质。 1) 非负性 n 对任意事件A，有 P 0 2) 规范性 n 一个事件的概率是一个介于0与1之间的值，即对于任意事件 A，有0 P 1 3) 必然事件的概率为1；不可能事件的概率为0。即P (W )=1； P(F )=0 4) 可加性 n 若A与B互斥，则P(AB) =P(A)+P(B) n 推广到多个两两互斥事件A1，A2，An，有 P( A1A2 An) = P(A1)+P(A2)+P(An) 5. 什么是条件概率。在事件B已经发生的条件下事件A发生的概率，称为已知事件B时事件A的条件概率，记为P(A|B)= 6. 两个事件独立意味着什么？ 1) 若P(A|B)=

30、P(A)或P(B|A)=P(B) ，则称事件A与B事件独立，或称独立事件 2) 若两个事件相互独立，则这两个事件同时发生的概率等于它们各自发生的概率之积，即 P(AB)= P(A) P(B)；若事件A1,A2,An相互独立，则P(A1, A2, , An)= P(A1) P(A2) P(An) 。 7. 什么是随机变量，它的类型是什么？随机变量是一次试验的结果的数值性描述一般用 X，Y，Z 来表示。根据取值情况的不同分为离散型随机变量和连续型随机变量： 1) 离散型：只能取有限个或可数个值得随机变量，这些值可以逐个列举，且以确定的概率取这些不同的值。 2) 连续型：可以取一个或多个区间中任何

31、值的随机变量。不可以一一列举 8. 什么是离散随机变量的概率分布？列出离散型随机变量X的所有可能取值和随机变量取这些值的确定概率，以表格的形式表现出来。则P(X =xi)=pi称为离散型随机变量的概率函数。且pi0 ；pi=1 9. 两点分布与二项分布有何不同？一个离散型随机变量X只取0和1两个可能的值称为两点分布，重复进行 n 次试验，出现“成功”的次数的概率分布称为二项分布，记为XB(n，p)，其概率密度函数分别为：两点分布用于伯努利试验，而二项分布用于n次伯努利试验，前者是后者基础。 10. 简述N重伯努利试验的条件。将伯努利试验重复进行n次： 1) 一次试验只有两个可能结果，即

32、成功和失败 2) 一次试验成功的概率为p ，失败的概率为q =1- p，且概率p对每次试验都是相同的。 3) 试验是相互独立的，并可以重复进行n次。 4) 在n次试验中，成功的次数对应一个离散型随机变量X 11. 超几何分布的适用场合是什么？适用于采用不重复抽样，各次试验并不独立，成功的概率也互不相等，总体元素的数目N很小，或样本容量n相对于N来说较大时，样本中成功的次数则服从超几何概率分布。概率分布函数为: 12. 简述概率密度函数和分布函数的含义。 1) 密度函数：设X为一连续型随机变量，x 为某一区间或多个区间的任意数值，X的概率密度函数记为f(x)。连续型随机变量的给定区间取值的

33、概率对应的是f(x)曲线或直线在该区间围成的面积。它在某一点的概率值为0，密度函数曲线下的面积等于1。密度函数 f(x)表示X 的所有取值 x 及其频数f(x) 2) 分布函数：对于随机变量x,设其为任意实数，则函数F(x)=P(Xx)称为随机变量的分布函数。分布函数在X处的取值，即X的取值落在区间上的概率。分布函数是曲线下小于 x 的面积. 13. 判断数据正态性的方法有哪些？ 1) 对数据画出频数分布的直方图或茎叶图。若数据近似服从正态分布，则图形的形状与上面给出的正态曲线应该相似 2) 求出样本数据的四分位差Qd和标准差s，然后计算比值Qd/s 。若数据近似服从正态分布，则有Qd/s1.

34、3则为正态分布。 3) 绘制正态概率图。若由形成的点紧密围绕在一条直线周围即是。 14. 简述标准正态概率图的绘制步骤。第1步：将样本观察值从小到大排列：第2步：求出样本观察值的标准正态分数zi 。标准正态分数满足：第3步：将zi作为纵轴，xi作为横轴，绘制图形，即为标准正态概率图。 15. 在什么条件下用正态分布近似计算二项分布的概率效果比较好？对于小样本，p=0.5时则近似，此时u=np是对称中心。此外当n 很大时，大到使np、n5时即可近似服从正态分布Nnp , np(1-p) 16. 均匀分布和指数分布描述的现象各有什么特点均匀分布：随机变量在某一特定区间内取值，其在区间内

35、取任何一个值的概率相等，因为所有可能取值的范围内分布是均匀的。指数分布：描述等待某一特定事件发生所需事件的一种连续性概率分布。 17. 正态分布函数的性质是什么。 1) 图形是关于x=m对称的钟形曲线，且峰值在x=m 处 2) 均值m和标准差s一旦确定，分布的具体形式也惟一确定，不同参数正态分布构成一个完整的正态分布族 3) 均值m可取实数轴上的任意数值，决定正态曲线的具体水平位置； 4) 标准差决定曲线的陡峭或扁平程度。s越大，正态曲线扁平；s越小，正态曲线越陡峭 5) 当X的取值向横轴左右两个方向无限延伸时，曲线的两个尾端也无限渐近横轴，理论上永远不会与之相交 6) 正态随机变量在特定区

36、间上的取值概率由正态曲线下的面积给出，而且其曲线下的总面积等于1 第六章抽样与抽样分布概率抽样简单随机抽样整群抽样抽样方式非概率抽样分层抽样系统抽样方便抽样自愿样本判断抽样滚雪球抽样多阶段抽样配额抽样1. 概率抽样：根据一个已知的概率来抽取样本单位，也称随机抽样特点 n 按一定的概率以随机原则抽取样本，抽取样本时使每个单位都有一定的机会被抽中 n 每个单位被抽中的概率是已知的，或是可以计算出来的 n 当用样本对总体目标量进行估计时，要考虑到每个样本单位被抽中的概率 2. 简单随机抽样：从总体N个单位(元素)中随机地抽取n个单位作为样本，使得总体中每一个元素都有相同的机会(概率)被抽

37、中。抽取元素的具体方法有重复抽样和不重复抽样。参数估计和假设检验所依据的主要是简单随机样本特点： n 简单、直观，在抽样框完整时，可直接从中抽取样本 n 用样本统计量对目标量进行估计比较方便局限性： n 当N很大时，不易构造抽样框 n 抽出的单位很分散，给实施调查增加了困难 n 没有利用其他辅助信息以提高估计的效率 3.分层抽样：将总体单位按某种特征或某种规则划分为不同的层，然后从不同的层中独立、随机地抽取样本。优点： n 保证样本的结构与总体的结构比较相近，从而提高估计的精度 n 组织实施调查方便 n 既可以对总体参数进行估计，也可以对各层的目标量进行估计 4.系统抽样：将总体中的所

38、有单位(抽样单位)按一定顺序排列，在规定的范围内随机地抽取一个单位作为初始单位，然后按事先规定好的规则确定其他样本单位。如先从数字1到k之间随机抽取一个数字r作为初始单位，以后依次取r+k，r+2k等单位。优点：操作简便，可提高估计的精度缺点：对估计量方差的估计比较困难 5、整群抽样：将总体中若干个单位合并为组(群)，抽样时直接抽取群，然后对中选群中的所有单位全部实施调查。特点： n 抽样时只需群的抽样框，可简化工作量 n 调查的地点相对集中，节省调查费用，方便调查的实施 n 缺点是估计的精度较差 6、多阶段抽样：先抽取群，但并不是调查群内的所有单位，而是再进行一步抽样，从选中的群中抽

39、取出若干个单位进行调查。群是初级抽样单位，第二阶段抽取的是最终抽样单位。将该方法推广，使抽样的段数增多，就称为多阶段抽样 n 具有整群抽样的优点，保证样本相对集中，节约调查费用 n 需要包含所有低阶段抽样单位的抽样框；同时由于实行了再抽样，使调查单位在更广泛的范围内展开 n 在大规模的抽样调查中，经常被采用的方法 1. 解释总体分布、样本分布和抽样分布的含义 1) 总体分布：素的观察值所形成的相对频数分布。分布通常是未知的，以假定它服从某种分布。 2) 样本分布：从总体中抽取容量为n的样本，这n个样本观测值形成的相对频数分布，也称经验分布。样本容量n逐渐增大时，样本分布逐渐接近总体的分布

40、3) 抽样分布：是样本统计量的概率分布，是一种理论分布，即重复选取容量为n的样本时，由该统计量的所有可能取值形成的相对频数分布。随机变量是样本统计量；结果来自容量相同的所有可能样本；提供了样本统计量长远而稳定的信息，是进行推断的理论基础，也是抽样推断科学性的重要依据 2. 解释中心极限定理。从均值为m ，方差为s 的一个任意总体中抽取容量为n的随机样本，当n充分大时, 样本均值的抽样分布近似服从均值为，方差为2/n的正态分布。 3. 重复抽样和不重复抽样相比，抽样均值分布的标准差有何不同？ 1) 重复抽样条件下，(同时包括不重复抽样中的大样本：在对无限总体进行不重复抽样，以及有限总体N

41、很大，n/N很小时，则修正系数趋于1，都可以按重复抽样条件下处理。)方差为： 2) 在不重复抽样条件下，抽样均值方差则需要修正系数，方差为： 4. 样本均值分布与总体分布的关系是什么？ 1) 原总体为正态分布时，无论样本容量大小，样本均值抽样分布均服从正态分布。 2) 原总体为非正态分布时，有两种情况： n 样本容量n30时，其不服从正态分布。 n 样本容量n30时，使用中心极限定理：从均值为m ，方差为s 的一个任意总体中抽取容量为n的随机样本，当n充分大时,样本均值的抽样分布近似服从均值为，方差为2/n的正态分布。 5. 样本方差与两个样本方差的比各自服从什么分布？且其图形各有什么特点？

42、1) 样本方差服从X2分布其特征有四： n 分布的变量值始终为正 n 分布的形状取决于其自由度n的大小，通常为不对称的正偏分布，但随着自由度的增大逐渐趋于对称 n 期望为E(c2)=n，方差为D(c2)=2n(n为自由度) n 可加性：若U和V为两个独立的服从c2分布的随机变量，Uc2(n1)，Vc2(n2),则U+V这一随机变量服从自由度为n1+n2的c2分布 2) 两个样本方差的比服从F分布：其特征为：图形右偏。第七章参数估计 1. 解释估计量和估计值估计量：用于估计总体参数的统计量的名称。如样本均值，样本比例、样本方差等。参数用q 表示，估计量用q 表示估计值：估计参数时计

43、算出来的统计量的具体值。 2. 简述估计量好坏的评价标准 1) 无偏性：估计量抽样分布的数学期望等于被估计的总体参数 2) 有效性：对同一总体参数的两个无偏点估计量，有更小标准差的估计量更有效 3) 一致性：随着样本容量的增大，估计量的值越来越接近被估计的总体参数。 3. 解释置信水平的含义将构造置信区间的步骤重复很多次，置信区间包含总体参数真值的次数所占的比例称为置信水平，表示为 (1 - a )。a 为是总体参数未在区间内的比例。也叫置信系数。 4. 怎样理解置信区间 1) 由样本统计量所构造的总体参数的估计区间称为置信区间 2) 统计学家在某种程度上确信这个区间会包含真正的总体参数，

44、所以给它取名为置信区间 3) 用一个具体的样本所构造的区间是一个特定的区间，我们无法知道这个样本所产生的区间是否包含总体参数的真值 a) 我们只能是希望这个区间是大量包含总体参数真值的区间中的一个，但它也可能是少数几个不包含参数真值的区间中的一个 b) 总体参数以一定的概率落在这一区间的表述是错误的 5. 解释95%的置信区间 N个随机区间中，有95%个区间可能包含真值. 6. 估计误差或边际误差的式子含义是什么。它是估计总体均值时的边际误差，也称为估计误差或者估计范围。其中a是预先所确定的概率值，也称为风险值，它是总体均值不包含在置信区间的概率，Za/2是标准正态分布上侧面积为a/2时的Z值。 7. 均值的置信区间估计与新观测值的预测区间估计有什么不同。 1) 研究一个总体时，总体均值的置信区间估计关心的是总体均值，而与它不同的是有时关心的是预测随机

展开阅读全文