调查数据综合分析.docx

上传人:小飞机 文档编号:1995330 上传时间:2022-12-30 格式:DOCX 页数:16 大小:249.03KB
返回 下载 相关 举报
调查数据综合分析.docx_第1页
第1页 / 共16页
调查数据综合分析.docx_第2页
第2页 / 共16页
调查数据综合分析.docx_第3页
第3页 / 共16页
调查数据综合分析.docx_第4页
第4页 / 共16页
调查数据综合分析.docx_第5页
第5页 / 共16页
点击查看更多>>
资源描述

《调查数据综合分析.docx》由会员分享,可在线阅读,更多相关《调查数据综合分析.docx(16页珍藏版)》请在三一办公上搜索。

1、调查数据分析 概念 调查数据分析张海波 主编,中国统计出版社出版。自学考试以及调查分析师考试指定教材 调查数据分析张海波 主编,中国统计出版社出版。自学考试以及调查分析师考试指定教材隐藏 窗体顶端第一章调查数据分析的基本问题第二章 调查数据的整理第三章 调查数据的描述分析第四章 调查数据的推断分析第五章 调查数据的相关分析第六章 调查数据的回归分析第七章 调查数据的多元统计分析第八章 调查数据的预测分析第九章 调查数据的理论分析第十章 调查分析报告第一章 调查数据分析的基本问题(一)调查数据分析的意义1、 调查数据分析是根据研究的目的和要求,运用科学的方法和手段,对调查数据进行定性和定量分析,

2、揭示现象的本质和规律,为决策和管理提供咨询服务的过程。2、 调查数据分析是调查研究过程中的一个十分重要的环节。调查数据分析具有自身的内在规律和特点,主要表现在以下几个方面:数据分析过程要定性分析和定量分析相结合;数据的定量分析以统计分析方法为主;数据分析不能孤立于被调查研究的现象独立地进行;数据分析过程是一次认识上的质的飞跃。3、 调查数据分析在整个调查研究过程中占有十分重要的地位,其重要性主要表现在以下几个方面:数据分析是调查研究不可缺少的重要环节;数据分析是充分发挥调查研究作用的重要保证;数据分析在检验调查研究其他环节的工作质量中有着特殊的作用;通过数据分析还可以促进调查数据分析方法的研究

3、。(二)调查数据分析的原则与方法1、调查数据分析作为调查研究的一个重要阶段,有其自身的规律和要求。在进行调查数据分析时,应该遵循的原则主要有:科学性原则。科学性原则是指在数据分析中,应该根据调查数据的属性和特点,调查数据的来源渠道,调查研究的任务和目的,选择科学合理的分析方法进行分析客观性原则。客观性原则是指在数据分析中,必须遵守实事求是原则,充分了解研究对象的各种实际情况,尊重调查数据事实,保证分析结果的公正与客观目的性原则。目的性原则是指数据分析必须围绕调查研究的任务和目的来进行,其分析的结果必须能够满足调查研究的需要;系统性原则。系统性原则是指数据分析要将所的现象进行分解,然后对各种复杂

4、的联系进行分析和综合。2、调查数据的分析方法有多种,但从方法论的角度来看,有定性分析方法和定量分析方法两大类。定性分析方法是人们根据事实,运用经验和判断能力、逻辑思维方法、哲学方法和相关专业理论,对现象进行判断、归纳、推理和概括,得出对事物的本质和规律性的认识的方法体系。具体包括归纳分析法、演绎分析法、比较分析法、因果分析法、结构与功能分析方法等。定量分析方法是对调查数据进行数学和统计处理分析的方法体系的总称。调查数据分析中所运用的定量分析方法主要是统计分析方法。统计分析方法分为描述统计分析方法和推断统计分析方法。描述统计分析方法是指对调查数据进行综合整理和计算综合指标等加工处理,用来描述总体

5、特征的统计方法;推断统计分析方法是指根据调查的样本数据去推断总体数量特征的方法。3、在调查数据分析过程中,应该正确地选择分析方法。调查数据分析方法的选择,主要是定量分析方法的选择,而定量分析方法主要是统计分析方法。选择统计分析方法,主要是依据研究假设、调查方式、变量多少、数据类型来确定。(三) 调查数据分析的程序和要求1、调查数据的分析过程包括分析计划的制订、原始数据的整理、分析方法的选择、数据的定量分析、数据的定性分析、调查报告的撰写等环节。2、调查数据的分析不是一项简单的工作,也不是一项孤立的工作,要作好这项工作,必须具备一定的条件:1对调查数据质量的要求。包括真实性要求、准确性要求和完整

6、性要求;2对分析方案的完备性要求,即要求在数据分析开始之前,必须充分考虑各方面因素,制订出详细、可行的分析方案;3对分析人员素质的要求。要求分析人员具有系统的统计学功底、具有熟练的计算机操作能力、具有广泛的专业理论知识、具有较高的认识水平、具有良好的表达能力。第二章 调查数据的整理(一)数据整理的概念与作用1、数据整理,就是根据调查研究的目的与任务,对搜集到的各种数据,采用科学的方法,进行审核汇总与初步加工,使之条理化、系统化,并以图表的方式显示数据特征,以符合数据分析需要的工作过程。2、其作用有:数据整理能全面检查数据的质量,保证了数据的有用性;数据整理是数据分析的基础;数据整理是积累及保存

7、资料的客观要求。3、数据整理应遵循以下原则:真实性原则。即一方面要认真审核原始数据的真实性,又应注意在整理的各个环节,合理地选择整理方法和技术,保障原始数据的真实性不受损害;准确性原则;科学性原则;目的性原则。4、数据整理的一般步骤是:数据的审核;数据的编码;数据的分组;数据的汇总;数据的显示。 (二) 编码,是将问卷的问题及答案转化为计算机可以识别的数字或符号。1、通过编码,方便录入,适宜电脑进行处理。有事前编码与事后编码。事前编码是指在设计问卷时就给予每一个变量和可能答案分配代码,适用于封闭性问卷。事后编码是在数据收集完成以后正式整理开始之初,对调查问题的可能答案所进行的编码。对开放型问题

8、,只能采取事后编码的方式。2、常用的几种编码方法有:顺序编码法:是用一个标准对数据进行分类,并按一定的顺序用连续数字或字母进行编码的方式;分组编码法:是根据调查数据的属性特点和处理要求,将具有一定位数的代码单元分成若干组(或区间),每一个组的数字均代表一定的意义;信息组码编码法:是把调查数据区分不同的组,给每一个组以一定组码来进行编码的方法;表义式文字编码法:是用数字符号等表明编码对象属性,并依此方式对调查数据进行编码的方法。 3、编码是一项细致的工作,为方便使用,需要编制统一的编码手册。编码手册包括四个主要项目,即问题顺序号、每个项目的预留代码位置、项目名称和内容说明。4、编码时应注意以下问

9、题:编码符号绝大多数情况下都必须用数字,个别时也可以采用英文字母;可以对某些数字赋予特殊的意义,便于整理资料时识别;编码位数应根据具体情况予以确定。5、编码完成以后,就可进行数据录入。数据的录入是指将问卷或调查表或登录卡上的编码数字读到磁盘、磁带中,或通过键盘直接输入到计算机的工作过程。有手工录入和光电录入两种方式。6、对收集到的数据是否真实可靠,还应进行审核。一般从准确性、完整性两方面进行。审核准确性是关键,主要是检查数据是否存在差错,有无异常值。检查的方法有逻辑检查与计算检查。审核数据的完整性是检查应调查的个体是否存在遗漏,所要求调查的项目是否齐全,有无缺项等。对不符合调查要求的数据,则应

10、进行筛选。筛选有两方面的内容,一是对不符合要求或确认有错误的数据予以剔除,保留可靠性的数据。二是过滤,将符合某种特定条件的数据选取出来,而不符合条件的数据予以剔除。7、为合理安排数据,应首先对数据进行排序。排序是按一定顺序排列数据,便于观察数据的分布范围及特征。能为重新归类或分组等作准备,方便数据检索。对分类数据,一般按其英文字母或汉语拼音字母进行升序排列,也可按首个汉字的笔画数目由少到多的顺序排列。对数值型数据,可采用递增与递减两种方式排列。递增排序是由小到大排列,递减排序是由大到小排列。8、分组是将原始数据按照某种标准划分为不同组别,以满足研究的需要。对数值型数据由各组的表示方法不同分为单

11、变量值分组和组距分组。单变量值分组中的每一组用一个变量值来表示。组距分组中每一组用一定变动范围的两个变量值表示。有等距组距分组和异距组距分组。组距分组的基本步骤是:通过排序的数据观察其极大值与极小值,找出变动的总范围;确定组数。一组数据分成多少组是分组中首先需要确定的。通常可根据下列公式计算出建议组数;确定各组组距。组距与组数成反比;确定组限的表示方法,编制成频数分布表。9、频数是指落入各类或组中数据的个数,当我们把各组及相应频数按顺序全部加以排列,并用表格的形式表现出来,就是频数分布。它可以显示数据的分布状况,用于研究事物的内部结构。将各组频数逐级累加得到的频数,称为累积频数。10、为更好地

12、表现数据特点。需要展示数据。其中图形表现,就是一种有效方法。常用的统计图有下列几种:条形图、直方图。条形图和直方图大都是用来表现频数分布的。但两者适用的数据类型不同。条形图是使用等宽条形的长短或高度来表示数据的多少的图形。直方图是用一定宽度与长度所围成的矩形面积来表示数据大小的图形。矩形的宽度与高度均有意义。此外,还可根据累积频数或累积频率,绘制累积频数及累积频率分布图。饼型图、环形图。饼型图及环型图是来描述各种比例的图形。饼型图是用圆内扇形的面积表示数值大小的图形。以圆为整体,形象的说明各部分在总体中所占的份额。环形图是用圆内各环中每一段的面积来表示数值的大小的图形。能够同时显示多个总体的内

13、部结构。茎叶图、箱线图。对未经分组的数值型数据,适合用茎叶图、箱线图来显示。茎叶图是由“茎”和“叶”两部分组成,“茎”代表分组,表示高位数值;“叶”代表频数,列示个位数值。箱线图是用一组数据的五个特征值来描述该组数据的分布状况。既可显示单组数据,也可显示多组数据。其五个特征值分别是一组数据的最小值、最大值、中位数、下四分位数、上四分位数。线图。线图,是反映时间序列数据的图形,即在平面坐标上标注各数据点并连接成折线,表现数量变化规律及特点的统计图。其横轴上列示时间的先后次序,纵轴上列示变量值。雷达图。雷达图,反映多个变量多个观察样本数据的图形。在一个平面上绘有多个数轴,每个轴上显示一个变量的取值

14、,每个样本的各观察值分别在各轴上标出。11、统计表是表现调查数据的另一个重要形式。是指将一系列说明现象特性的经加工整理后的调查数据,按一定次序和格式排列形成的专用表格。其作用不仅能有效表现数据,更有利于资料的贮存保管,还是积累资料的有效手段。为下一步分析提供基础,为进一步挖掘数据提供便利。统计表由两端不封口的纵横交错的直线围成各区域。从外形看,由总标题、行标题、列标题和具体数值及表外附加组成。从内容看,统计表分为主词与宾词两部分。主词是指统计表要说明的主体,也即研究的对象,通常是各个总体单位的名称或总体经分类(分组)形成的各个组。宾词是统计表要说明研究对象的某些方面状况、事实。根据主词是否分组

15、及分组的状况,可将统计表分为简单表、分组表、复合分组表。为更好地表现调查数据,就需要精心设计统计表,设计时须注意以下几点:合理安排表的内容,简明扼要,集中醒目,根据表的内容决定行标题与列标题的摆放位置,确定合适的长宽比例。采用适当的排列顺序,置于顶端的总标题要确切,明确表明统计表要反映的内容,时间与空间范围。各项标题也要简单明了。表的上下两条横线要用粗线标出,中间各行一般不画线,有特殊要求需标横线的则用细线。使观看效果清楚醒目。当统计表的栏次较多时,一般会进行编号。统计表中的数字应填写清楚,排列有序,并采用统一的精确度,按位置对齐。第三章 调查数据的描述分析本章讲述的是如何用指标的形式来认识调

16、查数据数量特征的理论和方法。内容包括相对指标、平均指标和变异程度指标的设计思想、计算方法及运用原则。调查数据分析中常用的相对指标,有无名数和名数两种表现形式,按功能不同,相对指标分为:结构相对指标、比例相对指标、比较相对指标、动态相对指标及计划完成程度相对指标。学习时应注意掌握各种相对指标的计算方法。在计算相对指标时首先应注意分子与分母的可比性,同时还应注意各类指标的应用条件。在运用相对指标时应遵循相对指标与绝对指标相结合的原则。平均指标是表明一组数据值一般水平的指标,是一个代表性的数值。当不计较数据中极端值对均值水平的影响时,平均指标可用数值平均法计算;否则,采用位置平均法计算。学习时应理解

17、平均的实质,熟练掌握各种平均值的计算方法,要深刻理解权数的意义并明白算术平均是最基本的、使用面最广的平均方法。此外还应了解算术平均值、调和平均值、几何平均值的关系以及数值平均值与位置平均值的关系。变异指标是描述一组数据值间具体差异程度大小的统计指标,其数值的大小一方面反映数据值变异程度的大小;另一方面反映均值的代表性好坏。学习时应熟练掌握各种变异指标的涵义和计算方法,特别是标准差的计算和运用。第四章 调查数据的推断分析基本内容概述本章讲述的是如何用样本数据认识总体数量特征的理论和方法。内容包括参数估计、参数的假设检验和方差分析的统计思想、计算方法及运用原则。参数估计是基本统计推断方法之一。未知

18、参数的点估计,就是构造一个统计量作为参数的估计。其方法有:矩法、似然函数法和最小二乘法。评价估计量的优良标准一般有:无偏性、有效性和一致性。未知参数的区间估计,就是在给定的概率下,估计参数的变化范围。其中:称为置信水平,分别称为置信下限及置信上限,区间称为置信水平为的置信区间。学习时应注意掌握统计量的抽样分布理论,这是统计推断的基础,重中之重。要熟练掌握各种情况下参数均值()、方差()和成数(P)的区间估计方法。参数的假设检验是另一类重要的统计推断方法,它利用样本统计量并按一定的决策规则对零假设H0作出接受或拒绝的推断。假设检验的依据是样本信息,判断规则是“小概率”原理,推断方法是概率反证法。

19、学习时应理解假设检验的统计思想,明白假设检验作出的推断结论(决策)不能保证绝对正确,可能会犯两类错误。要熟练掌握检验法、检验法、检验法和检验法的原理,记住假设检验的操作过程。方差分析是多个总体的方差都相等的条件下,其均值是否也全都相等的判断方法,同时也是实验数据中是否存在系统因素影响的判断方法。学习时应掌握方差分析的统计思想及假定条件,熟练掌握单因素方差分析的操作过程。第五章 调查数据的相关分析基本内容概述(一)相关分析概述在自然界与人类社会中,许多现象之间存在着相互联系、相互制约的关系。现象之间的关系可以概括为两种不同的类型,即函数关系和相关关系。函数关系是指现象之间客观存在的、在数量变化上

20、按一定法则严格确定的相互依存关系。相关关系是指现象之间客观存在的、在数量变化上受随机因素影响的、不确定的相互依存关系。在相关关系中,现象之间在数量变化上也存在着一定依存关系,但这种依存关系并不是确定的。由于受随机因素的影响,当某一现象在数量上发生变化时,另一现象并不按某一确定法则发生变化,而是在一定的范围内发生波动。但通过大量观察,仍然可以发现现象之间具有内在的变化规律。相关关系与因果关系有着较密切的联系。在相关关系中,有许多相关现象之间存在单向因果关系。单向因果关系有直接单向因果关系与间接单向因果关系之分。在相关关系中,有许多相关现象之间存在双向因果关系。双向因果关系也有直接双向因果关系和间

21、接双向因果关系。对双向因果关系的现象进行统计分析时,常常根据分析研究的目的来确定自变量和因变量。相关关系多种多样。从相关关系涉及的变量多少看,相关关系可分为单相关与复相关。单相关是指两个变量之间存在的相关关系。复相关是指三个及三个以上的因素之间所存在的相关关系。 从相关关系的不同形式来看,相关关系可分为线性相关与非线性相关。线性相关也称为直线相关,它是指相关的变量中,如果自变量变动时,因变量大致地围绕一条直线发生变动。非线性相关也称为曲线相关,它是指相关的变量中,如果自变量变动时,因变量大致地围绕一条曲线发生变动。从相关关系的密切程度来看,相关关系可分为不相关、完全相关和不完全相关三种。如果各

22、变量彼此的变化相互独立,这种关系为不相关;如果一个变量的变化由另一个变量所唯一确定,这时两个变量之间的关系称为完全相关。 从相关关系的方向来看,相关关系可分为正相关与负相关。如果相关自变量和因变量的变化方向一致,则自变量和因变量之间就存在着正相关;如果相关的自变量和因变量的变化方向相反,则自变量和因变量之间就存在着负相关。相关分析是指对变量之间的相关关系的表现形式、密切程度和变化方向进行分析和研究。相关分析主要内容包括三个方面:确定变量之间有无关系;确定相关关系的表现形式;判断关系的密切程度和方向。相关分析作为一种认识现象之间数量变化关系的一种方法,它对数据的采集具有一定的要求。在进行相关分析

23、时,由于条件的限制,在大多数场合下,我们只能根据样本数据进行相关分析。那么,足够的样本观察点是进行相关分析的重要条件。对于不同类型的数据,进行相关分析时所选择的方法是不同的。定性数据中,定类数据一般采用交互列表方法、x2检验方法、品质相关系数分析方法进行分析;定序数据则采用等级相关系数分析方法进行分析。对于定量数据则采用相关表、相关图、简单相关系数、复相关系数、偏相关系数等进行分析。(二)定性数据的相关分析在实际进行的大量社会经济调查中,我们所搜集到的数据许多是定性数据,个别一些数据如收入、年龄等也主要分析它们的层次差异与其他定性变量之间的关联结构关系。对于定性数据进行相关分析,主要采用交互列

24、表方法、x2检验方法、品质相关系数和等级相关系数分析方法进行分析。交互列表分析方法是以交互列表(也称为列联表)为工具,同时将两个或两个以上具有有限类目和确定值的变量按照一定顺序对应排列在一张表中,从中分析变量之间的相关关系,得出科学结论的分析技术。交互列表分析方法有双变量交互列表分析和三变量交互列表分析两种方法。其中,双变量交互列表分析是最基本的交互列表分析方法。双变量交互列表分析因为涉及的变量较少,在揭示变量之间的关系时可能不太深入或产生虚假的结果。为了克服这一缺陷,在许多场合我们要在双变量交互列表分析的基础上,引入第三个变量作深入分析,即进行所谓的三变量交互列表分析。三变量交互列表分析法主

25、要有三个方面的作用:(1)更精确地反映原有双变量之间的关系;(2)检验双变量交互列表分析结果的真伪;(3)揭示新的变量关系。x2检验分析是运用x2统计量对定类或定序变量之间是否具有相关关系进行统计检验的分析方法。x2检验是对交互列表中变量的相关关系进行检验,是交互列表分析的深入。所以,在进行x2检验之前,必须编制出交互列表。x2检验分析的基本步骤是:建立两个变量间无关系的假设;计算x2统计量; 规定显著性水平; 根据自由度和规定的显著性水平,查x2分布表,得到临界值;作出统计决策。x2检验分析,研究的是两个变量之间是否存在相关关系的问题。而两个变量之间的相关关系的强弱,还需通过品质相关系数来反

26、映。常用的品质相关系数是系数、系数、系数和系数。等级相关系数是用来描述两个定序变量即等级序列之间的相关程度的指标。在等级相关系数中,尤以斯皮尔曼(C.Spearman)等级相关系数的运用最为普遍。等级相关系数rs只是就样本而言的,它所表明的变量之间的相关程度是否在总体范围内显著地存在,还要对rs进行显著性检验。(三) 定量数据的相关分析对于定量数据进行相关分析,常采用的方法是简单相关系数、复相关系数、净相关系数等方法。简单相关系数是用来测度两个变量之间线性相关程度的统计指标,也叫线性相关系数,一般情况下简称为相关系数。简单相关系数测定的是变量和之间的线性相关程度。其取值范围是1,1。若01,表

27、明与之间存在正相关;若10,表明与之间存在负相关;若=1,表明与之间存在完全正相关;若=1,表明与之间存在完全负相关;若=0,说明与之间不存在线性相关关系。但要注意,这种判断只在样本范围内有效。那么,样本相关系数所描述的变量之间的相关程度是否也在总体范围内显著地存在,还必须通过相关系数的显著性检验来回答。对样本相关系数进行显著性检验的步骤是:建立假设;确定显著性水平;建立检验的统计量;查分布表,得到临界值;作出统计决策。简单相关系数只能说明两个变量之间的线性相关程度。然而现象之间的关系往往是多元的、复杂的,一个现象的变动常常要受许多因素的影响,而且这些因素之间还存在相互交错的关系。如果研究的目

28、的涉及多个变量,需要揭示一个自变量与多个因变量之间的相关关系的程度,就需要计算复相关系数。复相关系数是反映一个因变量与多个自变量之间数量变化关系密切程度的指标。复相关系数的具体计算方法依自变量的个数不同而异。复相关系数总取正值,越接近于1,表明因变量与多个自变量之间的线性关系越显著。复相关系数揭示了多个自变量同时对一个因变量发生作用时,这个因变量与这些自变量之间的相关程度。如果相关分析的任务是要揭示对因变量有影响作用的多个自变量中,某一个特定变量与因变量之间数量变化上的相关程度,就需要计算偏相关系数。偏相关系数是在多变量观测数据中分析两个特定变量之间数量变化关系密切程度的指标。单纯的相关分析只

29、能揭示变量之间是否存在相关关系,存在何种相关关系,关系的密切程度如何,还不能测度变量之间的数量变动关系。要分析变量之间的数量变动关系,则要进行回归分析。第六章 调查数据的回归分析(一) 一元线性回归分析回归分析是一种运用十分广泛的统计分析方法。回归分析按照涉及的自变量的多少,可分为一元回归分析和多元回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。本章重

30、点介绍线性回归分析。回归分析的内容和步骤有:(1)确立预测目标和影响因素;(2)绘制散点图;(3)求回归系数,并建立回归模型;(4)对回归模型进行检验;(5)进行估计和预测。一元回归分析法是回归分析法中最基本的方法,也是应用最为广泛的一种方法。一元回归分析法技术简单,它可以帮助我们理解多元回归分析法。一元线性回归分析的基本模型为:为便于模型中参数的估计,我们常常假定模型中的误差项满足若干经典假设。在误差项满足若干经典假设的条件下,模型中的参数估计方法是普通最小二乘估计法。在估计出参数的估计值和后,可获得经验回归方程对于获得的经验回归方程,还需进行统计检验。检验分为拟合优度检验和回归系数的显著性

31、检验。拟合优度检验主要是运用判定系数和回归标准差,检验模型对样本观测值的拟合程度。回归系数的显著性检验有检验和检验两种方法。检验是对各回归系数的显著性所进行的检验,检验是对全部回归系数进行一次性显著性检验,其目的是检验回归方程在整体上是否显著成立。在一元线性回归分析中,由于只存在一个解释变量,所以上述两种检验是等价的。如果回归模型通过了统计检验,则可运用模型进行回归估计和回归预测。回归估计和预测主要是确定估计值或预测值的置信区间。(二)多元线性回归分析如果因变量与多个自变量之间相关,且为线性关系,则需运用多元线性回归分析方法来研究其数量上的依存关系。多元线性回归分析法的基本模型为。在多元回归模

32、型中,关于误差项的假定与一元线性回归模型的那些假定相似。在误差项满足若干经典假设的条件下,模型中的参数估计方法是普通最小二乘估计法。在估计出参数的估计值后,可获得经验回归方程。本章主要介绍了多元线性回归分析中的二元线性回归分析方法。二元线性回归分析法的回归方程为: 。二元线性回归模型中的参数,同样运用普通最小二乘方法进行估计。在获得了回归参数的估计值后,还需对模型进行显著性检验。检验分为拟合优度检验和回归系数的显著性检验。拟合优度检验主要是运用判定系数和回归标准差,检验模型对样本观测值的拟合程度。回归系数的显著性检验有检验和检验两种方法。检验是对各回归系数的显著性所进行的检验,检验是对全部回归

33、系数进行一次性显著性检验,其目的是检验回归方程在整体上是否显著成立。通过检验的模型就可用于回归估计和回归预测。不论是进行一元线性回归分析,还是多元线性回归分析,如果模型中的误差项不能满足经典假设,存在异方差或自相关、多重共线性等现象时,则我们不能直接用普通最小二乘估计法估计模型中的参数,而是先要对原有模型进行变换,或对数据进行某种处理,然后再用普通最小二乘估计法估计模型中的参数。(三)非线性回归在实际工作中,有时变量之间相关关系并非存在线性关系,而呈诸如抛物线、指数曲线、双曲线等各种各样的非线性关系。这时,如果仍然直接用线性回归方程进行分析,将不能正确反映客观现象之间的相互联系。因此,需要应用

34、适当形式的曲线回归方程来描述它们之间的关系。这种为观察数据拟合曲线回归方程所进行的分析,称为非线性回归分析。非线性回归方程的形式多种多样,本章主要介绍了抛物线、指数曲线、双曲线、幂函数曲线、对数曲线和型曲线模型的形式及其参数的估计方法。非线性回归分析的一般步骤是:首先是对所研究的两个现象进行理论分析,分析两者之间是否存在相关关系,以及是什么形式的相关,并结合观察散点图的分布,确定拟合哪种形式的曲线较为合适。其次是确定好曲线形式后,列表计算其有关参数,从而确定所拟合的回归方程形式,并利用有关资料计算相关系数,以观察所研究的两个现象之间相互关系的紧密程度。最后根据所确定的回归方程进行预测。第七章

35、调查数据的多元统计分析 (一) 聚类分析 聚类分析是一种分类的方法,主要用于辨认具有相似性的事物,并根据彼此不同的特性加以“聚类”使同一类的事物具有高度的相同性,而类与类之间却有着显著的差异。聚类分析可以对变量进行聚类,即型聚类,也可以对样本进行聚类,即型聚类。 为了得到比较合理的分类,首先要采用适当的指标来定量地描述研究对象(样品或变量)之间的联系的紧密程度。主要有以下三种(1)距离测度。(2)相关测度。(3)关联测度。其中相关测度和距离测度适用于间距测度等级及以上的数据,关联测度适用于名义测度和顺序测度。距离测度包括欧氏距离、绝对值距离、明科夫斯基距离、马氏距离等方法;相关测度主要运用相似

36、系数;关联测度有多种关联测度系数,其中得到了广泛应用的分别是简单匹配系数、雅可比系数和果瓦系数。聚类分析内容非常丰富,有系统聚类,有序样品聚类法,动态聚类法,模糊聚类法,图论聚类法。本章主要介绍常用的系统聚类法。系统聚类法的具体很多,应用最广泛的有层次聚类法和迭代聚类法。层次聚类法包括最短距离法、最长距离法、平均联结法、重心法、离差平方和法。聚类分析的步骤是:(1)确定待研究问题并选择变量;(2)选择聚类用的相似性测度方法;(3)选择聚类的方法;(4)确定类别的个数;(5)描述与解释各个类别;(6)评价聚类的有效性与准确性。(二)判别分析判别分析是一种统计辨别和分组技术。它是根据一定数量样本的

37、一个分组变量和相应的其他多元变量的已知信息,确定分组与其他多元变量之间的数量关系,建立辨别函数,对未知分组类型所属的样本进行判别分组。聚类分析和判别分析都是分类的方法,其主要差别在于:在判别分析中,用于推导分类规则的样品的所属类别必须是事先已知的;而在聚类分析中,所有样品或个体的所属类别是未知的,而且类别的个数一般也是未知的,分析的依据就是原始数据。进行判别分析有一些基本要求和假设条件:(1)分组类型在两种以上,且组间样本在判别值上差别比较明显;(2)组内样本数不得少于两个,且样本数量比变量数量起码多2个;(3)所确定的判别变量不能是其他判别变量的线性组合;(4)各组样本的协方差矩阵相等;(5

38、)各判别变量之间具有多元正态分布。判别分析的基本模型也称判别函数,用数学形式表示为。根据所收集样本的数据,可以计算出一个判别临界值,作为判定某个个体归属到哪一个类别的基准。两总体情况下判别分析主要有以下几个步骤:(1)确定研究问题;(2)确定分析样本和验证样本;(3)估计判别函数或后验概率;(4)评价判别模型的效果;(5)检验模型的显著性;(6)解释分析的结果;(7)检验判别效果。多总体判别分析的步骤与两总体的情况类似,但也有不同之处。(三)主成分分析主成分分析就是设法将原来的p个指标重新组合成一组相互无关的新指标的过程。通常数学上的处理就是将原来的p个指标做线性组合,为了使第一个线性组合F1

39、能够尽可能多地反映原指标的信息,通常的做法就是使F1的方差达到最大。F1的方差越大,表示其所包含的信息越多。由于F1在所有线性组合中方差最大,包含的信息最多,因此F1称为第一主成分。如果F1还不能反映原指标的全部信息,再考虑选取第二主成分F2,使F2在剩余的线性组合中方差最大,并且与F1不相关。依次类推,可以求出全部p个主成分,它们的方差是递减的。在实际工作中,就是要选取前几个最大主成分来进行分析,以达到简化数据的目的。这样做就可以使我们抓住问题的主要矛盾,有利于问题的分析和解决。求解主成分的主要数学工具是特征方程。通过求解观测变量相关矩阵的特征方程,得到k个特征值和对应的k个单位特征向量。把

40、k个特征值从大到小的顺序排列,它们分别代表k个主成分所解释的观测变量的方差。主成分是观测变量的线性组合,线性组合的权数即为相应单位的特征向量的元素。主成分的性质有:(1)各主成分的均值都为0;(2)X的第i个主成分Fi的系数向量就是第i个特征值所对应的正交化特征向量ai;(3)第个主成分的方差为第个特征值,每两个不相同主成分间的协方差为0;(4)全部主成分的方差之和等于全部原始变量的方差之和;(5)主成分与的相关系数为。各主成分的方差即相应的特征根表明了该主成分的方差在全部方差中的比值,所以通常定义方差为第个主成分的贡献率,方差的值越大,表明主成分综合原始变量的能力越强。主成分分析的基本步骤是

41、:(1)将原始数据标准化;(2)建立变量的相关系数阵;(3)求R的特征根及相应的单位特征向量;(4)写出主成分。(四)因子分析因子分析是一种数据简化的技术,即用相对很少量的几个因子,去表示许多相互有关联的变量之间的关系。因子分析的基本思想是,将观测变量分类,将相关性较高的即联系比较紧密的变量放在同一类中,每一类的变量实际上隐含着一个因子;而不同类的变量之间则相关性较弱,即各个因子之间又是不相关的。因子分析就是要找到这些具有本质意义的少量因子,并用一定的结构或模型,去表达或解释大量可观测的变量。因子分析模型可以表示为,每个观测变量由一组因子的线性组合来表示,设有k个观测变量,分别为,其中Xi为具

42、有零均值,单位方差的标准化变量。则因子模型的一般表达形式为:因子分析中要确定多个统计量,即因子载荷、因子方差贡献率公因子方差及特殊方差、因子个数、因子旋转、 因子命名、因子得分。在探测性因子分析中,求解初始因子的主要目的是确定能够解释测评变量之间相关关系的最少因子个数。根据所依据的准则不同,有很多种求因子解的方法,主要可以分为两类:一类是基于主成分分析模型的主成分分析法;另一类是基于公因子模型的公因子分析法,包括主轴因子法、最大似然法、最小二乘法和a。第八章 调查数据的预测分析基本内容概述(一)预测分析的概述经济预测是把预测的理论和方法应用于经济领域,对经济现象的未来进行判断和预测。经济预测既

43、是科学又是艺术。预测分析的分类:按经济预测的空间范围分为:宏观经济预测、中观经济预测和微观经济预测;按经济预测的时间长短不同分为:近期经济预测、短期经济预测、中期经济预测和长期经济预测;按经济预测的方法不同分为:定性经济预测和定量经济预测。预测分析的基本原理:惯性原理:通过研究经济现象的过去和现在的状态,找出其变化的规律,向未来延续,从而预测其未来状态的原理,称为“惯性原理”;相关原理。通过深入分析研究预测对象与相关现象的依存关系和影响程度,揭示其变化规律和特征,以此预测经济现象未来状态的原理,称为“相关原理”;类推原理。通过寻找并分析与预测对象类似事物的规律,根据已知事物的变化规律及特征,推

44、断预测对象未来的状态或特征的原理;概率推断原理。所谓概率推断原理就是根据小概率原理做出合理的推断的原理。预测分析的基本程序:确定经济预测的目的;调查、收集、整理经济预测所需资料(历史资料和现实资料);对资料进行分析,选择适当的预测方法;建立预测模型;根据经济预测模型计算预测值,并测定预测误差;评价预测值,得出预测结论。预测分析的精确度分析:经济预测误差及其产生的原因。经济预测误差,是指预测结果与实际值之间的偏差。产生经济预测误差的原因主要有:经济预测资料的限制; 经济预测对象影响因素的复杂性;预测方法不合适。经济预测误差的测定。常用的测定指标有:单个预测误差et;单个相对误差st;平均绝对误差

45、MAE;预测误差的方差MSE;预测误差的标准差RMSE。经济预测误差的利用。根据模拟误差最小可以选择最佳预测方法;根据模拟误差最小可以选择预测模型的参数;修正预测值;根据预测误差绘制控制图,用来判断预测模型是否适用。预测分析的方法及其选择:预测分析方法的种类:定性预测法;相关回归分析预测法;时间序列预测法。预测分析方法的选择。(二)定性预测分析法德尔菲预测法:又称专家判断预测法,它是以匿名方式通过逐轮函询,征求专家们的预测意见,然后汇总整理得出预测结论的一种方法。德尔菲预测法的主要过程:准备阶段;逐轮征询阶段;数据处理阶段。德尔菲预测法具有匿名性、反馈性、收敛性的特点。主观概率预测法:主观概率

46、预测法是指利用主观概率对各种预测意见进行集中整理,得出综合性预测结论的一种预测方法。常用的主观概率预测法包括:主观概率加权平均法和累计概率中位数法。主观概率加权平均预测法是以主观概率为权数,对各种预测意见进行加权平均,综合求得预测结论的方法。累计概率中位数法是根据累计概率,确定专家预测意见的中位数,对经济现象的未来进行点估计和区间估计的方法。PERT预测法:PERT预测法是向具有预测判断能力的销售人员和管理人员进行调查,获取每一个被调查者对销售量的三个估计值,然后,进行综合整理计算出销售量的期望值和标准差,作出点预测或区间预测。(三)时间序列平滑预测法 时间序列,是将预测对象的历史资料按时间先

47、后顺序排列而形成的一列数。时间序列分析预测法的假定前提是:假定预测对象存在着“惯性”,它的发展是依时间序列所反映出来的变化规律发展变化的,未来同过去一样,发展变化规律保持不变;假设预测对象的变化仅与时间有关。但实际上包含了所有因素的作用,可以理解为它是把所有影响因素综合地归结为一个因素时间。时间序列的因素分析:从影响因素发生作用的效果看,通常可以把时间序列的变动分为四种类型,即:长期趋势,它是指时间序列观察值,即经济现象,在较长一段时期内持续存在的变化趋势;季节变动,一般是经济现象以年为周期,随着季节的更替,每年都重复出现的有规律的周期性变动。广义的季节变动还包括以季度、月份甚至更短时间为周期

48、的有规律的变动;循环变动,是指以数年为周期的一种波浪起伏式的变动;不规则变动,是指由于随机因素和突发事件的作用而引起的变动。时间序列数据的结构模式有乘法模式、加法模式、混合模式。移动平均预测法:移动平均预测法是根据时间序列资料,逐项移动,依次计算包含一定项数的序时平均数,以反映长期趋势的方法。一次移动平均预测法:一次移动平均预测法是在原始时间序列的基础上,计算移动平均数,根据移动平均数序列,进行趋势分析和预测的方法。一次移动平均预测法的关键是移动平均的时期长度的选择。简单移动平均预测法:根据时间序列中最近期数据计算简单算术平均数作为下一期预测值的方法。 加权移动平均法:根据时间序列的最近期数据计算出加权算术平均数作为下一期预测值的方法。利用加权移动平均法进行预测时,不仅要选择好移动平均的时间段

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号