[管理学]统计学教案2.doc

上传人:sccc 文档编号:4559748 上传时间:2023-04-27 格式:DOC 页数:34 大小:2.14MB
返回 下载 相关 举报
[管理学]统计学教案2.doc_第1页
第1页 / 共34页
[管理学]统计学教案2.doc_第2页
第2页 / 共34页
[管理学]统计学教案2.doc_第3页
第3页 / 共34页
[管理学]统计学教案2.doc_第4页
第4页 / 共34页
[管理学]统计学教案2.doc_第5页
第5页 / 共34页
点击查看更多>>
资源描述

《[管理学]统计学教案2.doc》由会员分享,可在线阅读,更多相关《[管理学]统计学教案2.doc(34页珍藏版)》请在三一办公上搜索。

1、 34 / 34大连外国语学院经济与管理学院旅游管理教研室李振东第一章 统计基本概念+SPSS数据文件的建立Part 1 统计基本概念Unit 1 统计工作与统计学【统计工作定义】是对社会自然现象客观存在的现实数量方面进行搜集、整理和分析的活动过程。【统计工作步骤】统计设计统计调查统计整理统计分析【统计资料】是指统计实践活动过程中所取得的各项数字资料以及与之相关的其它实际资料的总称。【统计学】是关于认识客观现象总体数量特征和数量关系的科学。【统计学的研究对象】是社会经济现象总体的数量特征和数量关系. 【统计学的研究方法】大量观察法统计分组法综合指标法统计模型法归纳推断法Unit 2 统计基本概

2、念【现实中的随机性和规律性】从中学起,我们就知道自然科学的许多定律,例如物理中的牛顿三定律,物质不灭定律以及化学中的各种定律等等。但是在许多领域,很难用如此确定的公式或论述来描述一些现象。比如,人的寿命是很难预先确定的。一个吸烟、喝酒、不锻炼、而且一口长荤的人可能比一个很少得病、生活习惯良好的人活得长。因此,可以说,活得长短是有一定随机性的(randomness)。这种随机性可能和人的经历、基因、习惯等无数说不清的因素都有关系。【现实中的随机性和规律性】但是从总体来说,我国公民的平均年龄却是非常稳定的。而且女性的平均年龄也稳定地比男性高几年。这就是规律性。一个人可能活过这个平均年龄,也可能活不

3、到这个年龄,这是随机的。但是总体来说,平均年龄的稳定性,却说明了随机之中有规律性。这种规律就是统计规律。 【概率和机会】你可能经常听到概率(probability)这个名词。例如在天气预报中会提到降水概率。大家都明白,如果降水概率是百分之九十,那就很可能下雨;但如果是百分之十,就不大可能下雨。因此,从某种意义说来,概率描述了某件事情发生的机会。显然,这种概率不可能超过百分之百,也不可能少于百分之零。换言之,概率是在0和1之间的一个数,说明某事件发生的机会有多大。 【有些概率是无法精确推断的】比如你对别人说你下一个周末去公园的概率是百分之八十。但你无法精确说出为什么是百分之八十而不是百分之八十四

4、或百分之七十八。其实你想说的是你很可能去,但又没有完全肯定。实际上,到了周末,你或者去,或者不去;不可能有分身术把百分之八十的你放到公园,而其余的放在别处。【有些概率是可以估计的】比如掷骰子。只要没有人在骰子上做手脚,你得到6点的概率应该是六分之一。得到其他点的概率也是一样。得到6的概率或者机会是可以知道的,但掷骰子的结果还只可能是六个数目之一。这个已知的规律就反映了规律性,而得到哪个结果则反映了随机性。如果你掷1000次骰子,那么,大约有六分之一的可能会得到6;这也是随机性呈现有规律的一个体现。【变量】做任何事情都要有对象。比如一个班上注册的学生有200人,这是一个固定的数目,称为常数(co

5、nstant)或者常量。但是,如果猜测今天这个班有多少人会来上课,那就没准了。这有随机性。可能有请病假或事假的,也可能有逃课的。这样,就要来上课的人数是个变量(variable)。另外对于某项政策同意与否的回答,也有“同意”、“不同意”或者“不知道”三种可能值;这也是变量,只不过不是数量而已。定量变量当变量按照随机规律所取的值是数量时该变量称为定量变量或数量变量(quantitative variable);因为是随机的,也称为随机变量(random variable)。定性变量象性别,观点之类的取非数量值的变量就称为定性变量或属性变量或分类变量(qualitative variable,ca

6、tegorical variable)。这些定性变量也可以由随机变量来描述,比如男性和女性的数目,同意某政策人数的比例等等。只有当变量用数量来描述时,才有可能建立数学模型,才可能使用计算机来分析。【数据】有了变量的概念,什么是数据呢?拿掷骰子来说,掷骰子会得到什么值,是个随机变量;而每次取得1至6点中任意点数的概率它在理论上都是六分之一(如果骰子公平)。这依赖于在掷骰子背后的理论或假定;而在实际掷骰子过程中,如果掷100次,会得到100个由1至6点组成的数字串;再掷100次,又得到一个数字串,和前一次的结果多半不一样。这些试验结果就是数据。所以说,数据是关于变量的观测值.通过数据可以验证有关的

7、理论或假定(比如每一次得到每个点的概率是不是1/6等等)。对于顾客是否喜欢某种饮品的调查也类似,但这里不象掷骰子那样事先可以大致猜测顾客喜欢与否的概率。在问了1000人之后,可能有364人说喜欢,而480人说不喜欢,其余的人可能不回答,或说不知道,或从来没有喝过这种饮料。这些数目就是数据。当然,它仅仅反映了1000个被问到的人的观点;但这对于估计整个消费群体的观点还是有用的。数据的四种统计测量尺度1. 定类测量(SPSS,Nominal)也称为类别测量或定名测量,它是测量层次中最低的一种。定类测量在本质上是一种分类体系。即将调查对象的不同属性或特征加以区分,标以不同的名称或符号,以确定其类别。

8、2. 定序测量(SPSS,Ordinal)也称为等级测量或顺序测量。定序测量可以按照某种逻辑顺序将调查对象排列处高低或大小,确定其等级及次序。3. 定距测量(SPSS,Scale)也称为间距测量或区间测量。它不仅能够将社会现象或事物区分为不同的类别、不同的等级,而且可以确定它们相互之间的间隔距离和数量差别。4. 定比测量(SPSS,Scale)也称为等比测量或比例测量。定比测量除了具有上述三种层次测量的全部性质之外,还具有一个绝对的0点(具有实际意义的0点)。所以,它所测量到的数据既能加减运算,又能乘除计算。比如,对人们的收入、年龄,以及某一地区的出生率、性别比等等所进行的测量,都是定比层次的

9、测量。四种统计测量尺度的效果比较测量结果测量精度计算方法信息数量定类测量A、B有生命有无生命无A、B有生命定序测量A为中年人B为青年人生命时间长与短无A、B有生命A比B年长定距测量A1950年出生B1975年出生确切的生命长度加减A、B有生命A比B年长A比B年长25岁定比测量A50岁B25岁确切的生命长度加减乘除A、B有生命A比B年长A比B年长25岁A的年龄是B的2倍Unit 3 统计和计算机 现代生活越来越离不开计算机了。最早使用计算机的统计当然更离不开计算机了。事实上,最初的计算机仅仅是为科学计算而建造的。大型计算机的最早一批用户就包含统计。而现在统计仍然是进行数字计算最多的用户。计算机现

10、在早已脱离了仅有计算功能的单一模式,而成为百姓生活的一部分。计算机的使用,也从过去必须学会计算机语言到只需要“傻瓜式”地点击鼠标。结果也从单纯的数字输出到包括漂亮的表格和图形的各种形式。统计工作与统计软件统计软件的发展,也使得统计从统计学家的圈内游戏变成了大众的游戏。只要你输入你的数据,点几下鼠标,做一些选项,马上就得到令人惊叹的漂亮结果了。你可能会问,是否傻瓜式的统计软件使用可以代替统计课程了?当然不是。数据的整理和识别,方法的选用,计算机输出结果的理解都不象使用傻瓜相机那样简单可靠。有些诸如法律和医学方面的软件都有不少警告,不时提醒你去咨询专家。但统计软件则不那么负责。只要数据格式无误、方

11、法不矛盾而且不用零作为除数就一定给你结果,而且没有任何警告。另外,统计软件输出的结果太多;即使是同样的方法,不同软件输出的内容还不一样;有时同样的内容名称也不一样。这就使得使用者大伤脑筋。即使是统计学家也不一定能解释所有的输出。因此,就应该特别留神,明白自己是在干什么。不要在得到一堆毫无意义的垃圾之后还沾沾自喜。 统计软件的种类很多。有些功能齐全,有些价格便宜;有些容易操作,有些需要更多的实践才能掌握。还有些是专门的软件,只处理某一类统计问题。面对太多的选择往往给决策带来困难。这里介绍最常见的几种。 常用统计软件1. SPSS:这是一个很受欢迎的统计软件;它容易操作,输出漂亮,功能齐全,价格合

12、理。对于非统计工作者是很好的选择。2. Excel:它严格说来并不是统计软件,但作为数据表格软件,必然有一定统计计算功能。而且凡是有Microsoft Office的计算机,基本上都装有Excel。但要注意,有时在装Office时没有装数据分析的功能,那就必须装了才行。当然,画图功能是都具备的。对于简单分析,Excel还算方便,但随着问题的深入,Excel就不那么“傻瓜”,需要使用函数,甚至根本没有相应的方法了。多数专门一些的统计推断问题还需要其他专门的统计软件来处理。3. SAS:这是功能非常齐全的软件;尽管价格不菲,许多公司还是因为其功能众多和某些美国政府机构认可而使用。尽管现在已经尽量“

13、傻瓜化”,仍然需要一定的训练才可以进入。对于基本统计课程则不那么方便。4. S-plus:这是统计学家喜爱的软件。不仅由于其功能齐全,而且由于其强大的编程功能,使得研究人员可以编制自己的程序来实现自己的理论和方法。它也在进行“傻瓜化”以争取顾客。但仍然以编程方便为顾客所青睐。5. R软件:这是一个免费的,由志愿者管理的软件。其编程语言与S-plus所基于的S语言一样,很方便。还有不断加入的各个方向统计学家编写的统计软件包。同时从网上可以不断更新和增加有关的软件包和程序。这是发展最快的软件,受到世界上统计师生的欢迎。是用户量增加最快的统计软件。对于一般非统计工作者来说,主要问题是它没有“傻瓜化”

14、。6. Minitab:这个软件是很方便的功能强大而又齐全的软件,也已经“傻瓜化”,在我国用的不如SPSS与SAS那么普遍。7. Statistica:也是功能强大而齐全的“傻瓜化”的软件,在我国用的也不如SAS与SPSS那么普遍。8. Eviews:这是一个主要处理回归和时间序列的软件。9. GAUSS:这是一个很好用的统计软件,许多搞经济的喜欢它。主要也是编程功能强大。目前在我国使用的人不多。10. FORTRAN:这是应用于各个领域的历史很长的非常优秀的编程软件,功能强大,也有一定的统计软件包。计算速度比这里介绍的都快得多。但需要编程和编译。操作不那么容易。11. MATLAB:这也是应

15、用于各个领域的以编程为主的软件,在工程上应用广泛。编程类似于S和R。但是统计方法不多。当然,还有其他的软件,没有必要一一罗列。其实,聪明的读者只要学会使用一种“傻瓜式”软件,使用其他的仅仅是举一反三之劳;最多看看帮助和说明即可。如果只有英文帮助,那还可以顺便提高你的英文阅读能力。Part 2 SPSS软件概述与数据文件的建立Unit 4 SPSS软件概述SPSS(Statistical Product and Service Solutions),“统计产品与服务解决方案”软件。最初软件全称为“社会科学统计软件包”(SolutionsStatistical Package for the So

16、cial Sciences),但是随着SPSS产品服务领域的扩大和服务深度的增加,SPSS公司已于2000年正式将英文全称更改为“统计产品与服务解决方案”,标志着SPSS的战略方向正在做出重大调整。SPSS for Windows的分析结果清晰、直观、易学易用,而且可以直接读取EXCEL及DBF数据文件,现已推广到多种各种操作系统的计算机上,它和SAS、BMDP并称为国际上最有影响的三大统计软件。在国际学术界有条不成文的规定,即在国际学术交流中,凡是用SPSS软件完成的计算和统计分析,可以不必说明算法,由此可见其影响之大和信誉之高。本学期的教学软件版本是SPSS17.0。Unit 5 SPSS

17、数据文件的建立一、SPSS 的启动、主界面和退出(一)启动SPSS单击Windows7的开始按钮 ,在程序菜单项SPSS Statistics中找到SPSS Statistics并单击。(二)进入快捷功能窗口(三)SPSS 的主界面启动SPSS 后,出现SPSS 主界面(数据编辑器)。同大多数Windows 程序一样,SPSS 是以菜单驱动的。多数功能通过从菜单中选择完成。主菜单包括十个菜单项下图所示:1. File:“文件”菜单用于新建SPSS 各种类型文件,打开一个已存在的文件,从文本文件或其它数据源读入数据。2. Edit:“编辑”菜单用于撤消操作、剪切、复制、粘贴、查找、改变SPSS

18、默认设置等。3. View:运用“视图”菜单显示或隐藏状态行、工具栏、网络线、值标签和改变字体。4. Data:运用“数据”菜单对SPSS 数据文件进行全局变化,例如定义变量,合并文件,转置变量和记录,或产生分析的观测值子集等。5. Transform:“转换”菜单在数据文件中对所选择的变量进行变换,并在已有变量值的基础上计算新的变量。6. Analyze:“分析”菜单在以前版本中为“统计(Statistics)”,可进行各种统计分析,包括各种统计过程(Procedure),如回归分析、相关分析、因子分析等等。7. Graphs:“图表”菜单产生条形图、饼图、直方图、散点图和其它全颜色、高分辨

19、率的图形,以及动态的交互式图形。有些统计过程也产生图形,所有的图形都可以编辑。8. Utilities:“工具”菜单可以显示数据文件和变量的信息,定义子集,运行脚本程序,自定义SPSS 菜单等。9. Window:“窗口”菜单用于选择不同窗口和最小化所有窗口。10. Help:“帮助”菜单包含SPSS 帮助主题、SPSS 教程、SPSS 公司主页、统计教练等菜单项。(四)退出SPSS选择数据编辑器的File菜单中的Exit或单击标题栏上的关闭按钮退出SPSS。二、SPSS 基本操作使用SPSS 进行统计分析时,首先要录入数据或者打开一个已经存在的数据文件,根据需要进行数据转换;然后选择合适的统

20、计分析过程,选择统计分析所采用的方法和参数;最后分析SPSS 输出的结果,并保存结果。(一)数据管理(Data Management)启动SPSS 后,出现的界面是数据编辑器窗口(如下图所示),它的底部有两个标签:Data View(数据视图)和Variable View(变量视图),它们提供了一种类似于电子表格的方法,用以产生和编辑SPSS 数据文件。Data View 用于查看、录入和修改数据,Variable View定义和修改变量的定义。如果使用过电子表格如Microsoft Excel 等,那么数据编辑窗口的许多功能应该已经熟悉。但是,还有一些明显区别:(1)列是变量,即每一列代表一

21、个变量(Variable)或一个被观测量的特征。例如问卷上的每一项就是一个变量。(2)行是观测,即每一行代表一个个体、一个观测、一个样品,在SPSS 中称为事件(Case)。例如,问卷上的每一个人就是一个观测。(3)单元包含值,即每个单包括一个观测中的单个变量值。单元(Cell)是观测和变量的交叉。与电子表格不同,单元只包括数据值而不能含公式。(4)数据文件是一张长方形的二维表。数据文件的范围是由观测和变量的数目决定的。可以在任一单元中输入数据。如果在定义好的数据文件边界以外键入数据,SPSS 将数据长方形延长到包括那个单元和文件边界之间的任何行和列。如果要分析的数据还没有录入,可用数据编辑器

22、来键入数据并保存为一个SPSS 数据文件(其默认扩展名为.sav)。(一)定义变量。输入数据前首先要定义变量。定义变量即要定义变量名、变量类型、变量长度、小数位数、变量标签(或值标签)和变量的格式。步骤如下:单击数据编辑窗口中的Variable View标签或双击列的题头(Var),显示如所示的变量定义视图,在出现的变量视图中定义变量。每一行存放一个变量的定义信息,包括Name、Type、Width、Decimal、Label、Value、Missing、Columns、Align、Measure等。1、Name:定义变量名 变量名必须以字母、汉字或字符开头,其他字符可以是任何字母、数字或_、

23、#、$等符号。 变量最后一个字符不能是句号。 一般情况下变量名总长度不要超过8个字符(即4个汉字)。 不能使用空白字符或其他特殊字符(如“!”、“?”等)。 变量命名必须惟一,不能有两个相同的变量名。 在SPSS中变量名不区分大小写。 SPSS的保留字(Reserved Keywords)不能作为变量的名称,如ALL、AND、WITH、OR等。2、Type:定义变量类型SPSS 的主要变量类型有:Numeric(标准数值型)、Comma(带逗点的数值型)、Dot(逗点作小数点的数值型)、Scientific Notation(科学记数法)、Date(日期型)、Dollar(带美元符号的数值型)

24、、Custom Currency(自定义型)、String(字符型)。单击Type相应单元中的按钮,显示如下图所示的对话框,选择合适的变量类型并单击OK。3、Width:变量长度设置数值值变量的长度,当变量为日期型时无效。4、Decimal:变量小数点位数设置数值值变量的小数点位数,当变量为日期型时无效。5、Label:变量标签变量标签是对变量名的进一步描述。而变量标签可长达120 个字符,变量标签对大小写敏感,显示时与输入值完全一样,需要时可用变量标签对变量名的含义加以解释。6、Value:变量值标签值标签是对变量的每一个可能取值的进一步描述,当变量是定类或定序变量时,这是非常有用的。单击V

25、alue相应单元,在如下图所示的对话框中进行设置。7、Missing:缺失值的定义方式SPSS 有两类缺失值:系统缺失值和用户缺失值。在数据长方形中任何空的数字单元都被认为系统缺失值,用点号()表示。SPSS 可以指定那些由于特殊原因造成的信息缺失值,然后将它们标为用户缺失值,统计过程识别这种标识,带有缺失值的观测被特别处理。默认值为None。单击Value相应单元中的按钮,可改变缺失值定义方式,如下图所示。8、Column:变量的显示宽度输入变量的显示宽度,默认为8。9、Align:变量显示的对齐方式选择变量值显示时的对齐方式:Left(左对齐)、Right(右对齐)、Center(居中对齐

26、)。10、Scale:变量的测量尺度正如前面所说的,变量按测量精度可以分为定类变量、定序变量、定距变量和定比变量,定距变量和定比变量经常不加以区别。如果变量为定距变量或定比变量,则在Scale相应单元的下拉列表中选择Scale;如果变量为定序变量,则选择Ordinal;如果变量为定类变量,则选择Nominal。如果有许多个变量的类型相同,可以先定义一个变量,然后把该变量的定义信息复制给新变量。具体操作为:先定义一个变量,在该变量的行号上单击右钮,弹出如下图(A)所示的快捷菜单,选择Copy;然后用鼠标右钮选择多行,弹出如下图(B)所示的快捷菜单,选择Paste;再把自动产生的新变量名称(如Va

27、r0001、Var0002、Var0003、)改为所要的变量名称。(A)(B)定义了所有变量后,单击Data View即可在数据视图中输入数据。(二)数据的输入与编辑定义了变量后就可以输入数据了,数据窗口如下图所示。(三)数据转换在理想情况下,输入的原始数据完全适合要执行的统计分析类型,遗憾的是,这种情况 很罕见,经常需要通过数据转换来提示变量之间的真实关系。利用SPSS 可进行从简单到复杂的数据转换。例如:1、根据已存在的变量建立新变量选择Transform=Compute,打开如上图所示的Compute Variable (计算变量)对话框。在对话框中的Target Variable (目

28、标变量)下框中输入符合变量命名规则的变量名,目标变量可以是现存变量或新变量。对话框中Numeric Expression(数值表达式)下的文本框用于输入计算目标变量值的表达式。表达式能够使用左下框列出的现存变量名、计算器板列出的算术运算符和常数和Functions(函数)列表框显示的各种函数等。可以在文本框中直接输入和编辑表达式,也可以使用变量列表、计算器板和函数列表将元素粘贴到文本框中。计算器板包括数字、算术运算符、关系运算符和逻辑运算符,可以象使用计算器一样使用它们。计算器板上的算术运算符有+(加)、-(减)、*(乘)、/(除)、*(指数)、()(运算符顺序);关系运算符有(大于)、=(大

29、于等于)、=(等于)、=(不等于)等;逻辑运算符有&(and,与运算,A、B 两关系均为真时A&B 才为真)、|(or,或运算,A、B 任一关系为真时A|B 即为真)、(not,非与算,颠倒表达式的真假结果,A 为真则A 为假,A 为假则A 为真)。函数表70 多个函数,包括算术函数、统计函数、分布函数、逻辑函数、日期和时间汇总与提取函数、缺失值函数、字符串函数、随机变量函数等等,例如自然对数LN()、绝对值对数ABS()、求和函数SUM()等。2、对观测(case)记录进行排序在数据文件中,可根据一个或多个排序变量的值重排观测的顺序。选择Data=Sort Cases,打开Sort Case

30、s对话框,如下图所示。三、案例:SPSS数据文件的建立某地10例妇幼体检资料1、数据文件的变量特征(作业一)第二章 统计基本概念+SPSS数据的预处理Part 1 统计基本概念Unit 1 数据的收集【二手数据】每天翻开报纸或打开电视,就可以看到各种数据。比如高速公路通车里程、物价指数、股票行情、外汇牌价、犯罪率、房价、流行病的有关数据(确诊病例、疑似病例、死亡人数和出院人数等等);当然还有国家统计局定期发布的各种国家经济数据、海关发布的进出口贸易数据等等。从中可以选取对自己有用的信息。这些间接得到的数据都是二手数据。 【第一手数据】获得第一手数据并不象得到二手数据那么轻松。某些在华的外资企业

31、每年至少要花三四千万元来收集和分析数据。他们调查其产品目前在市场中的状况和地位并确定其竞争对手的态势;他们调查不同地区,不同阶层的民众对其产品的认知程度和购买意愿以改进产品或推出新品种争取新顾客;他们还收集各地方的经济交通等信息以决定如何保住现有市场和开发新市场。市场信息数据对企业是至关重要的。他们很舍得在这方面花钱。因为这是企业生存所必需的,绝不是可有可无的。【观测数据和试验数据】上面所说的数据是在自然的未被控制的条件下观测到的,称为观测数据(observational data)。而对于有些问题,比如在不同的医疗手段下某疾病的治疗结果有什么不同、不同的肥料和土壤条件下某农作物的产量有没有区

32、别、用什么成分可以提高某物质变成超导体的温度等等。这种在人工干预和操作情况下收集的数据就称为试验数据(experimental data)。 Unit 2 总体与样本要想了解大连市民对建设大连交通设施是以包括轨道运输在内的公共交通工具为主还是以小汽车为主的观点,需要进行调查;调查对象是所有大连市民,调查目的是希望知道市民中对这个问题的不同看法各自占有的比例。显然,不可能去问所有的大连市民,而只能够问一部分;并且根据这一部分的观点来理解整个大连市民的总体观点。【总体和样本】这种情况下,称所有(每个)大连市民对这个问题的观点为一个总体(population),而调查时问到的那部分市民的观点为该总体

33、的一个样本(sample)。当然,也有可能调查所有的人(比如人口普查),那叫做普查(census)。总体是包含所有要研究的个体(element)的集合。而样本是总体中选中的一部分。 【随机样本】在抽取样本时,如果总体中的每一个体都有同等机会被选到样本中,这种抽样称为简单随机抽样(simple random sampling),而这样得到的样本则称为随机样本(random sample)。就大连交通问题的调查为例,在随机抽样的情况下,如果样本量(sample size,也就是样本中个体的数目)在总体中的比例为1/5000,那么,无论在中山区或者在西岗区,无论在白领阶层还是蓝领阶层被问到的人的比例

34、都应该大体是1/5000。也就是说,这种比例在总体的任何部分是大体不变的。【方便样本】在实践中,得到随机样本不容易。很多搞调查的人就采取简单的办法。还以大连的交通问题的调查为例。假定按照随机选出的电话号码进行调查。这样肯定节省时间和资源,但这样得到的就不是一个随机样本了。如果按照随机选择的数字(无论号码本上有没有)打电话,那很多电话是空号或单位电话;显然这种样本也不是随机样本,它称为方便样本(convenience sample)。在调查中,即使选择对象的确是随机的,最理想的情况所得到的样本也只代表那些愿意回答问题人的观点所组成的总体;没有回答问题的人的观点永远不会被这种调查的样本所代表。这种

35、不回答的问题是抽样调查特有的问题。在其他问题中,也有使用方便样本的情况。比如在肺癌研究中,人们往往看到吸烟和肺癌的关系的数据;这些数据并不是整个人群中采集的随机样本;它们可能只是医院中的病人记录中得到的。在杂志和报纸上也有问卷,但得到的只是拥有这份报刊,而且愿意回答的人的观点。 【误差】假定在某一职业人群中女性占的比例为60%。如果在这个人群中抽取一些随机样本,这些随机样本中女性的比例并不一定是刚好60,可能稍微多些或稍微少些。这是很正常的,因为样本的特征不一定和总体完全一样。这种差异不是错误,而是必然会出现的抽样误差(sampling error)。刚才提到在抽样调查中,一些人因为种种原因没

36、有对调查作出反映(或回答),这种误差称为未响应误差(nonresponse error)。而另有一些人因为各种原因回答时并没有真实反映他们的观点,这称为响应误差(response error)。和抽样误差不一样,未响应误差和响应误差都会影响对真实世界的了解;应该在设计调查方案时尽量避免。 Unit 3 抽样调查的一些常用方法在抽样调查时,最理想的样本是前面提到的随机样本。但是由于实践起来不方便,在大规模调查时一般不用这种全部随机抽样的方式,而只是在局部采用随机抽样的方法。下面介绍几种抽样方法。这里没有深奥的理论;读者完全可以根据常识判断在什么情况下简单的随机样本不方便以及下面的每个方法有什么好

37、处和缺陷。对于它们具体的设计、实施与数据分析,有许多专门的书籍,就不在这里赘述了。 【分层抽样】(stratified sampling)这是先把要研究的总体按照某些性质分类(stratum),再在各类中分别抽取样本。在每类中调查的人数通常是按照这该类人的比例,但出于各种考虑,也可能不按照比例,也可能需要加权(加权就是在求若干项的和时,对各项乘以不同的系数,这些系数的和通常为1)。比如可以按照教育程度把要访问的人群分成几类;再在每一类中调查和该类成比例数目的人。这样就确保了每一类都有成比例的代表。【整群抽样】(cluster sampling)这是先把总体划分成若干群(cluster),再(通

38、常是随机地)从这些群中抽取几群;然后再在这些抽取的群中对个体进行抽样。比如,在某县进行调查,首先在所有村中选取若干村子,然后只对这些村子的人进行调查。显然,如果各村情况差异不大,这种抽样还是方便的。否则就会增大误差了。 【多级抽样】(multistage sampling)在群体很大时,往往在抽取若干群之后,再在其中抽取若干子群,甚至再在子群中抽取子群,等等。最后只对最后选定的最下面一级进行调查。比如在全国调查时,先抽取省,再抽取市地,再抽取县区,再抽取乡、村直到户。在多级抽样中的每一级都可能采取各种抽样方法。因此,整个抽样计划可能比较复杂,也称为多级混和型抽样。 【系统抽样】(systema

39、tic sampling)这是先把总体中的每个单元编号,然后随机选取其中之一作为抽样的开始点进行抽样。如果编号是随机选取的,则这和简单随机抽样是等价的。在选取开始点之后,通常从开始点开始按照编号进行所谓等距抽样;也就是说,如果开始点为5号,“距离”为10,则下面的调查对象为15号、25号等等。 【抽样方法的选择不能一概而论】实际上每个抽样通常都可能是各种抽样方法的组合。既要考虑精确度,还要根据客观情况考虑方便性、可行性和经济性。不能一概而论。 Unit 4 思考1 举出一些观测数据和试验数据的例子。2 举出简单随机样本的例子。3 根据你的经验,举出总体和样本的一些具体例子。4 举出调查抽样时可

40、能发生的各种影响调查结果的问题,并且提出你认为可以减少或避免这些问题的建议。5 根据你的直觉,本章提到的几种抽样方法的优缺点是什么?原因何在?6 举出一些书报上发表的数据例子,并指出那些是变量,哪些是观测值。Part 2 SPSS数据的预处理收集统计数据之后,要对获取的数据进行系统化、条理化地整理,以提取有用的信息。Unit 5统计分组【统计分组的定义】根据统计研究的目的和客观现象的内在特点,按某个标志(或几个标志)把被研究的总体划分为若干个不同性质的组,称为统计分组。统计分组的对象是总体。从分组的性质来看,分组兼有分和双重含义。对于总体而言,是“分”,即把总体分为性质相异的若干部分;而对于单

41、位而言,又是“合”,即把性质相同的许多单位结合为一组。例如,要对某某班学生的性别进行调查,可将学生人数分成男、女两个组,分组结果如下表所示:某班学生按性别分组该班分组的标志是性别,属于定类变量。又如,对该班学生人数按考试成绩分绩,分组结果所下表所示:某班学生按考试成绩分组这一分组标志属于定序变量,因为组间是可以比较大小的,即优良中及格不及格。如果对该班学生按年龄进行分组,则有某班学生按年龄分组这一分组标志属于定比变量。【频数分布与频率分布】将数据按其分组标志进行分组的过程,就是频数分布和频率分布形成的过程。表示各组的单位的次数称为频数,各组次数与总次数之比称为频率。频数分布就是观察值按其分组标

42、志分配在各组内的次数,由分组标志序列和各组相对应的分布次数两个要素构成。由分组标志序列和各组相应的频率构成频率分布。案例大连市某必胜客西餐厅在2月14日晚上做了一个情人节lover专场,共有30对情侣参加,每对情侣的消费额如下表所示:情侣编号消费额度(RMB:元)情侣编号消费额度(RMB:元)1106169728417103311018106491199551092010669121857111221068107231019121241051010525961199261051294271071311928128148829111151183010130对情侣在必胜客餐厅的消费额要对以上30

43、对情侣的消费额进行分组,先要决定分成多少组,每一组的范围(即上下组限)是多少,即确定组数和组距。组数是分组的个数,组距是每一组最大值与最小值之差。要确定这两个数值,一般是先找出全部数据的最大值和最小值。在本例中,消费多的是128 元,最少是84 元。如果采用简单的组距,即每10 元为一组,则该例可分为5组,即8089元、9099元、100109元、110119 元、120129 元。在一般情况下,组数不应少于5 组,但也不应多于15 组。因为分组的目的是找出数据分布的数量规律性。如果组数太少,数据都分在一、二组或三、四组中,其规律反映不出来;如果组数太多,特别是数据又太少的话,反映出来的都是偶

44、然性差异,也不便于探索出分布的规律。在确定了组数之后,接下来的问题就是组距和组限了,即要确定每组是否相等的组距及每组的上下组限。在本例中,我们以10 元相等的组距进行分组,则各组的组限就随之确定了。接下来,就将每对情侣的消费额分配到应落入的组内。按我们的习惯,一般是用划“正”字进行计数,结果见下表所示:情侣消费额频数频率8089元3对10%9099元7对23%100109元13对43%110119元5对17%120129元2对7%频数(频率)分布表在分组时,要遵循“不重不漏”的原则。“不重”就是任一个单位数值只能分在其中某一组中,不能同时分在两组中;“不漏”就是任一数值必须能够分布在某一组内,

45、不能遗漏。上面的分组是以10 元为组距的相同组距的分组,也称为等距分组,必要时也可采取不等距分组。将统计数据整理成频数(频率)分布形式后,已经可以初步看出数据的一些规律。如例2-1整理成上表的频数(频率)分布表后,就可以大致看出该情侣消费多数在100109 元之间,这个消费属于中等水平。低于中等水平的有10 人,高于中等水平的有7 人,因而是一种非对称的分布。对于这个频数(频率)分布结果,可以用直方图更直观、更形象地表示出来。在平面直角坐标系上,将分组标志作为横轴并将各组频数(频率)作为纵轴,给出各组的长方形图即直方图。与直方图相似作用的图示是折线图,它以各组标志值中点位置作为该组标志的代表值

46、,然后用折线将各组频数连接起来,开成了折线图。由上表的频数(频率)分布直方图和折线图如下图所示。在下图7中,直方图与折线图的面积是相等的。折线图的折线将直方图的直角切下,正好补在旁边较低的直方图上边。这样,直方图与折线图所表示的分布规律是相同的,是两种面积相同,表现形式不同的频数(频率)分布图。30对情侣消费额分布图当所观察的次数很多,组距很小并且组数很多时,所绘出的折线图就会越来越光滑,逐渐形成一条光滑的曲线,这种曲线即频数分布曲线,反映了数据的分布规律。统计曲线在统计学中很重要,是描绘各种分布规律的有效方法。常见的频数分布曲线有正态分布曲线、偏态分布曲线、J 型分布曲线和U 型分布曲线等。常见的频数分布曲线正态分布曲线(如上图 (A)所示)形为左右对称的倒挂的大钟,这是客观事物数量特征表现最多的一种频数分布曲线,如人的身高、体重、智商等等,其所有的测量和观测误差等都是服从正态分布。偏态分布曲线(如上图(B)所示)根据长尾拖向哪一方又可分为正偏(或右偏)分布曲线和负偏(或左偏)分布曲线。例如,人均收入分配的曲线就是正偏曲线,即低收入的人

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 教育教学 > 成人教育


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号