《数据描述性分析.ppt》由会员分享,可在线阅读,更多相关《数据描述性分析.ppt(182页珍藏版)》请在三一办公上搜索。
1、第一章 数据描述性分析,学习目的及重难点提示,本章学习目的:学会利用数据的描述性分析对数据的各种特性作初步了解,尤其是结合软件学会数据分布的拟合检验。重难点提示:检验p-值 SAS等许多软件对假设检验均以检验p-值作为其输出结果,检验p-值是本章的一个重要概念。p-值越小,拒绝原假设的理由越充分。,1.1 数据的数字特征,数据分析研究的对象是数据,它们是 个观测值:如果这 个观测值就是所要研究对象的全体,那么数据分析的任务就是提取数据中包含的有用信息。如果数据是从总体中抽出的样本,就要分析推断样本中包含的总体的信息。,1.1.1 均值、方差等数字特征,一元数据的数字特征主要是以下几种。设 个观
2、测值为其中 称为样本容量。1 均值(mean value):即是 的平均数:均值表示数据的集中位置。,均值、方差等数字特征,2 方差var.(variance)、标准差SD(standard deviation)与变异系数C.V.(coefficient of variation)方差是描述数据取值分散性的一个度量,是数据相对于均值的偏差平方的平均 其量纲是数据量纲的平方。标准差,均值、方差等数字特征,变异系数:刻画数据相对分散性的度量 CV 校正平方和 CSS 未校平方和 USS,变异系数用来比较不同总体数据分布的离散程度,刻画数据的相对分散。例甲乙企业职工的年均收入分别为2W元和5W元,收
3、入的标准差分别为3K和5K元,哪家企业职工的收入差距小一些?分析 不同企业的年均收入不同,不能直接比较标准差,只能比较标准差系数。甲:3K/2W=15%乙:5K/5W=10%结论 乙企业职工收入差距小于甲企业。,偏度与峰度,3 偏度(skewness)与峰度(kurtosis)偏度与峰度是刻画数据的偏态、尾重程度的度量。它们与数据的矩有关。数据的矩分为原点矩与中心矩。k阶原点矩 k阶中心矩,偏度(Skewness)其中s是标准差。偏度是刻画数据对称性的指标。关于均值对称的数据其偏度为0,右侧更分散的数据偏度为正,左侧更分散的数据偏度为负。,偏度,峰度,峰度(Kurtosis)当数据的总体分布为
4、正态分布时,峰度近似为0;当分布较正态分布的尾部更为分散时,峰度为正,否则峰度为负。当峰度为正时,两侧极端数据较多;当峰度为负时,两侧极端数据较少。,总体的数据特征,设观测数据是由总体X中取出的样本,总体的分布函数是。当X为离散分布时,总体的分布可由概率分布列刻画:总体为连续分布时,总体的分布可由概率密度 刻画。连续分布中最重要的是正态分布,它的概率密度 及分布函数 分别为,总体的数据特征,具有正态分布的总体成为正态总体。,总体的数据特征,与样本数字特征对应的是总体的数字特征 总体均值 总体方差 总体标准差 总体变异系数,总体的数据特征,总体原点矩(k阶)总体中心矩(k阶)总体偏度总体峰度,总
5、体偏度,总体偏度是度量总体分布是否偏向某一侧的指标。若总体分布在右侧更为扩展,偏度为正;若分布在左侧更为扩展,偏度为负。,细尾,峰度为负,两侧极端数据较少,正态分布,总体峰度为0,粗尾,峰度为正,极端数值分布范围较广,总体峰度,总体峰度是以同方差的正态分布为标准,比较总体分布尾部分散性的指标。,总体数字特征和样本数字特征,根据统计学的结果,样本数字特征是相应的总体数字特征的矩估计。当总体数字特征存在时,相应的样本数字特征是总体数字特征的相合估计,从而当n较大时,有,总体数字特征和样本数字特征,当观测数据 是所要研究对象的全体时,数据的分布即总体分布,我们认为取得每一个观测数据 是等可能性的,即
6、为;总体分布是离散均匀分布:对这种情况,数据数字特征即总体数字特征“让数据本身说话”。,例1.1,从19个杆塔上的普通盘形绝缘子测得该层电导率()的数据如下:9.89 8.00 6.40 6.17 5.39 7.27 9.08 10.40 11.20 8.75 6.45 11.90 10.30 9.58 9.24 7.75 6.20 8.95 8.33 计算均值、方差、标准差、变异系数、偏度、峰度。,通过计算,得 8.487,3.406,1.845,CV21.745,0.035,0.852,的绝对值比较小,可以认为是来自正态总体的数据。,SAS软件介绍,随着信息技术的迅速发展-特别是数据仓库技
7、术的广泛应用,企业拥有的数据量急剧增大,在这大量的数据信息中,隐藏着企业运作的利弊得失,若能够对这种海量的数据与信息进行快速有效地深入分析和处理,就能从中找出规律和模式,获取企业决策所需知识,帮助企业进行迅速有效的运筹决策。,SAS软件介绍,由于统计分析方法处理数据一般计算量非常大,所以在计算机普及以前,这些方法大多都是停留在理论研究上。随着计算机及各种高级编程语言的普及,这些方法越来越多地被应用到实际中。统计分析软件如SAS 及SPSS等的开发和普及,大大减少了对计算机编程的要求。,SAS软件介绍,SAS(Statistical Analysis Systems)系统于1966年开始研制,1
8、976年由美国SAS公司实现商业化,1985年推出SAS/PC版本,目前已推出Windows系统支持的8.02版和9.0版,是目前国际上公认的著名的数据统计分析软件系统之一。,SAS软件介绍,SAS系统最大的特点是将数据管理和统计分析融为一体。Windows版的SAS系统软件操作简单,它提供一种交互方式运行SAS程序。SAS系统的基础是SAS语言,SAS语言是一种近似自然语言的非过程语言(第四代语言),用户不用告诉SAS“怎样做”,只需告诉它你想“做什么”。,SAS软件,在数据处理与统计分析领域,SAS系统已成为国际上流行标准企业管理软件。美国财富杂志评选的500家最大公司中的90%以上的企业
9、都在应用SAS软件。在北美,SAS被广泛地应用于所有的金融公司,医药研发机构和政府调查和监管部门。特别是在加拿大的金融中心-多伦多,每年更是需要大量熟练掌握和运用SAS的科技人员。,SAS软件,SAS系统应用范围广,包括统计学、心理学、经济学、生物学、商业、金融、医药卫生、图形显示、数据输入、数据检索、报表生成、统计计算、市场研究、销售管理、调查分析、建立预测模型等方面。,SAS软件,SAS的宗旨是为所有需要进行数据处理、数据分析的非计算机工作人员提供一种易学易用、完整可靠的软件系统。SAS语言本身是一种非过程语言(第四代语言),类似于C语言,且综合了各种高级语言的功能和灵活的格式,将数据处理
10、和统计分析融合于一体。,SAS中国,SAS中国,SAS中国,SAS中国,SAS系统的启动和退出,启动 1 双击桌面图标;2 执行开始菜单中程序菜单项。退出 1 选择关闭按钮;2 执行菜单命令【File】【Exit.】;3 在命令框执行BYE或ENDSAS命令。,菜单栏,程序编辑窗口,F5,输出记录窗口,F7,运行记录窗口,F6,工具栏,三个最重要的窗口,Editor程序编辑窗口,用于编辑SAS源程序文件,支持全窗口编辑功能。当用户输入的字串不正确时,对应的颜色不对,警告使用者发生错误。Log运行记录窗口,用于显示和记录SAS程序的运行情况,说明程序运行成功或存在错误。Output输出记录窗口,
11、分页显示SAS程序运行所产生的文本型输出结果。,其他窗口,SAS V8 系统在主界面增加了Explorer窗口与Results窗口。Explorer窗口用于显示SAS库及其数据集。Results窗口用于显示SAS程序运行成功时输出结果的目录。通过它可以方便地查找到要看的结果。,SAS系统,SAS由基本部分和外加模块组成,其中主要部分包含的功能如下:基本部分 BASE SAS 部分统计分析计算部分 SAS/STAT绘图部分 SAS/GRAPH矩阵运算部分 SAS/IML运筹学和线性规划 SAS/OR经济预测和时间序列分析 SAS/ETS,SAS系统,BASE SAS是SAS系统的核心平台;提供3
12、1个初等SAS过程,按照用途归为4类:简单统计计算:means过程、univariate 过程、freq过程等。报表生成:table过程、chart过程、plot过程等。得分方法:standard过程、rank过程等。实用方法:sort过程、format过程、dbf 过程、dif过程等。,SAS系统,SAS/STAT是SAS系统的精华,是用来解决实际问题的主要部分。包括:回归分析、方差分析、属性数据分析、多变量分析、判别分析、聚类分析、得分分析、残存分析共8类26个过程。,SAS模块,SAS8.02的完整版本包含数十个模块。常用的模块有base,graph,stat,insight,assis
13、t,analyst模块等,分别执行基本数据处理、绘图、统计分析、数据探索、可视化数据处理等功能。,例1.1的SAS程序,/*program 电导率*/DATA diandaolv;(数据步)/*建立一个临时SAS数据集*/Input x;/*指明数据集中的变量名称*/Cards;/*表明后面将给出数据*/,例1.1的SAS程序,9.89 8.00.8.33;/*结束符*/Proc means mean var CV skew kurt;(过程步)run;,SAS程序的一些语法规定,SAS程序由语句组成,每个语句用西文状态下的分号“;”作为结束符(注:不能使用中文的“;”)。程序命令使用的英文单
14、词一般不区分大小写字母(在作为数据的字符串中系统区分大小写字母)。SAS V8版中提供了智能编辑窗口,SAS程序中的关键字、语句名、数据都由不同颜色显示,当输入错误时颜色显示不正确,可以方便查找改正。,SAS程序由两类“操作步”构成,一种叫数据步(data step),一种叫过程步(proc step);数据步以DATA语句开始,过程步以PROC语句开始。每个“操作步”由若干个语句构成,一条语句可以占多个程序行,多条语句也可以写在一个程序行内,在语法上只要保证每个语句以分号作为结束符即可。每个SAS过程一般以Run语句结束。有些过程需要使用Quit语句结束过程的运行。,SAS系统基本操作及基本
15、概念,数据集(dataset)和库 统计学的操作都是针对数据的,SAS中容纳数据的文件称为数据集,数据集又包含在不同的库(暂且理解为数据库吧)中。SAS中的库分为永久性和临时性两种。顾名思义,存在于永久库中的数据集是永久存在的(只要你不去删除它),临时库中的数据集则在你退出SAS后自动被删除。至于SAS中库的概念,最简单的理解就是一个目录,一个存放数据集的目录。,SAS系统基本操作及基本概念,SAS程序概述 SAS程序包括多个步骤和一些控制语句,一般情况下均包括一个或多个数据步或过程步,它们之间任何形式的组合均可成为一段SAS程序,只要能完成一个完整的功能。通常情况下SAS程序还包括一些全程语
16、句,用以控制贯穿整个SAS程序的某些选项、变量或程序运行的环境。,SAS系统基本操作及基本概念,SAS程序概述 SAS程序的语句一般以关键字开始,以一个分号结束,一条语句可占多行;SAS语句对字母的大小写不敏感,你可以根据个人习惯决定字母的大写或小写。一个SAS语句有两个重要特征:1、它通常由SAS关键词(keyword)开始 2、它总是以分号“;”结束,SAS语句是自由格式的,也就是说 1 它们可以在任一列开始和结束;2 一个语句可以由几行组成;3 几个语句可以在同一行内;SAS语句中的词(words)之间用空格或特殊符号分隔。,SAS程序概述,库名(库标记)的定义 为了保存数据和方便操作起
17、见,习惯于指定自己的库名及其路径(目录),因为SAS系统中已有的永久库(SASUSER)无论库名还是其对应的路径都太过繁琐,使用太不方便。程序中用到的数据,都可以永久的保存于该路径下,保证以后可以重复使用。指定库名的语句为全程语句,其格式如下:Libname 库名 路径;,例如:我们指定的库名为“a”,路径为:“d:data”,SAS语句如下:libname a d:data;,SAS程序概述,数据步 SAS的数据步以data语句开始,用于创建和处理数据集。data语句以关键字“data”开始,格式如下:data 数据集名;例如:data a.case;将创建在库a中名为case的SAS数据集
18、,语句执行后你可在与库a对应的目录下看到刚刚建立的数据集文件case。,data语句所指定的数据集,一般都是以“库名.数据集名”的格式出现的,也可以单独的“数据集名”出现,此时的数据集系统默认为是临时库中的数据集,退出系统后将会被删除。,data语句有两个重要的功能,标志数据步的开始和命名将要创建的SAS数据集。除data语句外,数据步一般情况下还包括infile语句、input语句以及datalines语句等。在不同的数据输入方式下对于它们的使用方式也不一样。,SAS程序概述,SAS程序有两种常见的数据输入方式,即从外部文件读入和直接输入两种方式。(1)外部文件读入方式 数据若已经包含在某个
19、外部文件(文本文件或数据文件)中,可用此方法输入数据到数据集文件中。在以上介绍的data语句后,写入以下语句:infile 外部文件的所在位置及名称 选项;input 变量名1 变量名2 变量名n;,infile语句用于从外部文件读入数据,必须出现在input语句之前。它的功能是指定一个包含原始数据的外部文件。input语句用于向系统表明如何读入每一条数据记录。它的主要功能有:读入由语句指定的数据列,为相应的数据域定义变量名,确定变量的读入模式。,SAS中变量的命名,最多8个字符长,第一个字符必须是字母或者下划线,不能有空格。特殊字符(如$,#)也不允许在SAS名中使用。合法变量名如:A A1
20、 abc name age SAS系统保留的特殊变量名,以下划线开始和结尾。如:_N_和_ERROR_等。,例,libname a d:data;data a.student;infile d:datastudent.txt;input name$height weight;以上程序将目录“d:data”下的文本文件“student.txt”中的数据输入数据集student中,该数据集存放于目录“d:data”下。,SAS程序概述,(2)直接输入方式 数据量较少时采用此种输入方式,在data语句之后写入如下语句:input 变量名1 变量名2 变量名n;datalines;(在以前的版本下为c
21、ards,新版本下两者可通用)(数据行)(数据行);,例,libname a d:data;data a.student;input name$height weight;(name后面的$符号表示变量name为字符型变量)datalines;Linda 171 51 Mary 168 50 Selina 169 49;以上程序将直接建立数据集文件student,该数据集文件存放于目录“d:data”下。,MEANS过程,PROC MEANS 选择项(options)VAR 变量名表;指定需求计算的数值变量及次序;BY 变量名表;按其取值形成多个观测组,然 后计算对应的描述性统计量(要求对By
22、变量已排序)CLASS 变量名表;与By类似,但不要求事前排序,结果以单表形式输出 FREQ 变量名表;输入数据系频数表资料时才使用 OUTPUT OUT=SAS 数据集 统计量关键词变量名表;,SAS中可以计算的描述性统计量部分关键字及其含义,SAS中可以计算的描述性统计量部分关键字及其含义,例1.2,某厂的某种悬式绝缘子机电破坏负荷试验数据(单位:吨)分组表示如表,计算这批分组数据的均值、方差、标准差、变异系数、偏度、峰度。,例 1.3,某克山区病测得11例克山病患者与13名健康人的血磷值(nmol/L)如表,试求两组的平均血磷值和标准差。患者组 0.84 1.05 1.20 1.20 1
23、.39 1.53 1.67 1.80 1.87 2.07 2.11 健康组 0.54 0.64 0.64 0.75 0.76 0.81 1.16 1.20 1.34 1.35 1.48 1.58 1.87,例 1.3,SAS程序为 data p9;do g=1 to 2;input n;do i=1 to n;input x;output;end;end;Cards;11 0.84 1.05 1.20 1.20 1.39 1.53 1.67 1.80 1.87 2.07 2.11 13 0.54 0.64 0.64 0.75 0.76 0.81 1.16 1.20 1.34 1.35 1.48
24、 1.58 1.87;proc means;var x;by g;run;,中位数、分位数、三均值与极差,均值、方差、标准差等数字特征是总体相应特征值的一种矩估计,更适合于来自正态分布的数据的分析。若总体的分布未知,或者数据严重偏态,有若干异常值(极端值),上述分析数据的方法不甚合适,而应计算中位数、分位数、三均值、极差等数据数字特征,计算上述特征需要用到次序统计量。,次序统计量,中位数与极差,中位数的计算公式是 中位数是描述数据中心位置的数字特征。大体上比中位数大或小的数据个数为整个数据个数的一半。,中位数与极差,对于对称分布的数据,均值与中位数较接近;对于偏态分布的数据,均值与中位数不同。
25、中位数的另一个显著特点是不受异常值(特大或特小)的影响,具有稳健性,因此它是数据分析中相当重要的统计量。极差的计算公式是 它是描述数据分散性的数字特征。数据越分散,极差越大。,例,考虑下列样本:5 3 11 3 1 7 8 写出次序统计量,并求中位数、极差。,分位数,对 和容量为 的样本 它的 分位数是,分位数,分位数又称为第100 百分数。大体上整个样本的100 的观测值不超过 分位数。0.5分位数(第50百分位数)就是中位数M。在实际应用中,0.75分位数与0.25分位数(第75百分位与第25百分位数)比较重要,它们分别称为上、下四分位数,并简记为 下列分位数也在实际应用中经常用到:,。,
26、例,考虑下列样本:5 3 11 3 1 7 8计算上面数据的,及,。,以此类推,我们可以得到其他的结果:,均值 与中位数M皆是描述数据集中位置的数字特征。计算 时,用了样本 的全部信息,而M仅用了数据分布中的部分信息。因此,在正常情况下,用 比用M描述数据的集中位置为优。然而,当存在异常值时,缺乏稳健性,而M具有很强的稳健性。考虑到要充分利用样本信息,又要具有较强的稳健性,可以用三均值 作为数据集中位置的数字特征。三均值的计算公式是:,例1.1(续),从19个杆塔上的普通盘形绝缘子测得该层电导率()的数据如下:9.89 8.00 6.40 6.17 5.39 7.27 9.08 10.40 1
27、1.20 8.75 6.45 11.90 10.30 9.58 9.24 7.75 6.20 8.95 8.33 计算中位数、诸分位数、极差、四分位数、三均值,并分析是否有异常值。,上、下截断点分别为1.29和15.05,故数据无异常值。,SPSS软件,SPSS(Statistical Product and Service Solutions),“统计产品与服务解决方案”软件。最初软件全称为“社会科学统计软件包”(Solutions Statistical Package for the Social Sciences),但是随着SPSS产品服务领域的扩大和服务深度的增加,SPSS公司已于2
28、000年正式将英文全称更改为“统计产品与服务解决方案”,标志着SPSS的战略方向正在做出重大调整。,SPSS是世界上最早的统计分析软件,由美国斯坦福大学的三位研究生于20世纪60年代末研制,同时成立了SPSS公司,并于1975年在芝加哥组建了SPSS总部。1984年SPSS总部首先推出了世界上第一个统计分析软件微机版本SPSS/PC+,开创了SPSS微机系列产品的开发方向,极大地扩充了它的应用范围,并使其能很快地应用于自然科学、技术科学、社会科学的各个领域,世界上许多有影响的报刊杂志纷纷就SPSS的自动统计绘图、数据的深入分析、使用方便、功能齐全等方面给予了高度的评价与称赞。,迄今SPSS软件
29、已有30余年的成长历史。全球约有25万家产品用户,它们分布于通讯、医疗、银行、证券、保险、制造、商业、市场研究、科研教育等多个领域和行业,是世界上应用最广泛的专业统计软件。2009年7月28日,IBM以12亿美元现金收购统计分析软件公司SPSS。,SPSS使用Windows的窗口方式展示各种管理和分析数据方法的功能,使用对话框展示出各种功能选择项,只要掌握一定的Windows操作技能,粗通统计分析原理,就可以使用该软件为特定的科研工作服务。,SPSS的特点,1、操作简单:除了数据录入及部分命令程序等少数输入工作需要键盘键入外,大多数操作可通过“菜单”、“按钮”和“对话框”来完成。2、无须编程:
30、具有第四代语言的特点,告诉系统要做什么,无需告诉怎样做。只要了解统计分析的原理,无需通晓统计方法的各种算法,即可得到需要的统计分析结果。对于常见的统计方法,SPSS的命令语句、子命令及选择项的选择绝大部分由“对话框”的操作完成。因此,用户无需花大量时间记忆大量的命令、过程、选择项。,3、功能强大:具有完整的数据输入、编辑、统计分析、报表、图形制作等功能。自带11种类型136个函数。SPSS提供了从简单的统计描述到复杂的多因素统计分析方法,比如数据的探索性分析、统计描述、列联表分析、二维相关、秩相关、偏相关、方差分析、非参数检验、多元回归、生存分析、协方差分析、判别分析、因子分析、聚类分析、非线
31、性回归、Logistic回归等。,4、方便的数据接口:能够读取及输出多种格式的文件。比如由dBASE、FoxBASE、FoxPRO产生的*.dbf文件,文本编辑器软件生成的ASC数据文件,Excel的*.xls文件等均可转换成可供分析的SPSS数据文件。能够把SPSS的图形转换为7种图形文件。结果可保存为*.txt及html格式的文件。,5、灵活的功能模块组合:SPSS for Windows软件分为若干功能模块。用户可以根据自己的分析需要和计算机的实际配置情况灵活选择。6、针对性强:SPSS可以针对初学者、熟练者及精通者都比较适用。并且现在很多群体只需要掌握简单的操作分析,大多青睐于SPSS
32、,像薛薇的基于SPSS的数据分析一书也较适用于初学者。而那些熟练或精通者也较喜欢SPSS,因为他们可以通过编程来实现更强大的功能。,例1.1的SPSS处理,1.2 数据的分布,数据的数字特征刻画了数据的主要特征,而要对数据的总体情况作全面的描述,就要研究数据的分布。对数据分布的主要描述方法是直方图与茎叶图、数据的理论分布即总体分布。数据分析的一个重要问题是要研究数据是否来自正态总体,这是分布的正态性经验的问题。,直方图、经验分布函数与QQ图,对于数据分布,常用直方图进行描述。将数据取值的范围分成若干区间(一般是等间隔的),在等间隔区间的情况,每个区间的长度称为组距。考察数据落入每一区间的频数与
33、频率,在每个区间上画一个矩形,它的宽度是组距,它的高度可以是频数、频率或频率/组距。在高度是频率/组距的情况,每一矩形的面积恰是数据落入区间的频率,这种直方图可以估计总体的概率密度。,组距对直方图的形态有很大的影响,组距太小,每组的频数较少,由于随机性的影响,邻近区间上的频数可能很大;组距太大,直方图所反映概率密度的形态就不灵敏。,QQ图(Quantile Quantile plot),例1.5,(1)作直方图,并拟合正态分布曲线;(2)作经验分布函数图,并拟合正态分布函数曲线;(3)作正态QQ图,并从直观上鉴别样本数据是否来自正态分布总体。,可以做描述分布形状的图形,即作直方图,拟合参数概率
34、密度,作经验分布曲线及拟合的分布曲线,作QQ图等。,PROC CAPABILITY过程,茎叶图、箱线图及五数总括,与直方图相比较,茎叶图更能细致地看出数据分布的结构。例某班有31个学生,某门课程的考试成绩如下:25 45 50 54 55 61 64 68 72 75 75 78 79 81 83 84 84 84 85 86 86 86 87 89 89 89 90 91 91 92 100 做出其茎叶图。,茎叶图的特点,茎叶图与直方图一样,可以直观地看出数据的分布状况。从茎叶图分析,可大致直观地看出这批数据是否接近对称,分散性如何,是否有异常值,数据中是否有间隙等等。利用茎叶图,很自然地可
35、以对所有数据排序。从茎叶图可以看出由原始数据得到的次序统计量。对于排过序的一批数据,从小到大的每个数据的排序名次,称为升秩;而从大到小的每个数据的排序名次,称为降秩。每个数据的升秩与降秩的较小者,称为该数据的深度,即 深度min(升秩,降秩),例1.6,铅压铸件硬度数据如下:53.0 70.2 84.3 55.3 78.5 63.5 71.4 53.4 82.5 67.3 69.5 73.0 55.7 85.8 95.4 51.1 74.4 54.1 77.8 52.4 69.1 53.5 64.3 82.7 55.7 70.5 87.5 50.7 72.3 59.5 做出数据的茎叶图。,箱线
36、图,茎叶图是探索性数据分析所采用的重要方法。而箱线图也能直观简洁地展现数据分布的主要特征。,例1.7,某班有31个学生,某门课程的考试成绩如下:25 45 50 54 55 61 64 68 72 75 75 78 79 81 83 84 84 84 85 86 86 86 87 89 89 89 90 91 91 92 100 做出以上数据的箱线图。,正态性检验与分布拟合检验,上面介绍的茎叶图、箱线图等对随机型、确定型的数据都有用,其特点是图像生动直观。在直方图、经验分布函数的介绍中,曾提到在总体存在某种类型的分布时,配一条合适的总体概率密度曲线或总体分布函数曲线。然后,所配曲线是否合适,是
37、需要进行统计检验的。,假设检验的基本步骤,根据实际问题的要求提出原假设 和备择假设;构造适当的检验统计量J,在原假设 为真时,它的分布是已知的;对给定水平,确定拒绝域W的形式;根据统计量的观测值确定是拒绝原假设还是接受原假设。,检验法:P值与比较,根据给定 查表,得拒绝域,与统计量比较。根据统计量计算 值,与 比较。,单个正态总体均值的 t 检验,例1.8,对以下数据进行正态性W检验:9.89 8.00 6.40 6.17 5.39 7.27 9.08 10.40 11.20 8.75 6.45 11.90 10.30 9.58 9.24 7.75 6.20 8.95 8.33,PROC UN
38、IVARIATE data=SAS数据集 normal plot;VAR 变量;FREQ 变量;ID变量;OUTPUT OUT=dataset keyword=name;Run;,PROC UNIVARIATE过程,求数据集中某(些)变量均数(mean)百分位数(percentiles)、极值(extremes)等基本统计量。与MEANS过程的区别在于它可以计算更多的反应数据分布的统计量。Normal:用于正态性检验。Plot:给出茎叶图、箱式图及正态概率图,检验数据是否服从正态分布。,测定30名正常男子血浆中性脂肪含量(mg/lw ml)的结果如下:163 219 313 169 281 2
39、64 124 94 224 145 285 107 269 416 662 249 136 100 199 407 94 235 120 128 560 80 217 252 165 107,例1.9,Libname b“d:mysas”;data b.blood;input x;cards;163 219 313 169 281 264 124 94 224 145 285 107 269 416 662 249 136 100 199 407 94 235 120 128 560 80 217 252 165 107;proc print;run;proc univariate norma
40、l plot;var x;run;,例:ex1.10注意:UNIVARIATE过程中不能指定基本统计数(如N,MEAN,MODE等),如果指定则程序将出错,这一点与MEANS和SUMMARY过程不同。,1.3多元数据的数字特征与相关分析,以上我们分析的都是一元数据,但在实际中,人们更多遇到的是多元数据。对于多元数据,除分析各变量的取值特点外,更要分析各个变量之间的相关关系。,二元数据的数字特征及相关系数,设 是二元总体,从中取得观测数据 引进数据观测矩阵 记,二元数据的数字特征及相关系数,则,称为二元观测数据的均值向量。记 为变量,的观测数据的协方差。,二元数据的数字特征及相关系数,协方差矩阵
41、 有,即协方差矩阵是对称矩阵。由Schwarz不等式 所以S总是非负定的,一般是正定的。,二元数据的数字特征及相关系数,观测数据的相关系数(Pearson相关系数)计算公式是 由Schwarz不等式,有即总有,散点图,当 时,称是不相关的(或近似不相关的);当 时,称是线性正相关的;当 时,称是线性负相关的;当 时,称是完全线性相关的;因此,是二元总体的两个分量之间的线性联系密切程度的度量。,二元数据的数字特征及相关系数,设二元总体 的分布函数是;总体协方差是;,是X、Y 的方差,是总体的相关系数,即 由于观测数据的相关系数 是总体相关系数 的相合估计,故当n充分大时,有,二元数据的数字特征及
42、相关系数,由二元观测数据 可以算得相关系数,但当二元总体的两个分量不相关,即 时,这样算得的相关系数 是没有实际意义的。因此,需要做假设检验:,二元数据的数字特征及相关系数,可以证明,当 是二元正态总体,且 成立时,统计量:服从自由度为 的 分布。设由实际观测数据算得的相关系数值为,又按上述公式算得的 值是,则 值为,二元数据的数字特征及相关系数,对给定的显著水平,当,拒绝;而当,接受。当拒绝 时,认为算得的相关系数 有实际意义。,Spearman相关系数,样本的秩 设 其次序统计量是 若,则称 是 在样本中的秩,记 作,对每一个 称 是第 个秩统计量。总称为秩统计量。当观测数据中有两个观测值
43、相等,则相应的秩统计量不能唯一确定,通常对相同的观测值,其秩取为它们秩的平均值。,例:-0.8,-3.1,1.1,-5.2,4.2 次序统计量是-5.2,-3.1,-0.8,1.1,4.2 而秩统计量是 3,2,4,1,5-0.8,-3.1,-0.8 秩统计量是 2.5,1,2.5,Spearman相关系数,Spearman相关系数,例1.11,某种矿石有两种有用成分A,B。取10个标本,分析每个标本中成分A的含量百分数x()及y()的数据如下:X()67 54 72 64 39 22 58 43 46 34Y()24 15 23 19 16 11 20 16 17 13,(1)计算相关系数,
44、作假设检验(2)计算秩相关系数,也作上述检验。,PROC CORR过程,用以计算SAS数据集中变量间的相关系数矩阵或协方差矩阵;除通常的Pearson相关系数外,还可产生如 Spearman秩相关等几种关联性度量矩阵;在相关系数矩阵的各元素下方给出检验此相关系数为零的检验P值,用来判断相应变量对关联性的显著性;自动产生各变量的一些描述性统计量的值(如均值、标准差、中位数等)。,PROC CORR,PROC CORR 选项串;VAR 变量名称串;WITH 变量名称串;RUN;,PROC CORR选项串,第一类选项:界定输出输入文件的名称:1 DATA输入文件名称 省略时如同其它过程 2 OUTP
45、输出文件名称 含有Pearson相关系数之矩阵、各变量的 平均数、标准差、观察体个数;3 OUTS输出文件名称 含有Spearman相关系数之矩阵、各变量的平均数、标准差、观察体个数;4 OUTK输出文件名称 含有Kendalls taub相关系数之矩阵、各变量的平均数、标准差、观察体个数;,PROC CORR选项串,5 OUTH输出文件名称 含有Hoeffdings D相关系数之矩阵、各变量的 平均数、标准差、观察体个数;,PROC CORR选项串,第二类选项:界定测量关系强度的方法,内置值是Pearson:1 PEARSON:要求输出Pearson相关系数矩阵,这也是这类的内置值;2 SP
46、EARMAN:要求输出SPEARMAN相关系数矩阵;,PROC CORR选项串,第三类选项:界定输出 1 BESTn:只输出每一变量与其他变量间最高的n个关联系数;2 NOSIMPLE:不输出变量的描述性统计值:平均数、标准差、中位数、最大值、最小值等;3 NOPRINT:不输出任何报表;4 NOCORR:输出不包括相关系数;5 NOPROB:不输出相关系数的显著性检定结果;6 COV:要求计算协方差矩阵;,PROC CORR指令串,VAR 变量名称串 可在本指令中列举被分析的变量。若省略此变量,则对所有数值变量进行分析。WITH 变量名称串 须跟VAR指令联用,WITH指令中列举的m个变量,与VAR指令中列举的n个变量,将联合产生m*n的矩阵。矩阵中,WITH的变量是横列变量(Row),VAR的变量是纵行变量(Column)。若只选用VAR指令而忽略WITH指令,则产生n*n正方对称矩阵。,SPSS操作,分析-相关分析-两个变量相关分析,多元数据的数字特征与相关矩阵,X协方差矩阵:S相关矩阵:R关系:R=D-1/2SD-1/2对于SPEARMAN系数,同样有类似的结果。样本均值向量协方差矩阵相关矩阵是总体均值向量协方差矩阵相关矩阵的相合(一致性)估计。,作业,理论上机,