应用统计学绪论.ppt

上传人:牧羊曲112 文档编号:5974030 上传时间:2023-09-10 格式:PPT 页数:45 大小:725.50KB
返回 下载 相关 举报
应用统计学绪论.ppt_第1页
第1页 / 共45页
应用统计学绪论.ppt_第2页
第2页 / 共45页
应用统计学绪论.ppt_第3页
第3页 / 共45页
应用统计学绪论.ppt_第4页
第4页 / 共45页
应用统计学绪论.ppt_第5页
第5页 / 共45页
点击查看更多>>
资源描述

《应用统计学绪论.ppt》由会员分享,可在线阅读,更多相关《应用统计学绪论.ppt(45页珍藏版)》请在三一办公上搜索。

1、马昕经济学教研室电话:Email:,应用统计学,教材:何晓群多元统计分析,中国人民大学出版社,2004,参考书何晓群现代统计分析方法与应用,中国人民大学出版社,1998王学民应用多元分析,上海财经大学出版社Jams M Lattin等著,多元数据分析(英文版),机械工业出版社考核方法:读书报告:30分(考试前交)期末考试(开卷):70分,课程内容:,第一章 绪论第二章 向量、矩阵与多维正态分布第三章 聚类分析第四章 判别分析第五章 方差分析第六章 回归分析第七章 主成分分析第八章 因子分析第九章 对应分析第十章 结构方程模型,第一章 绪论,多元数据分析的必要性多元数据分析方法概论多元数据的描述

2、统计基本知识回顾,一、多元数据分析的必要性,信息时代数据时代,决策:经验科学经济发展科学研究军事企业组织信息组织市场分析投资决策设备管理,你的直觉判断总是正确的吗?,基于数据分析的决策,对La Quinta旅馆进行以回归分析为基础的选址,数据分析,从大量数据中发现尽可能多的有用信息,从而把握事物特征的过程每个数据:反映某个事物某一方面的特征,统计学:单变量/双变量分析,描述统计集中趋势离散趋势变量分布异常点推断统计:从样本统计量推断总体参数参数估计:样本均值估计总体均值,假设检验:总体均值或方差的检验,两总体均值/方差相等的检验相关分析:两个随机变量间的(线性)相关程度回归分析:一个随机变量和

3、一组随机变量间的依存/相关关系,为什么需要多元数据?,一般来说事物通常具有多面性,即每一事物有多方面特征例:学生的能力、物种、国家经济实力、企业竞争力仅从一个方面往往不足以反映事物特性或个体之间的差异必须全面考虑事物的各个方面,才能对其正确认识。,Simpsons Paradox,Example:44%of male applicants are admitted by a university,but only 33%of female applicantsDoes this mean there is unfair discrimination?University investigate

4、s and breaks down figures for Engineering and English programmes,为什么需要多元数据-续,两变量分析有时会得到虚假结果,Simpsons Paradox,No relationship between sex and acceptance for either programmeSo no evidence of discriminationWhy?More females apply for the English programme,but it it hard to get intoMore males applied to

5、 Engineering,which has a higher acceptance rate than EnglishMust look deeper than single cross-tab to find this out,两变量分析有时会得到虚假结果,Simpsons Paradox,In this example,the bivariate analysis(cross-tabulation or correlation)gave misleading resultsIntroducing another variable gave a better understanding o

6、f the dataIt even reversed the initial conclusions,二、多元数据分析过程及方法,行为数据结构,蠓:身体长度、翅膀长度、翅膀宽度、触角长度、,翅膀长度、触角长度,定比数据,Some Common Patterns in Point Clouds planes filaments clusters outliers,Data Analysis:Finding and Interpreting such Patterns,多元数据分析方法概述,多元分析的目的:探索数据的模式(结构)多元数据分析的难点:维度太多使我们难以发现规律、把握重点多元分析方法的

7、核心:概要和简化工具:矩阵代数、统计软件(SAS,SPSS,Stata等),具体方法,聚类分析:按距离远近分类判别分析:给定样本定类亲疏判别主成分分析、因子分析、对应分析:找出主要因素,化简数据方差分析多元回归分析结构方程模型,Grouping,Discriminating,Principle Component,Factoring,Correspondence,Inferring推断,exploring探索数据模式,Structural Equation Model,课程重点,强调方法的应用而非理论推导强调方法的内涵与几何解释强调SPSS软件的应用和结果的解释,牢记:从数据中获取信息没有确定

8、的方法具体问题具体分析,三、多元数据的描述,数据的计量尺度(measurement scale):告诉我们从数据中可获得哪些信息。品质数据:计算无意义定类尺度:按穷尽和互斥原则将对象某种特征归类通常用虚拟变量表示:定序尺度对象特征等级或顺序差别的测度,三、多元数据的描述,数值数据定距尺度:测度对象特征的间距,不能做绝对比较。定比尺度:即可测度间距,又可做绝对比较。数值数据的矩阵表示:样本数n,变量数p,数据的矩阵描述,注:若无特别说明,向量均指列向量,四、统计基本知识回顾:单变量分析,描述统计参数估计假设检验,1.描述统计,描述数据的集中趋势均值中位数众数描述数据的离散趋势极差方差、标准差变异

9、系数,异常点,均值的代表性,目的:描述数据分布与正态分布的可能偏离正态分布具有许多有利于统计的特性一般独立随机事件的分布都服从正态分布人的身高,产品质量偏度:用来度量对称性的指标峰度:刻画一个分布陡峭或平缓程度的指标,分布的偏度与峰度,标准化变量,对于任意变量x,将观测值转换成相应Z值的过程称为将该变量标准化,所得到的变量Z称为标准化变量。,例:地区供电局数据,基本概念,2、参数估计,基本概念(续),标准差:小标准误:小,标准差:大标准误:小,标准误差standard error,标准差standard deviation,抽样推断:,从样本统计量推断总体参数参数估计:在未知总体参数的情况下,

10、利用样本统计量来估计总体参数的方法。参数点估计参数区间估计假设检验:先对总体参数作一个假设,然后通过搜集样本数据,用样本统计量判断对总体参数的假设是否成立,参数估计:总体参数的点估计,假设在总体X中,为未知参数(均值、方差、成数等)。由样本(x1、x2xn)构造统计量 来估计未知参数,称 为的点估计量。将某次抽样的样本观测值,代入即得该估计量的一个点估计值。,矩估计法 极大似然估计法 最小二乘法,设为待估计的总体参数,为样本统计量,则的优良标准为:,点估计量的优良性标准,如果随着样本容量n的增大,样本估计量在概率意义下越来越接近于总体真实值,则称该估计量是待估参数的一致估计量。,一致性,一致性

11、是对一个估计量的最起码要求。“如果你在n趋于无穷大时还不能正确地得到它,那你就不应该做这件事”葛兰杰,置信度(1-)反映了估计的可靠程度。根据样本指标和抽样极限误差可以得到满足一定置信度的总体指标的可能范围,设总体参数为,L、U为由样本确定的两个统计量,对于给定的(01),有P(LU)=1-,则称(L,U)为参数的置信度为1-的置信区间,参数估计:参数的区间估计,可靠度,精确度,为什么要做区间估计?,任意抽出一个妇女,试猜测其体重,猜对赢50元,猜错输50元如何猜?输赢概率如何?,例:20个妇女的体重资料如表,平均体重:123.6pound,标准差:15.5,猜均值上下一个标准差:赢的概率?输

12、的概率猜均值上下两个标准差:输赢概率?,置信区间估计方法一览表,总体分布知,正态总体方差未知(大样本),区间估计原理,0.6827,落在范围内的概率为68.27%,置信度1-=0.6827,区间估计原理,0.9545,落在范围内的概率为95.45%,样本抽样分布曲线,原总体分布曲线,置信度1-=0.9545,例 某保险公司从投保人中随机抽取36人,计算出此36人平均年龄为39.5岁,已知投保人年龄近似正态分布,标准差7.2岁,试以99%的可靠度求所有投保人平均年龄的置信区间。如果将可靠度降低到95%的水平呢?,解:求所有投保人平均年龄的置信区间。现有一个点估计量,在点估计量基础上,构造投保人平

13、均年龄的置信区间,关键是置信区间的宽度是多少。置信区间宽度取决于置信度和抽样平均误差:,根据置信度查表得到,在99%的置信度下,投保人年龄总体均值的置信区间为:(39.5-3.1,39.5+3.1)36.442.6,置信度95%,Z/2=1.96,=1.96*1.2=2.35,置信区间(37.2,41.9),3、假设检验,采用逻辑上的反证法先认为假设为真,观察在此前提下所抽到样本的出现是否合理。若合理则判断假设可接受,反之拒绝假设。判断是否合理的依据统计上的小概率原理(即这里的反证法是基于一定概率的反证法)。,假设检验的步骤,提出原假设和备择假设:收集样本数据,确定适当的检验统计量及其分布规定

14、显著性水平,确定拒绝域和接受域计算检验统计量的值作出统计决策,假设的三种形式:,在原假设为真的前提下,出现观察到的样本以及更极端样本的概率。P值(P-value):拒绝原假设的最小显著性水平。,如果检验的统计量为t,c是从样本得到的统计量的值。左侧检验时,P值=ptc右侧检验时,P值=ptc双侧检验中,P值=单侧P值的2倍。,精确p值,例:某机器制造出的肥皂厚度为5公分。今欲了解机器性能是否良好,随机抽取10块肥皂为样本,测得平均厚度为5.3公分,样本标准差为0.3公分。试以0.05的显著性水平检验机器性能良好的假设。,建立假设,检验统计量,接受域:,利用 P 值进行决策,若P值,不能拒绝 H0若P值,拒绝 H0,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号