《统计和统计数据收集.ppt》由会员分享,可在线阅读,更多相关《统计和统计数据收集.ppt(39页珍藏版)》请在三一办公上搜索。
1、1,应用统计学,2,马庆国.管理统计数据获取、统计原理SPSS工具与应用研究.北京:科学出版社,2003何晓群.多元统计分析.北京:中国人民大学出版社,2004戴维 M.莱文、戴维 F.斯蒂芬等(张建同、刘文驰等译).以Excel为决策工具的商务统计.北京:机械工业出版社,2009,主要参考书:,3,几种常用的统计软件,典型的统计软件SASSPSSMINITABSTATISTICAExcel,4,本章教学目标:了解统计学的基本知识;统计数据的收集、调查;,第1章 统计和统计数据收集,5,本章主要内容,1.1 统计学概述1.2 统计数据的收集1.3 问卷设计1.4 变量类型,6,1.1 什么是统
2、计学?,统计学是一门收集、整理和分析数据的方法科学,其目的是探索数据的内在数量规律性,以达到对客观事物的科学认识,7,Statistics的定义,Statistics:the science of collecting,analyzing,presenting,and interpreting data.Copyright 1994-2000 Encyclopaedia Britannica,Inc.(不列颠百科全书),8,统计数据的内在规律,正常条件下新生婴儿的性别比为107:100投掷一枚均匀的硬币,出现正面和反面的频率各为1/2;投掷一枚骰子出现16点的频率各为1/6农作物的产量与施肥量
3、之间存在相关关系,9,统计学的应用领域,10,基于统计学的数据转换应用,11,应用统计的领域,actuarial work(精算)agriculture(农业)animal science(动物学)anthropology(人类学)archaeology(考古学)auditing(审计学)crystallography(晶体学)demography(人口统计学)dentistry(牙医学)ecology(生态学)econometrics(经济计量学)education(教育学)engineering(工程)epidemiology(流行病学)finance(金融)gambling(赌博)gen
4、etics(遗传学)geography(地理学)geology(地质学)election forecasting and projection(选举预测和策划)fisheries research(水产渔业研究)historical research(历史研究)human genetics(人类遗传学),12,应用统计的领域(续),hydrology(水文学)Industry(工业)linguistics(语言学)literature(文学)manpower planning(劳动力计划)management science(管理科学)marketing(市场营销学)medical diagn
5、osis(医学诊断)meteorology(气象学)military science(军事科学)nuclear material safeguards(核材料安全管理)ophthalmology(眼科学)pharmaceutics(制药学)physics(物理学)political science(政治学)psychology(心理学)psychophysics(心理物理学)quality control(质量控制)religious studies(宗教研究)sociology(社会学)survey sampling(调查抽样)taxonomy(分类学)weather modificatio
6、n(气象改善),13,统计研究对象的特点,1.数量性 统计学研究的对象是客观现象的数量特征和规律性。2.总体性 统计学研究的是客观现象总体的数量特征与规律性,而不是个体的量。3.具体性 统计的对象是一定时间、地点、条件下事物的量,而不是抽象对象的量,这是统计学和数学的一个重要区别。4.差异性 组成统计研究对象总体的个体是有差异的,否则就不需要进行统计分析。统计研究中需要对总体中大量的个体进行观察并进行综合分析,由此才能获得总体的数量分布特征。,14,统计学的分类,统计学大致有以下两种主要的分类方法。1.描述统计学和推断统计学 这一分类方法既反映了统计学发展的两个主要阶段,同时也反映了各自不同的
7、侧重。描述统计学是研究如何对客观现象进行数量的计量、加工、概括和表示的方法。在二十世纪之前统计学基本上处于描述阶段。描述统计学是统计学的基础。推断统计学是研究如何根据样本数据去推断总体的情况,概率论是其理论基础。推断统计学是近代统计学的核心,也是统计学中的主要内容。,15,统计学的分科,统计学的分科,16,描述统计与推断统计的关系,反映客观现象的数据,描述统计(统计数据的搜集、整理、显示和分析等),统计学探索现象数量规律性的过程,17,理论统计学和应用统计学,理论统计学 是研究统计学的数学原理,它基于概率论的原理,还包括不属于传统概率论的一些内容,如随机化原则的理论、各种估计的原理、假设检验的
8、原理以及一般决策的原理。在统计实践中经常会遇到一些原有的统计方法不能适应的新问题,需要创造新的统计模型和统计分析方法,这就需要统计理论的研究与指导。应用统计学 将统计学的基本原理应用于各个领域就形成各种应用统计学的分支。它包括适用于各个领域的一般性的统计方法,如参数估计、假设检验、方差分析、回归分析等,还包括在某一领域中特定的分析方法,如经济统计中的时间数列分析和指数分析等。应用统计学侧重于阐明统计学的基本原理,并将理论统计学的成果作为工具应用于各个领域。,18,统计基本术语,变量:事物的特征,是运用统计方法所分析的对象。例如,在商业模型中,销售额、每年的开支和每年的净利润都是企业想要分析的变
9、量。数据:是与变量相关的值。变量可能随时间变动,如某一公司的期望销售额、开支和净利润每年都有所不同。这些不同的值就是与变量相关的数据,或者简单地说,就是统计所要分析的“数据”。注意:变量需赋予可操作定义,否则会产生歧义。如:对销售额的操作性定义可能会发生这样错误的理解:一个人认为年销售额是指全部连锁店的年销售额,而另一个人则认为是每家店的年销售额。,19,统计基本术语,总体:所研究对象的全体。个体:指总体中的每个元素或单元。总体依其所包含的个体总数分为有限总体和无限总体。样本:从总体中挑选出来用于分析的一部分。这种挑选通常是相对独立的。样本是进行推断统计的依据。参数:参数是描述总体特征的数值。
10、统计量:是描述样本特征的数值,20,统计数据的收集是统计整理和分析,以及统计推断和预测的基础。社会经济统计中所需要的数据与资料主要来源于统计调查。统计数据的收集就是根据统计研究的目的和要求,有组织、有计划地向调查对象搜集原始资料的过程。确定数据最合适的来源和收集数据的合理方法是非常重要的任务,因为如果收集的数据有偏差,模糊不清或有其他类型的错误时,即使最复杂的统计方法也无法得到有用的信息,即需要避免“Garbage In Garbage Out(垃圾数据产生垃圾统计结果)”的统计应用情况。,1.2 统计数据的收集,21,一.数据采集的基本要求,准确性及时性完整性系统性 统计调查的数据资料应配套
11、,要能从不同侧面反映所研究总体的特征,才能为科学的判断和决策提供依据。在实际应用中,我们要依据特定的研究目的或工作任务,结合研究对象所具有的性质和特点,相应地选择适合的调查方法,必要时也可以几种调查方法结合使用。,22,二.普遍调查,普遍调查简称普查,是专门组织的一次性的全面调查。如全国的人口普查、能源普查、工业普查等。组织方式有两种:1.建立专门的普查机构2.利用调查单位的原始记录和核算资料,发放调查表,由登记单位填报。普查时注意的原则:规定统一的标准时点 规定统一的普查期限规定普查的项目和指标。,23,普遍调查实例,【例1.1】2002年在国务院统一部署下,开展全国“基本单位普查”。关于这
12、次普查的部分重要要求与规定如下:调查目的:统计分析全国和各省市地区的单位总数、性质、隶属关系、分布情况等。标准时间:2001年12月31日。调查对象:各类法人单位,各类法人单位所属的产业活动单位。调查项目:单位总数;性质分类(企业法人、事业法人、社团法人、机关法人、其他法人);基本情况 性质划分、隶属关系(中央、省市、区县、街道等);主要构成(产业结构、行业分布、地区分布、经济成分、规模结构);分布情况。,24,三.重点调查,在总体中选择部分重点单位进行调查,以了解总体基本情况的一种非全面调查。重点调查的特点:(1)重点调查适用于调查对象的标志值比较集中于某些单位的场合,这些单位的管理比较健全
13、,统计力量比较充实,能够及时取得准确资料。(2)重点调查的目的在于了解总体现象某些方面的基本情况,而不要求全面准确地推算总体数字。(3)重点调查比实际调查的单位数目少,在满足调查目的所要求的前提下,可以比全面调查节省人力、物力和时间。,25,四.典型调查,也是专门组织的一种非全面调查,在总体中选择有代表性的典型单位进行深入细致的调查。典型调查的作用和目的(1)研究新事物或某种倾向性的社会问题 通过对典型单位深入细致的调查,可以发现新情况、新问题,探测事物发展变化的趋势,形成科学的预见。(2)分析事物的不同类型 通过研究造成它们间差别的原因,总结经验教训,研究对策,促进事物的转化和发展。(3)典
14、型调查可用来研究事务的变化规律。(4)典型调查的资料可用来补充和验证全面统计的数字,推论和测算有关现象的总体。,26,六.抽样调查,是指按随机原则从总体中抽取部分单位组成样本。目的是利用样本数据推断(估计)总体的数量分布特征。抽样调查是现代推断统计的核心,也是最重要的统计调查方法。,27,抽样调查中四种误差,涵盖误差:当某一组代表性的样本被排除在抽样调查之外时所引起的选择偏差。无回应误差:抽样时,对样本个体数据收集失败会导致无回应偏差。抽样误差:选择抽样调查是因为这种方法简单、低成本和有效。但同时也意味着有的个体被抽中,有的个体没有被抽中。测量误差:测量误差是指由于样本数据测量程序的设计和应用
15、不当所引起的误差。课堂讨论:举例说明这几种误差。,28,七.网上调查,截至2009年6月底,中国网民规模达到3.38亿人,较2008年底增长13.4%,上网普及率达到25.5%。网民规模持续扩大,互联网普及率平稳上升。其中宽带网民数达到3.2亿,占比高达94.3%,较2008年底上升了3.7个百分点。另外,截至2009年6月底,作为国家域名,CN域名总计达到1,296万个。作为我国互联网的重要基础资源,CN域名已经广泛地应用在金融、汽车等各个行业中。截止2009年6月我国互联网用户发展情况如图1.2所示。,29,图 2008-2009年我国互联网用户发展情况(资料来源:第23次中国互联网络发展
16、状况统计报告),30,网上调查优势,及时性和共享性 便捷性和低成本 可靠性和客观性 更好的接触性 穿越时空性,31,问卷是一种特殊形式的调查表。其特点是表中用一系列按照严密逻辑结构组成的问题,向被调查者调查具体事实和个人对某问题的反映、看法,它不要求被调查者填写姓名。问卷设计一般要遵循以下原则。合理性:合理性指的是问卷必须紧密与调查主题相关。一般性:即问题的设置是否具有普遍意义。逻辑性:问卷的设计要有整体感,这种整体感即是问题与问题之间要具有逻辑性,独立的问题本身也不能出现逻辑上的谬误。明确性:所谓明确性,事实上是问题设置的规范性。非诱导性:非诱导性指的是问题要设置在中性位置、不参与提示或主观
17、臆断,完全将被访问者的独立性与客观性摆在问卷操作的限制条件的位置上。便于整理和分析,1.3 问卷设计,32,统计学中将变量分为分类变量或数值变量。分类变量(也称为定性变量)的值只能按类别分开。数值变量(也称为定量变量)的值表示数量。数值变量可进一步分为离散变量和连续变量。,1.4 变量类型,33,四种计量尺度,数据的计量尺度,34,计量层次最低对事物进行平行的分类各类别可以指定数字代码表示使用时必须符合类别穷尽和互斥的要求数据表现为“类别”具有=或的数学特性,定类尺度(概念要点),35,对事物分类的同时给出各类别的顺序比定类尺度精确未测量出类别之间的准确差值数据表现为“类别”,但有序具有或的数学特性,定序尺度(概念要点),36,1.对事物的准确测度2.比定序尺度精确3.数据表现为“数值”4.没有绝对零点5.具有+或-的数学特性,定距尺度(概念要点),37,1.对事物的准确测度2.与定距尺度处于同一层次3.数据表现为“数值”4.有绝对零点5.具有 或 的数学特性,定比尺度(概念要点),38,四种计量尺度的比较,计量尺度,数学特性,“”表示该尺度所具有的特性,39,数据类型与统计方法,数据类型与统计方法,