《《统计学与数据》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《统计学与数据》PPT课件.ppt(93页珍藏版)》请在三一办公上搜索。
1、什么是统计学?,1.数据搜集:例如,调查与试验2.数据整理:例如,分组 3.数据展示:例如,图和表4.数据分析:例如,回归分析,统计学是一门收集、整理和分析数据的方法科学,其目的是探索数据的内在数量规律性,以达到对客观事物的科学认识.,普遍存在一种错误观念,认为统计学家只不过是“数据蛀虫”,或者说是一些计算和整理诸如NBA篮球手的平均得分数或失业率这种数字的人。统计学诚然涉及数字,但它包含的内容要比数字广得多.按照1994年版兰登书屋大辞典(Zhe Random House College Dictionary)中的解释:统计学是一门“对数据进行收集、分类、分析和解释的科学。”简单地说,统计学
2、是关于数据的科学,是一门能使你成为熟练的数据生产者和高效率的数据使用者的科学。,什么是统计学?,Statistics的定义(不列颠百科全书),Statistics:the science of collecting,analyzing,presenting,and interpreting data.统计学:收集、分析、呈现、而且解释数据的科学Copyright 1994-2000 Encyclopaedia Britannica,Inc.(不列颠百科全书),统计学是关于数据的科学,其内容包括数据的收集、分类、汇总、组织、分析和解释。1.收集数据 Collecting Data 例,问卷调查S
3、urvey 2.演示数据 Presenting Data 例,图表Charts&Tables 3.刻划数据 Characterizing Data 例,平均值Average 4.分析数据 Data Analysis,统计数据的内在规律(一些例子),正常条件下新生婴儿的性别比为107:100.投掷一枚均匀的硬币,出现正面和反面的频率各为1/2;投掷一枚骰子出现16点的频率各为1/6农作物的产量与施肥量之间存在相关关系,统计数据的内在规律(你知道的例子讨论),潘长江的女儿比他高还是矮?姚明之子或女比他矮还是高?(英文发音:要命)-回归 平均数,从大量实验(观察)数据中利用统计方法探索内在数量规律,
4、统计方法,描述统计,内容搜集数据整理数据展示数据 目的描述数据特征找出数据的基本规律,描述统计,电冰箱消费者对广告宣传途径的效果评价?,数据搜集 整理 描述 显示,您觉得哪种类型的广告宣传效果最好?(仅选一项)1.电视 2.网络 3.杂志 4.报纸 5.路牌 6.宣传页,推断统计,内容参数估计假设检验目的对总体特征作出推断,描述统计与推断统计的关系,反映客观现象的数据,描述统计(统计数据的搜集、整理、显示和分析等),统计学探索现象数量规律性的过程,统计学:数学之子?统计学与数学的关系?,统计学与数学的关系(联系),统计学运用到大量的数学知识;数学为统计理论和统计方法的发展提供基础不能将统计学等
5、同于数学。,统计学与数学的关系(区别),数学研究的是抽象的数量规律,统计学则是研究具体的、实际现象的数量规律数学研究的是没有量纲或单位的抽象的数,统计学研究的是有具体实物或计量单位的数据统计学与数学研究中所使用的逻辑方法不同数学研究所使用的主要是的演绎。统计学则是演绎与归纳相结合,占主导地位的是归纳。,一、统计测量尺度,一、统计测量尺度,统计测量尺度的概念与种类统计测量尺度的作用测量层次与测量尺度的正确应用,数据的四种计量尺度,数据的计量尺度,定类尺度(概念要点),计量层次最低对事物进行平行的分类各类别可以指定数字代码表示使用时必须符合类别穷尽和互斥的要求数据表现为“类别”具有=或的数学特性,
6、定序尺度(概念要点),对事物分类的同时给出各类别的顺序比定类尺度精确未测量出类别之间的准确差值数据表现为“类别”,但有序具有或的数学特性,定距尺度(概念要点),1.对事物的准确测度2.比定序尺度精确3.数据表现为“数值”4.没有绝对零点5.具有+或-的数学特性,定比尺度(概念要点),1.对事物的准确测度2.与定距尺度处于同一层次3.数据表现为“数值”4.有绝对零点5.具有 或 的数学特性,四种计量尺度的比较,计量尺度,数学特性,“”表示该尺度所具有的特性,测定层次,特征,运算功能,举例,1、定类尺度2、定序尺度3、定距尺度4、定比尺度,分类分类;排序分类;排序;有基本测量单位分类;排序;有基本
7、测量单位;有绝对零点,计数计数;排序计数;排序;加减计数;排序;加减乘除,产业分类企业等级产品质量差异商品销售额,数据类型与统计方法,数据类型与统计方法,变量及其类型,变 量,计量,统计数据的类型,按计量层次,按收集方法,按时间状况,分类数据,顺序数据,数值型数据,观测数据,实验数据,时间序列数据,截面数据,统计测量尺度的种类:定类测量(尺度、指标)定序测量(尺度、指标)定距测量(尺度、指标)定比测量(尺度、指标),定类尺度,按现象性质差异进行的辨别与区分。测量结果形成定类变量或定类指标。,定类变量或指标确切的值是以文字表述的,可以用数值标识,但仅起标签作用。,定类变量或指标的各类别间是平等的
8、,没有高低、大小、优劣之分。,性别,种族,运动项目,定序尺度,按现象顺序差异进行的辨别与区分。测量结果形成定序变量或定序指标。,定序变量或指标确切的值是以文字表述的,也可以用数值标识,也仅起标签作用。,定序变量或指标各类别间有高低优劣之分,不能随意排列。,大学生,中学生,小学生,定距尺度,按现象绝对数量差异进行的辨别与区分。测量结果形成定距变量或定距指标。,定距变量或指标的值以数字表述,有计量单位,可以进行加减运算。,定距变量或指标各类别间自然有大小之分,但没有绝对的零点,不能乘除计算。,温度,天气预报:沈阳:最高温度3,最低7 大连:最高温度6,最低2,两地最高温度相差3沈阳最低温度较大连最
9、低温度低5大连最高温度是沈阳最高温度的2倍,纪年,时间起点,?,公元2000年,1970年出生,30岁,1985年出生,15岁,甲,乙,二人年龄 之差:19851970=15岁 或 3015=15岁,二人年龄之比:3015=2(倍)19851970=1.0076(倍),年轻的女士,女士回答:具体年龄我记不清了!但我记得我和我丈夫从小青梅竹马,他6岁时,我才2岁,他的年龄是我的3倍!现在他90多岁了,,90/3=30,我想我现在大概30多吧!,您今年多大了?,定比尺度,按现象绝对差异与相对差异进行的辨别与区分。测量结果形成定比变量或定比指标。,定比变量或指标确切的值也以数字表述,有计量单位,可以
10、加减,,定比变量或指标有绝对意义上的零点,既可以加减,可以乘除运算。,零高度,零重量,零体积,零面积,零人口,零产量,零资产,真正的零:一无所有绝对的零,定比尺度:以地平面为标准测量的高度!,温度零度,重力势能mgh,零横坐标,公元零年,时间零点,年龄大小,?,名义上的 零不表示没有相对的零,定距尺度:以桌面为标准测量的高度!,统计学第二章 统计数据,注意,在自然或社会经济领域里,单纯的定距变量是很少的,绝大多数定距变量同时也是定比变量。,定距测量与定比测量的区别只在理论上有意义,在实际工作中常将二者归为一类。,Nominal定类测量定类尺度,Ordinal定序测量定序尺度,Scale定距定比
11、测量尺度,一、统计测量尺度,统计测量尺度的概念与种类统计测量尺度的作用测量层次与测量尺度的正确应用,统计测量尺度的作用:第一,决定数据的整理、显示方法第二,决定数据的分析方法第三,决定计算机的处理方法,统计学第二章 统计数据,定类变量,定序变量,品质变量,条形图,圆形图,定序变量,定比变量,茎叶图,直方图,频数表,条形图,圆形图,非参数统计,参数统计,一、统计测量尺度,统计测量尺度的概念与种类统计测量尺度的作用测量层次与测量尺度的正确应用,对测量尺度层次的判断,较低层次的测量尺度,较高层次的测量尺度,低 测量精度 高,少 计算方法 多,小 信息数量 大,高 层次 低,定类测量,定序测量,定距测
12、量,定比测量,对于不同的现象,注意准确性,宗教、种族、民族、性别、党派、国别、职业等等品质方面的差异,定类测量,定序测量,定距测量,定比测量,对于不同的现象,注意准确性,你对圣亚海洋世界的评价,定距以上的尺度不一定合适,对于人的主观态度,定序尺度可能是最好的方法,对数量差异的度量,注意层次,定序测量,定距测量,定比测量,文盲半文盲、小学、初中、高中、大专、大学本科、硕士研究生、博士研究生(定序测量),顺序性差异,顺序性差异、绝对差异距离,顺序性差异、绝对差异距离、相对差异,对受教育程度的度量方法,文盲半文盲,博士研究生,定序测量,定距测量,定比测量,0年、6年、9年、12年、16年、19年、2
13、2年(定距测量),顺序性差异,顺序性差异、绝对差异距离,顺序性差异、绝对差异距离、相对差异,对受教育程度的度量方法,文盲半文盲,博士研究生,对数量差异的度量,注意层次,对于指标体系,注意统一性,一个指标体系中的指标应属于相同的测量尺度。,实际值标准值总资产贡献率1510.7资本保值增值率130 120资产负债率6060全员劳动生产率 20000元 16500元成本费用利润率4.83.71流动资产周转率1.8次1.52次产品销售率9790环保等级优秀良好,二、数据收集方法,二、数据收集方法,数据来源统计调查组织形式数据收集方法数据收集误差,(初级资料)原始数据源,加工数据源(次级资料)政府统计、
14、企业统计、民间统计等机构,数据库、出版物、账册等形式,普通的数据使用者,统计调查,数据查询,已存在数据源,实验数据源,对过程加以控制,该页显示数据来源网页,二、数据收集方法,数据来源统计调查组织形式数据收集方法数据收集误差,调查的组织形式,调查者,调查对象,普查抽样调查重点调查典型调查报表制度,总体单位,调查单位,总体单位,调查单位,普 查,对全部单位进行调查,也称全面调查,但调查工作量很大。,总体单位,调查单位,抽样调查,按随机原则选择调查单位,各单位被选中的机会相同。,总体单位,调查单位,重点调查,只调查重点单位(单位数不多但其标志量占标志总量比重较大的单位),总体单位,调查单位,典型调查
15、,对典型单位进行调查,典型单位的选择并不一定按规模,总体单位,调查单位,报表制度,可以全面调查,但通常是调查限定规模以上的总体单位,二、数据收集方法,数据来源统计调查组织形式数据收集方法数据收集误差,数据的收集方法,调查者,被调查者,直接观察报告法访问调查,直接观察,调查者,被调查者,强制、约束,报告式,访问调查,调查者,被调查者,平等合作,二、数据收集方法,数据来源统计调查组织形式数据收集方法数据收集误差,真值,调查值,调查误差,真值?,调查值,调查误差,真值?,调查值,调查误差?,研究调查误差的主要目的是找出导致误差产生的原因,进而采取对策避免、减少误差或控制误差水平。,由人为因素(调查者
16、误导、笔误等,被调查者理解错误、记忆错误、有意隐瞒等)造成的误差称为登记误差,理论上它可以用某种方法加以消除。,中国的人口统计数据:公元2年(汉元始二年)59594978人公元754年(唐天宝十三载)52880488人公元1122年(宋宣和四年)46734784人公元1281年(元至元十八年)58830000人公元1578年(明万历六年)60692856人公元1711年(清康熙五十年)24621324人公元1741年(清乾隆六年)143411559人公元1763年(清乾隆二十八年)204209828人公元1790年(清乾隆五十二年)301487115人公元1835年(清道光十五年)401767
17、053人,“圣祖出巡时获悉,有五六丁之户,仅一人缴纳钱粮,或有九丁、十丁,亦仅二三人缴纳钱粮”,康熙五十一年定“滋生人丁永不加赋”,30年间增加近5倍自然增长率为6.05,从全部学生中随机抽取20人组成样本并计算平均体重样本一:52.35样本二:50.26样本三:53.19真值:51.18,由部分单位数值来推断总体数值所产生的误差称为代表性误差(随机误差),它不可以消除,但可以加以控制。,三、调查表与问卷设计,基本格式问题类型设计原则,一般的调查表,调查问卷,表头,表体,表脚,表头,表体,表脚,名称、编号、制表单位、埴表日期等等,被调查者基本情况、调查项目等等,备注、指标解释等等,说明词:解释
18、调查意义、表达感激之情等,主题问句:被调查者基本情况、调查项目,作业记录:时间、操作者等,三、调查表与问卷设计,基本格式问题类型设计原则,您认为吸烟有哪些害处?,容易滋生腐败,您认为吸烟有哪些害处?危害自身健康影响他人健康浪费钱财容易引起火灾破坏家庭团结,封闭式问题,开放式问题,容易控制,但不易全面,不易控制,但内容丰富,您认为吸烟有哪些害处?危害自身健康影响他人健康浪费钱财容易引起火灾破坏家庭团结其他。,三、调查表与问卷设计,基本格式问题类型设计原则,问卷设计的基本原则:先封闭后开放先易后难适当控制回答时间特殊问题特别设计,您是否吸烟(如果选,则跳过、题)吸烟不吸您每天大约吸多少支烟5支以下
19、5-10支 10-15支 15-20 20-25支 25支以上您的吸烟历史大约有多长 1年以下1-5年5-10年10年以上您是否认为吸烟有害健康(请写出理由),调查单位中吸烟人所占比例,吸烟人群日吸烟数量情况,吸烟人群吸烟历史情况,调查对象对吸烟的看法,您是否吸烟(如果选,则跳过、题)吸烟不吸您每天大约吸多少支烟5支以下5-10支 10-15支 15-20 20-25支 25支以上您的吸烟历史大约有多长 1年以下1-5年5-10年10年以上您是否认为吸烟有害健康(请写出理由),调查单位中吸烟人所占比例,吸烟人群日吸烟数量情况,吸烟人群吸烟历史情况,?,答题时间:一般控制在20分钟之内,过多的问题、过于难的问题将吓跑被调查者。,STAT,统计学第二章 统计数据,特殊问题的处理方法:,你曾经有过偷漏税行为吗?,你身份证末位数是单数吗?,频数表(用SPSS制作),有效数据,频数,频率,有效频率,累计频率,约2/3的人身高不超过165cm,二、数量数据汇总与显示,变量数列频数表直方图,直方图(Histogram),直方图,条形图,研究贫富差别的基本方法:将人口按收入水平等分为 5 组,观察收入差别。,20%20%20%20%20%,中国九十年代:最富的20家庭拥有全部财富的48,最穷的20家庭拥有全部财富的4。,