《统计学第一周 课件.ppt》由会员分享,可在线阅读,更多相关《统计学第一周 课件.ppt(78页珍藏版)》请在三一办公上搜索。
1、统计学教师:郑奕君,你想过下面的问题吗?,当你买了一台电视时,被告知三年内可以免费保修。你想过厂家凭什么这样说吗?说多了,厂家会损失;说少了,会失去竞争,也是损失。到底这个保修期是怎样决定的呢? (和正态分布有关)在同一年级中,同样统计学的课程可能由一些不同教师讲授。教师讲课方式当然不一样,考试题目也不一定相同。那么如何比较不同班级的统计学成绩呢? (方差分析),大学排名是一个非常敏感的问题。不同的机构得出不同的结果;各自都说自己是客观、公正和有道理的。到底如何理解这些不同的结果呢?一个从来没有研究过红楼梦的统计学家如何根据比较写作习惯得出红楼梦从哪一段开始就不是曹雪芹的手笔了呢? ,你如何理
2、解下面说法?,“某学校排名第一”“某县是贫困县”“某国的综合竞争力排名第43位”“该国家属于发展中国家”“该药品疗效99%”“该国贫富差距大”“这个县收入比那个县高”“消费价格指数为120%”“他的血压已经正常了”,最常见于媒体的问题是在公布抽样调查结果时,不提样本量和调查对象(或如何得到样本的)。比如,一项广告可以说,“有三分之二人选择某产品”。人们往往理解为在广大消费者中,有三分之二的人选择该产品。 但是,也不是没有下面的可能:即该广告数据仅仅来源于一个三口之家,其中有两个家庭成员使用该产品。,你相信统计结果吗?,数据可以有误或做假统计方法(有意或无意)使用不当可以误导。有低级误导和高级误
3、导。统计陷阱(上海财经大学出版社)统计与真理,为什么要学习统计,统计学学科地位简介统计名言统计能为我们做什么案例讲解,统计名言,When you analyze any topic,you are involved in statistics. 谢邦昌终有一日,统计的思维方法将会如读和写一样成为效率公民的必备能力。 -H.G. wells若想了解上帝在想什么,我们就必须学统计,因为统计学就是在量测他的旨意。 -南丁格尔,不明于数欲举大事,如舟之无楫而欲行于大海也。 管子没有统计,其他学科可以存在,但是很渺小医学若无统计,就不是科学有三种谎言:谎言、糟糕透顶的谎言和统计资料 ,统计能做些什么?,
4、案例1 :啤酒与尿布的故事!案例2 :红楼梦出自谁的手笔?案例3: 撑死的人比饿死的人多?,案例1:啤酒与尿布的故事,全球最大的零售商沃尔玛(Walmart)通过对顾客购物的数据分析后发现,很多周末购买尿布的顾客也同时购买啤酒。经过深入研究后发现,美国家庭买尿布的多是爸爸。爸爸们下班后要到超市买尿布,同时要“顺手牵羊”带走啤酒,好在周末看棒球赛的同时过把酒瘾。后来沃尔玛就把尿布和啤酒摆放得很近,从而双双促进了尿布和啤酒的销量。这个故事被公认是数据分析的经典范例。,案例2:红楼梦作者考证 自从胡适作红楼梦考证以来,都认为曹雪芹作前80回,后40回为高鹗所续。然而这种看法一直饱受争议。1987年,
5、复旦大学李贤平教授巧妙运用统计方法来判断红楼梦的作者。 一般认为,每个人使用某些词的习惯是特有的。于是李教授用陈大康先生对每个回目所用的47个虚字(之,其,或,亦,呀,吗,咧,罢;可,便,就,等)出现的次数(频率),作为红楼梦各个回目的数字标志,并以120个回目作为120个样本,使用统计分析方法,看看哪些回目出自同一人的手笔。最后李教授得出了许多新结果:,前80回与后40回之间有交叉。前80回是曹雪芹据石头记写成,中间插入风月宝鉴,还有一些别的增加成分。后40回是曹雪芹亲友将曹雪芹的草稿整理而成,宝黛故事为一人所写,贾府衰败情景当为另一人所写。等等。,案例3:撑死的人比饿死的人多!,据统计,肥
6、胖并发脑血栓和心衰的发病率比正常体重高1倍,患冠心病2-5倍,高血压发病率多2-6倍,糖尿病者高4倍。美国生命保险协会的统计调查结果显示,超重25%和35%的肥胖症者的死亡率比正常人高28%和50%。表明肥胖程度和死亡率呈正相关,美国每年因肥胖患有冠心病和高血压、高血脂、糖尿病而死亡的人数大约有30万人。,如何按照各种不同环境估计某商店的顾客人数如何按照各种指标评价雇员如何把地区(市县镇等)按照各种指标分类如何确定一个产品的可靠性如何进行偏差较少的民意调查如何根据一些财务数据发现漏税的嫌疑单位,哪里有数据,哪里就有统计,第一章 统计学与统计数据,第一节 统计学的基本问题 第二节 统计学的分科第
7、三节统计学的基本概念第四节 统计数据的来源与质量,第一节 统计学的基本问题,一、统计的含义二、统计学的研究对象、研究方法、流程三、统计学的发展历史,一、统计、统计学、统计规律,统计的3种不同含义:1、统计工作搜集数据的活动2、统计数据对现象计量的结果 3、统计学,统计学,“统计学是收集、分析、表述和解释数据的艺术与科学”(摘自不列颠百科全书),三种含义之间的关系,统计工作与统计数据是工作与结果的关系统计工作、统计数据与统计学是实践与理论的关系,二、统计学的研究对象、流程、方法,例:统计数据的内在规律(一些例子),正常条件下新生婴儿的性别比为107:100投掷一枚均匀的硬币,出现正面和反面的频率
8、各为1/2;投掷一枚骰子出现16点的频率各为1/6农作物的产量与施肥量之间存在相关关系,从大量实验(观察)数据中利用统计方法探索内在数量规律,统计研究方法,中国统计思想的源流与特点早在3000多年前,周易系辞上:方以类聚,物以群分周易系辞下:上古结绳而治周易贲:观乎天文,以察时变;观乎人文,以化成天下。尚书虞夏书:关石和钧中国古代统计思想的特点:从属性、与调查思想会计思想的不可分割性、与经济社会问题的阐述分析结合性,三、统计学发展历史,一般认为,统计学产生于17世纪中叶统计学的发展过程基本上沿着两条主线展开 以“政治算术学派”为开端形成和发展起来的、以社会经济问题为主要研究对象的社会经济统计
9、以概率论的研究为开端、并以概率论为基础形成和发展起来的、以方法和应用研究为主的数理统计今天,社会经济统计和数理统计仍然在以各自不同的方式发展着,演变过程古典统计学:17世纪中叶18世纪中叶 国势学派 政治算术学派 近代统计学:18世纪末19世纪末 数理统计学派 社会统计学派现代统计学:20世纪中叶至今 频率学派 贝叶斯学派,古典统计学之国势学派,奠基人海门尔.康令 (H.Conring ) 代表人阿亨.瓦尔 (Gottfried Achenwall) 在近代欧洲各国国势学论提出“统计学”有统计学之名,无统计学之实,古典统计学之政治算术学派,创始人:威廉.配弟 (William Patty)代表
10、作:政治算术就是用数字和统计学方法 “和只用比较级和最高级的词语以及单纯作思维的论证相反,我却采用了这样的方法(作为我很久以来就想建立的政治算术的一个范例)即用数字、重量、和尺度的词语来表述我自己想说的问题”有统计学之实,无统计学之名,近代统计学凯特勒时代,代表人物:凯特勒 (Adolphe Quetelet)古典统计学的集大成者,近代统计学的先驱者。贡献:把概率论、误差法则、正态分布引进统计学,用大数定律研究规律,丰富了统计方法体系。平均人理论:“我这里所研究的人,他在社会中的存在就像物体的重心,亦即那些社会因素围绕着波动的平均数”,现代统计学,频率学派贝叶斯学派,第二节:统计学的分科,统计
11、学的分科,一、 按内容分: 描述统计学(descriptive statistics) 搜集、演示和描述样本数据 推断统计学(inferential statistics) 运用样本的描述性数据去推断总体数量特征、数量关系的方法,描述统计,内容搜集数据整理数据描述数据 目的描述数据特征找出数据的基本规律,描述统计,电冰箱消费者对广告宣传途径的效果评价?,数据搜集 整理 描述 显示,您觉得哪种类型的广告宣传效果最好?(仅选一项)1.电视 2.网络 3.杂志 4.报纸 5.路牌 6.宣传页,在财富杂志一篇题为“在医生诊所中真正发生了什么事”中,展示了患者用于支付各类诊所的手术和健康保健设备的费用被
12、如何分解。在研究中,医生收到的现金中每100美元有下列八种类型的开支被分离出来,下表现实100美元是怎样被支配的:,推断统计,内容参数估计假设检验目的对总体特征作出推断,描述统计与推断统计的关系,反映客观现象的数据,总体内在的数量规律性,推断统计(利用样本信息和概率论对总体的数量特征进行估计和检验等),概率论(包括分布理论、大数定律和中心极限定理等),描述统计(统计数据的搜集、整理、显示和分析等),总体数据,样本数据,统计学探索现象数量规律性的过程,二、按研究侧重点分 理论统计学 指统计学的数学原理,它主要研究统计学的 一般理论和统计方法的数学基础(包括概率论在内) 应用统计学 研究如何应用统
13、计方法去解决实际问题。如:生物统计、经济统计、社会统计、人口统计、农业统计等等,管理,.,理论,计量,统计学,描述统计学,推断统计学,参数估计,假设检验,理论统计学,应用统计学,统计工具,总体结构图,统计学与其他学科的关系,统计学可以用到几乎所有的学科领域统计学可以帮助其他学科探索学科内在的数量规律性统计学不能解决各学科领域的所有问题对统计分析结果的解释需要各学科领域的专业人员,应用统计的领域,actuarial work (精算) agriculture (农业)animal science (动物学) anthropology (人类学)archaeology (考古学) auditing
14、 (审计学)crystallography (晶体学) demography (人口统计学)dentistry (牙医学) ecology (生态学)econometrics (经济计量学) education (教育学) election forecasting and projection (选举预测和策划)engineering (工程) epidemiology (流行病学)finance (金融)fisheries research (水产渔业研究)gambling (赌博) genetics (遗传学)geography (地理学) geology (地质学)historical
15、research (历史研究) human genetics (人类遗传学),应用统计的领域(续),hydrology (水文学) Industry (工业) linguistics (语言学) literature (文学)manpower planning (劳动力计划)management science (管理科学)marketing (市场营销学) medical diagnosis (医学诊断)meteorology (气象学) military science (军事科学)nuclear material safeguards (核材料安全管理)ophthalmology (眼科
16、学) pharmaceutics (制药学)physics (物理学) political science (政治学)psychology (心理学) psychophysics (心理物理学)quality control (质量控制) religious studies (宗教研究)sociology (社会学) survey sampling (调查抽样)taxonomy (分类学) weather modification (气象改善),历史上著名的统计学家,Jacob Bernoulli (伯努利) (1654-1705) Edmond Halley (哈雷) (1656-1742)
17、 De Moivre (棣美佛) (1667-1754) Thomas Bayes (贝叶斯) (1702-1761)Leonhard Euler (欧拉) (1707-1783)Pierre Simon Laplace (拉普拉斯) (1749-1827) Adrien Marie Legendre (勒让德) (1752-1833) Thomas Robert Malthus (马尔萨斯) (1766-1834)Friedrich Gauss (高斯) (1777-1855) Johann Gregor Mendel (孟德尔) (1822-1884)Karl Pearson (皮尔森)
18、(1857-1936)Ronald Aylmer Fisher (费歇) (1890-1962)Jerzy Neyman (内曼)(1894-1981) Egon Sharpe Pearson (皮尔森) (1895-1980) William Feller (费勒)(1906-1970),历史上著名的统计学家,Jacob Bernoulli (伯努利) (1654-1705) Edmond Halley (哈雷) (1656-1742) De Moivre (棣美佛) (1667-1754) Thomas Bayes (贝叶斯) (1702-1761)Leonhard Euler (欧拉)
19、(1707-1783)Pierre Simon Laplace (拉普拉斯) (1749-1827) Adrien Marie Legendre (勒让德) (1752-1833) Thomas Robert Malthus (马尔萨斯) (1766-1834)Friedrich Gauss (高斯) (1777-1855) Johann Gregor Mendel (孟德尔) (1822-1884)Karl Pearson (皮尔森) (1857-1936)Ronald Aylmer Fisher (费歇) (1890-1962)Jerzy Neyman (内曼)(1894-1981) Eg
20、on Sharpe Pearson (皮尔森) (1895-1980) William Feller (费勒)(1906-1970),第三节 统计学的基本概念,总体和样本指标和标志参数和统计量,总体、总体单位和样本,总体:总体是包含所研究的全部个体的集合。总体三大特征: 同质性 大量性 差异性(“君子和而不同,小人同而不和”)总体分类: 有限总体:指总体单位数有限而可以计数的总体 无限总体:指总体单位数无限不可以计数的总体,总体单位:构成统计总体的各个单位。总体和总体单位关系: * 对于同一研究目的,二者是包含关系 * 统计研究目的改变,总体、总体单位可以相互转化。 例:新生入学体检 总体:全
21、体新生 总体单位:每一位新生样本:样本是从总体中抽取的一部分个体的集合。 (总体的子集),总体、总体单位、样本关系,指标和标志,标志: 含义:用来表示总体单位特征的名称。 作用:标签,将各总体单位区分开来。,例:研究本班的情况,姓名,成绩,性别 把每个个体区分开来。标志值:标志的具体表现形式。,例:中华人民共和国人口普查总体:具有中华人民共和国国籍的所有公民总体单位:每一位公民标志名称 标志值国籍: 中国(不变标志)姓名: 张三性别: 男民族: 汉婚姻状况: 已婚家庭成员数: 4人(离散变量)年龄: 50 (连续变量)身高: 172cm体重: 72.5kg收入: 2000元/月,标志,标志值,
22、总体单位,分类,按标志表现的异同,品质标志 例:产品品名、商品类别、籍贯、性别等,标志,不变标志,可变标志,注:不变标志把总体单位联系在一起,可变标志成就了统计研究的必要,变量:即可变标志,用于描述总体单位所具有的特征或特性。有时也指这些特征或特性的值汇总或加工后的量。(指标名称),指标,含义: 用来表示总体数量特征的量,一般更习惯 称指标为变量,由指标名称和指标值构成。 例:指标名称 指标值 工业企业总数: 10000000 工业企业职工数 : 3亿人 工业总产值: 5千亿 平均工资: 7000元/年人 总体单位: 每一个工业企业 注:指标可以是指标名称也可以是指标名称+指标值特点: 可量性
23、、综合性。,指标(变量),分类,算术运算对于定性指标无意义,对于定量指标运算有意义,总量指标(绝对数),相对指标(相对数),平均指标(平均数),实物指标,价值指标,时期指标,时点指标,指标构成形式,计量单位,时间性质不同,更多分类,注:各种相互联系的指标所构成的整体即指标体系,还可分为: 质量指标:说明总体质量状况 数量指标:说明总体总量状况, 也叫总量指标。考虑: 一个完整的统计指标应包括什么?,指标和标志的关系,联系:指标值由标志值汇总加工而得到; 两者的划分不绝对,可以互相转化 区别:两者说明的对象不同;两者表现形式不同,参数和统计量,参数:概括整个总体所有数据的一个数值。 (总体的某种
24、特征值)例:总体平均数、总体比例,总体方差等统计量:概括整个样本所有数据的一个数值。 (样本的某种特征值) -例:样本平均值、样本比例,样本方差等参数是固定的,统计量是变化的每一个参数,有一个相应的样本统计量,总体,样本,判断是非,推断性统计是对试验结果得出的数据的研究和描述描述性统计是我们能用一个样本的研究来对该样本来自的总体作出推测或估计统计量是从总体的某些特征测量值计算出来参数是从样本某些特征测量值计算出来的,小练习(1),某药品制造商感兴趣的是用该公司开发的某种新药能控制高血压人群血压的比例。进行了一项包含5000个高血压病人个体的研究。他发现用这种药后80%的个体,他们的高血压能够被
25、控制。假定这5000个个体在高血压人群中具有代表性的话,回答下列问题: 1、总体是什么? 2、样本是什么? 3、识别所关心的参数 4、识别样本统计量并给出它的值 5、我们知道这个参数的值么?,第四节 统计数据的来源与质量,一、统计数据的间接来源二、统计数据的直接来源三、统计数据的质量,一、统计数据的间接来源,1. 公开出版物: 中国统计年鉴、中国统计摘要、中国社会统计年鉴、中国工业经济统计年鉴、中国农村统计年鉴、中国人口统计年鉴、中国市场统计年鉴、世界经济年鉴、国外经济统计资料、世界发展报告,二、统计数据的直接来源,普查(概念要点),1. 为特定目的专门组织的非经常性全面调查2.通常是一次性或
26、周期性的3.一般需要规定统一的标准调查时间4.数据的规范化程度较高5.应用范围比较狭窄,抽样调查(概念要点),1. 从总体中随机抽取一部分单位(样本)进行调查,4. 具有经济性、时效性强、适应面广、准确性高等特点,2. 目的是推断总体的未知数字特征,3. 最常用的调查方式,统计报表了解(概念要点),1.统计调查方式之一2.过去曾经是我国主要的数据收集方式3.按照国家有关法规的规定、自上而下地统一布置、自下而上地逐级提供基本统计数据4.有各种各样的类型,重点调查和典型调查了解(概念要点),典型调查从调查对象的全部单位中选择少数典型单位进行调查目的是描述和揭示事物的本质特征和规律调查结果不能用于推
27、断总体,重点调查从调查对象的全部单位中选择少数重点单位进行调查调查结果不能用于推断总体,调查方法,数据的搜集方法,CATI应用领域:品牌知名度研究、产品渗透率研究、品牌市场占有率研究、产品广告到达率研究、广告投放后的效果跟踪研究、消费习惯研究、消费者生活形态研究、顾客满意度调查、服务质量跟踪调查、产品(担保)登记、家庭用品测试及选举民意测验以及健康问题调查等。优点:更高的访问覆盖访问工作变得容易控制 为您争取更多宝贵时间,占领先机 降低调研成本 科学地完成调研,实现传统形式难以实现的功能 建立个性信息库 降低拒访率 实现对员工和访员的科学管理,使用条件:第一,电话普及率要高到一定程度。第二,市
28、场研究机构的信息化要达到一定程度,即计算机、网络作为CATI系统运转的平台必须具备。2000年中央电视台的春节联欢晚会收视率调查就采用了这种方式。,数据搜集方案的制定,确定数据搜集目的( why)确定调查对象和调查单位。 (who) 注:调查对象:明确调查的总体界限。 调查单位:明确从哪里取得资料。 填报单位:负责报告调查内容的单位。拟定调查项目和设计调查表。(what)确定调查时间(when)制定调查的组织实施计划细则 (how),中华牙膏用户市场调查方案,为了了解中华牙膏在市场上的信用情况和销量情况,以及目前市场用户喜欢什么样的牙膏,其他牙膏比中华牙膏优越之处在哪里。(调查目的)调查对象:
29、所有牙膏用户。调查单位:每一位牙膏用户。报告单位:调查员。调查项目及调查问卷见附表。,调查时间:2001年10月。调查地点:各大商场牙膏销售柜台前。调查方式:随机抽样调查。调查方法:采访法。此项调查由中华牙膏厂市场部组织领导和宣传,由广外学生协助调查,预算经费为30,000元。结果只作为中华厂进行生产设计的参考,不公开发表。(调查工作的组织实施计划),中华牙膏调查问卷(部分),1、你用过中华牌牙膏吗? 是( )否( )(二项选择法)2、你认为中华牌牙膏怎么样?很好()好( )较好( )一般( )差( )3、你所用过的牙膏有哪些?a 洁银( ) b 两面针( ) c 黑妹( ) d 中华 ( ) e 黑人( ) f 佳洁士 ( ) g 高露洁( ) h 雕牌 ( ) (2、3题多项选择法),4、评分标准很好10分 好 8分较好 6分 一般 4分差 2分请按以上的评分标准给第三题中列出的牙膏质量评定分数,分数填入括号内。(赋值选择法)5、你对我厂生产的中华牌牙膏有什么意见?。(自由回答法),例: 校园饮食调查,三、 统计数据的质量,非抽样误差 由于调查过程中各有关环节工作失误造成的。 从理论上看,该误差可以避免抽样误差 利用样本推断总体时产生的误差 该误差不可避免,但可以计量和控制,