统计的故事ppt课件.pptx

上传人:小飞机 文档编号:1467735 上传时间:2022-11-28 格式:PPTX 页数:102 大小:18.08MB
返回 下载 相关 举报
统计的故事ppt课件.pptx_第1页
第1页 / 共102页
统计的故事ppt课件.pptx_第2页
第2页 / 共102页
统计的故事ppt课件.pptx_第3页
第3页 / 共102页
统计的故事ppt课件.pptx_第4页
第4页 / 共102页
统计的故事ppt课件.pptx_第5页
第5页 / 共102页
点击查看更多>>
资源描述

《统计的故事ppt课件.pptx》由会员分享,可在线阅读,更多相关《统计的故事ppt课件.pptx(102页珍藏版)》请在三一办公上搜索。

1、统而计之统计的故事 统计及应用统计简介,什么是统计(一),Statistics,State,Carl Friedrich Gauss (1777. 4. 30-1855. 2. 23),什么是统计(二),统计学的定义统计的起源,统计的定义,统计学是收集和分析数据的科学与艺术 (不列颠百科全书)数理统计学是数学的一个分支,它是一门用有效的方法收集和分析带有随机影响的数据的学科,且其目的是解决特定的问题(陈希孺院士)数理统计是一门应用性很强的学科,它是研究如何有效地收集、整理和分析受随机影响的数据,并对所考虑的问题作出推断或预测,直至为采取决策和行动提供依据和建议的一门学科。(茆诗松),统计学的起

2、源(一),中国在周朝就设有统计官员,称为司书。设立“司书上士二人,中士四人,府二人,史二人,徒八人。” 负责 “邦之六典,以周知入出百物,以知田野夫家六畜之数。” (见周礼天官冢宰),统计学的起源(二),管子问中提到65个问,即65个调查科目,均为管理国家所需要的数据。比如, “问少壮而未胜甲兵者几何人?” “为一民有几年之食也?” 等等。(平均数、众数?),统计学的起源-女士品茶试验,20世纪20年代后期,在英国剑桥的一个夏日的午后,一群大学的绅士和他们的夫人们,还有来访者,正围坐在户外的桌旁,享用着下午茶。在品茶过程中,一位女士坚称:把茶加进奶里,或把奶加进茶里,不同的做法,会使茶的味道品

3、起来不同。在场的一帮科学精英们,对这位女士的“胡言乱语”呲之以鼻。然而,在座的一个身材矮小、戴着厚眼镜、下巴上蓄着的短尖髯开始变灰的先生,却不这么看,他对这个问题很有兴趣。(实际上这位女士正确地分辨出了每杯茶),返回,统计学的起源,对人口作统计,无论在中国还是在西方在公元前已开始,目的在于征税和征兵. 用统计方法研究社会问题开始于17世纪.格兰特(1622-1674)研究了伦敦的死亡记录,总结在关于死亡公报的自然和政治观察(1662)一书中.此书对后世影响很大,一些统计学家建议,以该书的出版日作为统计学的诞生日.,返回,统计学中最重要的一种曲线正态曲线大约在1720年由法国数学家棣莫弗(166

4、7-1754)所发现. 正态曲线有很大的普适性,可用来描述自然科学与社会科学中的许多现象. 优生学的奠基人英国的高尔顿在身高和智力遗传研究中得出结论:人的生理结构是稳定的,所有有机组织都趋于标准状态. 这种效应称为回归效应.,返回,什么是统计(三),统计学是关于收集数据与分析数据的学问.数据来源于社会问题,比如1. 考虑一年每一日的平均气温;2.考虑南昌市居民的平均收入;3.某一只股票价格的走势;,返回,什么是统计(三),接下来我们会遇到几个问题:1.数据怎么来的?2.怎么去处理这些数据?3.怎么样从数据中得到一定的信息?4.得到的信息对我们的生活是否有特殊的意义?,返回,什么是统计(三),其

5、实本质问题只有两个:1.统计学能解释什么样的社会现象?2.怎么样才能把社会现象解释清楚,完善处理?这是统计学的任务,也是数十年来统计学家们追求的目标。,返回,什么是统计(三),描述性统计(descriptive statistics)数理统计(mathematical statistics),返回,什么是统计(三),数理统计是现代统计的本质内容;处理带有随机因素的数据;主要分为参数统计推断(parametric statistical inference)和非参数统计推断(nonparametric statistical inference),非参数统计推断在现代计量经济,数理统计,金融研究

6、中扮演着重要的角色;,返回,什么是统计(三),点估计理论;(Point Estimation)区间估计理论;(Interval Estimation)假设检验理论;(Hypothesis Testing)方差分析理论;(Variance Analysis)相关分析理论;(Correlation Analysis)线性回归分析;(Linear Regression),返回,数据是什么?,Data = ¥,数据的妙用(一),数据的妙用(二),数据的妙用(三),什么是统计(四),Sir Ronald Aylmer Fisher (1890. 2. 17-1962. 7. 29)B. A. in Ma

7、th., Cambridge University, 1912Rothamsted Experimental Station, 1919-1933Professor of eugenics at University College London, 1933-1943Balfour Chair of Genetics at Cambridge, 1943,什么是统计(五),实际问题,数据收集,试验设计抽样调查,数据分析,统计方法(估计与检验),结论,建议与讨论,什么是统计(例子),什么是统计(例子),实验设计,对照实验,总是做得对。将使一些人满意,而使其余的人惊讶。 - 马克 吐温 (1835

8、-1910),基本概念,一种新药的问世,怎样设计一个试验来测试它的效果呢?最基本的方法是 比较。将药分给处理组病人, 而把其他病人作为对照。病人将以随机的方式被分到处理组和对照组。,脊髓灰质炎疫苗的现场试验,1916年第一次脊髓灰质炎第一次袭击了美国。此后的四十年,在美国造成了成千上万的受害者,特别是儿童。这种疾病在我国通常被称作小儿麻痹症。到上世纪五十年代,才发现这种疾病的疫苗。,脊髓灰质炎疫苗的现场试验,Jonas Salk培育的疫苗似乎最有希望。在实验室中,这种疫苗被证实是安全的。但还是需要大量临床试验去证明疫苗的疗效。1954年美国公共卫生总署决定组织这样一类试验共有200万名儿童被牵

9、扯进这次试验。,脊髓灰质炎疫苗的现场试验,其中 50 万接种了疫苗,一百万故意不予接种,另外50万拒绝了试验。这就说明了对照方法。据此进行试验。试验中首先出现的问题是避免 偏性。混淆是偏性的主要来源。,脊髓灰质炎疫苗的现场试验,为避免造成偏性,最终的方案是在同一年级的小学生中父母同意进行试验的人群中进行对比试验。还有一点需要注意,那就是双盲。,静脉吻合分流术,在肝硬化病例中,病人可能开始出现出血且直到死亡。所谓静脉吻合分流术是运用外科手术的办法使血流改变方向来避免出现死亡。得益 是 避免死亡。风险是花费时间且危险。,静脉吻合分流术,观察研究,你在那里所经历的不是一个实验,而是一种经验。 R.A

10、. Fisher 爵士,观察研究,观察研究与对照研究的区别。一个例子就是吸烟对健康的危害。研究者的工作就是分离偏性。,问题,在美国,1985年所有病例中有210万人死亡,但是1960年只有170万,几乎增加了25%,是不是说明公众的健康状况变糟糕了?十八世纪,通过给病人放血去治疗黄热病是一种常用的方法。当时一名著名的医生在日记中写到:,我从每一次抽少量的血开始。血的显露以及放血对身体的效应使我相信放血治疗的安全性和有效性。 在这之前我从未经历过像现在那种在期待我的治疗成功中所感受的异常的兴奋。. 感谢上帝,在我出诊或给予配方的100个病人中,至今无人不幸。,注意,试验的主要任务是去掉偏性。这和

11、样本空间以及简单随机抽样的定义是一致的。关联性不等于因果关系,抽样,抽样调查,“数据! 数据! ” 他不耐烦地喊道, “我不能做无米之炊. ” - Sherlock Holmes,基本概念,通常存在着调查人员需要知道的关于总体的某些数值特征, 这些数值特征称为参数。在预测美国总统选举中, 有关的两个参数是: 全体合法选民的平均年龄。 当前登记投票的全体合法选民的百分数。 参数由统计量或可根据样本算得的某些数值估计.,两个重要问题: 选取样本的方法至关重要. 最好的方法包含有计划地应用机会.,民意测验,1936年选举年, Roosevelt 与 Landon 竞选下一任总统.预测出现重大误差.

12、反思: 犯的两个错误1. 选择偏性(以电话簿上的地址和俱乐部成员名单上的地址),民意测验,启示: 当选择程序有偏时, 抽取一个大的样本 并无帮助. 这只不过是在较大的规模下去重 复基本错误.2. 不回答误差(发出1000万封信,收到回信200万封)启示: 不回答者可能非常有别于回答者, 当出现高不回答率时, 谨防不回答偏差.,民意测验Dewey选举年,三家主要的民意测验机构都预测失误.他们选取样本的方法: 定额抽样方法当时的共和党人比民主党人较为富裕并受过较好的教育, 相对较易访问.启示: 在定额抽样中, 样本被精心挑选以使在某些关键特征上与总体相似. 这方法似乎合理, 但并不怎么奏效. 原因

13、是无意的偏倚.,统计与数学的区别,统计与数学的区别,e,统计与数学的区别,统计与数学的区别,统计在工业上的应用(一),Statistical Quality Control (On line)Taguchi Methods (Off-line)6 Sigma Methods Beginner, Black belt, Master black belt, Green belt, Champion, ExecutiveReliability,Statistical Process Control (一),Statistical Process Control (二),Shewhart Chart

14、-3,-2,2,3,-3,Taguchi Methods (一),Taguchi Methods (二),System DesignParameter DesignTolerance Design Quality is squared loss function!,6 Sigma Methods,http:/,1986西格玛方法被引入摩托罗拉公司,1987制定1992 应达到西格玛目标,1988 马科姆鲍德里奇全美质量大奖,1991 引入“黑带创意”,1992 每两年减少缺陷十倍,运作周期每五年降低10倍。,1998 公司重组,1999 行为准则,追求卓越和平衡的记分卡,2002 西格玛业务改

15、进,摩托罗拉公司六西格玛的发展,2003 数字六西格玛,1,规格上限,规格的下限,减少散布是 6的核心。,平均,目标(Target),(不良率),什么叫Six Sigma?,缩小不良的核心是减少散布。, 记号前的数值(Z值)越大,不良发生概率越小。,目标,目标,规格限,规格限,不 良 可 能 性,减 少 的不良可能性,六西格玛近乎完美,平均值,每10亿零件中有2个零件,Cp = 2,规范下限,规范上限,缺陷,缺陷,“西格玛水平”的定义是 . . .,. . . 利用统一的衡量尺度对“优秀”的测量。,西格玛,DPMO (百万出错机会缺陷率),每年至少54,000次用药错误处方 。每周每电视频道出

16、现27分钟的播出故障时间。 每天奥黑尔国际机场发生五次过短或过长着陆。,二十五年才有一次用药错误处方。每周每电视频道出现2秒钟的播出故障时间。 全美国所有机场十年才发生一次过短或过长着陆。,六西格玛好比什么 . . .,2 西格玛 - 每轮6次不入洞.3西格玛 -每轮1次不入洞.4西格玛 -每9轮1次不入洞.5西格玛 -每2.33年1次不入洞.6西格玛 -每163年1次不入洞!,六西格玛好比什么 . . .,六西格玛方法是 . . .,一种推动业务改进的总体性方法。 一套用以推动和实现某一组织内部过渡变革的、经实用检验的成套工具。 一次重点在于如下内容的持续改进过程: 顾客需求,过程统一,严谨

17、分析,及时执行。,DMAIC 与过程改进路线图,DMAIC,界定(Define)什么是最重要的?测量(Measure)我们目前做得怎样?分析(Analysis)错在哪里?改进(Improve)需要采取哪些措施?控制(Control)我们如何保证业绩?,有哪些可以实现本组织目标并提供最大收益的改进机会。我们目前的业务水平怎样(如西格玛水平或Cpk)?业绩中存在之差距或问题的根本原因是什么? 有哪些可能的解决方案,我们如何实施最佳解决方案? 我们如何保持已经取得的成绩?,六西格玛改进过程,Reliability,产品寿命分布及统计分析 恒进应力寿命试验 加速应力寿命试验截尾数据的统计分析 定时截尾

18、 定数截尾,统计在农林牧渔业上的应用,Design of Experiment (DOE)气象渔业生态农业环境保护动物保护(capture recapture),Design of Experiment,000001010011100101110111,乾、 坤、震、 巽、 坎、 离、 艮、 兑。,这是一个最基本的正交表,Design of Experiment,军官问题(这是世纪瑞士数学家欧拉提出的) 设有种军衔和来自个团的名军官,能不能把他们排成行列的方阵,使得每行每列里都有每种军衔的一名军官和每个团的一名军官? 数学问题:是否存在6阶的正交拉丁方?,Design of Experimen

19、t,欧拉猜想:当N为奇数的2倍时(包括N=6),问题是无解的到20世纪50年代,印度数学家Bosh等人证明:除N=2和N=6外,这个问题都有解!这就是说,欧拉的猜想除N=6外,其余都猜错了!,Design of Experiment,Climate (Global Temperature),渔业(花港观鱼),统计在商业中的应用,市场调查与咨询物流(仓库的设计与储量分析)交通运输业的统计分析数据挖掘,市场调查与抽样(一),传统的抽样方法: 1. 简单随机抽样 2. 分层抽样 3. 二阶抽样 4. 整群抽样 5. 二重抽样传统抽样的特点:成本与误差的平衡 设计与分析的结合,市场调查与抽样(二),统

20、计模拟与重抽样(Monte Carlo & Resampling) 1. 伪随机数的产生: 同余法、混合同余法、逆变换法等 2. 重抽样方法: 刀切法(Jecknife)、自助法(Bootstrap) 3. 新兴的抽样方法 MCMC (Markov Chain Monte Carlo) 模拟退火 (Simulated Annealing )特点:计算机的应用! Ross, S. M. (2002). Simulation, 3rd Ed., Academic P,Data Mining (一),:,,,,,.,舅舅:不要吃酒,吃酒误事, 吃了二两酒,不是动怒,就是动武,吃酒要被酒杀死,一点酒也

21、不要吃。,Data Mining(二),7 2 2x3 40 6 二四六八 1 1 = 1 10002 =100100100 7/8 6873x,不三不四 接二连三 陆续不断 无独有偶 一成不变 千方百计 七上八下了不起thanks,What Are These Numbers Trying to Tell Us?,Data Mining(三),Data Mining(四),统计方法计算机的应用计算方法,Its hot!,Data Mining(五) (啤酒与尿布),有一次,美国沃尔玛公司的分店经理发现:一段时期以来,每逢周末店内啤酒和尿布的销量 都会同比攀升。 . 分析还发现:原来这些人习惯

22、晚上边看球赛、边喝啤酒,对于要照顾 的孩子,为了图省事就用一次性尿布。于是沃尔玛决定:把这两种商品集中摆在一起。,Financial and Acturial Statistics,Nobel Prizes 期权定价模型、投资组合模型Insurance 保费的计算、产品的设计,在军事及航空航天中的应用,在军事及航空航天中的应用,1986年1月18日,挑战者升空73秒后爆炸,在军事中的应用广岛原子弹,The Applications In Social Sciences,法律心理学(测谎)经济学社会学人口学管理科学文学考古,The Applications In Social Sciences(

23、法律之一),数据:美国佛罗里达,1976-1977年凶杀案结论:白人被判死刑的比例为:19/160=11.9% 黑人被判死刑的比例为:17/166=10.2%,The Applications In Social Sciences(法律之二),Contingency Table (列联表),The Applications In Social Sciences(文学红楼梦),陈大康:从数理语言看后四十回的作者,红楼梦学刊,87年第1期,在IT业中的应用,分类、搜索图像或模式识别网络完全(数字签名),统计在医药卫生中的应用,Biostatistics 制药业(比对试验) 疾病的诊断(Bayes方法,图模型等) 病理分析 疾病的控制,统计在医药卫生中的应用-吸烟与肺癌,R A Fisher,J. Cornfield(1912-1979),Journal of the National Cancer Institute, 22, 173-203,统计在生物遗传学中的应用-回归,The Applications In Bioinformation,The Applications In Other Fields,地质勘探公安(指纹识别、脚印识别、图像恢复)服务行业体育,悟道诗 严加安 随机非随意,概率破玄机。 无序隐有序,统计解迷离。,本节结束! 谢谢!,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号