数学文化8统计中的数学文化.ppt

上传人:牧羊曲112 文档编号:6295819 上传时间:2023-10-14 格式:PPT 页数:107 大小:1.40MB
返回 下载 相关 举报
数学文化8统计中的数学文化.ppt_第1页
第1页 / 共107页
数学文化8统计中的数学文化.ppt_第2页
第2页 / 共107页
数学文化8统计中的数学文化.ppt_第3页
第3页 / 共107页
数学文化8统计中的数学文化.ppt_第4页
第4页 / 共107页
数学文化8统计中的数学文化.ppt_第5页
第5页 / 共107页
点击查看更多>>
资源描述

《数学文化8统计中的数学文化.ppt》由会员分享,可在线阅读,更多相关《数学文化8统计中的数学文化.ppt(107页珍藏版)》请在三一办公上搜索。

1、统计中的数学文化,统计的地位,越来越多的人意识到统计在人类生活的各个方面所起的重大作用。据说,在美国统计已经取代了计算机,成为最容易找工作的专业。而中国数学类学生赴美留学的首选专业也是统计。由于国情,虽然国人对统计的尊重远远不如美国人,但时代在变化,中国统计专业研究生的就业前景已经令许多曾经热门的专业望尘莫及。在不远的未来,统计的优势只会增加,而且会长期保持领先地位。,统计的处境,统计被人看重的原因是供不应求。一是统计的巨大市场;几乎所有领域都需要统计。另一个是统计专业所需要的包括数学、统计和计算机在内的功底,绝不是通过任何速成训练就能够达到的。人们知道,学数学的改行学什么的都有(反之不然),

2、但即使是学纯粹数学的,改行学统计,也不象数学改行力学或物理那么容易。,统计的处境,统计专业的研究生毕竟有限。世界上各领域的多数统计工作都还是该领域的人士进行的。而专业统计工作者的主要任务,则是根据各领域的需要,发展新的统计方法和理论,建立新的模型,发展新的计算方法。,那么,什么是统计呢?报表?数字?数学公式、定理及推导?,什么是统计,统计(统统忘记),会计(快快忘记),统计的定义,首先必须提及似乎只有在中国才有争议的统计定义。我相信,世界上多数统计学家都会同意下面大英百科全书的关于统计的定义:用以收集数据、分析数据和由数据得出结论的一组概念、原则和方法.,这个定义强调了统计以归纳为主的思维方式

3、,这使得统计显然不同于以演绎思维为主的数学。该定义也体现了统计为各个领域进行数据分析的服务性命运。,按照这个定义,目前我们所知道的统计,或者在某些“统计杂志”主编眼中的统计仅仅是统计的一个很小的部分。,情书(一),亲爱的丁:我们的感情,在组织的亲切关怀下、在领导的过问下,一年来正沿著健康的道路蓬勃发展。这主要表现在:(一)我们共通信121封,平均3.01天一封。其中你给我的信51封,占42.1%我给你的信70封,占57.9%。每封信平均1502字,最长的达5215字,最短的也有624字。,(二)约会共98次,平均3.7天一次。其中你主动约我38次,占38.7%我主动约你60次,占61.3%。每

4、次约会平均3.8小时,最长达6.4小时,最短的也有1.6小时。(三)我到你家看望你父母38次,平均每9.4天一次,你到我家看望我父母36次,平均10天一次。以上充分证明通过一年来的交往,我们已形成了恋爱的共识,我们爱情的主流是互相了解、互相关心、互相帮助,是平等互利的。,当然,任何事物都是一分为二的,缺点的存在是不可避免的。我们二人虽然都是积极的,但从以上的数据看,发展还不太平衡,积极性还存在一定的差距,这是前进中的缺点。相信在新的一年里,我们一定会发扬成绩、克服缺点、携手前进,开创我们爱情的新局面。,因此,我提出三点意见供你参考:(一)要围绕一个爱字,(二)要狠抓一个亲字,(三)要落实一个敢

5、字。让我们弘扬团结拼搏的精神,共同振兴我们的爱情,争取达到一个新高度,登上一个新台阶。本着幸福由我们主宰,爱情由我们创造,幸福属于我们的精神来发展我们的感情,共创我们人生的辉煌!享受人生!你的王子,统计学的起源(一),中国在周朝就设有统计官员,称为司书。设立“司书上士二人,中士四人,府二人,史二人,徒八人。”负责“邦之六典,以周知入出百物,以知田野夫家六畜之数。”(见周礼天官冢宰),管子问中提到65个问,即65个调查科目,均为管理国家所需要的数据。比如,“问少壮而未胜甲兵者几何人?”“为一民有几年之食也?”等等。(平均数、众数?),什么地方统计用得上呢?,任何领域.,统计历史人物,Edmond

6、 Halley(哈雷)(1656-1742)Leonhard Euler(欧拉)(1707-1783)Thomas Robert Malthus(马尔萨斯)(1766-1834)Ronald Aylmer Fisher(费歇)(1890-1962),Moivre(棣美佛)(1667-1754)Pierre Simon Laplace(拉普拉斯)(1749-1827)Jacob Bernoulli(伯努利)(1654-1705)Thomas Bayes(贝叶斯)(1702-1761),Adrien Marie Legendre(勒让德)(1752-1833)Friedrich Gauss(高斯)

7、(1777-1855)Johann Gregor Mendel(孟德尔)(1822-1884)Karl Pearson(皮尔森)(1857-1936)William Feller(费勒)(1906-1970).Jerzy Neyman(1894-1981)Egon Sharpe Pearson(1895-1980),一些简单的问题,当你买了一台电视时,被告知三年内可以免费保修。你想过厂家凭什么这样说吗?说多了,厂家会损失;说少了,会失去竞争,也是损失。到底这个保修期是怎样决定的呢?在同一年级中,同样统计学的课程可能由一些不同教师讲授。教师讲课方式当然不一样,考试题目也不一定相同。那么如何比较不

8、同班级的统计学成绩呢?大学排名是一个非常敏感的问题。不同的机构得出不同的结果;各自都说自己是客观、公正和有道理的。到底如何理解这些不同的结果呢?,一些简单的问题,任何公司都有一个信用问题。当然,在这些公司试图得到贷款时并没有不还贷的不良记录。如何根据它们的财务和商业资料来判断一个公司的信用等级呢?我国东部和西部的概念是一个比较笼统的概念。如何能够根据需要,选择一些指标来把各省,或各市县甚至村进行分类呢?疾病传播时,如何能够通过感染者入院前后的各种因素得到一个疾病传染方式的模型呢?,一些简单的问题,如何通过大众调查来得到性别、年龄、职业、收入等各种因素与公众对某项事物(比如商品或政策)的态度的关

9、系呢?一个从来没有研究过红楼梦的统计学家如何根据比较写作习惯得出红楼梦从哪一段开始就不是曹雪芹的手笔了呢?如何才能够客观地得到某个电视节目的收视率,以确定广告的价格是否合理呢?,如何理解下面说法?,“明天降水概率为40”“冬天去新加坡度假的概率为10”(为什么不说10.25%?)“该节目收视率是30%”(按照什么标准?)“抽样调查结果的误差为3%”“支持率的95置信区间为(25%,30%)”“某学校排名第一”,“某国的综合竞争力排名第43位”我昨天在飞机上遇到大学同学;难道小概率事件经常发生?“该药品疗效99%”“该国贫富差距大”(如何衡量?)“该结果统计显著”“他的血压已经正常了”(有真实标

10、准吗?),你相信统计结果吗?,数据可以有误或作假统计方法(有意或无意)使用不当可以误导。有低级误导和高级误导。常识判断和直觉是重要的,关于美国选举的两个例子(1),谁会在1936选举中获胜?Alf London还是 F.D.R.(罗斯福)?Literary Digest(文摘)送出一千万份问卷(返回二百四十万份)后,预测London 会赢.而Gallop(盖洛普)只问了5000人说 Roosevelt(罗斯福)会赢.最后罗斯福和盖洛普都赢了.文摘倒闭了.,谁会在1948选举中获胜?Thomas Dewey还是Harry Truman(杜鲁门)?Crossley,Gallop(盖洛普),Rope

11、r所有都预测Dewey 会赢(每个机构用了5000个问卷).最后(包括盖洛普)他们都输了,而杜鲁门赢了.,关于美国选举的两个例子(2),问卷如何写?问谁?问多少人?谁问?如何问?,问卷调查很简单?,统计的一些做法,统计可以指导我们收集数据.当拥有来自一些变量(指标)的数据或记录,但缺乏模型来描述这些变量之间关系的情况下,可用统计方法建立模型.在有了一定的模型时,统计可以确定手中数据是否令人信服地支持某种论点.模型也用来对未来进行预测.统计直观的图表展示,可以使各个领域的专家容易理解,中国统计的独特历史环境,中国统计过去分为“统计学”(文科的列宁主义统计)和“数理统计”(国际通常意义上的统计),

12、国内一些学者把统计称为是经济学科的一部分,则是中国特有的与前苏联关联的国情所造成;读者可以从苏联大百科全书的统计学条款得到答案。但前苏联的经济学中的统计学概念是其意识形态和计划经济体系的产物,其模型多属于小学数学水平,很难称为数学模型。这与现代经济学所需要的大量的统计和数学形成鲜明对照.前苏联式的“统计学”不是目前国际流行意义上的统计学或统计学的分支。目前俄国也没有人问津了;但其八股形式在中国仍然流行(特别在官方统一的考试中)。,有人说,我们应该学“经济统计”、“管理统计”等等。如果统计学是“一加一等于二”,而作为统计的个别应用是“一个苹果加一个苹果等于两个苹果”。难道苹果换成香蕉就不知道该怎

13、么办了吗?,统计的内容和需要的知识,数学的几乎所有内容(不一定事先知道需要什么)用计算机做统计计算其他(对象)领域的知识,数学的重要性,有人说,我们在数学分析中,学到的东西后来大都没有用。更不要说中学的平面几何了。因此,有些人(包括一些领导)认为我们可以取消平面几何等等。但也有人说:我国冤假错案那么多(除了腐败因素之外)就是因为那些执法人员没有学好平面几何。,数学给人最大的益处可能就是教会人如何合乎逻辑的思维。“学数学的学什么都学的会”这句话有道理吗?,真正严格的逻辑仅存在于数学之中,只能够从学习数学中获得。(哲学,法律?)数学的逻辑服务于现代理性社会的所有方面。(例如法律)在一定的公理系统下

14、,纯粹数学是唯一可以说得出绝对是非的世界。为什么人们对数学家的印象是“呆”?(世界并不是完美的),统计和数学的区别,数学思维是以演绎为主统计思维是以归纳为主,兼有演绎统计各领域利用几乎所有存在的数学内容.但统计本身的数学是为具体目标服务的,自己一般不形成数学体系,统计和数学的区别,为了数学的目的,我们需要用笔和纸进行推导。但为了统计的目的(实际需要的代名词)我们就要不择手段。最重要的就是计算机。,计算机的重要性,由于统计和数据打交道,没有计算机的发展统计就没有前途.计算机和统计的发展相辅相成,数据和模型的关系,作为根据的数据(比如各地人均GDP,各种资源,自然条件等和航空旅客人数)基于数据建立

15、模型(回归模型)模型用来指导未来,预测未来(某城市GDP达到某水平,是否需要建立或扩建机场等决策)模型随时要根据新的数据来改进(新的飞机,新的消费理念,新的旅游景点等)没有完美的模型没有无误差的数据,统计和数学,由于统计需要大量的数学,而且现代统计的基础也是数学家所奠定的,统计也被人认为是数学的一个分支。这没有什么不可以,就看如何定义数学了。,统计和数学,但统计肯定不应属于纯粹数学的范畴。下面所提到的“数学”实际上主要指纯粹数学。(还有别的数学吗?)统计和数学都是可以为各个领域服务的。但是统计和数学有很大的区别。,统计和数学,和音乐类似,数学圈内的人士可以欣赏数学本身的美妙的境界。数学的很多内

16、容可以和实际世界没有任何关系。虽然现在越来越商品化的世界正试图改变各学校数学系的操作;但纯粹数学的纯洁性可能永远也无法改变。,统计的课程,因为由于历史和国情的原因,中国曾经有过两个统计观念,一个是在经济类下面的文科统计,一个是数学类下面的数理统计。当然,没有人会定义谁是统计工作者或统计学家。任何与数据打交道的人都可以称自己是统计工作者。任何人都可以说自己搞的是统计。但下面关于统计(学科)的论述,是基于上面所引用的定义的。,统计教学最好不用数学的教学模式,从上面的定义看,统计和数学在思维方式以及在社会的地位都很不相同。因此,在教学上也应该有所区别。目前的数理统计课程是公认的既不好教,也不好学的课

17、程。其原因很简单。目前多数数理统计教科书的内容主要是在计算机广泛应用之前的二十世纪中期发展的以估计和假设检验为主的统计推断理论。这些理论和19世纪的微积分很不一样。,统计教学最好不用数学的教学模式,发展这些理论的(数学出身的)大师的贡献主要是数学上的,特别是基于大样本的统计性质推导。他们关于估计和检验的几乎所有定理或者假定了总体的分布类型或者涉及大样本的极限情况。而多数成果是以数学论文的形式发表在数学味很浓的杂志上的。从这些论文所发展出来的教材很难不使目前数理统计的相当大部分讲课时间都花在对公式和定理的推导和证明,而没有集中足够的精力来理解藏在这些理论背后的统计思想。,统计教学最好不用数学的教

18、学模式,在这样的数理统计教学中,学生很容易得到统计是数学的一部分的印象。然而,对于学过数学分析的学生来说,这些“数学”看上去既不系统、又不漂亮,但由于没有理解背后的统计思维逻辑,学生常难以理解为什么要教这些内容。而对于非数学专业的人来说,这些“数学”却往往显得十分奇特深奥。其根本原因是这些教科书把以归纳为主的统计按照以演绎为主的数学来写了。,统计思维,类似于物理学,统计在否定中发展,统计的一个重要但又往往不易为人所理解的特点是统计从来不绝对地说“是”或者“不是”。统计只能够说可能。负责的统计学家必须提供可能发生的概率。然而,许多人不那么做(像卖假药的吗?),你们意识到没有?在没有任何先验假定的

19、情况下,用统计方法永远无法证明什么绝对是什么。,是非是人类社会的产物,大灰狼吃羊犯错误了吗?人类社会之外的自然界有是非吗?人类社会的“是非”是一成不变的吗?,统计只说可能性是实际世界的真实体现。真实世界充满了不确定性。从某种意义来说,生活中唯一确定的事情就是其不确定性。,正是不确定性使得生活充满了魅力和迷人的色彩。有多少人会享受其未来每一时刻全部已经确定了的世界呢?,我们肩膀上长着自己的脑袋我们可以充分运用我们自己的逻辑思维我们需要习惯逆向思维方式让我们没有任何约束地看待世界上的任何问题这样,世界就不会停滞,就会更让人能够接受,世界上问题之根源,那些把世界简单化,把世界说成只有“是”和“非”的

20、人,不是无知,就是别有用心。人类世界上如此多的麻烦,有哪些不属于这个范畴呢?,数据是什么?,Data=¥,数据的妙用,数据的妙用(统计与欺骗),有一个人陆续收到一个人的Email告之明天足球比赛的结果,连续五次都预测对了。第六次时他要求你付200块给他以知明天的比赛结果,你说这个人有预测比赛的能力吗?(如果此人是猜的话,连续猜对五场的概率是1/25=0.031)(详细请见读者2005.22),什么是统计,实际问题,数据收集,试验设计抽样调查,数据分析,统计方法(估计与检验),结论,建议与讨论,什么是统计,Thomas Bayes(1702-1761),统计在工业上的应用,Statistical

21、 Quality Control(On line)Taguchi Methods(Off-line)6 Sigma Methods Beginner,Black belt,Master black belt,Green belt,Champion,ExecutiveReliability,Statistical Process Control(一),Statistical Process Control(二),Shewhart Chart-3,-2,2,3,-3,6 Sigma Methods,http:/,1986西格玛方法被引入摩托罗拉公司,1987制定1992 应达到西格玛目标,1988

22、 马科姆鲍德里奇全美质量大奖,1991 引入“黑带创意”,1992 每两年减少缺陷十倍,运作周期每五年降低10倍。,1998 公司重组,1999 行为准则,追求卓越和平衡的记分卡,2002 西格玛业务改进,摩托罗拉公司六西格玛的发展,2003 数字六西格玛,1,规格上限,规格的下限,减少散布是 6的核心。,平均,目标(Target),p(不良率),什么叫Six Sigma?,缩小不良的核心是减少散布。,记号前的数值(Z值)越大,不良发生概率越小。,目标,目标,规格限,规格限,不 良 可 能 性,减 少 的不良可能性,6s,u(平均值),0.01ppm,LSL,s,USL,12s,6s,0.01

23、ppm,什么叫Six Sigma?,六西格玛近乎完美,平均值,每10亿零件中有2个零件,Cp=2,规范下限,规范上限,缺陷,缺陷,u(平均值),3.4ppm,LSL,USL,4.5s,1.5s,7.5s,0ppm,目标(Target),什么叫Six Sigma?,DMAIC 与过程改进路线图,DMAIC,界定(Define)什么是最重要的?测量(Measure)我们目前做得怎样?分析(Analysis)错在哪里?改进(Improve)需要采取哪些措施?控制(Control)我们如何保证业绩?,有哪些可以实现本组织目标并提供最大收益的改进机会。我们目前的业务水平怎样(如西格玛水平或Cpk)?业绩

24、中存在之差距或问题的根本原因是什么?有哪些可能的解决方案,我们如何实施最佳解决方案?我们如何保持已经取得的成绩?,六西格玛改进过程,Reliability,产品寿命分布及统计分析 恒进应力寿命试验 加速应力寿命试验截尾数据的统计分析 定时截尾 定数截尾,统计在农林牧渔业上的应用,Design of Experiment(DOE)气象渔业生态农业环境保护动物保护(capture recapture),Design of Experiment,军官问题(这是世纪瑞士数学家欧拉提出的)设有种军衔和来自个团的名军官,能不能把他们排成行列的方阵,使得每行每列里都有每种军衔的一名军官和每个团的一名军官?数

25、学问题:是否存在6阶的正交拉丁方?,Design of Experiment,Design of Experiment,欧拉猜想:当N为奇数的2倍时(包括N=6),问题是无解的到20世纪50年代,印度数学家Bosh等人证明:除N=2和N=6外,这个问题都有解!这就是说,欧拉的猜想除N=6外,其余都猜错了!,Climate(Global Temperature),渔业(花港观鱼),统计在商业中的应用,市场调查与咨询物流(仓库的设计与储量分析)交通运输业的统计分析数据挖掘,市场调查与抽样(一),传统的抽样方法:1.简单随机抽样 2.分层抽样 3.二阶抽样 4.整群抽样 5.二重抽样传统抽样的特点:

26、成本与误差的平衡 设计与分析的结合,市场调查与抽样(二),统计模拟与重抽样(Monte Carlo&Resampling)1.伪随机数的产生:同余法、混合同余法、逆变换法等 2.重抽样方法:刀切法(Jecknife)、自助法(Bootstrap)3.新兴的抽样方法 MCMC(Markov Chain Monte Carlo)模拟退火(Simulated Annealing)特点:计算机的应用!Ross,S.M.(2002).Simulation,3rd Ed.,Academic P,Data Mining(一),:,,,,,.,舅舅:不要吃酒,吃酒误事,吃了二两酒,不是动怒,就是动武,吃酒要被

27、酒杀死,一点酒也不要吃。,Data Mining(二),7 2 2x3 40 6 二四六八 1 1=1 10002=100100100 7/8 6873x,不三不四 接二连三 陆续不断 无独有偶 一成不变 千方百计 七上八下了不起thanks,Data Mining(三),Data Mining(四),统计方法计算机的应用计算方法,Its hot!,Data Mining(五)(啤酒与尿布),有一次,美国沃尔玛公司的分店经理发现:一段时期以来,每逢周末店内啤酒和尿布的销量 都会同比攀升。.分析还发现:原来这些人习惯晚上边看球赛、边喝啤酒,对于要照顾 的孩子,为了图省事就用一次性尿布。于是沃尔玛

28、决定:把这两种商品集中摆在一起。,Financial and Acturial Statistics,Nobel Prizes 期权定价模型、投资组合模型Insurance 保费的计算、产品的设计,在军事及航空航天中的应用,SPRT检验(一),Samuel S.Wilks(1906-1964),Abraham Wald(1902-1950),SPRT检验(二),20世纪40年代,Wilks在普林斯顿大学数学系工作,并任华盛顿海军研究局顾问,成立了普林斯顿统计研究小组(SRG-P)。当Theodore W.Anderson还是此小组的研究生时研究了如下课题:由于日本人以随机形态在海岸线上布满地雷

29、,而进攻日本本土日子越来越近,故美国需要找出一种毁坏地雷的有效方法。在此之前,欧洲曾尝试过从飞机上丢炸弹来引爆地雷,但效果不好。于是,Anderson等人设计一种新方法,但实验数据表明这种方法并不有效。这样就导致美国在日本投下原子弹的原因之一。,SPRT检验(三),Wilks又在哥伦比亚大学组建了第二个统计研究小组(SRG-Pjr),这个小组的成果之一即是提出了与此与此序贯分析(序贯分析当时被列为最高机密,直至战争结束多年后,参加这项研究的专家都不能对外发表论文)。后来,Abraham Wald通过高度抽象的理论归纳,提出了决策理论。,The Applications In Social Sc

30、iences,法律心理学(测慌)经济学社会学人口学管理科学文学考古,The Applications In Social Sciences(法律之一),数据:美国佛罗里达,1976-1977年凶杀案结论:白人被判死刑的比例为:19/160=11.9%黑人被判死刑的比例为:17/166=10.2%,The Applications In Social Sciences(法律之二),Contingency Table(列联表),The Applications In Social Sciences(法律之二),The Applications In Social Sciences(文学红楼梦),多

31、元统计分析:聚类分析,在IT业中的应用,分类、搜索图像或模式识别网络完全(数字签名),统计在医药卫生中的应用,Biostatistics 制药业(比对试验)疾病的诊断(Bayes方法,图模型等)病理分析 疾病的控制,The Applications In Bioinformation,The Applications In Other Fields,地质勘探公安(指纹识别、脚印识别、图像恢复)服务行业体育,在足球中的应用(一),Scoring that breakthrough goal can give a team the impetus to win.,在足球中的应用(二),Goals

32、beget goals Score once and youre more likely to score again,say statisticians.Michael Hopkin(Published online:9 June 2006;doi:10.1038/news060605-17,陈希孺(2002).数理统计学简史,湖南教育出版社.陈善林、张浙(1987).统计发展史,立信会计图书用品社.Huff,D.(1982).How to Lie with Statistics,W.W.Norton&Company.Salsburg,D.(2001).The Lady Tasting Tea:How Statistics Revolutionized Sciences in the Twentieth Century,Henry Holt and Company.(邱东译,2005),

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号