《数理统计相关知识汇总.ppt》由会员分享,可在线阅读,更多相关《数理统计相关知识汇总.ppt(36页珍藏版)》请在三一办公上搜索。
1、2数理统计相关知识汇总,营销数据的统计处理,2,引言,1998年对我国105家企业应用各种统计方法的情况作了一个调查,并把它与美国学者福吉尼在1983年对美国公司的调查情况做了比较。如下图所示:,3,各种方法使用情况(美1983),4,各种方法在中国使用情况(随机抽样)(1998年),5,统计学(statistics)是用以收集数据、分析数据和由数据得出结论的一组概念、原则和方法。从统计学的内容来看,统计所研究和处理的是一批有“实际背景”的数据,尽管数据的背景和类型各不相同,但从数据的形成来看,无非是横剖面数据和纵剖面数据两类(或者叫做静态数据和动态数据)。研究横剖面数据结构的有效统计方法是多
2、元统计分析。纵剖面数据是由某一现象或若干现象在不同时刻上的状态所形成的数据,它反映的是现象以及现象之间关系的发展变化规律性。研究这种数据的有效统计方法是时间序列分析。,6,多元统计分析是数理统计学的一个重要分支,具有广泛的应用性,它在自然科学、社会科学,尤其是经济学、管理学等各领域中得到了越来越广泛的应用,是一种实用性强的数据处理方法。课程中将重点介绍多元统计中最具有实用性的内容,因子分析、聚类分析、回归分析等。特别介绍了降维技术,将原始的多个指标约化为少数几个综合指标,便于对复杂数据进行分析处理。,7,时间序列分析是根据系统观测得到的时间序列数据,通过曲线拟合和参数估计来建立数学模型的理论和
3、方法。一般采用曲线拟合和参数估计方法(如非线性最小二乘法)进行。时间序列分析常用在国民经济宏观控制、区域综合发展规划、企业经营管理、市场潜量预测、气象预报、水文预报、地震前兆预报、农作物病虫灾害预报、环境污染控制、生态平衡、天文学和海洋学等方面。,8,由于历史发展所形成的习惯,多元统计数据分析被限制在一定范围内,通常只处理所谓截面样本数据,即静态数据,而不考虑多元复杂集合的时间迹向。统计学中将时序样本数据分析归为时间序列分析。一些著名的统计学家认为,做这样的区别,与其说是逻辑上的原因,倒不如说是为了方便。将多元统计分析与时间序列动态趋势性研究有效地结合起来,这是数据分析发展的新方向。这也正是我
4、安排这两部分内容的想法。,9,运筹学能够对经济管理系统中的人力、物力、财力等资源进行统筹安排,为决策者提供有依据的最优方案,以实现最有效的管理。通常以最优、最佳等作为决策目标,避开最劣的方案。,运筹学(Operations Research),10,运筹学在工商管理中的应用,生产计划:生产作业的计划、日程表的编排、合理下料、配料问题、物料管理等。库存管理:多种物资库存量的管理,库存方式、库存量等。运输问题:确定最小成本的运输线路、物资的调拨、运输工具的调度以及建厂地址的选择等。,11,运筹学在工商管理中的应用,人事管理:对人员的需求和使用的预测,确定人员编制、人员合理分配,建立人才评价体系等。
5、市场营销:广告预算、媒介选择、定价、产品开发与销售计划制定等。,12,运筹学在工商管理中的应用,财务和会计:包括预测、贷款、成本分析、定价、证券管理、现金管理等。其他:设备维修、更新,项目选择、评价,工程优化设计与管理等。,13,多元分析方法、时间序列分析和最优化等方法都是依赖于计算机的发展而发展的,如果不使用计算机,多元分析方法、时间序列分析和最优化等方法中的许多计算几乎是不可能完成的。为了做到学以致用,在课程中我们还将结合授课内容介绍几种国内外通用的统计软件和数学软件,如SPSS、EViews软件等。,统计的一些基本概念,15,1.1 统计是什么?,统计是人类思维的一个归纳过程站在一个路口
6、,看到每过去20辆小轿车时,也有100辆自行车通过,而且平均每10个轿车载有12个人。于是,你认为小汽车和自行车在这个路口的运载能力为24:100。这是一个典型的统计思维过程。,16,1.1 统计是什么?,一般来说,统计先从现实世界收集数据(信息),如观测路口的交通。然后,根据数据作出判断,称为模型。模型是从数据产生的,模型也需要根据新的信息来改进,不存在完美的模型。模型的最终结局都是被更能够说明现实世界的新模型所取代。,17,1.1 统计是什么?,统计学(statistics)是用以收集数据,分析数据和由数据得出结论的一组概念、原则和方法。统计与数学的区别:统计以归纳为主要思维方式,数学以演
7、绎为主要思维方式,18,统计可应用于各个不同学科,在有些学科已经有其特有的方法和特点;如生物统计(biostatistics)、经济计量学(econometrics)以及目前很热门的生物信息(bioinformation)和数据挖掘(Data Mining)的方法主体都是统计。,19,1.2 现实中的随机性和规律性、概率和机会,我们知道物理学的许多定律:例如 v=v0+at;F=ma 等等然而在许多领域,很难用如此确定的公式或论述来描述一些现象。一些现象既有规律性又有随机性(randomness)。例如:肺癌患者中(主动或被动)吸烟的比例较大,这体现了规律性;而绝非每个吸烟的人都会患肺癌,这体
8、现了随机性。,20,1.2 现实中的随机性和规律性、概率和机会,再如,一般来说,白种人身材比黄种人要高些,这就是规律性。但对于具体的一个白人和一个黄种人,就很难说谁高谁矮了,这体现了随机性。,21,1.2 现实中的随机性和规律性、概率和机会,什么是概率(probability)?新闻中最常见的是“降水概率”从某种意义说来,概率描述了某件事情发生的机会。显然,这种概率不可能超过百分之百,也不可能少于百分之零。概率是在0和1之间(也可能是0或1)的一个数,描述某事件发生的机会。,22,1.2 现实中的随机性和规律性、概率和机会,有些概率是无法精确推断的。比如你明天感冒的概率;有些概率是可以知道的。
9、比如在打桥牌时得到一手黑桃的概率为1/635013559600,大约为1.57477010-12(条件是洗牌均匀,没有作弊)。,23,1.3 变量和数据,一节火车车厢有多少坐位是一个固定的数目,称为常数(constant)或者常量。但是,开车后,坐在这节车厢的旅客有多少就没准了,具有随机性。该车厢的乘客数为变量(variable)。一个学校的注册在校的男女生比例是固定不变的,为常量.但是,该校任意一群学生的男女生比例就不一定和全校的比例一样了,它为变量(variable)。,24,1.3 变量和数据,有了变量,何谓数据?不同机构调查所得到的北京收入万元以上市民的比例都不一样,这是变量。而这些调
10、查产生一些数目,这些数目就是数据。数据是关于变量的观测值。通过数据可验证有关的理论或假定。比如通过抽样调查验证美国选民对共和党候选人的支持率是否超过50%。通过抽样,可以检验某批产品是否合格等等.,25,1.4 变量之间的关系,现实世界紧密联系的,人们想知道投资方式和经济效益之间的关系、旅客人数和经济发展之间的关系等等。不讨论变量之间的关系,就无从谈起任何有深度的应用,统计的基本概念就仅仅是摆设而已。,26,1.4.1 定量变量间的关系,例1.1广告投入和销售之间的关系。下表显示了某企业的广告投入和销售额之间的关系(万元),27,横坐标代表广告投入,纵坐标代表销售收入,看得出有何种关系吗?,2
11、8,能否从该数据回答下面问题:这两个变量是否有关系?如果有,它们的关系是否显著?这些关系是什么关系,能否用数学模型来描述?这个关系是否带有普遍性?这个关系是不是因果关系?,29,关于因果关系,在可控制的试验中,较容易找到因果关系;比如治疗方式和疗效的关系等。但是,一般来说,变量之间有关系这个事实并不意味着一定存在明确的因果关系。比如,北京GDP在一年中是快速增长的,而一个刚出生的巴拿马婴儿在这一年中的体重也是快速增长的。如果画出图来,它们有类似线性的关系,但它们之间显然没有因果关系。,30,只要有关系,即使不是因果关系也不妨碍人们利用这种关系来进行推断。比如利用公鸡打鸣来预报太阳升起;虽然公鸡
12、打鸣绝对不是日出的原因(虽然打鸣发生在先)运用简单的办法(诸如画图)可以得到一些信息,但不一定能够给出满意的答案。需要运用更多的工具和手段来进行数值分析,从而得到更加严格和精确的解答。因此,需要继续我们的课程.,31,1.4.2 定性变量间的关系,例1.2下面是对123人进行关于某项政策调查所得结果的一个简单的三维表,该表显示了人们的收入和性别对该项政策的观点。,32,计算机软件所应用的数据形式,33,从这个数据,我们希望得到收入、性别对观点是否有影响及如何影响。如果要得到更加精确的结论,就要进行进一步的分析和计算。可用列联表分析或多项分布对数线性模型进行分析。,34,1.4.3 定性和定量变
13、量间的混和关系,有些数据不是仅包含定性变量或定量变量,需要研究包括定性和定量两种变量的一些复合变量之间的关系。下面数据就包含两种变量。该数据有2个定性变量(性别,污染程度)、一个定量变量(年龄)以及发生哮喘的人数,我们希望知道哮喘和这三个变量之间的关系。,35,36,1.5 统计、计算机与统计软件,计算机的使用,从计算机语言到“傻瓜式”的点击鼠标,输出结果也从数字输出到各种可以想象得到的形式。输入数据,点鼠标做一些选项,就可得到漂亮结果,但其中充满了危险的陷阱计算机无法识别统计方面的错误,错误的方法、错误的数据形式都必然输出错误的结果(虽然看上去可能很漂亮),得到大量垃圾。另外,统计软件输出的结果较多,完全理解比较困难,学习统计软件的最好方式是需要时在使用中学习。,