《频数分布表及图形描述.ppt》由会员分享,可在线阅读,更多相关《频数分布表及图形描述.ppt(98页珍藏版)》请在三一办公上搜索。
1、统计的应用实例,【例1-1】用统计识别作者 17871788年,三位作者Alexander Hamilton,John Jay和James Madison为了说服纽约人认可宪法,匿名发表了著名的85篇论文。这些论文中的大多数作者已经得到了识别,但是,其中的12篇论文的作者身份引起了争议 通过对不同单词的频数进行统计分析,得出的结论是,James Madison最有可能是这12篇论文的作者。现在,对于这些存在争议的论文,认为James Madison是原创作者的说法占主导地位,而且几乎可以肯定这种说法是正确,统计的应用实例,【例1-2】用简单的描述统计量得到一个重要发现 费舍(RAFisher)
2、在1952的一篇文章中举了一个例子,说明如何由基本的描述统计量的知识引出一个重要的发现。20世纪早期,哥本哈根卡尔堡实验室的施密特(J.Schmidt)发现不同地区所捕获的同种鱼类的脊椎骨和鳃线的数量有很大不同;甚至在同一海湾内不同地点所捕获的同种鱼类,也发现这样的倾向 然而,鳗鱼的脊椎骨的数量变化不大。施密特从欧洲各地、冰岛、亚速尔群岛以及尼罗河等几乎分离的海域里所捕获的鳗鱼的样本中,计算发现了几乎一样的均值和标准偏差值。由此,施密特推断所有各个不同海域内的鳗鱼是由海洋中某公共场所繁殖的。后来名为“戴纳(Dana)”的科学考察船在一次远征中发现了这个场所,统计的应用实例,【例1-3】挑战者号
3、航天飞机失事预测 1986年1月28日清晨,载有7名宇航员的挑战者号进入发射状态。就在发射前,有冰片牢附在机壳上。几分钟后,正当电视新闻报道它已进入轨道时,航天飞机在毁灭性的爆炸声中化成碎片,机上的宇航员片骨未存 推动航天飞机进入太空的两个固体燃料发动机是由Thiokol公司制造的。失事前一天晚上,Thiokol公司的经理们和国家航空航天局就如期发射还是推迟发射产生了争执。天气预报发射时的气温为310F。争执的结果采纳了Thiokol公司经理们的建:按计划发射航天飞机。因为他们觉得没有确凿证据表明低温会对固体燃料火箭推进器的性能产生影响,统计的应用实例,【例1-3】挑战者号航天飞机失事预测 在
4、此次失事前,该航天飞机24次发射成功。将航天飞机送入太空的两个固体燃料推进器由6只O型项圈密封。在几次飞行中,曾发生过O型项圈被腐蚀或气体泄漏事故。这样的事故是及其危险的。前24次发射中有一次发动机遭到了永久性破坏。根据23次飞行中发生腐蚀或泄漏事故的次数(因变量)及火箭连接处的温度(自变量)数据,进行线性回归得到的回归方程为当温度为310F时,O型项圈发生事故的预计次数为2.225次。结果显示连接处的温度与O型项圈事故之间有一定的相关性。如果当时那些经理们看到了回归的预测结果,也许推迟发射会成为其谨慎的选择,管理统计的描述,使用对象:管理类各专业,频数分布表的生成,【例1-1】为研究人们对不
5、同类型软饮料的偏好情况,一家调查公司在某超市随机调查了50名顾客。右表是顾客性别及其所偏好的饮料类型记录。生成频数分布表,观察不同性别的顾客及其所偏好的饮料类型的分布状况,并进行描述性分析,软件应用:几种常用的统计软件(Software),典型的统计软件SASSPSSRMINITABSTATISTICAExcel,1.SPSS概述,随着计算机的普及,数据库的广泛应用,积累了各种各样的数据。这些数据的特点是数据量大、杂乱无章!如何从这些数据中得到有价值的信息?这就是统计分析所研究的课题,而SPSS正是解决这样问题的工具及手段。,1)SPSS的产生背景,20世纪60年代末,美国斯坦福大学的3位研究
6、生研制开发了统计分析软件:社会科学统计软件包(Statistical Package for Social Science)1975年成立了SPSS软件公司,专门进行统计分析软件的研发。由于市场前景广阔,多家从事统计分析软件开发的公司相继出现,但SPSS公司始终处于市场领先的位置。,2)SPSS的发展过程,1994-1998年间,SPSS公司兼并了多家从事统计分析软件研发的公司,对这一市场进行了整合,软件名称也改为:统计产品与服务解决方案(Statistical Product and Service Solutions),最新版本SPSS20.0。据不完全统计,现在的SPSS统计分析软件在全
7、球拥有26万家以上的用户,广泛应用于社会的各个领域,是当今世界最流行的软件之一。我们现在使用的是SPSS for Windows 17.0版。,3)SPSS的应用领域,啤酒与尿布的故事:在美国的一家沃尔玛超市里,有一个有趣的现象:尿布和啤酒赫然摆在一起出售。匪夷所思!原来,沃尔玛请咨询公司进行一年一度的数据分析时发现,有相当数量购买尿布的购货单中也购买了啤酒!经公司调查发现:美国的妇女们经常会嘱咐她们的丈夫,在下班回家的路上务必为孩子购买尿布。而丈夫在买尿布的同时,大都顺手买回犒劳自己的啤酒!发现这一秘密后,超市将啤酒和尿布放在了相邻的柜台进行销售,其结果是啤酒和尿布的销量都大大提高。咨询公司
8、发现这一秘密的手段就是关联分析和频数分析,这正是SPSS统计分析方法及应用中要讲的部分内容。,SPSS统计分析方法在各行各业中有着广泛的应用。频数分析:科学经营的依据-房地产项目,不同户型数量的确定。,经济预测:制定省市乃至于一个企业的发展规划、营销规划、预算的制定;上市公司是否被特别处理(ST)。判别分析:呼叫指纹识别、贷款客户的信用等级识别、诊病。聚类分析:市场的细分。手机使用者涉及各行各业,其使用什么品牌、什么功能、什么价位的手机?时间序列分析:北京乘客数量的发展预测SPSS统计分析又称为数据分析、数据挖掘,是用定量的方法,研究系统中各个变量之间的相互关系,得到的结论用于决策,使得决策更
9、科学、更优化!,二、SPSS的主界面,用SPSS生成定性数据的频数分布表,生成频数分布表,SPSS,第1步:选择【Analyze】【Descriptive Statistics-Frequencies】进入主对话框第2步:将“饮料类型”或“顾客性别”选入【Variable(s)】;选中【Display Frequency tables】,SPSS生成的分布表,不同类型饮料的分布表,升序排列(汉字拼音字母),用SPSS生成定性数据的列联表(Crosstabulation交叉表),生成交叉频数分布表,SPSS,第1步:选择【Analyze】【Descriptive Statistics-Cross
10、tabs】进入主对话框第2步:将“饮料类型”选入【Row(s)】,将“顾客性别”选入【Column(s)】(行列可以互换)第3步:(若需要对列联表进行描述性分析)点击【Cells】,在【Percentages】下选中需要的统计量,如【Row】、【Column】、【Total】等;(若需要图形)点击【Display clustered bar chart】。点击【OK】,列联表的描述性分析(例题分析SPSS),列联表的统计描述,行百分比,列百分比,列联表的描述性分析(例题分析SPSS),列联表的统计描述,行百分比,列百分比,2009年7月26日至8月3日第13届世界游泳锦标赛在意大利罗马举行。本
11、届游泳世锦赛金牌总数取得前三名的国家所获得奖牌的分布情况如下表所示:,(二)图形表示法,根据上面的数据,你认为可以选择哪些图形来展示三个国家所获得的奖牌情况?,表示频次与频率的常用图形,饼形图条形图直方图茎叶图箱形图折线图,1.饼图(Pie Chart),(1)适用范围:适用于所有测度级别的数据。,(2)SPSS实现:,Analyze,Graphs,Chart,Frequencies,Descriptive Statistics,Pie,第1步:选择【Graphs】【Interactive-Pie-Clustered】,进入主对话框。第2步:如果绘制简单饼图,将某个分类变量(如“饮料类型”)选
12、入【Slice】(部分,片);点击【Pies】,选择在饼图中要展示的内容,如【Category】、【Count】、【Percen】等。点击【OK】;如果要绘制复式饼图,将某个分类变量(如“饮料类型”)选入【Slice】;将另一个分类变量(如“顾客性别”)选入【Cluster】;点击【Pies】,点击【确定】,用SPSS绘制饼图(Pie),简单饼图(pie Chart),用圆形及圆内扇形的角度来表示数值大小的图形,主要用于表示一个样本(或总体)中各组成部分的数据占全部数据的比例用于研究结构问题,复式饼图(pie Chart),主要用于展示两个或多个分类变量的构成比较,比如,在男女分类的基础上又增
13、加了饮料类型的分类。,2.条形图(Bar Chart),(1)适用范围:适用于顺序级以上的数据,也可以“强行”用于名义级。,(2)SPSS实现:,Analyze,Graphs,Chart,Frequencies,Descriptive Statistics,Bar,复式条形图(bar Chart),饮料类型和顾客性别的条形图(SPSS的输出),(2)SPSS实现:,3.直方图(Histogram),(1)适用范围:适用于顺序级以上的数据。,(3)与条形图的关系:条形图是直方图的特例。,1.23,茎节宽度为100,(3)“茎节”的宽度,确定原则:,茎节是有变化的,123,12.3,茎节宽度为10
14、,样本值=“茎节.叶”表达“茎节”的宽度,(4)茎节的长度,茎节长度=“允许的最大叶值最小叶值+1”。,茎节长度=,4.茎叶图,(1)适用范围:适用于顺序级以上的数据。,(2)基本含义:,某班级男生的身高数据(单位:厘米),按照“样本数据集合中的茎节必须是有变化”的原则,显然,在本例中,应以百位数和十位数为“茎(节)”,也就是说,“茎(节)”的宽度是10(厘米)。这样,“叶”就只能是个位数了。,(5)SPSS实现:,某商品价格(单位:元)Stem-and-Leaf Plot Frequency Stem&Leaf 1.00 99.3 1.00 99.5 3.00 99.677 7.00 99.
15、8889999 8.00 100.00001111 5.00 100.22333 4.00 100.4455 1.00 100.6 Stem width:0.1000 Each leaf:1 case(s),箱形图,SPSS实现,图1 男生身高数据普通箱形图,图2 男生身高数据修正箱形图,多批数据箱线图(例题分析),【例2-4】从某大学经济管理专业二年级学生中随机抽取11人,对8门主要课程的考试成绩进行调查,所得结果如表。试绘制各科考试成绩的批比较箱线图,并分析各科考试成绩的分布特征,用SPSS绘制多批数据箱线图,第1步:选择【Graphs】下拉菜单,并选择【Boxplot】第2步:在出现的对
16、话框中选择【Simple】,在【Data in Chat Are】中选择【Summaries of separate variables】,点击【Define】返回主对话框第3步:在主对话框将所有变量(这里是11个学生)选 入Boxes Represent】,将“课程名称”选入【Label Cases by】。点击【OK】,未分组数据多批数据箱线图(例题分析Median/Quart./Range),8门课程考试成绩的箱线图,11名学生考试成绩的Median/Quart./Range箱线图,未分组数据多批数据箱线图(SPSS绘制的箱线图),折线图,用SPSS绘制折线图的步骤是:选择Graphs下
17、拉菜单中的Legacy Dialogs子菜单,选择Line模块 在Line Charts界面选择Simple,然后点击Define,进入Define Simple Line界面 把需要绘制折线图的变量从左框选择移入Category Axis,然后点击OK,一张好的图表应包括以下基本特征:显示数据让读者把注意力集中在图表的内容上,而不是制作图表的程序上避免歪曲强调数据之间的比较服务于一个明确的目的有对图表的统计描述和文字说明,鉴别图表优劣的准则,数据的描述统计量,哪名运动员的发挥更稳定?,在2008年8月10日举行的第29届北京奥运会女子10米气手枪决赛中,进入决赛的8名运动员的预赛成绩和最后1
18、0枪的决赛成绩如下表:,哪名运动员的发挥更稳定?,最会的比赛结果是,中国运动员郭文珺凭借决赛的稳定发挥,以总成绩492.3环夺得金牌,预赛排在第1名的俄罗斯运动员纳塔利娅帕杰林娜以总成绩498.1环获得银牌,预赛排在第4名的格鲁吉亚运动员妮诺萨卢克瓦泽以总成绩487.4环的成绩获得铜牌,而预赛排在第3名的蒙古运动员卓格巴德拉赫蒙赫珠勒仅以479.6环的成绩名列第8名由此可见,在射击比赛中,运动员能否取得好的成绩,发挥的稳定性至关重要。那么,怎样评价一名运动员的发挥是否稳定呢?,(一)集中趋势测度指标,平均数中位数和分位数众数用哪个值代表一组数据?,也称为均值,常用的统计量之一消除了观测值的随机
19、波动易受极端值的影响根据总体数据计算的,称为平均数,记为;根据样本数据计算的,称为样本平均数,记为x,平均数(Mean),简单算数平均数(Simple Mean),设一组数据为:x1,x2,xn(总体数据xN),样本平均数,总体平均数,加权算术平均数(Weighted Mean),设各组的组中值为:M1,M2,Mk 相应的频数为:f1,f2,fk,样本加权平均:,总体加权平均:,加权平均数(例题分析),加权平均数中权数对均值的影响,【例】甲乙两组各有10名学生,他们的考试成绩及其分布数据如下:甲组:考试成绩(x):0 20 100 人数分布(f):1 1 8 乙组:考试成绩(x):0 20 1
20、00 人数分布(f):8 1 1,排序后处于中间位置上的值。不受极端值影响,2.位置确定,3.数值确定,思考:什么测度级别的数据可以计算中位数?,中位数(Median),未分组资料中位数的计算(奇数个数据),【例3-3】9个家庭的人均月收入数据 原始数据:1500 750 780 1080 850 960 2000 1250 1630 排 序:750 780 850 960 1080 1250 1500 1630 2000 位 置:1 2 3 4 5 6 7 8 9,中位数 1080,【例3-3】10个家庭的人均月收入数据排 序:750 780 850 960 1080 1250 1500 1
21、630 2000 2800位 置:1 2 3 4 5 6 7 8 9 10,未分组资料中位数的计算(偶数个数据),未分组资料中位数的位置及数值确定:,:中位数组的上限,算法2:,算法1:,分组资料,刚好大于等于 的累计数所在的组,50名学生统计学考试成绩分布表,四分位数用3个点等分数(Quartile),排序后处于25%和75%位置上的值,不受极端值的影响,方法2:较准确算法(SPSS的算法),方法1:定义算法,未分组资料四分位数位置的确定,未分组资料四分位数的计算,【例】9个家庭的人均月收入数据 原始数据:1500 750 780 1080 850 960 2000 1250 1630 排
22、序:750 780 850 960 1080 1250 1500 1630 2000 位 置:1 2 3 4 5 6 7 8 9,分组资料四分位数的计算,刚好大于等于 或 的累计数所在的组,众数(Mode),一组数据中出现次数最多的变量值适合于数据量较多时使用不受极端值的影响一组数据可能没有众数或有几个众数,单项数列,某商品的价格,价格,单位:元,次数,频率,9.93 9.94 9.95 9.96 9.97 9.98 9.99 10.00 10.01 10.02 10.03 10.04 10.05 10.06,1 0 1 1 2 3 4 4 4 2 3 2 2 1,3.33 0 3.33 3.
23、33 6.67 10.0 13.33 13.33 13.33 6.67 10.0 6.67 6.67 3.33,组距数列,某班组男职工的身高数据分组,:众数组的上限,算法2:,:众数组次数与前一组次数之差,:众数组次数与后一组次数之差,:众数组的下限,算法1:,:众数组的组距,某工业企业有职工10000人,其中工人8000人,干部2000人,为了了解职工家庭生活状况,在工人和干部两个组均以5%的比例抽选职工进行调查,结果如下表:,众数、中位数、平均数的特点和应用,平均数易受极端值影响数学性质优良,实际中最常用数据对称分布或接近对称分布时代表性较好中位数不受极端值影响数据分布偏斜程度较大时代表性
24、较好众数不受极端值影响具有不惟一性数据分布偏斜程度较大且有明显峰值时代表性较好,仅仅知道数据的水平是远远不够的,还必须考虑数据之间的差距有多大。数据之间的差距用统计语言来说就是数据的离散程度。数据的离散程度越大,各描述统计量对该组数据的代表性就越差,离散程度越小,其代表性就越好。,(二)离散趋势的测度指标,极差和四分位差方差和标准差离散系数,离散趋势指标的使用,假定有两个地区每人的平均收入数据,其中甲地区的平均收入为5000元,乙地区的平均收入为3000元。你如何评价两个地区的收入状况?如果平均收入的多少代表了该地区的生活水平,你能否认为甲地区的平均生活水平就高于乙地区呢?,极差和四分位差,一
25、组数据的最大值与最小值之差离散程度的最简单测度值易受极端值影响未考虑数据的分布计算公式为:R=max(xi)-min(xi),极差,表1 某商品在抽样商店的单价(单位:元),某商品价格频数累计表(单位:元),离散测度指标,资料未分组的计算,资料分组,单项分组的计算,组距分组的计算,四分位差(Quartile Deviation),也称内距或四分间距上四分位数与下四分位数之差:Qd=QU QL反映了中间50%数据的离散程度不受极端值的影响用于衡量中位数的代表性,25%,75%,方差和标准差(Variance and Standard Deviation),数据离散程度的最常用测度值反映各变量值与
26、均值的平均差异根据总体数据计算的,称为总体方差(标准差),(Population Variance and Standard Deviation)记为2();根据样本数据计算的,称为样本方差(标准差),(Sample Variance and Standard Deviation)记为s2(s),样本方差和标准差,未分组数据,组距分组数据,未分组数据,组距分组数据,方差的计算公式,标准差的计算公式,总体方差和标准差,未分组数据,组距分组数据,未分组数据,组距分组数据,方差的计算公式,标准差的计算公式,自由度(degree of freedom),自由度是指一组数据中可以自由取值的个数当样本数据
27、的个数为n时,若样本平均数确定后,则附加给n个观测值的约束个数就是1个,因此只有n-1个数据可以自由取值,其中必有一个数据不能自由取值计算离差平方和时,必须先求出样本均值x,而x则是附件给离差平方和的一个约束,因此,计算离差平方和时只有n-1个独立的观测值,而不是n个,样本标准差(例题分析),【例3-5】计算计算9名员工的月工资收入的方差和标准差 1500 750 780 1080 850 960 2000 1250 1630,方差,标准差,1.也称标准化值2.对某一个值在一组数据中相对位置的度量3.可用于判断一组数据是否有离群点(outlier)用于对变量的标准化处理均值等于0,方差等于1计
28、算公式为,标准化分数(Standard Score),用SPSS对数据进行标准化,第1步:选择【Analyze】下拉菜单,并选择【Descriptive statistics-Descriptive】选项进入主对话框第2步:在主对话框中将变量选入【Variables】然后选中【Save standardized values as variables】。点击【OK】(SPSS会将标准化后的变量以“Z”开头存放在原始变量工作表中),对数据标准化,SPSS,Analyze,Descriptive Statistics,Descriptives,进入描述统计模块Descriptives,标准化分数(
29、例题分析),离散系数,含义:标准差与其相应的均值之比对数据相对离散程度的测度消除了数据水平高低和计量单位的影响用于对不同组别数据离散程度的比较计算公式为,标准差系数,【例1-7】评价哪名运动员的发挥更稳定,数学成绩表,SPSS的实现过程:Analyze菜单Compare Means项中选择Means命令。,用SPSS比较不同性别同学身高的众数、中位数、均值、方差、标准差等。,数据集的分布特征,一、峰度(Kurtosis),二、偏度(Skewness),偏度(Skewness),峰度(Kurtosis),偏态系数大于1或小于-1,为高度偏态分布;偏态系数在0.51或-1-0.5之间,为是中等偏态
30、分布;偏态系数越接近0,偏斜程度越低偏度为0,表示数据分布形式与标准正态分布偏度相同;偏度大于0表示正偏差数值较大,说明与标准正态分布相比高峰在右边,为正偏或右偏,即有一长尾巴拖在左边;反之,小于0表示负偏差数值较大,说明与标准正态分布相比高峰在左边,为负偏或左偏,即有一长尾巴拖在右边。,峰度大于0表示比标准正态分布高峰更加陡峭,为尖顶峰分布;反之,峰度小于0,表示比标准正态分布高峰更加平缓,为平顶峰分布。,检验一个给定的数据是否服从正态分布的判别方法:,检验均值和中位数是否相等,偏度是否接近0以及峰度是否接近0来进行初步的估计。,SPSS的处理过程,Analyze,Descriptive Statistics,Frequencies,进入频次分析模块Frequencies,