《维数据的数字特征.ppt》由会员分享,可在线阅读,更多相关《维数据的数字特征.ppt(42页珍藏版)》请在三一办公上搜索。
1、数 据 分 析,山东交通学院 李晓燕,2,2023/9/14,内容及学时安排,数据描述性分析+软件 13,1,2,3,4,5,判别分析 8,6,聚类分析 8,方差分析 10,主成分与典型相关分析 8,回归分析 13,3,2023/9/14,参考资料,数据分析方法,梅长林编著,高等教育出版社实用统计方法,梅长林编,科学出版社应用多元统计分析,高惠璇编,北京大学出版社使用统计方法与SAS系统,高惠璇编,北京大学出版社多元统计分析(二版),何晓群编,中国人民大学出版社应用回归分析(二版),何晓群编,中国人民大学出版社统计建模与R软件,薛毅编著,清华大学出版社应用多元统计分析(第二版),沃尔夫冈.哈德
2、勒,利奥波德.西马著,陈诗一译Applied Multivariates Statistical Analysis,Wolfgang Hrdle,Lopold Simar,4,2023/9/14,考核方式,考核:期末成绩(闭卷考试+上机考试):60%。平时成绩(平时作业+考勤+大报告):40%。课程作业(1)作业题目在网络教学平台公布,按格式要求,以电子版方式通过平台提交。(2)每位学生应保留每次作业备份直到课程结束。(3)雷同的作业均按0分计算。,5,2023/9/14,大报告:要求:(1)调研,收集数据;(2)数据处理;(3)选合适的统计模型建模;(4)2-3人一组,写一篇大论文上交。做P
3、PT汇报,10-20分钟,提问2-3个问题。论文和答辩各占60、40分。老师占70%,学生30%。,6,2023/9/14,目的要求:掌握各种方法的原理和应用范围,会建立模型;用SAS等软件进行统计分析,熟悉输出结果,进行解释。建议:理论应用并重:理论的重点是思路,应用的重点是实践。重视练习:多做练习加深理解,实际操作熟悉软件。不缺课:内容前后呼应,缺课不利学习。“师傅领进门,修行在个人”。先修课程:数学分析、高等代数、概率论与数理统计,7,2023/9/14,绪 论,0.1 课程内涵0.2 课程体系及应用 0.3 统计学的产生与发展0.4 统计学与其他学科的关系0.5 统计软件0.6 应用案
4、例及选题参考,8,2023/9/14,0 绪论,0.1 课程内涵 数据分析(统计学statistics)以数据为依据,以统计方法为理论、计算机及统计软件为工具,研究多变量问题、挖掘数据的统计规律的学科。通过收集数据-整理数据-分析数据和由数据得出结论的一组概念、原则和方法(建模)。以归纳为主要思维方式。,9,2023/9/14,统计学与其他学科的关系,统计与数学:数学思维以演绎为主;统计以归纳为主,兼有演绎;数学是工具:统计各领域利用几乎所有数学;但统计本身的数学为具体目标服务,一般不形成数学体系。统计与计算机的关系最初的计算机是为科学计算而设计和建造的。统计是大型计算机的最早用户,由于统计和
5、数据打交道,没有计算机发展统计就没有前途.计算机和统计的发展相辅相成,路口每过去20辆小轿车,有100辆自行车通过.平均每10个轿车载12个人.于是,你认为小轿车和自行车在路口运载能力为24:100-典型的统计思维过程,10,2023/9/14,数据分析研究的过程,实际问题,11,2023/9/14,你想过下面的问题吗?,如何根据抽样数据研究该年级学生的学习成绩?用各科成绩总和作为综合指标,比较成绩差异;根据各科成绩相近程度对学生进行分类(文科成绩好与理科好);研究各科成绩间关系(物理与数学成绩,文科与理科成绩).,某年级抽6名学生5 门课期末成绩序号 政治 语文 外语 数学 物理 1 99
6、94 93 100 100 2 99 88 96 99 97 3 100 98 81 96 100 4 93 88 88 99 96 5 100 91 72 96 78 6 75 73 88 97 89,统计分析是以各变量n次观测组成的数据矩阵为依据,依实际问题需要进行分析,数据矩阵,“数据!数据!数据!”、“我不能做无米之炊!”Sherlock福尔摩斯,12,2023/9/14,0.2 课程体系及应用,大部分学科都涉及数据分析工作,因此统计几乎可与任一学科结合起来。如生物统计(biostatistics)、经济计量学(econometrics计量地理、及热门的生物信息(bioinformat
7、ion)和数据挖掘(Data Mining)的方法主体都是统计。,13,2023/9/14,通过测各类数据,判断文物出现的年代、种族.,成绩分析和预测.由高考成绩和高中成绩关系,预测高考成绩;按成绩进行分类(文理)、排名.,根据检查数据或病例资料诊断病例.,分析气象站资料(雨量,气温,气压,风速等),进行天气预报.,分析污染气体浓度,布局监测点,污染治理.,处理地质观测数据,进行矿产预测、构造解释、工程勘探等.,测人体部位尺寸,作统计分析,决定服装型号及比例.,农业灌区分类,品种筛选.,宏观经济、微观经济的应用.,研究青少年犯罪各因素间关系及变化规律.,虚词频数,鉴定作品,体育,军事,生物,心
8、理学,保险,地震预报等.,多元统计量分布,性质,理论概率统计,描述性分析1章,参数估计和假设检验概率统计中统计推断、方差分析,变量间相互依赖关系2回归分析;两组变量间关系4典型相关分析,相关变量变为不相关;高维数据降维4主成分、典型相关分析,变量或样品按相似程度分类6聚类、5判别分析,14,2023/9/14,社会经济统计,数理统计,政治算术,国势学派,最早流派之一。创始人德国康令(H.Conring 1606-81)和阿享瓦尔(G.Achenwall 171972).采用文字记述形式,把重要事项系统整理罗列(报表).,创始人格朗特(J.Graunt 162074)和威廉.配第(W.Petty
9、 1623-87)。主张以数字、重量和尺度来说话,用图表形式概括数字资料.,创始人比利时凯特勒(1796-74),产生19世纪中,把概率论引进统计学,为统计数量分析奠定数理基础(数学统计学院).,代表人恩格尔(1821-96)和梅尔(1841-1925).19世纪后兴起德国,融会国势和政治算术学派观点,把政府统计和社会调查融合起来,形成社会经济统计学,影响较大.(经济管理学院).,0.3 统计学的产生与发展,统计学的产生:17世纪中叶,英国威廉配第政治算术问世.,15,2023/9/14,0.3 统计学的产生与发展,历史上著名的统计学家Jacob Bernoulli(伯努利)(1654-170
10、5)Edmond Halley(哈雷)(1656-1742)De Moivre(棣莫弗)(1667-1754)Thomas Bayes(贝叶斯)(1702-1761)Leonhard Euler(欧拉)(1707-1783)Pierre Simon Laplace(拉普拉斯)(1749-1827)Adrien Marie Legendre(勒让德)(1752-1833)Thomas Robert Malthus(马尔萨斯)(1766-1834)Friedrich Gauss(高斯)(1777-1855)Johann Gregor Mendel(孟德尔)(1822-1884)Karl Pears
11、on(皮尔逊)(1857-1936)Ronald Aylmer Fisher(费希尔)(1890-1962)Jerzy Neyman(奈曼)(1894-1981)Egon Sharpe Pearson(皮尔逊)(1895-1980)William Feller(费勒)(1906-1970).,Thomas Robert Malthus(马尔萨斯),Pierre Simon Laplace(拉普拉斯),Leonhard Euler(欧拉),Friedrich Gauss(高斯),Johann Gregor Mendel(孟德尔),16,2023/9/14,Excel,SPSS,R,MATLAB,
12、SAS,数据分析功能强大,统计分析领域巨无霸。全球100强91家用SAS。需一定编程技术,价高,以编程为主的软件,应用广泛,有统计包。,免费开源,编程方便,可从网上下载软件包和程序。学统计用的多,主要问题没有“傻瓜化”,易操作,功能全,价格低。非统计工作者的选择,数据表格软件,画图和简单统计分析功能(需装数据分析功能),04 常用统计软件介绍,17,2023/9/14,FORTRAN,GAUSS,Eviews,S-PLUS,ArcGis,地理信息处理软件,空间统计分析,Minitab、Statistica:功能强大齐全,“傻瓜化”,不普遍。,处理回归和时间序列的软件,应用广、历史长、速度快、功
13、能强、有统计包。需编程,操作不易。,04 常用统计软件介绍,搞经济的喜欢,编程强。中国用的不多,18,2023/9/14,0.5 应用案例及选题参考,美国选举例子:谁会在1936选举中获胜?Alf London还是 F.D.R.(罗斯福)?Literary Digest(文摘)送出一千万份问卷(返回二百四十万份)后,预测London会赢.而Gallop(盖洛普)只问了5000人说 Roosevelt(罗斯福)会赢.最后罗斯福和盖洛普都赢了.文摘倒闭了.,19,2023/9/14,大学排名:非常敏感的问题。不同机构得出不同结果;如何理解这些结果呢?如何对学生成绩进行综合评价?-主成分公司信用评价
14、:一些公司试图得到贷款时无不良记录。如何根据它们的财务和商业资料来判断一个公司的信用等级呢?我国东部和西部概念比较笼统。如何选择一些指标来把各省,或各市县甚至村进行分类呢?DNA鉴定、蝴蝶的分类-聚类分析如何才能够客观得到电视节目收视率,以确定广告价格是否合理呢?确定红楼梦前四十和后四十回是否曹雪芹一人写?,0.6 应用案例及选题参考,20,2023/9/14,高中成绩和大学成绩是否密切相关?地震与油价上涨有关吗?-相关分析水质污染和那些因素有关?如何确定重金属污染源?-回归如何设计调查问卷,收集数据,调查大学生喜欢的手机品牌?两种小麦品种产量是否有显著差异?,0.6 应用案例及选题参考,21
15、,2023/9/14,1.1.1 一维总体的分布,1.1.2 表示位置的数字特征,1.1.4 表示分布形状的数字特征,1.1.3 表示分散性的数字特征,1.1 一维数据的数字特征,22,2023/9/14,1.1.1 一维总体的分布,X为一维总体,分布函数,总体p分位数,数字特征,23,2023/9/14,1.均值(mean),1.1一维数据的数字特征,来自总体X的n个数据:,样本观测值,n容量,1.1.2 表示位置的数字特征,总体,样本,总体取值的平均程度,24,2023/9/14,张村有个张千万,九个邻居穷光蛋;统计平均算资产,个个都是张百万。,缺点:易受异常值的影响。缺乏抗扰性、稳健性,
16、优点:总体均值无偏一致估计.含数据完整信息,25,2023/9/14,观测值从小到大排列,其中,次序统计量,26,2023/9/14,例1.1 某城市随机抽取9个家庭,调查每个家庭的人均月收入数据(单位:元),如下:1080 750 780 1080 850 960 2000 1250 1630计算人均月收入的均值及中位数.,解:顺序统计量 750 780 850 960 1080 1080 1250 1630 2000,np=2.25非整数,np+1=3,27,2023/9/14,74.3 78.8 68.8 78.0 70.4 80.5 80.5 69.7 71.2 73.579.5 75
17、.6 75.0 78.8 72.0 72.0 72.0 74.3 71.2 72.075.0 73.5 78.8 74.3 75.8 65.0 74.3 71.2 69.7 68.073.5 75.0 72.0 64.3 75.8 80.3 69.7 74.3 73.5 73.575.8 75.8 68.8 76.5 70.4 71.2 81.2 75.0 70.4 68.070.4 72.0 76.5 74.3 76.5 77.6 67.3 72.0 75.0 74.373.5 79.5 73.5 74.7 65.0 76.5 81.6 75.4 72.7 72.767.2 76.5 72.
18、7 70.4 77.2 68.8 67.3 67.3 67.3 72.775.8 73.5 75.0 72.7 73.5 73.5 72.7 81.6 70.3 74.373.5 79.5 70.4 76.5 72.7 77.2 84.3 75.0 76.5 70.4,计算均值,中位数,上,下四分位数,M0.99,M0.95,M0.95,M0.90,M0.10,M0.05,M0.01分位数及三 均值。,例1.2 某单位100名女生测定血清蛋白含量(g/L),数据:,28,2023/9/14,解:利用SAS系统PROC UNIVARIATE过程实现.程序:,data examp1_2;/*建立数
19、据集*/,input x;/*输入变量x,不换行*/,cards;/*数据行*/,74.3 78.8 68.8 78.0 70.4 80.5 80.5 69.7 71.2 73.579.5 75.6 75.0 78.8 72.0 72.0 72.0 74.3 71.2 72.075.0 73.5 78.8 74.3 75.8 65.0 74.3 71.2 69.7 68.073.5 75.0 72.0 64.3 75.8 80.3 69.7 74.3 73.5 73.575.8 75.8 68.8 76.5 70.4 71.2 81.2 75.0 70.4 68.070.4 72.0 76.5
20、 74.3 76.5 77.6 67.3 72.0 75.0 74.373.5 79.5 73.5 74.7 65.0 76.5 81.6 75.4 72.7 72.767.2 76.5 72.7 70.4 77.2 68.8 67.3 67.3 67.3 72.775.8 73.5 75.0 72.7 73.5 73.5 72.7 81.6 70.3 74.373.5 79.5 70.4 76.5 72.7 77.2 84.3 75.0 76.5 70.4;,proc univariate data=examp1_2;/*调用单变量univariate过程*/,var x;/*变量x*/ru
21、n;/*运行*/,29,2023/9/14,分位数(定义 5)分位数 估计值 100%最大值 84.30 99%M0.99 82.95 95%M0.95 80.50 90%M0.90 79.15 75%Q3 上四分位 75.80 50%中位数M 73.50 25%Q1 下四分位 71.20 10%M0.10 68.40 5%M0.05 67.30 1%M0.01 64.65 0%最小值 64.30,分位数即排在约第100p位置的数据,30,2023/9/14,1方差、标准差与变异系数,标准差(方差)越大,观察值分布越分散;反之越集中.,刻划数据相对分散指标,方差,标准差,变异系数,1.1.3
22、表示分散性的数字特征,31,2023/9/14,样本均值等为总体均值的一致估计,数字特征的作用,样本均值等为总体均值的一致估计,样本p分位数为总体p分位数的相合估计,样本方差、标准差与变异系数为总体方差、标准差、变异系数的相合估计,时,有,32,2023/9/14,1偏度(skewness),分布偏斜度,反映以均值为中心的分布不对称程度,1.1.3 表示分布形状的数字特征,其中s样本标准差.分布对称;称正偏度(右偏态)均值右边数据更分散;负偏度,均值左边的数据更分散.,左偏度,有极大数,有极小数,-总体偏度,其中s样本标准差.分布对称;称正偏度(右偏态)均值右边数据更分散;负偏度,均值左边的数
23、据更分散.,-总体偏度,其中s样本标准差.分布对称;称正偏度(右偏态)均值右边数据更分散;负偏度,均值左边的数据更分散.,-总体偏度,其中s样本标准差.分布对称;称正偏度(右偏态)均值右边数据更分散;负偏度,均值左边的数据更分散.,右偏度,左偏度,33,2023/9/14,2峰度,样本峰度,相对尖锐的分布,尾部粗,异常数值多;负峰则相对平坦,尾部细,与正态分布相比某分布的尖锐或平坦度.为样本观察值消除量纲影响的四阶中心矩减去3,再按样本数进行无偏修正,尖峰粗尾,平峰细尾,总体峰度,度量总体扁平程度,34,2023/9/14,例1.4 从1952-2001年我国国民生产总值第一、二、三产业产值数
24、据(见书例1.3).计算总值、第一、二、三产业产值主要数字特征,考察异常情况.,解:程序如下:,data examp1_4;,input year x x1 x2 x3;,cards;,1952 679.0 342.9 141.8 194.31953 824.0 378.0 192.5 253.52001 95933.3 14609.9 49069.1 32254.3;,run;,proc univariate data=examp1_4;,var x x1 x2 x3;/*对x x1 x2 x3进行univariate过程分析,输出变量的结果*/,run;,35,2023/9/14,结果:,
25、(1)国民生产总值,数字特征特点:,又上下截断点分别为,94年以后数据均为特大值,从而说明从94年后,国民生产总值迅速增长。,均值与中位数M差距较大,均方差S、极差R都大,数据取值分散,偏度g1 及g2取较大正值,说明右偏态,数据有较多的特大值。,(2)(4)第一、二、三产业结果类似,36,2023/9/14,UNIVARIATE 过程 变量:x 矩 N 50 权重总和 50 均值 16764.454 大 观测总和 838222.7 标准偏差s 26948.1675 方差 726203730大 偏度g1 右偏1.86888604 峰度g2 有极端值2.18137482 未校平方和 4.9636
26、3E10 校正平方和 3.5584E10 变异系数 160.74587 标准误差均值 3811.04639,基本统计测度 位置 变异性 均值 16764.45 标准偏差 26948 中位数 3099.60 方差 726203730 众数.极差R 95254 四分位极差R1 15452 位置检验:Mu0=0 数据是否取值0检验 检验-统计量-P 值-学生 t t 4.398911 Pr|t|=|M|=|S|.0001,37,2023/9/14,分位数(定义 5)分位数 估计值100%最大值 95933.3 99%95933.3 95%81910.9 90%71173.6 75%Q3 16909.
27、2 50%中位数 3099.6 25%Q1 1457.0 10%1048.0 5%859.0 1%679.0 0%最小值 679.0,极值观测-最小值-最大值-值 观测 值 观测 679 1 74462.6 46 824 2 78345.2 47 859 3 81910.9 48 910 4 89403.6 491028 5 95933.3 50,38,2023/9/14,课堂总结,数据的位置特征均值、中位数、分位数、三均值数据的分散性特征方差、标准差、极差及四分位极差分布形状特征偏度、峰度,1.掌握数据的数字特征2.掌握运用SAS软件计算这些数字特征,基本内容:,目的要求:,作业1.1,39
28、,2023/9/14,一.多元统计分析研究内容和方法,1.多元统计的理论基础多维随机向量及多维正态随机向量及由此定义的各种多元统计量,推导其分布并研究性质、抽样分布理论概率统计、数据描述性分析.2.多元数据的统计推断参数估计和假设检验问题.特别是多元正态分布的均值向量及协方差阵的估计和假设检验等问题数据描述性分析、Bayses统计推断.3.变量间的相互关系1)相互依赖关系:分析一或多个变量是否依赖于另一些变量的变化,建立变量间定量关系式,用于预测或控制回归分析,方差分析.2)两组变量间关系:分析两组变量间相互关系典型相关分析.4.简化数据结构(降维问题)通过变换将相关变量变为不相关的;高维数据
29、投影到低维空间,简化问题又不损失太多信息主成分分析等方法.5.分类与判别(归类问题)将考察变量或样品按相似程度分类聚类分析、判别分析.,40,2023/9/14,二多元统计分析的应用及选题参考,1.教育学学生成绩分析和预测.由高考成绩和高中成绩关系,预测高考成绩;按成绩进行分类(按文理科,总成绩),排名.2.医学根据检查数据或病例资料诊断病例.3.气象学由气象站资料(雨量,气温,气压,湿度,风速等)做统计分析,进行天气预报.4.环境科学分析污染气体浓度,布局监测点,污染治理.5.地质学处理地质观测数据,进行矿产预测、矿产构造解释、部署勘探工程等.6.考古学对发现的文物通过测得各类数据,判断出现
30、的年代、种族等.,7.服装工业抽样调查人体几十个部位尺寸数据,进行统计分析,决定服装各型号及比例.8.经济学宏观经济、微观经济的应用.9.农业农业灌区分类,农机分类等.10.社会科学调查研究青少年犯罪各因素间的相互关系及变化规律,进行预防.11.文学作品鉴定复旦统计系李贤平使用聚类,主成分,相关分析,选10个与情节无关的虚词为变量,统计每回虚词出现频数,分析证明前80回为曹雪芹写,后40回他人所写.12.其他体育科研,军事科学,生物学,心理学,生态学,保险,火警预报,地震预报等.,41,2023/9/14,四分位标准差的解释:,此时有关系,正态分布的理论下、上截断点为,数据取下,上截断点之外(异常值特小,大值)概率为0.00698,四分位标准差(1.10),如,理论上四分位数,定义:,定义:,下、上截断点,理论下四分位数,理论四分位极差,返回,42,2023/9/14,众数、中位数和算术平均数的关系,分配为钟形、轻微不对称的经验公式:,