数据集的描述方法.ppt

上传人:小飞机 文档编号:6364993 上传时间:2023-10-21 格式:PPT 页数:107 大小:1.38MB
返回 下载 相关 举报
数据集的描述方法.ppt_第1页
第1页 / 共107页
数据集的描述方法.ppt_第2页
第2页 / 共107页
数据集的描述方法.ppt_第3页
第3页 / 共107页
数据集的描述方法.ppt_第4页
第4页 / 共107页
数据集的描述方法.ppt_第5页
第5页 / 共107页
点击查看更多>>
资源描述

《数据集的描述方法.ppt》由会员分享,可在线阅读,更多相关《数据集的描述方法.ppt(107页珍藏版)》请在三一办公上搜索。

1、第二章 数据集的描述方法,学习目标,用于描述品质标志的图形用于描述数量标志的图形解释数值数据的属性描述综合测量适用综合测量分析数值数据,思 考,Us的市场份额时候远超过其他所有的竞争对手?,30%,32%,34%,36%,Us,Y,X,数据显示,定性数据的表示,数据显示,汇总表,列出各个分类及各类相关元素的数据获得各类相应计数可以显示为频数(计数)或者频率(),也可是两者,Row Is Category,Tally:|,数据显示,条形图,Vertical Bars for Qualitative Variables,Bar Height Shows Frequency or%,Zero Poi

2、nt,Percent Used Also,Equal Bar Widths,Frequency,数据显示,Econ.,10%,Mgmt.,25%,Acct.,65%,饼图,显示了将重量分解成各个类别对显示相对差异比较有用每一类百分比等于该类角度数与360的百分比(percent),Majors,(360)(10%)=36,36,数据显示,柏拉图,类似与条形图,只是柏拉图是按从左到右根据条形图的高度按照递减的方式重新排序各分类,Vertical Bars for Qualitative Variables,Bar Height Shows Frequency or%,Zero Point,Per

3、cent Used Also,Equal Bar Widths,Frequency,思 考,如果你是某研究所的分析师,你想显示2006年各网络游览器所占份额,试着用条形图、饼图和柏拉图描述以下数据,条形图解决方案*,Market Share(%),Browser,饼图的解决方案*,Market Share,柏拉图解决方案*,Market Share(%),Browser,定量数据表示方法,数据显示,茎叶图,1.将每个观察数据都划分成茎值和叶值 茎值定义了类别叶值定义了每一类的频数(计数),2.Data:21,24,24,26,27,27,30,32,38,41,26,2,144677,3,02

4、8,4,1,数据显示,制作频数分布表的步骤,定义范围选择组数 通畅在5-15组之间组距计算(宽度)定义组界(限制)计算组中值计算分配到各类的观测值计数,例:频数分布表,原始数据:24,26,24,21,27 27 30,41,32,38,组距,(下限+上限)/2,组距,类别,组中值,频率,15.5 25.5,20.5,3,25.5 35.5,30.5,5,35.5 45.5,40.5,2,相对频率(%)分布表,百分比分布,相对频率分布,Class,Prop.,15.5 25.5,.3,25.5 35.5,.5,35.5 45.5,.2,Class,%,15.5 25.5,30.0,25.5 3

5、5.5,50.0,35.5 45.5,20.0,数据显示,0,1,2,3,4,5,直方图,FrequencyRelative FrequencyPercent,015.525.535.545.555.5,Lower Boundary,Bars Touch,Class,Freq.,15.5 25.5,3,25.5 35.5,5,35.5 45.5,2,Count,数字资料的特性,思 考,.引证雇员低工资一例-大多数的雇员收入仅为$20,000.董事长声称平均收入是$70,000!,$400,000,$70,000,$50,000,$30,000,$20,000,标准符号表示,测量,样本,总体,均

6、值,标准差,S,方差,数目,n,N,数据的数字属性,中心趋势(位置),方差(离差),形状,数字数据的属性和测量,数值数据属性,均值,中位数,众数,中心趋势,全距,方差,标准差,方差,百分位,相对位置,四分位差,Zscores,中心趋势,数字数据的属性和测量,数值数据属性,均值,中位数,众数,中心趋势,全距,方差,标准差,方差,百分位,相对位置,四分位差,Zscores,均值,测量中心趋势最常用的衡量标准充当平衡点容易受到极端值的影响(异常值)公式(样本均值),求均值,原始数据:10.34.98.911.76.37.7,X,X,n,X,X,X,X,X,X,i,i,n,1,1,2,3,4,5,6,

7、6,10,3,4,9,8,9,11,7,6,3,7,7,6,8,30,.,.,.,.,.,.,.,数字数据的属性和测量,数值数据属性,均值,中位数,众数,中心趋势,全距,方差,标准差,方差,百分位,相对位置,四分位差,Zscores,中位数,测量中心趋势将变量排序后处于中间位置的变量值如果n为奇数,则为排序序列位于中间的变量值 If 如果n为偶数,则为中间位置两个变量值的平均变量序列中间位置不受极端值的影响,中位数案例 n为奇数的例子,Raw Data:24.122.621.523.722.6Ordered:21.522.622.623.724.1Position:12345,Position

8、ing,Point,Median,n,1,2,5,1,2,3,0,22,6,.,.,中位数案例 n为偶数的例子,Raw Data:10.34.98.911.76.37.7Ordered:4.96.37.78.910.311.7Position:123456,Positioning,Point,Median,n,1,2,6,1,2,3,5,7,7,8,9,2,8,30,.,.,.,.,数字数据的属性和测量,数值数据属性,均值,中位数,众数,中心趋势,全距,方差,标准差,方差,百分位,相对位置,四分位差,Zscores,众数,测量集中趋势出现最多的值不受极端值影响可以没有众数或有几个众数可以用于定

9、量数据也可用于定性数据,众数的例子,没有众数Raw Data:10.34.98.911.76.37.7一个众数Raw Data:6.34.98.9 6.3 4.94.9多于一个的众数Raw Data:212828414343,思 考,假设你是银河证券公司是金融分析师,你收集了某新发行股票的收盘价如下:17,16,21,18,13,16,12,11.描述这只新股价格的中心趋势,中心趋势的解决方案*,均值,X,X,n,X,X,X,i,i,n,1,1,2,8,8,17,16,21,18,13,16,12,11,8,15,5,.,中心趋势的解决方案*,中位数Raw Data:1716211813161

10、211Ordered:1112131616171821Position:12345678,Positioning Point,Median,n,1,2,8,1,2,4,5,16,16,2,16,.,中心趋势的解决方案*,众数Raw Data:1716211813161211Mode=16,中心趋势测量总结,Measure,Formula,Description,均值,X,i,/,n,均衡点,中位数,(,n,+1),位置,2,排序后中间位置,的变量值,众数,无,出现频率最高的值,形 状,形状,描述数据如何分布形状的测量 偏度=对称,右偏,左偏,对称,Mean,=,Median,Mean,Medi

11、an,Median,Mean,方 差,数字数据的属性和测量,数值数据属性,均值,中位数,众数,中心趋势,全距,方差,标准差,方差,百分位,相对位置,四分位差,Zscores,全距,测量离差等于变量的最大值与最小值之差Range=Xlargest Xsmallest忽略了数据的分布,7,8,9,10,7,8,9,10,Range=10 7=3,Range=10 7=3,数字数据的属性和测量,数值数据属性,均值,中位数,众数,中心趋势,全距,方差,标准差,方差,百分位,相对位置,四分位差,Zscores,方差和标准差,测量离差最常用的测量方面考虑了数据的分布,4,6,10,12,X,=8.3,8,

12、样本方差的公式,n-1 作为分母!(如果是总体方差则使用N),=,样本标准差的公式,S,S,X,X,n,X,X,X,X,X,X,n,i,i,n,n,2,2,1,1,2,2,2,2,1,1,(,),(,),(,),(,),方差的例子,Raw Data:10.34.98.911.76.37.7,S,X,X,n,X,X,n,S,i,i,n,i,i,n,2,2,1,1,2,2,2,2,1,8,3,10,3,8,3,4,9,8,3,7,7,8,3,6,1,6,368,(,),(,),(,),(,),where,.,.,.,.,.,.,.,.,思考,假设你是银河证券公司是金融分析师,你收集了某新发行股票的

13、收盘价如下:17,16,21,18,13,16,12,11.这只股票价格的方差和标准查是多少?,方差的解决方案*,Sample VarianceRaw Data:1716211813161211,S,X,X,n,X,X,n,S,i,i,n,i,i,n,2,2,1,1,2,2,2,2,1,15,5,17,15,5,16,15,5,11,15,5,8,1,11,14,(,),(,),(,),(,),where,.,.,.,.,.,标准差的解决方案*,样本标准差,S,S,X,X,n,i,i,n,2,2,1,1,11,14,3,34,(,),.,.,方差测量的总结,Measure,Formula,De

14、scription,Range全距,X,largest,X,smallest,总体延伸,样本标准差,关于样本均值的离差,总体标准差,关于总体均值的离差,样本方差,(,X,i,X,),2,n,1,关于样本均值的离差平方,标准差的理解,标准差的理解:Chebyshevs Theorem(,可应用于任何形状的数据集,标准差的理解:Chebyshevs Theorem,Chebyshevs Theorem 例子,之前我们发现新发行股票的收盘价格均值是15.5标准差为3.34.用这些信息,建立一个至少包含了新发行股票的75%d的收盘价格.,Chebyshevs Theorem 例子,至少75%的新发行股

15、票的收盘价将位于距离均值的2倍标准差的期间内x=15.5 s=3.34,(x 2s,x+2s)=(15.5 23.34,15.5+23.34)=(8.82,22.18),标准差的理解:经验法则,如果应用于分布对称的丘型曲线的数据集大约 68%的数据位于,+期间大约 95%的数据位于 2,+2期间大约 99.7%的数据位于 3,+3 期间,标准差的理解:经验法则,3 2+2+3,经验法则例子,之前我们发现新发行股票的收盘价格均值是15.5标准差为3.34.如果我们假设数据的分布是对称的丘型的,请计算x+s,x+2s,x+3s期间的百分比。.,经验法则例子,相对位置的数字测量,数字数据的属性和测量

16、,数值数据属性,均值,中位数,众数,中心趋势,全距,方差,标准差,方差,百分位,相对位置,四分位差,Zscores,相对位置的数字测量:百分位,描述了某个测量值(数据)对照其他测量值(数据)的相对位置第P个百分位表示有p%数据落于这一点的下方,而(100 p)%的数据落于该点的上方。The 中位数=第50个百分位(50th percentile),百分位的例子,你在四级英语考试中得分 560。这个分数,使你处于第58的百分位上.有多少百分比的参考试比你的分数低?有多少百分比的参考试比你的分数高?,百分位,有多少百分比的参考试比你的分数低58%的参考者分数低于 560.有多少百分比的参考试比你的

17、分数高?(100 58)%=42%的参考者分数高于 560.,数字数据的属性和测量,数值数据属性,均值,中位数,众数,中心趋势,全距,方差,标准差,方差,百分位,相对位置,四分位差,Zscores,相对位置的数值测量:ZScores,描述了某个测量值(数据)对照其他测量值(数据)的相对位置,测量了一个数据与均值的距离相对于标准差的个数(倍数)Measures the number of standard deviations away from the mean a data value is located,ZScore 例子,装配一个产品的时间均值是22.5分钟,标准差是2.5 分钟.计算

18、花20分钟装配一个产品的zscore.计算花27.5分钟装配一个产品的zscore.,ZScore 案例,四分位&盒形图,四分位,无中心趋势的测量,2.把排序数据分成4等分,四分位(Q1)例子,Raw Data:10.34.98.911.76.37.7Ordered:4.96.37.78.910.311.7Position:123456,Q,Position,Q,1,1,1,4,1,6,1,4,1,75,2,6,3,1,n,(,),(,),.,.,四分位(Q2)例子,Raw Data:10.34.98.911.76.37.7Ordered:4.96.37.78.910.311.7Positio

19、n:123456,Q,Position,Q,2,2,1,4,2,6,1,4,3,5,7,7,8,9,2,8,3,2,n,(,),(,),.,.,.,.,四分位(Q3)例子,Raw Data:10.34.98.911.76.37.7Ordered:4.96.37.78.910.311.7Position:123456,Q,Position,Q,3,3,1,4,3,6,1,4,5,25,5,10,3,3,n,(,),(,),.,.,数字数据的属性和测量,数值数据属性,均值,中位数,众数,中心趋势,全距,方差,标准差,方差,百分位,相对位置,四分位差,Zscores,四分位差,离散度的测量也叫做中心

20、伸展(midspread)四分位差等于第3个分位点与第1个分位点的差Interquartile Range=Q3 Q14.是处于中间50%的数据延展5.不受极端值的影响,思考,假设你是银河证券公司是金融分析师,你收集了某新发行股票的收盘价如下:17,16,21,18,13,16,12,11.请计算四分位值Q1 和 Q3,以及四分位差,Q1Raw Data:1716211813161211Ordered:1112131616171821Position:12345678,四分位的解决方案*,Q,Position,Q,1,1,1,4,1,8,1,4,2,5,12,5,1,n,(,),(,),.,.

21、,四分位的解决方案*,Q3Raw Data:1716211813161211Ordered:1112131616171821Position:12345678,Q,Position,Q,3,3,1,4,3,8,1,4,6,75,7,18,3,n,(,),(,),.,四分位差的解决方案*,Interquartile RangeRaw Data:1716211813161211Ordered:1112131616171821Position:12345678,Interquartile Range,Q,Q,3,1,18,0,12,5,5,5,.,.,.,盒形图,1.下面概要使用5个数字作为图形中的

22、数据显示,Median,4,6,8,10,12,Q,3,Q,1,X,largest,X,smallest,形状&盒形图,右偏,左偏,对称,Q,1,Median,Q,3,Q,1,Median,Q,3,Q,1,Median,Q,3,绘制二变量关系的图形,绘制二变量关系的图形,描述两个数量变量的关系variables用散点图绘制,例子:散点图,你是孩之宝玩具公司的市场分析员,你收集到以下数据:Ad$(x)Sales(Units)(y)1121324254画出数据的散点图,例子:散点图,0,1,2,3,4,0,1,2,3,4,5,Sales,Advertising,时间序列图,时间序列图,用于绘制随着

23、时间产生的数据显示数据在时间上的趋势和变化横轴记录了时间纵轴记录了测量值用直线将测量值的点连接起来,例:时间序列图,表中的数据显示了2006年纽约市普通汽油8个星期的平均零售价格。画出这一数据的时间序列图.,时间序列图,Date,Price,Distorting the Truth with Descriptive Techniques,展现数据的一些错误,使用“图表垃圾”进行数据批量比较是没有相对基础压缩纵轴纵轴没有0点,图形垃圾,坏的表述,好的表示,1960:$1.00,1970:$1.60,1980:$3.10,1990:$3.80,Minimum Wage,Minimum Wage,0

24、,2,4,1960,1970,1980,1990,$,没有相对基础,好的表述,As by Class,As by Class,坏的表述,0,100,200,300,FR,SO,JR,SR,Freq.,0%,10%,20%,30%,FR,SO,JR,SR,%,Compressing Vertical Axis,Good Presentation,Quarterly Sales,Quarterly Sales,Bad Presentation,0,25,50,Q1,Q2,Q3,Q4,$,0,100,200,Q1,Q2,Q3,Q4,$,No Zero Point on Vertical Axis,Good Presentation,Monthly Sales,Monthly Sales,Bad Presentation,0,20,40,60,J,M,M,J,S,N,$,36,39,42,45,J,M,M,J,S,N,$,结论,用途描述定性数据用途描述定量数据解释定量数据的属性描述数据的概扩测量使用概扩测量分析数字数据,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号