《数据类型与描述统计.ppt》由会员分享,可在线阅读,更多相关《数据类型与描述统计.ppt(27页珍藏版)》请在三一办公上搜索。
1、第四章:数据类型与描述统计,第一节:数据的类型,数据的计量尺度:1、定类尺度 2、定序尺度 3、定距尺度 4、定比尺度,定类尺度,(类别尺度、列名尺度)是最粗略、计量层次最低的尺度;只能区别事物是同类或不同类;必须符合穷尽和互斥的要求。例:0表示女性,1表示男性,定序尺度,(顺序尺度),是对事物之间等级差或顺序差别的一种测度;不仅有类别,这些类别之间是可以比较的;不能进行加减乘除运算。例:一等品、二等品、三等品 小学、初中、高中、大学及以上 非常不同意、不同意、中立、同意、非常同意,定距尺度,(间隔尺度),不仅区分类型和排序,而且可以准确地指出类别之间的差距是多少;通常可以使用自然或度量衡单位
2、作为计量尺度;定距尺度的计量结果表现为数值;可以进行加减运算。例:考试成绩相差10分 今天武汉的温度比广州的温度低6摄氏度,定比尺度,(比率尺度),与定距尺度属于同一层次,一般可不作区分,计量结果也表现为数值;要求有一个绝对固定的“零点”;可以进行加减乘除运算。例:甲月薪3000,乙月薪1000,甲为乙的三倍,数据的类型(一),定性数据(品质数据):包括定类数据和定序数据。不能用数值表示,其结果表现为类别。定量数据(数量数据):包括定距数据和定比数据。能够用数值来表现,反映数量特征。,数据的类型(二),截面数据(cross-sectional data):在相同或近似的时间点上收集的数据,如2
3、006年我国各地区的GDP数据;时间序列数据(time series data):在不同时间上收集的数据,如1990年到2005年湖北省的GDP数据;面板数据(Panel data):综合了截面数据和时间序列数据。,变量的类型,定类变量定序变量数字变量(离散变量、连续变量)多数情况下,变量指的是数字变量。,第二节:指标和指数,统计指标 包括总量指标、相对指标、平均指标总量指标:反映总体规模,如人口总数、GDP。相对指标:经济增长率、股价指数。平均指标:人均消费水平、某股票的10日均价,统计指数,广义:凡是能够说明现象变动的相对数都是指数;如计划完成相对数狭义:用来表明不能直接相加和不能直接对比
4、的现象在不同时期的变动程度。如价格指数,统计指数的分类,反映对象范围的不同:个体指数、总指数;按性质不同:数量指标指数(产量指数)、质量指标指数(劳动生产率指数)按所采用基期的不同:定基指数、环比指数按研究的目的不同:动态指数、静态指数。,统计图表,统计表:总标题、行标题、列标题、数字资料。(例)统计图:条形图、饼图、线图、直方图、雷达图。(例),第三节:描述统计,Topics,集中趋势的度量Mean(均值),median(中位数),mode(众数)离散的度量Range(变动幅度),variance and standard deviation(标准差),coefficient of vari
5、ation(离散系数)形状对称与不对称,描述统计,集中趋势,均值,中位数,众数,几何平均数,描述统计,离散程度,方差,标准差,离散系数,均值(算术平均),数据的算术均值样本均值总体均值,样本规模,总体规模,度量集中趋势的最常用变量受到异常值的影响,0 1 2 3 4 5 6 7 8 9 10,0 1 2 3 4 5 6 7 8 9 10 12 14,均值=5,均值=6,(continued),中位数,主要用于测度定序数据的集中趋势不受异常值的影响 在一个排好序的数列中,中位数就是这个序列中间的数值:若N为奇数,中位数就是中间那个数的数值若N为偶数,中位数就是中间那两个数的平均值,0 1 2 3
6、 4 5 6 7 8 9 10,0 1 2 3 4 5 6 7 8 9 10 12 14,中位数=5,中位数=5,众数,众数的值就是出现次数最多的数值不受异常数据的影响可用于数字型和定类型数据可能没有众数也可能有多个众数,0 1 2 3 4 5 6 7 8 9 10 11 12 13 14,众数=9,0 1 2 3 4 5 6,无众数,是离散程度的最重要的度量指标反映的是对均值的离散程度样本方差:总体方差:,方差,标准差,是最重要的分散程度度量指标表示对均值的分散程度与原始数据是同一量纲样本标准差:总体标准差:,标准差比较,均值=15.5 s=3.338,11 12 13 14 15 16 1
7、7 18 19 20 21,11 12 13 14 15 16 17 18 19 20 21,Data B,Data A,均值=15.5 s=.9258,11 12 13 14 15 16 17 18 19 20 21,均值=15.5 s=4.57,Data C,Coefficient of Variation(变异系数),考察现对离散程度一般用百分比表示(%)表示相对于均值的离散情况比较不同度量单位多组数据的离散程度,离散系数比较,股票 A:去年的均价=$50标准差=$5股票 B:去年的均价=$100标准差=$5离散系数:股票 A:股票 B:,分布的形状,描述数据是如何分布的对形状的度量对称还是不对称,Mean=Median=Mode,Mean Median Mode,Mode Median Mean,右偏,左偏,对称,数据分析是客观的对数据的解释是主观的,应该公正、中立、明确,