《数据录入与样本描述.ppt》由会员分享,可在线阅读,更多相关《数据录入与样本描述.ppt(54页珍藏版)》请在三一办公上搜索。
1、第二讲,数据录入及样本描述,本讲主题Session Topic,表格方法Tabular Methods图形方法Graphical Methods数值方法Numerical Methods,表格和图形方法 Tabular and Graphical Methods,质量(定性)数据汇总Summarizing Qualitative Data数量(定量)数据汇总Summarizing Quantitative Data探索性数据分析Exploratory Data Analysis交叉组列表和散点图Cross-tabulation and Scatter Diagrams,质量数据汇总Summar
2、izing Qualitative Data,频数分布 Frequency Distributions相对频数分布 Relative Frequency Distributions百分数频数分布 Percent Frequency Distributions条形图 Bar Graph饼形图 Pie Chart,频数分布 Frequency Distributions,频数分布是用数据概括表的形式不列示若干个互不重叠分组中每组数据值出现的次数;编制频数分布表的目的是揭示表面数据的内涵,而这种数据内涵很难迅速从原始数据中获取。,相对频数分布和百分数频数分布 Relative Frequency D
3、istributions and Percent Frequency Distributions,相对频数是各组数据出现的频数占数据总数的比例;相对频数分布是表明每一组的相对频数的数据集的表格总汇;百分数频数分布是相对频数乘以100;百分数频数分布是表明每一组的百分数频数的数据集的表格总汇。,条形图Bar Graph,条形图是用图的方式描述已概括成频数、相对频数或百分数频数分布的质量数据的方法;在图形的横轴为每一组别的标记;纵轴为频数、相对频数、百分数频数;用固定宽度的条绘制每一标记,扩展条的高度达到纵轴上表示的各组别的频数、相对频数或百分数频数;条形相对独立以强调每一类是一独立的 事实。,饼
4、形图Pie Chart,饼形图也是常用的描绘质量数据相对频数分布的图形方法;先画圆,然后用相对频数把圆划分为扇形。其角度大小与相对频数对应,数量(定量)数据汇总Summarizing Quantitative Data,频数分布 Frequency Distributions相对频数分布 Relative Frequency Distributions百分数频数分布 Percent Frequency Distributions点图 Dot plot直方图 Histogram累积分布 Cumulative Distribution 穹形图 Ogive,频数分布 Frequency Distri
5、butions,确定无重复的组别数一般为为5-20个组大样本数据分较多的组小样本数据分较少的组确定各组间的组距各组间的组距相同近似组距为,近似组距=-,最大数据值-最小数据值,组数,频数分布 Frequency Distributions,确定组上线与组下线下线确定分配给该组可能的最小数据值;上线确定分配给该组可能的最大数据值;上、下线不一定是所给数据值;上、下线的确定不唯一,可依据数据中小数点的位置选取适当的上、下线;上、下线的确定应使得每个数据属且只属于其中一个组。,相对频数和百分数频数Relative Frequency Distributionsand Percent Frequenc
6、y Distributions,相对频数分布和百分数频数分布相对频数是各组数据出现的频数占数据总数的比例;相对频数分布是表明每一组的相对频数的数据集的表格总汇;百分数频数分布是相对频数乘以100;百分数频数分布是表明每一组的百分数频数的数据集的表格总汇。,点图 Dot plot,点图是用图形概括数据最简单的方法之一;点图用横坐标轴显示数据的值域,然后用小圆点半每个数据值标在坐标轴的上方,直方图 Histogram,直方图是将数据所反映的分布直观地显示出来的一种常用方法;横轴为所感兴趣的变量,纵轴为频数、相对频数或百分频数;每一组的频数、相对频数或百分数频数用长方形表示,长方形的底在横轴上,宽是
7、组距,高是相应的频数、相对频数或百分数频数;不像条形图,直方图在邻近的组间没有分隔。,累积分布 Cumulative Distribution,累积频数分布表示小于或等于每一组上限的数据值的个数的取值情况;累积相对频数分布表示小于或等于每一组上限的数据值所点比例的取值情况;累积百分数频数分布就是累积相对频数与100乘积,穹形图 Ogive,穹形图即是累积频数分布或累积相对频数分布的图形;横轴为所感兴趣的变量,纵轴为累积频数或累积相对频数;,探索性数据分析Exploratory Data Analysis,放在后面与数值方法一起讲,交叉分组列表Cross-tabulation,交叉分组列表是一种
8、同时汇总两个变量数据的表格方法一般在表格的左边和顶端的标记定义两个变量的组数交叉分组列表揭示了所列两个变量之间的内在关系,散点图 Scatter Diagrams,散点图是将两个变量之间的关系直观地显示出来的一种方法,数值方法 Numerical Methods,位置的度量 Measures of Location离散程度的度量 Measures of dispersion形状的度量 Measures of Shape,位置的度量 Measures of Location,平均数 Mean中位数 Median众数 Mode百分位数 Percentiles四分位数Quartiles,平均数 Me
9、an,所有数据之和与数据个数的商如果数据集是总体,总体平均值(population mean)为如果数据集为样本,样本平均值(Simple mean)为,中位数 Median,若数据的个数是奇数,当把所有数据按升序排列时,中位数就是处在中心位置的数若数据的个数是偶数,当把所有数据按升序排列时,中位数就是处在中心两个数的平均数,众数 Mode,出现频数最高的数如果有多于一个众数存在,则称数据是多峰的,百分位数 Percentiles,第p个百分位数是这样的数据值:至少有p%个数据值跟它一样或比它小;至少有(100-p)%个数据值跟它一样大或比它大。百分位数的计算:增序排列数据;计算指数 I=(p
10、/100)n若i不是整数,将其向上取整,则p分位数是第i项;若i是整数,则p分位数是第i项与第i+1项的数据的平均值。,百分位数 Percentiles,例有数据集6,3,8,10,6,20,5,4为求其第20个百分数,先将原数据集排序34566 81020计算指数i(20/100)*82则原数据集的第20个百分位数就是位于第二项的4。,四分位数Quartiles,四分位数是特定的百分数。第一个四分位数为25%百分位数;分二个四分位数为50%百分位数即中位数;第三个四分位数为75%百分位数。,离散程度的度量Measures of dispersion,全距 Range四分位点内距 inter-
11、quartile Range方差 Variance标准差 Standard Deviation标准差系数 Coefficient of Variation,全距 Range,全距是数据中最大值与最小值间的差距全距是数据离散程度最简单的描述全距对最大数据及最小数据敏感,四分位点内距 inter-quartile Range,四分位点内距是第一与第一四分位数间的差距是中间50%的数据的全距它能够克服极端数据的影响,方差 Variance,方差是各数据值与其平均值之间的平均差异如果数据集是总体,总体方差为如果数据集为样本,样本方差为,标准差 Standard Deviation,标准差为方差的正平方
12、根标准差具有与原始数据相同的计量单位,较方差更便于比较如果数据集是总体,则总体标准差为如果数据集是样本,则样本标准差为,变异系数Coefficient of Variation,变异系数是标准差相对于平均数的大小的度量如果数据集为总体,变异系数为如果数据集为样本,变异系数为,平均数和方差的应用Some Uses of the Mean and the Standard Deviation,Z分数z-Scores切比晓夫定理Chebyshevs Theorem经验法则The Empirical Rule异常值的检验Detecting Outliers,Z分数z-Scores,Z-分数通常称为标准
13、化数值Z-分数的意义是数据值偏离平均数标准差的个数Z-分数大于0的数据是那些比平均数大的数据值Z-分数小于0的数据是那些比平均数小的数据值Z-分数等于0的数据是那些与平均数相等的数据值一个数据集经过标准化之后,其平均值变为0,标准差变成1,切比晓夫定理Chebyshevs Theorem,至少(1-1/k2)个数据落在平均数k倍标准差范围内,其中k是大于1的任何数值至少75%的数据落在平均数的k=2标准差范围内至少89%的数据落在平均数的k=3标准差范围内至少94%的数据落在平均数的k=4标准差范围内,经验法则 The Empirical Rule,对于具有钟形分布的数据集而言大约68%的数据
14、落在平均数的1倍标准差范围内大约95%的数据落在平均数的2倍标准差范围内几乎所有的数据落在平均数的3倍标准差范围内,异常值的检验Detecting Outliers,数据集中出现的非正常大或非正常小的数据值称为异常值Z-分数值低于-3或高于3的数据可能是异常值异常值的出现可能是由于记录错误,也可能是记录正确的非正常数据值异常值也可能来自于不同的总体,探索性数据分析 Exploratory Data Analysis,探索性数据分析技术是由简单运算及容易绘制的图形组成,可用快速汇总数据。茎叶图 Stem-and Leaf display五数概括 Five-Number Summary箱图 Box
15、 plot,茎叶图 Stem-and Leaf display,茎叶图是一种简单的对数据进行快束描绘的数据汇总方法茎叶图不仅提供了数据排序,同时还显示了数据的分布信息与直方图有相似之处,但茎叶图还显示了实际的数据值数据的首位或首几位放置在直线的左边称为茎数据的末位(只是最后一位)放置在直线的右边-称为叶,五数概括 Five-Number Summary,最小数据值Smallest Value第一个四分位数First Quartile中位数Median第三个四分位数Third Quartile最大值Largest Value,箱图 Box plot,以第1和第3四分位数(Q1和Q3)作为箱子两端
16、,其间的间距称为四分位间距,记为IQR=Q3-Q1箱图的下限制线位于比Q1低1.5倍IQR的位置上,上限制线位于比Q3高1.5倍IQR的位置上限制线以外的是异常值,双变量相关关系度量Measures of Association Between Two Variables,协方差 Covariance相关系数 Correlation Coefficient,协方差 Covariance,如果数据集是总体,协方差为如果数据集是样本,协方差为正值表示正相关,负值表示负相关,相关系数Correlation Coefficient,如果数据集是总体,相关系数为如果数据集是样本,相关系数为相关系数的值在
17、-1与1之间相关系数的值接近-1表示较显著地负线性相关相关系数的值接近1表示较显著地正线性相关,加权平均数和分组数据的加权平均数The Weighted Mean and Working with Grouped Data,加权平均数 The Weighted Mean 分组数据 Grouped Data,加权平均数 The Weighted Mean,当数据来处总体时 代替平均值是一个特殊的加权平均数,分组数据 Grouped Data,分组数据的样本均值为 是第i组中值 是第i组的频数 n 为样本容量分组数据的样本方差为,分组数据 Grouped Data,分组数据的总体均值为 是第i组中
18、值 是第i组的频数 n 为样本容量分组数据的样本方差为,审计时间频数分布表,审计时间频数分布表,样本均值为样本方差为,形状的度量 Measures of Shape,描述数据是如果分布的形状的度量对称性(Symmetric)或歪曲性(Skewed)Symmetric:Mean=Median=ModeLeft-Skewed:MeanMedianMode分布的形状。,形状的度量,峰度:分布曲线高度的起伏程度,起伏程度越高,表明数值的分布趋向集中靠近平均值,这时峰度值较大。偏度:表示分布曲线的高峰相对于曲线两侧的位置,高峰偏左,则数据总体上偏向于较大的取值,偏度值为正;高峰偏左,数据总体上取值偏小,偏度值为负。,The endThank you very much,