调查资料统计分.ppt

上传人:小飞机 文档编号:6144655 上传时间:2023-09-28 格式:PPT 页数:62 大小:822.50KB
返回 下载 相关 举报
调查资料统计分.ppt_第1页
第1页 / 共62页
调查资料统计分.ppt_第2页
第2页 / 共62页
调查资料统计分.ppt_第3页
第3页 / 共62页
调查资料统计分.ppt_第4页
第4页 / 共62页
调查资料统计分.ppt_第5页
第5页 / 共62页
点击查看更多>>
资源描述

《调查资料统计分.ppt》由会员分享,可在线阅读,更多相关《调查资料统计分.ppt(62页珍藏版)》请在三一办公上搜索。

1、调查资料的统计分析,市场调查资料分析是调查结束后的资料整理和数据分析的过程,它为撰写调查报告提供基本的素材。,本章主要介绍市场调查资料的整理、市场调查资料的分析。,调查资料的整理,市场调查资料的整理就是运用科学的方法,对调查所得的各种原始资料进行审查、检验和初步加工综合,使之系统化和条理化、从而以集中、简明的方式反映调查对象总体情况的工作过程。资料是市场调查分析的灵魂,完备、准确的数据是检验调查结果的最重要的因素。任何资料如果不经过科学的整理,就不可能进行科学的分析,得出正确的结论。,资料整理的程序,调查问卷审核,调查问卷校订,调查问卷编码,调查问卷录入,数据净化,资料预处理,统计分析,问卷的

2、审核,为了确保每份送去进行数据录入分析的调查问卷都是有效的,对回收的问卷进行审核是市场调查特别是数据分析过程中必不可少的步骤。(一)复查审核无论是入户调查、购物场所的拦截调查还是电话访谈,通常在所有现场调查结束后,客户单位或调查机构都要对每位访员所做的调查问卷做一定比例的复查,复查的比例一般为10%20%不等。复查一般通过电话进行,审核内容主要包括五个方面:(1)查实此人是否真正接受了调查。(2)查实受访者是否符合过滤条件。比如,一项调查要求对居住在某小区内月收入为3000元以上的居民进行,那么,在复查中受访者将再次被问到是否住在某小区、月收入是否在3000元以上。,(3)查实调查是否按规定的

3、方式进行的。比如,一项拦截访谈应在指定的购物场所进行,那么就应查实受访者是否在该购物场所接受访谈。市场研究人员有义务确保所有的数据都是在规定的条件下获取的。(4)查实问卷回答内容是否完整。有时某些具体调查很难找到受访者,所以访员很可能只询问一些问题,然后就自己填写其余问题的答案。因此在复查审核过程中应查实受访者是否回答了所有问题。(5)核查其他方面的问题。比如访员举止是否礼貌、衣冠是否整齐、礼品是否足量送到、是否有过提示、受访者对访员或调查本身有什么意见。以上检查的目的是确认调查是否按要求正确无误进行的。,(二)编辑整理1.登记与编号对于大规模的调查,不同的地区和访问员交付上来的问卷,应当认真

4、细致地做好接收与核对工作。负责接收问卷的人员一般要事先设计好一定的表格,用于登记交付上来的问卷。表格上的项目一般包括:调查员的姓名、调查地区、调查实施的时间、交付的日期、实发问卷数、未答或拒答问卷数、丢失问卷数、合格问卷数等。其中重要的是对不同调查员和不同地区(或单位)交付上来的问卷在登记之后要及时在问卷表面进行编号或注明调查员和调查地区等,否则大量的问卷混在一起,弄乱之后容易失去大量的信息。,2.查验存在问题,复查审核是对访员的作弊行为及调查是否严守程序进行核实,而编辑整理是对访员和受访者的疏忽、遗漏、错误进行检查。编辑整理过程中查验的问题包括以下几个:(1)访员是否没问某些问题,或者没有记

5、录某些问题的答案。(及时补访)(2)访员是否遵循了规定的跳问路线。(3)开放式问题的答案是否真实合理。市场研究人员以及客户通常对开放式问题的答案很感兴趣。(答案质量),3.筛选出无效的问卷,在进行问卷审核时应当注意以下两个要点:第一,规定若干规则,使检查人员明确问卷完整到什么程度才可以接受。例如,至少要完成多少,哪一部分是应该全部完成的,哪些缺失数据是可以容忍的,等等。第二,对于每份看似完成了的问卷都必须彻底地检查,要检查每一页和每一部分,以确认调查员(或被访者)是否按照指导语进行了访问(或回答)并将答案记录在了恰当的位置上。,通常一份不合格的调查问卷有以下特点:(1)所回收的问卷是明显不完整

6、的。(多页或少页)(2)问卷的回答不完全。(相当多的部分没填写)(3)被调查者没有按照指导语的要求来回答的问卷。(4)答案几乎没有什么变化。(在用5级量表测量的一系列问答题中,只选了答案3)(5)调查对象不符合调查设计的要求。(由不符合要求的其他人填写的问卷)(6)问卷是在事先规定的截止日期以后回收的。(7)由于调查人员的记录不准确而造成的模糊不清。(特别是开放式问题)(8)答案前后不一致。(年龄50岁,职业为中学生),注意:,一般情况下,会有一些检查人员难于判断的问卷,这些问卷应该先放在一边,通知研究人员来检查以决定取舍。因此,通常最好建议检查人员将原始问卷分成三部分:可以接受的;明显要作废

7、的;对是否可以接受有疑问的。如果有配额的规定或对某子样本有具体的要求,那么,应将可以接受的问卷分类并数出其数量。如果没有满足抽样的要求,就要采取相应的行动,例如在资料校订之前对不足份额的类别再做一些补充的访问。,问卷的校订,问卷校订是为提高数据的准确度而进行的审查,这个阶段实际上就是在筛选出的合格问卷中找出不满意的答案,并对这些不满意答案进行处理的过程。(一)检查不满意的答案 找出任何属于下列情况之一的答案。1.字迹模糊或答案不完全的。(开放式问题的记录;有些问题没回答)2.不一致的。3.模棱两可的。(单一问题的封闭题出现选了多个答案)4.分叉错误的。如:“如果是这样的话,那么,否则就”又如:

8、这是您第一次来这个超市购物吗?是1 继续回答 不是2 跳答,(二)处理不满意的答案,对于上述不满意的答案,通常有三种处理办法:1.返还现场。将调查问卷返还现场的办法对于样本容量较小且调查对象易于辨认的商业和工业市场调查是相当重要的。2.找出遗漏值。如果不可能将调查问卷返还现场,或由于不合格调查问卷数量较大造成成本的大幅度增加,那么,审核人员可以找出调查问卷中的不合格回答的遗漏值,以便在进一步的信息整理工作中避开这些被遗漏信息,保留剩余的有用信息。这一方法适应于:做出不合格回答的调查对象人数较少,不合格答案在所有答案中所占比例较小,或不合格答案不是关键变量。,3.排除(丢弃)不合格的调查对象(问

9、卷)在这一阶段,做出不合格回答的被访者将被剔除,适用于这种情况的前提条件是:(1)这类调查对象占样本容量的比例较小(少于10%)。(2)样本容量较大;(3)在较为明显的特征上,如人口统计学特征、产品使用特性等方面,不合格的调查对象与令人满意的调查对象几乎不存在差异。(4)不合格的回答在一份调查问卷中所占比例大。(5)缺少对关键变量的回答。,归纳:,处理不合格调查问卷的方法可归纳为两类。第一类是当调查的样本容量较大时,可舍去不合格的问卷,并对合格的调查问卷做进一步的加工处理。第二类是当样本容量较小时,应将调查问卷返回现场,以便取得符合要求的回答,然后再将正常的或有问题但不能返回现场的问卷做细致处

10、理。当研究者决定要扔掉不满意的问卷,应该向客户报告识别这些问卷(被访者)的方法和作废的数量。,资料的预处理,缺失数据的处理缺失数据是指由于被调查者没有给出明确的答案或调查员没有记录下他们的答案而造成的未知变量值。在许多情况下,少量的缺失回答是可以容忍的,但是如果缺失值的比例超过了10%,就可能出现严重的问题。常用的处理缺失数据的方法是填充法,这样做一是能保留下所收集的缺失问卷的其他信息资料,二是避免了非随机性引起的偏差。处理缺失值主要有以下几种方法。1.用平均值替代。由于该变量的平均值保持不变,那么其他的统计量如标准差和相关系数等也不会受很大的影响。,2.用模型计算值替代是指利用某些统计模型计

11、算得到的比较合理的值来代替。例如利用回归模型、判别分析模型等。比方说,“产品的使用程度”可能与“家庭规模”和“家庭收入”有关系,利用回答了这三个问题的被访者的数据,可以构造出一个回归方程。对于某个没有回答“产品使用程度”的被访者,只要其“家庭规模”和“家庭收入”是知道的,就可以通过这个回归方程计算出其“产品使用程度”。考虑到这种替代是基于科学的统计方法,所以用模型计算值替代较之平均值替代更准确些。3.个案删除。将凡是有缺失数据的问卷都删除掉,不参加数据分析。4.配对删除。不删除有缺失数据的所有个案,而是对每种计算只使用那些有完全回答的个案。(样本量较大、缺失数据不多、变量间不是高度相关的),调

12、查资料的分组,审核后的数据资料只有进行分组和汇总,才能为市场分析提供系统化和条理化的综合指标数据。分组是根据调查任务的要求和事物本身的特点,按照一定的标准或标志将所调查的数据资料分为若干组成部分或类别的一种统计方法。分组标志分为品质标志和数量标志。品质标志是指按事物属性方面的差别分组。如,人口按性别、职业、民族等分组,商业按零售业态分组(国有、“三资”、民营等),商品按用途分组等,按品质标志分组的方法又被称为分类。数量标志分组是指按事物数量方面的差异来分组。如消费者按人口、年龄、人均收入分组、企业规模按营业额分组等。,资料分组的原则和作用,分组的原则:同质性、差异性、概括性。同质性:各组内的资

13、料必须具有相同的性质。差异性:级别之间的资料存在质和量的差别。概括性:分组后所有单位都有归属的类或组,无一遗漏。分组的基本作用(1)划分市场现象的类型。(2)表明市场现象的内部结构。(3)反映现象间的依存关系。,分组的步骤,第一,选择恰当的分组标志。(根据调查研究目的和总体本身的特点)第二,确定分组界限。第三,确定分组形式。(等距还是不等距分组)如果数量标志变动比较均匀,如身高、体重,则采用等距分组,如数量标志变动很不均匀,如急剧的增长、下降,或变动幅度很大时,就应采用不等距分组。第四,确定组距和组数。一般既可以先确定分组数,再确定组距;也可以先确定组距,再确定组数。组距=(最大变量值最小变量

14、值)/组数,第五,确定组限与组中值。每组的起点数为下限,终点数为上限。对连续变量分组时,由于连续变量的数值是连续不断的,相邻两个数值之间可取无限数值,因此相邻组的组限必须重合。按习惯规定,各组内不包括上限数值,即“上组限不在内”原则。如:营业额(万元)510、1015、1520、2025、2530对离散变量分组时,变量的数值只能取整数,因此相邻组的组限一般要间断。如:年龄 20岁以下、2130、3140、4150、51岁以上组中值是代表各组变量值平均水平的数值。为了反映分布在各组中个体单位变量值的一般水平,往往用组中值作为各组变量值的代表值。组中值=(上限值+下限值)/2,为了避免出现空白组,

15、同时又可能使个别变量离差较大的单位不至于无组可归,通常在首末两组使用“以下”及“以上”的开口组。开口组的组中值计算方法:缺下限的开口组组中值=上限值邻组组距/2缺上限的开口组组中值=下限值+邻组组距/2通过分组形成了总体中各单位在各组之间的分布,在统计上这被称为频数分布或次数分布。频数分布是数据处理的一种重要形式,可用以研究总体各单位及各组分布状况、分布特征和总体的构成,是进一步分析总体集中趁势和离散程度的基础资料。,请思考:某超市一年的日销量最大为892箱,最小为403箱,如何分组?分析:一般可在400899的范围内分为5组,于是有以下结果:,调查资料的描述,一、调查结果的表格化统计表是数据

16、资料表现的一种重要方式,它能够简明地描述资料的特性以及不同资料之间的关系,便于进行比较分析。在封闭式问卷中,每个调查问项都是分组的标准,问项下的备选答案都是分组后的组别或类别。,(一)统计表的构成,从构成形式来说,统计表一般包括如下几个项目:(1)序号:写在表的左上方,一般以文章或书本中出现的先后顺序列出。(2)标题:即统计表的名称,概括统计表的内容,写在表的上端中部。(3)横行标题:横行的名称,即各组的名称,写在表的上方第一行。(4)纵栏标题:纵栏的名称,即指标或变量的名称,写在表的左侧即第一列。(5)指标数值:列在横行标题和纵栏标题交叉对应处。(6)表注:写在表的下面,用以对标题加以补充说

17、明,或说明表中数据的来源等。,统计表从内容上看,由主词或宾词两大部分构成。主词是统计表所要说明的总体的各个构成部分或级别的名称,列在横行标题的位置。宾词是统计表所要说明的统计指标或变量的名称和数值,列在纵栏标题的位置。有时为了编排的合理和使用的方便,主词和宾词的位置可以互换。(二)统计表的种类根据主词是否分组以及分组的程度,统计表可分为简单表、分组表、复合表。简单表是主词未经任何分组的统计表。分组表是主词仅按某一标志进行分组的统计表。复合表是主词按两个或两个以上标志进行分组的统计表。,随机抽取某边远乡村300户农家,调查彩色电视机的拥有情况,得到如表11-3所示的频数、频率统计表。,(三)统计

18、表的设计原则力求做到科学、简明、实用和美观。(四)统计表设计的一般规则(1)如果统计表的栏数较多,通常要加以编号。(2)统计表必须注明数字资料的计量单位。(3)表中数字位数应对准,同类数字应保持统一的有效位数。(4)对于某些需要作特殊说明的统计资料,可在表的下方加以注明。,二、统计图,统计图以圆点多少、直线长短、曲线起伏、条形长短、柱状高低、圆饼面积、体积大小、实物形象大小或多少、地图分布等图形来陈示调查数据。用统计图陈示调查数据具有“一图抵千字”的表达效果,因为图形能给人以深刻而明确的印象,能揭示现象发展变化的结构、趋势、相互关系和变化规律,便于表达、宣传、讲演、广告和辅助统计分析。但统计图

19、能包含的统计项目较少,且只能显示出调查数据的概数,故统计图常配合统计表、市场调查报告使用。图示的主要种类有条形图、圆形图、曲线图和统计地图。统计图可采用手工制作,也可以采用电脑作为辅助工具进行制作。,(一)统计图的要素完整的统计图包括六个要素:即图号、图名、图目、图尺、图形和图注。,(1)图号图的序号,以图在报告中出现的顺序来确定。(2)图名统计图的名称,对图示资料内容的概括,一般与图号一起写在图的最下方。(3)图目统计图的横坐标上所用的单位名称。(4)图尺统计图的纵坐标上用一定的距离表示数据的单位。图尺可以是计数单位,也可以是百分比单位。(5)图形是图的主要部分,可以用线或面构成。图形的制作

20、要求是使整个图形和谐、美观、均衡。在表述不同的结果时,用不同的图形。(6)图注在图形的局部或某一点,用文字或数字加以补充说明的部分。图注的目的是帮助读者理解图形所表达的内容或说明资料来源。,(二)统计图的类型统计图的种类很多,常用的主要有圆形图、柱形图、折线图等。(1)圆形图。又称饼图,是以圆形的面积代表总体指标数值,圆形的各扇形面积代表各组指标数值。适用于分析总体中各部分的构成比例,以及各部分之间的比较,所要显示的资料数据一般是百分数。圆形图的图尺是圆周,单位是把圆周分成100份,每1%相当于3.6度,它的基线是圆内的半径。例如,某酒店2005年旅客源构成如下:商业旅游者占45%,纯旅游者占

21、16%,旅行社旅游者占13%,会议旅游者占11%,体育团体占10%,其他占5%,将其用圆形图直观表示如图所示。,绘制方法:1.在Excel中输入数据;2.“插入”“图表”选择“饼图”(2)折线图。把某一标志随时间变化而变化的情况用时点表示出来,然后连接起来形成的图形。对于计数资料而言,只要用直线把条形图顶端中点连接起来,就可以得到折线图。它可使资料的分布更加一目了然,并且可以描述某种现象随时间变化而变化的趋势,通过分析其规律,预测未来某一年的变化趋势。,(3)柱形图。以宽度相同的条形的高低或长短来表示统计数值大小及数量关系的一种统计图形。任何可在线形图、饼状图中表示的数据均可在柱形图中表达。另

22、外,许多不能用其他图表有效表达的数据,也能用柱形图表达。由于这种图形制作简单,便于对比,又容易给人留下深刻印象,所以被广泛应用于实践中。常用的四类柱形图如下:简明柱形图。柱形图主要是在表示同一指标随时间变化而变化的情况或表示同一指标随地点不同而变化的情况时使用。聚类柱形图。可以将交叉表格内数据结果图表示出来。堆积柱形图。这是聚类柱形图的另一种表示方式。多行三维柱形图。最具视觉吸引力、有立体感,效果非常好。,数据的分布分析与相对分析,一、数据的分布分析1.频数分布分析 2.相对频数分布分析 3.百分比频数分布分析,二、数据的相对分析,相对程度分析是指由两个相联系的统计指标对比计算的相对数,对其反

23、映的事物间的关系进行的研究分析。市场调查分析中常用的相对指标主要有结构相对指标、比较相对指标、比例相对指标和强度相对指标等几种。1.结构相对指标。总体内某一部分数值与总体全部数值对比的比值。也叫比重。,2.比较相对指标。指不同总体的两个同类指标进行对比的比值。它用以反映同类现象在同一时间、不同空间的差别程度。一般用倍数或百分数表示。例如,两个同类型企业单位产品产量所花费成本的对比。3.比例相对指标。是同一总体内不同组成部分的指标数值对比的比值。常用系数或倍数表示。如男女性别比例、产品产量和原材料消耗之间的比例。,4.强度相对指标。是由两个性质不同但又有联系的总量指标进行对比的比值,用来反映强度

24、、密度、普及程度等。一般采用复名数单位表示。如人均GDP、人口密度等。说明:有些强度相对数的分子和分母可以互换,因而有正指标与逆指标两种形式。强度相对数还可用于反映企业的经济效益,如流通费用率、资金利税率、资金产值率、全员劳动生产率等。,5.动态相对指标。也称发展速度,它是同类现象的指标数值在不同时间上的对比,用以反映现象在时间上的发展和变化程度。通常把用来作为比较基础的时期称为“基期”,把用来与基期对比的时期称为“报告期”。,计算发展速度时,由于选择的基期不同,发展速度又分为环比发展速度和定基发展速度。,环比发展速度反映现象逐期发展的程度。,定基发展速度反映现象在一段时期内发展的总速度。在实

25、际工作中经常会用到增长速度,它说明某种现象增长的相对程度。增长速度也分为环比增长速度和定基增长速度。增长速度=发展速度100%环比增长速度=环比发展速度100%定基增长速度=定基发展速度100%,例如:,数据的集中量数分析与离中量数分析,一、数据的集中量数分析1.集中量数的意义集中量数也称集中趋势,也就是人们通常说的“平均值”。平均指标反映了总体分布的集中趋势,它是总体分布的重要特征。当我们度量现象的集中趋势,即研究现象的一般水平时,显然不能用其中一个个别的观察值来表示,而只能用一个有代表性的量把现象的一般水平表现出来,这个量就是平均数。在度量集中趋势的各种平均数中,最常用的有众数、中位数、算

26、术平均数三种。,2.集中量数的两个显著特点一是抽象性。用一个数值来代表一组数据,对原始数据来说是一种简化的过程。如日本一专家根据对作出杰出贡献的许多科学家的调查,得出脑力劳动者的最佳智力年龄区是45岁左右。也许没有一位科学家刚好在45岁作出最大的科研成果,但这一数值却是全体成员年龄的集中表现。二是代表性。集中量数是一组数据的代表值,可以说明一组数据的特征,表示这组数据的一般水平,因此可以用来进行组间比较,以判明这组数据与另一组数据的差别。如用两个地区的年人均收入相比,就可以判明其生活水平的高低。,3.几种常用的集中量数及其分析(1)众数组、众数众数组:在统计中,数据出现最多的组称为众数组。众数

27、:出现最多的数据称为众数。,日销售量“600699”箱的组即为众数组。但是哪一个数为众数,在表中并没有显示,要查找并统计原始数据才能确定,一般习惯上对于这类数据还取该组的中心值(组中值)650为众数。但是要十分注意并不一定650是出现次数最多的数。众数更精细的计算公式为:其中:M表示众数,L表示众数组下限,d表示众数组组距,1表示众数组频数与前一组频数的差,2表示众数组频数与后一组频数的差。,(2)中位数把一组数据由小到大排列,当数据个数为奇数时,中间位置的数称为中位数;当数据个数为偶数时,中间位置的两个数的平均值称为中位数。中位数记为。例:有一组数据为:121 91 73 89 113 14

28、0 151 147 163由小到大重新排列后得:73 89 91 113 121 140 147 151 163故,例:有一组数据为:51 92 64 87 79 58 95 98由小到大重新排列后得:51 58 64 79 87 92 95 98则中位数 在中位数的计算中,特别应该注意一个问题就是计算之前,一定要把数据自小到大排列,这一点同学们往往忽视和遗忘。,(3)平均值有一组数据为,其平均值计算公式为:当数据出现的频数为 时,其平均值计算公式为:,二、数据的离中量数分析1.离中量数的意义离中量数,也称离散程度,就是资料中各个变量值与集中量数的偏差程度的数值,用来反映数据之间的差异程度。离

29、散量越大,这组变量越分散,这时,如果用集中量数作估计或预测,所出现的误差也越大;反之亦然。因此,离中量数分析可以看作是集中量数的补充说明。2.几种常用的离中量数测定离中量数的常用方法有异众比率、四分位差和标准差。,(1)极差(全距)设一组数据X1X2Xn则极差R=XnX1显然,极差表示了数据分散的范围大小。例如:假设以下资料是甲、乙两组8个家庭的年消费支出(千元):甲组:26、29、33、37、41、44、49、53;乙组:35、36、37、38、40、41、42、43。请计算两组的全距。解:甲组的全距=5326=27(千元)乙组的全距=4335=8(千元)由于甲乙两组的平均数都是39千元,而

30、甲组的全距为27千元,乙组的全距为8千元。这说明甲组的平均数代表性小,乙组的平均数代表性大。,1.思考:用极差来表示数据的分散程度有什么局限性?2.思考:在歌手大赛中,在评定成绩时,为什么要去掉一个最高分,去掉一个最低分?全距受总体中最大值和最小值的影响,如果因特殊原因出现特别大或特别小的数值,全距就不能确切反映标志值真实的变异程度。它只是一个较粗略的测量离中趋势的指标。在实际应用中,当经济现象的离散程度比较稳定时,可以使用这一指标。,由于极差是应用最大、最小两个极端值来界定数据变化范围的,具有某种片面性。根据去掉一个最高分,去掉一个最低分的思路,是否可以把数据由小至大排列分成4组,去掉前1/

31、4组,去掉后1/4组,仅把中间两组数据的变化范围作为数据分散趋势的一种表示呢?极差 最小 1/4位数 3/4位数 最大,(2)四分位差一组数据为X1X2Xn;其中四分位数差为其中:式中 为取整符号,如当n=9时,即略去极端数据 后用 表示数据的分散程度。,1.请思考:为什么要把数据由小到大排列四分位数差才有意义。2.试计算下列数组的四分位差 21,48,56,11,9,4,3 3.假设有数组:0,10,20,30,40,50,60,70,80,90,100,110,元素共12个,计算四分位差。四分位差值越大,中位数的代表性越差。此时,用中位数为估计值或预测值的误差也就越大。,(3)标准差标准差是测定标志变异度最重要、最常用的指标。根据数据资料的形式不同,标准差的计算可分为简单和加权两种。对于未分组资料,采用简单式计算,其公式为:对于分组资料,采用加权式计算,其公式为:,解:根据资料列表并计算:每个柜组的平均销售额:各部组营业额的标准差:即全商场50个部组每个部组的营业额与平均营业额相差11.48万元。,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号