营销调研方法2.docx_三一办公31ppt.com

资源描述

《营销调研方法2.docx》由会员分享，可在线阅读，更多相关《营销调研方法2.docx（149页珍藏版）》请在三一办公上搜索。

1、营销调研2四、问卷设计方法(1) 问卷调查是现代社会市场调查的一种十分重要的方法，而在问卷调查中，问卷设计又是其中的关键，问卷设计的好坏，将直接决定着能否获得准确可靠的市场信息。本部分我们将详细介绍问卷设计的有关概念和基本技巧。（一）问卷设计概述调查问卷，又称调查表，是调查者根据一定的调查目的精心设计的一份调查表格，是现代社会用于收集资料的一种最为普遍的工具。按照不同的分类标准，可将调查问卷分成不同的类型。（1）根据市场调查中使用问卷方法的不同，可将调查问卷分成自填式问卷和访问式问卷两大类。所谓自填式问卷，是指由调查者发给（或邮寄给）被调查者，由被调查者自己填写的问卷。而访问式问卷则

2、是由调查者按照事先设计好的问卷或问卷提纲向被调查者提问，然后根据被调查者的回答进行填写的问卷。一般而言，访问式问卷要求简便，最好采用两项选择题进行设计；而自填式问卷由于可以借助于视觉功能，在问题的制作上相对可以更加详尽，全面。（2）根据问卷发放方式的不同，可将调查问卷分为送发式问卷、邮寄式问卷、报刊式问卷、人员访问式问卷、电话访问式问卷和网上访问式问卷六种。其中前三类大致可以划归自填式问卷范畴，后三类则属于访问式问卷。送发式问卷就是由调查者将调查问卷送发给选定的被调查者，待被调查者填答完毕之后再统一收回。邮寄式问卷是通过邮局将事先设计好的问卷邮寄给选定的被调查者，并要求被调查者按规定的要

3、求填写后回寄给调查者。邮寄式问卷的匿名性较好，缺点是问卷回收率低。报刊式问卷是随报刊的传递发送问卷，并要求报刊读者对问题如实作答并回寄给报刊编辑部。报刊式问卷有稳定的传递渠道、匿名性好，费用省，因此有很大的适用生，缺点也是回收率不高。人员访问式问卷是由调查者按照事先设计好的调查提纲或调查问卷对被调查者提问，然后再同调查者根据被调查者的口头回答填写问卷。人员访问式问卷的回收率高，也便于设计一些便于深入讨论的问题，但不便于涉及敏感性问题。电话访问式问卷就是通过电话中介来对被调查者进行访问调查的问卷类型。此种问卷要求简单明了，现时在问卷设计上要充分考虑几个因素：通话时间限制；听觉功能的局限性；

4、记忆的规律；记录的需要。电话访问式问卷一般应用于问题相对简单明确，但需及时得到调查结果的调查项目。网上访问式问卷是在因特网上制作，并通过因特网来进行调查的问卷类型。此种问卷不受时间，空间限制，便于获得大量信息，特别是对于一引起敏感性问题，相对而言更容易获得满意的答案。（二）问卷的基本结构 1问卷的基本要求一份完善的问卷调查表应能从形式和内容两个方面同时取胜。从形式上看，要求版面整齐、美观、便于阅读和作答，这是总体上的要求，具体的版式设计、版面风格与版面要求，这里暂不称述。再从内容上看，一份好的问卷调查表至少应该满足以下几方面的要求：（1）问题具体、表述清楚、重点突出、整体结构好。

5、（2）确保问卷能完成调查任务与目的。（3）调查问卷应该明确正确的政治方向，把握正确的舆论导向，注意对群众可能造成的影响。（4）便于统计整理。 2问卷的基本结构问卷的基本结构一般包括四个部分，即说明信、调查内容、编码和结束语。其中调查内容是问卷的核心部分，是每一份问卷都必不可少的内容，而其他部分则根据设计者需要可取可舍。（1）说明信说明信是调查者向被调查者写的封简短信，主要说明调查的目的、意义、选择方法以及填答说明等，一般放在问卷的开头。（2）调查内容问卷的调查内容主要包括各类问题，问题的回答方式及其指导语，这是调查问卷的主体，也是问卷设计的主要内容。问卷中的问答题，从形式上看，

6、可分为开放式、封闭式和混合型三大类。开放式问答题只提问题，不给具体答案，要求被调查者根据自己的实际情况自由作答。封闭式问答题则既提问题，又给出若干答案，被调查中只需在选中的答案中打“”即可。混合型问答题，又称半封闭型问答题，是在采用封闭型问答题的同时，最后再附上一项开放式问题。至于指导语，也就是填答说明，用来指导被调查者填答问题的各种解释和说明。（3）编码编码一般应用于大规模的问卷调查中。因为在大规模问卷调查中，调查资料的统计汇总工作十分繁重，借助于编码技术和计算机，则可大大简化这一工作。编码是将调查问卷中的调查项目以及备选答案给予统一设计的代码。编码既可以在问卷设计的同时就设计好，也

7、可以等调查工作完成以后再进行。前者称为预编码，后者称为后编码。在实际调查中，常采用预编码。（4）结束语结束语一般放在问卷的最后面，用来简短地对被调查者的合作表示感谢，也可征询一下被调查者对问卷设计和问卷调查本身的看法和感受。四、问卷设计方法(2)（三）问卷设计的过程问卷设计的过程一般包括十大步骤，确定所需信息、确定问题的类型、确定问题的内容、研究总是的类型、确定问题的提法、确定问题的顺序、问卷的排版和布局、问卷的测试、问卷的定稿、问卷的评价。 1确定所需信息确定所需信息是问卷设计的前提工作。调查者必须在问卷设计之前就把握所有达到研究目的和验证研究假设所需要的信息，并决定所有用于分析使用

8、这些信息的方法，比如频率分布、统计检验等，并按这些分析方法所要求的形式来收集资料，把握信息。 2确定问卷的类型制约问卷选择的因素很多，而且研究课题不同，调查项目不同，主导制约因素也不一样。在确定问卷类型时，先必须综合考虑这些制约因素：调研费用，时效性要求，被调查对象，调查内容。 3确定问题的内容确定问题的内容似乎是一个比较简单的问题。然而事实上不然，这其中还涉及一个个体的差异性问题，也许在你认为容易的问题在他为困难的问题；在你认为熟悉的问题在他为生疏的问题。因此，确定问题的内容，最好与被调查对象联系起来。分析一下被调查者群体，有时比盲目分析问题的内容效果要好。 4确定问题的类型问题的类型

9、归结起来分为四种：自由问答题、两项选择题、多项选择题和顺位式问答题其中后三类均可以称为封闭式问题题。（1）自由问答题自由问答题，也称开放型问答题，只提问题，不给具体答案，要求被调查者根据自身实际情况自由作答。自由问答题主要限于探索性调查，在实际的调查问卷中，这种问题不多。自由问答题的主要优点是被调查者的观点不受限制，便于深入了解被调查者的建设性意见、态度、需求问题等。主要缺点是难于编码和统计。自由问答题一般应用于以下几种场合：作为调查的介绍；某个问题的答案太多或根本无法预料时；由于研究需要，必须在研究报告中原文引用被调查者的原话。（2）两项选择题两项选择题，也称是做题，是多项选择的一个

10、特例，一般只设两个选项，如“是”与“否”，“有”与“没有”等。两项选择题的特点是简单明了。缺点是所获信息量太小，两种极端的回答类型有时往往难以了解和分析被调查者群体中客观存在的不同态度层次。（3）多项选择题多项选择题是从多个备选答案中择一或择几。这是各种调查问卷中采用最多的一种问题类型。多项选择题的优点是便于回答，便于编码和统计，缺点主要是问题提供答案的排列次序可能引起偏见。这种偏见主要表现在三个方面：第一，对于没有强烈偏好的被调者而言，选择第一个答案的可能性大大高于选择其他答案的可能性。解决问题是打乱排列次序，制作多份调查问卷同时进行调查，但这样做的结果是加大了制作成本。第二，如

11、果被选答案均为数字，没有明显态度的人往往选择中间的数字而不是偏向两端的数。第三，对于A、B、C字母编号而言，不知道如何回答的人往往选择A，因为A往往与高质量、好等相关联。解决办法是得用其它字母，如L、M、N等进行编号。（4）顺位式问答题顺位式问答题，又称序列式问答题，是在多项选择的基础上，要求被调查者对询问的问题答案，按自己认为的重要程度和喜欢程度顺位排列。在现实的调查问卷中，往往是几种类型的问题同时存在，单纯采用一种类型问题的问卷并不多见。 5确定问题的措辞很多人可能不太重视问题的措辞，而把主要精力集中在问卷设计的其他方面，这样做的结果有可能降低问卷的质量。下面是几条法则，不妨试

12、试。（1）问题的陈述应尽量简洁。（2）避免提带有双重或多重含义的问题。（3）最好不用反义疑问句：避免否定句。（4）注意避免问题的从众效应和权威效应。 6确定问题的顺序问卷中的问题应遵循一定的排列次序，问题的排列次序会影响被调查者的兴趣、情绪，进而影响其合作积极性。所以一份好的问卷应对问题的的排列作出精心的设计。一般而言，问卷的开头部分应安排比较容易的问题，这样可以给被调查者一种轻松、愉快的感觉，以便于他们继续答下去。中间部分最好安排一些核心问题，即调查者需要掌握的资料，这一部分是问卷的核心部分，应该妥善安排。结尾部分可以安排一些背景资料，如职业、年龄、收入等。个人背景资料虽然也属事

13、实性问题，也十分容易回答，但有些问题，诸如收入、年龄等同样属于敏感性问题，因此一般安排在末尾部分。当然在不涉及敏感性问题的情况下也可将背景资料安排在开头部分。还有一点就是注意问题的逻辑顺序，有逻辑顺序的问题一定要按逻辑顺序排列，即使打破上述规则。这实际上就是一个灵活机动的原则。 7问卷的排版和布局问卷的设计工作基本完成之后，便要着手问卷的排版和布局。问卷排版的布局总的要求是整齐、美观、便于阅读、作答和统计。 8问卷的测试问卷的初稿设计工作完毕之后，不要急于投入使用，特别是对于一些大规模的问卷调查，最好的办法是先组织问卷的测试，如果发现问题，再及时修改，测试通常选择20-100人，样本数不

14、宜太多，也不要太少。如果第一次测试后有很大的改动，可以考虑是否有必要组织第二次测试。 9问卷的定稿当问卷的测试工作完成，确定没有必要再进一步修改后，可以考虑定稿。问卷定稿后就可以交付打印。正式投入使用。 10问卷的评价问卷的评价实际上是对问卷的设计质量进行一次总体性评估。对问卷进行评价的方法很多，包括专家评价，上级评价，被调查者评价和自我评价。专家评价一般侧重于技术性方面，比如说对问卷设计的整体结构，问题的表述、问卷的版式风格等方面进行评价。上级评价则侧重于政治性方面，比如说在政治方向方面，在舆论导向方面，可能对群众造成的影响等方面进行评价。被调查者评价可以采取两种方式：一种是在调查

15、工作完成以后再组织一些被调查者进行事后性评价；一种方式则是调查工作与评价工作同步进行，即在调查问卷的结束语部分安排几个反馈性题目，比如，“您觉得这份调查表设计得如何？” 自我评价则是设计者对自我成果的一种肯定或反思。九.市场调研中的相关分析与回归分析在研究具有相互关联的事件上，我们通常借助于相关分析和回归分析这两种统计方法，度量变量之间关联程度的方法叫相关分析。如果考虑的是两个变量之间关系时，称为简单相关；如果讨论一个变量与两个或多个其他变量的关系时，就称为复相关或偏相关，而回归分析则是根据已知的一个或一个以上变量(自变量)的值来估计另一个变量(因变量)的值，并且算出估计的误差。尽管这两种方

16、法在现实使用时可以互相替代，但仍然存在不同，相关分析只是测定变量之间的相关程度。它考虑的是随机变量之间的共同变动，而不必区分自变量和因变量，而回归分析是希望得出一个有关各个变量之间联系的数字表达式，其中只有目标变量因变量假设为随机变动，而自变量均为已知常数，正如探讨变量之间关联度不必推导出一个方程，我们也可以在不考虑变量关联度情况下做回归分析。一般而言，两种方法是混合使用的，统称为相关回归分析，下面我们将分别介绍这两种方法。（一）相关分析(1) 1简单相关探讨变量Xi，Yi间的相关关系时，可以先做出散点图(ScatterDiagram)，以数标轴上的点代表Xi，Yi的一对观察值，这可以直观

17、地考察变量之间联系程度，且有助于选择合适的估计模型。对两个变量X，Y之间的简单相关，需要事先作出如下假设：两个变量均为随机变量，一个样本观察值同时包括X，Y的值。两个变量为联合正态分布。即在任何其中一个变量的观察值不变时另一个变量呈正态分布。如果两个变量X，Y的测定值为(X1,Y1)，(X2,Y2)(Xn,Yn)，变量X，Y的平均数以，来表示，即： (i=1,2n) 经计算r在-1与+1之间变化。若X，Y完全正相关，一单位X的增加引得Y增加一单位，此时r=+1，反之，若X增加一单位导致Y减少一单位，两者完全负相关时，r=-1，有关情况如下表(9-1)。表9-1 R=1完全正相关

18、0R1 正相关 R=0不相关 -1R0 负相关 R=-1完全负相关如果数据较多，可把X与Y分别分组，用组的组中值为代表值，由于各组皆有不同的次数f,则X1，X2XiXk与Y1，Y2YjYe可作为两个变量的相关表(Correlationtable)。见表(9-2)。 XY X1 X2 Xi Xk 合计 Y1 F11 F21 Fi1 Fk1 F1 Y2 F12 F22 Fi2 Fk2 F2 Fkj Fj Yj F1j F2j Fij Ye F1e F2e Fie Fke F1 合计 F1 F2 FiFk N 表中，F1，F2FiFk表示与Y无关的X的分布，F1，F2FjFe表示与X无关的Y的分布

19、，这些分布都称为X，Y的边际分布(MarginalDistribution)，其中有关符号是：有关相关分析或回归分析的说明可以通过实例来表达，也方便我们作进一步的探讨，现在有一个生产宝珠笔的全国性生产商家“Click”，正准备对本公司在市场营销方面的策略效率进行调查。该公司借助地区代理商来分销“Click”笔，同时通过派驻公司销售代表和播放电视广告来辅助代理商进行销售。现确定以每年地区销售额作为效率的评价尺度，而且有关各地区销售代表的信息和数据可直接从公司记录中获取，比较而言其它他们认为与销售额有关的特征因素电视广告和代理商的绩效的判断就相对困难一些。为获得某一地区电视广告的情况必须对广告的

20、时段和电视频道所覆盖的范围进行分析。代理商的效绩则要求按照一定的标准对代理商进行等级评分并以最后的加总分来进行判断，如4=优秀；3=不错；2=一般；1=差劲，考虑到获取这些信息所要花费的时间和费用，最后“Click”公司决定对销售地区进行样本调查。这次随机抽取40个地区的调查结果见表9-3。首先做散点图(9-3)，表a表示销售额随每月电视广告时数增加时增加，而表b则显示当该地区销售代表人数变多时，销售额也随之上升，最后表C显示某一地区的销售额与该地区代理商的绩效没有太大的关联。表a和表b进一步表示销售额与各变量之间的关系呈直线关系，以Y表示销售额，X1表示电视广告，X2表示销售代表，现计算Y

21、与X1的相关系数以及Y与X2的相关系数分别为0.87、，表明两者之间存在显著的相关性。表9-3 Click宝珠笔的地区调查结果地区销售额（千美元）广告（电视时段/月）X1 销售代表人数X2 005 260.353 019 286.175 033 279.463 039 410.894 061 438.2126 082 315.3 83 091 565.1117 101 570.0168 115 426.1134 118 315.0 73 133 403.6106 149 220.5 44 162 343.6 94 164 644.6178 178 520.4197 187 329.

22、5 93 189 426.0116 205 343.2 83 222 450.4135 237 421.8145 242 245.6 74 251 503.3166 260 375.7 95 266 265.5 52 279 620.6186 298 450.5185 306 270.1 53 332 368.0 76 347 556.1127 358 570.0136 362 318.5 84 370 260.2 63 391 667.0168 408 618.3198 412 525.3177 430 332.2104 442 393.2125 467 283.5 83 471 376.2

23、105 488 481.8125 图9-2 销售Y销售Y （千美元）（千美元）在讨论相关系数时，我们更常使用另外一个概念可决系数R2，相关系数的平方。通过一系列代数运算，R2的公式可表示如下：正如在统计上要考虑样本值与总体值之间的差异，这里我们也必须测定可信程度的大小在我们接受样本值r值为整个销售地区的调查结果，这需要对r的显著性作假设检验。假设p表示相应未知的总体相关系数，我们计算以下的t统计量：因为置信度=0.05，自由度为38，则临界值r=2.02或r=-2.02判别的标准为：如果r2.02或r-2.02，则拒绝假设，由此可知，无论是Y与X1还是Y与X2都应拒绝假设H。尽管在判

24、断联合变化的相关度时，简单相关系数很有用，但仍有二点有关它的运用需要说明。首先，样本相关系数低或未能通过t-值显著性检验并不意味着两个变量一定没有联系，这只能说明它们缺乏线性联系，如图9-4所示，该散点图清楚地表示变量X与Y之间存在强的U-型线变化关系。然而在这种情况下得出的简单相关系数却可能接近于0，仅仅由于当将这些样本点联系起来考虑时呈现不出直线性联系。所以，即使简单相关系数非常少或不具备统计意义上的显著性，我们仍可以进一步对可能存在的非线性联系(曲线相关)作探究，尤其是有关经验或理论显示两者应该存在联系。也许研究曲线相关最简单的方法就是进行描点作散点图分析。图9-3 其次，正如有关统计

25、书上指出的，简单相关系数本身的存在并不足以推断变量之关联变动。例如，销售额与电视广告时数之间的相关系数为0.87并不保证当广告时段数上升会导致销售额的上升，尽管它试图得出这个结论，相关所说明的唯一的事是在所调查的40个地区中有关这个两个变量数据变化的模式是相近的，但这很有可能源于销售额与电视广告时数间的偶然性联系。比如，对于各个地区销售额的水平的预期会在一定程度上决定各地区广告时数高低水平，因此除非其它相关因素保持不变或其影响已计算在内，否则仅依靠简单相关系数来推断变量间的联系是十分危险的。九.市场调研中的相关分析与回归分析(2)（一）相关分析(2) 2复相关与偏相关引入更多的因素变量是我

26、们减少判断偏差提高准确度的方法之一，这就涉及到复相关和偏相关。为了方便后面的说明，这里我们先简单引入一下回归分析，借助回归方程来解释复相关系数和偏相关系数。有关回归分析的具体内容我们将在第二节作详细的介绍。如前面所提到的，在利用相关系数说明销售额Y与电视广告时数X之间联系，我们还可以借助直线方程式来说明。建立模型(在散点图基础上) 如果一方程中所包含自变量个数超过二个，我们该回归为复回归，该方程为复回归方程。即为复相关系数(MultipleCorrelationCoefficient) 为复相关可决系数，在对于销售额，电视广告和销售代表人数之间关系的调查中这意味着销售额中87.4%的变动

27、差异与电视广告时数及销售代表人数变化有关，销售代表的引入提高了变量间的相关度，因为87.4%的变动可以用这两个因素说明而电视广告时数的不同只能说明77.5%的变动。同时，说明三者之间存在强的关联度。所谓偏相关(PastialCorelation)是在测定n个独立变量对一个因变量的影响时，在排除其他变量的影响后，指定一个独立变量对这个因变量计算得的相关系数，称为偏相关系数，也可称为纯相关系数(NetConelationCoefficient)，回忆在简单相关分析中有关销售额Y与电视广告X之间简单可决系数可以表示如下：这意味着在销售变动中有42.4%与电视广告无关的变动可以从销售代表数目变化

28、中得出。相应的，在估计销售额与电视广告相关性时所犯的偏差减少了42.4%是源于销售代表数目作为增加项的引入。同样，偏相关可决系数的平方根即(一般只取正平方根)为偏相关系数。在这个例子中存在二个自变量X1，X2，因此我们可以定义有关于销售代表数目X2的偏相关系数为，我们可以类似的方法推算出有关电视广告的偏相关系数。它表示在充分考虑X2与Y相关度后加入因素X1对于Y整个变动差异的影响或增加的边际贡献之所以我们要借回归方程来解释复相关和偏相关系数是想说明各系数所代表的经济意义，并不是求相关系数非要得出回线方程不可。但从计算简便以及经济含义角度，我们经常选择两种方法一起使用。样本相关系数的分

29、布和测验在假定两变量(x,y)的组合总体适合于正态分布（三度空间的立体正态曲面）的条件下，x与y的相关系数r的抽样分布是随着两个因素样本单位数n与总体相关系数P的不同而变化着，不过总的说来，r分布的形态是属于各种各样的。如把总体相关系数p分成三类：P=0,P=0.50以及P=0.90，在不同的n条件下，r的分布形态是：图9-3 图9-4 图9-5 由于r分布的偏态形态，作实际测验的计算时，比较困难，英国著名统计学家埃爱费煦为了补救这种复杂计算的缺陷，用变量E代替r，替代公式为：其中ln表示以e为底的自然对数，对E的变量来说，它的分布接近于正态分布，因此，就可利用正态分布表作出测验。另外

30、，费煦已经作出了r与E间的变换表格，所以计算就大大地简化了。关于相关系数r的虚无假设的测验以及可信任界限的计算可举例如下：例如：样本为35对数据时，求出r为0.80，试用5%的显著标准来作出总体相关系数=0.90的虚无假设测验。先假定以虚无假设出发，r=0.80可能从总体=0.90中抽出，如果概率超过5%，就接受这个假设，否则，就推翻这个假设。从附表我们查出r=0.80时，Z=1.099，并从同一附表中，找出=0.90时，MZ=1.472，我们知道这里，Mz是在0.31与0.87之间，因此，P是在0.30与0.70之间，这个指标是以附表中0.31与0.87的正数值而获得的。九.市场调

31、研中的相关分析与回归分析(3)一、相关分析（3） 3等级相关(RankConelation) 有些时候，对现象或事物无法以精密数量确定其大小，轻重，只能以等级或次序排列出。例如，才智高低，事态轻重，色泽深浅，效率大小以及味道的好坏等，一般只能以等级排列。即使是精密的数据，有时也采用等级来测定它们之间的相互关系，这种关系一般是以等级相关系数来表示的,而在这些等级相关系数中，以司庇而曼(C.Spearman)的等级相关运用最为普遍。其公式为：其中：d=各对数据的等级差异 n=样本的数据总数司庇而曼相关系数是针对于两个序数变量的，其中每个变量的数据已按一定标准划分成1至n个等级，如果的和为0，

32、那么rs=1。也就是说此时两个变量的等级是等价的。rs值由+1(完全正相关)变化到-1(完全负相关)，其中若rs=0意味着彼此不相关。现有一个案例：在过去的几年间一家工业品营销公司一直从其总部附近地区的10所商科学校毕业生中招募销售人员，现在想确定这十所学校的相对名气与它的毕业生表现业绩之间是否存在关联。该公司的销售经理自己对这10所学校的声誉以及各自毕业生在本公司的表现进行了分级，这些等级评定情况见表9-4的第二列以及第三列。现在问题是各学校的名气与来自于各学校学生的销售业绩之间究竟有多大的联系呢? 借助于司庇而曼相关等级系数公式，我们可知： rs的值为0.661表明两个等级排名之间至少存

33、在一定的联系，那么这种联系在统计上显著吗?回答这个问题我们可以假定这10所学校是以商科学校总体中抽出的随机样本调查，然后检验以下检验： H0：PS=0 H1：PS0 PS为两个等级集总体相关等级系数，当n10时，以下的检验数据将是满足自由度为n-2的t-值分布：因为t2.31，所以我们拒绝H0并认为各商科学校的名气与其毕业生的工作表现存在真实的相关性。换而言之，样本中0.661的相关性不大可能由于偶然性而导致的。值得一提的是我们是根据不同等级对之间的等级差距来计算rs的，这种作法与认为构成序数尺度的数字之间的差距是没有什么意义的观点不同，事实上，在计算rs时我们已假设两个变量同等级的差距是

34、具有可比意义的，如果这个假设前提不成立，那么司庇而曼等级相关系数也就没什么意义了。九.市场调研中的相关分析与回归分析(4)（二）回归分析(1) 由一个或一组非随机变量来估计或预测某一个随机变量的观察值时，所建立的数学模型及所进行的统计分析，称为回归分析。如果这个模型是线性的就称为线性回归分析；如果模型是曲线的就称为曲线回归分析。这种方法是处理变量间相关关系的有力工具。它不仅告诉人们怎样建立变量间的数学表达式，即经验公式，而且还利用概率统计知识进行分析讨论，判断出所建立的经验公式的有效性，从而可以进行预测式估计。这在实际中的运用是十分普遍的。线性方程是比较容易求出的，即使是曲线方程也多半会转换成

35、线性方程进行求解。我们就从线性方程回归开始，而线性回归中最简单的就是两个变量，或者称为简单线性回归，借助第一节我们所举的“Click”公司有关销售额，电视广告以及销售代表的案例，对于销售额Y与电视广告时数X1我们可以建立模型(在散点图基础上)这是一种确定性方程，因为当、给定，一旦x1的值确定时有且仅有一个Y值与其对应值。然而在对社会现象进行调查时，不可能存在等于零的误差。考虑到这一点我们会在上述方程式上添加一个误差变量，以可能性模型来替代确定方程，即：这正是我们第一节中所提到的方程，误差项是该模型不可缺少的一部分，它暗示着模型可能有未包含进去的变量、一种人类行为中不可预测的因素以及偏差的度

36、量。可能性模型在给定，值情况下，Yi与Xi不是一一对应的关系；由给Xi值所能确定的只是这种情况Yi分布的平均值，而Yi真实值则围绕其上下波动。我们最终确定的回归方程是一种确定模型，因而我们希望能找到一条“最能代表真实可能性情况的方程或者说两者偏离最小。最常见的方法是最小二乘法。而该方法又以随机误差符合一定假设为前提的，这些假设条件具体如下：参看表9-3销售额Y和每月电视广告时数X1的有关数据，可以得到： 25.3意味着电视广告时段每增长一个单位则销售额会增加25，300美元。正如前面所提到的，这是建立在40个地区的抽样调查基础上得出的对真实总体值的估算值，不同的样本多半会导出不同的样本值。

37、而且，我们还不知道这个值是否具有统计上的显著性或者它是否是由偶然性引发的。然而，这是一个比较重要的方程因为它有助于我们决定广告费用的回报是否值得。截距参数值字=135.4;这表明当自变量为0时，该回归直线穿过y轴的距离。九.市场调研中的相关分析与回归分析(5)(二)回归分析（2）估计标准差对图9-7的仔细检查发现，尽管直线拟合数据拟合得很好，但仍存在若干点对于直线的偏离，从而实际上这些偏差的大小代表了回归方程直线拟合的优劣，成为判断方程好坏的一个指标。同样我们可以利用统计中的有关知识计算出这个指标。九.市场调研中的相关分析与回归分析(6)（二）回归分析(3) 有关斜率系数的分析前面计

38、算有关斜率系数值为25.3，但我们并不知道这个结果是否源于偶然性，是否具有意义，这就需要对其进显著性检验，根据著名的Gauss-Markov理论，如果我们要对回归系数进行统计检验我们要假设该变量的离差为随机分布，这与前面我们所提到的矩状型分布是有所出处的，此外，我们还需要设定由最小二乘法所估计出的总体参数是符合有效，无偏，最大拟然估计原则的估计值。如果H0不能被拒绝，情况又会怎么样呢?正如我们所指出的，代表样本回归直线的斜率，为变动一单位Y所相应变化的数额，如果不能证明 =0的虚无假设不存在，这也不能完全否定Y与X1之间没有联系，可能是我们在检验中犯了第二类错误，没有拒绝不成立的假设

39、。另外一种可能就是Y与X之间的关联是以某种曲线型方式存在，而我们运用了错误的模式去推算。对Y值的预测如果所求出的回归方程并非为偶然联系，那么我们就可以利用它来对给定的电视广告时下的销售额进行预测，需要考虑两种情况： 1.预测给定情况下的Y的平均值。 2.预测给定情况下的Y的一个单值。让我们依次来讨论这两种情况。给定的的值记为，由回归方程得出的Y值即为所求的平均值，记为则对于一个每月电视广告时数为10的地区，预计平均销售为：以上告诉我们的是如何计算当电视广告时数每月为10时整个地区的平均销售额水平，但有时候我们希望能对某些特别的地区的销售进行预测。这样预测中包含了一个附加的

40、误差项，其数值等于一个特别值可能造成的偏差。因此预测单个销售能所存在的错误率要比预测整个销售额平均水平时的大。相应地，它所满足的公式为：读者可比较一下两种预测情况下的置信区间的范围，即两者偏差的大小。九.市场调研中的相关分析与回归分析(7)（二）回归分析(4) 对于使用回归分析需要注意的事项：回归分析方法的普遍性和借助计算机运算的快捷性使得许多研究人员不问该方程与研究现象适合与否或不考虑回归分析的缺陷就盲目使用，其实使用回归分析法是需要许多假设前提的，如果忽略这些前提，就会导出错误甚至是荒谬的结论，这里我们集中讨论一下有关简单回归的缺陷，这些缺陷也同样适用于我们稍后将要提到的多元回归分析。

41、首先，如同在相关分析中看到的，回归分折局限于揭示变量之间的线值关系。如果散点图中所揭示变量之间的规律显著不呈直线变化，那么此时运用回归分析就是非常不适合的（除非通过变量转换变成线性关系）。所以一般只要可能，都要求事先根据数据划出散点图以判断变量之间的联系。其次，通过了显著性检验或佣有较高R2值的回归方程并不一定保证解释变量与被解释变量之间的因果关系，这一点是特别值得注意的；因变量与自变量的设定可能会让粗心的研究者习惯地认为如果回归方程是显著性相关的前者肯定可由后者推导出，但事实上两个变量之间是否有在联系必须从以前的经验和有关的知识理论推导出，而不是由对数据运用的数学方法得出，它只是一个验证

42、。因此谁是因变量，谁是自变量要由研究者自己决定，而不足依赖统计工具。设想有人把经过某一地点各女士裙边离地高度与当时太阳黑子变动的数据合在一起进行分析，如果由此得到的回归方程有0.9的可决系数，是不是就要肯定后者导致了前者的变化呢?这显然是荒谬的。第三,回归方程对于超过给定范围的自变量对应下因变量的预测也就是我们常说的“外推预测”上可信度不高，举一个例子，在研究电视广告与销售额之间关联时电视广告时数变化范围为419，对于超过19或低于4的广告时数对应的销售额进行预测时，我们就面临很大的风险。因为我们并不知道当增加新的数据点后散点图是否仍遵循原来的直线。事实上，甚至在原来的范围内，随首X0值对

43、的偏离，所得到预测的误差都在不断加大(见图9-8) 图9-8 A.B预测值的上下边界 C对于点，yi预测值的偏离 D最小的预测值的偏离(此时 ) 第四，建立在小规模样本上的回归方程是不可靠的，极端化而言，仅由两个点推出的简单回归值线方程的可决系数为1，而不论这两点怎样分布，样本的容量进而样本包含的数据点在多元回归中占据着相当重要的地位，在多元回归中如果样本容量不大而又包含太多的自变量的话同样会导致人为形成的高相关度，一般的规则是对于方程中所含的每一个独立变量至少有10个样本数据与之对应。第五，自变量和因变量的数据变化范围能够影响回归方程的可用性，如果要令得出的回归方程具有实用性，自变量和因变量的数据范围就应该宽泛。因为如果有关每个变量的数据过于集中想推出一条准确的直线是非常困难的，对于数据要具有足够离散度这一方面Loefher和luciavish有清晰的论述：很明显，如果因变量没有什么变化，

展开阅读全文