调查问卷设计及处理课件.pptx

资源描述

《调查问卷设计及处理课件.pptx》由会员分享，可在线阅读，更多相关《调查问卷设计及处理课件.pptx（28页珍藏版）》请在三一办公上搜索。

1、数学建模基础,第五章调查问卷设计及处理,调查问卷,从啤酒和尿布的故事开始，我们发觉简单的数据中可能存在无穷的奥秘，好奇心趋势越来越多的人投身到枯燥的数据中。在瀚如烟海的数据中，不论是科学研究还是商业调查，很大一部分数据是通过调查问卷的方式来获取的。在问卷星平台上，每天都会产生上万份问卷和100多万份答卷，但大部分用户的数据分析仅仅停留在简单的频率分析上。数据中隐藏的巨大价值，还等待着被人挖掘。,1 统计学基础及术语解释,P值：也称显著性值或Sig值，用于描述某件事情发生的概率情况，其取值范围介于01，不包括0或者1。在大多数情况下，如果P值小于0.01（0.05或0.1），则说明某件事情的发生

2、概率至少有99%（95%或90%）的把握。,量表：通常是指李克特量表，其用于测量样本人群对于某件事情的态度或者看法情况。量表的尺度形式有多种，常见的是五级量表，即有五个答项。,样本：通俗的讲即为填写问卷的人，对于样本的数量，通常情况下为量表题项的5倍或者10倍即可（无效样本在分析问卷前需要进行删除或者筛选）。,频数分析：通常会涉及样本、有效样本、频数、百分比、累计百分比、有效百分比等。,描述性分析：通常会涉及平均值、标准差、中位数等术语名词。,1.1 数据分析,1.2 信度和效度分析,信度分析：在于研究数据是否真实可靠，通俗地讲，即研究样本是否真实回答了问题，信度分析只能分析量表题项。科隆巴赫

3、系数：也称信度系数、内部一致性系数、Cronbach 系数或者系数，此值一般大于0.7即可。校正的项总计相关性，也称CITC值，此值大于0.4即说明某题项与另外的题项之间有着较高的相关性。,效度分析：用于研究题项是否有效地表达研究变量或者纬度的概念信息，通俗地讲，即研究题项设计是否合理，或者题项表示某个变量是否合适。内容效度：即使用文字叙述形式对问卷的合理性、科学性进行说明。结构效度：通常使用探索性因子分析（EFA）进行验证，通过因子分析对题项进行分析，如果输出显示题项与变量对应关系基本与预期一致，则说明结构效度良好。如果题项的因子载荷系数值小于0.4，则应该考虑删除该题项；KMO值应大于0.

4、6；巴特球形检验对应的P值应小于0.05；根据方差旋转矩阵确定提取因子数量，如果某题项与某个因子对应的因子载荷系数值较高，那么该题项应当归纳对应至该因子。,1.3 变量关系研究,相关分析：一种最基本的关系研究方法，其目的在于分析两个变量之间的相关关系，包括两者是否存在相关关系，以及相关关系的紧密程度。Pearson和Spearman相关系数：描述先关关系程度，通常绝对值大于0.7说明两个变量之间表现出非常强的相关关系；当绝对值大于0.4时，说明相关关系强；当绝对值小于0.2时，说明相关关系较弱。,线性回归分析：研究X对于Y的影响关系分析方法，其中X被称为自变量，Y被称为因变量。R2或调整R2：

5、代表X对于Y的解释力度，取值范围为01，该值越大越好。F值：用于检验所有自变量X中至少有一个会对因变量Y产生影响的关系，若F值对应的P值小于0.05，则说明所有自变量X中至少有一个会对因变量Y产生影响关系。,Logistic回归分析：研究影响关系，即X对于Y的影响情况，此处涉及的Y是分类变量。Hosmer和Lemeshow检验、Cox&Snell R2和Nagelkerke R2、对数比等指标。对应P值需要大于0.05，即说明预期拟合情况与实际拟合情况一致。,2 问卷设计说明及注意事项,量表题项需要有文献参考依据：也研究人员应该参考前人的文献量表设计，或者在前人设计的文献量表上进行适当的修改。

6、,量表题项数量：最好每个变量对应47个题项，不能太少也不能过多。,量表题项设计要规范统一：同一个变量的题项不能混合使用多级量表，否则会导致数据处理不准确。,量变反向题：若变量题项中有正向态度和反响态度题项时，就涉及反向题，应尽量不实用反向题。,排序或打分题：直接让样本回答排序情况；使用五级量表或七级量表；使用打分题。计算每个选项平均得分情况，通过平均得分进行排序分析。,2.1 量表题项设计,其他：若量表中填写需要一定条件，需要设置删选跳转题项。,量表类问卷的设计框架从结构上可以分为6个部分，分别是筛选题项、样本背景信息题项、样本特征信息题项、样本基本态度题项、核心研究变量题项和其它题项。,筛选

7、题项：如果对样本特征有特殊要求，则需要将此类样本筛选题项设置在问卷前面。,2.2 问卷设计框架,样本背景信息题项：加入样本背景题项，比如性别、年龄等。通常进行频率统计。,样本特征信息题项：此类问题多为非量表类题目，可用于深入了解样本特征情况，通常是计算频率直观展示各选项选择情况。,样本基本态度题项：此类问题基本为非量表类题目，了解样本的基本态度。,核心变量题项：此类部分为问卷研究的核心内容，题项数量最多，通常情况下均为量表类题项。适用于各类统计方法（信效度分析、相关分析、回归分析、因子分析）。,案例1：“90后”员工离职倾向调查问卷,本案例研究相关因素对于“90后”员工离职倾向的影响

8、情况，相关因素共分为6个，分别是薪酬福利、人际关系、工作本身、价值观、成就发展和企业文化。此问卷包含样本背景信息题项、样本特征题项、样本基本态度题项和核心题项。,备注：Q27为反向题，样本对此题项打分越高，样本人群就会对工作本身这个变量表现出越不认可的态度。,备注：Q14Q46属于核心变量题项，全部为量表题项（1表示非常不同意，2表示比较不同意，3表示中立，4表示比较同意，5表示非常同意）,可以利用信度分析研究6个影响因素和离异意愿变量的信度情况，用相关分析研究6个因素分别与离职意愿的影响关系，还可以使用方差分析或t检验，对比不同样本背景特征人群对6个因素和离职意愿的态度差异。,案例2：大学生

9、理财情况调查问卷,本案例研究大学生理财现状及理财态度情况，只有在校大学生才能回答后续问题。,对各部分题项进行频数统计后可以进行交叉分析，例如研究有购买经历和没有购买经历的样本人群在基本态度上是否有差异性。频数分析用于各个题项的选择情况统计，卡方分析用于研究交叉关系，二元Logistic回归分析研究样本基本信息或态度题项与样本购买经历或购买意愿之间的影响关系，找出影响因素并且提供相关建议措施。,3 量表类问卷影响关系研究,样本背景分析：包括性别、年龄、学历、收入等。目的在于对样本基本情况有一定的了解；样本特征、行为分析：通过计算频数、百分比或平均值进一步了解样本人群的特征行为或基本态度情况；指标

10、归类分析：使用探索性因子分析，使用软件自动找到题项与因子的对应关系，以得到更为严谨的科学的言论；信度分析：通过信度分析证明研究样本数据是真实可信的。信度高但效度不一定高，而信度低时效度一定低；效度分析：通过探索性因子分析（EFA）或验证性因子分析（CFA）对题项进行效度分析；研究变量描述分析：计算研究变量或者具体题项的平均值，了解样本对各个研究变量的基恩态度，进行详细描述分析；变量相关性分析：了解变量间的基本关系情况、是否有相关关系，以及相关关系的紧密程度；研究假设验证分析：提出假设并进行假设验证；差异分析：通过方差分析、t检验或卡方检验研究不同样本群体行为或态度的差异情况。,3.1 分析思路

11、,量表类问卷分析可以从以下9个部分进行：,3.2 分析方法,具体分析思路框架与分析方法对应关系图：,将研究题项进行分类并浓缩成少数因子,系数，即内部一致性系数，0.6以下需要修改量表,内容效度：专家判断和问卷前测；结构效度：探索性和验证性因子分析,Pearson系数，正态性，0.6强正相关、0.4较强正相关Spearman系数，非正态性,线性回归、Logistic回归；F检验P值小于0.05；R2越大越好；t检验小于0.05且大于0.01；DW值越接近于2越好。,方差分析：单因素和多因素分析；t检验：独立样本t检验、配对样本t检验和单样本t检验；卡方检验：分类变量间差异关系。,3.3 分析实例

12、,本案例为研究某在线英语学习网站上各种因素对课程购买意愿的影响情况，初步拟定是研究产品、促销、渠道推广、价格、个性化服务和隐私保护这6个因素对消费者购买意愿的影响情况。（数据：5-1.sav）,样本背景信息统计（频数分析）分析描述统计频率将“性别、年龄、月收入、职业” 放入变量窗口。,2. 样本基本特征情况描述（描述性分析）分析描述统计频率将 “你为什么学习外语”放入变量窗口图表。,3. 探索性因子分析分析降维因子分析将 “问题115” 放入变量窗口；描述勾选KMO和Bartlett的球形度检验；抽取主成份方法基于特征值或固定因子数量（这里人为设置为6个因子）；旋转最大方差法；选项按大小排序取

13、消小系数（0.4）；查看KMO是否大于0.6，P值是否小于0.05，根据旋转载荷矩阵中载荷系数高的题项对因子进行命名。,4. 信度分析以“产品”因子为例（Q13），分析度量可靠性分析将问题13放入变量窗口统计量勾选如果项已删除则进行度量；查看系数是否大于0.7，查看校正的项总计相关性是否大于0.5；0.7表示信度水平较高，CITC值大于0.5，表示任一题项被删除，信度系数都将小于当前值。,5. 效度分析步骤结果同探索性因子分析；探索性因子分析结果显示KMO值为0.866，并通过Bartlett球形检验，最终提取到6个因子。这6个因子与题项均有良好的对应关系，对应关系与专业知识完全相符，并且题项

14、的因子载荷系数值均高于0.4。因子旋转后累计方差解释率为73.729%，且6个因子的旋转后方差解释率均高于10%（或接近与10%）。因此综合说明本案例量表具有良好的结构效度。,6. 变量描述性分析分析描述统计描述选项勾选平均值、最大值、最小值、方差、标准偏差。,7. 相关分析分析相关双变量将V1V7放入变量窗口；正负代表正相关和负相关，数值越大相关性越大，*代表P0.05，*代表P0.01。,9. 方差分析分析比较均值单因素ANOVAV1V7放入因变量窗口，月收入水平放入因子窗口两两比较勾选LSD选项勾选描述性、方差同质性检验和均值图；方差齐性检验显著性要大于0.05，说明不同组别的数据波动情

15、况一致，即方差齐性；单因素方差分析表中显著性小于0.05，表示有差异性，即不同收入水平人群字购买意愿上有显著性差别；多重比较图中，显著性小于0.05表示存在差异性，即2000元以下样本与8000元以上样本在购买意愿有显著性差异，P值为0.006小于0.05。,8. 多元线性回归因变量为定量数据，线性回归；因变量为分类数据，Logistic回归；分析回归线性回归购买意愿放入因变量，V1V6放入自变量统计量DW检验，共线性诊断；R2为0.38表示自变量能够解释因变量变化的38%，DW值为2.145在2附近，说明基本无自相关性，变异系数（ANOVA）中P值为0，说明自变量中至少有一个会对因变量产生影

16、响；系数表显著性中大于0.05说明不会对因变量产生影响，非标准化系数正负表示正向和负向影响，VIF值小于5表示没有多重共线性。,4 量表类问卷权重研究,量表类问卷权重研究的重心在于各个指标的权重得分，通过计算各个指标或题项的权重得分，最后构建完善的权重体系，并且结合各指标权重情况提过科学的建议。量表类问卷权重研究方法在通常情况下可以分为两类：主观评价法和客观评价法。,因子分析法指标权重构建（数据:5-2.sav）分析降维因子分析A、B、C、D共12个变量放入因变量窗口；描述勾选KMO；抽取提取4个因子；旋转最大方差法；选项按大小排序、取消小系数（0.4）；得分保存为变量、显示因子得分系数矩阵

17、；生产FAC数据为因子得分数据；因子的权重系数，即加权后的方差解释率=该因子方差解释率/所有因子累计方差解释率（FAC1=23.397%/76.370%=30.636%）;综合得分表达式：F=30.636%*因子1+25.044%*因子2+22.378%*因子3 +21.941%*因子4；根据成分得分系数矩阵得出因子表达式：因子1=0.466*A1+0.313*A2+-0.013*D2 因子4=-0.021*A1+0.037*A2+0.435*D2根据上述公式计算最终综合得分,问题：什么是方差？为什么使用方差多权重？,样本值与平均值（期望）之差的平方值的平均数。表示数据的离散程度。,5 聚类

18、样本类和非量表类问卷研究,什么是聚类什么是分类？两者有什么区别？,分类：按照某种标准给对象贴标签，在根据标签来区分归类；聚类：事先没有标签而通过成团分析找出食物之间存在的聚集性原因的过程。,聚类分析可以对样本进行分析也可以对题项（变量）进行分析，前者我们称之为Q型聚类，后者称之为R型聚类。聚类效果判断：,看聚类分析得到的每个类别是否可以进行有效的命名，是否符合现实意义；,使用判别分析进行判断，判断聚类变量与类别之间的投影关系情况；,是否能科学详细的描述清楚聚类分析的使用过程；,看聚类分析后每个类别样本量是否均匀。,SPSS中聚类分析：在SPSS软件中，聚类分析可分为三种：两步聚类、K-均值

19、聚类和系统聚类。,聚类分析方法特点对比,聚类分析基本步骤：,数据标准化，Z值法：,生产聚类类别编号，计算不同类别样本的数量。,对比另外两种聚类分析方法的聚类类别数量。,通过经验和专业知识判断聚类效果，是否能有效识别样本特征。聚类样本差异性用方差和卡方分析进行。,聚类分析（数据:5-3.sav）分析分类K-均值聚类V1V5放入变量窗口聚类数为3；保存勾选聚类成员，选项ANOVA表；初始聚类中心表，第一类最优，第三类次之；最终聚类中心表，第一类最优，第三类次之，第二类不理想；ANOVA显著性都通过；分析分类两步聚类V1V5放入连续变量窗口聚类数量固定为3；聚类质量图可以看出聚类效果可以接受，双击模

20、型概要图，选择预测变量重要性，可以看出因子对聚类建模的重要性高低情况；分析分类系统聚类V1V5放入连续变量窗口；绘图勾选谱系图；方法转换值勾选Z分数；保存单一方案聚类数为3；,聚类步骤,哪两类聚成一类,个体间距离,参与聚类的个体（0值）或小类（非0）,本步聚类结构在以下第几步用到,非量表类问卷研究此部分更多的会使用简单易懂的频数和百分比描述，最好结合各种图形展示，比如选题可以通过条形图展示，单选题可以使用柱形图展示。此类问卷中大部分题项均为分类数据，因此需要使用卡方分析（交叉表分析）进行差异关系研究，也可能会需要使用Logistic回归进行影响关系研究。,卡方分析（数据:5-4.sav）分

21、析描述统计交叉表将Q9和Q11放入行变量窗口，Q2放入列变量窗口；统计量勾选卡方；单元格百分比勾选列；查看卡方表下方是否80%以上数据值大于5，若不满足此条件不能使用卡方检验，只能用平均值比较方法来分析差异性；满足条件，看Pearson卡方对应的P值，P值大于0.05表示没有差异性，通过交叉表总计行和列进行解释；若P值小于0.05表示有差异性，此时要根据表内部各行各列进行解释；尝试分析性别与投资理财产品使用情况的差异性，并作解释。,Logistic分析（数据:5-4.sav）研究性别、年龄、专业和生活费对“您未来是否有意愿购买理财产品”的影响情况；分析回归二元Logistic将Q19_New放

22、入因变量窗口，Q2Q5放入协变量窗口；Q2和Q4是分类数据，需要进行虚拟变量处理，分类将Q2和Q4放入分类协变量窗口；选项勾选H-L拟合度；分类变量编码表中，体育类为“000”表示为参照项；女性为“0”表示为参照项；模型汇总表，C&S R2和Nagelkerke R2伪系数决定迭代次数；H&L检验表，H&L检验是验证真实数据情况是否与模型拟合结果表现一致，P值小于0.05则说明真实数据与模型拟合情况不一致；分类表，体现模型拟合情况，整体拟合正确率是77.1%；方程中的变量表，查看P值，若P值大于0.05则表示没有呈现出显著性；反之则呈现出显著性，根据分类变量编码表得知Q4（2）表示Q4（010

23、）为文科类；理工类P值为0，说明呈现显著性，B值为-2.139，也就是说相对于体育类样本，理工类样本未来理财意愿明显更低。,6 问卷分析思路和分析方法,操作实训：北京大学师生对咖啡屋及类似休闲场所的需求调查,要求：1、受访者人口背景特征分析2、受访者对现有酒吧的习惯和态度3、受访者在酒吧消费的情况4、背景资料的相关分析分析并给出相应结论。,（1）受访者人口背景特征分析是否去过咖啡店与性别、年龄、学历身份、收入的关系（2）受访者对现有酒吧的习惯和态度对光顾频次和咖啡店偏好情况，喜欢的原因和光顾的原因（3）受访者在酒吧消费情况最频繁光顾的咖啡店与消费品、与人均花费间的关系（4）背景资料的相关分析最频繁去处、最喜欢去处与人口背景资料，人口背景资料间关系。,

展开阅读全文

调查问卷设计及处理 课件.pptx

调查问卷设计及处理课件.pptx