Spss论文购物习惯的统计学分析.doc

资源描述

《Spss论文购物习惯的统计学分析.doc》由会员分享，可在线阅读，更多相关《Spss论文购物习惯的统计学分析.doc（36页珍藏版）》请在三一办公上搜索。

1、Spss论文购物习惯的统计学分析课程名称：SPSS所在专业：经济学+软件工程所在班级：09-1姓名：李丽媛杨晓楠孙同哲胡贞玉学号：0918250102 0918250104 0918250105 0918250114一描述性统计分析最大似然确定数分析男性与女性的年龄、家庭成员数量、家庭月收入、购物频率、自用商品、礼品、消费者类型最大似然确定数的分析表1-1表1-1表示的是男性与女性的年龄、家庭成员数量、家庭月收入、购物频率、自用商品、礼品、消费者类型从4个不同权重下分别作中心趋势的粗略最大似然确定数。二均值比较检验分析与T检验1.均值比较检验分析对年龄、家庭月收入、购物场所、购物

2、频率、自用商品、礼品、消费者类型的均值比较检验分析如表2-1,、2-2所示表2-1表 2-2从图中可以看出，男性样本数为7，年龄的均值为2.14，中位数为2.0，交通状况的均值为2.86，中位数为3.00，家庭月收入的均值为2.14，中位数为2.0，购物场所的均值为2.14，中位数为2.0，购物频率的均值为2.14，中位数为2.0，购物频率的均值为1.71，中位数为2.0，自用商品的均值为1.86，中位数为2.0；礼品的均值为1.71，中位数为2.0，消费者类型的均值为2.29，中位数为2.00.2.单样本T检验月收入与全国平均月收入2.5的比较，购物频率与全国平均购物频率2.5比较如表2-3

3、、2-4所示表2-3从图中可知，调查的样本总数为30，家庭月收入的中位数为1.90，购物频率的中位数是1.87。表2-4从图中可知，家庭月收入t检验值为-3.890，相应的相伴概率为0.001，小于0.005，则拒绝原假设，认为月收入与全国平均月收入2.5的存在显著差异；家庭月收入t检验值为-4.470，相应的相伴概率为0.000，小于0.005，则拒绝原假设，则认为购物频率与全国平均购物频率2.5存在显著差异。3.两独立样本T检验分析男女的月收入以及购物频率的比较如表2-5,2-6所示表2-5从图中看出，男性样本数为7，女性样本数为23，在调查家庭月收入时，男性的中位数是2.14，女性的中位

4、数是1.83；在调查购物频率时，男性的中位数是2.14，女性的中位数是1.83。表2-6家庭月收入F的相伴概率为0.925，大于显著性水平0.05，不能拒绝方差相等的假设，可以认为男性与女性的家庭月收入方差无显著差异；然后看方差相等时T检验的结果，T统计量的相伴概率为0.394大于显著性水平0.05，不能拒绝T检验的零假设，也就是说，男性与女性的家庭月收入平均值不存在显著差异。购物频率F的相伴概率为0.479，大于显著性水平0.05，不能拒绝方差相等的假设，可以认为男性与女性的购物频率方差无显著差异；然后看方差相等时T检验的结果，T统计量的相伴概率为0.290大于显著性水平0.05，不能拒绝T

5、检验的零假设，也就是说，男性与女性的购物频率平均值不存在显著差异。三方差分析1.单因素方差分析家庭月收入对购物频率的影响；交通状况对购物场所的影响如表3-1,3-2所示表3-1方差齐次性检验表，显著性0.474大于0.05，不拒绝原假设，认为各组的总体方差相等。表3-2方差分析表，显著性水平0.002小于0.05，拒绝原假设，认为3组中至少有一组与另外一组存在显著性差异。2. 多因素方差分析性别，年龄，婚否，交通状况，家庭月收入对购物频率的影响如表3-3,3-4,3-5,3-6,3-7,图3-1，图3-2所示表3-3家庭收入组3和1,3和2之间的显著性都小于显著性水平0.05，说明这几组间的差

6、异显著，其他各种组合之间差异不显著，即收入在3000以下的家庭的购物频率与收入在3000以上的家庭存在明显差异，而收入在3000-5000的家庭的购物频率与收入在5000以上的家庭的差异并不明显。图3-1均值曲线图为各个总体的均值的折线图，从中可以直观的看出各个总体均值的趋势。从图中可以看出收入组一的家庭购物频率小于第二组小于第三组，即收入越低的家庭总体购物频率越低。表3-4方差齐次性检验表，显著性0小于0.05，如果p值小于显著性水平，则应该拒绝原假设，认为不同的交通状况对各购物场所的影响均值有显著差异。表3-5方差分析表，显著性水平0.002小于0.05，拒绝原假设，认为4组中至少有一组与

7、另外一组存在显著性差异。表3-6交通状况组3和1,3和2 ，3和4，1和4之间的显著性都小于显著性水平0.05，说明这几组间的差异显著，其他各种组合之间差异不显著。图3-2均值曲线图为各个总体的均值的折线图，从中可以直观的看出各个总体均值的趋势。从图中可以看出从图中可以看出乘私家车的均值相对较大。表3-7年龄的显著性是0.551大于0.05，因此年龄对于购物频率影响不显著；婚姻状况的显著性是0.554大于0.05，因此年龄对于购物频率影响不显著；交通状况的显著性是0.886大于0.05，因此年龄对于购物频率影响不显著；家庭收入的显著性是0.483大于0.05，因此年龄对于购物频率影响不显著；性

8、别的显著性是0.551大于0.05，因此年龄对于购物频率影响不显著。同时这几个因素的交互作用的显著性均大于0.05，即对购物频率的影响不显著。3. 协方差分析研究对购物频率影响的显著性因素如表3-8，图3-3,3-4所示表3-8协变量“年龄”的相伴概率Sig为0.000，即协变量对购物频率的影响显著；“年龄”“婚姻状况”“交通状况”“家庭月收入”“性别”的相伴概率依次为0.551、0.554、0.886、0.782、0.483，均大于0.05，即对购物频率影响不显著；年龄与交通状况、婚姻状况与交通状况、年龄与家庭月收入之间两因素的交互作用的相伴概率分别为0.374、0.246、0.761，大于

9、0.05，即交互作用没有对结果造成显著影响。图3-3两条折线无相交迹象，说明性别与家庭月收入的交互作用不够显著图3-4两条折线相交，说明性别与年龄的交互作用对购物频率的影响显著。四非参数检验分析1.单样本的随机性研究是否去固定上场购买是否是随机的，如表4-1所示表4-1从结果表格中看出，总共30个观察数据，游程数（Number of Runs）为20，测试值（Test Value）为2，得到的相伴概率为0.183，大于显著性水平0.05，因此不能拒绝零假设，认为是否去固定商场购买分布的情况无聚集性，是随机分布。2.单样本的K-S检验研究交通状况，家庭月收入，购物频率，消费者类型是否满足正态，

10、均匀，泊松，指数分布，如表4-2,、4-3、4-4、4-5、4-6、4-7、4-8、4-9、4-10、4-11、4-12、4-13所示表4-2结果中相伴概率为0.026，小于显著性水平0.05.因此拒绝零假设，认为交通状况不服从正态分布。表4-3结果中相伴概率为0.，小于显著性水平0.05.因此拒绝零假设，认为交通状况不服从均匀分布。表4-4结果中相伴概率为0.148，大于显著性水平0.05.因此不能拒绝零假设，认为交通状况服从泊松分布。表4-5结果中相伴概率为0.，小于显著性水平0.05.因此拒绝零假设，认为交通状况不服从指数分布。表4-6结果中相伴概率为0.038，小于显著性水平0.05.

11、因此拒绝零假设，认为家庭月收入不服从正态分布。表4-7结果中相伴概率为0.，小于显著性水平0.05.因此拒绝零假设，认为家庭月收入不服从均匀分布。表4-8结果中相伴概率为0.148，大于显著性水平0.05.因此不能拒绝零假设，认为家庭月收入服从泊松分布。表4-9结果中相伴概率为0.，小于显著性水平0.05.因此拒绝零假设，认为家庭月收入不服从指数分布。表4-10结果中相伴概率为0.232，大于显著性水平0.05.因此不能拒绝零假设，认为消费者类型服从正态分布。表4-11结果中相伴概率为0.076，大于显著性水平0.05.因此不能拒绝零假设，认为消费者类型服从均匀分布。表4-12结果中相伴概率为

12、1.000，大于显著性水平0.05.因此不能拒绝零假设，认为消费者类型服从泊松分布。表4-13结果中相伴概率为0.10，大于显著性水平0.05.因此不能拒绝零假设，认为消费者类型服从指数分布。3. 两独立样本的非参数检验性别对家庭月收入，购物频率，购物场所，自用商品，礼品，消费者类型，固定场所的影响如表4-14,4-15,4-16所示表4-14家庭月收入相伴概率0.389，大于显著性水平0.05，不应该拒绝零假设，不同性别的家庭月收入没有存在显著性差异。购物频率相伴概率0.307，大于显著性水平0.05，不应该拒绝零假设，不同性别的购物频率没有存在显著性差异。购物场所相伴概率0.898，大于显

13、著性水平0.05，不应该拒绝零假设，不同性别的购物场所没有存在显著性差异。自用商品相伴概率0.001，小于显著性水平0.05，应该拒绝零假设，不同性别的对自用商品的需求存在显著性差异。礼品相伴概率0.001，小于显著性水平0.05，应该拒绝零假设，不同性别的对礼品的需求存在显著性差异。消费者类型相伴概率0.134，大于显著性水平0.05，不应该拒绝零假设，不同性别的消费者类型没有存在显著性差异。固定场所相伴概率0.553，大于显著性水平0.05，不应该拒绝零假设，不同性别对是否在固定场所购物的习惯没有存在显著性差异。表4-15表4-16家庭月收入相伴概率0.998，大于显著性水平0.05，因此

14、不能拒绝零假设，认为两个性别独立样本的总体分布没有显著的差异。购物频率相伴概率0.887大于显著性水平0.05，因此不能拒绝零假设，认为两个性别独立样本的总体分布没有显著的差异。购物场所相伴概率1.000大于显著性水平0.05，因此不能拒绝零假设，认为两个性别独立样本的总体分布没有显著的差异。自用商品相伴概率0.003小于显著性水平0.05，因此应该拒绝零假设，认为两个性别独立样本的总体分布存在显著的差异。礼品的相伴概率0.001小于显著性水平0.05，因此应该拒绝零假设，认为两个性别独立样本的总体分布存在显著的差异。消费者类型相伴概率0.467大于显著性水平0.05，因此不能拒绝零假设，认为

15、两个性别独立样本的总体分布没有显著的差异。固定场所相伴概率1.000大于显著性水平0.05，因此不能拒绝零假设，认为两个性别独立样本的总体分布没有显著的差异。4. 多独立样本的非参数检验不同的家庭成员数量的家庭月收入，购物频率是否有显著性差异的研究如表4-17,4-18,4-19,4-20,4-21所示表4-17表4-18家庭月收入概率0.171，大于显著性水平0.05，因此不能拒绝零假设，说明不同的家庭成员数量的家庭月收入没有存在显著性差异。家庭月收入概率0.654，大于显著性水平0.05，因此不能拒绝零假设，说明不同的家庭成员数量的购物频率没有存在显著性差异。表4-19从Frequenci

16、es表中，可知，家庭月收入，成员数为1的家庭中大于共同中位数的样本有0个，小于共同中位数的样本有9个；成员数为2的家庭中大于共同中位数的样本有5个，小于共同中位数的样本有7个；成员数为3的家庭中大于共同中位数的样本有4个，小于共同中位数的样本有5个。从Frequencies表中，可知，购物频率，成员数为1的家庭中大于共同中位数的样本有1个，小于共同中位数的样本有8个；成员数为2的家庭中大于共同中位数的样本有3个，小于共同中位数的样本有9个；成员数为3的家庭中大于共同中位数的样本有3个，小于共同中位数的样本有6个.表4-20在Test Statistics表中，家庭月收入的共同中位数为2.00，

17、相伴概率为0.063，大于显著性水平0.05，因此不能拒绝零假设，认为不同的家庭成员数量的家庭月收入没有存在显著性差异。购物频率的共同中位数为2.00，相伴概率为0.529，大于显著性水平0.05，因此不能拒绝零假设，认为不同的家庭成员数量的购物频率没有存在显著性差异。表4-21家庭月收入的相伴概率0.104，大于显著性水平，因此不能拒绝零假设，认为不同的家庭成员数量的家庭月收入没有存在显著性差异。购物频率的相伴概率为0.380，大于显著性水平0.05，因此不能拒绝零假设，认为不同的家庭成员数量的购物频率没有存在显著性差异。五、相关分析1、性别、交通状况、消费者类型相关分析在对30名消费者进行

18、的相关调查数据中，选取性别、交通状况，消费者类型这三个指标对其相关性进行研究。如表5-1表述。表5-1 性别、交通状况、消费者类型相关分析表从表5-1中可以看出，用Kendallstua-b等级相关系数方法“性别”与“交通状况”间的相关系数为0.129，表示用户指定的显著性水平为0.01时，统计检验的相伴概率大于0.01（表中显示为0.459），即“性别”与“交通状况”非显著相关。从Spearman秩相关系数可以看出，“性别”与“交通状况”在0.01显著性水平下非显著相关，“交通状况”与“消费者类型”在0.05显著性水平上没有较好的相关性。2.家庭收入与购买频率的相关性分析选取消费者购物习惯调

19、查数据中的家庭收入与购买频率这两个指标进行相关性研究。如表5-2所述。表5-2 家庭收入与购买频率相关分析表从表5-2中可以看出，第二个表为所要求的相关系数，以矩阵形式表示。从表中可以看出“家庭月收入”和“购物频率”的相关系数为0.610。在这个数据旁边有两个星号，表示用户指定的显著性水平为0.01时，统计检验的相伴概率小于等于0.01（在表中显示为.000），即“家庭月收入”和“购物频率”显著相关，且为正相关。3.家庭收入与购买频率剔除性别的偏相关分析选取消费者购物习惯调查数据中的家庭收入与购买频率这两个指标并剔除性别对其的影响对其进行相关性研究。结果如表5-3所述。表5-3从表5-3中可以

20、看出，表的上半部分输出的是变量两两之间的Pearson简单相关系数，以“家庭收入”和“购物频率”为例，它们之间的Pearson简单相关系数为0.610。下半部分是偏相关分析的输出结果，其中，对每个变量都有三行输出结果：第一行为偏相关系数、第二行为检验统计量的相伴概率、第三行为统计检验的自由度。从中可知，在剔除“性别”变量的影响条件下，“家庭收入”与“购买频率”二变量的偏相关系数为0.598，相伴概率为0.001.可见，简单相关系数和偏相关系数相比，前者有夸大的成分，后者更符合实际。六主成分分析选取消费者购物习惯调查数据中的年龄、家庭成员数量、家庭月收入、购买频率、购买场所、自用商品、固定商品购

21、买这几个变量对其进行部分变量的主成分分析研究。如表6-1、6-2、6-3、6-4图6-1所示。表6-1表6-1输出了KMO检验和巴特利特球形检验结果。其中KMO值0.520，小于0.6，不太适合主成分分析。巴特利特球形检验输出相伴概率0.000，小于显著性水平0.05，因此拒绝零假设，认为适合进行主成分分析。表6-2表6-2是因子分析初始结果。第二列是根据因子分析初始解计算出的变量共同度，每个原始变量的共同度都为1。第三列是根据因子分析最终解计算出的变量共同度。根据最终提取的s个特征值和对应的特征向量计算出因子载荷矩阵。这时因为因子变量个数少于原始变量的个数，因此每个变量的共同度必然小于1。例

22、如，第一行中0.846表示s个主成分变量共解释掉原变量“年龄”方差的84.6%。表6-3表6-3是总方差表，其中第二列是主成分变量的方差贡献（特征值），它是衡量主成分重要程度的指标。例如第一行中特征值为2.296，表示第一个主成分描述了原有变量总方差7中的2.296，后面主成分描述的方差依次减少。第三列是各主成分变量的方差贡献率，表示该主成分描述的方差占原有变量总方差的比例。它的值是第二列的特征值除以总方差7（总方差为变量数目）的结果。第四列是主成分变量的累计方差贡献率，表示前m个主成分描述的总方差占原有变量的总方差的比例。第五列到第七列是从初始解中按照一定标准（在前面分析中设定了提取主成分的

23、标准是特征值大于1）提取了2个主成分后对原变量总体的描述情况。图6-1从图6-1中看出，曲线存在明显的拐点，特征值变化明显，保留前4个主成分能够概括原始数据的绝大部分信息。表6-4主成分载荷矩阵。在主成分载荷矩阵中，给出了主成分载荷系数，每一列载荷值都是各个变量与有关主成分的相关系数。以0.840为例，它实际上是购物场所与第一个主成分的相关系数。从主成分载荷矩阵可以看出，购物场所、家庭月收入、固定商场购买、年龄、购物频率、自用商品、家庭成员数量在第一个主成分上的载荷较大，即与第一主成分的相关系数较高；工业总产值和原煤在第二个主成分上的载荷较大，即与第二主成分的相关程度较高。七回归分析1.家庭收

24、入与购买频率的一元线性回归分析选取调查数据中的家庭收入与购买频率进行回归分析，从而判断二者之间是否存在显著地线性相关关系。如表7-1、7-2、7-3、7-4所示。表7-1从表7-1中看出，表格输出的是被引入或从回归方程中被剔除的各变量。这部分结果说明在对编号为1的模型中进行线性分析时采用的方法是全部引入法：Enter。表7-2从表7-2中看出，相关系数R=0.610，调整的判定系数为=0.350，回归估计的标准误差S=0.626，说明本样本回归方程代表性强。表7-3从这部分结果看出：统计量F=16.598；相伴概率值p0.001。说明自变量x与因变量y之间确有线性回归关系。另外，Sum of

25、Squares 一栏中分别代表回归平方和（6.500）、残差平方和（10.966）以及总平方和（17.467），df为自由度。表7-4从表7-4的回归系数分析表中可以看出估计值及其检验结果，常数项=0.802，回归系数=0.560，回归系数检验统计量t=4.074，相伴概率值p0.001。说明回归系数与0有显著差别，该回归方程有意义：=0.802+0.560x2.购买频率的多元线性回归分析选取调查数据中的变量：婚否、性别、家庭成员数量、交通状况、家庭月收入、年龄、消费者类型对其进行多元线性回归分析，观察其相关性。结果如表7-5、表7-6、表7-7所示。表7-5如表7-5所示，该表格输出的是

26、被引入或从回归方程中被剔除的变量。通过3个步骤完成回归方程建设，最终模型为第3个模型。对Model1，进行线性回归分析时所采用的方法是Enter，全部变量全都引入。对Model2，进行线性回归分析时所采用的方法是Backward，剔除了变量z6.对Model3，进行线性回归分析时所采用的方法是Backward，剔除了变量z2.表7-6从表7-6可以看出，相关系数R 判定系数R 调整的判定系数回归估计的标准误差S。表7-7表7-7展示了变量剔除出方程的过程。各数据项的含义依次是：在剔除其他变量的情况下，如果该变量保留在模型中，其标准化回归系数、t检验值和概率p值将是什么。八因子分析表8-1表8

27、-1输出了KMO检验和巴特利特球形检验结果。其中KMO值0.568，小于0.6，不太适合主成分分析。巴特利特球形检验输出相伴概率0.000，小于显著性水平0.05，因此拒绝零假设，认为适合进行因子分析。表8-2表8-2是因子分析初始结果。第二列是根据因子分析初始解计算出的变量共同度，每个原始变量的共同度都为1。第三列是根据因子分析最终解计算出的变量共同度。根据最终提取的s个特征值和对应的特征向量计算出因子载荷矩阵。这时因为因子变量个数少于原始变量的个数，因此每个变量的共同度必然小于1。例如，第一行中0.856表示s个因子变量共解释掉原变量“合作性”方差的85.6%。表8-3表8-3是分析后因子

28、提取和因子旋转的结果。戏中Component列和 Initial Eigenvalues 列（第一和第四列）描述了因子分子初始解对原有变量总体描述情况。第一列是因子分析第12个初始解序号。第二列是因子变量的方差贡献（特征值），它是衡量因子重要程度的指标。第一行中特征值为3.741，表示第一个因子描述了原有变量总方差12中的3.741，后面描述的方差依次减少。第三列是各个因子变量的方差贡献率，第一行中的31.177%是3.741除以12的结果。第四列变量的累计方差贡献率，前m个因子描述的总方差占原有变量的总方差的比例。第五列到七列提取公共因子含义同2-4列第八到十旋转含义同2-4列图

29、8-1图8-1是公因子碎石图，横坐标为公共因子数，纵坐标为公共因子特征值。3-4公共因子变化非常明显，第4个特征值以后，变化趋于平缓。说明提取3-4个公共因子可对原变量的信息描述有显著作用。表8-4表8-4是最终的因子载荷矩阵A，对应因子分析的数学模型部分。表8-5表8-5是按照前面设定的方法极大法对因子载荷矩阵旋转后的结果。未经过旋转的载荷矩阵中，因子变量在许多变量上都有较高的载荷。这样的变量含义比较模糊。经过旋转以后，个亿自变量含义更加清楚。表8-6表8-6输出的是因子转换矩阵，标明了因子提取的方法是主成分分析，旋转的方法是方差极大法。图8-2图8-2是载荷散点图，这是3个因子的三维因子

30、载荷散点图，以三个因子为坐标，给出各原始变量在该坐标中的载荷散点图。改图是旋转后因子载荷矩阵的图形化表示方式。表8-7表8-8在表8-7、8-8中，因子得分的均值为0，标准差为1。正值表示高于平均水平，负值表示低于平均水平。九聚类分析表9-1从表9-1中可知30个样本进入聚类分析。表9-2该表格是SPSS层次聚类分析各变量的距离矩阵。从中可以看出各个变量之间的距离（有正有负，因为在设置样本间距计算公式时选择了Pearson相关分析，相关分析有正负之分，因此这里的距离有正负之分。）表9-3表9-3是层次聚类分析凝聚状态表。第一列表示聚类分析的步骤，可以看出本次调查共进行了29个步骤的分析。第二列

31、、第三列表示某步骤类分析中，那两个样本或类聚成了一类。第四列表示两个样本或类间的距离，从表中国看出，距离小的样本先聚类。第五列和第六列表示某步骤类分析中，参与聚类的是样本还是类。0表示样本，数字n表示第n步类产生的类参与了本步聚类。第七列表示本步聚类结果在下面聚类的第几部中用到。表9-4表9-4说明层次聚类分析聚成2个类时，样本的类归属情况表。从该表格中可以看出，1、2、3、4、5、6、7、10、12、21、25、26、30属于第一类，剩下的变量属于第二类。表9-5表9-5是层次聚类分析的冰柱图。该表格的第一列表示类数。冰柱图一般从表格的最后一行开始观察。最后一行中，类的数目为29，即样本聚集成29类，其中样本13和样本19用X连接在一起，表示两个样本聚成一类，其余每个样本构成一类。图9-1图9-1表示层次聚类分析的树形图，从图中可以看出，哥哥类之间的距离在25个坐标之内。由于本例子中部分样本或小雷之间的距离差距较小，因此光从本图很难清洗看出哪几个样本先聚类，这是应该借助凝聚状态表进行判别。单属性图可以直观的显示整个聚类过程。

展开阅读全文