《在线调查的代表性与可靠性的对比探究.docx》由会员分享,可在线阅读,更多相关《在线调查的代表性与可靠性的对比探究.docx(9页珍藏版)》请在三一办公上搜索。
1、一.在线调查在中国的机遇与挑战 借助互联网这一现代化的信息沟通渠道,在线调查具有低成本、高速度、跨越空间局限、有着丰富的表现形式、具有智能化及互动性等优点。在线调查在欧洲、美洲以及日韩等互联网发达的国家已经相当普遍,在线调查在、民意调查以及学术研究方面得到广泛的应用。随着中国互联网的普及,在线调查在中国有迅速普及的趋势。根据CNNIC 报告,中国大陆网民总体数量在05年上半年已经超过1亿用户。中国互联网的普及使在线迅速成为可能。媒体特别是网络媒体越来越多的借鉴调查的形式收集与反馈浏览者的意见、观点,网上舆论及热点问题调查是其最常见的形式,这种调查的内容与目的都与传统的市场、民意调查有较大的区别
2、,本身缺少样本抽样设计、结论也不具备足够的代表性与准确性。准确意义的在线调查涵盖的范围并不包括这些网络投票。因为在线调查的方便性,许多企业也在自己的网络上进行自主调研,使用调查的方式收集自己用户的观点等。专业调研公司也正在逐渐推广在线调查,使之成为传统调研形式的重要补充。 在线调查正在越来越多的被应用与重视的同时,在线调查的代表性与可靠性也受到研究者与调查应用者的质疑。在2004年的一份以在线调查为基础的杜蕾斯全球性调查报告显示,中国人的平均性伴侣数超过欧美国家,名列世界第一,达到19.3人,远高于全球平均数的10.5人。这个数据反映的中国人的性伴侣“世界第一”是耸人听闻,无法采信的。此数据一
3、出,就遭受到广泛的质疑。这样在线调查的结果除了被某些特殊的目的应用于宣传外,怎么可以应用于商业或者政策决策中去。 调查的代表性与可靠性受到调查实施过程的许多因素的影响,包括有样本框、抽样过程、访问过程等。而在线调查与传统调查相比,在这些方面都有很大的差异。在线调查的基本样本框为网民,尽管中国总体网民的数量达到1亿,但是只占总体人口的不到10%,互联网不够普及,在线调查的被访者基本背景与居民总体存在较大差异。所以在线调查的代表性以及样本结构是肯定存在偏差。在线调查的被访者招募与抽样过程也不相同,在线调查的被访者一般是自愿参与或者是因为某些共同的原因参与该调查,通常缺少代表性抽样过程。即使都是网民
4、,接受在线调查的人群与不接受在线调查的人群还可能存在较大的差异。这些招募与抽样过程就影响整个结果的可靠性。在线调查的形式对调查的结果也可能产生影响,在线调查的答题过程一般被访者自我管理,缺少人与人的交流与监控;在线调查的题目呈现方式也与传统调查有较大差异;被访者在填写问题时情景的差异也很大,可能是在家中也可能在公共场所,这些因素都可能影响答题的可靠性。总的来说,在线调查的网民样本框、自愿调查的拦截方式、缺少抽样过程、问卷呈现与填答方式都可能对影响到在线调查结果的代表性与可靠性。 本研究将从的实际问题出发选择在同一时间段完成的两个线下调查与在线调查的结果从样本框、调查结果的角度进行比较与分析,尽
5、量了解在线调查的代表性与可信度的状况,为在线调查在中国更好的实施提供指导性意见。二 . 研究方法与实施 1 数据来源 线下调查数据 来自华通现代市场信息咨询有限公司(ACSR)的网络追踪项目(NetTrack)。该项目为季度性追踪,采用计算机辅助电话访问(CATI, Computer Assisted Telephone Interview)的方式对全国14 个城市居民进行电话随机访问,在城市内应用PPS与RDD技术进行抽样。本次对比研究选择2004年度第三季度的调查数据,调查执行时间2004年7-8月,问卷平均长度23分钟,共访问2000随机样本 ,2000网民。( Nettrack 随机样
6、本定义为14-50岁居民。Nettrack 网民定义为随机样本中,在访问时的过去一周内曾经使用过互联网。 ) 在线调查数据 来自ACSR在2004年6月份进行的某居民消费习惯调查。从华通现代的e-mail 中随机抽取部分名单,发邮件邀请其填写问卷,并承诺有机会获得价值1000元的礼品一份。问卷长度为5-10分钟,共采集3063个完整填答问卷的样本。在采集调查信息后,利用了IP地址+若干特征标志的办法作为判断被调查者填表次数唯一性的检验条件,以实现网上用户身份的唯一性,排除干扰。 在进行分析之前对样本进行进一步的筛选限制,只选择北京、上海、广州三个城市的样本进行比较。线下样本共904随机样本,其
7、中435网民样本。在线调查1463样本。 线下调查 在线调查 城市 北京、上海、广州 北京、上海、广州 调查时间 2004年6-7月 2004年6月 数据采集方法 CATI EMail邀请被访者参与在线调查 样本框 居民家庭电话 EMail Panel 抽样方法 PPS + RDD 随机抽样 样本量 随机样本 904;网民 435 1463 2 比较的内容 与民意调查的内容非常复杂,为了简化问题,并得到有代表性的比较结果,我们将重点比较一下三类主要的调查问题。 人口学问题 :描述被访者结构的基本问题,通过他们我们可以了解被访者在社会中的基本生存状态,为不同人群进行比较提供依据。 状态性问题 :
8、要求被访者对已经发生状况或者事实的描述,状态性的问题调查的是一种现状这是一些客观的指标。通常可以用于估计占有率、份额、使用习惯等。意向性问题 :对未发生事件的描述,主要调查被访者对未来的估计、态度、意愿等。此类意向性问题是一种主观变量,包括态度、状态、信仰、个性、动机、偏好、倾向性等。通常可以用于预测未来市场走向、投票趋势等。 具体问题如下 问题类型 比较内容 人口学问题 样本年龄、性别、受教育程度、个人月收入 状态性问题 个人或者家庭拥有以下产品的比例: 台式电脑、笔记本电脑、手机、小灵通、MP3、数码相机、摄像机、打印机、家用轿车。 意向性问题 个人或者家庭在未来一年内计划购买以下产品的比
9、例: 台式电脑、笔记本电脑、手机、小灵通、MP3、数码相机、摄像机、打印机、家用轿车。 三、 调查结果分析 1 在线样本与线下样本在人口学样本结构上差异明显 如图1-图4所示,在线调查与线下调查在人口学问题上有较大差异。网民的年龄倾向于年轻化,29岁以下的样本占整个样本的64%。而在线调查样本的年龄向20-29岁集中,占整个样本的71%,20岁以下的样本比例降低到仅为3%。网民受教育程度偏高,而在线样本的受教育程度比网民更加偏高,88%的样本教育程度为大专或以上。网民的个人收入(2641元/月)要高于随机样本(2148元/月),但在线样本的平均收入更高,为3一五0元/月。网民中,男性的比例为6
10、0%,高于女性,但是在在线样本中,男女比例的差异不大。 图1样本年龄分布 备注:Random Sample 为线下调查的随机样本;Netizen 为线下调查网民样本;Online Sample 为在 线调查样本。以下同。 图2 样本受教育程度 图 3 样本性别分布 图 4 样本个人收入的差异 在线调查的样本与线下调查样本在结构呈现巨大差异是预料之中的。在线调查研究的总体应当是网民,中国网民呈现年轻化、高学历与高收入倾向。根据中国互联网中心 (CNNIC)在2004年7月份发布的第14次中国互联网络发展状况统计报告的数据,中国大陆的网民中男性比例为59.3%;30岁以下的网民占总体网民的70.5
11、%;大专及以上学历的比例为56.8%。CNNIC在同一时间段的调查结果与华通现代NetTrack调查的结果在网民人口学变量上的分布基本一致,因为此次分析的样本主要来自于北京、上海、广州这三个一线城市,所以网民的学历相对CNNIC调查的全国结果更加偏高一些。 表1大陆网民年龄与受教育程度分布 (来源中国互联网络发展状况统计报告,2004年7月) 年龄段 一八岁以下 一八-24岁 25-30岁 31-35岁 36-40岁 41-50岁 51-60岁 60岁以上 比例% 17.3 36.8 16.4 11.5 7.3 6.7 3.3 0.7 年龄段 高中(中专) 以下 高中(中专) 大专 本科 硕士
12、 博士 比例% 12.6 30.6 26 28.2 2.1 0.5 除了受到网民结构的影响外,在线调查所采用的是电子邮件招募方式也对被访者结构有所影响。被调查者应该为电子邮件用户甚至是深度用户,根据华通现代的NetTrack的调查结果,20岁以下的年轻的网民使用电子邮件的比例与频率都较低。经常使用电子邮件的用户主要为学历较高、收入较高的在职人士。这就导致在线调查样本年龄向20-29岁集中,学历与收入偏高的现象。2 对样本进行加权处理,可大幅度降低样本结构的差异 网民样本框与样本结构本身存在一定的局限性,在线样本结构的差异必然会给调查结果带来很大的偏差,这一特点早就被研究者与实际调查研究者所了解
13、与重视。实际操作的情况下,研究者常常采用配额的方式进行加权或者选择样本。为方便起见,从两个调查中都选择20-29岁的样本进行比较。此年龄段的居民上网比例较高,也是中国在线调查的最主要目标群体。 如图5-6所示,限定样本年龄为20-29岁后,在线样本在受教育程度以及个人月收入上的结构已经趋向于线下调查的网民样本,与完全随机的样本还存在一些差距。样本受教育程度的差异显著性缩小各个受教育程度的百分比偏差为7%以下。限制年龄段后,样本个人收入的差异显著性缩小,随机样本2148元,网民2641元;网络被访者3一五0元,在线样本中月收入1000元以下的样本比例为21%相对线下调查的网民样本小9%,在其他收
14、入段的百分比差异小于5%。除低收入段外,限制年龄段后的在线调查样本个人收入结构与线下调查网民基本一致。 图5 20-29岁样本受教育程度比较 图 6 20-29岁样本个人收入比较 3 在线调查结果在状态性问题与意向性问题呈现不同的差异 限定年龄段在20-29岁之间后,在线样本与线下网民样本在人口学结构上的相似性为比较其他数据提供了基础。 线上线下样本在状态性问题的数据有较高的相似性,相关系数大于0.95。也存在数字上的少量差异,线上样本拥有台式电脑、笔记本电脑、手机、MP3、数码相机以及汽车的比例相对线下网民样本更高一些,而在摄像机、打印机的拥有率上的比例相对低一些。 但是线上线下样本在意向性
15、问题上有很大差异,相关系数小于0.45,甚至呈现一种相反的态势。在线调查样本更多的倾向于购买笔记本电脑、摄像机以及汽车等产品,而较少倾向性购买台式电脑、手机等产品。因为购买倾向性还会受到目前是否拥有该产品的影响。 图7 20-29岁样本状态性问题答案比较 图 8 20-29岁样本意向性问题答案比较 四、应用在线调查的注意事项在线调查与其他传统调查存在较大差异。如果不加注意的采用在线调查方式,有可能会得到错误的结果。研究者在使用在线调查时,需要注意以下问题。 1 根据调查对象决定是否可以采用在线调查 :在线调查样本框为网民,不到中国总人口的10%,而且具有年轻化、高学历与高收入的趋势。在中国的目
16、前情况下,在线调查还有很大的局限性,只有调查目标群体大多数是网民的情况下才可以采用在线调查。2 合理选择在线调查的拦截与招募方式 :网上活动丰富多彩,各种活动用户具有自己的特征。不同的接触方式获得的样本具有不同的特点。研究者在实施过程中,需要根据被调查对象的差异合理使用e-mail、网页拦截、IM方式拦截等,建立明确被访者身份的Online Panel等。 3 必须应用配额或者加权调整样本结构 :在线调查不是随机调查。被访者结果与目标样本框会存在较大差异,必须进行调整,这样才能够尽量保证样本的代表性。 4 谨慎应用调查结果 :如本比较研究所示,在线调查的可靠性还比较低,特别是在意愿性题目类型上
17、与传统调查存在较大差异,而且呈现出不合理性。研究者在应用在线调查数据时,需要对调查内容进行谨慎的分析与判断。 在线调查中意向性问题有差异而状态性问题无差异的一个主要原因是意向性问题,是一种主观变量,需要被访者思考、憧憬等而不仅仅是回忆,这就可能受到更加复杂因素的影响如被访者的心理特征与情绪状态等。线上调查的被访者多为自愿或者受到礼品的激励而参与调查,而在线调查还是一个新鲜事物,被访者可能会具有不同的心理特征,所以表现出有差异的购买意向。另一个可能性是线上调查的情景的影响。线上调查的招募方式的奖品激励可能使被访者处于一种期望获得奖品的动机情景之中,产生了情绪上的变化。另一个方面,线上调查为自我管
18、理,具有隐蔽性,并且缺少人与人之间的沟通监控。“在网络上别人不知道你是一条狗”这是网络环境的真实写照。这种情景导致网民在进行在线调查时不够谨慎与理性,而更加具有开放与自我表现性等。在性伴侣的调查中,被访者可以愉快地展开丰富的想象力,极大地满足自己的虚荣心和自尊心,才导致中国人性伴侣的数量全球第一的结果。 作为一种新兴事物,在线调查与目前的各种调查方式存在许多不同之处。先进的通讯技术使它具有传统调查无法比拟的优势,但它存在的问题也是不可忽视的。研究人员要深入在线调查的影响因素积极探索与克服它的缺点,相信它一定具有广阔的发展前景。 12.29.202212:2412:24:2322.12.2912时24分12时24分23秒12月. 29, 2229 十二月 202212:24:23 下午12:24:232022年12月29日星期四12:24:23