用户体验测试和评价.docx_三一办公31ppt.com

资源描述

《用户体验测试和评价.docx》由会员分享，可在线阅读，更多相关《用户体验测试和评价.docx（16页珍藏版）》请在三一办公上搜索。

1、用户体验测试与评价产品的用户体验测试评价就是把构成产品的软、硬件系统按其性能、功能、界面形式、可用性等方面与某种预定的标准或者预想进行比较，对其做出评价。用户体验测试与评价是产品开发设计的一个重要步骤。产品的成功与否需要通过评价以及用户的实践，才能得到最终的判定。8.1概述从体验的过程角度来讲，用户体验评价大致可分为两类：一类是在产品完成之后做出的最终评价，称为总结性评价（Summative Evaluation）；另一类是在设计过程中的评价，称为阶段性评价（Formative Evaluation）。这两类评价在产品的开发过程中都起着重要的作用，是整个用户体验设计的有机组成部分。其中，阶段性

2、评价强调在评价中采用的是开放式手段，如访谈、问卷、态度调查以及量表技术；而总结性评价则大多采用较严格的定量评价，如反应时间和错误率等。从被试选择来看，用户体验也可以分为两类：一类是用户评价（User-Based Evaluation），有时也称用户测试；另一类是专家评价（Expert-Based Evaluation）。如图8.1所示。图8.1 用户体验测试与评价的分类可用性评估可以分为三个类别：可用性测试（Usability Test）、可用性调查（Usability Inquiry）和可用性检验（Usability Inspection）（Karat，1997；Zhang，2003）。

3、可用性测试的方法比较多，如焦点小组、认知路径法（Cognitive Walkthrough）和启发式评价（Heuristic Evaluation）等（Nielsen and Mack，1994）。Santon和Young（1998）在文献回顾的基础上分离出了60余种可用性测试方法。根据产品的具体开发阶段，可用性测试方法可分为四类：探索性测试（Exploratory Test）、评估性测试（Assessment Test）、验证性测试（Validation Test）和对比性测试（Comparison Test）（张光强等，2001）。图8.2 社区类网站可用性测试场景示例针对测试方法，人们

4、也在不断地探索和完善之中。周荣刚（2007）提出了一种用户体验质量综合评价的模型：首先建立了包括人机交互角度、用户角度和观察者角度的用户体验质量的360指标体系模型，然后针对可用性概念的模糊性及其综合评价中的问题，应用层次分析法确定了指标体系中相关因素的权重，并根据模糊隶属度函数对用户体验质量评价标准进行了模糊化处理，最后采用模糊评价方法对用户体验质量进行评价。8.2 用户体验测试与评价的意义软件或系统正式交付前需进行严格测试，使用户进行评价。严格的测试方法和评价标准可以促进产品的设计。据统计，在开发新软件时，微软都要将其Beta版发往全世界上千个专业用户进行试用，以提出进一步的修改意见，仅

5、此每年可以为软件开发节省数10亿美元。对用户体验的测试和评价可以起到以下作用：（1）更加贴近市场，通过市场反馈，进一步了解市场和用户的需求，改进产品的设计；（2）降低产品或者系统技术支持的费用，缩短最终用户训练时间；（3）减少由于用户界面问题而引起的软件修改和改版问题；（4）使产品的可用性增强，用户易于使用；（5）更有效地利用计算机系统资源；（6）帮助系统设计者更深刻地领会以“用户为核心”的设计原则；（7）在界面测试与评价过程中形成的一些评价标准和设计原则对界面设计有直接的指导作用。8.3 用户体验测试与评价的准则在设计早期，用户体验设计师组织一份设计准则是有必要的。苹果公司的Macinto

6、sh机之所以获得成功，原因之一是它早期为应用开发人员建立了一组明确的准则，保证在整个产品开发周期中的协调。设计准则应考虑以下几方面的问题：（1）产品运行前后的一致性；（2）产品的界面方式及可选项内容；（3）系统提示、反馈、出错信息的内容；（4）产品界面中各种术语、缩写、图符的内容、式样、对齐方式等的定义；（5）色彩、亮度、闪烁、图像等技术的使用；（6）各种输入输出设备的类型和使用；（7）产品操作响应时间和显示速率；（8）命令语言的语义、语法、序列；（9）系统控制的灵活性；（10）系统满足适当的功能；（11）可编程的功能键的使用；（12）产品出错显示和恢复；（13）联

7、机帮助和指导；（14）培训和参考资料。设计准则的建立主要目的是提出设计原理，为开发人员提供设计的功能需求。准则文件前后应一致并保持文件的完整。它提供了严格的标准，同时具有一定的灵活性，可以根据用户体验设计的发展以及用户需求的变更增加新的内容。这样，用户体验开发的执行过程就会很快，并减少设计的改变。8.4 评价指标和形式8.4.1评价指标经过可用性工程界多年的不懈努力，对可用性衡量标准的看法逐渐趋于一致，那就是：可用性是特定产品在特定使用环境下为特定用户用于特定用途时所具有的有效性(Effectiveness)、效率(Efficiency)和用户主观满意度(Satisfaction)（张丽萍

8、等，2003）。对于用户体验的评价可以使用不同的四类评价指标，它们是：（1）设计功能的评价（2）信息架构的评价（3）设计效果的评价（4）设计问题的诊断8.4.2评价形式（1）从设计评价的主体区分（2）从评价的性质区分（3）从评价的过程区分8.5 用户体验测试与评价方法一般来说，用户体验测试主要是借助定性和定量的方法，对用户的生理、心理和行为等相关指标进行研究。用户体验的测试与评价方法还可以参照第四章中的4.2用户研究方法，这些方法同时也可以被用来对产品的用户体验进行测试和评价。其他有关评价方法也可以参照人机界面设计（罗仕鉴等，2002）一书第十二章。8.5.1 原型评价方法在产品研发过程中，对

9、于界面设计以及程序的测试来获得用户的反馈是至关紧要的。以用户为中心和交互式设计的重要因素之一就是原型（Prototyping）方法，原型方法的目的是将界面设计与用户的需求进行匹配。8.5.2 简易测试评价方法在条件不允许的情况下，可以采取简易的方法来对用户体验进行评价。其实验构成如图8.3所示。图8.3 简易用户体验测试实验室 8.5.3 眼动追踪评价方法眼动在人的视觉信息加工过程中，起着重要的作用。它有三种主要形式：跳动（Saccade）、注视（Fixation）和平滑尾随跟踪（Smooth Pursuit）。眼动追踪可用于揭示用户在研究对象上感兴趣或注意的空间位置及注意的转移过程，因此用眼

10、动追踪技术可以进行界面分析、可用性测试以及人操作的内因分析等。眼动追踪主要跟踪眼睛的运动以及瞳孔的变化，已经有60多年的历史了，用于神经生理学和眼科学、知觉和认知、临床研究、人机互动、人机工程学、图形用户界面、网络、广告心理学、眼控人机界面、虚拟现实、生物医学工程、人工智能和机器人学、警觉、运动心理学、军事、航空和交通心理学、人事评鉴等。如Thomsen和Fulton（2007）借助ASL Eye-TRAC 6000系统，以63名1214岁之间的青少年为被试，以6幅杂志广告为研究对象（如图8.4所示），研究了青少年对于酒广告的注视度以及回忆性。结果发现，青少年对于文字信息的关注度比较少，只使用

11、了平均0.35秒，7的关注时间，而对于酒瓶、商标和卡通等内容关注度较高；但是只有少部分人能够回忆起广告的内容。Ozcelik等（2009）借助Tobii 1750 EyeTracker系统，以52名1927岁之间的研究生为被试，采用眼动跟踪方法研究了色彩编码对多媒体学习的影响，结果显示，色彩编码具有保持记忆和转化的功能，能够增强图形与文字之间的联系，同时有助于对显著信息的理解。图8.4 6幅酒的印刷品广告在工业设计、用户体验设计、人机交互设计领域，眼动追踪可以用来评价对产品（包括硬件产品和软件产品）设计的感性意象，评测产品设计的特性。图8.5 The EyeLink II头戴式眼动仪图8

12、.6 眼动仪在实验中的情景在眼动追踪中，眼动仪会记录下眼球注视的点并形成区域、注视顺序注视点的时间以及路径，如图8.7所示。图8.7 注视点、注视顺序以及注视点的时间下图8.8为Tobii Demo中被试的眼动跟踪结果图（八比特熊咨询公司，8-bit Bear Consulting），红颜色表示关注时间最长，黄颜色其次，绿颜色最短。从图中可见，被试关注页面中心和右上角的图片的时间较长。图8.8 Tobii Demo中的眼动跟踪结果图图8.9 眼动追踪对广告、网页界面的评估图8.10 眼动追踪对手机界面与汽车外形进行评估8.5.3 行为观察评价方法大多数可用性实验室都配备或开发了软件，以观察

13、和登记用户的活动，并有自动的时间标志。在用户与界面进行交互时，界面系统自身能够对用户输入的某些数据进行自动记录，例如出现的错误、特殊命令的使用等，还可以通过计时器，对用户输入进行统计以得到各个事件的发生频率等。与其他观察方法相比，系统监控记录的数据比较精确。其次，在监控系统建立以后，收集数据和统计的过程非常自动化和可靠，而且获得的数据客观公正、具体明确，为进行系统性能的评价、对比提供了客观的基础，并且不存在对用户的任何干扰。其缺点是局限性较大，一般只能搜集到用户对系统的直接操作，不可能收集到有关用户主观性的活动（例如思考）之类的信息。因此，这种方法最好与其他方法一起共同使用。用录像机记录下用户

14、与界面交互的整个过程，包括用户的操作、界面显示的内容，以及用户其他各种状态，如思考过程等。事后向设计者重放，显示用户遇到的问题。与直接观察法相比，它有提供大量丰富的数据信息等优点，并且能长期保持完整的人机交互的记录，提供反复观察和分析的可能。其缺点是录像记录一般都长达23小时，分析起来非常费事。因为用录像设备很费钱费时，录像带的重放检验也是一个很乏味的工作，所以只有在想要发现特别的偶然事件时才在关键阶段使用。图8.11为行为观察场景。图8.11 场景观察目前，我们主要采用荷兰Noldus Observer XT行为分析系统对产品和界面进行测试和评估。荷兰Noldus公司的Observer X

15、T行为分析软件（包括三种型号：Observer XT Basic，Observer XT Mobile和Observer XT Video），对人的思维动态及行为过程进行科学的数据化的分析，使研究更目的化、条理化和科学化。广泛应用于研究儿童教育、儿童心理、犯罪心理、昆虫行为、动物行为、人的行为等方面。在工业设计、用户体验设计、人机交互设计领域，它可以用来测量用户的操作行为，包括操作时间、路径等，用以评估对产品（包括硬件产品和软件产品）设计的感性意象，评测产品设计的特性。图8.12和图8.13分别为行为分析的场景和数据分析。图8.12 行为分析的场景图8.13 行为分析的数据分析行为分析系统可

16、用来记录分析被研究对象的动作、姿势、运动、位置、表情、情绪、社会交往以及人机交互等各种活动；记录被研究对象各种行为发生的时刻、发生的次数和持续的时间，然后进行统计处理，得到分析报告。8.5.4 脑电信号评价方法一般认为，脑电信号（Electroencephalogram，EEG）是由大脑皮质神经元突触后电位总和而形成，主要通过波幅、潜伏期和电位或电流的空间频率等指标来提供大脑工作过程的信息。脑电可以直接反映神经的电活动，有极高的时间分辨率。因此，它受到研究者的重视，成为一种比较成熟的认知神经科学手段。人体的脑电信号的幅值十分微小（V），加上人体又是电的不良导体（内阻在1M数量级），脑电信号源的

17、输出阻抗很高，这对脑电放大器和脑电电极以及安置方法等各方面都提出了很高要求。脑电信号通过对头皮电极采集，记录脑电信号，通过放大器对信号进行滤波、放大与模数转换传递并储存到电脑中。研究者通过后期分析软件提取和分析其中的有用信息，并做后期数据信号滤波、叠加、平、输出图形报告和脑电信号源定位，主要应用于心理学、认知科学和产品设计领域。通过对脑电信号的分析，研究者可以探索大脑的认知加工过程和受试者的心理状况。图8.14所示为美国EGI公司的GES300（Geodesic EEG System 300）128通道脑电（事件相关电位）系统（EGI research catalog，2008）。图8.14

18、GES300系统在实验过程中，需要将电极帽佩戴在头上，如图8.15所示。图8.15 GES300系统在做实验的情景图8.16 GES300系统在作驾驶实验的情景GES300系统采用新一代源分析软件GeorSource，它整合了目前最佳的线性逆解方法（LORETA和LAURA）。它将大脑进行三维分割，得到2400多个体素，用户只需通过简单的设定即可获得每一个体素的信号强度，得到大脑活动时所有脑皮层的完整特征描述。由于所有计算均由计算机自动完成，没有源定位经验的用户也能够轻松掌握。另外，GES300系统具备有限差分模型（FDM），第一次对公共头模（Atlas Man）进行精确重建，得到了精确的

19、大脑几何构造，可以生成更为精确的源定位结果。GeorSource源分析软件可以将EEG数据与信号源影像学数据（MRI切片图）精确同步显示回放，从而揭示了在某一特定时间点（毫秒）上信号源活动与头皮电位（EEG）的关系。图8.17 GES300系统数据采集与分析图8.18 GES300系统数据分析热图当然，脑电技术也存在一定的缺陷，例如：（1）在空间分辨率上存在着局限性，因而对某些认知过程脑区的定位并不是非常准确；（2）在许多相似的实验研究中，由于研究者采用了不同的实验材料和方法等，导致实验结果存在诸多差异；（3）由于采集、记录时间的滞后性，脑电所记录的并不一定是被试者当下所想到的。8.5.5

20、用户体验问卷调查表用户体验设计评价有很多种方法，编写用户体验问卷调查表是一种费用少、管理人员和用户双方都能接受的方法。这个方法以一个实用性的工具清单为基础，清单由一系列用于评价用户体验的具体问题组成，这些问题为那些评价人员提供了一个标准化和系统化的方法，使他们能找出并弄清存在问题的领域、待提高的领域和特别优良的方面等。在进行大规模用户体验调查之前，必须准备用户问卷调查表。在调查表中，可以根据量表的形式（如五点量表、七点量表、九点量表等），要求用户回答调查表中提出的问题。以五点量表为例，计分的形式可以从-2到+2，也可以从1-5分，如图8.19所示。图8.19 五点量表可用性评价将易学性（Lea

21、rnability）、效率性（Efficiency）、一致性（Memorability）、容错性（Errors）和满意性（Satisfaction）等作为评价指标。董建明等（2007）列举了普度大学关于可用性问卷调查表的内容，涉及到8个方面100个问题，如：兼容性、一致性、灵活性、可学习性、极少化的用户动作、极小化的记忆负担、知觉的有限性和用户指导等。用户体验涉及到产品的软硬件操作的心理感受，其内容要涵盖可用性范畴；同时，也可以将可用性评价指标作为问卷调查表的内容，只不过在一些指标设定和具体内容的说法上有所不同。针对不同的产品，不同的评价目的，用户体验设计评价所涉及到的问卷问题是不一样的，它要涉及到工业设计、软件开发、美学、社会学、心理学、人机工程学、商业等方面的内容。在实际运作过程中，用户体验的评价是比较复杂的，层次也非常丰富，很难列出具体的一套标准来作为指导，要具体问题具体分析。

展开阅读全文