5.交互设计测试与评估
2019-01-26 14:13:51 0 举报
AI智能生成
网易云交互设计微专业-交互设计测试与评估
作者其他创作
大纲/内容
网易云交互
5.交互设计测试与评估
评估方法总览
1.为什么要开展测试与评估
1.用户测试与评估的意义
什么是用户测试
请用户使用产品来完成任务
观察并记录用户使用产品的整个过程
注意
测试过程不是为了应对用户提出的不满和要求,而是通过观察用户的行为操作及情绪等方面,来把握用户的使用实际情况
有时也被称作可用性测试
可用性测试定义
特定的用户在特定的使用场景下,为了达到特定的目标而使用某产品时,所感受到的有效性,效率及满意度
可用性测试的测试目标
有效性
用户能够达成自己的目标
效率
用户能以最短路径达成目的
满意度
用户没有产生不愉悦的体验
用户测试基本流程
1.设计测试
设计参与者在测试中需要完成的任务
2.招募用户
筛选符合测试要求的目标用户进行测试
3.进行测试
观察并几率参与者完成任务过程中的情况
4.分析报告
列出问题并进行分析,判定问题的严重性及特殊性
为什么进行用户测试
用户测试是典型的实验型方法,它基于真实的用户数据进行评价,拥有较强的说服力,目的是发现问题,改善设计,挖掘潜在的需求
例子
网易云课堂
用户测试意义
挖掘用户潜在需求
发现并解决产品存在的问题
降低产品周期成本
增强设计说服力
2.测试与评估的形式与方法
评估形式
评估主体
用户
主要靠收集用户使用数据
专家
让工程师及设计师等专家基于自身专业只是和经验进行评估的一种方式
评估性质
定量
是指对可以计量的部分进行评价,如点击量,使用率等
定性
是指对非计量的部分进行评价,如流畅度,舒适性,创造性等
评估过程
理性
相对客观,从客观角度判断客观事物
如对比的价格,肯定会选择便宜的
感性
更为主观,评估结果并没有客观规律
如选择形状,大小等
评估方法
原型评估
在产品研发过程中,对于界面设计及程序的测试来获得用户的反馈是至关紧要的,以用户为中心和交互式设计的重要因素之一就是原型方法,原型方法的目的是将界面设计与用户的需求进行匹配
三种类型
快速原型
原型迅速成型并分配实施
增量原型
应用于大型系统,从系统的基本骨架开始,需要阶段性的安装,系统的本质特征是在初次安装完成后允许阶段性测试
演化原型
对前期的设计原型不断进行补充和优化,直到成为最后的系统
简易测试评估
方法
在条件不允许情况下,可采用简易方法来对用户体验进行评价
四个环节
实验室环境准备
准备好测试用的计算机或其它媒介,如摄像机,三脚架等,选择一个安静的测试场所
被试选择
可分为专家组和用户组
专家组
对产品或产品原形,按测试原形进行测试
用户组
邀请用户参加对产品或产品原型的测试,通过记录和分析用户操作的主客观指标来发现交互问题
测试进行
房间A
被试,对照着测试任务及实验说明,根据自己的选择进行操作和测试,同时运用口语分析说出自己内心的想法,记录员记录每次的操作情况,包括出错,同时记下被试口语报告,当被试在测试过程中遇到困难或停顿不前时,给与一定的客观提示
房间B
通过相关设备,如摄像机,将房间A情况传到房间B,设计师和工程师实时观察和记录被试的测试情况
结果分析
对测试结果进行汇总,提取出交互设计中存在的问题及有益的建议
眼动评估
眼动追踪可以用来评价对产品(包括硬件产品和软件产品)设计的感性意象,评测产品设计的特性。
注视热点图
形象的分析注视点的集中趋势,注视字数,注视时间,注视眼跳时间比等
搜索过程测量指标
扫描路径长度和时间,外界凸对变形面积,空间密度,转换矩阵,眼跳数目,眼跳幅度等
兴趣区域
分析平均注视时间,回缩性眼动,击中目标率,发现目标后注视次数
脑电评估
通过对脑电信号的分析,研究者可以探索大脑的认知加工过程和受试者的心理状况。
2.启发式评估
1.什么是启发式评估
介绍
是专家评估法的一种,也有被成为经验性评估。简单来说,使用一套相对简单、通用、有启发性的 可用性原则,让几个 评审人员 根据 专业知识和经验来进行评估,发现产品潜在的可用性问题。
两大元素
评估者+原则=启发式评估
评估者
人数
推荐3~5人,有时也会简化
岗位
设计师、用户研究员
身份
最好非设计者本人
知识
同时具有可用性知识及设计知识更佳
原则
尼尔森十大原则
八项黄金法则
尼尔森首页可用性指南
等
什么时候适合使用?
①设计阶段
②产品开发后
③产品发布后
优缺点
优点
成本低,效率高,发现大多数可用性问题
缺点
不能代表真实用户,相对主观;有时发现问题过多;对评估人员知识背景要求较高
1.适合时间,资源有限的情况下快速发现可用性问题,
2.版本变动不大的情况下,小成本检验
3.作为可用性测试的之前的准备
2.如何做启发式评估
评估准备
确定范围
不需要每次都对所有模块进行评估
背景信息
评审的基础是在前期做过相关调研的基础上,如果评审成员涉及到跨产品团队,跨部门成员,提供这些信息能让评审人员更好的做出评估;团队内部则可以简化
评估参考原则
对于经验丰富的专家,不需要对照评估原则也能发现较多问题;对于新手来说,对照原则能够好的进行评估。除经典的尼尔森10原则外,也有其它评估准则,根据需要选择作为评估参考。
邀请评委
推荐3—5名,资深设计师,用户研究员,最好非设计师本人,如果能请到其它项目组成员更好。有时视项目时间,评估范围,要求可做一定简化。
材料准备
必要时做简单的讲解,让参与评估成员充分了解信息;评估人员如果是同一个项目组,则可以简化
评估执行阶段
尽量每个参与评审的人员单独进行评审,一般情况下,每个评委可能需要花1-2消失进行评估。
任务走查
整体走查
按照评委的习惯进行,评估过程可以设定几个典型人物任务流程进行评估;也可逐个页面按层级进行评估;也可尝试一些极限值进行评估;根据事先确定的评估的目的来确定范围和重点
结果记录
评委人员单独记录评估发现的问题,简单的依旧等;如有评分表,还需填写评分信息
分析
汇总讨论
报告总结
优化方案
用图
子主题
3.经典启发式评估原则
作用
评估原则的作用是帮助评价者找出可用性问题,而不是限制仅仅找出与这些启发式矛盾的问题
问题
刚开始做评估,不容易发现问题?
Nielson经典10原则
1.系统状态可见性
系统应该在适当的时间内做出适当的反馈,告知用户当前系统状态
1.1告诉用户处在系统的什么位置
用户往往需要知道自己身处在系统的什么位置。
特别对于新手用户来说,需要提供必要的信息,否则容易迷失。
1.2让用户知道自己在做什么
用户需要知道自己的操作是否被系统感知,所以,在用户操作后,应当第一时间提供反馈告诉用户这项操作被系统接受了
1.3让用户知道系统在做什么
当系统在运行中时,尽可能向用户提供系统运行状态的信息。
1.4让用户知道系统做了什么
让用户知道操作的结果,从而进行下一步操作
需要尽可能给予相关的信息反馈,即便是在没有结果时也一样
1.5利用多种形式的反馈
反馈信息可以通过文字,动效,声音,震动,界面元的变化等多种方式给用户以提示
1.6对系统延迟响应进行反馈
当系统相应小于1秒时不会打断用户思考,不需要特别反馈
响应时间越长用户满意度越低,10秒时用户注意力上限,响应时间较长时,给予必要的反馈
相关可用性问题
缺少必要的反馈,没有清晰的系统状态;
反馈不够持久,用户没有足够时间注意到或理解;
反馈没有立即显示;
反馈不容易看到,或不容易理解;
提供了不必要的反馈,让用户慢下来
让用户误解反馈
2.系统与用户现实世界的匹配
设计应与用户现实生活中对相关产品的认知、经验、习惯等相符,以用户期望的方式表现出来,使用户可以利用已有的知识经验来执行操作系统。
2.1使用用户的语言
保证使用的语言是用户能理解和联想的;
并不是只能用大众化的语言,而是目标用户熟悉的语言。
2.2符合现实世界中的使用习惯
将产品的使用习惯和现实中产品的使用习惯联系起来
2.3使用现实世界的隐喻
从现实世界中借鉴的设计元素可以显著的降低用户的认知和学习困难,并增加他们的使用兴趣
2.4操作手势符合联想
使用的操作手势,应当是用户自然能够联系到的,不要轻易定义和创造用户难以联想到的手势
使用了用户不熟悉的语言
系统的语言是以系统为中心,而不是用户为中心
任务流程和用户真实使用的流程不一致
系统结构不符合用户对真实世界的理解
系统使用的暗喻或比拟方法不容易理解
3.用户控制和自由
用户经常会在使用功能的时候发生误操作,这时需要一个非常明确的“紧急出口”来帮助他们从当时的情境中恢复过来。需要支持取消和重做。
3.1用户可以自由导航
清晰和便捷的导航方式,使用户可以自由的控制返回和去到的地方
3.2用户可以自由的退出
用户在感觉迷失或困惑时,需要能够快速撤销的过程
用户使用系统的过程,是一个试错的过程,他们通常会试一试新功能,如果发现有错误,就改正错误,试用新的方法,直到成功为止
3.3不可逆转的操作需要警告
重要的不可逆转的操作需要给到用户明显的提醒,否则将对用户产生严重的影响
常见可用性问题
在不可逆转的行动之前没有提供足够警告
没有在适当的世界提供取消的功能;
取消功能不明显或是很难找到
不支持撤销功能
4.一致性与标准化
同一产品内,产品架构导航、功能名称内容、信息的视觉呈现、操作行为交互方式等方面保持一致;使界面看上去熟悉且易于理解,使用户可以利用已有的知识来执行新的操作任务,并可以预期操作结果。产品与通用的业界标准一致,
4.1产品内部保持一致
通用的信息应该使用一致的用词、外观和布局。可以帮助用户快速学习、记忆和熟悉产品的功能
4.2不同版本之间有延续性
产品的不同版本之间,主要的功能,设计元素等,尽量有一定延续性,避免老用户产生困惑
4.3与业内产品保持一致
用户在使用其它产品,特别是大众性产品时已经形成了一定的习惯,不要轻易违反业界规范
界面元素的外观、布局和分组不一致
界面元素的命名不一致
系统反馈信息的格式不一致
系统提供不一样的方法来操作相似的对象
表达含义不一致,例如在不同的地方红色代表不同的意义
设计标准和通用标准不一致
5.防止错误
在用户选择动作发生之前,就要防止用户容易混淆或者错误的选择。
5.1在执行危险操作前请用户确认
用户执行比较危险的操作时,让用户确认,避免用户发生比较严重的错误
5.2利用清晰的提示防止错误
提供清晰的提示,也能防止用户犯错
5.3利用用户的联想防止错误
利用颜色,动效等提供警示信息
输入信息时,没有告诉用户的格式
缺少非语言暗示
界面上不同的物体太相似
没有对可能产生严重后果的操作进行提示和确认
6.让用户再认而非回忆
尽量减少用户需要记忆的事情和行动。提供可选项让用户再认信息。
6.1将选择对象可视化
将选择对象、动作、选项可视化,使得用户一看就懂
6.2丰富记忆线索
抽象图形+文字;提供更多信息,帮助用户确认
6.3使用通用的命令
通过使用通用的命令,减少用户的记忆负担
例如使用通用的快捷方式、手势
6.4更多让用户选择而不是输入
产品应该给用户提供选项,让用户从众选择或直接进行编辑
菜单
常见可可用性问题
系统的使用过于复杂,用户不得不记忆复杂的命令
界面提供的信息不及时,用户不得不自己从系统的另一部分找到相关信息
图像或符号难以理解,甚至误导用户
菜单,选择或者链接有太多的层次
7.具备灵活性且高效
系统需要同时适用于经验丰富的和缺乏经验的用户。
7.1提供快捷键
为频繁操作的功能设置快捷键
7.2允许用户使用重复操作
对用户频繁使用的部分,提供重复使用的功能或者模版
7.3提供系统默认值
通过提供系统默认值,而减少用户多余的操作
系统缺少自动化,没有自动地执行下面的任务
系统没有提供应有的默认值
默认值不正确
使用系统需要太多的控制动作
系统没有提供捷径
8.美观而简洁的设计
对话中不应该包含无关紧要的信息,设计需要简洁明了,不要包含不相关的或者不需要的内容。每个多余的信息都会分散用户对有用或相关信息的注意力。
8.1避免界面元素过于杂乱
同时呈现过多元素,动效
8.2对重点信息突出显示
用户注意力资源有限,应该保持信息精练,有突出,有弱化
用户界面上的元素太大或太小
元素的颜色、形状或文字不适当,不容易识别
界面元素的移动太快、太慢或不容易察觉
界面过于拥挤,界面元素密度分布不均匀
不同的元素太相似,按键或者链接看上去像一般的文字
9.帮助用户认知、判断和修复错误
用简单明确的语言解释错误信息,精确的指出问题的原因并提出建设性的解决方案
9.1引起用户注意
当错误发生时,提示信息一定要直观醒目,文字需要简单易懂
9.2提供建设性建议
当用户遇到错误时,尽可能提供有实质意义的信息,如:问题是什么,如何从错误中回复等
9.3自动纠错
当如果系统能够帮助用户自动甄别出错误,并进行及时的修正,将给用户带来极大便利
用用户不容易理解的语言进行提示,如404错误
没有给出有效的建议
错误信息使用户感到迷惑
错误信息用词不当
10.帮助和使用手册
提供帮助信息,帮助信息应当易于查找、聚焦于用户的使用任务,列出使用步骤,并且信息量不能过大
10.1方便用户查找
帮助文档入口要容易找到;帮助信息要方便用户查找
10.2便于用户理解
避免使用专业术语,使用图片或图标;
除了文字外,还可以使用示意图,操作步骤等,方便用户应用
10.3便于用户应用
再操作的同时,能见到帮助信息
帮助信息或用户手册不存在
帮助信息没有意义或使用户更加迷惑
3.可用性测试
1.什么是可用性测试
可能遇到的问题
我们的用户觉得产品好不好用?用的过程中会不会遇到问题?满不满意?
设计的过程中,有一些纠结的地方,不知道实际用户是怎么理解与操作的?
产品开发出来了,想在推广前检验一下,产品是否靠谱?
是什么?
通过观察有代表性的用户,完成产品的典型任务,从而找出产品的可用性问题,并解决这些问题,目的是为了改善产品让产品更好用
什么时候适合?
交互设计视觉设计阶段
测试优化阶段
正式发布后(越早越好)
类型
形成式
小样本
发现问题为主
不能做定量对比
总结式
大样本,3人以上
定量的评估
可以做对比评估
解决什么问题?
1.发现问题
产品体验上是否存在问题?
2.检验问题
期望的设计目的是否达成?
是否满足了用户的期望?
3.产品评估
用户是否满意?
4.理解用户
了解用户的行为习惯,了解用户的认知,找到某些问题的原因?
2.可用性测试怎么做
一般流程
准备
测试
优化
准备……(测试和优化是不断迭代演进的过程)
准备阶段
输出物
测试方案
测试脚本
确定目标
常见测试目的
对整个产品做可用性评估?
对新增的功能模块进行评估?
提前看下改版方案对新老用户会产生什么影响?
想提前看下改版是否能达到预计目标?
设计的时候存有争议,想看下哪种方案更合理?
某个环节流失率很高,想看下是否是设计上原因导致?
接下来产品要去拓展某一类特殊用户,想看下针对这类特殊用户,在设计上是否需要做出调整?
测试关注点
测试前梳理清楚要关注的问题
测试前做好计划
将测试目标和关注点转化为测试任务和访谈问题
测试目的
明确测试目的及范围,测试目的决定了后面测试方案设计
与负责的设计师一起,梳理测试要关注的问题,如主要关注的功能及流程,在设计中有纠结和疑问的点
用户招募
招募要求,样本配比,招募渠道
经费预算
奖励的形式,额度
时间计划
用于把控时间
给用户找点事儿做
观察,提问,获得我们想要的信息
常见测试脚本
常见测试脚本核心—测试执行
比如以参加课程为例,将这项任务融入到场景给到用户,用户接到信息去完成这样任务,注意场景设置最好是前期调研过得出来的,符合用户真实的使用场景和目的而不是想象中的任务
设置任务时关注点
1.锁定在主要的任务上
2.从用户角度出发,符合用户真实使用习惯和顺序
3.明确起点和重点
比如用户到达某个页面之后算这个任务完成成功
4.场景化描述
让用户更自然,更符合真实使用场景
招募用户
招募什么样的用户?
根据测试目的来定,找出测试目标有关筛选维度
特别考虑【用户使用行为相关】的特征,例如竞品使用经验,使用产品的目的,用户的活跃程度
挑选最核心的维度,转化为用户招募的条件,并尽量客观化,具体化,可衡量
避免设置交叉条件过多,导致样本代表性降低
学会辨别用户的真假信息,是否真的符合招募条件
事例图
招多少用户合适?
以发现问题为目的快速可用性测试,6-8名即可
考虑产品的复杂性,覆盖人群的差异性,适当做调整,拓展到10-15名
去哪里招募用户?
公司内部;现有产品用户库;公司其他产品用户库;熟人、朋友推荐;推广渠道:官微,公众号,门户等;社区,论坛,QQ群等;第三方调研公司
招募时对用户基本信息进行记录
过滤问卷快速筛选用户
2
邀请函,通知用户测试时间地点
材料工具
测试场地
专业实验室:对测试质量要求比较高,旁听和观察人数较多,需要采集丰富的数据时
预测试
4.其它测试
1.A/B Test
是什么
为同一目标,制定两个方案(比如两个页面),让一部分用户使用A,另一部分用户使用B,记录用户使用情况,对比哪个方案更好。一般在产品改版正式上线前,验证新的设计是否可以提高产品表现
注意点
A/B Test 前提是产品已有比较多的用户量,所测试的页面有比较多的访问量
可以测什么?
测试类型
单变量vs多变量
单变量:一次只改变一个元素;多变量:一次改变多个元素
图
基于后端vs基于前端
A/B Test工具
怎么做?
确定目标——测试方案——创建比较版本——发布测试——数据分析
提高网站付费转化率?还是降低跳出率?
购买按钮颜色会影响点击率?缩短购买流程可以提高付费率?改变导航可以降低跳出率?
测试方案设计
创建比较版本
改变其中一个元素
发布测试
将部分流量导向版本B,不一定要5:5,假如风险比较大,就可能分较小流量给它
发布后要持续多久?有些工具提供了此功能,比如Visual Website Optimizer
数据分析
收集数据,对比A/B版本转化率,跳出率,留存率
结果差异性检验,也有一些工具
2.产品数据分析
基本概念
方法概述
通过在网站或应用中进行数据埋点,进而获取用户对产品的使用和行为数据,并进行基于产品体验优化的数据统计分析
数据分析可以做什么?
什么时候适合用?
正式发布后
分析数据来源
网站
服务器日志
页面标记数据
两者优缺点
移动应用
常用数据监控平台
google analytics
数据分析流程
多种数据结合分析
基础指标及概念
基础指标
PV
page view 即页面浏览量,网页浏览数是评价网站流量最常用的指标之一,简称PV;用户每1次访问网站中的页面均被记录1次。用户对同一页面的多次访问,访问量累计。
UV
unique vistor 即独立访客,是指通过互联网访问、浏览这个网页的自然人
UPV
unique pageview 唯一身份综合浏览量
访问
在一定时间范围内,网站所有访问者对网站发生访问总次数。从访客来到网站到最终关闭网站的所有页面离开,计为1次访问
复合指标
跳出率
指用户来到网站,只浏览了一个页面就离开的访问次数,占全部访问次数的百分比
可以被用来衡量流量和页面质量,高跳出率表示访问者对着陆页面不感兴趣,没有继续访问更深入的页面可能是页面设计存在问题,也可能是导入的用户不匹配的问题
可以通过调整广告渠道、优化页面内容来降低
退出率
访问者离开网站被记录为一次退出
退出率:某一范围内退出的数量/该范围综合访问量
访问时长
网站停留时长。页面停留时长,应用使用时长
访问时长是访问质量的一个衡量指标,较长访问时长标明访问者对产品进行了较多互动
访问深度
可以理解为单个用户平均访问的页面数,也就是PV/PU的比值
该深度也是访问质量的一个衡量指标,可以考察用户是否和网站进行了较多互动比值越大,代表网站粘性越高
转化率
指在一个统计周期内,完成转化目标行为的次数占总访问次数的比率
根据设置不同目的进行计算,例如注册转化率,付费转化率等
转化率是分析中非常重要的指标
移动端基础指标
新增设备
累计设备
启动次数
单次使用时长
使用数据报告,或者统计平台时,一定要先了解清楚各个指标来源和定义,不同平台可能有所差异
常见分析内容
流量分析
哪里来?
流量来源、渠道效果、PV、UV、访问、启动等
用户分析
什么样的?
设备、地域、人口学、兴趣等
行为分析
如何使用?
访问时长、访问页数、行为流等
路径转化
表现如何?
转化次数、转化率、转化成本
流失分析
粘性如何?
跳出率、退出率、流失率、留存率
常用分析思路
趋势分析
环比增长率
同比增长率
定基比增长率
对比分析
细分分析
多种数据结合
3.问卷调查法
适用场景
了解优缺点
统一性
形式内容、时间
灵活性
投放渠道、填写时间
匿名性
消除顾虑、社会期许
量化性
定量分析、隐含关系
只能获得书面信息,不能了解到生动、具体的情况
缺乏弹性,很难作深入的定性调研
调查者难以了解被调查者是认真填写还是随便敷衍,是自己填写还是请我代劳
填写问卷比较容易,有的被调查者或任意打勾,画圈,或按照社会主流观点填写。失去了真实性
回复率和有效率低,对无回答者的研究比较困难
适用于
需要进行定量分析的调研
需要匿名进行调研的问题
对已有假设进行检验
寻找问题隐藏的关联
对产品设计用户认知及态度的评估
不适用于
发现和描述具体问题
探索受访对象模糊的态度
获取创新的想法
获得精确的行为数据
调研方案
问卷设计
问卷测试
问卷投放
问卷分析
撰写报告
确定调研目的,对象,分析目的,应用对象
通过访谈,经验,理论等,确定调研框架,题目选项,分析思路,投放渠道,样本配比等
问卷设计,问卷美化,投放渠道
多人测试,确保问卷可读性,逻辑通顺
问卷回收,数据清洗
分析及报告撰写,调研结果落地
分解
确定目的
确定调研的内容
比如产品改版后,想要评估团队期望传达给用户的产品形象,用户是否感知到了
确定调研介入时间
根据调研目的去明确
确定调研对象
1、版本满意度对比;2、哪个端;3、竞品忠诚度
资料收集
抽样方式
常见抽样方式:随机抽样、分层抽样、分群抽样、系统抽样
投放方式
投放量考虑
可根据各个渠道投放回收率,计算所需投放量或投放天数
线上
产品内部资源
公司域内资源
公司域外资源
线下
定点拦截
流动拦截
电话访问
邀约访问
设计时要考虑清楚自己想检验的问题
根据需要将评价的维度进行分解
题型选择
开放式
只提问题不给答案选择
自由回答,资料丰富生动
对回答者有一定文化水平要求,填答花费时间较多,统计处理复杂;分析时,对字面意思的理解可能存在偏差,特别当填写着填写内容较短时
封闭式
提出问题的同时,提供若干答案,供回答者进行选择
填答方便,省时省力,容易统计分析
无自发性和表现力,不容易发现偏误
1、多找几人一起试填。检查题项表述用户是否理解,是否有歧义,逻辑是否通顺
2、检查问卷跳转是否正常,在不同浏览器中能否正常显示
3、数据回收是否正常,避免回收出现问题
线上、线下
问卷回收效果跟踪
数据清洗
题项编码
描述性统计
深入分析
得出结论
常用分析软件图
5.增强设计说服力
1、设计从沟通开始
多多与用户、与其它部门用设计草图进行沟通,挖掘潜在需求
2、用创意化解决矛盾
平衡多方利益诉求,但又不失去设计的魅力
3、用数据说话
通过客观事实验证设计的正确性与合理性
总结三点
1、设计师要有一颗诚挚而细致的心
对自己的设计输出物做反复的检查和修改,设计要拿得出手。对自己负责,少犯错误,而不是敷衍了事
2、平时要多看、多做、多想、多学运用专业知识阐述自己观点
运用专业知识从多个角度旁征博引科学地表达自己的设计观点,不要随意捏造,不懂装懂
3、做一些设计分享,提升团队影响力
用设计事实提升团队在企业和行业的影响力
0 条评论
回复 删除
下一页