常见标准化量表:

  (3)比较方法
  如果要判断例如SUS可用性评分、NPS或者任务时长此类连续变量的均值之间是否存在显著差异,你首先需要明确的是这是场被试间测试还是被试内测试。并且对于不同的数据类型(连续变量or 分类变量)、用户小组数、样本数,均有不同的统计方法。
  下图为 连续型数据(满意度评分、任务时长)选择统计方法的决策图 。离散型二进制数据(任务完成率)的统计决策图,后面有时间会补上。

  可用性问题清单
  (1)定义
  一般包括所属模块、问题编号、问题描述、问题层级(一到四级)、处理优先级以及跟进人。
  严重等级判断与可用性准则这里不重复介绍了,此前的上篇已介绍过。
  (2)问题优先级的计算方式:
  [(问题频数X4)/总参与人数]+严重等级
  如一个UI问题被提到3次,总参与人数为10人,严重等级为三级(一级高),那么相应的优先级则计算为四级(4.2四舍五入为4),即表示该UI问题的修复优先级为低四级。
  但是在实际工作中,可用性测试中发现的问题,当确定好严重等级后,修复的优先级除了问题频数,还需要综合考虑开发成本、业务成本,后需要用研人员与产品经理共同确定修复问题的优先级。上方公式仅可作为用研根据问题频次与严重等级去判断修复优先级的算法之一。
  总结
  关于可用性测试中收集的指标如何量化,本篇中介绍到这里。其实对于可探索、可深究的问题仍有许多,例如 一个复合型的度量指标是否可以全权代表可用性测试中其他指标?小样本数据的量化是否真的可以达到一个可靠的置信区间?
  带着问题希望大家可以继续深入探讨,本次抛砖引玉的介绍到这里,欢迎交流。