MeasuringU: Clasificación de la gravedad de los problemas de usabilidad

Si sólo uno de cada 1.000 usuarios encuentra un problema en un sitio web, se trata de un problema menor.

Si esa frase le ha molestado, debería hacerlo.

Puede ser que ese único problema haya provocado que la información financiera de un visitante se haya publicado inadvertidamente en el sitio web para que todo el mundo la vea.

O podría tratarse de una pequeña duda con una etiqueta en una parte oscura de un sitio web.

Es parte de la responsabilidad de los profesionales de la experiencia del usuario ayudar a los desarrolladores a tomar decisiones sobre lo que hay que arreglar.

Contar con la frecuencia y la gravedad del problema son dos ingredientes críticos a la hora de comunicar la importancia de los problemas de usabilidad. También son dos de las entradas necesarias para un Análisis de Modos de Fallo y Efectos (AMFE), un proceso de priorización más estructurado.

Frecuencia de los problemas

Medir la frecuencia de un problema es generalmente sencillo. Tome el número de usuarios que se encuentran con un problema dividido por el número total de usuarios. Por ejemplo, si 1 de cada 5 usuarios se encuentra con un problema, la frecuencia del problema es de 0,20, es decir, el 20%. La frecuencia de los problemas se puede presentar en una matriz usuario por problema. También se puede utilizar para estimar el tamaño de la muestra necesaria para descubrir un determinado porcentaje de los problemas.

Gravedad del problema

Calificar la gravedad de un problema es menos objetivo que encontrar la frecuencia del problema. Hay varias formas de asignar las calificaciones de gravedad. He seleccionado algunos de los enfoques más populares descritos en la literatura y los contrastaré con el método que utilizamos en Measuring Usability.

Aunque hay diferencias en los enfoques, en general cada método propone una estructura similar: un conjunto de categorías ordenadas que reflejan el impacto que el problema tiene en el usuario, de menor a mayor.

Jakob Nielsen

Jakob Nielsen propuso hace unas décadas la siguiente escala de cuatro pasos:

0 = No estoy de acuerdo en que esto sea un problema de usabilidad en absoluto
1 = Problema cosmético solamente: no es necesario arreglarlo a menos que se disponga de tiempo extra en el proyecto
2 = Problema de usabilidad menor: la solución de este problema debería tener una prioridad baja
3 = Problema de usabilidad importante: es importante solucionarlo, por lo que debería tener una prioridad alta
4 = Catástrofe de usabilidad: es imperativo solucionarlo antes de que el producto pueda salir al mercado

Jeff Rubin

En el influyente libro de Jeff de 1994, esbozó la siguiente escala de gravedad de los problemas:

4: Inutilizable: El usuario no puede o no quiere utilizar una parte concreta del producto debido a la forma en que éste ha sido diseñado e implementado.
3: Grave: El usuario probablemente utilizará o intentará utilizar el producto aquí, pero se verá gravemente limitado en su capacidad para hacerlo.
2: Moderado: El usuario podrá utilizar el producto en la mayoría de los casos, pero tendrá que realizar algún esfuerzo moderado para sortear el problema.
1: Irritante: El problema se produce sólo de forma intermitente, puede sortearse fácilmente o depende de una norma que está fuera de los límites del producto. También puede ser un problema cosmético.

Dumas y Redish

Joe Dumas y Ginny Redish, en su libro seminal, A Practical Guide to Usability Testing, ofrecen una categorización similar a la de Rubin y Nielsen pero añaden una dimensión global frente a la local a los problemas. La idea es que si un problema afecta a la navegación global de un sitio web, se vuelve más crítico que un problema local que sólo afecta, por ejemplo, a una página.

Nivel 1: Impide completar la tarea
Nivel 2: Crea un retraso significativo y frustración
Nivel 3: Los problemas tienen un efecto menor en la usabilidad
Nivel 4: Mejoras/sugerencias sutiles y posibles

Chauncey Wilson

Chauncey Wilson sugiere que las escalas de gravedad de la usabilidad deberían coincidir con la clasificación de gravedad de los sistemas de seguimiento de errores en una empresa. Ofrece una escala de cinco puntos con los siguientes niveles. Anteriormente, ha utilizado una variante similar de cuatro puntos.

Nivel 1: Error catastrófico que causa una pérdida irrevocable de datos o daños en el hardware o el software. El problema puede provocar fallos a gran escala que impidan a muchas personas realizar su trabajo. El rendimiento es tan malo que el sistema no puede cumplir los objetivos de la empresa.
Nivel 2: Problema grave, que causa una posible pérdida de datos. El usuario no tiene una solución al problema. El rendimiento es tan pobre que el sistema es considerado universalmente como «lamentable».
Nivel 3: Problema moderado que no causa una pérdida permanente de datos, pero sí una pérdida de tiempo. Existe una solución al problema. Las incoherencias internas provocan un aumento de las tasas de aprendizaje o de error. Una función o característica importante no funciona como se esperaba.
Nivel 4: Problema menor pero irritante. Por lo general, provoca la pérdida de datos, pero el problema ralentiza ligeramente a los usuarios. Hay violaciones mínimas de las directrices que afectan a la apariencia o la percepción, y errores que son recuperables.
Nivel 5: Error mínimo. El problema es poco frecuente y no causa pérdida de datos ni de tiempo. Problema cosmético o de consistencia menor.

Las escalas Wilson y Dumas &Redish tienen el problema más grave con los números más bajos. Esto se debe a que en los primeros tiempos de la informática, los fallos graves se llamaban «fallos de nivel 1» y esos tenían que ser corregidos antes de la salida del producto (Dumas, comunicación personal 2013). En esta escala, los problemas se definen en términos de pérdida de datos y no de su impacto en el rendimiento o el estado emocional de los usuarios.

Molich &Jeffries

Rolf Molich es famoso por su serie de evaluaciones comparativas de usabilidad (CUE). También es famoso por revisar y escribir (a menudo de forma crítica) sobre la calidad de los informes de usabilidad. Él y Robin Jeffries ofrecieron una escala de tres puntos.

1. Menor: retrasa al usuario brevemente.
2. Grave: retrasa al usuario significativamente pero finalmente le permite completar la tarea.
3. Catastrófico: impide al usuario completar su tarea.

Este enfoque de tres puntos es más sencillo que otros pero tiende a basarse en gran medida en cómo afecta el problema al tiempo de la tarea.

Nuestro enfoque

Inicialmente comenzamos con una escala de calificación de 7 puntos en la que los evaluadores asignaban a la gravedad del problema un valor desde cosmético (1) hasta catastrófico (7), pero descubrimos que era difícil distinguir fácilmente entre los niveles 2 y 6. Lo redujimos a una escala de cuatro puntos similar a la de Rubin, Nielsen y Dumas/Redish mencionada anteriormente y los tratamos más como categorías que como un continuo.

Aunque había mucha menos ambigüedad con cuatro puntos, seguimos encontrando una distinción turbia entre los dos niveles intermedios tanto en la asignación de la gravedad como en la comunicación de los niveles de los problemas a los clientes.

Así que redujimos nuestra escala de gravedad a sólo tres niveles, junto con uno para las percepciones, las sugerencias de los usuarios o los atributos positivos.

1. Menor: Causa algunas dudas o una ligera irritación.
2. Moderado: Provoca fallos ocasionales en las tareas de algunos usuarios; provoca retrasos e irritación moderada.
3. Crítico: Conduce al fracaso de la tarea. Provoca una irritación extrema en el usuario.

Insight/Sugerencia/Positiva: Los usuarios mencionan una idea u observación que hace o podría mejorar la experiencia general.

Resumen

He puesto versiones abreviadas de estas escalas a continuación en la tabla para mostrar las similitudes en algunos de los términos y niveles. También he alineado las escalas para que los números más altos indiquen problemas más graves.

Nivel Nielsen Rubin Dumas Wilson Molich & Jeffries Sauro
0 No hay problema Precisión/sugerencia/positiva
1 Cosmética Irritante Sutil &posibles mejoras/sugerencias Menor problema cosmético o de consistencia Menor (retrasa brevemente al usuario) Menor : Alguna vacilación o ligera irritación
2 Menor Moderado Los problemas tienen un efecto menor en la usabilidad Problema menor pero irritante .
3 Mayor Severo Crea un retraso significativo y frustración Problema moderado Serio (retrasa al usuario de forma significativa pero eventual) Moderado: Provoca el fracaso ocasional de la tarea para algunos usuarios; provoca retrasos e irritación moderada
4 Inutilizable Impide la finalización de la tarea Problema grave Crítico: Conduce al fracaso de la tarea. Causa al usuario una irritación extrema.
5 Catástrofe Error catastrófico Catástrofe (impide al usuario completar su tarea)

Algunas lecciones de estos niveles de gravedad del problema:

  1. No se obsesione por encontrar el número correcto de categorías o etiquetas: Tres categorías son probablemente suficientes, pero fusionar las escalas con los niveles de seguimiento de errores o tener más niveles para generar más aceptación interna son razones legítimas para tener más puntos. Una vez que elija un sistema, intente mantenerlo para poder compararlo a lo largo del tiempo.
  2. Seguirá habiendo desacuerdos entre los evaluadores y juicios de valor: Se trata de guías aproximadas, no de instrumentos precisos. Diferentes evaluadores no estarán de acuerdo, a pesar de la claridad de los niveles de gravedad. Uno de los mejores enfoques es hacer que varios evaluadores califiquen la gravedad de forma independiente, calcular la concordancia y luego promediar las calificaciones.
  3. Los números asignados a cada nivel son algo arbitrarios: No hay que obsesionarse demasiado con si los problemas de mayor gravedad deberían tener números más altos o más bajos. Yo prefiero esto último, pero lo que tiene sentido es el orden. Aunque los intervalos entre las severidades de 1, 2 y 3 son probablemente diferentes, los rangos pueden utilizarse para un análisis adicional cuando se comparan diferentes evaluadores o la severidad y frecuencia de los problemas.
  4. No olvide los positivos: Dumas, Molich & Jeffries escribió un artículo persuasivo que habla de la necesidad de señalar los hallazgos positivos. Aunque una prueba de usabilidad suele estar destinada a descubrir problemas, entender los aspectos positivos anima a los desarrolladores y no hace que tú o tu equipo seáis los constantes heraldos de las malas noticias.
  5. Trata la frecuencia por separado de la gravedad: Informamos de la frecuencia de un problema junto con su gravedad. Cuando es posible, hacemos que un analista independiente califique la gravedad de un problema sin conocer su frecuencia, un tema para un futuro blog.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.