Si seulement un utilisateur sur 1000 rencontre un problème avec un site Web, alors c’est un problème mineur.
Si cette phrase vous a dérangé, c’est normal.
Il se peut que cet unique problème ait entraîné la publication par inadvertance des informations financières d’un visiteur sur le site Web pour que le monde entier puisse les voir.
Ou il pourrait s’agir d’une légère hésitation avec une étiquette sur une partie obscure d’un site Web.
Cela fait partie de la responsabilité des professionnels de l’expérience utilisateur d’aider les développeurs à prendre des décisions sur ce qu’il faut corriger.
Compter la fréquence et la gravité du problème sont deux ingrédients essentiels pour communiquer l’importance des problèmes d’utilisabilité. Ce sont également deux des entrées nécessaires pour une analyse des modes de défaillance et de leurs effets (AMDE), un processus de priorisation plus structuré.
Fréquence des problèmes
Mesurer la fréquence d’un problème est généralement simple. Prenez le nombre d’utilisateurs qui rencontrent un problème divisé par le nombre total d’utilisateurs. Par exemple, si 1 utilisateur sur 5 rencontre un problème, la fréquence du problème est de 0,20, soit 20 %. La fréquence des problèmes peut ensuite être présentée dans une matrice utilisateur par problème. Elle peut également être utilisée pour estimer la taille de l’échantillon nécessaire pour découvrir un certain pourcentage des problèmes.
Sévérité du problème
L’évaluation de la gravité d’un problème est moins objective que la recherche de la fréquence du problème. Il existe un certain nombre de façons d’attribuer des notes de gravité. J’ai sélectionné quelques-unes des approches les plus populaires décrites dans la littérature, et je les opposerai à la méthode que nous utilisons chez Measuring Usability.
Bien qu’il existe des différences dans les approches, en général, chaque méthode propose une structure similaire : un ensemble de catégories ordonnées reflétant l’impact du problème sur l’utilisateur, de mineur à majeur.
Jakob Nielsen
Jakob Nielsen a proposé l’échelle suivante en quatre étapes il y a quelques décennies :
0 = Je ne suis pas du tout d’accord pour dire qu’il s’agit d’un problème d’utilisabilité
1 = Problème cosmétique seulement : il n’est pas nécessaire de le corriger à moins de disposer de temps supplémentaire sur le projet
2 = Problème d’utilisabilité mineur : il faut accorder une faible priorité à sa résolution
3 = Problème majeur d’utilisabilité : il est important de le résoudre, il faut donc lui accorder une priorité élevée
4 = Catastrophe d’utilisabilité : il est impératif de le résoudre avant que le produit puisse être lancé
Jeff Rubin
Dans son livre influent de 1994, Jeff a défini l’échelle suivante pour la gravité des problèmes :
4 : Inutilisable : L’utilisateur ne peut pas ou ne voudra pas utiliser une partie particulière du produit en raison de la façon dont le produit a été conçu et mis en œuvre.
3 : Sévère : L’utilisateur utilisera probablement ou tentera d’utiliser le produit ici, mais sera sévèrement limité dans sa capacité à le faire.
2 : Modéré : L’utilisateur sera en mesure d’utiliser le produit dans la plupart des cas, mais devra entreprendre des efforts modérés pour contourner le problème.
1 : Irritant : Le problème ne se produit que par intermittence, peut être contourné facilement, ou dépend d’une norme qui est en dehors des limites du produit. Peut aussi être un problème cosmétique.
Dumas et Redish
Joe Dumas et Ginny Redish, dans leur ouvrage fondateur, A Practical Guide to Usability Testing, proposent une catégorisation similaire à celle de Rubin et Nielsen mais ajoutent une dimension globale versus locale aux problèmes. L’idée est que si un problème affecte la navigation globale d’un site Web, il devient plus critique qu’un problème local n’affectant, par exemple, qu’une page.
Niveau 1 : empêche l’achèvement de la tâche
Niveau 2 : crée un retard et une frustration importants
Niveau 3 : les problèmes ont un effet mineur sur l’utilisabilité
Niveau 4 : améliorations/suggestions subtiles et possibles
Chauncey Wilson
Chauncey Wilson suggère que les échelles de gravité de l’utilisabilité correspondent à l’évaluation de la gravité des systèmes de suivi des bogues dans une entreprise. Il propose une échelle en cinq points avec les niveaux suivants. Auparavant, il a utilisé une variante similaire à quatre points.
Niveau 1 : erreur catastrophique causant une perte irrévocable de données ou des dommages au matériel ou au logiciel. Le problème pourrait entraîner des pannes à grande échelle qui empêchent de nombreuses personnes de faire leur travail. Les performances sont si mauvaises que le système ne peut pas atteindre les objectifs de l’entreprise.
Niveau 2 : problème grave, entraînant une perte possible de données. L’utilisateur ne dispose d’aucune solution de contournement du problème. Les performances sont si faibles que le système est universellement considéré comme « pitoyable ».
Niveau 3 : Problème modéré ne causant pas de perte permanente de données, mais une perte de temps. Il existe une solution de rechange au problème. Les incohérences internes entraînent une augmentation des taux d’apprentissage ou d’erreur. Une fonction ou une caractéristique importante ne fonctionne pas comme prévu.
Niveau 4 : problème mineur mais irritant. En général, il entraîne une perte de données, mais le problème ralentit légèrement les utilisateurs. Il y a des violations minimes des directives qui affectent l’apparence ou la perception, et des erreurs qui sont récupérables.
Niveau 5 : Erreur minime. Le problème est rare et ne cause aucune perte de données ou perte de temps importante. Problème cosmétique ou de cohérence mineur.
Les échelles de Wilson et Dumas &Redish ont le problème le plus grave avec les chiffres inférieurs. C’est parce que dans les premiers jours de l’informatique, les bogues graves étaient appelés « bogues de niveau 1 » et ceux-ci devaient être corrigés avant la sortie du produit (Dumas, Personal Communication 2013). Dans cette échelle, les problèmes sont définis en termes de perte de données plutôt que par leur impact sur les performances ou l’état émotionnel des utilisateurs.
Molich & Jeffries
Rolf Molich est célèbre pour sa série d’évaluations comparatives de l’utilisabilité (CUE). Il est également célèbre pour avoir examiné et écrit (souvent de manière critique) sur la qualité des rapports d’utilisabilité. Lui et Robin Jeffries ont proposé une échelle en trois points.
1. Mineur : retarde brièvement l’utilisateur.
2. Sérieux : retarde l’utilisateur de manière significative mais lui permet finalement de terminer la tâche.
3. Catastrophique : empêche l’utilisateur de terminer sa tâche.
Cette approche en trois points est plus simple que d’autres mais tend à s’appuyer fortement sur la manière dont le problème a un impact sur le temps consacré à la tâche.
Notre approche
A l’origine, nous avons commencé avec une échelle de notation à 7 points où les évaluateurs attribuaient à la gravité du problème une valeur allant de cosmétique (1) à catastrophique (7), mais nous avons constaté qu’il était difficile de distinguer facilement les niveaux 2 et 6. Nous avons réduit cela à une échelle à quatre points similaire à celle de Rubin, Nielsen et Dumas/Redish ci-dessus et nous les avons traités plus comme des catégories que comme un continuum.
Bien qu’il y ait eu beaucoup moins d’ambiguïté avec quatre points, nous avons encore trouvé une distinction trouble entre les deux niveaux intermédiaires à la fois dans l’attribution de la gravité et dans le rapport des niveaux de problèmes aux clients.
Nous avons donc réduit notre échelle de gravité à seulement trois niveaux, ainsi qu’un pour les insights, les suggestions des utilisateurs ou les attributs positifs.
1. Mineur : Provoque une certaine hésitation ou une légère irritation.
2. Modéré : Entraîne l’échec occasionnel de la tâche pour certains utilisateurs ; provoque des retards et une irritation modérée.
3. Critique : Entraîne l’échec de la tâche. Provoque une irritation extrême de l’utilisateur.Insight/Suggestion/Positive : Les utilisateurs mentionnent une idée ou une observation qui fait ou pourrait améliorer l’expérience globale.
Sommaire
J’ai mis des versions abrégées de ces échelles ci-dessous dans le tableau pour montrer les similitudes dans certains des termes et des niveaux. J’ai également aligné les échelles pour que les chiffres les plus élevés indiquent des problèmes plus graves.
Niveau | Nielsen | Rubin | Dumas | Wilson | Molich &. Jeffries | Sauro |
0 | Not a Problem | Insight/ Suggestion/ Positif | ||||
1 | Cosmétique | Irritant | Subtil & améliorations/ suggestions possibles | Minor problème cosmétique ou de cohérence | Minor (retarde brièvement l’utilisateur) | Minor : Quelques hésitations ou une légère irritation |
2 | Minor | Moderate | Les problèmes ont un effet mineur sur la facilité d’utilisation | Problèmes mineurs mais irritants | . | |
3 | Majeur | Sévère | Créant un retard et une frustration significatifs | Problème modéré | Sérieux (retarde l’utilisateur de manière significative mais finalement) | Modéré : Entraîne l’échec occasionnel de la tâche pour certains utilisateurs ; provoque des retards et une irritation modérée |
4 | Unusable | Empêche l’achèvement de la tâche | Problèmes graves | Critiques : Entraîne l’échec de la tâche. Provoque une irritation extrême de l’utilisateur. | ||
5 | Catastrophe | Erreur catastrophique | Catastrophique (empêche l’utilisateur de terminer sa tâche) |
Certaines leçons tirées de ces niveaux de gravité des problèmes :
- Ne soyez pas obsédé par la recherche du bon nombre de catégories ou d’étiquettes : Trois catégories sont probablement suffisantes, mais fusionner les échelles avec les niveaux de suivi des bogues ou avoir plus de niveaux pour générer plus d’adhésion interne sont deux raisons légitimes pour avoir plus de points. Une fois que vous avez choisi un système, essayez de vous y tenir pour permettre une comparaison dans le temps.
- Il y aura toujours des désaccords entre les évaluateurs et des appels au jugement : Ce sont des guides approximatifs, pas des instruments précis. Différents évaluateurs seront en désaccord, malgré la clarté des niveaux de sévérité. L’une des meilleures approches consiste à demander à plusieurs évaluateurs de noter la gravité indépendamment, de calculer l’accord, puis de faire la moyenne des notes.
- Les chiffres attribués à chaque niveau sont quelque peu arbitraires : Ne soyez pas trop obsédé par la question de savoir si les problèmes de plus grande gravité devraient avoir des numéros plus élevés ou plus bas. Je préfère cette dernière solution, mais c’est l’ordre qui a un sens. Bien que les intervalles entre les gravités de 1, 2 et 3 soient probablement différents, les rangs peuvent être utilisés pour une analyse supplémentaire lors de la comparaison de différents évaluateurs ou de la gravité et de la fréquence des problèmes.
- N’oubliez pas les positifs : Dumas, Molich & Jeffries a écrit un article persuasif parlant de la nécessité de souligner les résultats positifs. Alors qu’un test d’utilisabilité est généralement destiné à découvrir des problèmes, la compréhension des points positifs encourage les développeurs et ne vous fait pas passer, vous ou votre équipe, pour les annonciateurs constants de mauvaises nouvelles.
- Traitez la fréquence séparément de la gravité : Nous signalons la fréquence d’un problème en même temps que sa gravité. Lorsque cela est possible, nous demandons à un analyste distinct d’évaluer la gravité d’un problème sans connaître sa fréquence – un sujet pour un futur blog.