Wenn nur einer von 1000 Benutzern ein Problem mit einer Website hat, dann ist es ein geringes Problem.
Wenn Sie dieser Satz stört, dann sollte er das auch.
Es könnte sein, dass dieses eine Problem dazu geführt hat, dass die Finanzdaten eines Besuchers versehentlich auf der Website veröffentlicht wurden, so dass die ganze Welt sie sehen kann.
Oder es könnte ein kleines Zögern bei der Beschriftung eines unübersichtlichen Teils der Website sein.
Es gehört zu den Aufgaben von Fachleuten für Benutzererfahrung, den Entwicklern bei der Entscheidung zu helfen, was zu beheben ist.
Die Häufigkeit und der Schweregrad von Problemen sind zwei entscheidende Faktoren, wenn es darum geht, die Bedeutung von Problemen der Benutzerfreundlichkeit zu vermitteln. Sie sind auch zwei der Inputs, die für eine Failure Modes Effects Analysis (FMEA), einen strukturierteren Priorisierungsprozess, benötigt werden.
Problemhäufigkeit
Die Messung der Häufigkeit eines Problems ist im Allgemeinen einfach. Man nimmt die Anzahl der Benutzer, bei denen ein Problem auftritt, geteilt durch die Gesamtzahl der Benutzer. Tritt beispielsweise bei 1 von 5 Benutzern ein Problem auf, beträgt die Problemhäufigkeit 0,20, also 20 %. Die Problemhäufigkeit kann dann in einer Benutzer-zu-Problem-Matrix dargestellt werden. Sie kann auch verwendet werden, um die Stichprobengröße zu schätzen, die erforderlich ist, um einen bestimmten Prozentsatz der Probleme zu entdecken.
Problemschwere
Die Bewertung der Schwere eines Problems ist weniger objektiv als die Ermittlung der Problemhäufigkeit. Es gibt eine Reihe von Möglichkeiten, den Schweregrad zu bewerten. Ich habe einige der in der Literatur beschriebenen populäreren Ansätze ausgewählt und werde sie mit der Methode vergleichen, die wir bei Measuring Usability verwenden.
Auch wenn es Unterschiede in den Ansätzen gibt, schlägt jede Methode im Allgemeinen eine ähnliche Struktur vor: eine Reihe von geordneten Kategorien, die die Auswirkungen des Problems auf den Benutzer widerspiegeln, von geringfügig bis schwerwiegend.
Jakob Nielsen
Jakob Nielsen schlug vor einigen Jahrzehnten die folgende vierstufige Skala vor:
0 = Ich stimme nicht zu, dass es sich um ein Usability-Problem handelt
1 = Nur kosmetisches Problem: muss nicht behoben werden, es sei denn, es steht zusätzliche Zeit für das Projekt zur Verfügung
2 = Geringes Usability-Problem: Die Behebung dieses Problems sollte niedrige Priorität haben
3 = Großes Usability-Problem: Es ist wichtig, es zu beheben, daher sollte ihm hohe Priorität eingeräumt werden
4 = Usability-Katastrophe: Es muss unbedingt behoben werden, bevor das Produkt freigegeben werden kann
Jeff Rubin
In Jeffs einflussreichem Buch aus dem Jahr 1994 hat er die folgende Skala für den Schweregrad von Problemen skizziert:
4: Unbenutzbar: Der Benutzer kann oder will einen bestimmten Teil des Produkts aufgrund der Art und Weise, wie das Produkt entworfen und implementiert wurde, nicht verwenden.
3: Schwerwiegend: Der Benutzer wird das Produkt wahrscheinlich benutzen oder versuchen, es zu benutzen, aber er wird in seinen Möglichkeiten stark eingeschränkt sein.
2: Mäßig: Der Benutzer wird das Produkt in den meisten Fällen verwenden können, muss aber einen mäßigen Aufwand betreiben, um das Problem zu umgehen.
1: Irritierend: Das Problem tritt nur sporadisch auf, kann leicht umgangen werden oder ist von einem Standard abhängig, der außerhalb der Grenzen des Produkts liegt. Es kann sich auch um ein kosmetisches Problem handeln.
Dumas und Redish
Joe Dumas und Ginny Redish bieten in ihrem bahnbrechenden Buch „A Practical Guide to Usability Testing“ eine ähnliche Kategorisierung wie Rubin und Nielsen an, fügen aber eine globale und eine lokale Dimension zu den Problemen hinzu. Die Idee ist, dass ein Problem, das sich auf die globale Navigation einer Website auswirkt, kritischer ist als ein lokales Problem, das beispielsweise nur eine Seite betrifft.
Stufe 1: Verhindert die Erledigung von Aufgaben
Stufe 2: Verursacht erhebliche Verzögerungen und Frustration
Stufe 3: Probleme wirken sich nur geringfügig auf die Benutzerfreundlichkeit aus
Stufe 4: Subtil und mögliche Verbesserungen/Vorschläge
Chauncey Wilson
Chauncey Wilson schlägt vor, dass die Skala für den Schweregrad der Benutzerfreundlichkeit der Schweregradeinstufung der Fehlerverfolgungssysteme in einem Unternehmen entsprechen sollte. Er bietet eine Fünf-Punkte-Skala mit den folgenden Stufen an. Früher hat er eine ähnliche Vier-Punkte-Variante verwendet.
Stufe 1: Katastrophaler Fehler, der einen unwiderruflichen Datenverlust oder eine Beschädigung der Hardware oder Software verursacht. Das Problem könnte zu großflächigen Ausfällen führen, die viele Menschen daran hindern, ihre Arbeit zu erledigen. Die Leistung ist so schlecht, dass das System die Geschäftsziele nicht erreichen kann.
Stufe 2: Schwerwiegendes Problem, das möglicherweise zum Verlust von Daten führt. Der Benutzer hat keine Möglichkeit, das Problem zu umgehen. Die Leistung ist so schlecht, dass das System allgemein als „erbärmlich“ angesehen wird.
Stufe 3: Mäßiges Problem, das keinen dauerhaften Datenverlust verursacht, aber Zeitverschwendung. Es gibt eine Umgehung für das Problem. Interne Inkonsistenzen führen zu erhöhten Lern- oder Fehlerquoten. Eine wichtige Funktion oder ein wichtiges Merkmal funktioniert nicht wie erwartet.
Stufe 4: Geringfügiges, aber störendes Problem. In der Regel kommt es zu Datenverlusten, aber das Problem bremst die Benutzer leicht aus. Es gibt minimale Verstöße gegen Richtlinien, die das Erscheinungsbild oder die Wahrnehmung beeinträchtigen, und Fehler, die behebbar sind.
Stufe 5: Minimaler Fehler. Das Problem ist selten und verursacht keine Datenverluste oder größeren Zeitverluste. Geringfügige kosmetische oder Konsistenzprobleme.
Die rötlichen Skalen von Wilson und Dumas & haben das schwerwiegendere Problem mit niedrigeren Zahlen. Das liegt daran, dass in den Anfängen der Computertechnik schwerwiegende Fehler als „Fehler der Stufe 1“ bezeichnet wurden, die vor der Veröffentlichung des Produkts behoben werden mussten (Dumas, persönliche Mitteilung 2013). In dieser Skala werden die Probleme in Form von Datenverlusten und nicht in Bezug auf ihre Auswirkungen auf die Leistung oder den emotionalen Zustand der Benutzer definiert.
Molich & Jeffries
Rolf Molich ist berühmt für seine Reihe von vergleichenden Usability-Evaluierungen (CUE). Er ist auch dafür bekannt, die Qualität von Usability-Berichten zu überprüfen und (oft kritisch) darüber zu schreiben. Er und Robin Jeffries haben eine dreistufige Skala entwickelt.
1. Geringfügig: verzögert den Benutzer kurz.
2. Schwerwiegend: verzögert den Benutzer erheblich, erlaubt ihm aber schließlich, die Aufgabe zu erledigen.
3. Katastrophal: verhindert, dass der Benutzer seine Aufgabe erledigt.
Dieser Drei-Punkte-Ansatz ist einfacher als andere, hängt aber stark davon ab, wie das Problem die Zeit für die Aufgabe beeinflusst.
Unser Ansatz
Ursprünglich begannen wir mit einer 7-Punkte-Bewertungsskala, bei der die Bewerter dem Schweregrad des Problems einen Wert von kosmetisch (1) bis katastrophal (7) zuordneten, aber wir stellten fest, dass es schwierig war, zwischen den Stufen 2 und 6 zu unterscheiden. Wir reduzierten diese Skala auf eine Vier-Punkte-Skala, ähnlich wie Rubin, Nielsen und Dumas/Redish oben, und behandelten sie mehr als Kategorien denn als Kontinuum.
Auch wenn es mit vier Punkten viel weniger Unklarheit gab, fanden wir immer noch eine undeutliche Unterscheidung zwischen den beiden mittleren Stufen, sowohl bei der Zuweisung des Schweregrads als auch bei der Meldung der Problemstufen an die Kunden.
Deshalb haben wir unsere Schweregradskala auf nur drei Stufen reduziert, zusammen mit einer Stufe für Erkenntnisse, Benutzervorschläge oder positive Eigenschaften.
1. Geringfügig: Verursacht ein gewisses Zögern oder eine leichte Irritation.
2. Mäßig: Verursacht gelegentliches Scheitern von Aufgaben für einige Benutzer; verursacht Verzögerungen und mäßige Irritation.
3. Kritisch: Führt zum Scheitern der Aufgabe. Verursacht extreme Irritation beim Benutzer.Einblick/Vorschlag/Positiv: Die Benutzer erwähnen eine Idee oder Beobachtung, die das Gesamterlebnis verbessert oder verbessern könnte.
Zusammenfassung
Ich habe gekürzte Versionen dieser Skalen unten in die Tabelle eingefügt, um die Ähnlichkeiten in einigen Begriffen und Stufen zu zeigen. Außerdem habe ich die Skalen so ausgerichtet, dass höhere Zahlen schwerere Probleme anzeigen.
Niveau | Nielsen | Rubin | Dumas | Wilson | Molich & Jeffries | Sauro | ||
0 | Kein Problem | Anmerkung/ Anregung/ Positiv | ||||||
1 | Kosmetisch | Reizend | Subtile &Verbesserungsmöglichkeiten/ Vorschläge | Kleinere kosmetische oder Konsistenzprobleme | Klein (verzögert den Benutzer kurz) | Klein: Geringfügiges Zögern oder leichte Irritation | ||
2 | Minor | Moderate | Probleme wirken sich geringfügig auf die Benutzerfreundlichkeit aus | Minor but irritating problem | ||||
3 | Hauptproblem | Schwerwiegend | Verursacht erhebliche Verzögerungen und Frustration | Mäßiges Problem | Erheblich (verzögert den Benutzer erheblich, aber letztendlich) | Mäßig: Verursacht gelegentliches Scheitern der Aufgabe für einige Benutzer; verursacht Verzögerungen und mäßige Irritation | ||
4 | Unbrauchbar | Verhindert die Aufgabenerfüllung | Schwerwiegendes Problem | Kritisch: Führt zum Scheitern der Aufgabe. Verursacht beim Benutzer extreme Irritationen. | ||||
5 | Katastrophe | Katastrophaler Fehler | Katastrophal (verhindert, dass der Benutzer seine Aufgabe abschließt) |
Einige Lehren aus diesen Problemschweregraden:
- Machen Sie sich keine Gedanken über die richtige Anzahl von Kategorien oder Bezeichnungen: Drei Kategorien sind wahrscheinlich ausreichend, aber die Verschmelzung von Skalen mit Fehlerverfolgungsebenen oder das Vorhandensein von mehr Ebenen, um eine stärkere interne Beteiligung zu erreichen, sind beides legitime Gründe, mehr Punkte zu haben. Wenn Sie sich einmal für ein System entschieden haben, sollten Sie es beibehalten, um einen Vergleich im Laufe der Zeit zu ermöglichen.
- Es wird immer noch Meinungsverschiedenheiten zwischen den Bewertern und Beurteilungen geben: Es handelt sich um grobe Richtwerte, nicht um präzise Instrumente. Verschiedene Bewerter werden trotz der Klarheit der Schweregrade nicht übereinstimmen. Eine der besten Methoden besteht darin, mehrere Bewerter den Schweregrad unabhängig voneinander bewerten zu lassen, die Übereinstimmung zu berechnen und dann den Durchschnitt der Bewertungen zu ermitteln.
- Die den einzelnen Stufen zugewiesenen Zahlen sind etwas willkürlich: Machen Sie sich nicht zu viele Gedanken darüber, ob Probleme mit höherem Schweregrad höhere oder niedrigere Zahlen haben sollten. Ich bevorzuge Letzteres, aber die Reihenfolge ist von Bedeutung. Während die Intervalle zwischen den Schweregraden 1, 2 und 3 wahrscheinlich unterschiedlich sind, können die Ränge für zusätzliche Analysen verwendet werden, wenn verschiedene Bewerter oder die Schwere und Häufigkeit von Problemen verglichen werden.
- Vergessen Sie nicht die positiven Aspekte: Dumas, Molich & Jeffries haben einen überzeugenden Artikel über die Notwendigkeit geschrieben, positive Ergebnisse hervorzuheben. Während ein Usability-Test in der Regel dazu gedacht ist, Probleme aufzudecken, ermutigt das Verstehen der positiven Ergebnisse die Entwickler und lässt Sie oder Ihr Team nicht als ständige Überbringer schlechter Nachrichten erscheinen.
- Behandeln Sie Häufigkeit und Schweregrad getrennt: Wir geben die Häufigkeit eines Problems zusammen mit seinem Schweregrad an. Wenn möglich, lassen wir einen separaten Analysten den Schweregrad eines Problems bewerten, ohne seine Häufigkeit zu kennen – ein Thema für einen zukünftigen Blog.