Elektrotechnik und Informationstechnik Institut für Automatisierungstechnik, Professur für Prozessleittechnik Usability Engineering 3 Messmethoden der Mensch-Maschine- Systemtechnik VL MMS Wintersemester 2013/14 Professur für Prozessleittechnik L. Urbas; J. Ziegler
Ziele und Inhalt Evaluationen im Usability Engineering Einordnung, Merkmale, Ziele Anwendungskontext und Einsatzmöglichkeiten Methoden der Usability-Evaluation Klassifikation und Charakterisierung ausgewählter Methoden Anwendbarkeit und Nutzen Ausgewählte Methoden Fragebögen als Messwerkzeuge für Usability-Evaluationen Charakterisierung und Aufbau von Fragebögen Ausgewählte Fragebögen zu Usability und User Experience Probleme bei der Nutzung von Fragebögen TU Dresden MMST Urbas, Ziegler 2008-2013 Folie 2
EVALUATIONEN IM USABILITY ENGINEERING TU Dresden MMST Urbas, Ziegler 2008-2013 Folie 3
Evaluation = systematische, möglichst objektive Bewertung eines geplanten, laufenden oder abgeschlossen Projektes (Sarodnick 2006) = alle Aktivitäten und/oder Ergebnisse, die die Bedeutung, Verwendbarkeit, Wert, Wichtigkeit, Zweckmäßigkeit,... einer Sache beurteilen bzw. bewerten. (Baumgärtner 1999) = Beschreibung, Analyse und Bewertung von Evaluationsobjekten mögliche Evaluationsobjekte: Personen Umwelt- bzw. Umgebungsfaktoren Produkte Techniken und Methoden Zielvorgaben Programme/Projekte Systeme/Strukturen Forschungsergebnisse andere Evaluationen (Gediga 1996) TU Dresden MMST Urbas, Ziegler 2008-2013 Folie 4
Usability-Evaluation = Evaluation von Gebrauchstauglichkeit zentrales Instrument des Usability-Engineering Einsatz in allen Phasen des Usability-Engineering Formativ: entwicklungsbegleitend (z.b. Bewertung von Iterationsschritten) Aufzeigen von Usability-Problemen Auffinden konkreter Verbesserungsmöglichkeiten Summativ: abschließende Bewertung der Gesamtqualität globale Bewertung kein Aufzeigen konkreter Verbesserungsmöglichkeiten TU Dresden MMST Urbas, Ziegler 2008-2013 Folie 5
Evaluationsziele und -kriterien Zielklassifizierung von Evaluationen: (Gediga, Hamborg 2002) Which is better? - Vergleich von Varianten How good? - Erhebung der Ausprägung bestimmter Eigenschaften Why bad? - Usability-Probleme aufdecken Ziele 1 und 2 typisch für formative, Ziel 3 für summative Evaluation Klassifizierung von Evaluationsergebnisse: (Gediga, Hamborg 2002) Quantitativ - Numerische Daten und Ergebnisse Qualitativ - Nicht-Numerische Daten und Ergebnisse Objektiv - Direkt beobachtbare Daten Subjektiv - Meinungen, Ansichten, Darlegungen TU Dresden MMST Urbas, Ziegler 2008-2013 Folie 6
Anwendungsrahmen nach ISO 9241.11 Ziele und Kriterien festlegen Nutzungskontext identifizieren Maße der Gebrauchstauglichkeit spezifizieren TU Dresden MMST Urbas, Ziegler 2008-2013 Folie 7
METHODEN DER USABILITY-EVALUATION TU Dresden MMST Urbas, Ziegler 2008-2013 Folie 8
Kategorien der Usability-Evaluation Nicht-Empirische Methoden: überwiegend expertenorientiert Usability-Experten versetzen sich in Nutzer-Situation Empirische Methoden: geeignet für frühe Konzepte funktionale Prototypen notwendig überwiegend benutzerorientiert Beobachtung und Befragung der Nutzer Empirie: (griech.: embiría - die Erfahrung) auf methodischem Weg gewonnene Erfahrung ggf. gezieltes Induzieren von Beobachtungen durch Experimente Sammeln von Informationen/Daten durch gezielte Beobachtung Objektivität und Wiederholbarkeit der Beobachtungen TU Dresden MMST Urbas, Ziegler 2008-2013 Folie 9
Ausgewählte Methoden Nicht-Empirische Methoden: Inspektionsmethoden Empirische Methoden: Usability Tests Heuristische Evaluation Cognitive Walkthrough Formal-Analytische Methoden GOMS-Modelle Expertenleitfäden Lautes Denken Video-Observation Fokusgruppen Logfile-Analysen Standardisierte Befragungen (Fragebögen) Überprüfung nach Standards, Richtlinien, Guidelines TU Dresden MMST Urbas, Ziegler 2008-2013 Folie 10
Heuristische Evaluation Ziel: Aufdecken und Identifizieren möglicher Usability- Probleme bei möglichst geringem Aufwand wenige Usability-Experten prüfen System auf Verstöße gegen eine Heuristik Verstoß = potentielles Usability-Problem Heuristik erlaubt Problemklassifikation und Folgenabschätzung 3 bis 5 Experten können ca. 75% der Usability-Probleme finden (Nielsen 1993) Problem: u.u. ist komplexes Domänenwissen nötig Heuristik: Ausdruck erwünschter Interaktionseigenschaften zwischen Nutzer und System TU Dresden MMST Urbas, Ziegler 2008-2013 Folie 11
Heuristische Prinzipien nach Nielsen 1. Sichtbarkeit des Systemstatus 2. Übereinstimmung zwischen System und realer Welt 3. Benutzerkontrolle und Freiheit 4. Konsistenz und Standards 5. Fehler vermeiden 6. Erkennen vor Erinnern 7. Flexibilität und effiziente Nutzung 8. Ästhetisches und minimalistisches Design 9. Unterstützung beim Erkennen, Verstehen und Bearbeiten von Fehlern 10. Hilfe und Dokumentation (Nielsen 1994) TU Dresden MMST Urbas, Ziegler 2008-2013 Folie 12
Cognitive Walkthrough (CWT) Ziel: Sicherstellen, dass unerfahrenen Nutzern schneller Wissenserwerb durch Exploration des Systems möglich ist Durchführung: Zerlegung von Aufgaben in idealtypische Handlungsabfolgen kritische Analyse durch Usability-Experten nach 4 Leitfragen: 1. Wird der Nutzer versuchen, den gewünschten Effekt zu erzielen? 2. Wird der Nutzer erkennen, dass die korrekte (also notwendige) Handlung ausgeführt werden kann? 3. Wird der Nutzer erkennen, dass die korrekte Handlung zum gewünschten Effekt führen wird? 4. Wird der Nutzer den Fortschritt erkennen, wenn er die korrekte Handlung ausgeführt hat? Erfassen von Misserfolgen Lösungsfindung TU Dresden MMST Urbas, Ziegler 2008-2013 Folie 13
Cognitive Walkthrough (CWT) Mögliche Ergebnisse: Das System ist nicht explorativ erlernbar Ungünstige Benennungen von Bedienelementen Diskrepanz im Aufgabenkonzept zwischen Nutzer und Entwickler Inadäquates System-Feedback Voraussetzungen: Screenshots oder Mock-Ups Keine Versuchspersonen, keine lauffähigen Prototypen TU Dresden MMST Urbas, Ziegler 2008-2013 Folie 14
Lautes Denken Testpersonen interagieren mit dem Produkt, während sie alles was sie denken und tun laut aussprechen Vorteile: Benutzer teilen mit, was sie warum tun, während sie es tun (keine Rationalisierung möglich) einfache Durchführung Nachteile: Doppelbelastung: Aufgabe + lautes Denken keine (quantitative) Performance-Messung möglich TU Dresden MMST Urbas, Ziegler 2008-2013 Folie 15
Video-Observation / Feedback Video-Observation: Aufzeichnen wie Versuchsperson mit Produkt interagiert und anschließende Analyse Video-Feedback (auch Confrontation): Kombination aus Video-Observation und retrospektivem Laut-Denken TU Dresden MMST Urbas, Ziegler 2008-2013 Folie 16
Video-Observation / Feedback Vorteile: detaillierte Handlungsanalysen möglich Wiederholung verpasster oder zu schneller Sequenzen möglich nachträgliche Zeitmessungen möglich Nachteile: Auswertung sehr zeitaufwendig hoher apparativer Aufwand keine Einblick in Denkweise des Nutzers TU Dresden MMST Urbas, Ziegler 2008-2013 Folie 17
Usability-Tests Empirischer Test mit echten Benutzern in kontrollierten Situationen (meist Laborsituationen) Vorteile: umfangreiche qualitative Daten, die zeigen, wie echte Benutzer ein Produkt handhaben Erhebung quantitativer Daten möglich Nachteile: Tests finden zumeist in Laborsituation statt (Übertragbarkeit?) viel Ausrüstung und Organisationsaufwand notwendig, um Tests durchzuführen Wird ausführlich in der kommenden VL behandelt. TU Dresden MMST Urbas, Ziegler 2008-2013 Folie 18
Weitere Usability Test-Methoden Plus-Minus-Methode: Die Testpersonen interagieren mit dem Produkt Bewerten bestimmter Eigenschaften ihrer Wahl Fokusgruppe: Moderierte Diskussion mit Teilnehmern über vorgegebene Fragen zu einem Produkt und bewerten bestimmter Eigenschaften oder Funktionen Geeignet für Akzeptanztests von Produkten / Funktionen Pfadanalyse / Logfile-Analyse: Aufzeichnung und Auswertung objektiv messbarer Kriterien direkt während der Programmausführung TU Dresden MMST Urbas, Ziegler 2008-2013 Folie 19
FRAGEBÖGEN ALS MESSWERKZEUGE FÜR USABILITY- EVALUATIONEN TU Dresden MMST Urbas, Ziegler 2008-2013 Folie 20
Fragebögen Ziel: Quantitative Messung subjektiver Nutzer-Aussagen Gütekriterien: Validität (Empirische Gültigkeit) Reliabilität (formale Zuverlässigkeit) Objektivität (Kontextunabhängigkeit) Auswertung: meist statistische Verfahren Vorsicht: Ergänzen, Verändern oder Löschen einzelner Items häufig kritisch (gilt insb. auch für Übersetzungen!) Häufig unzulässig, oder Auswertung nur mit bestimmten Verfahren (die geringere Teststärke besitzen) zulässig TU Dresden MMST Urbas, Ziegler 2008-2013 Folie 21
Aufbau von Fragebögen Items = Fragen/Aussagen Offene Fragen (z.b. Wie ist Ihr Beruf?) Geschlossene Fragen (ja/nein-fragen, ggf. weiß nicht) Eingruppierungsfragen Summenfragen Antworten Multiple Choice (einschl. ja/nein) Rating-Skalen (stimmt wenig, stimmt, stimmt sehr) Rangordnung Freitexte Zusätzlich: Einfach-/Mehrfachauswahl, Ergänzungsoptionen Subskalen (auch: Dimensionen) = Unterthemen z.b.: 7 Gestaltungsanforderungen gem. ISO 9241-110 TU Dresden MMST Urbas, Ziegler 2008-2013 Folie 22
Probleme bei der Entwicklung von FB Entwicklung ist aufwendig, denn Validität, Reliabilität und Objektivität müssen gesichert sein Entwurf am besten durch Experten deshalb: Rückgriff auf Standard-Fragebögen (falls möglich) Orientierung an EN ISO 9241-110: IsoMetrics-Fragebogen ISONORM-Fragebogen Software Usability Measurement Inventory (SUMI) Questionnaire for User Interface Satisfaction (QUIS) AttrakDiff, mecue TU Dresden MMST Urbas, Ziegler 2008-2013 Folie 23
Der SUS-Fragebogen Ziele Kostengünstige allgemeine Bewertung der Gebrauchstauglichkeit eines Systems Vergleichende Bewertung vergleichbarer Systeme sowie verschiedener Versionen desselben Systems Aufbau 10-Items Fragebogen (orig. Englisch, deutsche Übersetzung) 5-Punkte Likert-Skala mit alternierender Polarität Ergebnis: globaler SU-Score zwischen 0 und 100 Nutzung nach der Nutzung des Systems vor dem Debriefing Unmittelbare Beantwortung (nicht lange nachdenken) TU Dresden MMST Urbas, Ziegler 2008-2013 Folie 24
TU Dresden MMST Urbas, Ziegler 2008-2013 Folie 25
Der SUS-Fragebogen Auswertung: 1. Für ungerade Fragen: u = (Item-Score (2n-1) 1);n = 1-5 2. Für gerade Fragen: g = (5 Item-Score (2n) ); n = 1-5 3. SU score: S = (u + g) * 2,5 S zwischen 0 (negativ) und 100 (positiv) Vergleiche erfolgen anhand dieser Metrik ACHTUNG: Die Scores der einzelnen Items sind für sich nicht aussagekräftig! Anmerkungen: Bangor & May (2009) schlagen einen SUS mit geringfügigen Änderungen der Terminologie vor (verbesserte Verständlichkeit) verschiedene deutsche Übersetzungen verfügbar (z.b. von Seibert-Media) TU Dresden MMST Urbas, Ziegler 2008-2013 Folie 26
[nach Brooke, 1996] 5 1 = 4 5 4 = 1 2 1 = 1 5 1 = 4 2 1 = 1 5 3 = 2 2 1 = 1 5 4 = 1 5 1 = 4 5 2 = 3 22 * 2,5 = 55 TU Dresden MMST Urbas, Ziegler 2008-2013 Folie 27
Der SUS-Fragebogen Was bedeutet der SUS Score? Bangor Adjective Scale Zuordnung von beschreibenden Adjektiven zu Wertebereichen Erlaubt absolute (nicht vergleichende) Bewertung von Systemen TU Dresden MMST Urbas, Ziegler 2008-2013 Folie 28
Der IsoMetrics-Fragebogen Ziele Aufbau Detaillierte formative (IsoMetrics L ) oder summative (Isometrics S ) Evaluation der GT von Software 75 Items in 7 Dimensionen (entspr. DIN EN ISO 9241-(1)10) Verkürzung durch Weglassen ganzer Dimensionen möglich 5-stufige Skala (stimmt nicht bis stimmt sehr) & keine Meinung In IsoMetrics L zusätzlich Skala zur Einschätzung der Bedeutsamkeit des Items für den Gesamteindruck Freitextfeld für konkrete Beispiele für Nichtzustimmung (pos. Polarität) bzw. Zustimmung (neg. Polarität) TU Dresden MMST Urbas, Ziegler 2008-2013 Folie 29
Der IsoMetrics-Fragebogen Nutzung nach der Nutzung des Systems, einzeln oder in Gruppen Aufwand pro Evaluator (zzgl. Vorbereitung und Auswertung): Isometrics S : 0,5 1 Stunde Isometrics L : 2 4 Stunden Empfohlene Stichprobengröße: Isometrics S : mind. 50 Personen (für mittlere Effektstärke) Isometrics L : mind. 8 20 Personen (für hohe Effektstärke) Richtwerte zur Anzahl der Items: TU Dresden MMST Urbas, Ziegler 2008-2013 Folie 30
IsoMetrics S (short) IsoMetrics L (long) TU Dresden MMST Urbas, Ziegler 2008-2013 Folie 31
Der IsoMetrics Auswertung summativ: 1. Personen mit mehr als 20% keine Meinung ausschließen 2. Alle keine Meinung durch mittlere Kategorie ersetzen* 3. Berechnung arithmet. Mittel der Ratings pro Skala pro Person Ratings der negativ formulierten Items: r i = 6 r i Anzahl von Items pro Dimension und negativ gepolte Items: *ändert die psychometrischen Eigenschaften nicht TU Dresden MMST Urbas, Ziegler 2008-2013 Folie 32
Der IsoMetrics Auswertung formativ: 1. Mittleres Rating berechnen wie bei IsoMetricsS 2. Freitextbemerkungen sammeln, nach Ähnlichkeit ordnen und mit Herkunftsitem und angegebener Relevanz notieren 3. Redundante Bemerkungen zusammenfassen 4. Priorisieren anhand mittlerer Relevanz und Nennungshäufigkeit Kategorie A(W): mittleres Gewicht < 3, sonst Kategorie B(W) Kategorie A(F): Nennung durch mind. 25% der Evaluatoren, sonst B(F) Priorität 1: Problem verursachte Arbeitsunterbrechung Priorität 2: Zuweisung zu A(W) und A(F) Priorität 3: Zuweisung zu A(W) und B(F) oder B(W) und A(F) Priorität 4: Zuweisung zu B(W) und B(F) 5. Darstellung mittels Metaplan-Technik 6. Auswertung im Usability-Review Priorisierter Aktionsplan TU Dresden MMST Urbas, Ziegler 2008-2013 Folie 33
Der AttrakDiff2-Fragebogen Ziel Erfassung User Experience-relevanter Produktwahrnehmungen und Bewertungen Aufbau Semantisches Differenzial mit 28 bipolaren, 7-stufigen Items Endpunkte bilden zwei gegensätzliche Adjektive Items sind zusammengefasst in 4 Skalen: Pragmatische Qualität (PQ) Hedonische Qualität Stimulation (HQS) Hedonische Qualität Identität (HQI) Attraktivität (ATT) Mittelwerte der Itemgruppen bilden den jeweiligen Skalenwert TU Dresden MMST Urbas, Ziegler 2008-2013 Folie 34
[www.attrakdiff.de] Der AttrakDiff2-Fragebogen Auswertung: 3 graphische Darstellungen: 1. Portfolio 2. Diagramm der Skalenmittelwerte 3. Attributprofil [Hassenzahl u.a., 2008] TU Dresden MMST Urbas, Ziegler 2008-2013 Folie 35
Der mecue-fragebogen Ziele Mehrdimensionale Erfassung des Nutzererlebens (User Experience) Aufbau Modularer Aufbau nach dem CUE-Modell [Thüring&Mahlke, 2007] 7-stufiges Likert skaliertes Antwortformat Antworten mit einheitlicher Polarität [www.mecue.de] TU Dresden MMST Urbas, Ziegler 2008-2013 Folie 36
Der mecue-fragebogen[www.mecue.de] Modul 2 (Ausschnitt) Modul 3 Modul 4 TU Dresden MMST Urbas, Ziegler 2008-2013 Folie 37
Der mecue-fragebogen Nutzung nach der Nutzung des Systems Unmittelbare Beantwortung (nicht lange nachdenken) Auswertung: 1. M1-M3: Angaben die Werte 1 bis 7 zuordnen (1 = lehne völlig ab) M4: Angabe einen Wert 5 bis 5 zuordnen (Schrittweite 0,5) 2. Arithmetisches Mittel der Itemwerte eines Moduls bilden Anmerkungen: Aufbau streng wissenschaftlich und theoriegeleitet Alle vier Module einzeln validiert (und damit einzeln nutzbar) Validiert anhand AttrakDiff, UEQ u.a. TU Dresden MMST Urbas, Ziegler 2008-2013 Folie 38
Weitere Fragebögen Post-Study Questionnaires: CSUQ, QUIS, SUMI, ISONORM, UMUX, PSSUQ, UEQ, NASA-TLX Post-Task Questionnaires: ASQ, SEQ, SMEQ, UME Auswahl ist schwierig und teilweise eine Glaubensfrage. Orientierung geben können: Häufigkeit und Dauer der Nutzung, insb. in wissensch. Artikeln Qualität, Umfang und wissenschaftliche Höhe der Dokumentation (insb. auch der Konstruktion und Validierung) Komplexität und Umfang der Verwendung Akzeptanz beim Zielpublikum TU Dresden MMST Urbas, Ziegler 2008-2013 Folie 39
Probleme bei der Nutzung von FB Unterschiedliche Interpretation von Fragen und Antwortmöglichkeiten Antworttendenzen methodische Reaktivität Systematische Fehleinschätzung Tendenz zur Mitte Antworten sind subjektiv und selbstreflexiv Proband bewertet anhand einer beschränkten, individuell geprägten Erfahrungswelt Proband rationalisiert sein Verhalten Proband differenziert nicht nach den vorgesehenen Kriterien, sondern beurteilt den Gesamteindruck (Halo-Effekt) TU Dresden MMST Urbas, Ziegler 2008-2013 Folie 40
Zusammenfassung Evaluation = systematische, möglichst objektive Bewertung eines geplanten, laufenden oder abgeschlossen Projektes zentrales Instrument in allen Phasen des Usability-Engineering Fragestellungen: How good? / Which is better? / Why bad? Empirische und nichtempirische Methoden E: Usability Tests und Befragungen NE: Inspektionsmethoden und formal-analytische Methoden Fragebögen dienen der quantitativen Messung subjektiver Nutzer- Aussagen müssen hinreichend valide, reliabel und objektiv sein aufwändig in der Entwicklung, daher Rückgriff auf Standard-FB, z.b. SUS, IsoMetrics, AttrakDiff, mecue erfordern sorgfältige Nutzung und Auswertung, um Artefakte zu vermeiden TU Dresden MMST Urbas, Ziegler 2008-2013 Folie 41
Literatur Baumgärtner, Peter (1999): Evaluation mediengestütztes Lernens : Theorie - Logik - Modelle. In: Kindt, Michael [Hrsg.]: Projektevaluation in der Lehre : Multimedia an Hochschulen zeigt Profil(e). Münster [u.a.], Waxmann. Sarodnick, F. und Brau, H. (2006): Methoden der Usability Evaluation, Wissenschaftliche Grundlagen und praktische Anwendung. Hans Huber Verlag. Nielsen, Jakob (1993): Usability Engineering. In: Wickens, C.D., Lee, J.D., Liu, Yili, Becker, S.E.G.(2004): An Introduction to Human Factors Engineering. Second Edition. Pearson Prentice Hall, Upper Saddle River. Rubin, J.; Chisnell, D. und Spool, J. (2008): Handbook of Usability Testing: Howto Plan, Design, and Conduct Effective Tests. Second Edition. John Wiley & Sons. TU Dresden MMST Urbas, Ziegler 2008-2013 Folie 42
Literatur Bangor, A.; Miller, J. und Kortum, P. (2009): Determining What Individual SUS Scores Mean: Adding an Adjective Rating Scale, In: Journal of Usability Studies, Vol. 4(3), S. 114 123. Brooke, J. (1996): SUS: A quick and dirty usability scale, In: Usability Evaluation in Industry. London, Taylor and Francis, S. 189 194. Gediga, G.; Hamborg, K.C. und Willumeit, H. (2000): Das IsoMetrics- Handbuch. Universität Osnabrück. Hassenzahl, M., Burmester, M. und Koller, F. (2008): Der User Experience (UX) auf der Spur: Zum Einsatz von www. attrakdiff. de. Usability Professionals. Minge, M. und Riedel, L. (2013): mecue Ein modularer Fragebogen zur Erfassung des Nutzungserlebens. In: Computer, 8, 11. Thüring, M. und Mahlke, S. (2007): Usability, aesthetics and emotions in human technology interaction. International Journal of Psychology, 42(4). TU Dresden MMST Urbas, Ziegler 2008-2013 Folie 43