Aspekte der Gültigkeit G Ergebnisse eines Experiments

Transkript

1 Aspekte der Gültigkeit G der Ergebnisse eines Experiments und deren Bedrohungen von Philipp Kleybolte und Deniz Bakirtan

2 Gliederung Einordnung der Validierungen Die 4 Arten von Gültigkeiten Schlussfolgerungs-Gültigkeit (Conclusion Validity) Interne Gültigkeit (Internal Validity) Konstruktions-Gültigkeit (Construct Validity) Externe Gültigkeit (External Validity) Bedrohungen zu den Gültigkeitsarten Mögliche Priorisierungen Zusammenfassung Threats to Validity

3 Einordnung der Validierungen Abbildung entnommen aus [C. Wohlin, P. Runeson, M. Höst, M. C. Ohlsson, B. Regnell, A. Wesslén (2000). Experimentation in software engineering: an introduction. Kluwer Academic Publishers] 1) Schlussfolgerungs-Gültigkeit 2) Interne Gültigkeit 3) Konstruktions-Gültigkeit 4) Externe Gültigkeit Threats to Validity

4 Schlussfolgerungs-Gültigkeit ltigkeit Es muss sichergestellt sein, dass die Schlussfolgerung gilt und nicht nur auf Zufallsergebnissen beruht Statistisch relevanter Ausschlag der Messgrößen Bestätigung der Ergebnisse durch andere Experimente Threats to Validity

5 Interne GültigkeitG Das Ergebnis ist durch eine kausale Beziehung mit den Faktoren entstanden Das Ergebnis ist nicht zurückzuführen auf Eingangsgrößen, die nicht gemessen oder nicht kontrollierbar sind Threats to Validity

6 Konstruktions-Gültigkeit Ausprägungen der Faktoren müssen geeignet gewählt werden, um die Theorie eindeutig zu bestätigen oder zu widerlegen Genaue Definition der Fragestellung nötig Threats to Validity

7 Externe GültigkeitG Das Ergebnis kann verallgemeinert bzw. auf andere Szenarien übertragen werden Kann das Ergebnis eines studentischen Projekts auf die Wirtschaft übertragen werden? Kann das Ergebnis aus Firma A auf Firma B übertragen werden? Threats to Validity

8 Bedrohungen für f r die Schlussfolgerungs-Gültigkeit ltigkeit Niedrige Statistische Aussagekraft Das Ergebnis eines Experiments kann Zufall sein. Bestätigung durch weitere Experimente mit gleichen Faktoren Geringer Ausschlag der Messwerte. Verbesserung nur um 2% hat wenig Aussagekraft Falsche Grundannahmen Suche nach Bestätigung Unterbewusst wird nur nach Bestätigungen der Theorie gesucht, und Widersprüche übersehen Bsp. Durch eine neue Methode werden viel mehr Fehler gefunden, es wird aber übersehen, dass viele Fehler erst durch die neue Methode entstehen Threats to Validity

9 Bedrohungen für f r die Schlussfolgerungs-Gültigkeit ltigkeit Fehlende Verlässlichkeit der Messwerte Eindeutigkeit. Wird ein Zustand zweimal gemessen, so muss das Ergebnis gleich sein Objektivität: Lines of Code statt subjektiver Beurteilung der Mächtigkeit einer Funktion Fehlende Korrektheit der Ausprägungen Soll eine Ausprägung gemessen werde, so muss überprüft werden, dass sie korrekt ausgeführt wird. Personal muss geschult werden um eine Praktik korrekt anzuwenden, bevor man die Auswirkungen davon messen kann Bsp. Die Auswirkungen von Test-First sollen getestet werden, doch es wird nicht angewendet, weil es nicht kontrolliert wird Threats to Validity

10 Bedrohungen für f r die Schlussfolgerungs-Gültigkeit ltigkeit Abhängigkeit von äußeren Einflüssen Bsp. Instabile Versionsverwaltung verzögert das Projekt Unterbrechungen des Experiments Heterogenität der Subjekte (Personal) Ist das Personal in den Gruppen zu unterschiedlich, lassen die Ergebnisse des Experiments keine Schlussfolgerungen zu Bsp. Erfahrene Entwickler in der Kontroll-Gruppe und Anfänger in der Test-Gruppe für eine neue Methode Threats to Validity

11 Bedrohungen für f r die Interne GültigkeitG Drei Arten von Bedrohungen für die interne Gültigkeit Bedrohungen für einzelne Gruppen Treten für jede Gruppe einzeln auf Bedrohungen für mehrere Gruppe Entstehen nur, wenn mehrere Gruppen getestet werden Soziale Bedrohungen Entstehen durch soziale Reaktionen der getesteten Personen Zwischen mehreren Gruppen Threats to Validity

12 Bedrohungen für f r einzelne Gruppen Reife Das Personal wird durch Lernen besser Das Personal kann durch Müdigkeit oder Demotivation schlechter werden Bsp. Eine Gruppe testet ständig neue Entwicklungsmethoden, erzeugt aber kaum funktionsfähige Software sinkende Motivation und Produktivität Extremfall: Eine Softwarekomponente wird nacheinander auf zwei Arten entwickelt Das zweite Experiment wird schneller und besser verlaufen Threats to Validity

13 Bedrohungen für f r einzelne Gruppen Testen Werden Tests wiederholt ausgeführt, lernen die Teilnehmer den Test besser zu bestehen Bsp. Fragebogen: Wer das System hinter der Auswertung versteht, wird deutlich bessere Ergebnisse erzielen Ergebnisse dürfen daher auf keinen Fall an die Teilnehmer zurückgeführt werden, wenn der Test erneut mit ihnen durchgeführt werden soll Geschichte Werden Experimente zu unterschiedlichen Zeitpunkten durchgeführt, können unterschiedliche Umstände das Ergebnis verfälschen Bsp. Der Tag nach den Betriebsferien ist deutlich produktiver als der Tag nach der Weihnachtsfeier Threats to Validity

14 Bedrohungen für f r einzelne Gruppen Ungewissheit über Richtung der Abhängigkeiten A B oder B A oder sogar X A, B Aus der Komplexität des Codes folgt die Fehlerrate? Aus der Fehlerrate folgt die Komplexität des Codes? Aus Komplexität des mit Software zu lösenden Problems folgen sowohl die Komplexität des Codes als auch die Fehlerrate Threats to Validity

15 Bedrohungen für f r mehrere Gruppen Gruppen reagieren unterschiedliche auf äußere Einflüsse Bsp. Baulärm setzt die Produktivität einer Gruppe stark herab, während die andere sich nicht gestört fühlt Vergleich: Bedrohung Geschichte Gruppen lernen unterschiedlich schnell Vergleich: Bedrohung Reife Threats to Validity

16 Soziale Bedrohungen Beispiel: Eine neue Entwicklungsmethode soll getestet werden Rivalität Die Gruppen wollen besser sein als die jeweils andere Kontrollgruppe will zeigen, dass alte Methoden konkurrenzfähig sind Mehr Einsatz und verbessertes Ergebnis durch die zusätzliche Motivation Threats to Validity

17 Soziale Bedrohungen Demotivation Kontrollgruppe ist demoralisiert, weil sie die langweilige alte Methode verwenden, während die andere die spannende neue Methode lernt Testgruppe lehnt neu Methode ab Imitation Die Arbeitsweise der Kontrollgruppe wird durch die der Experimentiergruppe beeinflusst Neue Praktiken werden durch die Kontrollgruppe übernommen um das eigene Ergebnis zu verbessern Threats to Validity

18 Bedrohungen für f r die Konstruktions-Gültigkeit Die Konstruktions-Gültigkeit setzt sich mit der Validierung der Resultate des Experiments bzgl. des dahinter stehenden Konzepts (Theorie: cause/effect construct) auseinander Bedrohungen für die Konstruktions-Gültigkeit beziehen sich auf: 1. den Entwurf (Design) des Experimentes Abbildung der Theorie auf geeignete Ausprägungen der Faktoren (treatments) 2. Soziale Bedrohungen Verhalten von Subjekten Threats to Validity

19 Entwurfs-Bedrohungen in der Konstruktions-Gültigkeit Unangemessene Definition des Problems die Theorie ist nicht genau genug formuliert -> Ableiten von Metriken zum Messen und die Ausprägung der Faktoren werden unzureichend beeinflusst Bsp. Zwei Methoden zur Inspektion werden verglichen Man möchte herausfinden welche Methode besser ist! Es ist noch zu klären, was dies genau bedeutet: Fehler insgesamt? Fehler pro Stunde? Threats to Validity

20 Entwurfs-Bedrohungen in der Konstruktions-Gültigkeit Mono Operations-Beeinflussung Verwenden von nur einer einzigen unabhängigen Variable Folge: Repräsentation der Theorie nicht gewährleistet Bsp. Ein Inspektionsexperiment wird nur mit einem Dokument als Objekt durchgeführt -> nicht aussagekräftig genug Threats to Validity

21 Entwurfs-Bedrohungen in der Konstruktions-Gültigkeit Mono Methoden-Verzerrung Wird nur eine Messvariante verwendet, so wird das Risiko des Fehlschlagens des Experimentes erhöht Bsp. Gemessen wird die Anzahl an Fehlern in einem Inspektionsexperiment, wobei die Klassifizierung des Fehlers subjektiv beurteilt wird Folge: Beziehung zw. Ursache und Wirkung wird nicht klar Benutzt man stattdessen unterschiedliche Messarten, so kann man diese Gegeneinander gewichten (crosschecking) -> bessere Aussagekraft Threats to Validity

22 Entwurfs-Bedrohungen in der Konstruktions-Gültigkeit Wechselwirkung von verschiedenen Ausprägungen Ist ein Subjekt in mehr als nur eine Studie involviert, so kann es dazu führen, dass sich die Ausprägungen der Faktoren gegenseitig beeinflussen Wechselwirkung zw. dem Testen und der Ausprägung der Faktoren Beim Testen selbst, sprich der Anwendung der Ausprägungen, sind die Subjekte möglicherweise empfänglicher für diese, da so das Testen für sich genommen ein Teil der Ausprägungen ausmacht Bsp. Messen von Bugs im Code -> Subjekte sind aufmerksamer und Reduzierungsbewusster beim eigenen Programmieren Threats to Validity

23 Soziale Bedrohungen in der Konstruktions-Gültigkeit Annahmen raten Subjekte (Personen) versuchen zumal das Experiment auf das Ziel hin zu hinterfragen und stützen sich dann auf Ihre Vermutung in Ihrem Handeln Dadurch beeinflussen diese dann das Experiment, je nach der persönlichen Einstellung zu der Hypothese Evaluierungsangst Subjekte neigen dazu sich bei einer Evaluierung besser darzustellen und weisen dabei einen großen Abweichungsgrad auf -> Outcome wird verfälscht Threats to Validity

24 Soziale Bedrohungen in der Konstruktions-Gültigkeit Experimentatoren Erwartungen die Subjekte die das Experiment durchführen können dessen Ergebnisse bewusst oder unbewusst beeinflussen Reduzierung dieser Gefahr, durch einbinden von Subjekten mit geringen oder am besten keinen Erwartungen an das Experiment Bsp. Fragen können in unterschiedlichen Variationen erstellt werden, so dass man die gewünschten Antworten erhält Threats to Validity

25 Bedrohung für f r die Externe GültigkeitG Idee Externe Gültigkeit: Ist die untersuchte kausale Beziehung zwischen cause und effect auf andere Szenarien/ Projekte verallgemeinerbar? Wechselwirkung von Selektion und Ausprägung Auswirkung von Auswahl von nicht repräsentativen Subjekten, die eine Verallgemeinerung behindern Bsp. In einem Experiment werden nur Programmierer ausgewählt um einige Dokumente zu inspizieren, anstatt weitere Subjekte verschiedener Domänen hinzu zu nehmen (z.b. Tester) Threats to Validity

26 Bedrohung für f r die Externe GültigkeitG Wechselwirkung von Experimentierumgebung und Ausprägungen Fehlen der neuesten Mittel (z.b. HW) bzw. der Umgebung, die z.b. in der Industrie Anwendung finden -> daher bedingte Übertragung auf andere Szenarien Wechselwirkung von Zeit und Ausprägungen der Zeitpunkt eines Experiments wirkt sich entsprechend auf die Resultate aus Bsp. Wird ein Fragebogen zu einem sicherheitskritischem System ein paar Tage nach einem Absturz ausgefüllt, wären die Antworten sicherlich unterschiedlich, als wie zu einem anderen Zeitpunkt vor oder Monate nach dem Ereignis Threats to Validity

27 Wichtigkeit der GültigkeitsartenG Jede der vier Formen von Gültigkeit in hohem Maß zu erreichen ist schwer Mit Studenten positiv : Große und viele Gruppen möglich Homogene Fähigkeiten Ausprägung lässt sich präzise lehren und dann testen Daher hohe Sicherheit für Schlussfolgerungen und interne Gültigkeit Aber man kann nicht gut von Studenten auf Software-Firmen schließen Threats to Validity

28 Wichtigkeit der GültigkeitsartenG Viele Messungen erhöhen die Konstruktions-Gültigkeit aber sie kosten Zeit und halten Personal von der Arbeit die gemessen wird ab Die Gültigkeit der Schlussfolgerung sinkt Threats to Validity

29 Priorisieren der GültigkeitenG Für unterschiedliche Anwendungen sind die Gültigkeiten unterschiedlich wichtig Um eine Theorie zu bestätigen ist es wichtig, dass die Ergebnisse von den Faktoren abhängen und nicht von Störungen (interne) und die Messergebnisse korrekt sind (Konstruktion) Die externe Gültigkeit ist vernachlässigbar Intern > Konstruktion > Schlussfolgerung > extern Threats to Validity

30 Priorisieren der GültigkeitenG Auch für Firmen ist es wichtig das die Ergebnisse von den Faktoren abhängen und nicht von Störungen (interne) Die Ergebnisse sollen auf andere Abteilungen übertragbar sein (externe) Von welchem Faktor genau das Ergebnis abhängt ist nicht so wichtig (Konstruktion) Statistische Relevanz ist beinah vernachlässigbar (Schlussfolgerung) intern > extern > Konstruktion > Schlussfolgerung Threats to Validity

31 Zusammenfassung Schlussfolgerungs-Gültigkeit Signifikanter Ausschlag der Messgrößen Interne Gültigkeit kausaler Zusammenhang zwischen abhängigen und unabhängigen Variabeln Konstruktions-Gültigkeit Stimmt Theorie mit dem Beobachteten überein Externe Gültigkeit Übertragbarkeit der Resultate Es geht nicht alles gleichzeitig Unterschiedliche Prioritäten für Firmen und Forschung Threats to Validity