Empirische Softwaretechnik

Empirische Softwaretechnik Prof. Dr. Walter F. Tichy Dr. Matthias Müller Sommersemester 2006 1

Zweiter Teil (Fortsetzung) Wichtige empirische Forschungsmethoden im Überblick 2

Empirische Forschungsmethoden Fallstudie Feldexperiment Experiment Umfrage Metastudie 3

Wissenschaftliches Experiment Erfahrungswissenschaftliche Methode, um angenommenes Gesetzmäßigkeiten (Hypothesen) in der Realität durch Beobachtung zu überprüfen. (Das Wort Experiment kommt vom Lateinischen experimentum Versuch, Beweis, Prüfung, Probe ) Im Experiment wird durch planmäßiges Beobachten eines Sachverhaltes [ ] und dessen Veränderung unter kontrollierten, [ ] wiederholbaren Bedingungen eine Hypothese bestätigt oder widerlegt. (Quelle: Microsoft Encarta Online-Enzyklopädie) Wichtig hier: planmäßige Manipulation von Variablen (den sog. unabhängigen Variablen) Objektive Beobachtung der abhängigen Variablen Weitere unabhängige Variablen, die die abhängigen Variablen beeinflussen können, werden kontrolliert, d.h. konstant gehalten oder in ihrer Wirkung neutralisiert Kausalität (Ursache-Wirkung-Beziehung) ist beobachtbar Wiederholbarkeit (dadurch werden Beobachtungen überprüfbar). 4

Kontrolliertes Experiment Ein wiss. Experiment, in dem die Beobachtungen aus einem Experiment verglichen werden mit den Beobachtungen aus einem zweiten Experiment, in dem alle Bedingungen identisch sind, außer der einen Variablen, deren Einfluss getestet wird. Beispiel: Test eines Medikamentes: Die Versuchs- oder Experimentgruppe erhält das zu testende Medikament, eine zweite Gruppe, die sog. Kontrollgruppe, erhält kein Medikament oder Kontrollgruppe erhält einen Placebo, damit kein Teilnehmer weiß, was er erhält (einfach blinder Versuch). Von einem doppelt blinden Versuch spricht man, wenn auch der Experimentator während des Versuchs nicht weiß, wer Medikament und wer Placebo erhalten hat. Übung: angenommen, wir führen einen Versuch zum Vergleich zweier Programmiersprachen, z.b. Java vs. C#, durch. Was sind die unabhängigen Variablen? Was sind mögliche Störvariablen? Wie können sie kontrolliert werden? Ist ein blinder Versuch möglich? Kann/soll der Experimentator im Unklaren gelassen werden über die Zuordnung der Subjekte zu Programmiersprachen? 5

Und was ist Falsifikation? Falsifikation ist die Widerlegung von Hypothesen oder Theorien durch empirische Aussagen (Beobachtung, Experiment) Karl Popper: Universelle Hypothesen sind empirisch widerlegbar, aber nicht verifizierbar Alle Schwäne sind weiß kann als vorläufige Hypothese akzeptiert werden, bis der erste nicht-weiße Schwan beobachtet wird. Je länger eine (falsifizierbare) Hypothese Falsifikationsversuchen widersteht, als desto belastbarer wird sie angesehen. Beispiel: Newtons Theorie wurde falsifiziert; Einsteins Relativitätstheorie noch nicht. 6

Beispiel: Kontrolliertes Experiment über Test-Zuerst Müller u. Hagner: Experiment about test-first programming untersucht den Einfluß von "Test-Zuerst" auf die Entwicklungsdauer und die Korrektheit von Programmen IEEE Proceedings on Software Engineering 149:5 (2002) 131-136 7

Teilnehmer Studenten des XP Praktikums 2001 ( Subjekte ) Programmiererfahrung reicht von Anfänger bis vergleichbar mit Profi 8

Aufgabe Entwicklung der Hauptklasse einer Graphenbibliothek Gerichtete/ungerichtete Kanten Gewichtete/ungewichtete Kanten Operationen zum Hinzufügen/Löschen von Knoten und Kanten Methodensignaturen vorgegeben Sprache: Java 9

Variablen Testtechnik als unabhängige Variable (mit Test-Zuerst versus beliebig) Entwicklungsdauer und Programmkorrektheit vor Akzeptanztest als abhängige Variablen Aufgabenstellung kontrolliert abschließende Programmkorrektheit ebenfalls kontrolliert (durch Akzeptanztest) 10

Experimententwurf Experimentgruppe: entwickelt mit Test-Zuerst benutzt junit zur Testautomatisierung Kontrollgruppe: testet nach Belieben benutzt junit zur Testautomatisierung Teilnehmer zufällig den Gruppen zugeordnet ( randomisiert ) 11

Ablauf Implementierung: Teilnehmer entscheiden selbständig, ob Programm fertig oder nicht Qualitätssicherung (QS): automatischer Akzeptanztest Vorgabe: 100% der Testfälle erfolgreich Teilnehmer korrigieren Fehler, bis Vorgabe erfüllt 12

Tests auf Korrektheit Akzeptanztest der Qualitätssicherung 20 Testfälle erwartetes Programmverhalten wird überprüft (sind erwartete Knoten/Kanten vorhanden Großer Zufallstest nach QS zufälliger Aufbau eines Graphen gleichzeitig wird identischer Graph mit "Goldprogramm" (sicher korrekt) aufgebaut. 13.000 Graph-Operationen Nach jeder Operation, vergleich der Knoten- und Kantenmengen des Subjektprogramms und "Goldprogramms"., 13

Ergebnis Entwicklungsdauer: Test-Zuerst-Gruppe braucht etwas länger (Implementierung plus QS) Programmkorrektheit vor QS: Test-Zuerst- Gruppe deutlich schlechter Programmkorrektheit nach QS: Test-Zuerst- Gruppe etwas besser 14

Gründe offensichtlich: Test-Zuerst-Gruppe hat in der Implementierungsphase zu einseitig oder zu wenig getestet möglicherweise: Test-Zuerst-Gruppe hatte falsches Gefühl der Sicherheit (Fragebögen) 15

Mögliche Schwachpunkte Studenten, keine Profis Technik war noch zu neu (Test-Zuerst noch nicht in Fleisch und Blut übergegangen ) keine direkte Überprüfung während des Experiments, ob wirklich gemäß Test-Zuerst entwickelt wurde zu enge Aufgabenstellung 16

Fazit des Experiments Test-Zuerst erfüllt Erwartungen (erstmal) nicht Test-Zuerst verlangt Erfahrung beim Schreiben geeigneter Tests und Disziplin Durchsetzen einer Mindest-Qualität der Programme im Experiment ist wichtig tatsächliches Anwenden der Technik im Experiment muss überprüft werden weitere Experimente nötig 17

Umfrage sammelt Informationen durch Fragen an Repräsentanten einer bestimmten Zielgruppe gibt Einblick in den momentanen Zustand der Zielgruppe Repräsentanten vertreten die Zielgruppe durch entsprechende Merkmale, Verhaltensweisen und Einstellungen Beispiel: "Was ist Ihnen wichtiger: persönliches Glück oder Reichtum?" Wie finden Sie die Vorlesung Empirische Softwaretechnik? (1 hervorragend, 2 gut, 3 mittelmäßig, 4 eher schlecht, 5 sehr schlecht) 18

Umfrage (2) Fragen können sich auf subjektive oder objektive Sachverhalte beziehen Fragen werden schriftlich (Fragebogen) oder mündlich (Interview) gestellt Antworten sind immer subjektiv und nur begrenzt überprüfbar Beispiel: Putzen Sie regelmäßig die Zähne? (Achtung, Subjekteffekt! besser: Haben Sie heute morgen die Zähne geputzt?) Was war der Schwierigkeitsgrad der Aufgaben? Wie bei anderen empirischen Methoden bleiben Teilnehmer anonym. 19

Umfrage (3) einfach und relativ billig direkter Kontakt mit Zielgruppe notwendig Verläßlichkeit der Ergebnisse ist zu diskutieren 20

Metastudie Studie über Studien Auswertung mehrerer bereits vorhandener Studien zu einem Thema Material ist Forschungsliteratur entnommen fasst nicht nur zusammen, sondern vergleicht und analysiert (im Gegensatz zu Überblicksartikel) 21

Metastudie (2) bietet Orientierung und konsolidiert Wissen: bestätigen sich Ergebnisse gegenseitig? ergänzen sich Ergebnisse? zu welchen Aspekten liegen noch keine Ergebnisse vor? welche Ergebnisse widersprechen sich? Beispiel: es gibt zahlreiche Untersuchungen zu Paarprogrammierung. Diese sind teilweise widersprüchlich. In den meisten Fällen sind die Teilnehmer Studenten. Meistens haben die Teilnehmer Paarprogrammierung erst kürzlich erlernt und nur mit wenigen Partnern geübt. Langzeitstudien zu dem Thema gibt es nicht. Welche Schlussfolgerungen ziehen Sie daraus? 22

Metastudie (3) vergleichsweise geringer Aufwand zugrundeliegende empirische Studien müssen schon vorhanden sein kann Lücken und Mängel in den vorhandenen Studien nicht mehr ausgleichen zeigt Ansatzpunkte für weitere Forschung 23

Metastudie (4) Spezialfall: Metaanalyse gemeinsame statistische Analyse verschiedener Studien (in der Regel Experimente) Ziel: neue quantitative Aussage gibt es einen signifikanten Effekt, wenn man die Einzelergebnisse kombiniert? wie groß ist der Effekt, wenn man die einzelnen Effektgrößen kombiniert? 24

ENDE 25