Wahrscheinlichkeitsrechnung und mathematische Statistik für Informatiker Dr. Nils Raabe Technische Universität Dortmund
Statistische Methoden spielen in der Informatik eine große Rolle. Beispiele: Laufzeiten von Algorithmen mit stochastischem Input Stochastische Algorithmen Spieltheorie Ausfälle von Datenverbindungen oder Hardwarekomponenten Automatische Übersetzung Assoziationsregeln, Bilderkennung, Signalanalyse, 2
Laufzeiten von Algorithmen mit stochastischem Input: Beispiel Sortieralgorithmen: Bubblesort und Quicksort bubblesort(field A, int l, int r) { for i:=r downto l+1 do pipelined { for j:=l to i-1 do { if (A[j] > A[j+1]) then { exchange(a[j], A[j+1]); } } } } 3
Laufzeiten von Algorithmen mit stochastischem Input: Beispiel Sortieralgorithmen: Bubblesort und Quicksort quicksort(field A, int l, int r) { if (l < r) then { q:= partition(a, l, r); do parallel { quicksort(a, l, q); quicksort(a, q+1, r); } } } int partition(field A, int l, int r) { x:= A[(l+r) div 2]; i:= l-1; j:= r+1; for ever do { do { j--; } while (A[j] > x); do { i++; } while (A[i] < x); if (i < j) then { exchange(a[i], A[j]); } else { return j; } } } 4
Laufzeiten von Algorithmen mit stochastischem Input: Beispiel Sortieralgorithmen: Bubblesort und Quicksort 5
Laufzeiten von Algorithmen mit stochastischem Input: Beispiel Sortieralgorithmen: Bubblesort und Quicksort 6
Laufzeiten von Algorithmen mit stochastischem Input: Beispiel Sortieralgorithmen: Bubblesort und Quicksort 7
Laufzeiten von Algorithmen mit stochastischem Input: Beispiel Sortieralgorithmen: Bubblesort und Quicksort Summen Vertauschungen und Vergleiche (n=20) Gleichverteilte Permutationen Permutationen mit geordneter Liste korreliert 8
Stochastische Algorithmen Beispiele: Quicksortkann bei vorsortierten Listen durch zufällige Pivot-Wahl verbessert werden. Evolutionäre Algorithmen Initiale Generation durch Zufallsauswahl und Bewertung der Individuen Aktuelle Generation Bewertung Zufällige Elternselektion, Rekombination, Mutation nein Abbruch? ja Ausgabe bester gefundener Lösung 9
Stochastische Algorithmen Beispiel Evolutionäre Algorithmen: Map-Labeling Initiale Generation durch Zufallsauswahl und Bewertung der Individuen: Aktuelle Generation Bewertung Dortmund Berlin Hannover Frankfurt Dortmund HannoverBerlin Frankfurt Dortmund HannoverBerlin Frankfurt Dortmund HannoverBerlin Frankfurt Beste Lösung Dortmund HannoverBerlin Frankfurt 10
Stochastische Algorithmen Beispiel Evolutionäre Algorithmen: Map-Labeling Zufällige Elternselektion, Rekombination, Mutation Dortmund Berlin Hannover Frankfurt Papa Dortmund HannoverBerlin Frankfurt Mama Kind Dortmund Berlin Hannover Frankfurt Beste Lösung Dortmund HannoverBerlin Frankfurt 11
Stochastische Algorithmen Beispiel Evolutionäre Algorithmen: Map-Labeling Aktuelle Generation Bewertung Dortmund Berlin Hannover Frankfurt Dortmund HannoverBerlin Frankfurt Dortmund Berlin Hannover Frankfurt Dortmund Berlin Hannover Frankfurt Beste Lösung Dortmund Berlin Hannover Frankfurt 12
Spieltheorie Beispiel Zwei-Spieler-Nullsummenspiel Strategien p 1 und p 2 für Züge d 1 und d 2 Verlustfunktion für Spieler 1: L(d 1, d 2 ) Risikofunktion für Spieler 1 bei Verwendung der Strategie p 1 : R(p 1, d 2 ) = E d2 L(p 1, d 2 ) Minimax-Strategie p * 1für Spieler 1: * sup R(p 1, d2) inf p sup d R(p 1, d2 d = 2 1 2 ) 13
Spieltheorie Beispiel Schere, Stein, Papier Strategien=Wahrscheinlichkeiten p 1 =(p 1S, p 1T, p 1P ) und p 2 =(p 2S, p 2T, p 2P ) für Züge d 1 aus {S, T, P} und d 2 aus {S, T, P}. Verlustfunktion für Spieler 1: L(d 1, d 2 )= d 2 =S d 2 =T d 2 =P d 1 =S 0 +1-1 d 1 =T -1 0 +1 d 1 =P +1-1 0 Risikofunktion für Spieler 1: R(p 1, d 2 ) = +p 1S I d2=t -p 1S I d2=p -p 1T I d2=s + p 1T I d2=p + p 1P I d2=s -p 1P I d2=t 14
Spieltheorie Beispiel Schere, Stein, Papier Risikofunktion für Spieler 1: R(p 1, d 2 ) = +p 1S I d2=t -p 1S I d2=p -p 1T I d2=s + p 1T I d2=p + p 1P I d2=s -p 1P I d2=t d 2 R(p 1,d 2 ) p 1S <p 1T <p 1P p 1S <p 1P <p 1T p 1T <p 1S <p 1P p 1T <p 1P <p 1S p 1P <p 1S <p 1T p 1P <p 1T <p 1S S -p 1T +p 1P >0 <0 >0 >0 <0 <0 T +p 1S -p 1P <0 <0 <0 >0 >0 >0 P -p 1S +p 1T >0 >0 <0 <0 >0 <0 Minimax-Strategie p * 1= (1/3, 1/3, 1/3) für Spieler 1, da R(p * 1, d 2 ) = 0 unabhängig von d 2. 15
Spieltheorie Beispiel Schere, Stein, Papier Minimax-Strategie p * 1= (1/3, 1/3, 1/3) für Spieler 1, da R(p * 1, d 2 ) = 0 unabhängig von d 2. Falls Spieler 2 ebenfalls die Minimax-Strategie wählt, gilt p * 2= p * 1. Falls Spieler 1 Strategie p 2 kennt und Spieler 2 diese unter keinen Umständen ändert, kann Spieler seine verlustminimierende Strategie anpassen, indem er deterministisch denjenigen Zug wählt, der den von Spieler 2 am wahrscheinlichsten ausgewählten Zug schlägt. Dies gilt auch, falls Spieler 2 die Minimax-Strategie spielt! 16
Spieltheorie Beispiel Schere, Stein, Papier Erweiterung um Brunnen Verlustfunktion für Spieler 1: L(d 1, d 2 )= d 2 =S d 2 =T d 2 =P d 2 =B d 1 =S 0 +1-1 +1 d 1 =T -1 0 +1 +1 d 1 =P +1-1 0-1 d 1 =B -1-1 +1 0 Brunnen dominiert Stein, daher ist Minimax-Strategie p * 1= (1/3, 0, 1/3, 1/3) 17
Spieltheorie Knobelspiel mit 5 Zeichen Verlustfunktion für Spieler 1: L(d 1, d 2 )= d 2 =A d 2 =B d 2 =C d 2 =D d 2 =E d 1 =A 0-1 -1-1 +1 d 1 =B +1 0 +1-1 -1 d 1 =C +1-1 0 +1-1 d 1 =D +1 +1-1 0-1 d 1 =E -1 +1 +1 +1 0 Minimax-Strategie p * 1= (1/3, 1/9, 1/9, 1/9, 1/3) 18
Spieltheorie Memory n = Verbleibende Kartenpaare k = Bereits aufgedeckte Karten Optimale Strategie unter Annahme perfekter Gedächtnisse nach Zwick und Paterson: A A L G C K E C F I B H F J L D H I E K B J G D, falls 3k 2(n+1) und n+k gerade, falls k 1 und n+k gerade oder (n, k) = (6, 1), sonst 19
Ausfälle von Hardwarekomponenten Lebensdauerverteilungen von Elektrolytkondensatoren Survivalfunktion: Hazardfunktion: S(t) = P(T > t) = 1-F(t) P(t T < t + δt) h(t) = limδt = δt f(t) S(t) 20
Ausfälle von Hardwarekomponenten Lebensdauerverteilungen von Elektrolytkondensatoren Konstante Hazardrate h(t) = λ Exponentialverteilte Lebensdauern: -λt f(t) =λe 21
Ausfälle von Hardwarekomponenten Lebensdauerverteilungen von Elektrolytkondensatoren Fallende Hazardrate der Form log(h(t)) = ν+ρ log(t) Weibullverteilte Lebensdauern: f(t) = k λ t λ k 1 e k (t/λ) mit und k = ρ + 1 λ = e (log(k)-ν)/k 22
Ausfälle von Hardwarekomponenten Lebensdauerverteilungen von Elektrolytkondensatoren Steigende Hazardrate der Form log(h(t)) = ν+ρ log(t) Weibullverteilte Lebensdauern: f(t) = k λ t λ k 1 e k (t/λ) mit und k = ρ + 1 λ = e (log(k)-ν)/k 23
Ausfälle von Hardwarekomponenten Lebensdauerverteilungen von Elektrolytkondensatoren Alternierende Hazardrate durch Kombination. Unterscheidung der Ausfälle in Früh-, Zufalls- und Verschleißausfälle 24
Ausfälle von Hardwarekomponenten Lebensdauerverteilungen von Elektrolytkondensatoren Einfluss der Temperatur auf die Lebensdauer: Proportional Hazards Modell log(h (t)) = log(h (t)) + i 0 βx i 25
Ausfälle von Hardwarekomponenten Lebensdauerverteilungen von Elektrolytkondensatoren Einfluss der Temperatur auf die Lebensdauer: Proportional Hazards Modell log(h (t)) = log(h (t)) + i 0 βx i β = 0.298 β = 0 26
Ausfälle von Hardwarekomponenten Lebensdauerverteilungen von Elektrolytkondensatoren Einfluss der Temperatur auf die Lebensdauer: Proportional Hazards Modell log(h (t)) = log(h (t)) + i 0 βx i x = 20 x = 25 x =30 27
Ausfälle von Hardwarekomponenten Lebensdauerverteilungen von Elektrolytkondensatoren Einfluss der Temperatur auf die Lebensdauer: Proportional Hazards Modell log(h (t)) = log(h (t)) + i 0 βx i 28
Automatische Übersetzung Statistische Übersetzung auf Basis von Paralleltext Satz von Bayes: P(D) P(E D) P(D E) = P(E) Wahrscheinlichste Übersetzung von e: dˆ = argmax P(d e) d d: Wie fühlen Sie sich? e: How do you feel? 29
Automatische Übersetzung Statistische Übersetzung auf Basis von Paralleltext Direkte Schätzung der Wahrscheinlichkeiten schwer bei seltenen und unmöglich bei unbekannten Sätzen. Darum: Word Alignments d: Wie fühlen Sie sich? m = 4 e: How do you feel? l = 4 a: 1 (2,4) 3 0 30
Automatische Übersetzung Statistische Übersetzung auf Basis von Paralleltext Direkte Schätzung der Wahrscheinlichkeiten schwer bei seltenen und unmöglich bei unbekannten Sätzen. Darum: Word Alignments d: Wie fühlen fühlen Sie sich? m = 5 e: How do you feel? l = 4 a: 1 2 4 3 0 31
Automatische Übersetzung Statistische Übersetzung auf Basis von Paralleltext IBM Modell 1 P(d, a e) ε = (l+ 1) m t(dj ea ) m j j= 1 Schätzung von Alignments und Übersetzungen durch EM-Algorithmus: 0. Initialisierung von Alignment-Verteilungen 1. Bestimmung von Wortübersetzungsverteilungen auf Basis der (a priori) Alignment-Verteilungen. 2. Bestimmung von (a posteriori) Alignment-Verteilungen und Wortübersetzungsverteilungen 3. -> 1. mit aktualisierten Verteilungen 32
Automatische Übersetzung Statistische Übersetzung auf Basis von Paralleltext e 1 d 1 e 2 d 2 He Er She Sie feels fühlt feels fühlt 0. Alignments gleichwahrscheinlich 1. Wortübersetzungsverteilungen P(Er He) = P(Sie She) = 1/2 P(fühlt He) = P(fühlt She) = 1/2 P(Er feels) = P(Sie feels) = 1/4 P(fühlt feels) = 1/2 Alignments: a 1 a 2 a 3 a 4 33
Automatische Übersetzung Statistische Übersetzung auf Basis von Paralleltext e 1 d 1 e 2 d 2 He Er She Sie Alignments: a 1 feels fühlt feels fühlt 2. A posteriori Alignmentverteilungen P(d 1,a 1 e 1 ) = P(Er He) P(fühlt feels) = 1/4 P(d 1,a 2 e 1 ) = P(Er He) P(fühlt He) = 1/4 P(d 1,a 3 e 1 ) = P(Er feels) P(fühlt feels) = 1/8 P(d 1,a 4 e 1 ) = P(Er feels) P(fühlt He) = 1/8 P(a i e 1 ) = P(d 1,a i e 1 )/[P(d 1,a 1 e 1 )+P(d 1,a 2 e 1 )+P(d 1,a 3 e 1 )+P(d 1,a 4 e 1 )] a 2 a 3 a 4 34
Automatische Übersetzung Statistische Übersetzung auf Basis von Paralleltext 2. A posteriori Alignmentverteilungen P(a 1 e 1 ) = 1/3 P(a 2 e 1 ) = 1/3 P(a 3 e 1 ) = 1/6 P(a 4 e 1 ) = 1/6 e 1 d 1 e 2 d 2 He Er She Sie feels fühlt feels fühlt Alignments: a 1 a 2 a 3 a 4 35
Automatische Übersetzung Statistische Übersetzung auf Basis von Paralleltext e 1 d 1 e 2 d 2 He Er She Sie feels fühlt feels fühlt 1. A posteriori Wortübersetzungsverteilungen P(Er He) = P(Sie She) = 4/7 P(fühlt He) = P(fühlt She) = 3/7 P(Er feels) = P(Sie feels) = 1/5 P(fühlt feels) = 3/5 Alignments: a 1 a 2 a 3 a 4 36
Automatische Übersetzung Statistische Übersetzung auf Basis von Paralleltext 2. A posteriori Alignmentverteilungen P(d 1,a 1 e 1 ) = P(Er He) P(fühlt feels) = 12/35 P(d 1,a 2 e 1 ) = P(Er He) P(fühlt He) = 12/49 P(d 1,a 3 e 1 ) = P(Er feels) P(fühlt feels) = 3/25 P(d 1,a 4 e 1 ) = P(Er feels) P(fühlt He) = 3/35 usw. e 1 d 1 e 2 d 2 He Er She Sie feels fühlt feels fühlt Alignments: a 1 a 2 a 3 a 4 37
Merkmale und Datentypen Einzelobjekte (Untersuchungseinheiten, Merkmalsträger) Statistische Gesamtheit (Kollektiv, Population) Merkmal Form Farbe Linienart Merkmalsausprägungen Ellipse, Ellipse, Ellipse, Rechteck, Rechteck, Ellipse Rot,Blau, Grün, Rot, Gelb, Blau Durchgängig, Gepunktet, Gepunktet, Durchgängig, Gestrichelt, Gestrichelt Wertebereich {Ellipse, Rechteck} {Blau, Gelb, Grün, Rot} {Gepunktet, Gestrichelt, Durchgängig} Breite in cm 2, 1, 1, 2, 1, 3 (0, ) Höhe in cm 1, 1, 2, 2, 3, 1 (0, ) 38
Merkmale und Datentypen Datentypen Skalentyp mögliche Aussagen Im Beispiel qualitativ Nominal Gleich / Verschieden Farbe, Form(binär, dichotom) Ordinal Größer / Kleiner Linienart Intervall Differenzen Breite, Höhe, gleich / verschieden Form quantitativ / metrisch Verhältnis Verhältnisse Breite, Höhe gleich / verschieden 39
Merkmale und Datentypen Datentypen Merkmalstyp Anzahl der Ausprägungen Im Beispiel Diskret Endlich oder abzählbar Form unendlich viele Breite, Höhe (wenn grob gemessen) Stetig Überabzählbar viele Breite, Höhe (wenn fein gemessen) 40
Merkmale und Datentypen Datentypen Merkmalstyp Qualitativ Quantitativ binär Nominal Ordinal Diskret Stetig 41
Tabellarische und grafische Darstellung von univariaten Daten Qualitative Daten M N = {e 1,, e N } X x, x W X W X = {x(j) j = 1,..., J} = {x(1),...,x(j)} Populationbestehend aus Objekten e 1,, e N Nominales bzw. ordinales Merkmal Merkmalsausprägungen von X Wertebereich von X mit Merkmalsausprägungen x(j), j = 1,..., J D N = {x n n= 1,, N} = {x 1,, x N } Urlisteaus der Messung von X in der Population M N, d.h. x n = X(e n ), n=1,, N x(1)< x(2) < < x(j) falls X ordinal 42
Tabellarische und grafische Darstellung von univariaten Daten Qualitative Daten: Beispiel Bearbeitungen von Softwareaufgaben Bearbeitung Bearbeiter(in) Aufgabe Version Anzahl Clicks Bearbeitungszeit e 1 Kai Export 1.1 14 8.0 e 2 Kai Verknüpfung 1.2 12 4.9 e 3 Miriam Export 1.1 12 6.6 e 4 Tina Verknüpfung 1.2 13 3.2 e 5 Oliver Export 2.0 17 3.9 e 6 Tina Export 1.2 11 4.5 e 7 Tina Verknüpfung 1.2 14 6.1 e 8 Miriam Export 1.2 10 3.7 e 9 Miriam Export 1.2 10 4.2 e 10 Oliver Abfrage 1.1 18 8.5 e 11 Oliver Verknüpfung 2.0 16 3.6 e 12 Oliver Abfrage 2.0 15 3.7 43
Tabellarische und grafische Darstellung von univariaten Daten Qualitative Daten: Beispiel Bearbeitungen von Softwareaufgaben Bearbeitung Bearbeiter(in) Aufgabe Version Anzahl Clicks Bearbeitungszeit e 1 Kai Export 1.1 14 8.0 e 2 Kai Verknüpfung 1.2 12 4.9 e 3 Miriam Export 1.1 12 6.6 e 4 Tina Verknüpfung 1.2 13 3.2 e 5 Oliver Export 2.0 17 3.9 e 6 Tina Export 1.2 11 4.5 e 7 Tina Verknüpfung 1.2 14 6.1 e 8 Miriam Export 1.2 10 3.7 e 9 Miriam Export 1.2 10 4.2 e 10 Oliver Abfrage 1.1 18 8.5 e 11 Oliver Verknüpfung 2.0 16 3.6 e 12 Oliver Abfrage 2.0 15 3.7 Objekte 44
Tabellarische und grafische Darstellung von univariaten Daten Qualitative Daten: Beispiel Bearbeitungen von Softwareaufgaben Bearbeitung Bearbeiter(in) Aufgabe Version Anzahl Clicks Bearbeitungszeit e 1 Kai Export 1.1 14 8.0 e 2 Kai Verknüpfung 1.2 12 4.9 e 3 Miriam Export 1.1 12 6.6 e 4 Tina Verknüpfung 1.2 13 3.2 e 5 Oliver Export 2.0 17 3.9 e 6 Tina Export 1.2 11 4.5 e 7 Tina Verknüpfung 1.2 14 6.1 e 8 Miriam Export 1.2 10 3.7 e 9 Miriam Export 1.2 10 4.2 e 10 Oliver Abfrage 1.1 18 8.5 e 11 Oliver Verknüpfung 2.0 16 3.6 e 12 Oliver Abfrage 2.0 15 3.7 5 Variablen 45
Tabellarische und grafische Darstellung von univariaten Daten Qualitative Daten: Beispiel Bearbeitungen von Softwareaufgaben Bearbeitung Bearbeiter(in) Aufgabe Version Anzahl Clicks Bearbeitungszeit e 1 Kai Export 1.1 14 8.0 e 2 Kai Verknüpfung 1.2 12 4.9 e 3 Miriam Export 1.1 12 6.6 e 4 Tina Verknüpfung 1.2 13 3.2 e 5 Oliver Export 2.0 17 3.9 e 6 Tina Export 1.2 11 4.5 e 7 Tina Verknüpfung 1.2 14 6.1 e 8 Miriam Export 1.2 10 3.7 e 9 Miriam Export 1.2 10 4.2 e 10 Oliver Abfrage 1.1 18 8.5 e 11 Oliver Verknüpfung 2.0 16 3.6 e 12 Oliver Abfrage 2.0 15 3.7 Qualitative Daten 46
Tabellarische und grafische Darstellung von univariaten Daten Qualitative Daten: Beispiel Bearbeitungen von Softwareaufgaben Bearbeitung Bearbeiter(in) Aufgabe Version Anzahl Clicks Bearbeitungszeit e 1 Kai Export 1.1 14 8.0 e 2 Kai Verknüpfung 1.2 12 4.9 e 3 Miriam Export 1.1 12 6.6 e 4 Tina Verknüpfung 1.2 13 3.2 e 5 Oliver Export 2.0 17 3.9 e 6 Tina Export 1.2 11 4.5 e 7 Tina Verknüpfung 1.2 14 6.1 e 8 Miriam Export 1.2 10 3.7 e 9 Miriam Export 1.2 10 4.2 e 10 Oliver Abfrage 1.1 18 8.5 e 11 Oliver Verknüpfung 2.0 16 3.6 e 12 Oliver Abfrage 2.0 15 3.7 D N;1, N=12 X 1 = Bearbeiter(in) W X1 = {Kai, Miriam, Oliver, Tina} J 1 = 4 47
Tabellarische und grafische Darstellung von univariaten Daten Qualitative Daten: Beispiel Bearbeitungen von Softwareaufgaben Bearbeitung Bearbeiter(in) Aufgabe Version Anzahl Clicks Bearbeitungszeit e 1 Kai Export 1.1 14 8.0 e 2 Kai Verknüpfung 1.2 12 4.9 e 3 Miriam Export 1.1 12 6.6 e 4 Tina Verknüpfung 1.2 13 3.2 e 5 Oliver Export 2.0 17 3.9 e 6 Tina Export 1.2 11 4.5 e 7 Tina Verknüpfung 1.2 14 6.1 e 8 Miriam Export 1.2 10 3.7 e 9 Miriam Export 1.2 10 4.2 e 10 Oliver Abfrage 1.1 18 8.5 e 11 Oliver Verknüpfung 2.0 16 3.6 e 12 Oliver Abfrage 2.0 15 3.7 D N;2, N=12 X 2 = Aufgabe W X2 = {Abfrage, Export, Verknüpfung} J 2 = 3 48
Tabellarische und grafische Darstellung von univariaten Daten Qualitative Daten: Beispiel Bearbeitungen von Softwareaufgaben Bearbeitung Bearbeiter(in) Aufgabe Version Anzahl Clicks Bearbeitungszeit e 1 Kai Export 1.1 14 8.0 e 2 Kai Verknüpfung 1.2 12 4.9 e 3 Miriam Export 1.1 12 6.6 e 4 Tina Verknüpfung 1.2 13 3.2 e 5 Oliver Export 2.0 17 3.9 e 6 Tina Export 1.2 11 4.5 e 7 Tina Verknüpfung 1.2 14 6.1 e 8 Miriam Export 1.2 10 3.7 e 9 Miriam Export 1.2 10 4.2 e 10 Oliver Abfrage 1.1 18 8.5 e 11 Oliver Verknüpfung 2.0 16 3.6 e 12 Oliver Abfrage 2.0 15 3.7 D N;3, N=12 X 3 = Version W X3 = {1.1,1.2, 2.0}, 1.1 < 1.2 < 2.0 J 3 = 3 49
Tabellarische und grafische Darstellung von univariaten Daten Qualitative Daten: Deskriptive Auswertung Absolute HäufigkeitN j von x(j): Damit gilt x 1 (1) Kai J j= 1 x 1 (2) Miriam N j = N x 1 (3) Oliver x 1 (4) Tina 2 3 4 3 12 N j = N[x(j)] = Σ N i= 1 d(j), i d(j) = I i x(e ) = x(j) i X 1 (e i ) d 1i (1) d 1i (2) d 1i (3) d 1i (4) 1 Kai 1 0 0 0 2 Kai 1 0 0 0 3 Miriam 0 1 0 0 4 Tina 0 0 0 1 5 Oliver 0 0 1 0 6 Tina 0 0 0 1 7 Tina 0 0 0 1 8 Miriam 0 1 0 0 9 Miriam 0 1 0 0 10 Oliver 0 0 1 0 11 Oliver 0 0 1 0 12 Oliver 0 0 1 0 Σ 2 3 4 3 i 50
Tabellarische und grafische Darstellung von univariaten Daten Qualitative Daten: Deskriptive Auswertung Relative Häufigkeitf j von x(j): Damit gilt x 1 (1) Kai 2/12 0.17 J fj = 1 j= 1 x 1 (2) Miriam 3/12 = 0.25 x 1 (3) Oliver 4/12 0.33 x 1 (4) Tina 3/12 = 0.25 f j = N j N Σ 12/12 = 1 i X 1 (e i ) d 1i (1) d 1i (2) d 1i (3) d 1i (4) 1 Kai 1 0 0 0 2 Kai 1 0 0 0 3 Miriam 0 1 0 0 4 Tina 0 0 0 1 5 Oliver 0 0 1 0 6 Tina 0 0 0 1 7 Tina 0 0 0 1 8 Miriam 0 1 0 0 9 Miriam 0 1 0 0 10 Oliver 0 0 1 0 11 Oliver 0 0 1 0 12 Oliver 0 0 1 0 Σ/12 0.17 0.25 0.33 0.25 51
Tabellarische und grafische Darstellung von univariaten Daten Qualitative Daten: Deskriptive Auswertung Tabellarische Darstellung absoluter und relativer Häufigkeiten Ausprägung Absolute Häufigkeit Relative Häufigkeit x(1) N 1 f 1 = N 1 /N x(j) N J f J = N J /N J j= 1 N j = N J j= 1 f j = 1 52
Tabellarische und grafische Darstellung von univariaten Daten Qualitative Daten: Deskriptive Auswertung Tabellarische Darstellung absoluter und relativer Häufigkeiten Ausprägung Bearbeiter(in) Absolute Häufigkeit Relative Häufigkeit Kai 2 0.17 Miriam 3 0.25 Oliver 4 0.33 Tina 3 0.25 12 1 Ausprägung Aufgabe Absolute Häufigkeit Relative Häufigkeit Abfrage 2 0.17 Export 6 0.5 Verknüpfung 4 0.33 12 1 Ausprägung Version Absolute Häufigkeit Relative Häufigkeit 1.1 3 0.25 1.2 6 0.5 2.0 3 0.25 12 1 53
Tabellarische und grafische Darstellung von univariaten Daten Quantitativ diskrete Daten M N = {e 1,, e N } X x, x W X W X = {x(j) j = 1,..., J} = {x(1),...,x(j)} Populationbestehend aus Objekten e 1,, e N Quantitatives Merkmal Merkmalsausprägungen von X Wertebereich von X mit Merkmalsausprägungen x(j), j = 1,..., J D N = {x n n= 1,, N} = {x 1,, x N } Urlisteaus der Messung von X in der Population M N, d.h. x n = X(e n ), n=1,, N 54
Tabellarische und grafische Darstellung von univariaten Daten Quantitativ diskrete Daten: Beispiel Bearbeitungen von Softwareaufgaben Bearbeitung Bearbeiter(in) Aufgabe Version Anzahl Clicks Bearbeitungszeit e 1 Kai Export 1.1 14 8.0 e 2 Kai Verknüpfung 1.2 12 4.9 e 3 Miriam Export 1.1 12 6.6 e 4 Tina Verknüpfung 1.2 13 3.2 e 5 Oliver Export 2.0 17 3.9 e 6 Tina Export 1.2 11 4.5 e 7 Tina Verknüpfung 1.2 14 6.1 e 8 Miriam Export 1.2 10 3.7 e 9 Miriam Export 1.2 10 4.2 e 10 Oliver Abfrage 1.1 18 8.5 e 11 Oliver Verknüpfung 2.0 16 3.6 e 12 Oliver Abfrage 2.0 15 3.7 D N;4, N=12 X 4 = Anzahl Clicks W X4 = {0, 1,, 10, 11, 12, 13, 14, 15, 16, 17, 18,, } J 4 = 55
Tabellarische und grafische Darstellung von univariaten Daten Quantitativ diskrete Daten: Deskriptive Auswertung Absolute HäufigkeitN j und relative Häufigkeit f j analog zu qualitativen Daten j #{xn xn x(j)} Relative Summenhäufigkeit sj = fk = N k= 1 Ausprägung Absolute Häufigkeit Relative Häufigkeit Relative Summenhäufigkeit x(1) N 1 f 1 = N 1 /N f 1 x(2) N 2 f 2 = N 2 /N f 1 + f 2 x(j-1) N J-1 f J-1 = N J-1 /N f 1 + + f J-1 x(j) N J f J = N J /N f 1 + + f J = 1 J j= 1 N j = N J j= 1 f j = 1 56
Tabellarische und grafische Darstellung von univariaten Daten Quantitativ diskrete Daten: Deskriptive Auswertung Anzahl Clicks Ausprägung Absolute Häufigkeit Relative Häufigkeit Relative Summenhäufigkeit 0-9 0 0 0 10 2 0.167 0.167 11 1 0.083 0.25 12 2 0.167 0.417 13 1 0.083 0.5 14 2 0.167 0.667 15 1 0.083 0.75 16 1 0.083 0.833 17 1 0.083 0.917 18 1 0.083 1 19-0 0 1 12 1 57
Tabellarische und grafische Darstellung von univariaten Daten Quantitativ diskrete Daten: Deskriptive Auswertung Grafische Darstellung: Empirische Verteilungsfunktion F (x) = sj 0 ~,mitj = max{ j x( j) N j = fk ~ k= 1 x} falls falls x < x(1) x(1) x f 1 + f 2 + f 3 + f 4 + f 5 = 1 = s 5 f 1 + f 2 + f 3 + f 4 = s 4 f 1 + f 2 + f 3 = s 3 f 4 f 5 f 1 + f 2 = s 2 f 1 = s 1 0 f 1 f 2 f 3 x 58
Tabellarische und grafische Darstellung von univariaten Daten Quantitativ stetige Daten M N = {e 1,, e N } X x, x W W X U J X = (-, ) = K j j= 1 K j = ( v j-1, v j ], j = 1,, J-1 K J = ( v J-1, v J ) D N = {x n n= 1,, N} = {x 1,, x N } Populationbestehend aus Objekten e 1,, e N Quantitatives Merkmal Merkmalsausprägungen von X Klassierter(kategorisierter) Wertebereich von X Merkmalsklassen mit Klassengrenzen - = v 0 < v 1 < < v J-1 < v J = Urlisteaus der Messung von X in der Population M N, d.h. x n = X(e n ), n=1,, N 59
Tabellarische und grafische Darstellung von univariaten Daten Quantitativ stetige Daten: Beispiel Bearbeitungen von Softwareaufgaben Bearbeitung Bearbeiter(in) Aufgabe Version Anzahl Clicks Bearbeitungszeit e 1 Kai Export 1.1 14 8.0 e 2 Kai Verknüpfung 1.2 12 4.9 e 3 Miriam Export 1.1 12 6.6 e 4 Tina Verknüpfung 1.2 13 3.2 e 5 Oliver Export 2.0 17 3.9 e 6 Tina Export 1.2 11 4.5 e 7 Tina Verknüpfung 1.2 14 6.1 e 8 Miriam Export 1.2 10 3.7 e 9 Miriam Export 1.2 10 4.2 e 10 Oliver Abfrage 1.1 18 8.5 e 11 Oliver Verknüpfung 2.0 16 3.6 e 12 Oliver Abfrage 2.0 15 3.7 D N;5, N=12 X 5 = Bearbeitungszeit W X5 = (-, ) = (-, 4] U (4, 5] U U (7, 8] U (8, ) = J 5 = 6 (,4] U 4 U j= 1 (j+ 3, j+ 4] U (8, ) 60
Tabellarische und grafische Darstellung von univariaten Daten Quantitativ stetige Daten: Deskriptive Auswertung Klassierte Häufigkeitsverteilung Klasse K j Absolute Häufigkeit Relative Häufigkeit Relative Summenhäufigkeit K 1 = (v 0, v 1 ] N(K 1 ) f(k 1 ) = N(K 1 )/N f(k 1 ) K 2 = (v 1, v 2 ] N(K 2 ) f(k 2 ) = N(K 2 )/N f(k 1 ) + f(k 2 ) K J-1 = (v J-2, v J-1 ] N(K J-1 ) f(k J-1 )= N(K J-1 )/N f(k 1 ) + + f(k J-1 ) K J-1 = (v J-1, v J ) N(K J ) f(k J )= N(K J )/N f(k 1 ) + + f(k J )= 1 J j= 1 N(K ) = N j J j= 1 f(kj) = 1 N(K j ) = #{x x Kj} = #{x vj 1 < x v J } 61
Tabellarische und grafische Darstellung von univariaten Daten Quantitativ stetige Daten: Deskriptive Auswertung Bearbeitungszeit Klasse Absolute Häufigkeit Relative Häufigkeit Relative Summenhäufigkeit K 1 = (-, 4] 5 0.417 0.417 K 2 = (4, 5] 3 0.25 0.667 K 3 = (5, 6] 0 0 0.667 K 4 = (6, 7] 2 0.167 0.833 K 5 = (7, 8] 1 0.083 0.917 K 6 = (8, ) 1 0.083 1 12 1 62
Tabellarische und grafische Darstellung von univariaten Daten Quantitativ stetige Daten: Deskriptive Auswertung Grafische Darstellung: Histogramm Aufbauend auf klassierter Häufigkeitsverteilung, allerdings v 0 - und v J. 0.20 0.15 0.10 b 2 =2 b 3 =1 h 2 =0.2 f(k 2 ) f(k 3 ) h 3 =0.2 = 0.4 =0.2 b 5 =1 Flächen der Rechtecke zu K j entsprechen f(k j ). Rechteckbreiten sind gegeben durch b j = v j -v j-1. Damit ergeben sich als Rechteckhöhen h j = f(k j )/b j 0.05 h 1 =0.05 b 1 =4 f(k 1 ) = 0.2 b 4 =2 f(k 4 ) =0.1 f(k 5 ) =0.1 h 5 =0.1 2 4 6 8 =0.05 10 h 4 63
Tabellarische und grafische Darstellung von univariaten Daten Quantitativ stetige Daten: Deskriptive Auswertung Grafische Darstellung: Histogramm Üblicherweise gleiche Klassenbreiten. 0.20 0.15 0.10 h 3 =0.2 b=2 f(k 3 )=0.4 f(k 4 )=0.25 h 4 =0.125 Flächen der Rechtecke zu K j entsprechen f(k j ). Rechteckbreiten sind gegeben durch b= v j -v j-1. Damit ergeben sich als Rechteckhöhen h j = f(k j )/b 0.05 h 2 =0.075 f(k 2 )=0.15 f(k 5 )=0.15 h 5 =0.075 h 1 =0.025 f(k 1 )=0.05 2 4 6 8 10 64