Wahrscheinlichkeitsrechnung und mathematische Statistik für Informatiker. Dr. Nils Raabe Technische Universität Dortmund

Ähnliche Dokumente
Deskriptive Statistik 1 behaftet.

Wahrscheinlichkeits - rechnung und Statistik

1. Einführung und statistische Grundbegriffe. Grundsätzlich unterscheidet man zwei Bedeutungen des Begriffs Statistik:

Statistische Kennzahlen für die Lage

Tabellarische und graphie Darstellung von univariaten Daten

0 Einführung: Was ist Statistik

Modul 04: Messbarkeit von Merkmalen, Skalen und Klassierung. Prof. Dr. W. Laufner Beschreibende Statistik

Mathematik für Biologen

htw saar 1 EINFÜHRUNG IN DIE STATISTIK: BESCHREIBENDE STATISTIK

Standardisierte Vorgehensweisen und Regeln zur Gewährleistung von: Eindeutigkeit Schlussfolgerungen aus empirischen Befunden sind nur dann zwingend

Forschungsstatistik I

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

WISTA WIRTSCHAFTSSTATISTIK

Grafische Darstellung von Häufigkeitsverteilungen (1)

Institut für Biometrie und klinische Forschung. WiSe 2012/2013

Einführung in die Statistik

Inhaltsverzeichnis: Aufgaben zur Vorlesung Statistik Seite 1 von 10 Prof. Dr. Karin Melzer, Prof. Dr. Gabriele Gühring, Fakultät Grundlagen

Lösungen zu Übung 1 (Kap. 1.5) Prof. Dr.B.Grabowski

Deskriptive Statistik

1 x 1 y 1 2 x 2 y 2 3 x 3 y 3... n x n y n

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 7.-9.

Kapitel III - Merkmalsarten

SozialwissenschaftlerInnen II

Inhaltsverzeichnis Grundlagen aufigkeitsverteilungen Maßzahlen und Grafiken f ur eindimensionale Merkmale

Kreisdiagramm, Tortendiagramm

Mathematik für Biologen

Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management

Abschnitt: Algorithmendesign und Laufzeitanalyse

Wichtige Definitionen und Aussagen

Zusammenfassung Mathe II. Themenschwerpunkt 2: Stochastik (ean) 1. Ein- und mehrstufige Zufallsexperimente; Ergebnismengen

TEIL 7: EINFÜHRUNG UNIVARIATE ANALYSE TABELLARISCHE DARSTELLUNG / AUSWERTUNG

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp

Univ.-Prof. Dr. Georg Wydra

Arbeitsbuch zur deskriptiven und induktiven Statistik

Kapitel V - Graphische Darstellung von Häufigkeitsverteilungen

3. Merkmale und Daten

Forschungsstatistik I

Wahrscheinlichkeitstheorie Kapitel I - Einführende Beispiele

9. Kapitel: Grafische Darstellung quantitativer Informationen

Biomathematik für Mediziner, Klausur SS 2000 Seite 1

Kapitel 2. Häufigkeitsverteilungen

Wahrscheinlichkeitsrechnung und Statistik

Wirtschaftswissenschaftliches Prüfungsamt Bachelor-Prüfung Deskriptive Statistik und Wahrscheinlichkeitsrechnung Wintersemester 2010/11.

Zufallsvariablen [random variable]

P (A B) P (B) = P ({3}) P ({1, 3, 5}) = 1 3.

Punktschätzer Optimalitätskonzepte

Deskriptive Statistik Auswertung durch Informationsreduktion

Adaptive Systeme. Prof. Dr.-Ing. Heinz-Georg Fehn Prof. Dr. rer. nat. Nikolaus Wulff

Referenten: Gina Spieler, Beatrice Bressau, Laura Uhlmann Veranstaltung: Statistik für das Lehramt Dozent: Martin Tautenhahn

Daten, Datentypen, Skalen

ETWR Teil B. Spezielle Wahrscheinlichkeitsverteilungen (stetig)

3. Suchen. Das Suchproblem. Suche in Array. Lineare Suche. 1 n. i = n Gegeben Menge von Datensätzen.

1 Stochastik deskriptive Statistik und Wahrscheinlichkeitsrechnung. Statistik und Wahrscheinlichkeitsrechnung

Statistik II: Grundlagen und Definitionen der Statistik

Mathematische und statistische Methoden II

Mathematische Statistik. Zur Notation

Algorithmen und Datenstrukturen

Universität Basel Wirtschaftswissenschaftliches Zentrum. Zufallsvariablen. Dr. Thomas Zehrt

Inhaltsverzeichnis. 1 Über dieses Buch Zum Inhalt dieses Buches Danksagung Zur Relevanz der Statistik...

Forschungsmethoden in der Sozialen Arbeit

7. Grenzwertsätze. Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012

Übung Algorithmen und Datenstrukturen

Adaptive Systeme. Prof. Dr.-Ing. Heinz-Georg Fehn Prof. Dr. rer. nat. Nikolaus Wulff

Voraussetzung für statistische Auswertung: jeder Fall besitzt in bezug auf jedes Merkmal genau eine Ausprägung

Willkommen zur Vorlesung Statistik

I. Zahlen, Rechenregeln & Kombinatorik

Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management

Stetige Verteilungen Rechteckverteilung

Mathematische und statistische Methoden II

Zufallsvariable: Verteilungen & Kennzahlen

Statistik I für Betriebswirte Vorlesung 9

Deskriptive Statistik Lösungen zu Blatt 1 Christian Heumann, Susanne Konrath SS Lösung Aufgabe 1

Stochastik I. Vorlesungsmitschrift

Aufgabenstellung und Ergebnisse zur. Bachelor-Prüfung Deskriptive Statistik und Wahrscheinlichkeitsrechnung Wintersemester 2015/16. Dr.

Kapitel 5. Univariate Zufallsvariablen. 5.1 Diskrete Zufallsvariablen

Kapitel VIII - Mehrdimensionale Merkmale

Scheinklausur zur Vorlesung Stochastik II

4. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren)

Exponentialverteilung

Mathematische und statistische Methoden II

Wirtschaftsmathematik

Sortieralgorithmen. Jan Pöschko. 18. Januar Problemstellung Definition Warum Sortieren?... 2

1.5 Erwartungswert und Varianz

2 Häufigkeitsverteilungen

Lagemaße Übung. Zentrale Methodenlehre, Europa Universität - Flensburg

Wahrscheinlichkeitstheorie 2

3 Häufigkeitsverteilungen

Stochastik. 1. Wahrscheinlichkeitsräume

3 Häufigkeitsverteilungen

Eindimensionale Zufallsvariablen

4. Kumulierte Häufigkeiten und Quantile

Statistikpraktikum. Carsten Rezny. Sommersemester Institut für angewandte Mathematik Universität Bonn

Einführung in die Wahrscheinlichkeitsrechnung

Softwareprojektpraktikum Maschinelle Übersetzung

Statistik für Ingenieure Vorlesung 2

Mathematische Statistik Aufgaben zum Üben. Schätzer

Philipp Sibbertsen Hartmut Lehne. Statistik. Einführung für Wirtschafts- und. Sozialwissenschaftler. 2., überarbeitete Auflage. 4^ Springer Gabler

Verteilungen und ihre Darstellungen

4. Kumulierte Häufigkeiten und Quantile

Transkript:

Wahrscheinlichkeitsrechnung und mathematische Statistik für Informatiker Dr. Nils Raabe Technische Universität Dortmund

Statistische Methoden spielen in der Informatik eine große Rolle. Beispiele: Laufzeiten von Algorithmen mit stochastischem Input Stochastische Algorithmen Spieltheorie Ausfälle von Datenverbindungen oder Hardwarekomponenten Automatische Übersetzung Assoziationsregeln, Bilderkennung, Signalanalyse, 2

Laufzeiten von Algorithmen mit stochastischem Input: Beispiel Sortieralgorithmen: Bubblesort und Quicksort bubblesort(field A, int l, int r) { for i:=r downto l+1 do pipelined { for j:=l to i-1 do { if (A[j] > A[j+1]) then { exchange(a[j], A[j+1]); } } } } 3

Laufzeiten von Algorithmen mit stochastischem Input: Beispiel Sortieralgorithmen: Bubblesort und Quicksort quicksort(field A, int l, int r) { if (l < r) then { q:= partition(a, l, r); do parallel { quicksort(a, l, q); quicksort(a, q+1, r); } } } int partition(field A, int l, int r) { x:= A[(l+r) div 2]; i:= l-1; j:= r+1; for ever do { do { j--; } while (A[j] > x); do { i++; } while (A[i] < x); if (i < j) then { exchange(a[i], A[j]); } else { return j; } } } 4

Laufzeiten von Algorithmen mit stochastischem Input: Beispiel Sortieralgorithmen: Bubblesort und Quicksort 5

Laufzeiten von Algorithmen mit stochastischem Input: Beispiel Sortieralgorithmen: Bubblesort und Quicksort 6

Laufzeiten von Algorithmen mit stochastischem Input: Beispiel Sortieralgorithmen: Bubblesort und Quicksort 7

Laufzeiten von Algorithmen mit stochastischem Input: Beispiel Sortieralgorithmen: Bubblesort und Quicksort Summen Vertauschungen und Vergleiche (n=20) Gleichverteilte Permutationen Permutationen mit geordneter Liste korreliert 8

Stochastische Algorithmen Beispiele: Quicksortkann bei vorsortierten Listen durch zufällige Pivot-Wahl verbessert werden. Evolutionäre Algorithmen Initiale Generation durch Zufallsauswahl und Bewertung der Individuen Aktuelle Generation Bewertung Zufällige Elternselektion, Rekombination, Mutation nein Abbruch? ja Ausgabe bester gefundener Lösung 9

Stochastische Algorithmen Beispiel Evolutionäre Algorithmen: Map-Labeling Initiale Generation durch Zufallsauswahl und Bewertung der Individuen: Aktuelle Generation Bewertung Dortmund Berlin Hannover Frankfurt Dortmund HannoverBerlin Frankfurt Dortmund HannoverBerlin Frankfurt Dortmund HannoverBerlin Frankfurt Beste Lösung Dortmund HannoverBerlin Frankfurt 10

Stochastische Algorithmen Beispiel Evolutionäre Algorithmen: Map-Labeling Zufällige Elternselektion, Rekombination, Mutation Dortmund Berlin Hannover Frankfurt Papa Dortmund HannoverBerlin Frankfurt Mama Kind Dortmund Berlin Hannover Frankfurt Beste Lösung Dortmund HannoverBerlin Frankfurt 11

Stochastische Algorithmen Beispiel Evolutionäre Algorithmen: Map-Labeling Aktuelle Generation Bewertung Dortmund Berlin Hannover Frankfurt Dortmund HannoverBerlin Frankfurt Dortmund Berlin Hannover Frankfurt Dortmund Berlin Hannover Frankfurt Beste Lösung Dortmund Berlin Hannover Frankfurt 12

Spieltheorie Beispiel Zwei-Spieler-Nullsummenspiel Strategien p 1 und p 2 für Züge d 1 und d 2 Verlustfunktion für Spieler 1: L(d 1, d 2 ) Risikofunktion für Spieler 1 bei Verwendung der Strategie p 1 : R(p 1, d 2 ) = E d2 L(p 1, d 2 ) Minimax-Strategie p * 1für Spieler 1: * sup R(p 1, d2) inf p sup d R(p 1, d2 d = 2 1 2 ) 13

Spieltheorie Beispiel Schere, Stein, Papier Strategien=Wahrscheinlichkeiten p 1 =(p 1S, p 1T, p 1P ) und p 2 =(p 2S, p 2T, p 2P ) für Züge d 1 aus {S, T, P} und d 2 aus {S, T, P}. Verlustfunktion für Spieler 1: L(d 1, d 2 )= d 2 =S d 2 =T d 2 =P d 1 =S 0 +1-1 d 1 =T -1 0 +1 d 1 =P +1-1 0 Risikofunktion für Spieler 1: R(p 1, d 2 ) = +p 1S I d2=t -p 1S I d2=p -p 1T I d2=s + p 1T I d2=p + p 1P I d2=s -p 1P I d2=t 14

Spieltheorie Beispiel Schere, Stein, Papier Risikofunktion für Spieler 1: R(p 1, d 2 ) = +p 1S I d2=t -p 1S I d2=p -p 1T I d2=s + p 1T I d2=p + p 1P I d2=s -p 1P I d2=t d 2 R(p 1,d 2 ) p 1S <p 1T <p 1P p 1S <p 1P <p 1T p 1T <p 1S <p 1P p 1T <p 1P <p 1S p 1P <p 1S <p 1T p 1P <p 1T <p 1S S -p 1T +p 1P >0 <0 >0 >0 <0 <0 T +p 1S -p 1P <0 <0 <0 >0 >0 >0 P -p 1S +p 1T >0 >0 <0 <0 >0 <0 Minimax-Strategie p * 1= (1/3, 1/3, 1/3) für Spieler 1, da R(p * 1, d 2 ) = 0 unabhängig von d 2. 15

Spieltheorie Beispiel Schere, Stein, Papier Minimax-Strategie p * 1= (1/3, 1/3, 1/3) für Spieler 1, da R(p * 1, d 2 ) = 0 unabhängig von d 2. Falls Spieler 2 ebenfalls die Minimax-Strategie wählt, gilt p * 2= p * 1. Falls Spieler 1 Strategie p 2 kennt und Spieler 2 diese unter keinen Umständen ändert, kann Spieler seine verlustminimierende Strategie anpassen, indem er deterministisch denjenigen Zug wählt, der den von Spieler 2 am wahrscheinlichsten ausgewählten Zug schlägt. Dies gilt auch, falls Spieler 2 die Minimax-Strategie spielt! 16

Spieltheorie Beispiel Schere, Stein, Papier Erweiterung um Brunnen Verlustfunktion für Spieler 1: L(d 1, d 2 )= d 2 =S d 2 =T d 2 =P d 2 =B d 1 =S 0 +1-1 +1 d 1 =T -1 0 +1 +1 d 1 =P +1-1 0-1 d 1 =B -1-1 +1 0 Brunnen dominiert Stein, daher ist Minimax-Strategie p * 1= (1/3, 0, 1/3, 1/3) 17

Spieltheorie Knobelspiel mit 5 Zeichen Verlustfunktion für Spieler 1: L(d 1, d 2 )= d 2 =A d 2 =B d 2 =C d 2 =D d 2 =E d 1 =A 0-1 -1-1 +1 d 1 =B +1 0 +1-1 -1 d 1 =C +1-1 0 +1-1 d 1 =D +1 +1-1 0-1 d 1 =E -1 +1 +1 +1 0 Minimax-Strategie p * 1= (1/3, 1/9, 1/9, 1/9, 1/3) 18

Spieltheorie Memory n = Verbleibende Kartenpaare k = Bereits aufgedeckte Karten Optimale Strategie unter Annahme perfekter Gedächtnisse nach Zwick und Paterson: A A L G C K E C F I B H F J L D H I E K B J G D, falls 3k 2(n+1) und n+k gerade, falls k 1 und n+k gerade oder (n, k) = (6, 1), sonst 19

Ausfälle von Hardwarekomponenten Lebensdauerverteilungen von Elektrolytkondensatoren Survivalfunktion: Hazardfunktion: S(t) = P(T > t) = 1-F(t) P(t T < t + δt) h(t) = limδt = δt f(t) S(t) 20

Ausfälle von Hardwarekomponenten Lebensdauerverteilungen von Elektrolytkondensatoren Konstante Hazardrate h(t) = λ Exponentialverteilte Lebensdauern: -λt f(t) =λe 21

Ausfälle von Hardwarekomponenten Lebensdauerverteilungen von Elektrolytkondensatoren Fallende Hazardrate der Form log(h(t)) = ν+ρ log(t) Weibullverteilte Lebensdauern: f(t) = k λ t λ k 1 e k (t/λ) mit und k = ρ + 1 λ = e (log(k)-ν)/k 22

Ausfälle von Hardwarekomponenten Lebensdauerverteilungen von Elektrolytkondensatoren Steigende Hazardrate der Form log(h(t)) = ν+ρ log(t) Weibullverteilte Lebensdauern: f(t) = k λ t λ k 1 e k (t/λ) mit und k = ρ + 1 λ = e (log(k)-ν)/k 23

Ausfälle von Hardwarekomponenten Lebensdauerverteilungen von Elektrolytkondensatoren Alternierende Hazardrate durch Kombination. Unterscheidung der Ausfälle in Früh-, Zufalls- und Verschleißausfälle 24

Ausfälle von Hardwarekomponenten Lebensdauerverteilungen von Elektrolytkondensatoren Einfluss der Temperatur auf die Lebensdauer: Proportional Hazards Modell log(h (t)) = log(h (t)) + i 0 βx i 25

Ausfälle von Hardwarekomponenten Lebensdauerverteilungen von Elektrolytkondensatoren Einfluss der Temperatur auf die Lebensdauer: Proportional Hazards Modell log(h (t)) = log(h (t)) + i 0 βx i β = 0.298 β = 0 26

Ausfälle von Hardwarekomponenten Lebensdauerverteilungen von Elektrolytkondensatoren Einfluss der Temperatur auf die Lebensdauer: Proportional Hazards Modell log(h (t)) = log(h (t)) + i 0 βx i x = 20 x = 25 x =30 27

Ausfälle von Hardwarekomponenten Lebensdauerverteilungen von Elektrolytkondensatoren Einfluss der Temperatur auf die Lebensdauer: Proportional Hazards Modell log(h (t)) = log(h (t)) + i 0 βx i 28

Automatische Übersetzung Statistische Übersetzung auf Basis von Paralleltext Satz von Bayes: P(D) P(E D) P(D E) = P(E) Wahrscheinlichste Übersetzung von e: dˆ = argmax P(d e) d d: Wie fühlen Sie sich? e: How do you feel? 29

Automatische Übersetzung Statistische Übersetzung auf Basis von Paralleltext Direkte Schätzung der Wahrscheinlichkeiten schwer bei seltenen und unmöglich bei unbekannten Sätzen. Darum: Word Alignments d: Wie fühlen Sie sich? m = 4 e: How do you feel? l = 4 a: 1 (2,4) 3 0 30

Automatische Übersetzung Statistische Übersetzung auf Basis von Paralleltext Direkte Schätzung der Wahrscheinlichkeiten schwer bei seltenen und unmöglich bei unbekannten Sätzen. Darum: Word Alignments d: Wie fühlen fühlen Sie sich? m = 5 e: How do you feel? l = 4 a: 1 2 4 3 0 31

Automatische Übersetzung Statistische Übersetzung auf Basis von Paralleltext IBM Modell 1 P(d, a e) ε = (l+ 1) m t(dj ea ) m j j= 1 Schätzung von Alignments und Übersetzungen durch EM-Algorithmus: 0. Initialisierung von Alignment-Verteilungen 1. Bestimmung von Wortübersetzungsverteilungen auf Basis der (a priori) Alignment-Verteilungen. 2. Bestimmung von (a posteriori) Alignment-Verteilungen und Wortübersetzungsverteilungen 3. -> 1. mit aktualisierten Verteilungen 32

Automatische Übersetzung Statistische Übersetzung auf Basis von Paralleltext e 1 d 1 e 2 d 2 He Er She Sie feels fühlt feels fühlt 0. Alignments gleichwahrscheinlich 1. Wortübersetzungsverteilungen P(Er He) = P(Sie She) = 1/2 P(fühlt He) = P(fühlt She) = 1/2 P(Er feels) = P(Sie feels) = 1/4 P(fühlt feels) = 1/2 Alignments: a 1 a 2 a 3 a 4 33

Automatische Übersetzung Statistische Übersetzung auf Basis von Paralleltext e 1 d 1 e 2 d 2 He Er She Sie Alignments: a 1 feels fühlt feels fühlt 2. A posteriori Alignmentverteilungen P(d 1,a 1 e 1 ) = P(Er He) P(fühlt feels) = 1/4 P(d 1,a 2 e 1 ) = P(Er He) P(fühlt He) = 1/4 P(d 1,a 3 e 1 ) = P(Er feels) P(fühlt feels) = 1/8 P(d 1,a 4 e 1 ) = P(Er feels) P(fühlt He) = 1/8 P(a i e 1 ) = P(d 1,a i e 1 )/[P(d 1,a 1 e 1 )+P(d 1,a 2 e 1 )+P(d 1,a 3 e 1 )+P(d 1,a 4 e 1 )] a 2 a 3 a 4 34

Automatische Übersetzung Statistische Übersetzung auf Basis von Paralleltext 2. A posteriori Alignmentverteilungen P(a 1 e 1 ) = 1/3 P(a 2 e 1 ) = 1/3 P(a 3 e 1 ) = 1/6 P(a 4 e 1 ) = 1/6 e 1 d 1 e 2 d 2 He Er She Sie feels fühlt feels fühlt Alignments: a 1 a 2 a 3 a 4 35

Automatische Übersetzung Statistische Übersetzung auf Basis von Paralleltext e 1 d 1 e 2 d 2 He Er She Sie feels fühlt feels fühlt 1. A posteriori Wortübersetzungsverteilungen P(Er He) = P(Sie She) = 4/7 P(fühlt He) = P(fühlt She) = 3/7 P(Er feels) = P(Sie feels) = 1/5 P(fühlt feels) = 3/5 Alignments: a 1 a 2 a 3 a 4 36

Automatische Übersetzung Statistische Übersetzung auf Basis von Paralleltext 2. A posteriori Alignmentverteilungen P(d 1,a 1 e 1 ) = P(Er He) P(fühlt feels) = 12/35 P(d 1,a 2 e 1 ) = P(Er He) P(fühlt He) = 12/49 P(d 1,a 3 e 1 ) = P(Er feels) P(fühlt feels) = 3/25 P(d 1,a 4 e 1 ) = P(Er feels) P(fühlt He) = 3/35 usw. e 1 d 1 e 2 d 2 He Er She Sie feels fühlt feels fühlt Alignments: a 1 a 2 a 3 a 4 37

Merkmale und Datentypen Einzelobjekte (Untersuchungseinheiten, Merkmalsträger) Statistische Gesamtheit (Kollektiv, Population) Merkmal Form Farbe Linienart Merkmalsausprägungen Ellipse, Ellipse, Ellipse, Rechteck, Rechteck, Ellipse Rot,Blau, Grün, Rot, Gelb, Blau Durchgängig, Gepunktet, Gepunktet, Durchgängig, Gestrichelt, Gestrichelt Wertebereich {Ellipse, Rechteck} {Blau, Gelb, Grün, Rot} {Gepunktet, Gestrichelt, Durchgängig} Breite in cm 2, 1, 1, 2, 1, 3 (0, ) Höhe in cm 1, 1, 2, 2, 3, 1 (0, ) 38

Merkmale und Datentypen Datentypen Skalentyp mögliche Aussagen Im Beispiel qualitativ Nominal Gleich / Verschieden Farbe, Form(binär, dichotom) Ordinal Größer / Kleiner Linienart Intervall Differenzen Breite, Höhe, gleich / verschieden Form quantitativ / metrisch Verhältnis Verhältnisse Breite, Höhe gleich / verschieden 39

Merkmale und Datentypen Datentypen Merkmalstyp Anzahl der Ausprägungen Im Beispiel Diskret Endlich oder abzählbar Form unendlich viele Breite, Höhe (wenn grob gemessen) Stetig Überabzählbar viele Breite, Höhe (wenn fein gemessen) 40

Merkmale und Datentypen Datentypen Merkmalstyp Qualitativ Quantitativ binär Nominal Ordinal Diskret Stetig 41

Tabellarische und grafische Darstellung von univariaten Daten Qualitative Daten M N = {e 1,, e N } X x, x W X W X = {x(j) j = 1,..., J} = {x(1),...,x(j)} Populationbestehend aus Objekten e 1,, e N Nominales bzw. ordinales Merkmal Merkmalsausprägungen von X Wertebereich von X mit Merkmalsausprägungen x(j), j = 1,..., J D N = {x n n= 1,, N} = {x 1,, x N } Urlisteaus der Messung von X in der Population M N, d.h. x n = X(e n ), n=1,, N x(1)< x(2) < < x(j) falls X ordinal 42

Tabellarische und grafische Darstellung von univariaten Daten Qualitative Daten: Beispiel Bearbeitungen von Softwareaufgaben Bearbeitung Bearbeiter(in) Aufgabe Version Anzahl Clicks Bearbeitungszeit e 1 Kai Export 1.1 14 8.0 e 2 Kai Verknüpfung 1.2 12 4.9 e 3 Miriam Export 1.1 12 6.6 e 4 Tina Verknüpfung 1.2 13 3.2 e 5 Oliver Export 2.0 17 3.9 e 6 Tina Export 1.2 11 4.5 e 7 Tina Verknüpfung 1.2 14 6.1 e 8 Miriam Export 1.2 10 3.7 e 9 Miriam Export 1.2 10 4.2 e 10 Oliver Abfrage 1.1 18 8.5 e 11 Oliver Verknüpfung 2.0 16 3.6 e 12 Oliver Abfrage 2.0 15 3.7 43

Tabellarische und grafische Darstellung von univariaten Daten Qualitative Daten: Beispiel Bearbeitungen von Softwareaufgaben Bearbeitung Bearbeiter(in) Aufgabe Version Anzahl Clicks Bearbeitungszeit e 1 Kai Export 1.1 14 8.0 e 2 Kai Verknüpfung 1.2 12 4.9 e 3 Miriam Export 1.1 12 6.6 e 4 Tina Verknüpfung 1.2 13 3.2 e 5 Oliver Export 2.0 17 3.9 e 6 Tina Export 1.2 11 4.5 e 7 Tina Verknüpfung 1.2 14 6.1 e 8 Miriam Export 1.2 10 3.7 e 9 Miriam Export 1.2 10 4.2 e 10 Oliver Abfrage 1.1 18 8.5 e 11 Oliver Verknüpfung 2.0 16 3.6 e 12 Oliver Abfrage 2.0 15 3.7 Objekte 44

Tabellarische und grafische Darstellung von univariaten Daten Qualitative Daten: Beispiel Bearbeitungen von Softwareaufgaben Bearbeitung Bearbeiter(in) Aufgabe Version Anzahl Clicks Bearbeitungszeit e 1 Kai Export 1.1 14 8.0 e 2 Kai Verknüpfung 1.2 12 4.9 e 3 Miriam Export 1.1 12 6.6 e 4 Tina Verknüpfung 1.2 13 3.2 e 5 Oliver Export 2.0 17 3.9 e 6 Tina Export 1.2 11 4.5 e 7 Tina Verknüpfung 1.2 14 6.1 e 8 Miriam Export 1.2 10 3.7 e 9 Miriam Export 1.2 10 4.2 e 10 Oliver Abfrage 1.1 18 8.5 e 11 Oliver Verknüpfung 2.0 16 3.6 e 12 Oliver Abfrage 2.0 15 3.7 5 Variablen 45

Tabellarische und grafische Darstellung von univariaten Daten Qualitative Daten: Beispiel Bearbeitungen von Softwareaufgaben Bearbeitung Bearbeiter(in) Aufgabe Version Anzahl Clicks Bearbeitungszeit e 1 Kai Export 1.1 14 8.0 e 2 Kai Verknüpfung 1.2 12 4.9 e 3 Miriam Export 1.1 12 6.6 e 4 Tina Verknüpfung 1.2 13 3.2 e 5 Oliver Export 2.0 17 3.9 e 6 Tina Export 1.2 11 4.5 e 7 Tina Verknüpfung 1.2 14 6.1 e 8 Miriam Export 1.2 10 3.7 e 9 Miriam Export 1.2 10 4.2 e 10 Oliver Abfrage 1.1 18 8.5 e 11 Oliver Verknüpfung 2.0 16 3.6 e 12 Oliver Abfrage 2.0 15 3.7 Qualitative Daten 46

Tabellarische und grafische Darstellung von univariaten Daten Qualitative Daten: Beispiel Bearbeitungen von Softwareaufgaben Bearbeitung Bearbeiter(in) Aufgabe Version Anzahl Clicks Bearbeitungszeit e 1 Kai Export 1.1 14 8.0 e 2 Kai Verknüpfung 1.2 12 4.9 e 3 Miriam Export 1.1 12 6.6 e 4 Tina Verknüpfung 1.2 13 3.2 e 5 Oliver Export 2.0 17 3.9 e 6 Tina Export 1.2 11 4.5 e 7 Tina Verknüpfung 1.2 14 6.1 e 8 Miriam Export 1.2 10 3.7 e 9 Miriam Export 1.2 10 4.2 e 10 Oliver Abfrage 1.1 18 8.5 e 11 Oliver Verknüpfung 2.0 16 3.6 e 12 Oliver Abfrage 2.0 15 3.7 D N;1, N=12 X 1 = Bearbeiter(in) W X1 = {Kai, Miriam, Oliver, Tina} J 1 = 4 47

Tabellarische und grafische Darstellung von univariaten Daten Qualitative Daten: Beispiel Bearbeitungen von Softwareaufgaben Bearbeitung Bearbeiter(in) Aufgabe Version Anzahl Clicks Bearbeitungszeit e 1 Kai Export 1.1 14 8.0 e 2 Kai Verknüpfung 1.2 12 4.9 e 3 Miriam Export 1.1 12 6.6 e 4 Tina Verknüpfung 1.2 13 3.2 e 5 Oliver Export 2.0 17 3.9 e 6 Tina Export 1.2 11 4.5 e 7 Tina Verknüpfung 1.2 14 6.1 e 8 Miriam Export 1.2 10 3.7 e 9 Miriam Export 1.2 10 4.2 e 10 Oliver Abfrage 1.1 18 8.5 e 11 Oliver Verknüpfung 2.0 16 3.6 e 12 Oliver Abfrage 2.0 15 3.7 D N;2, N=12 X 2 = Aufgabe W X2 = {Abfrage, Export, Verknüpfung} J 2 = 3 48

Tabellarische und grafische Darstellung von univariaten Daten Qualitative Daten: Beispiel Bearbeitungen von Softwareaufgaben Bearbeitung Bearbeiter(in) Aufgabe Version Anzahl Clicks Bearbeitungszeit e 1 Kai Export 1.1 14 8.0 e 2 Kai Verknüpfung 1.2 12 4.9 e 3 Miriam Export 1.1 12 6.6 e 4 Tina Verknüpfung 1.2 13 3.2 e 5 Oliver Export 2.0 17 3.9 e 6 Tina Export 1.2 11 4.5 e 7 Tina Verknüpfung 1.2 14 6.1 e 8 Miriam Export 1.2 10 3.7 e 9 Miriam Export 1.2 10 4.2 e 10 Oliver Abfrage 1.1 18 8.5 e 11 Oliver Verknüpfung 2.0 16 3.6 e 12 Oliver Abfrage 2.0 15 3.7 D N;3, N=12 X 3 = Version W X3 = {1.1,1.2, 2.0}, 1.1 < 1.2 < 2.0 J 3 = 3 49

Tabellarische und grafische Darstellung von univariaten Daten Qualitative Daten: Deskriptive Auswertung Absolute HäufigkeitN j von x(j): Damit gilt x 1 (1) Kai J j= 1 x 1 (2) Miriam N j = N x 1 (3) Oliver x 1 (4) Tina 2 3 4 3 12 N j = N[x(j)] = Σ N i= 1 d(j), i d(j) = I i x(e ) = x(j) i X 1 (e i ) d 1i (1) d 1i (2) d 1i (3) d 1i (4) 1 Kai 1 0 0 0 2 Kai 1 0 0 0 3 Miriam 0 1 0 0 4 Tina 0 0 0 1 5 Oliver 0 0 1 0 6 Tina 0 0 0 1 7 Tina 0 0 0 1 8 Miriam 0 1 0 0 9 Miriam 0 1 0 0 10 Oliver 0 0 1 0 11 Oliver 0 0 1 0 12 Oliver 0 0 1 0 Σ 2 3 4 3 i 50

Tabellarische und grafische Darstellung von univariaten Daten Qualitative Daten: Deskriptive Auswertung Relative Häufigkeitf j von x(j): Damit gilt x 1 (1) Kai 2/12 0.17 J fj = 1 j= 1 x 1 (2) Miriam 3/12 = 0.25 x 1 (3) Oliver 4/12 0.33 x 1 (4) Tina 3/12 = 0.25 f j = N j N Σ 12/12 = 1 i X 1 (e i ) d 1i (1) d 1i (2) d 1i (3) d 1i (4) 1 Kai 1 0 0 0 2 Kai 1 0 0 0 3 Miriam 0 1 0 0 4 Tina 0 0 0 1 5 Oliver 0 0 1 0 6 Tina 0 0 0 1 7 Tina 0 0 0 1 8 Miriam 0 1 0 0 9 Miriam 0 1 0 0 10 Oliver 0 0 1 0 11 Oliver 0 0 1 0 12 Oliver 0 0 1 0 Σ/12 0.17 0.25 0.33 0.25 51

Tabellarische und grafische Darstellung von univariaten Daten Qualitative Daten: Deskriptive Auswertung Tabellarische Darstellung absoluter und relativer Häufigkeiten Ausprägung Absolute Häufigkeit Relative Häufigkeit x(1) N 1 f 1 = N 1 /N x(j) N J f J = N J /N J j= 1 N j = N J j= 1 f j = 1 52

Tabellarische und grafische Darstellung von univariaten Daten Qualitative Daten: Deskriptive Auswertung Tabellarische Darstellung absoluter und relativer Häufigkeiten Ausprägung Bearbeiter(in) Absolute Häufigkeit Relative Häufigkeit Kai 2 0.17 Miriam 3 0.25 Oliver 4 0.33 Tina 3 0.25 12 1 Ausprägung Aufgabe Absolute Häufigkeit Relative Häufigkeit Abfrage 2 0.17 Export 6 0.5 Verknüpfung 4 0.33 12 1 Ausprägung Version Absolute Häufigkeit Relative Häufigkeit 1.1 3 0.25 1.2 6 0.5 2.0 3 0.25 12 1 53

Tabellarische und grafische Darstellung von univariaten Daten Quantitativ diskrete Daten M N = {e 1,, e N } X x, x W X W X = {x(j) j = 1,..., J} = {x(1),...,x(j)} Populationbestehend aus Objekten e 1,, e N Quantitatives Merkmal Merkmalsausprägungen von X Wertebereich von X mit Merkmalsausprägungen x(j), j = 1,..., J D N = {x n n= 1,, N} = {x 1,, x N } Urlisteaus der Messung von X in der Population M N, d.h. x n = X(e n ), n=1,, N 54

Tabellarische und grafische Darstellung von univariaten Daten Quantitativ diskrete Daten: Beispiel Bearbeitungen von Softwareaufgaben Bearbeitung Bearbeiter(in) Aufgabe Version Anzahl Clicks Bearbeitungszeit e 1 Kai Export 1.1 14 8.0 e 2 Kai Verknüpfung 1.2 12 4.9 e 3 Miriam Export 1.1 12 6.6 e 4 Tina Verknüpfung 1.2 13 3.2 e 5 Oliver Export 2.0 17 3.9 e 6 Tina Export 1.2 11 4.5 e 7 Tina Verknüpfung 1.2 14 6.1 e 8 Miriam Export 1.2 10 3.7 e 9 Miriam Export 1.2 10 4.2 e 10 Oliver Abfrage 1.1 18 8.5 e 11 Oliver Verknüpfung 2.0 16 3.6 e 12 Oliver Abfrage 2.0 15 3.7 D N;4, N=12 X 4 = Anzahl Clicks W X4 = {0, 1,, 10, 11, 12, 13, 14, 15, 16, 17, 18,, } J 4 = 55

Tabellarische und grafische Darstellung von univariaten Daten Quantitativ diskrete Daten: Deskriptive Auswertung Absolute HäufigkeitN j und relative Häufigkeit f j analog zu qualitativen Daten j #{xn xn x(j)} Relative Summenhäufigkeit sj = fk = N k= 1 Ausprägung Absolute Häufigkeit Relative Häufigkeit Relative Summenhäufigkeit x(1) N 1 f 1 = N 1 /N f 1 x(2) N 2 f 2 = N 2 /N f 1 + f 2 x(j-1) N J-1 f J-1 = N J-1 /N f 1 + + f J-1 x(j) N J f J = N J /N f 1 + + f J = 1 J j= 1 N j = N J j= 1 f j = 1 56

Tabellarische und grafische Darstellung von univariaten Daten Quantitativ diskrete Daten: Deskriptive Auswertung Anzahl Clicks Ausprägung Absolute Häufigkeit Relative Häufigkeit Relative Summenhäufigkeit 0-9 0 0 0 10 2 0.167 0.167 11 1 0.083 0.25 12 2 0.167 0.417 13 1 0.083 0.5 14 2 0.167 0.667 15 1 0.083 0.75 16 1 0.083 0.833 17 1 0.083 0.917 18 1 0.083 1 19-0 0 1 12 1 57

Tabellarische und grafische Darstellung von univariaten Daten Quantitativ diskrete Daten: Deskriptive Auswertung Grafische Darstellung: Empirische Verteilungsfunktion F (x) = sj 0 ~,mitj = max{ j x( j) N j = fk ~ k= 1 x} falls falls x < x(1) x(1) x f 1 + f 2 + f 3 + f 4 + f 5 = 1 = s 5 f 1 + f 2 + f 3 + f 4 = s 4 f 1 + f 2 + f 3 = s 3 f 4 f 5 f 1 + f 2 = s 2 f 1 = s 1 0 f 1 f 2 f 3 x 58

Tabellarische und grafische Darstellung von univariaten Daten Quantitativ stetige Daten M N = {e 1,, e N } X x, x W W X U J X = (-, ) = K j j= 1 K j = ( v j-1, v j ], j = 1,, J-1 K J = ( v J-1, v J ) D N = {x n n= 1,, N} = {x 1,, x N } Populationbestehend aus Objekten e 1,, e N Quantitatives Merkmal Merkmalsausprägungen von X Klassierter(kategorisierter) Wertebereich von X Merkmalsklassen mit Klassengrenzen - = v 0 < v 1 < < v J-1 < v J = Urlisteaus der Messung von X in der Population M N, d.h. x n = X(e n ), n=1,, N 59

Tabellarische und grafische Darstellung von univariaten Daten Quantitativ stetige Daten: Beispiel Bearbeitungen von Softwareaufgaben Bearbeitung Bearbeiter(in) Aufgabe Version Anzahl Clicks Bearbeitungszeit e 1 Kai Export 1.1 14 8.0 e 2 Kai Verknüpfung 1.2 12 4.9 e 3 Miriam Export 1.1 12 6.6 e 4 Tina Verknüpfung 1.2 13 3.2 e 5 Oliver Export 2.0 17 3.9 e 6 Tina Export 1.2 11 4.5 e 7 Tina Verknüpfung 1.2 14 6.1 e 8 Miriam Export 1.2 10 3.7 e 9 Miriam Export 1.2 10 4.2 e 10 Oliver Abfrage 1.1 18 8.5 e 11 Oliver Verknüpfung 2.0 16 3.6 e 12 Oliver Abfrage 2.0 15 3.7 D N;5, N=12 X 5 = Bearbeitungszeit W X5 = (-, ) = (-, 4] U (4, 5] U U (7, 8] U (8, ) = J 5 = 6 (,4] U 4 U j= 1 (j+ 3, j+ 4] U (8, ) 60

Tabellarische und grafische Darstellung von univariaten Daten Quantitativ stetige Daten: Deskriptive Auswertung Klassierte Häufigkeitsverteilung Klasse K j Absolute Häufigkeit Relative Häufigkeit Relative Summenhäufigkeit K 1 = (v 0, v 1 ] N(K 1 ) f(k 1 ) = N(K 1 )/N f(k 1 ) K 2 = (v 1, v 2 ] N(K 2 ) f(k 2 ) = N(K 2 )/N f(k 1 ) + f(k 2 ) K J-1 = (v J-2, v J-1 ] N(K J-1 ) f(k J-1 )= N(K J-1 )/N f(k 1 ) + + f(k J-1 ) K J-1 = (v J-1, v J ) N(K J ) f(k J )= N(K J )/N f(k 1 ) + + f(k J )= 1 J j= 1 N(K ) = N j J j= 1 f(kj) = 1 N(K j ) = #{x x Kj} = #{x vj 1 < x v J } 61

Tabellarische und grafische Darstellung von univariaten Daten Quantitativ stetige Daten: Deskriptive Auswertung Bearbeitungszeit Klasse Absolute Häufigkeit Relative Häufigkeit Relative Summenhäufigkeit K 1 = (-, 4] 5 0.417 0.417 K 2 = (4, 5] 3 0.25 0.667 K 3 = (5, 6] 0 0 0.667 K 4 = (6, 7] 2 0.167 0.833 K 5 = (7, 8] 1 0.083 0.917 K 6 = (8, ) 1 0.083 1 12 1 62

Tabellarische und grafische Darstellung von univariaten Daten Quantitativ stetige Daten: Deskriptive Auswertung Grafische Darstellung: Histogramm Aufbauend auf klassierter Häufigkeitsverteilung, allerdings v 0 - und v J. 0.20 0.15 0.10 b 2 =2 b 3 =1 h 2 =0.2 f(k 2 ) f(k 3 ) h 3 =0.2 = 0.4 =0.2 b 5 =1 Flächen der Rechtecke zu K j entsprechen f(k j ). Rechteckbreiten sind gegeben durch b j = v j -v j-1. Damit ergeben sich als Rechteckhöhen h j = f(k j )/b j 0.05 h 1 =0.05 b 1 =4 f(k 1 ) = 0.2 b 4 =2 f(k 4 ) =0.1 f(k 5 ) =0.1 h 5 =0.1 2 4 6 8 =0.05 10 h 4 63

Tabellarische und grafische Darstellung von univariaten Daten Quantitativ stetige Daten: Deskriptive Auswertung Grafische Darstellung: Histogramm Üblicherweise gleiche Klassenbreiten. 0.20 0.15 0.10 h 3 =0.2 b=2 f(k 3 )=0.4 f(k 4 )=0.25 h 4 =0.125 Flächen der Rechtecke zu K j entsprechen f(k j ). Rechteckbreiten sind gegeben durch b= v j -v j-1. Damit ergeben sich als Rechteckhöhen h j = f(k j )/b 0.05 h 2 =0.075 f(k 2 )=0.15 f(k 5 )=0.15 h 5 =0.075 h 1 =0.025 f(k 1 )=0.05 2 4 6 8 10 64