Statistik und Wahrscheinlichkeitsrechnung Dr. Jochen Köhler 26.02.2008 1
Warum Statistik und Wahrscheinlichkeits rechnung im Ingenieurwesen? Zusammenfassung der letzten Vorlesung Statistik und Wahrscheinlichkeitsrechnung ist im Ingenieurwesen notwendig, um: Unsicherheiten im Zusammenhang mit Ingenieurmodellen zu quantifizieren. die Ergebnisse von Experimenten zu dokumentieren und zu bewerten. die Wichtigkeit von unsicheren Einflussgrössen beurteilen zu können. effiziente Entscheidungen treffen zu können. 26.02.2008 2
Aufbau der Vorlesung 26.02.2008 3
Karten Warm up Was studieren Sie? Bauwesen Geodäsie Umwelt
Kleine Denkaufgabe 21 2.1 Welchen Nutzen hat Statistik und Wahrscheinlichkeitsrechnung im Ingenieurwesen? Im Ingenieurwesen keinen nützt höchstens dem Verständnis von Wahlergebnissen. Ermöglicht Entscheidungsfindung bei aussergewöhnlichen Fragestellungen. Weiss nicht
Inhalte der heutigen Vorlesung Ziel: Daten Modellbildung Probabilistisches Modell Im ersten Schritt werden wir die Daten nur beschreiben: numerisch Wahrscheinlichkeit h hk it Konsequenzen von Ereignissen von Ereignissen Risiken grafisch Entscheidungsfindung 26.02.2008 6
Inhalte der heutigen Vorlesung Überblick der beschreibenden Statistik Numerische Zusammenfassungen Mit welchen einfachen Zahlen können Datenmengen charakterisiert werden? Grafische DarstellungvonDatenmengen Datenmengen Wie werden Datenmengen informativ in Grafiken umgesetzt? 26.02.2008 7
Ziel der beschreibenden Statistik Beschreiben von Datenmengen 26.02.2008 8
Vorbemerkung Stichprobe und Grundgesamtheit Die statistischen Eigenschaften einer Grundgesamtheit werden anhand von Stichproben untersucht. Z.B.: Die Grundgesamtheit aller Studierenden, welche für Statistik und Wahrscheinlichkeitsrechnung eingeschrieben sind, ist m = 199. Stichprobe von letzter Woche, n = 191. 26.02.2008 9
Vorbemerkung Stichprobe und Grundgesamtheit Die statistischen Eigenschaften einer Grundgesamtheit werden anhand von Stichproben untersucht. Z.B.: Biegezähigkeit von Büroklammern, m =. Stichprobe, n = 190 26.02.2008 10
Vorbemerkung Stichprobe und Grundgesamtheit Die statistischen Eigenschaften einer Grundgesamtheit werden anhand von Stichproben untersucht. Damit tdest die Stichprobe die degu Grundgesamtheit etrepräsentiert, e t, müssen die Stichproben zufällig aus der Grundgesamtheit entnommen werden. 26.02.2008 11
Vorbemerkung Skalenniveau Nominalskala: Qualitative Eigenschaften, welche nicht der Grösse nach sortiert werden können. 26.02.2008 12
Vorbemerkung Skalenniveau Ordinalskala: Qualitative Eigenschaften, welche der Grösse nach sortiert werden können über den Abstand zwischen den Eigenschaften lässt sich nichts aussagen. (Schulnoten, Ligatabelle) Intervallskala: Quantitative Eigenschaften, sortierbar, der Abstand zwischen zwei Werten lässt sich sachlich begründen. Nullpunkt willkürlich festgelegt. (Temperatur in C, Jahreszahlen) Verhältnisskala: Wie Intervallskala, aber mit absolutem Nullpunkt (Temperatur in Kelvin, Kli Festigkeit, it Körpergrösse) ö 26.02.2008 13
Ziel der beschreibenden Statistik Beschreiben von Datenmengen Zahlen Grafiken Keine Annahmen nur Beschreibung!! 26.02.2008 14
Datenbeschreibung Zusammenfassen zu nur einer Zahl Arithmetisches Mittel: 1 x = n x = n i= 1 Für einen Datensatz: ( ) 1 2 x i x, x,..., x n T Um eine Stichprobe nur mit Hilfe einer Zahl zu beschreiben, wird normalerweise der Stichproben Mittelwert verwendet. 26.02.2008 15
Datenbeschreibung Einfache graphische Darstellung von Stichproben Eindimensionales Streudiagramm: Guter Datenüberblick (Maximum, Minimum). Vorsicht bei diskret verteilten Daten! 26.02.2008 16
Datenbeschreibung Einfache graphische Darstellung von Stichproben Eindimensionales Streudiagramm: Mittelwert = 178.3 n 1 Der Stichprobenmittelwert x = x i entspricht dem Schwerpunkt Schwerpunkt der Daten. n i= 1 26.02.2008 17
Datenbeschreibung Einfache graphische Darstellung von Stichproben Histogramm: Einteilung der Datenreihe inklassen Klassen. Darstellung der Grösse der Klassen. zb z.b. die Körpergrösse Klassen Anzahl 150 < x 160 6 160 < x 170 26 170 < x 180 79 180 < x 190 74 190 < x 200 6 n = 191 26.02.2008 18
Datenbeschreibung Einfache graphische Darstellung von Stichproben Histogramm: Klassen Anzahl 150 < x 160 6 160 < x 170 26 170 < x 180 79 180 < x 190 74 190 < x 200 6 n = 191 26.02.2008 19
Datenbeschreibung Neben dem Mittelwert gibt es noch andere sog. Lagemasse: Der Median oder Zentralwert x ist der mittlere Wert einer nach der Grösse geordneten Stichprobe o o o. x1 x2... x n x x n + 1 n ungerade 2 = 1 xn + xn n gerade 2 + 1 2 2 Beispiele: [ 23 30 31 33 120 ] [ 23 30 31 33 ] 26.02.2008 20
Datenbeschreibung Neben dem Mittelwert gibt es noch andere sog. Lagemasse: Der Median oder Zentralwert x ist der mittlere Wert einer nach der Grösse geordneten Stichprobe o o o. x1 x2... x n 26.02.2008 Median = 178.0 Mittelwert = 178.3 21
Datenbeschreibung Neben dem Mittelwert gibt es noch andere sog. Lagemasse: Der Modus oder Modalwert ist der am häufigsten auftretende Wert bei kontinuierlichen Wertemengen u.a. aus Histogramm ersichtlich. Modus 26.02.2008 Median = 178.0 Mittelwert = 178.3 22
Datenbeschreibung Streumasse Streuung um den Mittelwert Die Varianz der Stichprobe s = ( xi x ) n 2 1 n i= 1 2 Die Standardabweichung der Stichprobe n 1 s = ( x x) n i = 1 i 2 Der Variationskoeffizient der Stichprobe (relative Streuung) ν = s x 26.02.2008 23
Datenbeschreibung Streumasse Streuung um den Mittelwert Varianz s = n 2 1 n i= 1 ( xi x ) 2 2 Standardabweichung s= ( x x) COV 1 n n i = 1 i ν = s x Beispiel x = 178.3 [cm] x = 71.2 [kg] 2 2 = 2 2 s 61.65 [cm ] s = 86.11 [kg ] s = 7.85 [cm] s = 9.28 [kg] ν = 0.04 [-] ν = 0.13 [-] 26.02.2008 24
Datenbeschreibung Streumasse Streuung um den Mittelwert Der Schiefekoeffizient der Stichprobe > Mass für die Asymmetrie η = 1 n n i= 1 ( x i s 3 x ) 3 Beispiel η = 0.36 η = 0.1 Linksschief Rechtsschief 26.02.2008 25
Datenbeschreibung Streumasse Streuung um den Mittelwert Kurtosis der Stichprobe: ( xi 1 i= 1 > Mass für die Wölbung κ = 4 n s Beispiel n x ) 4 κ = 3.05 κ = 3.04 26.02.2008 26
Datenbeschreibung Beschreibung von paarweise beobachteten Eigenschaften x = (,,,..., ) x 1, x 2, x 3,, x n T y = y, y, y,..., y n ( ) 1 2 3 T 26.02.2008 27
Datenbeschreibung Beschreibung von paarweise beobachteten Eigenschaften Das zweidimensionale Streudiagramm 26.02.2008 28
Datenbeschreibung Beschreibung von paarweise beobachteten Eigenschaften Das zweidimensionale Streudiagramm 26.02.2008 29
Datenbeschreibung Beschreibung von paarweise beobachteten Eigenschaften Die Kovarianz: n 1 s = ( x x) ( y y) XY i i n i = 1 x Körpergrösse x = 178.3 cm y Gewicht y = 71.2 kg 26.02.2008 30
Datenbeschreibung Beschreibung von paarweise beobachteten Eigenschaften Die Kovarianz: n 1 s = ( x x) ( y y) = 50.8 XY i i n i = 1 x Körpergrösse x = 178.3 cm y Gewicht y = 71.2 kg 26.02.2008 31
Datenbeschreibung Beschreibung von paarweise beobachteten Eigenschaften Die Kovarianz: n 1 s = ( x x) ( y y) XY i i n i = 1 Der Korrelationskoeffizient: r XY = 1 n n i=1 ( x i x ) ( s X s Y y i y ) ist limitiert auf das Interval [ 1,1] 26.02.2008 32
Datenbeschreibung Beschreibung von paarweise beobachteten Eigenschaften Der Korrelationskoeffizient: r XY n ( xi x ) ( yi y ) 1 i= 1 = = 0.697 n s s X Y x Körpergrösse x = 178.3 cm y Gewicht y = 71.2 kg 26.02.2008 33
Nummerische Zusammenfassungen Mittelwerte: Arithmetisches Mittel: Median: Modalwert: Streuungsmasse: Varianz / Standardabweichung: Variationskoeffizient : Schwerpunkt der Stichprobe mittlerer Wert einer Stichprobe am häufigsten vorkommender Wert Verteilung um den Mittelwert Variabilität relativ zum Mittelwert Andere Masse: Schiefekoeffizient: Schiefe relativ zum Mittelwert Kurtosis: Wölbung um den Mittelwert Masse für Korrelation: Kovarianz: Tendenz für paarweise beobachtete Eigenschaften Korrelationskoeffizient : Normalisierter Koeffizient zwischen 1 und +1 26.02.2008 34
Weitere graphische Darstellungsformen HistogrammTeil II Quantile Plots TukeyBoxplots 26.02.2008 35
Histogramm Prinzip: Aufteilung der Stichprobe in k Grössenklassen Auftragen der Häufigkeit je Klasse Beispiel: Ihre Büroklammerdaten vom letzten Mal grosse Klammern, Stichprobenumfang n = 190, Maximalwert t132, Minimalwert i 6. Einteilung in 14 Klassen; (0,10]; ];(10,20]; (20,30]; ; (130,140] 26.02.2008 36
Histogramm Prinzip: Aufteilung der Stichprobe in k Grössenklassen Auftragen der Häufigkeit je Klasse Beispiel: Anzahl Biegungen gr. Klammern Anzahl Biegungen gr. Klammern Aussage abhängig von der Anzahl Klassen!!!! 26.02.2008 37
Histogramm Prinzip: Aufteilung der Stichprobe in k Grössenklassen Auftragen der Häufigkeit je Klasse Faustregel für die Anzahl Klassen: k= 1+ 3.3log( n) Beispiel: Büroklammerdaten grosse Klammern, Stichprobenumfang n = 190, Wertebereich [6, 132] k = 1+ 3.3log ( 190) = 8.52 9 Klassen (0,15]; (15,30]; (30,45]; ; (120,135] oder (5,19]; (19,33]; (36,50]; ; (117,131]? 26.02.2008 38
Histogramm Anzahl Biegungen gr. Klammern Anzahl Biegungen gr. Klammern 26.02.2008 39
Histogramm Die Form des Histogramms hängt ab von der Anzahl Klassen. der Wahl des Startpunktes. Anzahl Biegungen gr. Klammern Anzahl Biegungen gr. Klammern Anzahl Biegungen gr. Klammern Anzahl Biegungen gr. Klammern 26.02.2008 40
Histogramm Bisher betrachteten wir die absolute Häufigkeit. Inder Regel wird die Häufigkeit relativ, also normiert betrachtet. Anzahl Biegungen gr. Klammern Anzahl Biegungen gr. Klammern 26.02.2008 41
Histogramm Eine Spielart des Histogramms ist das kumulative Häufigkeits diagramm. Anzahl Biegungen gr. Klammern Anzahl Biegungen gr. Klammern Anzahl Biegungen gr. Klammern 26.02.2008 42
Histogramm Eine Spielart des Histogramms ist das kumulative Häufigkeits diagramm. Hier kann die Klasseneinteilung beliebig klein sein! Anzahl Biegungen gr. Klammern Anzahl Biegungen gr. Klammern 26.02.2008 43
Weitere graphische Darstellungsformen Histogramm Teil II. Quantile Plots TukeyBoxplots 26.02.2008 44
Quantil Plot Definition : DieQ Q Quantile Quantile korrespondiert mitdem Wert der Stichprobe, welcher mit dem Wert 100% Q x 100% überschritten wird. Dh D.h. zum Beispiel: das 075 Quantil 0.75 Quantil wird von 100% 0.75 x 100% = 25% der Daten überschritten. DieQuantilewerden vonder geordneten Stichprobe berechnet: x o 1 x o 2... x o n Q i i = 1 +n 26.02.2008 45
Quantil Plot Quantile Plots werden durch Auftragen der Daten und dem Quantilwert gebildet. Anzahl Biegungen gr. Klammern 26.02.2008 46
Quantil Plot Quantile Plots werden durch Auftragen der Daten und dem Quantilwert gebildet. oberes Quartil = 75% Quantil unteres Quartil = 25% Quantil Anzahl Biegungen gr. Klammern 26.02.2008 47
Quantil Plot Quantile Plots werden durch Auftragen der Daten und dem Quantilwert gebildet. oberes Quartil = 75% Quantil Und was ist das?? unteres Quartil = 25% Quantil Anzahl Biegungen gr. Klammern Median Mittelwert e Weiss nicht 26.02.2008 48
Tukey Boxplot Der Tukey Boxplot illustriert: Median untere und obere Quartilwerte Streubreite Ausreisser 26.02.2008 49
Tukey Boxplot Ausreisser grösster verbundener Wert grösster Wert kleiner als oberes Quartil + 15* 1.5 r r oberes Quartil = 75% Quantil Median = 50% Quantil unteres Quartil = 25% Quantil r = interquartiler Bereich (50% der Werte) kleinster verbundener Wert kleinster Wert grösser als unteres Quartil 1.5 * r 26.02.2008 50
Tukey Boxplot Klammern 120 100 biegungen Durch 80 60 40 20 0 grosse Klammern kleine Klammern 26.02.2008 51
Tukey Boxplot 200 Körpergrösse 195 190 Körp pergrösse 185 180 175 170 165 160 Alle Männer Frauen 26.02.2008 52
Q Q Plots Q Q plots dienen zur Darstellung und Vergleich von 2 Datenreihen. Datenpunkte der beiden Datenreihen mit demselben Quantilwert werden aufgetragen. 26.02.2008 53
Mittel über Differenz Plots Mittel über Differenz Plots dienen zur Darstellung und dem Vergleich vonzwei Datenreihen. Das Mittel ( yi + xi)/2 wird über die Differenz yi x i aufgetragen. 26.02.2008 54
Zusammenfassung Graphische Darstellung Ein dimensionales Streudiagramm Zwei dimensionales Streudiagramm Histogramm Quantile Plot Tukey Boxplot Q Q Plot Mittel über Differenz Plot Veranschaulicht den Bereich und die Verteilung von Datenreihen entlang einer Achse, und zeigt Symmetrie. Veranschaulicht den paarweisen Zusammenhang von Daten. Stellt die Verteilung von Daten über einem Bereich von Datenreihen dar, zeigt Modalwert und Symmetrie. Stellt Median, Verteilung und Symmetrie dar. Stellt Median, obere/untere Quartile, Symmetrie und Verteilung dar. Vergleicht zwei Datenreihen, relatives Bild. Vergleichtzwei Datenreihen, relativesbild Bild. 26.02.2008 55