Carlton, M., Devore, J. Probability with Applications in Engineering, Science, and Technology, Springer 2014

Ähnliche Dokumente
Ursache der Ungewissheit kann dabei z.b. unvollständige Information sein oder unbekannte bzw. nicht beeinflussbare Bedingungen.

wird auch Spannweite bzw. Variationsbreite genannt ist definiert als die Differenz zwischen dem größten und kleinsten Messwert einer Verteilung:

Beschreibung des Zusammenhangs zweier metrischer Merkmale. Streudiagramme Korrelationskoeffizienten Regression

Streuungs-, Schiefe und Wölbungsmaße

Übungsklausur zur Vorlesung Wahrscheinlichkeit und Regression Lösungen. Übungsklausur Wahrscheinlichkeit und Regression Die Lösungen

Daten sind in Tabellenform gegeben durch die Eingabe von FORMELN können mit diesen Daten automatisierte Berechnungen durchgeführt werden.

nonparametrische Tests werden auch verteilungsfreie Tests genannt, da sie keine spezielle Verteilung der Daten in der Population voraussetzen

Prof. Dr. Roland Füss Statistik II SS 2008

Grundgedanke der Regressionsanalyse

Beschreibende Statistik Mittelwert

Grundlagen sportwissenschaftlicher Forschung Deskriptive Statistik

Arbeitsgruppe Radiochemie Radiochemisches Praktikum P 06. Einführung in die Statistik. 1. Zählung von radioaktiven Zerfällen und Statistik 2

WS 2016/17 Prof. Dr. Horst Peters , Seite 1 von 9

Maße der zentralen Tendenz (10)

Analyse von Querschnittsdaten. Bivariate Regression

Funktionsgleichungen folgende Funktionsgleichungen aus der Vorlesung erhält. = e

Fallstudie 1 Diskrete Verteilungen Abgabe: Aufgabentext und Lösungen schriftlich bis zum

Lehrstuhl für Empirische Wirtschaftsforschung und Ökonometrie Dr. Roland Füss Statistik II: Schließende Statistik SS 2007

In der beschreibenden Statistik werden Daten erhoben, aufbereitet und analysiert. Beispiel einer Datenerhebung mit Begriffserklärungen (Vokabel)

Lineare Regression (1) - Einführung I -

FORMELSAMMLUNG STATISTIK (I)

Mehrfachregression: Einfluss mehrerer Merkmale auf ein metrisches Merkmal. Designmatrix Bestimmtheitsmaß F-Test T-Test für einzelne Regressoren

ANOVA (Analysis of Variance) Varianzanalyse. Statistik Methoden. Ausgangssituation ANOVA. Ao.Prof.DI.Dr Josef Haas

Nomenklatur - Übersicht

6. Modelle mit binären abhängigen Variablen

-70- Anhang: -Lineare Regression-

Auswertung univariater Datenmengen - deskriptiv

Alternative Darstellung des 2-Stichprobentests für Anteile. Beobachtete Response No Response Total absolut DCF CF

5. ZWEI ODER MEHRERE METRISCHE MERKMALE

Lösungen zum 3. Aufgabenblock

2.1 Einfache lineare Regression 31

Empirische Wirtschaftsforschung

Auswertung von Umfragen und Experimenten. Umgang mit Statistiken in Maturaarbeiten Realisierung der Auswertung mit Excel 07

Die Annäherung der Binomialverteilung durch die Normalverteilung am Beispiel eines Modells der Schadenversicherung

Auswertung univariater Datenmengen - deskriptiv

Statistische Methoden für Bauingenieure WS 13/14

Regressionsgerade. x x 1 x 2 x 3... x n y y 1 y 2 y 3... y n

Verteilungen, sondern nur, wenn ein. Eignet sich nicht bei flachen. Bei starker Streuung wenig. Wert eindeutig dominiert.

3.1 Häufigkeiten bei diskreten Merkmalen Absolute und relative Häufigkeiten Graphische Darstellungen 40

P[bk t c se(b k) k bk t c se(b k)] 1 (5.1.3)

Lineare Regression - Mathematische Grundlagen

Erwartungswert, Varianz, Standardabweichung

Konkave und Konvexe Funktionen

Datenaufbereitung und Darstellung

Standardnormalverteilung / z-transformation

Prof. Dr. P. Kischka WS 2012/13 Lehrstuhl für Wirtschafts- und Sozialstatistik. Klausur Statistische Inferenz

Itemanalyse und Itemkennwerte. Itemanalyse und Itemkennwerte. Itemanalyse und Itemkennwerte: Itemschwierigkeit P i

12 UMPU Tests ( UMP unbiased )

Musterklausur Wirtschaftsmathematik und Statistik. Zusatzstudium für Wirtschaftsingenieur

8 Logistische Regressionsanalyse

Hydrologie und Flussgebietsmanagement

Verteilungen eindimensionaler diskreter Zufallsvariablen

Lineare Regression. Stefan Keppeler. 16. Januar Mathematik I für Biologen, Geowissenschaftler und Geoökologen

Beim Wiegen von 50 Reispaketen ergaben sich folgende Gewichte X(in Gramm):

Lehrstuhl für Empirische Wirtschaftsforschung und Ökonometrie Übung/Tutorate Statistik II: Schließende Statistik SS 2007

Statistische Maße für rechnerische Robustheitsbewertungen CAE gestützter Berechnungsmodelle

3. Lineare Algebra (Teil 2)

Mathematik für MolekularbiologInnen. Vorlesung VII Block III: Wahrscheinlichkeit und Statistik Verteilungen und Lagemaßzahlen

Multilineare Algebra und ihre Anwendungen. Nr. 6: Normalformen. Verfasser: Yee Song Ko Adrian Jenni Rebecca Huber Damian Hodel

Konzept der Chartanalyse bei Chart-Trend.de

Teil E: Qualitative abhängige Variable in Regressionsmodellen

Statistik und Wahrscheinlichkeit

Stochastische Prozesse

Analysis I. Vorlesung 17. Logarithmen. R R, x exp x,

Abbildung 3.1: Besetzungszahlen eines Fermigases im Grundzustand (a)) und für eine angeregte Konfiguration (b)).

(2) i = 0) in Abhängigkeit des Zeitunterschieds x ZeitBus ZeitAuto für seinen Arbeitsweg.) i = 1) oder Bus ( y

Übung zur Vorlesung - Theorien Psychometrischer Tests II

Datenaufbereitung und -darstellung III

Facility Location Games

-2 Das einfache Regressionsmodell 2.1 Ein ökonomisches Modell

1 Mehrdimensionale Analysis

Aufgabe 8 (Gewinnmaximierung bei vollständiger Konkurrenz):

Elemente der Mathematik - Sommer 2016

Zufallsvariable, Wahrscheinlichkeitsverteilungen und Erwartungswert

4. Rechnen mit Wahrscheinlichkeiten

Spiele und Codes. Rafael Mechtel

Einführung in die Wahrscheinlichkeitsrechnung. Wahrscheinlichkeitsrechnung. Übersicht. Wahrscheinlichkeitsrechnung. bedinge Wahrscheinlichkeit

Item-response Theorie (Probablistiche Testtheorie) Grundidee der item-response Theorie ist, dass die Antworten auf die Testitems lediglich

Der Erweiterungsfaktor k

3.3 Lineare Abbildungen und Matrizen

Zulassungsprüfung Stochastik,

Ordered Response Models (ORM)

2πσ. e ax2 dx = x exp. 2πσ. 2σ 2. Die Varianz ergibt sich mit Hilfe eines weiteren bestimmten Integrals: x 2 e ax2 dx = 1 π.

Statistik und Wahrscheinlichkeitsrechnung Dr. Jochen Köhler, Eidgenössische Technische Hochschule, ETH Zürich. 1. Teilprüfung FS 2008.

Klausur zur Vorlesung Lineare Modelle SS 2006 Diplom, Klausur A

6. Übung zur Linearen Algebra II

Aspekte zur Approximation von Quadratwurzeln

Nernstscher Verteilungssatz

SIMULATION VON HYBRIDFAHRZEUGANTRIEBEN MIT

Auswertung univariater Datenmengen - deskriptiv

Die Transzendenz der Eulerschen Zahl e

1 Definition und Grundbegriffe

6.5. Rückgewinnung des Zeitvorgangs: Rolle der Pole und Nullstellen

Entscheidungstheorie Teil 3. Thomas Kämpke

Netzwerkstrukturen. Entfernung in Kilometer:

Stochastische Prozesse

Vorlesung 1. Prof. Dr. Klaus Röder Lehrstuhl für BWL, insb. Finanzdienstleistungen Universität Regensburg. Prof. Dr. Klaus Röder Folie 1

4. Musterlösung. Problem 1: Kreuzende Schnitte **

1. Teilprüfung FS 2008

Regression und Korrelation

Transkript:

Lteratur Moon Jung Cho, Wendy L. Martnez Statstcs n MATLAB: A Prmer, Chapman and Hall/CRC 2014 Carlton, M., Devore, J. Probablty wth Applcatons n Engneerng, Scence, and Technology, Sprnger 2014 Sheldon M. Ross Statstk für Ingeneure und Naturwssenschaftler, Elsever 2006 Bechelt, F. Stochastk für Ingeneure, Teubner 1995 Hedderch, J., Sachs, L. Angewandte Statstk (mt Freeware R), Sprnger 2012 Beuchler, O. Wahrschenlchketsrechnung und Statstk mt MATLAB, Sprnger 2007 SS 2017 Prof. Dr. J. Schütze, FB GW Deskr.1 1

Warum Stochastk? Stochastk: Kunst des Mutmaßens (grech.) Mathematsche Stochastk beschäftgt sch mt der Beschrebung und Untersuchung von Erschenungen, de vom Zufall beenflusst snd m Snn von ncht genau vorhersagbar. Ursache der Unscherhet snd z.b. unvollständge Informaton unbekannte bzw. ncht beenflussbare Bedngungen. Bespele: Glücksspele we Würfeln, Skat, Roulette, Pokern, aber auch Ergebnsse von Qualtätskontrollen, Kursschwankungen an der Börse, Laufzeten von Akkus ener bestmmten Baurehe, Zuverlässgket enes komplexen Systems, SS 2017 Prof. Dr. J. Schütze, FB GW Deskr.1 2

Warum Stochastk? Zufällge Eregnsse werden oft durch Beobachtungen/Daten beschreben, für deren Analyse de mathematsche Statstk unter Nutzung geegneter Modelle der Stochastk Verfahren beretstellt. Statstk ursprünglch: Erhebung von Daten Status: Zustand (grech.) Deskrptve (beschrebende) Statstk Datenerfassung, Aufberetung, Verdchtung tabellarsche und grafsche Darstellung von Stchprobenergebnssen Induktve (schleßende) Statstk Verallgemenern von Stchprobenergebnssen be kalkulerbarem Rsko bzw. Scherhet Stochastk st das Bndegled zwschen deskrptver und nduktver Statstk, da auf der Bass stochastscher Modelle de Erkenntnsse aus Stchproben mt kalkulerbarer Scherhet verallgemenert werden können. SS 2017 Prof. Dr. J. Schütze, FB GW Deskr.1 3

Bespele Technk Be der Messung ener bestmmten Größe können oft ncht alle Enflüsse konstant gehalten werden. Jede Messung führt u. U. zu enem etwas anderen Ergebns. Aus den Messergebnssen ener Stchprobe schätzt man de unbekannte Größe. We gut bzw. genau st dese Schätzung? We oft sollte man messen? Instandhaltung Glühlampen werden n großen öffentlchen Gebäuden oft vorsorglch ausgetauscht. We kann man den günstgsten Zetpunkt bezüglch Scherhet und Kosten für den Tausch bestmmen? Bedenungstheore Warteschlangen n Ämtern, an Kassen m Supermarkt oder be Materalausgabe snd ärgerlch. We kann man se modelleren und durch geegnete Planung verkürzen? Quellen zufällger Enflüsse Messfehler Enflüsse, de ncht messbar snd bzw. ncht konstant gehalten werden können SS 2017 Prof. Dr. J. Schütze, FB GW Deskr.1 4

Überblck Beschrebende Statstk Schleßende Statstk Modell Schätzung Stchprobe Relatve Häufgket Wahrschenlchketsrechnung mt Rskoberechnung Grundgesamthet Wahrschenlchket Durchschntt... Erwartungswert... SS 2017 Prof. Dr. J. Schütze, FB GW Deskr.1 5

Vorlesungsglederung A Beschrebende Statstk Häufgketsvertelungen, Hstogramme, Parameterschätzungen, Boxplots, Ausreßerdetekton, Zusammenhangsmaße, Regressonsmodelle B Wahrschenlchketsrechnung Wahrschenlchketen, Unabhänggket, Wahrschenlchketsvertelungen, Modelle C Schleßende Statstk Schätzungverfahren, Konfdenzntervalle, Parametertests Parameterfree Verfahren SS 2017 Prof. Dr. J. Schütze, FB GW Deskr.1 6

Glederung Tel A A Beschrebende Statstk 1. Grundbegrffe der beschrebenden Statstk 2. Endmensonale Merkmale Häufgketsvertelungen be kategoralen und metrschen Merkmalen, Hstogramm, emprsche Vertelungsfunkton, Boxplot, Ausreßer Statstsche Maßzahlen 3. Mehrdmensonale Merkmale Zwedmensonale Häufgketstabellen Zusammenhangsmaße Lneare Regresson Wetere Regressonsmodelle SS 2017 Prof. Dr. J. Schütze, FB GW Deskr.1 7

Grundbegrffe Grundgesamthet Zelpopulaton, alle Elemente, de prnzpell gemessen, befragt, beobachtet werden können (von Interesse für de Untersuchung snd) Stchprobe Telmenge der Grundgesamthet, de zufällg für de Untersuchung/ Beobachtung ausgewählt bzw. beobachtet/gemessen wurde Merkmal / statstsche Varable Zelgröße der Erhebung / Messung Der Informatonsgehalt der Merkmale hängt von der Skala ab, auf der se gemessen bzw. beobachtet wurden. Man unterschedet grob zwschen folgenden Skalennveaus Skalennveau qualtatv (kategoral) quanttatv (metrsch) nomnal ordnal dskret stetg SS 2017 Prof. Dr. J. Schütze, FB GW Deskr.1 8

Grundbegrffe Skalennveaus snd wchtg für de Auswahl passender statstscher Verfahren. Spezelle Statstksoftware (z.b. SPSS, SAS) unterschedet dabe zwschen nomnalen, ordnalen und metrschen Daten. Der Informatonsgehalt nmmt n deser Rehenfolge zu. Nomnalskala Daten drücken qualtatve Egenschaft aus (Kategoren, z.b. Autotypen) kene Ordnung - nur glech oder verscheden Spezalfall: Dchotome Skala mt 2 möglchen Kategoren (z.b. defekt/ncht defekt) Ordnalskala Daten können n Rangfolge geordnet werden, aber Unterschede zwschen den Ausprägungen snd ncht quanttatv messbar (z.b. Grad der Zustmmung be Umfrage) Metrsche Skala Daten snd Messwerte auf dskreter oder kontnuerlcher Skala Dskret: Zähldaten; Kontnuerlch: Messdaten Dfferenz zwschen Ausprägungen charaktersert quanttatven Untersched 1.1 SS 2017 Prof. Dr. J. Schütze, FB GW Deskr.1 9

Endmensonale dskrete Merkmale Dskretes Merkmal X wrd n-mal gemessen/beobachtet, Stchprobe x,... 1 xn n heßt Stchprobenumfang be k möglchen Ausprägungen,... x1 xk snd maxmal k der n beobachteten Werte verscheden, Absolute Häufgket h( x ), 1 k Anzahl des Auftretens von unter den n Werten der Stchprobe x Relatve Häufgket f ( x ), 1 k h( x ) f ( x ) =, 1 k n Egenschaften 0 h( x ) n, h( x ) = n k = 1 0 f( x ) 1, f( x ) = 1 Nur be ordnalen/metrschen Merkmalen: absolute und relatve Summenhäufgketen H x h x F x f x * * * * ( ) = ( ), ( ) = ( ) k k kx : x kx : x k k SS 2017 Prof. Dr. J. Schütze, FB GW Deskr.1 10 k = 1

Endmensonale stetge Merkmale Stetges Merkmal X wrd n-mal gemessen, Stchprobe dabe snd.a. alle auftretenden Werte verscheden. x,... 1 xn Entelung des Intervalls zwschen der klensten und der größten Messung n glechbrete, dsjunkte Klassen K,1 k Klassenanzahl k zwschen 4 und 20, Faustregel k n Klassengrenzen snd endeutg zuzuordnen, z.b. Obergrenze jewels zur Klasse gehörg Absolute Klassenhäufgket hk ( Anzahl der,... ),1 k hk ( ) = x n 1 xn K Relatve Häufgket f ( K ), 1 k hk ( ) f ( K ) =, 1 k n SS 2017 Prof. Dr. J. Schütze, FB GW Deskr.1 11

Endmensonale stetge Merkmale Egenschaften der Klassenhäufgketen k = 1 hk ( ) = n k = 1 f( K ) = 1 De grafsche Darstellung der Klassenhäufgketen als Balken über den Intervallen der Klassen nennt man Hstogramm. Absolute Summenhäufgket H(x), Relatve Summenhäufgket F( x) durch sukzessves Aufsummeren der Häufgketen über alle Klassen lnks von bs enschleßlch x H() x = h( K), F() x = f( K) alle Kl. lnks bs enschl. x alle Kl. lnks bs enschl. x SS 2017 Prof. Dr. J. Schütze, FB GW Deskr.1 12

Endmensonale stetge Merkmale Bespel: Stchprobe mt 20 Werten enes stetgen Merkmals 61, 65, 82, 86, 90, 90, 90, 90, 103, 105, 110, 110, 110, 111, 116, 117, 126, 126, 130, 135 Klassenentelung des überdeckten Bereches von ca. 60 bs ca. 140 n k = 4 Klassen Klassengrenzen (60, 80] (80, 100] (100, 120] (120, 140] abs. H. rel. H. 2 0.1 6 0.3 8 0.4 4 0.2 rel. Summenh. 0.1 0.4 0.8 1.0 0,1 Hstogramm 0,3 0,4 0,2 Aus den relatven Summenhäufgketen erhält man den Antel der Werte lnks jeder Klassengrenze z.b. st Antel der Werte, de 100 snd, glech 0.4 1,0 Summenhäufgketen SS 2017 Prof. Dr. J. Schütze, FB GW Deskr.1 13

Endmensonale stetge Merkmale Informaton aus Hstogrammen Hstogramme lassen ene erste Beurtelung der Art der Vertelung zu, nsbesondere n Hnblck auf Symmetre, Schefe bzw. Vorlegen extremer Werte/Ausreßer. rechtsstel (lnksschef) ohne deutlche Ausreßer lnksstel (rechtsschef) mt Ausreßern annähernd symmetrsch ohne deutlche Ausreßer SS 2017 Prof. Dr. J. Schütze, FB GW Deskr.1 14

Endmensonale stetge Merkmale Emprsche Vertelungsfunkton entsprcht der Summenhäufgketsfunkton ohne vorherge Klassenentelung Für belebges x wrd der Antel der Stchprobenwerte bestmmt, de x snd, (be Summenhäufgketsfunkton durchläuft x nur de Klassengrenzen) Emprsche Vertelungsfunkton Anzahl der Stchprobenwerte F( x) = n Fällt x mt ener Klassengrenze zusammen, st der Wert der emprschen Vertelungsfunkton glech dem der Summenhäufgket. x 1.2 Egenschaften der emprsche Vertelungsfunkton F(x) st monoton wachsend 0 F(x) 1 F(x) st ene Treppenfunkton mt Sprungstellen n den Stchprobenwerten. De Höhe des Sprungs n x st glech der relatven Häufgket von x. SS 2017 Prof. Dr. J. Schütze, FB GW Deskr.1 15

Endmensonale stetge Merkmale Bespel: geordnete Stchprobe mt 20 Werten enes stetgen Merkmals 61, 65, 82, 86, 90, 90, 90, 90, 103, 105, 110, 110, 110, 116, 116, 117, 117, 126, 126, 135 x F(x) x < 61 0 F( x) = Anzahl der Stchprobenwerte n x 61 x < 65 1/20 5% 65 x < 82 2/20 10% Emprsche Vertelungsfunkton 82 x < 86 3/20 15% 86 x < 90 4/20 20% 90 x < 103 8/20 40% 103 x < 105 9/20 45% 105 x < 110 10/20 50% 110 x < 116 13/20 70% 116 x < 117 15/20 75% 117 x < 126 17/20 85% 126 x < 135 19/20 95% x 135 100% SS 2017 Prof. Dr. J. Schütze, FB GW Deskr.1 16

Endmensonale stetge Merkmale De emprsche Vertelungsfunkton wrd durch de Summenhäufgketsfunkton genähert, mt zunehmender Klassenanzahl und gerngerer Klassenbrete wrd de Näherung besser. Summenhäufgketsfunkton Emprsche Vertelungsfunkton Emprsche Vertelungsfunkton Emprsche Vertelungsfunktonen egnen sch zum Verglech von Vertelungen unterenander sowe zum Test auf Vorlegen enes bestmmten Vertelungstyps (Kolmogorov-Smrnov-Test). SS 2017 Prof. Dr. J. Schütze, FB GW Deskr.1 17

Emprsche Quantle Lageparameter Unterhalb welcher Grenze auf der Skala legt en bestmmter Antel α der Stchprobenwerte? Spezalfälle α=0.5 : Medan α=0.25 : Unteres Quartl α=0.75 : Oberes Quartl x = x = u x 0.25 = u0.25 x = u 0.5 0.5 0.75 0.75 50% der Stchprobenwerte legt unterhalb 25% der Stchprobenwerte legt unterhalb 75% der Stchprobenwerte legen unterhalb Zur Berechnung muss man de Stchprobe zunächst aufstegend ordnen: x (1),,x (n) Be ungeradem n st der Medan genau der mttlere Wert deser geordneten Rehe. Ist n gerade, stehen 2 Werte n der Mtte, der Medan st dann hr Mttelwert. Analog verfährt man be der Berechnung der Quartle. Ist der Stchprobenumfang durch 4 telbar, legt das untere Quartl n der Mtte zwschen dem Wert der geordneten Rehe an Poston n/4 und dem folgenden. I.a. braucht man zur Berechnung der Quartle bzw. für Quantle belebger Ordnung α ene geegnete Formel. SS 2017 Prof. Dr. J. Schütze, FB GW Deskr.1 18

Emprsche Quantle Allgemene Berechnung von Quantlen für belebges α, 0 <α < 1: Be Stchprobenumfang n entsprcht jeder Messwert enem Antel 1/n, k Werte entsprechen dem Antel k/n. I.a. passt α ncht exakt n deses Raster, daher folgende Näherungsformel. Bass st de aufstegend geordnete Stchprobe x mn = x(1) x(2)... x( n ) = xmax Emprsches α Quantl für 0 <α< 1 st de Zahl x( k ), falls k 1 < n α < k, d.h. k = [ n α ] + 1 x α = 1 ( x( k) + x( k+ 1) ), falls k = n α ganzzahlg 2 Interpretaton Das α Quantl telt den Berech, den de Stchprobe überdeckt, so n zwe Tele, dass etwa α 100% der Messwerte unterhalb und etwa (1- α) 100% oberhalb legen. Achtung Manche Software, auch TR verwenden ene genauere Formel zur Quantlberechnung. SS 2017 Prof. Dr. J. Schütze, FB GW Deskr.1 19 1.3

Emprsche Quartle Quartlsabstand: Dfferenz zwschen oberem und unterem Quartl 48 49 49 Unteres Quartl Medan Oberes Quartl 50 50 x 0.25 x 0.5 x 0.75 =.. Brete des Berechs der mttleren 50% der Werte Bsp. Geordnete Größe von 10 Neugeborenen: 48, 49, 49, 50, 50, 51, 51, 51, 52, 57 51 51 51 52 57 x0.25 : k = n α = 10 0.25 = 2.5 x0.25 = x(3) = 49 x : k = n α = 10 0.5= 5 x = ( x + x )/2= 50.5 0.5 0.5 (5) (6) x : k = n α = 10 0.75 = 7.5 x = x = 51 0.75 0.75 (8) Quartlsabstand: d = x0.75 x0.25 = 51 49 = 2 SS 2017 Prof. Dr. J. Schütze, FB GW Deskr.1 20

Boxplots 48 49 49 50 50 51 51 51 52 57 x 0.25 x 0.5 x 0.75 mn max ausreßerverdächtg Unteres Quartl Medan Oberes Quartl De Box enthält (etwa) de mttleren 50% der Werte der Stchprobe. Boxbrete = Quartlsabstand = 2 Ausreßerverdächtge Werte werden gesondert gezechnet (her Messwert 57). De Balken kennzechnen mn und max der Werte, de ncht ausreßerverdächtg snd. SS 2017 Prof. Dr. J. Schütze, FB GW Deskr.1 21

Ausreßerdetekton Ermttlung ausreßerverdächtger Werte : Werte außerhalb des Normalberechs 48 49 49 50 50 51 51 51 52 57 u x 0.25 x 0.5 x 0.75 Normalberech o Normalberech [u, o] u = unteres Quartl 1.5 Quartlsabstand o = oberem Quartl + 1.5 Quartlsabstand Im Bespel: Quartlsabstand = 2, folglch Normalberech (49 1.5 2, 51 + 1.5 2) = (46, 54) Ausreßerverdächtg st somt her der Wert 57 Normalberech wrd m Boxplot ncht engezechnet!!! De Balken m Boxplot snd Maxmum und Mnmum nnerhalb des Normalberechs. SS 2017 Prof. Dr. J. Schütze, FB GW Deskr.1 22

Interpretaton Anwendung Der Medan als Lageparameter schätzt den Zentralwert (Mttelwert), Der Quartlsabstand st en Streuungsmaß, der de Brete des Berechs msst, n dem de mttleren 50% der Stchprobenwerte legen. Dese Kenngrößen snd robust gegenüber Ausreßern. Daher werden se be ausreßerbehafteten Daten bzw. schefen Vertelungen gegenüber dem Durchschntt und der Standardabwechung bevorzugt. Veränderter Datensatz Größe von 10 Neugeborenen: 51, 50, 51, 49, 49, 51, 50, 53, 48, 52 48 49 49 50 50 x 0.25 x 0.5 x 0.75 51 51 51 52 53 Unteres Quartl Medan x 0.25 = 49, x 0.5 = 50.5, x = Oberes Quartl Boxbrete = 2 Normalberech (46, 54), snd unverändert. 0.75 51 Es legt nun ken ausreßerverdächtger Wert mehr vor, de Balken zegen mn und max aller Messwerte an. SS 2017 Prof. Dr. J. Schütze, FB GW Deskr.1 23

Statstsche Maßzahlen Mttelwertsmaße Arthmetsches Mttel x = x mt absol. Häufgketen der k Ausprägungen 1 n n = 1 1 * * x = xhx ( ) n Streuungsmaße n Emprsche Varanz 2 1 s = 2 ( x x) n 1 = 1 n 1 = 2 2 x nx n 1 = 1 2 1 * 2 * s = ( x x) h( x ) n 1 k 1 = ( x ) hx ( ) nx n 1 = 1 * 2 * 2 Standardabwechung 2 Varatonskoeffzent Standardfehler des Mttelwertes s = + v = s x = s x s s n Be schefen Vertelungen/ Vorlegen von Ausreßern Medan ~ x = ~ x 0, 5 Quartlsabstand d0.5 = x0.75 x0. 25 ~ ~ ~ 1.4 SS 2017 Prof. Dr. J. Schütze, FB GW Deskr.1 24

Mehrdmensonale Merkmale Oft werden am glechen Objekt mehrere Merkmale gemessen. Dann nteressert man sch mest dafür, ob es zwschen hnen ene Abhänggket gbt oder ncht. De Strenge der Abhänggket beschrebt man durch Zusammenhangsmaße. Passend zum Skalennveau der Merkmale wählt man en passendes Maß zur Beschrebung des Grades der Abhänggket. Nomnale Merkmale Ordnale Merkmale Metrsche Merkmale Ch-Quadrat-Maß, Kontngenzkoeffzenten Korrelaton nach Spearman Korrelaton nach Pearson Für Merkmalen auf verschedenem Skalennveau kann man den Koeffzenten entsprechend der nedrgeren Skala wählen. Darüber hnaus gbt es Maße für verschedene Skalen (s. Lt.) Be metrschen Merkmalen mt hoher Pearson-Korrelaton nach beschrebt man de Abhänggket der Merkmale durch ene lneare Regressonsfunkton. SS 2017 Prof. Dr. J. Schütze, FB GW Deskr2 1

Zusammenhangsmaße für metrsche Merkmale Bespel: Be ener Verkehrskontrolle wurde be straffällger Höhe der Geschwndgketsüberschretung (> 20 km/h) auch das Alter des Fahrers protokollert. Alter 20 23 24 59 55 26 32 29 43 38 31 36 Überschretung 22 22 40 23 34 22 22 21 28 27 25 29 Streudagramm (Scatterplot) y = 26,25 x = 34,67 SS 2017 Prof. Dr. J. Schütze, FB GW Deskr2 2

Zusammenhangsmaße für metrsche Merkmale Für enen lnearen Zusammenhang der Merkmale würde sprechen, dass alle Punkte P m ersten und drtten bzw. zweten und verten Quadranten legen, wobe de Quadrantenentelung entlang der Mttelwerte der beden Merkmale erfolgt. y y 4. Quadr. 1. Quadr. 2. Quadr. x 3. Quadr. x Stegende Tendenz: Fallende Tendenz: P = ( x, y) mt x < x, y < y oder x > x, y > y ( x x)( y y) > 0 P = ( x, y ) mt x < x, y > y oder x > x, y < y ( x x)( y > y) < 0 Snd de Punkte P über alle Quadranten vertelt, legt kene lneare Tendenz vor. Produkte ( x x)( y y) blden Kernstück für Zusammenhangsmaß Kovaranz Pearson-Korrelatonskoeffzent Σ( X X)( Y Y ) r = Σ ( X X) Σ ( Y Y) n 1 Cov( x, y) = ( x x)( y y) n 1 = 1 2 2 Egenschaften stegende Tendenz be r > 0 fallende Tendenz be r < 0 SS 2017 Prof. Dr. J. Schütze, FB GW Deskr2 3

Zusammenhangsmaße für metrsche Merkmale Äquvalente Darstellungen der Pearson-Korrelaton Cov( X, Y ) r = Var X VarY Σ( X X)( Y Y) = Σ ( X X) Σ ( Y Y) = = ΣXY 2 2 nxy 2 2 2 2 ( ΣX nx )( ΣY ny ) nσx Y ΣX ΣY 2 2 2 2 ( nσx ( ΣX ))( nσy ( ΣY)) Bassformeln für Umrechnung (Summatonsndex von 1 bs n) nx = X ( X X ) = X nx 2 2 2 ( X X )( Y Y ) = X Y nxy 2.1 SS 2017 Prof. Dr. J. Schütze, FB GW Deskr2 4

Zusammenhangsmaße für metrsche Merkmale Interpretaton der Pearson-Korrelaton Der Korrelatonskoeffzent von Pearson msst, we eng der lneare Zusammenhang zwschen X und Y st. Es glt stets: 1 r 1 Be r = 1 legen alle Messwertpaare auf ener stegenden Geraden. Be r = -1 legen alle Messwertpaare auf ener fallenden Geraden. Be r = 0 st kene lneare Tendenz erkennbar. Klassfzerung r = 0 0< r < 0.5 0.5 r < 0.8 0.8 r < 1 r =1 kene Korrelaton schwache Korrelaton mttlere Korrelaton starke Korrelaton perfekte Korrelaton, d.h. Punkte legen auf ener Geraden Mt statstsche Testverfahren kann man de Sgnfkanz von Korrelatonen beurtelen. SS 2017 Prof. Dr. J. Schütze, FB GW Deskr2 5

Zusammenhangsmaße für ordnale Merkmale Be ordnalen Merkmalen oder metrschen Merkmalen mt Ausreßern rechnet man anstelle der Werte mt hren Rangzahlen (Platznummern). R( x ) Platznummer von x be aufstegend geordneten Werten von X R( y ) Platznummer von y be aufstegend geordneten Werten von Y Mehrfach auftretende Werte (Bndungen) erhalten den glechen mttleren Rang. Spearman-Korrelatonskoeffzent Σ( R( x ) R)( R( y ) R) ΣR( x ) R( y ) nr rs = = Σ Σ Σ Σ 2 2 2 2 2 2 2 ( R( x) R) ( R( y) R) ( R( x) nr )( R( y) nr ) Legen kene Bndungen vor, verenfacht sch de Berechnung zu 2 6 d rs = 1 mt d ( ) ( ) 2 = R x R y nn ( 1) n + 1 2 Der Spearman-Korrelatonskoeffzent msst enen monotonen Zusammenhang. Be r = 1 folgen alle Messwertpaare ener monoton stegenden Tendenz. Be r = -1 folgen alle Messwertpaare ener monoton fallenden Tendenz. Be r = 0 st kene monotone Tendenz erkennbar. SS 2017 Prof. Dr. J. Schütze, FB GW Deskr2 6 R = 2.2

Abhänggket nomnaler Merkmale Alle möglchen Kombnatonen der Werte von X und Y werden tabellarsch erfasst, n k : Anzahl des Auftretens des Paares (x, y k ) Y y1 y2... yq X x 1 n 11 n 12 n 1q x 2 n 21 n 22 n 2q Randvertelung von X (Zelensummen) n n 1. 2. = q k = 1 = q k = 1 n n 1k 2k x p n p1 n p2 n pq Randvertelung von Y (Spaltensummen) n = p. 1 n 1 n = p n = = p. 2 2 1 = = 1 1 n q n q = q n p n pk. k = 1 = p q n k = 1k = 1. n De Randvertelungen snd genau de endmensonalen Vertelungen von X und Y. Zelensummen: Vertelung von X Spaltensummen: Vertelung von Y SS 2017 Prof. Dr. J. Schütze, FB GW Deskr2 7 2.3

Abhänggket nomnaler Merkmale Endmensonalen Vertelungen lassen kene Rückschlüsse über enen Zusammenhang zwschen den Merkmalen zu. Zusammenhänge fndet man durch Verglech der enzelnen Spalten/Zelen, se enthalten de bedngten Häufgketen nach Kategoren des anderen Merkmals (unter der Bedngung der entsprechenden Ausprägung m Spalten-/Zelenkopf). Bedngte absolute Häufgketen von X unter Bedngung f ( X = x / Y = y ) = n / n k k. k berechnet aus Spalte Y y k, normert mt Spaltensumme Y = y k hy ( y) n = = k =. k Bedngte absolute Häufgketen von Y unter Bedngung X = x f ( Y = y / X = x ) = n / n k k. berechnet aus Zele X = x, normert mt Zelensumme h( X = x ) = n. 2.4 SS 2017 Prof. Dr. J. Schütze, FB GW Deskr2 8

Abhänggket nomnaler Merkmale Für enen Zusammenhang zwschen den Merkmalen sprcht, dass sch de bedngten Vertelungen vonenander und damt von der Randvertelung unterscheden. Snd alle bedngten Vertelungen von X nach den Kategoren von Y glech der Randvertelung von X, hat de Ausprägung von Y kenen Enfluss auf X. nk nm n. = = n n n. k. m Daraus erhält man de Bedngung n. n. k nk = n De Merkmale X, Y snd emprsch unabhängg, falls für alle, k glt n. n. k nk = n Daraus leten sch Kenngrößen zum Messen der Stärke der Abhänggket ab. SS 2017 Prof. Dr. J. Schütze, FB GW Deskr2 9

Zusammenhangsmaße be nomnalen Merkmalen Maß für de Stärke des Zusammenhangs auf Bass der Abwechungen der beobachteten Zellenbesetzung n. n. k und der be Unabhänggket erwarteten Zellenbesetzung nˆ k = n n k Dabe quadrert man de Abwechungen, damt sch postve und negatve Dfferenzen ncht kompenseren, und normert pro Zelle mt der erwarteten Häufgket. Ch-Quadrat-Maß ( n nˆ ) p q 2 k χ = = 1 k= 1 nˆ k k 2 SS 2017 Prof. Dr. J. Schütze, FB GW Deskr2 10

Zusammenhangsmaße be nomnalen Merkmalen Da de Größe des Ch-Quadrat-Maßes auch von der Dmenson der Tabelle und dem Stchprobenumfang abhängt, wurden daraus wetere Maße abgeletet, de dese störenden Enflüsse durch Normerung herausrechnen. Zusammenhangsmaße für dskrete Merkmale Ch-Quadrat-Maß ( n nˆ k ) p q 2 k χ = = 1 k= 1 nˆ k 2 χ Kontngenzkoeffzent C = χ 2 + n d Korrgerter Kontngenzkoeffzent Ckorr = C d 1 mt d = mn(p,q), p Zelenanzahl, q Spaltenanzahl der Kontngenztabelle 2 2.5 SS 2017 Prof. Dr. J. Schütze, FB GW Deskr2 11

Zusammenhangsmaße be nomnalen Merkmalen Interpretaton Be Unabhänggket der Merkmale snd de beobachtetet Zellhäufgketen glech den be Unabhänggket zu erwartenden Zellhäufgketen, es glt, und damt snd alle Maße Null. n k = nˆ k Je stärker de Abhänggket st, desto größer st de Abwechung von Null. Das Ch-Quadratmaß st nach oben ncht beschränkt, erst de abgeleteten Maße (Kontngenzkoeffzenten) snd auf Werte klener als 1 normert. Damt erlauben se den Verglech von Abhänggketen zwschen Tabellen mt verschedenen Stchprobenumfängen bzw. verscheden velen Ausprägungen. In der schleßenden Statstk steht en Testverfahren auf Unabhänggket zur Verfügung, be dem man zu vorgegebener Scherhet enen Schwellwert bestmmt, be dessen Überschretung auf Abhänggket geschlossen wrd. SS 2017 Prof. Dr. J. Schütze, FB GW Deskr2 12

Lneare Regresson Haben de metrschen Merkmale X, Y ene hohe Korrelaton, stehen se n engem lnearen Zusammenhang, der durch ene Geradenglechung modellert werden kann. Ansatz: y = a0 + a1x De Koeffzenten a0, a1 deser Regressonsfunkton bestmmt man nach dem Optmaltätskrterum (Methode der klensten Quadrate MKQ) n = 1 ( y ( a a x )) 2 + 0 1 mn. 3 2 1-1 0 1 2 x 3 4 5-1 ( ) Resduen y a0 + a1x snd de vertkalen Abwechungen der Messpunkte von der Geraden De Quadratsumme deser Resduen wrd m Optmaltätskrterum mnmert. SS 2017 Prof. Dr. J. Schütze, FB GW Deskr2 13

Lneare Regresson Bestmmung der Regressonsparameter durch Mnmserung des Optmaltätskrterums n ( ) 2 f( a, a ) = y ( a + a x ) mn 0 1 0 1 = 1 0 1 y = a n+ a x x y = a x + a x 2 0 1 Man berechnet de partellen Abletungen von f nach den Parametern und setzt se glech Null. Daraus entstehen nach Umformung der Summen de Normalenglechungen Als Lösung deses Glechungssystems für de Unbekannten a, a erhält man de Parameterschätzungen ( ) n x y x y 1 a = a = y a x ( ) 1 2 0 1 2 n x n x 0 1 SS 2017 Prof. Dr. J. Schütze, FB GW Deskr2 14

Lneare Regresson Beurtelung der Anpassungsgüte der Funkton Resduen: vertkale Abwechungen der Punkte von der Regressonsgeraden, aus hnen defnert sch de Restvaraton. Resduen y a + a x ( ) 0 1 Restvaraton (SSE we Error) ( ( )) 2 SSE = y a + a x 0 1 2.6 SS 2017 Prof. Dr. J. Schütze, FB GW Deskr2 15

Lneare Regresson Als erklärte Varaton SSR (we Regresson) bezechnet man de Varaton der Werte auf der Regressonsfunkton a + a x an den Stellen x um den Mttelwert y ( ( )) 2 SSR = y a + a x 0 1 0 1 Idee dabe st, dass de Gerade y kene Varaton von y n Abhänggket von x erklärt, ene mt optmalen Parametern angepasste Gerade hngegen den maxmalen Antel. Erklärte Varaton y = 1.75 SS 2017 Prof. Dr. J. Schütze, FB GW Deskr2 16

Lneare Regresson ( ) 2 2 ( 1) SST = y y = n s y ( ( )) 2 0 1 SSR = y a + a x ( ( )) 2 0 1 SSE = y a + a x Es glt de Zerlegung: SST = SSR + SSE Nach Dvson durch SST SSR SSE 1 = + SST SST Bestmmthetsmaß: 2 SSR SSE R = = 1 SST SST Das Bestmmthetsmaß st der Antel der erklärten Varaton an der Gesamtvaraton. SS 2017 Prof. Dr. J. Schütze, FB GW Deskr2 17

Lneare Regresson Bestmmthetsmaß der lnearen Regresson R 2 ( Y ( a + a X )) = = ( Y ) Interpretaton 0 1 2 Y 2 erklärte Varaton Gesamtvaraton Be perfekter Anpassung legt kene Restvaraton vor, dann st de erklärte Varaton glech der Gesamtvaraton, das Bestmmthetsmaß st glech 1. Wesen de Punkte kene lneare Tendenz auf, st de erklärte Varaton glech Null damt st auch das Bestmmthetsmaß st glech Null. Im Allgemenen gbt de Größe von R² den Antel an Varaton der y-werte an, der durch de Regresson erklärt wrd. Zusammenhang zum Pearsonschen Korrelatonskoeffzenten r 2 2 Es glt: r = R 2.7 SS 2017 Prof. Dr. J. Schütze, FB GW Deskr2 18

Lneare Regresson De Güte der Anpassung der lnearen Regresson st stark davon abhängg, ob Ausreßer m Datensatz vorhanden snd. Regressonsfkt. Y = 0.087x + 23.218 Bestmmthetsmaß 0.035 SS 2017 Prof. Dr. J. Schütze, FB GW Deskr2 19

Lneare Regresson Änderung der Regressonsfunkton und der Güte der Anpassung nach Elmnaton enes Ausreßers Regressonsfkt. Y = 0.197x + 17.971 Bestmmthetsmaß 0.365 SS 2017 Prof. Dr. J. Schütze, FB GW Deskr2 20

Lneare Regresson Änderung der Regressonsfunkton und der Güte der Anpassung nach Elmnaton enes weteren Ausreßers Regressonsfkt. Y = 0.375x + 12.717 Bestmmthetsmaß 0.831 SS 2017 Prof. Dr. J. Schütze, FB GW Deskr2 21

Lneare Regresson De unkrtsche Elmnaton von 'Ausreßern' täuscht strenge Zusammenhänge vor, de nur Wunschvorstellung sen können! Regressonsfkt. Y = 0.087x + 23.218 Bestmmthetsmaß 0.035 Regressonsfkt. Y = 0.197x + 17.971 Bestmmthetsmaß 0.365 Regressonsfkt. Y = 0.375x + 12.717 Bestmmthetsmaß 0.831 SS 2017 Prof. Dr. J. Schütze, FB GW Deskr2 22

Orthogonale Regresson Krterum zur optmalen Schätzung der Parameter: Quadratsumme der vertkalen Abwechung der Punkte zur Geraden wrd mnmal Daher nennt man das Verfahren MKQ-Regresson (Methode der klensten Quadrate). Ene Ausglechsgerade wrd dabe n dem Snn gefunden, dass Fehler auf der n y- Rchtung abgetragenen Größe n desem Snn mnmert werden. Legen auch Messfehler n der auf der x-achse abgetragenen Größe vor, st de MKQ-Regresson zur Mnmerung der vertkalen Resduen ncht geegnet. Besser st n desem Fall ene Orthogonale Regresson, de als Krterum de senkrechten Abstände (Projekton) der Punkte auf de Regressonsgerade ausglecht. MKQ Orthogonal SS 2017 Prof. Dr. J. Schütze, FB GW Deskr2 23

Quaslneare Regresson Bestmmte Funktonstypen können durch Umformung (z.b. Logarthmeren) auf en lneares Modell zurückgeführt werden, genannt quaslneare Regresson. (1) Transformaton der Regressonsfunkton (2) Schätzung der Parameter lnearserten Funkton (3) Rücktransformaton der geschätzten Parameter Achtung: das Bestmmthetsmaß glt nur für de lnearserte Funkton Potenzansatz Y (1) Transformaton: Y b = a X = a X b (3) Rücktransformaton der Parameter durch Umstellen nach a, b a = e a', b= b' ln y = ln a+ bln x ln y = a' + b'ln x lnear n ln x, ln y (2) Schätzung der Parameter a' = ln a, b' = b m lnearen Modell für ln x, ln y SS 2017 Prof. Dr. J. Schütze, FB GW Deskr2 24

Quaslneare Regresson Exponentalansatz Y = a b X (1) Transformaton: Y X = a b ln y = ln a+ xln b ln y = a' + b' x (2) Schätzung der Parameter a' = ln a, b' = lnb lnear n x und ln y m lnearen Modell für x,ln y (3) Rücktransformaton der Parameter durch Umstellen nach a, b a = e a', b= b' 2.8 SS 2017 Prof. Dr. J. Schütze, FB GW Deskr2 25

Wetere Regressonsmodelle Mehrere Enflussgrößen Y = f( X1,..., X p ) Her kann mt statstschen Verfahren en optmales Modell gefunden werden, das nur sgnfkante Enflussgrößen enthält (de anderen werden schrttwese entfernt). Spezalfälle Lnearer Ansatz Quadratsche Regresson Y = a + a X + + a X Y = a + a X + a X 0 1 1... p p 2 0 1 2 Parameterschätzung für quadratschen Ansatz aus den Normalenglechungen a n+ a x + a x = y 2 0 1 2 a x + a x + a x = x y 2 3 0 1 2 2 3 4 2 0 + 1 + 2 = a x a x a x x y Nchtlneares Bestmmthetsmaß 2 Effektvere Berechnung des Zählers ( y yˆ ) R = 1 mt yˆ = a + a x + a x 2 2 2 0 1 2 ( y y) ( y yˆ ) = y a y a x y a x y 2 2 2 0 1 2 SS 2017 Prof. Dr. J. Schütze, FB GW Deskr2 26

Wetere Regressonsmodelle Quadratsche Regresson Bremsweg n Abhänggket von der Geschwndgket Bestmmthetsmaße Lnear: 0.92 Quadratsch: 0.99 Vortele des quadratschen Modells: physkalsch korrekt besserer Ft m Messberech Nachtel des quadratschen Modells: für v < 40 passt Modell ncht SS 2017 Prof. Dr. J. Schütze, FB GW Deskr2 27

Wetere Regressonsmodelle Nchtlneare Regresson Kann de Regressonsfunkton mathematsch ncht so umgeformt werden, dass ene lneare Glechung n den Parametern entsteht, legt en echtes nchtlneares Modell vor. lneare Glechung: Parameter kommen nur als Summanden oder Faktoren vor Bespel cx Y = a+ be a, b snd her konform zu lnearer Glechung, aber ncht c Her st kene Lnearserung durch Umformungen möglch. Ene optmale Parameterschätzung erfolgt her über numersche Verfahren der Optmerung, wobe.a. Startwerte für de Parameter erforderlch snd. MATLAB betet Anpassung von velen Modellen, darunter auch von nchtlnearen. SS 2017 Prof. Dr. J. Schütze, FB GW Deskr2 28