Lteratur Moon Jung Cho, Wendy L. Martnez Statstcs n MATLAB: A Prmer, Chapman and Hall/CRC 2014 Carlton, M., Devore, J. Probablty wth Applcatons n Engneerng, Scence, and Technology, Sprnger 2014 Sheldon M. Ross Statstk für Ingeneure und Naturwssenschaftler, Elsever 2006 Bechelt, F. Stochastk für Ingeneure, Teubner 1995 Hedderch, J., Sachs, L. Angewandte Statstk (mt Freeware R), Sprnger 2012 Beuchler, O. Wahrschenlchketsrechnung und Statstk mt MATLAB, Sprnger 2007 SS 2017 Prof. Dr. J. Schütze, FB GW Deskr.1 1
Warum Stochastk? Stochastk: Kunst des Mutmaßens (grech.) Mathematsche Stochastk beschäftgt sch mt der Beschrebung und Untersuchung von Erschenungen, de vom Zufall beenflusst snd m Snn von ncht genau vorhersagbar. Ursache der Unscherhet snd z.b. unvollständge Informaton unbekannte bzw. ncht beenflussbare Bedngungen. Bespele: Glücksspele we Würfeln, Skat, Roulette, Pokern, aber auch Ergebnsse von Qualtätskontrollen, Kursschwankungen an der Börse, Laufzeten von Akkus ener bestmmten Baurehe, Zuverlässgket enes komplexen Systems, SS 2017 Prof. Dr. J. Schütze, FB GW Deskr.1 2
Warum Stochastk? Zufällge Eregnsse werden oft durch Beobachtungen/Daten beschreben, für deren Analyse de mathematsche Statstk unter Nutzung geegneter Modelle der Stochastk Verfahren beretstellt. Statstk ursprünglch: Erhebung von Daten Status: Zustand (grech.) Deskrptve (beschrebende) Statstk Datenerfassung, Aufberetung, Verdchtung tabellarsche und grafsche Darstellung von Stchprobenergebnssen Induktve (schleßende) Statstk Verallgemenern von Stchprobenergebnssen be kalkulerbarem Rsko bzw. Scherhet Stochastk st das Bndegled zwschen deskrptver und nduktver Statstk, da auf der Bass stochastscher Modelle de Erkenntnsse aus Stchproben mt kalkulerbarer Scherhet verallgemenert werden können. SS 2017 Prof. Dr. J. Schütze, FB GW Deskr.1 3
Bespele Technk Be der Messung ener bestmmten Größe können oft ncht alle Enflüsse konstant gehalten werden. Jede Messung führt u. U. zu enem etwas anderen Ergebns. Aus den Messergebnssen ener Stchprobe schätzt man de unbekannte Größe. We gut bzw. genau st dese Schätzung? We oft sollte man messen? Instandhaltung Glühlampen werden n großen öffentlchen Gebäuden oft vorsorglch ausgetauscht. We kann man den günstgsten Zetpunkt bezüglch Scherhet und Kosten für den Tausch bestmmen? Bedenungstheore Warteschlangen n Ämtern, an Kassen m Supermarkt oder be Materalausgabe snd ärgerlch. We kann man se modelleren und durch geegnete Planung verkürzen? Quellen zufällger Enflüsse Messfehler Enflüsse, de ncht messbar snd bzw. ncht konstant gehalten werden können SS 2017 Prof. Dr. J. Schütze, FB GW Deskr.1 4
Überblck Beschrebende Statstk Schleßende Statstk Modell Schätzung Stchprobe Relatve Häufgket Wahrschenlchketsrechnung mt Rskoberechnung Grundgesamthet Wahrschenlchket Durchschntt... Erwartungswert... SS 2017 Prof. Dr. J. Schütze, FB GW Deskr.1 5
Vorlesungsglederung A Beschrebende Statstk Häufgketsvertelungen, Hstogramme, Parameterschätzungen, Boxplots, Ausreßerdetekton, Zusammenhangsmaße, Regressonsmodelle B Wahrschenlchketsrechnung Wahrschenlchketen, Unabhänggket, Wahrschenlchketsvertelungen, Modelle C Schleßende Statstk Schätzungverfahren, Konfdenzntervalle, Parametertests Parameterfree Verfahren SS 2017 Prof. Dr. J. Schütze, FB GW Deskr.1 6
Glederung Tel A A Beschrebende Statstk 1. Grundbegrffe der beschrebenden Statstk 2. Endmensonale Merkmale Häufgketsvertelungen be kategoralen und metrschen Merkmalen, Hstogramm, emprsche Vertelungsfunkton, Boxplot, Ausreßer Statstsche Maßzahlen 3. Mehrdmensonale Merkmale Zwedmensonale Häufgketstabellen Zusammenhangsmaße Lneare Regresson Wetere Regressonsmodelle SS 2017 Prof. Dr. J. Schütze, FB GW Deskr.1 7
Grundbegrffe Grundgesamthet Zelpopulaton, alle Elemente, de prnzpell gemessen, befragt, beobachtet werden können (von Interesse für de Untersuchung snd) Stchprobe Telmenge der Grundgesamthet, de zufällg für de Untersuchung/ Beobachtung ausgewählt bzw. beobachtet/gemessen wurde Merkmal / statstsche Varable Zelgröße der Erhebung / Messung Der Informatonsgehalt der Merkmale hängt von der Skala ab, auf der se gemessen bzw. beobachtet wurden. Man unterschedet grob zwschen folgenden Skalennveaus Skalennveau qualtatv (kategoral) quanttatv (metrsch) nomnal ordnal dskret stetg SS 2017 Prof. Dr. J. Schütze, FB GW Deskr.1 8
Grundbegrffe Skalennveaus snd wchtg für de Auswahl passender statstscher Verfahren. Spezelle Statstksoftware (z.b. SPSS, SAS) unterschedet dabe zwschen nomnalen, ordnalen und metrschen Daten. Der Informatonsgehalt nmmt n deser Rehenfolge zu. Nomnalskala Daten drücken qualtatve Egenschaft aus (Kategoren, z.b. Autotypen) kene Ordnung - nur glech oder verscheden Spezalfall: Dchotome Skala mt 2 möglchen Kategoren (z.b. defekt/ncht defekt) Ordnalskala Daten können n Rangfolge geordnet werden, aber Unterschede zwschen den Ausprägungen snd ncht quanttatv messbar (z.b. Grad der Zustmmung be Umfrage) Metrsche Skala Daten snd Messwerte auf dskreter oder kontnuerlcher Skala Dskret: Zähldaten; Kontnuerlch: Messdaten Dfferenz zwschen Ausprägungen charaktersert quanttatven Untersched 1.1 SS 2017 Prof. Dr. J. Schütze, FB GW Deskr.1 9
Endmensonale dskrete Merkmale Dskretes Merkmal X wrd n-mal gemessen/beobachtet, Stchprobe x,... 1 xn n heßt Stchprobenumfang be k möglchen Ausprägungen,... x1 xk snd maxmal k der n beobachteten Werte verscheden, Absolute Häufgket h( x ), 1 k Anzahl des Auftretens von unter den n Werten der Stchprobe x Relatve Häufgket f ( x ), 1 k h( x ) f ( x ) =, 1 k n Egenschaften 0 h( x ) n, h( x ) = n k = 1 0 f( x ) 1, f( x ) = 1 Nur be ordnalen/metrschen Merkmalen: absolute und relatve Summenhäufgketen H x h x F x f x * * * * ( ) = ( ), ( ) = ( ) k k kx : x kx : x k k SS 2017 Prof. Dr. J. Schütze, FB GW Deskr.1 10 k = 1
Endmensonale stetge Merkmale Stetges Merkmal X wrd n-mal gemessen, Stchprobe dabe snd.a. alle auftretenden Werte verscheden. x,... 1 xn Entelung des Intervalls zwschen der klensten und der größten Messung n glechbrete, dsjunkte Klassen K,1 k Klassenanzahl k zwschen 4 und 20, Faustregel k n Klassengrenzen snd endeutg zuzuordnen, z.b. Obergrenze jewels zur Klasse gehörg Absolute Klassenhäufgket hk ( Anzahl der,... ),1 k hk ( ) = x n 1 xn K Relatve Häufgket f ( K ), 1 k hk ( ) f ( K ) =, 1 k n SS 2017 Prof. Dr. J. Schütze, FB GW Deskr.1 11
Endmensonale stetge Merkmale Egenschaften der Klassenhäufgketen k = 1 hk ( ) = n k = 1 f( K ) = 1 De grafsche Darstellung der Klassenhäufgketen als Balken über den Intervallen der Klassen nennt man Hstogramm. Absolute Summenhäufgket H(x), Relatve Summenhäufgket F( x) durch sukzessves Aufsummeren der Häufgketen über alle Klassen lnks von bs enschleßlch x H() x = h( K), F() x = f( K) alle Kl. lnks bs enschl. x alle Kl. lnks bs enschl. x SS 2017 Prof. Dr. J. Schütze, FB GW Deskr.1 12
Endmensonale stetge Merkmale Bespel: Stchprobe mt 20 Werten enes stetgen Merkmals 61, 65, 82, 86, 90, 90, 90, 90, 103, 105, 110, 110, 110, 111, 116, 117, 126, 126, 130, 135 Klassenentelung des überdeckten Bereches von ca. 60 bs ca. 140 n k = 4 Klassen Klassengrenzen (60, 80] (80, 100] (100, 120] (120, 140] abs. H. rel. H. 2 0.1 6 0.3 8 0.4 4 0.2 rel. Summenh. 0.1 0.4 0.8 1.0 0,1 Hstogramm 0,3 0,4 0,2 Aus den relatven Summenhäufgketen erhält man den Antel der Werte lnks jeder Klassengrenze z.b. st Antel der Werte, de 100 snd, glech 0.4 1,0 Summenhäufgketen SS 2017 Prof. Dr. J. Schütze, FB GW Deskr.1 13
Endmensonale stetge Merkmale Informaton aus Hstogrammen Hstogramme lassen ene erste Beurtelung der Art der Vertelung zu, nsbesondere n Hnblck auf Symmetre, Schefe bzw. Vorlegen extremer Werte/Ausreßer. rechtsstel (lnksschef) ohne deutlche Ausreßer lnksstel (rechtsschef) mt Ausreßern annähernd symmetrsch ohne deutlche Ausreßer SS 2017 Prof. Dr. J. Schütze, FB GW Deskr.1 14
Endmensonale stetge Merkmale Emprsche Vertelungsfunkton entsprcht der Summenhäufgketsfunkton ohne vorherge Klassenentelung Für belebges x wrd der Antel der Stchprobenwerte bestmmt, de x snd, (be Summenhäufgketsfunkton durchläuft x nur de Klassengrenzen) Emprsche Vertelungsfunkton Anzahl der Stchprobenwerte F( x) = n Fällt x mt ener Klassengrenze zusammen, st der Wert der emprschen Vertelungsfunkton glech dem der Summenhäufgket. x 1.2 Egenschaften der emprsche Vertelungsfunkton F(x) st monoton wachsend 0 F(x) 1 F(x) st ene Treppenfunkton mt Sprungstellen n den Stchprobenwerten. De Höhe des Sprungs n x st glech der relatven Häufgket von x. SS 2017 Prof. Dr. J. Schütze, FB GW Deskr.1 15
Endmensonale stetge Merkmale Bespel: geordnete Stchprobe mt 20 Werten enes stetgen Merkmals 61, 65, 82, 86, 90, 90, 90, 90, 103, 105, 110, 110, 110, 116, 116, 117, 117, 126, 126, 135 x F(x) x < 61 0 F( x) = Anzahl der Stchprobenwerte n x 61 x < 65 1/20 5% 65 x < 82 2/20 10% Emprsche Vertelungsfunkton 82 x < 86 3/20 15% 86 x < 90 4/20 20% 90 x < 103 8/20 40% 103 x < 105 9/20 45% 105 x < 110 10/20 50% 110 x < 116 13/20 70% 116 x < 117 15/20 75% 117 x < 126 17/20 85% 126 x < 135 19/20 95% x 135 100% SS 2017 Prof. Dr. J. Schütze, FB GW Deskr.1 16
Endmensonale stetge Merkmale De emprsche Vertelungsfunkton wrd durch de Summenhäufgketsfunkton genähert, mt zunehmender Klassenanzahl und gerngerer Klassenbrete wrd de Näherung besser. Summenhäufgketsfunkton Emprsche Vertelungsfunkton Emprsche Vertelungsfunkton Emprsche Vertelungsfunktonen egnen sch zum Verglech von Vertelungen unterenander sowe zum Test auf Vorlegen enes bestmmten Vertelungstyps (Kolmogorov-Smrnov-Test). SS 2017 Prof. Dr. J. Schütze, FB GW Deskr.1 17
Emprsche Quantle Lageparameter Unterhalb welcher Grenze auf der Skala legt en bestmmter Antel α der Stchprobenwerte? Spezalfälle α=0.5 : Medan α=0.25 : Unteres Quartl α=0.75 : Oberes Quartl x = x = u x 0.25 = u0.25 x = u 0.5 0.5 0.75 0.75 50% der Stchprobenwerte legt unterhalb 25% der Stchprobenwerte legt unterhalb 75% der Stchprobenwerte legen unterhalb Zur Berechnung muss man de Stchprobe zunächst aufstegend ordnen: x (1),,x (n) Be ungeradem n st der Medan genau der mttlere Wert deser geordneten Rehe. Ist n gerade, stehen 2 Werte n der Mtte, der Medan st dann hr Mttelwert. Analog verfährt man be der Berechnung der Quartle. Ist der Stchprobenumfang durch 4 telbar, legt das untere Quartl n der Mtte zwschen dem Wert der geordneten Rehe an Poston n/4 und dem folgenden. I.a. braucht man zur Berechnung der Quartle bzw. für Quantle belebger Ordnung α ene geegnete Formel. SS 2017 Prof. Dr. J. Schütze, FB GW Deskr.1 18
Emprsche Quantle Allgemene Berechnung von Quantlen für belebges α, 0 <α < 1: Be Stchprobenumfang n entsprcht jeder Messwert enem Antel 1/n, k Werte entsprechen dem Antel k/n. I.a. passt α ncht exakt n deses Raster, daher folgende Näherungsformel. Bass st de aufstegend geordnete Stchprobe x mn = x(1) x(2)... x( n ) = xmax Emprsches α Quantl für 0 <α< 1 st de Zahl x( k ), falls k 1 < n α < k, d.h. k = [ n α ] + 1 x α = 1 ( x( k) + x( k+ 1) ), falls k = n α ganzzahlg 2 Interpretaton Das α Quantl telt den Berech, den de Stchprobe überdeckt, so n zwe Tele, dass etwa α 100% der Messwerte unterhalb und etwa (1- α) 100% oberhalb legen. Achtung Manche Software, auch TR verwenden ene genauere Formel zur Quantlberechnung. SS 2017 Prof. Dr. J. Schütze, FB GW Deskr.1 19 1.3
Emprsche Quartle Quartlsabstand: Dfferenz zwschen oberem und unterem Quartl 48 49 49 Unteres Quartl Medan Oberes Quartl 50 50 x 0.25 x 0.5 x 0.75 =.. Brete des Berechs der mttleren 50% der Werte Bsp. Geordnete Größe von 10 Neugeborenen: 48, 49, 49, 50, 50, 51, 51, 51, 52, 57 51 51 51 52 57 x0.25 : k = n α = 10 0.25 = 2.5 x0.25 = x(3) = 49 x : k = n α = 10 0.5= 5 x = ( x + x )/2= 50.5 0.5 0.5 (5) (6) x : k = n α = 10 0.75 = 7.5 x = x = 51 0.75 0.75 (8) Quartlsabstand: d = x0.75 x0.25 = 51 49 = 2 SS 2017 Prof. Dr. J. Schütze, FB GW Deskr.1 20
Boxplots 48 49 49 50 50 51 51 51 52 57 x 0.25 x 0.5 x 0.75 mn max ausreßerverdächtg Unteres Quartl Medan Oberes Quartl De Box enthält (etwa) de mttleren 50% der Werte der Stchprobe. Boxbrete = Quartlsabstand = 2 Ausreßerverdächtge Werte werden gesondert gezechnet (her Messwert 57). De Balken kennzechnen mn und max der Werte, de ncht ausreßerverdächtg snd. SS 2017 Prof. Dr. J. Schütze, FB GW Deskr.1 21
Ausreßerdetekton Ermttlung ausreßerverdächtger Werte : Werte außerhalb des Normalberechs 48 49 49 50 50 51 51 51 52 57 u x 0.25 x 0.5 x 0.75 Normalberech o Normalberech [u, o] u = unteres Quartl 1.5 Quartlsabstand o = oberem Quartl + 1.5 Quartlsabstand Im Bespel: Quartlsabstand = 2, folglch Normalberech (49 1.5 2, 51 + 1.5 2) = (46, 54) Ausreßerverdächtg st somt her der Wert 57 Normalberech wrd m Boxplot ncht engezechnet!!! De Balken m Boxplot snd Maxmum und Mnmum nnerhalb des Normalberechs. SS 2017 Prof. Dr. J. Schütze, FB GW Deskr.1 22
Interpretaton Anwendung Der Medan als Lageparameter schätzt den Zentralwert (Mttelwert), Der Quartlsabstand st en Streuungsmaß, der de Brete des Berechs msst, n dem de mttleren 50% der Stchprobenwerte legen. Dese Kenngrößen snd robust gegenüber Ausreßern. Daher werden se be ausreßerbehafteten Daten bzw. schefen Vertelungen gegenüber dem Durchschntt und der Standardabwechung bevorzugt. Veränderter Datensatz Größe von 10 Neugeborenen: 51, 50, 51, 49, 49, 51, 50, 53, 48, 52 48 49 49 50 50 x 0.25 x 0.5 x 0.75 51 51 51 52 53 Unteres Quartl Medan x 0.25 = 49, x 0.5 = 50.5, x = Oberes Quartl Boxbrete = 2 Normalberech (46, 54), snd unverändert. 0.75 51 Es legt nun ken ausreßerverdächtger Wert mehr vor, de Balken zegen mn und max aller Messwerte an. SS 2017 Prof. Dr. J. Schütze, FB GW Deskr.1 23
Statstsche Maßzahlen Mttelwertsmaße Arthmetsches Mttel x = x mt absol. Häufgketen der k Ausprägungen 1 n n = 1 1 * * x = xhx ( ) n Streuungsmaße n Emprsche Varanz 2 1 s = 2 ( x x) n 1 = 1 n 1 = 2 2 x nx n 1 = 1 2 1 * 2 * s = ( x x) h( x ) n 1 k 1 = ( x ) hx ( ) nx n 1 = 1 * 2 * 2 Standardabwechung 2 Varatonskoeffzent Standardfehler des Mttelwertes s = + v = s x = s x s s n Be schefen Vertelungen/ Vorlegen von Ausreßern Medan ~ x = ~ x 0, 5 Quartlsabstand d0.5 = x0.75 x0. 25 ~ ~ ~ 1.4 SS 2017 Prof. Dr. J. Schütze, FB GW Deskr.1 24
Mehrdmensonale Merkmale Oft werden am glechen Objekt mehrere Merkmale gemessen. Dann nteressert man sch mest dafür, ob es zwschen hnen ene Abhänggket gbt oder ncht. De Strenge der Abhänggket beschrebt man durch Zusammenhangsmaße. Passend zum Skalennveau der Merkmale wählt man en passendes Maß zur Beschrebung des Grades der Abhänggket. Nomnale Merkmale Ordnale Merkmale Metrsche Merkmale Ch-Quadrat-Maß, Kontngenzkoeffzenten Korrelaton nach Spearman Korrelaton nach Pearson Für Merkmalen auf verschedenem Skalennveau kann man den Koeffzenten entsprechend der nedrgeren Skala wählen. Darüber hnaus gbt es Maße für verschedene Skalen (s. Lt.) Be metrschen Merkmalen mt hoher Pearson-Korrelaton nach beschrebt man de Abhänggket der Merkmale durch ene lneare Regressonsfunkton. SS 2017 Prof. Dr. J. Schütze, FB GW Deskr2 1
Zusammenhangsmaße für metrsche Merkmale Bespel: Be ener Verkehrskontrolle wurde be straffällger Höhe der Geschwndgketsüberschretung (> 20 km/h) auch das Alter des Fahrers protokollert. Alter 20 23 24 59 55 26 32 29 43 38 31 36 Überschretung 22 22 40 23 34 22 22 21 28 27 25 29 Streudagramm (Scatterplot) y = 26,25 x = 34,67 SS 2017 Prof. Dr. J. Schütze, FB GW Deskr2 2
Zusammenhangsmaße für metrsche Merkmale Für enen lnearen Zusammenhang der Merkmale würde sprechen, dass alle Punkte P m ersten und drtten bzw. zweten und verten Quadranten legen, wobe de Quadrantenentelung entlang der Mttelwerte der beden Merkmale erfolgt. y y 4. Quadr. 1. Quadr. 2. Quadr. x 3. Quadr. x Stegende Tendenz: Fallende Tendenz: P = ( x, y) mt x < x, y < y oder x > x, y > y ( x x)( y y) > 0 P = ( x, y ) mt x < x, y > y oder x > x, y < y ( x x)( y > y) < 0 Snd de Punkte P über alle Quadranten vertelt, legt kene lneare Tendenz vor. Produkte ( x x)( y y) blden Kernstück für Zusammenhangsmaß Kovaranz Pearson-Korrelatonskoeffzent Σ( X X)( Y Y ) r = Σ ( X X) Σ ( Y Y) n 1 Cov( x, y) = ( x x)( y y) n 1 = 1 2 2 Egenschaften stegende Tendenz be r > 0 fallende Tendenz be r < 0 SS 2017 Prof. Dr. J. Schütze, FB GW Deskr2 3
Zusammenhangsmaße für metrsche Merkmale Äquvalente Darstellungen der Pearson-Korrelaton Cov( X, Y ) r = Var X VarY Σ( X X)( Y Y) = Σ ( X X) Σ ( Y Y) = = ΣXY 2 2 nxy 2 2 2 2 ( ΣX nx )( ΣY ny ) nσx Y ΣX ΣY 2 2 2 2 ( nσx ( ΣX ))( nσy ( ΣY)) Bassformeln für Umrechnung (Summatonsndex von 1 bs n) nx = X ( X X ) = X nx 2 2 2 ( X X )( Y Y ) = X Y nxy 2.1 SS 2017 Prof. Dr. J. Schütze, FB GW Deskr2 4
Zusammenhangsmaße für metrsche Merkmale Interpretaton der Pearson-Korrelaton Der Korrelatonskoeffzent von Pearson msst, we eng der lneare Zusammenhang zwschen X und Y st. Es glt stets: 1 r 1 Be r = 1 legen alle Messwertpaare auf ener stegenden Geraden. Be r = -1 legen alle Messwertpaare auf ener fallenden Geraden. Be r = 0 st kene lneare Tendenz erkennbar. Klassfzerung r = 0 0< r < 0.5 0.5 r < 0.8 0.8 r < 1 r =1 kene Korrelaton schwache Korrelaton mttlere Korrelaton starke Korrelaton perfekte Korrelaton, d.h. Punkte legen auf ener Geraden Mt statstsche Testverfahren kann man de Sgnfkanz von Korrelatonen beurtelen. SS 2017 Prof. Dr. J. Schütze, FB GW Deskr2 5
Zusammenhangsmaße für ordnale Merkmale Be ordnalen Merkmalen oder metrschen Merkmalen mt Ausreßern rechnet man anstelle der Werte mt hren Rangzahlen (Platznummern). R( x ) Platznummer von x be aufstegend geordneten Werten von X R( y ) Platznummer von y be aufstegend geordneten Werten von Y Mehrfach auftretende Werte (Bndungen) erhalten den glechen mttleren Rang. Spearman-Korrelatonskoeffzent Σ( R( x ) R)( R( y ) R) ΣR( x ) R( y ) nr rs = = Σ Σ Σ Σ 2 2 2 2 2 2 2 ( R( x) R) ( R( y) R) ( R( x) nr )( R( y) nr ) Legen kene Bndungen vor, verenfacht sch de Berechnung zu 2 6 d rs = 1 mt d ( ) ( ) 2 = R x R y nn ( 1) n + 1 2 Der Spearman-Korrelatonskoeffzent msst enen monotonen Zusammenhang. Be r = 1 folgen alle Messwertpaare ener monoton stegenden Tendenz. Be r = -1 folgen alle Messwertpaare ener monoton fallenden Tendenz. Be r = 0 st kene monotone Tendenz erkennbar. SS 2017 Prof. Dr. J. Schütze, FB GW Deskr2 6 R = 2.2
Abhänggket nomnaler Merkmale Alle möglchen Kombnatonen der Werte von X und Y werden tabellarsch erfasst, n k : Anzahl des Auftretens des Paares (x, y k ) Y y1 y2... yq X x 1 n 11 n 12 n 1q x 2 n 21 n 22 n 2q Randvertelung von X (Zelensummen) n n 1. 2. = q k = 1 = q k = 1 n n 1k 2k x p n p1 n p2 n pq Randvertelung von Y (Spaltensummen) n = p. 1 n 1 n = p n = = p. 2 2 1 = = 1 1 n q n q = q n p n pk. k = 1 = p q n k = 1k = 1. n De Randvertelungen snd genau de endmensonalen Vertelungen von X und Y. Zelensummen: Vertelung von X Spaltensummen: Vertelung von Y SS 2017 Prof. Dr. J. Schütze, FB GW Deskr2 7 2.3
Abhänggket nomnaler Merkmale Endmensonalen Vertelungen lassen kene Rückschlüsse über enen Zusammenhang zwschen den Merkmalen zu. Zusammenhänge fndet man durch Verglech der enzelnen Spalten/Zelen, se enthalten de bedngten Häufgketen nach Kategoren des anderen Merkmals (unter der Bedngung der entsprechenden Ausprägung m Spalten-/Zelenkopf). Bedngte absolute Häufgketen von X unter Bedngung f ( X = x / Y = y ) = n / n k k. k berechnet aus Spalte Y y k, normert mt Spaltensumme Y = y k hy ( y) n = = k =. k Bedngte absolute Häufgketen von Y unter Bedngung X = x f ( Y = y / X = x ) = n / n k k. berechnet aus Zele X = x, normert mt Zelensumme h( X = x ) = n. 2.4 SS 2017 Prof. Dr. J. Schütze, FB GW Deskr2 8
Abhänggket nomnaler Merkmale Für enen Zusammenhang zwschen den Merkmalen sprcht, dass sch de bedngten Vertelungen vonenander und damt von der Randvertelung unterscheden. Snd alle bedngten Vertelungen von X nach den Kategoren von Y glech der Randvertelung von X, hat de Ausprägung von Y kenen Enfluss auf X. nk nm n. = = n n n. k. m Daraus erhält man de Bedngung n. n. k nk = n De Merkmale X, Y snd emprsch unabhängg, falls für alle, k glt n. n. k nk = n Daraus leten sch Kenngrößen zum Messen der Stärke der Abhänggket ab. SS 2017 Prof. Dr. J. Schütze, FB GW Deskr2 9
Zusammenhangsmaße be nomnalen Merkmalen Maß für de Stärke des Zusammenhangs auf Bass der Abwechungen der beobachteten Zellenbesetzung n. n. k und der be Unabhänggket erwarteten Zellenbesetzung nˆ k = n n k Dabe quadrert man de Abwechungen, damt sch postve und negatve Dfferenzen ncht kompenseren, und normert pro Zelle mt der erwarteten Häufgket. Ch-Quadrat-Maß ( n nˆ ) p q 2 k χ = = 1 k= 1 nˆ k k 2 SS 2017 Prof. Dr. J. Schütze, FB GW Deskr2 10
Zusammenhangsmaße be nomnalen Merkmalen Da de Größe des Ch-Quadrat-Maßes auch von der Dmenson der Tabelle und dem Stchprobenumfang abhängt, wurden daraus wetere Maße abgeletet, de dese störenden Enflüsse durch Normerung herausrechnen. Zusammenhangsmaße für dskrete Merkmale Ch-Quadrat-Maß ( n nˆ k ) p q 2 k χ = = 1 k= 1 nˆ k 2 χ Kontngenzkoeffzent C = χ 2 + n d Korrgerter Kontngenzkoeffzent Ckorr = C d 1 mt d = mn(p,q), p Zelenanzahl, q Spaltenanzahl der Kontngenztabelle 2 2.5 SS 2017 Prof. Dr. J. Schütze, FB GW Deskr2 11
Zusammenhangsmaße be nomnalen Merkmalen Interpretaton Be Unabhänggket der Merkmale snd de beobachtetet Zellhäufgketen glech den be Unabhänggket zu erwartenden Zellhäufgketen, es glt, und damt snd alle Maße Null. n k = nˆ k Je stärker de Abhänggket st, desto größer st de Abwechung von Null. Das Ch-Quadratmaß st nach oben ncht beschränkt, erst de abgeleteten Maße (Kontngenzkoeffzenten) snd auf Werte klener als 1 normert. Damt erlauben se den Verglech von Abhänggketen zwschen Tabellen mt verschedenen Stchprobenumfängen bzw. verscheden velen Ausprägungen. In der schleßenden Statstk steht en Testverfahren auf Unabhänggket zur Verfügung, be dem man zu vorgegebener Scherhet enen Schwellwert bestmmt, be dessen Überschretung auf Abhänggket geschlossen wrd. SS 2017 Prof. Dr. J. Schütze, FB GW Deskr2 12
Lneare Regresson Haben de metrschen Merkmale X, Y ene hohe Korrelaton, stehen se n engem lnearen Zusammenhang, der durch ene Geradenglechung modellert werden kann. Ansatz: y = a0 + a1x De Koeffzenten a0, a1 deser Regressonsfunkton bestmmt man nach dem Optmaltätskrterum (Methode der klensten Quadrate MKQ) n = 1 ( y ( a a x )) 2 + 0 1 mn. 3 2 1-1 0 1 2 x 3 4 5-1 ( ) Resduen y a0 + a1x snd de vertkalen Abwechungen der Messpunkte von der Geraden De Quadratsumme deser Resduen wrd m Optmaltätskrterum mnmert. SS 2017 Prof. Dr. J. Schütze, FB GW Deskr2 13
Lneare Regresson Bestmmung der Regressonsparameter durch Mnmserung des Optmaltätskrterums n ( ) 2 f( a, a ) = y ( a + a x ) mn 0 1 0 1 = 1 0 1 y = a n+ a x x y = a x + a x 2 0 1 Man berechnet de partellen Abletungen von f nach den Parametern und setzt se glech Null. Daraus entstehen nach Umformung der Summen de Normalenglechungen Als Lösung deses Glechungssystems für de Unbekannten a, a erhält man de Parameterschätzungen ( ) n x y x y 1 a = a = y a x ( ) 1 2 0 1 2 n x n x 0 1 SS 2017 Prof. Dr. J. Schütze, FB GW Deskr2 14
Lneare Regresson Beurtelung der Anpassungsgüte der Funkton Resduen: vertkale Abwechungen der Punkte von der Regressonsgeraden, aus hnen defnert sch de Restvaraton. Resduen y a + a x ( ) 0 1 Restvaraton (SSE we Error) ( ( )) 2 SSE = y a + a x 0 1 2.6 SS 2017 Prof. Dr. J. Schütze, FB GW Deskr2 15
Lneare Regresson Als erklärte Varaton SSR (we Regresson) bezechnet man de Varaton der Werte auf der Regressonsfunkton a + a x an den Stellen x um den Mttelwert y ( ( )) 2 SSR = y a + a x 0 1 0 1 Idee dabe st, dass de Gerade y kene Varaton von y n Abhänggket von x erklärt, ene mt optmalen Parametern angepasste Gerade hngegen den maxmalen Antel. Erklärte Varaton y = 1.75 SS 2017 Prof. Dr. J. Schütze, FB GW Deskr2 16
Lneare Regresson ( ) 2 2 ( 1) SST = y y = n s y ( ( )) 2 0 1 SSR = y a + a x ( ( )) 2 0 1 SSE = y a + a x Es glt de Zerlegung: SST = SSR + SSE Nach Dvson durch SST SSR SSE 1 = + SST SST Bestmmthetsmaß: 2 SSR SSE R = = 1 SST SST Das Bestmmthetsmaß st der Antel der erklärten Varaton an der Gesamtvaraton. SS 2017 Prof. Dr. J. Schütze, FB GW Deskr2 17
Lneare Regresson Bestmmthetsmaß der lnearen Regresson R 2 ( Y ( a + a X )) = = ( Y ) Interpretaton 0 1 2 Y 2 erklärte Varaton Gesamtvaraton Be perfekter Anpassung legt kene Restvaraton vor, dann st de erklärte Varaton glech der Gesamtvaraton, das Bestmmthetsmaß st glech 1. Wesen de Punkte kene lneare Tendenz auf, st de erklärte Varaton glech Null damt st auch das Bestmmthetsmaß st glech Null. Im Allgemenen gbt de Größe von R² den Antel an Varaton der y-werte an, der durch de Regresson erklärt wrd. Zusammenhang zum Pearsonschen Korrelatonskoeffzenten r 2 2 Es glt: r = R 2.7 SS 2017 Prof. Dr. J. Schütze, FB GW Deskr2 18
Lneare Regresson De Güte der Anpassung der lnearen Regresson st stark davon abhängg, ob Ausreßer m Datensatz vorhanden snd. Regressonsfkt. Y = 0.087x + 23.218 Bestmmthetsmaß 0.035 SS 2017 Prof. Dr. J. Schütze, FB GW Deskr2 19
Lneare Regresson Änderung der Regressonsfunkton und der Güte der Anpassung nach Elmnaton enes Ausreßers Regressonsfkt. Y = 0.197x + 17.971 Bestmmthetsmaß 0.365 SS 2017 Prof. Dr. J. Schütze, FB GW Deskr2 20
Lneare Regresson Änderung der Regressonsfunkton und der Güte der Anpassung nach Elmnaton enes weteren Ausreßers Regressonsfkt. Y = 0.375x + 12.717 Bestmmthetsmaß 0.831 SS 2017 Prof. Dr. J. Schütze, FB GW Deskr2 21
Lneare Regresson De unkrtsche Elmnaton von 'Ausreßern' täuscht strenge Zusammenhänge vor, de nur Wunschvorstellung sen können! Regressonsfkt. Y = 0.087x + 23.218 Bestmmthetsmaß 0.035 Regressonsfkt. Y = 0.197x + 17.971 Bestmmthetsmaß 0.365 Regressonsfkt. Y = 0.375x + 12.717 Bestmmthetsmaß 0.831 SS 2017 Prof. Dr. J. Schütze, FB GW Deskr2 22
Orthogonale Regresson Krterum zur optmalen Schätzung der Parameter: Quadratsumme der vertkalen Abwechung der Punkte zur Geraden wrd mnmal Daher nennt man das Verfahren MKQ-Regresson (Methode der klensten Quadrate). Ene Ausglechsgerade wrd dabe n dem Snn gefunden, dass Fehler auf der n y- Rchtung abgetragenen Größe n desem Snn mnmert werden. Legen auch Messfehler n der auf der x-achse abgetragenen Größe vor, st de MKQ-Regresson zur Mnmerung der vertkalen Resduen ncht geegnet. Besser st n desem Fall ene Orthogonale Regresson, de als Krterum de senkrechten Abstände (Projekton) der Punkte auf de Regressonsgerade ausglecht. MKQ Orthogonal SS 2017 Prof. Dr. J. Schütze, FB GW Deskr2 23
Quaslneare Regresson Bestmmte Funktonstypen können durch Umformung (z.b. Logarthmeren) auf en lneares Modell zurückgeführt werden, genannt quaslneare Regresson. (1) Transformaton der Regressonsfunkton (2) Schätzung der Parameter lnearserten Funkton (3) Rücktransformaton der geschätzten Parameter Achtung: das Bestmmthetsmaß glt nur für de lnearserte Funkton Potenzansatz Y (1) Transformaton: Y b = a X = a X b (3) Rücktransformaton der Parameter durch Umstellen nach a, b a = e a', b= b' ln y = ln a+ bln x ln y = a' + b'ln x lnear n ln x, ln y (2) Schätzung der Parameter a' = ln a, b' = b m lnearen Modell für ln x, ln y SS 2017 Prof. Dr. J. Schütze, FB GW Deskr2 24
Quaslneare Regresson Exponentalansatz Y = a b X (1) Transformaton: Y X = a b ln y = ln a+ xln b ln y = a' + b' x (2) Schätzung der Parameter a' = ln a, b' = lnb lnear n x und ln y m lnearen Modell für x,ln y (3) Rücktransformaton der Parameter durch Umstellen nach a, b a = e a', b= b' 2.8 SS 2017 Prof. Dr. J. Schütze, FB GW Deskr2 25
Wetere Regressonsmodelle Mehrere Enflussgrößen Y = f( X1,..., X p ) Her kann mt statstschen Verfahren en optmales Modell gefunden werden, das nur sgnfkante Enflussgrößen enthält (de anderen werden schrttwese entfernt). Spezalfälle Lnearer Ansatz Quadratsche Regresson Y = a + a X + + a X Y = a + a X + a X 0 1 1... p p 2 0 1 2 Parameterschätzung für quadratschen Ansatz aus den Normalenglechungen a n+ a x + a x = y 2 0 1 2 a x + a x + a x = x y 2 3 0 1 2 2 3 4 2 0 + 1 + 2 = a x a x a x x y Nchtlneares Bestmmthetsmaß 2 Effektvere Berechnung des Zählers ( y yˆ ) R = 1 mt yˆ = a + a x + a x 2 2 2 0 1 2 ( y y) ( y yˆ ) = y a y a x y a x y 2 2 2 0 1 2 SS 2017 Prof. Dr. J. Schütze, FB GW Deskr2 26
Wetere Regressonsmodelle Quadratsche Regresson Bremsweg n Abhänggket von der Geschwndgket Bestmmthetsmaße Lnear: 0.92 Quadratsch: 0.99 Vortele des quadratschen Modells: physkalsch korrekt besserer Ft m Messberech Nachtel des quadratschen Modells: für v < 40 passt Modell ncht SS 2017 Prof. Dr. J. Schütze, FB GW Deskr2 27
Wetere Regressonsmodelle Nchtlneare Regresson Kann de Regressonsfunkton mathematsch ncht so umgeformt werden, dass ene lneare Glechung n den Parametern entsteht, legt en echtes nchtlneares Modell vor. lneare Glechung: Parameter kommen nur als Summanden oder Faktoren vor Bespel cx Y = a+ be a, b snd her konform zu lnearer Glechung, aber ncht c Her st kene Lnearserung durch Umformungen möglch. Ene optmale Parameterschätzung erfolgt her über numersche Verfahren der Optmerung, wobe.a. Startwerte für de Parameter erforderlch snd. MATLAB betet Anpassung von velen Modellen, darunter auch von nchtlnearen. SS 2017 Prof. Dr. J. Schütze, FB GW Deskr2 28