8. Lieare Regressio 8.1. Die Methode der kleiste Quadrate Regressiosgerade bzw. Ausgleichsgerade sid eie Auswertug vo statistische Messdate. Dabei sid Datepukte ( x 1, y 1 ),( x 2, y 2 ), ( x, y ) gegebe. Es soll u eie Gerade gefude werde, die am beste durch die Datepukte verläuft. Ziel dieser Aalyse ist es, Beziehuge zwische de beide Merkmale festzustelle. Zusammehäge köe da quatitativ beschriebe ud progostiziert werde. Theoretisch sid verschiedee Methode dekbar, eie Ausgleichsgerade zu eier Mege vo Messpukte zu defiiere. Die Methode der kleiste Quadrate, selteer auch Kriterium der kleiste Quadrate, wurde vo Gauß etwickelt ud erfolgreich agewedet. Sie hat sich als wesetliches Verfahre durchgesetzt. Für die Ausgleichsgerade wird die Fuktiosgleichug y = mx +b gesucht, also die beide Parameter m ud b. Zu jedem Datepukt ( ) köe wir mit dem x- Wert de Pukt P* " # " % bestimme, der auf der gesuchte Gerade liegt. Er hat die y- Koordiate yi* = mxi + b. Somit erhalte wir zu jedem Datepukt de Fehler yi - yi*. y 1 mx 1 + b ( ) = Fehler 1 ( ) = Fehler 2 y 2 mx 2 + b F(m,b) = "( ( m + b) ) 2 Die Summe der quadratische Fehler ist da: ( ( )) 2 F(m,b) = " m + b ud dieser soll miimiert werde Wir löse das Quadrat i der Summe mit der biomische Formel auf. "( ( ) + ( m + b) ) 2 F(m, b) = 2 2 m + b "( ) = 2 2m 2b + m 2 2 + 2mb + b 2 Wir arbeite durch Umformuge die beide Parameter b ud m heraus. % ""##= % & "%#( & % & "%% & + # % % ( & + %#( & + % % = % & "%# ( & % & "% % & + # % % ( & +%# ( & + % & Dieser Term hägt vo zwei Variable, m ud b ab ud wir wolle dazu das Miimum bestimme. Dazu bildet ma die partielle Ableituge, bei dee ach eier Variable abgeleitet wird, die adere wird dabei als Kostate betrachtet. Partielle Ableitug vo F(m,b) ach m: 12
m F(m,b) = 0 " 2 # x i " 0 + 2m# x 2 i + 2b# + 0 ud ach b b F( m,b) = 0 " 0 " 2 # + 0 + 2m# + 2b# 1 Im Miimum ist die erste Ableitug Null. Daher bestimme wir die Nullstelle bezüglich m ud b dieser beide Ableituge. 2 + 2m x 2 i + 2b = 0 ud 2 + 2m + 2b 1 = 0 Daraus folgt: " m x 2 i + b = # m + b = % Wir erhalte 2 Gleichuge mit 2 Ubekate m ud b Um diese zu löse beutze wir folgedes Bezeichugssystem: x 2 i = A = B = C = D " % m # A + b# B = D & m # B + #b = C Ergebisse: m = x y " x # i i i x 2 i " ( ) 2 ud b = 1 ( ) " m Führt ma für x ud y die Mittelwerte ei x = 1 ud y = 1, so ka ma i der Formel für m die Summe über x ud y ersetze: = x ud = y. Damit erhält ma m = # x i x "y # xy =. Die Formel für b wird da # x 2 i ( x ) 2 # x 2 i x 2 " = # %. Führt ma och die Abkürzuge S xy = " xy ud S xx = " x 2 i x 2 ei, so erhält ma: m = S xy S xx ud b = y mx 13
8.2. Korrelatioskoeffiziete (Abb. 1) I de bisherige Betrachtuge wurde vo eier Puktwolke ausgegage, durch die ma ( ) die Regressiosgerade lege ka. Dabei hat die Regressiosgerade bezüglich x y(x) die Steigug a1 ud die Regressiosgerade bezüglich y ( x(y) )die Steigug a2. Ma sieht (Abb. 1), dass die Größe der Steiguge a1 ud a2 ei Maßstab für die Stärke des Zusammehags zwische de beide Variable x ud y darstellt (die Steigug köte auch weiterhi mit m betitelt werde, ich habe eifachheitshalber darauf verzichtet). Wäre der Zusammehag streg liear, wie dies z.b. für die beide agegebee Fuktioe y(x) ud x(y) der Fall ist beide Fuktioe habe de gleiche Graphe, sie sid idetisch so ist das Produkt der Steiguge a1 ud a2 gleich eis (Beispiel 1). Beispiel 1: Beispiel 2: y(x) = 0, 5x + x(y) = 2y " 2 a 1 = 2, 65; a 2 = 0,36; a 1 = 2; a 2 = 0, 5; a 1 #a 2 = 1 a 1 "a 2 = 2, 65" 0,36 ( ) = 0, 954 # 95% Je stärker der Zusammehag zwische de Merkmale, desto eger rücke die Pukte der Puktwolke zusamme ud desto kleier wird der Wikel zwische de beide Regressiosfuktioe. Ei wichtiges Maß für die Stärke des Zusammehags ist das Produkt a 1 a 2. Dieses Maß wird mit r 2 bezeichet ud heißt Bestimmtheitsmaß "# r 2 = a 1 a 2 %. Dieses Maß gibt a, wie viel Prozet der Veräderug der y- Werte auf Eiflüsse der x- Werte zurückzuführe sid. Das sid im obige ca. 95% (Beispiel 2). Wichtiger als das Bestimmtheitsmaß ist der Korrelatioskoeffiziet r. Er ist die Wurzel aus dem Bestimmtheitsmaß " # r = a 1 a 2 %. 14
Da sich die Steiguge a1 ud a2 jeweils durch adere Terme (die Summe aus vorigem Kapitel) ersetze lasse, ergibt sich folgeder Satz: Sid Paare ( x 1, y 1 ),( x 2, y 2 ), ( x, y ) ( ) vo Merkmalswerte gegebe, da berechet sich ( )( ) # % " % " %=" der lieare Korrelatioskoeffiziet " = # " # # %&" = ( & ( % " ) # & # #( % " ) %=" %=" Mit de obe eigeführte Abkürzuge " = # # " &# ud " = # % % ## " " %# " ud der och fehlede " = # ## " " %# " lässt sich & der Korrelatioskoeffiziet bereche durch " = # % # # %%. Amerkuge: Für de Korrelatioskoeffiziete lasse sich folgede Fälle uterscheide: 1. r > 0 steigede Regressiosgerade, 2. r < 0 fallede Regressiosgerade Für die Bewertug der Korrelatio gilt folgede Tabelle: r 0 (0 ; 0.3) (0.3 ; 0.7) (0.7 ; 1) 1 Korrelatio keie schwache mittlere starke volle Wir schaue us all diese Zusammehäge a eiem ausführliche Beispiel a: Bei eier ladesweit durchgeführte Polizeikotrolle wurde die Reaktiosfähigkeit vo Mesche, abhägig vom Alkoholgehalt i ihrem Blut, utersucht. Alkoholgehalt i 0,2 0,3 0,4 0,6 0,8 1,0 Reaktioszeit i s 0,13 0,158 0,18 0,23 0,27 0,33 a.) Zeiche Sie die Wertepaare i ei Diagramm b.) Bestimme Sie die lieare Korrelatio c.) Ermittel Sie die Regressiosgerade bezüglich x ud zeiche Sie sie i das Diagramm uter a.) Lösug a) Der äherugsweise lieare Zusammehag ist i etwa a de Messpukte zu erkee. 15
b) Ma bereche die Mittelwerte x ud y ud verwedet zur Bestimmug der lieare Korrelatio die obe hergeleitete Formel: "#+ "#%+ +&#" "#&%+ "#&(* + + "#%% " = = "#(()# = = "#& Zur bessere Übersicht führt ma die Rechug am Beste mit Hilfe eier Tabelle durch: x y ( x )( y) ( x ) 2 ( y) 2 1-0,35-0,086 0,0301 0,1225 0,007396 2-0,25-0,058 0,0145 0,0625 0,003364 3-0,15-0,036 0,0054 0,0225 0,001296 4 0,05 0,014 0,0007 0,0025 0,000196 5 0,25 0,054 0,0135 0,0625 0,002916 6 0,45 0,114 0,0513 0,2025 0,012996 0 0,002 0,1155 0,475 0,028164 Der Korrelatioskoeffiziet zeigt eie starke Korrelatio zwische dem Alkoholgehalt im Blut ud der Reaktiosfähigkeit. 0,1155 r = = 0, 999 0, 4750, 02814 c) Zur Berechug vo m ud b werde die obe hergeleitete Formel verwedet " = "#%& # = "#"&( Die Regressiosgerade bezüglich x hat die Gleichug: y = 0, 243x + 0, 08235 16
17