Hallo, kurze Anmerkung: Diese Scripte stammen von 1999. Ich kann leider dazu. keine Fragen mehr beantworten! : ( Euch trotzdem viel Erfolg!



Ähnliche Dokumente
Statistik Einführung // Konfidenzintervalle für einen Parameter 7 p.2/39

2 Vollständige Induktion

15.4 Diskrete Zufallsvariablen

Wissenschaftliches Arbeiten Studiengang Energiewirtschaft

Statistik I/Empirie I

2. Diophantische Gleichungen

Aufgaben und Lösungen der Probeklausur zur Analysis I

Lerneinheit 2: Grundlagen der Investition und Finanzierung

Auch im Risikofall ist das Entscheidungsproblem gelöst, wenn eine dominante Aktion in A existiert.

Korrekturrichtlinie zur Studienleistung Wirtschaftsmathematik am Betriebswirtschaft BB-WMT-S

( ), der genau auf der Geraden ( ) 2 ( ) #( ) 8. Lineare Regression. = f i. Nach der Summe der kleinsten. mx i

So lösen Sie die Gleichung für den Korrelationskoeffizienten

AUFGABENSTELLUNG (ZUSAMMENFASSUNG) 2 SPEZIFIKATION 2. Datenfluß und Programmablauf 2. Vorbedingung 3. Nachbedingung 3. Schleifeninvariante 3

Formelsammlung Mathematik

Die Gasgesetze. Die Beziehung zwischen Volumen und Temperatur (Gesetz von J.-L. und J. Charles): Gay-Lussac

Versicherungstechnik

... a ik) i=1...m, k=1...n A = = ( a mn

Statistik mit Excel Themen-Special. Peter Wies. 1. Ausgabe, Februar 2014 W-EX2013S

Allgemeine Lösungen der n-dimensionalen Laplace-Gleichung und ihre komplexe Variable

Lösungen der Aufgaben zur Vorbereitung auf die Klausur Mathematik für Informatiker I

Testumfang für die Ermittlung und Angabe von Fehlerraten in biometrischen Systemen

Kleines Matrix-ABC. Fachgebiet Regelungstechnik Leiter: Prof. Dr.-Ing. Johann Reger. 1 Elementares

Variiert man zusätzlich noch die Saatstärke (z.b. 3 Stärkearten), würde man von einer zweifaktoriellen Varianzanalyse sprechen.

Übungen zur Vorlesung Funktionentheorie Sommersemester Musterlösung zu Blatt 0

n 1,n 2,n 3,...,n k in der Stichprobe auftreten. Für die absolute Häufigkeit können wir auch die relative Häufigkeit einsetzen:

Innerbetriebliche Leistungsverrechnung

Statistische Maßzahlen. Statistik Vorlesung, 10. März, Beispiel. Der Median. Beispiel. Der Median für klassifizierte Werte.

Nachklausur - Analysis 1 - Lösungen

h i Deskriptive Statistik 1-dimensionale Daten Daten und Häufigkeiten Seite 1 Nominal Ordinal Metrisch (Kardinal) Metrisch - klassiert

Finanzmathematische Formeln und Tabellen

6 Vergleich mehrerer unverbundener Stichproben

BINOMIALKOEFFIZIENTEN. Stochastik und ihre Didaktik Referentin: Iris Winkler

Evaluierung einer Schulungsmaßnahme: Punktezahl vor der Schulung Punktezahl nach der Schulung. Autoritarismusscore vor/nach Projekt

Arbeitsplätze in SAP R/3 Modul PP

Stichproben im Rechnungswesen, Stichprobeninventur

Methode der kleinsten Quadrate

Kryptologie: Kryptographie und Kryptoanalyse Kryptologie ist die Wissenschaft, die sich mit dem Ver- und Entschlüsseln von Informationen befasst.

Institut für Stochastik Prof. Dr. N. Bäuerle Dipl.-Math. S. Urban

Gruppe 108: Janina Bär Christian Hörr Robert Rex

Stochastik für WiWi - Klausurvorbereitung

Ausgangspunkt: Über einen endlichen Zeitraum wird aus einem Kapital (Rentenbarwert RBW v n,i

Kapitel 6: Statistische Qualitätskontrolle

Der natürliche Werkstoff Holz - Statistische Betrachtungen zum uniaxialen Zugversuch am Beispiel von Furnier

Satz Ein Boolescher Term t ist eine Tautologie genau dann, wenn t unerfüllbar ist.

Umrechnung einer tatsächlichen Häufigkeitsverteilung in eine prozentuale Häufigkeitsverteilung

Klasse: Platzziffer: Punkte: / Graph zu f

KUNDENPROFIL FÜR GELDANLAGEN

s xy x i x y i y s xy = 1 n i=1 y 2 i=1 x 2 s 1 n x n i Streudiagramme empirische Kovarianz x=5,5 y=7,5

1 Analysis T1 Übungsblatt 1

Kapitel 6: Quadratisches Wachstum

Herleitung der Parameter-Gleichungen für die einfache lineare Regression

Gliederung. Value-at-Risk

3. Einführung in die Statistik

Betriebswirtschaft Wirtschaftsmathematik Studienleistung BW-WMT-S

Wirksamkeit, Effizienz

Kapitel XI - Korrelationsrechnung

e) ( 4a + 8b + 9a + 18b ) : a + 2b f) 2 log (x) + 3 log (2y) 0.5 log (z)

Wirtschaftsmathematik

3. Tilgungsrechnung Tilgungsarten

Abschlussprüfung 2013 an den Realschulen in Bayern

Qualitätskennzahlen für IT-Verfahren in der öffentlichen Verwaltung Lösungsansätze zur Beschreibung von Metriken nach V-Modell XT

Prof. Dr.-Ing. Bernd Kochendörfer. Bauwirtschaft und Baubetrieb. Investitionsrechnung

Zur Definition. der wirksamen. Wärmespeicherkapazität

Aufgabenblatt 4. A1. Definitionen. Lösungen. Zins = Rate Zinskurve = Zinsstruktur Rendite = Yield

Mathematik 2 für Naturwissenschaften

Ulrich Stein Fehlerrechnung

Zahlenfolgen, Grenzwerte und Zahlenreihen

Versuch 13/1 NEWTONSCHE INTERFERENZRINGE Blatt 1 NEWTONSCHE INTERFERENZRINGE

Logarithmus - Übungsaufgaben. I. Allgemeines

Übungsblatt 1 zur Vorlesung Angewandte Stochastik

LV "Grundlagen der Informatik" Programmierung in C (Teil 2)

Wiederkehrende XML-Inhalte in Adobe InDesign importieren

Linsengesetze und optische Instrumente

Mathematische und statistische Methoden I

Kunde. Kontobewegung

Mathematischer Vorkurs zum Studium der Physik

Page-Rank: Markov-Ketten als Grundlage für Suchmaschinen im Internet

WS 2000/2001. zeitanteiliger nomineller Jahreszinssatz für eine unterjährige Verzinsungsperiode bei einfachen Zinsen

Grundgesamtheitsanaylsen und Stichproben. Betrachtungen zur Stichprobenfindung

Feldeffekttransistoren in Speicherbauelementen

Investitionsund Finanzierungsplanung mittels Kapitalwertmethode, Interner Zinsfuß

Formelsammlung. zur Klausur. Beschreibende Statistik

Bewertung von Anleihen

2. Einführung in die Geometrische Optik

Kapitel 4.1: Dr. Jörg Franke. Technische Universität Dortmund. Sommersemester 2011

Klausur Grundlagen der Investition und Finanzierung

Projektmanagement Solarkraftwerke

Mit Ideen begeistern. Mit Freude schenken.

Mathematische und statistische Methoden I

Vorlesung Informationssysteme

Flexibilität beim Lagern und Kommissionieren: Schienengeführte Regalbediengeräte

BERUFSKOLLEG KAUFMÄNNISCHE SCHULEN DES KREISES DÜREN Zweijährige Höhere Handelsschule

Tao De / Pan JiaWei. Ihrig/Pflaumer Finanzmathematik Oldenburg Verlag 1999 =7.173,55 DM. ges: A m, A v

und wird als n-dimensionaler (reeller) Vektorraum bezeichnet. heißt der von v 1,..., v k aufgespannte Unterraum des R n.

6. Übung - Differenzengleichungen

Diesen Grenzwert nennt man partielle Ableitung von f nach x i und

10. Testen von Hypothesen Seite 1 von 6

Behandlung von Messunsicherheiten (Fehlerrechnung)

Empirische Methoden I

n 2(a + bx i y i ) = 0 und i=1 n 2(a + bx i y i )x i = 0 i=1 gilt. Aus diesen beiden Gleichungen erhalten wir nach wenigen einfachen Umformungen

Transkript:

Hallo, kurze Amerkug: Diese Scripte stamme vo 999. Ich ka leider dazu keie Frage mehr beatworte! : ( Euch trotzdem viel Erfolg! Dorthe dorthe@luebbert.et

Statistik-C Skript ud Diplomklausurvorbereitug S. Statistik C Dorthe Lübbert, Dorthe.Luebbert@ruhr-ui-bochum.de Dieser Text ka frei weitergegebe werde, solage dieses Copyright icht etfert wird (Script war viel Arbeit!) Regressiosrechug.... Eifache Regressiosrechug.... Das Modell der eifache lieare Regressio....3 Die Regressiosgleichug... 3.4 Methode der kleiste Quadrate für eie eifache Regressiosgleichug... 3.5 Bedeutug der Regressiosfuktiosbestadteile... 3.6 Beziehug zwische Regressioskoeffiziet r = R ud var( y) ud var( y )... 4 Bivariate Regressiosrechug... 4. Methode der kleiste Quadrate für die bivariate Regressiosgleichug... 4. Beispiel für eie bivariate Regressiosgleichug... 4.3 Korrelatioskoeffiziet ach Bravais-Pearso... 5.3. Iterpretatio vo r... 5.3. Amerkuge zum Korrelatioskoeffiziete r... 5.4 Determiatioskoeffiziet... 6.4. Prizip der Variazzerlegug... 6.5 Ragkorrelatioskoeffiziet ach Spearma... 6

Statistik-C Skript ud Diplomklausurvorbereitug S. Regressiosrechug. Eifache Regressiosrechug Die eifache lieare Regressiosaalyse sucht ach eier lieare Gleichug, die de Zusammehag zwische x i ud y i zum Ausdruck brigt. Voraussetzug: x i ud y i sid midestes itervall-, d.h. metrisch skaliert. Begriffe: X: exogee Variable = Eiflußfaktor = erklärede Variable = Regressor = uabhägige Variable Y: edogee Variable = Zielvariable = abhägige Variable = erklärede Variable = Regressad Schätzgleichug: Gleichug, die exakt die Stichprobe beschreibt Folgede Probleme lasse sich mit der lieare Eifachregressio löse:. Ma will wisse, welche Grudrichtug der Beziehug zwische X ud Y besteht. Wie groß ist die prop. Veräderug i Y, we X i um eie Eiheit erhöht/vermidert wird? Bsp.: Pro Jahr zusätzlicher Schulbildug erhöht sich das Eikomme um b Eiheite.. Ma will eie Schätzwert vo y für eie X-Wert ermittel, der außerhalb der Reihe der Beobachtugswerte liegt (Æ Extrapolatio). Ma progostiziert also. 3. Ma will eie Schätzwert vo Y wisse, wobei der X-Wert zwische zwei bekate X-Werte liegt, selbst aber icht realisiert ist (Æ Iterpolatio).. Bei Zeitreihe wird ei Etwicklugstred berechet ud als Progose i die Zukuft fortgeschriebe Es gibt zwei verschiedee Problemasätze: Die Frage ach der a) mathematische Art der Beziehug zwische x ud y liefert die Regressiosgleichug b) Stärke der Beziehug liefert de Korrelatioskoeffiziete r (Bravais-Pearso). Das Modell der eifache lieare Regressio Ei reales Problem ka i die folgede agemessee formale Form übersetzt werde. Zwische X ud Y besteht ei Zusammehag, der durch die Gleichug y = α + βx + u zum Ausdruck gebracht werde ka. Jeder Wert vo Y i läßt sich aus zwei Kompoete zusammegesetzt auffasse: α + βx i : Wert, de yi aehme würde, falls der Zusammehag zwische X ud Y streg determiistisch (sprich liear) wäre. u i : Wert, um de y i vo seier determiistische Kompoete α+βx i abweicht (Abweichug zwische dem reale Wert ud der später zu berechede Regressiosgerade), u i ist der Wert der Störgröße u i. U i spezifiziert de stochastische Teil des Zusammehags. i i

Statistik-C Skript ud Diplomklausurvorbereitug S.3 U i läßt sich als Zufallsvariable auffasse, da oft icht agegebe werde ka, welche Wert Ui bei vorgegebeem Wert x i aimmt. Ui läßt sich aber auch als Störvariable auffasse, da die ui die Abweichuge vo eier lieare Regressiosfuktio darstelle. Das u beschriebee Aahmesystem besteht aus verschiedee Chrakterisieruge der Störvariable. EU ( i )= 0 für alle i Die Erwartugwerte der Störvariable sid gleich Null. var( ) = σ für alle i U i U Die Variaze der Störvariable sid gleich groß (Homoskedastizität) 3. cov( U i, U j ) = 0 für i j, i, j =... σ U für i = j, i, j =... Die Störvariable sid ukorreliert, die Kovariaz cov(ui, Uj) ist für alle Paare der Störvariable Null, falls i j. 4. Ui folgt N(; 0 σ U ) für alle i (ur für bestimmte Verfahre wichtig, für Methode der kleiste Quadarate etbehrlich).3 Die Regressiosgleichug Die Regressiosgleichug der Stichprobe ergibt sich durch die Gleichug: yi = ai + bxi + di, wobei d i die Summe der Schätzfehler, d.h. die Summe der Differeze zwische y i ud a + bx i, ist. Der Schätzfehler heißt auch Residuum, die Summe Residue. Diese Gleichug zur exakte Beschreibug ist (leider) icht liear, daher beötigt ma als exakte Beschreibug die Gleichug der Regressiosgerade y i : Die Gleichug der Schätzgerade y i lautet: yi = ai + bxi Um die beste Regressiosgerade zu bestimme a) soll die Summe der Schätzfehler 0 sei, d.h. die eizele Fehler solle sich aufhebe, d.h. die Gerade muß durch x ud y laufe b) die Zahl der Schätzfehler muß miimal sei.4 Methode der kleiste Quadrate für eie eifache Regressiosgleichug Um die Parameter a ud b eier Regressiosgrade so zu bestimme, daß die Gerade de beobachtete Wertepaare optimal agepaßt ist, muß die Summe der quadrierte Abweichuge der beobachtete Y i vo de recherische Y t ei Miimum ergebe. D.h. die Regressiosgerade ist da optimal berechet, we die Summe der Abweichugsquadrate miimal ist. i i= i= zab (, ) = d = ( y y ) Miimum i Durch partielle Ableitug ud Nullsetze dieser Ableituge ergebe sich die Normalgleichuge zur Bestimmug der Koeffiziete eier lieare Kleiste-Quadrate-Reressiosfuktios. Löst ma das System der Normalgleichuge ach a ud b auf, erhält ma die Regressioskoeffiziete a ud b: Für eie eifache Regressiosgleichug ergebe sich die Regressioskoeffiziete: xiyi xi yi x y i i cov(, ) = = i= b = = x xi var( ) xi i = i= a = y bx.5 Bedeutug der Regressiosfuktiosbestadteile Eie uivariate Regressiosfuktio hat die Fuktio y + a + bx Dabei bedeute: x i Werte auf der X-Achse i i

Statistik-C Skript ud Diplomklausurvorbereitug S.4 y i Werte auf der Regressiosfuktio Ma et diese Werte auch zu erwartede oder theoretische Werte, weil diese Y-Werte i Abhägigkeit vo Veräderuge der Variable X zu erwarte wäre, we die Regressiosliie de Zusammehag zwische X ud Y korrekt wiederspiegelt. Isoweit kommt i der Regressiosfuktio selbst eie Hypothese über de vermutete Zusammehag zwische X ud Y zum Ausdruck. a Ordiateabschitt der lieare Fuktio b Steigug (= Tages des Steigugswikels) der Fuktio Die Koeffziete a ud b spezifiziere de determiistische Teil des Zusammehags ud stelle die wahre Parameter für die gesamte Populatio her..6 Beziehug zwische Regressioskoeffiziet r = R ud var( y) ud var( y) Zwische r R 0 R = R ud var( y) ud var( ) y bestehe verschiedee Beziehuge: = we beide Merkmalswerte ukorreliert sid = we das Streuugsdiagramm auf eier Gerade mit positiver oder egativer Steigug liegt Je größer R, desto stärker werde die empirische Y-Werte durch die theoretische y-werte bestimmt/determiiert. Bivariate Regressiosrechug Die bivariate Regressiosrechug will die Beziehug der drei Merkmal X, X ud Y kläre. Y ist die Variable, die erklärt werde soll, hägt also statstistisch vo X ud X ab. Gesucht ist eie Gleichug für die Gerade durch diese dreidimesioale Raum. Diese Gleichug ermöglicht es wie bei der eifache Regressiosrechug, die Tedez der Abhägigkeit zwische Y ud X ud X soll durch eie lieare Fuktio der Art yi = bo + bx i + bbi + di bestimmt werde, wobei: bo: Regressioskostate b, b: (partielle) Regressioskoeffiziete d : Differez zwische y ud b + bx + b b i i o i i Um die Regressioskoeffiziete zu bestimme, wedet ma die Methode der kleiste Quadrate a:. Methode der kleiste Quadrate für die bivariate Regressiosgleichug Durch Nullsetze der partielle Ableituge erhält ma ei System vo Normalgleichuge, die ei lieares Gleichugssystem mit drei Ubekate. Löst ma dieses System auf, ergebe sich die folgede die Regressioskoeffiziete: [Æ Schwarze, S. 59] b = y bx b b b b r r r o y y ry ry r = r var( y) var( x ) ry ryr var( y) = r var( x ) Korrelatioskoeffiziet für Y ud X Korrelatioskoeffizeit für Y ud X Korrelatioskoeffiziet für X ud X. Beispiel für eie bivariate Regressiosgleichug Bei eier statistische Erhebug i de USA wurde vo 0 Bauerhöfe die bewirtschaftete Fläche X (i 0 acres; acre=040467 ha), die Azahl der uterhaltee Milchkühe X ud das erzielte Jahreseikomme Y (i 0 Dollar) ermittelt. Die Date stamme aus de späte 0er Jahre. Ma erhielt folgedes Ergebis: X 8 0 4 6 9 6 7 7 5 7 0 6 6 5 X 6 8 8 0 7 6 3 7 4 6 9 6 8

Statistik-C Skript ud Diplomklausurvorbereitug S.5 y 96 83 6 59 90 8 88 86 76 0 08 96 70 80 3 76 74 98 80 6 X : Fläche X : Milchkühe Y: Jahreseikomme Der vermutete Zusammehag zwische Fläche ud Azahl der Kühe auf der eie Seite, ud dem Jahreseikomme auf der adere Seite soll durch die Regressiosgleichug zum Ausdruck gebracht werde. Ich bereche die etsprechede Korrelatioskoeffiziete (siehe uivariate Regressiosrechug): ryi = 0,708340 ry = 0,007803807 r = -0,6508498 Für b ergibt sich b 0,708340-0,007803807-0,6508498 87,57895 = = -0,6508498 3,9447 usw. etspreched der obe agegebee Formel berechet ma die adere Elemete..3 Korrelatioskoeffiziet ach Bravais-Pearso Die Korrelatiosrechug diet dazu, die Stärke des Zusammehags zwische zwei Utersuchugsvariable i eier eizige statistische Maßzahl zum Ausdruck zu brige. r ist eie dimesioslose Größe Voraussetzug für die Awedug des Korrelatioskoeffiziete vo Bravais-Pearso sid midestes itervallskalierte Date. cov( x, y) r = = + var( x) var( y) cov( x, y) var( x) var( y) x y i= ( x x)( y y) i ( xi x) ( yi y) i= i = - r Kovariaz zwische X ud Y Variaz vo X Variaz vo Y arithmetisches Mittel vo X arithmetisches Mittel vo Y Azahl vo (yi, xi);azahl der statistische Eiheite.3. Iterpretatio vo r Der Korrelatioskoeffiziet vo Bravais-Pearso immt ur Werte zwische - ud + a.wertebereich vo - bis +: r=- maximaler reziproker Zusammehag, d.h. mit sehr hoher Wahrscheilichkeit ehme die Y- Werte tedeziell ab, we die Werte der Variable X zuehme r=0 kei Zusammehag zwische X ud Y r=+ maximaler gleichgerichteter Zusammehag, d.h. mit sehr hoher Wahrscheilichkeit ehme die Werte der Variable Y tedeziell zu, we die X-Werte zuehme..3. Amerkuge zum Korrelatioskoeffiziete r i der Praxis taucht ei Wert für r größer 0,5 ur selte auf, ma betrachtet ei r zwische 0,3 ud 0,5 als ei Idiz für eie starke Zusammehag je größer die Zahl der Merkmalsträger, desto aussagekräftiger ist r die Treffsicherheit vo Progose ist um um so höher, je größer r ist, d.h. je stärker der Zusammehag zwische zwei Variable X ud Y ist ud je größer N ist. die Iterpretatio des Korrelatioskoeffiziete muß immer auf dem Hitergrud eier lieare Regressiosfuktio erfolge. Wäre i eiem kokrete Fall eie ichtlieare Fuktio

Statistik-C Skript ud Diplomklausurvorbereitug S.6 agemesse, da köte sich beispielsweise ei r-wert ahe bei 0 ergebe, weil gleichwohl eie lieare Fuktio uterstellt wird. Die Prüfug, ob eie ichtlieare Fuktio zugrude gelegt werde muß, ka z.b. graphisch oder durch eie Clusteraalyse erfolge..4 Determiatioskoeffiziet r heißt Determiatioskoeffiziet oder Bestimmtheitsmaß. r gibt a, welcher Ateil der Streug vo Y durch die Regressiosgerade bestimmt oder erklärt werde ka. Aders ausgedrückt: Der Determiatioskoeffiziet gibt a, wie groß der Ateil der Variaz der Utersuchugsvariable ist, der sich auf die Variatio der eie exogee Variable zurückführe läßt. Der Determiatioskoeffiziet hat seie Name daher, daß er dejeige Ateil a der Variaz der Y- Werte agibt, der durch die Variatio der X-Werte determiiert wird. Dies geht auf das Prizip der Variazzerlegug zurück..4. Prizip der Variazzerlegug I jedem kokrete Awedugsbeispiel ka ma davo ausgehe, daß die Y-Werte streue. Diese Streuug ka mit der Variaz (quadrierte Stadardabweichug) gemesse werde. Die Aufgabe der Regressiosrechug ka ma auch so erkläre, daß ma fordert, eie Variable (X) zu fide, die die iteressierede abhägige Variable (Y) beeiflußt ud i diesem Sie statistisch erklärt. Erkläre bedeutet hier, daß die Veräderuge der Variable statistisch zurückgeführt werde auf Veräderuge der Variable X. Das bedeutet aber weiterhi, daß ei mehr oder weiger großer Teil der Variaz vo Y dadurch statistische erklärt wird, daß die Variatio der Variable X als statistischer Erklkärugsgrud ageomme wird. Formal sieht das folgedermaße aus: Die Variatio der Abhägige Y (Var(y)) läßt sich i zwei Teile zerlege:. Teil: var( y t ): Variatio der zu erwartede (theoretische) Y-Werte, die auf der Regressiosgerade liege. Teil: var( y r ) Reststreuug, d.h. Variatio der Y-Werte um die Regressiosgerade herum y r =Restwerte= y y t ) Es besteht also folgeder Zusammehag: var( y) = var( yt) + var( yr) Rechet ma diese Variaze aus, stellt ma fest, daß der prozetuale Ateil vo var( ) y t a der Gesamtvariaz var(y) mit dem umerische Wert des Determiatioskoeffiziete übereistimmt. Je höher der Wert des Determiatioskoeffiziete ist (d.h. je stärker der Zusammehag zwische x ud y), desto kleier ist die Restreuug, weil sich die Pukte je i diesem Fall sehr eg um die Regressiosgerade herum streue, desto höher ist der Ateil vo var(y t ) a der Gesamtstreuug..5 Ragkorrelatioskoeffiziet ach Spearma Voraussetzug: ordialskalierte Date Der Ragkorrelatioskoeffiziet beruht icht auf de direkte 6 di Merkmalsauspräguge x i bzw y i, soder auf de zugeordete i= rsp = 3 Ragummer Rg( x i ). Der Ragkorrelatioskoeffiziet vo Spearma ist d der auf diese Ragummer Rg( x i )agewadte Bravais-Pearsoi = Rg( xi) Rg( yi) r Korrelatioskoeffiziet, aus diesem Grude ist auch der Wertebereich für SP r SP mit dem vo r idetisch! Aders ausgedrückt ergibt sich r sp aus r, we ma dort die X- ud Y-Werte durch dere Ragplätze ersetzt. Nach eiige Umformuge ergibt sich die obige Formel. Vorgehesweise: Die Date müsse der Größe ach sortiert sei, erst daach werde die Räge vergebe. Habe mehrere Merkmalsträger de gleiche Rag ie, erhalte sie de gleiche (gemittelte) Ragplatz, die Ragplätze davor ud daach bleibe etspreched leer. Etspreched der Formel subtrahiere ich de jeweilige Rag y i vo x i, quadriere das Ergebis ud addiere alle Ergebisse für x i, i= usw.

Statistik-C Skript ud Diplomklausurvorbereitug S.7 3 Multiple lieare Regressio Die multiple Regressiosaalyse ist ei Istrumet zur Utersuchug des fuktioale Zusammehags zwische eiem quatitativem Merkmal x mit Auspräguge y ud Merkmale x x i Die multiple Regressiosrechug hat die Aufgabe, de Zusammehag zwische mehr als zwei Variable zu beschreibe ud damit zu progostische Aussage für eie als abhägig agesehee Variable Y zu gelage, vo der uterstellt wird, daß sie icht ur vo X, soder auch vo X (ud evetuell weitere Variable) abhägt. X ist also die uabhägige, erklärede Variablegruppe Y ist die Variablegruppe der abhägige Variable (bei der uivariate multiple Regressiosrechug ethält Y ur eie Variable) 3. Schätzfuktio Etspreched dem Regressiosmodell der eifache lieare Regressio (vgl. Das Modell der eifache lieare Regressio, S. ) lautet die Modellfuktio (also die exakte Beschreibug der Stichprobe) für das multiple Fuktio: k y = β + β x + u, i =..., β 0 für alle j i 0 j ji i j j= Wiederum wedet ma die Methode der der kleiste Quadrate a ud erhalte die Regressiosgleichug, die hier Regressioshyperebee geat wird. k y = b + b k + d i 0 j ij i j= j bo b, j =... k k Regressioskostate (partielle) Regressioskoeffiziete y = b + b x i =..., b 0, j =...k Regressioshyperebee o j ji j j= Die Regressioskoeffiziete laute ausgeschriebe (Matrixrechug) ', b = ( x x) x y b0 x... xk y b =.... =. x = y..... bk x...xk y b Vektor der Regressioskoeffiziete x Matrix der Werte der exogee Merkmale Xj, j =!... k. Die Werte der Scheivariable X 0, die zur Regressioskostate b o gehört, sid alle. y Vektor der Werte vo Y x x, traspoierte Matrix vo x, muß ichtsigulä r sei, damit die Iverse (x, x) existiert. 4 Bedeutug der Regressioskoeffiziete b 0 gibt a, welcher Wert für die determiistische Kompoete der Utersuchugsvariable zu erwarte ist, falls sämtliche exogee Variable de Wert Null realisiere. Geometrisch gibt b 0 die Schittebee der Hyperebee mit der Y-Achse a. ÆAbbildug vgl. Tiede S. 7

Statistik-C Skript ud Diplomklausurvorbereitug S.8 Die übrige Koeffiziete b j, j=...k gebe (bei Beachtug der jeweilige Vorzeiche) de (positive oder egative) Beitrag a, um de sich der Schätzwert für die determiistische Kompoete y i des Wertes y i, falls der Wert x ji der j-te exogee Variable um eie Eiheit erhöht. b ij besitze jeweils eie Dimesio: b j wird i Eiheite vo Y pro Eiheit vo X j gemesse. Da die Xj recht uterschiedliche Maßstäbe habe köe, ka ma meistes durch eie Vergleich der Regressioskoeffiziete keie Hiweis auf die Bedeutug der Variatio der Eiflußgröße für die Variatio der Utersuchugsvariable gebe. 4. Multiple ud partielle Koeffiziete 4.. Multipler Determiatioskoeffiziet Der multiple Determiatioskoeffiziet ist so kostruiert wie der Determiatioskoeffiziet des eifache Modells, die Variazzerlegugsformel gilt auch für de multiple Fall, d.h. di estreuug der Utersuchugsvariable läßt sich zerlege: a) i die Streuug der geschätzte determiistische Kompoete, de statistisch erklärte Teil b) i die Streuug der stochastische Kompoete, de durch die Variato icht erklärte Teil Der multiple Determiatioskoeffiziet (multiples Bestimmtheitsmaß) gibt a, wie groß der Ateil der Variaz der geschätzte determiistische Kompoete a der gesamte Variaz der Utersuchugsvariable ist. Die Aussagekraft des multiple Determiatioskoeffiziete wird häufig überschätzt. Der multiple Determiatioskoeffiziet ist ei globales Maß ud für die Beschreibug der spezifische Eiwirkuge der eizele exogee Variable auf die Utersuchugsvariable ugeeiget. Die Formel lautet: r b = b var( y) var( d ) [cov( y, y)] = = = b bj * bl * rjl var( y) var( y) + = var( y) var( y) Y... k j j= j= l= j+ * j j var( x ) j var( y) k j =...k * k r Korrelatioskoeffiziet für X ud X, j =...k - jl j j+ k 4.. Multipler Korrelatioskoeffiziet Die Wurzel des multiple Determiatioskoeffiziete wird als multipler Korrelatioskoeffiziet bezeichet: + r Y...k Das Vorzeiche ist bedeutugslos, da es i Hiblick auf eie exogee Variable positiv ud eie adere egativ sei ka. Der Korrelatioskoeffiziet gibt Atwort auf die folgede Frage: Wie verbesser sich Progose der iteressierede Variable Y, we sie icht allei abhägig vo X, soder auch zugleich als abhägig vo der Drittavariable Z agesehe wird? Atwort: I diesem Fall versucht ma, zusätzliche Iformatioe zur Verbesserug vo Vorhersage zu utze ud verwedet i diesem Zusammehag de sogeate multiple Korrelatioskoeffiziete 4..3 Multipler Regressioskoeffiziet 4. Partielle Regressiosrechug Die partielle Regressiosrechug hat die Aufgabe, de Zusammehag zwische zwei iteressierede Variable X ud Y um de evetuelle Eifluß eier dritte Variable Z (oder weiterer Variable) zu bereiige. We beispielsweise X mit Y korrelliert, aber sowohl X als auch Y ihrererseits mit Z korreliere, da ist die hohe Korrelatio zwische X ud Y eie matematisch otwedige Folge des gemeisame Eiflusses vo Z. Das Heraus-Partialisiere vo Z zeigt da de Zusammehag zwische X ud Y, der übrig bleibt, we der gemeisame Eifluß vo Z elimiiert wird. 4.. Partieller Determiatioskoeffiziet cov ( d[ y], d[ j] ) r[ yj] = = j =... k [ Æ Tiede. S.8] var( d var( d ) [ y] [ j]

Statistik-C Skript ud Diplomklausurvorbereitug S.9 Der partielle Determiatioskoeffiziet ist aalog zum Determiatioskoeffiziet kostruiert. Er gibt de Variazateil der (ach Erklärug durch die übrige exogee Variable verbliebee) Restvariaz der Utersuchugsvariable Y a, der vo der (um de Eifllluß der übrige exogee Variable bereiigte) Variaz der exogee Variable X j herrührt. 4.. Partieller Korrelatioskoeffiziet Der partielle Korrelatioskoeffiziet etsteht aus der Wurzel des partielle Determiatioskoeffiziete. Er beatwortet die Frage: Wie stellt sich der Zusammehag zwische X ud Y dar, we der etwaige gemeisame Eifluß eier dritte Variable Z ausgeschaltet wird? Atwort: Der Eifluß der Variable Z wird auspartialisiert, sei Eifluß ausgeschaltet. Ma berechet de partielle Korrelatioskoeffiziete zwische X ud Y - uter Ausschaltug vo Z. 5 Faktoreaalyse I der empirische Realität gibt es meist Zusammehäge icht ur zwische zwei Utersuchugsvariable, soder sehr viele, möglicherweise alle Utersuchugsvariable häge zusamme. Die Faktoreaalyse versucht, die hohe Dimesioalität des Utersuchugsraums zu reduziere. Die Faktoreaalyse ist also ei datereduzieredes Verfahre. Sie ermöglicht es ohe etscheidede Iformatiosverlust, viele wechselseitig hoch korrelierede Variable durch weige voeiader uabhägige Faktore zu ersetze. Graphische Iterpretatio: Jeder Merkmalsträger ka als ei Pukt i eiem hochdimesioierte Achsekreuz präsetiert werde, desse Dimesioalität vo der Azahl der Utersuchugsvariable bestimmt wird. Die Faktoreaalyse beatwortet somit die Frage, ob es eie deutlich gerigere Azahl vo Faktore gibt, die die Zusammehäge zwische alle Utersuchugsvariable weitgehed zu erkläre i der Lage sid. [Voss, S. 64]. Faktoreaalyse als heuristisches hypothesegeerieredes Verfahre Die Faktoreaalyse ist ei heuristisches hypothesegeerieredes Verfahre. D.h. es muß ei Ordugssystem erstellt werde, das mit de thoeretische Kotexte der uterstellte Variable am beste zu vereibare ist. Da werde Hypothese über Strukture formuliert, die de utersuchte Merkmale zugrude liege. Voraussetzug für die Faktoreaalyse ist also, daß Korrelatioe zwische eizele Merkmale oder Merkmalsgruppe bestehe. Je höher die Korrelatio zwische de Beobachtugsmerkmale, umso besser lasse sich die resultierede Faktore erkläre. Dabei versucht die Faktoreaalyse die eifachste Struktur zu fide, die die Ausgagsdate möglichst geau wiedergibt ud erklärt. Die Forderuge eier möglichst gute Abbildug der Beobachtugsdate eierseits ud der möglichst gerige Zahl vo Faktore adererseits stehe i Kokurrez zueiader. Das führt dazu, daß Ergebisse der Faktoreaalyse vo subjektive Aspekte abhäge köe. Das gilt isbesodere für die Azahl der gewählte Faktore ud dere Iterpretatio. Durch verschiedee Bediguge, die a die Faktore gestellt werde, resultiere eie Mege verschiedeer Verfahre. Ei wesetlicher Grudgedake der Faktoraalyse besteht dari, de Merkmalsträger (Beobachtuge pro Utersuchugseiheit) Faktorwerte (f) ud de Variable Ladugskoeffiziete (Korellatioskoeffiziete vor ihrer Stadardisierug) so zuzuorde, daß aus dieser Gleichug Z Schätzwerte errechet werde köe. Aus diese wird eie Korrelatioskoeffizietematrix R erstellt, die möglichst gut mit der empirische Korrelatioskoeffizietematrix R übereistimme soll. 5. Recheweg Äußerlich sieht dieses Modell aus wie ei System vo m multiple Regressiosmodelle. Der etscheidede Uterschied besteht dari, daß die Eiflußgröße bei de Regressiosmodelle vorgegebe ud mit der eigetliche Variable zusamme explizit gemesse werde, wohigege die Faktore hypothetische Kostrukte sid, die aus der stadardisierte Datematrix Z herausgerechet (extrahiert) werde solle. Ausgagspukt eier Faktoreaalyse ist eie empirische (quatitative) Datematrix Y. Die Datematrix ethält die Merkamslwerte der iteressierede Merkmal Y i, die am i-te Objekt beobachtet wurde.

Statistik-C Skript ud Diplomklausurvorbereitug S.0 Aus der empiritsche Datematrix Y wird die stadardisierte Datematrix Z ij berechet. (Dazu stadardisiert ma die Matrix Y so, daß der Mittelwert jeder Spalte Null ud die empirische Variaz jeder Spalte Eis ist). Die Faktoreaalyse geht u davo aus, daß sich die korrelierte, beobachtetete Merkmale als Liearkombiatio vo ubekate ichtbeobachtete Faktore darstelle lasse. Jedes Elemet der stadardisierte Datematrix läßt sich als Liearkombiatio vo Realisatioe der ubekate Faktore beschreibe. Das heißt: Die Matrix yst ist darstellbar als Produkt zweier Matrize, Z ij ergibt sich durch Multiplikatio der Ladugsmatrix mit der Matrix der Faktorewerte. Z = a i ij jk k k k a jk = ubekate Faktorematrix i = bekate Ladugsmatrix (erklärter Variazateil) Zur Lösug dieser Gleichug sucht ma (bzw. SPSS) Werte für die geschätzte Faktorematrix, bis die obige Gleichug erfüllt werde ka (Das ist deshalb so schwierig ud aufwedig, weil es sich um Matritze hadelt!). 5. Iterpretatio 5.3 Begriffe aus der Faktoreaalyse Ladugsmatrix Die Ladugsmatrix heißt auch Matrix der Faktorladuge. Die Koeffiziete der Ladugsmatrix beschreibe die Laduge des k-te ichtbeobachtete Faktors bezüglich des j-te beobachtete Merkmals. Eie Faktorladug a ij etspricht der Korrelatio zwische eier Variable i mit eiem Faktor j. Die Ladugsmatrix beschreibt de Zusammehag zwische Merkmale ud Faktore. Matrix der Faktorewerte beschreibt die beobachtete Objekte bezüglich der Faktore. Die Faktorematrix beschreibt de Zusammehag zwische Faktore ud Objekte. Die stadardisierte Datematrix beschreibt de Zusammehag zwische Merkmale ud Objekte. Die Faktorematrix beschreibt de Zusammehag zwische Faktore ud Objekte. Die Ladugsmatrix beschreibt de Zusammehag zwische Merkmale ud Faktore. Ladugsmuster Ei wesetlicher Grudgedake der Faktoreaalyse besteht dari, de Merkmalsträger (Beobachtuge pro Utersuchugseiheit) Faktorwerte (f) ud de Variable Ladugskoeffiziete (Korrelatioskoeffiziete, we diese vorher stadardisiert worde sid) so zuzuorde, daß Z Schätzwerte errechet werde köe, ud aus diese eie Korrelatioskoeffizietematrix R-Schätzwert, die möglichst gut mit der epirische Korrelatioskoeffizietematrix R übereistimme soll. Die Korrelatio zwische Z ud eiem Faktor F beruht im Wesetliche auf der traspoierte Matrix vo Faktorwerte, de die Zielfuktio lautet: Z = F A ' ' = fmai... fmaiq. Aus Z wird R = A A abgeleitet (Korrelatioskoeffizietematrix). Diese Umformug verdeutlicht, wie wichtig die Ladugsmuster für die Bestimmug der Faktorwerte sid. Ladugskoeffiziet (=Faktorladug) Eie Faktorladug a ij etspricht der Korrelatio zwische eier Variable i mit eiem Faktor j a ij als erklärter Variazateil etspricht dem Determiatioskoeffiziete I der Faktoreaalyse etscheidet sich die Bedeutug der Faktore aufgrud der Faktorladug. Sie ist letztlich ausschlaggebed für die Wertigkeit des Faktors. Die Koeffiziete a ij der gemeisame Faktore ud die Koeffiziete d j der spezifische Faktore werde als Faktorladuge bezeichet. Kommualität eier Variable

Statistik-C Skript ud Diplomklausurvorbereitug S. Die Kommualität eier Variable gibt a, i welchem Ausmaß diese Variable durch die - - - - - - - - - - - F A C T O R A N A L Y S I S - - - - - - - - - - Aalysis umber Listwise deletio of cases with missig values Extractio for aalysis, Pricipal Compoets Aalysis (PC) Iitial Statistics: Variable Commuality * Factor Eigevalue Pct of Var Cum Pct * BILD,00000 *,74449 54,9 54,9 KREUZWOR,00000 *,88370 37,7 9,6 MATHE,00000 * 3,8589 5,7 98,3 MIND,00000 * 4,06505,3 99,6 PUZZLE,00000 * 5,0087,4 00,0 PC extracted factors Factor Matrix Factor Factor BILD Iterpretatio: mauell. -,99 Fähigkeit log. Dekvermöge,9554 KREUZWOR,85770,3660 MATHE -,375,9674 MIND,9694,578 PUZZLE,96095,075 Fial Statistics: erklärter Variazateil : kummulierter Variazateil. Die Faktore ud erkläre isgesamt 9,6% der Eizelkorrelatioe zwische de Variable Faktor korreliert hoch mit de Variable ud Variable Commuality * Factor Eigevalue Pct of Var Die Cum beide Pct Faktore * BILD,96085 *,74449 54,9 köe 54,9 9,6% erkläre KREUZWOR,83589 * Variable 3 bis 5,88370 werde durch de37,7 9,6 MATHE MIND,938 *,9644 * Faktor erklärt PUZZLE,9909 * Faktore aufgeklärt bzw. erfaßt wird. D.h. sie ist im Rahme der Faktoreaalyse ei Maß für de Grad des Zusammehags eier Variable mit alle adere Variable, statistisch gesehe erklärt die Kommualität de Ateil der gemeisame Variaz. Jede Variable hat eie spezifische Kommualität. Die Variaz eier stadardisierte Variable ist immer. Die Kommualität muß folglich kleier sei, sollte aber möglichst gege tediere: Weicht sie stark vo ab, ka ma aehme, daß die Faktore schlecht gewählt worde sid. Eigewert Eigewerte spiele bei der Faktoreaalyse die quasi etscheidede Rolle: Sie werde vor der Faktorrotatio berechet ud diee zumeist als Kriterium für die Etscheidug, ob Faktore im faktoreaalytischem Modell beibehalte oder weggelasse werde. Der Eigewert λ j eies Faktors j gibt a, wieviel vo der Gesamtvariaz aller Variable durch diese Faktor erfaßt wird. Ist ei Eigewert kleier als, erklärt er also weiger als die Variaz eier eizige Variable, wird der etsprechede Faktor für ubedeuted erklärt. Die Eigewertbestimmug der Faktore diet also dazu, uwichtige Faktore zu elemiiere. 5.4 Faktoreaalyse mit SPSS. Dateeigabe Die Variable werde defiiert <Data><Defie Variable> ud die Werte eigegebe. Faktoreaalyse durchführe Durch <Statistics><Data Reductio> <Factor> erhält ma das Auswahlmeü für die Faktoreaalyse. Ma wählt diejeige Variable aus, die i die Berechug eifließe solle, stellt ggf Optioe ei ud bestätigt mit <OK> 3. Ausgabe SPSS wirft folgede Output-Datei aus: 6 Clusteraalyse We es Zusammehäge zwische eier größere Zahl vo Utersuchugsvariable gibt, werde sich die Merkmalsträger i eiem hochdimesioale Achsekreuz i bestimmter Weise klumpe. Dies Klumpe (egl.: Cluster) zu isoliere ud auf der Grudlage der evetuelle Isolatioserfolge

Statistik-C Skript ud Diplomklausurvorbereitug S. da zu ihaltliche Iterpretatioe der beobachtete Zusammehäge zu gelage, ist Aufgabe der Cluster-Aalyse. Die Clusteraalyse teilt also viele, multivariate ud durch eie feste Satz vo Merkmale beschriebee Utersuchugsobjekte ach Maßgabe ihrer Ählichkeit i homogee Gruppe oder Cluster ei, die allerdigs exter möglichst gut voeiader seperierbar sei solle. Die Ählichkeit bzw. Uählichkeit hägt vo de Merkmale der Objekte ab, diese müsse durch sorgfältige ihaltliche Überleguge begrüdet werde. Methodisch gesehe mißt die Clusteraalyse Abstäde zwische Merkmalsträger. Wertepaare, die i gerigem Abstad vorkomme, werde i gemeisame Klumpe aufgeomme. Das verwedete Distazmaß ist die euklidische Distaz, die ach dem Satz des Pythagoras berechet wird. Voraussetzug: Die Variable müsse uabhägig sei, bei Korrelatio kommt es zu Probleme mit dem Distazmaß. 6.. Uterschied Variazaalyse - F-Test Beim F-Test Test werde die Variaze zweier Grudgesamtheite bewertet. Stamme sie aus eier GG? Gibt es eie sigifikate Uterschied? Variazaalyse: Stamme zwei oder mehrere Mittelwerte aus der gleiche Grudgesamtheit? 7 Begriffe Statistik C Chi-Quadrat-Verteilug Chi-Quadrat-Test Dichtefuktio Exogee Variable Faktoreaalyse Faktorladug Freiheitsgerade F-Verteilug Gamma-Fuktio Gamma-Verteilug Iteraktio Iteraktio bei der zweifaktorielle Variazaalyse Kofidezbereich Ladug Ladugskoeffiziet Liearitätshypothese Methode der kleiste Quadrate Mometemethode Multiple Regressiosrechug Multiples Regressiosmodell Ragkorrelatioskoeffiziet Ragkorrelatioskoeffiziete vo Spearma Regressioskoeffiziete Regressioskoeffiziet, partieller Streuug der Stadardabweichug Studet-Verteilug/t-Verteilug Variazaalyse zweifacher Klassifikatio Variazquotietetest Wechselwirkuge Zufallsvariable

Statistik-C Skript ud Diplomklausurvorbereitug S.3 Dorthe Lübbert, Dorthe.Luebbert@ruhr-ui-bochum.de Dieser Text ka frei weitergegebe werde, solage dieses Copyright icht etfert wird (Script war viel Arbeit!)