Logistische Regression Juni 2011

Größe: px
Ab Seite anzeigen:

Download "Logistische Regression - - - - - 24. Juni 2011"

Transkript

1 Lehrveranstaltung Empirische Forschung und Politikberatung Sommersemester 2011 Logistische Regression Juni 2011 Anja Hall, Bundesinstitut für Berufsbildung, AB 2.2: Qualifikation, berufliche Integration und Erwerbstätigkeit

2 Literatur Tiemann, Michael: Notiz zur logistischen Regressionsanalyse: ssion.pdf Kapitel 5: Logistische Regression. In: Backhaus, Klaus; Erichson, Bernd; Plinke, Wulff und Weiber, Rolf (2008): Multivariate Analysemethoden. Eine anwendungsorientierte Einführung (S ). Berlin/ Heidelberg: Springer Verlag. ILMES - Internet-Lexikon der Methoden der empirischen Sozialforschung

3 Logistische Regression Die logistische Regression ist ein Verfahren zur multivariaten Analyse nicht-metrischer abhängiger Variablen. Im Falle einer abhängigen Variablen mit zwei Ausprägungen handelt es sich um die binäre logistische Regression. Bei einer kategorialen abhängigen Variablen mit mehr als zwei Ausprägungen handelt es sich um eine multinomiale logistische Regression. Die unabhängigen Variablen können sowohl metrisch (in SPSS als Kovariaten bezeichnet) als auch kategorial skaliert sein und werden bei binärerer Regression über die Option kategorial festgelegt. Bei der multinomialen logistischen Regression können sie als Kovariaten oder als Faktoren eingegeben werden.

4 Abgrenzung zur Regressionsanalyse Während bei der Regressionsanalyse die metrische abhängige Variable Y direkt geschätzt wird, versucht die LR nur, die Wahrscheinlichkeit des Eintretens der Werte der in der Regel nominalen abhängigen Variable zu berechnen. Würde man diese Wahrscheinlichkeiten P(Y=1) mit einer linearen Regression schätzen, ergäben sich auch Werte jenseits von [0,1], was zur Verletzung der Prämissen der Regression führen würde und damit nicht zulässig wäre. Die logistische Regression zielt hingegen auf das Ableiten einer Eintrittswahrscheinlichkeit für ein empirisch beobachtbares Ereignis (bspw. Erwerbstätigkeit) in Abhängigkeit von verschiedenen Einflussgrößen (bspw. erlernter Beruf) ab. Y = 1 => Ereignis y tritt ein. Y = 0 => Ereignis y tritt nicht ein.

5 Problemstellung Da die Ausprägungen 0 und 1 einer binären, abhängigen Variable jeweils die Unter- bzw. Obergrenze für die Wahrscheinlichkeit des Auftretens eines Merkmales darstellen, ergeben sich bei einer linearen Regression Probleme: Keine hinreichende Streuung in der abhängigen Variable. Verletzung der Normalverteilungsannahme der linearen Einfachregression. Die außerhalb von [0;1] liegenden Schätzwerte können nicht interpretiert werden. Bei dichotomen abhängigen variablen muss daher eine Funktion gefunden werden, die sich den minimalen und maximalen Wahrscheinlichkeiten von 0 und 1 asymptotisch annähert, z.b. die logistische Verteilung. Die logistische Regression stellt demzufolge keinen linearen Regressionsansatz dar. Stattdessen wird sie auch als Linking-Funktion bezeichnet, da über sie die Verbindung (Link) zwischen der abhängigen und den unabhängigen Variablen im Regressionsmodell hergestellt wird.

6 Problemstellung Im Einzelfall betrachten wir Ereignisse, die eintreten können (1) oder nicht (0). Über mehrere Fälle können wir dann die relative Häufigkeit des Eintretens eines Ereignisse messen: die Prozentzahl p, die zwischen 0 und 1 liegt und als Näherung für die Wahrscheinlichkeit des Ereignisses gilt. Diese Eintrittswahrscheinlichkeit (Prozentzahl) p wird nun so umgewandelt, dass sie über einen Regressionsansatz schätzbar wird. Das geschieht durch eine monotone Transformation des [0,1]-Intervalls in das Ergebnisintervall einer linearen Funktion (-,+ ) über die Berechnung des Risikos (odds, Chance) und des Logits (Log-Odds): Aus p kann man das Risiko oder Odds berechnen: Das Odds nimmt Werte zwischen 0 und an. Für statistische Zwecke geht man weiter, indem man das Odds logarithmiert und zum Logit kommt, der zwischen - und + liegt und ebenfalls monoton ist:

7 Modellansatz Um die Eintrittswahrscheinlichkeit von y = 1 [P(y=1] bestimmen zu können, wird unterstellt, dass eine nicht empirisch beobachtbare latente Variable Z existiert, die die binäre Ausprägung der abhängigen Variablen (Y) in Abhängigkeit der Ausprägungen der UV X j erzeugen kann. Dieser Zusammenhang lässt sich formal für einen Beobachtungsfall k folgendermaßen formulieren:

8 Modellansatz Durch die latente Variable Z wird die Verbindung zwischen der AV und den UV s hergestellt. Dabei kann die Variable Z als aggregierte Einflussstärke der verschiedenen unabhängigen Variablen interpretiert werden, die den Eintritt des Ereignisses herbeiführen. Die Variable Z wird durch die unterschiedlichen Einflussgrößen X j in einer Linearkombination erzeugt. Damit nach Maßgabe der aggregierten Einflussstärke Z das Ereignis y = 1 bzw. y = 0 erzeugt werden kann, bedarf es einer Wahrscheinlichkeitsfunktion. Hierfür wird auf die sogenannte logistische Funktion (p) zurückgegriffen: mit e=2, (Eulersche Zahl)

9 Modellansatz Der logistische Regressionsansatz berechnet nun die Wahrscheinlichkeit für das Eintreten des Ereignisses y = 1 unter Verwendung der logistischen Funktion. Dabei spielen die Regressionskoeffizienten (Logit-Koeffizienten) die Einflussstärke der jeweils betrachteten UV s auf die Eintrittswahrscheinlichkeit [P(y = 1)] wider. Da die logistische Funktion eine Wahrscheinlichkeitsbeziehung zwischen dem Ereignis y = 1 und den UV s X j herstellt, wird sie auch als Linking-Funktion bezeichnet. Die logistische Regressionsgleichung lautet demnach: Wobei die z-werte auch als Logits bezeichnet werden.

10 Problemstellung Die mit Hilfe der logistischen Funktion erzeugte Wahrscheinlichkeitsverteilung für das Ereignis y = 1 weist einen s-förmigen Verlauf auf und hat die Eigenschaft, dass sich selbst für unendlich kleine oder auch große Werte der logits die Wahrscheinlichkeit für das Ereignis y = 1 immer innerhalb des Intervalls [0,1] bewegt. Symmetrisch um Wendepunkt P(y = 1) = 0,5 Nicht-linearer Zusammenhang zwischen Eintrittswahrscheinlichkeit der binären, abhängigen Variable und den unabhängigen als Modellprämisse. Zustandekommen der aggregierten Einflussstärke Z im Exponenten der Linking- Funktion ist jedoch linear. Die Graphik zeigt, wie Logits (X-Achse) mit den Ausgangswahrscheinlichkeiten P(Y=1) (Y-Achse) zusammenhängen

11 Vorgehensweise Bsp. Schätzen einer binären logistischen Regression von Selbstständigkeit vs. Nicht-Selbstständigkeit in Abhängigkeit von Berufserfahrung, Berufsabschluss und Computertätigkeit. Multinomial logistische Regression: Geringfügige Beschäftigung, Teilzeitbeschäftigung und Vollzeitbeschäftigung in Abhängigkeit von Kindern im Haushalt, Berufserfahrung und Berufsabschluss.

12 Vorgehensweise Anhand der binären logistischen Regression werden die Outputs mit folgender Gliederung erklärt (wie in Backhaus et al 2008): (1) Modellformulierung (2) Schätzung der logistischen Regressionsfunktion (3) Interpretation der Regressionskoeffizienten (4) Prüfung des Gesamtmodells (5) Prüfung der Merkmalsvariablen Anschließend werden die Unterschiede einer multinomialen logistischen Regression zu einer binären logistischen Regression dargestellt.

13 (1) Modellformulierung Sachlogische Begründung der Kategorien der abhängigen Variable und der möglichen Einflussgrößen. Keine unmittelbaren je-desto-hypothesen zwischen den unabhängigen Variablen und der abhängigen Variablen (wie bei der linearen Regression) sondern zwischen den Unabhängigen und der Eintrittswahrscheinlichkeit für das Ereignis y = 1. Wirkungsbeziehungen haben keinen linearen Charakter, da s- förmige Wahrscheinlichkeitsverteilung angenommen wird.

14 (2) Schätzung der logistischen Regressionsfunktion Die Modellparameter der logistischen Funktion werden üblicherweise mit Hilfe der Maximum-Likelihood-Methode geschätzt. Dabei ist es das Ziel, die Parameter b j des logistischen Regressionsmodells, die die Einflussgewichte der UV s widerspiegeln, so zu bestimmen, dass die Wahrscheinlichkeit (Likelihood), die beobachteten Erhebungsdaten zu erhalten, maximiert wird. Empirisch ergibt sich für jede Person entweder die Beobachtung y = 1 oder y = 0, so dass für die Parameterschätzung entweder die Wahrscheinlichkeit P(y = 1) oder P(y = 0) erhalten werden sollte. Das ist dann der Fall, wenn für jeden Beobachtungsfall k folgende Beziehung betrachtet wird:

15 (2) Schätzung der logistischen Regressionsfunktion Zusammengefasst kann diese Beziehung in einer Gleichung folgendermaßen ausgedrückt werden: Je nach Ausprägung der empirischen Beobachtungen y k wird für einen konkreten Fall k in obiger Gleichung entweder Faktor A oder Faktor B gleich 1. Die Parameter b j des Modells sind nun so zu schätzen, dass die Wahrscheinlichkeit (Likelihood) maximiert wird, die empirischen Beobachtungswerte(y = 1 bzw. y = 0) für möglichst alle Fälle zu erhalten. I.d.R. wird als Zuordnungsvorschrift der Wahrscheinlichkeitswert von 0,5 verwendet (p k > 0,5 => y = 1; p k < 0,5 => y = 0).

16 (2) Schätzung der logistischen Regressionsfunktion Um die Wahrscheinlichkeit für alle Beobachtungsfälle zu maximieren, wird der Wahrscheinlichkeitssatz für unabhängige Ereignisse angewendet, welcher besagt, dass sich für unabhängige Ereignisse die Wahrscheinlichkeit des gleichzeitigen Eintretens der Ereignisse durch die Multiplikation der Einzelereignisse ergibt. Daraus folgt, dass das Produkt der widergegebenen Wahrscheinlichkeiten über alle Befragten k = 1; ; K maximiert werden sollte damit die Parameterschätzung die wahrscheinlichste ist. Diese Maximierung wird über die Likelihood-Funktion zum Ausdruck gebracht:

17 (2) Schätzung der logistischen Regressionsfunktion Anstelle einer Maximierung der Likelihood-Funktion kann auch die LogLikelihood-Funktion (Logarithmus naturalis (ln) der Likelihood-Funktion) maximiert werden. Die LL-Funktion stellt sich folgendermaßen dar: Eine Maximierung erfolgt in SPSS über den Newton-Raphson-Algorithmus: 1. Es werden Ausgangswerte/Startwerte für die Logit-Koeffizienten angenommen (z.b. geschätzt über OLS-Regression) 2. Für einen beliebigen Beobachtungsfall k wird mit Hilfe der in Schritt 1 gewonnen Logit-Koeffizienten mittels der logistischen Regressionsgleichung der Logit berechnet und mit seiner Hilfe die Wahrscheinlichkeit p k (y = 1) bestimmt. 3. Für den gewählten Fall wird der LogLikelihood-Wert nach obiger Gleichung berechnet. 4. Die Schritte 2 und 3 werden für alle Beobachtungsfälle durchgeführt, um so die Gesamt-LogLikelihood-Funktion zu bestimmen. 5. Die Schritte 2 bis 4 werden mit anderen Werten von b j widerholt. 6. Die Gesamt-LogLikelihood-Funktionen der verschiedenen Koeffiziententupel werden verglichen und die Regressionskoeffizienten so lange verändert, bis keine deutliche Steigerung der Gesamt-LogLikelihood-Funktion mehr möglich ist.

18 (2) Schätzung der logistischen Regressionsfunktion In unserem Fall versuchen wir zu bestimmen, inwieweit der Status der Selbstständigkeit von Berufserfahrung (metrisch), Berufsbildung (kategorial) und häufiger Arbeit am Computer (Dummy) abhängt. Selbstständigkeit: frequencies stib. recode stib (4,5,6=1) (1,2,3,9=0) (7,99=sysmis) into selbstständig. value labels selbstständig 1 "selbstständig" 0 "nicht selbstständig". Berufsbildung: frequencies max1202. missing values max1202 (9). Computertätigkeit: frequencies f318. recode f318 (1=1) (2,3=0) into comp. variable labels comp "Computertätigkeit". value labels comp 1 "Ja" 0 "Nein".

19 (2) Schätzung der logistischen Regressionsfunktion Berufserfahrung: *Erste Berufstätigkeit. frequencies f1400. missing values f1400 (9999). *Unterbrechung der Berufstätigkeit. frequencies f1407 f1408. missing values f1408 (99). *Jahre seit 1. Berufstätigkeit. compute worklife=2006-f1400. *Berufserfahrung. compute tenure=worklife-f1408. if f1408=97 tenure=worklife-0. if f1407=2 tenure=worklife-0. frequencies tenure /sta=mean. recode tenure (low thru 0=0).

20 (2) Schätzung der logistischen Regressionsfunktion Regression: * Ohne Beamte. LOGISTIC REGRESSION VARIABLES selbstständig /SELECT=stib NE 3 /METHOD=ENTER tenure max1202 comp /CONTRAST (max1202)=indicator(1) /SAVE=PRED PGROUP COOK DFBETA ZRESID /CLASSPLOT /CASEWISE OUTLIER(2) /PRINT=GOODFIT CORR ITER(1) CI(95) /CRITERIA=PIN(0.05) POUT(0.10) ITERATE(20) CUT(0.5).

21 (2) Schätzung der logistischen Regressionsfunktion Zusammenfassung der Fallverarbeitung: zeigt wie viele Fälle in die Analyse mit einbezogen wurden. Codierung der abhängigen Variablen zeigt, dass das zu vorhersagende Ereignis (y = 1) die Selbständigkeit ist. Die Referenzkategorie ist nicht selbstständig.

22 (2) Schätzung der logistischen Regressionsfunktion Die Codierung der kategorialen Variablen zeigt, dass als Referenzkategorie der niedrigste Wert (ohne Berufsabschluss) gewählt wurde -> indicator (1) (default-einstellung ist die letzte Kategorie). Die kategorialen Variablen wurden in Dummy-Variablen umkodiert.

23 (2) Schätzung der logistischen Regressionsfunktion Block 0: Anfangsblock Das Iterationsprotokoll zeigt, dass 5 Iterationsschritte nötig waren um die Konstante zu finden.

24 (2) Schätzung der logistischen Regressionsfunktion Variablen in der Gleichung: Ursprünglicher Test für das Model, in welchem alle Koeffizienten der unabhängigen Variablen gleich 0 gesetzt sind. Bei Signifikanz muss die Nullhypothese (alle Regressionskoeffizienten sind gleich Null) verworfen werden.

25 (2) Schätzung der logistischen Regressionsfunktion ln (odds)=ln (2145/15688) = -1,99 odds = 2145/15688 = 0,137

26 (2) Schätzung der logistischen Regressionsfunktion Block 1: Methode Einschluß Wieder Iterationsprotokoll, diesmal aber mit allen Variablen. Ebenfalls 5 Iterationsschritte. Sichtbar sind zudem, wie sich die Koeffizienten während der Iterationsschritte verändert haben. Devianz

27 (3) Interpretation der Regressionskoeffizienten Da in der logistischen Regression kein linear Zusammenhang zwischen den UV s und den über die logistische Funktion bestimmten Wahrscheinlichkeiten p k (y = 1) besteht, tritt folgendes Interpretationsproblem auf: Die Wirkung der unabhängigen Variablen ist nicht über die gesamte Breite ihrer Ausprägungen konstant. => Eine Erhöhung der UV um eine Einheit führt NICHT zu einer konstanten Erhöhung der abhängigen Variable. (eine Erhöhung von X j von 1 auf 2 wirkt anders als ein Erhöhung von 4 auf 5) Die Regressionskoeffizienten können nicht untereinander verglichen werden. Die Lage der logistischen Funktion wird über b 0 in der Horizontalen beeinflusst.

28 (3) Interpretation der Regressionskoeffizienten Positive Regressionskoeffizienten bewirken mit steigenden Werten von X j ein (nicht-lineares) Ansteigen von P(y = 1), negative Koeffizienten hingegen ein Absinken der Wahrscheinlichkeit P(y = 1). Die Richtung des Einflusses ist also erkennbar.. Logit-Koeffizienten: Die Erhöhung einer unabhängigen Variablen um eine Einheit ändert das logarithmierte Wahrscheinlichkeitsverhältnis um den Faktor β j Z = Logit = ln(odds).

29 . (3) Interpretation der Regressionskoeffizienten Die entlogarithmierten -Koeffizienten, die sogenannten Effektkoeffizienten, sind hier wesentlich anschaulicher. Denn es gilt: Die Erhöhung einer unabhängigen Variablen um eine Einheit ändert das Wahrscheinlichkeitsverhältnis um den Faktor e ßj Dieses Wahrscheinlichkeitsverhältnis spiegelt die Chance (Odd) wider, das Ereignis y = 1 im Vergleich zum Ereignis y = 0 zu erhalten.

30 (3) Interpretation der Regressionskoeffizienten Die Odds entwickeln sich entsprechend der e-funktion mit dem Exponenten Z ( ). Dies lässt sich einfach durch Umformung verdeutlichen: Die Odds haben einen Wertebereich des Ereignisses y=1 im Intervall [0; + ]

31 (3) Interpretation der Regressionskoeffizienten Mit Hilfe der so genannten odds ratio (Effekt Koeffizienten) ist nun eine genaue Aussage über die Höhe der Einflussstärke der unabhängigen Variablen auf die Eintrittswahrscheinlichkeit möglich. Erhöht sich die UV um eine Einheit (x j + 1), so vergrößert sich das Chancenverhältnis zu Gunsten des Ereignisses y = 1 (odds = e z ) um den Faktor e bj.

32 (3) Interpretation der Regressionskoeffizienten Beispiel: Steigt die Berufserfahrung (tenure) um ein Jahr an, steigt die Chance selbständig zu sein um 1,028 (also um ca. 3%). Hingegen verdoppelt sich die Chance selbstständig zu sein (Exp(B) = 2,097), wenn man einen Universitäts-/Fachhochschulabschluss (max1202(3) max1202(3)) hat (gegenüber keinem Berufsabschluss). Hat man eine Ausbildung (max1202(1) max1202(1)) abgeschlossen, ist das Chancenverhältnis für Selbstständigkeit (y = 1) gegenüber Nicht-Selbstständigkeit (y = 0) bei 0,68. Die Chance selbstständig zu sein verringert sich also um den Faktor 0.68 wenn man eine Ausbildung abgeschlossen hat. Eine häufige Arbeit mit dem Computer (comp) führt eher zu einer Selbstständigkeit. Die Chance ist um den Faktor 1,27 erhöht.

33 (3) Interpretation der Regressionskoeffizienten Odds sind keine Wahrscheinlichkeiten, sondern Chancenverhältnisse. Es kann jedoch in Wahrscheinlichkeiten umgerechnet werden, sofern ein Beispielfall herangezogen wird da, der Effekt von X abhängt! und. Für eine Person mit 10 Jahren Berufserfahrung, Hochschulabschluss und häufiger Computertätigkeit errechnet sich die Wahrscheinlichkeit selbstständig zu sein entsprechend: z = -2, ,028*10-0,382*0 + 0,346*0 + 0,741*1 + 0,24*1= -1,524 P(y=1) = exp(-1,524)/(1+exp(-1,524)) = 0,18 => nach 20 Jahren Berufserfahrung steigt die Wahrscheinlichkeit auf 22%.

34 (4) Prüfung des Gesamtmodells Zwei Fragen stehen bei der Prüfung des Gesamtmodells im Vordergrund: Wie gut können die Parameterschätzungen in ihrer Grundgesamtheit das definierte Regressionsmodell abbilden? Liegen extreme Beobachtungsfälle vor, die als Ausreißer anzusehen sind und eine Eliminierung oder eine Modellveränderung erfordern? Um den Gesamtfit eines logistischen Regressionsmodells zu überprüfen, stellt sich die Frage, wie gut die UV s in ihrer Gesamtheit zur Trennung der Ausprägungskategorien von Y beitragen. Gütekriterien auf Basis der LogLikelihood-Funktion Pseudo-R-Quadrat-Statistiken Beurteilung der Klassifikationsergebnisse

35 (4) Prüfung des Gesamtmodells Gütekriterien auf Basis der LogLikelihood-Funktion (LL-Funktion) Analyse der Devianz bzw. des -2*LogLikelihood-Wertes Die Likelihhood (LL) spiegelt die Wahrscheinlichkeit wider, unter den gegebenen Parameterschätzungen die empirisch erhobenen Beobachtungswerte zu erhalten. Multipliziert man die LL mit -2, so ist die Größe approximativ Chi-Quadratverteilt mit (K J 1) Freiheitsgraden (K = Anzahl Beobachtungen; J = Anzahl Parameter). Die Größe -2LL wird auch als Devianz (Abweichung vom Idealwert) bezeichnet und kann inhaltlich mit der Fehlerquadratsumme des linearen Regressionsmodells verglichen werden. Mit -2LL wird zur Überprüfung des Modellfits die Nullhypothese geprüft, dass das Modell eine perfekte Anpassung besitzt. Weist die Devianz einen geringen Wert auf, so kann die Nullhypothese nicht abgelehnt werden. -> Test sollte nicht signifikant sein Problem der Devianz: Neben der Trennfähigkeit der Variablen wird die Devianz auch von der Schiefe der Verteilung der AV beeinflusst. So ist die Devianz bei einer schiefen Verteilung der AV stets geringer als bei einer nahezu gleichen Besetzung der abhängigen Variablen in den Gruppen.

36 (4) Prüfung des Gesamtmodells Likelihood-Ratio-Test (Modell Chi-Quadrat-Test) Der Omnibus-Test der Modellkoeffizienten (Spezialfall des Likelihood-Ratio- Tests) versucht die Probleme der Devianz zu vermeiden, indem er den maximierten LL-Wert nicht mit Null sondern mit demjenigen LL-Wert vergleicht, der sich ergibt wenn alle Regressionskoeffizienten der UV auf Null gesetzt werden. => Ähnlich F-Test in linearer Regression. Das Nullmodell wird mit vollständigem Modell verglichen Es wird die Nullhypothese geprüft, das alle Regressionskoeffizienten gleich Null sind. Ist der Test signifikant, kann man von einem signifikanten Unterschied zwischen dem intercept-only-modell und dem vollständigen Modell ausgegangen werden. -> Test sollte also signifikant sein Chi-Quadrat-Wert ergibt sich durch die -2LL des Nullmodels minus die -2LL des vollständigen Modells (13106, ,7 = 679,1). Df (Freiheitsgrade) = 5 = Zahl der unabhängigen Variablen Da Einschlußmethode gewählt wurde, ist nur ein Schritt berechnet worden => auch schrittweise möglich.

37 (4) Prüfung des Gesamtmodells Die so genannten Pseudo-R-Quadrat-Statistiken versuchen, den Anteil der erklärten Variation des logistischen Regressionsmodells zu quantifizieren. Vergleichbarkeit zwischen Modellen Auch hier wird auf das Verhältnis zwischen dem Likelihood des Nullmodels (LL 0 ) und des vollständigen Modells (LL V ) zurückgegriffen Immer zwischen 0 und 1. McFaddens-R² = 1- (LL v / LL 0 ) Bei geringem Unterschied ist McF-R² nahe Null, da der Quotient nahe 1 ist. I.d.R. spricht man ab 0,2 bzw. 0,4 bereits von einer guten Modellanpassung, da das Erreichen von 1 aufgrund der Konstruktion der Statistik nahezu unmöglich ist. Cox und Snell-R² = 1- (L 0 / L V ) 2/K L 0 = Likelihood des Nullmodells; L V = Likelihood des vollständigen Modells: K = Stichprobenumfang kann den Wert 1 nie erreichen. Nagelkerke-R² = Cox & Snell-R²/R² max R² max = 1 - (L 0 ) 2/K Kann Werte von 1 annehmen und kann deshalb eindeutig inhaltlich interpretiert werden.

38 (4) Prüfung des Gesamtmodells Unser Modell: McFaddens-R² = 1- (LL v / LL 0 ) = 1 (12427,7 / 13106,8) = 0,052

39 (4) Prüfung des Gesamtmodells Klassifikationstabelle: Spalten sind die vorhergesagten Werte, die Zeilen die tatsächlichen Werte. In einem perfekten Model wären alle Fälle auf der Diagonalen und der Prozentsatz der Richtigen läge bei 100% Kein Vergleich der Klassifizierungstabelle zwischen Stichproben, da unterschiedliche Trefferquote (Anzahl der korrekt Klassifizierten) möglich. Man weiß nicht, wie nahe die Prädiktoren am Trennpunkt waren. 88% der Fälle wurden durch das Modell korrekt zugeordnet, allerdings wäre dies auch blind möglich gewesen, wenn man die häufigste Kategorie gewählt hätte.

40 (4) Prüfung des Gesamtmodells Klassifizierungstabelle unter Einschluss der Variablen. Hier kein Unterschied zum Nullmodell ersichtlich.

41 (4) Prüfung des Gesamtmodells Was ist eine gute Trefferquote? Die Trefferquote der richtigen Zuordnungen sollte mit derjenigen Trefferquote verglichen werden, die bei einer rein zufälligen Zuordnung der Elemente, erreicht werden würde. Bei zwei Gruppen gleicher Größe wäre eine zufällige Trefferquote von 50% zu erwarten. In unserem Fall liegt die maximale Zufallswahrscheinlichkeit die dem Anteil der größten Gruppe an der Gesamtstichprobe entspricht ebenfalls bei 88%. Die proportionale Zufallswahrscheinlichkeit berechnet sich nach der Formel a² + (1 a)², wobei a der Anteil einer der zwei Gruppen an der Gesamtzahl der Beobachtungen ist. In unserem Fall ist es 0,88² ² = 0.79 Daumenregel: die Trefferquote sollte ca. 25% besser sein als die Zufallswahrscheinlichkeit, wobei die Art der Zufallswahrscheinlichkeit (maximal oder proportional) dem Forscher überlassen wird. Auf keinen Fall sollte das Modell eine schlechtere Trefferquote als die proportionale Zufallswahrscheinlichkeit aufweisen.

42 (4) Prüfung des Gesamtmodells Weitere Möglichkeiten: Press s Q-Test (kritischer Wert=3,84) Hosmer-Lemeshow-Test Prüft die Nullhypothese, dass die Differenz zwischen den vorhergesagten und den beobachteten Werten gleich Null ist. Wenn insignifikant kann die Nullhypothese nicht verworfen werden. -> Test sollte also nicht signifikant sein

43 (4) Prüfung des Gesamtmodells Histogramm der vorhergesagten Wahrscheinlichkeiten (auch Klassenplot) ist ein alternativer Weg um korrekte und inkorrekte Klassifikationen aufzudecken. X-Achse stellt die Wahrscheinlichkeit dar, mit welcher ein Fall zugeordnet wurde. Die Y-Achse gibt die Häufigkeit der Fälle an.

44 (4) Prüfung des Gesamtmodells Ausreißerdiagnostik: Welche Effekte üben einzelne Beobachtungen auf die Gesamtgüte des Modells aus? Auskunft darüber geben die Residuen k = y k p k (y). Diese Residuenwerte (RES_1) liegen immer zwischen -1 und + 1 bei einer binären Abhängigen. I.d.R. geht man davon aus, dass Ausreißer Klassifikationsfehler bewirken wenn sie (im Zwei-Gruppen-Fall) betragsmäßige Werte deutlich größer 0,5 annehmen. Um diese Ausreißer besser zu erkennen, werden die standardisierten Residuen einer Gewichtung unterzogen => standardisierte Residuen (ZRE_1, auch Pearson Residuum). Visualisierung bspw. über Boxplot Nicht vergleichbar mit Residuen der linearen Regression. Auch unter Fallweise Liste der Residuen

45 (4) Prüfung des Gesamtmodells DfBeta misst Änderung im Logit wenn eine Variable aus der Analyse ausgelassen wird. Sollte nicht größer als Eins sein. Leverage (LEV_1): zwischen 0 (kein Einfluss) und 1 (starker Einfluss). Cooks Distance. Einfluss wenn Fall ausgeschlossen wird. Was wenn Ausreißer erkannt werden? Seltenes atypisches Antwortverhalten => Ausschluss aus Analyse Möglicherweise schlechte Spezifikation des Modells, eventuell wurden wichtige Einflussgrößen vergessen. Mulitnomiale logistische Regression: SPSS bietet wenig Analysemöglichkeiten für Ausreißer

46 (4) Prüfung des Gesamtmodells

47 (5) Prüfung der Merkmalsvariablen Die im Model verwendeten Variablen sollten eine hohe Trennfähigkeit besitzen, um ein Modell-Overfitting (zu viele erklärende Variablen) zu vermeiden. Zur Überprüfung der Trennfähigkeit der Variablen kann auf den Likelihood-Quotienten- Test und auf die so genannte Wald-Statistik zurückgegriffen werden. Der Likelihood-Quotienten-Test vergleicht (ähnlich wie der Likelihood-Ratio-Test) das vollständige Modell mit einem reduzierten Modell, bei welchem jeweils ein Regressionskoeffizient auf Null gesetzt wird und dann die -2LL auf ihre Signifikanz geprüft wird. Diese erfolgt ebenfalls über die Chi-Quadrat-Verteilung, mit der Anzahl der Differenz der Parameter beider Modelle als Freiheitsgrade. Die Nullhypothese, dass der Regressionskoeffizient b j gleich Null ist kann ab einer Wahrscheinlichkeit von p<=0.05 verworfen werden.

48 (5) Prüfung der Merkmalsvariablen Das Prinzip der Wald-Statistik ist ähnlich dem des t-tests in der linearen Regression. Auch hier wird die Nullhypothese getestet, dass ein bestimmtes b j gleich Null ist. Die Prüfgröße W, wird hierfür mit dem entsprechenden Wert der Chi-Quadrat-Verteilung verglichen. s bj = Standardfehler von b j (j = 0,1,2,,J). Da für große Logits der Standardfehler groß ist, führt das zu einer kleineren Wald-Statistik und daher auch zu Type II Fehlern (Nullhypothese nicht ablehnen, obwohl Effekt). Daher ist es für Modelle mit größeren Logits und Dummy-Variablen empfehlenswerter einen Likelihood-Test mit und ohne die Variablen durchzuführen.

49 (5) Prüfung der Merkmalsvariablen Anhand der Wald-Statistik ist ersichtlich, dass alle Variablen einen signifikanten Einfluss haben. Ein insignifikanter Einfluss lässt sich auch an den Konfidenzintervallen für Exp(B) erkennen: Schwanken diese um den Wert 1, so ist nicht eindeutig erkennbar, ob sich das Chancenverhältnis bei Zugehörigkeit einer Gruppe oder beim Anstieg der UV um eine Einheit verbessert oder verschlechtert. Signifikanz vs. Effektstärke!

50 (5) Prüfung der Merkmalsvariablen Korrelationsmatrix zeigt Korrelationen zwischen den UV s Ein direktes Maß für Multikollinearität wie Toleranz oder VIF in der linearen Regression gibt es bei der logistischen Regression nicht, da es kein entsprechendes R² gibt. Bsp. correlations tenure zpalter

51 Multinomiale logistische Regression Vorhersage von Vollzeit, Teilzeit und geringfügiger Beschäftigung anhand von Berufserfahrung, Berufsabschluss und Kinder im Haushalt.

52 Multinomiale logistische Regression

53 Multinomiale logistische Regression Eintrag der Variablen: Dichotome Variablen als Kovariaten oder als Faktoren: Wenn als Faktor ist der Output einfacherer interpretierbar. So ist immer die Kategorie die Referenzkategorie, deren Koeffizienten auf 0 gesetzt werden. Hier dichotome Variable kinder als Faktor. Kategoriale Variablen als Faktoren. Als default-einstellung gilt der höchste Wert als Referenzkategorie. Metrische Variablen werden als Kovariaten eingegeben.

54 Multinomiale logistische Regression SPSS schätzt immer nur die Logits zu einer Referenzgruppe, diese ist per default immer die höchste. Modell angeben: Haupteffekte : Nur ausgewählte Variablen gehen in das Modell ein Gesättigtes Modell : Auch Kreuzeffekte zwischen den ausgewählten Variablen werden in das Modell mit einbezogen. Oder benutzerdefiniert : Bsp. Nur bestimmte Kreuzeffekte.

55 Multinomiale logistische Regression Information zur Modellanpassung: Nur konstanter Term ist das Nullmodell. Der Likelihood Koeffizienten-Test der die Differenz zwischen den beiden -2LL testet ist signifikant. Warum 10 Freiheitsgrade? Da die abhängige Variable 3 Ausprägungen aufweist gibt es 3 Wahrscheinlichkeitsübergänge zwischen jeweils 2 Gruppen. Deshalb müssen statt eines Logits (binäre log. Reg.) drei Logits berechnet werden. Allerdings ist aufgrund folgender Gleichung nur die Schätzung der b-werte von 2 Logits notwendig: Konstante zählt nicht zu den Freiheitsgraden, da der LR-Wert beim Abzug von zwei LL-Werten vom Effekt von b 0 befreit ist.

56 Multinomiale logistische Regression

57 Multinomiale logistische Regression Güte der Anpassung: Es ist notwendig, dass bei einem Chi-Quadrat Anpassungstest die Zahl der Kovariatenmuster deutlich geringer ist als die Zahl der Beobachtungen. Sonst führt der Test zu falschen Aussagen. Wie der Hosmer-Lemeshow-Test sollte dieser Test insignifikant sein. Das ist hier nicht der Fall. Es ist also kein gutes Modell. Pearson beruht auf dem traditionellen Chi-Quadrat. Abweichung (Devianz) auf der Likelihood-Ratio-Chi-Quadrat.

58 Multinomiale logistische Regression Da alles signifikant ist, kann man bei allen Variablen davon ausgehen, dass sie einen von Null verschiedenen Einfluss auf die abhängige Variable haben.

59 Multinomiale logistische Regression Als Referenzgruppe dient Kategorie 3 (Vollzeiterwerbstätige)

60 Multinomiale logistische Regression Wenn Regressionskoeffizient negativ bedeutet das, dass man mit dieser Variablenausprägung eher der Referenzkategorie zuzuordnen ist. Wenn positiv, dann eher in die Gruppe, in der man das Ergebnis abliest. Wirkungsrichtung und stärke der Variablen offenbaren sich vor allem in den odds ratios bzw. den Effekt-Koeffizienten (Exp(B)). Ein Wert von 0,467 bei Kindern in der Geringfügig-Gruppe bedeutet, dass sich das Verhältnis geringfügige Beschäftigung: vollwertige Beschäftigung um den Faktor 0,467 verringert, wenn man keine Kinder (Kinder=0) im Haushalt hat. Es stellt sich somit für Personen mit Kindern im Haushalt folgendermaßen dar 0,467:1 (Geringf.:Vollw.). Man ist also eher vollwertig Beschäftigt als geringfügig, wenn man keine Kinder hat.

Kommentierter SPSS-Ausdruck zur logistischen Regression

Kommentierter SPSS-Ausdruck zur logistischen Regression Daten: POK V AG 3 (POKV_AG3_V07.SAV) Kommentierter SPSS-Ausdruck zur logistischen Regression Fragestellung: Welchen Einfluss hat die Fachnähe und das Geschlecht auf die interpersonale Attraktion einer

Mehr

Logistische Regression

Logistische Regression TU Chemnitz SoSe 2012 Seminar: Multivariate Analysemethoden 26.06.2012 Dozent: Dr. Thomas Schäfer Logistische Regression Ein Verfahren zum Schätzen von Wahrscheinlichkeiten Referentinnen: B. Sc. Psych.

Mehr

Multinomiale logistische Regression

Multinomiale logistische Regression Multinomiale logistische Regression Die multinomiale logistische Regression dient zur Schätzung von Gruppenzugehörigkeiten bzw. einer entsprechenden Wahrscheinlichkeit hierfür, wobei als abhänginge Variable

Mehr

Multivariate Analyseverfahren

Multivariate Analyseverfahren Multivariate Analyseverfahren Logistische Regression Prof. Dr. Stein 14.01.2014 & 20.01.2014 1 / 62 Inhaltsverzeichnis 1 Grundidee 2 3 4 5 2 / 62 Der Erklärungsgegenstand Soziale Forschungsgegenstände

Mehr

Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall )

Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall ) Zusammenhänge von Variablen Regressionsanalysen linearer Zusammenhang ( Idealfall ) kein Zusammenhang nichtlinearer monotoner Zusammenhang (i.d.regel berechenbar über Variablentransformationen mittels

Mehr

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren)

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Multiple Regression 1 Was ist multiple lineare Regression? Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Annahme: Der Zusammenhang

Mehr

Institut für Soziologie Dipl.-Soz. Benjamin Gedon. Methoden 2. Logistische Regression I

Institut für Soziologie Dipl.-Soz. Benjamin Gedon. Methoden 2. Logistische Regression I Institut für Soziologie Dipl.-Soz. Methoden 2 Logistische Regression I Programm Ergänzung zu letzter Sitzung: Interpretation nichtlinearer Effekte Anwendungsbereich der logistischen Regression Entwicklung

Mehr

Notiz zur logistischen Regression

Notiz zur logistischen Regression Kapitel 1 Notiz zur logistischen Regression 1.1 Grundlagen Bei dichotomen abhängigen Variablen ergeben sich bei einer normalen linearen Regression Probleme. Während man die Ausprägungen einer dichotomen

Mehr

Kategoriale abhängige Variablen: Logit- und Probit -Modelle. Statistik II

Kategoriale abhängige Variablen: Logit- und Probit -Modelle. Statistik II Kategoriale abhängige Variablen: Logit- und Probit -Modelle Statistik II Wiederholung Literatur Annahmen und Annahmeverletzungen Funktionen Exponenten, Wurzeln usw. Das Problem Das binäre Logit-Modell

Mehr

Institut für Soziologie. Methoden 2. Regressionsanalyse I: Einfache lineare Regression

Institut für Soziologie. Methoden 2. Regressionsanalyse I: Einfache lineare Regression Institut für Soziologie Methoden 2 Regressionsanalyse I: Einfache lineare Regression Programm Anwendungsbereich Vorgehensweise Interpretation Annahmen Zusammenfassung Übungsaufgabe Literatur # 2 Anwendungsbereich

Mehr

Das Dialogfeld für die Regressionsanalyse ("Lineare Regression") findet sich im Statistik- Menu unter "Regression"-"Linear":

Das Dialogfeld für die Regressionsanalyse (Lineare Regression) findet sich im Statistik- Menu unter Regression-Linear: Lineare Regression Das Dialogfeld für die Regressionsanalyse ("Lineare Regression") findet sich im Statistik- Menu unter "Regression"-"Linear": Im einfachsten Fall werden mehrere Prädiktoren (oder nur

Mehr

Korrelation - Regression. Berghold, IMI

Korrelation - Regression. Berghold, IMI Korrelation - Regression Zusammenhang zwischen Variablen Bivariate Datenanalyse - Zusammenhang zwischen 2 stetigen Variablen Korrelation Einfaches lineares Regressionsmodell 1. Schritt: Erstellung eines

Mehr

Binäre logistische Regressionsanalyse

Binäre logistische Regressionsanalyse Binäre logistische Regressionsanalyse Eine Einführung für Sozialwissenschaftler mit SPSS für Windows Sabine Fromm Bamberger Beiträge zur empirischen Sozialforschung Nr. 11, 2005 Herausgeber: Gerhard Schulze

Mehr

Univariate Lineare Regression. (eine unabhängige Variable)

Univariate Lineare Regression. (eine unabhängige Variable) Univariate Lineare Regression (eine unabhängige Variable) Lineare Regression y=a+bx Präzise lineare Beziehung a.. Intercept b..anstieg y..abhängige Variable x..unabhängige Variable Lineare Regression y=a+bx+e

Mehr

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik Ludwig Fahrmeir, Nora Fenske Institut für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik 29. März 21 Hinweise:

Mehr

Kapitel 3: Interpretationen

Kapitel 3: Interpretationen Kapitel 3: 1. Interpretation von Outputs allgemein... 1 2. Interpretation von Signifikanzen... 1 2.1. Signifikanztests / Punktschätzer... 1 2.2. Konfidenzintervalle... 2 3. Interpretation von Parametern...

Mehr

ε heteroskedastisch BINARY CHOICE MODELS Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS?

ε heteroskedastisch BINARY CHOICE MODELS Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS? BINARY CHOICE MODELS 1 mit Pr( Y = 1) = P Y = 0 mit Pr( Y = 0) = 1 P Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS? Y i = X i β + ε i Probleme: Nonsense Predictions

Mehr

Kapitel 4: Binäre Regression

Kapitel 4: Binäre Regression Kapitel 4: Binäre Regression Steffen Unkel (basierend auf Folien von Nora Fenske) Statistik III für Nebenfachstudierende WS 2013/2014 4.1 Motivation Ausgangssituation Gegeben sind Daten (y i, x i1,...,

Mehr

Master of Science in Pflege

Master of Science in Pflege Master of Science in Pflege Modul: Statistik Einfache und multiple Regressionsanalyse / Logistische Regressionsanalyse November 2012 Prof. Dr. Jürg Schwarz Folie 2 Programm 28. November 2012: Vormittag

Mehr

Christian FG Schendera. Regressionsanalyse. mit SPSS. 2. korrigierte und aktualisierte Auflage DE GRUYTER OLDENBOURG

Christian FG Schendera. Regressionsanalyse. mit SPSS. 2. korrigierte und aktualisierte Auflage DE GRUYTER OLDENBOURG Christian FG Schendera Regressionsanalyse mit SPSS 2. korrigierte und aktualisierte Auflage DE GRUYTER OLDENBOURG Inhalt Vorworte V 1 Korrelation 1 1.1 Einführung 1 1.2 Erste Voraussetzung: Das Skalenniveau

Mehr

Die binäre Logistische Regression ein vielseitiges und robustes Analyseinstrument sozialwissenschaftlicher Forschung

Die binäre Logistische Regression ein vielseitiges und robustes Analyseinstrument sozialwissenschaftlicher Forschung Die binäre Logistische Regression ein vielseitiges und robustes Analyseinstrument sozialwissenschaftlicher Forschung Eine Einführung für Anwender - Marcel Erlinghagen - Gelsenkirchen, Oktober 2003 Gliederung

Mehr

IBM SPSS Regression 22

IBM SPSS Regression 22 IBM SPSS Regression 22 Hinweis Vor Verwendung dieser Informationen und des darin beschriebenen Produkts sollten die Informationen unter Bemerkungen auf Seite 33 gelesen werden. Produktinformation Diese

Mehr

29. Mai 2006. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt.

29. Mai 2006. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt. L. Fahrmeir, C. Belitz Department für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit Wahlfach Statistik 29. Mai 2006 Hinweise:

Mehr

Koeffizienten der Logitanalyse. Kurt Holm. Almo Statistik-System www.almo-statistik.de holm@almo-statistik.de kurt.holm@jku.at

Koeffizienten der Logitanalyse. Kurt Holm. Almo Statistik-System www.almo-statistik.de holm@almo-statistik.de kurt.holm@jku.at Koeffizienten der Logitanalyse Kurt Holm Almo Statistik-System www.almo-statistik.de holm@almo-statistik.de kurt.holm@jku.at 1 Kurt Holm Koeffizienten der Logitanalyse Eine häufig gestellte Frage lautet:

Mehr

2. Korrelation, lineare Regression und multiple Regression

2. Korrelation, lineare Regression und multiple Regression multiple 2.2 Lineare 2.2 Lineare 1 / 130 2.2 Lineare 2 / 130 2.1 Beispiel: Arbeitsmotivation Untersuchung zur Motivation am Arbeitsplatz in einem Chemie-Konzern 25 Personen werden durch Arbeitsplatz zufällig

Mehr

SPSS Regression Models 12.0

SPSS Regression Models 12.0 SPSS Regression Models 12.0 Weitere Informationen zu SPSS -Software-Produkten finden Sie auf unserer Website unter der Adresse http://www.spss.com, oder wenden Sie sich an SPSS GmbH Software Rosenheimer

Mehr

SISS: Schriftenreihe des Instituts für Sozialwissenschaften der Universität Stuttgart. No. 3 / 2010

SISS: Schriftenreihe des Instituts für Sozialwissenschaften der Universität Stuttgart. No. 3 / 2010 SISS: Schriftenreihe des Instituts für Sozialwissenschaften der Universität Stuttgart No. 3 / 2010 Binär-logistische Regressionsanalyse. Grundlagen und Anwendung für Sozialwissenschaftler Jochen Mayerl

Mehr

Diskriminanzanalyse Beispiel

Diskriminanzanalyse Beispiel Diskriminanzanalyse Ziel bei der Diskriminanzanalyse ist die Analyse von Gruppenunterschieden, d. h. der Untersuchung von zwei oder mehr Gruppen hinsichtlich einer Vielzahl von Variablen. Diese Methode

Mehr

6. METRISCHE UND KATEGORIALE MERKMALE

6. METRISCHE UND KATEGORIALE MERKMALE 6. METRISCHE UND KATEGORIALE MERKMALE wenn an einer Beobachtungseinheit eine (oder mehrere) metrische und eine (oder mehrere) kategoriale Variable(n) erhoben wurden Beispiel: Haushaltsarbeit von Teenagern

Mehr

Modul G.1 WS 07/08: Statistik 17.01.2008 1. Die Korrelation ist ein standardisiertes Maß für den linearen Zusammenhangzwischen zwei Variablen.

Modul G.1 WS 07/08: Statistik 17.01.2008 1. Die Korrelation ist ein standardisiertes Maß für den linearen Zusammenhangzwischen zwei Variablen. Modul G.1 WS 07/08: Statistik 17.01.2008 1 Wiederholung Kovarianz und Korrelation Kovarianz = Maß für den linearen Zusammenhang zwischen zwei Variablen x und y Korrelation Die Korrelation ist ein standardisiertes

Mehr

SPSS Regression Models 16.0

SPSS Regression Models 16.0 i SPSS Regression Models 16.0 Weitere Informationen zu SPSS -Software-Produkten finden Sie auf unserer Website unter der Adresse http://www.spss.com oder wenden Sie sich an SPSS Inc. 233 South Wacker Drive,

Mehr

Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel

Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel 16.11.01 MP1 - Grundlagen quantitativer Sozialforschung - (4) Datenanalyse 1 Gliederung Datenanalyse (inferenzstatistisch)

Mehr

Inhaltsverzeichnis. Regressionsanalyse. http://mesosworld.ch - Stand vom: 20.1.2010 1

Inhaltsverzeichnis. Regressionsanalyse. http://mesosworld.ch - Stand vom: 20.1.2010 1 Inhaltsverzeichnis Regressionsanalyse... 2 Lernhinweise... 2 Einführung... 2 Theorie (1-8)... 2 1. Allgemeine Beziehungen... 3 2. 'Best Fit'... 3 3. 'Ordinary Least Squares'... 4 4. Formel der Regressionskoeffizienten...

Mehr

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft Prof. Dr. Helmut Küchenhoff SS08 90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft am 22.7.2008 Anmerkungen Überprüfen Sie bitte sofort, ob Ihre Angabe vollständig ist. Sie sollte

Mehr

Kommentierter SPSS-Output für die multiple Regressionsanalyse (SPSS-Version 17)

Kommentierter SPSS-Output für die multiple Regressionsanalyse (SPSS-Version 17) R.Niketta Multiple Regressionsanalyse Kommentierter SPSS-Output für die multiple Regressionsanalyse (SPSS-Version 17) Daten: Selbstdarstellung und Kontaktsuche in studi.vz (POK VIII, AG 3) Fragestellung:

Mehr

i PASW Regression 18

i PASW Regression 18 i PASW Regression 18 Weitere Informationen zu SPSS Inc.-Software-Produkten finden Sie auf unserer Website unter der Adresse http://www.spss.com oder wenden Sie sich an SPSS Inc. 233 South Wacker Drive,

Mehr

Binäre abhängige Variablen

Binäre abhängige Variablen Binäre abhängige Variablen Thushyanthan Baskaran thushyanthan.baskaran@awi.uni-heidelberg.de Alfred Weber Institut Ruprecht Karls Universität Heidelberg Einführung Oft wollen wir qualitative Variablen

Mehr

Quantitative Methoden der Bildungsforschung

Quantitative Methoden der Bildungsforschung Glieung Wieholung Korrelationen Grundlagen lineare Regression Lineare Regression in SPSS Übung Wieholung Korrelationen Standardisiertes Zusammenhangsmaß (unstandardisiert: Kovarianz) linearer Zusammenhang

Mehr

Klausur Sommersemester 2010

Klausur Sommersemester 2010 Klausur Sommersemester 2010 Lehrstuhl: Wirtschaftspolitik Prüfungsfach: Empirische Wirtschaftsforschung Prüfer: Prof. Dr. K. Kraft Datum: 04.08.2010 Hilfsmittel: Nicht-programmierbarer Taschenrechner Klausurdauer:

Mehr

8. Februar 2007. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt.

8. Februar 2007. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt. L. Fahrmeir, C. Belitz Department für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit Wahlfach Statistik 8. Februar 2007 Hinweise:

Mehr

Allgemeines Lineares Modell: Univariate Varianzanalyse und Kovarianzanalyse

Allgemeines Lineares Modell: Univariate Varianzanalyse und Kovarianzanalyse Allgemeines Lineares Modell: Univariate Varianzanalyse und Kovarianzanalyse Univariate Varianz- und Kovarianzanlyse, Multivariate Varianzanalyse und Varianzanalyse mit Messwiederholung finden sich unter

Mehr

IBM SPSS Regression 20

IBM SPSS Regression 20 IBM SPSS Regression 20 Hinweis: Lesen Sie zunächst die allgemeinen Informationen unter Hinweise auf S. 47, bevor Sie dieses Informationsmaterial sowie das zugehörige Produkt verwenden. Diese Ausgabe bezieht

Mehr

2.Tutorium Generalisierte Regression

2.Tutorium Generalisierte Regression 2.Tutorium Generalisierte Regression - Binäre Regression - Moritz Berger: 04.11.2013 und 11.11.2013 Shuai Shao: 06.11.2013 und 13.11.2013 Institut für Statistik, LMU München 1 / 16 Gliederung 1 Erweiterte

Mehr

Kreuztabellenanalyse -Zusammenhangsmaße

Kreuztabellenanalyse -Zusammenhangsmaße Lehrveranstaltung Empirische Forschung und Politikberatung der Universität Bonn, WS 2007/2008 Kreuztabellenanalyse -Zusammenhangsmaße 14. Dezember 2007 Anja Hall, Bundesinstitut für Berufsbildung, AB 2.2:

Mehr

Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt!

Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt! Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt! 1 Einführung 2 Wahrscheinlichkeiten kurz gefasst 3 Zufallsvariablen und Verteilungen 4 Theoretische Verteilungen (Wahrscheinlichkeitsfunktion)

Mehr

Tabelle 6a: Deskriptive Statistiken der metrischen Variablen

Tabelle 6a: Deskriptive Statistiken der metrischen Variablen Ergebnisse 77 5 Ergebnisse Das folgende Kapitel widmet sich der statistischen Auswertung der Daten zur Ü- berprüfung der Hypothesen. Die hier verwendeten Daten wurden mit den in 4.3 beschriebenen Instrumenten

Mehr

Log-lineare Analyse I

Log-lineare Analyse I 1 Log-lineare Analyse I Einleitung Die log-lineare Analysemethode wurde von L.A. Goodman in den 60er und 70er Jahren entwickelt. Sie dient zur Analyse von Zusammenhängen in mehrdimensionalen Kontingenztafeln

Mehr

Multivariate Statistik

Multivariate Statistik Hermann Singer Multivariate Statistik 1 Auflage 15 Oktober 2012 Seite: 12 KAPITEL 1 FALLSTUDIEN Abbildung 12: Logistische Regression: Geschätzte Wahrscheinlichkeit für schlechte und gute Kredite (rot/blau)

Mehr

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 1 Einführung in die statistische Datenanalyse Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 2 Gliederung 1.Grundlagen 2.Nicht-parametrische Tests a. Mann-Whitney-Wilcoxon-U Test b. Wilcoxon-Signed-Rank

Mehr

3.2 Bivariate Verteilungen

3.2 Bivariate Verteilungen 3.2 Bivariate Verteilungen zwei Variablen X, Y werden gemeinsam betrachtet (an jedem Objekt i, i = 1,..., n, werden gleichzeitig zwei Merkmale beobachtet) Beobachtungswerte sind Paare/Kombinationen von

Mehr

Multiple Regression II: Signifikanztests, Gewichtung, Multikollinearität und Kohortenanalyse

Multiple Regression II: Signifikanztests, Gewichtung, Multikollinearität und Kohortenanalyse Multiple Regression II: Signifikanztests,, Multikollinearität und Kohortenanalyse Statistik II Übersicht Literatur Kausalität und Regression Inferenz und standardisierte Koeffizienten Statistik II Multiple

Mehr

14.01.14 DAS THEMA: INFERENZSTATISTIK II. Standardfehler Konfidenzintervalle Signifikanztests. Standardfehler

14.01.14 DAS THEMA: INFERENZSTATISTIK II. Standardfehler Konfidenzintervalle Signifikanztests. Standardfehler DAS THEMA: INFERENZSTATISTIK II INFERENZSTATISTISCHE AUSSAGEN Standardfehler Konfidenzintervalle Signifikanztests Standardfehler der Standardfehler Interpretation Verwendung 1 ZUR WIEDERHOLUNG... Ausgangspunkt:

Mehr

Zur Verfügung gestellt in Kooperation mit / provided in cooperation with: GESIS - Leibniz-Institut für Sozialwissenschaften

Zur Verfügung gestellt in Kooperation mit / provided in cooperation with: GESIS - Leibniz-Institut für Sozialwissenschaften www.ssoar.info Teilnehmen oder Boykottieren : ein Anwendungsbeispiel der binären logistischen Regression mit SPSSx Kühnel, Steffen M.; Jagodzinski, Wolfgang; Terwey, Michael Veröffentlichungsversion /

Mehr

Kontingenzkoeffizient (nach Pearson)

Kontingenzkoeffizient (nach Pearson) Assoziationsmaß für zwei nominale Merkmale misst die Unabhängigkeit zweier Merkmale gibt keine Richtung eines Zusammenhanges an 46 o jl beobachtete Häufigkeiten der Kombination von Merkmalsausprägungen

Mehr

Varianzanalyse ANOVA

Varianzanalyse ANOVA Varianzanalyse ANOVA Johannes Hain Lehrstuhl für Mathematik VIII Statistik 1/23 Einfaktorielle Varianzanalyse (ANOVA) Bisher war man lediglich in der Lage, mit dem t-test einen Mittelwertsvergleich für

Mehr

Probeklausur Zeitreihenökonometrie (Sommersemester 2014) 1

Probeklausur Zeitreihenökonometrie (Sommersemester 2014) 1 Probeklausur Zeitreihenökonometrie (Sommersemester 2014) 1 Aufgabe 1: Betrachtet wird folgendes Modell zur Erklärung des Managergehalts salary durch den Umsatz sales, die Eigenkapitalrendite roe und die

Mehr

Übungsserie Nr. 10 mit Lösungen

Übungsserie Nr. 10 mit Lösungen Übungsserie Nr. 10 mit Lösungen 1 Ein Untersuchungsdesign sieht einen multivariaten Vergleich einer Stichprobe von Frauen mit einer Stichprobe von Männern hinsichtlich der Merkmale X1, X2 und X3 vor (Codierung:

Mehr

3 Zusammenhangsmaße Zusammenhangshypothesen

3 Zusammenhangsmaße Zusammenhangshypothesen 3 Zusammenhangsmaße Zusammenhangshypothesen Zusammenhänge (zwischen 2 Variablen) misst man mittels Korrelationen. Die Wahl der Korrelation hängt ab von: a) Skalenniveau der beiden Variablen: 1) intervallskaliert

Mehr

Abhängigkeit zweier Merkmale

Abhängigkeit zweier Merkmale Abhängigkeit zweier Merkmale Johannes Hain Lehrstuhl für Mathematik VIII Statistik 1/33 Allgemeine Situation Neben der Untersuchung auf Unterschiede zwischen zwei oder mehreren Untersuchungsgruppen hinsichtlich

Mehr

Analyse bivariater Kontingenztafeln

Analyse bivariater Kontingenztafeln Analyse bivariater Kontingenztafeln Werden zwei kategoriale Merkmale mit nicht zu vielen möglichen Ausprägungen gemeinsam analysiert, so kommen zur Beschreibung der gemeinsamen Verteilung im allgemeinen

Mehr

9. Schätzen und Testen bei unbekannter Varianz

9. Schätzen und Testen bei unbekannter Varianz 9. Schätzen und Testen bei unbekannter Varianz Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Schätzen und Testen bei unbekannter Varianz Wenn wir die Standardabweichung σ nicht kennen,

Mehr

Commercial Banking Übung 1 Kreditscoring

Commercial Banking Übung 1 Kreditscoring Commercial Banking Übung Kreditscoring Dr. Peter Raupach raupach@wiwi.uni-frankfurt.de Sprechzeit Dienstag 6-7:00 Uhr Raum 603 B Kreditscoring Gliederung Grundanliegen Das Sample Modellspezifikation Diskriminanzanalyse

Mehr

6.1.2 Die Interaktionseffekte von Dummy- und zentrierten metrischen Variablen

6.1.2 Die Interaktionseffekte von Dummy- und zentrierten metrischen Variablen Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003-1 6.1.2 Die Interaktionseffekte von Dummy- und zentrierten metrischen Variablen Bei der Zentrierung handelt es sich um eine lineare

Mehr

Multivariate Verfahren

Multivariate Verfahren Selbstkontrollarbeit 2 Multivariate Verfahren Musterlösung Aufgabe 1 (28 Punkte) Der Marketing-Leiter einer Lebensmittelherstellers möchte herausfinden, mit welchem Richtpreis eine neue Joghurt-Marke auf

Mehr

Eine computergestützte Einführung mit

Eine computergestützte Einführung mit Thomas Cleff Deskriptive Statistik und Explorative Datenanalyse Eine computergestützte Einführung mit Excel, SPSS und STATA 3., überarbeitete und erweiterte Auflage ^ Springer Inhaltsverzeichnis 1 Statistik

Mehr

Multivariate Analyse: Einführung in das COX-Modell

Multivariate Analyse: Einführung in das COX-Modell Auswertung Multivariate Analyse: Einführung in das COX-Modell Deskriptive Statistik Häufigkeiten, Univariate Statistiken, Explorative Datenanalyse, Kreuztabellen) Induktive Statistik, Vergleich von Mittelwerten

Mehr

Häufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln

Häufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln Häufigkeitstabellen Menüpunkt Data PivotTable Report (bzw. entsprechendes Icon): wähle Data Range (Zellen, die die Daten enthalten + Zelle mit Variablenname) wähle kategoriale Variable für Spalten- oder

Mehr

Datenanalyse mit SPSS spezifische Analysen

Datenanalyse mit SPSS spezifische Analysen Datenanalyse mit SPSS spezifische Analysen Arnd Florack Tel.: 0251 / 83-34788 E-Mail: florack@psy.uni-muenster.de Raum 2.015 Sprechstunde: Dienstags 15-16 Uhr 25. Mai 2001 2 Auswertung von Häufigkeitsdaten

Mehr

Kapitel 23 Lineare Regression

Kapitel 23 Lineare Regression Kapitel 23 Lineare Regression Sowohl einfache als auch multiple Regressionsanalysen können Sie mit dem Befehl STATISTIK REGRESSION LINEAR... durchführen. Dabei lassen sich mit Hilfe diverser Optionen zahlreiche

Mehr

Einführung in die Logistische Regression. Fortbildung zur 19.Informationstagung Tumordokumentation

Einführung in die Logistische Regression. Fortbildung zur 19.Informationstagung Tumordokumentation Einführung in die Logistische Regression Fortbildung zur 9.Informationstagung Tumordokumentation Bernd Schicke, Tumorzentrum Berlin FB Bayreuth, 29.März 20 Gliederung Einleitung Schätzen von Maßzahlen

Mehr

Abschlussklausur (60 Minuten), 15. Juli 2014

Abschlussklausur (60 Minuten), 15. Juli 2014 Prof. Dr. Amelie Wuppermann Volkswirtschaftliche Fakultät Universität München Sommersemester 2014 Empirische Ökonomie 1 Abschlussklausur (60 Minuten), 15. Juli 2014 Bearbeitungshinweise Die Bearbeitungszeit

Mehr

Evaluation der Normalverteilungsannahme

Evaluation der Normalverteilungsannahme Evaluation der Normalverteilungsannahme. Überprüfung der Normalverteilungsannahme im SPSS P. Wilhelm; HS SPSS bietet verschiedene Möglichkeiten, um Verteilungsannahmen zu überprüfen. Angefordert werden

Mehr

Kapitel 7: Varianzanalyse mit Messwiederholung

Kapitel 7: Varianzanalyse mit Messwiederholung Kapitel 7: Varianzanalyse mit Messwiederholung Durchführung einer einfaktoriellen Varianzanalyse mit Messwiederholung 1 Durchführung einer zweifaktoriellen Varianzanalyse mit Messwiederholung auf einem

Mehr

Statistik im Bachelor-Studium der BWL und VWL

Statistik im Bachelor-Studium der BWL und VWL Max C. Wewel Statistik im Bachelor-Studium der BWL und VWL Methoden, Anwendung, Interpretation Mit herausnehmbarer Formelsammlung ein Imprint von Pearson Education München Boston San Francisco Harlow,

Mehr

Einseitig gerichtete Relation: Mit zunehmender Höhe über dem Meeresspiegel sinkt im allgemeinen die Lufttemperatur.

Einseitig gerichtete Relation: Mit zunehmender Höhe über dem Meeresspiegel sinkt im allgemeinen die Lufttemperatur. Statistik Grundlagen Charakterisierung von Verteilungen Einführung Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsverteilungen Schätzen und Testen Korrelation Regression Einführung Die Analyse und modellhafte

Mehr

Standardab er des. Testwert = 145.5 95% Konfidenzintervall. T df Sig. (2-seitig) Differenz Untere Obere -2.011 698.045-5.82-11.50 -.14.

Standardab er des. Testwert = 145.5 95% Konfidenzintervall. T df Sig. (2-seitig) Differenz Untere Obere -2.011 698.045-5.82-11.50 -.14. Aufgabe : einfacher T-Test Statistik bei einer Stichprobe Standardfehl Standardab er des Mittelwert weichung Mittelwertes 699 39.68 76.59 2.894 Test bei einer Sichprobe Testwert = 45.5 95% Konfidenzintervall

Mehr

Beispiel für eine multivariate Varianzanalyse (MANOVA) Daten: POKIV_Terror_V12.sav

Beispiel für eine multivariate Varianzanalyse (MANOVA) Daten: POKIV_Terror_V12.sav Beispiel für eine multivariate Varianzanalyse () Daten: POKIV_Terror_V12.sav Es soll überprüft werden, inwieweit das ATB-Syndrom (Angst vor mit den drei Subskalen affektive Angst von, Terrorpersistenz,

Mehr

Einführung in die Logistische Regression mit SPSS

Einführung in die Logistische Regression mit SPSS Einführung in die Logistische Regression mit SPSS Felix Bittmann V. 1.0 www.felix-bittmann.de 2015 Für Eilige Daten herunterladen und vorbereiten: S. 6 Durchführung in SPSS: S. 13 Interpretation: S. 15

Mehr

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50,7 50 51,5 51,7 48,8

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50,7 50 51,5 51,7 48,8 1. Aufgabe: Eine Reifenfirma hat für Winterreifen unterschiedliche Profile entwickelt. Bei jeweils gleicher Geschwindigkeit und auch sonst gleichen Bedingungen wurden die Bremswirkungen gemessen. Die gemessenen

Mehr

Willkommen zur Vorlesung Statistik

Willkommen zur Vorlesung Statistik Willkommen zur Vorlesung Statistik Thema dieser Vorlesung: Varianzanalyse Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften Prof. Dr. Wolfgang

Mehr

Tutorial: Homogenitätstest

Tutorial: Homogenitätstest Tutorial: Homogenitätstest Eine Bank möchte die Kreditwürdigkeit potenzieller Kreditnehmer abschätzen. Einerseits lebt die Bank ja von der Vergabe von Krediten, andererseits verursachen Problemkredite

Mehr

Die Auswertung dyadischer Daten anhand des Partner-Effekt-Modells

Die Auswertung dyadischer Daten anhand des Partner-Effekt-Modells Die Auswertung dyadischer Daten anhand des Partner-Effekt-Modells Dorothea E. Dette-Hagenmeyer Was sind dyadische Daten? Dyadische Daten sind Daten von zwei oder mehreren Personen, die etwas miteinander

Mehr

Inhaltsverzeichnis. Fragestellungen und Methoden 11. Vorwort 15. Kapitel 1 Einführung 17. Kapitel 2 Statistische Grundbegriffe 23

Inhaltsverzeichnis. Fragestellungen und Methoden 11. Vorwort 15. Kapitel 1 Einführung 17. Kapitel 2 Statistische Grundbegriffe 23 Fragestellungen und Methoden 11 Vorwort 15 Kapitel 1 Einführung 17 1.1 KonzeptiondesBuchs... 18 1.2 AufbaudesBuchs... 19 1.3 Programmversionen von PASW bzw. SPSS..... 20 1.4 WiekanndiesesBuchverwendetwerden?...

Mehr

Theoretische Grundlagen der Informatik WS 09/10

Theoretische Grundlagen der Informatik WS 09/10 Theoretische Grundlagen der Informatik WS 09/10 - Tutorium 6 - Michael Kirsten und Kai Wallisch Sitzung 13 02.02.2010 Inhaltsverzeichnis 1 Formeln zur Berechnung Aufgabe 1 2 Hamming-Distanz Aufgabe 2 3

Mehr

(2) Mittels welcher Methode ist es im ALM möglich kategoriale Variablen als Prädiktoren in eine Regressionsgleichung zu überführen?

(2) Mittels welcher Methode ist es im ALM möglich kategoriale Variablen als Prädiktoren in eine Regressionsgleichung zu überführen? Beispielaufgaben LÖSUNG (1) Grenzen Sie eine einfache lineare Regression von einem Random Intercept Modell mit nur einem Level1-Prädiktor ab! a. Worin unterscheiden sich die Voraussetzungen? - MLM braucht

Mehr

9. StatistischeTests. 9.1 Konzeption

9. StatistischeTests. 9.1 Konzeption 9. StatistischeTests 9.1 Konzeption Statistische Tests dienen zur Überprüfung von Hypothesen über einen Parameter der Grundgesamtheit (bei einem Ein-Stichproben-Test) oder über die Verteilung einer Zufallsvariablen

Mehr

Univariate/ multivariate Ansätze. Klaus D. Kubinger. Test- und Beratungsstelle. Effektgrößen

Univariate/ multivariate Ansätze. Klaus D. Kubinger. Test- und Beratungsstelle. Effektgrößen Univariate/ multivariate Ansätze Klaus D. Kubinger Effektgrößen Rasch, D. & Kubinger, K.D. (2006). Statistik für das Psychologiestudium Mit Softwareunter-stützung zur Planung und Auswertung von Untersuchungen

Mehr

Anwendung eines SAS/STAT-Modells ohne SAS/STAT in einem CRM-Projekt

Anwendung eines SAS/STAT-Modells ohne SAS/STAT in einem CRM-Projekt Poster Anwendung eines SAS/STAT-Modells ohne SAS/STAT in einem CRM-Projekt Timm Euler Tobias Otte viadee GmbH viadee GmbH Anton-Bruchausen-Str. 8 Anton-Bruchausen-Str. 8 48147 Münster 48147 Münster Timm.Euler@viadee.de

Mehr

5.2 Optionen Auswahl der Statistiken, die bei der jeweiligen Prozedur zur Verfügung stehen.

5.2 Optionen Auswahl der Statistiken, die bei der jeweiligen Prozedur zur Verfügung stehen. 5 Statistik mit SPSS Die Durchführung statistischer Auswertungen erfolgt bei SPSS in 2 Schritten, der Auswahl der geeigneten Methode, bestehend aus Prozedur Variable Optionen und der Ausführung. 5.1 Variablen

Mehr

Regression mit Gretl Eine erste Einführung 1

Regression mit Gretl Eine erste Einführung 1 Kurzeinführung in Gretl S. 1 Regression mit Gretl Eine erste Einführung 1 Installation: Gretl für das entsprechende Betriebssystem herunterladen und die Setup-Datei ausführen. Hinweis: Für die Benutzung

Mehr

Kapitel 3. Zufallsvariable. Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion. Erwartungswert, Varianz und Standardabweichung

Kapitel 3. Zufallsvariable. Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion. Erwartungswert, Varianz und Standardabweichung Kapitel 3 Zufallsvariable Josef Leydold c 2006 Mathematische Methoden III Zufallsvariable 1 / 43 Lernziele Diskrete und stetige Zufallsvariable Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion

Mehr

0 Einführung: Was ist Statistik

0 Einführung: Was ist Statistik 0 Einführung: Was ist Statistik 1 Datenerhebung und Messung Die Messung Skalenniveaus 2 Univariate deskriptive Statistik 3 Multivariate Statistik 4 Regression 5 Ergänzungen Grundbegriffe Statistische Einheit,

Mehr

Fragen und Antworten zu Kapitel 18

Fragen und Antworten zu Kapitel 18 Fragen und Antworten zu Kapitel 18 (1) Nennen Sie verschiedene Zielsetzungen, die man mit der Anwendung der multiplen Regressionsanalyse verfolgt. Die multiple Regressionsanalyse dient der Kontrolle von

Mehr

Übungen zur Veranstaltung Statistik 2 mit SPSS

Übungen zur Veranstaltung Statistik 2 mit SPSS Raum 22, Tel. 39 4 Aufgabe 5. Wird der neue Film MatchPoint von Woody Allen von weiblichen und männlichen Zuschauern gleich bewertet? Eine Umfrage unter 00 Kinobesuchern ergab folgende Daten: Altersgruppe

Mehr

Weitere (wählbare) Kontraste in der SPSS Prozedur Allgemeines Lineares Modell

Weitere (wählbare) Kontraste in der SPSS Prozedur Allgemeines Lineares Modell Einfaktorielle Versuchspläne 27/40 Weitere (wählbare) Kontraste in der SPSS Prozedur Allgemeines Lineares Modell Abweichung Einfach Differenz Helmert Wiederholt Vergleich Jede Gruppe mit Gesamtmittelwert

Mehr

Mediatioranalyse & Moderatoranalyse How to do

Mediatioranalyse & Moderatoranalyse How to do Mediatioranalyse & Moderatoranalyse How to do Die folgende Zusammenfassung zeigt beispielhaft, wie eine Mediatoranalyse bzw. eine Moderatoranalyse mit SPSS durchgeführt wird und wie die Ergebnisse in einem

Mehr

Anhang A: Fragebögen und sonstige Unterlagen

Anhang A: Fragebögen und sonstige Unterlagen Anhang Anhang A: Fragebögen und sonstige Unterlagen A.: Flyer zur Probandenrekrutierung 46 A.: Fragebogen zur Meditationserfahrung 47 48 A.3: Fragebogen Angaben zur Person 49 5 5 A.4: Termin- und Einladungsschreiben

Mehr

T-TEST BEI EINER STICHPROBE:

T-TEST BEI EINER STICHPROBE: Kapitel 19 T-Test Mit Hilfe der T-TEST-Prozeduren werden Aussagen über Mittelwerte getroffen. Dabei wird versucht, aus den Beobachtungen einer Stichprobe Rückschlüsse auf die Grundgesamtheit zu ziehen.

Mehr

Grundlagen von Versuchsmethodik und Datenanalyse

Grundlagen von Versuchsmethodik und Datenanalyse Grundlagen von Versuchsmethodik und Datenanalyse Der Anfang: Hypothesen über Ursache-Wirkungs-Zusammenhänge Ursache Wirkung Koffein verbessert Kurzzeitgedächtnis Gewaltfilme führen zu aggressivem Verhalten

Mehr

Messsystemanalyse (MSA)

Messsystemanalyse (MSA) Messsystemanalyse (MSA) Inhaltsverzeichnis Ursachen & Auswirkungen von Messabweichungen Qualifikations- und Fähigkeitsnachweise Vorteile einer Fähigkeitsuntersuchung Anforderungen an das Messsystem Genauigkeit

Mehr