Logistische Regression Juni 2011

Größe: px
Ab Seite anzeigen:

Download "Logistische Regression - - - - - 24. Juni 2011"

Transkript

1 Lehrveranstaltung Empirische Forschung und Politikberatung Sommersemester 2011 Logistische Regression Juni 2011 Anja Hall, Bundesinstitut für Berufsbildung, AB 2.2: Qualifikation, berufliche Integration und Erwerbstätigkeit

2 Literatur Tiemann, Michael: Notiz zur logistischen Regressionsanalyse: ssion.pdf Kapitel 5: Logistische Regression. In: Backhaus, Klaus; Erichson, Bernd; Plinke, Wulff und Weiber, Rolf (2008): Multivariate Analysemethoden. Eine anwendungsorientierte Einführung (S ). Berlin/ Heidelberg: Springer Verlag. ILMES - Internet-Lexikon der Methoden der empirischen Sozialforschung

3 Logistische Regression Die logistische Regression ist ein Verfahren zur multivariaten Analyse nicht-metrischer abhängiger Variablen. Im Falle einer abhängigen Variablen mit zwei Ausprägungen handelt es sich um die binäre logistische Regression. Bei einer kategorialen abhängigen Variablen mit mehr als zwei Ausprägungen handelt es sich um eine multinomiale logistische Regression. Die unabhängigen Variablen können sowohl metrisch (in SPSS als Kovariaten bezeichnet) als auch kategorial skaliert sein und werden bei binärerer Regression über die Option kategorial festgelegt. Bei der multinomialen logistischen Regression können sie als Kovariaten oder als Faktoren eingegeben werden.

4 Abgrenzung zur Regressionsanalyse Während bei der Regressionsanalyse die metrische abhängige Variable Y direkt geschätzt wird, versucht die LR nur, die Wahrscheinlichkeit des Eintretens der Werte der in der Regel nominalen abhängigen Variable zu berechnen. Würde man diese Wahrscheinlichkeiten P(Y=1) mit einer linearen Regression schätzen, ergäben sich auch Werte jenseits von [0,1], was zur Verletzung der Prämissen der Regression führen würde und damit nicht zulässig wäre. Die logistische Regression zielt hingegen auf das Ableiten einer Eintrittswahrscheinlichkeit für ein empirisch beobachtbares Ereignis (bspw. Erwerbstätigkeit) in Abhängigkeit von verschiedenen Einflussgrößen (bspw. erlernter Beruf) ab. Y = 1 => Ereignis y tritt ein. Y = 0 => Ereignis y tritt nicht ein.

5 Problemstellung Da die Ausprägungen 0 und 1 einer binären, abhängigen Variable jeweils die Unter- bzw. Obergrenze für die Wahrscheinlichkeit des Auftretens eines Merkmales darstellen, ergeben sich bei einer linearen Regression Probleme: Keine hinreichende Streuung in der abhängigen Variable. Verletzung der Normalverteilungsannahme der linearen Einfachregression. Die außerhalb von [0;1] liegenden Schätzwerte können nicht interpretiert werden. Bei dichotomen abhängigen variablen muss daher eine Funktion gefunden werden, die sich den minimalen und maximalen Wahrscheinlichkeiten von 0 und 1 asymptotisch annähert, z.b. die logistische Verteilung. Die logistische Regression stellt demzufolge keinen linearen Regressionsansatz dar. Stattdessen wird sie auch als Linking-Funktion bezeichnet, da über sie die Verbindung (Link) zwischen der abhängigen und den unabhängigen Variablen im Regressionsmodell hergestellt wird.

6 Problemstellung Im Einzelfall betrachten wir Ereignisse, die eintreten können (1) oder nicht (0). Über mehrere Fälle können wir dann die relative Häufigkeit des Eintretens eines Ereignisse messen: die Prozentzahl p, die zwischen 0 und 1 liegt und als Näherung für die Wahrscheinlichkeit des Ereignisses gilt. Diese Eintrittswahrscheinlichkeit (Prozentzahl) p wird nun so umgewandelt, dass sie über einen Regressionsansatz schätzbar wird. Das geschieht durch eine monotone Transformation des [0,1]-Intervalls in das Ergebnisintervall einer linearen Funktion (-,+ ) über die Berechnung des Risikos (odds, Chance) und des Logits (Log-Odds): Aus p kann man das Risiko oder Odds berechnen: Das Odds nimmt Werte zwischen 0 und an. Für statistische Zwecke geht man weiter, indem man das Odds logarithmiert und zum Logit kommt, der zwischen - und + liegt und ebenfalls monoton ist:

7 Modellansatz Um die Eintrittswahrscheinlichkeit von y = 1 [P(y=1] bestimmen zu können, wird unterstellt, dass eine nicht empirisch beobachtbare latente Variable Z existiert, die die binäre Ausprägung der abhängigen Variablen (Y) in Abhängigkeit der Ausprägungen der UV X j erzeugen kann. Dieser Zusammenhang lässt sich formal für einen Beobachtungsfall k folgendermaßen formulieren:

8 Modellansatz Durch die latente Variable Z wird die Verbindung zwischen der AV und den UV s hergestellt. Dabei kann die Variable Z als aggregierte Einflussstärke der verschiedenen unabhängigen Variablen interpretiert werden, die den Eintritt des Ereignisses herbeiführen. Die Variable Z wird durch die unterschiedlichen Einflussgrößen X j in einer Linearkombination erzeugt. Damit nach Maßgabe der aggregierten Einflussstärke Z das Ereignis y = 1 bzw. y = 0 erzeugt werden kann, bedarf es einer Wahrscheinlichkeitsfunktion. Hierfür wird auf die sogenannte logistische Funktion (p) zurückgegriffen: mit e=2, (Eulersche Zahl)

9 Modellansatz Der logistische Regressionsansatz berechnet nun die Wahrscheinlichkeit für das Eintreten des Ereignisses y = 1 unter Verwendung der logistischen Funktion. Dabei spielen die Regressionskoeffizienten (Logit-Koeffizienten) die Einflussstärke der jeweils betrachteten UV s auf die Eintrittswahrscheinlichkeit [P(y = 1)] wider. Da die logistische Funktion eine Wahrscheinlichkeitsbeziehung zwischen dem Ereignis y = 1 und den UV s X j herstellt, wird sie auch als Linking-Funktion bezeichnet. Die logistische Regressionsgleichung lautet demnach: Wobei die z-werte auch als Logits bezeichnet werden.

10 Problemstellung Die mit Hilfe der logistischen Funktion erzeugte Wahrscheinlichkeitsverteilung für das Ereignis y = 1 weist einen s-förmigen Verlauf auf und hat die Eigenschaft, dass sich selbst für unendlich kleine oder auch große Werte der logits die Wahrscheinlichkeit für das Ereignis y = 1 immer innerhalb des Intervalls [0,1] bewegt. Symmetrisch um Wendepunkt P(y = 1) = 0,5 Nicht-linearer Zusammenhang zwischen Eintrittswahrscheinlichkeit der binären, abhängigen Variable und den unabhängigen als Modellprämisse. Zustandekommen der aggregierten Einflussstärke Z im Exponenten der Linking- Funktion ist jedoch linear. Die Graphik zeigt, wie Logits (X-Achse) mit den Ausgangswahrscheinlichkeiten P(Y=1) (Y-Achse) zusammenhängen

11 Vorgehensweise Bsp. Schätzen einer binären logistischen Regression von Selbstständigkeit vs. Nicht-Selbstständigkeit in Abhängigkeit von Berufserfahrung, Berufsabschluss und Computertätigkeit. Multinomial logistische Regression: Geringfügige Beschäftigung, Teilzeitbeschäftigung und Vollzeitbeschäftigung in Abhängigkeit von Kindern im Haushalt, Berufserfahrung und Berufsabschluss.

12 Vorgehensweise Anhand der binären logistischen Regression werden die Outputs mit folgender Gliederung erklärt (wie in Backhaus et al 2008): (1) Modellformulierung (2) Schätzung der logistischen Regressionsfunktion (3) Interpretation der Regressionskoeffizienten (4) Prüfung des Gesamtmodells (5) Prüfung der Merkmalsvariablen Anschließend werden die Unterschiede einer multinomialen logistischen Regression zu einer binären logistischen Regression dargestellt.

13 (1) Modellformulierung Sachlogische Begründung der Kategorien der abhängigen Variable und der möglichen Einflussgrößen. Keine unmittelbaren je-desto-hypothesen zwischen den unabhängigen Variablen und der abhängigen Variablen (wie bei der linearen Regression) sondern zwischen den Unabhängigen und der Eintrittswahrscheinlichkeit für das Ereignis y = 1. Wirkungsbeziehungen haben keinen linearen Charakter, da s- förmige Wahrscheinlichkeitsverteilung angenommen wird.

14 (2) Schätzung der logistischen Regressionsfunktion Die Modellparameter der logistischen Funktion werden üblicherweise mit Hilfe der Maximum-Likelihood-Methode geschätzt. Dabei ist es das Ziel, die Parameter b j des logistischen Regressionsmodells, die die Einflussgewichte der UV s widerspiegeln, so zu bestimmen, dass die Wahrscheinlichkeit (Likelihood), die beobachteten Erhebungsdaten zu erhalten, maximiert wird. Empirisch ergibt sich für jede Person entweder die Beobachtung y = 1 oder y = 0, so dass für die Parameterschätzung entweder die Wahrscheinlichkeit P(y = 1) oder P(y = 0) erhalten werden sollte. Das ist dann der Fall, wenn für jeden Beobachtungsfall k folgende Beziehung betrachtet wird:

15 (2) Schätzung der logistischen Regressionsfunktion Zusammengefasst kann diese Beziehung in einer Gleichung folgendermaßen ausgedrückt werden: Je nach Ausprägung der empirischen Beobachtungen y k wird für einen konkreten Fall k in obiger Gleichung entweder Faktor A oder Faktor B gleich 1. Die Parameter b j des Modells sind nun so zu schätzen, dass die Wahrscheinlichkeit (Likelihood) maximiert wird, die empirischen Beobachtungswerte(y = 1 bzw. y = 0) für möglichst alle Fälle zu erhalten. I.d.R. wird als Zuordnungsvorschrift der Wahrscheinlichkeitswert von 0,5 verwendet (p k > 0,5 => y = 1; p k < 0,5 => y = 0).

16 (2) Schätzung der logistischen Regressionsfunktion Um die Wahrscheinlichkeit für alle Beobachtungsfälle zu maximieren, wird der Wahrscheinlichkeitssatz für unabhängige Ereignisse angewendet, welcher besagt, dass sich für unabhängige Ereignisse die Wahrscheinlichkeit des gleichzeitigen Eintretens der Ereignisse durch die Multiplikation der Einzelereignisse ergibt. Daraus folgt, dass das Produkt der widergegebenen Wahrscheinlichkeiten über alle Befragten k = 1; ; K maximiert werden sollte damit die Parameterschätzung die wahrscheinlichste ist. Diese Maximierung wird über die Likelihood-Funktion zum Ausdruck gebracht:

17 (2) Schätzung der logistischen Regressionsfunktion Anstelle einer Maximierung der Likelihood-Funktion kann auch die LogLikelihood-Funktion (Logarithmus naturalis (ln) der Likelihood-Funktion) maximiert werden. Die LL-Funktion stellt sich folgendermaßen dar: Eine Maximierung erfolgt in SPSS über den Newton-Raphson-Algorithmus: 1. Es werden Ausgangswerte/Startwerte für die Logit-Koeffizienten angenommen (z.b. geschätzt über OLS-Regression) 2. Für einen beliebigen Beobachtungsfall k wird mit Hilfe der in Schritt 1 gewonnen Logit-Koeffizienten mittels der logistischen Regressionsgleichung der Logit berechnet und mit seiner Hilfe die Wahrscheinlichkeit p k (y = 1) bestimmt. 3. Für den gewählten Fall wird der LogLikelihood-Wert nach obiger Gleichung berechnet. 4. Die Schritte 2 und 3 werden für alle Beobachtungsfälle durchgeführt, um so die Gesamt-LogLikelihood-Funktion zu bestimmen. 5. Die Schritte 2 bis 4 werden mit anderen Werten von b j widerholt. 6. Die Gesamt-LogLikelihood-Funktionen der verschiedenen Koeffiziententupel werden verglichen und die Regressionskoeffizienten so lange verändert, bis keine deutliche Steigerung der Gesamt-LogLikelihood-Funktion mehr möglich ist.

18 (2) Schätzung der logistischen Regressionsfunktion In unserem Fall versuchen wir zu bestimmen, inwieweit der Status der Selbstständigkeit von Berufserfahrung (metrisch), Berufsbildung (kategorial) und häufiger Arbeit am Computer (Dummy) abhängt. Selbstständigkeit: frequencies stib. recode stib (4,5,6=1) (1,2,3,9=0) (7,99=sysmis) into selbstständig. value labels selbstständig 1 "selbstständig" 0 "nicht selbstständig". Berufsbildung: frequencies max1202. missing values max1202 (9). Computertätigkeit: frequencies f318. recode f318 (1=1) (2,3=0) into comp. variable labels comp "Computertätigkeit". value labels comp 1 "Ja" 0 "Nein".

19 (2) Schätzung der logistischen Regressionsfunktion Berufserfahrung: *Erste Berufstätigkeit. frequencies f1400. missing values f1400 (9999). *Unterbrechung der Berufstätigkeit. frequencies f1407 f1408. missing values f1408 (99). *Jahre seit 1. Berufstätigkeit. compute worklife=2006-f1400. *Berufserfahrung. compute tenure=worklife-f1408. if f1408=97 tenure=worklife-0. if f1407=2 tenure=worklife-0. frequencies tenure /sta=mean. recode tenure (low thru 0=0).

20 (2) Schätzung der logistischen Regressionsfunktion Regression: * Ohne Beamte. LOGISTIC REGRESSION VARIABLES selbstständig /SELECT=stib NE 3 /METHOD=ENTER tenure max1202 comp /CONTRAST (max1202)=indicator(1) /SAVE=PRED PGROUP COOK DFBETA ZRESID /CLASSPLOT /CASEWISE OUTLIER(2) /PRINT=GOODFIT CORR ITER(1) CI(95) /CRITERIA=PIN(0.05) POUT(0.10) ITERATE(20) CUT(0.5).

21 (2) Schätzung der logistischen Regressionsfunktion Zusammenfassung der Fallverarbeitung: zeigt wie viele Fälle in die Analyse mit einbezogen wurden. Codierung der abhängigen Variablen zeigt, dass das zu vorhersagende Ereignis (y = 1) die Selbständigkeit ist. Die Referenzkategorie ist nicht selbstständig.

22 (2) Schätzung der logistischen Regressionsfunktion Die Codierung der kategorialen Variablen zeigt, dass als Referenzkategorie der niedrigste Wert (ohne Berufsabschluss) gewählt wurde -> indicator (1) (default-einstellung ist die letzte Kategorie). Die kategorialen Variablen wurden in Dummy-Variablen umkodiert.

23 (2) Schätzung der logistischen Regressionsfunktion Block 0: Anfangsblock Das Iterationsprotokoll zeigt, dass 5 Iterationsschritte nötig waren um die Konstante zu finden.

24 (2) Schätzung der logistischen Regressionsfunktion Variablen in der Gleichung: Ursprünglicher Test für das Model, in welchem alle Koeffizienten der unabhängigen Variablen gleich 0 gesetzt sind. Bei Signifikanz muss die Nullhypothese (alle Regressionskoeffizienten sind gleich Null) verworfen werden.

25 (2) Schätzung der logistischen Regressionsfunktion ln (odds)=ln (2145/15688) = -1,99 odds = 2145/15688 = 0,137

26 (2) Schätzung der logistischen Regressionsfunktion Block 1: Methode Einschluß Wieder Iterationsprotokoll, diesmal aber mit allen Variablen. Ebenfalls 5 Iterationsschritte. Sichtbar sind zudem, wie sich die Koeffizienten während der Iterationsschritte verändert haben. Devianz

27 (3) Interpretation der Regressionskoeffizienten Da in der logistischen Regression kein linear Zusammenhang zwischen den UV s und den über die logistische Funktion bestimmten Wahrscheinlichkeiten p k (y = 1) besteht, tritt folgendes Interpretationsproblem auf: Die Wirkung der unabhängigen Variablen ist nicht über die gesamte Breite ihrer Ausprägungen konstant. => Eine Erhöhung der UV um eine Einheit führt NICHT zu einer konstanten Erhöhung der abhängigen Variable. (eine Erhöhung von X j von 1 auf 2 wirkt anders als ein Erhöhung von 4 auf 5) Die Regressionskoeffizienten können nicht untereinander verglichen werden. Die Lage der logistischen Funktion wird über b 0 in der Horizontalen beeinflusst.

28 (3) Interpretation der Regressionskoeffizienten Positive Regressionskoeffizienten bewirken mit steigenden Werten von X j ein (nicht-lineares) Ansteigen von P(y = 1), negative Koeffizienten hingegen ein Absinken der Wahrscheinlichkeit P(y = 1). Die Richtung des Einflusses ist also erkennbar.. Logit-Koeffizienten: Die Erhöhung einer unabhängigen Variablen um eine Einheit ändert das logarithmierte Wahrscheinlichkeitsverhältnis um den Faktor β j Z = Logit = ln(odds).

29 . (3) Interpretation der Regressionskoeffizienten Die entlogarithmierten -Koeffizienten, die sogenannten Effektkoeffizienten, sind hier wesentlich anschaulicher. Denn es gilt: Die Erhöhung einer unabhängigen Variablen um eine Einheit ändert das Wahrscheinlichkeitsverhältnis um den Faktor e ßj Dieses Wahrscheinlichkeitsverhältnis spiegelt die Chance (Odd) wider, das Ereignis y = 1 im Vergleich zum Ereignis y = 0 zu erhalten.

30 (3) Interpretation der Regressionskoeffizienten Die Odds entwickeln sich entsprechend der e-funktion mit dem Exponenten Z ( ). Dies lässt sich einfach durch Umformung verdeutlichen: Die Odds haben einen Wertebereich des Ereignisses y=1 im Intervall [0; + ]

31 (3) Interpretation der Regressionskoeffizienten Mit Hilfe der so genannten odds ratio (Effekt Koeffizienten) ist nun eine genaue Aussage über die Höhe der Einflussstärke der unabhängigen Variablen auf die Eintrittswahrscheinlichkeit möglich. Erhöht sich die UV um eine Einheit (x j + 1), so vergrößert sich das Chancenverhältnis zu Gunsten des Ereignisses y = 1 (odds = e z ) um den Faktor e bj.

32 (3) Interpretation der Regressionskoeffizienten Beispiel: Steigt die Berufserfahrung (tenure) um ein Jahr an, steigt die Chance selbständig zu sein um 1,028 (also um ca. 3%). Hingegen verdoppelt sich die Chance selbstständig zu sein (Exp(B) = 2,097), wenn man einen Universitäts-/Fachhochschulabschluss (max1202(3) max1202(3)) hat (gegenüber keinem Berufsabschluss). Hat man eine Ausbildung (max1202(1) max1202(1)) abgeschlossen, ist das Chancenverhältnis für Selbstständigkeit (y = 1) gegenüber Nicht-Selbstständigkeit (y = 0) bei 0,68. Die Chance selbstständig zu sein verringert sich also um den Faktor 0.68 wenn man eine Ausbildung abgeschlossen hat. Eine häufige Arbeit mit dem Computer (comp) führt eher zu einer Selbstständigkeit. Die Chance ist um den Faktor 1,27 erhöht.

33 (3) Interpretation der Regressionskoeffizienten Odds sind keine Wahrscheinlichkeiten, sondern Chancenverhältnisse. Es kann jedoch in Wahrscheinlichkeiten umgerechnet werden, sofern ein Beispielfall herangezogen wird da, der Effekt von X abhängt! und. Für eine Person mit 10 Jahren Berufserfahrung, Hochschulabschluss und häufiger Computertätigkeit errechnet sich die Wahrscheinlichkeit selbstständig zu sein entsprechend: z = -2, ,028*10-0,382*0 + 0,346*0 + 0,741*1 + 0,24*1= -1,524 P(y=1) = exp(-1,524)/(1+exp(-1,524)) = 0,18 => nach 20 Jahren Berufserfahrung steigt die Wahrscheinlichkeit auf 22%.

34 (4) Prüfung des Gesamtmodells Zwei Fragen stehen bei der Prüfung des Gesamtmodells im Vordergrund: Wie gut können die Parameterschätzungen in ihrer Grundgesamtheit das definierte Regressionsmodell abbilden? Liegen extreme Beobachtungsfälle vor, die als Ausreißer anzusehen sind und eine Eliminierung oder eine Modellveränderung erfordern? Um den Gesamtfit eines logistischen Regressionsmodells zu überprüfen, stellt sich die Frage, wie gut die UV s in ihrer Gesamtheit zur Trennung der Ausprägungskategorien von Y beitragen. Gütekriterien auf Basis der LogLikelihood-Funktion Pseudo-R-Quadrat-Statistiken Beurteilung der Klassifikationsergebnisse

35 (4) Prüfung des Gesamtmodells Gütekriterien auf Basis der LogLikelihood-Funktion (LL-Funktion) Analyse der Devianz bzw. des -2*LogLikelihood-Wertes Die Likelihhood (LL) spiegelt die Wahrscheinlichkeit wider, unter den gegebenen Parameterschätzungen die empirisch erhobenen Beobachtungswerte zu erhalten. Multipliziert man die LL mit -2, so ist die Größe approximativ Chi-Quadratverteilt mit (K J 1) Freiheitsgraden (K = Anzahl Beobachtungen; J = Anzahl Parameter). Die Größe -2LL wird auch als Devianz (Abweichung vom Idealwert) bezeichnet und kann inhaltlich mit der Fehlerquadratsumme des linearen Regressionsmodells verglichen werden. Mit -2LL wird zur Überprüfung des Modellfits die Nullhypothese geprüft, dass das Modell eine perfekte Anpassung besitzt. Weist die Devianz einen geringen Wert auf, so kann die Nullhypothese nicht abgelehnt werden. -> Test sollte nicht signifikant sein Problem der Devianz: Neben der Trennfähigkeit der Variablen wird die Devianz auch von der Schiefe der Verteilung der AV beeinflusst. So ist die Devianz bei einer schiefen Verteilung der AV stets geringer als bei einer nahezu gleichen Besetzung der abhängigen Variablen in den Gruppen.

36 (4) Prüfung des Gesamtmodells Likelihood-Ratio-Test (Modell Chi-Quadrat-Test) Der Omnibus-Test der Modellkoeffizienten (Spezialfall des Likelihood-Ratio- Tests) versucht die Probleme der Devianz zu vermeiden, indem er den maximierten LL-Wert nicht mit Null sondern mit demjenigen LL-Wert vergleicht, der sich ergibt wenn alle Regressionskoeffizienten der UV auf Null gesetzt werden. => Ähnlich F-Test in linearer Regression. Das Nullmodell wird mit vollständigem Modell verglichen Es wird die Nullhypothese geprüft, das alle Regressionskoeffizienten gleich Null sind. Ist der Test signifikant, kann man von einem signifikanten Unterschied zwischen dem intercept-only-modell und dem vollständigen Modell ausgegangen werden. -> Test sollte also signifikant sein Chi-Quadrat-Wert ergibt sich durch die -2LL des Nullmodels minus die -2LL des vollständigen Modells (13106, ,7 = 679,1). Df (Freiheitsgrade) = 5 = Zahl der unabhängigen Variablen Da Einschlußmethode gewählt wurde, ist nur ein Schritt berechnet worden => auch schrittweise möglich.

37 (4) Prüfung des Gesamtmodells Die so genannten Pseudo-R-Quadrat-Statistiken versuchen, den Anteil der erklärten Variation des logistischen Regressionsmodells zu quantifizieren. Vergleichbarkeit zwischen Modellen Auch hier wird auf das Verhältnis zwischen dem Likelihood des Nullmodels (LL 0 ) und des vollständigen Modells (LL V ) zurückgegriffen Immer zwischen 0 und 1. McFaddens-R² = 1- (LL v / LL 0 ) Bei geringem Unterschied ist McF-R² nahe Null, da der Quotient nahe 1 ist. I.d.R. spricht man ab 0,2 bzw. 0,4 bereits von einer guten Modellanpassung, da das Erreichen von 1 aufgrund der Konstruktion der Statistik nahezu unmöglich ist. Cox und Snell-R² = 1- (L 0 / L V ) 2/K L 0 = Likelihood des Nullmodells; L V = Likelihood des vollständigen Modells: K = Stichprobenumfang kann den Wert 1 nie erreichen. Nagelkerke-R² = Cox & Snell-R²/R² max R² max = 1 - (L 0 ) 2/K Kann Werte von 1 annehmen und kann deshalb eindeutig inhaltlich interpretiert werden.

38 (4) Prüfung des Gesamtmodells Unser Modell: McFaddens-R² = 1- (LL v / LL 0 ) = 1 (12427,7 / 13106,8) = 0,052

39 (4) Prüfung des Gesamtmodells Klassifikationstabelle: Spalten sind die vorhergesagten Werte, die Zeilen die tatsächlichen Werte. In einem perfekten Model wären alle Fälle auf der Diagonalen und der Prozentsatz der Richtigen läge bei 100% Kein Vergleich der Klassifizierungstabelle zwischen Stichproben, da unterschiedliche Trefferquote (Anzahl der korrekt Klassifizierten) möglich. Man weiß nicht, wie nahe die Prädiktoren am Trennpunkt waren. 88% der Fälle wurden durch das Modell korrekt zugeordnet, allerdings wäre dies auch blind möglich gewesen, wenn man die häufigste Kategorie gewählt hätte.

40 (4) Prüfung des Gesamtmodells Klassifizierungstabelle unter Einschluss der Variablen. Hier kein Unterschied zum Nullmodell ersichtlich.

41 (4) Prüfung des Gesamtmodells Was ist eine gute Trefferquote? Die Trefferquote der richtigen Zuordnungen sollte mit derjenigen Trefferquote verglichen werden, die bei einer rein zufälligen Zuordnung der Elemente, erreicht werden würde. Bei zwei Gruppen gleicher Größe wäre eine zufällige Trefferquote von 50% zu erwarten. In unserem Fall liegt die maximale Zufallswahrscheinlichkeit die dem Anteil der größten Gruppe an der Gesamtstichprobe entspricht ebenfalls bei 88%. Die proportionale Zufallswahrscheinlichkeit berechnet sich nach der Formel a² + (1 a)², wobei a der Anteil einer der zwei Gruppen an der Gesamtzahl der Beobachtungen ist. In unserem Fall ist es 0,88² ² = 0.79 Daumenregel: die Trefferquote sollte ca. 25% besser sein als die Zufallswahrscheinlichkeit, wobei die Art der Zufallswahrscheinlichkeit (maximal oder proportional) dem Forscher überlassen wird. Auf keinen Fall sollte das Modell eine schlechtere Trefferquote als die proportionale Zufallswahrscheinlichkeit aufweisen.

42 (4) Prüfung des Gesamtmodells Weitere Möglichkeiten: Press s Q-Test (kritischer Wert=3,84) Hosmer-Lemeshow-Test Prüft die Nullhypothese, dass die Differenz zwischen den vorhergesagten und den beobachteten Werten gleich Null ist. Wenn insignifikant kann die Nullhypothese nicht verworfen werden. -> Test sollte also nicht signifikant sein

43 (4) Prüfung des Gesamtmodells Histogramm der vorhergesagten Wahrscheinlichkeiten (auch Klassenplot) ist ein alternativer Weg um korrekte und inkorrekte Klassifikationen aufzudecken. X-Achse stellt die Wahrscheinlichkeit dar, mit welcher ein Fall zugeordnet wurde. Die Y-Achse gibt die Häufigkeit der Fälle an.

44 (4) Prüfung des Gesamtmodells Ausreißerdiagnostik: Welche Effekte üben einzelne Beobachtungen auf die Gesamtgüte des Modells aus? Auskunft darüber geben die Residuen k = y k p k (y). Diese Residuenwerte (RES_1) liegen immer zwischen -1 und + 1 bei einer binären Abhängigen. I.d.R. geht man davon aus, dass Ausreißer Klassifikationsfehler bewirken wenn sie (im Zwei-Gruppen-Fall) betragsmäßige Werte deutlich größer 0,5 annehmen. Um diese Ausreißer besser zu erkennen, werden die standardisierten Residuen einer Gewichtung unterzogen => standardisierte Residuen (ZRE_1, auch Pearson Residuum). Visualisierung bspw. über Boxplot Nicht vergleichbar mit Residuen der linearen Regression. Auch unter Fallweise Liste der Residuen

45 (4) Prüfung des Gesamtmodells DfBeta misst Änderung im Logit wenn eine Variable aus der Analyse ausgelassen wird. Sollte nicht größer als Eins sein. Leverage (LEV_1): zwischen 0 (kein Einfluss) und 1 (starker Einfluss). Cooks Distance. Einfluss wenn Fall ausgeschlossen wird. Was wenn Ausreißer erkannt werden? Seltenes atypisches Antwortverhalten => Ausschluss aus Analyse Möglicherweise schlechte Spezifikation des Modells, eventuell wurden wichtige Einflussgrößen vergessen. Mulitnomiale logistische Regression: SPSS bietet wenig Analysemöglichkeiten für Ausreißer

46 (4) Prüfung des Gesamtmodells

47 (5) Prüfung der Merkmalsvariablen Die im Model verwendeten Variablen sollten eine hohe Trennfähigkeit besitzen, um ein Modell-Overfitting (zu viele erklärende Variablen) zu vermeiden. Zur Überprüfung der Trennfähigkeit der Variablen kann auf den Likelihood-Quotienten- Test und auf die so genannte Wald-Statistik zurückgegriffen werden. Der Likelihood-Quotienten-Test vergleicht (ähnlich wie der Likelihood-Ratio-Test) das vollständige Modell mit einem reduzierten Modell, bei welchem jeweils ein Regressionskoeffizient auf Null gesetzt wird und dann die -2LL auf ihre Signifikanz geprüft wird. Diese erfolgt ebenfalls über die Chi-Quadrat-Verteilung, mit der Anzahl der Differenz der Parameter beider Modelle als Freiheitsgrade. Die Nullhypothese, dass der Regressionskoeffizient b j gleich Null ist kann ab einer Wahrscheinlichkeit von p<=0.05 verworfen werden.

48 (5) Prüfung der Merkmalsvariablen Das Prinzip der Wald-Statistik ist ähnlich dem des t-tests in der linearen Regression. Auch hier wird die Nullhypothese getestet, dass ein bestimmtes b j gleich Null ist. Die Prüfgröße W, wird hierfür mit dem entsprechenden Wert der Chi-Quadrat-Verteilung verglichen. s bj = Standardfehler von b j (j = 0,1,2,,J). Da für große Logits der Standardfehler groß ist, führt das zu einer kleineren Wald-Statistik und daher auch zu Type II Fehlern (Nullhypothese nicht ablehnen, obwohl Effekt). Daher ist es für Modelle mit größeren Logits und Dummy-Variablen empfehlenswerter einen Likelihood-Test mit und ohne die Variablen durchzuführen.

49 (5) Prüfung der Merkmalsvariablen Anhand der Wald-Statistik ist ersichtlich, dass alle Variablen einen signifikanten Einfluss haben. Ein insignifikanter Einfluss lässt sich auch an den Konfidenzintervallen für Exp(B) erkennen: Schwanken diese um den Wert 1, so ist nicht eindeutig erkennbar, ob sich das Chancenverhältnis bei Zugehörigkeit einer Gruppe oder beim Anstieg der UV um eine Einheit verbessert oder verschlechtert. Signifikanz vs. Effektstärke!

50 (5) Prüfung der Merkmalsvariablen Korrelationsmatrix zeigt Korrelationen zwischen den UV s Ein direktes Maß für Multikollinearität wie Toleranz oder VIF in der linearen Regression gibt es bei der logistischen Regression nicht, da es kein entsprechendes R² gibt. Bsp. correlations tenure zpalter

51 Multinomiale logistische Regression Vorhersage von Vollzeit, Teilzeit und geringfügiger Beschäftigung anhand von Berufserfahrung, Berufsabschluss und Kinder im Haushalt.

52 Multinomiale logistische Regression

53 Multinomiale logistische Regression Eintrag der Variablen: Dichotome Variablen als Kovariaten oder als Faktoren: Wenn als Faktor ist der Output einfacherer interpretierbar. So ist immer die Kategorie die Referenzkategorie, deren Koeffizienten auf 0 gesetzt werden. Hier dichotome Variable kinder als Faktor. Kategoriale Variablen als Faktoren. Als default-einstellung gilt der höchste Wert als Referenzkategorie. Metrische Variablen werden als Kovariaten eingegeben.

54 Multinomiale logistische Regression SPSS schätzt immer nur die Logits zu einer Referenzgruppe, diese ist per default immer die höchste. Modell angeben: Haupteffekte : Nur ausgewählte Variablen gehen in das Modell ein Gesättigtes Modell : Auch Kreuzeffekte zwischen den ausgewählten Variablen werden in das Modell mit einbezogen. Oder benutzerdefiniert : Bsp. Nur bestimmte Kreuzeffekte.

55 Multinomiale logistische Regression Information zur Modellanpassung: Nur konstanter Term ist das Nullmodell. Der Likelihood Koeffizienten-Test der die Differenz zwischen den beiden -2LL testet ist signifikant. Warum 10 Freiheitsgrade? Da die abhängige Variable 3 Ausprägungen aufweist gibt es 3 Wahrscheinlichkeitsübergänge zwischen jeweils 2 Gruppen. Deshalb müssen statt eines Logits (binäre log. Reg.) drei Logits berechnet werden. Allerdings ist aufgrund folgender Gleichung nur die Schätzung der b-werte von 2 Logits notwendig: Konstante zählt nicht zu den Freiheitsgraden, da der LR-Wert beim Abzug von zwei LL-Werten vom Effekt von b 0 befreit ist.

56 Multinomiale logistische Regression

57 Multinomiale logistische Regression Güte der Anpassung: Es ist notwendig, dass bei einem Chi-Quadrat Anpassungstest die Zahl der Kovariatenmuster deutlich geringer ist als die Zahl der Beobachtungen. Sonst führt der Test zu falschen Aussagen. Wie der Hosmer-Lemeshow-Test sollte dieser Test insignifikant sein. Das ist hier nicht der Fall. Es ist also kein gutes Modell. Pearson beruht auf dem traditionellen Chi-Quadrat. Abweichung (Devianz) auf der Likelihood-Ratio-Chi-Quadrat.

58 Multinomiale logistische Regression Da alles signifikant ist, kann man bei allen Variablen davon ausgehen, dass sie einen von Null verschiedenen Einfluss auf die abhängige Variable haben.

59 Multinomiale logistische Regression Als Referenzgruppe dient Kategorie 3 (Vollzeiterwerbstätige)

60 Multinomiale logistische Regression Wenn Regressionskoeffizient negativ bedeutet das, dass man mit dieser Variablenausprägung eher der Referenzkategorie zuzuordnen ist. Wenn positiv, dann eher in die Gruppe, in der man das Ergebnis abliest. Wirkungsrichtung und stärke der Variablen offenbaren sich vor allem in den odds ratios bzw. den Effekt-Koeffizienten (Exp(B)). Ein Wert von 0,467 bei Kindern in der Geringfügig-Gruppe bedeutet, dass sich das Verhältnis geringfügige Beschäftigung: vollwertige Beschäftigung um den Faktor 0,467 verringert, wenn man keine Kinder (Kinder=0) im Haushalt hat. Es stellt sich somit für Personen mit Kindern im Haushalt folgendermaßen dar 0,467:1 (Geringf.:Vollw.). Man ist also eher vollwertig Beschäftigt als geringfügig, wenn man keine Kinder hat.

Kommentierter SPSS-Ausdruck zur logistischen Regression

Kommentierter SPSS-Ausdruck zur logistischen Regression Daten: POK V AG 3 (POKV_AG3_V07.SAV) Kommentierter SPSS-Ausdruck zur logistischen Regression Fragestellung: Welchen Einfluss hat die Fachnähe und das Geschlecht auf die interpersonale Attraktion einer

Mehr

Fortgeschrittene Statistik Logistische Regression

Fortgeschrittene Statistik Logistische Regression Fortgeschrittene Statistik Logistische Regression O D D S, O D D S - R A T I O, L O G I T T R A N S F O R M A T I O N, I N T E R P R E T A T I O N V O N K O E F F I Z I E N T E N, L O G I S T I S C H E

Mehr

Logistische Regression

Logistische Regression TU Chemnitz SoSe 2012 Seminar: Multivariate Analysemethoden 26.06.2012 Dozent: Dr. Thomas Schäfer Logistische Regression Ein Verfahren zum Schätzen von Wahrscheinlichkeiten Referentinnen: B. Sc. Psych.

Mehr

Multinomiale logistische Regression

Multinomiale logistische Regression Multinomiale logistische Regression Die multinomiale logistische Regression dient zur Schätzung von Gruppenzugehörigkeiten bzw. einer entsprechenden Wahrscheinlichkeit hierfür, wobei als abhänginge Variable

Mehr

Das Dialogfeld für die Regressionsanalyse ("Lineare Regression") findet sich im Statistik- Menu unter "Regression"-"Linear":

Das Dialogfeld für die Regressionsanalyse (Lineare Regression) findet sich im Statistik- Menu unter Regression-Linear: Lineare Regression Das Dialogfeld für die Regressionsanalyse ("Lineare Regression") findet sich im Statistik- Menu unter "Regression"-"Linear": Im einfachsten Fall werden mehrere Prädiktoren (oder nur

Mehr

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren)

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Multiple Regression 1 Was ist multiple lineare Regression? Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Annahme: Der Zusammenhang

Mehr

Korrelation - Regression. Berghold, IMI

Korrelation - Regression. Berghold, IMI Korrelation - Regression Zusammenhang zwischen Variablen Bivariate Datenanalyse - Zusammenhang zwischen 2 stetigen Variablen Korrelation Einfaches lineares Regressionsmodell 1. Schritt: Erstellung eines

Mehr

Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall )

Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall ) Zusammenhänge von Variablen Regressionsanalysen linearer Zusammenhang ( Idealfall ) kein Zusammenhang nichtlinearer monotoner Zusammenhang (i.d.regel berechenbar über Variablentransformationen mittels

Mehr

Multivariate Analyseverfahren

Multivariate Analyseverfahren Multivariate Analyseverfahren Logistische Regression Prof. Dr. Stein 14.01.2014 & 20.01.2014 1 / 62 Inhaltsverzeichnis 1 Grundidee 2 3 4 5 2 / 62 Der Erklärungsgegenstand Soziale Forschungsgegenstände

Mehr

Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression

Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression Speziell im Zusammenhang mit der Ablehnung der Globalhypothese werden bei einer linearen Einfachregression weitere Fragestellungen

Mehr

Logistische Regression und

Logistische Regression und Logistische Regression und Diskriminanzanalyse Seminar: multivariate Verfahren Seminarleiter: Dr. Thomas Schäfer Referenten: Nicole Jungbauer, Stephan Klewe, Daniela Kämpfer Gliederung 1) Logistische Regression

Mehr

Analyse von Querschnittsdaten. Regression mit Dummy-Variablen

Analyse von Querschnittsdaten. Regression mit Dummy-Variablen Analyse von Querschnittsdaten Regression mit Dummy-Variablen Warum geht es in den folgenden Sitzungen? Datum Vorlesung 9.0.05 Einführung 26.0.05 Beispiele 02..05 Forschungsdesigns & Datenstrukturen 09..05

Mehr

Institut für Soziologie Dipl.-Soz. Benjamin Gedon. Methoden 2. Logistische Regression I

Institut für Soziologie Dipl.-Soz. Benjamin Gedon. Methoden 2. Logistische Regression I Institut für Soziologie Dipl.-Soz. Methoden 2 Logistische Regression I Programm Ergänzung zu letzter Sitzung: Interpretation nichtlinearer Effekte Anwendungsbereich der logistischen Regression Entwicklung

Mehr

Institut für Soziologie. Methoden 2. Regressionsanalyse I: Einfache lineare Regression

Institut für Soziologie. Methoden 2. Regressionsanalyse I: Einfache lineare Regression Institut für Soziologie Methoden 2 Regressionsanalyse I: Einfache lineare Regression Programm Anwendungsbereich Vorgehensweise Interpretation Annahmen Zusammenfassung Übungsaufgabe Literatur # 2 Anwendungsbereich

Mehr

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1 LÖSUNG 9B a) Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1 Man kann erwarten, dass der Absatz mit steigendem Preis abnimmt, mit höherer Anzahl der Außendienstmitarbeiter sowie mit erhöhten

Mehr

Notiz zur logistischen Regression

Notiz zur logistischen Regression Kapitel 1 Notiz zur logistischen Regression 1.1 Grundlagen Bei dichotomen abhängigen Variablen ergeben sich bei einer normalen linearen Regression Probleme. Während man die Ausprägungen einer dichotomen

Mehr

Logistische Regression (in SPSS)

Logistische Regression (in SPSS) Fakultät für Humanwissenschaften Sozialwissenschaftliche Methodenlehre Prof. Dr. Daniel Lois Logistische Regression (in SPSS) Stand: April 2015 (V2.0) Inhaltsverzeichnis 1. Grundlagen 3 2. Logit-Funktion

Mehr

Christian FG Schendera. Regressionsanalyse. mit SPSS. 2. korrigierte und aktualisierte Auflage DE GRUYTER OLDENBOURG

Christian FG Schendera. Regressionsanalyse. mit SPSS. 2. korrigierte und aktualisierte Auflage DE GRUYTER OLDENBOURG Christian FG Schendera Regressionsanalyse mit SPSS 2. korrigierte und aktualisierte Auflage DE GRUYTER OLDENBOURG Inhalt Vorworte V 1 Korrelation 1 1.1 Einführung 1 1.2 Erste Voraussetzung: Das Skalenniveau

Mehr

Kapitel 4: Binäre Regression

Kapitel 4: Binäre Regression Kapitel 4: Binäre Regression Steffen Unkel (basierend auf Folien von Nora Fenske) Statistik III für Nebenfachstudierende WS 2013/2014 4.1 Motivation Ausgangssituation Gegeben sind Daten (y i, x i1,...,

Mehr

ε heteroskedastisch BINARY CHOICE MODELS Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS?

ε heteroskedastisch BINARY CHOICE MODELS Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS? BINARY CHOICE MODELS 1 mit Pr( Y = 1) = P Y = 0 mit Pr( Y = 0) = 1 P Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS? Y i = X i β + ε i Probleme: Nonsense Predictions

Mehr

Kategoriale abhängige Variablen: Logit- und Probit -Modelle. Statistik II

Kategoriale abhängige Variablen: Logit- und Probit -Modelle. Statistik II Kategoriale abhängige Variablen: Logit- und Probit -Modelle Statistik II Wiederholung Literatur Annahmen und Annahmeverletzungen Funktionen Exponenten, Wurzeln usw. Das Problem Das binäre Logit-Modell

Mehr

Binäre logistische Regressionsanalyse

Binäre logistische Regressionsanalyse Binäre logistische Regressionsanalyse Eine Einführung für Sozialwissenschaftler mit SPSS für Windows Sabine Fromm Bamberger Beiträge zur empirischen Sozialforschung Nr. 11, 2005 Herausgeber: Gerhard Schulze

Mehr

Univariate Lineare Regression. (eine unabhängige Variable)

Univariate Lineare Regression. (eine unabhängige Variable) Univariate Lineare Regression (eine unabhängige Variable) Lineare Regression y=a+bx Präzise lineare Beziehung a.. Intercept b..anstieg y..abhängige Variable x..unabhängige Variable Lineare Regression y=a+bx+e

Mehr

Institut für Soziologie Benjamin Gedon. Methoden 2. Regressionsanalyse IV: Transformation und Interaktion

Institut für Soziologie Benjamin Gedon. Methoden 2. Regressionsanalyse IV: Transformation und Interaktion Institut für Soziologie Methoden 2 Regressionsanalyse IV: Transformation und Interaktion Inhalt 1. Zusammenfassung letzte Sitzung 2. Weitere Annahmen und Diagnostik 3. Transformationen zur besseren Interpretierbarkeit

Mehr

1 Statistische Grundlagen

1 Statistische Grundlagen Konzepte in Empirische Ökonomie 1 (Winter) Hier findest Du ein paar Tipps zu den Konzepten in Empirische 1. Wenn Du aber noch etwas Unterstützung kurz vor der Klausur brauchst, schreib uns eine kurze Email.

Mehr

METHODENLEHRE I WS 2013/14 THOMAS SCHÄFER

METHODENLEHRE I WS 2013/14 THOMAS SCHÄFER METHODENLEHRE I WS 2013/14 THOMAS SCHÄFER DAS THEMA: INFERENZSTATISTIK IV INFERENZSTATISTISCHE AUSSAGEN FÜR ZUSAMMENHÄNGE UND UNTERSCHIEDE Inferenzstatistik für Zusammenhänge Inferenzstatistik für Unterschiede

Mehr

Kapitel 9: Verfahren für Nominaldaten

Kapitel 9: Verfahren für Nominaldaten Kapitel 9: Verfahren für Nominaldaten Eindimensionaler Chi²-Test Der eindimensionale χ²-test wird dann herangezogen, wenn die Versuchspersonen einer Population anhand eines Merkmals mit zwei oder mehr

Mehr

Name (in Druckbuchstaben): Matrikelnummer: Unterschrift:

Name (in Druckbuchstaben): Matrikelnummer: Unterschrift: 20-minütige Klausur zur Vorlesung Lineare Modelle im Sommersemester 20 PD Dr. Christian Heumann Ludwig-Maximilians-Universität München, Institut für Statistik 2. Oktober 20, 4:5 6:5 Uhr Überprüfen Sie

Mehr

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft Prof. Dr. Helmut Küchenhoff SS08 90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft am 22.7.2008 Anmerkungen Überprüfen Sie bitte sofort, ob Ihre Angabe vollständig ist. Sie sollte

Mehr

Diskriminanzanalyse Beispiel

Diskriminanzanalyse Beispiel Diskriminanzanalyse Ziel bei der Diskriminanzanalyse ist die Analyse von Gruppenunterschieden, d. h. der Untersuchung von zwei oder mehr Gruppen hinsichtlich einer Vielzahl von Variablen. Diese Methode

Mehr

Koeffizienten der Logitanalyse. Kurt Holm. Almo Statistik-System www.almo-statistik.de holm@almo-statistik.de kurt.holm@jku.at

Koeffizienten der Logitanalyse. Kurt Holm. Almo Statistik-System www.almo-statistik.de holm@almo-statistik.de kurt.holm@jku.at Koeffizienten der Logitanalyse Kurt Holm Almo Statistik-System www.almo-statistik.de holm@almo-statistik.de kurt.holm@jku.at 1 Kurt Holm Koeffizienten der Logitanalyse Eine häufig gestellte Frage lautet:

Mehr

Statistische Modellierung Merkblatt

Statistische Modellierung Merkblatt Inhaltsverzeichnis Statistische Modellierung Merkblatt Welches Modell nimmt man wann?... 1 Logit:... 2 Probit:... 2 Poisson:...2 Loglinear:... 2 multinomiales Logit:... 2 Ordinales Logit (PROC LOGISTIC

Mehr

29. Mai 2006. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt.

29. Mai 2006. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt. L. Fahrmeir, C. Belitz Department für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit Wahlfach Statistik 29. Mai 2006 Hinweise:

Mehr

Tabelle 6a: Deskriptive Statistiken der metrischen Variablen

Tabelle 6a: Deskriptive Statistiken der metrischen Variablen Ergebnisse 77 5 Ergebnisse Das folgende Kapitel widmet sich der statistischen Auswertung der Daten zur Ü- berprüfung der Hypothesen. Die hier verwendeten Daten wurden mit den in 4.3 beschriebenen Instrumenten

Mehr

Die binäre Logistische Regression ein vielseitiges und robustes Analyseinstrument sozialwissenschaftlicher Forschung

Die binäre Logistische Regression ein vielseitiges und robustes Analyseinstrument sozialwissenschaftlicher Forschung Die binäre Logistische Regression ein vielseitiges und robustes Analyseinstrument sozialwissenschaftlicher Forschung Eine Einführung für Anwender - Marcel Erlinghagen - Gelsenkirchen, Oktober 2003 Gliederung

Mehr

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik Ludwig Fahrmeir, Nora Fenske Institut für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik 29. März 21 Hinweise:

Mehr

Kapitel 3: Interpretationen

Kapitel 3: Interpretationen Kapitel 3: 1. Interpretation von Outputs allgemein... 1 2. Interpretation von Signifikanzen... 1 2.1. Signifikanztests / Punktschätzer... 1 2.2. Konfidenzintervalle... 2 3. Interpretation von Parametern...

Mehr

Master of Science in Pflege

Master of Science in Pflege Master of Science in Pflege Modul: Statistik Einfache und multiple Regressionsanalyse / Logistische Regressionsanalyse November 2012 Prof. Dr. Jürg Schwarz Folie 2 Programm 28. November 2012: Vormittag

Mehr

Allgemeines Lineares Modell: Univariate Varianzanalyse und Kovarianzanalyse

Allgemeines Lineares Modell: Univariate Varianzanalyse und Kovarianzanalyse Allgemeines Lineares Modell: Univariate Varianzanalyse und Kovarianzanalyse Univariate Varianz- und Kovarianzanlyse, Multivariate Varianzanalyse und Varianzanalyse mit Messwiederholung finden sich unter

Mehr

Inhaltsverzeichnis. Regressionsanalyse. http://mesosworld.ch - Stand vom: 20.1.2010 1

Inhaltsverzeichnis. Regressionsanalyse. http://mesosworld.ch - Stand vom: 20.1.2010 1 Inhaltsverzeichnis Regressionsanalyse... 2 Lernhinweise... 2 Einführung... 2 Theorie (1-8)... 2 1. Allgemeine Beziehungen... 3 2. 'Best Fit'... 3 3. 'Ordinary Least Squares'... 4 4. Formel der Regressionskoeffizienten...

Mehr

Kategoriale abhängige Variablen:

Kategoriale abhängige Variablen: Kategoriale abhängige Variablen: Logit- und Probit -Modelle Statistik II Literatur Annahmen und Annahmeverletzungen Funktionen Exponenten, Wurzeln usw. Das Problem Das binäre Logit-Modell Statistik II

Mehr

Klausur Sommersemester 2010

Klausur Sommersemester 2010 Klausur Sommersemester 2010 Lehrstuhl: Wirtschaftspolitik Prüfungsfach: Empirische Wirtschaftsforschung Prüfer: Prof. Dr. K. Kraft Datum: 04.08.2010 Hilfsmittel: Nicht-programmierbarer Taschenrechner Klausurdauer:

Mehr

Quantitative Methoden der Bildungsforschung

Quantitative Methoden der Bildungsforschung Glieung Wieholung Korrelationen Grundlagen lineare Regression Lineare Regression in SPSS Übung Wieholung Korrelationen Standardisiertes Zusammenhangsmaß (unstandardisiert: Kovarianz) linearer Zusammenhang

Mehr

Analyse von Tabellen und kategorialen Daten

Analyse von Tabellen und kategorialen Daten Hans-Jürgen Andreß Jacques A. Hagenaars Steffen Kühnel Analyse von Tabellen und kategorialen Daten Log-lineare Modelle, latente Klassenanalyse, logistische Regression und GSK-Ansatz Mit 32 Abbildungen

Mehr

IBM SPSS Regression 22

IBM SPSS Regression 22 IBM SPSS Regression 22 Hinweis Vor Verwendung dieser Informationen und des darin beschriebenen Produkts sollten die Informationen unter Bemerkungen auf Seite 33 gelesen werden. Produktinformation Diese

Mehr

2. Korrelation, lineare Regression und multiple Regression

2. Korrelation, lineare Regression und multiple Regression multiple 2.2 Lineare 2.2 Lineare 1 / 130 2.2 Lineare 2 / 130 2.1 Beispiel: Arbeitsmotivation Untersuchung zur Motivation am Arbeitsplatz in einem Chemie-Konzern 25 Personen werden durch Arbeitsplatz zufällig

Mehr

Übungsserie Nr. 10 mit Lösungen

Übungsserie Nr. 10 mit Lösungen Übungsserie Nr. 10 mit Lösungen 1 Ein Untersuchungsdesign sieht einen multivariaten Vergleich einer Stichprobe von Frauen mit einer Stichprobe von Männern hinsichtlich der Merkmale X1, X2 und X3 vor (Codierung:

Mehr

9. Schätzen und Testen bei unbekannter Varianz

9. Schätzen und Testen bei unbekannter Varianz 9. Schätzen und Testen bei unbekannter Varianz Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Schätzen und Testen bei unbekannter Varianz Wenn wir die Standardabweichung σ nicht kennen,

Mehr

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. Excel Edition. ^ Springer Spektrum

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. Excel Edition. ^ Springer Spektrum Franz Kronthaler Statistik angewandt Datenanalyse ist (k)eine Kunst Excel Edition ^ Springer Spektrum Inhaltsverzeichnis Teil I Basiswissen und Werkzeuge, um Statistik anzuwenden 1 Statistik ist Spaß 3

Mehr

Teil II: Einführung in die Statistik

Teil II: Einführung in die Statistik Teil II: Einführung in die Statistik (50 Punkte) Bitte beantworten Sie ALLE Fragen. Es handelt sich um multiple choice Fragen. Sie müssen die exakte Antwortmöglichkeit angeben, um die volle Punktzahl zu

Mehr

Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel

Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel 16.11.01 MP1 - Grundlagen quantitativer Sozialforschung - (4) Datenanalyse 1 Gliederung Datenanalyse (inferenzstatistisch)

Mehr

Logistische Regression

Logistische Regression Grundideen Logistische Regression Exkurs Logistische Regression Auch nachzulesen bei: http://www.psychologie.uniwuerzburg.de/methoden/lehre/skripten/hs_meth_evaluation/hs_evaluation_logistisch eregression.pdf

Mehr

Studiendesign/ Evaluierungsdesign

Studiendesign/ Evaluierungsdesign Jennifer Ziegert Studiendesign/ Evaluierungsdesign Praxisprojekt: Nutzerorientierte Evaluierung von Visualisierungen in Daffodil mittels Eyetracker Warum Studien /Evaluierungsdesign Das Design einer Untersuchung

Mehr

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten.

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten. Statistik für Kommunikationswissenschaftler Wintersemester 2009/200 Vorlesung Prof. Dr. Helmut Küchenhoff Übung Cornelia Oberhauser, Monia Mahling, Juliane Manitz Thema 4 Homepage zur Veranstaltung: http://www.statistik.lmu.de/~helmut/kw09.html

Mehr

6. METRISCHE UND KATEGORIALE MERKMALE

6. METRISCHE UND KATEGORIALE MERKMALE 6. METRISCHE UND KATEGORIALE MERKMALE wenn an einer Beobachtungseinheit eine (oder mehrere) metrische und eine (oder mehrere) kategoriale Variable(n) erhoben wurden Beispiel: Haushaltsarbeit von Teenagern

Mehr

SPSS Regression Models 12.0

SPSS Regression Models 12.0 SPSS Regression Models 12.0 Weitere Informationen zu SPSS -Software-Produkten finden Sie auf unserer Website unter der Adresse http://www.spss.com, oder wenden Sie sich an SPSS GmbH Software Rosenheimer

Mehr

Binäre abhängige Variablen

Binäre abhängige Variablen Binäre abhängige Variablen Thushyanthan Baskaran thushyanthan.baskaran@awi.uni-heidelberg.de Alfred Weber Institut Ruprecht Karls Universität Heidelberg Einführung Oft wollen wir qualitative Variablen

Mehr

Bachelorprüfung. Praxis der empirischen Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Name, Vorname. Matrikelnr. E-Mail. Studiengang.

Bachelorprüfung. Praxis der empirischen Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Name, Vorname. Matrikelnr. E-Mail. Studiengang. Lehrstuhl für Statistik und empirische Wirtschaftsforschung Fach: Prüfer: Bachelorprüfung Praxis der empirischen Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Name, Vorname Matrikelnr. E-Mail Studiengang

Mehr

Modul G.1 WS 07/08: Statistik 17.01.2008 1. Die Korrelation ist ein standardisiertes Maß für den linearen Zusammenhangzwischen zwei Variablen.

Modul G.1 WS 07/08: Statistik 17.01.2008 1. Die Korrelation ist ein standardisiertes Maß für den linearen Zusammenhangzwischen zwei Variablen. Modul G.1 WS 07/08: Statistik 17.01.2008 1 Wiederholung Kovarianz und Korrelation Kovarianz = Maß für den linearen Zusammenhang zwischen zwei Variablen x und y Korrelation Die Korrelation ist ein standardisiertes

Mehr

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 1 Einführung in die statistische Datenanalyse Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 2 Gliederung 1.Grundlagen 2.Nicht-parametrische Tests a. Mann-Whitney-Wilcoxon-U Test b. Wilcoxon-Signed-Rank

Mehr

Unterlagen zu Fisher s Exact Test, Vergleich von Anteilswerten und logistischer Regression. Robin Ristl. Wintersemester 2012/13

Unterlagen zu Fisher s Exact Test, Vergleich von Anteilswerten und logistischer Regression. Robin Ristl. Wintersemester 2012/13 Unterlagen zu Fisher s Exact Test, Vergleich von Anteilswerten und logistischer Regression Robin Ristl Wintersemester 2012/13 1 Exakter Test nach Fisher Alternative zum Chi-Quadrat Unabhängigkeitstest

Mehr

Einführung in die Logistische Regression. Fortbildung zur 19.Informationstagung Tumordokumentation

Einführung in die Logistische Regression. Fortbildung zur 19.Informationstagung Tumordokumentation Einführung in die Logistische Regression Fortbildung zur 9.Informationstagung Tumordokumentation Bernd Schicke, Tumorzentrum Berlin FB Bayreuth, 29.März 20 Gliederung Einleitung Schätzen von Maßzahlen

Mehr

Business Value Launch 2006

Business Value Launch 2006 Quantitative Methoden Inferenzstatistik alea iacta est 11.04.2008 Prof. Dr. Walter Hussy und David Tobinski UDE.EDUcation College im Rahmen des dokforums Universität Duisburg-Essen Inferenzstatistik Erläuterung

Mehr

Analytische Statistik I. Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2009/10

Analytische Statistik I. Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2009/10 Analytische Statistik I Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2009/10 Testen Anpassungstests (goodness of fit) Weicht eine gegebene Verteilung signifikant von einer bekannten

Mehr

Kontingenzkoeffizient (nach Pearson)

Kontingenzkoeffizient (nach Pearson) Assoziationsmaß für zwei nominale Merkmale misst die Unabhängigkeit zweier Merkmale gibt keine Richtung eines Zusammenhanges an 46 o jl beobachtete Häufigkeiten der Kombination von Merkmalsausprägungen

Mehr

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester Statistik mit SPSS

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester Statistik mit SPSS Sommersemester 2009 Statistik mit SPSS 15. Mai 2009 15. Mai 2009 Statistik Dozentin: mit Esther SPSSOchoa Fernández 1 Überblick 1. Korrelation vs. Regression 2. Ziele der Regressionsanalyse 3. Syntax für

Mehr

2.Tutorium Generalisierte Regression

2.Tutorium Generalisierte Regression 2.Tutorium Generalisierte Regression - Binäre Regression - Moritz Berger: 04.11.2013 und 11.11.2013 Shuai Shao: 06.11.2013 und 13.11.2013 Institut für Statistik, LMU München 1 / 16 Gliederung 1 Erweiterte

Mehr

PROC LOGISTIC: Warum sind die Koeffizienten nicht mit den Odds Ratios konsistent?

PROC LOGISTIC: Warum sind die Koeffizienten nicht mit den Odds Ratios konsistent? Anwendungen PROC LOGISTIC: Warum sind die Koeffizienten nicht mit den Odds Ratios konsistent? Ulrike Braisch, Rainer Muche Institut für Epidemiologie und Medizinische Biometrie Universität Ulm Schwabstraße

Mehr

5. Schließende Statistik. 5.1. Einführung

5. Schließende Statistik. 5.1. Einführung 5. Schließende Statistik 5.1. Einführung Sollen auf der Basis von empirischen Untersuchungen (Daten) Erkenntnisse gewonnen und Entscheidungen gefällt werden, sind die Methoden der Statistik einzusetzen.

Mehr

6.2 Regressionsanalyse

6.2 Regressionsanalyse c-kennzahlensystem (ROCI) 6. Regressionsanalyse Die Regressionsanalyse zählt zu den wichtigsten Analysemethoden des Kommunikationscontrollings und hat ihre tiefen Wurzeln in der Statistik. Im Rahmen des

Mehr

Multivariate Statistik

Multivariate Statistik Hermann Singer Multivariate Statistik 1 Auflage 15 Oktober 2012 Seite: 12 KAPITEL 1 FALLSTUDIEN Abbildung 12: Logistische Regression: Geschätzte Wahrscheinlichkeit für schlechte und gute Kredite (rot/blau)

Mehr

DOE am Beispiel Laserpointer

DOE am Beispiel Laserpointer DOE am Beispiel Laserpointer Swen Günther Ein wesentliches Ziel im Rahmen der Neuproduktentwicklung ist die aus Kundesicht bestmögliche, d.h. nutzenmaximale Konzeption des Produktes zu bestimmen (vgl.

Mehr

SPSS Regression Models 16.0

SPSS Regression Models 16.0 i SPSS Regression Models 16.0 Weitere Informationen zu SPSS -Software-Produkten finden Sie auf unserer Website unter der Adresse http://www.spss.com oder wenden Sie sich an SPSS Inc. 233 South Wacker Drive,

Mehr

Evaluation der Normalverteilungsannahme

Evaluation der Normalverteilungsannahme Evaluation der Normalverteilungsannahme. Überprüfung der Normalverteilungsannahme im SPSS P. Wilhelm; HS SPSS bietet verschiedene Möglichkeiten, um Verteilungsannahmen zu überprüfen. Angefordert werden

Mehr

Nichtparametrische statistische Verfahren

Nichtparametrische statistische Verfahren Nichtparametrische statistische Verfahren (im Wesentlichen Analyse von Abhängigkeiten) Kategorien von nichtparametrischen Methoden Beispiel für Rangsummentests: Wilcoxon-Test / U-Test Varianzanalysen 1-faktorielle

Mehr

Statistik Einführung // Lineare Regression 9 p.2/72

Statistik Einführung // Lineare Regression 9 p.2/72 Statistik Einführung Lineare Regression Kapitel 9 Statistik WU Wien Gerhard Derflinger Michael Hauser Jörg Lenneis Josef Ledold Günter Tirler Rosmarie Wakolbinger Statistik Einführung // Lineare Regression

Mehr

8. Februar 2007. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt.

8. Februar 2007. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt. L. Fahrmeir, C. Belitz Department für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit Wahlfach Statistik 8. Februar 2007 Hinweise:

Mehr

Prüfung eines Datenbestandes

Prüfung eines Datenbestandes Prüfung eines Datenbestandes auf Abweichungen einzelner Zahlen vom erwarteten mathematisch-statistischen Verhalten, die nicht mit einem Zufall erklärbar sind (Prüfung auf Manipulationen des Datenbestandes)

Mehr

Varianzanalyse (ANOVA: analysis of variance)

Varianzanalyse (ANOVA: analysis of variance) Varianzanalyse (AOVA: analysis of variance) Einfaktorielle VA Auf der Basis von zwei Stichproben wird bezüglich der Gleichheit der Mittelwerte getestet. Variablen müssen Variablen nur nominalskaliert sein.

Mehr

Varianzanalyse ANOVA

Varianzanalyse ANOVA Varianzanalyse ANOVA Johannes Hain Lehrstuhl für Mathematik VIII Statistik 1/23 Einfaktorielle Varianzanalyse (ANOVA) Bisher war man lediglich in der Lage, mit dem t-test einen Mittelwertsvergleich für

Mehr

Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt!

Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt! Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt! 1 Einführung 2 Wahrscheinlichkeiten kurz gefasst 3 Zufallsvariablen und Verteilungen 4 Theoretische Verteilungen (Wahrscheinlichkeitsfunktion)

Mehr

SISS: Schriftenreihe des Instituts für Sozialwissenschaften der Universität Stuttgart. No. 3 / 2010

SISS: Schriftenreihe des Instituts für Sozialwissenschaften der Universität Stuttgart. No. 3 / 2010 SISS: Schriftenreihe des Instituts für Sozialwissenschaften der Universität Stuttgart No. 3 / 2010 Binär-logistische Regressionsanalyse. Grundlagen und Anwendung für Sozialwissenschaftler Jochen Mayerl

Mehr

Willkommen zur Vorlesung Statistik

Willkommen zur Vorlesung Statistik Willkommen zur Vorlesung Statistik Thema dieser Vorlesung: Varianzanalyse Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften Prof. Dr. Wolfgang

Mehr

Kommentierter SPSS-Output für die multiple Regressionsanalyse (SPSS-Version 17)

Kommentierter SPSS-Output für die multiple Regressionsanalyse (SPSS-Version 17) R.Niketta Multiple Regressionsanalyse Kommentierter SPSS-Output für die multiple Regressionsanalyse (SPSS-Version 17) Daten: Selbstdarstellung und Kontaktsuche in studi.vz (POK VIII, AG 3) Fragestellung:

Mehr

Bivariater Zusammenhang in der Mehrfeldertafel PEΣO

Bivariater Zusammenhang in der Mehrfeldertafel PEΣO Bivariater Zusammenhang in der Mehrfeldertafel PEΣO 9. November 2001 Bivariate Häufigkeitsverteilungen in Mehrfeldertabellen In der Mehrfeldertabelle werden im Gegensatz zur Vierfeldertabelle keine dichotomen

Mehr

14.01.14 DAS THEMA: INFERENZSTATISTIK II. Standardfehler Konfidenzintervalle Signifikanztests. Standardfehler

14.01.14 DAS THEMA: INFERENZSTATISTIK II. Standardfehler Konfidenzintervalle Signifikanztests. Standardfehler DAS THEMA: INFERENZSTATISTIK II INFERENZSTATISTISCHE AUSSAGEN Standardfehler Konfidenzintervalle Signifikanztests Standardfehler der Standardfehler Interpretation Verwendung 1 ZUR WIEDERHOLUNG... Ausgangspunkt:

Mehr

Kapitel 9: Verfahren für Nominaldaten

Kapitel 9: Verfahren für Nominaldaten Kapitel 9: Verfahren für Nominaldaten Eindimensionaler Chi²-Test 1 Der zweidimensionale Chi²-Test 4 Eindimensionaler Chi²-Test Der eindimensionale χ²-test wird dann herangezogen, wenn die Versuchspersonen

Mehr

i PASW Regression 18

i PASW Regression 18 i PASW Regression 18 Weitere Informationen zu SPSS Inc.-Software-Produkten finden Sie auf unserer Website unter der Adresse http://www.spss.com oder wenden Sie sich an SPSS Inc. 233 South Wacker Drive,

Mehr

Schätzen und Testen von Populationsparametern im linearen Regressionsmodell PE ΣO

Schätzen und Testen von Populationsparametern im linearen Regressionsmodell PE ΣO Schätzen und Testen von Populationsparametern im linearen Regressionsmodell PE ΣO 4. Dezember 2001 Generalisierung der aus Stichprobendaten berechneten Regressionsgeraden Voraussetzungen für die Generalisierung

Mehr

Einleitung 19. Teil I Datenanalyse und Modellbildung Grundlagen 25

Einleitung 19. Teil I Datenanalyse und Modellbildung Grundlagen 25 Inhaltsverzeichnis Einleitung 19 Zu diesem Buch 19 Konventionen in diesem Buch 20 Was Sie nicht lesen müssen 21 Falsche Voraussetzungen 21 Wie dieses Buch aufgebaut ist 21 Teil I: Datenanalyse und Grundlagen

Mehr

Eine computergestützte Einführung mit

Eine computergestützte Einführung mit Thomas Cleff Deskriptive Statistik und Explorative Datenanalyse Eine computergestützte Einführung mit Excel, SPSS und STATA 3., überarbeitete und erweiterte Auflage ^ Springer Inhaltsverzeichnis 1 Statistik

Mehr

Häufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln

Häufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln Häufigkeitstabellen Menüpunkt Data PivotTable Report (bzw. entsprechendes Icon): wähle Data Range (Zellen, die die Daten enthalten + Zelle mit Variablenname) wähle kategoriale Variable für Spalten- oder

Mehr

Es können keine oder mehrere Antworten richtig sein. Eine Frage ist NUR dann richtig beantwortet, wenn ALLE richtigen Antworten angekreuzt wurden.

Es können keine oder mehrere Antworten richtig sein. Eine Frage ist NUR dann richtig beantwortet, wenn ALLE richtigen Antworten angekreuzt wurden. Teil III: Statistik Alle Fragen sind zu beantworten. Es können keine oder mehrere Antworten richtig sein. Eine Frage ist NUR dann richtig beantwortet, wenn ALLE richtigen Antworten angekreuzt wurden. Wird

Mehr

Standardab er des. Testwert = 145.5 95% Konfidenzintervall. T df Sig. (2-seitig) Differenz Untere Obere -2.011 698.045-5.82-11.50 -.14.

Standardab er des. Testwert = 145.5 95% Konfidenzintervall. T df Sig. (2-seitig) Differenz Untere Obere -2.011 698.045-5.82-11.50 -.14. Aufgabe : einfacher T-Test Statistik bei einer Stichprobe Standardfehl Standardab er des Mittelwert weichung Mittelwertes 699 39.68 76.59 2.894 Test bei einer Sichprobe Testwert = 45.5 95% Konfidenzintervall

Mehr

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50,7 50 51,5 51,7 48,8

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50,7 50 51,5 51,7 48,8 1. Aufgabe: Eine Reifenfirma hat für Winterreifen unterschiedliche Profile entwickelt. Bei jeweils gleicher Geschwindigkeit und auch sonst gleichen Bedingungen wurden die Bremswirkungen gemessen. Die gemessenen

Mehr

Willkommen zur Vorlesung Statistik (Master)

Willkommen zur Vorlesung Statistik (Master) Willkommen zur Vorlesung Statistik (Master) Thema dieser Vorlesung: Verteilungsfreie Verfahren Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften

Mehr

Theoretische Grundlagen der Informatik WS 09/10

Theoretische Grundlagen der Informatik WS 09/10 Theoretische Grundlagen der Informatik WS 09/10 - Tutorium 6 - Michael Kirsten und Kai Wallisch Sitzung 13 02.02.2010 Inhaltsverzeichnis 1 Formeln zur Berechnung Aufgabe 1 2 Hamming-Distanz Aufgabe 2 3

Mehr

Commercial Banking Übung 1 Kreditscoring

Commercial Banking Übung 1 Kreditscoring Commercial Banking Übung Kreditscoring Dr. Peter Raupach raupach@wiwi.uni-frankfurt.de Sprechzeit Dienstag 6-7:00 Uhr Raum 603 B Kreditscoring Gliederung Grundanliegen Das Sample Modellspezifikation Diskriminanzanalyse

Mehr

Log-lineare Analyse I

Log-lineare Analyse I 1 Log-lineare Analyse I Einleitung Die log-lineare Analysemethode wurde von L.A. Goodman in den 60er und 70er Jahren entwickelt. Sie dient zur Analyse von Zusammenhängen in mehrdimensionalen Kontingenztafeln

Mehr