Kategorielle Zielgrössen
|
|
- Jörg Bieber
- vor 6 Jahren
- Abrufe
Transkript
1 Kategorielle Zielgrössen
2 Motivation Bisher gesehen: Regressionsmodelle für diverse Arten von Zielgrössen Y. kontinuierliche Zielgrösse Lineare Regression Binäre/binomiale Zielgrösse Logistische Regression Anzahldaten Poisson Regression Heute: Kategorielle Zielgrössen (Faktoren) mit mehr als zwei Kategorien. Nominale Zielgrösse Multinomiale Regression Ordinale Zielgrösse Ordinale Regression
3 Nominale Zielgrössen
4 Beispiel: Umwelt-Umfrage 1. Wer trägt die Hauptverantwortung für den Umweltschutz? der Einzelne [1] der Staat [2] beide zusammen [3] 2. Wie stark fühlen Sie sich durch Umweltschadstoffe beeinträchtigt? überhaupt nicht [1] etwas [2] ziemlich [3] sehr stark [4] 3. Welches ist Ihr höchster Abschluss? Volks-, Hauptschulabschluss ohne Lehre [1] Lehrabschluss [2] Weiterbildende Schule ohne Abitur [3] Abitur, Hochschulreife, Fachhochschulreife [4] Studium (Universität, Akademie, Fachhochschule) [5] Zielgrösse Y (nominal)
5 Beispiel: Umweltumfrage Nominale Zielgrösse Y Hauptverantwortung für Umweltschutz (Einzelner, Staat, beide) Erklärende Variablen Frage Beeinträchtigung (überhaupt nicht, etwas, ziemlich, sehr) Schulbildung Alter Geschlecht (ungelernt, Lehre, ohne Abitur, Abitur, Studium) (weiblich, männlich) Wie können wir die Wahrscheinlichkeiten der Kategorien der nominalen Zielgrösse «Hauptverantwortung für Umweltschutz» modellieren als Funktion der erklärenden Variablen?
6 Modell: Multinomiale Regression Gegeben Zielgrösse Y mit K + 1 Kategorien Wir nummerieren die Kategorien der Zielgrösse Y mit k = 0,1,2,, K. ( für K = 1: logistische Regression) Achtung: Die Zielgrösse ist nominal, die Zahlen bedeuten keine Ordnung. Wir fixieren nun eine Referenzklasse, z.b. Kategorie 0. Erklärende Grössen x (1),, x (m). Grundidee Für jede Kategorie k = 1,, K modellieren wir die W keit, in Kategorie k zu fallen im Vergleich zur W keit, in die Referenzkategorie zu fallen.
7 Modell: Multinomiale Regression Wir wählen ein multinomiales Logit-Modell. Für jede Kategorie k = 1,2,, K (und Referenzkategorie k = 0): log P Y i = k x i = log π k i P Y i = 0 x i π i 0 m = η k i = β k 0 + β k j j x i j=1 Zusätzlich sollten sich die W keiten jeweils zu 1 addieren: σk k=0 π k i = 1. Bemerkungen Wie bei der logistischen Regression modellieren wir die logarithmierten Wettverhältnisse (log odds). Hier haben wir mehrere davon. Wir vergleichen jede der Kategorien k = 1,2,, K mit der Referenzklasse k = 0.
8 Modell: Multinomiale Regression Multinomiales Logit-Modell: Für k = 1,2,, K, log P Y i = k x i = log π k i P Y i = 0 x i π i 0 m = η k i = β k 0 + β k j x j i. j=1 Man kann zeigen, dass wir eigentlich die W keiten modellieren als: π i k = exp η i k 1 + σ K l=1 exp η i l, k 1. π i 0 K = 1 k=1 π i k Das Modell liefert uns die W keiten, in die einzelnen Klassen zu fallen, in Abhängigkeit der erklärenden Variablen ( Diskriminanzanalyse).
9 Interpretation der Parameter log P Y i = k x i = log π k i P Y i = 0 x i π i 0 m = η k i = β k 0 + β k j j x i j=1 Das Modell ist flexibel. Da wir für jede Kategorie k = 1,, K ein separates Modell ansetzten, haben wir eine grosse Anzahl an Parametern, nämlich K (m + 1) ( Parameter schlecht bestimmt bei kleinen Datensätzen). Für jede Kategorie k der Zielgrösse Y i erlaubt es eine eigene Form der Abhängigkeit der W keit π k i in diese Kategorie zu fallen von den erklärenden Variablen (separate Koeffizienten β k j für jede Kategorie k). Interpretation (wie bei der logistischen Regression): Für zunehmendes x (j) bedeutet ein positiver Koeffizient β k j eine steigende Neigung zur Kategorie k im Vergleich zur Referenzkategorie.
10 Eigenschaften Gruppierte Daten Fasst man die Beobachtungen mit gleichen Werten der Eingangsgrössen zusammen (cf. Vorlesung logistische Regression), dann folgen die Anzahlen einer multinomialen Verteilung mit den vorherigen W keiten. Wahl der Referenzklasse (k=0) Wir haben die Referenzklasse «willkürlich» als k=0 gewählt. Man kann zeigen, dass sich das Modell nicht ändert, wenn man die Referenzklasse ändert. Für eine andere Referenzklasse kann man die Parameter «eins zu eins» umrechnen (ähnlich wie bei Referenzlevel von Faktoren).
11 Beispiel: Umwelt-Umfrage R: Funktion multinom() im package nnet. «Einzelner» ist Referenzkategorie von Y «m» ist Referenzkategorie von Geschlecht Koeffizient von x (j) = Alter für die Kategorie k = Staat ist β k j = In 50 Jahren nehmen die log-odds von Staat:Einzelne um = ab.
12 Einfluss von erklärenden Grössen Ob eine erklärende Grösse einen Einfluss auf die Zielgrösse hat, sollte man nicht anhand der einzelnen Koeffizienten bestimmen (da ja K Koeffizienten null sein müssten, wenn kein Einfluss da ist). Es muss also ein grösseres Modell mit einem kleineren verglichen werden, dies geschieht wie üblich mit den log-likelihoods oder den Devianzen. R-Funktionen drop1() sieht für multinomiale Modelle keinen Test vor. Für den Vergleich von einem kleineren mit einem grösseren Modell oder für den Signifikanztest von Faktoren verwendet man die Funktion: anova(fit.small, fit, test=«chisq»)
13 Beispiel: Umwelt-Umfrage > fit.small <- update(fit, Hauptv ~. Schule) > anova(fit.small, fit, test = «Chisq») Das liefert folgendes Ergebnis:
14 Ordinale Zielgrösse
15 Beispiel: Umwelt-Umfrage 1. Wer trägt die Hauptverantwortung für den Umweltschutz? der Einzelne [1] der Staat [2] beide zusammen [3] 2. Wie stark fühlen Sie sich durch Umweltschadstoffe beeinträchtigt? überhaupt nicht [1] etwas [2] ziemlich [3] sehr stark [4] 3. Welches ist Ihr höchster Abschluss? Zielgrösse Y (ordinal) Volks-, Hauptschulabschluss ohne Lehre [1] Lehrabschluss [2] Weiterbildende Schule ohne Abitur [3] Abitur, Hochschulreife, Fachhochschulreife [4] Studium (Universität, Akademie, Fachhochschule) [5]
16 Beispiel: Umweltumfrage Ordinale Zielgrösse Y Beeinträchtigung (überhaupt nicht, etwas, ziemlich, sehr) Erklärende Variablen Hauptverantwortung für Umweltschutz (Einzelner, Staat, beide) Schulbildung (ungelernt, Lehre, ohne Abitur, Abitur, Studium) Alter Geschlecht (weiblich, männlich) Frage Wie können wir die Wahrscheinlichkeiten der Kategorien der ordinalen Zielgrösse «Beeinträchtigung» modellieren als Funktion der erklärenden Variablen?
17 Ordinale Regression Vorgehen bei ordinalen Zielgrössen: Das Modell geht von einer latenten kontinuierlichen Variable Z aus Beispiele: Menschen empfinden Schmerzen unter Umständen als sich kontinuierlich verändernd. Man kann das aber nicht direkt messen, sondern nur Kategorien erfragen (leicht, mittel, stark). Zugrundeliegende latente Variable: «Schmerzstärke» 5-Punkt Likert-Skala: trifft nicht zu, trifft eher nicht zu, teils-teils, trifft eher zu, trifft zu Zugrundeliegende latente Variable: «Grad der Zustimmung» Durch Klassierung von der kontinuierlichen Variable Z (mittels Schwellenwerten α k ) erhält man die verschiedenen Kategorien
18 Ordinale Regression Modell der latenten Variable Wir nehmen an, dass wir eine kontinuierliche latente Variable Z und Schwellenwerte α k haben, sodass gilt: Insgesamt haben wir K Schwellenwerte: α 1 < α 2 < < α K. Es gilt: P Y i k = P(Z i > α k )
19 Ordinale Regression Modell der latenten Variable Für die latente Variable Z nehmen wir ein gewöhnliches multiples lineares Regressionsmodell an: m (j) Z i = β 0 + β j x i + Ei = β 0 + x T i β + E i j=1 Mit einer bestimmten (noch zu wählenden) Verteilung für den Fehlerterm E i.
20 latente Variable Z Ordinale Regression Illustration: Modell der latenten Variable α 3 α 2 α 1 Schwellenwerte, sind unbekannt. Werden später zusammen mit Parametern geschätzt. Gesucht: W keit über Schwelle α k zu liegen: P Z i > α k X = P Y i k
21 Ordinale Regression Modell der latenten Variable Für die latente Variable Z nehmen wir ein gewöhnliches multiples lineares Regressionsmodell an: m (j) Z i = β 0 + β j x i + Ei = β 0 + x T i β + E i j=1 Mit einer bestimmten (noch zu wählenden) Verteilung für den Fehlerterm E i. Für die kumulierten Wahrscheinlichkeiten γ k P Y i k x i gilt: γ k P Y i k x i = P Z i > α k x i = P β 0 + x i T β + E i > α k = P E i > α k β 0 + x i T β = 1 P E i α k β 0 + x i T β = 1 F E α k β 0 + x i T β = F E x i T β α k β 0 Funktion von einem linearen Ausdruck in β
22 Ordinale Regression Identifikationsprobleme γ k P Y i k x i = P Z i > α k x i = F E x i T β α k β 0 1. Der Parameter β 0 ist unbestimmt. Wir können zu jedem Schwellenwert α k eine Konstante c hinzuzählen und diese von β 0 abziehen, ohne dass sich die Y i ändern. Setze β 0 = Die Streuung der latenten Variable ist nicht bestimmt. Wir können Z i und alle Schwellenwerte α k mit einer Konstanten multiplizieren, ohne Y i zu ändern. Nehme für die Verteilungsfunktion der Zufallsfehler an, dass die Varianz fix vorgegeben ist.
23 Ordinale Regression Link-Funktion und Verteilung des Fehlerterms Idee Verwende die Link-Funktion g = F 1 E um einen linearen Ausdruck zu erhalten: g γ k = g P Y i k x i = x i T β α k Abhängig von der Wahl der Verteilung der Zufallsfehler E i im Modell der latenten Variable ergibt sich jeweils ein anderes Regressionsmodell (z.b. für die Normalverteilung: Probitmodell, Extremwertvert.: Kompl. Log-log Modell). Wählen wir die logistische Verteilung, erhalten wir g γ k = logit γ k = log γ k 1 γ k = log P Y i k x i P Y i < k x i = x i T β α k Man spricht vom Modell der kumulativen Logits.
24 Ordinale Regression Was modellieren wir hier eigentlich? g γ k = logit γ k = log γ k 1 γ k = log P Y i k x i P Y i < k x i = x i T β α k Das sieht aus wie ein logistisches Regressionsproblem mit der binären Zielgrösse {Y i k} (ja oder nein). Für jedes Level k haben wir ein logistisches Regressionsmodell mit binärer Zielgrösse, die 1 ist, wenn Y i k, und sonst 0. Wichtig Die Modelle sind miteinander verknüpft, da die Parameter β j für alle Levels k die gleichen sind. Hinweis Nur die Schwellenwerte α k hängen von der Kategorie k ab. Sie sind unbekannt und müssen gleichzeitig mit den Hauptparametern β geschätzt werden.
25 Ordinale Regression Log odds Odds g γ k = logit γ k = log γ k 1 γ k = log P Y i k x i P Y i < k x i = x i T β α k odds Y i k x i = γ k 1 γ k = P Y i k x i P Y i < k x i = exp x i T β α k Kumulierte Wahrscheinlichkeiten via logistische Funktion γ k = P Y i k x i = exp x i T β α k 1 + exp x T i β α k Wahrscheinlichkeit für Kategorie k P Y i = k x i = P Y i k x i P Y i k + 1 x i = γ k γ k+1
26 Ordinale Regression Interpretation der Parameter odds Y i k x i = γ k 1 γ k = P Y i k x i P Y i <k x i = exp x i T β α k = exp α k exp β 1 x 1 exp{β m } x(m) Die Interpretation ist analog zur logistischen Regression. Erhöht man x j um eine Einheit, so ändern sich die odds, in die höhere Kategorie zu fallen, um den Faktor exp{β j }. Ein positives β j bedeutet also, dass man für steigende x j höhere Kategorien fällt. -Werte eher in
27 Ordinale Regression Interpretation anhand der Wettverhältnisse Mit Hilfe der log odds-ratios ausgedrückt erhalten wir log odds Y 1 k x 1 odds Y 2 k x 2 = β 1 x 1 1 x β m x 1 m x 2 m Der Einfluss der erklärenden Variablen auf die log odds-ratios beziehungsweise odds-ratios ist unabhängig von k (für alle k gleich)! Das heisst, die erklärenden Variablen wirken für alle «Unterteilungen» gleich. Man spricht daher auch vom proportional-odds Modell.
28 Ordinale Regression Vergleich mit multinomialer Regression g γ k = logit γ k = log γ k 1 γ k = log P Y i k x i P Y i < k x i = x i T β α k Verglichen mit dem multinomialen Regressionsmodell haben wir hier viel weniger Parameter zu schätzen, nämlich nur K + m statt K (m + 1), da die Parameter β für alle Kategorien k die gleichen sind. Zum Schätzen des ordinalen Regressionsmodells verwenden wir die R-Funktion polr() im package MASS.
29 Ordinale Regression R-Output von summary() von polr መβ α 1 α 3
30 Ordinale Regression Die Signifikanz von Faktoren kann hier wieder mittels der R-Funktion drop1 bestimmt werden. ergibt: Schulbildung und Ortsgrösse haben signifikanten Einfluss auf die Beeinträchtigung
31 Merkpunkte Multinomiale Regression Für ungeordnete (nominale) kategorielle Variablen mit mehr als zwei Kategorien Interpretation der Parameter, Schätzung und Tests wie bei der logistischen Regression Diskriminanzanalyse durch Schätzen der Wahrscheinlichkeiten, in die einzelnen Kategorien zu fallen. Ordinale Regression Für geordnete (ordinale) kategorielle Variablen Vorstellung einer kontinuierlichen latenten Variable Z und Schwellenwerten α k Vorgehensweise ähnlich zur logistischen Regression für die binäre Zielgrösse {Y i k} (ja oder nein).
Seminar zur Energiewirtschaft:
Seminar zur Energiewirtschaft: Ermittlung der Zahlungsbereitschaft für erneuerbare Energien bzw. bessere Umwelt Vladimir Udalov 1 Modelle mit diskreten abhängigen Variablen 2 - Ausgangssituation Eine Dummy-Variable
Mehr5.Tutorium Generalisierte Regression
5.Tutorium Generalisierte Regression - Multinomiales/Kummulatives Logit-Modell - Cynthia Huber: 09.12.2014 und 16.12.2014 Michael Hanselmann: 18.12.2014 Institut für Statistik, LMU München 1 / 16 Gliederung
MehrPoisson Regression & Verallgemeinerte lineare Modelle
Poisson Regression & Verallgemeinerte lineare Modelle 20.11.2017 Motivation Ausgangslage Wir haben Anzahldaten (count data) Y i, cf. Vorlesung zu kategoriellen Variablen. Zu jeder Beobachtung Y i haben
MehrLogistische Regression
Logistische Regression 13.11.2017 Motivation Regressionsrechnung: Untersuchung des Zusammenhangs zwischen einer (oder mehreren) Zielvariablen und einer oder mehreren erklärenden Variablen. Bisher gesehen:
MehrKategorielle Variablen
Kategorielle Variablen 06.11.2017 Motivation Bisher: Kontinuierliche Variablen Zusammenhang zwischen kontinuierlichen Variablen? Korrelation und Regression Jetzt: Kategorielle Variablen Zusammenhang zwischen
MehrKategorielle*Zielgrössen*!
Kategorielle*Zielgrössen* Mul3nomialeundordinaleRegression BarbaraHellriegel 30.11.2015 Bisher:*Regressionsmodelle*für*diverseArtenvonZielgrössenY: * o kon3nuierlichesy o binäresbzw.binomialesy o Anzahl
MehrOrdinale abhängige Variablen. Einführung Regressionsmodelle für ordinale Variablen Empirisches Beispiel Ausblick
Kap. 6: Ordinale abhängige Variablen Einführung Regressionsmodelle für ordinale Variablen Empirisches Beispiel Ausblick 6.1 Einführung Typische ökonomische Beispiele für ordinale abhängige Variablen: Bildungsniveau
MehrLogistische Regression
Logistische Regression Markus Kalisch 30.09.2014 1 Big Picture: Statistisches Lernen Supervised Learning (X,Y) Unsupervised Learning X VL 7, 11, 12 Regression Y kontinuierlich VL 1, 2, 4, 5, 6 Klassifikation
MehrPoisson Regression. Verallgemeinerte Lineare Modelle (GLMs)
Poisson Regression Verallgemeinerte Lineare Modelle (GLMs) 28.11.2011 Poisson Regression Aus der Einführungsvorlesung Poisson-Verteilung ist in der Regel gut geeignet, um Anzahlen zu modellieren. Frage
MehrLogistische Regression I. Odds, Logits, Odds Ratios, Log Odds Ratios
Logistische Regression I. Odds, Logits, Odds Ratios, Log Odds Ratios PD Dr.Gabriele Doblhammer, Fortgescrittene Methoden, SS2004 Logistische Regression Tabelle 2 Alter und Symptome von Herz-/Kreislauferkrankung(CD)
Mehr1 Wahrscheinlichkeitsrechnung. 2 Zufallsvariablen und ihre Verteilung. 3 Statistische Inferenz. 4 Intervallschätzung. 5 Hypothesentests.
0 Einführung 1 Wahrscheinlichkeitsrechnung 2 Zufallsvariablen und ihre Verteilung 3 Statistische Inferenz 4 Intervallschätzung 5 Hypothesentests 6 Regression Lineare Regressionsmodelle Deskriptive Statistik:
MehrLineare Regression 1 Seminar für Statistik
Lineare Regression 1 Seminar für Statistik Markus Kalisch 17.09.2014 1 Statistik 2: Ziele Konzepte von einer breiten Auswahl von Methoden verstehen Umsetzung mit R: Daten einlesen, Daten analysieren, Grafiken
Mehr8 Allgemeine Modelle & Robuste Regression
8.1 Allgemeines Lineares Regressions-Modell 182 8 Allgemeine Modelle & Robuste Regression 8.1 Allgemeines Lineares Regressions-Modell a Modell. Y i F µ i, γ, g µ i = η i = x T i β b Weibull-Verteilung.
MehrDr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp
Dr. Maike M. Burda Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 8.-10. Januar 2010 BOOTDATA.GDT: 250 Beobachtungen für die Variablen... cm:
MehrBiometrie. Regressionsmodelle
1 Regressionsmodelle Einflussgrößen Zielgröße (Alter, Geschlecht Blutdruck) Zielgröße entscheidet über das Regressionsmodell stetige Zielgröße lineare Regression binäre Zielgröße logistische Regression
MehrEmpirische Analysen mit dem SOEP
Empirische Analysen mit dem SOEP Methodisches Lineare Regressionsanalyse & Logit/Probit Modelle Kurs im Wintersemester 2007/08 Dipl.-Volksw. Paul Böhm Dipl.-Volksw. Dominik Hanglberger Dipl.-Volksw. Rafael
MehrDatenanalyse mit Excel und Gretl
Dozent: Christoph Hindermann christoph.hindermann@uni-erfurt.de Datenanalyse mit Excel und Gretl Teil Titel 2: Gretl 1 Teil 2: Gretl Datenanalyse mit Excel und Gretl Teil Titel 2: Gretl 2 Modellannahmen
MehrBivariate Analyseverfahren
Bivariate Analyseverfahren Bivariate Verfahren beschäftigen sich mit dem Zusammenhang zwischen zwei Variablen Beispiel: Konservatismus/Alter Zusammenhangsmaße beschreiben die Stärke eines Zusammenhangs
MehrEine und zwei kategorielle Variablen
Eine und zwei kategorielle Variablen 7.11.2011 Einführung Kategorielle Variable, Faktor Eine kategorielle Variable (Faktor) hält fest, zu welcher Kategorie eine Beobachtung gehört. Falls die Kategorien
MehrLogistische Regression in SAS
Logistische Regression in SAS Oliver Kuß Medizinische Universitätsklinik, Abt. Klinische Sozialmedizin, Bergheimer Str. 58, 69115 Heidelberg, email: okuss@med.uni-heidelberg.de 3. Konferenz für SAS -Anwender
MehrLogistische Regression
Logistische Regression Werner Brannath VO Biostatistik im WS 2006/2007 Inhalt Logistische Regression Beispiel 1: Herzerkrankungsdaten aus Framingham Log Odds Modell Beispiel 1: Einfluss von Blutdruck Maximum
MehrVorlesung: Statistik II für Wirtschaftswissenschaft
Vorlesung: Statistik II für Wirtschaftswissenschaft Prof. Dr. Helmut Küchenhoff Institut für Statistik, LMU München Sommersemester 2017 6 Genzwertsätze Einführung 1 Wahrscheinlichkeit: Definition und Interpretation
MehrStatistische Modellierung Merkblatt
Inhaltsverzeichnis Statistische Modellierung Merkblatt Welches Modell nimmt man wann?... 1 Logit:... 2 Probit:... 2 Poisson:...2 Loglinear:... 2 multinomiales Logit:... 2 Ordinales Logit (PROC LOGISTIC
Mehr2.5 Lineare Regressionsmodelle
2.5.1 Wiederholung aus Statistik I Gegeben Datenpunkte (Y i, X i ) schätze die beste Gerade Y i = β 0 + β 1 X i, i = 1,..., n. 2 Induktive Statistik 409 Bsp. 2.30. [Kaffeeverkauf auf drei Flohmärkten]
MehrFlussdiagramm der ökonometrischen Methode
Flussdiagramm der ökonometrischen Methode z.b Sättigungs modell Parameter schätzung Daten Sach verhalt oder Spezifikation des ökonometrischen Modells geschätztes Modell phäno menologische Modellierung
Mehr2.Tutorium Generalisierte Regression
2.Tutorium Generalisierte Regression - Binäre Regression - Moritz Berger: 04.11.2013 und 11.11.2013 Shuai Shao: 06.11.2013 und 13.11.2013 Institut für Statistik, LMU München 1 / 16 Gliederung 1 Erweiterte
MehrKlassen diskreter Variablen
Modelle diskreter Variablen Klassen diskreter Variablen binär multinomial Weitere Klassifizierung multinomialer diskreter Variablen: kategorial y = 1, falls Einkommen < 3000 e. y = 2, falls Einkommen zw.
MehrVO Biostatistik im WS 2006/2007
VO Biostatistik im WS 2006/2007 1 Beispiel 1: Herzerkrankungsdaten aus Framingham für skoeffizienten : Leukemie-Daten 2 Beispiel 1: Herzerkrankungsdaten aus Framingham Stichprobe: 1329 männliche Bewohner
MehrLogit-Analyse mit ordinalen und nominalen abhängigen Variablen
Logit-Analyse mit ordinalen und nominalen abhängigen Variablen Regressionsmodelle für Politikwissenschaftler Übersicht Das multinomiale Logit-Modell Das konditionale Logit-Modell Regressionsmodelle für
MehrStochastik Praktikum Lineare Modelle
Stochastik Praktikum Lineare Modelle Thorsten Dickhaus Humboldt-Universität zu Berlin 06.10.2010 Übersicht 1 Einfache lineare Regression 2 Multiple lineare Regression 3 Varianzanalyse 4 Verallgemeinerte
MehrML-Schätzung. Likelihood Quotienten-Test. Zusammenhang Reparametrisierung und Modell unter linearer Restriktion. Es gilt: β = Bγ + d (3.
Reparametrisierung des Modells Gegeben sei das Modell (2.1) mit (2.5) unter der linearen Restriktion Aβ = c mit A R a p, rg(a) = a, c R a. Wir betrachten die lineare Restriktion als Gleichungssystem. Die
MehrÜbung V Lineares Regressionsmodell
Universität Ulm 89069 Ulm Germany Dipl.-WiWi Michael Alpert Institut für Wirtschaftspolitik Fakultät für Mathematik und Wirtschaftswissenschaften Ludwig-Erhard-Stiftungsprofessur Sommersemester 2007 Übung
MehrKlausur zur Vorlesung Statistik III für Studenten mit Wahlfach Statistik. 7. Februar 2008
L. Fahrmeir, G. Walter Department für Statistik Bitte für die Korrektur freilassen! Aufgabe 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit Wahlfach Statistik 7. Februar 8 Hinweise:. Überprüfen
MehrPrognoseintervalle für y 0 gegeben x 0
10 Lineare Regression Punkt- und Intervallprognosen 10.5 Prognoseintervalle für y 0 gegeben x 0 Intervallprognosen für y 0 zur Vertrauenswahrscheinlichkeit 1 α erhält man also analog zu den Intervallprognosen
Mehr7. Stochastische Prozesse und Zeitreihenmodelle
7. Stochastische Prozesse und Zeitreihenmodelle Regelmäßigkeiten in der Entwicklung einer Zeitreihe, um auf zukünftige Entwicklung zu schließen Verwendung zu Prognosezwecken Univariate Zeitreihenanalyse
MehrTeil XII. Einfache Lineare Regression. Woche 10: Lineare Regression. Lernziele. Zusammenfassung. Patric Müller
Woche 10: Lineare Regression Patric Müller Teil XII Einfache Lineare Regression ETHZ WBL 17/19, 03.07.2017 Wahrscheinlichkeit und Statistik Patric Müller WBL 2017 Wahrscheinlichkeit
MehrPrüfung im Fach Mikroökonometrie im Sommersemester 2014 Aufgaben
Lehrstuhl für Statistik und empirische Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Prüfung im Fach Mikroökonometrie im Sommersemester 014 Aufgaben Vorbemerkungen: Anzahl der Aufgaben: Bewertung:
MehrStatistik Klausur Sommersemester 2013 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN!
Statistik 2 1. Klausur Sommersemester 2013 Hamburg, 26.07.2013 A BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN! Nachname:............................................................................ Vorname:.............................................................................
MehrWillkommen zur Vorlesung Statistik (Master)
Willkommen zur Vorlesung Statistik (Master) Thema dieser Vorlesung: Inferenzstatistik in Regressionsmodellen Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für
MehrPrüfung im Fach Mikroökonometrie im Wintersemester 2012/13 Aufgaben
Lehrstuhl für Statistik und empirische Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Prüfung im Fach Mikroökonometrie im Wintersemester 2012/13 Aufgaben Vorbemerkungen: Anzahl der Aufgaben: Bewertung:
MehrTeil XIII. Multiple lineare Regression. Woche 11: Multiple lineare Regression. Zusammenfassung Einfache lineare Regression.
Woche 11: Multiple lineare Regression Patric Müller Teil XIII Multiple lineare Regression ETHZ WBL 17/19, 10.07.017 Wahrscheinlichkeit und Statistik Patric Müller WBL
MehrAnalyse von Querschnittsdaten. Signifikanztests I Basics
Analyse von Querschnittsdaten Signifikanztests I Basics Warum geht es in den folgenden Sitzungen? Kontinuierliche Variablen Generalisierung kategoriale Variablen Datum 13.10.2004 20.10.2004 27.10.2004
MehrMultivariate Verfahren
Selbstkontrollarbeit 1 Multivariate Verfahren Musterlösung Aufgabe 1 (40 Punkte) Auf der dem Kurs beigelegten CD finden Sie im Unterverzeichnis Daten/Excel/ die Datei zahlen.xlsx. Alternativ können Sie
MehrTeil: lineare Regression
Teil: lineare Regression 1 Einführung 2 Prüfung der Regressionsfunktion 3 Die Modellannahmen zur Durchführung einer linearen Regression 4 Dummyvariablen 1 Einführung o Eine statistische Methode um Zusammenhänge
MehrDie Regressionsanalyse
Die Regressionsanalyse Zielsetzung: Untersuchung und Quantifizierung funktionaler Abhängigkeiten zwischen metrisch skalierten Variablen eine unabhängige Variable Einfachregression mehr als eine unabhängige
MehrX =, y In welcher Annahme unterscheidet sich die einfache KQ Methode von der ML Methode?
Aufgabe 1 (25 Punkte) Zur Schätzung der Produktionsfunktion des Unternehmens WV wird ein lineares Regressionsmodell der Form angenommen. Dabei ist y t = β 1 + x t2 β 2 + e t, t = 1,..., T (1) y t : x t2
MehrStatistische Datenanalyse
Werner A. Stahel Statistische Datenanalyse Eine Einführung für Naturwissenschaftler 3., durchgesehene Auflage vieweg VII 1 Einleitung 1 1.1 Was ist Statistische Datenanalyse? 1 1.2 Ziele 6 1.3 Hinweise
MehrDeskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien
Deskription, Statistische Testverfahren und Regression Seminar: Planung und Auswertung klinischer und experimenteller Studien Deskriptive Statistik Deskriptive Statistik: beschreibende Statistik, empirische
MehrStatistik II. IV. Hypothesentests. Martin Huber
Statistik II IV. Hypothesentests Martin Huber 1 / 41 Übersicht Struktur eines Hypothesentests Stichprobenverteilung t-test: Einzelner-Parameter-Test F-Test: Multiple lineare Restriktionen 2 / 41 Struktur
MehrEmpirischer Vergleich ordinaler Regressionsmodelle
Ludwig-Maximilians-Universität, München Institut für Statistik Empirischer Vergleich ordinaler Regressionsmodelle Bachelorarbeit Verfasser: Susanne Dandl Betreuer: Prof. Dr. Gerhard Tutz, Institut für
MehrSchweizer Statistiktage, Aarau, 18. Nov. 2004
Schweizer Statistiktage, Aarau, 18. Nov. 2004 Qualitative Überprüfung der Modellannahmen in der linearen Regressionsrechnung am Beispiel der Untersuchung der Alterssterblichkeit bei Hitzeperioden in der
MehrKategorielle Daten. Seminar für Statistik Markus Kalisch
Kategorielle Daten Markus Kalisch 1 Phase 3 Studie: Wirksamer als Placebo? Medikament Placebo Total Geheilt 15 9 24 Nicht geheilt 10 11 21 Total 25 20 45 Grundfrage: Sind Heilung und Medikamentengabe unabhängig?
Mehr4.1. Verteilungsannahmen des Fehlers. 4. Statistik im multiplen Regressionsmodell Verteilungsannahmen des Fehlers
4. Statistik im multiplen Regressionsmodell In diesem Kapitel wird im Abschnitt 4.1 zusätzlich zu den schon bekannten Standardannahmen noch die Annahme von normalverteilten Residuen hinzugefügt. Auf Basis
MehrThilo Moseler Bern,
Bern, 15.11.2013 (Verallgemeinerte) Lineare Modelle Stärken Schwächen Fazit und persönliche Erfahrung 2 i-te Beobachtung der zu erklärenden Variablen Yi ist gegeben durch Linearkombination von n erklärenden
MehrEinführung in die Maximum Likelihood Methodik
in die Maximum Likelihood Methodik Thushyanthan Baskaran thushyanthan.baskaran@awi.uni-heidelberg.de Alfred Weber Institut Ruprecht Karls Universität Heidelberg Gliederung 1 2 3 4 2 / 31 Maximum Likelihood
MehrKapitel 8. Einfache Regression. Anpassen des linearen Regressionsmodells, OLS. Eigenschaften der Schätzer für das Modell
Kapitel 8 Einfache Regression Josef Leydold c 2006 Mathematische Methoden VIII Einfache Regression 1 / 21 Lernziele Lineares Regressionsmodell Anpassen des linearen Regressionsmodells, OLS Eigenschaften
MehrInstitut für Soziologie Dipl.-Soz. Benjamin Gedon. Methoden 2. Ausblick; Darstellung von Ergebnissen; Wiederholung
Institut für Soziologie Dipl.-Soz. Methoden 2 Ausblick; Darstellung von Ergebnissen; Wiederholung Ein (nicht programmierbarer) Taschenrechner kann in der Klausur hilfreich sein. # 2 Programm Ausblick über
MehrProxies, Endogenität, Instrumentvariablenschätzung
1 4.2 Multivariate lineare Regression: Fehler in den Variablen, Proxies, Endogenität, Instrumentvariablenschätzung Literatur: Wooldridge, Kapitel 15, Appendix C.3 und Kapitel 9.4 Wahrscheinlichkeitslimes
MehrMultivariate Verfahren
Selbstkontrollarbeit 1 Multivariate Verfahren Diese Selbstkontrollarbeit bezieht sich auf die Kapitel 1 bis 4 der Kurseinheit 1 (Multivariate Statistik) des Kurses Multivariate Verfahren (883). Hinweise:
MehrStatistik II Übung 4: Skalierung und asymptotische Eigenschaften
Statistik II Übung 4: Skalierung und asymptotische Eigenschaften Diese Übung beschäftigt sich mit der Skalierung von Variablen in Regressionsanalysen und mit asymptotischen Eigenschaften von OLS. Verwenden
MehrEinfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)
3 Einfache lineare Regression Einfache lineare Modelle mit R 36 Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen) > summary(lm(y~x)) Call: lm(formula =
MehrEinfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)
3 Einfache lineare Regression Einfache lineare Modelle mit R 3.6 Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen) > summary(lm(y~x)) Call: lm(formula
Mehr1 Beispiel zur Methode der kleinsten Quadrate
1 Beispiel zur Methode der kleinsten Quadrate 1.1 Daten des Beispiels t x y x*y x 2 ŷ ˆɛ ˆɛ 2 1 1 3 3 1 2 1 1 2 2 3 6 4 3.5-0.5 0.25 3 3 4 12 9 5-1 1 4 4 6 24 16 6.5-0.5 0.25 5 5 9 45 25 8 1 1 Σ 15 25
MehrFortgeschrittene Ökonometrie: Maximum Likelihood
Universität Regensburg, Lehrstuhl für Ökonometrie Sommersemester 202 Fortgeschrittene Ökonometrie: Maximum Likelihood Poissonverteilung Man betrachte die poisson-verteilten Zufallsvariablen y t, t =, 2,...,
MehrInferenz im multiplen Regressionsmodell
1 / 29 Inferenz im multiplen Regressionsmodell Kapitel 4, Teil 1 Ökonometrie I Michael Hauser 2 / 29 Inhalt Annahme normalverteilter Fehler Stichprobenverteilung des OLS Schätzers t-test und Konfidenzintervall
MehrStatistik II. IV. Hypothesentests. Martin Huber
Statistik II IV. Hypothesentests Martin Huber 1 / 22 Übersicht Weitere Hypothesentests in der Statistik 1-Stichproben-Mittelwert-Tests 1-Stichproben-Varianz-Tests 2-Stichproben-Tests Kolmogorov-Smirnov-Test
MehrPrüfung aus Statistik 2 für SoziologInnen
Prüfung aus Statistik 2 für SoziologInnen 11. Oktober 2013 Gesamtpunktezahl =80 Name in Blockbuchstaben: Matrikelnummer: Wissenstest (maximal 16 Punkte) Kreuzen ( ) Sie die jeweils richtige Antwort an.
Mehrb Linear: h xi; θ = x T i θ. Yi = h x (1) a Regression: Das allgemeine Modell lautet 2.1 Das Modell 2 Nichtlineare Regression
2 Nichtlineare Regression 2.1 Das Modell a Regression: Das allgemeine Modell lautet Yi = h x (1) i, x (2) i,..., x (m) i ; θ1, θ2,..., θp + Ei = h xi; θ + Ei Ei N 0, σ 2, unabhängig. b Linear: h xi; θ
Mehr2. Fehlerhafte Auswahl der exogenen Variablen (Verletzung der A1-Annahme)
2. Fehlerhafte Auswahl der exogenen Variablen (Verletzung der A1-Annahme) Annahme A1: Im multiplen Regressionsmodell fehlen keine relevanten exogenen Variablen und die benutzten exogenen Variablen x 1,
MehrÜbungsklausur Lineare Modelle. Prof. Dr. H. Toutenburg
Übungsklausur Lineare le Prof. Dr. H. Toutenburg Aufgabe Ein lineares Regressionsmodell mit der abhängigen Variablen Körpergröße und der unabhängigen Variablen Geschlecht wurde einmal mit der dummykodierten
MehrSBWL Tourismusanalyse und Freizeitmarketing
SBWL Tourismusanalyse und Freizeitmarketing Vertiefungskurs 4: Multivariate Verfahren 2 Teil 3: Mischmodelle / Modellgestützte Clusteranalyse Achim Zeileis & Thomas Rusch Institute for Statistics and Mathematics
MehrSBWL Tourismusanalyse und Freizeitmarketing
SBWL Tourismusanalse und Freizeitmarketing Vertiefungskurs 4: Multivariate Verfahren 2 Teil 3: Mischmodelle / Modellgestützte Clusteranalse Achim Zeileis Department of Statistics and Mathematics FleMi
MehrGewöhnliche Autokorrelationsfunktion (ACF) eines stationären Prozesses {X t } t Z zum Lag h
5. Die partielle Autokorrelationsfunktion 5.1 Definition, Berechnung, Schätzung Bisher: Gewöhnliche Autokorrelationsfunktion (ACF) eines stationären Prozesses {X t } t Z zum Lag h ρ X (h) = Corr(X t, X
MehrAnwendung logistischer und linearer Regressionsmodelle zur Berechnung von adjustierten NNEs und Risikodifferenzen
Workshop der AG Statistische Methoden in der Medizin Magdeburg, 22.11.2007 Anwendung logistischer und linearer Regressionsmodelle zur Berechnung von adjustierten NNEs und Risikodifferenzen Ulrich Gehrmann
MehrDefinition 18 (Die verallgemeinerte Pareto Verteilung (GPD)) Die standard GPD G γ : ) 1/γ. G γ,ν,β = 1 (1 + γ x ν β
Die POT Methode (Peaks over Threshold) Definition 18 (Die verallgemeinerte Pareto Verteilung (GPD)) Die standard GPD G γ : G γ (x) = { 1 (1 + γx) 1/γ für γ 0 1 exp{ x} für γ = 0 wobei x D(γ) D(γ) = { 0
MehrBeispiel Wahlentscheidungen: Vierstufenmodell der Verkehrsplanung
Beispiel Wahlentscheidungen: Vierstufenmodell der Verkehrsplanung Simultanes Verfahren Verkehrs erzeugung Aktivitätenwahl Verkehrs erzeugung Verkehrs verteilung Verkehrs verteilung Wege/Zielwahl Verkehrs
MehrEinführung in die Induktive Statistik: Regressionsanalyse
Einführung in die Induktive Statistik: Regressionsanalyse Jan Gertheiss LMU München Sommersemester 2011 Vielen Dank an Christian Heumann für das Überlassen von TEX-Code! Regressionsanalyse Ziel: Analyse
MehrKapitel 4. Zensierte (censored) und gestutzte (truncated) abhängige Variablen, Sample Selection
Kapitel 4 Zensierte (censored) und gestutzte (truncated) abhängige Variablen, Sample Selection In den vorhergehenden Abschnitten haben wir uns mit Fällen beschäftigt, in denen die abhängige Variable y
Mehr2.3 Nichtlineare Regressionsfunktion
Nichtlineare Regressionsfunktion Bisher: lineares Regressionsmodell o Steigung d. Regressionsgerade ist konstant o Effekt einer Änderung von X auf Y hängt nicht vom Niveau von X oder von anderen Regressoren
MehrEin Vergleich von 2-Stichproben-Verfahren mit Berücksichtigung von Baselinewerten bei ordinalen Zielvariablen
Ein Vergleich von 2-Stichproben-Verfahren mit Berücksichtigung von Baselinewerten bei ordinalen Zielvariablen Alexander Siemer Abteilung Medizinische Statistik Universität Göttingen 47. Biometrisches Kolloquium
MehrTeil VIII. Zentraler Grenzwertsatz und Vertrauensintervalle. Woche 6: Zentraler Grenzwertsatz und Vertrauensintervalle. Lernziele. Typische Situation
Woche 6: Zentraler Grenzwertsatz und Vertrauensintervalle Patric Müller ETHZ Teil VIII Zentraler Grenzwertsatz und Vertrauensintervalle WBL 17/19, 29.05.2017 Wahrscheinlichkeit
MehrANalysis Of VAriance (ANOVA) 2/2
ANalysis Of VAriance (ANOVA) 2/2 Markus Kalisch 22.10.2014 1 Wdh: ANOVA - Idee ANOVA 1: Zwei Medikamente zur Blutdrucksenkung und Placebo (Faktor X). Gibt es einen sign. Unterschied in der Wirkung (kontinuierlich
MehrStatistik und Wahrscheinlichkeitsrechnung
Statistik und Wahrscheinlichkeitsrechnung 11. Vorlesung Jochen Köhler 10.05.011 1 Inhalt der heutigen Vorlesung Zusammenfassung Parameterschätzung Übersicht über Schätzung und Modellbildung Modellevaluation
MehrPolynomiale Regression lässt sich mittels einer Transformation der Merkmale auf multiple lineare Regression zurückführen
Rückblick Polynomiale Regression lässt sich mittels einer Transformation der Merkmale auf multiple lineare Regression zurückführen Ridge Regression vermeidet Überanpassung, indem einfachere Modelle mit
MehrNicht-kontinuierliche abhängige Variablen: Das generalisierte lineare Modell und die Parameterschätzung via Maximum Likelihood
Nicht-kontinuierliche abhängige Variablen: Das generalisierte lineare Modell und die Parameterschätzung via Maximum Likelihood Interaktionseffekte Varianz-Kovarianz-Matrix Interaktionseffekte Varianz-Kovarianz-Matrix
Mehrε heteroskedastisch BINARY CHOICE MODELS Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS?
BINARY CHOICE MODELS 1 mit Pr( Y = 1) = P Y = 0 mit Pr( Y = 0) = 1 P Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS? Y i = X i β + ε i Probleme: Nonsense Predictions
MehrKapitel 4: Binäre Regression
Kapitel 4: Binäre Regression Steffen Unkel (basierend auf Folien von Nora Fenske) Statistik III für Nebenfachstudierende WS 2013/2014 4.1 Motivation Ausgangssituation Gegeben sind Daten (y i, x i1,...,
MehrHypothesentests mit SPSS
Beispiel für eine zweifaktorielle Varianzanalyse mit Messwiederholung auf einem Faktor (univariate Lösung) Daten: POKIII_AG4_V06.SAV Hypothese: Die physische Attraktivität der Bildperson und das Geschlecht
MehrEinführung in die Statistik für Politikwissenschaftler Sommersemester 2011
Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011 Es können von den Antworten alle, mehrere oder keine Antwort(en) richtig sein. Nur bei einer korrekten Antwort (ohne Auslassungen
MehrVorlesung: Statistik II für Wirtschaftswissenschaft
Vorlesung: Statistik II für Wirtschaftswissenschaft Prof. Dr. Helmut Küchenhoff Institut für Statistik, LMU München Sommersemester 2017 6 Genzwertsätze Einführung 1 Wahrscheinlichkeit: Definition und Interpretation
MehrSchätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC. Referenten: Linda Gräfe & Konstantin Falk
Schätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC Referenten: Linda Gräfe & Konstantin Falk 1 Agenda Schätzverfahren ML REML Beispiel in SPSS Modellbeurteilung Devianz AIC BIC
MehrInstitut für Soziologie Christian Ganser. Methoden 2. Regressionsanalyse II: Lineare multiple Regression
Institut für Soziologie Christian Ganser Methoden 2 Regressionsanalyse II: Lineare multiple Regression Inhalt 1. Anwendungsbereich 2. Vorgehensweise bei multipler linearer Regression 3. Beispiel 4. Modellannahmen
MehrVorlesung: Multivariate Statistik für Psychologen
Vorlesung: Multivariate Statistik für Psychologen 7. Vorlesung: 05.05.2003 Agenda 2. Multiple Regression i. Grundlagen ii. iii. iv. Statistisches Modell Verallgemeinerung des Stichprobenmodells auf Populationsebene
MehrMusterlösung. Modulklausur Multivariate Verfahren
Musterlösung Modulklausur 31821 Multivariate Verfahren 25. September 2015 Aufgabe 1 (15 Punkte) Kennzeichnen Sie die folgenden Aussagen zur Regressionsanalyse mit R für richtig oder F für falsch. F Wenn
MehrGrundlagen der schließenden Statistik
Grundlagen der schließenden Statistik Schätzer, Konfidenzintervalle und Tests 1 46 Motivation Daten erhoben (Umfrage, Messwerte) Problem: Bei Wiederholung des Experiments wird man andere Beobachtungen
MehrEmpirische Forschungsmethoden
Winfried Stier Empirische Forschungsmethoden Zweite, verbesserte Auflage Mit 22 Abbildungen und 53 Tabellen Springer L Inhaltsverzeichnis I. Grundlagen 1 1.1. Methoden, Methodologie, Empirie 1 1.2. Einige
MehrStatistik II Übung 1: Einfache lineare Regression
Statistik II Übung 1: Einfache lineare Regression Diese Übung beschäftigt sich mit dem Zusammenhang zwischen dem Lohneinkommen von sozial benachteiligten Individuen (16-24 Jahre alt) und der Anzahl der
Mehrentschieden hat, obwohl die Merkmalsausprägungen in der Grundgesamtheit voneinander abhängig sind.
Bsp 1) Die Wahrscheinlichkeit dafür, dass eine Glühbirne länger als 200 Stunden brennt, beträgt 0,2. Wie wahrscheinlich ist es, dass von 10 Glühbirnen mindestens eine länger als 200 Stunden brennt? (Berechnen
Mehr