Vorlesung:Multivariate Analyseverfahren

Größe: px
Ab Seite anzeigen:

Download "Vorlesung:Multivariate Analyseverfahren"

Transkript

1 Vorlesung:Multivariate Analyseverfahren Josef Brüderl, Oktober 24 Multivariate Verfahren sind statistische Verfahren zur Analyse der Beziehungsstruktur mehrerer Variablen. Man kann multivariate Verfahren in drei große Gruppen unterteilen Verfahren, die mehrdimensionale Datenstrukturen auf wenige Dimensionen reduzieren (Faktorenanalyse) Verfahren, die Beobachtungen anhand mehrerer Variablen klassifizieren (Clusteranalyse) Verfahren, die den Einfluß von unabhängigen Variablen auf die abhängigen Variablen erfassen (Regressionsanalyse) In dieser Vorlesung können aus Zeitgründen nur Verfahren der Regressionsanalyse behandelt werden (ergänzend wird in die Faktorenanalyse eingeführt). Der Grund für die Betonung der Regressionsverfahren ist, daß die große Mehrzahl der sozialwissenschaftlichen Forschungsarbeiten an der Identifikation,,kausaler Effekte anhand nicht-experimenteller Daten interessiert ist, wozu Regressionsverfahren besonders geeignet sind. Regressionsmodelle mit einer abhängigen und mehreren unabhängigen Variablen bezeichnet man als multiple Modelle. Von multivariater Regression spricht man, wenn mehrere abhängige Variablen gemeinsam betrachtet werden. Nach dieser Unterscheidung sind die meisten Modelle dieser Vorlesung multipler Natur, nur an einigen Stellen werden wir multivariate Modelle behandeln. Zum Begriff,,Regression : Sir Francis Galton untersuchte 1889 den Zusammenhang der Körpergröße von Vätern und Söhnen. Dabei,,erfand er die Regression. Er schätzte G s G v. Da dies bedeutet, daß die Größe des Sohns zum Mittel,,zurückschreitet nannte er dieses Verfahren Regression. Der Name des Verfahrens rührt somit von der ersten Anwendung her!

2 Multivariate Verfahren, Brüderl 2 1) Was ist eine Regression? Wir betrachten zwei Variablen (Y, X). Unsere Daten sind die realisierten Werte dieser Variablen y 1,x 1,, y n,x n bzw. y i,x i, für i 1,,n. In einer Regression betrachtet man im Prinzip die bedingte Verteilung von Y in Abhängigkeit von den Werten von X (Regression von Y auf X). Y wird als abhängige Variable bezeichnet und X als unabhängige. In der Regressionsanalyse beschäftigt man sich also mit den bedingten Verteilungen f Y y X x. Wir ordnen damit jedem Merkmalswert von X eine Funktion zu, und zwar die bedingte Verteilung von Y. Dies ist die allgemeine Idee einer Regression. Dies ist praktisch nur schwer darstellbar. Die primäre Funktion statistischer Verfahren, nämlich die in den Daten enthaltene Information auf wenige Kennzahlen zu reduzieren, ist hier nicht erfüllt. Deshalb charakterisiert man die bedingten Verteilungen durch idealerweise nur eine Kennzahl: Y metrisch: bedingtes arithmetisches Mittel Y metrisch, ordinal: bedingtes Quantil Y nominal: bedingte Häufigkeiten (Kreuztabelle!) Es hängt vom Meßniveau von Y ab, welche Kennzahl man verwenden kann. Aber selbst für nominales Y läßt sich die bedingte Verteilung durch Kennzahlen beschreiben. Damit ist eine Regression für jedes Y-Meßniveau durchführbar.

3 Multivariate Verfahren, Brüderl 3 Regression mit diskretem X In diesem Fall errechnet man für jeden vorkommenden X-Wert die Kennzahl der bedingten Verteilung. Beispiel: ALLBUS 1994 Y ist das monatliche Nettoeinkommen und X die Bildung. Da Y metrisch ist, können wir für jedes Bildungsniveau E Y x, das bedingte arithmetische Mittel, berechnen. Ein Vergleich dieser Mittelwerte liefert uns Information über den,,effekt der Bildung auf das Einkommen. Im Prinzip handelt es sich hierbei um eine Varianzanalyse. Bei der folgenden Graphik handelt es sich um ein Streudiagramm der Daten. Da Bildung nur 4 Werte annimmt, würden sich die Einkommenswerte stark überdecken. Deshalb wurden die Werte,,gejittered. Die bedingten Mittelwerte wurden mit einer Linie verbunden, um die Art des Zusammenhangs visuell besser erkennen zu können. 1 Nur Vollzeit, unter 1. DM (N=1459) Einkommen in DM Haupt Real Abitur Uni Bildung

4 Multivariate Verfahren, Brüderl 4 Regression mit stetigem X In diesem Fall ist die direkte Errechnung der Kennzahl nicht praktikabel, weil für die meisten X-Werte nur wenige Y-Werte vorliegen werden. Es kommen zwei Verfahren in Betracht. Nicht-Parametrische Regression Für jeden (im Prinzip) möglichen X-Wert werden die Y-Werte in einer Umgebung von x benutzt, um die Kennzahl zu berechnen (local averaging). Bildlich gesprochen läßt man eine Fenster konstanter Breite über den Wertebereich von X gleiten. Über alle Datenpunkte in dem Fenster errechnet man dann z.b. das Y-Mittel. Diese Werte verbindet man dann mit einer Linie. Je größer man die Umgebung wählt, desto glatter wird die Regressionsfunktion. Beispiele: Lokale Mean (Median) Regression, Lowess Smoother Parametrische Regressionsmodelle Man nimmt an, daß die Kennzahlen einer Funktion folgen: g x;. Man unterstellt also ein parametrisches Regressions- modell. Gegeben die Daten und das gewählte Modell, schätzt man die Parameter so, daß die Regressionsfunktion am besten auf die Daten paßt. Man muß sich also zusätzlich noch für ein Schätzkriterium entscheiden. Beispiel: OLS-Regression Man nimmt ein lineares Modell für den bedingten Mittelwert an. E Y x g x;, x. Als Schätzkriterium verwendet man üblicherweise OLS min y i g x i ;, 2., n i 1 Es sei betont, daß die OLS-Regression nur eines der möglichen Regressionsmodelle darstellt. Es gibt viele weitere Modelle (quadratisch, logarithmisch,...) und auch alternative Schätzkriterien (LAD, ML,...). OLS ist so beliebt, weil die Schätzer leicht zu errechnen und anschaulich zu interpretieren sind.

5 Multivariate Verfahren, Brüderl 5 Ein Vergleich von lokaler und modellhafter Regression Die Daten stammen aus dem ALLBUS Y ist das monatliche Nettoeinkommen und X das Alter. Wir berechnen: 1) eine lokale Mean Regression (rot) 2) eine (naive) lokale Median Regression (grün) 3) eine OLS-Regression (blau) 1 Nur Vollzeit, unter 1. DM (N=1461) 8 6 DM Alter Alle drei Regressionskurven sagen uns, daß das mittlere (bedingte) Einkommen mit dem Alter ansteigt. Die beiden lokalen Regressionen deuten zusätzlich eine gewisse Nicht- Linearität an. Sie können die Daten besser anpassen, weil sie kein idealisierendes Modell mit wenigen Parametern unter- stellen. Dafür läßt sich die Information, die die OLS-Regression liefert, viel einfacher interpretieren ( 37. 3). Zur Interpretation einer Regression Statistisch gesehen sind Regressionen Verfahren, mit denen man Zusammenhänge zwischen Verteilungen sichtbar machen kann, in dem wir die bedingte Verteilung (bzw. Kennzahlen) als Funktion bedingender Variablen darstellen. Ob diese Regressionsfunktion kausal interpretiert werden kann, muß inhaltlich entschieden werden (d.h. man braucht eine Theorie, s. Goldthorpe, 2, On Sociology).

6 Multivariate Verfahren, Brüderl 6 2) Explorative Datenanalyse Im folgenden sollen graphische Verfahren zum,,erforschen von Daten vorgestellt werden. Diese Verfahren sind sehr hilfreich, um ein,,gefühl für die Daten zu bekommen (Exploration). Wir benötigen sie insbesondere für die Regressionsdiagnostik. Beispiel: Anscombes Quartett Dieses Beispiel verdeutlicht, daß ein und dieselbe Regression von völlig unterschiedlichen Daten erzeugt werden kann. Eine graphische Inspektion der Daten kann solchen Fehlschlüssen vorbeugen.

7 Multivariate Verfahren, Brüderl 7 Univariate Verteilungen Beispiel: Wir betrachten die V423 (monatliches Nettoeinkommen des Befragten in DM). Wir nehmen nur Vollzeiterwerbstätige (V25 1) bis zum Alter 65 (V247 65). N eink Anteil.2 DM DM Histogramm Box-Plot Das Histogramm ist mit 18 Intervallen (,,bins ) gezeichnet. Man erkennt die deutlich rechtsschiefe Verteilung. Über 8,- DM finden sich nur noch wenige Beobachtungen. Aber: Verteilung ist nur diskret und hängt von der Zahl der Intervalle ab. Das Box-Plot zeigt die drei Quartile. Die Whisker sind 1.5 mal den IQR lang. Die Rechtsschiefe erkennt man daran, daß der untere Whisker kürzer ist. Weiterhin kann man in einem Box-Plot sehr schön die Ausreißer identifizieren. Eine nicht-parametrische Dichteschätzung erhält man mittels der Kerndichteschätzer. An einer festgelegten Zahl von Stellen (n) wird in Intervallen der Breite 2w mittels einer Gewichtungsfunktion (,,Kern ) die Dichte geschätzt. Folgende Plots verwenden den Epanechnikov-Kern mit n DM Kerndichteschätzer, w= DM Kerndichteschätzer, w=3

8 Multivariate Verfahren, Brüderl 8 Vergleich von Verteilungen Häufig will man feststellen, ob die Daten einer Normalverteilung folgen. Dazu kann man eine Normalverteilungskurve in den Dichteplot einzeichnen oder einen statistischen Test durchführen. Einen graphischen Vergleich ermöglichen Normal- Probability Plots (o. Normal-Quantile). Die Quantile der Daten werden gegen die Quantile der theoretischen Normalverteilung aufgetragen. Abweichungen von der Geraden mit Steigung 1 zeigen Abweichungen von der Normalverteilung an DM Inverse Normal Man erkennt eine deutliche Abweichung von der Normalverteilung. Die Datenpunkte liegen nicht auf der blauen Gerade. Zu Beginn sind die beobachteten Einkommenswerte höher als nach der Normalverteilung zu erwarten wäre. In der Mitte stimmts in etwa. Am Ende sind die Werte wieder größer (Rechtsschiefe). Deutlich setzen sich die Ausreißer ab.

9 Multivariate Verfahren, Brüderl 9 Bivariate Daten Bivariate Zusammenhänge veranschaulicht man am besten mit einem Streudiagramm. Überdecken sich die Daten stark, so,,jittered man am besten (überlagert Daten mit einer Zufallsstreuung). Einen Eindruck von der Art des Zusammenhangs bekommt man mittels einer nicht-parametrischen Regression. Bewährt hat sich hierfür der Lowess-Smoother (locally weighted scatterplot smoother). An der Stelle x i wird eine lineare Regression berechnet, in die die Daten in der Umgebung gewichtet eingehen. Die Breite der Umgebung ist steuerbar durch,,bandwidth (z.b. bwidth.8). Es wird trikubisch gewichtet. Anhand der Regressionsparameter wird dann y i berechnet. Dies wird für alle X-Werte gemacht. Die Verbindung der (x i, y i ) ergibt die Lowess-Kurve. Je kleiner die Umgebung, desto näher an den Daten ist die Kurve. Beispiel: Einkommen in Abhängigkeit von Bildung Einkommen wie oben. Schulbildung plus Berufsbildung (V12-V23) wird umgerechnet in Bildungsjahre. N Lowess smoother, bandwidth =.8 Lowess smoother, bandwidth = DM 9 DM Bildung Bildung Links ist nicht gejittered, es kommt zu starker Überdeckung. Rechts ist gejittered (j(2) 2% der Zeichenfläche). Die blaue Kurve ist der Lowess-Smoother. Links werden zur Berechnung jeweils 8% der Fälle in der Umgebung verwendet, rechts nur 3%. Die rechte Kurve folgt deshalb wesentlich genauer den Daten, ist dafür aber unregelmäßiger. In beiden Fällen erkennt man leichte Nicht-Linearität ab 19 Bildungsjahre.

10 Multivariate Verfahren, Brüderl 1 Datentransformation Schiefe und Ausreißer sind insbesondere für Mean-Regressionen ein Problem. Glücklicherweise kann man aber durch Potenz-Transformationen Schiefe reduzieren und Ausreißer,,heranziehen. Tukeys,,ladder of powers : x x 3 q 3 produziert x 1.5 q 1. 5 cyan Rechtsschiefe x q 1 schwarz x.5 q.5 grün produziert ln x q rot Linksschiefe x.5 q.5 blau Beispiel: Einkommensverteilung DM Kerndichteschätzer, w= lneink Kernel Density Estimate inveink Kernel Density Estimate q 1 q q -1 Exkurs: Potenzfunktionen, ln- und e-funktion x.5 x x, x.5 1 1, x 1 x.5 2 x Mit ln notieren wir den (natürlichen) Logarithmus zur Basis e 2, : y ln x e y x Daraus folgt ln e y e ln y y x Rechenregeln e x e y e x y ln xy ln x ln y e x /e y e x y ln x/y ln x ln y e x y e xy ln x y ylnx

11 Multivariate Verfahren, Brüderl 11 3) Das einfache Regressionsmodell Im einfachen Regressionsmodell unterstellt man ein lineares Modell für den bedingten Mittelwert: E Y x x. Daraus ergibt sich das Modell zur Beschreibung der Daten: A1: y i x i i, i 1,,n. und sind zu schätzende Parameter (Regressionskoeffizienten) und ist ein Fehlerterm. A1 enthält insbesondere folgende Annahmen: Die Beziehung zwischen X und Y ist linear und die Parameter und sind identisch für alle Beobachtungen. Das Streudiagramm gibt eine graphische Darstellung des Modells. Die Punkte repräsentieren jeweils eine Beobachtung. Die Gerade ist die (Modell-)Regressionsgerade mit Achsenabschnitt und Steigung. gibt den Y-Wert an, wenn X. gibt an, um wieviele Einheiten sich Y verändert, wenn X um eine Einheit steigt. Meist werden die Daten natürlich nicht exakt auf der Regressionsgeraden liegen, so wie z.b. Beobachtung i. Der laut Modell zu erwartende Wert (E y i x i x i ), stimmt nicht mit dem beobachteten Wert (y i ) überein. Die Differenz ist der Fehler i. Über die stochastischen Eigenschaften dieses Fehlerterms macht man einige weitere Annahmen: A2: E i, für alle i; im,,mittel ist der Fehler null A3: V i 2, für alle i; die Fehlervarianz ist konstant (Homoskedastizität)

12 Multivariate Verfahren, Brüderl 12 A4: Cov i, j, für alle i j; die Fehlerkovarianzen sind null (keine Autokorrelation) A5: Cov x i, j, für alle i und j; Regressor und Fehler sind unkorreliert A5 impliziert unter anderem: der Regressor darf keine Meßfehler enthalten und er darf mit keinen weiteren unbeobachteten Variablen (die ja laut A1 im Fehlerterm zusammengefaßt sind) korreliert sein. Will man Hypothesen über die Parameter des Modells testen, so ist eine weitere Annahme nötig: A6: i N, 2 ; die Fehler sind normalverteilt Es ist zu beachten, daß die Normalverteilungsannahme nicht zur Schätzung der Parameter erforderlich ist. Da in der Sozialforschung aber praktisch immer Hypothesentests durchgeführt werden, muß auch A6 üblicherweise gelten. Schätzung der Modellparameter Dieses Modell enthält die unbekannten Parameter, und 2. Anhand der beobachteten Daten können die Parameter geschätzt werden. Die Schätzer notieren wir mit, und 2. Insbesondere interessiert den Sozialforscher, weil dieser Schätzer Auskunft über den Zusammenhang von X und Y gibt. Doch nach welchem Kriterium schätzt man? Ein sinnvoller Ansatz will möglichst gute Prognosen y i x i erhalten. Die Fehler sollten möglichst klein sein. y i y i ist nicht geeignet, weil jede Gerade durch ( x,y ) diese Abweichungssumme minimiert ( ). Deshalb fordert man üblicherweise, daß die Summe der Abweichungsquadrate n i 1 y i y i 2 2 i RSS n i 1 minimiert wird. i nennt man Residuen.

13 Multivariate Verfahren, Brüderl 13 Dies ist die Methode der kleinsten Quadrate (Ordinary Least Squares, OLS): min, n i 1 i2 min, n y i x i 2. i 1 Um die Schätzformeln zu erhalten, muß man ableiten: RSS 2 y i x i 1 RSS 2 y i x i x i. Durch Nullsetzen und Umformen erhält man die sogenannten Normalgleichungen: y i n x i x i y i x i x i 2. Aus der ersten Gleichung folgt unmittelbar: ȳ x. Einsetzen in die zweite Gleichung und Umformen ergibt: x iy i n x y x i 2 n x 2 x i x y i ȳ x i x 2 s XY s X 2. Eigenschaften der Residuen Aus der Schätzformel für folgt, daß die Regressionsgerade durch den Punkt ( x,y ) geht. Mithin gilt immer: i. Weiterhin folgt aus der zweiten Normalgleichung x i i. Außerdem gilt: y i i. Residuen unkorreliert mit X-Werten und Prognosewerten.

14 Multivariate Verfahren, Brüderl 14 Schätzung der Residualvarianz Die Varianz der Residuen notieren wir mit 2. Sie ergibt sich als: n 2 i2 2 2 i 2 1 n 2. n 2 ist die Zahl der Freiheitsgrade der Residuen (2 Zahl der Modellparameter, die zu ihrer Berechnung nötig sind). Eigenschaften der OLS-Schätzer Die OLS-Schätzer haben bei Gültigkeit von A1-A5 gewisse wünschenswerte Eigenschaften: Sie sind unverzerrt (erwartungstreu: E ) in der Klasse der linearen, unverzerrten Schätzer die mit der kleinsten Stichprobenvarianz (best linear unbiased estimate, BLUE; Gauß -Markov Theorem) Will man einen linearen und unverzerrten Schätzer verwenden, so besagt das Gauß-Markov Theorem, daß die OLS-Schätzer in dieser Klasse die präzisesten sind. Außerdem sind sie bei Gültigkeit der Normalverteilungsannahme (A6) die Maximum-Likelihood (ML) Schätzer und besitzen somit auch deren Eigenschaften (Konsistenz, Effizienz, asymptotisch normalverteilt). Modellfit Neben der Schätzung der Parameter ist es weiterhin wichtig zu wissen, wie gut das Modell auf die Daten paßt. Standardfehler der Regression Der Fit ist umso besser, je geringer die Streuung der Residuen ist. Deshalb liegt es nahe, (Root MSE in STATA) als Fitmaß zu verwenden. Da in der gleichen Einheit wie Y gemessen ist, erlaubt der Vergleich von und y eine Abschätzung des Fits (im Bereich 2 liegen 95% der Residuen). Bestimmtheitsmaß R 2 Berechnung ausgehend von der Streuungszerlegung: y i y y i y i y i y.

15 Multivariate Verfahren, Brüderl 15 Quadrieren und Summieren auf beiden Seiten ergibt: y i y 2 y i y i 2 y i y 2 i y i y. Der letzte Term fällt weg. Damit ergibt sich: y i y 2 i 2 y i y 2 TSS RSS ESS R 2 wird nun als Quotient von erklärter zu gesamter Streuung (Varianz) definiert: R 2 ESS TSS s 2 Y 1 RSS 2 s Y TSS. Ist R 2, so bedeutet dies, daß das Modell nichts zur Erklärung der Varianz von Y beiträgt. R 2 1 dagegen zeigt an, daß das Modell die Daten vollkommen beschreibt. Es ist zu beachten, daß R 2 den Fit eines linearen Modells beschreibt. Ein niedriges R 2 kann somit auch aus der Nicht- Linearität der Beziehung resultieren. Hypothesentests Im einfachsten Fall wird die Nullhypothese H : gegen die Alternative H 1 : getestet (zweiseitiger Test). Dazu muß zuerst der Standardfehler von berechnet werden:. n 1 s x Die Schätzung von wird präziser (der Standardfehler kleiner), wenn das Modell gut fittet und die X-Werte stark streuen. Dann wird die Testgröße (t-wert) t errechnet. Sie ist t-verteilt mit n 2 Freiheitsgraden. Die Nullhypothese wird abgelehnt, wenn der Betrag der Testgröße größer als der kritische Wert der t-verteilung ist (bei gegebenem Signifikanzniveau).

16 Multivariate Verfahren, Brüderl 16 Meist jedoch ist man nur daran interessiert, ob X überhaupt einen Einfluß auf Y ausübt (H : ). Dann lautet die Testgröße t /. Auf dem 95%-Niveau bei großen Fallzahlen (n 5) beträgt der kritische Wert Ist somit t 1. 96, können wir die Nullhypothese ablehnen und sprechen von einem signifikanten Effekt der Variable X. Beispiel: Einkommen in Abhängigkeit von Bildung Source SS df MS Number of obs F( 1, 1469) Model Prob F. Residual e R-squared Adj R-squared.1281 Total e Root MSE eink Coef. Std. Err. t P t [95% Conf. Interval] bild cons Der Modellfit fällt mit R für sozialwissenschaftliche Verhältnisse gut aus. Allerdings zeigt 168 DM, daß die Residuen stark um die Regressionsgerade streuen. Für Prognosezwecke wäre dieses Modell unbrauchbar. Inhaltlich sehen wir, daß das Einkommen um 228,- DM pro Bildungsjahr steigt (genauer: der bedingte Erwartungswert). Hilfreich ist es, die Regressionsgerade in ein Streudiagramm einzuzeichnen (blau). Ein Vergleich mit der Lowess-Kurve (grün) zeigt nur zum Schluß hin Abweichungen DM Bildung

17 Multivariate Verfahren, Brüderl 17 4) Das multiple Regressionsmodell Die Regression wird zu einem multivariaten Analyseverfahren, wenn man mehr als eine uv einbezieht. Man spricht dann von multipler Regression: y i 1 x i1 2 x i2 p x ip i, i 1,,n. heißt Regressionskonstante. Die anderen Regressionskoeffizienten definieren eine p-dimensionale Regressionsebene. Interpretation: j gibt an, um wieviel Einheiten sich Y ändert, wenn sich X j um eine Einheit erhöht, unter Kontrolle der anderen im Modell enthaltenen X-Variablen. j sagt uns, welcher Effekt verbleibt, wenn wir für die anderen uvs kontrollieren. Damit ist die multiple Regression das ideale multivariate Analyseverfahren: wir fügen dem Modell einfach alle uvs hinzu, von denen wir vermuten, daß von ihnen eine Scheinkorrelation bzw. Intervention ausgehen könnte. Beispiel: Statuszuweisungsmodell (ALLBUS 94) Blau/Duncan (1967) The American Occupational Structure. Wie erlangt man seine soziale Position? Durch achievement oder Statusvererbung? Abhängige Variable ist Einkommen (nur Westdeutsche, Vollzeit). Der Status des Vaters wird mit der Magnitudeprestigeskala gemessen (Werte von 2-19), das achievement durch die eigene Schul- und Berufsbildung (Werte von 9-22). Fehler 1 Das Statuszuweisungsmodell Fehler 2 (1) (2) Konstante Prestige Vater 12,7 3,4 Bildung 246 R 2,5,19 N

18 Multivariate Verfahren, Brüderl 18 Der bivariate Effekt (Gesamteffekt) des Prestiges des Vaters wird deutlich kleiner, wenn man für Bildung kontrolliert (Intervention). Offensichtlich ist ein großer Teil des Herkunftseffektes über Bildung vermittelt (indirekter Effekt). Der direkte Effekt ist nicht mehr allzu groß. Zur Verdeutlichung des Gesamtmodells kann man die standardisierten Regressionskoeffizienten in das Kausalmodell eintragen (Pfaddiagramm). Die standardisierten Koeffizienten können verglichen werden. Fehler 1,42,4,6 Fehler 2 Das Pfaddiagramm Das Regressionsmodell (2)

19 Multivariate Verfahren, Brüderl 19 Standardisierte (einfache) Regressionskoeffizienten Will man die j vergleichen, so standardisiert man Y und X (Z-Transformation): y i y i y s Y, x i x i x s X. Die Regressionsgleichung lautet nun y i x i i. Gesucht sind und die standardisierten Regressionskoeffizienten. Es ergibt sich y x, s X Y s XY 2 s s X X s Y r. Dies zeigt, daß r gleich dem standardisierten Regressionskoeffizienten ist (gilt nur bei der einfachen Regression!). Beziehung von und : Es gilt s X sy. "Mechanik" der Drittvariablenkontrolle Um zu verstehen, was bei der Kontrolle einer weiteren uv passiert, betrachten wir den Spezialfall mit zwei uvs. Korrelieren X 1 und X 2, so müssen die wechselseitigen indirekten Effekte herausgerechnet werden. Im Prinzip werden dazu die tatsächlichen Werte von X j ersetzt durch die Residuen, die man aus einer Regression mit X j als Regressand und den anderen uvs als Regressoren erhält. Es resultieren diese Schätzformeln: 1 r yx 1 r yx2 r x1 x 2 1 r2 x1 x 2 2 r yx 2 r yx1 r x1 x 2 1 r2 x1 x 2 y 1 x 1 2 x s y s x1 s y s x2. Man erkennt, daß für r x1 x 2 die selbe Formel wie im bivariaten Fall resultiert. Für r x1 x 2 wird die bivariate Korrelation korrigiert um den indirekten Effekt.

20 Multivariate Verfahren, Brüderl 2 5) Das Regressionsmodell in Matrix-Notation y 1 1 x11 x1p 1 y y 2,X 1 x21 x2p, 1, 2. y n 1 xn1 xnp p n y X. Annahmen der Regressionsanalyse N n, 2 I Cov x, rg X p 1. Schätzung Mittels der KQ-Methode erhält man die Schätzer für, X X 1 X y. Mit denen kann man die gefitteten Werte schätzen y X X X X 1 X y Hy. Die geschätzten Fehlerterme (die Residuen) sind y y y Hy I H y. Die Residualvarianz ergibt sich aus 2 n p 1 y y y X n p 1. Zum Testen der Regressionskoeffizienten benötigt man deren Stichprobenvarianzen ( 2 j stehen auf der Hauptdiagonalen): Das Bestimmtheitsmaß ist R 2 ESS TSS 1 RSS TSS 1 V 2 X X 1. 2 i y i y 2 1 y y n y 2.

21 Multivariate Verfahren, Brüderl 21 Exkurs: Matrixalgebra Eine Matrix A der Dimension 3 2: A , A Ein Spaltenvektor y und der Zeilenvektor y : y 2 1 5, y Spezielle Matrizen: Quadratische Matrizen: Zeilenzahl gleich Spaltenzahl Symmetrische Matrizen: Elemente unter und über der Hauptdiagonalen entsprechen sich (nur quadratische Matrizen) Diagonalmatrix: nur auf der Hauptdiagonalen Elemente ungleich Einheitsmatrix: Diagonalmatrix mit Elementen gleich eins (I) Nullmatrix: alle Elemente gleich null () Skalar: 1 1 Matrix (Zahl) Matrixoperationen Gleichheit: Alle Elemente sind gleich Matrixaddition: Die Summe zweier Matrizen A B (gleiche Dimension) ist die Summe der einzelnen Elemente Es gilt: A B B A. Skalarmultiplikation: 2 B

22 Multivariate Verfahren, Brüderl Matrixmultiplikation: AB C (r s s t r t) Es gilt: AB BA (geht sowieso nur bei quadratischen Matrizen). Es gilt: AI IA A. Es gilt: A B B A. Skalarprodukt: a b b a a i b i, (y y y i 2 ) Determinanten Nur bei quadratischen Matrizen. Am einfachsten bei Bei höheren Dimensionen: Man bildet die gewichtete Summe der Elemente einer Zeile (oder Spalte). Die Gewichte sind die Kofaktoren (Determinanten der Elemente der Matrix, die nicht in der gleichen Zeile und Spalte stehen). Das Vorzeichen der Kofaktoren ergibt sich aus der Summe der Zeilen- und Spaltenindizes des Elements (gerade, ungerade -) Eine Matrix mit Determinante von bezeichnet man als singuläre Matrix. Dies resultiert daraus, daß sich eine Zeile

23 Multivariate Verfahren, Brüderl 23 (Spalte) als Linearkombination einer oder mehrerer Zeilen (Spalten) darstellen läß t Der Rang einer quadratischen Matrix rg A ist die maximale Zahl der linear unabhängigen Zeilen. Sind alle Zeilen unabhängig, so hat die Matrix vollen Rang. Es gilt: rg A A rg A Eigenschaften: A A AB A B Matrixinversion Nur bei quadratischen Matrizen: AA 1 A 1 A I. A 1 A 1 adj A. Die adjunkte Matrix von A ist die Matrix, bei der alle Elemente durch ihre Kofaktoren ersetzt werden und anschließend transponiert wird Eigenschaften: Inverse nur bei Matrizen mit vollem Rang ( A ) A 1 A 1 AB 1 B 1 A 1 Gilt AA I, so heißt A orthogonal

24 Multivariate Verfahren, Brüderl 24 Lineare Gleichungssysteme Mittels der Matrixinversion kann man lineare Gleichungssysteme lösen x 1 2x 2 x 3 1 3x 1 x 2 x 3 5 4x 1 3x 2 2x 3 2. Setzen wir A , x x 1 x 2, c x , so können wir das Gleichungssystem schreiben als Ax c. Die Lösung erhalten wir durch Vormultiplikation mit der Inversen A 1 Ax A 1 c x A 1 c. Daraus ergibt sich x Eigenwerte und Eigenvektoren A sei n n. heißt Eigenwert und x Eigenvektor, wenn folgende Gleichung erfüllt ist Ax x A I x. Es gibt n, nicht notwendig verschiedene Eigenwerte und dazugehörende Eigenvektoren. Quadratische Form A sei n n, dann heißt x Ax quadratische Form. Es gilt x Ax 2Ax. x

25 Multivariate Verfahren, Brüderl 25 Ableitung der OLS-Schätzer Das Regressionsmodell lautet y X. Die OLS-Schätzer von erhalten wir, indem wir die Summe der Residuenquadrate minimieren min i2 min. Es gilt y X y X y y y X X y X X y y 2y X X X. Jedes Produkt der rechten Gleichungen ist ein Skalar, weshalb X y y X. Leiten wir nun ab, so erhalten wir 2X y 2 X X. Nullsetzen und umformen liefert die Normalgleichungen X X X y. Hat X vollen Rang, so können wir dieses lineare Gleichungssystem eindeutig lösen X X 1 X y. Normalgleichungen für p 2: n x 1 x 2 y x 1 2 x 1 x 2 x 1 x 2 x 1 x 2 2 x yx 1 yx 2. Hieran erkennt man, daß sich hinter der Matrixform der Normalgleichungen ein Gleichungssystem verbirgt, daß analog wie bei der einfachen Regression aufgebaut ist.

26 Multivariate Verfahren, Brüderl 26 6) Praktische Regressionsanalyse In diesem Kapitel werden einige Ergänzungen besprochen, die für den praktischen Umgang mit Regressionen wichtig sind. Signifikanztests Test der Signifikanz des Gesamtmodells (overall F-Test) Man kann testen, ob alle X-Variablen zusammen zur Erklärung von Y beitragen. Die H ist, daß keine X-Variable einen Einfluß auf Y zeigt: H : 1 2 p, H 1 : j, für mind. ein j. Man berechnet hierzu folgende F-Teststatistik: F ESS RSS n p 1 p R 2 1 R 2 n p 1 p F p, n p 1. Die H wird abgelehnt, falls F F 1 p, n p 1. Wird die H abgelehnt, so spricht man oft salopp von der,,signifikanz des Regressionsmodells Test der Signifikanz mehrerer Effekte (incremental F-Fest) Manchmal will man testen, ob eine Teilmenge der Regressionskoeffizienten einen signifikanten Einfluß hat: H : 1 2 k, mit 1 k p. Gilt die H, so hat man ein Regressionsmodell, in dem die ersten k uvs fehlen (Nullmodell). Man verwendet auch hier einen F-Test, bei dem man im Prinzip das R 2 aus dem Nullmodell (R 2 ) mit dem aus dem Vollmodell (R 2 1 ) vergleicht F R 1 2 R 2 1 R 1 2 n p 1 k F k, n p 1. Man testet im Prinzip den Anstieg von R 2 vom Null- zum Vollmodell (beim overall F-Test ist das Nullmodell das Modell mit nur der Konstanten, also R 2, k p). Im Fall k 1, ist der incremental F-Test äquivalent zum t-test ( F t).

27 Multivariate Verfahren, Brüderl 27 Test der Signifikanz eines Regressionskoeffizienten (t-test) Die H ist, daß die Variable X j keinen Einfluß auf Y hat H : j, H 1 : j. Die Teststatistik ist t j j t n p 1. Die H wird abgelehnt, falls t t 1 /2 n p 1. Für n 5 können wir das entsprechende z-quantil verwenden. Können wir die H verwerfen, so sprechen wir davon, daß die Variable X j einen signifikanten Einfluß auf Y zeigt. Beispiel: Einkommensregression Die Humankapitaltheorie sagt voraus, daß das Einkommen abhängt vom allgemeinen Humankapital (Schulbildung, Berufserfahrung) und vom spezifischen Humankapital (Erfahrung im gegenwärtigen Job). Einkommen ist das monatliche Nettoeinkommen des Befragten in DM. Indikator für allg. HK ist Zahl der Schuljahre (BILD). Jahre der Berufserfahrung (EXP) mißt allg. und spez. HK. Wir engen die Stichprobe ein auf 1) ganztägig hauptberufliche, 2) jährige und 3) nicht in Ausbildung befindliche Erwerbstätige. Source SS df MS Number of obs F( 3, 1236) Model Prob F. Residual e R-squared Adj R-squared.1594 Total 3.551e Root MSE eink Coef. Std. Err. t P t [95% Conf. Interval] bild exp prest _cons

Kategoriale abhängige Variablen: Logit- und Probit -Modelle. Statistik II

Kategoriale abhängige Variablen: Logit- und Probit -Modelle. Statistik II Kategoriale abhängige Variablen: Logit- und Probit -Modelle Statistik II Wiederholung Literatur Annahmen und Annahmeverletzungen Funktionen Exponenten, Wurzeln usw. Das Problem Das binäre Logit-Modell

Mehr

Institut für Soziologie. Methoden 2. Regressionsanalyse I: Einfache lineare Regression

Institut für Soziologie. Methoden 2. Regressionsanalyse I: Einfache lineare Regression Institut für Soziologie Methoden 2 Regressionsanalyse I: Einfache lineare Regression Programm Anwendungsbereich Vorgehensweise Interpretation Annahmen Zusammenfassung Übungsaufgabe Literatur # 2 Anwendungsbereich

Mehr

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren)

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Multiple Regression 1 Was ist multiple lineare Regression? Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Annahme: Der Zusammenhang

Mehr

Multiple Regression II: Signifikanztests, Gewichtung, Multikollinearität und Kohortenanalyse

Multiple Regression II: Signifikanztests, Gewichtung, Multikollinearität und Kohortenanalyse Multiple Regression II: Signifikanztests,, Multikollinearität und Kohortenanalyse Statistik II Übersicht Literatur Kausalität und Regression Inferenz und standardisierte Koeffizienten Statistik II Multiple

Mehr

Inhaltsverzeichnis. Regressionsanalyse. http://mesosworld.ch - Stand vom: 20.1.2010 1

Inhaltsverzeichnis. Regressionsanalyse. http://mesosworld.ch - Stand vom: 20.1.2010 1 Inhaltsverzeichnis Regressionsanalyse... 2 Lernhinweise... 2 Einführung... 2 Theorie (1-8)... 2 1. Allgemeine Beziehungen... 3 2. 'Best Fit'... 3 3. 'Ordinary Least Squares'... 4 4. Formel der Regressionskoeffizienten...

Mehr

Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall )

Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall ) Zusammenhänge von Variablen Regressionsanalysen linearer Zusammenhang ( Idealfall ) kein Zusammenhang nichtlinearer monotoner Zusammenhang (i.d.regel berechenbar über Variablentransformationen mittels

Mehr

Korrelation - Regression. Berghold, IMI

Korrelation - Regression. Berghold, IMI Korrelation - Regression Zusammenhang zwischen Variablen Bivariate Datenanalyse - Zusammenhang zwischen 2 stetigen Variablen Korrelation Einfaches lineares Regressionsmodell 1. Schritt: Erstellung eines

Mehr

29. Mai 2006. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt.

29. Mai 2006. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt. L. Fahrmeir, C. Belitz Department für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit Wahlfach Statistik 29. Mai 2006 Hinweise:

Mehr

Multivariate Statistik

Multivariate Statistik Hermann Singer Multivariate Statistik 1 Auflage 15 Oktober 2012 Seite: 12 KAPITEL 1 FALLSTUDIEN Abbildung 12: Logistische Regression: Geschätzte Wahrscheinlichkeit für schlechte und gute Kredite (rot/blau)

Mehr

Zeitreihen. Statistik II

Zeitreihen. Statistik II Statistik II Wiederholung Literatur -Daten Trends und Saisonalität Fehlerstruktur Statistik II (1/31) Wiederholung Literatur -Daten Trends und Saisonalität Fehlerstruktur Statistik II (1/31) Zum Nachlesen

Mehr

Multinomiale logistische Regression

Multinomiale logistische Regression Multinomiale logistische Regression Die multinomiale logistische Regression dient zur Schätzung von Gruppenzugehörigkeiten bzw. einer entsprechenden Wahrscheinlichkeit hierfür, wobei als abhänginge Variable

Mehr

Modul G.1 WS 07/08: Statistik 17.01.2008 1. Die Korrelation ist ein standardisiertes Maß für den linearen Zusammenhangzwischen zwei Variablen.

Modul G.1 WS 07/08: Statistik 17.01.2008 1. Die Korrelation ist ein standardisiertes Maß für den linearen Zusammenhangzwischen zwei Variablen. Modul G.1 WS 07/08: Statistik 17.01.2008 1 Wiederholung Kovarianz und Korrelation Kovarianz = Maß für den linearen Zusammenhang zwischen zwei Variablen x und y Korrelation Die Korrelation ist ein standardisiertes

Mehr

ε heteroskedastisch BINARY CHOICE MODELS Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS?

ε heteroskedastisch BINARY CHOICE MODELS Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS? BINARY CHOICE MODELS 1 mit Pr( Y = 1) = P Y = 0 mit Pr( Y = 0) = 1 P Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS? Y i = X i β + ε i Probleme: Nonsense Predictions

Mehr

2. Korrelation, lineare Regression und multiple Regression

2. Korrelation, lineare Regression und multiple Regression multiple 2.2 Lineare 2.2 Lineare 1 / 130 2.2 Lineare 2 / 130 2.1 Beispiel: Arbeitsmotivation Untersuchung zur Motivation am Arbeitsplatz in einem Chemie-Konzern 25 Personen werden durch Arbeitsplatz zufällig

Mehr

Kommentierter SPSS-Ausdruck zur logistischen Regression

Kommentierter SPSS-Ausdruck zur logistischen Regression Daten: POK V AG 3 (POKV_AG3_V07.SAV) Kommentierter SPSS-Ausdruck zur logistischen Regression Fragestellung: Welchen Einfluss hat die Fachnähe und das Geschlecht auf die interpersonale Attraktion einer

Mehr

Kapitel 4: Binäre Regression

Kapitel 4: Binäre Regression Kapitel 4: Binäre Regression Steffen Unkel (basierend auf Folien von Nora Fenske) Statistik III für Nebenfachstudierende WS 2013/2014 4.1 Motivation Ausgangssituation Gegeben sind Daten (y i, x i1,...,

Mehr

Univariate Lineare Regression. (eine unabhängige Variable)

Univariate Lineare Regression. (eine unabhängige Variable) Univariate Lineare Regression (eine unabhängige Variable) Lineare Regression y=a+bx Präzise lineare Beziehung a.. Intercept b..anstieg y..abhängige Variable x..unabhängige Variable Lineare Regression y=a+bx+e

Mehr

Probeklausur Zeitreihenökonometrie (Sommersemester 2014) 1

Probeklausur Zeitreihenökonometrie (Sommersemester 2014) 1 Probeklausur Zeitreihenökonometrie (Sommersemester 2014) 1 Aufgabe 1: Betrachtet wird folgendes Modell zur Erklärung des Managergehalts salary durch den Umsatz sales, die Eigenkapitalrendite roe und die

Mehr

9. Schätzen und Testen bei unbekannter Varianz

9. Schätzen und Testen bei unbekannter Varianz 9. Schätzen und Testen bei unbekannter Varianz Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Schätzen und Testen bei unbekannter Varianz Wenn wir die Standardabweichung σ nicht kennen,

Mehr

Lehrstuhl für Statistik und empirische Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Prüfung im Fach Ökonometrie im WS 2011/12 Lösungsskizze

Lehrstuhl für Statistik und empirische Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Prüfung im Fach Ökonometrie im WS 2011/12 Lösungsskizze Lehrstuhl für Statistik und empirische irtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Prüfung im ach Ökonometrie im S 20/2 Lösungsskizze Aufgabe (.5 Punkte) Sie verfügen über einen Datensatz, der Informationen

Mehr

Binäre abhängige Variablen

Binäre abhängige Variablen Binäre abhängige Variablen Thushyanthan Baskaran thushyanthan.baskaran@awi.uni-heidelberg.de Alfred Weber Institut Ruprecht Karls Universität Heidelberg Einführung Oft wollen wir qualitative Variablen

Mehr

Kapitel 3: Interpretationen

Kapitel 3: Interpretationen Kapitel 3: 1. Interpretation von Outputs allgemein... 1 2. Interpretation von Signifikanzen... 1 2.1. Signifikanztests / Punktschätzer... 1 2.2. Konfidenzintervalle... 2 3. Interpretation von Parametern...

Mehr

8. Februar 2007. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt.

8. Februar 2007. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt. L. Fahrmeir, C. Belitz Department für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit Wahlfach Statistik 8. Februar 2007 Hinweise:

Mehr

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 1 Einführung in die statistische Datenanalyse Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 2 Gliederung 1.Grundlagen 2.Nicht-parametrische Tests a. Mann-Whitney-Wilcoxon-U Test b. Wilcoxon-Signed-Rank

Mehr

Fragen und Antworten zu Kapitel 18

Fragen und Antworten zu Kapitel 18 Fragen und Antworten zu Kapitel 18 (1) Nennen Sie verschiedene Zielsetzungen, die man mit der Anwendung der multiplen Regressionsanalyse verfolgt. Die multiple Regressionsanalyse dient der Kontrolle von

Mehr

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik Ludwig Fahrmeir, Nora Fenske Institut für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik 29. März 21 Hinweise:

Mehr

3.2 Bivariate Verteilungen

3.2 Bivariate Verteilungen 3.2 Bivariate Verteilungen zwei Variablen X, Y werden gemeinsam betrachtet (an jedem Objekt i, i = 1,..., n, werden gleichzeitig zwei Merkmale beobachtet) Beobachtungswerte sind Paare/Kombinationen von

Mehr

Einseitig gerichtete Relation: Mit zunehmender Höhe über dem Meeresspiegel sinkt im allgemeinen die Lufttemperatur.

Einseitig gerichtete Relation: Mit zunehmender Höhe über dem Meeresspiegel sinkt im allgemeinen die Lufttemperatur. Statistik Grundlagen Charakterisierung von Verteilungen Einführung Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsverteilungen Schätzen und Testen Korrelation Regression Einführung Die Analyse und modellhafte

Mehr

Christian FG Schendera. Regressionsanalyse. mit SPSS. 2. korrigierte und aktualisierte Auflage DE GRUYTER OLDENBOURG

Christian FG Schendera. Regressionsanalyse. mit SPSS. 2. korrigierte und aktualisierte Auflage DE GRUYTER OLDENBOURG Christian FG Schendera Regressionsanalyse mit SPSS 2. korrigierte und aktualisierte Auflage DE GRUYTER OLDENBOURG Inhalt Vorworte V 1 Korrelation 1 1.1 Einführung 1 1.2 Erste Voraussetzung: Das Skalenniveau

Mehr

Einführung in die Vektor- und Matrizenrechnung. Matrizen

Einführung in die Vektor- und Matrizenrechnung. Matrizen Einführung in die Vektor- und Matrizenrechnung Matrizen Definition einer Matrix Unter einer (reellen) m x n Matrix A versteht man ein rechteckiges Schema aus reellen Zahlen, die wie folgt angeordnet sind:

Mehr

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen 4. Datenanalyse und Modellbildung Deskriptive Statistik 2-1 2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen Für die Auswertung einer Messreihe, die in Form

Mehr

Das Dialogfeld für die Regressionsanalyse ("Lineare Regression") findet sich im Statistik- Menu unter "Regression"-"Linear":

Das Dialogfeld für die Regressionsanalyse (Lineare Regression) findet sich im Statistik- Menu unter Regression-Linear: Lineare Regression Das Dialogfeld für die Regressionsanalyse ("Lineare Regression") findet sich im Statistik- Menu unter "Regression"-"Linear": Im einfachsten Fall werden mehrere Prädiktoren (oder nur

Mehr

Einfache Statistiken in Excel

Einfache Statistiken in Excel Einfache Statistiken in Excel Dipl.-Volkswirtin Anna Miller Bergische Universität Wuppertal Schumpeter School of Business and Economics Lehrstuhl für Internationale Wirtschaft und Regionalökonomik Raum

Mehr

Übungsserie Nr. 10 mit Lösungen

Übungsserie Nr. 10 mit Lösungen Übungsserie Nr. 10 mit Lösungen 1 Ein Untersuchungsdesign sieht einen multivariaten Vergleich einer Stichprobe von Frauen mit einer Stichprobe von Männern hinsichtlich der Merkmale X1, X2 und X3 vor (Codierung:

Mehr

3 Zusammenhangsmaße Zusammenhangshypothesen

3 Zusammenhangsmaße Zusammenhangshypothesen 3 Zusammenhangsmaße Zusammenhangshypothesen Zusammenhänge (zwischen 2 Variablen) misst man mittels Korrelationen. Die Wahl der Korrelation hängt ab von: a) Skalenniveau der beiden Variablen: 1) intervallskaliert

Mehr

Quantitative Methoden der Bildungsforschung

Quantitative Methoden der Bildungsforschung Glieung Wieholung Korrelationen Grundlagen lineare Regression Lineare Regression in SPSS Übung Wieholung Korrelationen Standardisiertes Zusammenhangsmaß (unstandardisiert: Kovarianz) linearer Zusammenhang

Mehr

Elemente der Analysis II

Elemente der Analysis II Elemente der Analysis II Kapitel 3: Lineare Abbildungen und Gleichungssysteme Informationen zur Vorlesung: http://www.mathematik.uni-trier.de/ wengenroth/ J. Wengenroth () 15. Mai 2009 1 / 35 3.1 Beispiel

Mehr

Abhängigkeit zweier Merkmale

Abhängigkeit zweier Merkmale Abhängigkeit zweier Merkmale Johannes Hain Lehrstuhl für Mathematik VIII Statistik 1/33 Allgemeine Situation Neben der Untersuchung auf Unterschiede zwischen zwei oder mehreren Untersuchungsgruppen hinsichtlich

Mehr

6.1 Grundbegriffe und historischer Hintergrund

6.1 Grundbegriffe und historischer Hintergrund Kapitel 6 Regression 61 Grundbegriffe und historischer Hintergrund Bedeutung der Regression: Eines der am häufigsten verwendeten statistischen Verfahren Vielfache Anwendung in den Sozialwissenschaften

Mehr

Eine computergestützte Einführung mit

Eine computergestützte Einführung mit Thomas Cleff Deskriptive Statistik und Explorative Datenanalyse Eine computergestützte Einführung mit Excel, SPSS und STATA 3., überarbeitete und erweiterte Auflage ^ Springer Inhaltsverzeichnis 1 Statistik

Mehr

Diskriminanzanalyse Beispiel

Diskriminanzanalyse Beispiel Diskriminanzanalyse Ziel bei der Diskriminanzanalyse ist die Analyse von Gruppenunterschieden, d. h. der Untersuchung von zwei oder mehr Gruppen hinsichtlich einer Vielzahl von Variablen. Diese Methode

Mehr

Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel

Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel 16.11.01 MP1 - Grundlagen quantitativer Sozialforschung - (4) Datenanalyse 1 Gliederung Datenanalyse (inferenzstatistisch)

Mehr

Master of Science in Pflege

Master of Science in Pflege Master of Science in Pflege Modul: Statistik Einfache und multiple Regressionsanalyse / Logistische Regressionsanalyse November 2012 Prof. Dr. Jürg Schwarz Folie 2 Programm 28. November 2012: Vormittag

Mehr

8. Methoden der klassischen multivariaten Statistik

8. Methoden der klassischen multivariaten Statistik 8. Methoden der klassischen multivariaten Statistik 8.1. Darstellung von Daten Voraussetzungen auch in diesem Kapitel: Grundgesamtheit (Datenraum) Ω von Objekten (Fällen, Instanzen), denen J-Tupel von

Mehr

Häufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln

Häufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln Häufigkeitstabellen Menüpunkt Data PivotTable Report (bzw. entsprechendes Icon): wähle Data Range (Zellen, die die Daten enthalten + Zelle mit Variablenname) wähle kategoriale Variable für Spalten- oder

Mehr

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50,7 50 51,5 51,7 48,8

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50,7 50 51,5 51,7 48,8 1. Aufgabe: Eine Reifenfirma hat für Winterreifen unterschiedliche Profile entwickelt. Bei jeweils gleicher Geschwindigkeit und auch sonst gleichen Bedingungen wurden die Bremswirkungen gemessen. Die gemessenen

Mehr

Übungen zur Ingenieur-Mathematik III WS 2009/10 Blatt 10 21.12.2009

Übungen zur Ingenieur-Mathematik III WS 2009/10 Blatt 10 21.12.2009 Übungen zur Ingenieur-Mathematik III WS 2009/10 Blatt 10 21.12.2009 Aufgabe 35: Thema: Singulärwertzerlegung und assoziierte Unterräume Sei A eine m n Matrix mit Rang r und A = UDV T ihre Singulärwertzerlegung.

Mehr

6. METRISCHE UND KATEGORIALE MERKMALE

6. METRISCHE UND KATEGORIALE MERKMALE 6. METRISCHE UND KATEGORIALE MERKMALE wenn an einer Beobachtungseinheit eine (oder mehrere) metrische und eine (oder mehrere) kategoriale Variable(n) erhoben wurden Beispiel: Haushaltsarbeit von Teenagern

Mehr

Abschlussklausur (60 Minuten), 15. Juli 2014

Abschlussklausur (60 Minuten), 15. Juli 2014 Prof. Dr. Amelie Wuppermann Volkswirtschaftliche Fakultät Universität München Sommersemester 2014 Empirische Ökonomie 1 Abschlussklausur (60 Minuten), 15. Juli 2014 Bearbeitungshinweise Die Bearbeitungszeit

Mehr

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft Prof. Dr. Helmut Küchenhoff SS08 90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft am 22.7.2008 Anmerkungen Überprüfen Sie bitte sofort, ob Ihre Angabe vollständig ist. Sie sollte

Mehr

Kapitel 23 Lineare Regression

Kapitel 23 Lineare Regression Kapitel 23 Lineare Regression Sowohl einfache als auch multiple Regressionsanalysen können Sie mit dem Befehl STATISTIK REGRESSION LINEAR... durchführen. Dabei lassen sich mit Hilfe diverser Optionen zahlreiche

Mehr

Beispiel für eine multivariate Varianzanalyse (MANOVA) Daten: POKIV_Terror_V12.sav

Beispiel für eine multivariate Varianzanalyse (MANOVA) Daten: POKIV_Terror_V12.sav Beispiel für eine multivariate Varianzanalyse () Daten: POKIV_Terror_V12.sav Es soll überprüft werden, inwieweit das ATB-Syndrom (Angst vor mit den drei Subskalen affektive Angst von, Terrorpersistenz,

Mehr

Varianzanalyse ANOVA

Varianzanalyse ANOVA Varianzanalyse ANOVA Johannes Hain Lehrstuhl für Mathematik VIII Statistik 1/23 Einfaktorielle Varianzanalyse (ANOVA) Bisher war man lediglich in der Lage, mit dem t-test einen Mittelwertsvergleich für

Mehr

(2) Mittels welcher Methode ist es im ALM möglich kategoriale Variablen als Prädiktoren in eine Regressionsgleichung zu überführen?

(2) Mittels welcher Methode ist es im ALM möglich kategoriale Variablen als Prädiktoren in eine Regressionsgleichung zu überführen? Beispielaufgaben LÖSUNG (1) Grenzen Sie eine einfache lineare Regression von einem Random Intercept Modell mit nur einem Level1-Prädiktor ab! a. Worin unterscheiden sich die Voraussetzungen? - MLM braucht

Mehr

5.2. Nichtparametrische Tests. 5.2.1. Zwei unabhängige Stichproben: U- Test nach MANN- WHITNEY

5.2. Nichtparametrische Tests. 5.2.1. Zwei unabhängige Stichproben: U- Test nach MANN- WHITNEY 5.2. Nichtparametrische Tests 5.2.1. Zwei unabhängige Stichproben: U- Test nach MANN- WHITNEY Voraussetzungen: - Die Verteilungen der beiden Grundgesamtheiten sollten eine ähnliche Form aufweisen. - Die

Mehr

Willkommen zur Vorlesung Statistik

Willkommen zur Vorlesung Statistik Willkommen zur Vorlesung Statistik Thema dieser Vorlesung: Varianzanalyse Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften Prof. Dr. Wolfgang

Mehr

Log-lineare Analyse I

Log-lineare Analyse I 1 Log-lineare Analyse I Einleitung Die log-lineare Analysemethode wurde von L.A. Goodman in den 60er und 70er Jahren entwickelt. Sie dient zur Analyse von Zusammenhängen in mehrdimensionalen Kontingenztafeln

Mehr

14.01.14 DAS THEMA: INFERENZSTATISTIK II. Standardfehler Konfidenzintervalle Signifikanztests. Standardfehler

14.01.14 DAS THEMA: INFERENZSTATISTIK II. Standardfehler Konfidenzintervalle Signifikanztests. Standardfehler DAS THEMA: INFERENZSTATISTIK II INFERENZSTATISTISCHE AUSSAGEN Standardfehler Konfidenzintervalle Signifikanztests Standardfehler der Standardfehler Interpretation Verwendung 1 ZUR WIEDERHOLUNG... Ausgangspunkt:

Mehr

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18 3. Deskriptive Statistik Ziel der deskriptiven (beschreibenden) Statistik (explorativen Datenanalyse) ist die übersichtliche Darstellung der wesentlichen in den erhobenen Daten enthaltene Informationen

Mehr

Kommentierter SPSS-Output für die multiple Regressionsanalyse (SPSS-Version 17)

Kommentierter SPSS-Output für die multiple Regressionsanalyse (SPSS-Version 17) R.Niketta Multiple Regressionsanalyse Kommentierter SPSS-Output für die multiple Regressionsanalyse (SPSS-Version 17) Daten: Selbstdarstellung und Kontaktsuche in studi.vz (POK VIII, AG 3) Fragestellung:

Mehr

2. Eindimensionale (univariate) Datenanalyse

2. Eindimensionale (univariate) Datenanalyse 2. Eindimensionale (univariate) Datenanalyse Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Kennzahlen, Statistiken In der Regel interessieren uns nicht so sehr die beobachteten Einzeldaten

Mehr

Multivariate Analyseverfahren

Multivariate Analyseverfahren Multivariate Analyseverfahren Logistische Regression Prof. Dr. Stein 14.01.2014 & 20.01.2014 1 / 62 Inhaltsverzeichnis 1 Grundidee 2 3 4 5 2 / 62 Der Erklärungsgegenstand Soziale Forschungsgegenstände

Mehr

Prüfen von Mittelwertsunterschieden: t-test

Prüfen von Mittelwertsunterschieden: t-test Prüfen von Mittelwertsunterschieden: t-test Sven Garbade Fakultät für Angewandte Psychologie SRH Hochschule Heidelberg sven.garbade@hochschule-heidelberg.de Statistik 1 S. Garbade (SRH Heidelberg) t-test

Mehr

Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt!

Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt! Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt! 1 Einführung 2 Wahrscheinlichkeiten kurz gefasst 3 Zufallsvariablen und Verteilungen 4 Theoretische Verteilungen (Wahrscheinlichkeitsfunktion)

Mehr

Die binäre Logistische Regression ein vielseitiges und robustes Analyseinstrument sozialwissenschaftlicher Forschung

Die binäre Logistische Regression ein vielseitiges und robustes Analyseinstrument sozialwissenschaftlicher Forschung Die binäre Logistische Regression ein vielseitiges und robustes Analyseinstrument sozialwissenschaftlicher Forschung Eine Einführung für Anwender - Marcel Erlinghagen - Gelsenkirchen, Oktober 2003 Gliederung

Mehr

Schätzer (vgl. Kapitel 1): Stichprobenmittel X N. Stichprobenmedian X N

Schätzer (vgl. Kapitel 1): Stichprobenmittel X N. Stichprobenmedian X N Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 8.1 Schätzer für Lage- und Skalenparameter und Verteilungsmodellwahl Lageparameter (l(x + a) = l(x) + a): Erwartungswert EX Median von X

Mehr

Fallbeispiel 5: Humankapital und Returns to Education. Seite 1

Fallbeispiel 5: Humankapital und Returns to Education. Seite 1 Fallbeispiel 5: Humankapital und Returns to Education Seite 1 Gliederung Einführung: Wirkungsanalysen in der Wirtschaftspolitik I. Theoretischer Teil 1 Humankapital 2 Returns to Education: Schooling Model

Mehr

klar. Um die zweite Bedingung zu zeigen, betrachte u i U i mit u i = 0. Das mittlere -Zeichen liefert s

klar. Um die zweite Bedingung zu zeigen, betrachte u i U i mit u i = 0. Das mittlere -Zeichen liefert s Nachtrag zur allgemeinen Vektorraum-Theorie. 1.5.15. Direkte Summen. Sei V ein Vektorraum, seien U 1,..., U t Unterräume, wir schreiben V = U 1 U 2 U t = t i=1 U i falls die folgenden beiden Bedingungen

Mehr

Koeffizienten der Logitanalyse. Kurt Holm. Almo Statistik-System www.almo-statistik.de holm@almo-statistik.de kurt.holm@jku.at

Koeffizienten der Logitanalyse. Kurt Holm. Almo Statistik-System www.almo-statistik.de holm@almo-statistik.de kurt.holm@jku.at Koeffizienten der Logitanalyse Kurt Holm Almo Statistik-System www.almo-statistik.de holm@almo-statistik.de kurt.holm@jku.at 1 Kurt Holm Koeffizienten der Logitanalyse Eine häufig gestellte Frage lautet:

Mehr

Verteilungsanalyse. Johannes Hain. Lehrstuhl für Mathematik VIII Statistik 1/35

Verteilungsanalyse. Johannes Hain. Lehrstuhl für Mathematik VIII Statistik 1/35 Verteilungsanalyse Johannes Hain Lehrstuhl für Mathematik VIII Statistik 1/35 Datentypen Als Sammeln von Daten bezeichnet man in der Statistik das Aufzeichnen von Fakten. Erhobene Daten klassifziert man

Mehr

Verteilungsanalyse. Johannes Hain. Lehrstuhl für Mathematik VIII Statistik 1/31

Verteilungsanalyse. Johannes Hain. Lehrstuhl für Mathematik VIII Statistik 1/31 Verteilungsanalyse Johannes Hain Lehrstuhl für Mathematik VIII Statistik 1/31 Datentypen Als Sammeln von Daten bezeichnet man in der Statistik das Aufzeichnen von Fakten. Erhobene Daten klassifziert man

Mehr

Linearer Zusammenhang von Datenreihen

Linearer Zusammenhang von Datenreihen Linearer Zusammenhang von Datenreihen Vielen Problemen liegen (möglicherweise) lineare Zusammenhänge zugrunde: Mein Internetanbieter verlangt eine Grundgebühr und rechnet minutenweise ab Ich bestelle ein

Mehr

Multivariate Zeitreihenanalyse mit EViews 4.1

Multivariate Zeitreihenanalyse mit EViews 4.1 Multivariate Zeitreihenanalyse mit EViews 4.1 Unterlagen für LVen des Instituts für Angewandte Statistic (IFAS) Johannes Kepler Universität Linz Stand: 30. Mai 2005, Redaktion: Frühwirth-Schnatter 1 Deskriptive

Mehr

Statistik im Bachelor-Studium der BWL und VWL

Statistik im Bachelor-Studium der BWL und VWL Max C. Wewel Statistik im Bachelor-Studium der BWL und VWL Methoden, Anwendung, Interpretation Mit herausnehmbarer Formelsammlung ein Imprint von Pearson Education München Boston San Francisco Harlow,

Mehr

Regression mit Gretl Eine erste Einführung 1

Regression mit Gretl Eine erste Einführung 1 Kurzeinführung in Gretl S. 1 Regression mit Gretl Eine erste Einführung 1 Installation: Gretl für das entsprechende Betriebssystem herunterladen und die Setup-Datei ausführen. Hinweis: Für die Benutzung

Mehr

Weitere (wählbare) Kontraste in der SPSS Prozedur Allgemeines Lineares Modell

Weitere (wählbare) Kontraste in der SPSS Prozedur Allgemeines Lineares Modell Einfaktorielle Versuchspläne 27/40 Weitere (wählbare) Kontraste in der SPSS Prozedur Allgemeines Lineares Modell Abweichung Einfach Differenz Helmert Wiederholt Vergleich Jede Gruppe mit Gesamtmittelwert

Mehr

Lineare Modelle in R: Einweg-Varianzanalyse

Lineare Modelle in R: Einweg-Varianzanalyse Lineare Modelle in R: Einweg-Varianzanalyse Achim Zeileis 2009-02-20 1 Datenaufbereitung Wie schon in der Vorlesung wollen wir hier zur Illustration der Einweg-Analyse die logarithmierten Ausgaben der

Mehr

Beispiel: Sonntagsfrage. Einführung in die induktive Statistik. Statistische Tests. Statistische Tests

Beispiel: Sonntagsfrage. Einführung in die induktive Statistik. Statistische Tests. Statistische Tests Beispiel: Sonntagsfrage Vier Wochen vor der österreichischen Nationalratswahl 1999 wurde 499 Haushalten die Sonntagsfrage gestellt: Falls nächsten Sonntag Wahlen wären, welche Partei würden Sie wählen?

Mehr

Institut für Soziologie Dipl.-Soz. Benjamin Gedon. Methoden 2. Logistische Regression I

Institut für Soziologie Dipl.-Soz. Benjamin Gedon. Methoden 2. Logistische Regression I Institut für Soziologie Dipl.-Soz. Methoden 2 Logistische Regression I Programm Ergänzung zu letzter Sitzung: Interpretation nichtlinearer Effekte Anwendungsbereich der logistischen Regression Entwicklung

Mehr

Statistik und Wahrscheinlichkeitsrechnung

Statistik und Wahrscheinlichkeitsrechnung Statistik und Wahrscheinlichkeitsrechnung Übung 2 28.02.2008 1 Inhalt der heutigen Übung Beschreibende Statistik Gemeinsames Lösen der Übungsaufgaben 2.1: Häufigkeitsverteilung 2.2: Tukey Boxplot 25:Korrelation

Mehr

25. Januar 2010. Ruhr-Universität Bochum. Methodenlehre III, WS 2009/2010. Prof. Dr. Holger Dette. 4. Multivariate Mittelwertvergleiche

25. Januar 2010. Ruhr-Universität Bochum. Methodenlehre III, WS 2009/2010. Prof. Dr. Holger Dette. 4. Multivariate Mittelwertvergleiche Ruhr-Universität Bochum 25. Januar 2010 1 / 75 2 / 75 4.1 Beispiel: Vergleich von verschiedenen Unterrichtsmethoden Zwei Zufallsstichproben (A und B) mit je 10 Schülern und 8 Schülern Gruppe A wird nach

Mehr

Teil II. Nichtlineare Optimierung

Teil II. Nichtlineare Optimierung Teil II Nichtlineare Optimierung 60 Kapitel 1 Einleitung In diesem Abschnitt wird die Optimierung von Funktionen min {f(x)} x Ω betrachtet, wobei Ω R n eine abgeschlossene Menge und f : Ω R eine gegebene

Mehr

Statistische Methoden: Tests, Regression und multivariate Verfahren

Statistische Methoden: Tests, Regression und multivariate Verfahren (CM)²-Nachwuchsring, Workshop Statistik, 25.Januar 2013 Statistische Methoden: Tests, Regression und multivariate Verfahren Ralf Korn ((CM)², TU Kaiserslautern, Fraunhofer ITWM) 0. Einige Probleme aus

Mehr

Kontingenzkoeffizient (nach Pearson)

Kontingenzkoeffizient (nach Pearson) Assoziationsmaß für zwei nominale Merkmale misst die Unabhängigkeit zweier Merkmale gibt keine Richtung eines Zusammenhanges an 46 o jl beobachtete Häufigkeiten der Kombination von Merkmalsausprägungen

Mehr

Statistische Verfahren für das Data Mining in einem Industrieprojekt

Statistische Verfahren für das Data Mining in einem Industrieprojekt Statistische Verfahren für das Data Mining in einem Industrieprojekt Thorsten Dickhaus Forschungszentrum Jülich GmbH Zentralinstitut für Angewandte Mathematik Telefon: 02461/61-4193 E-Mail: th.dickhaus@fz-juelich.de

Mehr

Evaluation der Normalverteilungsannahme

Evaluation der Normalverteilungsannahme Evaluation der Normalverteilungsannahme. Überprüfung der Normalverteilungsannahme im SPSS P. Wilhelm; HS SPSS bietet verschiedene Möglichkeiten, um Verteilungsannahmen zu überprüfen. Angefordert werden

Mehr

Lineare Algebra - alles was man wissen muß

Lineare Algebra - alles was man wissen muß Statistik für Bioinformatiker SoSe 3 Rainer Spang Lineare Algebra - alles was man wissen muß Der Titel ist natürlich gelogen, aber was wir hier zusammengetragen haben ist zumindest ein Anfang. Weniger

Mehr

Zusammenhänge zwischen metrischen Merkmalen

Zusammenhänge zwischen metrischen Merkmalen Zusammenhänge zwischen metrischen Merkmalen Darstellung des Zusammenhangs, Korrelation und Regression Daten liegen zu zwei metrischen Merkmalen vor: Datenpaare (x i, y i ), i = 1,..., n Beispiel: x: Anzahl

Mehr

Standardab er des. Testwert = 145.5 95% Konfidenzintervall. T df Sig. (2-seitig) Differenz Untere Obere -2.011 698.045-5.82-11.50 -.14.

Standardab er des. Testwert = 145.5 95% Konfidenzintervall. T df Sig. (2-seitig) Differenz Untere Obere -2.011 698.045-5.82-11.50 -.14. Aufgabe : einfacher T-Test Statistik bei einer Stichprobe Standardfehl Standardab er des Mittelwert weichung Mittelwertes 699 39.68 76.59 2.894 Test bei einer Sichprobe Testwert = 45.5 95% Konfidenzintervall

Mehr

Füllmenge. Füllmenge. Füllmenge. Füllmenge. Mean = 500,0029 Std. Dev. = 3,96016 N = 10.000. 485,00 490,00 495,00 500,00 505,00 510,00 515,00 Füllmenge

Füllmenge. Füllmenge. Füllmenge. Füllmenge. Mean = 500,0029 Std. Dev. = 3,96016 N = 10.000. 485,00 490,00 495,00 500,00 505,00 510,00 515,00 Füllmenge 2.4 Stetige Zufallsvariable Beispiel. Abfüllung von 500 Gramm Packungen einer bestimmten Ware auf einer automatischen Abfüllanlage. Die Zufallsvariable X beschreibe die Füllmenge einer zufällig ausgewählten

Mehr

Unsupervised Kernel Regression

Unsupervised Kernel Regression 9. Mai 26 Inhalt Nichtlineare Dimensionsreduktion mittels UKR (Unüberwachte KernRegression, 25) Anknüpfungspunkte Datamining I: PCA + Hauptkurven Benötigte Zutaten Klassische Kernregression Kerndichteschätzung

Mehr

ALM. Allgemeines lineares Modell. Teil 1. Regressionsanalyse Varianzanalyse Kovarianzanalyse Diskriminanzanalyse. Kurt Holm

ALM. Allgemeines lineares Modell. Teil 1. Regressionsanalyse Varianzanalyse Kovarianzanalyse Diskriminanzanalyse. Kurt Holm ALM Allgemeines lineares Modell Teil 1 Regressionsanalyse Varianzanalyse Kovarianzanalyse Diskriminanzanalyse Kurt Holm Almo Statistik-System www.almo-statistik.de holm@almo-statistik.de kurt.holm@jku.at

Mehr

Forschungspraktikum Gruppenbezogene Menschenfeindlichkeit. Lineare Regression Statistisches Modell Realisierung mit der SPSS-Prozedur Regression

Forschungspraktikum Gruppenbezogene Menschenfeindlichkeit. Lineare Regression Statistisches Modell Realisierung mit der SPSS-Prozedur Regression Forschungspraktikum Gruppenbezogene Menschenfeindlichkeit Lineare Regression Statistisches Realisierung mit der SPSS-Prozedur Regression Statistische Zusammenhangsanalyse Lineare Regression Um zu untersuchen,

Mehr

Analyse bivariater Kontingenztafeln

Analyse bivariater Kontingenztafeln Analyse bivariater Kontingenztafeln Werden zwei kategoriale Merkmale mit nicht zu vielen möglichen Ausprägungen gemeinsam analysiert, so kommen zur Beschreibung der gemeinsamen Verteilung im allgemeinen

Mehr

Datenanalyse und Statistik

Datenanalyse und Statistik Datenanalyse und Statistik p. 1/44 Datenanalyse und Statistik Vorlesung 2 (Graphik I) K.Gerald van den Boogaart http://www.stat.boogaart.de Datenanalyse und Statistik p. 2/44 Daten Schätzung Test Mathe

Mehr

EINFACHE LINEARE REGRESSION MODUL 13 PROSEMINAR DESKRIPTIVE STATISTIK ANALYSE UND DARSTELLUNG VON DATEN I GÜNTER HAIDER WS 1999/2000

EINFACHE LINEARE REGRESSION MODUL 13 PROSEMINAR DESKRIPTIVE STATISTIK ANALYSE UND DARSTELLUNG VON DATEN I GÜNTER HAIDER WS 1999/2000 INSTITUT FÜR ERZIEHUNGSWISSENSCHAFT - UNIVERSITÄT SALZBURG PROSEMINAR DESKRIPTIVE STATISTIK ANALYSE UND DARSTELLUNG VON DATEN I GÜNTER HAIDER WS 1999/2 MODUL 13 EINFACHE LINEARE REGRESSION Erziehungswissenschaft/Haider

Mehr

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table("c:\\compaufg\\kredit.

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table(c:\\compaufg\\kredit. Lösung 16.3 Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit

Mehr

Versuchsauswertung mit Polynom-Regression in Excel

Versuchsauswertung mit Polynom-Regression in Excel Versuchsauswertung mit Polynom-Regression in Excel Aufgabenstellung: Gegeben sei die in Bild 1 gezeigte Excel-Tabelle mit Messwertepaaren y i und x i. Aufgrund bekannter physikalischer Zusammenhänge wird

Mehr

Allgemeine Regressionsanalyse. Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl. deterministisch

Allgemeine Regressionsanalyse. Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl. deterministisch Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 9.1 Allgemeine Regressionsanalyse Daten (X j, Y j ), j = 1,..., N unabhängig Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl.

Mehr

Risikomessung und Value at Risk Wintersemester 2013/14

Risikomessung und Value at Risk Wintersemester 2013/14 Risikomessung und Value at Risk Wintersemester 2013/14 Walter Sanddorf-Köhle Statistik und Ökonometrie Foliensatz Nr. 11 Version vom 24. Januar 2014 1 / 45 6.5.1 Bisherige Vorgehensweise zur Berechnung

Mehr