Lineare Regression. Kapitel Regressionsgerade
|
|
|
- Edith Kurzmann
- vor 7 Jahren
- Abrufe
Transkript
1 Kapitel 5 Lineare Regression 5 Regressionsgerade Eine reelle Zielgröße y hänge von einer reellen Einflussgröße x ab: y = yx) ; zb: Verkauf y eines Produkts in Stückzahl] hängt vom Preis in e] ab Das Modell der Regressionsgeraden setzt eine lineare Abhängigkeit an: yx) = a + b x für alle möglichen Werte x innerhalb eines gewissen Bereichs in der Regel ein Intervall); Interpretation der Regressionsfunktion yx) : Ein Wert x der Einflussgröße bedingt im Mittel den Wert yx) der Zielgröße; die Regressionsgerade stellt die Abhängigkeit der Mittelwerte der Zielgröße von der Einflussgröße dar Die Parameter a und b der Regressionsgeraden sind reelle Konstanten, die aber unbekannt sind und auf Grund von Beobachtungsdaten geschätzt werden müssen Beobachtungsdaten sind Paare: x, y ), x, y ),, x n, y n ) Methode der Kleinsten Quadrate engl Least Squares) Gegeben Beobachtungen: x, y ),, x n, y n ) Passe den Daten eine Gerade yx) = a + b x an mit der Least-Squares-Methode : ) yi a + b x i ) min }} a,b yx i ) Die Optimallösungen â, b heißen LS-Schätzungen für die Parameter a und b, und die lineare Funktion ŷx) = â + b x heißt die LS-Regressionsgerade auf Grund der Beobachtungsdaten) Die Formeln lauten: b = x i x) y i y), wobei x = x i x) n x i, y = n y i â = y b x dh der Punkt x, y) liegt auf der LS-Geraden) Anmerkung: b = s xy s x, wobei s xy = n x i x) y i y), s x = n x i x) 34
2 Kapitel 5: Lineare Regression 35 5 Normalverteilungsmodell der Regressionsgeraden Die Beobachtungswerte y i der Zielgröße werden als Werte von unabhängigen normalverteilten Zufallsvariablen aufgefasst; die Beobachtungswerte x i der Einflussgröße hingegen werden als Konstanten nicht zufallsabhängig) gesehen Genauer: Statistisches Modell: Y,, Y n unabhängige reelle Zufallsvariablen, Y i N a + bx i, σ) i =,, n), a, b R und σ 0, ) sind die Parameter Die Likelihood-Funktion zu Beobachtungsdaten x, y ),, x n, y n ) : n n La, b, σ) = f Yi ;a,b,σy i ) = σ π exp yi σ a + bx i ) ) ) = und die Log-Likelihood-Funktion: ML-Schätzungen σ π la, b, σ) = n ) n exp σ yi a + bx i ) ) ), lnπ) = n lnσ) σ yi a + bx i ) ) Die ML-Schätzungen â und b sind identisch mit den LS-Schätzungen, und σ = n RSS, wobei RSS = yi ŷx i )) und ŷx i ) = â + b x i, i =,, n RSS = Residual Sum of Squares) Es gilt auch: RSS = n y i y) b Bemerkung: x i x) y i y) Eine andere aber für größere n nur wenig von σ abweichende) Schätzung für σ ist auch gebräuchlich: s = n RSS 53 Statistische Eigenschaften der Schätzer Betrachten wir nun die Schätzer, dh die obigen Schätzungen als Zufallsvariablen die Werte y,, y n ersetzt durch die ZV en Y,, Y n ) : b = n ) s x i x) Y i Y ), â = Y b x, σ = n RSS, S = n RSS, x wobei RSS = Yi ŷx i ) ), ŷxi ) = â + b x i Erwartungstreue: Die Schätzer â und b sind erwartungstreue Schätzer für die Parameter a bzw b, und für ein gegebenes x 0 ist ŷx 0 ) = â + b x 0 ein erwartungstreuer Schätzer für yx 0 ) = a + b x 0 S ist ein erwartungstreuer Schätzer für σ
3 Kapitel 5: Lineare Regression 36 Verteilungseigenschaften der Schätzer Eine Linearkombination c â + c b ist normalverteilt mit für gegebene Konstanten c und c, nicht beide gleich Null) E a,b,σ c â + c b) = c a + c b und Var a,b,σ c â + c b) = qx c, c ) σ, c n wobei q x c, c ) = x i ) + c c c x 0 ; x i x) desweiteren für jeden Parameterpunkt a, b, σ)) : n σ S = σ RSS χ n und c â + c b c a + c b) qx c, c ) S t n 54 Konfidenzintervalle für die Parameter Konfidenzintervall für den Parameter γ = c a + c b mit gegeben Konstanten c, c ) Das α)-konfidenzintervall für c a + c b ist: c â + c b tn, α q x c, c ) s, c â + c b + tn, α q ] x c, c ) s wobei s = n RSS, q xc, c ) wie oben und t n, α das α )-Quantil der t n -Verteilung Speziell: Konfidenzintervalle für a und b Das α)-konfidenzintervall für den Parameter a ist: â t n, α q x, 0) s, â + t n, α q ] x, 0) s wobei q x, 0) = n x i ) / ) x i x) Das α)-konfidenzintervall für den Steigungsparameter b ist: b tn, α q x 0, ) s, b + tn, α q ] x 0, ) s / ) wobei q x 0, ) = x i x) Konfidenzintervall für den Parameter σ Das α)-konfidenzintervall für die Standardabweichung σ ist: ] n n s, s χ n, α χ n, α
4 Kapitel 5: Lineare Regression Konfidenzintervalle für die Regression Für ein spezielles x 0 ein möglicher Wert der Einflussgröße) ist yx 0 ) = a + b x 0 der zu erwartende Wert der Zielgröße Die Punkt-)Schätzung hierfür ist ŷx 0 ) = â + b x 0 Nun ist der Parameter yx 0 ) = a + b x 0 eine spezielle Linearkombination c a + c b nämlich mit c = und c = x 0 ), so dass gemäß Abschnitt 54 auch Konfidenzintervalle für yx 0 ) = a + b x 0 resultieren α)-konfidenzintervall für yx 0 ) = a + b x 0 : ŷx 0 ) t n, α q x, x 0 ) s, ŷx 0 ) + t n, α q ] x, x 0 ) s, wobei ŷx 0 ) = â + b x 0 und q x, x 0 ) = n + x 0 x) x i x) Man beachte: Die α)-konfidenz-eigenschaft des Intervalls bezieht sich auf ein gegebenes x 0, nicht aber gleichzeitig auf mehrere mögliche Werte der Einflussgröße Simultane Konfidenzintervalle für die gesamte Regressionsfunktion yx) = a + bx, auch Konfidenzband genannt, sind wie folgt Simultane α)-konfidenzintervalle für die Regressionsgerade yx) = a + b x : ŷx) F,n, α q x, x) s, ŷx) + F,n, α q ] x, x) s, wobei ŷx) = â + b x, q x, x) = x x) + n x i x) und F,n, α das α)-quantil der F,n -Verteilung bezeichnet Ein Prognose-Intervall zum Niveau α) für die Zielgröße unter dem Wert x 0 der Einflussgröße ist ein α)-konfidenzintervall basierend auf den Beobachtungsdaten x i, y i ), i =,, n) für den noch nicht beobachteten) Wert einer Zufallsvariablen Y 0 mit Y 0 N a + bx 0, σ), Y 0, Y,, Y n unabhängig Prognoseintervall zum Niveau α) für eine zukünftige Beobachtung der Zielgröße unter dem Wert x 0 der Einflussgröße : ŷx 0 ) t n, α + q x, x 0 ) s, ŷx 0 ) + t n, α ] + q x, x 0 ) s, wobei ŷx 0 ) und q x, x 0 ) wie oben unter Konfidenzintervall für yx 0 ) )
5 Kapitel 5: Lineare Regression Signifikanztests t-tests für den Steigungsparameter b TP a) H 0 : b b 0 gg H : b b 0 ϕ a] x, y,, x n, y n ) = 0, falls b b0 qx 0, ) s t n, α TP b) H 0 : b b 0 gg H : b < b 0 ϕ b] x, y,, x n, y n ) = 0, falls b b0 qx 0, ) s < t n, α TP ) H 0 : b = b 0 gg H : b b 0 ϕ ] x, y,, x n, y n ) = 0, falls b b0 qx 0, ) s t n, α / Dabei ist jeweils b 0 ein gegebener Wert, und es bezeichnet wie oben q x 0, ) = x i x) ) χ -Tests für die Varianz σ TP a) H 0 : σ σ 0 gg H : σ σ 0 ϕ a] x, y,, x n, y n ) = 0, falls n ) s σ 0 χ n, α TP b) H 0 : σ σ 0 gg H : σ < σ 0 ϕ b] x, y,, x n, y n ) = 0, falls n ) s σ 0 < χ n, α TP ) H 0 : σ = σ 0 gg H : σ σ 0 ϕ ] x, y,, x n, y n ) = 0, falls n ) s σ 0 χ n, α, χ n, α ] Der Wert σ 0 ist jeweils ein vorgegebener Wert 57 Güte der Anpassung Oft verwendet wird das Bestimmtheitsmaß : Dieses quantifiziert die Güte der Anpassung der geschätzten Regressionsgeraden ŷx) = â + bx an die Beobachtungsdaten x, y ),, x n, y n ) durch eine Zahl zwischen 0 und Das Bestimmtheitsmaß engl Coefficient of Determination): r = RSS 0, ] y i y) Interpretation: r ist die relative Verbesserung der Anpassung durch das Modell der Regressionsgeraden yx) = a + bx bezogen auf das Modell der konstanten Regression yx) = µ konstant) Dabei wird Verbesserung der Anpassung als Verringerung der Fehlerquadratsumme verstanden
6 Kapitel 5: Lineare Regression 39 Denn: r = y i y) n yi ŷx i ) ) y i y) Anmerkung: r ist auch gleich dem quadrierten empirischen Korrelationskoeffizienten: r = r xy, wobei r x,y = s xy s x s y = n x i x) y i y) n x i x) n y i y) 58 Bivariates Normalverteilungsmodell Dies ist ein verwandtes, aber anderes Modell für bivariate also R -wertige) Beobachtungsdaten x, y ), x, y ),, x n, y n ) ; die Paare x i, y i ) werden als Werte von uiv bivariaten normalverteilten Zufallsvariablen X i, Y i ) aufgefasst: X, Y ),, X n, Y n ) uiv N µ, µ, σ, σ, ρ ), µ, µ R, σ, σ 0, ) und ρ 0, ) die Parameter W-theoretischer Einschub: Bivariate Normalverteilung Eine bivariate Zufallsvariable X, Y ) ist normalverteilt mit den Parameterwerten µ, µ R, σ, σ 0, ) und ρ 0, ), wenn sie die folgende Dichtefunktion auf R ) besitzt: fx, y) = πσ σ exp x µ ) y µ ) x µ + ρ ρ ρ y µ ]) ) σ σ σ σ Die Verteilung der bivariaten Zufallsvariablen X, Y ) auch die gemeinsame Verteilung der beiden reellen ZV en X und Y genannt) ist dann gegeben durch die Wahrscheinlichkeiten P X I, Y J ) = fx, y) dy dx für je zwei Intervalle I, J R I J Zur Interpretation der Parameter : µ = EX), µ = EY ), σ = VarX), σ = VarY ), ρ = ρx, Y ), ρ σ σ = CovX, Y ) Im bivariaten Normalverteilungsmodell erhält man als Likelihood-Funktion zu Beobachtungswerten x, y ),, x n, y n ), wobei wir jetzt f µ,µ,σ,σ,ρ statt nur f für die Dichtefunktion schreiben) : n Lµ, µ, σ, σ, ρ) = f µ,µ,σ,σ,ρx i, y i ) = ) n exp πσ σ ρ ρ ) σ i µ ) x + σ y i µ ) ρ σ σ ] ) x i µ )y i µ )
7 Kapitel 5: Lineare Regression 40 Daraus ergibt sich die Log-Likelihood-Funktion: lµ, µ, σ, σ, ρ) = n lnπ) n lnσ ) n lnσ ) n ln ρ ) ρ )σ x i µ ) ρ )σ y i µ ) ρ + ρ )σ σ x i µ )y i µ ) Die Maximierung dieser Funktion lässt sich explizit durchführen und ergibt die ML-Schätzungen für die einzelnen Parameter: µ = x = ) x i, µ = y = ) y i, n n σ = n x i x), σ = n y i y), ρ = n x i x)y i y) σ σ Von besonderem Interesse sind die folgenden drei Testprobleme über den Korrelationsparameter: TP a) H 0 : ρ 0 gegen H : ρ 0 ; TP b) H 0 : ρ 0 gegen H : ρ < 0 ; TP ) H 0 : ρ = 0 gegen H : ρ 0 Die optimalen α-signifikanztests sind die nachfolgenden t-tests t-tests für den Korrelationsparameter ρ TP a) H 0 : ρ 0 gg H : ρ 0 ϕ a] x, y,, x n, y n ) = 0, falls n ρ ρ t n, α TP b) H 0 : ρ 0 gg H : ρ < 0 ϕ b] x, y,, x n, y n ) = 0, falls n ρ ρ < t n, α TP ) H 0 : ρ = 0 gg H : ρ 0 ϕ ] x, y,, x n, y n ) = 0, falls ρ n ρ t n, α 59 Multiples Regressionsmodell In Erweiterung des schon behandelten Modells der Regressionsgeraden betrachten wir jetzt den Fall mehrerer Einflussvariablen, die auf eine Zielgröße wirken: x, x,, x k y Dabei sind x, x,, x k die Werte gewisser Einflussgrößen und y ist der statistische Mittelwertwert einer interessierenden Zielgröße in dieser Situation Auch kategorielle Einflussgrößen können hier einbezogen sein, die dann in einer Dummy-Codierung als 0--wertige Variablen beschrieben werden
8 Kapitel 5: Lineare Regression 4 Beispiel: y = Mittlerer Umsatz eines Produkts; x = Preis des Produkts; x = Preis eines Konkurrenzprodukts am Markt; x 3 = Werbeaufwand in TV für das Produkt; x 4 = sonstiger Werbeaufwand für das Produkt; x 5 = Darbietungsform standard oder gehoben ) des Produkts Die Einlussvariablen x, x, x 3 und x 4 sind hier quantitative Variablen Werte in Geldeinheiten), während die Variable x 5 kategoriell mit zwei möglichen Stufen standard und gehoben ) ist Letztere wird als 0--wertige Variable kodiert: x 5 = 0, falls Darbietungsform gehoben standard Das multiple lineare Regressionsmodell beinhaltet den funktionalen Ansatz: yx) = β 0 + β x + β x + + β k x k, wobei x den Vektor der Werte x, x,, x k der Einflussvariablen bezeichnet und β 0 konstanter Term) und die Koeffizienten β, β,, β k reelle Parameter im Modell sind, deren wahre Werte unbekannt sind; sie sollen auf Grund von Beobachtungsdaten geschätzt werden, s unten) Im Folgenden wird etwas Matrizenrechnung verwendet, und wir führen als Spaltenvektoren ein: Den k-dim Spaltenvektor der Werte der Einflussgrößen und den k + )-dim Spaltenvektor der Regressionsparameter : x = x x x k und β = Mit der Operation des Transponierens schreiben wir Platz sparend: β 0 β β β k x = x, x,, x k ) t und β = β 0, β, β,, β k ) t Der Regressionsansatz lässt sich in Vektor-Notation auch so schreiben: yx) =, x t) β Seien jetzt Beobachtungsdaten gegeben, also n Paare bestehend jeweils aus einem Wert des Vektors x und dem dazu beobachteten Wert der Zielgröße: x, y ), x, y ),, x n, y n ) Der Vektor x i beinhaltet die Werte aller k Einflussvariablen im i-ten beobachteten Fall, x i = x i,, x i,,, x i,k ) t, i =,, n) Die Schätzung der Parameter wird wieder durch die Methode der kleinsten Quadrate engl Least Squares) vorgenommen
9 Kapitel 5: Lineare Regression 4 Methode der kleinsten Quadrate Die LS-Schätzung β = β0, β,, β k ) t In Matrix-Notation: minimiere engl Least Squares) ist die Optimallösung des folgenden Minimierungsproblems: y i ), x t i) β über β R k+ y i ), x t i) β = y Xβ) t y Xβ), wobei x t x X = t = x t n x, x, x,k x, x, x,k x n, x n, x n,k und y = Die LS-Schätzung lässt sich als Lösung eines linearen Gleichungssystems berechnen: X t X β = X t y, dh β = X t X) X t y, wobei wir voraussetzen, dass die k + ) k + ) Matrix X t X regulär also invertierbar) ist y y n Wir machen das multiple Regressionsmodell zu einem statistischen Modell, indem wir die beobachteten Werte der Zielgröße, y, y,, y n, als Werte von unabhängigen normalverteilten Zufallsvariablen Y, Y,, Y n auffassen Normalverteilungsmodell der multiplen Regression Y,, Y n unabhängige reelle ZV en, Y i N yx i ), σ ), yx i ) =, x t i) β, i =,, n), β = β 0, β,, β k ) t R k+ und σ die Parameter Die Likelihood-Funktion zu den Beobachtungsdaten x, y ),, x n, y n ) lautet: Lβ, σ) = = n f Yi,β,σy i ) = σ π n σ π exp σ y i, x t ) ) ] i β ) n exp σ y Xβ ) t y Xβ ) ), und die Log-Likelihood-Funktion: lβ, σ) = n lnπ) n lnσ) σ y Xβ)t y Xβ)
10 Kapitel 5: Lineare Regression 43 ML-Schätzungen Die ML-Schätzung β = β0, β,, β k ) t ist identisch mit der LS-Schätzung, β = X t X) X t y Die ML-Schätzung für σ ist: σy) = n RSS, wobei RSS = y X β ) t ) y X β Anmerkung: Statt der ML-Schätzung σ verwendet man oft die etwas andere Schätzung s = n k RSS Statistische Eigenschaften der Schätzer Die Schätzer aufgefasst als Zufallsvariablen) β0, β,, β k sind erwartungstreue Schätzer für die Regressionsparameter β 0, β,, β k ; für einen gegebenen Punkt x 0 = x 0,,, x 0,k ) t ist ŷx 0 ) =, x t 0) β ein erwartungstreuer Schätzer für yx 0 ) =, x t 0) β ; S = n k RSS ist ein erwartungstreuer Schätzer für σ Für die Verteilungen der Schätzer unter den Parameterwerten β 0, β,, β k und σ) gilt, wobei noch ein Vektor c = c 0, c,, c k ) t R k+, c 0 gegeben sei: c t β N c t β, q x c t ) σ ), wobei q x c t ) = c t X t X ) c 0 ; n k σ S = σ RSS χ n k und c t β c t β qx c t ) S t n k Konfidenzintervall für die Regressionsfunktion in einem Punkt Für einen gegebenen Punkt x 0 = x 0,,, x 0,k ) t von möglichen Werten x 0,j, j =,, k, der Einflussgrößen ist das α)-konfidenzintervall für yx 0 ) =, x t 0 ) β gegeben durch: ] ŷx 0 ) t n k, α q x, x t 0 ) s, ŷx 0) + t n k, α q x, x t0 ) s, wobei ŷx 0 ) =, x t 0) β und qx, x t 0 ) =, x t ) 0 X t X ) ) x0
11 Kapitel 5: Lineare Regression 44 t-tests für die einzelnen Regressionskoeffizienten Für ein gegebenes j 0,,, k} betrachte das zweiseitige) Testproblem H 0 : β j = 0 gegen H : β j 0 Der optimale α-signifikanztest für das Testproblem ist: ϕ j x, y,, x n, y n ) =, falls 0 wobei v j = X t X ) ] j,j βj vj s t n k, α, In der P-Wert-Darstellung lautet der Test: ϕ j x, y,, x n, y n ) = 0 βj ) ], falls F n k vj s < α, wobei F n k die Verteilungsfunktion der t n k -Verteilung bezeichnet
7.1 Korrelationsanalyse. Statistik. Kovarianz. Pearson-Korrelation. Institut für angewandte Statistik & EDV Universität für Bodenkultur Wien
Statistik 7.1 Korrelationsanalyse Institut für angewandte Statistik & EDV Universität für Bodenkultur Wien Sommersemester 2012 7 Regressions- und Korrelationsanalyse Kovarianz Pearson-Korrelation Der (lineare)
Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)
3 Einfache lineare Regression Einfache lineare Modelle mit R 36 Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen) > summary(lm(y~x)) Call: lm(formula =
Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)
3 Einfache lineare Regression Einfache lineare Modelle mit R 3.6 Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen) > summary(lm(y~x)) Call: lm(formula
4.1. Verteilungsannahmen des Fehlers. 4. Statistik im multiplen Regressionsmodell Verteilungsannahmen des Fehlers
4. Statistik im multiplen Regressionsmodell In diesem Kapitel wird im Abschnitt 4.1 zusätzlich zu den schon bekannten Standardannahmen noch die Annahme von normalverteilten Residuen hinzugefügt. Auf Basis
Signifikanztests Optimalitätstheorie
Kapitel Signifikanztests Optimalitätstheorie Randomisierte Tests In einem statistischen Modell M, A, P ϑ sei ein Testproblem gegeben: H : ϑ Θ gegen H : ϑ Θ ; wobei also durch Θ Θ Θ eine Zerlegung des Parameterbereichs
3. Gemeinsame und bedingte Verteilung, stochastische Unabhängigkeit
3. Gemeinsame und bedingte Verteilung, stochastische Unabhängigkeit Lernziele dieses Kapitels: Mehrdimensionale Zufallsvariablen (Zufallsvektoren) (Verteilung, Kenngrößen) Abhängigkeitsstrukturen Multivariate
Deskriptive Beschreibung linearer Zusammenhänge
9 Mittelwert- und Varianzvergleiche Mittelwertvergleiche bei k > 2 unabhängigen Stichproben 9.4 Beispiel: p-wert bei Varianzanalyse (Grafik) Bedienungszeiten-Beispiel, realisierte Teststatistik F = 3.89,
Wichtige Definitionen und Aussagen
Wichtige Definitionen und Aussagen Zufallsexperiment, Ergebnis, Ereignis: Unter einem Zufallsexperiment verstehen wir einen Vorgang, dessen Ausgänge sich nicht vorhersagen lassen Die möglichen Ausgänge
Multivariate Verfahren
Selbstkontrollarbeit 1 Multivariate Verfahren Musterlösung Aufgabe 1 (40 Punkte) Auf der dem Kurs beigelegten CD finden Sie im Unterverzeichnis Daten/Excel/ die Datei zahlen.xlsx. Alternativ können Sie
Das (multiple) Bestimmtheitsmaß R 2. Beispiel: Ausgaben in Abhängigkeit vom Einkommen (I) Parameterschätzer im einfachen linearen Regressionsmodell
1 Lineare Regression Parameterschätzung 13 Im einfachen linearen Regressionsmodell sind also neben σ ) insbesondere β 1 und β Parameter, deren Schätzung für die Quantifizierung des linearen Zusammenhangs
Kapitel 7. Regression und Korrelation. 7.1 Das Regressionsproblem
Kapitel 7 Regression und Korrelation Ein Regressionsproblem behandelt die Verteilung einer Variablen, wenn mindestens eine andere gewisse Werte in nicht zufälliger Art annimmt. Ein Korrelationsproblem
Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg. für Betriebswirtschaft und internationales Management
für Betriebswirtschaft und internationales Management Sommersemester 2015 Prof. Dr. Stefan Etschberger Hochschule Augsburg Normalverteilung Eine Zufallsvariable X mit einer Dichtefunktion und σ > 0 heißt
Goethe-Universität Frankfurt
Goethe-Universität Frankfurt Fachbereich Wirtschaftswissenschaft PD Dr. Martin Biewen Dr. Ralf Wilke Sommersemester 2006 Klausur Statistik II 1. Alle Aufgaben sind zu beantworten. 2. Bitte runden Sie Ihre
Regression und Korrelation
Kapitel 7 Regression und Korrelation Ein Regressionsproblem behandeltdie VerteilungeinerVariablen, wenn mindestens eine andere gewisse Werte in nicht zufälliger Art annimmt. Ein Korrelationsproblem dagegen
Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential
Zufallsvariablen Diskret Binomial Hypergeometrisch Poisson Stetig Normal Lognormal Exponential Verteilung der Stichprobenkennzahlen Stetige Zufallsvariable Verteilungsfunktion: Dichtefunktion: Integralrechnung:
Tests einzelner linearer Hypothesen I
4 Multiple lineare Regression Tests einzelner linearer Hypothesen 4.5 Tests einzelner linearer Hypothesen I Neben Tests für einzelne Regressionsparameter sind auch Tests (und Konfidenzintervalle) für Linearkombinationen
Demokurs. Modul Vertiefung der Wirtschaftsmathematik Vertiefung der Statistik
Demokurs Modul 3741 Vertiefung der Wirtschaftsmathematik und Statistik Kurs 41 Vertiefung der Statistik 15. Juli 010 Seite: 14 KAPITEL 4. ZUSAMMENHANGSANALYSE gegeben, wobei die Stichproben(ko)varianzen
5. Spezielle stetige Verteilungen
5. Spezielle stetige Verteilungen 5.1 Stetige Gleichverteilung Eine Zufallsvariable X folgt einer stetigen Gleichverteilung mit den Parametern a und b, wenn für die Dichtefunktion von X gilt: f x = 1 für
Statistik Klausur Sommersemester 2013 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN!
Statistik 2 1. Klausur Sommersemester 2013 Hamburg, 26.07.2013 A BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN! Nachname:............................................................................ Vorname:.............................................................................
Bivariater Zusammenhang bei metrischen Variablen: Regression und Korrelation
Bivariater Zusammenhang bei metrischen Variablen: Regression und Korrelation PEΣO 12. November 2001 Von der Tabellenanalyse zur Regression Die bivariate Verteilung zweier metrischer Variablen kann konzeptionell
Statistik. R. Frühwirth. Statistik. VO Februar R. Frühwirth Statistik 1/536
[email protected] VO 142.090 http://tinyurl.com/tu142090 Februar 2010 1/536 Übersicht über die Vorlesung Teil 1: Deskriptive Teil 2: Wahrscheinlichkeitsrechnung Teil 3: Zufallsvariable Teil 4: Parameterschätzung
0 sonst. a) Wie lautet die Randwahrscheinlichkeitsfunktion von Y? 0.5 y = 1
Aufgabe 1 (2 + 2 + 2 + 1 Punkte) Gegeben sei folgende gemeinsame Wahrscheinlichkeitsfunktion f(x, y) = P (X = x, Y = y) der Zufallsvariablen X und Y : 0.2 x = 1, y = 1 0.3 x = 2, y = 1 f(x, y) = 0.45 x
Schätzung im multiplen linearen Modell VI
Schätzung im multiplen linearen Modell VI Wie im einfachen linearen Regressionsmodell definiert man zu den KQ/OLS-geschätzten Parametern β = ( β 0, β 1,..., β K ) mit ŷ i := β 0 + β 1 x 1i +... β K x Ki,
Musterlösung. Modulklausur Multivariate Verfahren
Musterlösung Modulklausur 31821 Multivariate Verfahren 25. September 2015 Aufgabe 1 (15 Punkte) Kennzeichnen Sie die folgenden Aussagen zur Regressionsanalyse mit R für richtig oder F für falsch. F Wenn
Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38
Dynamische Systeme und Zeitreihenanalyse Multivariate Normalverteilung und ML Schätzung Kapitel 11 Statistik und Mathematik WU Wien Michael Hauser Dynamische Systeme und Zeitreihenanalyse // Multivariate
Einführung in die Induktive Statistik: Regressionsanalyse
Einführung in die Induktive Statistik: Regressionsanalyse Jan Gertheiss LMU München Sommersemester 2011 Vielen Dank an Christian Heumann für das Überlassen von TEX-Code! Regressionsanalyse Ziel: Analyse
Statistik I für Betriebswirte Vorlesung 4
Statistik I für Betriebswirte Vorlesung 4 Prof. Dr. Hans-Jörg Starkloff TU Bergakademie Freiberg Institut für Stochastik 25. April 2016 Prof. Dr. Hans-Jörg Starkloff Statistik I für Betriebswirte Vorlesung
Beispiel: Multiples Modell/Omitted Variable Bias I
4 Multiple lineare Regression Konfidenzintervalle und Tests 4.3 Beispiel: Multiples Modell/Omitted Variable Bias I Beispieldatensatz mit Daten zur Lohnhöhe (y i ), zu den Ausbildungsjahren über den Hauptschulabschluss
Theorie Parameterschätzung Ausblick. Schätzung. Raimar Sandner. Studentenseminar "Statistische Methoden in der Physik"
Studentenseminar "Statistische Methoden in der Physik" Gliederung 1 2 3 Worum geht es hier? Gliederung 1 2 3 Stichproben Gegeben eine Beobachtungsreihe x = (x 1, x 2,..., x n ): Realisierung der n-dimensionalen
Statistische Analyseverfahren Abschnitt 2: Zufallsvektoren und mehrdimensionale Verteilungen
Statistische Analyseverfahren Abschnitt 2: Zufallsvektoren und mehrdimensionale Verteilungen Prof. Dr. Hans-Jörg Starkloff TU Bergakademie Freiberg Institut für Stochastik Oktober 2018 Prof. Dr. Hans-Jörg
Varianzkomponentenschätzung
Qualitas AG Varianzkomponentenschätzung Peter von Rohr Qualitas AG Peter von Rohr Folien ZL I+II LFW C11 October 29, 2015 2 / 23 Multiple Lineare Regression Annahmen Modell y = Xb + e Varianz der Fehler
Kapitel 8. Einfache Regression. Anpassen des linearen Regressionsmodells, OLS. Eigenschaften der Schätzer für das Modell
Kapitel 8 Einfache Regression Josef Leydold c 2006 Mathematische Methoden VIII Einfache Regression 1 / 21 Lernziele Lineares Regressionsmodell Anpassen des linearen Regressionsmodells, OLS Eigenschaften
Mathematische Statistik Aufgaben zum Üben. Schätzer
Prof. Dr. Z. Kabluchko Wintersemester 2016/17 Philipp Godland 14. November 2016 Mathematische Statistik Aufgaben zum Üben Keine Abgabe Aufgabe 1 Schätzer Es seien X 1,..., X n unabhängige und identisch
Abhängigkeitsmaße Seien X 1 und X 2 zwei Zufallsvariablen. Es gibt einige skalare Maße für die Abhängigkeit zwischen X 1 und X 2.
Abhängigkeitsmaße Seien X 1 und X 2 zwei Zufallsvariablen. Es gibt einige skalare Maße für die Abhängigkeit zwischen X 1 und X 2. Lineare Korrelation Annahme: var(x 1 ),var(x 2 ) (0, ). Der Koeffizient
Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp
Dr. Maike M. Burda Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 8.-10. Januar 2010 BOOTDATA.GDT: 250 Beobachtungen für die Variablen... cm:
3 Grundlagen statistischer Tests (Kap. 8 IS)
3 Grundlagen statistischer Tests (Kap. 8 IS) 3.1 Beispiel zum Hypothesentest Beispiel: Betrachtet wird eine Abfüllanlage für Mineralwasser mit dem Sollgewicht µ 0 = 1000g und bekannter Standardabweichung
Stochastik Praktikum Lineare Modelle
Stochastik Praktikum Lineare Modelle Thorsten Dickhaus Humboldt-Universität zu Berlin 06.10.2010 Übersicht 1 Einfache lineare Regression 2 Multiple lineare Regression 3 Varianzanalyse 4 Verallgemeinerte
3. Das einfache lineare Regressionsmodell
3. Das einfache lineare Regressionsmodell Ökonometrie: (I) Anwendung statistischer Methoden in der empirischen Forschung in den Wirtschaftswissenschaften Konfrontation ökonomischer Theorien mit Fakten
Klausur zu Statistik II
GOETHE-UNIVERSITÄT FRANKFURT FB Wirtschaftswissenschaften Statistik und Methoden der Ökonometrie Prof. Dr. Uwe Hassler Wintersemester 03/04 Klausur zu Statistik II Matrikelnummer: Hinweise Hilfsmittel
DWT 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schätzvariablen 330/467 Ernst W. Mayr
2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schätzvariablen Wir betrachten nun ein Verfahren zur Konstruktion von Schätzvariablen für Parameter von Verteilungen. Sei X = (X 1,..., X n ). Bei X
Stochastik Serie 11. ETH Zürich HS 2018
ETH Zürich HS 208 RW, D-MATL, D-MAVT Prof. Marloes Maathuis Koordinator Dr. Marvin Müller Stochastik Serie. Diese Aufgabe behandelt verschiedene Themenbereiche aus dem gesamten bisherigen Vorlesungsmaterial.
Reelle Zufallsvariablen
Kapitel 3 eelle Zufallsvariablen 3. Verteilungsfunktionen esultat aus der Maßtheorie: Zwischen der Menge aller W-Maße auf B, nennen wir sie W B ), und der Menge aller Verteilungsfunktionen auf, nennen
Lösung Übungsblatt 5
Lösung Übungsblatt 5 5. Januar 05 Aufgabe. Die sogenannte Halb-Normalverteilung spielt eine wichtige Rolle bei der statistischen Analyse von Ineffizienzen von Produktionseinheiten. In Abhängigkeit von
Kapitel XII - Gleichmäßig beste unverfälschte Tests und Tests zur Normalverteilung
Institut für Volkswirtschaftslehre (ECON) Lehrstuhl für Ökonometrie und Statistik Kapitel XII - Gleichmäßig beste unverfälschte Tests und Tests zur Normalverteilung Induktive Statistik Prof. Dr. W.-D.
Kurs Empirische Wirtschaftsforschung
Kurs Empirische Wirtschaftsforschung 5. Bivariates Regressionsmodell 1 Martin Halla Institut für Volkswirtschaftslehre Johannes Kepler Universität Linz 1 Lehrbuch: Bauer/Fertig/Schmidt (2009), Empirische
Statistik I für Betriebswirte Vorlesung 14
Statistik I für Betriebswirte Vorlesung 14 Dr. Andreas Wünsche TU Bergakademie Freiberg Institut für Stochastik 13. Juli 017 Dr. Andreas Wünsche Statistik I für Betriebswirte Vorlesung 14 Version: 8. Juli
Einführung in die Maximum Likelihood Methodik
in die Maximum Likelihood Methodik Thushyanthan Baskaran [email protected] Alfred Weber Institut Ruprecht Karls Universität Heidelberg Gliederung 1 2 3 4 2 / 31 Maximum Likelihood
13 Mehrdimensionale Zufallsvariablen Zufallsvektoren
3 Mehrdimensionale Zufallsvariablen Zufallsvektoren Bisher haben wir uns ausschließlich mit Zufallsexperimenten beschäftigt, bei denen die Beobachtung eines einzigen Merkmals im Vordergrund stand. In diesem
3.3 Konfidenzintervalle für Regressionskoeffizienten
3.3 Konfidenzintervalle für Regressionskoeffizienten Konfidenzintervall (Intervallschätzung): Angabe des Bereichs, in dem der "wahre" Regressionskoeffizient mit einer großen Wahrscheinlichkeit liegen wird
Inferenz im multiplen Regressionsmodell
1 / 29 Inferenz im multiplen Regressionsmodell Kapitel 4, Teil 1 Ökonometrie I Michael Hauser 2 / 29 Inhalt Annahme normalverteilter Fehler Stichprobenverteilung des OLS Schätzers t-test und Konfidenzintervall
Als lineare Regressionsaufgabe, d. h., Regression von Y auf X, ergibt sich nun:
5 Regression Oft interessiert uns der Zusammenhang zwischen zwei Merkmalen X und Y einer Einheit, etwa, wie Gewicht und Größe von Menschen voneinander abhängen. Einfach zu sagen, je größer, desto schwerer
Statistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management
Statistik für Betriebswirtschaft und International Management Sommersemester 2014 Prof. Dr. Stefan Etschberger HSA Streuungsparameter Varianz Var(X) bzw. σ 2 : [x i E(X)] 2 f(x i ), wenn X diskret Var(X)
ML-Schätzung. Likelihood Quotienten-Test. Zusammenhang Reparametrisierung und Modell unter linearer Restriktion. Es gilt: β = Bγ + d (3.
Reparametrisierung des Modells Gegeben sei das Modell (2.1) mit (2.5) unter der linearen Restriktion Aβ = c mit A R a p, rg(a) = a, c R a. Wir betrachten die lineare Restriktion als Gleichungssystem. Die
Zusammenfassung: Einfache lineare Regression I
4 Multiple lineare Regression Multiples lineares Modell 41 Zusammenfassung: Einfache lineare Regression I Bisher: Annahme der Gültigkeit eines einfachen linearen Modells y i = β 0 + β 1 x i + u i, i {1,,
Mehrdimensionale Zufallsvariablen
Mehrdimensionale Zufallsvariablen Im Folgenden Beschränkung auf den diskreten Fall und zweidimensionale Zufallsvariablen. Vorstellung: Auswerten eines mehrdimensionalen Merkmals ( ) X Ỹ also z.b. ω Ω,
1 Beispiel zur Methode der kleinsten Quadrate
1 Beispiel zur Methode der kleinsten Quadrate 1.1 Daten des Beispiels t x y x*y x 2 ŷ ˆɛ ˆɛ 2 1 1 3 3 1 2 1 1 2 2 3 6 4 3.5-0.5 0.25 3 3 4 12 9 5-1 1 4 4 6 24 16 6.5-0.5 0.25 5 5 9 45 25 8 1 1 Σ 15 25
6. Schätzverfahren für Parameter
6. Schätzverfahren für Parameter Ausgangssituation: Ein interessierender Zufallsvorgang werde durch die ZV X repräsentiert X habe eine unbekannte Verteilungsfunktion F X (x) Wir interessieren uns für einen
Kapitel 3 Schließende lineare Regression Einführung. induktiv. Fragestellungen. Modell. Matrixschreibweise. Annahmen.
Kapitel 3 Schließende lineare Regression 3.1. Einführung induktiv Fragestellungen Modell Statistisch bewerten, der vorher beschriebenen Zusammenhänge auf der Basis vorliegender Daten, ob die ermittelte
Punktschätzer Optimalitätskonzepte
Kapitel 1 Punktschätzer Optimalitätskonzepte Sei ein statistisches Modell gegeben: M, A, P ϑ Sei eine Funktion des Parameters ϑ gegeben, γ : Θ G, mit irgendeiner Menge G, und sei noch eine Sigma-Algebra
Teil XII. Einfache Lineare Regression. Woche 10: Lineare Regression. Lernziele. Zusammenfassung. Patric Müller
Woche 10: Lineare Regression Patric Müller Teil XII Einfache Lineare Regression ETHZ WBL 17/19, 03.07.2017 Wahrscheinlichkeit und Statistik Patric Müller WBL 2017 Wahrscheinlichkeit
x t2 y t = 160, y = 8, y y = 3400 t=1
Aufgabe 1 (25 Punkte) 1. Eine Online Druckerei möchte die Abhängigkeit des Absatzes gedruckter Fotos vom Preis untersuchen. Dazu verwendet die Firma das folgende lineare Regressionsmodell: wobei y t =
Induktive Statistik Kapitel XII - Gleichmäßig beste unverfälschte Tests und Tests zur Normalverteilung
Induktive Statistik Kapitel XII - Gleichmäßig beste unverfälschte Tests und Tests zur Normalverteilung Georg Bol [email protected] Markus Höchstötter [email protected]
Interpretation von Testergebnissen I
2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 Interpretation von Testergebnissen I Durch die Asymmetrie in den Fehlerwahrscheinlichkeiten 1. und 2. Art ist Vorsicht bei der Interpretation
Statistik und Wahrscheinlichkeitsrechnung
Statistik und Wahrscheinlichkeitsrechnung Dr. Jochen Köhler 1 Inhalt der heutigen Vorlesung Statistik und Wahrscheinlichkeitsrechnung Zusammenfassung der vorherigen Vorlesung Übersicht über Schätzung und
Die Regressionsanalyse
Die Regressionsanalyse Zielsetzung: Untersuchung und Quantifizierung funktionaler Abhängigkeiten zwischen metrisch skalierten Variablen eine unabhängige Variable Einfachregression mehr als eine unabhängige
Aufgaben. d) Seien X und Y Poissonverteilt mit Parameter µ, X, Y P(µ). 2. Dann ist die Summe auch Poissonverteilt mit (X + Y ) P(2µ).
Aufgaben 1. Bei den folgenden 10 Fragen ist jeweils genau eine Antwort richtig. Es gibt pro richtig beantwortete Frage 1 Punkt und pro falsche Antwort 1/2 Punkt Abzug. Minimal erhält man für die gesamte
Die Funktion f wird als Regressionsfunktion bezeichnet.
Regressionsanalyse Mit Hilfe der Techniken der klassischen Regressionsanalyse kann die Abhängigkeit metrischer (intervallskalierter) Zielgrößen von metrischen (intervallskalierten) Einflussgrößen untersucht
1 Grundlagen der Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsräume. Ein erster mathematischer Blick auf Zufallsexperimente...
Inhaltsverzeichnis 1 Grundlagen der Wahrscheinlichkeitsrechnung 1 1.1 Wahrscheinlichkeitsräume Ein erster mathematischer Blick auf Zufallsexperimente.......... 1 1.1.1 Wahrscheinlichkeit, Ergebnisraum,
Statistik II. Regressionsanalyse. Statistik II
Statistik II Regressionsanalyse Statistik II - 23.06.2006 1 Einfachregression Annahmen an die Störterme : 1. sind unabhängige Realisationen der Zufallsvariable, d.h. i.i.d. (unabh.-identisch verteilt)
7. Stochastische Prozesse und Zeitreihenmodelle
7. Stochastische Prozesse und Zeitreihenmodelle Regelmäßigkeiten in der Entwicklung einer Zeitreihe, um auf zukünftige Entwicklung zu schließen Verwendung zu Prognosezwecken Univariate Zeitreihenanalyse
Übung V Lineares Regressionsmodell
Universität Ulm 89069 Ulm Germany Dipl.-WiWi Michael Alpert Institut für Wirtschaftspolitik Fakultät für Mathematik und Wirtschaftswissenschaften Ludwig-Erhard-Stiftungsprofessur Sommersemester 2007 Übung
Seminar zur Energiewirtschaft:
Seminar zur Energiewirtschaft: Ermittlung der Zahlungsbereitschaft für erneuerbare Energien bzw. bessere Umwelt Vladimir Udalov 1 Modelle mit diskreten abhängigen Variablen 2 - Ausgangssituation Eine Dummy-Variable
Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert
Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert Beispiel für Konfidenzintervall Im Prinzip haben wir
Vorlesung 7b. Kovarianz und Korrelation
Vorlesung 7b Kovarianz und Korrelation 1 Wir erinnern an die Definition der Kovarianz Für reellwertige Zufallsvariable X, Y mit E[X 2 ] < und E[Y 2 ] < ist Cov[X,Y]:= E [ (X EX)(Y EY) ] Insbesondere ist
Teekonsum in den USA (in 1000 Tonnen), Nimmt den Wert 1 an für alle Perioden, Durchschnittlicher Preis des Tees in Periode t (in Tausend $/Tonne).
Aufgabe 1 (5 Punkte) Gegeben sei ein lineares Regressionsmodell in der Form. Dabei ist y t = x t1 β 1 + x t β + e t, t = 1,..., 10 (1) y t : x t1 : x t : Teekonsum in den USA (in 1000 Tonnen), Nimmt den
Einführung in die Statistik
Einführung in die Statistik Analyse und Modellierung von Daten von Prof. Dr. Rainer Schlittgen Universität Hamburg 12., korrigierte Auflage Oldenbourg Verlag München Inhaltsverzeichnis 1 Statistische Daten
Die Stochastischen Eigenschaften von OLS
Die Stochastischen Eigenschaften von OLS Das Bivariate Modell Thushyanthan Baskaran [email protected] Alfred Weber Institut Ruprecht Karls Universität Heidelberg Wiederholung
Modellanpassung und Parameterschätzung. A: Übungsaufgaben
7 Modellanpassung und Parameterschätzung 1 Kapitel 7: Modellanpassung und Parameterschätzung A: Übungsaufgaben [ 1 ] Bei n unabhängigen Wiederholungen eines Bernoulli-Experiments sei π die Wahrscheinlichkeit
Lineare Regression mit einem Regressor: Einführung
Lineare Regression mit einem Regressor: Einführung Quantifizierung des linearen Zusammenhangs von zwei Variablen Beispiel Zusammenhang Klassengröße und Testergebnis o Wie verändern sich Testergebnisse,
Statistik I für Betriebswirte Vorlesung 13
Statistik I für Betriebswirte Vorlesung 13 Prof. Dr. Hans-Jörg Starkloff TU Bergakademie Freiberg Institut für Stochastik 4. Juli 2016 Prof. Dr. Hans-Jörg Starkloff Statistik I für Betriebswirte Vorlesung
Statistik I für Betriebswirte Vorlesung 3
Statistik I für Betriebswirte Vorlesung 3 Dr. Andreas Wünsche TU Bergakademie Freiberg Institut für Stochastik 15. April 2019 Dr. Andreas Wünsche Statistik I für Betriebswirte Vorlesung 3 Version: 1. April
