13 Allgemeine Regressionsmodelle
|
|
|
- Julia Kopp
- vor 9 Jahren
- Abrufe
Transkript
1 13 Allgemeine Regressionsmodelle 13.1 Allgemeines Lineares Regressions-Modell a Modell. Im Verallgemeinerten Linearen Modell wurde angenommen, dass der Erwartungswert µ i der Verteilung der Zielgrösse Y i über die Link-Funktion g linear von den Ausgangsgrössen x (j) i abhängt. Durch den Erwartungswert und allenfalls einen weiteren Parameter, der für alle Beobachtungen gleich war, war jeweils die Verteilung bestimmt. Zusätzlich wurde dort vorausgesetzt, dass die Verteilung einer Exponential-Familie angehören müsse. Das führt in der Theorie und bei der Berechnung zu gewissen Vereinfachungen. Wenn man diese Voraussetzung fallen lässt, wird es aber nicht wesentlich komplizierter. Wir wollen also etwas allgemeiner schreiben Y i F µ i, γ, g µ i = η i = x T i β wobei µ i nicht notwendigerweise der Erwartungswert sein muss. In diesem Abschnitt werden wir zwei solche Modelle genauer betrachten und dann zu allgemeinden Bermerkungen zurücckommen. b Weibull-Verteilung. Zunächst führen wir eine rcht bekannte Verteilungsfamilie ein. Die Weibull- Verteilung bewährt sich für die Untersuchung von Ausfalls-Zeiten oder Überlebenszeiten. Sie hat die Dichte f x = α σ (x/σ)α 1 exp (x/σ) α. Der Erwartungswert ist σγ 1/α + 1, wobei Γ die Gamma-Funtion bezeichnet. Die Dichte lässt sich nicht in der Form schreiben, die für die Exponential-Familien vorausgesetzt wird. Der Parameter σ ist ein Skalen-Parameter, das heisst, wenn Y W σ, α ist, dann ist ein Vielfaches c Y ebenfalls Weibull-verteilt, und zwar multipliziert sich einfach σ entsprechend, c Y W c σ, α. Demgegenüber charakterisiert α die Form der Verteilung. Abbildung 13.1.b zeigt einige Dichtekurven für verschiedene α. c Beispiel. Für Kohlenstoff-Fasern verschiedener Länge (1, 10, 20, 50 mm) wurde je für 57 bis 70 Fasern die Kraft gemessen, die zum Reissen der Fasern führte. (Quelle: Crowder, Kimber, Smith and Sweeting (1991, Abschnitt 4.8).) Abbildung 13.1.c zeigt die Verteilung der Reissfestigkeit für die vier erfassten Längen. Längere Fasern reissen eher. Wie hängt die Reissfestigkeit von der Länge ab? Eine quantitative Antwort liefert ein einfaches Regressionsmodell. Zielgrösse ist die Reissfestigkeit, Eingangsgrösse die Faserlänge. Die Verteilungen der Zielgrößse für die vier untersuchten Längen nehmen wir also Weibull-Verteilungen an. d Weibull-Regression. Um die Abhängigkeit der Zielgrösse von den Ausgangsgrössen zu modellieren, nehmen wir an, dass nur der Skalen-Parameter von den Ausgangsgrössen abhängt, während der Form-Parameter für alle Beobachtungen gleich bleibt. Da der Skalen-Parameter positiv sein muss, liegt als Link-Funktion der Logarithmus nahe. Das führt zu Y i W σ i, α, log σ i = x T i β. Version Dez. 2015, c W. Stahel
2 13.1. ALLGEMEINES LINEARES REGRESSIONS-MODELL α = α = α = α = α = α = Abbildung 13.1.b: Dichten von sechs Weibull-Verteilungen Laenge = Anzahl Reissfestigkeit Abbildung 13.1.c: Verteilung der Reissfestigkeit für 4 verschiedene Fasernlängen
3 ALLGEMEINE REGRESSIONSMODELLE e Gumbel-Regression. Das Weibull-Modell lässt sich auch anders ausdrücken, indem die Zielgrösse zuerst logarithmiert wird. Diese Transformation macht aus der Weibull-Verteilung eine so genannte umgedrehte Gumbel-Verteilung mit der Dichte wobei µ = log σ und τ = 1/α. f µ,τ y = τ 1 e z exp e z, z = y µ τ * Aus y = log x folgt x = exp y und (x/σ) α = exp y /σ α = exp α(y log σ ) = z. Es ist dx/dy = x und deshalb f Y y = f X x dx/dy = c α σ (x/σ) 1 (x/σ) α exp (x/σ) α x = c exp z exp e z. Der Erwartungswert ist µ τ, da E Z = zf 0,1 z dz ist. Diese Dichte ist auf die unübliche Seite schief, wie Abbildung 13.1.e zeigt. Unüblich ist eine solche Schiefe für ursprüngliche Daten, aber nach Logarithmus-Transformation ist damit schon zu rechnen, und für logarithmierte Ausfall- und Überlebenszeiten bewährt sich das Modell, da sich ja die Weibull-Verteilung für die untransformierten Daten eignet. Dichte Abbildung 13.1.e: Dichte der umgedrehten Gumbel-Verteilung Das Regressionsmodell wird dann zu Ỹ i = log Y i G µ i, τ, µ i = x T i β = Ỹi µ i G 0, τ. f* Zensierte Daten. In der Zuverlässigkeits-Theorie und bei Überlebenszeiten kommt oft als Komplikation dazu, dass einige dieser Zeiten nicht zu Ende verfolgt werden, weil beispielsweise einige Maschinen noch keinen Defekt hatten oder einige Kranke am Ende der Studiendauer glücklicherweise noch am Leben sind. Die beiden Gebiete werden deshalb oft in spezialisierten Büchern behandelt, in denen solche zensierte Daten behandelt werden und in denen die Weibull-, Gumbel- und andere Verteilungen und die entsprechenden Regressionsmodelle eine wichtige Rolle spielen. g Lineares Modell mit nicht-normalen Fehlern. Damit sind wir wieder bei einem linearen Modell ohne Link-Funktion angelangt, denn wir können das Modell wieder in der Form Zielgrösse = Regressionsfunktion + Zufallsabweichung schreiben, Y i = x T i β + E i, E i /σ F 1. Wenn wir für F 1 die Normalverteilung einsetzen, landen wir bei der altbekannten (multiplen) linearen Regression. Mit F 1 = G 0, 1 erhalten wir die Gumbel-Regression (mit Y i statt Ỹi geschrieben). In diesem Modell kann man natürlich auch andere Verteilungen verwenden.
4 13.1. ALLGEMEINES LINEARES REGRESSIONS-MODELL 193 h Langschwänzige Fehler. Die Praxis lehrt, dass Daten eigentlich nie wirklich normalverteilt sind. Wenn sie schief sind, kann man mit Transformation oft eine genäherte Symmetrie erreichen. Aber auch in diesem Fall ist es meistens so, dass extreme Beobachtungen häufiger vorkommen als gemäss der Normalverteilung zu erwarten wäre. Bei extremen Beobachtungen, die als Ausreisser angesprochen werden, kann es sich um grobe Fehler handeln, also um Beobachtungen, die eigentlich nicht dem Modell folgen, das für den Grossteil der Daten gilt. Dafür kann man Gründe suchen. Andererseits kann es sein, dass sich die Natur einfach nicht an die Normalverteilung hält welche Frechheit! Dann sollte man wohl eine andere Verteilung zur Beschreibung der zufälligen Abweichungen verwenden, nämlich eine, die eben eine höhere Wahrscheinlichkeit für extreme Beobachtungen festlegt. Solche Verteilungen heissen langschwänzig oder dickschwänzig oder kurtotisch. i t-verteilung. Für diesen Zweck wird oft die Familie der t-verteilungen benützt, die ja eigentlich nicht als Verteilung von Beobachtungen, sondern als Verteilung der Teststatistik des t-tests eingeführt wurde. Die Dichte der t-verteilung mit ν Freiheitsgranden ist. f ν z = c(1 + z 2 /ν) (ν+1)/2, wobei die Normierungskonstante c = Γ (ν + 1)/2 / (Γ ν/2 πν ) und Γ die Gamma-Funktion ist. Dabei muss für ν keine ganze Zahlen eingesetzt werden. Wenn ν gegen unendlich geht, geht die t-verteilung in die Normalverteilung über. 1/ν könnte also als Mass für die Langschwänzigkeit benützt werden. Damit das Modell für Daten taugt, muss man diese Verteilung verallgemeinern, indem man Skalenänderungen und Verschiebungen einbaut (wie bei der Einführung der Normalverteilung der allgemeine Fall aus der Standard-Normalverteilung erzeugt wurde). Es sei also X = σz + µ. Die Dichte von X wird dann (siehe Einführung) f µ,σ,ν x = 1 x µ σ f ν = c ( 1 + x 2 /ν ) (ν+1)/2. σ σ Für ν = 1 erhält man die so genannte Cauchy-Verteilung, die so extrem langschwänzig ist, dass sie nicht einmal einen Erwartungswert hat, da das Integral, das den Erwartungswert ja definiert, nicht bestimmt werden kann! Der Parameter µ ist dann immer noch Symmetriezentrum und Median der Verteilung, aber nicht mehr Erwartungswert. Eine Varianz hat diese Verteilung noch weniger, und der Zentrale Grenzwertsatz gilt (deshalb) nicht. Es zeigt sich, dass das arithmetische Mittel von Beobachtungen dieser Verteilung nicht genauer ist als jede einzelne Beobachtung es hat sogar genau die gleiche Verteilung wie jede einzelne Beobachtung! Dieses Modell widerspricht also sozusagen dem gesunden Menschenverstand, aber kann gerade deshalb als Warnung dienen, dass allzu langschwänzige Verteilungen zu völlig unerwarteten Effekten führen können! Realistische Verteilungen ergeben sich für ν > 2. Für diese existieren Erwartungswert und Varianz. In unserem Zusammenhang werden wir die t-verteilung mit ν = 3 oder ν = 5 ins Regressionsmodell als einsetzen, um die Zufallsabweichungen zu modellieren. Genauer wird die Verteilung F 1 die Dichte f ν. haben mit einem festgesetzten ν. j Maximum Likelihood. Wie sollen die Parameter geschätzt werden? Wie üblich benützt man das Prinzip der Maximalen Likelihood. Für das oben erwähnte Modell (13.1.g) führt dies für die Schätzung der Koeffizienten β j zur Minimierung der negativen log-likelihood ll β, σ = i ρ Yi x T I β σ ρ r = log f 1 r. + n log σ (* Wenn E i /σ F 1 mit Dichte f 1 gilt, dann hat E i die Dichte 1 σ f 1 e/σ. Von da kommt der Term n log σ.)
5 ALLGEMEINE REGRESSIONSMODELLE Wenn man für f 1 die Standard-Normalverteilungs-Dichte wählt, erhält man ρ r = r 2 /2. Für die t-verteilung ist ρ r = ν + 1 log 1 + r 2 /ν log c. 2 (Die Konstante log c kann man auch weglassen.) k Normalgleichungen. Statt die Minimalstelle zu finden, kann man wie üblich ableiten und null setzen. Die Ableitung von ρ bezeichnen wir mit ψ ; diejenige von R i = (Y i x T I β)/σ nach den Komponenten von β ergibt den Vektor x i /σ. Ableiten und null Setzen führt dadurch zu i ψ Yi x T β i x i = 0, ψ r = ρ r. σ Für die Standard-Normalverteilungs-Dichte wird ψ r = r und daraus die Gleichung i (Y i x T i β) x i = 0. Diese Vektorgleichung wird als die Normalgleichungen bezeichnet. Bekanntlich kann man sie mit linearer Algebra explizit lösen. Wenn eine andere Verteilung angenommen wird, muss man einen iterativen Algorithmus zur Lösung der Gleichung oder zur Minimierung der negativen log-likelihood einsetzen. Für die t-verteilungen wird ψ r = (1 + 1/ν) r 1 + r 2 /ν. Abbildung 13.1.k zeigt diese Funktionen für 4 verschiedene Freiheitsgrade ν. ψ ν r Abbildung 13.1.k: ψ -Funktionen für t-verteilungen mit vier Freiheitsgraden.
6 13.1. ALLGEMEINES LINEARES REGRESSIONS-MODELL 195 l Gewichtete Kleinste Quadrate. Die verallgemeinerten Normalgleichungen kann man auch schreiben als i w ir i x i = 0, R i = Y i x T β I, w i = ψ R i /R i. σ Das sind die Normalgleichungen für Gewichtete Kleinste Quadrate. Im Unterschied zur Gewichteten Linearen Regression hängen hier die Gewichte aber von den geschätzten Parametern ab, und damit werden die Gleichugen zu impliziten Gleichungen. Immerhin kann man diese für einen iterativen Algorithmus brauchen: Mit einer vorläufigen Schätzung für β bestimmt man die Gewichte w i und löst dann das Problem der Gewichteten Kleinsten Quadrate. Das führt zu einer verbesserten Schätzung von β. Diese beiden Schritte können wiederholt werden, bis die Schätzung sich nicht mehr ändert. Die Tatsache, dass die Lösung schliesslich wie eine gewichtete gewöhnliche Regressions-Schätzung aussieht, kann auch der Anschauung helfen. m Im Beispiel der Reissfestigkeit von Fasern soll eine Regression der Zielgrösse Reissfestigkeit (strength) und die Länge (length) als Eingangsgrösse angepasst werden. Die Weibull- Regression ist im R-package survivial enthalten, das auf die Analyse von zensierten Daten ausgerichtet ist. Deshalb muss die Zielgrösse als Objekt der Klasse Surv eingepackt werden. Aufruf und Resultat sind in Tabelle 13.1.m enthalten. Die Grösse scale entspricht τ (13.1.e) und ist damit der Reziprokwert des Form-Parameter α. Es wird also α = 1/ = In der Tabelle wird auf der letzten Zeile Log(scale)=0 getestet mit dem P-Wert, der hier 0 wird. Das zu testen ist nicht ganz sinnlos, da diese Hypothese α = 1 gleichkommt, und das würde eine Exponential-Verteilung der Abweichungen für die unlogarithmierte Zielgrösse bedeuten. survreg(formula = Surv(strength, rep(1, nrow(dd))) ~ length, data = dd) Value Std. Error z p (Intercept) e e+00 length e e-12 Log(scale) e e+00 Scale= Weibull distribution Loglik(model)= 31.5 Loglik(intercept only)= 13.4 Chisq= 36.1 on 1 degrees of freedom, p= 1.8e-09 Number of Newton-Raphson Iterations: 6 n= 119 Tabelle 13.1.m: Numerische Ergebnisse der Weibull-Regression im Beispiel der Reissfestigkeit von Fasern Für die grafische Darstellung (Abbildung 13.1.m) benützen wir die logarithmierte Zielgrösse, da für sie der Zusammenhang mit der Eingangsgrösse linear ist. n Verteilung der Schätzung. Wie bei den Verallgemeinerten Linearen Modellen kann die Verteilung der geschätzten Koeffizienten β nicht exakt angegeben werden, sondern nur genähert. Man benützt die Näherung, die sich aus dem Zentralen Grenzwertsatz ergibt, die asymptotische Verteilung. Sie ist eine mehrdimensionale Normalverteilung mit Erwartungswerts-Vektor β und einer Kovarianzmatrix, die mit der Kovarianzmatrix im Fall der gewöhnlichen linearen Regression (also der Kleinste-Quadrate-Schätzung bei normalverteilten Zufallsabweichungen, siehe 3.5)
7 ALLGEMEINE REGRESSIONSMODELLE log(strength) length Abbildung 13.1.m: Weibull- oder Gumbel-Regression im Beispiel der Reissfestigkeit von Fasern bis auf einen Faktor übereinstimmt. So wird var β σ 2 κc 1, C = x ix T i i, wobei κ = ψ 2 u f 1 u du ist. Für die Standard-Normalverteilung erhält man κ = 1 und damit die Kovarianzmatrix, die in 3.5 angegeben wurde. o Tests, Vertrauensbereiche. Aus dieser Näherungs-Verteilung erhält man in der üblichen Weise Tests und Vertrauensintervalle für einzelne Koeffizienten: Die Kovarianzmatrix enthält in ihrer Diagonalen die Standardfehler der einzelnen Koeffizienten, die man dazu braucht. Auch für Tests von mehreren Koeffizienten, also beispielsweise für den Test betreffend den Einfluss eines Faktors, und für die entsprechenden Vertrauensbereiche enthält die Kovarianzmatrix die nötige Information Tobit-Regression a Bei der Messung von Schadstoffen kann man unterhalb der so genannten Nachweisgrenze eines Messgeräts die Konzentration nicht mehr angeben. Solche Messungen einfach als fehlend zu betrachten, wäre aber ein Missgriff, denn man weiss je etwas Entscheidendes über die entsprechende Schadstoff-Konzentration: Sie ist kleiner als die Nachweisgrenze. Wenn man aber einfach mit der Nachweisgrenze rechnet, obwohl man weiss, dass die Konzentration kleiner ist, macht man ebenfalls einen Fehler. Solche nach unten begrenzte Zufallsvariable gibt es auch in anderen Anwendungsgebieten: Die Regenmenge kann nicht negativ sein, null aber glücklicherweise schon. Das ist nicht genau der gleiche Fall, da in dann die wirkliche Regenmenge ja gemessen werden kann, eben 0.
8 13.2. TOBIT-REGRESSION 197 Das unten besprochene Modell wurde von einem Oekonomen names Tobin eingeführt, der beschreiben wollte, wofür die Leute ihr Geld ausgeben. Ausgabenposten in einem Haushaltbudget können auch im Prinzip nicht negativ werden (die Wenigsten haben negative Ausgaben für das Vergnügen). In Versicherungspolicen kann es Schadenfälle geben, die zwar angemeldet werden, aber aus verschiedenen Gründen schliesslich doch nicht zu einem Schaden führen. (Hier werden die seltenen Fälle weggelassen, für die die Versicherung aus einem Schadenfall einen Gewinn zieht, zum Beispiel wegen Regressionsmöglichkeiten.) In allen diesen Beispielen beobachten wir eine Variable, deren Verteilung aus zwei Teilen besteht: Einer Wahrscheinlichkeit p 0, dass der Minimalwert erhalten wird, und einer kontinuierlichen Verteilung für Werte, die grösser sind. b Als Beispiel betrachten wir die Daten, die Tobin zur Illustration seines Modells dienten. Zielgrösse ist die Menge von haltbaren Gütern (durable goods, Variable durable), die 20 Individuen kauften; Eingangsvariable sind das Alter (age) und ein Index (quant) für die Liquidität der Personen. Abbildung 13.2.b zeigt die Daten. durable durable age quant Abbildung 13.2.b: Die Daten des Beispiels von Tobin c Separate Modelle. Wie soll eine solche Variable als Zielgrösse Y in ein Regressionsmodell einfliessen? Eine recht verbreitete Art der Modellierung besteht darin, zunächst eine Regression aufzusetzen mit der binären Zielgrösse Y, die gleich 1 ist, wenn die eigentliche Zielgrösse Y positiv ist beispielsweise eine logistische Regression. Als zweite Stufe stellt man ein Modell auf für die Beobachtungen, für die Y i > 0 ist. Diesen Ansatz wollen wir hier nicht weiter verfolgen. d Tobit-Regression. Im Beispiel, und allgemein für Situationen, in denen ein Messinstrument zur Begrenzung der Werte führt, ist es konsequent, zunächst ein Regressionsmodell für die Zielgrösse ohne Begrenzung anzusetzen und in einem zweiten Schritt zu formulieren, dass Werte unter der Nachweisgrenze nicht quantitativ erfasst werden können. Wir setzen also zunächst eine gewöhnliche lineare Regression für die (logrithmierte) wahre Schadstoffbelastung Z an, Z i = x T i β + E i, E i N 0, σ 2
9 ALLGEMEINE REGRESSIONSMODELLE Die Beobachtungen sind { y falls Z Y i = i y falls Z i > y Z i Die Variable Z ist damit eine teilweise latente Variable. Wir brauchen sie zu Modellierungszwecken. Abbildung 13.2.d veranschaulicht dieses Modell für eine einfache Regression mit simulierten Daten. Z (o) / Y (x) y* x Abbildung 13.2.d: Das Tobit-Modell e Interpretation. Im Falle einer technischen Begrenzung der gemessenen Werte durch ein Messinstrument entspricht die Einführung der latenten Variablen Z den Gegebenheiten. In den anderen eingangs erwähnten Situationen (13.2.a) ist das nicht zwingend, kann aber auch sinnvoll interpretiert werden: Beim Regen kann man sich die latente Variable als Regenpotential vorstellen, das auch negativ sein kann (trocken oder sehr trocken), wobei der Regen = 0 ist, wenn das Potential negativ ist, während Regen und Regenpotential das Gleiche sind, wenn sie positiv sind. Ausgaben für gewisse Angebote hängen vom verfügbaren freien Einkommen ab. Wenn dieses unter ein Niveau sinkt, das einen gewissen Komfort erlaubt, werden für nicht lebensnotwendige Angebote wie Ferien immer weniger Haushalte überhaupt etwas ausgeben, und wenn schon, werden es immer kleinere Beträge sein. Wie erwähnt, können solche Phänomene auch mit zwei Regressionsmodellen, einem binären und einem quantitativen, beschrieben werden. Das hat zwei Nachteile: Es könnten sich unplausible Ergebnisse zeigen, indem für bestimmte Situationen zwar eine kleine Wahrscheinlichkeit P Y > 0 für ein positives Y geschätzt wird, aber ein grosser Erwartungswert E Y Y > 0, gegeben dass Y positiv ist, resultiert.
10 13.2. TOBIT-REGRESSION 199 Die beiden Modelle haben insgesamt etwa doppelt so viele Parameter, die zu schätzen sind. Beide Punkte können auch Vorteile bieten im Sinne der Flexibilität. f Schätzung. Die Schätzung der Parameter erfolgt auch hier über das Prinzip der Maximalen Likelihood. Die meisten wundern sich zunächst, dass hier Likelihoods, die aus diskreten Wahrscheinlichkeiten P Y i = 0 entstehen, mit solchen, die Dichten f y i entsprechen, gemischt werden können. Das geht; man gewöhnt sich an den Gedanken. Tests und Vertrauensintervalle ergeben sich auch wie üblich aus der asymptotischen Verteilung der geschätzten Grössen. g Beispiel der Daten von Tobin. Eigentlich müsste man sagen, dass der Datensatz zu klein sei, um ein Modell anzupassen. Tun wir es trotzdem, dann wird im einfachsten Modell r1 < regr(tobit(durable) ~ age + quant, data=tobin) weder ein Koeffizient noch die Gesamt- Regression signifikant. Aus der Darstellung der Daten kann man auf eine quadratische Abhängigkeit vom Alter schliessen. Wir erhalten die in Tabelle 13.2.g enthaltenen Resultate. Call: regr(formula = Tobit(durable) ~ age + I(age^2) + quant, data = tobin) Fitting function: survreg Terms: coef stcoef signif R2.x df p.value (Intercept) NA NA 1 NA age I(age^2) quant log(scale) NA NA deviance df p.value Model Null NA Distribution: gaussian. Shape parameter ( scale ): 4.61 AIC: Tabelle 13.2.g: Ergebnisse der Tobit-Regression für das Beispiel der Tobin-Daten mit quadratischer Abhängigkeit vom Alter. Die Liquidität hat keinen nachweisbaren Einfluss. Da auch das Gesamt-Modell immer noch keine Signifikanz zeigt, sind die beiden signifikanten Koeffizienten eigentlich auch nicht ernst zu nehmen besonders, wenn wir noch daran denken, dass der lineare Term nicht direkt interpretierbar ist, weil der quadratische Term da ist, und dass dieser ins Modell genommen wurde, weil die Daten das nahelegen; wir müssen also mit dem Selektions-Fehler rechnen, der bei explorativer Modell-Entwicklung immer vorhanden ist. (Ein zufälliges Muster in den Daten führt zu einem formal signifikanten Testergebnis, wenn man das Modell nach ihm ausrichtet und dann den entsprechenden Term testet.) Trotz diesem negativen Ergebnis soll das Beispiel noch dazu benützt werden, deutlich zu machen, dass naive Auswertungen in die Irre führen. In Abbildung 13.2.g wird nicht nur die nach der Tobit-Regression angepasste quadratische Funktion gezeigt, sondern auch diejenigen, die man erhält, indem man
11 ALLGEMEINE REGRESSIONSMODELLE die Nullen wie gewöhnliche Beobachtungen behandelt und eine gewöhnliche Regression durchführt, die Nullen weglässt und dann eine gewöhnliche Regression rechnet. durable Tobit Kl.Qu. ohne age Abbildung 13.2.g: Angepasste Modelle im Beispiel von Tobin h Zensierte Beobachtungen. Die Situation, dass Variable manchmal nicht exakt erfasst werden können, entsteht nicht nur aus nach unten begrenzten Messbereichen von Messinstrumenten. Bei Überlebenszeiten oder Ausfallzeiten (engl. survival oder failure time data) kennt man oft für einige Beobachtungen nur eine Obergrenze: Für Patient/innen wird verfolgt, wie lange sie nach einem Startereignis wie einer Ansteckung, einem Unfall, einer Operation krank sind oder überleben. Da eine Studie nicht ewig dauern kann und einige Patient/innen wegziehen oder aus anderen Gründen nicht mehr weiter verfolgt werden können, weiss man für diese Personen nur, dass die Zeitspanne sicher länger war als bis zum letzten Kontakt. Analog kann man für technische Geräte die Zeitspanne bis zum ersten Fehler erfassen. Auch da will man nicht so lange untersuchen, bis alle Geräte einen Fehler gezeigt haben. Versicherungs-Schäden sind jeweils nur bis zu einem vereinbarten Höchstbetrag versichert. Wenn der Schaden höher ist, wird seine Höhe bei der Versicherung oft nicht genauer erfasst. Es gibt auch Situationen, in denen man weiss, dass eine Überlebenszeit in einem Intervall liegt, zum Beispiel, dass das fragliche Ereignis zwischen zwei Arztbesuchen stattgefunden hat. All diese Situationen führen zu (teilweise) zensierten Daten, bei Nachweisgrenzen zu links zensierten, bei Überlebens- und Ausfallzeiten meist zu rechts zensierten und im letzten Fall zu Intervall-zensierten Daten. L Literatur: Zensierte Daten und Überlebenszeiten. Die Statistik für solche Daten füllt ganze Bücher. Da zensierte Daten oft im Zusammenhang mit Überlebenzeiten auftreten, behandeln
12 13.2. TOBIT-REGRESSION 201 die Bücher die Kombination dieser beiden Themen. Beispiele sind Collet (1994), Tableman and Kim (2003), Therneau and Grambsch (2000). Von Ausfallzeiten handelt beispielsweise Crowder et al. (1991). Hier wird auch die Weibull- Regression (13.1.d) gut beschrieben.
8 Allgemeine Modelle & Robuste Regression
8.1 Allgemeines Lineares Regressions-Modell 182 8 Allgemeine Modelle & Robuste Regression 8.1 Allgemeines Lineares Regressions-Modell a Modell. Y i F µ i, γ, g µ i = η i = x T i β b Weibull-Verteilung.
Tutorial: Regression Output von R
Tutorial: Regression Output von R Eine Firma erzeugt Autositze. Ihr Chef ist besorgt über die Anzahl und die Kosten von Maschinenausfällen. Das Problem ist, dass die Maschinen schon alt sind und deswegen
Vorlesung Wirtschaftsstatistik 2 (FK 040637) Multiple lineare Regression. Dipl.-Ing. Robin Ristl Wintersemester 2012/13
Vorlesung Wirtschaftsstatistik 2 (FK 040637) Multiple lineare Regression Dipl.-Ing. Robin Ristl Wintersemester 2012/13 1 Grundidee: Eine abhängige Variable soll als Linearkombination mehrerer unabhängiger
> r.lm < lm(log10(ersch) log10(dist), > summary(r.lm) > r.lms < summary(r.lm) R-Funktionen zur linearen Regression. data = d.
3.4 S-Funktionen 75 R-Funktionen zur linearen Regression a Im package stat (immer vorhanden): lm > r.lm < lm(log10(ersch) log10(dist), data = d.spreng) b Funktion summary produziert Resultate, die man
Verallgemeinerte lineare Modelle. Promotion. Promotion. Methoden empirischer Sozialforschung. 1 binäre und mehrere metrische und kategoriale Variablen
Verallgemeinerte lineare Modelle 1 binäre und mehrere metrische und kategoriale Variablen Methoden empirischer Sozialforschung Verallgemeinerte lineare Modelle () Wie läßt sich die Abhängigkeit der Erfolgswahrscheinlichkeit
6. Stochastische Modelle II: Stetige Wahrscheinlichkeitsverteilungen, insbesondere Normalverteilungen
6. Stochastische Modelle II: Stetige Wahrscheinlichkeitsverteilungen, insbesondere Normalverteilungen Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Bisher: Diskrete Zufallsvariablen,
Stetige Verteilungen. A: Beispiele Beispiel 1: a) In den folgenden Abbildungen sind die Dichtefunktionen von drei bekannten Verteilungen graphisch
6 Stetige Verteilungen 1 Kapitel 6: Stetige Verteilungen A: Beispiele Beispiel 1: a) In den folgenden Abbildungen sind die Dichtefunktionen von drei bekannten Verteilungen graphisch dargestellt. 0.2 6
Auswertung und Lösung
Körperkraft [Nm] 0 50 100 150 200 250 0 20 40 60 80 Lean Body Mass [kg] Dieses Quiz soll Ihnen helfen, den R Output einer einfachen linearen Regression besser zu verstehen (s. Kapitel 5.4.1) Es wurden
Statistische Datenanalyse
Werner A. Stahel Statistische Datenanalyse Eine Einführung für Naturwissenschaftler 3., durchgesehene Auflage vieweg VII 1 Einleitung 1 1.1 Was ist Statistische Datenanalyse? 1 1.2 Ziele 6 1.3 Hinweise
Gegeben sei folgende zweidimensionale Wahrscheinlichkeitsdichtefunktion zweier Zufallsvariablen. 0 sonst.
Aufgabe 1 (2 + 4 + 2 + 1 Punkte) Gegeben sei folgende zweidimensionale Wahrscheinlichkeitsdichtefunktion zweier Zufallsvariablen X und Y : { 2x + 2y für 0.5 x 0.5, 1 y 2 f(x, y) = 3 0 sonst. a) Berechnen
Probeklausur zur Vorlesung Statistik II für Studierende der Soziologie und Nebenfachstudierende
Probeklausur zur Vorlesung Statistik II für Studierende der Soziologie und Nebenfachstudierende im Sommersemester 2012 Prof. Dr. H. Küchenhoff, J. Brandt, G. Schollmeyer, G. Walter Aufgabe 1 Betrachten
Ü b u n g s b l a t t 15
Einführung in die Stochastik Sommersemester 07 Dr. Walter Oevel 2. 7. 2007 Ü b u n g s b l a t t 15 Hier ist zusätzliches Übungsmaterial zur Klausurvorbereitung quer durch die Inhalte der Vorlesung. Eine
Multivariate lineare Regression. Statistik für SozialwissenschaftlerInnen II p.167
Multivariate lineare Regression Statistik für SozialwissenschaftlerInnen II p.167 Multivariate Regression Verfahren zur Prüfung des gemeinsamen linearen Einflusses mehrerer unabhängiger Variablen auf eine
4 Binäre Regressionsmodelle, Folien 2
4 Binäre Regressionsmodelle, Folien 2 Ludwig Bothmann (basierend auf Unterlagen von Nora Fenske) Statistik III für Nebenfachstudierende WS 2014/2015 4.5 Hypothesentests Lineare Hypothesen Betrachtet werden
Poisson Regression. Verallgemeinerte Lineare Modelle (GLMs)
Poisson Regression Verallgemeinerte Lineare Modelle (GLMs) 28.11.2011 Poisson Regression Aus der Einführungsvorlesung Poisson-Verteilung ist in der Regel gut geeignet, um Anzahlen zu modellieren. Frage
1.3 Das Testen von Hypothesen am Beispiel des Einstichproben t-tests
1.3 Das Testen von Hypothesen am Beispiel des Einstichproben t-tests Statistische Tests dienen dem Testen von Vermutungen, so genannten Hypothesen, über Eigenschaften der Gesamtheit aller Daten ( Grundgesamtheit
Prüfung im Fach Mikroökonometrie im Sommersemester 2014 Aufgaben
Lehrstuhl für Statistik und empirische Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Prüfung im Fach Mikroökonometrie im Sommersemester 014 Aufgaben Vorbemerkungen: Anzahl der Aufgaben: Bewertung:
Eine kurze Methode, Summen unendlicher Reihen durch Differentialformeln zu untersuchen
Eine kurze Methode, Summen unendlicher Reihen durch Differentialformeln zu untersuchen Leonhard Euler Auch wenn ich diesen Gegenstand schon des Öfteren betrachtet habe, sind die meisten Dinge, die sich
Statistik II Übung 4: Skalierung und asymptotische Eigenschaften
Statistik II Übung 4: Skalierung und asymptotische Eigenschaften Diese Übung beschäftigt sich mit der Skalierung von Variablen in Regressionsanalysen und mit asymptotischen Eigenschaften von OLS. Verwenden
1 Grundlagen der Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsräume. Ein erster mathematischer Blick auf Zufallsexperimente...
Inhaltsverzeichnis 1 Grundlagen der Wahrscheinlichkeitsrechnung 1 1.1 Wahrscheinlichkeitsräume Ein erster mathematischer Blick auf Zufallsexperimente.......... 1 1.1.1 Wahrscheinlichkeit, Ergebnisraum,
Beziehungen zwischen Verteilungen
Kapitel 5 Beziehungen zwischen Verteilungen In diesem Kapitel wollen wir Beziehungen zwischen Verteilungen betrachten, die wir z.t. schon bei den einzelnen Verteilungen betrachtet haben. So wissen Sie
7.1 Korrelationsanalyse. Statistik. Kovarianz. Pearson-Korrelation. Institut für angewandte Statistik & EDV Universität für Bodenkultur Wien
Statistik 7.1 Korrelationsanalyse Institut für angewandte Statistik & EDV Universität für Bodenkultur Wien Sommersemester 2012 7 Regressions- und Korrelationsanalyse Kovarianz Pearson-Korrelation Der (lineare)
Beispiel: Multiples Modell/Omitted Variable Bias I
4 Multiple lineare Regression Konfidenzintervalle und Tests 4.3 Beispiel: Multiples Modell/Omitted Variable Bias I Beispieldatensatz mit Daten zur Lohnhöhe (y i ), zu den Ausbildungsjahren über den Hauptschulabschluss
Lineare Gleichungssysteme mit zwei Unbekannten
Lineare Gleichungssysteme mit zwei Unbekannten Wie beginnen mit einem Beispiel: Gesucht ist die Lösung des folgenden Gleichungssystems: (I) 2x y = 4 (II) x + y = 5 Hier stehen eine Reihe von Verfahren
Willkommen zur Vorlesung Statistik (Master)
Willkommen zur Vorlesung Statistik (Master) Thema dieser Vorlesung: Verteilungen stetiger Zufallsvariablen Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften
Bachelorprüfung: Statistik (1 Stunde)
Prof. H.R. Künsch D-BIOL, D-CHAB Winter 2010 Bachelorprüfung: Statistik (1 Stunde) Bemerkungen: Es sind alle mitgebrachten schriftlichen Hilfsmittel und der Taschenrechner erlaubt. Natels sind auszuschalten!
5. Spezielle stetige Verteilungen
5. Spezielle stetige Verteilungen 5.1 Stetige Gleichverteilung Eine Zufallsvariable X folgt einer stetigen Gleichverteilung mit den Parametern a und b, wenn für die Dichtefunktion von X gilt: f x = 1 für
Methodik der multiplen linearen Regression
Methodik der multiplen linearen Regression Sibel Aydemir Statistisches Amt, Direktorium Landeshauptstadt München Name, Stadt Regressionsanalyse: Schritt für Schritt Schritt 1 Schritt 2 Schritt 3 Schritt
Konfidenzintervall für den Anteilswert θ. Konfidenzintervalle. Jost Reinecke. Universität Bielefeld. 13. Juni 2005
Universität Bielefeld 13. Juni 2005 Einführung Einführung Wie kann die Kenntnis der Wahrscheinlichkeitsverteilung der Parameter einer Stichprobe dazu verhelfen auf die wahren Werte der Grundgesamtheit
Unterlagen zu Fisher s Exact Test, Vergleich von Anteilswerten und logistischer Regression. Robin Ristl. Wintersemester 2012/13
Unterlagen zu Fisher s Exact Test, Vergleich von Anteilswerten und logistischer Regression Robin Ristl Wintersemester 2012/13 1 Exakter Test nach Fisher Alternative zum Chi-Quadrat Unabhängigkeitstest
Statistik II. IV. Hypothesentests. Martin Huber
Statistik II IV. Hypothesentests Martin Huber 1 / 41 Übersicht Struktur eines Hypothesentests Stichprobenverteilung t-test: Einzelner-Parameter-Test F-Test: Multiple lineare Restriktionen 2 / 41 Struktur
Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)
3 Einfache lineare Regression Einfache lineare Modelle mit R 36 Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen) > summary(lm(y~x)) Call: lm(formula =
Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)
3 Einfache lineare Regression Einfache lineare Modelle mit R 3.6 Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen) > summary(lm(y~x)) Call: lm(formula
Numerische Methoden und Algorithmen in der Physik
Numerische Methoden und Algorithmen in der Physik Hartmut Stadie, Christian Autermann 15.01.2009 Numerische Methoden und Algorithmen in der Physik Christian Autermann 1/ 47 Methode der kleinsten Quadrate
Lösungen zur Prüfung Angewandte Statistische Methoden in den Nutzierwissenschaften FS 2016
ETH Zürich D-USYS Institut für Agrarwissenschaften Lösungen zur Prüfung Angewandte Statistische Methoden in den Nutzierwissenschaften FS 2016 Peter von Rohr Datum 30. Mai 2016 Beginn 08:00 Uhr Ende 08:45
Schweizer Statistiktage, Aarau, 18. Nov. 2004
Schweizer Statistiktage, Aarau, 18. Nov. 2004 Qualitative Überprüfung der Modellannahmen in der linearen Regressionsrechnung am Beispiel der Untersuchung der Alterssterblichkeit bei Hitzeperioden in der
Lösung Aufgabe 1 (Regression) Es wurden in einer Befragung zwei metrische Merkmale X und Y erhoben. Betrachten Sie dazu die
Statistik für Kommunikationswissenschaftler Wintersemester 2010/2011 Vorlesung Prof. Dr. Nicole Krämer Übung Nicole Krämer, Cornelia Oberhauser, Monia Mahling Lösung Thema 9 Homepage zur Veranstaltung:
6.3 Exakte Differentialgleichungen
6.3. EXAKTE DIFFERENTIALGLEICHUNGEN 23 6.3 Exakte Differentialgleichungen Andere Bezeichnungen: Pfaffsche Dgl., Dgl. für Kurvenscharen, Nullinien Pfaffscher Formen. 1. Definitionen Pfaffsche Dgl, Dgl.
Inferenzstatistik (=schließende Statistik)
Inferenzstatistik (=schließende Statistik) Grundproblem der Inferenzstatistik: Wie kann man von einer Stichprobe einen gültigen Schluß auf di Grundgesamtheit ziehen Bzw.: Wie groß sind die Fehler, die
Statistik II für Betriebswirte Vorlesung 12
Prof. Dr. Hans-Jörg Starkloff TU Bergakademie Freiberg Institut für Stochastik Statistik II für Betriebswirte Vorlesung 12 11. Januar 2013 7.3. Multiple parameterlineare Regression Im Folgenden soll die
3.1 Modell und Statistik Zusammenhang zwischen einer Zielgrösse Y und mehreren Eingangsgrössen X (1), X (2),..., X (m)
3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression a 3.1 Modell und Statistik Zusammenhang zwischen einer Zielgrösse Y und mehreren Eingangsgrössen X (1), X (2),..., X (m) Y i = β 0 + β 1 x (1)
Bestimmte Zufallsvariablen sind von Natur aus normalverteilt. - naturwissenschaftliche Variablen: originär z.b. Intelligenz, Körpergröße, Messfehler
6.6 Normalverteilung Die Normalverteilung kann als das wichtigste Verteilungsmodell der Statistik angesehen werden. Sie wird nach ihrem Entdecker auch Gaußsche Glockenkurve genannt. Die herausragende Stellung
Prognoseintervalle für y 0 gegeben x 0
10 Lineare Regression Punkt- und Intervallprognosen 10.5 Prognoseintervalle für y 0 gegeben x 0 Intervallprognosen für y 0 zur Vertrauenswahrscheinlichkeit 1 α erhält man also analog zu den Intervallprognosen
Einführung in die Maximum Likelihood Methodik
in die Maximum Likelihood Methodik Thushyanthan Baskaran [email protected] Alfred Weber Institut Ruprecht Karls Universität Heidelberg Gliederung 1 2 3 4 2 / 31 Maximum Likelihood
Musterlösung. Modulklausur Multivariate Verfahren
Musterlösung Modulklausur 31821 Multivariate Verfahren 25. September 2015 Aufgabe 1 (15 Punkte) Kennzeichnen Sie die folgenden Aussagen zur Regressionsanalyse mit R für richtig oder F für falsch. F Wenn
Logistische Regression
Logistische Regression Werner Brannath VO Biostatistik im WS 2006/2007 Inhalt Logistische Regression Beispiel 1: Herzerkrankungsdaten aus Framingham Log Odds Modell Beispiel 1: Einfluss von Blutdruck Maximum
Teil XII. Einfache Lineare Regression. Woche 10: Lineare Regression. Lernziele. Zusammenfassung. Patric Müller
Woche 10: Lineare Regression Patric Müller Teil XII Einfache Lineare Regression ETHZ WBL 17/19, 03.07.2017 Wahrscheinlichkeit und Statistik Patric Müller WBL 2017 Wahrscheinlichkeit
Teil 2 Beurteilende Statistik mit MATLAB
Teil 2 Beurteilende Statistik mit MATLAB 2.1: Vergleich von Mittelwerten Anhand der Beispieldaten für den Einbindigen Traubenwickler aus Abschnitt 1.6 sowie anhand von simulierten Datenlisten wollen wir
Das (multiple) Bestimmtheitsmaß R 2. Beispiel: Ausgaben in Abhängigkeit vom Einkommen (I) Parameterschätzer im einfachen linearen Regressionsmodell
1 Lineare Regression Parameterschätzung 13 Im einfachen linearen Regressionsmodell sind also neben σ ) insbesondere β 1 und β Parameter, deren Schätzung für die Quantifizierung des linearen Zusammenhangs
Anhang B. Regression
Anhang B Regression Dieser Anhang rekapituliert die in der Analysis und Statistik wohlbekannte Methode der kleinsten Quadrate, auch Regression genannt, zur Bestimmung von Ausgleichsgeraden Regressionsgeraden
ANalysis Of VAriance (ANOVA) 1/2
ANalysis Of VAriance (ANOVA) 1/2 Markus Kalisch 16.10.2014 1 ANOVA - Idee ANOVA 1: Zwei Medikamente zur Blutdrucksenkung und Placebo (Faktor). Gibt es einen sign. Unterschied in der Wirkung (kontinuierlich)?
Fallzahlplanung bei unabhängigen Stichproben
Seminar Aktuelle biometrische Probleme [email protected] 2. Januar 2005 Inhaltsverzeichnis Einführung in die Fallzahlplanung 2. Grundlegendes zur Fallzahlplanung...........................
TEIL 13: DIE EINFACHE LINEARE REGRESSION
TEIL 13: DIE EINFACHE LINEARE REGRESSION Die einfache lineare Regression Grundlagen Die einfache lineare Regression ist ebenfalls den bivariaten Verfahren für metrische Daten zuzuordnen 1 Sie hat einen
Varianzkomponentenschätzung
Qualitas AG Varianzkomponentenschätzung Peter von Rohr Qualitas AG Peter von Rohr Folien ZL I+II LFW C11 October 29, 2015 2 / 23 Multiple Lineare Regression Annahmen Modell y = Xb + e Varianz der Fehler
Aufgabensammlung (Nicht-MC-Aufgaben) Klausur Ökonometrie WS 2014/15. ( = 57 Punkte)
Aufgabe 3 (6 + 4 + 8 + 4 + 10 + 4 + 9 + 4 + 8 = 57 Punkte) Hinweis: Beachten Sie die Tabellen mit Quantilen am Ende der Aufgabenstellung! Mit Hilfe eines multiplen linearen Regressionsmodells soll auf
Mittelwertvergleiche, Teil I: Zwei Gruppen
FB W. Ludwig-Mayerhofer Statistik II Mittelwertvergleiche Herzlich willkommen zur Vorlesung Mittelwertvergleiche, Teil I: Zwei Gruppen FB W. Ludwig-Mayerhofer Statistik II Mittelwertvergleiche Mittelwertvergleiche:
Statistik II. IV. Hypothesentests. Martin Huber
Statistik II IV. Hypothesentests Martin Huber 1 / 22 Übersicht Weitere Hypothesentests in der Statistik 1-Stichproben-Mittelwert-Tests 1-Stichproben-Varianz-Tests 2-Stichproben-Tests Kolmogorov-Smirnov-Test
Verallgemeinerte lineare Modelle in R
Verallgemeinerte lineare Modelle in R Achim Zeileis 2009-02-20 1 Syntax Verallgemeinerte lineare Modelle können in R mit dem Befehl glm angepaßt werden. Die wichtigsten Argumente sind glm(formula, data,
Poisson Regression & Verallgemeinerte lineare Modelle
Poisson Regression & Verallgemeinerte lineare Modelle 20.11.2017 Motivation Ausgangslage Wir haben Anzahldaten (count data) Y i, cf. Vorlesung zu kategoriellen Variablen. Zu jeder Beobachtung Y i haben
Analytische Statistik II
Analytische Statistik II Institut für Geographie 1 Schätz- und Teststatistik 2 Grundproblem Generell sind wir nur selten in der Geographie in der Lage, Daten über die Grundgesamtheit zur Verfügung zu haben.
Fortgeschrittene Ökonometrie: Maximum Likelihood
Universität Regensburg, Lehrstuhl für Ökonometrie Sommersemester 202 Fortgeschrittene Ökonometrie: Maximum Likelihood Poissonverteilung Man betrachte die poisson-verteilten Zufallsvariablen y t, t =, 2,...,
Anpassungsrechnungen mit kleinsten Quadraten und Maximum Likelihood
Anpassungsrechnungen mit kleinsten Quadraten und Maximum Likelihood Hauptseminar - Methoden der experimentellen Teilchenphysik WS 2011/2012 Fabian Hoffmann 2. Dezember 2011 Inhaltsverzeichnis 1 Einleitung
10. Vorlesung. Grundlagen in Statistik. Seite 291. Martin-Luther-Universität Halle/Wittenberg
. Vorlesung Grundlagen in Statistik Seite 29 Beispiel Gegeben: Termhäufigkeiten von Dokumenten Problemstellung der Sprachmodellierung Was sagen die Termhäufigkeiten über die Wahrscheinlichkeit eines Dokuments
Auswertung und Lösung
Dieses Quiz soll Ihnen helfen, Kapitel 4.7 und 4.8 besser zu verstehen. Auswertung und Lösung Abgaben: 71 / 265 Maximal erreichte Punktzahl: 8 Minimal erreichte Punktzahl: 0 Durchschnitt: 5.65 Frage 1
6. Rechnen mit Matrizen.
6. Rechnen mit Matrizen. In dieser Vorlesung betrachten wir lineare Gleichungs System. Wir betrachten lineare Gleichungs Systeme wieder von zwei Gesichtspunkten her: dem angewandten Gesichtspunkt und dem
Thilo Moseler Bern,
Bern, 15.11.2013 (Verallgemeinerte) Lineare Modelle Stärken Schwächen Fazit und persönliche Erfahrung 2 i-te Beobachtung der zu erklärenden Variablen Yi ist gegeben durch Linearkombination von n erklärenden
Einführung in die Statistik
Einführung in die Statistik Analyse und Modellierung von Daten von Prof. Dr. Rainer Schlittgen Universität Hamburg 12., korrigierte Auflage Oldenbourg Verlag München Inhaltsverzeichnis 1 Statistische Daten
1. Grundbegri e der Stochastik
Wiederholung von Grundwissen der Stochastik. Grundbegri e der Stochastik Menge der Ereignisse. Die Elemente! der Menge heißen Elementarereignisse und sind unzerlegbare Ereignisse. Das Ereignis A tritt
W-Rechnung und Statistik für Ingenieure Übung 8
W-Rechnung und Statistik für Ingenieure Übung 8 Aufgabe 1 : Motivation Anhand von Daten soll eine Aussage über die voraussichtliche Verteilung zukünftiger Daten gemacht werden, z.b. die Wahrscheinlichkeit
Stetige Wahrscheinlichkeitsverteilung
Stetige Wahrscheinlichkeitsverteilung Stetige Wahrscheinlichkeitsverteilung Gaußsche Normalverteilung [7] S.77 [6] S.7 ORIGIN µ : Mittelwert σ : Streuung :, 9.. Zufallsvariable, Zufallsgröße oder stochastische
Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Binomialverteilung und Bernoulli- Experiment
Unterrichtsmaterialien in digitaler und in gedruckter Form Auszug aus: Binomialverteilung und Bernoulli- Experiment Das komplette Material finden Sie hier: Download bei School-Scout.de TOSSNET Der persönliche
ELEMENTARE EINFÜHRUNG IN DIE MATHEMATISCHE STATISTIK
DIETER RASCH ELEMENTARE EINFÜHRUNG IN DIE MATHEMATISCHE STATISTIK MIT 53 ABBILDUNGEN UND 111 TABELLEN ZWEITE, BERICHTIGTE UND ERWEITERTE AUFLAGE s-~v VEB DEUTSCHER VERLAG DER WISSENSCHAFTEN BERLIN 1970
Seminar zur Energiewirtschaft:
Seminar zur Energiewirtschaft: Ermittlung der Zahlungsbereitschaft für erneuerbare Energien bzw. bessere Umwelt Vladimir Udalov 1 Modelle mit diskreten abhängigen Variablen 2 - Ausgangssituation Eine Dummy-Variable
Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011
Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011 Es können von den Antworten alle, mehrere oder keine Antwort(en) richtig sein. Nur bei einer korrekten Antwort (ohne Auslassungen
Empirische Wirtschaftsforschung
Empirische Wirtschaftsforschung Prof. Dr. Bernd Süßmuth Universität Leipzig Institut für Empirische Wirtschaftsforschung Volkswirtschaftslehre, insbesondere Ökonometrie 1 4. Basiskonzepte der induktiven
Einführung in die Statistik
Einführung in die Statistik Analyse und Modellierung von Daten Von Prof. Dr. Rainer Schlittgen 4., überarbeitete und erweiterte Auflage Fachbereich Materialwissenschaft! der Techn. Hochschule Darmstadt
Beispiel: Multiples Modell/Omitted Variable Bias I
4 Multiple lineare Regression Konfidenzintervalle und Tests 4.3 Beispiel: Multiples Modell/Omitted Variable Bias I Beispieldatensatz mit Daten zur Lohnhöhe (y i ), zu den Ausbildungsjahren über den Hauptschulabschluss
3.2 Streuungsmaße. 3 Lage- und Streuungsmaße 133. mittlere Variabilität. geringe Variabilität. große Variabilität 0.0 0.1 0.2 0.3 0.4 0.
Eine Verteilung ist durch die Angabe von einem oder mehreren Mittelwerten nur unzureichend beschrieben. Beispiel: Häufigkeitsverteilungen mit gleicher zentraler Tendenz: geringe Variabilität mittlere Variabilität
Binomialverteilung. Häufigkeit, mit der Ereignis A bei n unabhängigen Versuchen eintritt. Träger von X : X = {0, 1, 2,..., n}.
Binomialverteilung Konstruktionsprinzip: Ein Zufallsexperiment wird n mal unabhängig durchgeführt. Wir interessieren uns jeweils nur, ob ein bestimmtes Ereignis A eintritt oder nicht. X = Häufigkeit, mit
Willkommen zur Vorlesung Statistik (Master)
Willkommen zur Vorlesung Statistik (Master) Thema dieser Vorlesung: Inferenzstatistik in Regressionsmodellen Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für
