Messfehlertheorie. Daniel Stöckeler. Seminararbeit Seminar `Statistische Herausforderungen sozialwissenschaftlicher Studien' Institut für Statistik

Größe: px
Ab Seite anzeigen:

Download "Messfehlertheorie. Daniel Stöckeler. Seminararbeit Seminar `Statistische Herausforderungen sozialwissenschaftlicher Studien' Institut für Statistik"

Transkript

1 Messfehlertheorie Daniel Stöckeler Seminararbeit Seminar `Statistische Herausforderungen sozialwissenschaftlicher Studien' Institut für Statistik Betreuer: Prof. Dr. Augustin Abgabedatum: 29. November 2010

2 Inhaltsverzeichnis 1 Einleitung 1 2 Einteilung der Messfehler Ursachen von Fehlern und Grundlagen Dierentieller und nicht-dierentieller Fehler Systematische und stochastische Messfehler Klassischer Fehler und Berkson-Fehler Fehlermodelle und einfache, lineare Regression Regression bei systematischen Messfehlern Regression bei stochastischen Messfehlern Regression bei klassischem Messfehler Regression bei Berkson-Fehler Verknüpfung von klassischem Fehler und Berkson-Fehler 13 4 Fehlermodelle und multiple, lineare Regression 14 5 Korrekturverfahren bei Messfehlern Korrektur bei bekannter Fehlerstruktur Orthogonale Regression Schlussbetrachtungen 19 ii

3 1 Einleitung Fehlerbehaftete Daten sind in der Regel unvermeidlich und werden von fehlerhaften Messungen oder Datenerhebungen verursacht. Durch wiederholte Messungen und Anpassungen bei Kenntnis der Messfehlervarianzen können sie in den experimentellen Naturwissenschafen häug verringert werden, verschwinden allerdings nicht. In der Biologie und der Medizin, insbesondere jedoch in den Sozial- und Wirtschaftswissenschaften ist eine Wiederholung der Experimente selten möglich; Messfehler sind daher unvermeidlich. Diese Fehler haben unterschiedlichste Struktur und wirken sich auf verschiedene Bereiche aus: Sie führen zu Verzerrungen in den Parameterschätzern für Regressionsbeziehungen, verdecken Zusammenhänge zwischen den Variablen und wirken sich unmittelbar auf die statistische Signikanz von Tests aus. Abbildung 1 zeigt beispielhaft die Auswirkung (klassischer) Messfehler: Der oenbar sinusförmige Zusammenhang zwischen Prädiktor und Response wird verdeckt, die graphische Analyse hierdurch erschwert oder verhindert. Diese Seminararbeit stellt zunächst beispielhaft unterschiedliche Fehlertypen vor. Daran anschlieÿend ndet sich ein Überblick über die Auswirkungen dieser Fehlermodelle auf lineare Regressionsmodelle. In diesem Zusammenhang untersuchen wir insbesondere die Konsequenzen der klassischen Kleinste- Quadrate-Schätzung bei fehlerbehafteten Daten und weisen auf einige (überraschende) Konsequenzen hin, wenn diese ohne Berücksichtigung der Fehlerstruktur in naiver Weise angewendet werden. Abschlieÿend stellen wir kurz und überblicksweise einige grundlegende Korrekturverfahren vor. 1

4 Daten ohne Messfehler Daten mit Messfehler Y = sin(2x) + ε Y = sin(2x) + ε X W = X + U Abbildung 1: Verdeckter Zusammenhang zwischen Prädiktor und Response bei klassischem Messfehler. Im Beispiel ist ɛ NV(0, 0.15) und U NV(0, 0.4). 2 Einteilung der Messfehler 2.1 Ursachen von Fehlern und Grundlagen Fehler in den Variablen sind unterschiedlichen Fehlerquellen geschuldet und hängen vom Gegenstand der Messung selbst ab. Neben Erhebungsfehlern, welche in Form von Doppelzählungen, falschen Messungen, fehlerhafter Aggregation und falsch gewählten Stichproben insbesondere in den Sozialwissenschaften auftreten, wirken sich Rundungsfehler auf die Datenqualität aus. Weitere Messprobleme sind unter anderem durch die geringe Verlässlich- 2

5 keit selbstbeobachteter Informationen, Verwendung von Datensätzen geringer Qualität und ungenaue Laborwerte bedingt. Ein Problem für Biometrie und Ökonometrie in gleichen Teilen stellen nicht-beobachtbare Variablen dar, weswegen auf möglichst ähnliche Variablen (Proxy-Variablen) als vermeintlich adäquater Ersatz ausgewichen wird. Im verbleibenden Teil der Seminararbeit untersuchen wir lediglich die Auswirkungen von Fehlern in der Prädiktorvariable. Ein zusätzliche Messfehler kann auch in der Responsevariable Y nicht ausgeschlossen werden, führt aber in der Regel nur zu einer Erhöhung der Residuenvarianz insgesamt. Ohne nähere Unterscheidung der Dimension der betrachteten Gröÿen bezeichnen wir den beobachtbaren, fehlerbehafteten Wert mit W und den latenten, unbeobachtbaren Wert mit X. Weiterhin beschränken wir uns darauf, die Konsequenzen für lineare Regressionsmodelle zu diskutieren und verweisen für die Folgen in nichtlinearen Modellen auf entsprechende Literatur. Treten fehlerfrei messbare Kovariablen (z.b. Geschlecht) auf, werden diese mit Z bezeichnet. 2.2 Dierentieller und nicht-dierentieller Fehler Wir haben bereits einleitend darauf hingewiesen, dass eine Fehlerquelle der Verwendung von ähnlichen Variablen W geschuldet ist, wenn die eigentlich interessierende Variable X nicht beobachtbar oder wegen fehlender Erhebungen nicht verfügbar ist. Wenn W über die Response Y keine andere Information als X und die gegebenenfalls fehlerfrei gemessene Variable Z enthält, ist W als nicht-dierentieller Fehler ein Surrogat für X. Formal hängt die Verteilung von Y gegeben (X, W, Z) lediglich von (X, Z) ab. Dierentielle Fehler können beispielsweise in biometrischen Untersuchungen relevant sein, wenn kranke Individuen ihr Verhalten (etwa Ernährungs- und 3

6 Schlafgewohnheiten, Medikamentenkonsum, Rauch- und Suchtverhalten) in der Vergangenheit im Rückblick anders betrachten als gesunde Individuen. Bei selbst gemessenen oder selbst berichteten Variablen führt diese verschobene Wahrnehmung zu dierentiellen Fehlern, die vom Krankheitsverlauf und damit der Respose abhängen. Das Vorliegen nicht-dierentieller Fehler ist folglich kritisch zu prüfen. Nicht-dierentielle Fehler haben den Vorteil, dass sich die Untersuchung der einfachen, linearen Regression vereinfacht und die Bestimmung der Regressionsparameter grundsätzlich auch mit der fehlerbehafteten Variable W möglich ist, schlieÿlich ist E(Y W) = E(E(Y X, W W) = E(E(Y X) W) = β 0 + β X E(X W). (1) Aus diesem Grund betrachten wir nachfolgend ausschlieÿlich nicht-dierentielle Fehler. 2.3 Systematische und stochastische Messfehler Im Wesentlichen unterscheiden wir zwei Arten von Messfehlern, die unterschiedlich verursacht werden und unterschiedlich zu behandeln sind. Systematische Messfehler entstehen beispielsweise durch fehlerhafte Normierung und Skalierung der Messinstrumente, allgemeiner durch systematische Fehler bei der Datenerhebung, welche einer festen Regel oder einem bestimmten, festgelegten Prinzip folgen. Der beobachtete Wert W ist hier mit dem latenten Wert X über einen funktionalen Zusammenhang W = f(x) verbunden. Im einfachsten Fall ist der Zusammenhang linear und durch W = cx + d (2) beschreibbar. Obwohl auch komplexere funktionale Zusammenhänge, insbesondere etwa polynomiale oder exponentielle Strukturen denkbar sind, be- 4

7 schränken wir uns hier auf lineare Fehler, deren Auswirkungen auf lineare Modelle wir detaillert diskutieren werden. Stochastische Messfehler stellen die zweite Art von Messfehler dar und variieren zufällig von Messung zu Messung. Im einfachsten, klassischen Fall gilt W = X + U (3) mit U NV(0, σu 2 ), wobei X und U stochastisch unabhängig sind. Während dieses Fehlermodell von gleichbleibender Varianz und normalverteilten Fehlern ausgeht, sind andere Fehlerstrukturen denkbar und durch entsprechende Anpassungen modellierbar. Insbesondere sind zeitlich veränderliche oder individuenspezische Varianzen etwa im biometrischen Kontext, aber auch bei anderen Fragestellungen denkbar. Verbleibend und im nächsten Abschnitt betrachten wir jedoch im Wesentlichen das gerade vorgestellte Modell sowie das Berkson-Modell mit ähnlicher Struktur. In der Regel ist mit dem Vorhandensein beider Fehlerarten zu rechnen, welche lediglich aus Gründen der Übersichtlichkeit einzeln betrachtet werden. Abbildung 2 zeigt den Zusammenhang zwischen wahrem, latenten Wert X und beobachtetem Wert W für beide Fehlerarten. 5

8 Systematischer Fehler Zufälliger Fehler beobachteter Wert W beobachteter Wert W theoretischer Wert X theoretischer Wert X Abbildung 2: Gegenüberstellung von systematischem und stochastischem Messfehler. Im Beispiel ist links ein linearer, systematischer Fehler und rechts ein zufälliger, normalverteilter Fehler dargestellt. 2.4 Klassischer Fehler und Berkson-Fehler Nach der allgemeinen Unterscheidung zwischen systematischen und zufälligen Messfehlern werden wir in diesem Abschnitt zufällige Messfehler genauer betrachten. Zufällige Messfehler sind auf zwei unterschiedlichen Arten darstellbar, welche trotz ihrer vermeintlichen Ähnlichkeit unterschiedliche Auswirkungen etwa auf Regressionsuntersuchungen haben und nachfolgend vorgestellt werden. Im klassischen Fehlermodell ist als Standardfehlermodell in der Regel einzusetzen und stellt W die fehlerbehaftete Messung des wahren, latenten Werts 6

9 X dar, modelliert durch den Zusammenhang W = X + U (4) mit U NV(0, σu 2 ), wobei U und X stochastisch unabhängig sind. In diesem Fall gilt E(W X) = X, W ist folglich eine unverzerrte Messung für X. Betrachtet man stattdessen X = W + U (5) mit U NV(0, σu 2 ), wobei U und W stochastisch unabhängig sind, so gilt E(X W) = W. Man erhält trotz vermeintlicher Ähnlichkeit ein anderes Modell. Dieser Fehler wird Berkson-Fehler genannt und spiegelt eine andere Ausgangslage wieder: Während beim klassischen Fehler der exakte Wert X durch zufällige Messfehler verdeckt wird, stellt sich beim Berkson-Fehler der exakte, nicht beobachtbare Wert X erst als Ergebnis einer (im Experiment kontrollierbaren) Variablen W ein. Berkson-Modelle nden in natürlicher Weise bei epidemiologischen Studien ihre Anwendung. Als Beispiel sei hier die Studie von Kreuzer et al. (2002) erwähnt, welche statt individueller Strahlenbelastungen von Minenarbeitern lediglich die durchschnittliche Belastung verknüpft mit der Zahl an Arbeitstagen berücksichtigt. Die tatsächliche, latente Belastung ist von Arbeiter zu Arbeiter verschieden und unterliegt modellbedingt zufälligen Schwankungen; die im Modell verwendete Strahlenbelastung weist also Berkson-Fehler auf. 7

10 3 Fehlermodelle und einfache, lineare Regression 3.1 Regression bei systematischen Messfehlern Ausgehend von der Modellgleichung der einfachen, linearen Regression Y = β 0 + β X X + ɛ, ɛ NV(0, σ 2 ɛ ) (6) betrachten wir zunächst den Fall systematischer Messfehler. Wir beobachten eine fehlerbehaftete Variable W, die über einen festen funktionalen Zusammenhang W = f(x) mit der fehlerfreien Variable X verknüpft ist. Betrachtet werden sollen hier nur lineare Verknüpfungen und damit das Verhalten bei konstanten und proportionalen Fehlern. Im ersten, einfachsten Fall messen wir statt der fehlerfreien Variablen X eine um einen konstanten Messfehler d verschobene, folglich fehlerbehaftete Variable W = X + d. In diesem Fall verändert sich die angegebenen Modellgleichung, es gilt Y = β 0 + β X(X + d) + ɛ. (7) Durch Umformung ergibt sich mit β 0 := β 0 + β X d Y = β 0 + β XX + ɛ. (8) Als Parameterschätzer erhalten wir als verzerrten, inkonsistenten Wert β 0 = β 0 + β X d sowie konsistent geschätzt β X = β X. Diese Ergebnisse liegen nahe, sind die beobachteten Werte nur um einen konstanten Wert d nach rechts und in der Folge um den Wert β X d nach oben verschoben. Im zweiten Fall erhalten wir statt der fehlerfreien Variablen X eine mit einem proportionalen Fehler behaftete Variable W = cx. Nachfolgend gehen wir 8

11 also von der Modellgleichung Y = β 0 + β XcX + ɛ (9) aus, woraus sich die verzerrten KQ-Schätzer β 0 und β X = 1 c β X ergeben. In beiden Fällen erhalten wir durch KQ-Schätzung verzerrte Schätzer, die bei Kenntnis des konstanten Fehlers d und proportionalen Fehlers c unmittelbar korrigiert werden können. Kennt man den systematischen Messfehler allerdings, so können auch die gemessenen, fehlerbehafteten Werte W selbst vor Durchführung der Regression korrigiert werden. 3.2 Regression bei stochastischen Messfehlern Regression bei klassischem Messfehler Von ebenso groÿer Relevanz sind stochastische Messfehler, weswegen wir als ersten Schritt die Auswirkungen klassischer Messfehler auf das lineare Regressionsmodell Y = β 0 + β X X + ɛ, ɛ NV (0, σ 2 ɛ ) (10) betrachten. Ist X nicht messbar, stattdessen nur fehlerbehaftet W = X + U mit U NV(0, σu 2 ) verfügbar, erhalten wir das Modell Y = β 0 + β W (X + U) + ɛ (11) mit oben angegebenen Fehlerverteilungen für U und ɛ. 9

12 Abbildung 3: Regressionsgeraden bei klassischem Messfehler (schematische Darstellung). Bereits eine einfache graphische Analyse, die Schneeweiÿ/Mittag (1986), S. 40., entnommen ist, verdeutlicht die Folgen klassischer Messfehler. Die schwarze Regressionsgerade in Abbildung 3 gibt den wahren Zusammenhang zwischen Prädiktor und Response an. Als klassischer Messfehler ist hier statt einer Normalverteilung die Verschiebung der beobachteten Werte um einen konstanten Term nach links beziehungsweise rechts modelliert. Die rote, gestrichelte Regressionsgerade zeigt die Veränderungen, die durch Kleinste- Quadrate-Schätzung bewirkt werden. Es kommt zu einer systematischen Un- 10

13 terschätzung der Steigung. Zur Illustration wurde hierbei angenommen, dass für jeden wahren Wert (x 1, x 2 ) zwei messfehlerbehaftete Werte (w 11, w 12, w 21, w 22 ) beobachtet wurden. Zur Verzerrung kommt es KQ-bedingt eigentlich erst bei mehr als zwei Beobachtungspunkten. Dieses Ergebnis kann nicht nur graphisch plausibel gemacht werden, sondern ist auch theoretisch nachweisbar. Ohne Beweis geben wir hier ein Ergebnis wieder, welches bei normalverteilten, klassischen Messfehlern U gilt: Die gewöhnliche Kleinste-Quadrate-Schätzung von X auf Y ist kein unverzerrter Schätzer von β X, da nunmehr β W = λβ X mit λ := σ 2 X σ 2 X + σ2 U < 1 (12) als Attenuation-Faktor (reliability ratio) bestimmt wird. Die Regressionsgerade verläuft bei fehlerbehafteten Daten also acher als im unbeobachtbaren Modell. Darüber hinaus vergröÿert sich die Varianz der Beobachtungen. Statt Var(Y X) = σ 2 ɛ erhalten wir als Residuenvarianz Var(Y W) = σɛ 2 + λβxσ 2 U 2 = σɛ 2 + σ2 X σx 2 + βxσ 2 σ2 U 2 > Var(Y X). (13) U Somit schwächt sich wie erwartet der Zusammenhang zwischen gemessenem Prädiktor W und Response Y ab. Überraschender ist, dass sich nach Buzas et al. (2004), S. 737, in einigen Fällen die Varianz des naiven Parameterschätzers 1 bei fehlerbehafteten Daten im Vergleich zur fehlerfreien Schätzung verringert, demnach Kondenzintervalle neben der falschen Lage auch verkleinert sind. 1Als naiven Parameterschätzer bezeichnet man den gewöhnlichen KQ-Schätzer ohne Berücksichtigung von Messfehlern. 11

14 3.2.2 Regression bei Berkson-Fehler Die Auswirkungen des Berkson-Fehlers sind ungleich geringer. Hier modellieren wir wiederum Y = β 0 + β X X + ɛ, ɛ NV(0, σ 2 ɛ ) (14) mit X = W + U und E(X W) = W. Wie beim klassischen Messfehler betrachten wir auch hier zunächst an einem einfachen Beispiel die Auswirkungen des Berkson-Fehlers. Statt der beobachteten Werte (w 1, w 2 ) messen wir eigentlich die Auswirkungen der wahren Werte (x 11, x 12, x 21, x 22 ) und die zu ihnen gehörenden Werte der Responsevariable (y 11, y 12, y 21, y 22 ). Neben den vier möglichen wahren, latenten Punkten in schwarz sind in Abbildung 4 die beobachteten Punkte in rot eingetragen. Die Kleinste-Quadrate-Regressionsgleichungen sind oenbar identisch im beobachteten und wahren Fall, wenn wir wie im klassischen Fall annehmen, dass alle beobachteten Punkte gleichermaÿen realisiert werden. Es kommt folglich zu keiner Verzerrung der Regressionskoezienten im Berkson-Model. Analytisch lässt sich dieses Ergebnis einfach bestätigen. Da sich X = W + U erst als zufälliges Ergebnis nach Festlegung von W einstellt, bestimmen wir statt der wahren Regressionskoezienten jene im Regressionsmodell Y = β 0 + β W W + ɛ, ɛ NV (0, σ 2 ɛ ). (15) Wegen E(X W) = W ist (bei nicht-dierentiellen Fehlern) E(Y W) = β 0 + β X E(X W) = β 0 + β X W. Dementsprechend sind die Koezientenschätzer für β 0 und β X = β W unverzerrt. Statt der Residuenvarianz Var(Y X) erhalten wir durch wenige Umformungen die Varianz Var(Y W) = Var(Y) + Var(E(Y W)) = σ 2 ɛ + β 2 Xσ 2 U > Var(Y X). (16) 12

15 Abbildung 4: Regressionsgeraden bei Berkson-Fehler (schematische Darstellung) Verknüpfung von klassischem Fehler und Berkson-Fehler Beide Fehlermodelle sind trotz ihrer unterschiedlichen Interpretation technisch miteinander verknüpft, wie Caroll et al. (2006), S.28f. aufzeigen. Sie gehen dabei vom klassischen Fehlermodell W = X + U aus und geben als besten linearen Prädiktor für X gegeben W X = λw + (1 λ)e(u) + U (17) 13

16 mit U = (1 λ)(x E(X)) λu und Attenuation-Faktor λ := σ2 X σ 2 X +σ2 U an. Sie weisen nach, dass U und W unkorreliert sind, überführen folglich den klassischen Fehler in ein Berkson-Modell. Wie wir gesehen haben, ist das Berkson-Modell unverzerrt. Zusammenfassend erhalten wir als Fehlerstruktur das Berkson-Modell als stochastischen Fehler, verzerrt durch den systematischen, proportionalen Fehler λ, welcher sich wie bereits vorgestellt auswirkt. 4 Fehlermodelle und multiple, lineare Regression In diesem Abschnitt erweitern wir das bisherige Regressionsmodell, indem wir die Auswirkungen von Messfehlern auf die Ergebnisse bei multipler, linearer Regression vorstellen. Im einfachsten Fall, auf welchen wir uns hier beschränken, lassen sich die Kovariablen in eine messfehlerbehaftete, skalare Kovariable X und weitere, fehlerfreie Kovariablen Z aufteilen. Wir betrachten folglich das Regressionsmodell Y = β 0 + β X X + β T Z Z + ɛ, (18) wobei Z den Spaltenvektor der fehlerfreien Kovariablen und β Z der zugehörige Koezientenvektor darstellt. Die naiven Kleinste-Quadrate-Schätzer für die Regressionskoezienten sind im Falle multipler Regression wie bereits im Fall einfacher linearer Regression verzerrt. Carroll et al. (2006) geben einen Beweis, dass die KQ- Schätzer verzerrt sind. Statt β X wird λ 1 β X mit λ 1 := σ2 X Z = σ2 X Z := σw 2 σ Z X Z 2 +σ2 U Var(X Z)+Var(U), statt β Z wird β Z + β X (1 λ 1 )Γ Z geschätzt, wobei Γ Z als Koezient der Regression von X auf Z, d.h. durch E(X Z) = Γ 0 + Γ T Z, Z 14

17 deniert ist. Oenbar können sich Messfehler in einer Variable auch auf die Koezientenschätzer der anderen, fehlerfreien Variablen auswirken. Dieses bemerkenswerte und überraschende Ergebnis soll an einem Beispiel veranschaulicht und plausibilisiert werden. In Abbildung 5 sind in der linken Graphik fehlerfreie Daten abgetragen, wobei die rote Gruppe durchschnittlich höhere Werte X als die blaue Gruppe annimmt. Die Response Y hängt in diesem Beispiel ausschlieÿlich über einen linearen Zusammenhang von X, nicht jedoch von der Gruppenzugehörigkeit ab, weshalb kein durch die Gruppenzugehörigkeit bedingter Eekt beobachtbar ist. In der rechten Graphik wird statt X die fehlerbehaftete Variable W = X+U mit klassischer Fehlerstruktur und normalverteiltem Fehler U gemessen. In der Folge ist einerseits wie erwartet und bereits diskutiert eine Abachung der Regressionsgerade insgesamt zu erwarten und darüber hinaus ein deutlicher Gruppeneekt beobachtbar. Die beschriebene Auswirkung ist dabei ausschlieÿlich auf die fehlerbehaftete Messung zurückzuführen und kann in zahllosen Fällen auftreten. Messfehler können vermeintliche Geschlechtseekte bei soziologischen Fragestellungen verursachen oder Wirksamkeitsunterschiede bei Medikamenten bedingen. Schneeweiÿ führt als weiteres Beispiel Strukturbrüche in der Ökonometrie auf, die scheinbare zeitliche Brüche im Zusammenhang zwischen ökonomischen Gröÿen darstellen. Zusammenfassend handelt es sich folglich um ein weitreichendes Problem, das - wann immer nicht vernachlässigbare Messfehler zu erwarten sind - gleichfalls nicht vernachlässigt werden sollte. 15

18 Abbildung 5: Auswirkung von Messfehlern bei multipler Regression: In der linken Graphik mit fehlerfreiem Prädiktor ist kein Unterschied zwischen blauer und roter Gruppe beobachtbar. In der rechten Graphik ist der Prädiktor fehlerbehaftet; allein hierdurch acht sich der Zusammenhang ab und ein Gruppeneekt tritt auf. 16

19 5 Korrekturverfahren bei Messfehlern 5.1 Korrektur bei bekannter Fehlerstruktur Im vorherigen Abschnitt haben wir die Konsequenzen unterschiedlicher Messfehler auf das lineare Regressionsmodell untersucht und in den meisten Fällen neben anderen Auswirkungen verzerrte Schätzer erhalten. Möchte man diese Verzerrung korrigieren, so nimmt man allerdings in der Regel als Trade-o eine Vergröÿerung der Varianz in Kauf. Ein erster, intuitiver Ansatz zur Behebung dieser Verzerrungen ist, die Schätzungen durch einen Korrekturfaktor zu verbessern. Beim klassischen Messfehlermodell ergibt sich wie bereits diskutiert beispielsweise asymptotisch als verzerrter Parameterschätzer β W = λβ X mit Attenuation-Faktor λ := σ2 X < 1. Einen unverzerrten σx 2 +σ2 U Schätzer für die fehlerfreien Daten erhalten wir demnach, wenn wir den KQ- Schätzer β W mit dem Faktor 1 multiplizieren. λ Zentrales Problem ist hierbei allerdings, dass die Fehlervarianzen in der Regel nicht bekannt sind und selbst geschätzt werden müssen. Im Falle systematischer Fehler ist dies gewöhnlich nur möglich, wenn die Fehlerparameter bekannt sind. Dann können wie bereits im Teil zuvor angedeutet entweder die Daten selbst und direkt bereinigt werden oder die Verzerrung der Parameter korrigiert werden. Im Falle stochastischer Messfehler bleiben mehr Möglichkeiten oen: Falls Experimente wiederholbar sind, können unabhängige, erneute Messungen die Datenqualität verbessern und zu einer Schätzung der Fehlervarianzen beitragen. Sind die Daten nicht wiederholbar, bleibt als Möglichkeit, durch Untersuchungen der Messinstrumente zu einer Schätzung zu gelangen oder andere A-priori-Information zu beziehen. 17

20 5.2 Orthogonale Regression Schätzt man Regressionsparameter mittels klassischer Kleinste-Quadrate- Methode, werden jene Parameter gesucht, die den vertikalen Abstand n i=1 (Y i β 0 β X x i ) 2 (19) zwischen beobachteten Punkten und anzupassender Regressionsgerade minimieren. Orthogonale Regression greift eine bereits durch Abbildung 3 naheliegende Idee auf und modiziert die Kleinste-Quadrate-Methode insofern, als dass der orthogonale Abstand n i=1 {(Y i β 0 β X x i ) 2 + η(w i x i )} (20) durch Wahl der unbekannten Parameter (β 0, β X, x 1,..., x n ) minimiert werden soll. Für η = 1 erhalten wir hieraus tatsächlich jene Regressionsgerade, welche den quadratischen Abstand zwischen den beobachteten Punkten (w i, y i ) und der Regressionsgerade selbst minimiert. Wählen wir η = σ2 ɛ σu, 2 erhalten wir ein anderes Minimierungskriterium, bestimmen jedoch die Regressionsgerade nach dem Maximum-Likelihood-Ansatz. In diesem Zusammenhang zeigt sich das grundlegende Problem dieses Korrekturverfahrens. Zwar genügt es in diesem Verfahren, wenn statt der einzelnen Fehlervarianzen lediglich deren Quotient η bekannt ist. Allerdings ist selbst dieser in der Regel nicht bekannt und muss geschätzt werden. Da bereits kleine Änderungen der Fehlervarianzen groÿen Einuss auf den Quotienten haben, kommt es in der Folge zur Überkorrektur und wiederum zu verzerrten Ergebnissen. Insgesamt ist das Verfahren also trotz seiner Einfachheit mit praktischen Problemen behaftet. 2 2Carroll et al. (2006), S.57f., zeigen diese Folge mittels Zerlegung des Modellfehlers in Messfehler und Gleichungsfehler auf. 18

21 6 Schlussbetrachtungen Die vorliegende Seminararbeit hat sich ausschlieÿlich auf die Auswirkungen von Messfehlern in linearen Modellen beschränkt. Naturgemäÿ ist damit das Feld der Messfehlertheorie nicht abzudecken und lässt zahlreiche Fragestellungen unbeachtet. Zum Einen können weitere Fehlerarten modelliert und untersucht werden. Denkbar sind etwa systematische Messfehler mit nichtlinearem Zusammenhang, Messfehler mit veränderlicher Varianz oder multiplikative Messfehlermodelle. Zum Anderen verhalten sich die beschriebenen Messfehler bei einer Erweiterung auf nichtlineare Modelle anders als in linearen Modellen. Teilweise lassen sich Ergebnisse und Beobachtungen vom linearen Fall übertragen, im Allgemeinen gilt dies jedoch nicht. So wirkt sich insbesondere der Berkson-Fehler in der Regel anders aus und führt wie klassische Messfehler zu Verzerrungen. Zusammenfassend lässt sich festhalten, dass die Auswirkungen abhängig vom Modell und der Fehlerstruktur berücksichtigt werden müssen. Davon ausgehend gibt es neben den kurz geschilderten Verfahren eine Reihe weiterer Korrekturverfahren (Momentenmethode, Simulation-Extrapolation SIMEX, Regressionskalibrierung, diverse Schätzverfahren), welche in bestimmten Situationen geeignet sind und die ausführlich in der weiterführenden Literatur besprochen werden. 19

22 Literaturverzeichnis Buzas, J.S.; Stefanski, L.A. Tosteson, T.D. (2004): Measurement Error. In: Ahrens, W; Pigeot, I. (Eds.): Handbook of Epidemiology. Springer: London. Carroll, R.J.; Ruppert, D.; Stefanski, L.A.; Crainiceanu, C.M. (2006): Measurement Error in Nonlinear Models: A Modern Perspective. Chapman and Hall/CRC: New York, 2. Auage. Kreuzer, M.; Brachner, A.; Lehmann, F.; Martignoni, K.; Wichmann, H.E.; Grosche, B. (2002): Characteristics of the German Uranium Miners Cohort Study. In: Health Physics (Vol. 83), S Schneeweiÿ, H.; Mittag, H.-J. (1986): Lineare Modelle mit fehlerbehafteten Daten. Physica-Verlag Heidelberg. 20

Interne und externe Modellvalidität

Interne und externe Modellvalidität Interne und externe Modellvalidität Interne Modellvalidität ist gegeben, o wenn statistische Inferenz bzgl. der untersuchten Grundgesamtheit zulässig ist o KQ-Schätzer der Modellparameter u. Varianzschätzer

Mehr

Messen im medizinischen Kontext II: Expositionsmessung

Messen im medizinischen Kontext II: Expositionsmessung Messen im medizinischen Kontext II: Expositionsmessung Bachelor-Seminar Messen und Statistik Institut für Statistik LMU Daniel Krklec Daniel.Krklec@campus.lmu.de 16. Juni 2009 Inhaltsverzeichnis 1 Begriffsklärung

Mehr

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren)

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Multiple Regression 1 Was ist multiple lineare Regression? Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Annahme: Der Zusammenhang

Mehr

Allgemeine Regressionsanalyse. Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl. deterministisch

Allgemeine Regressionsanalyse. Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl. deterministisch Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 9.1 Allgemeine Regressionsanalyse Daten (X j, Y j ), j = 1,..., N unabhängig Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl.

Mehr

Gemischte Modelle. Fabian Scheipl, Sonja Greven. SoSe 2011. Institut für Statistik Ludwig-Maximilians-Universität München

Gemischte Modelle. Fabian Scheipl, Sonja Greven. SoSe 2011. Institut für Statistik Ludwig-Maximilians-Universität München Gemischte Modelle Fabian Scheipl, Sonja Greven Institut für Statistik Ludwig-Maximilians-Universität München SoSe 2011 Inhalt Amsterdam-Daten: LMM Amsterdam-Daten: GLMM Blutdruck-Daten Amsterdam-Daten:

Mehr

Willkommen zur Vorlesung Statistik (Master)

Willkommen zur Vorlesung Statistik (Master) Willkommen zur Vorlesung Statistik (Master) Thema dieser Vorlesung: Verteilungsfreie Verfahren Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften

Mehr

Kaplan-Meier-Schätzer

Kaplan-Meier-Schätzer Kaplan-Meier-Schätzer Ausgangssituation Zwei naive Ansätze zur Schätzung der Survivalfunktion Unverzerrte Schätzung der Survivalfunktion Der Kaplan-Meier-Schätzer Standardfehler und Konfidenzintervall

Mehr

Kapitel 4: Binäre Regression

Kapitel 4: Binäre Regression Kapitel 4: Binäre Regression Steffen Unkel (basierend auf Folien von Nora Fenske) Statistik III für Nebenfachstudierende WS 2013/2014 4.1 Motivation Ausgangssituation Gegeben sind Daten (y i, x i1,...,

Mehr

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50,7 50 51,5 51,7 48,8

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50,7 50 51,5 51,7 48,8 1. Aufgabe: Eine Reifenfirma hat für Winterreifen unterschiedliche Profile entwickelt. Bei jeweils gleicher Geschwindigkeit und auch sonst gleichen Bedingungen wurden die Bremswirkungen gemessen. Die gemessenen

Mehr

Aufgabenstellung Aufgabe 1: Betrachten Sie das folgende ökonometrische Modell: y t = α + βx t + u t (1)

Aufgabenstellung Aufgabe 1: Betrachten Sie das folgende ökonometrische Modell: y t = α + βx t + u t (1) Klausur: Einführung in die Ökonometrie Prüfer: Prof. Dr. Karl-Heinz Paqué Dr.Ludwigv.Auer Semester: WS 1999/00 Als Hilfsmittel sind zugelassen: nicht-programmierbarer Taschenrechner Diese Klausur besteht

Mehr

1 Gemischte Lineare Modelle

1 Gemischte Lineare Modelle 1 Gemischte Lineare Modelle Wir betrachten zunächst einige allgemeine Aussagen für Gemischte Lineare Modelle, ohne zu tief in die mathematisch-statistische Theorie vorzustoßen. Danach betrachten wir zunächst

Mehr

- Eine typische Ausfallrate, wie sie bei vielen technischen Anwendungen zu sehen ist hat die Form einer Badewanne, deshalb nennt man diese Kurve auch

- Eine typische Ausfallrate, wie sie bei vielen technischen Anwendungen zu sehen ist hat die Form einer Badewanne, deshalb nennt man diese Kurve auch 1 2 - Eine typische Ausfallrate, wie sie bei vielen technischen Anwendungen zu sehen ist hat die Form einer Badewanne, deshalb nennt man diese Kurve auch Badewannenkurve. -mit der Badewannenkurve lässt

Mehr

9. Schätzen und Testen bei unbekannter Varianz

9. Schätzen und Testen bei unbekannter Varianz 9. Schätzen und Testen bei unbekannter Varianz Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Schätzen und Testen bei unbekannter Varianz Wenn wir die Standardabweichung σ nicht kennen,

Mehr

Kategoriale abhängige Variablen: Logit- und Probit -Modelle. Statistik II

Kategoriale abhängige Variablen: Logit- und Probit -Modelle. Statistik II Kategoriale abhängige Variablen: Logit- und Probit -Modelle Statistik II Wiederholung Literatur Annahmen und Annahmeverletzungen Funktionen Exponenten, Wurzeln usw. Das Problem Das binäre Logit-Modell

Mehr

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über Güte von s Grundlegendes zum Konzept der Güte Ableitung der Gütefunktion des Gauss im Einstichprobenproblem Grafische Darstellung der Gütefunktionen des Gauss im Einstichprobenproblem Ableitung der Gütefunktion

Mehr

Korrelation - Regression. Berghold, IMI

Korrelation - Regression. Berghold, IMI Korrelation - Regression Zusammenhang zwischen Variablen Bivariate Datenanalyse - Zusammenhang zwischen 2 stetigen Variablen Korrelation Einfaches lineares Regressionsmodell 1. Schritt: Erstellung eines

Mehr

Statistik II für Betriebswirte Vorlesung 3

Statistik II für Betriebswirte Vorlesung 3 PD Dr. Frank Heyde TU Bergakademie Freiberg Institut für Stochastik Statistik II für Betriebswirte Vorlesung 3 5. November 2013 Beispiel: Aktiensplit (Aczel & Sounderpandan, Aufg. 14-28) Ein Börsenanalyst

Mehr

Statistik Einführung // Lineare Regression 9 p.2/72

Statistik Einführung // Lineare Regression 9 p.2/72 Statistik Einführung Lineare Regression Kapitel 9 Statistik WU Wien Gerhard Derflinger Michael Hauser Jörg Lenneis Josef Ledold Günter Tirler Rosmarie Wakolbinger Statistik Einführung // Lineare Regression

Mehr

Messgeräte: Mess-System-Analyse und Messmittelfähigkeit

Messgeräte: Mess-System-Analyse und Messmittelfähigkeit Messgeräte: Mess-System-Analyse und Messmittelfähigkeit Andreas Berlin 14. Juli 2009 Bachelor-Seminar: Messen und Statistik Inhalt: 1 Aspekte einer Messung 2 Mess-System-Analyse 2.1 ANOVA-Methode 2.2 Maße

Mehr

Bivariate Analyseverfahren

Bivariate Analyseverfahren Bivariate Analyseverfahren Bivariate Verfahren beschäftigen sich mit dem Zusammenhang zwischen zwei Variablen Beispiel: Konservatismus/Alter Zusammenhangsmaße beschreiben die Stärke eines Zusammenhangs

Mehr

Füllmenge. Füllmenge. Füllmenge. Füllmenge. Mean = 500,0029 Std. Dev. = 3,96016 N = 10.000. 485,00 490,00 495,00 500,00 505,00 510,00 515,00 Füllmenge

Füllmenge. Füllmenge. Füllmenge. Füllmenge. Mean = 500,0029 Std. Dev. = 3,96016 N = 10.000. 485,00 490,00 495,00 500,00 505,00 510,00 515,00 Füllmenge 2.4 Stetige Zufallsvariable Beispiel. Abfüllung von 500 Gramm Packungen einer bestimmten Ware auf einer automatischen Abfüllanlage. Die Zufallsvariable X beschreibe die Füllmenge einer zufällig ausgewählten

Mehr

Allgemeines Lineares Modell: Univariate Varianzanalyse und Kovarianzanalyse

Allgemeines Lineares Modell: Univariate Varianzanalyse und Kovarianzanalyse Allgemeines Lineares Modell: Univariate Varianzanalyse und Kovarianzanalyse Univariate Varianz- und Kovarianzanlyse, Multivariate Varianzanalyse und Varianzanalyse mit Messwiederholung finden sich unter

Mehr

Nichtlineare Optimierung ohne Nebenbedingungen

Nichtlineare Optimierung ohne Nebenbedingungen Kapitel 2 Nichtlineare Optimierung ohne Nebenbedingungen In diesem Abschnitt sollen im wesentlichen Verfahren zur Bestimmung des Minimums von nichtglatten Funktionen in einer Variablen im Detail vorgestellt

Mehr

Motivation. Jede Messung ist mit einem sogenannten Fehler behaftet, d.h. einer Messungenauigkeit

Motivation. Jede Messung ist mit einem sogenannten Fehler behaftet, d.h. einer Messungenauigkeit Fehlerrechnung Inhalt: 1. Motivation 2. Was sind Messfehler, statistische und systematische 3. Verteilung statistischer Fehler 4. Fehlerfortpflanzung 5. Graphische Auswertung und lineare Regression 6.

Mehr

2.3 Nichtlineare Regressionsfunktion

2.3 Nichtlineare Regressionsfunktion Nichtlineare Regressionsfunktion Bisher: lineares Regressionsmodell o Steigung d. Regressionsgerade ist konstant o Effekt einer Änderung von X auf Y hängt nicht vom Niveau von X oder von anderen Regressoren

Mehr

Willkommen zur Vorlesung Statistik

Willkommen zur Vorlesung Statistik Willkommen zur Vorlesung Statistik Thema dieser Vorlesung: Varianzanalyse Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften Prof. Dr. Wolfgang

Mehr

Survival of the Fittest Wie statistische Modelle an Daten angepasst werden

Survival of the Fittest Wie statistische Modelle an Daten angepasst werden Tag der Mathematik 2009 Survival of the Fittest Wie statistische Modelle an Daten angepasst werden Thomas Kneib Fakultät für Mathematik und Naturwissenschaften Carl von Ossietzky Universität Oldenburg

Mehr

Empirische Wirtschaftsforschung

Empirische Wirtschaftsforschung Empirische Wirtschaftsforschung Anne Neumann 21. Oktober 2015 Anne Neumann EWF 21. Oktober 2015 1 / 9 Inhaltsverzeichnis 1 Grobgliederung 2 Grundlagen Anne Neumann EWF 21. Oktober 2015 2 / 9 Grobgliederung

Mehr

Binäre abhängige Variablen

Binäre abhängige Variablen Binäre abhängige Variablen Thushyanthan Baskaran thushyanthan.baskaran@awi.uni-heidelberg.de Alfred Weber Institut Ruprecht Karls Universität Heidelberg Einführung Oft wollen wir qualitative Variablen

Mehr

Der Bipolar-Transistor und die Emitterschaltung Gruppe B412

Der Bipolar-Transistor und die Emitterschaltung Gruppe B412 TECHNISCHE UNIVERSITÄT MÜNCHEN Der Bipolar-Transistor und die Emitterschaltung Gruppe B412 Patrick Christ und Daniel Biedermann 16.10.2009 1. INHALTSVERZEICHNIS 1. INHALTSVERZEICHNIS... 2 2. AUFGABE 1...

Mehr

Tabelle 6a: Deskriptive Statistiken der metrischen Variablen

Tabelle 6a: Deskriptive Statistiken der metrischen Variablen Ergebnisse 77 5 Ergebnisse Das folgende Kapitel widmet sich der statistischen Auswertung der Daten zur Ü- berprüfung der Hypothesen. Die hier verwendeten Daten wurden mit den in 4.3 beschriebenen Instrumenten

Mehr

Name (in Druckbuchstaben): Matrikelnummer: Unterschrift:

Name (in Druckbuchstaben): Matrikelnummer: Unterschrift: 20-minütige Klausur zur Vorlesung Lineare Modelle im Sommersemester 20 PD Dr. Christian Heumann Ludwig-Maximilians-Universität München, Institut für Statistik 2. Oktober 20, 4:5 6:5 Uhr Überprüfen Sie

Mehr

Auswirkungen verschiedener Anonymisierungsverfahren und Erarbeitung von Korrekturverfahren in ausgewählten GLMs

Auswirkungen verschiedener Anonymisierungsverfahren und Erarbeitung von Korrekturverfahren in ausgewählten GLMs Abschlusskolloquium Auswirkungen verschiedener Anonymisierungsverfahren und Erarbeitung von Korrekturverfahren in ausgewählten GLMs Anja Kipke 28. März 2011 Betreuung: Prof. Dr. Thomas Augustin Gliederung

Mehr

(1) Problemstellung. (2) Kalman Filter

(1) Problemstellung. (2) Kalman Filter Inhaltsverzeichnis (1) Problemstellung...2 (2) Kalman Filter...2 Funktionsweise... 2 Gleichungen im mehrdimensionalen Fall...3 Schätzung des Systemzustands...3 Vermuteter Schätzfehler... 3 Aktualisierung

Mehr

Weiterbildungskurs Stochastik

Weiterbildungskurs Stochastik Hansruedi Künsch Seminar für Statistik Departement Mathematik, ETH Zürich 24. Juni 2009 Inhalt STATISTIK DER BINOMIALVERTEILUNG 1 STATISTIK DER BINOMIALVERTEILUNG 2 Fragestellungen Typische Fragestellungen

Mehr

Marktliquidität von Aktien

Marktliquidität von Aktien Marktliquidität von Aktien Inauguraldissertation zur Erlangung der Würde eines Doctor rerum oeconomicarum der Wirtschafts- und Sozialwissenschaftlichen Fakultät der Universität Bern Lukas Roth Die Fakultät

Mehr

Modul G.1 WS 07/08: Statistik 17.01.2008 1. Die Korrelation ist ein standardisiertes Maß für den linearen Zusammenhangzwischen zwei Variablen.

Modul G.1 WS 07/08: Statistik 17.01.2008 1. Die Korrelation ist ein standardisiertes Maß für den linearen Zusammenhangzwischen zwei Variablen. Modul G.1 WS 07/08: Statistik 17.01.2008 1 Wiederholung Kovarianz und Korrelation Kovarianz = Maß für den linearen Zusammenhang zwischen zwei Variablen x und y Korrelation Die Korrelation ist ein standardisiertes

Mehr

4 Produktspezifische Ausfallwahrscheinlichkeit und Ausbeute

4 Produktspezifische Ausfallwahrscheinlichkeit und Ausbeute 4.1 Grundlagen 4 Produktspezifische Ausfallwahrscheinlichkeit und Ausbeute 4.1 Grundlagen In den bisherigen Ausführungen wurden die Grundlagen der Ausbeuteberechnung behandelt. So wurde bereits im Abschnitt

Mehr

6. METRISCHE UND KATEGORIALE MERKMALE

6. METRISCHE UND KATEGORIALE MERKMALE 6. METRISCHE UND KATEGORIALE MERKMALE wenn an einer Beobachtungseinheit eine (oder mehrere) metrische und eine (oder mehrere) kategoriale Variable(n) erhoben wurden Beispiel: Haushaltsarbeit von Teenagern

Mehr

ε heteroskedastisch BINARY CHOICE MODELS Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS?

ε heteroskedastisch BINARY CHOICE MODELS Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS? BINARY CHOICE MODELS 1 mit Pr( Y = 1) = P Y = 0 mit Pr( Y = 0) = 1 P Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS? Y i = X i β + ε i Probleme: Nonsense Predictions

Mehr

5. Schließende Statistik. 5.1. Einführung

5. Schließende Statistik. 5.1. Einführung 5. Schließende Statistik 5.1. Einführung Sollen auf der Basis von empirischen Untersuchungen (Daten) Erkenntnisse gewonnen und Entscheidungen gefällt werden, sind die Methoden der Statistik einzusetzen.

Mehr

Multivariate Statistik

Multivariate Statistik Hermann Singer Multivariate Statistik 1 Auflage 15 Oktober 2012 Seite: 12 KAPITEL 1 FALLSTUDIEN Abbildung 12: Logistische Regression: Geschätzte Wahrscheinlichkeit für schlechte und gute Kredite (rot/blau)

Mehr

Kapitel 8. Einfache Regression. Anpassen des linearen Regressionsmodells, OLS. Eigenschaften der Schätzer für das Modell

Kapitel 8. Einfache Regression. Anpassen des linearen Regressionsmodells, OLS. Eigenschaften der Schätzer für das Modell Kapitel 8 Einfache Regression Josef Leydold c 2006 Mathematische Methoden VIII Einfache Regression 1 / 21 Lernziele Lineares Regressionsmodell Anpassen des linearen Regressionsmodells, OLS Eigenschaften

Mehr

Einleitung 19. Teil I Datenanalyse und Modellbildung Grundlagen 25

Einleitung 19. Teil I Datenanalyse und Modellbildung Grundlagen 25 Inhaltsverzeichnis Einleitung 19 Zu diesem Buch 19 Konventionen in diesem Buch 20 Was Sie nicht lesen müssen 21 Falsche Voraussetzungen 21 Wie dieses Buch aufgebaut ist 21 Teil I: Datenanalyse und Grundlagen

Mehr

Weitere (wählbare) Kontraste in der SPSS Prozedur Allgemeines Lineares Modell

Weitere (wählbare) Kontraste in der SPSS Prozedur Allgemeines Lineares Modell Einfaktorielle Versuchspläne 27/40 Weitere (wählbare) Kontraste in der SPSS Prozedur Allgemeines Lineares Modell Abweichung Einfach Differenz Helmert Wiederholt Vergleich Jede Gruppe mit Gesamtmittelwert

Mehr

Herzlich Willkommen zur Vorlesung Statistik

Herzlich Willkommen zur Vorlesung Statistik Herzlich Willkommen zur Vorlesung Statistik Thema dieser Vorlesung: Kovarianz und Korrelation Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften

Mehr

Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression

Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression Speziell im Zusammenhang mit der Ablehnung der Globalhypothese werden bei einer linearen Einfachregression weitere Fragestellungen

Mehr

Korrelation (II) Korrelation und Kausalität

Korrelation (II) Korrelation und Kausalität Korrelation (II) Korrelation und Kausalität Situation: Seien X, Y zwei metrisch skalierte Merkmale mit Ausprägungen (x 1, x 2,..., x n ) bzw. (y 1, y 2,..., y n ). D.h. für jede i = 1, 2,..., n bezeichnen

Mehr

Analyse von Zeitreihen in der Umweltphysik und Geophysik Stochastische Prozesse

Analyse von Zeitreihen in der Umweltphysik und Geophysik Stochastische Prozesse Analyse von Zeitreihen in der Umweltphysik und Geophysik Stochastische Prozesse Yannik Behr Gliederung 1 Stochastische Prozesse Stochastische Prozesse Ein stochastischer Prozess ist ein Phänomen, dessen

Mehr

DIPLOMVORPRÜFUNG GRUNDZÜGE DER STATISTIK, TEIL B WINTERSEMESTER 2006/07 28.02.2007

DIPLOMVORPRÜFUNG GRUNDZÜGE DER STATISTIK, TEIL B WINTERSEMESTER 2006/07 28.02.2007 Wirtschaftswissenschaftliches Prüfungsamt DIPLOMVORPRÜFUNG GRUNDZÜGE DER STATISTIK, TEIL B WINTERSEMESTER 006/07 8.0.007 Lösung Prof. Dr. R Friedmann / Dr. R. Hauser Hinweise für die Klausurteilnehmer

Mehr

Hauptseminar am Fachgebiet für Quantitative Methoden der Wirtschaftswissenschaften

Hauptseminar am Fachgebiet für Quantitative Methoden der Wirtschaftswissenschaften Hauptseminar am Fachgebiet für Quantitative Methoden der Wirtschaftswissenschaften Fehlende Daten in der Multivariaten Statistik SS 2011 Allgemeines Das Seminar richtet sich in erster Linie an Studierende

Mehr

Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt!

Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt! Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt! 1 Einführung 2 Wahrscheinlichkeiten kurz gefasst 3 Zufallsvariablen und Verteilungen 4 Theoretische Verteilungen (Wahrscheinlichkeitsfunktion)

Mehr

Teil II. Nichtlineare Optimierung

Teil II. Nichtlineare Optimierung Teil II Nichtlineare Optimierung 60 Kapitel 1 Einleitung In diesem Abschnitt wird die Optimierung von Funktionen min {f(x)} x Ω betrachtet, wobei Ω R n eine abgeschlossene Menge und f : Ω R eine gegebene

Mehr

Eine Einführung in R: Statistische Tests

Eine Einführung in R: Statistische Tests Eine Einführung in R: Statistische Tests Bernd Klaus, Verena Zuber Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.uni-leipzig.de/ zuber/teaching/ws12/r-kurs/

Mehr

Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel

Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel 16.11.01 MP1 - Grundlagen quantitativer Sozialforschung - (4) Datenanalyse 1 Gliederung Datenanalyse (inferenzstatistisch)

Mehr

Annahmen des linearen Modells

Annahmen des linearen Modells Annahmen des linearen Modells Annahmen des linearen Modells zusammengefasst A1: Linearer Zusammenhang: y = 0 + 1x 1 + 2x 2 + + kx k A2: Zufallsstichprobe, keine Korrelation zwischen Beobachtungen A3: Erwartungswert

Mehr

Verteilungsmodelle. Verteilungsfunktion und Dichte von T

Verteilungsmodelle. Verteilungsfunktion und Dichte von T Verteilungsmodelle Verteilungsfunktion und Dichte von T Survivalfunktion von T Hazardrate von T Beziehungen zwischen F(t), S(t), f(t) und h(t) Vorüberlegung zu Lebensdauerverteilungen Die Exponentialverteilung

Mehr

Studiendesign/ Evaluierungsdesign

Studiendesign/ Evaluierungsdesign Jennifer Ziegert Studiendesign/ Evaluierungsdesign Praxisprojekt: Nutzerorientierte Evaluierung von Visualisierungen in Daffodil mittels Eyetracker Warum Studien /Evaluierungsdesign Das Design einer Untersuchung

Mehr

Angewandte Ökonometrie, WS 2012/13, 1. Teilprüfung am 6.12.2012 - Lösungen. Das folgende Modell ist ein GARCH(1,1)-Modell:

Angewandte Ökonometrie, WS 2012/13, 1. Teilprüfung am 6.12.2012 - Lösungen. Das folgende Modell ist ein GARCH(1,1)-Modell: Angewandte Ökonometrie, WS 2012/13, 1. Teilprüfung am 6.12.2012 - Lösungen LV-Leiterin: Univ.Prof.Dr. Sylvia Frühwirth-Schnatter 1 Wahr oder falsch? 1. Das folgende Modell ist ein GARCH(1,1)-Modell: Y

Mehr

Auswertung von kritischen Daten Vorgehensweise anhand eines Beispiels Visual-XSel 10.0

Auswertung von kritischen Daten Vorgehensweise anhand eines Beispiels Visual-XSel 10.0 Auswertung von kritischen Daten Vorgehensweise anhand eines Beispiels Visual-XSel 10.0??? Curt Ronniger 2007 Bei Neueinstieg in das Programm, sollte zunächst die Dokumentation XSelDoE10.pdf gelesen werden.

Mehr

11.4 Korrelation. Def. 44 Es seien X 1 und X 2 zwei zufällige Variablen, für die gilt: 0 < σ X1,σ X2 < +. Dann heißt der Quotient

11.4 Korrelation. Def. 44 Es seien X 1 und X 2 zwei zufällige Variablen, für die gilt: 0 < σ X1,σ X2 < +. Dann heißt der Quotient 11.4 Korrelation Def. 44 Es seien X 1 und X 2 zwei zufällige Variablen, für die gilt: 0 < σ X1,σ X2 < +. Dann heißt der Quotient (X 1,X 2 ) = cov (X 1,X 2 ) σ X1 σ X2 Korrelationskoeffizient der Zufallsgrößen

Mehr

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 1 Einführung in die statistische Datenanalyse Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 2 Gliederung 1.Grundlagen 2.Nicht-parametrische Tests a. Mann-Whitney-Wilcoxon-U Test b. Wilcoxon-Signed-Rank

Mehr

Formulierungshilfen für das wissenschaftliche Schreiben

Formulierungshilfen für das wissenschaftliche Schreiben Formulierungshilfen für das wissenschaftliche Schreiben 1. Einleitendes Kapitel 1.1.1 Einen Text einleiten und zum Thema hinführen In der vorliegenden Arbeit geht es um... Schwerpunkt dieser Arbeit ist...

Mehr

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. Excel Edition. ^ Springer Spektrum

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. Excel Edition. ^ Springer Spektrum Franz Kronthaler Statistik angewandt Datenanalyse ist (k)eine Kunst Excel Edition ^ Springer Spektrum Inhaltsverzeichnis Teil I Basiswissen und Werkzeuge, um Statistik anzuwenden 1 Statistik ist Spaß 3

Mehr

Analyse von Tabellen und kategorialen Daten

Analyse von Tabellen und kategorialen Daten Hans-Jürgen Andreß Jacques A. Hagenaars Steffen Kühnel Analyse von Tabellen und kategorialen Daten Log-lineare Modelle, latente Klassenanalyse, logistische Regression und GSK-Ansatz Mit 32 Abbildungen

Mehr

Regression ein kleiner Rückblick. Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate

Regression ein kleiner Rückblick. Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate Regression ein kleiner Rückblick Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate 05.11.2009 Gliederung 1. Stochastische Abhängigkeit 2. Definition Zufallsvariable 3. Kennwerte 3.1 für

Mehr

Delta-Gamma-Verfahren als Standard- Risikomodell für Lebensversicherer

Delta-Gamma-Verfahren als Standard- Risikomodell für Lebensversicherer Delta-Gamma-Verfahren als Standard- Risikomodell für Lebensversicherer 1 Einleitung Im Rahmen des SST wird teilweise vereinfachend angenommen, dass der Zusammenhang zwischen der Veränderung des risikotragenden

Mehr

Statistik II für Betriebswirte Vorlesung 12

Statistik II für Betriebswirte Vorlesung 12 Prof. Dr. Hans-Jörg Starkloff TU Bergakademie Freiberg Institut für Stochastik Statistik II für Betriebswirte Vorlesung 12 11. Januar 2013 7.3. Multiple parameterlineare Regression Im Folgenden soll die

Mehr

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik Ludwig Fahrmeir, Nora Fenske Institut für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik 29. März 21 Hinweise:

Mehr

Experimente zu Anreiz- und Koordinationsmechanismen Prof. Dr. Stephan Lengsfeld Florian Fiedler, Marco Gathmann, Christian Graewe, Johannes

Experimente zu Anreiz- und Koordinationsmechanismen Prof. Dr. Stephan Lengsfeld Florian Fiedler, Marco Gathmann, Christian Graewe, Johannes "Lego Case - eine empirische Analyse von Produktions- und Koordinationsprozessen" Leibniz Universität Hannover Institut für Controlling Seminar: Dozent: Referenten: Wöhler, Experimente zu Anreiz- und Koordinationsmechanismen

Mehr

Florian Frötscher und Demet Özçetin

Florian Frötscher und Demet Özçetin Statistische Tests in der Mehrsprachigkeitsforschung Aufgaben, Anforderungen, Probleme. Florian Frötscher und Demet Özçetin florian.froetscher@uni-hamburg.de SFB 538 Mehrsprachigkeit Max-Brauer-Allee 60

Mehr

0 Einführung: Was ist Statistik

0 Einführung: Was ist Statistik 0 Einführung: Was ist Statistik 1 Datenerhebung und Messung Die Messung Skalenniveaus 2 Univariate deskriptive Statistik 3 Multivariate Statistik 4 Regression 5 Ergänzungen Grundbegriffe Statistische Einheit,

Mehr

Einige Statistische Tests für den Ein- Zwei- und k-stichprobenfall (Nach Sachs, Stat. Meth.)

Einige Statistische Tests für den Ein- Zwei- und k-stichprobenfall (Nach Sachs, Stat. Meth.) ue biostatistik: nichtparametrische testverfahren / ergänzung 1/6 h. Lettner / physik Statistische Testverfahren Einige Statistische Tests für den Ein- Zwei- und k-stichprobenfall (Nach Sachs, Stat. Meth.)

Mehr

Extrema von Funktionen in zwei Variablen

Extrema von Funktionen in zwei Variablen Wirtschaftswissenschaftliches Zentrum Universität Basel Mathematik für Ökonomen 1 Dr. Thomas Zehrt Extrema von Funktionen in zwei Variablen Literatur: Gauglhofer, M. und Müller, H.: Mathematik für Ökonomen,

Mehr

Analytische Statistik I. Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2009/10

Analytische Statistik I. Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2009/10 Analytische Statistik I Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2009/10 Testen Anpassungstests (goodness of fit) Weicht eine gegebene Verteilung signifikant von einer bekannten

Mehr

Übung zur Empirischen Wirtschaftsforschung V. Das Lineare Regressionsmodell

Übung zur Empirischen Wirtschaftsforschung V. Das Lineare Regressionsmodell Universität Ulm 89069 Ulm Germany Dipl.-WiWi Christian Peukert Institut für Wirtschaftspolitik Fakultät für Mathematik und Wirtschaftswissenschaften Ludwig-Erhard-Stiftungsprofessur Sommersemester 2010

Mehr

Aufgabe 1 (Exponentielles Wachstum, wird teilweise auch in Vorlesung besprochen, Teile a) bis c) sind exakt die Aufgaben von Blatt 2, Aufgabe 3))

Aufgabe 1 (Exponentielles Wachstum, wird teilweise auch in Vorlesung besprochen, Teile a) bis c) sind exakt die Aufgaben von Blatt 2, Aufgabe 3)) Formalisierungspropädeutikum Übungsblatt 3 Prof. Dr. Th. Augustin, Dr. R. Poellinger, C. Jansen, J. Plaß, G. Schollmeyer WiSe 2015/16 Aufgabe 1 (Exponentielles Wachstum, wird teilweise auch in Vorlesung

Mehr

AquaZIS. Zeitreihenkorrektur

AquaZIS. Zeitreihenkorrektur AquaZIS Zeitreihenkorrektur Aachen, Juli 2013 aqua_plan Ingenieurgesellschaft für Problemlösungen in Hydrologie und Umweltschutz mbh Amyastr. 126, 52066 Aachen Tel.: 0241 40070-0, Fax: 0241 40070-99 Geschäftsführer:

Mehr

H. Gruber, R. Neumann. Erfolg im Mathe-Abi. Basiswissen Rheinland-Pfalz. Übungsbuch für den Grund- und Leistungskurs mit Tipps und Lösungen

H. Gruber, R. Neumann. Erfolg im Mathe-Abi. Basiswissen Rheinland-Pfalz. Übungsbuch für den Grund- und Leistungskurs mit Tipps und Lösungen H. Gruber, R. Neumann Erfolg im Mathe-Abi Basiswissen Rheinland-Pfalz Übungsbuch für den Grund- und Leistungskurs mit Tipps und Lösungen Vorwort Vorwort Erfolg von Anfang an Dieses Übungsbuch ist auf die

Mehr

Betragsgleichungen und die Methode der Fallunterscheidungen

Betragsgleichungen und die Methode der Fallunterscheidungen mathe online Skripten http://www.mathe-online.at/skripten/ Betragsgleichungen und die Methode der Fallunterscheidungen Franz Embacher Fakultät für Mathematik der Universität Wien E-mail: franz.embacher@univie.ac.at

Mehr

1 Statistische Grundlagen

1 Statistische Grundlagen Konzepte in Empirische Ökonomie 1 (Winter) Hier findest Du ein paar Tipps zu den Konzepten in Empirische 1. Wenn Du aber noch etwas Unterstützung kurz vor der Klausur brauchst, schreib uns eine kurze Email.

Mehr

Michelson-Interferometer & photoelektrischer Effekt

Michelson-Interferometer & photoelektrischer Effekt Michelson-Interferometer & photoelektrischer Effekt Branche: TP: Autoren: Klasse: Physik / Physique Michelson-Interferometer & photoelektrischer Effekt Cedric Rey David Schneider 2T Datum: 01.04.2008 &

Mehr

5. Untersuchungsdesigns

5. Untersuchungsdesigns Dr. habil. Rüdiger Jacob Methoden und Techniken der empirischen Sozialforschung Vorlesung mit Diskussion 5. Untersuchungsdesigns Experimente als Instrument zur Prüfung von Kausalität Kohortenstudien, Fall-Kontroll-Studien,

Mehr

x 2 2x + = 3 + Es gibt genau ein x R mit ax + b = 0, denn es gilt

x 2 2x + = 3 + Es gibt genau ein x R mit ax + b = 0, denn es gilt - 17 - Die Frage ist hier also: Für welche x R gilt x = x + 1? Das ist eine quadratische Gleichung für x. Es gilt x = x + 1 x x 3 = 0, und man kann quadratische Ergänzung machen:... ( ) ( ) x x + = 3 +

Mehr

Alle WGKT-Empfehlungen können unter www.wgkt.de eingesehen und heruntergeladen werden.

Alle WGKT-Empfehlungen können unter www.wgkt.de eingesehen und heruntergeladen werden. WGKT-Empfehlung Betriebswirtschaftliche Kennzahlen von Krankenhäusern Stand: 05.11.2009 Arbeitskreismitglieder: Prof. Dr. K. Lennerts (Leitung), Karlsruhe; Prof. Dr. C. Hartung, Hannover; Dr. T. Förstemann,

Mehr

Einführung in statistische Analysen

Einführung in statistische Analysen Einführung in statistische Analysen Andreas Thams Econ Boot Camp 2008 Wozu braucht man Statistik? Statistik begegnet uns jeden Tag... Weihnachten macht Deutschen Einkaufslaune. Im Advent überkommt die

Mehr

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten.

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten. Statistik für Kommunikationswissenschaftler Wintersemester 2009/200 Vorlesung Prof. Dr. Helmut Küchenhoff Übung Cornelia Oberhauser, Monia Mahling, Juliane Manitz Thema 4 Homepage zur Veranstaltung: http://www.statistik.lmu.de/~helmut/kw09.html

Mehr

In ein quadratisches Blech werden Löcher gestanzt. Insgesamt sind es 85 Löcher. Wie viele Löcher sind in der untersten Reihe?

In ein quadratisches Blech werden Löcher gestanzt. Insgesamt sind es 85 Löcher. Wie viele Löcher sind in der untersten Reihe? Aufgabe 1: Das Stanzblech: Löcher In ein quadratisches Blech werden Löcher gestanzt. Insgesamt sind es 85 Löcher. Wie viele Löcher sind in der untersten Reihe? Bei dieser Aufgabe kann rückwärts gearbeitet

Mehr

Statistische Auswertung der Daten von Blatt 13

Statistische Auswertung der Daten von Blatt 13 Statistische Auswertung der Daten von Blatt 13 Problemstellung 1 Graphische Darstellung der Daten 1 Diskussion der Normalverteilung 3 Mittelwerte und deren Konfidenzbereiche 3 Signifikanz der Behandlung

Mehr

Rauchen bis kurz vor Bekanntwerden einer Schwangerschaft: Physiologische Beeinträchtigung im Kindergartenalter?

Rauchen bis kurz vor Bekanntwerden einer Schwangerschaft: Physiologische Beeinträchtigung im Kindergartenalter? Rauchen bis kurz vor Bekanntwerden einer Schwangerschaft: Physiologische Beeinträchtigung im Kindergartenalter? Marc Jarczok, Sven Schneider, Joachim E. Fischer, Freia De Bock 1 Mannheimer Institut für

Mehr

Anhand des bereits hergeleiteten Models erstellen wir nun mit der Formel

Anhand des bereits hergeleiteten Models erstellen wir nun mit der Formel Ausarbeitung zum Proseminar Finanzmathematische Modelle und Simulationen bei Raphael Kruse und Prof. Dr. Wolf-Jürgen Beyn zum Thema Simulation des Anlagenpreismodels von Simon Uphus im WS 09/10 Zusammenfassung

Mehr

Statistik II für Betriebswirte Vorlesung 2

Statistik II für Betriebswirte Vorlesung 2 PD Dr. Frank Heyde TU Bergakademie Freiberg Institut für Stochastik Statistik II für Betriebswirte Vorlesung 2 21. Oktober 2014 Verbundene Stichproben Liegen zwei Stichproben vor, deren Werte einander

Mehr

Brückenkurs Statistik für Wirtschaftswissenschaften

Brückenkurs Statistik für Wirtschaftswissenschaften Peter von der Lippe Brückenkurs Statistik für Wirtschaftswissenschaften Weitere Übungsfragen UVK Verlagsgesellschaft mbh Konstanz Mit UVK/Lucius München UVK Verlagsgesellschaft mbh Konstanz und München

Mehr

Kapitel 3: Interpretationen

Kapitel 3: Interpretationen Kapitel 3: 1. Interpretation von Outputs allgemein... 1 2. Interpretation von Signifikanzen... 1 2.1. Signifikanztests / Punktschätzer... 1 2.2. Konfidenzintervalle... 2 3. Interpretation von Parametern...

Mehr

Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall )

Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall ) Zusammenhänge von Variablen Regressionsanalysen linearer Zusammenhang ( Idealfall ) kein Zusammenhang nichtlinearer monotoner Zusammenhang (i.d.regel berechenbar über Variablentransformationen mittels

Mehr

Was kann die Statistik zur Bankenkrise beitragen?

Was kann die Statistik zur Bankenkrise beitragen? Was kann die Statistik zur Bankenkrise beitragen? Rafael Weißbach Lehrstuhl für Statistik, insbesondere demografischer Wandel Institut für Volkswirtschaftslehre Wirtschafts- und Sozialwissenschaftliche

Mehr

Lineare Funktionen. 1 Proportionale Funktionen 3 1.1 Definition... 3 1.2 Eigenschaften... 3. 2 Steigungsdreieck 3

Lineare Funktionen. 1 Proportionale Funktionen 3 1.1 Definition... 3 1.2 Eigenschaften... 3. 2 Steigungsdreieck 3 Lineare Funktionen Inhaltsverzeichnis 1 Proportionale Funktionen 3 1.1 Definition............................... 3 1.2 Eigenschaften............................. 3 2 Steigungsdreieck 3 3 Lineare Funktionen

Mehr

b) Bestimmen Sie die Varianz der beiden Schätzer. c) Ist ein oder sind beide Schätzer konsistent? Begründen Sie!

b) Bestimmen Sie die Varianz der beiden Schätzer. c) Ist ein oder sind beide Schätzer konsistent? Begründen Sie! Aufgabe 1 (3 + 3 + 2 Punkte) Ein Landwirt möchte das durchschnittliche Gewicht von einjährigen Ferkeln bestimmen lassen. Dies möchte er aus seinem diesjährigen Bestand an n Tieren schätzen. Er kann dies

Mehr

Statistische Versuchsplanung - zuverlässiger und schneller zu Ergebnissen" Dr. Uwe Waschatz

Statistische Versuchsplanung - zuverlässiger und schneller zu Ergebnissen Dr. Uwe Waschatz Statistische Versuchsplanung - zuverlässiger und schneller zu Ergebnissen" Dr. Uwe Waschatz Inhalt Problembeschreibung Multiple lineare Regressionsanalyse Statistische Versuchsplanung / Design of Experiments

Mehr

Zählstatistik. Peter Appel. 31. Januar 2005

Zählstatistik. Peter Appel. 31. Januar 2005 Zählstatistik Peter Appel 31. Januar 2005 1 Einleitung Bei der quantitativen Analyse im Bereich von Neben- und Spurenelementkonzentrationen ist es von Bedeutung, Kenntnis über die möglichen Fehler und

Mehr