Messfehlertheorie. Daniel Stöckeler. Seminararbeit Seminar `Statistische Herausforderungen sozialwissenschaftlicher Studien' Institut für Statistik

Größe: px
Ab Seite anzeigen:

Download "Messfehlertheorie. Daniel Stöckeler. Seminararbeit Seminar `Statistische Herausforderungen sozialwissenschaftlicher Studien' Institut für Statistik"

Transkript

1 Messfehlertheorie Daniel Stöckeler Seminararbeit Seminar `Statistische Herausforderungen sozialwissenschaftlicher Studien' Institut für Statistik Betreuer: Prof. Dr. Augustin Abgabedatum: 29. November 2010

2 Inhaltsverzeichnis 1 Einleitung 1 2 Einteilung der Messfehler Ursachen von Fehlern und Grundlagen Dierentieller und nicht-dierentieller Fehler Systematische und stochastische Messfehler Klassischer Fehler und Berkson-Fehler Fehlermodelle und einfache, lineare Regression Regression bei systematischen Messfehlern Regression bei stochastischen Messfehlern Regression bei klassischem Messfehler Regression bei Berkson-Fehler Verknüpfung von klassischem Fehler und Berkson-Fehler 13 4 Fehlermodelle und multiple, lineare Regression 14 5 Korrekturverfahren bei Messfehlern Korrektur bei bekannter Fehlerstruktur Orthogonale Regression Schlussbetrachtungen 19 ii

3 1 Einleitung Fehlerbehaftete Daten sind in der Regel unvermeidlich und werden von fehlerhaften Messungen oder Datenerhebungen verursacht. Durch wiederholte Messungen und Anpassungen bei Kenntnis der Messfehlervarianzen können sie in den experimentellen Naturwissenschafen häug verringert werden, verschwinden allerdings nicht. In der Biologie und der Medizin, insbesondere jedoch in den Sozial- und Wirtschaftswissenschaften ist eine Wiederholung der Experimente selten möglich; Messfehler sind daher unvermeidlich. Diese Fehler haben unterschiedlichste Struktur und wirken sich auf verschiedene Bereiche aus: Sie führen zu Verzerrungen in den Parameterschätzern für Regressionsbeziehungen, verdecken Zusammenhänge zwischen den Variablen und wirken sich unmittelbar auf die statistische Signikanz von Tests aus. Abbildung 1 zeigt beispielhaft die Auswirkung (klassischer) Messfehler: Der oenbar sinusförmige Zusammenhang zwischen Prädiktor und Response wird verdeckt, die graphische Analyse hierdurch erschwert oder verhindert. Diese Seminararbeit stellt zunächst beispielhaft unterschiedliche Fehlertypen vor. Daran anschlieÿend ndet sich ein Überblick über die Auswirkungen dieser Fehlermodelle auf lineare Regressionsmodelle. In diesem Zusammenhang untersuchen wir insbesondere die Konsequenzen der klassischen Kleinste- Quadrate-Schätzung bei fehlerbehafteten Daten und weisen auf einige (überraschende) Konsequenzen hin, wenn diese ohne Berücksichtigung der Fehlerstruktur in naiver Weise angewendet werden. Abschlieÿend stellen wir kurz und überblicksweise einige grundlegende Korrekturverfahren vor. 1

4 Daten ohne Messfehler Daten mit Messfehler Y = sin(2x) + ε Y = sin(2x) + ε X W = X + U Abbildung 1: Verdeckter Zusammenhang zwischen Prädiktor und Response bei klassischem Messfehler. Im Beispiel ist ɛ NV(0, 0.15) und U NV(0, 0.4). 2 Einteilung der Messfehler 2.1 Ursachen von Fehlern und Grundlagen Fehler in den Variablen sind unterschiedlichen Fehlerquellen geschuldet und hängen vom Gegenstand der Messung selbst ab. Neben Erhebungsfehlern, welche in Form von Doppelzählungen, falschen Messungen, fehlerhafter Aggregation und falsch gewählten Stichproben insbesondere in den Sozialwissenschaften auftreten, wirken sich Rundungsfehler auf die Datenqualität aus. Weitere Messprobleme sind unter anderem durch die geringe Verlässlich- 2

5 keit selbstbeobachteter Informationen, Verwendung von Datensätzen geringer Qualität und ungenaue Laborwerte bedingt. Ein Problem für Biometrie und Ökonometrie in gleichen Teilen stellen nicht-beobachtbare Variablen dar, weswegen auf möglichst ähnliche Variablen (Proxy-Variablen) als vermeintlich adäquater Ersatz ausgewichen wird. Im verbleibenden Teil der Seminararbeit untersuchen wir lediglich die Auswirkungen von Fehlern in der Prädiktorvariable. Ein zusätzliche Messfehler kann auch in der Responsevariable Y nicht ausgeschlossen werden, führt aber in der Regel nur zu einer Erhöhung der Residuenvarianz insgesamt. Ohne nähere Unterscheidung der Dimension der betrachteten Gröÿen bezeichnen wir den beobachtbaren, fehlerbehafteten Wert mit W und den latenten, unbeobachtbaren Wert mit X. Weiterhin beschränken wir uns darauf, die Konsequenzen für lineare Regressionsmodelle zu diskutieren und verweisen für die Folgen in nichtlinearen Modellen auf entsprechende Literatur. Treten fehlerfrei messbare Kovariablen (z.b. Geschlecht) auf, werden diese mit Z bezeichnet. 2.2 Dierentieller und nicht-dierentieller Fehler Wir haben bereits einleitend darauf hingewiesen, dass eine Fehlerquelle der Verwendung von ähnlichen Variablen W geschuldet ist, wenn die eigentlich interessierende Variable X nicht beobachtbar oder wegen fehlender Erhebungen nicht verfügbar ist. Wenn W über die Response Y keine andere Information als X und die gegebenenfalls fehlerfrei gemessene Variable Z enthält, ist W als nicht-dierentieller Fehler ein Surrogat für X. Formal hängt die Verteilung von Y gegeben (X, W, Z) lediglich von (X, Z) ab. Dierentielle Fehler können beispielsweise in biometrischen Untersuchungen relevant sein, wenn kranke Individuen ihr Verhalten (etwa Ernährungs- und 3

6 Schlafgewohnheiten, Medikamentenkonsum, Rauch- und Suchtverhalten) in der Vergangenheit im Rückblick anders betrachten als gesunde Individuen. Bei selbst gemessenen oder selbst berichteten Variablen führt diese verschobene Wahrnehmung zu dierentiellen Fehlern, die vom Krankheitsverlauf und damit der Respose abhängen. Das Vorliegen nicht-dierentieller Fehler ist folglich kritisch zu prüfen. Nicht-dierentielle Fehler haben den Vorteil, dass sich die Untersuchung der einfachen, linearen Regression vereinfacht und die Bestimmung der Regressionsparameter grundsätzlich auch mit der fehlerbehafteten Variable W möglich ist, schlieÿlich ist E(Y W) = E(E(Y X, W W) = E(E(Y X) W) = β 0 + β X E(X W). (1) Aus diesem Grund betrachten wir nachfolgend ausschlieÿlich nicht-dierentielle Fehler. 2.3 Systematische und stochastische Messfehler Im Wesentlichen unterscheiden wir zwei Arten von Messfehlern, die unterschiedlich verursacht werden und unterschiedlich zu behandeln sind. Systematische Messfehler entstehen beispielsweise durch fehlerhafte Normierung und Skalierung der Messinstrumente, allgemeiner durch systematische Fehler bei der Datenerhebung, welche einer festen Regel oder einem bestimmten, festgelegten Prinzip folgen. Der beobachtete Wert W ist hier mit dem latenten Wert X über einen funktionalen Zusammenhang W = f(x) verbunden. Im einfachsten Fall ist der Zusammenhang linear und durch W = cx + d (2) beschreibbar. Obwohl auch komplexere funktionale Zusammenhänge, insbesondere etwa polynomiale oder exponentielle Strukturen denkbar sind, be- 4

7 schränken wir uns hier auf lineare Fehler, deren Auswirkungen auf lineare Modelle wir detaillert diskutieren werden. Stochastische Messfehler stellen die zweite Art von Messfehler dar und variieren zufällig von Messung zu Messung. Im einfachsten, klassischen Fall gilt W = X + U (3) mit U NV(0, σu 2 ), wobei X und U stochastisch unabhängig sind. Während dieses Fehlermodell von gleichbleibender Varianz und normalverteilten Fehlern ausgeht, sind andere Fehlerstrukturen denkbar und durch entsprechende Anpassungen modellierbar. Insbesondere sind zeitlich veränderliche oder individuenspezische Varianzen etwa im biometrischen Kontext, aber auch bei anderen Fragestellungen denkbar. Verbleibend und im nächsten Abschnitt betrachten wir jedoch im Wesentlichen das gerade vorgestellte Modell sowie das Berkson-Modell mit ähnlicher Struktur. In der Regel ist mit dem Vorhandensein beider Fehlerarten zu rechnen, welche lediglich aus Gründen der Übersichtlichkeit einzeln betrachtet werden. Abbildung 2 zeigt den Zusammenhang zwischen wahrem, latenten Wert X und beobachtetem Wert W für beide Fehlerarten. 5

8 Systematischer Fehler Zufälliger Fehler beobachteter Wert W beobachteter Wert W theoretischer Wert X theoretischer Wert X Abbildung 2: Gegenüberstellung von systematischem und stochastischem Messfehler. Im Beispiel ist links ein linearer, systematischer Fehler und rechts ein zufälliger, normalverteilter Fehler dargestellt. 2.4 Klassischer Fehler und Berkson-Fehler Nach der allgemeinen Unterscheidung zwischen systematischen und zufälligen Messfehlern werden wir in diesem Abschnitt zufällige Messfehler genauer betrachten. Zufällige Messfehler sind auf zwei unterschiedlichen Arten darstellbar, welche trotz ihrer vermeintlichen Ähnlichkeit unterschiedliche Auswirkungen etwa auf Regressionsuntersuchungen haben und nachfolgend vorgestellt werden. Im klassischen Fehlermodell ist als Standardfehlermodell in der Regel einzusetzen und stellt W die fehlerbehaftete Messung des wahren, latenten Werts 6

9 X dar, modelliert durch den Zusammenhang W = X + U (4) mit U NV(0, σu 2 ), wobei U und X stochastisch unabhängig sind. In diesem Fall gilt E(W X) = X, W ist folglich eine unverzerrte Messung für X. Betrachtet man stattdessen X = W + U (5) mit U NV(0, σu 2 ), wobei U und W stochastisch unabhängig sind, so gilt E(X W) = W. Man erhält trotz vermeintlicher Ähnlichkeit ein anderes Modell. Dieser Fehler wird Berkson-Fehler genannt und spiegelt eine andere Ausgangslage wieder: Während beim klassischen Fehler der exakte Wert X durch zufällige Messfehler verdeckt wird, stellt sich beim Berkson-Fehler der exakte, nicht beobachtbare Wert X erst als Ergebnis einer (im Experiment kontrollierbaren) Variablen W ein. Berkson-Modelle nden in natürlicher Weise bei epidemiologischen Studien ihre Anwendung. Als Beispiel sei hier die Studie von Kreuzer et al. (2002) erwähnt, welche statt individueller Strahlenbelastungen von Minenarbeitern lediglich die durchschnittliche Belastung verknüpft mit der Zahl an Arbeitstagen berücksichtigt. Die tatsächliche, latente Belastung ist von Arbeiter zu Arbeiter verschieden und unterliegt modellbedingt zufälligen Schwankungen; die im Modell verwendete Strahlenbelastung weist also Berkson-Fehler auf. 7

10 3 Fehlermodelle und einfache, lineare Regression 3.1 Regression bei systematischen Messfehlern Ausgehend von der Modellgleichung der einfachen, linearen Regression Y = β 0 + β X X + ɛ, ɛ NV(0, σ 2 ɛ ) (6) betrachten wir zunächst den Fall systematischer Messfehler. Wir beobachten eine fehlerbehaftete Variable W, die über einen festen funktionalen Zusammenhang W = f(x) mit der fehlerfreien Variable X verknüpft ist. Betrachtet werden sollen hier nur lineare Verknüpfungen und damit das Verhalten bei konstanten und proportionalen Fehlern. Im ersten, einfachsten Fall messen wir statt der fehlerfreien Variablen X eine um einen konstanten Messfehler d verschobene, folglich fehlerbehaftete Variable W = X + d. In diesem Fall verändert sich die angegebenen Modellgleichung, es gilt Y = β 0 + β X(X + d) + ɛ. (7) Durch Umformung ergibt sich mit β 0 := β 0 + β X d Y = β 0 + β XX + ɛ. (8) Als Parameterschätzer erhalten wir als verzerrten, inkonsistenten Wert β 0 = β 0 + β X d sowie konsistent geschätzt β X = β X. Diese Ergebnisse liegen nahe, sind die beobachteten Werte nur um einen konstanten Wert d nach rechts und in der Folge um den Wert β X d nach oben verschoben. Im zweiten Fall erhalten wir statt der fehlerfreien Variablen X eine mit einem proportionalen Fehler behaftete Variable W = cx. Nachfolgend gehen wir 8

11 also von der Modellgleichung Y = β 0 + β XcX + ɛ (9) aus, woraus sich die verzerrten KQ-Schätzer β 0 und β X = 1 c β X ergeben. In beiden Fällen erhalten wir durch KQ-Schätzung verzerrte Schätzer, die bei Kenntnis des konstanten Fehlers d und proportionalen Fehlers c unmittelbar korrigiert werden können. Kennt man den systematischen Messfehler allerdings, so können auch die gemessenen, fehlerbehafteten Werte W selbst vor Durchführung der Regression korrigiert werden. 3.2 Regression bei stochastischen Messfehlern Regression bei klassischem Messfehler Von ebenso groÿer Relevanz sind stochastische Messfehler, weswegen wir als ersten Schritt die Auswirkungen klassischer Messfehler auf das lineare Regressionsmodell Y = β 0 + β X X + ɛ, ɛ NV (0, σ 2 ɛ ) (10) betrachten. Ist X nicht messbar, stattdessen nur fehlerbehaftet W = X + U mit U NV(0, σu 2 ) verfügbar, erhalten wir das Modell Y = β 0 + β W (X + U) + ɛ (11) mit oben angegebenen Fehlerverteilungen für U und ɛ. 9

12 Abbildung 3: Regressionsgeraden bei klassischem Messfehler (schematische Darstellung). Bereits eine einfache graphische Analyse, die Schneeweiÿ/Mittag (1986), S. 40., entnommen ist, verdeutlicht die Folgen klassischer Messfehler. Die schwarze Regressionsgerade in Abbildung 3 gibt den wahren Zusammenhang zwischen Prädiktor und Response an. Als klassischer Messfehler ist hier statt einer Normalverteilung die Verschiebung der beobachteten Werte um einen konstanten Term nach links beziehungsweise rechts modelliert. Die rote, gestrichelte Regressionsgerade zeigt die Veränderungen, die durch Kleinste- Quadrate-Schätzung bewirkt werden. Es kommt zu einer systematischen Un- 10

13 terschätzung der Steigung. Zur Illustration wurde hierbei angenommen, dass für jeden wahren Wert (x 1, x 2 ) zwei messfehlerbehaftete Werte (w 11, w 12, w 21, w 22 ) beobachtet wurden. Zur Verzerrung kommt es KQ-bedingt eigentlich erst bei mehr als zwei Beobachtungspunkten. Dieses Ergebnis kann nicht nur graphisch plausibel gemacht werden, sondern ist auch theoretisch nachweisbar. Ohne Beweis geben wir hier ein Ergebnis wieder, welches bei normalverteilten, klassischen Messfehlern U gilt: Die gewöhnliche Kleinste-Quadrate-Schätzung von X auf Y ist kein unverzerrter Schätzer von β X, da nunmehr β W = λβ X mit λ := σ 2 X σ 2 X + σ2 U < 1 (12) als Attenuation-Faktor (reliability ratio) bestimmt wird. Die Regressionsgerade verläuft bei fehlerbehafteten Daten also acher als im unbeobachtbaren Modell. Darüber hinaus vergröÿert sich die Varianz der Beobachtungen. Statt Var(Y X) = σ 2 ɛ erhalten wir als Residuenvarianz Var(Y W) = σɛ 2 + λβxσ 2 U 2 = σɛ 2 + σ2 X σx 2 + βxσ 2 σ2 U 2 > Var(Y X). (13) U Somit schwächt sich wie erwartet der Zusammenhang zwischen gemessenem Prädiktor W und Response Y ab. Überraschender ist, dass sich nach Buzas et al. (2004), S. 737, in einigen Fällen die Varianz des naiven Parameterschätzers 1 bei fehlerbehafteten Daten im Vergleich zur fehlerfreien Schätzung verringert, demnach Kondenzintervalle neben der falschen Lage auch verkleinert sind. 1Als naiven Parameterschätzer bezeichnet man den gewöhnlichen KQ-Schätzer ohne Berücksichtigung von Messfehlern. 11

14 3.2.2 Regression bei Berkson-Fehler Die Auswirkungen des Berkson-Fehlers sind ungleich geringer. Hier modellieren wir wiederum Y = β 0 + β X X + ɛ, ɛ NV(0, σ 2 ɛ ) (14) mit X = W + U und E(X W) = W. Wie beim klassischen Messfehler betrachten wir auch hier zunächst an einem einfachen Beispiel die Auswirkungen des Berkson-Fehlers. Statt der beobachteten Werte (w 1, w 2 ) messen wir eigentlich die Auswirkungen der wahren Werte (x 11, x 12, x 21, x 22 ) und die zu ihnen gehörenden Werte der Responsevariable (y 11, y 12, y 21, y 22 ). Neben den vier möglichen wahren, latenten Punkten in schwarz sind in Abbildung 4 die beobachteten Punkte in rot eingetragen. Die Kleinste-Quadrate-Regressionsgleichungen sind oenbar identisch im beobachteten und wahren Fall, wenn wir wie im klassischen Fall annehmen, dass alle beobachteten Punkte gleichermaÿen realisiert werden. Es kommt folglich zu keiner Verzerrung der Regressionskoezienten im Berkson-Model. Analytisch lässt sich dieses Ergebnis einfach bestätigen. Da sich X = W + U erst als zufälliges Ergebnis nach Festlegung von W einstellt, bestimmen wir statt der wahren Regressionskoezienten jene im Regressionsmodell Y = β 0 + β W W + ɛ, ɛ NV (0, σ 2 ɛ ). (15) Wegen E(X W) = W ist (bei nicht-dierentiellen Fehlern) E(Y W) = β 0 + β X E(X W) = β 0 + β X W. Dementsprechend sind die Koezientenschätzer für β 0 und β X = β W unverzerrt. Statt der Residuenvarianz Var(Y X) erhalten wir durch wenige Umformungen die Varianz Var(Y W) = Var(Y) + Var(E(Y W)) = σ 2 ɛ + β 2 Xσ 2 U > Var(Y X). (16) 12

15 Abbildung 4: Regressionsgeraden bei Berkson-Fehler (schematische Darstellung) Verknüpfung von klassischem Fehler und Berkson-Fehler Beide Fehlermodelle sind trotz ihrer unterschiedlichen Interpretation technisch miteinander verknüpft, wie Caroll et al. (2006), S.28f. aufzeigen. Sie gehen dabei vom klassischen Fehlermodell W = X + U aus und geben als besten linearen Prädiktor für X gegeben W X = λw + (1 λ)e(u) + U (17) 13

16 mit U = (1 λ)(x E(X)) λu und Attenuation-Faktor λ := σ2 X σ 2 X +σ2 U an. Sie weisen nach, dass U und W unkorreliert sind, überführen folglich den klassischen Fehler in ein Berkson-Modell. Wie wir gesehen haben, ist das Berkson-Modell unverzerrt. Zusammenfassend erhalten wir als Fehlerstruktur das Berkson-Modell als stochastischen Fehler, verzerrt durch den systematischen, proportionalen Fehler λ, welcher sich wie bereits vorgestellt auswirkt. 4 Fehlermodelle und multiple, lineare Regression In diesem Abschnitt erweitern wir das bisherige Regressionsmodell, indem wir die Auswirkungen von Messfehlern auf die Ergebnisse bei multipler, linearer Regression vorstellen. Im einfachsten Fall, auf welchen wir uns hier beschränken, lassen sich die Kovariablen in eine messfehlerbehaftete, skalare Kovariable X und weitere, fehlerfreie Kovariablen Z aufteilen. Wir betrachten folglich das Regressionsmodell Y = β 0 + β X X + β T Z Z + ɛ, (18) wobei Z den Spaltenvektor der fehlerfreien Kovariablen und β Z der zugehörige Koezientenvektor darstellt. Die naiven Kleinste-Quadrate-Schätzer für die Regressionskoezienten sind im Falle multipler Regression wie bereits im Fall einfacher linearer Regression verzerrt. Carroll et al. (2006) geben einen Beweis, dass die KQ- Schätzer verzerrt sind. Statt β X wird λ 1 β X mit λ 1 := σ2 X Z = σ2 X Z := σw 2 σ Z X Z 2 +σ2 U Var(X Z)+Var(U), statt β Z wird β Z + β X (1 λ 1 )Γ Z geschätzt, wobei Γ Z als Koezient der Regression von X auf Z, d.h. durch E(X Z) = Γ 0 + Γ T Z, Z 14

17 deniert ist. Oenbar können sich Messfehler in einer Variable auch auf die Koezientenschätzer der anderen, fehlerfreien Variablen auswirken. Dieses bemerkenswerte und überraschende Ergebnis soll an einem Beispiel veranschaulicht und plausibilisiert werden. In Abbildung 5 sind in der linken Graphik fehlerfreie Daten abgetragen, wobei die rote Gruppe durchschnittlich höhere Werte X als die blaue Gruppe annimmt. Die Response Y hängt in diesem Beispiel ausschlieÿlich über einen linearen Zusammenhang von X, nicht jedoch von der Gruppenzugehörigkeit ab, weshalb kein durch die Gruppenzugehörigkeit bedingter Eekt beobachtbar ist. In der rechten Graphik wird statt X die fehlerbehaftete Variable W = X+U mit klassischer Fehlerstruktur und normalverteiltem Fehler U gemessen. In der Folge ist einerseits wie erwartet und bereits diskutiert eine Abachung der Regressionsgerade insgesamt zu erwarten und darüber hinaus ein deutlicher Gruppeneekt beobachtbar. Die beschriebene Auswirkung ist dabei ausschlieÿlich auf die fehlerbehaftete Messung zurückzuführen und kann in zahllosen Fällen auftreten. Messfehler können vermeintliche Geschlechtseekte bei soziologischen Fragestellungen verursachen oder Wirksamkeitsunterschiede bei Medikamenten bedingen. Schneeweiÿ führt als weiteres Beispiel Strukturbrüche in der Ökonometrie auf, die scheinbare zeitliche Brüche im Zusammenhang zwischen ökonomischen Gröÿen darstellen. Zusammenfassend handelt es sich folglich um ein weitreichendes Problem, das - wann immer nicht vernachlässigbare Messfehler zu erwarten sind - gleichfalls nicht vernachlässigt werden sollte. 15

18 Abbildung 5: Auswirkung von Messfehlern bei multipler Regression: In der linken Graphik mit fehlerfreiem Prädiktor ist kein Unterschied zwischen blauer und roter Gruppe beobachtbar. In der rechten Graphik ist der Prädiktor fehlerbehaftet; allein hierdurch acht sich der Zusammenhang ab und ein Gruppeneekt tritt auf. 16

19 5 Korrekturverfahren bei Messfehlern 5.1 Korrektur bei bekannter Fehlerstruktur Im vorherigen Abschnitt haben wir die Konsequenzen unterschiedlicher Messfehler auf das lineare Regressionsmodell untersucht und in den meisten Fällen neben anderen Auswirkungen verzerrte Schätzer erhalten. Möchte man diese Verzerrung korrigieren, so nimmt man allerdings in der Regel als Trade-o eine Vergröÿerung der Varianz in Kauf. Ein erster, intuitiver Ansatz zur Behebung dieser Verzerrungen ist, die Schätzungen durch einen Korrekturfaktor zu verbessern. Beim klassischen Messfehlermodell ergibt sich wie bereits diskutiert beispielsweise asymptotisch als verzerrter Parameterschätzer β W = λβ X mit Attenuation-Faktor λ := σ2 X < 1. Einen unverzerrten σx 2 +σ2 U Schätzer für die fehlerfreien Daten erhalten wir demnach, wenn wir den KQ- Schätzer β W mit dem Faktor 1 multiplizieren. λ Zentrales Problem ist hierbei allerdings, dass die Fehlervarianzen in der Regel nicht bekannt sind und selbst geschätzt werden müssen. Im Falle systematischer Fehler ist dies gewöhnlich nur möglich, wenn die Fehlerparameter bekannt sind. Dann können wie bereits im Teil zuvor angedeutet entweder die Daten selbst und direkt bereinigt werden oder die Verzerrung der Parameter korrigiert werden. Im Falle stochastischer Messfehler bleiben mehr Möglichkeiten oen: Falls Experimente wiederholbar sind, können unabhängige, erneute Messungen die Datenqualität verbessern und zu einer Schätzung der Fehlervarianzen beitragen. Sind die Daten nicht wiederholbar, bleibt als Möglichkeit, durch Untersuchungen der Messinstrumente zu einer Schätzung zu gelangen oder andere A-priori-Information zu beziehen. 17

20 5.2 Orthogonale Regression Schätzt man Regressionsparameter mittels klassischer Kleinste-Quadrate- Methode, werden jene Parameter gesucht, die den vertikalen Abstand n i=1 (Y i β 0 β X x i ) 2 (19) zwischen beobachteten Punkten und anzupassender Regressionsgerade minimieren. Orthogonale Regression greift eine bereits durch Abbildung 3 naheliegende Idee auf und modiziert die Kleinste-Quadrate-Methode insofern, als dass der orthogonale Abstand n i=1 {(Y i β 0 β X x i ) 2 + η(w i x i )} (20) durch Wahl der unbekannten Parameter (β 0, β X, x 1,..., x n ) minimiert werden soll. Für η = 1 erhalten wir hieraus tatsächlich jene Regressionsgerade, welche den quadratischen Abstand zwischen den beobachteten Punkten (w i, y i ) und der Regressionsgerade selbst minimiert. Wählen wir η = σ2 ɛ σu, 2 erhalten wir ein anderes Minimierungskriterium, bestimmen jedoch die Regressionsgerade nach dem Maximum-Likelihood-Ansatz. In diesem Zusammenhang zeigt sich das grundlegende Problem dieses Korrekturverfahrens. Zwar genügt es in diesem Verfahren, wenn statt der einzelnen Fehlervarianzen lediglich deren Quotient η bekannt ist. Allerdings ist selbst dieser in der Regel nicht bekannt und muss geschätzt werden. Da bereits kleine Änderungen der Fehlervarianzen groÿen Einuss auf den Quotienten haben, kommt es in der Folge zur Überkorrektur und wiederum zu verzerrten Ergebnissen. Insgesamt ist das Verfahren also trotz seiner Einfachheit mit praktischen Problemen behaftet. 2 2Carroll et al. (2006), S.57f., zeigen diese Folge mittels Zerlegung des Modellfehlers in Messfehler und Gleichungsfehler auf. 18

21 6 Schlussbetrachtungen Die vorliegende Seminararbeit hat sich ausschlieÿlich auf die Auswirkungen von Messfehlern in linearen Modellen beschränkt. Naturgemäÿ ist damit das Feld der Messfehlertheorie nicht abzudecken und lässt zahlreiche Fragestellungen unbeachtet. Zum Einen können weitere Fehlerarten modelliert und untersucht werden. Denkbar sind etwa systematische Messfehler mit nichtlinearem Zusammenhang, Messfehler mit veränderlicher Varianz oder multiplikative Messfehlermodelle. Zum Anderen verhalten sich die beschriebenen Messfehler bei einer Erweiterung auf nichtlineare Modelle anders als in linearen Modellen. Teilweise lassen sich Ergebnisse und Beobachtungen vom linearen Fall übertragen, im Allgemeinen gilt dies jedoch nicht. So wirkt sich insbesondere der Berkson-Fehler in der Regel anders aus und führt wie klassische Messfehler zu Verzerrungen. Zusammenfassend lässt sich festhalten, dass die Auswirkungen abhängig vom Modell und der Fehlerstruktur berücksichtigt werden müssen. Davon ausgehend gibt es neben den kurz geschilderten Verfahren eine Reihe weiterer Korrekturverfahren (Momentenmethode, Simulation-Extrapolation SIMEX, Regressionskalibrierung, diverse Schätzverfahren), welche in bestimmten Situationen geeignet sind und die ausführlich in der weiterführenden Literatur besprochen werden. 19

22 Literaturverzeichnis Buzas, J.S.; Stefanski, L.A. Tosteson, T.D. (2004): Measurement Error. In: Ahrens, W; Pigeot, I. (Eds.): Handbook of Epidemiology. Springer: London. Carroll, R.J.; Ruppert, D.; Stefanski, L.A.; Crainiceanu, C.M. (2006): Measurement Error in Nonlinear Models: A Modern Perspective. Chapman and Hall/CRC: New York, 2. Auage. Kreuzer, M.; Brachner, A.; Lehmann, F.; Martignoni, K.; Wichmann, H.E.; Grosche, B. (2002): Characteristics of the German Uranium Miners Cohort Study. In: Health Physics (Vol. 83), S Schneeweiÿ, H.; Mittag, H.-J. (1986): Lineare Modelle mit fehlerbehafteten Daten. Physica-Verlag Heidelberg. 20

Interne und externe Modellvalidität

Interne und externe Modellvalidität Interne und externe Modellvalidität Interne Modellvalidität ist gegeben, o wenn statistische Inferenz bzgl. der untersuchten Grundgesamtheit zulässig ist o KQ-Schätzer der Modellparameter u. Varianzschätzer

Mehr

Messen im medizinischen Kontext II: Expositionsmessung

Messen im medizinischen Kontext II: Expositionsmessung Messen im medizinischen Kontext II: Expositionsmessung Bachelor-Seminar Messen und Statistik Institut für Statistik LMU Daniel Krklec Daniel.Krklec@campus.lmu.de 16. Juni 2009 Inhaltsverzeichnis 1 Begriffsklärung

Mehr

Allgemeine Regressionsanalyse. Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl. deterministisch

Allgemeine Regressionsanalyse. Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl. deterministisch Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 9.1 Allgemeine Regressionsanalyse Daten (X j, Y j ), j = 1,..., N unabhängig Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl.

Mehr

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren)

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Multiple Regression 1 Was ist multiple lineare Regression? Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Annahme: Der Zusammenhang

Mehr

Gemischte Modelle. Fabian Scheipl, Sonja Greven. SoSe 2011. Institut für Statistik Ludwig-Maximilians-Universität München

Gemischte Modelle. Fabian Scheipl, Sonja Greven. SoSe 2011. Institut für Statistik Ludwig-Maximilians-Universität München Gemischte Modelle Fabian Scheipl, Sonja Greven Institut für Statistik Ludwig-Maximilians-Universität München SoSe 2011 Inhalt Amsterdam-Daten: LMM Amsterdam-Daten: GLMM Blutdruck-Daten Amsterdam-Daten:

Mehr

Willkommen zur Vorlesung Statistik (Master)

Willkommen zur Vorlesung Statistik (Master) Willkommen zur Vorlesung Statistik (Master) Thema dieser Vorlesung: Verteilungsfreie Verfahren Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften

Mehr

Aufgabenstellung Aufgabe 1: Betrachten Sie das folgende ökonometrische Modell: y t = α + βx t + u t (1)

Aufgabenstellung Aufgabe 1: Betrachten Sie das folgende ökonometrische Modell: y t = α + βx t + u t (1) Klausur: Einführung in die Ökonometrie Prüfer: Prof. Dr. Karl-Heinz Paqué Dr.Ludwigv.Auer Semester: WS 1999/00 Als Hilfsmittel sind zugelassen: nicht-programmierbarer Taschenrechner Diese Klausur besteht

Mehr

Kategoriale abhängige Variablen: Logit- und Probit -Modelle. Statistik II

Kategoriale abhängige Variablen: Logit- und Probit -Modelle. Statistik II Kategoriale abhängige Variablen: Logit- und Probit -Modelle Statistik II Wiederholung Literatur Annahmen und Annahmeverletzungen Funktionen Exponenten, Wurzeln usw. Das Problem Das binäre Logit-Modell

Mehr

Kapitel 4: Binäre Regression

Kapitel 4: Binäre Regression Kapitel 4: Binäre Regression Steffen Unkel (basierend auf Folien von Nora Fenske) Statistik III für Nebenfachstudierende WS 2013/2014 4.1 Motivation Ausgangssituation Gegeben sind Daten (y i, x i1,...,

Mehr

Kaplan-Meier-Schätzer

Kaplan-Meier-Schätzer Kaplan-Meier-Schätzer Ausgangssituation Zwei naive Ansätze zur Schätzung der Survivalfunktion Unverzerrte Schätzung der Survivalfunktion Der Kaplan-Meier-Schätzer Standardfehler und Konfidenzintervall

Mehr

Korrelation - Regression. Berghold, IMI

Korrelation - Regression. Berghold, IMI Korrelation - Regression Zusammenhang zwischen Variablen Bivariate Datenanalyse - Zusammenhang zwischen 2 stetigen Variablen Korrelation Einfaches lineares Regressionsmodell 1. Schritt: Erstellung eines

Mehr

- Eine typische Ausfallrate, wie sie bei vielen technischen Anwendungen zu sehen ist hat die Form einer Badewanne, deshalb nennt man diese Kurve auch

- Eine typische Ausfallrate, wie sie bei vielen technischen Anwendungen zu sehen ist hat die Form einer Badewanne, deshalb nennt man diese Kurve auch 1 2 - Eine typische Ausfallrate, wie sie bei vielen technischen Anwendungen zu sehen ist hat die Form einer Badewanne, deshalb nennt man diese Kurve auch Badewannenkurve. -mit der Badewannenkurve lässt

Mehr

Statistik Einführung // Lineare Regression 9 p.2/72

Statistik Einführung // Lineare Regression 9 p.2/72 Statistik Einführung Lineare Regression Kapitel 9 Statistik WU Wien Gerhard Derflinger Michael Hauser Jörg Lenneis Josef Ledold Günter Tirler Rosmarie Wakolbinger Statistik Einführung // Lineare Regression

Mehr

9. Schätzen und Testen bei unbekannter Varianz

9. Schätzen und Testen bei unbekannter Varianz 9. Schätzen und Testen bei unbekannter Varianz Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Schätzen und Testen bei unbekannter Varianz Wenn wir die Standardabweichung σ nicht kennen,

Mehr

Messgeräte: Mess-System-Analyse und Messmittelfähigkeit

Messgeräte: Mess-System-Analyse und Messmittelfähigkeit Messgeräte: Mess-System-Analyse und Messmittelfähigkeit Andreas Berlin 14. Juli 2009 Bachelor-Seminar: Messen und Statistik Inhalt: 1 Aspekte einer Messung 2 Mess-System-Analyse 2.1 ANOVA-Methode 2.2 Maße

Mehr

Binäre abhängige Variablen

Binäre abhängige Variablen Binäre abhängige Variablen Thushyanthan Baskaran thushyanthan.baskaran@awi.uni-heidelberg.de Alfred Weber Institut Ruprecht Karls Universität Heidelberg Einführung Oft wollen wir qualitative Variablen

Mehr

Füllmenge. Füllmenge. Füllmenge. Füllmenge. Mean = 500,0029 Std. Dev. = 3,96016 N = 10.000. 485,00 490,00 495,00 500,00 505,00 510,00 515,00 Füllmenge

Füllmenge. Füllmenge. Füllmenge. Füllmenge. Mean = 500,0029 Std. Dev. = 3,96016 N = 10.000. 485,00 490,00 495,00 500,00 505,00 510,00 515,00 Füllmenge 2.4 Stetige Zufallsvariable Beispiel. Abfüllung von 500 Gramm Packungen einer bestimmten Ware auf einer automatischen Abfüllanlage. Die Zufallsvariable X beschreibe die Füllmenge einer zufällig ausgewählten

Mehr

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50,7 50 51,5 51,7 48,8

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50,7 50 51,5 51,7 48,8 1. Aufgabe: Eine Reifenfirma hat für Winterreifen unterschiedliche Profile entwickelt. Bei jeweils gleicher Geschwindigkeit und auch sonst gleichen Bedingungen wurden die Bremswirkungen gemessen. Die gemessenen

Mehr

Statistik II für Betriebswirte Vorlesung 3

Statistik II für Betriebswirte Vorlesung 3 PD Dr. Frank Heyde TU Bergakademie Freiberg Institut für Stochastik Statistik II für Betriebswirte Vorlesung 3 5. November 2013 Beispiel: Aktiensplit (Aczel & Sounderpandan, Aufg. 14-28) Ein Börsenanalyst

Mehr

Name (in Druckbuchstaben): Matrikelnummer: Unterschrift:

Name (in Druckbuchstaben): Matrikelnummer: Unterschrift: 20-minütige Klausur zur Vorlesung Lineare Modelle im Sommersemester 20 PD Dr. Christian Heumann Ludwig-Maximilians-Universität München, Institut für Statistik 2. Oktober 20, 4:5 6:5 Uhr Überprüfen Sie

Mehr

ε heteroskedastisch BINARY CHOICE MODELS Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS?

ε heteroskedastisch BINARY CHOICE MODELS Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS? BINARY CHOICE MODELS 1 mit Pr( Y = 1) = P Y = 0 mit Pr( Y = 0) = 1 P Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS? Y i = X i β + ε i Probleme: Nonsense Predictions

Mehr

Herzlich Willkommen zur Vorlesung Statistik

Herzlich Willkommen zur Vorlesung Statistik Herzlich Willkommen zur Vorlesung Statistik Thema dieser Vorlesung: Kovarianz und Korrelation Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften

Mehr

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über Güte von s Grundlegendes zum Konzept der Güte Ableitung der Gütefunktion des Gauss im Einstichprobenproblem Grafische Darstellung der Gütefunktionen des Gauss im Einstichprobenproblem Ableitung der Gütefunktion

Mehr

Auswertung von kritischen Daten Vorgehensweise anhand eines Beispiels Visual-XSel 10.0

Auswertung von kritischen Daten Vorgehensweise anhand eines Beispiels Visual-XSel 10.0 Auswertung von kritischen Daten Vorgehensweise anhand eines Beispiels Visual-XSel 10.0??? Curt Ronniger 2007 Bei Neueinstieg in das Programm, sollte zunächst die Dokumentation XSelDoE10.pdf gelesen werden.

Mehr

Allgemeines Lineares Modell: Univariate Varianzanalyse und Kovarianzanalyse

Allgemeines Lineares Modell: Univariate Varianzanalyse und Kovarianzanalyse Allgemeines Lineares Modell: Univariate Varianzanalyse und Kovarianzanalyse Univariate Varianz- und Kovarianzanlyse, Multivariate Varianzanalyse und Varianzanalyse mit Messwiederholung finden sich unter

Mehr

Nichtlineare Optimierung ohne Nebenbedingungen

Nichtlineare Optimierung ohne Nebenbedingungen Kapitel 2 Nichtlineare Optimierung ohne Nebenbedingungen In diesem Abschnitt sollen im wesentlichen Verfahren zur Bestimmung des Minimums von nichtglatten Funktionen in einer Variablen im Detail vorgestellt

Mehr

Auswirkungen verschiedener Anonymisierungsverfahren und Erarbeitung von Korrekturverfahren in ausgewählten GLMs

Auswirkungen verschiedener Anonymisierungsverfahren und Erarbeitung von Korrekturverfahren in ausgewählten GLMs Abschlusskolloquium Auswirkungen verschiedener Anonymisierungsverfahren und Erarbeitung von Korrekturverfahren in ausgewählten GLMs Anja Kipke 28. März 2011 Betreuung: Prof. Dr. Thomas Augustin Gliederung

Mehr

4 Produktspezifische Ausfallwahrscheinlichkeit und Ausbeute

4 Produktspezifische Ausfallwahrscheinlichkeit und Ausbeute 4.1 Grundlagen 4 Produktspezifische Ausfallwahrscheinlichkeit und Ausbeute 4.1 Grundlagen In den bisherigen Ausführungen wurden die Grundlagen der Ausbeuteberechnung behandelt. So wurde bereits im Abschnitt

Mehr

Multivariate Statistik

Multivariate Statistik Hermann Singer Multivariate Statistik 1 Auflage 15 Oktober 2012 Seite: 12 KAPITEL 1 FALLSTUDIEN Abbildung 12: Logistische Regression: Geschätzte Wahrscheinlichkeit für schlechte und gute Kredite (rot/blau)

Mehr

Teil II. Nichtlineare Optimierung

Teil II. Nichtlineare Optimierung Teil II Nichtlineare Optimierung 60 Kapitel 1 Einleitung In diesem Abschnitt wird die Optimierung von Funktionen min {f(x)} x Ω betrachtet, wobei Ω R n eine abgeschlossene Menge und f : Ω R eine gegebene

Mehr

Marktliquidität von Aktien

Marktliquidität von Aktien Marktliquidität von Aktien Inauguraldissertation zur Erlangung der Würde eines Doctor rerum oeconomicarum der Wirtschafts- und Sozialwissenschaftlichen Fakultät der Universität Bern Lukas Roth Die Fakultät

Mehr

Weiterbildungskurs Stochastik

Weiterbildungskurs Stochastik Hansruedi Künsch Seminar für Statistik Departement Mathematik, ETH Zürich 24. Juni 2009 Inhalt STATISTIK DER BINOMIALVERTEILUNG 1 STATISTIK DER BINOMIALVERTEILUNG 2 Fragestellungen Typische Fragestellungen

Mehr

Modul G.1 WS 07/08: Statistik 17.01.2008 1. Die Korrelation ist ein standardisiertes Maß für den linearen Zusammenhangzwischen zwei Variablen.

Modul G.1 WS 07/08: Statistik 17.01.2008 1. Die Korrelation ist ein standardisiertes Maß für den linearen Zusammenhangzwischen zwei Variablen. Modul G.1 WS 07/08: Statistik 17.01.2008 1 Wiederholung Kovarianz und Korrelation Kovarianz = Maß für den linearen Zusammenhang zwischen zwei Variablen x und y Korrelation Die Korrelation ist ein standardisiertes

Mehr

DIPLOMVORPRÜFUNG GRUNDZÜGE DER STATISTIK, TEIL B WINTERSEMESTER 2006/07 28.02.2007

DIPLOMVORPRÜFUNG GRUNDZÜGE DER STATISTIK, TEIL B WINTERSEMESTER 2006/07 28.02.2007 Wirtschaftswissenschaftliches Prüfungsamt DIPLOMVORPRÜFUNG GRUNDZÜGE DER STATISTIK, TEIL B WINTERSEMESTER 006/07 8.0.007 Lösung Prof. Dr. R Friedmann / Dr. R. Hauser Hinweise für die Klausurteilnehmer

Mehr

5. Schließende Statistik. 5.1. Einführung

5. Schließende Statistik. 5.1. Einführung 5. Schließende Statistik 5.1. Einführung Sollen auf der Basis von empirischen Untersuchungen (Daten) Erkenntnisse gewonnen und Entscheidungen gefällt werden, sind die Methoden der Statistik einzusetzen.

Mehr

Motivation. Jede Messung ist mit einem sogenannten Fehler behaftet, d.h. einer Messungenauigkeit

Motivation. Jede Messung ist mit einem sogenannten Fehler behaftet, d.h. einer Messungenauigkeit Fehlerrechnung Inhalt: 1. Motivation 2. Was sind Messfehler, statistische und systematische 3. Verteilung statistischer Fehler 4. Fehlerfortpflanzung 5. Graphische Auswertung und lineare Regression 6.

Mehr

Willkommen zur Vorlesung Statistik

Willkommen zur Vorlesung Statistik Willkommen zur Vorlesung Statistik Thema dieser Vorlesung: Varianzanalyse Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften Prof. Dr. Wolfgang

Mehr

Survival of the Fittest Wie statistische Modelle an Daten angepasst werden

Survival of the Fittest Wie statistische Modelle an Daten angepasst werden Tag der Mathematik 2009 Survival of the Fittest Wie statistische Modelle an Daten angepasst werden Thomas Kneib Fakultät für Mathematik und Naturwissenschaften Carl von Ossietzky Universität Oldenburg

Mehr

Einleitung 19. Teil I Datenanalyse und Modellbildung Grundlagen 25

Einleitung 19. Teil I Datenanalyse und Modellbildung Grundlagen 25 Inhaltsverzeichnis Einleitung 19 Zu diesem Buch 19 Konventionen in diesem Buch 20 Was Sie nicht lesen müssen 21 Falsche Voraussetzungen 21 Wie dieses Buch aufgebaut ist 21 Teil I: Datenanalyse und Grundlagen

Mehr

Empirische Wirtschaftsforschung

Empirische Wirtschaftsforschung Empirische Wirtschaftsforschung Anne Neumann 21. Oktober 2015 Anne Neumann EWF 21. Oktober 2015 1 / 9 Inhaltsverzeichnis 1 Grobgliederung 2 Grundlagen Anne Neumann EWF 21. Oktober 2015 2 / 9 Grobgliederung

Mehr

Alle WGKT-Empfehlungen können unter www.wgkt.de eingesehen und heruntergeladen werden.

Alle WGKT-Empfehlungen können unter www.wgkt.de eingesehen und heruntergeladen werden. WGKT-Empfehlung Betriebswirtschaftliche Kennzahlen von Krankenhäusern Stand: 05.11.2009 Arbeitskreismitglieder: Prof. Dr. K. Lennerts (Leitung), Karlsruhe; Prof. Dr. C. Hartung, Hannover; Dr. T. Förstemann,

Mehr

Korrelation (II) Korrelation und Kausalität

Korrelation (II) Korrelation und Kausalität Korrelation (II) Korrelation und Kausalität Situation: Seien X, Y zwei metrisch skalierte Merkmale mit Ausprägungen (x 1, x 2,..., x n ) bzw. (y 1, y 2,..., y n ). D.h. für jede i = 1, 2,..., n bezeichnen

Mehr

1 Statistische Grundlagen

1 Statistische Grundlagen Konzepte in Empirische Ökonomie 1 (Winter) Hier findest Du ein paar Tipps zu den Konzepten in Empirische 1. Wenn Du aber noch etwas Unterstützung kurz vor der Klausur brauchst, schreib uns eine kurze Email.

Mehr

Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression

Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression Speziell im Zusammenhang mit der Ablehnung der Globalhypothese werden bei einer linearen Einfachregression weitere Fragestellungen

Mehr

Eine Einführung in R: Statistische Tests

Eine Einführung in R: Statistische Tests Eine Einführung in R: Statistische Tests Bernd Klaus, Verena Zuber Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.uni-leipzig.de/ zuber/teaching/ws12/r-kurs/

Mehr

Analyse von Tabellen und kategorialen Daten

Analyse von Tabellen und kategorialen Daten Hans-Jürgen Andreß Jacques A. Hagenaars Steffen Kühnel Analyse von Tabellen und kategorialen Daten Log-lineare Modelle, latente Klassenanalyse, logistische Regression und GSK-Ansatz Mit 32 Abbildungen

Mehr

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. Excel Edition. ^ Springer Spektrum

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. Excel Edition. ^ Springer Spektrum Franz Kronthaler Statistik angewandt Datenanalyse ist (k)eine Kunst Excel Edition ^ Springer Spektrum Inhaltsverzeichnis Teil I Basiswissen und Werkzeuge, um Statistik anzuwenden 1 Statistik ist Spaß 3

Mehr

Der Bipolar-Transistor und die Emitterschaltung Gruppe B412

Der Bipolar-Transistor und die Emitterschaltung Gruppe B412 TECHNISCHE UNIVERSITÄT MÜNCHEN Der Bipolar-Transistor und die Emitterschaltung Gruppe B412 Patrick Christ und Daniel Biedermann 16.10.2009 1. INHALTSVERZEICHNIS 1. INHALTSVERZEICHNIS... 2 2. AUFGABE 1...

Mehr

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik Ludwig Fahrmeir, Nora Fenske Institut für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik 29. März 21 Hinweise:

Mehr

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 1 Einführung in die statistische Datenanalyse Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 2 Gliederung 1.Grundlagen 2.Nicht-parametrische Tests a. Mann-Whitney-Wilcoxon-U Test b. Wilcoxon-Signed-Rank

Mehr

AquaZIS. Zeitreihenkorrektur

AquaZIS. Zeitreihenkorrektur AquaZIS Zeitreihenkorrektur Aachen, Juli 2013 aqua_plan Ingenieurgesellschaft für Problemlösungen in Hydrologie und Umweltschutz mbh Amyastr. 126, 52066 Aachen Tel.: 0241 40070-0, Fax: 0241 40070-99 Geschäftsführer:

Mehr

Regression ein kleiner Rückblick. Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate

Regression ein kleiner Rückblick. Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate Regression ein kleiner Rückblick Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate 05.11.2009 Gliederung 1. Stochastische Abhängigkeit 2. Definition Zufallsvariable 3. Kennwerte 3.1 für

Mehr

Hauptseminar am Fachgebiet für Quantitative Methoden der Wirtschaftswissenschaften

Hauptseminar am Fachgebiet für Quantitative Methoden der Wirtschaftswissenschaften Hauptseminar am Fachgebiet für Quantitative Methoden der Wirtschaftswissenschaften Fehlende Daten in der Multivariaten Statistik SS 2011 Allgemeines Das Seminar richtet sich in erster Linie an Studierende

Mehr

Analytische Statistik I. Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2009/10

Analytische Statistik I. Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2009/10 Analytische Statistik I Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2009/10 Testen Anpassungstests (goodness of fit) Weicht eine gegebene Verteilung signifikant von einer bekannten

Mehr

Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel

Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel 16.11.01 MP1 - Grundlagen quantitativer Sozialforschung - (4) Datenanalyse 1 Gliederung Datenanalyse (inferenzstatistisch)

Mehr

Tabelle 6a: Deskriptive Statistiken der metrischen Variablen

Tabelle 6a: Deskriptive Statistiken der metrischen Variablen Ergebnisse 77 5 Ergebnisse Das folgende Kapitel widmet sich der statistischen Auswertung der Daten zur Ü- berprüfung der Hypothesen. Die hier verwendeten Daten wurden mit den in 4.3 beschriebenen Instrumenten

Mehr

Einführung in statistische Analysen

Einführung in statistische Analysen Einführung in statistische Analysen Andreas Thams Econ Boot Camp 2008 Wozu braucht man Statistik? Statistik begegnet uns jeden Tag... Weihnachten macht Deutschen Einkaufslaune. Im Advent überkommt die

Mehr

Kategoriale abhängige Variablen:

Kategoriale abhängige Variablen: Kategoriale abhängige Variablen: Logit- und Probit -Modelle Statistik II Literatur Annahmen und Annahmeverletzungen Funktionen Exponenten, Wurzeln usw. Das Problem Das binäre Logit-Modell Statistik II

Mehr

Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt!

Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt! Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt! 1 Einführung 2 Wahrscheinlichkeiten kurz gefasst 3 Zufallsvariablen und Verteilungen 4 Theoretische Verteilungen (Wahrscheinlichkeitsfunktion)

Mehr

Weitere (wählbare) Kontraste in der SPSS Prozedur Allgemeines Lineares Modell

Weitere (wählbare) Kontraste in der SPSS Prozedur Allgemeines Lineares Modell Einfaktorielle Versuchspläne 27/40 Weitere (wählbare) Kontraste in der SPSS Prozedur Allgemeines Lineares Modell Abweichung Einfach Differenz Helmert Wiederholt Vergleich Jede Gruppe mit Gesamtmittelwert

Mehr

Bachelorprüfung. Praxis der empirischen Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Name, Vorname. Matrikelnr. E-Mail. Studiengang.

Bachelorprüfung. Praxis der empirischen Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Name, Vorname. Matrikelnr. E-Mail. Studiengang. Lehrstuhl für Statistik und empirische Wirtschaftsforschung Fach: Prüfer: Bachelorprüfung Praxis der empirischen Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Name, Vorname Matrikelnr. E-Mail Studiengang

Mehr

Analyse von Zeitreihen in der Umweltphysik und Geophysik Stochastische Prozesse

Analyse von Zeitreihen in der Umweltphysik und Geophysik Stochastische Prozesse Analyse von Zeitreihen in der Umweltphysik und Geophysik Stochastische Prozesse Yannik Behr Gliederung 1 Stochastische Prozesse Stochastische Prozesse Ein stochastischer Prozess ist ein Phänomen, dessen

Mehr

Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall )

Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall ) Zusammenhänge von Variablen Regressionsanalysen linearer Zusammenhang ( Idealfall ) kein Zusammenhang nichtlinearer monotoner Zusammenhang (i.d.regel berechenbar über Variablentransformationen mittels

Mehr

(1) Problemstellung. (2) Kalman Filter

(1) Problemstellung. (2) Kalman Filter Inhaltsverzeichnis (1) Problemstellung...2 (2) Kalman Filter...2 Funktionsweise... 2 Gleichungen im mehrdimensionalen Fall...3 Schätzung des Systemzustands...3 Vermuteter Schätzfehler... 3 Aktualisierung

Mehr

6. METRISCHE UND KATEGORIALE MERKMALE

6. METRISCHE UND KATEGORIALE MERKMALE 6. METRISCHE UND KATEGORIALE MERKMALE wenn an einer Beobachtungseinheit eine (oder mehrere) metrische und eine (oder mehrere) kategoriale Variable(n) erhoben wurden Beispiel: Haushaltsarbeit von Teenagern

Mehr

Studiendesign/ Evaluierungsdesign

Studiendesign/ Evaluierungsdesign Jennifer Ziegert Studiendesign/ Evaluierungsdesign Praxisprojekt: Nutzerorientierte Evaluierung von Visualisierungen in Daffodil mittels Eyetracker Warum Studien /Evaluierungsdesign Das Design einer Untersuchung

Mehr

0 Einführung: Was ist Statistik

0 Einführung: Was ist Statistik 0 Einführung: Was ist Statistik 1 Datenerhebung und Messung Die Messung Skalenniveaus 2 Univariate deskriptive Statistik 3 Multivariate Statistik 4 Regression 5 Ergänzungen Grundbegriffe Statistische Einheit,

Mehr

FAKTORIELLE VERSUCHSPLÄNE. Andreas Handl

FAKTORIELLE VERSUCHSPLÄNE. Andreas Handl FAKTORIELLE VERSUCHSPLÄNE Andreas Handl 1 Inhaltsverzeichnis 1 Versuchsplanung 4 2 Einfaktorielle Varianzanalyse 6 2.1 DieAnnahmen... 6 2.2 Die ANOVA-Tabelle und der F -Test... 6 2.3 Versuche mit zwei

Mehr

Statistik II für Betriebswirte Vorlesung 12

Statistik II für Betriebswirte Vorlesung 12 Prof. Dr. Hans-Jörg Starkloff TU Bergakademie Freiberg Institut für Stochastik Statistik II für Betriebswirte Vorlesung 12 11. Januar 2013 7.3. Multiple parameterlineare Regression Im Folgenden soll die

Mehr

Betragsgleichungen und die Methode der Fallunterscheidungen

Betragsgleichungen und die Methode der Fallunterscheidungen mathe online Skripten http://www.mathe-online.at/skripten/ Betragsgleichungen und die Methode der Fallunterscheidungen Franz Embacher Fakultät für Mathematik der Universität Wien E-mail: franz.embacher@univie.ac.at

Mehr

Einleitung In vielen Bereichen der Wirtschaft, Physik, Biologie und den Ingenieurwissenschaften spielen funktionale Zusammenhänge zwischen zwei (reellwertigen) Messgrößen eine wichtige Rolle. Oft sind

Mehr

Ein möglicher Unterrichtsgang

Ein möglicher Unterrichtsgang Ein möglicher Unterrichtsgang. Wiederholung: Bernoulli Experiment und Binomialverteilung Da der sichere Umgang mit der Binomialverteilung, auch der Umgang mit dem GTR und den Diagrammen, eine notwendige

Mehr

Einige Statistische Tests für den Ein- Zwei- und k-stichprobenfall (Nach Sachs, Stat. Meth.)

Einige Statistische Tests für den Ein- Zwei- und k-stichprobenfall (Nach Sachs, Stat. Meth.) ue biostatistik: nichtparametrische testverfahren / ergänzung 1/6 h. Lettner / physik Statistische Testverfahren Einige Statistische Tests für den Ein- Zwei- und k-stichprobenfall (Nach Sachs, Stat. Meth.)

Mehr

Was kann die Statistik zur Bankenkrise beitragen?

Was kann die Statistik zur Bankenkrise beitragen? Was kann die Statistik zur Bankenkrise beitragen? Rafael Weißbach Lehrstuhl für Statistik, insbesondere demografischer Wandel Institut für Volkswirtschaftslehre Wirtschafts- und Sozialwissenschaftliche

Mehr

Michelson-Interferometer & photoelektrischer Effekt

Michelson-Interferometer & photoelektrischer Effekt Michelson-Interferometer & photoelektrischer Effekt Branche: TP: Autoren: Klasse: Physik / Physique Michelson-Interferometer & photoelektrischer Effekt Cedric Rey David Schneider 2T Datum: 01.04.2008 &

Mehr

, dt. $+ f(x) = , - + < x < +, " > 0. " 2# Für die zugehörige Verteilungsfunktion F(x) ergibt sich dann: F(x) =

, dt. $+ f(x) = , - + < x < +,  > 0.  2# Für die zugehörige Verteilungsfunktion F(x) ergibt sich dann: F(x) = 38 6..7.4 Normalverteilung Die Gauß-Verteilung oder Normal-Verteilung ist eine stetige Verteilung, d.h. ihre Zufallsvariablen können beliebige reelle Zahlenwerte annehmen. Wir definieren sie durch die

Mehr

Kapitel 3: Interpretationen

Kapitel 3: Interpretationen Kapitel 3: 1. Interpretation von Outputs allgemein... 1 2. Interpretation von Signifikanzen... 1 2.1. Signifikanztests / Punktschätzer... 1 2.2. Konfidenzintervalle... 2 3. Interpretation von Parametern...

Mehr

Statistische Auswertung der Daten von Blatt 13

Statistische Auswertung der Daten von Blatt 13 Statistische Auswertung der Daten von Blatt 13 Problemstellung 1 Graphische Darstellung der Daten 1 Diskussion der Normalverteilung 3 Mittelwerte und deren Konfidenzbereiche 3 Signifikanz der Behandlung

Mehr

In ein quadratisches Blech werden Löcher gestanzt. Insgesamt sind es 85 Löcher. Wie viele Löcher sind in der untersten Reihe?

In ein quadratisches Blech werden Löcher gestanzt. Insgesamt sind es 85 Löcher. Wie viele Löcher sind in der untersten Reihe? Aufgabe 1: Das Stanzblech: Löcher In ein quadratisches Blech werden Löcher gestanzt. Insgesamt sind es 85 Löcher. Wie viele Löcher sind in der untersten Reihe? Bei dieser Aufgabe kann rückwärts gearbeitet

Mehr

EINFÜHRUNG IN DIE STATISTISCHE VERSUCHSPLANUNG

EINFÜHRUNG IN DIE STATISTISCHE VERSUCHSPLANUNG TQU BUSINESS GMBH 1 EINFÜHRUNG IN DIE STATISTISCHE VERSUCHSPLANUNG 2 Lernziele Sie kennen die prinzipiellen Ansätze zur Datengewinnung. Sie wissen, was ein Experiment ist. Sie kennen die prinzipiellen

Mehr

Stochastische Modelle

Stochastische Modelle Klausur (Teilprüfung) zur Vorlesung Stochastische Modelle (WS04/05 Februar 2005, Dauer 90 Minuten) 1. Es sollen für eine Zufallsgröße X mit der Dichte Zufallszahlen generiert werden. (a) Zeigen Sie, dass

Mehr

12. Vergleich mehrerer Stichproben

12. Vergleich mehrerer Stichproben 12. Vergleich mehrerer Stichproben Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Häufig wollen wir verschiedene Populationen, Verfahren, usw. miteinander vergleichen. Beipiel: Vergleich

Mehr

Experimente zu Anreiz- und Koordinationsmechanismen Prof. Dr. Stephan Lengsfeld Florian Fiedler, Marco Gathmann, Christian Graewe, Johannes

Experimente zu Anreiz- und Koordinationsmechanismen Prof. Dr. Stephan Lengsfeld Florian Fiedler, Marco Gathmann, Christian Graewe, Johannes "Lego Case - eine empirische Analyse von Produktions- und Koordinationsprozessen" Leibniz Universität Hannover Institut für Controlling Seminar: Dozent: Referenten: Wöhler, Experimente zu Anreiz- und Koordinationsmechanismen

Mehr

Lineare Funktionen. 1 Proportionale Funktionen 3 1.1 Definition... 3 1.2 Eigenschaften... 3. 2 Steigungsdreieck 3

Lineare Funktionen. 1 Proportionale Funktionen 3 1.1 Definition... 3 1.2 Eigenschaften... 3. 2 Steigungsdreieck 3 Lineare Funktionen Inhaltsverzeichnis 1 Proportionale Funktionen 3 1.1 Definition............................... 3 1.2 Eigenschaften............................. 3 2 Steigungsdreieck 3 3 Lineare Funktionen

Mehr

Nichtparametrische Analyse longitudinaler Daten in faktoriellen Experimenten. Frank Konietschke

Nichtparametrische Analyse longitudinaler Daten in faktoriellen Experimenten. Frank Konietschke Nichtparametrische Analyse longitudinaler Daten in faktoriellen Experimenten Frank Konietschke Abteilung für Medizinische Statistik Universität Göttingen 1 Übersicht Beispiele CGI (repeated measures) γ-gt

Mehr

Kommentierter SPSS-Ausdruck zur logistischen Regression

Kommentierter SPSS-Ausdruck zur logistischen Regression Daten: POK V AG 3 (POKV_AG3_V07.SAV) Kommentierter SPSS-Ausdruck zur logistischen Regression Fragestellung: Welchen Einfluss hat die Fachnähe und das Geschlecht auf die interpersonale Attraktion einer

Mehr

Statistische Versuchsplanung - zuverlässiger und schneller zu Ergebnissen" Dr. Uwe Waschatz

Statistische Versuchsplanung - zuverlässiger und schneller zu Ergebnissen Dr. Uwe Waschatz Statistische Versuchsplanung - zuverlässiger und schneller zu Ergebnissen" Dr. Uwe Waschatz Inhalt Problembeschreibung Multiple lineare Regressionsanalyse Statistische Versuchsplanung / Design of Experiments

Mehr

Statistik II für Betriebswirte Vorlesung 2

Statistik II für Betriebswirte Vorlesung 2 PD Dr. Frank Heyde TU Bergakademie Freiberg Institut für Stochastik Statistik II für Betriebswirte Vorlesung 2 21. Oktober 2014 Verbundene Stichproben Liegen zwei Stichproben vor, deren Werte einander

Mehr

Box-and-Whisker Plot -0,2 0,8 1,8 2,8 3,8 4,8

Box-and-Whisker Plot -0,2 0,8 1,8 2,8 3,8 4,8 . Aufgabe: Für zwei verschiedene Aktien wurde der relative Kurszuwachs (in % beobachtet. Aus den jeweils 20 Quartaldaten ergaben sich die folgenden Box-Plots. Box-and-Whisker Plot Aktie Aktie 2-0,2 0,8,8

Mehr

Florian Frötscher und Demet Özçetin

Florian Frötscher und Demet Özçetin Statistische Tests in der Mehrsprachigkeitsforschung Aufgaben, Anforderungen, Probleme. Florian Frötscher und Demet Özçetin florian.froetscher@uni-hamburg.de SFB 538 Mehrsprachigkeit Max-Brauer-Allee 60

Mehr

Business Value Launch 2006

Business Value Launch 2006 Quantitative Methoden Inferenzstatistik alea iacta est 11.04.2008 Prof. Dr. Walter Hussy und David Tobinski UDE.EDUcation College im Rahmen des dokforums Universität Duisburg-Essen Inferenzstatistik Erläuterung

Mehr

Inhaltsverzeichnis. Fragestellungen und Methoden 11. Vorwort 15. Kapitel 1 Einführung 17. Kapitel 2 Statistische Grundbegriffe 23

Inhaltsverzeichnis. Fragestellungen und Methoden 11. Vorwort 15. Kapitel 1 Einführung 17. Kapitel 2 Statistische Grundbegriffe 23 Fragestellungen und Methoden 11 Vorwort 15 Kapitel 1 Einführung 17 1.1 KonzeptiondesBuchs... 18 1.2 AufbaudesBuchs... 19 1.3 Programmversionen von PASW bzw. SPSS..... 20 1.4 WiekanndiesesBuchverwendetwerden?...

Mehr

1. Biometrische Planung

1. Biometrische Planung 1. Biometrische Planung Die biometrische Planung ist Teil der Studienplanung für wissenschaftliche Studien, in denen eine statistische Bewertung von Daten erfolgen soll. Sie stellt alle erforderlichen

Mehr

Delta-Gamma-Verfahren als Standard- Risikomodell für Lebensversicherer

Delta-Gamma-Verfahren als Standard- Risikomodell für Lebensversicherer Delta-Gamma-Verfahren als Standard- Risikomodell für Lebensversicherer 1 Einleitung Im Rahmen des SST wird teilweise vereinfachend angenommen, dass der Zusammenhang zwischen der Veränderung des risikotragenden

Mehr

Skriptum zur Veranstaltung. Quantitative Methoden (Mathematik/Statistik) Teil Induktive Statistik. 1. Version (mehr Draft als Skriptum)

Skriptum zur Veranstaltung. Quantitative Methoden (Mathematik/Statistik) Teil Induktive Statistik. 1. Version (mehr Draft als Skriptum) Skriptum zur Veranstaltung Quantitative Methoden (Mathematik/Statistik) Teil Induktive Statistik 1. Version (mehr Draft als Skriptum) Anmerkungen, Aufzeigen von Tippfehlern und konstruktive Kritik erwünscht!!!

Mehr

Waldwachstumsmodelle Silva und BWINPro

Waldwachstumsmodelle Silva und BWINPro Waldwachstumsmodelle Silva und BWINPro Jürgen Zell LV: Dynamische Modelle in der Waldökosystemforschung, 28.05.2013 Inhalt Durchmesserverteilung: Daten, Weibull-Anpassung, lineare Regression der Weibull-Parameter

Mehr

1 Interaktion von zwei Dummyvariablen. 2 Interaktion einer Dummyvariablen mit einer kardinalskalierten Variablen

1 Interaktion von zwei Dummyvariablen. 2 Interaktion einer Dummyvariablen mit einer kardinalskalierten Variablen Modelle mit Interationsvariablen I Modelle mit Interationsvariablen II In der beim White-Test verwendeten Regressionsfuntion y = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 2 1 + β 4 x 2 2 + β 5 x 1 x 2, ist anders

Mehr

MATHEMATISCHE ANALYSE VON ALGORITHMEN

MATHEMATISCHE ANALYSE VON ALGORITHMEN MATHEMATISCHE ANALYSE VON ALGORITHMEN Michael Drmota Institut für Diskrete Mathematik und Geometrie, TU Wien michael.drmota@tuwien.ac.at www.dmg.tuwien.ac.at/drmota/ Ringvorlesung SS 2008, TU Wien Algorithmus

Mehr

4 Das Overlap-Konzept

4 Das Overlap-Konzept 4 Das Overlap-Konzept Das Overlap-Konzept wurde in [31] ausführlich beschrieben. Im folgenden werden wir die Aspekte darlegen, die nötig sind, um das Konzept zu implementieren, und werden uns dabei eng

Mehr

Imputation von Werten bei fehlenden Angaben zur Mutterschaft und zur Zahl der geborenen Kinder im Mikrozensus 2008

Imputation von Werten bei fehlenden Angaben zur Mutterschaft und zur Zahl der geborenen Kinder im Mikrozensus 2008 Statistisches Bundesamt Methodeninformation Imputation von Werten bei fehlenden Angaben zur Mutterschaft und zur Zahl der geborenen Kinder im 2009 Erschienen am 24.07.2009 Ihr Kontakt zu uns: www.destatis.de/kontakt

Mehr