Messfehlertheorie. Daniel Stöckeler. Seminararbeit Seminar `Statistische Herausforderungen sozialwissenschaftlicher Studien' Institut für Statistik

Größe: px
Ab Seite anzeigen:

Download "Messfehlertheorie. Daniel Stöckeler. Seminararbeit Seminar `Statistische Herausforderungen sozialwissenschaftlicher Studien' Institut für Statistik"

Transkript

1 Messfehlertheorie Daniel Stöckeler Seminararbeit Seminar `Statistische Herausforderungen sozialwissenschaftlicher Studien' Institut für Statistik Betreuer: Prof. Dr. Augustin Abgabedatum: 29. November 2010

2 Inhaltsverzeichnis 1 Einleitung 1 2 Einteilung der Messfehler Ursachen von Fehlern und Grundlagen Dierentieller und nicht-dierentieller Fehler Systematische und stochastische Messfehler Klassischer Fehler und Berkson-Fehler Fehlermodelle und einfache, lineare Regression Regression bei systematischen Messfehlern Regression bei stochastischen Messfehlern Regression bei klassischem Messfehler Regression bei Berkson-Fehler Verknüpfung von klassischem Fehler und Berkson-Fehler 13 4 Fehlermodelle und multiple, lineare Regression 14 5 Korrekturverfahren bei Messfehlern Korrektur bei bekannter Fehlerstruktur Orthogonale Regression Schlussbetrachtungen 19 ii

3 1 Einleitung Fehlerbehaftete Daten sind in der Regel unvermeidlich und werden von fehlerhaften Messungen oder Datenerhebungen verursacht. Durch wiederholte Messungen und Anpassungen bei Kenntnis der Messfehlervarianzen können sie in den experimentellen Naturwissenschafen häug verringert werden, verschwinden allerdings nicht. In der Biologie und der Medizin, insbesondere jedoch in den Sozial- und Wirtschaftswissenschaften ist eine Wiederholung der Experimente selten möglich; Messfehler sind daher unvermeidlich. Diese Fehler haben unterschiedlichste Struktur und wirken sich auf verschiedene Bereiche aus: Sie führen zu Verzerrungen in den Parameterschätzern für Regressionsbeziehungen, verdecken Zusammenhänge zwischen den Variablen und wirken sich unmittelbar auf die statistische Signikanz von Tests aus. Abbildung 1 zeigt beispielhaft die Auswirkung (klassischer) Messfehler: Der oenbar sinusförmige Zusammenhang zwischen Prädiktor und Response wird verdeckt, die graphische Analyse hierdurch erschwert oder verhindert. Diese Seminararbeit stellt zunächst beispielhaft unterschiedliche Fehlertypen vor. Daran anschlieÿend ndet sich ein Überblick über die Auswirkungen dieser Fehlermodelle auf lineare Regressionsmodelle. In diesem Zusammenhang untersuchen wir insbesondere die Konsequenzen der klassischen Kleinste- Quadrate-Schätzung bei fehlerbehafteten Daten und weisen auf einige (überraschende) Konsequenzen hin, wenn diese ohne Berücksichtigung der Fehlerstruktur in naiver Weise angewendet werden. Abschlieÿend stellen wir kurz und überblicksweise einige grundlegende Korrekturverfahren vor. 1

4 Daten ohne Messfehler Daten mit Messfehler Y = sin(2x) + ε Y = sin(2x) + ε X W = X + U Abbildung 1: Verdeckter Zusammenhang zwischen Prädiktor und Response bei klassischem Messfehler. Im Beispiel ist ɛ NV(0, 0.15) und U NV(0, 0.4). 2 Einteilung der Messfehler 2.1 Ursachen von Fehlern und Grundlagen Fehler in den Variablen sind unterschiedlichen Fehlerquellen geschuldet und hängen vom Gegenstand der Messung selbst ab. Neben Erhebungsfehlern, welche in Form von Doppelzählungen, falschen Messungen, fehlerhafter Aggregation und falsch gewählten Stichproben insbesondere in den Sozialwissenschaften auftreten, wirken sich Rundungsfehler auf die Datenqualität aus. Weitere Messprobleme sind unter anderem durch die geringe Verlässlich- 2

5 keit selbstbeobachteter Informationen, Verwendung von Datensätzen geringer Qualität und ungenaue Laborwerte bedingt. Ein Problem für Biometrie und Ökonometrie in gleichen Teilen stellen nicht-beobachtbare Variablen dar, weswegen auf möglichst ähnliche Variablen (Proxy-Variablen) als vermeintlich adäquater Ersatz ausgewichen wird. Im verbleibenden Teil der Seminararbeit untersuchen wir lediglich die Auswirkungen von Fehlern in der Prädiktorvariable. Ein zusätzliche Messfehler kann auch in der Responsevariable Y nicht ausgeschlossen werden, führt aber in der Regel nur zu einer Erhöhung der Residuenvarianz insgesamt. Ohne nähere Unterscheidung der Dimension der betrachteten Gröÿen bezeichnen wir den beobachtbaren, fehlerbehafteten Wert mit W und den latenten, unbeobachtbaren Wert mit X. Weiterhin beschränken wir uns darauf, die Konsequenzen für lineare Regressionsmodelle zu diskutieren und verweisen für die Folgen in nichtlinearen Modellen auf entsprechende Literatur. Treten fehlerfrei messbare Kovariablen (z.b. Geschlecht) auf, werden diese mit Z bezeichnet. 2.2 Dierentieller und nicht-dierentieller Fehler Wir haben bereits einleitend darauf hingewiesen, dass eine Fehlerquelle der Verwendung von ähnlichen Variablen W geschuldet ist, wenn die eigentlich interessierende Variable X nicht beobachtbar oder wegen fehlender Erhebungen nicht verfügbar ist. Wenn W über die Response Y keine andere Information als X und die gegebenenfalls fehlerfrei gemessene Variable Z enthält, ist W als nicht-dierentieller Fehler ein Surrogat für X. Formal hängt die Verteilung von Y gegeben (X, W, Z) lediglich von (X, Z) ab. Dierentielle Fehler können beispielsweise in biometrischen Untersuchungen relevant sein, wenn kranke Individuen ihr Verhalten (etwa Ernährungs- und 3

6 Schlafgewohnheiten, Medikamentenkonsum, Rauch- und Suchtverhalten) in der Vergangenheit im Rückblick anders betrachten als gesunde Individuen. Bei selbst gemessenen oder selbst berichteten Variablen führt diese verschobene Wahrnehmung zu dierentiellen Fehlern, die vom Krankheitsverlauf und damit der Respose abhängen. Das Vorliegen nicht-dierentieller Fehler ist folglich kritisch zu prüfen. Nicht-dierentielle Fehler haben den Vorteil, dass sich die Untersuchung der einfachen, linearen Regression vereinfacht und die Bestimmung der Regressionsparameter grundsätzlich auch mit der fehlerbehafteten Variable W möglich ist, schlieÿlich ist E(Y W) = E(E(Y X, W W) = E(E(Y X) W) = β 0 + β X E(X W). (1) Aus diesem Grund betrachten wir nachfolgend ausschlieÿlich nicht-dierentielle Fehler. 2.3 Systematische und stochastische Messfehler Im Wesentlichen unterscheiden wir zwei Arten von Messfehlern, die unterschiedlich verursacht werden und unterschiedlich zu behandeln sind. Systematische Messfehler entstehen beispielsweise durch fehlerhafte Normierung und Skalierung der Messinstrumente, allgemeiner durch systematische Fehler bei der Datenerhebung, welche einer festen Regel oder einem bestimmten, festgelegten Prinzip folgen. Der beobachtete Wert W ist hier mit dem latenten Wert X über einen funktionalen Zusammenhang W = f(x) verbunden. Im einfachsten Fall ist der Zusammenhang linear und durch W = cx + d (2) beschreibbar. Obwohl auch komplexere funktionale Zusammenhänge, insbesondere etwa polynomiale oder exponentielle Strukturen denkbar sind, be- 4

7 schränken wir uns hier auf lineare Fehler, deren Auswirkungen auf lineare Modelle wir detaillert diskutieren werden. Stochastische Messfehler stellen die zweite Art von Messfehler dar und variieren zufällig von Messung zu Messung. Im einfachsten, klassischen Fall gilt W = X + U (3) mit U NV(0, σu 2 ), wobei X und U stochastisch unabhängig sind. Während dieses Fehlermodell von gleichbleibender Varianz und normalverteilten Fehlern ausgeht, sind andere Fehlerstrukturen denkbar und durch entsprechende Anpassungen modellierbar. Insbesondere sind zeitlich veränderliche oder individuenspezische Varianzen etwa im biometrischen Kontext, aber auch bei anderen Fragestellungen denkbar. Verbleibend und im nächsten Abschnitt betrachten wir jedoch im Wesentlichen das gerade vorgestellte Modell sowie das Berkson-Modell mit ähnlicher Struktur. In der Regel ist mit dem Vorhandensein beider Fehlerarten zu rechnen, welche lediglich aus Gründen der Übersichtlichkeit einzeln betrachtet werden. Abbildung 2 zeigt den Zusammenhang zwischen wahrem, latenten Wert X und beobachtetem Wert W für beide Fehlerarten. 5

8 Systematischer Fehler Zufälliger Fehler beobachteter Wert W beobachteter Wert W theoretischer Wert X theoretischer Wert X Abbildung 2: Gegenüberstellung von systematischem und stochastischem Messfehler. Im Beispiel ist links ein linearer, systematischer Fehler und rechts ein zufälliger, normalverteilter Fehler dargestellt. 2.4 Klassischer Fehler und Berkson-Fehler Nach der allgemeinen Unterscheidung zwischen systematischen und zufälligen Messfehlern werden wir in diesem Abschnitt zufällige Messfehler genauer betrachten. Zufällige Messfehler sind auf zwei unterschiedlichen Arten darstellbar, welche trotz ihrer vermeintlichen Ähnlichkeit unterschiedliche Auswirkungen etwa auf Regressionsuntersuchungen haben und nachfolgend vorgestellt werden. Im klassischen Fehlermodell ist als Standardfehlermodell in der Regel einzusetzen und stellt W die fehlerbehaftete Messung des wahren, latenten Werts 6

9 X dar, modelliert durch den Zusammenhang W = X + U (4) mit U NV(0, σu 2 ), wobei U und X stochastisch unabhängig sind. In diesem Fall gilt E(W X) = X, W ist folglich eine unverzerrte Messung für X. Betrachtet man stattdessen X = W + U (5) mit U NV(0, σu 2 ), wobei U und W stochastisch unabhängig sind, so gilt E(X W) = W. Man erhält trotz vermeintlicher Ähnlichkeit ein anderes Modell. Dieser Fehler wird Berkson-Fehler genannt und spiegelt eine andere Ausgangslage wieder: Während beim klassischen Fehler der exakte Wert X durch zufällige Messfehler verdeckt wird, stellt sich beim Berkson-Fehler der exakte, nicht beobachtbare Wert X erst als Ergebnis einer (im Experiment kontrollierbaren) Variablen W ein. Berkson-Modelle nden in natürlicher Weise bei epidemiologischen Studien ihre Anwendung. Als Beispiel sei hier die Studie von Kreuzer et al. (2002) erwähnt, welche statt individueller Strahlenbelastungen von Minenarbeitern lediglich die durchschnittliche Belastung verknüpft mit der Zahl an Arbeitstagen berücksichtigt. Die tatsächliche, latente Belastung ist von Arbeiter zu Arbeiter verschieden und unterliegt modellbedingt zufälligen Schwankungen; die im Modell verwendete Strahlenbelastung weist also Berkson-Fehler auf. 7

10 3 Fehlermodelle und einfache, lineare Regression 3.1 Regression bei systematischen Messfehlern Ausgehend von der Modellgleichung der einfachen, linearen Regression Y = β 0 + β X X + ɛ, ɛ NV(0, σ 2 ɛ ) (6) betrachten wir zunächst den Fall systematischer Messfehler. Wir beobachten eine fehlerbehaftete Variable W, die über einen festen funktionalen Zusammenhang W = f(x) mit der fehlerfreien Variable X verknüpft ist. Betrachtet werden sollen hier nur lineare Verknüpfungen und damit das Verhalten bei konstanten und proportionalen Fehlern. Im ersten, einfachsten Fall messen wir statt der fehlerfreien Variablen X eine um einen konstanten Messfehler d verschobene, folglich fehlerbehaftete Variable W = X + d. In diesem Fall verändert sich die angegebenen Modellgleichung, es gilt Y = β 0 + β X(X + d) + ɛ. (7) Durch Umformung ergibt sich mit β 0 := β 0 + β X d Y = β 0 + β XX + ɛ. (8) Als Parameterschätzer erhalten wir als verzerrten, inkonsistenten Wert β 0 = β 0 + β X d sowie konsistent geschätzt β X = β X. Diese Ergebnisse liegen nahe, sind die beobachteten Werte nur um einen konstanten Wert d nach rechts und in der Folge um den Wert β X d nach oben verschoben. Im zweiten Fall erhalten wir statt der fehlerfreien Variablen X eine mit einem proportionalen Fehler behaftete Variable W = cx. Nachfolgend gehen wir 8

11 also von der Modellgleichung Y = β 0 + β XcX + ɛ (9) aus, woraus sich die verzerrten KQ-Schätzer β 0 und β X = 1 c β X ergeben. In beiden Fällen erhalten wir durch KQ-Schätzung verzerrte Schätzer, die bei Kenntnis des konstanten Fehlers d und proportionalen Fehlers c unmittelbar korrigiert werden können. Kennt man den systematischen Messfehler allerdings, so können auch die gemessenen, fehlerbehafteten Werte W selbst vor Durchführung der Regression korrigiert werden. 3.2 Regression bei stochastischen Messfehlern Regression bei klassischem Messfehler Von ebenso groÿer Relevanz sind stochastische Messfehler, weswegen wir als ersten Schritt die Auswirkungen klassischer Messfehler auf das lineare Regressionsmodell Y = β 0 + β X X + ɛ, ɛ NV (0, σ 2 ɛ ) (10) betrachten. Ist X nicht messbar, stattdessen nur fehlerbehaftet W = X + U mit U NV(0, σu 2 ) verfügbar, erhalten wir das Modell Y = β 0 + β W (X + U) + ɛ (11) mit oben angegebenen Fehlerverteilungen für U und ɛ. 9

12 Abbildung 3: Regressionsgeraden bei klassischem Messfehler (schematische Darstellung). Bereits eine einfache graphische Analyse, die Schneeweiÿ/Mittag (1986), S. 40., entnommen ist, verdeutlicht die Folgen klassischer Messfehler. Die schwarze Regressionsgerade in Abbildung 3 gibt den wahren Zusammenhang zwischen Prädiktor und Response an. Als klassischer Messfehler ist hier statt einer Normalverteilung die Verschiebung der beobachteten Werte um einen konstanten Term nach links beziehungsweise rechts modelliert. Die rote, gestrichelte Regressionsgerade zeigt die Veränderungen, die durch Kleinste- Quadrate-Schätzung bewirkt werden. Es kommt zu einer systematischen Un- 10

13 terschätzung der Steigung. Zur Illustration wurde hierbei angenommen, dass für jeden wahren Wert (x 1, x 2 ) zwei messfehlerbehaftete Werte (w 11, w 12, w 21, w 22 ) beobachtet wurden. Zur Verzerrung kommt es KQ-bedingt eigentlich erst bei mehr als zwei Beobachtungspunkten. Dieses Ergebnis kann nicht nur graphisch plausibel gemacht werden, sondern ist auch theoretisch nachweisbar. Ohne Beweis geben wir hier ein Ergebnis wieder, welches bei normalverteilten, klassischen Messfehlern U gilt: Die gewöhnliche Kleinste-Quadrate-Schätzung von X auf Y ist kein unverzerrter Schätzer von β X, da nunmehr β W = λβ X mit λ := σ 2 X σ 2 X + σ2 U < 1 (12) als Attenuation-Faktor (reliability ratio) bestimmt wird. Die Regressionsgerade verläuft bei fehlerbehafteten Daten also acher als im unbeobachtbaren Modell. Darüber hinaus vergröÿert sich die Varianz der Beobachtungen. Statt Var(Y X) = σ 2 ɛ erhalten wir als Residuenvarianz Var(Y W) = σɛ 2 + λβxσ 2 U 2 = σɛ 2 + σ2 X σx 2 + βxσ 2 σ2 U 2 > Var(Y X). (13) U Somit schwächt sich wie erwartet der Zusammenhang zwischen gemessenem Prädiktor W und Response Y ab. Überraschender ist, dass sich nach Buzas et al. (2004), S. 737, in einigen Fällen die Varianz des naiven Parameterschätzers 1 bei fehlerbehafteten Daten im Vergleich zur fehlerfreien Schätzung verringert, demnach Kondenzintervalle neben der falschen Lage auch verkleinert sind. 1Als naiven Parameterschätzer bezeichnet man den gewöhnlichen KQ-Schätzer ohne Berücksichtigung von Messfehlern. 11

14 3.2.2 Regression bei Berkson-Fehler Die Auswirkungen des Berkson-Fehlers sind ungleich geringer. Hier modellieren wir wiederum Y = β 0 + β X X + ɛ, ɛ NV(0, σ 2 ɛ ) (14) mit X = W + U und E(X W) = W. Wie beim klassischen Messfehler betrachten wir auch hier zunächst an einem einfachen Beispiel die Auswirkungen des Berkson-Fehlers. Statt der beobachteten Werte (w 1, w 2 ) messen wir eigentlich die Auswirkungen der wahren Werte (x 11, x 12, x 21, x 22 ) und die zu ihnen gehörenden Werte der Responsevariable (y 11, y 12, y 21, y 22 ). Neben den vier möglichen wahren, latenten Punkten in schwarz sind in Abbildung 4 die beobachteten Punkte in rot eingetragen. Die Kleinste-Quadrate-Regressionsgleichungen sind oenbar identisch im beobachteten und wahren Fall, wenn wir wie im klassischen Fall annehmen, dass alle beobachteten Punkte gleichermaÿen realisiert werden. Es kommt folglich zu keiner Verzerrung der Regressionskoezienten im Berkson-Model. Analytisch lässt sich dieses Ergebnis einfach bestätigen. Da sich X = W + U erst als zufälliges Ergebnis nach Festlegung von W einstellt, bestimmen wir statt der wahren Regressionskoezienten jene im Regressionsmodell Y = β 0 + β W W + ɛ, ɛ NV (0, σ 2 ɛ ). (15) Wegen E(X W) = W ist (bei nicht-dierentiellen Fehlern) E(Y W) = β 0 + β X E(X W) = β 0 + β X W. Dementsprechend sind die Koezientenschätzer für β 0 und β X = β W unverzerrt. Statt der Residuenvarianz Var(Y X) erhalten wir durch wenige Umformungen die Varianz Var(Y W) = Var(Y) + Var(E(Y W)) = σ 2 ɛ + β 2 Xσ 2 U > Var(Y X). (16) 12

15 Abbildung 4: Regressionsgeraden bei Berkson-Fehler (schematische Darstellung) Verknüpfung von klassischem Fehler und Berkson-Fehler Beide Fehlermodelle sind trotz ihrer unterschiedlichen Interpretation technisch miteinander verknüpft, wie Caroll et al. (2006), S.28f. aufzeigen. Sie gehen dabei vom klassischen Fehlermodell W = X + U aus und geben als besten linearen Prädiktor für X gegeben W X = λw + (1 λ)e(u) + U (17) 13

16 mit U = (1 λ)(x E(X)) λu und Attenuation-Faktor λ := σ2 X σ 2 X +σ2 U an. Sie weisen nach, dass U und W unkorreliert sind, überführen folglich den klassischen Fehler in ein Berkson-Modell. Wie wir gesehen haben, ist das Berkson-Modell unverzerrt. Zusammenfassend erhalten wir als Fehlerstruktur das Berkson-Modell als stochastischen Fehler, verzerrt durch den systematischen, proportionalen Fehler λ, welcher sich wie bereits vorgestellt auswirkt. 4 Fehlermodelle und multiple, lineare Regression In diesem Abschnitt erweitern wir das bisherige Regressionsmodell, indem wir die Auswirkungen von Messfehlern auf die Ergebnisse bei multipler, linearer Regression vorstellen. Im einfachsten Fall, auf welchen wir uns hier beschränken, lassen sich die Kovariablen in eine messfehlerbehaftete, skalare Kovariable X und weitere, fehlerfreie Kovariablen Z aufteilen. Wir betrachten folglich das Regressionsmodell Y = β 0 + β X X + β T Z Z + ɛ, (18) wobei Z den Spaltenvektor der fehlerfreien Kovariablen und β Z der zugehörige Koezientenvektor darstellt. Die naiven Kleinste-Quadrate-Schätzer für die Regressionskoezienten sind im Falle multipler Regression wie bereits im Fall einfacher linearer Regression verzerrt. Carroll et al. (2006) geben einen Beweis, dass die KQ- Schätzer verzerrt sind. Statt β X wird λ 1 β X mit λ 1 := σ2 X Z = σ2 X Z := σw 2 σ Z X Z 2 +σ2 U Var(X Z)+Var(U), statt β Z wird β Z + β X (1 λ 1 )Γ Z geschätzt, wobei Γ Z als Koezient der Regression von X auf Z, d.h. durch E(X Z) = Γ 0 + Γ T Z, Z 14

17 deniert ist. Oenbar können sich Messfehler in einer Variable auch auf die Koezientenschätzer der anderen, fehlerfreien Variablen auswirken. Dieses bemerkenswerte und überraschende Ergebnis soll an einem Beispiel veranschaulicht und plausibilisiert werden. In Abbildung 5 sind in der linken Graphik fehlerfreie Daten abgetragen, wobei die rote Gruppe durchschnittlich höhere Werte X als die blaue Gruppe annimmt. Die Response Y hängt in diesem Beispiel ausschlieÿlich über einen linearen Zusammenhang von X, nicht jedoch von der Gruppenzugehörigkeit ab, weshalb kein durch die Gruppenzugehörigkeit bedingter Eekt beobachtbar ist. In der rechten Graphik wird statt X die fehlerbehaftete Variable W = X+U mit klassischer Fehlerstruktur und normalverteiltem Fehler U gemessen. In der Folge ist einerseits wie erwartet und bereits diskutiert eine Abachung der Regressionsgerade insgesamt zu erwarten und darüber hinaus ein deutlicher Gruppeneekt beobachtbar. Die beschriebene Auswirkung ist dabei ausschlieÿlich auf die fehlerbehaftete Messung zurückzuführen und kann in zahllosen Fällen auftreten. Messfehler können vermeintliche Geschlechtseekte bei soziologischen Fragestellungen verursachen oder Wirksamkeitsunterschiede bei Medikamenten bedingen. Schneeweiÿ führt als weiteres Beispiel Strukturbrüche in der Ökonometrie auf, die scheinbare zeitliche Brüche im Zusammenhang zwischen ökonomischen Gröÿen darstellen. Zusammenfassend handelt es sich folglich um ein weitreichendes Problem, das - wann immer nicht vernachlässigbare Messfehler zu erwarten sind - gleichfalls nicht vernachlässigt werden sollte. 15

18 Abbildung 5: Auswirkung von Messfehlern bei multipler Regression: In der linken Graphik mit fehlerfreiem Prädiktor ist kein Unterschied zwischen blauer und roter Gruppe beobachtbar. In der rechten Graphik ist der Prädiktor fehlerbehaftet; allein hierdurch acht sich der Zusammenhang ab und ein Gruppeneekt tritt auf. 16

19 5 Korrekturverfahren bei Messfehlern 5.1 Korrektur bei bekannter Fehlerstruktur Im vorherigen Abschnitt haben wir die Konsequenzen unterschiedlicher Messfehler auf das lineare Regressionsmodell untersucht und in den meisten Fällen neben anderen Auswirkungen verzerrte Schätzer erhalten. Möchte man diese Verzerrung korrigieren, so nimmt man allerdings in der Regel als Trade-o eine Vergröÿerung der Varianz in Kauf. Ein erster, intuitiver Ansatz zur Behebung dieser Verzerrungen ist, die Schätzungen durch einen Korrekturfaktor zu verbessern. Beim klassischen Messfehlermodell ergibt sich wie bereits diskutiert beispielsweise asymptotisch als verzerrter Parameterschätzer β W = λβ X mit Attenuation-Faktor λ := σ2 X < 1. Einen unverzerrten σx 2 +σ2 U Schätzer für die fehlerfreien Daten erhalten wir demnach, wenn wir den KQ- Schätzer β W mit dem Faktor 1 multiplizieren. λ Zentrales Problem ist hierbei allerdings, dass die Fehlervarianzen in der Regel nicht bekannt sind und selbst geschätzt werden müssen. Im Falle systematischer Fehler ist dies gewöhnlich nur möglich, wenn die Fehlerparameter bekannt sind. Dann können wie bereits im Teil zuvor angedeutet entweder die Daten selbst und direkt bereinigt werden oder die Verzerrung der Parameter korrigiert werden. Im Falle stochastischer Messfehler bleiben mehr Möglichkeiten oen: Falls Experimente wiederholbar sind, können unabhängige, erneute Messungen die Datenqualität verbessern und zu einer Schätzung der Fehlervarianzen beitragen. Sind die Daten nicht wiederholbar, bleibt als Möglichkeit, durch Untersuchungen der Messinstrumente zu einer Schätzung zu gelangen oder andere A-priori-Information zu beziehen. 17

20 5.2 Orthogonale Regression Schätzt man Regressionsparameter mittels klassischer Kleinste-Quadrate- Methode, werden jene Parameter gesucht, die den vertikalen Abstand n i=1 (Y i β 0 β X x i ) 2 (19) zwischen beobachteten Punkten und anzupassender Regressionsgerade minimieren. Orthogonale Regression greift eine bereits durch Abbildung 3 naheliegende Idee auf und modiziert die Kleinste-Quadrate-Methode insofern, als dass der orthogonale Abstand n i=1 {(Y i β 0 β X x i ) 2 + η(w i x i )} (20) durch Wahl der unbekannten Parameter (β 0, β X, x 1,..., x n ) minimiert werden soll. Für η = 1 erhalten wir hieraus tatsächlich jene Regressionsgerade, welche den quadratischen Abstand zwischen den beobachteten Punkten (w i, y i ) und der Regressionsgerade selbst minimiert. Wählen wir η = σ2 ɛ σu, 2 erhalten wir ein anderes Minimierungskriterium, bestimmen jedoch die Regressionsgerade nach dem Maximum-Likelihood-Ansatz. In diesem Zusammenhang zeigt sich das grundlegende Problem dieses Korrekturverfahrens. Zwar genügt es in diesem Verfahren, wenn statt der einzelnen Fehlervarianzen lediglich deren Quotient η bekannt ist. Allerdings ist selbst dieser in der Regel nicht bekannt und muss geschätzt werden. Da bereits kleine Änderungen der Fehlervarianzen groÿen Einuss auf den Quotienten haben, kommt es in der Folge zur Überkorrektur und wiederum zu verzerrten Ergebnissen. Insgesamt ist das Verfahren also trotz seiner Einfachheit mit praktischen Problemen behaftet. 2 2Carroll et al. (2006), S.57f., zeigen diese Folge mittels Zerlegung des Modellfehlers in Messfehler und Gleichungsfehler auf. 18

21 6 Schlussbetrachtungen Die vorliegende Seminararbeit hat sich ausschlieÿlich auf die Auswirkungen von Messfehlern in linearen Modellen beschränkt. Naturgemäÿ ist damit das Feld der Messfehlertheorie nicht abzudecken und lässt zahlreiche Fragestellungen unbeachtet. Zum Einen können weitere Fehlerarten modelliert und untersucht werden. Denkbar sind etwa systematische Messfehler mit nichtlinearem Zusammenhang, Messfehler mit veränderlicher Varianz oder multiplikative Messfehlermodelle. Zum Anderen verhalten sich die beschriebenen Messfehler bei einer Erweiterung auf nichtlineare Modelle anders als in linearen Modellen. Teilweise lassen sich Ergebnisse und Beobachtungen vom linearen Fall übertragen, im Allgemeinen gilt dies jedoch nicht. So wirkt sich insbesondere der Berkson-Fehler in der Regel anders aus und führt wie klassische Messfehler zu Verzerrungen. Zusammenfassend lässt sich festhalten, dass die Auswirkungen abhängig vom Modell und der Fehlerstruktur berücksichtigt werden müssen. Davon ausgehend gibt es neben den kurz geschilderten Verfahren eine Reihe weiterer Korrekturverfahren (Momentenmethode, Simulation-Extrapolation SIMEX, Regressionskalibrierung, diverse Schätzverfahren), welche in bestimmten Situationen geeignet sind und die ausführlich in der weiterführenden Literatur besprochen werden. 19

22 Literaturverzeichnis Buzas, J.S.; Stefanski, L.A. Tosteson, T.D. (2004): Measurement Error. In: Ahrens, W; Pigeot, I. (Eds.): Handbook of Epidemiology. Springer: London. Carroll, R.J.; Ruppert, D.; Stefanski, L.A.; Crainiceanu, C.M. (2006): Measurement Error in Nonlinear Models: A Modern Perspective. Chapman and Hall/CRC: New York, 2. Auage. Kreuzer, M.; Brachner, A.; Lehmann, F.; Martignoni, K.; Wichmann, H.E.; Grosche, B. (2002): Characteristics of the German Uranium Miners Cohort Study. In: Health Physics (Vol. 83), S Schneeweiÿ, H.; Mittag, H.-J. (1986): Lineare Modelle mit fehlerbehafteten Daten. Physica-Verlag Heidelberg. 20

Allgemeine Regressionsanalyse. Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl. deterministisch

Allgemeine Regressionsanalyse. Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl. deterministisch Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 9.1 Allgemeine Regressionsanalyse Daten (X j, Y j ), j = 1,..., N unabhängig Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl.

Mehr

Kategoriale abhängige Variablen: Logit- und Probit -Modelle. Statistik II

Kategoriale abhängige Variablen: Logit- und Probit -Modelle. Statistik II Kategoriale abhängige Variablen: Logit- und Probit -Modelle Statistik II Wiederholung Literatur Annahmen und Annahmeverletzungen Funktionen Exponenten, Wurzeln usw. Das Problem Das binäre Logit-Modell

Mehr

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren)

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Multiple Regression 1 Was ist multiple lineare Regression? Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Annahme: Der Zusammenhang

Mehr

Binäre abhängige Variablen

Binäre abhängige Variablen Binäre abhängige Variablen Thushyanthan Baskaran thushyanthan.baskaran@awi.uni-heidelberg.de Alfred Weber Institut Ruprecht Karls Universität Heidelberg Einführung Oft wollen wir qualitative Variablen

Mehr

Korrelation - Regression. Berghold, IMI

Korrelation - Regression. Berghold, IMI Korrelation - Regression Zusammenhang zwischen Variablen Bivariate Datenanalyse - Zusammenhang zwischen 2 stetigen Variablen Korrelation Einfaches lineares Regressionsmodell 1. Schritt: Erstellung eines

Mehr

Teil II. Nichtlineare Optimierung

Teil II. Nichtlineare Optimierung Teil II Nichtlineare Optimierung 60 Kapitel 1 Einleitung In diesem Abschnitt wird die Optimierung von Funktionen min {f(x)} x Ω betrachtet, wobei Ω R n eine abgeschlossene Menge und f : Ω R eine gegebene

Mehr

Kapitel 4: Binäre Regression

Kapitel 4: Binäre Regression Kapitel 4: Binäre Regression Steffen Unkel (basierend auf Folien von Nora Fenske) Statistik III für Nebenfachstudierende WS 2013/2014 4.1 Motivation Ausgangssituation Gegeben sind Daten (y i, x i1,...,

Mehr

Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt!

Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt! Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt! 1 Einführung 2 Wahrscheinlichkeiten kurz gefasst 3 Zufallsvariablen und Verteilungen 4 Theoretische Verteilungen (Wahrscheinlichkeitsfunktion)

Mehr

Messgeräte: Mess-System-Analyse und Messmittelfähigkeit

Messgeräte: Mess-System-Analyse und Messmittelfähigkeit Messgeräte: Mess-System-Analyse und Messmittelfähigkeit Andreas Berlin 14. Juli 2009 Bachelor-Seminar: Messen und Statistik Inhalt: 1 Aspekte einer Messung 2 Mess-System-Analyse 2.1 ANOVA-Methode 2.2 Maße

Mehr

Modul G.1 WS 07/08: Statistik 17.01.2008 1. Die Korrelation ist ein standardisiertes Maß für den linearen Zusammenhangzwischen zwei Variablen.

Modul G.1 WS 07/08: Statistik 17.01.2008 1. Die Korrelation ist ein standardisiertes Maß für den linearen Zusammenhangzwischen zwei Variablen. Modul G.1 WS 07/08: Statistik 17.01.2008 1 Wiederholung Kovarianz und Korrelation Kovarianz = Maß für den linearen Zusammenhang zwischen zwei Variablen x und y Korrelation Die Korrelation ist ein standardisiertes

Mehr

ε heteroskedastisch BINARY CHOICE MODELS Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS?

ε heteroskedastisch BINARY CHOICE MODELS Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS? BINARY CHOICE MODELS 1 mit Pr( Y = 1) = P Y = 0 mit Pr( Y = 0) = 1 P Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS? Y i = X i β + ε i Probleme: Nonsense Predictions

Mehr

Multivariate Statistik

Multivariate Statistik Hermann Singer Multivariate Statistik 1 Auflage 15 Oktober 2012 Seite: 12 KAPITEL 1 FALLSTUDIEN Abbildung 12: Logistische Regression: Geschätzte Wahrscheinlichkeit für schlechte und gute Kredite (rot/blau)

Mehr

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50,7 50 51,5 51,7 48,8

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50,7 50 51,5 51,7 48,8 1. Aufgabe: Eine Reifenfirma hat für Winterreifen unterschiedliche Profile entwickelt. Bei jeweils gleicher Geschwindigkeit und auch sonst gleichen Bedingungen wurden die Bremswirkungen gemessen. Die gemessenen

Mehr

0 Einführung: Was ist Statistik

0 Einführung: Was ist Statistik 0 Einführung: Was ist Statistik 1 Datenerhebung und Messung Die Messung Skalenniveaus 2 Univariate deskriptive Statistik 3 Multivariate Statistik 4 Regression 5 Ergänzungen Grundbegriffe Statistische Einheit,

Mehr

Kapitel 3: Interpretationen

Kapitel 3: Interpretationen Kapitel 3: 1. Interpretation von Outputs allgemein... 1 2. Interpretation von Signifikanzen... 1 2.1. Signifikanztests / Punktschätzer... 1 2.2. Konfidenzintervalle... 2 3. Interpretation von Parametern...

Mehr

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik Ludwig Fahrmeir, Nora Fenske Institut für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik 29. März 21 Hinweise:

Mehr

Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall )

Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall ) Zusammenhänge von Variablen Regressionsanalysen linearer Zusammenhang ( Idealfall ) kein Zusammenhang nichtlinearer monotoner Zusammenhang (i.d.regel berechenbar über Variablentransformationen mittels

Mehr

Untersuchungen zum Thema Tracking Error

Untersuchungen zum Thema Tracking Error Untersuchungen zum Thema Tracking Error J. Fulmek 24. August 2003 1 Einleitung Im Folgenden werden folgende Punkte untersucht: 1. verschiedene in der Literatur übliche Definitionen des Tracking Errors

Mehr

Füllmenge. Füllmenge. Füllmenge. Füllmenge. Mean = 500,0029 Std. Dev. = 3,96016 N = 10.000. 485,00 490,00 495,00 500,00 505,00 510,00 515,00 Füllmenge

Füllmenge. Füllmenge. Füllmenge. Füllmenge. Mean = 500,0029 Std. Dev. = 3,96016 N = 10.000. 485,00 490,00 495,00 500,00 505,00 510,00 515,00 Füllmenge 2.4 Stetige Zufallsvariable Beispiel. Abfüllung von 500 Gramm Packungen einer bestimmten Ware auf einer automatischen Abfüllanlage. Die Zufallsvariable X beschreibe die Füllmenge einer zufällig ausgewählten

Mehr

1. Biometrische Planung

1. Biometrische Planung 1. Biometrische Planung Die biometrische Planung ist Teil der Studienplanung für wissenschaftliche Studien, in denen eine statistische Bewertung von Daten erfolgen soll. Sie stellt alle erforderlichen

Mehr

9. Schätzen und Testen bei unbekannter Varianz

9. Schätzen und Testen bei unbekannter Varianz 9. Schätzen und Testen bei unbekannter Varianz Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Schätzen und Testen bei unbekannter Varianz Wenn wir die Standardabweichung σ nicht kennen,

Mehr

Kap. 9: Regression mit einer binären abhängigen Variablen

Kap. 9: Regression mit einer binären abhängigen Variablen Kap. 9: Regression mit einer binären abhängigen Variablen Motivation Lineares Wahrscheinlichkeitsmodell Probit- und Logit-Regression Maximum Likelihood Empirisches Beispiel: Analyse der HMDA-Daten Ausblick:

Mehr

Allgemeines Lineares Modell: Univariate Varianzanalyse und Kovarianzanalyse

Allgemeines Lineares Modell: Univariate Varianzanalyse und Kovarianzanalyse Allgemeines Lineares Modell: Univariate Varianzanalyse und Kovarianzanalyse Univariate Varianz- und Kovarianzanlyse, Multivariate Varianzanalyse und Varianzanalyse mit Messwiederholung finden sich unter

Mehr

Delta-Gamma-Verfahren als Standard- Risikomodell für Lebensversicherer

Delta-Gamma-Verfahren als Standard- Risikomodell für Lebensversicherer Delta-Gamma-Verfahren als Standard- Risikomodell für Lebensversicherer 1 Einleitung Im Rahmen des SST wird teilweise vereinfachend angenommen, dass der Zusammenhang zwischen der Veränderung des risikotragenden

Mehr

Der Bipolar-Transistor und die Emitterschaltung Gruppe B412

Der Bipolar-Transistor und die Emitterschaltung Gruppe B412 TECHNISCHE UNIVERSITÄT MÜNCHEN Der Bipolar-Transistor und die Emitterschaltung Gruppe B412 Patrick Christ und Daniel Biedermann 16.10.2009 1. INHALTSVERZEICHNIS 1. INHALTSVERZEICHNIS... 2 2. AUFGABE 1...

Mehr

Univariate Lineare Regression. (eine unabhängige Variable)

Univariate Lineare Regression. (eine unabhängige Variable) Univariate Lineare Regression (eine unabhängige Variable) Lineare Regression y=a+bx Präzise lineare Beziehung a.. Intercept b..anstieg y..abhängige Variable x..unabhängige Variable Lineare Regression y=a+bx+e

Mehr

Willkommen zur Vorlesung Statistik

Willkommen zur Vorlesung Statistik Willkommen zur Vorlesung Statistik Thema dieser Vorlesung: Varianzanalyse Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften Prof. Dr. Wolfgang

Mehr

Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel

Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel 16.11.01 MP1 - Grundlagen quantitativer Sozialforschung - (4) Datenanalyse 1 Gliederung Datenanalyse (inferenzstatistisch)

Mehr

Kapitel 7: Varianzanalyse mit Messwiederholung

Kapitel 7: Varianzanalyse mit Messwiederholung Kapitel 7: Varianzanalyse mit Messwiederholung Durchführung einer einfaktoriellen Varianzanalyse mit Messwiederholung 1 Durchführung einer zweifaktoriellen Varianzanalyse mit Messwiederholung auf einem

Mehr

Abschlussklausur (60 Minuten), 15. Juli 2014

Abschlussklausur (60 Minuten), 15. Juli 2014 Prof. Dr. Amelie Wuppermann Volkswirtschaftliche Fakultät Universität München Sommersemester 2014 Empirische Ökonomie 1 Abschlussklausur (60 Minuten), 15. Juli 2014 Bearbeitungshinweise Die Bearbeitungszeit

Mehr

Institut für Soziologie. Methoden 2. Regressionsanalyse I: Einfache lineare Regression

Institut für Soziologie. Methoden 2. Regressionsanalyse I: Einfache lineare Regression Institut für Soziologie Methoden 2 Regressionsanalyse I: Einfache lineare Regression Programm Anwendungsbereich Vorgehensweise Interpretation Annahmen Zusammenfassung Übungsaufgabe Literatur # 2 Anwendungsbereich

Mehr

2. Korrelation, lineare Regression und multiple Regression

2. Korrelation, lineare Regression und multiple Regression multiple 2.2 Lineare 2.2 Lineare 1 / 130 2.2 Lineare 2 / 130 2.1 Beispiel: Arbeitsmotivation Untersuchung zur Motivation am Arbeitsplatz in einem Chemie-Konzern 25 Personen werden durch Arbeitsplatz zufällig

Mehr

Hauptseminar am Fachgebiet für Quantitative Methoden der Wirtschaftswissenschaften

Hauptseminar am Fachgebiet für Quantitative Methoden der Wirtschaftswissenschaften Hauptseminar am Fachgebiet für Quantitative Methoden der Wirtschaftswissenschaften Fehlende Daten in der Multivariaten Statistik SS 2011 Allgemeines Das Seminar richtet sich in erster Linie an Studierende

Mehr

Anleitung zur Fehlerrechnung

Anleitung zur Fehlerrechnung Anleitung zur Fehlerrechnung Grundsätzlich ist jedes Messergebnis mit einem Fehler behaftet. Ein wie auch immer ermittelter Messwert einer physikalischen Größe weicht immer vom idealen, wahren Wert der

Mehr

PRAKTIKUM Experimentelle Prozeßanalyse 2. VERSUCH AS-PA-2 "Methoden der Modellbildung statischer Systeme" Teil 2 (für ausgewählte Masterstudiengänge)

PRAKTIKUM Experimentelle Prozeßanalyse 2. VERSUCH AS-PA-2 Methoden der Modellbildung statischer Systeme Teil 2 (für ausgewählte Masterstudiengänge) FACHGEBIET Systemanalyse PRAKTIKUM Experimentelle Prozeßanalyse 2 VERSUCH AS-PA-2 "Methoden der Modellbildung statischer Systeme" Teil 2 (für ausgewählte Masterstudiengänge) Verantw. Hochschullehrer: Prof.

Mehr

Multinomiale logistische Regression

Multinomiale logistische Regression Multinomiale logistische Regression Die multinomiale logistische Regression dient zur Schätzung von Gruppenzugehörigkeiten bzw. einer entsprechenden Wahrscheinlichkeit hierfür, wobei als abhänginge Variable

Mehr

Kirstin Hübner Armin Burgmeier Gruppe 15 10. Dezember 2007

Kirstin Hübner Armin Burgmeier Gruppe 15 10. Dezember 2007 Protokoll zum Versuch Transistorschaltungen Kirstin Hübner Armin Burgmeier Gruppe 15 10. Dezember 2007 1 Transistor-Kennlinien 1.1 Eingangskennlinie Nachdem wir die Schaltung wie in Bild 13 aufgebaut hatten,

Mehr

Kommentierter SPSS-Ausdruck zur logistischen Regression

Kommentierter SPSS-Ausdruck zur logistischen Regression Daten: POK V AG 3 (POKV_AG3_V07.SAV) Kommentierter SPSS-Ausdruck zur logistischen Regression Fragestellung: Welchen Einfluss hat die Fachnähe und das Geschlecht auf die interpersonale Attraktion einer

Mehr

(2) (x 2 1 + x 2 2 + + x 2 n)(y 2 1 + y 2 2 + + y 2 n) = z 2 1 + z 2 2 + + z 2 n

(2) (x 2 1 + x 2 2 + + x 2 n)(y 2 1 + y 2 2 + + y 2 n) = z 2 1 + z 2 2 + + z 2 n Über die Komposition der quadratischen Formen von beliebig vielen Variablen 1. (Nachrichten von der k. Gesellschaft der Wissenschaften zu Göttingen, Mathematisch-physikalische Klasse, 1898, S. 309 316.)

Mehr

Angewandte Ökonometrie, WS 2012/13, 1. Teilprüfung am 6.12.2012 - Lösungen. Das folgende Modell ist ein GARCH(1,1)-Modell:

Angewandte Ökonometrie, WS 2012/13, 1. Teilprüfung am 6.12.2012 - Lösungen. Das folgende Modell ist ein GARCH(1,1)-Modell: Angewandte Ökonometrie, WS 2012/13, 1. Teilprüfung am 6.12.2012 - Lösungen LV-Leiterin: Univ.Prof.Dr. Sylvia Frühwirth-Schnatter 1 Wahr oder falsch? 1. Das folgende Modell ist ein GARCH(1,1)-Modell: Y

Mehr

6. METRISCHE UND KATEGORIALE MERKMALE

6. METRISCHE UND KATEGORIALE MERKMALE 6. METRISCHE UND KATEGORIALE MERKMALE wenn an einer Beobachtungseinheit eine (oder mehrere) metrische und eine (oder mehrere) kategoriale Variable(n) erhoben wurden Beispiel: Haushaltsarbeit von Teenagern

Mehr

Unsupervised Kernel Regression

Unsupervised Kernel Regression 9. Mai 26 Inhalt Nichtlineare Dimensionsreduktion mittels UKR (Unüberwachte KernRegression, 25) Anknüpfungspunkte Datamining I: PCA + Hauptkurven Benötigte Zutaten Klassische Kernregression Kerndichteschätzung

Mehr

Messgeräte: Mess-System-Analyse und Messmittelfähigkeit

Messgeräte: Mess-System-Analyse und Messmittelfähigkeit Messgeräte: Mess-System-Analyse und Messmittelfähigkeit Andreas Berlin 14. Juli 009 Bachelor-Seminar: Messen und Statistik Inhalt: 1 Aspekte einer Messung Mess-System-Analyse.1 ANOVA-Methode. Maße für

Mehr

Entscheidungsanalyse unter Unsicherheit Entscheidungskriterien in ökonomischen Netzen

Entscheidungsanalyse unter Unsicherheit Entscheidungskriterien in ökonomischen Netzen Entscheidungsanalyse unter Unsicherheit Entscheidungskriterien in ökonomischen Netzen Referat von Guido RECKE Institut für Agrarökonomie der Georg-August-Universität Göttingen Platz der Göttinger Sieben

Mehr

Kapitel 3. Zufallsvariable. Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion. Erwartungswert, Varianz und Standardabweichung

Kapitel 3. Zufallsvariable. Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion. Erwartungswert, Varianz und Standardabweichung Kapitel 3 Zufallsvariable Josef Leydold c 2006 Mathematische Methoden III Zufallsvariable 1 / 43 Lernziele Diskrete und stetige Zufallsvariable Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion

Mehr

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 1 Einführung in die statistische Datenanalyse Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 2 Gliederung 1.Grundlagen 2.Nicht-parametrische Tests a. Mann-Whitney-Wilcoxon-U Test b. Wilcoxon-Signed-Rank

Mehr

Hinweise zur Fehlerrechnung im Grundpraktikum der Physik

Hinweise zur Fehlerrechnung im Grundpraktikum der Physik Grundpraktikum der Physik Hinweise zur Fehlerrechnung im Grundpraktikum der Physik Sascha Hankele sascha@hankele.com Patrick Paul patrick.paul@uni-ulm.de 11. Mai 2011 Inhaltsverzeichnis 1 Einführung und

Mehr

Kompakte Graphmodelle handgezeichneter Bilder

Kompakte Graphmodelle handgezeichneter Bilder Kompakte Graphmodelle handgezeichneter Bilder Einbeziehung in Authentizierung und Bilderkennung Inhaltsverzeichnis Seminar Mustererkennung WS 006/07 Autor: Stefan Lohs 1 Einleitung 1 Das graphische Modell.1

Mehr

Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07

Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07 Regression Trees Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07 Ao.Univ.Prof. Dr. Marcus Hudec marcus.hudec@univie.ac.at Institut für Scientific Computing, Universität Wien 2

Mehr

8. Februar 2007. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt.

8. Februar 2007. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt. L. Fahrmeir, C. Belitz Department für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit Wahlfach Statistik 8. Februar 2007 Hinweise:

Mehr

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft Prof. Dr. Helmut Küchenhoff SS08 90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft am 22.7.2008 Anmerkungen Überprüfen Sie bitte sofort, ob Ihre Angabe vollständig ist. Sie sollte

Mehr

6.1 Grundbegriffe und historischer Hintergrund

6.1 Grundbegriffe und historischer Hintergrund Kapitel 6 Regression 61 Grundbegriffe und historischer Hintergrund Bedeutung der Regression: Eines der am häufigsten verwendeten statistischen Verfahren Vielfache Anwendung in den Sozialwissenschaften

Mehr

Messsystemanalyse (MSA)

Messsystemanalyse (MSA) Messsystemanalyse (MSA) Inhaltsverzeichnis Ursachen & Auswirkungen von Messabweichungen Qualifikations- und Fähigkeitsnachweise Vorteile einer Fähigkeitsuntersuchung Anforderungen an das Messsystem Genauigkeit

Mehr

Extrema von Funktionen in zwei Variablen

Extrema von Funktionen in zwei Variablen Wirtschaftswissenschaftliches Zentrum Universität Basel Mathematik für Ökonomen 1 Dr. Thomas Zehrt Extrema von Funktionen in zwei Variablen Literatur: Gauglhofer, M. und Müller, H.: Mathematik für Ökonomen,

Mehr

Rauchen bis kurz vor Bekanntwerden einer Schwangerschaft: Physiologische Beeinträchtigung im Kindergartenalter?

Rauchen bis kurz vor Bekanntwerden einer Schwangerschaft: Physiologische Beeinträchtigung im Kindergartenalter? Rauchen bis kurz vor Bekanntwerden einer Schwangerschaft: Physiologische Beeinträchtigung im Kindergartenalter? Marc Jarczok, Sven Schneider, Joachim E. Fischer, Freia De Bock 1 Mannheimer Institut für

Mehr

Box-and-Whisker Plot -0,2 0,8 1,8 2,8 3,8 4,8

Box-and-Whisker Plot -0,2 0,8 1,8 2,8 3,8 4,8 . Aufgabe: Für zwei verschiedene Aktien wurde der relative Kurszuwachs (in % beobachtet. Aus den jeweils 20 Quartaldaten ergaben sich die folgenden Box-Plots. Box-and-Whisker Plot Aktie Aktie 2-0,2 0,8,8

Mehr

Varianzanalyse * (1) Varianzanalyse (2)

Varianzanalyse * (1) Varianzanalyse (2) Varianzanalyse * (1) Einfaktorielle Varianzanalyse (I) Die Varianzanalyse (ANOVA = ANalysis Of VAriance) wird benutzt, um Unterschiede zwischen Mittelwerten von drei oder mehr Stichproben auf Signifikanz

Mehr

Neuerungen in Minitab 16

Neuerungen in Minitab 16 Neuerungen in Minitab 16 minitab@additive-net.de - Telefon: 06172 / 5905-30 Willkommen zu Minitab 16! Die neueste Version der Minitab Statistical Software umfasst mehr als siebzig neue Funktionen und Verbesserungen,

Mehr

Quantitative Methoden der Bildungsforschung

Quantitative Methoden der Bildungsforschung Glieung Wieholung Korrelationen Grundlagen lineare Regression Lineare Regression in SPSS Übung Wieholung Korrelationen Standardisiertes Zusammenhangsmaß (unstandardisiert: Kovarianz) linearer Zusammenhang

Mehr

Statistik. R. Frühwirth. Statistik. fru@hephy.oeaw.ac.at. VO 142.090 http://tinyurl.com/tu142090. Februar 2010. R. Frühwirth Statistik 1/536

Statistik. R. Frühwirth. Statistik. fru@hephy.oeaw.ac.at. VO 142.090 http://tinyurl.com/tu142090. Februar 2010. R. Frühwirth Statistik 1/536 fru@hephy.oeaw.ac.at VO 142.090 http://tinyurl.com/tu142090 Februar 2010 1/536 Übersicht über die Vorlesung Teil 1: Deskriptive Teil 2: Wahrscheinlichkeitsrechnung Teil 3: Zufallsvariable Teil 4: Parameterschätzung

Mehr

Protokoll Grundpraktikum I: F7 Statistik und Radioaktivität

Protokoll Grundpraktikum I: F7 Statistik und Radioaktivität Protokoll Grundpraktikum I: F7 Statistik und Radioaktivität Sebastian Pfitzner 13. Mai 013 Durchführung: Sebastian Pfitzner (553983), Anna Andrle (55077) Arbeitsplatz: Platz Betreuer: Michael Große Versuchsdatum:

Mehr

Weitere (wählbare) Kontraste in der SPSS Prozedur Allgemeines Lineares Modell

Weitere (wählbare) Kontraste in der SPSS Prozedur Allgemeines Lineares Modell Einfaktorielle Versuchspläne 27/40 Weitere (wählbare) Kontraste in der SPSS Prozedur Allgemeines Lineares Modell Abweichung Einfach Differenz Helmert Wiederholt Vergleich Jede Gruppe mit Gesamtmittelwert

Mehr

Inhaltsverzeichnis. Regressionsanalyse. http://mesosworld.ch - Stand vom: 20.1.2010 1

Inhaltsverzeichnis. Regressionsanalyse. http://mesosworld.ch - Stand vom: 20.1.2010 1 Inhaltsverzeichnis Regressionsanalyse... 2 Lernhinweise... 2 Einführung... 2 Theorie (1-8)... 2 1. Allgemeine Beziehungen... 3 2. 'Best Fit'... 3 3. 'Ordinary Least Squares'... 4 4. Formel der Regressionskoeffizienten...

Mehr

Computer Vision: 3D-Geometrie. D. Schlesinger () Computer Vision: 3D-Geometrie 1 / 17

Computer Vision: 3D-Geometrie. D. Schlesinger () Computer Vision: 3D-Geometrie 1 / 17 Computer Vision: 3D-Geometrie D. Schlesinger () Computer Vision: 3D-Geometrie 1 / 17 Lochkamera Modell C Projektionszentrum, Optische Achse, Bildebene, P Hauptpunkt (optische Achse kreuzt die Bildebene),

Mehr

Marktliquidität von Aktien

Marktliquidität von Aktien Marktliquidität von Aktien Inauguraldissertation zur Erlangung der Würde eines Doctor rerum oeconomicarum der Wirtschafts- und Sozialwissenschaftlichen Fakultät der Universität Bern Lukas Roth Die Fakultät

Mehr

Codierungsverfahren SS 2011. Reed-Solomon-Codes zur Mehrblock-Bündelfehler-Korrektur

Codierungsverfahren SS 2011. Reed-Solomon-Codes zur Mehrblock-Bündelfehler-Korrektur Reed-Solomon-Codes zur Mehrblock-Bündelfehler-Korrektur Wie die zyklischen BCH-Codes zur Mehrbitfehler-Korrektur eignen sich auch die sehr verwandten Reed-Solomon-Codes (= RS-Codes) zur Mehrbitfehler-Korrektur.

Mehr

Kompakte Graphmodelle handgezeichneter Bilder. Einbeziehung in Autentizierung und Bilderkennung

Kompakte Graphmodelle handgezeichneter Bilder. Einbeziehung in Autentizierung und Bilderkennung Kompakte Graphmodelle handgezeichneter Bilder Einbeziehung in Autentizierung und Bilderkennung Inhaltsverzeichnis 1 Einleitung Das graphische Model.1 Image Thinning................................. 3.

Mehr

Waldwachstumsmodelle Silva und BWINPro

Waldwachstumsmodelle Silva und BWINPro Waldwachstumsmodelle Silva und BWINPro Jürgen Zell LV: Dynamische Modelle in der Waldökosystemforschung, 28.05.2013 Inhalt Durchmesserverteilung: Daten, Weibull-Anpassung, lineare Regression der Weibull-Parameter

Mehr

Optimierung I. 1 Einführung. Luise Blank. Wintersemester 2012/13. Universität Regensburg

Optimierung I. 1 Einführung. Luise Blank. Wintersemester 2012/13. Universität Regensburg Universität Regensburg Wintersemester 2012/13 1 Einführung Anwendungen Finanzwirtschaft: maximale Gewinnrate unter Beschränkungen an das Risiko; Portfolio von Investments Produktion: maximiere Gewinn bei

Mehr

Die Interferenz von flexiblen Arbeitszeiten mit der Nutzbarkeit arbeitsfreier Zeit Ein Prädiktor für soziale Beeinträchtigungen

Die Interferenz von flexiblen Arbeitszeiten mit der Nutzbarkeit arbeitsfreier Zeit Ein Prädiktor für soziale Beeinträchtigungen Die Interferenz von flexiblen Arbeitszeiten mit der Nutzbarkeit arbeitsfreier Zeit Ein Prädiktor für soziale Beeinträchtigungen Anna Wirtz*, Ole Giebel**, Carsten Schomann**, Friedhelm Nachreiner** *Bundesanstalt

Mehr

Varianzanalyse ANOVA

Varianzanalyse ANOVA Varianzanalyse ANOVA Johannes Hain Lehrstuhl für Mathematik VIII Statistik 1/23 Einfaktorielle Varianzanalyse (ANOVA) Bisher war man lediglich in der Lage, mit dem t-test einen Mittelwertsvergleich für

Mehr

Data Mining und Statistik: Gemeinsamkeiten und Unterschiede

Data Mining und Statistik: Gemeinsamkeiten und Unterschiede Universität Ulm Seminararbeit zum Thema Data Mining und Statistik: Gemeinsamkeiten und Unterschiede vorgelegt von: Daniel Meschenmoser betreut von: Dr. Tomas Hrycej Dr. Matthias Grabert Ulm, im Februar

Mehr

Verteilungsmodelle. Verteilungsfunktion und Dichte von T

Verteilungsmodelle. Verteilungsfunktion und Dichte von T Verteilungsmodelle Verteilungsfunktion und Dichte von T Survivalfunktion von T Hazardrate von T Beziehungen zwischen F(t), S(t), f(t) und h(t) Vorüberlegung zu Lebensdauerverteilungen Die Exponentialverteilung

Mehr

Seminar Text- und Datamining Datamining-Grundlagen

Seminar Text- und Datamining Datamining-Grundlagen Seminar Text- und Datamining Datamining-Grundlagen Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 23.05.2013 Gliederung 1 Klassifikationsprobleme 2 Evaluation

Mehr

Monte Carlo Methoden in Kreditrisiko-Management

Monte Carlo Methoden in Kreditrisiko-Management Monte Carlo Methoden in Kreditrisiko-Management P Kreditportfolio bestehend aus m Krediten; Verlustfunktion L = n i=1 L i; Die Verluste L i sind unabhängig bedingt durch einen Vektor Z von ökonomischen

Mehr

Geoadditive Regression

Geoadditive Regression Seminar: Stochastische Geometrie und ihre Anwendungen - Zufallsfelder Universität Ulm 27.01.2009 Inhalt Einleitung 1 Einleitung 2 3 Penalisierung 4 Idee Variogramm und Kovarianz Gewöhnliches Ansatz für

Mehr

Lehrstuhl für Statistik und empirische Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Prüfung im Fach Ökonometrie im WS 2011/12 Lösungsskizze

Lehrstuhl für Statistik und empirische Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Prüfung im Fach Ökonometrie im WS 2011/12 Lösungsskizze Lehrstuhl für Statistik und empirische irtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Prüfung im ach Ökonometrie im S 20/2 Lösungsskizze Aufgabe (.5 Punkte) Sie verfügen über einen Datensatz, der Informationen

Mehr

Tabelle 6a: Deskriptive Statistiken der metrischen Variablen

Tabelle 6a: Deskriptive Statistiken der metrischen Variablen Ergebnisse 77 5 Ergebnisse Das folgende Kapitel widmet sich der statistischen Auswertung der Daten zur Ü- berprüfung der Hypothesen. Die hier verwendeten Daten wurden mit den in 4.3 beschriebenen Instrumenten

Mehr

Klassische Risikomodelle

Klassische Risikomodelle Klassische Risikomodelle Kathrin Sachernegg 15. Jänner 2008 1 Inhaltsverzeichnis 1 Einführung 3 1.1 Begriffserklärung.................................. 3 2 Individuelles Risikomodell 3 2.1 Geschlossenes

Mehr

MATHEMATISCHE ANALYSE VON ALGORITHMEN

MATHEMATISCHE ANALYSE VON ALGORITHMEN MATHEMATISCHE ANALYSE VON ALGORITHMEN Michael Drmota Institut für Diskrete Mathematik und Geometrie, TU Wien michael.drmota@tuwien.ac.at www.dmg.tuwien.ac.at/drmota/ Ringvorlesung SS 2008, TU Wien Algorithmus

Mehr

29. Mai 2006. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt.

29. Mai 2006. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt. L. Fahrmeir, C. Belitz Department für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit Wahlfach Statistik 29. Mai 2006 Hinweise:

Mehr

Zählstatistik. Peter Appel. 31. Januar 2005

Zählstatistik. Peter Appel. 31. Januar 2005 Zählstatistik Peter Appel 31. Januar 2005 1 Einleitung Bei der quantitativen Analyse im Bereich von Neben- und Spurenelementkonzentrationen ist es von Bedeutung, Kenntnis über die möglichen Fehler und

Mehr

Räumliches Data Mining

Räumliches Data Mining Räumliches Data Mining Spatial Data Mining Data Mining = Suche nach "interessanten Mustern" in sehr großen Datensätzen => explorative Datenanlyse auch: Knowledge Discovery in Databases (KDD) verbreitete

Mehr

Name: Klasse: Datum: Klassenarbeit Wachstumsvorgänge Kl10-Gruppe A

Name: Klasse: Datum: Klassenarbeit Wachstumsvorgänge Kl10-Gruppe A Name: Klasse: Datum: Teil B Klassenarbeit Wachstumsvorgänge Kl10-Gruppe A 1. Gegeben ist die Exponentialfunktion y=f x = 0,5 x ; x R. (9P) a) Geben Sie die folgenden Eigenschaften dieser Funktion an! Wertebereich,

Mehr

12. Vergleich mehrerer Stichproben

12. Vergleich mehrerer Stichproben 12. Vergleich mehrerer Stichproben Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Häufig wollen wir verschiedene Populationen, Verfahren, usw. miteinander vergleichen. Beipiel: Vergleich

Mehr

Regression mit Gretl Eine erste Einführung 1

Regression mit Gretl Eine erste Einführung 1 Kurzeinführung in Gretl S. 1 Regression mit Gretl Eine erste Einführung 1 Installation: Gretl für das entsprechende Betriebssystem herunterladen und die Setup-Datei ausführen. Hinweis: Für die Benutzung

Mehr

$ % + 0 sonst. " p für X =1 $

$ % + 0 sonst.  p für X =1 $ 31 617 Spezielle Verteilungen 6171 Bernoulli Verteilung Wir beschreiben zunächst drei diskrete Verteilungen und beginnen mit einem Zufallsexperiment, indem wir uns für das Eintreffen eines bestimmten Ereignisses

Mehr

Thesen. zum Computereinsatz im Mathematikunterricht

Thesen. zum Computereinsatz im Mathematikunterricht Computer im Mathematikunterricht Ruprecht-Karls-Universität Heidelberg 29. Oktober 2003 Thesen zum Computereinsatz im Mathematikunterricht P Auf eine Taste zu tippen war noch nie eine mathematische Leistung

Mehr

x 2 2x + = 3 + Es gibt genau ein x R mit ax + b = 0, denn es gilt

x 2 2x + = 3 + Es gibt genau ein x R mit ax + b = 0, denn es gilt - 17 - Die Frage ist hier also: Für welche x R gilt x = x + 1? Das ist eine quadratische Gleichung für x. Es gilt x = x + 1 x x 3 = 0, und man kann quadratische Ergänzung machen:... ( ) ( ) x x + = 3 +

Mehr

Commercial Banking Übung 1 Kreditscoring

Commercial Banking Übung 1 Kreditscoring Commercial Banking Übung Kreditscoring Dr. Peter Raupach raupach@wiwi.uni-frankfurt.de Sprechzeit Dienstag 6-7:00 Uhr Raum 603 B Kreditscoring Gliederung Grundanliegen Das Sample Modellspezifikation Diskriminanzanalyse

Mehr

Aufgabe b) Anfangs eine simple Aufgabe, doch nach ungefähr dem siebten Glas (64 Reiskörner) eine mühselige Arbeit.

Aufgabe b) Anfangs eine simple Aufgabe, doch nach ungefähr dem siebten Glas (64 Reiskörner) eine mühselige Arbeit. 1. Schachbrett voller Reis Wir haben uns für mehr als 1000 kg entschieden, da wir glauben, dass aufgrund des stark ansteigenden Wachstums (exponentiell!) dieses Gewicht leicht zustande kommt. Anfangs eine

Mehr

Formulierungshilfen für das wissenschaftliche Schreiben

Formulierungshilfen für das wissenschaftliche Schreiben Formulierungshilfen für das wissenschaftliche Schreiben 1. Einleitendes Kapitel 1.1.1 Einen Text einleiten und zum Thema hinführen In der vorliegenden Arbeit geht es um... Schwerpunkt dieser Arbeit ist...

Mehr

Christian FG Schendera. Regressionsanalyse. mit SPSS. 2. korrigierte und aktualisierte Auflage DE GRUYTER OLDENBOURG

Christian FG Schendera. Regressionsanalyse. mit SPSS. 2. korrigierte und aktualisierte Auflage DE GRUYTER OLDENBOURG Christian FG Schendera Regressionsanalyse mit SPSS 2. korrigierte und aktualisierte Auflage DE GRUYTER OLDENBOURG Inhalt Vorworte V 1 Korrelation 1 1.1 Einführung 1 1.2 Erste Voraussetzung: Das Skalenniveau

Mehr

1.1 Was ist Statistik und warum ist Statistik wichtig?

1.1 Was ist Statistik und warum ist Statistik wichtig? 1.1 Was ist Statistik und warum ist Statistik wichtig? Typischer Lexikon-Eintrag für den Begriff Statistik : Methode zur Untersuchung von Massenerscheinungen Versuch, den Umfang, die Gliederung oder Struktur

Mehr

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen 4. Datenanalyse und Modellbildung Deskriptive Statistik 2-1 2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen Für die Auswertung einer Messreihe, die in Form

Mehr

Binäre lineare Optimierung mit K*BMDs p.1/42

Binäre lineare Optimierung mit K*BMDs p.1/42 Binäre lineare Optimierung mit K*BMDs Ralf Wimmer wimmer@informatik.uni-freiburg.de Institut für Informatik Albert-Ludwigs-Universität Freiburg Binäre lineare Optimierung mit K*BMDs p.1/42 Grundlagen Binäre

Mehr

Der Umgang mit fehlenden Werten in epidemiologischen und Versorgungssforschungsstudien

Der Umgang mit fehlenden Werten in epidemiologischen und Versorgungssforschungsstudien Der Umgang mit fehlenden Werten in epidemiologischen und Versorgungssforschungsstudien Oliver Kuß Institut für Medizinische Epidemiologie, Biometrie und Informatik, Medizinische Fakultät, Martin-Luther-Universität

Mehr

2.Tutorium Generalisierte Regression

2.Tutorium Generalisierte Regression 2.Tutorium Generalisierte Regression - Binäre Regression - Moritz Berger: 04.11.2013 und 11.11.2013 Shuai Shao: 06.11.2013 und 13.11.2013 Institut für Statistik, LMU München 1 / 16 Gliederung 1 Erweiterte

Mehr

Programmiertechnik II

Programmiertechnik II Analyse von Algorithmen Algorithmenentwurf Algorithmen sind oft Teil einer größeren Anwendung operieren auf Daten der Anwendung, sollen aber unabhängig von konkreten Typen sein Darstellung der Algorithmen

Mehr

Martingale. Kapitel 6. 6.1 Martingale in diskreter Zeit. 6.1.1 Definition und Beispiele

Martingale. Kapitel 6. 6.1 Martingale in diskreter Zeit. 6.1.1 Definition und Beispiele Kapitel 6 Martingale In der Statistik modellieren Martingale z.b. Glücksspiele oder Handelsstrategien in Finanzmärkten und sind ein grundlegendes Hilfsmittel für die statistische Inferenz stochastischer

Mehr