Kapitel 1: Einführung

Größe: px
Ab Seite anzeigen:

Download "Kapitel 1: Einführung"

Transkript

1 Kapitel 1: Einführung 1. Inferenzstatistik Zufallsvariable Parameter Prinzip der Informationsreduzierung Von den Stichprobenkennwerte auf die Parameter Ebenen der Statistik Standardfehler (Folie 73) Parameterschätzung Allgemein Günstige Eigenschaften von Parameterschätzer Parameterschätzung Regression Zusammenhange zwischen zwei Variablen Korrelation (Folie 45-47) Parameterschätzung Methoden Unterschied zwischen Korrelation und Regression Parameterschätzung & Inferenzstatistik (Folie 84) Beispiel für inferenzstatistisch abgesicherte Parameter Anhang... 21

2 Einführung 1. Inferenzstatistik Inferenzstatistik bedeutet schließende Statistik. Damit ist das induktive Schließen gemeint. Induktion bedeutet in der Logik vom Speziellen (bzw. vom Einzelfall ) auf das Ganze zu schließen. Sie muss nicht immer gültig sein und ist damit fehlerbehaftet. Die Deduktion ist das Gegenteil und meint den Schluss vom Allgemeinen auf das Spezielle (bzw. auf den Einzelfall ). Sie ist immer gültig und damit fehlerfrei. In der Statistik begegnet uns die Induktion in Form von der Schlussfolgerung von der Stichprobe auf die Population. D.h. die Inferenzstatistik will immer Aussagen über die Population machen mit Hilfe der Daten aus der Stichprobe. Möchte man ausschließlich Aussagen über die Stichprobe machen, spricht man von deskriptiver (also beschreibender) Statistik. 2. Zufallsvariable Die Bezeichnung Variable impliziert, dass es sich um einen speziellen Wert handelt, genau genommen, handelt es sich aber bei der Zufallsvariable (ZV) um eine FUNKTION, also um einen Zusammenhang zwischen 2 Maßen: z. B. oder. Der Zusatz Zufall verweist darauf, dass wir etwas nicht über diesen Zusammenhang wissen, er kommt also (zumindest teilweise) zufällig zustande. Eine ZV sind also ALLE Berechnungen, die den Zusammenhang zwischen Werte ermitteln und irgendwie der Zufall aber dabei eine Rolle spielt. Soll diese ZV einen konkreten Wert annehmen, sprechen wir hier von der Realisation einer ZV. Ein einfaches Beispiel für eine ZV ist der IQ, als eine Realisation einer ZV, weil der Mensch an sich ein Zufallsfaktor bei dem Ausfüllen von IQ-Tests darstellt: Die Berechnung der Größe eines Menschen in cm ist dabei keine ZV, da hier der Zufall keine Rolle spielt, wenn wir ein Maßband zur Berechnung benutzen: Ließen wir die Größe wiederum von anderen Menschen schätzen, wäre es wieder eine ZV 3. Parameter Parameter setzt sich zusammen aus den Begriffen para also neben und Metron, also Maß. Definitionsgemäß handelt es bei einem Parameter um einen Wert, der quasi immer vorhanden ist, aber immer andere Werte haben kann. Beispiel Körperliche Parameter: Der Herzschlag ist bei jedem Menschen vorhanden, aber nimmt er von Mensch zu Mensch verschiedene Ausmaße an. Oder ist die Körpergröße ebenfalls ein menschlicher Parameter: Jeder hat eine Körpergröße, aber der Wert bei jedem anders. In der Statistik spricht man bei Parametern von Kennwerte, die helfen das Aussehen einer ZV zu beschreiben. Jede ZV hat Parameter, aber in jeder ZV sehen die Werte für diese Parameter halt Seite 1 von 22

3 anders aus. Dabei unterscheiden wir in der Statistik grundsätzlich zwischen zwei verschiedene Arten von Parametern. Es gibt zum einen die Lageparameter und zum anderen die Streuungsparameter. Die Lageparameter geben Auskunft über einen fixen Punkt in der Verteilung der ZV. Wir unterscheiden zwischen Modus, Median und Erwartungswert als Lageparameter. Aber genügen Lageparameter nicht aus, um eine Vorstellung von der Verteilung der ZV zu bekommen. Wir brauchen noch ein Abweichungsgrad von den Lageparametern. Als Abweichungsmaße von den Lageparametern bezeichnen wir die Streuungsparameter. Hier unterscheiden wir Spannweite, Quantile (bzw. Perzentile) Varianz und Standardabweichung. 4. Prinzip der Informationsreduzierung Folgende Überlegung: Wir haben eine Klasse von 30 Schülern. Die Frage ist, wie gut diese Klasse im Vergleich zu ihrer Parallelklasse (ebenfalls 30 Schüler) ist. Wie kann ich nun beide Klassen miteinander vergleichen? Wenn ich mir zweimal 30 Noten angucke fällt es mir schwer ein Urteil darüber zu abzugeben wie gut denn nun die eine Klasse im Vergleich zur anderen Klasse ist. Deswegen rechne ich ganz einfach den Mittelwert der Noten aus und vergleiche diese. Für den Mittelwert rechne ich einfach alle Noten zusammen und teile durch die Gesamtzahl. Dann habe ich nur noch 2 (Durchschnitts-) Noten zu vergleichen, anstatt 60. Wir wollen also grundsätzlich erst einmal Informationen reduzieren! Das Problem ist nun, dass mir eigentlich auch diese Mittelwerte nicht viel sagen. Stellen wir uns vor in beiden Klassen käme eine Durchschnittsnote von 3 raus. Sieht also aus, als wären beide Klassen identisch. Aber es kann ja sein, dass in der einen Klasse 30 Mal eine 3 geschrieben wurde und in der anderen Klasse 7 Mal eine 1, 7 Mal eine 2, 5 Mal eine 3, 4 Mal eine 4, 5 Mal eine 5 und 3 Mal eine 6. Das heißt die Daten in der zweiten Klasse streuen viel mehr um den Mittelwert herum, als bei der ersten Klasse. Deswegen braucht man immer noch ein Abweichungsmaß, um den Mittelwert einschätzen zu können 1. Am intuitivsten wäre es, wenn ich einfach nur jeden einzelnen Wert nehmen würde und ihn von dem Mittelwert abziehen würde. Das könnte ich dann mit allen Werten machen und dann durch die Gesamtzahl teilen. Dieser Wert könnte dann als Abweichungsmaß dienen: Jedes repräsentiert einen Wert (also eine Note). Es gibt insgesamt n Werte (30 pro Klasse) und ein bestimmter Wert würde mit bezeichnet (die Note von Michael wäre ). Man sagt auch: hat einen Laufindex mit maximal Ausprägungen. Das Problem bei dieser Formel ist aber, dass diese Zahl immer Null werden würde! Die einzelnen Werte die Größer als der Mittelwert sind, würden sich mit den Werten, die kleiner als der Mittelwert sind ausgleichen. Um dieses Problem zum umgehen, wird die Abweichung quadriert. Dieses quadrierte Abweichungsmaß heißt Varianz: 1 Da ich hier die gesamte Population erheben konnte (nämlich jeweils die ganze Klasse) entspricht der Mittelwert auch dem Erwartungswert Seite 2 von 22

4 Die Quadrierung hat also inhaltlich gar keinen Sinn! Es ist ein rein technischer Vorgang, damit sich unsere Werte nicht ausmitteln und Null ergeben. Die Varianz schießt durch die Quadrierung nur etwas über das Ziel hinaus, deswegen ziehen wir wieder die Wurzel aus der Varianz um ein wieder überschaubareres Abweichungsmaß zu erhalten. Dieses überschaubarere Abweichungsmaß heißt Standardabweichung: Wenn wir eine so überschaubare Population wie diese zwei Klassen haben, können wir direkt unsere Lage- bzw. Streuungsparameter anschauen und können uns einen Überblick über die Verteilung der Noten machen. Wenn ich einen Mittelwert von 3 habe und eine Varianz (bzw. Standardabweichung) von 0, weiß ich, dass dieser Mittelwert die Daten besser wiederspiegelt, als ein Mittelwert von 3 mit einer Varianz von 2,7333 bzw. einer Standardabweichung von 1,6533. Folgende Abbildungen sollen dieses Prinzip veranschaulichen. Abbildung 1: Beispiel für eine standardnormalverteilte Werte mit hoher Streuung, Normalverteilung mit großer Streuung Auch wenn die meisten Werte nahe beim Erwartungswert sind, so gibt es dennoch viele Werte die größer und kleiner als 0 sind. Der Erwartungswert als ein einzelner Wert, kann die Daten also nicht so gut widerspiegeln! Seite 3 von 22

5 Abbildung 2: Beispiel für Standardnormalverteilte Werte mit niedriger Streuung, Normalverteilung mit kleiner Streuung Die meisten Werte befinden sich knapp um den Erwartungswert 0 herum. Der Erwartungswert als ein einzelner Wert, kann die Daten also einigermaßen gut widerspiegeln! 5. Von den Stichprobenkennwerte auf die Parameter Nun ist es so, dass in diesem Beispiel die Population (die Klasse) sehr überschaubar war. Das heißt wir konnten die ganze Population erheben. Problematisch wird es dann, wenn die Population abstrakter und weiter formuliert wird, z. B. man eine Aussage über die Menschen im Allgemeinen machen möchte. Theoretisch könnte ich auch hier alle Menschen dieser Welt untersuchen und einen Mittelwert und die dazugehörige Varianz und Standardabweichung bilden. Da dies in der Regel nicht möglich ist, ziehen wir immer nur eine Stichprobe. Unsere Stichprobe ist aber keine perfekte Abbildung der Population. Die Werte in unserer Stichprobe sind nur noch eine Schätzung der Werte aus der Population. Somit sind auch die Stichprobenkennwerte (also Mittelwerte, Varianzen, SD usw.) Schätzer für die Parameter aus der Population. Das heißt die Varianz aus meiner Stichprobe ist nur noch ein Schätzer für die Varianz in der Population, die Standardabweichung aus der Stichprobe ist nur noch ein Schätzer für die Standardabweichung in der Population, der Mittelwert aus der Stichprobe ist nur noch ein Schätzer für Erwartungswert usw. Es geht in der Inferenzstatistik also nur noch darum, mittels Stichprobenkennwerte die Parameter zu schätzen, die uns ja eigentlich interessieren und die wir nur aus technischen Gründen nicht ermitteln können. Die Frage die sich nun stellt ist, wie gut eigentlich meine Stichprobe ist, dass die hier ermittelten Stichprobenkennwerte auch tatsächlich gute Schätzer für die Parameter sind? Dafür müssen wir ein Ebenenmodell einführen Ebenen der Statistik In der Statistik unterscheidet man zwischen drei Ebenen: Seite 4 von 22

6 Die höchste Ebene ist die Populationsebene. Da diese Ebene niemals erreicht wird, können nur Annahmen über die Verteilung gemacht werden. Das besondere an dieser Ebene ist, dass es sich um eine endgültige Ebene handelt. Es gibt jeweils nur einen Parameter. Das heißt es gibt nur einen Erwartungswert, nur eine Varianz und nur eine Standardabweichung usw. Population. Genau die wollen wir wissen! Die unterste Ebene ist die Stichprobenebene mit ihren Rohdaten. Die Rohdaten sind wiederum eine ZV. D. h. es hängt z. T. vom Zufall ab, welche Daten ich von welcher Versuchsperson bekomme. Diese Ebene ist die einzige, die wir auch erreichen und die Verteilung ihrer Werte direkt ablesen. Es gibt zwar pro Stichprobe nur jeweils einen Stichprobenkennwert, aber unendlich viele Stichproben (-möglichkeiten). Das heißt es gibt zwar für jede Stichprobe auch nur einen Mittelwert, aber dieser Mittelwert unterscheidet sich für jede Stichprobe. Hier steht man vor einem Problem: Es gibt nur eine Population, aber quasi unendlich viele Variationen wie diese Population durch eine Stichprobe dargestellt werden kann! Das heißt es gibt auch quasi unendlich viele Möglichkeiten die zu interessierenden Parameter zu schätzen! Hierfür wird eine zweite Ebene eingeführt. Die zweite Ebene ist die Verteilung der Stichprobenkennwerte (Stichprobenkennwerte = Statistiken). Da es Zufall ist, wie unsere Stichprobe aussieht, sind auch unsere Stichprobenkennwerte Zufallsvariablen (im Prinzip Folie 53, 66, 69)! Das ist ein fundamental wichtiger Sachverhalt. Jeder Mittelwert ist letztendlich auch nur eine Zufallsvariable, mit einer eigenen Verteilung. Denn der Wert des Mittelwerts ist abhängig von der Zusammensetzung der Stichprobe und die kommt ja zufällig zustande (=Prinzip der Zufallsstichprobe). So gibt es theoretisch so viele Mittelwerte, wie es Möglichkeiten gibt Stichproben zu ziehen (unendlich viele). Das macht den Mittelwert selbst zu einer ZV. Wenn der Mittelwert auch nur eine ZV ist, bedeutet dies, dass auch der Mittelwert eine eigene charakteristische Verteilung hat. Diese Verteilung kann wiederum selbst durch Lageparameter und Streuungsparameter beschrieben werden! Das bedeutet im Klartext, dass auch der Mittelwert einen Mittelwert, eine Varianz und eine Standardabweichung hat. Diese Aussage gilt übrigens für ALLE Stichprobenkennwerte. Das bedeutet, auch eine Varianz hat einen Mittelwert, eine Varianz und eine Standardabweichung. Eine Standardabweichung hat einen Mittelwert, eine Varianz und eine Standardabweichung. Diese zweite Ebene, also die Verteilung der Stichprobenkennwerte, ist die wichtigste Ebene. Über sie treffen wir eine Entscheidung auf der Grundlage der Stichprobenebene für die Populationsebene. Die zweite Ebene wird nicht erreicht (so wie die Stichprobenebene), aber müssen wir auch nicht blind Annahmen über sie treffen (wie bei der Populationseben), sondern kann man durch Simulationen die bestimmte Eigenschaften abschätzen. Da das schon kluge Köpfe vor uns gemacht haben, kann man nun drei fundamentale Sätze daraus ableiten: Gesetz der großen Zahlen (Folie 57): Sofern n gegen unendlich strebt, ist die Wahrscheinlichkeit dafür, dass der Betrag aus der Differenz zwischen dem Mittelwert aus der Stichprobe und dem wahren Erwartungswert einen Wert ergibt, der kleiner gleich einer beliebig kleinen Zahl c ist, 1. Die Differenz zwischen Erwartungswert und Mittelwert ist also quasi null. Die Wahrscheinlichkeit dieses Ergebnis zu finden liegt bei 100%, wenn wir eine unendlich große Stichprobe haben. Unser Stichprobenmittelwert trifft mit immer größer werdender Wahrscheinlichkeit den Erwartungswert, je größer die Stichprobe wird. Seite 5 von 22

7 Hauptsatz der Statistik (Folie 60): Mit größer werdendem n nähert sich die Verteilung meiner Werte aus der Stichprobe, der wahren Verteilung der Population an. Das bedeutet im Umkehrschluss: Wenn mit größer werdender Stichprobe deutlicher wird, dass meine vorher gemachte Annahme über die Verteilung der Populationswerte nicht zutrifft, sollte ich meine Annahme verwerfen! Zentrale Grenzwertsatz (Folie 62): Unabhängig davon wie die eigentliche ZV verteilt ist, so ist doch die Verteilung der Mittelwerte dieser ZV normalverteilt, bei hinreichend großer Stichprobe (n > 30) 2. Anders ausgedrückt: Da es quasi unendlich viele Möglichkeiten gibt aus der Population Stichproben zu ziehen, gibt es quasi unendlich viele Möglichkeiten Mittelwerte zu ziehen. Die Verteilung dieser Mittelwerte folgt einer Normalverteilung, das heißt es wird mit wachsendem Stichprobenumfang wahrscheinlicher, dass unser Mittelwert den Erwartungswert trifft (siehe Abbildung 3). Abbildung 3: Zentraler Grenzwertsatz Population: Mittelwerte aller Stichproben 2 Wenn n < 30, folgen die Mittelwerte einer annähernden NV, nämlich der t-verteilung. Seite 6 von 22

8 5.2. Standardfehler (Folie 73) Wie gesagt interessieren wir uns ja nicht für die Stichprobenkennwerte, sondern für die Parameter in der Population. Wir können auch sagen, wir interessieren uns für den jeweiligen Mittelwert für den Stichprobenkennwert. Wenn wir eine Aussage über den Erwartungswert machen wollen, interessiert uns der Mittelwert der Mittelwerte, wenn wir eine Aussage über die Varianz in der Population machen wollen, interessieren wir uns für den Mittelwert der Varianz usw. Jetzt wissen wir aber auch aus dem Klassenbeispiel von weiter oben, das ein Mittelwert erst einmal nicht viel aussagt. Wir können den Mittelwert der Varianz nehmen um die Populationsvarianz zu schätzen, aber woher weiß ich denn, dass diese mittlere Varianz gut alle theoretisch möglichen Varianzen wiederspiegelt? Wir brauchen also auch für diesen Mittelwert der Stichprobenkennwerte ein Abweichungsmaß um einschätzen zu können, wie gut dieser Mittelwert (für den interessierenden Stichprobenkennwert) alle theoretischen Stichprobenkennwerte widerspiegelt. Theoretisch könnten wir die Varianz nehmen, aber da diese bekanntlich übers Ziel hinausschießt nehmen wir hier die Standardabweichung. Die Standardabweichung des Mittelwertes wird auch Standardfehler (SE) genannt. Der SE ist ein Maß um einschätzen zu können wie gut der Mittelwert der Stichprobenkennwerte (also Mittelwert, Varianz, Standardabweichung, aber auch Regressionsparameter usw.) alle theoretisch möglichen Stichprobenkennwerte widerspiegelt. Die Formel sieht wie folgt aus 3 : Ist der SE des Mittelwertes niedrig, bedeutet dies, dass der Mittelwert des Stichprobenkennwertes gut den Mittelwert aller möglichen Mittelwerte der Stichprobenkennwerte aus den verschiedenen Stichproben repräsentiert und damit wahrscheinlich auch den Erwartungswert der Population trifft. 3 Es handelt sich bei der in der Formel auftretenden Standardabweichung übrigens um die erwartungstreue Standardabweichung klein s Seite 7 von 22

9 Inferenzstatistischer Schluss: Induktion Spieß-Vorlesung: Handbuch Abbildung 4: 3 Ebenen der Statistik zusammengefasst Population (Parameter) Erwartungswert: Varianz: Standardabweichung: Parameter über die wir nur Annahmen machen können Statistiken z. B. Mittelwert Mittelwert, der Mittelwerte: *Varianz, der Mittelwerte: Standardabweichung, der Mittelwerte: Standardfehler : Statistiken = ZV Durch Simulationen wissen wir etwas über ihre Verteilung Stichprobe (Rohdaten) Mittelwert: **Varianz: Standardabweichung: Rohdaten = ZV Die deskriptive Statistik liefert uns Informationen über die Stichprobe *erwartungstreue Stichprobenvarianz: ; **nicht erwartungstreue Stichprobenvarianz: 6. Parameterschätzung Allgemein Da wir eigentlich nie die Population erfassen können, sondern immer nur eine Stichprobe aus dieser ziehen, sind unsere Werte für unsere Parameter auch immer fehlerbehaftete Schätzungen. Je nachdem für welche Parameter wir uns interessieren, gucken wir uns andere Werte aus unserer Stichprobe an. Für jeden Parameter aus der Population, können wir mindestens einen Wert aus der Stichprobe nehmen (z. B. Mittelwert als Schätzer für den Erwartungswert). Die Frage ist nur, welche Statistik aus der Stichprobe können wir für welchen Parameter aus der Population nehmen (Folie 68-70)? Damit Statistiken als Schätzer für Parameter herhalten können, müssen sie günstige Eigenschaften besitzen. Sie müssen für ihre Parameter erwartungstreu, konsistent und effizient sein. Im Folgenden werden die Begriffe Schätzer und Schätzfunktion synonym verwendet, da sich ein Schätzer (ein konkreter Wert) aus einer Funktion ableitet. Herr Spieß spricht auch manchmal von Stichprobenfunktion (Folie 53) und meint damit dasselbe nur wird eine Stichprobenfunktion, die einen Parameter schätzen soll halt zum Schätzer. Beispiel Mittelwert: Schätzer Schätzfunktion Seite 8 von 22

10 6.1. Günstige Eigenschaften von Parameterschätzer Erwartungstreue (Folie 71+72) Eine Schätzfunktion ist erwartungstreu, wenn sie keinen Bias bzw. keine Verzerrung hat. Oder anders ausgedrückt: Erwartungstreu ist ein Stichprobenkennwert für seine Populationsentsprechung dann, wenn der Mittelwert seiner Stichprobenkennwerteverteilung genau gleich dem Parameter der Population ist. (Hager, 2007). Beispiel: Mittelwert als Schätzer für den Erwartungswert. Ist der Mittelwert für den Erwartungswert erwartungstreu, so sollte der Erwartungswert des Mittelwertes den Erwartungswert ergeben. Erwartungswert des Mittelwerts Auflösen = Die Realisation einer ZV, also ein Wert einer Person Weiter auflösen, n fällt weg Erwartungswert des Mittelwerts = Erwartungswert der Daten Somit gilt der Mittelwert (den wir aus der Stichprobe ziehen) als erwartungstreuer Schätzer für den Erwartungswert in der Population! Für die Schätzung der Populationsvarianz bieten sich die Stichprobenvarianz 4 an. Ist die Stichprobenvarianz für die Populationsvarianz erwartungstreu, so sollte der Erwartungswert der Stichprobenvarianz die Populationsvarianz ergeben. Erwartungswert der Stichprobenvarianz Bias Das heißt die Stichprobenvarianz ist nicht erwartungstreu für die Populationsvarianz, sondern hat einen Bias. Die Populationsvarianz wird systematisch unterschätzt. Berücksichtigt man jedoch diesen Bias, erhält man für die Populationsvarianz einen erwartungstreuen Schätzer: 4 ACHTUNG: Spieß bezeichnet die Stichprobenvarianz mit und die bereinigte Stichprobenvarianz mit, bei mir ist die Stichprobenvarianz ( groß S ) und die bereinigte Stichprobenvarianz ( klein s ) Seite 9 von 22

11 Dieser Schätzer wird meistens 2007): oder Inferenzvarianz genannt (Hager, Konsistenz (Folie 77) Bei größer werdender Stichprobe steigt die Wahrscheinlichkeit dafür, den wahren Parameter zu treffen. Eigentlich genau so zu interpretieren wie das Gesetz der großen Zahlen. Nur dass die Konsistenz eine Aussage über Schätzfunktionen macht und das Gesetzt der großen Zahlen eine Aussage über den Mittelwert von Stichprobenkennwerte trifft. Konsistenz bedeutet, dass mit wachsendem, die Abweichung meiner Schätzfunktion sinkt. Die Konsistenz macht also eine Aussage über die Abweichung, bzw. über Standardfehler von Schätzern. Effizienz (Folie 74-76) Die Effizienz von Schätzern wird in Relationen zu anderen Schätzern betrachtet. Das heißt, je geringer die Varianz (und damit sein SE) eines Schätzers ist, desto effizienter ist er auch! Der Schätzer mit der kleinsten Varianz (mit dem kleinsten SE) wird dann als effizient oder wirksamst bezeichnet. Z. B. können für eine normalverteilte Zufallsvariable Modalwert, Median und Mittelwert gleichermaßen als Schätzer für den Erwartungswert dienen, denn in einer normalverteilten ZV haben alle denselben Wert. Dennoch ist der Mittelwert der effizienteste Schätzer, da sein SE geringer ist als der SE des Median. Der SE des Median ist wiederum geringer als der SE des Modus: Das liegt daran, dass der Modus gar kaum Informationen, über die restlichen Daten liefert, der Median schon etwas und der Mittelwert am meisten Information liefert. Am wichtigsten ist, dass die Effizienz eine Aussage über die Abweichung des Schätzers macht. Das ist wichtig für später! 6.2. Parameterschätzung Regression Es ist möglich mehr als nur Lage- und Streuungsparameter zu schätzen. Z. B. die Parameter von Regressionsmodelle. Je nachdem welches Skalenniveau das Kriterium und Prädiktor haben und wie viele Ausprägungen im Prädiktor und Kriterium möglich sind und wie viele verschiedene Prädiktoren und Kriterien es überhaupt gibt, nennt man die Regressionsmodelle anders und werden ihre Parameter anders geschätzt (siehe Anhang C). Aber alle Regressionsmodelle beschreiben die Zusammenhänge zwischen (mind.) 2 Variablen. Nämlich zwischen dem Prädiktor und dem Kriterium. Für die Bezeichnungen von Prädiktor und Kriterium gibt es verschiedene Namen (siehe Anhang B). Dabei gibt es zwei Fragen zu beantworten (Bühner & Ziegler, 2009): 1) Wie hoch ist der Zusammenhang zwischen den Variablen? Korrespondiert die Ausprägung des Prädiktors mit der Ausprägung des Kriteriums? Seite 10 von 22

12 2) Inwieweit kann die (konkrete) Ausprägung des Kriteriums, auf die Ausprägung des Prädiktors zurück geführt werden? Dass beide Fragen ähnlich klingen liegt daran, dass die eine Frage nicht ohne die andere zu beantworten ist, trotzdem sind es verschiedene Dinge! Die erste Frage kann mit Hilfe der Korrelation beantwortet werden, die zweite Frage ist die konkrete Parameterschätzung des Modells Zusammenhange zwischen zwei Variablen Korrelation (Folie 45-47) Bei der Korrelation handelt es sich um ein Maß für den Zusammenhang zwischen zwei Zufallsvariablen. Wenn zwei ZVs miteinander im Zusammenhang stehen, würde das bedeuten dass sich die eine Variable in einem gewissen Maße genau so verändert, wie sich die andere Variable verändert. Man betrachtet also die Abweichung der einen Variablen zusammen mit der Abweichung der anderen Variablen. Als Abweichungsmaß bietet sich die Varianz an. Betrachtet man die Abweichung zweier Variablen handelt es sich um die Kovarianz, die sich genau so bildet, wie die Varianz einer ZV: Varianz einer ZV X: Varianz zweier ZVs X & Y: Das Problem an der Kovarianz ist ihre Maßstabsabhängigkeit. Je nachdem welchen Maßstab ich für die Einheiten von X und Y gewählt habe, fällt der Wert für die Cov entsprechend aus. Wenn die Cov von X und Y jedoch durch die Standardabweichungen von X und Y geteilt wird, nimmt die Cov lediglich Werte zwischen -1 und 1 an. Diese standardisierte Cov wird Produkt-Moment-Korrelation genannt : Wenn zwei ZVs unabhängige voneinander sind, dann korrelieren sie auch nicht miteinander. Aber nur weil zwei ZVs nicht miteinander korrelieren, heißt das nicht, dass sie nicht abhängig voneinander sein können! Das liegt daran, dass Korrelationen nur lineare Zusammenhänge widerspiegeln können. Abbildung 5: Abhängigkeit zweier Variablen Y Zwar besteht zwischen Y und X keine lineare Abhängigkeit (Korrelation = 0), aber trotzdem sind sie offensichtlich nicht unabhängig voneinander X Eine Korrelation - ist die standardisierte Kovarianz für zwei Variablen - ist nur ein Maß, für den Zusammenhang zwischen zwei Variablen - besteht immer nur zwischen zwei Variablen - misst immer nur den linearen Zusammenhang zwischen zwei Variablen Seite 11 von 22

13 Parameterschätzung Methoden Bei der Parameterschätzung geht es darum die konkrete Ausprägung der einen Variablen auf eine andere Variable zu schätzen. Damit können alle Regressionsmodelle 3 fundamentale Fragen beantworten (Folie 79): - Ist der Einfluss groß genug um ihm eine Bedeutung beizumessen? Schätzproblem - Wie hängen die Variablen miteinander zusammen? Wenn sich Variable 1 um z Einheiten verändert, wie hoch wird sich Variable 2 dann verändern? Prognoseproblem - Wie gut ist mein Modell? Wie sehr kann ich dessen Prognosekraft vertrauen, bzw. ist die Güte zu Modells zu beurteilen? Beurteilungsproblem Das einfachste Regressionsmodell ist das Modell der linearen Einfachregressions : (manchmal auch ) Eine typische Fragestellung dieses Modells könnte lauten (Folie 80): Ist meine Therapie besser, je mehr Geld ich dafür ausgebe? Wenn ich die Fragestellung so formuliere wäre mein Kriterium der Therapieerfolg, den ich auf die Höhe der Kosten (=Prädiktor) zurückführe. Dann sähe das Modell wie folgt aus: Gesucht sind also, und. Für die Fehler müssen bestimmte Annahmen vorliegen. Diese werden an späterer Stelle besprochen. und müssen geschätzt werden. Das können wir z. B. mit der Methode der kleinsten Quadrate tun (KQ-Schätzer oder OLS-Schätzer). Wie funktioniert der OLS? Die lineare Einfachregression beschreibt das Aussehen einer Gerade in einem Koordinatensystem. Diese Gerade hat einen Startpunkt (Y-Achsenabschnitt, also ) und eine Steigung von dem Y- Achsenabschnitt ( ). Die Frage ist nun, welche Gerade kann in die Datenwolke gelegt werden, die noch am besten alle Punkte trifft. Oder anders ausgedrückt: Welche Gerade besitzt die kleinste Abweichung. Für Abweichung kann ich auch Varianz sagen. Also: Welche Gerade hat die kleinste Varianz? Das ist mit kleinste Quadrate bei der KQ gemeint. Dabei wird zuerst die erste Ableitung gebildet und 0 gesetzt, um den Tiefpunkt der Funktion zu finden (Tiefpunkt, weil die Fehler ja so niedrig wie möglich sein sollen). Herr Spieß hat zwar die KQ-Schätzung von Hand vorgenommen, dies müsst ihr aber nicht machen!!! Seite 12 von 22

14 SPSS-Output 1: Parameterschätzung (Folie 90) Coefficients a Unstandardized Coefficients Standardized Coefficients Model B Std. Error Beta t Sig. 1 (Constant) 1,550,468 3,314,008 Kosten_1000EUR,150,042,750 3,586,005 a. Dependent Variable: Therapieerfolg Abbildung 6: Therapieerfolg bezogen auf Kosten (Folie 82, aber mit anderem Maßstab!) Das heißt, wenn die Kosten um eine Einheit steigen (1 Einheit = 1000EUR), steigt der Therapieerfolg um 0,15. Etwas allgemeiner ausgedrückt: Die Kosten haben eine positiven Einfluss auf den Therapieerfolg. Jetzt könnte man sich auch fragen, wie hoch sind die Therapieerfolge der Personen und, die 19000EUR, bzw EUR investiert haben (Folie 81)? Seite 13 von 22

15 Wir kennen die konkrete Ausprägung der Variablen, aber um einschätzen zu können wie hoch der Zusammenhang ist, brauchen wir die Korrelation. SPSS-Output 2: Modellgüte Model Summary Model R R Square Adjusted R Square Std. Error of the Estimate 1,750 a,562,519,2898 a. Predictors: (Constant), Kosten_1000EUR Mann kann die Korrelation auch selbst ausrechnen, denn sie steckt in der Formel für den Steigungskoeffizienten (Folie 87): Aufgelöst nach ergibt. Außerdem gilt bei der linearen Einfachregression, dass der standardisierte Steigungskoeffizient gleich dem Korrelationskoeffizienten ist (siehe SPSS-Output 1). Der quadrierte Korrelationseffizient ergibt die aufgeklärte Varianz. Also wie viel der beobachten Streuung durch den Prädiktor erklärt werden kann. Diesen Wert nennt man dann auch Determinationskoeffizienten oder (echtes) Bestimmtheitsmaß und gibt Aufschluss über die Güte eines Modells: In unserem Modell beträgt. Das bedeutet, die Schwankung die im Therapieerfolg vorkommen, liegen zu 56% an den Kosten, die investiert wurden. Je höher der Determinationskoeffizient ist, desto mehr wissen wir über die Schwankungen im Kriterium und desto besser ist unser Modell, denn unser Prädiktor kann diese Schwankungen gut erklären. Würde der Determinationskoeffizient niedrig sein würde das bedeutet, dass die Streuung in unserem Kriterium überwiegend nicht durch unseren Prädiktor zurückzuführen ist, sondern durch andere Variablen. Da wir diese Variablen aber nicht ins Modell mit aufgenommen haben, erscheinen sie als Fehler (=Residuen) in unserem Modell. Zum Schätzproblem Um die Bedeutung des Zusammenhanges beurteilen zu können, brauchen wir Effektstärken. Als Effektstärke kann der Steigungsparameter selbst dienen. Da nicht maßstabsunabhängig ist, wird oft das standardisierte oder der Korrelationskoeffizient angegeben. Zum Prognoseproblem Regressionsmodelle geben an, wie stark sich das Kriterium ändert, wenn sich der Prädiktor um z Einheiten verändert. Das ermöglicht die Prognose für Kriteriumswerte, die in unserer Stichprobe gar nicht vorkamen! Wird ein Kriteriumswert geschätzt, der so nicht in unserer Stichprobe vorkam, ist Seite 14 von 22

16 dies ein prognostischer Kriteriumswert. Dies ist aber erst möglich, wenn auch alle Regressionskoeffizienten (also alle ) für alle Prädiktoren geschätzt wurden. Zum Beurteilungsproblem Die Güte eines (Regressions-) Modells kann durch den Determinationskoeffizienten werden. Determinationskoeffizienten geben die aufgeklärte Varianz an. angegeben Unterschied zwischen Korrelation und Regression Die Korrelation beschreibt einen standardisierten, linearen Zusammenhang zwischen zwei Variablen. Dadurch, dass dieser Zusammenhang standardisiert ist, ist er vergleichbar mit anderen Ergebnissen. Das bringt aber auch das Problem mit sich, dass ich gar nicht weiß, was das für konkrete Auswirkungen auf meine konkrete Fragestellung hat. Deswegen brauche ich auch noch die Regression. Andersherum kann ich bei der Regression nur Aussagen über meine konkrete Fragestellung machen, aber die Werte nicht über meinen Versuch hinaus vergleichen! Beispiel: Ich möchte den Zusammenhang zwischen der Menge Lesen und IQ untersuchen. Ich stelle ein einfaches, lineares Modell auf: (Zeit in Minuten) Meine Parameterschätzung ergibt folgendes Ergebnis: Konkret für meine Fragestellung würde das bedeuten, dass der IQ um steigt, für jede mehr investierte Minute ins Lesen. Das ist eine konkrete Aussage, für meine konkrete Fragestellung. Aber habe ich noch keinen Hinweis darauf, ob eigentlich viel oder wenig sind. Dafür brauche ich meinen standardisierten Zusammenhang. Meine Korrelation liegt bei. Diese Korrelation kann ich nun auch mit denen aus anderen Forschungsergebnissen vergleichen und einschätzen, ob das eigentlich ein großer oder kleiner Zusammenhang ist. 7. Parameterschätzung & Inferenzstatistik (Folie 84) Eigentlich interessieren uns die Regressionsparameter, die uns die KQ-Schätzung ausgeben nicht sonderlich. Denn sie sind ja nur für unsere Stichprobe gültig. Wir interessieren uns für die Population! Wir wissen ja aber auch, dass es unendlich viele Möglichkeiten für die Zusammensetzung von Stichproben gibt und damit auch unendlich viele mögliche Regressionskoeffizienten, die als Schätzer für den wahren Regressionsparameter in der Population herhalten. Das heißt auch die Regressionsschätzer haben eine eigene Verteilung und damit auch wieder einen Erwartungswert und eine Varianz und SD. Diese gilt es zu finden. Nun gibt es theoretisch verschiedene Möglichkeiten, die eintreten können: In der Population gibt es einen Effekt und dieser wird auch in der Stichprobe gefunden oder es gibt keinen Effekt in der Population und er wird auch nicht in der Stichprobe gefunden. In beiden Fällen ist die Stichprobe ein guter Schätzer für die Population und das bedeutet: und. Es kann aber auch sein, Seite 15 von 22

17 dass in der Population einen Effekt gibt aber in der Stichprobe nicht oder es gibt einen Effekt in der Stichprobe aber nicht in der Population. Die Stichprobe wäre hier ein schlechter Schätzer für die Population, d. h.: und. Es stellt sich also die Frage, ob es den Effekt, den ich evtl. in meiner Stichprobe gefunden habe, auch tatsächlich in der Population gibt. Um diesen Sachverhalt zu überprüfen stellen wir Hypothesen auf: Die Nullhypothese geht erst einmal davon aus, dass es in der Population keinen Effekt gibt, die Alternativhypothese ist immer als Gegenteil von der Nullhypothese formuliert, also dass es einen Effekt gibt, in der Population. Jetzt stellt sich die Frage, wie wir diese Hypothesen testen können. Wir wissen ja, dass unsere geschätzten Regressionsparameter letztendlich auch eine Verteilung besitzen. Und damit besitzen sie auch einen Erwartungswert. Wir könnten also die Erwartungswerte der und der miteinander vergleichen! Wir wissen wie der Erwartungswert der aussehen muss: Die geht davon aus, dass es keinen Effekt in der Population gibt. Konkret würde das bedeutet, dass die davon ausgeht, dass der Erwartungswert von bspw. Null ist. Wenn Regressionsgleichung (Folie 102): würde das nämlich bedeutet, dass der Prädiktor wegfallen würde aus der Der Erwartungswert der muss auf jeden Fall von Null verschieden sein. Deswegen nimmt man als Erwartungswert der einfach den tatsächlich errechneten Wert des Regressionskoeffizienten:. Jetzt könnten wir schon beide Erwartungswerte miteinander vergleichen, aber wissen wir noch nichts über das Abweichungsmaß, deswegen wird noch durch die Standardabweichung von dem Regressionskoeffizienten geteilt. So bekommen wir die Formel für einen t-wert (Folie ): Jetzt kann man sich anschauen wie wahrscheinlich es ist, dieses Wert zu bekommen, unter der Bedingung, dass der Erwartungswert des Regressionskoeffizienten Null ist. T-Werte verteilen sich annähernd normal. Wenn der Erwartungswert 0 ist, kann man sich das folgendermaßen vorstellen. Abbildung 7: Verteilung von t-werten, wenn die gilt Seite 16 von 22

18 Man sieht der Erwartungswert ist 0. Jetzt stelle man sich vor, man hat für einen Regressionskoeffizienten für den Prädiktor einen t-wert von 0,5 gefunden: Abbildung 8: Verteilung von t-werten, wenn die gilt, mit eingetragenem t-wert Alles was rechts von diesem t-wert ist, ist die Wahrscheinlichkeit dafür einen größeren Wert, als 0,5 für den t-wert zu bekommen, unter der Bedingung, dass der Erwartungswert des t-werts bei 0 liegt: Diese Wahrscheinlichkeit liegt bei 31%. Man sieht schon, dass der errechnete (empirische) t-wert nahe dem Erwartungswert liegt. Nehmen wir an, wir hätten einen t-wert von 3,314 bekommen: Abbildung 9: Verteilung von t-werten, wenn die gilt, mit eingetragenem t-wert Seite 17 von 22

19 Die Wahrscheinlichkeit dafür einen größeren Wert als 3,314 für den t-wert zu bekommen, wenn der Erwartungswert für den t-wert 0 ist, liegt bei <0,001 %. Das ist also schon seeeehr unwahrscheinlich. Das ist schon so unwahrscheinlich, dass man annehmen könnte, dass dieser t-wert gar nicht zu der Verteilung der gehört. Der Erwartungswert also gar nicht 0 ist, sondern ein anderer! Es stellt sich nun die Frage, ab wann wir sagen, dass es so unwahrscheinlich ist, dass der gefundene t-wert noch zu einer Verteilung gehört, dessen Erwartungswert 0 ist, dass man sagen kann, dass er eher doch nicht zu dieser Verteilung gehört. Diese Grenze für die Wahrscheinlichkeit nennt man Signifikanzniveau. In den meisten Fällen sagen wir, dass 5% eine gute Grenze darstellt. Das heißt, hier riskiere ich einen Fehler 1. Art (Alpha-Fehler): Ich behaupte der t-wert gehört gar nicht mehr zu der Verteilung, in der der Erwartungswert 0 ist, sondern zu einer anderen Verteilung mit einem anderen Erwartungswert. In Wirklichkeit gehört dieser t-wert aber sehr wohl zu der Verteilung mit dem Erwartungswert 0, es ist nur halt sehr unwahrscheinlich gewesen. Oder kurz gesagt: Ich nehme die an, obwohl die gilt. Abbildung 10: Signifikanzniveau Der t-wert, der für genau die Stelle gefunden wird, an dem die Wahrscheinlichkeit 0,05 beträgt, wenn der Erwartungswert 0 ist, wird genannt. Wird ein t-wert gefunden, der größer als dieser kritische Wert ist, wird die abgelehnt und die angenommen. Mann kann auch die genaue Wahrscheinlichkeit berechnen, die angibt wie wahrscheinlich es ist, einen noch extremeren Wert, als den gefundenen t-wert zu bekommen, unter der Bedingung, dass der Erwartungswert 0 ist. Diese Wahrscheinlichkeit wird allgemein p-wert genannt. Ist der p-wert kleiner als mein Signifikanzniveau (also Alpha), dann wird die abgelehnt und die angenommen. Seite 18 von 22

20 Abbildung 11: Beispiel für einen t-wert mit p-wert Einen p-wert kann man nicht nur bei t-tests berechnen, sondern bei allen Signifikanztest. Formal korrekt bedeutet der p-wert: Unter der Bedingung, dass die gilt, ist die Wahrscheinlichkeit dafür, einen solchen oder noch extremeren Wert für die empirische Prüfgröße zu bekommen, gleich [p-wert]. Kann die angenommen werden, kann man den Parameter, den man mit dem Signifikanztest getestet hat, als signifikant bezeichnen. Allerdings sieht die Verteilung je nach Stichprobengröße verschieden aus, genauer gesagt wird sie schmaler, je mehr Daten es gibt. Deswegen werden bei den Prüfgrößen (also t-werte, F-Werte etc.) auch immer noch die Freiheitsgerade angegeben, die sich wiederum aus der Stichprobengröße bilden. Es gibt mindestens so viele Regressionskoeffizienten, wie es Prädiktoren in meinem Modell gibt und ich will natürlich wissen, ob jeder von ihnen einen signifikanten Einfluss auf das Kriterium hat oder nicht, deswegen werden alle Regressionskoeffizienten inferenzstatistisch abgesichert und ein t-wert mit entsprechendem p-wert errechnet: vs. vs. vs Beispiel für inferenzstatistisch abgesicherte Parameter Nehmen wir als Beispiel wieder den Einfluss Kosten auf Therapieerfolg. Seite 19 von 22

21 Für jeden meiner Regressionskoeffizienten, bilde ich (gedanklich) folgende Hypothesen: vs. vs. SPSS-Output 3: Parameterschätzer werden auf Signifikanz überprüft Coefficients a Unstandardized Coefficients Standardized Coefficients Model B Std. Error Beta t Sig. 1 (Constant) 1,550,468 3,314,008 Kosten_1000EUR,150,042,750 3,586,005 a. Dependent Variable: Therapieerfolg Der t-test für die Konstante ergibt ein signifikantes Ergebnis: p =.008, also p ist kleiner als mein Signifikanzniveau von Es ist sehr unwahrscheinlich, dass der Erwartungswert für die Konstante 0 beträgt. Damit Verwerfe ich die und nehme die an. Der t-test für Steigungskoeffizienten ergibt ebenfalls ein signifikantes Ergebnis: p =.005, also p ist kleiner als mein Signifikanzniveau von Es ist sehr unwahrscheinlich, dass der Erwartungswert für den Steigungskoeffizienten 0 beträgt. Damit Verwerfe ich die und nehme die an. Ich gehe also davon aus, dass mein Prädiktor tatsächlich einen Einfluss auf mein Kriterium hat und dass es sehr unwahrscheinlich ist, dass der gefundene Wert nur durch Zufall entstanden ist und in Wahrheit eigentlich 0 beträgt. Achtung: Auch wenn die statistische Interpretation von der Konstanten genau so vorgenommen wird, wie die Interpretation der Steigungskoeffizienten, haben sie inhaltlich eine andere Bedeutung! In der Regel sind vor allem die Steigungskoeffizienten interessant, weil sie angeben, ob der dazugehörige Prädiktor auch tatsächlich einen Einfluss auf das Kriterium hat oder nicht. Seite 20 von 22

22 Anhang A: Begriffserklärung Population Wahrer Wert Stichprobe Schätzer mit günstigen Eigenschaften Kennwerte Parameter Erwartungswert: Statistiken Mittelwert: Populationsvarianz: Korrelation: Korrelation: bereinigte Stichprobenvarianz: (eigentlich nicht erwartungstreu, es gibt nur nichts Besseres) Regressionskoeffizienten: bis Schätzer, der Regressionskoeffizienten: bis B: Prädiktor / Kriteriumsbezeichnung x Unabhängige Variable Ursache Stimulus Erklärende Variable Exogene Variable Prädiktor Konstrukt Faktor Regressor y bzw. f(x) Abhängige Variable Wirkung Response Erklärte Variable Endogene Variable Zielvariable interessierende Variable Kriterium Outcome Regressand Seite 21 von 22

23 C: Regressionsmodelle Eigenschaften 1 Kriterium (kontinuierliche) 1 Prädiktor (kontinuierlich) 1 Kriterium (kontinuierlich ausgeprägt) Mehr als 1 Prädiktor (kontinuierlich) 1 Kriterium (dichotom) Ggf. mehr als 1 Prädiktor (kontinuierlich) 1 Kriterium (kontinuierlich) 1 Prädiktor (diskontinuierlich) 1 Kriterium (kontinuierlich) Mehr als 1 Prädiktor (diskontinuierlich) 1 Kriterium (kontinuierlich) Mehr als 1 Prädiktor, mind. 1 davon kontinuierlich Mehr als 1 Kriterium Ggf. mehr als 1 Prädiktor Name Lineare Einfach Regression Multiple Regression Logistische Regression (= Logit-Modelle ) Einfaktorielle Varianzanalyse ( ANOVA ) Mehrfaktorielle Varianzanalyse ( ANOVA ) Kovarianzanalyse ( ANCOVA ) Multivariate Verfahren ( MANOVA ) Seite 22 von 22

ÜBUNGSAUFGABEN ZU INFERENZSTATISTIK II

ÜBUNGSAUFGABEN ZU INFERENZSTATISTIK II ÜBUNGSAUFGABEN ZU INFERENZSTATISTIK II 1.1 Durch welche Elemente lässt sich laut der Formel für die multiple Regression der Wert einer Person auf einer bestimmten abhängigen Variable Y vorhersagen? a)

Mehr

TEIL 13: DIE EINFACHE LINEARE REGRESSION

TEIL 13: DIE EINFACHE LINEARE REGRESSION TEIL 13: DIE EINFACHE LINEARE REGRESSION Die einfache lineare Regression Grundlagen Die einfache lineare Regression ist ebenfalls den bivariaten Verfahren für metrische Daten zuzuordnen 1 Sie hat einen

Mehr

Methodenlehre. Vorlesung 12. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Methodenlehre. Vorlesung 12. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg Methodenlehre Vorlesung 12 Prof. Dr., Cognitive Biopsychology and Methods University of Fribourg 1 Methodenlehre II Woche Datum Thema 1 FQ Einführung, Verteilung der Termine 1 18.2.15 Psychologie als Wissenschaft

Mehr

Statistik für SozialwissenschaftlerInnen II p.85

Statistik für SozialwissenschaftlerInnen II p.85 Schätzverfahren Statistik für SozialwissenschaftlerInnen II p.85 Schätzverfahren Ziel von Schätzverfahren: Ausgehend von Stichproben Aussagen über Populationskennwerte machen Kenntnis der Abweichung des

Mehr

Multivariate lineare Regression. Statistik für SozialwissenschaftlerInnen II p.167

Multivariate lineare Regression. Statistik für SozialwissenschaftlerInnen II p.167 Multivariate lineare Regression Statistik für SozialwissenschaftlerInnen II p.167 Multivariate Regression Verfahren zur Prüfung des gemeinsamen linearen Einflusses mehrerer unabhängiger Variablen auf eine

Mehr

Methodik der multiplen linearen Regression

Methodik der multiplen linearen Regression Methodik der multiplen linearen Regression Sibel Aydemir Statistisches Amt, Direktorium Landeshauptstadt München Name, Stadt Regressionsanalyse: Schritt für Schritt Schritt 1 Schritt 2 Schritt 3 Schritt

Mehr

Hypothesentests mit SPSS. Beispiel für eine einfaktorielle Varianzanalyse Daten: museum_m_v05.sav

Hypothesentests mit SPSS. Beispiel für eine einfaktorielle Varianzanalyse Daten: museum_m_v05.sav Beispiel für eine einfaktorielle Varianzanalyse Daten: museum_m_v05.sav Hypothese: Die Beschäftigung mit Kunst ist vom Bildungsgrad abhängig. 1. Annahmen Messniveau: Modell: Die Skala zur Erfassung der

Mehr

Konfidenzintervall für den Anteilswert θ. Konfidenzintervalle. Jost Reinecke. Universität Bielefeld. 13. Juni 2005

Konfidenzintervall für den Anteilswert θ. Konfidenzintervalle. Jost Reinecke. Universität Bielefeld. 13. Juni 2005 Universität Bielefeld 13. Juni 2005 Einführung Einführung Wie kann die Kenntnis der Wahrscheinlichkeitsverteilung der Parameter einer Stichprobe dazu verhelfen auf die wahren Werte der Grundgesamtheit

Mehr

1.3 Das Testen von Hypothesen am Beispiel des Einstichproben t-tests

1.3 Das Testen von Hypothesen am Beispiel des Einstichproben t-tests 1.3 Das Testen von Hypothesen am Beispiel des Einstichproben t-tests Statistische Tests dienen dem Testen von Vermutungen, so genannten Hypothesen, über Eigenschaften der Gesamtheit aller Daten ( Grundgesamtheit

Mehr

Bivariate lineare Regression. Statistik für SozialwissenschaftlerInnen II p.154

Bivariate lineare Regression. Statistik für SozialwissenschaftlerInnen II p.154 Bivariate lineare Regression Statistik für SozialwissenschaftlerInnen II p.154 Grundidee und Typen der Regression Die Regressionsanalyse dient zur Quantifizierung des Zusammenhangs und der statistisch

Mehr

Lösung Aufgabe 1 (Regression) Es wurden in einer Befragung zwei metrische Merkmale X und Y erhoben. Betrachten Sie dazu die

Lösung Aufgabe 1 (Regression) Es wurden in einer Befragung zwei metrische Merkmale X und Y erhoben. Betrachten Sie dazu die Statistik für Kommunikationswissenschaftler Wintersemester 2010/2011 Vorlesung Prof. Dr. Nicole Krämer Übung Nicole Krämer, Cornelia Oberhauser, Monia Mahling Lösung Thema 9 Homepage zur Veranstaltung:

Mehr

TEIL 13: DIE LINEARE REGRESSION

TEIL 13: DIE LINEARE REGRESSION TEIL 13: DIE LINEARE REGRESSION Dozent: Dawid Bekalarczyk GLIEDERUNG Dozent: Dawid Bekalarczyk Lineare Regression Grundlagen Prognosen / Schätzungen Verbindung zwischen Prognose und Zusammenhang zwischen

Mehr

Methodenlehre. Vorlesung 10. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Methodenlehre. Vorlesung 10. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg Methodenlehre Vorlesung 10 Prof. Dr., Cognitive Biopsychology and Methods University of Fribourg 1 Methodenlehre I Woche Datum Thema 1 FQ Einführung, Verteilung der Termine 1 25.9.13 Psychologie als Wissenschaft

Mehr

Methodenlehre. Vorlesung 11. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Methodenlehre. Vorlesung 11. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg Methodenlehre Vorlesung 11 Prof. Dr., Cognitive Biopsychology and Methods University of Fribourg 1 03.12.13 Methodenlehre I Woche Datum Thema 1 FQ Einführung, Verteilung der Termine 1 25.9.13 Psychologie

Mehr

Die Korrelation von Merkmalen

Die Korrelation von Merkmalen Die Korrelation von Merkmalen In der Analse von Datenmaterial ist eines der Hauptziele der Statistik eine Abhängigkeit bzw. einen Zusammenhang zwischen Merkmalen zu erkennen. Die Korrelation ermittelt

Mehr

Inferenzstatistik (=schließende Statistik)

Inferenzstatistik (=schließende Statistik) Inferenzstatistik (=schließende Statistik) Grundproblem der Inferenzstatistik: Wie kann man von einer Stichprobe einen gültigen Schluß auf di Grundgesamtheit ziehen Bzw.: Wie groß sind die Fehler, die

Mehr

T-Test für unabhängige Stichproben

T-Test für unabhängige Stichproben T-Test für unabhängige Stichproben Wir gehen von folgendem Beispiel aus: Wir erheben zwei Zufallstichproben, wobei nur die Probanden der einen Stichprobe einer speziellen experimentellen Behandlung (etwa

Mehr

Statistik II Übung 4: Skalierung und asymptotische Eigenschaften

Statistik II Übung 4: Skalierung und asymptotische Eigenschaften Statistik II Übung 4: Skalierung und asymptotische Eigenschaften Diese Übung beschäftigt sich mit der Skalierung von Variablen in Regressionsanalysen und mit asymptotischen Eigenschaften von OLS. Verwenden

Mehr

Gegeben sei folgende zweidimensionale Wahrscheinlichkeitsdichtefunktion zweier Zufallsvariablen. 0 sonst.

Gegeben sei folgende zweidimensionale Wahrscheinlichkeitsdichtefunktion zweier Zufallsvariablen. 0 sonst. Aufgabe 1 (2 + 4 + 2 + 1 Punkte) Gegeben sei folgende zweidimensionale Wahrscheinlichkeitsdichtefunktion zweier Zufallsvariablen X und Y : { 2x + 2y für 0.5 x 0.5, 1 y 2 f(x, y) = 3 0 sonst. a) Berechnen

Mehr

Probeklausur zur Vorlesung Statistik II für Studierende der Soziologie und Nebenfachstudierende

Probeklausur zur Vorlesung Statistik II für Studierende der Soziologie und Nebenfachstudierende Probeklausur zur Vorlesung Statistik II für Studierende der Soziologie und Nebenfachstudierende im Sommersemester 2012 Prof. Dr. H. Küchenhoff, J. Brandt, G. Schollmeyer, G. Walter Aufgabe 1 Betrachten

Mehr

Statistik II. IV. Hypothesentests. Martin Huber

Statistik II. IV. Hypothesentests. Martin Huber Statistik II IV. Hypothesentests Martin Huber 1 / 41 Übersicht Struktur eines Hypothesentests Stichprobenverteilung t-test: Einzelner-Parameter-Test F-Test: Multiple lineare Restriktionen 2 / 41 Struktur

Mehr

Kapitel 5: Einfaktorielle Varianzanalyse

Kapitel 5: Einfaktorielle Varianzanalyse Kapitel 5: Einfaktorielle Varianzanalyse Durchführung einer einfaktoriellen Varianzanalyse ohne Messwiederholung 1 Berechnung der Effektstärke und der beobachteten Teststärke einer einfaktoriellen Varianzanalyse

Mehr

Kenngrößen von Zufallsvariablen

Kenngrößen von Zufallsvariablen Kenngrößen von Zufallsvariablen Die Wahrscheinlichkeitsverteilung kann durch die sogenannten Kenngrößen beschrieben werden, sie charakterisieren sozusagen die Verteilung. Der Erwartungswert Der Erwartungswert

Mehr

Signifikanztests zur Prüfung von Unterschieden in der zentralen Tendenz -Teil 1-

Signifikanztests zur Prüfung von Unterschieden in der zentralen Tendenz -Teil 1- SPSSinteraktiv Signifikanztests (Teil ) - - Signifikanztests zur Prüfung von Unterschieden in der zentralen Tendenz -Teil - t-test bei einer Stichprobe - SPSS-Output Der t-test bei einer Stichprobe wird

Mehr

Grundlagen sportwissenschaftlicher Forschung Deskriptive Statistik 2 Inferenzstatistik 1

Grundlagen sportwissenschaftlicher Forschung Deskriptive Statistik 2 Inferenzstatistik 1 Grundlagen sportwissenschaftlicher Forschung Deskriptive Statistik 2 Inferenzstatistik 1 Dr. Jan-Peter Brückner jpbrueckner@email.uni-kiel.de R.216 Tel. 880 4717 Rückblick: Besonders wichtige Themen Wissenschaftstheoretischer

Mehr

Thema der Stunde. I. Die Form der Stichprobenkennwerteverteilung. II. Schlüsse von der Stichprobe auf die Population

Thema der Stunde. I. Die Form der Stichprobenkennwerteverteilung. II. Schlüsse von der Stichprobe auf die Population Thema der Stunde I. Die Form der Stichprobenkennwerteverteilung II. Schlüsse von der Stichprobe auf die Population III. t-test für unabhängige und abhängige Stichproben Stichprobenkennwerte Population

Mehr

VS PLUS

VS PLUS VS PLUS Zusatzinformationen zu Medien des VS Verlags Statistik II Inferenzstatistik 2010 Übungsaufgaben und Lösungen Inferenzstatistik 2 [Übungsaufgaben und Lösungenn - Inferenzstatistik 2] ÜBUNGSAUFGABEN

Mehr

Konkretes Durchführen einer Inferenzstatistik

Konkretes Durchführen einer Inferenzstatistik Konkretes Durchführen einer Inferenzstatistik Die Frage ist, welche inferenzstatistischen Schlüsse bei einer kontinuierlichen Variablen - Beispiel: Reaktionszeit gemessen in ms - von der Stichprobe auf

Mehr

4.1. Verteilungsannahmen des Fehlers. 4. Statistik im multiplen Regressionsmodell Verteilungsannahmen des Fehlers

4.1. Verteilungsannahmen des Fehlers. 4. Statistik im multiplen Regressionsmodell Verteilungsannahmen des Fehlers 4. Statistik im multiplen Regressionsmodell In diesem Kapitel wird im Abschnitt 4.1 zusätzlich zu den schon bekannten Standardannahmen noch die Annahme von normalverteilten Residuen hinzugefügt. Auf Basis

Mehr

Biometrische Planung von Versuchsvorhaben

Biometrische Planung von Versuchsvorhaben Biometrische Planung von Versuchsvorhaben Einführung in das Prinzip der Lehrstuhl für Mathematik VIII Statistik http://statistik.mathematik.uni-wuerzburg.de/~hain Ziel des Vortrags Im nachfolgenden Vortrag

Mehr

Trim Size: 176mm x 240mm Lipow ftoc.tex V1 - March 9, :34 P.M. Page 11. Über die Übersetzerin 9. Einleitung 19

Trim Size: 176mm x 240mm Lipow ftoc.tex V1 - March 9, :34 P.M. Page 11. Über die Übersetzerin 9. Einleitung 19 Trim Size: 176mm x 240mm Lipow ftoc.tex V1 - March 9, 2016 6:34 P.M. Page 11 Inhaltsverzeichnis Über die Übersetzerin 9 Einleitung 19 Was Sie hier finden werden 19 Wie dieses Arbeitsbuch aufgebaut ist

Mehr

Willkommen zur Vorlesung Statistik

Willkommen zur Vorlesung Statistik Willkommen zur Vorlesung Statistik Thema dieser Vorlesung: Das lineare Regressionsmodell Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften

Mehr

Statistische Tests (Signifikanztests)

Statistische Tests (Signifikanztests) Statistische Tests (Signifikanztests) [testing statistical hypothesis] Prüfen und Bewerten von Hypothesen (Annahmen, Vermutungen) über die Verteilungen von Merkmalen in einer Grundgesamtheit (Population)

Mehr

Regression ein kleiner Rückblick. Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate

Regression ein kleiner Rückblick. Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate Regression ein kleiner Rückblick Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate 05.11.2009 Gliederung 1. Stochastische Abhängigkeit 2. Definition Zufallsvariable 3. Kennwerte 3.1 für

Mehr

Übung zur Empirischen Wirtschaftsforschung V. Das Lineare Regressionsmodell

Übung zur Empirischen Wirtschaftsforschung V. Das Lineare Regressionsmodell Universität Ulm 89069 Ulm Germany Dipl.-WiWi Christian Peukert Institut für Wirtschaftspolitik Fakultät für Mathematik und Wirtschaftswissenschaften Ludwig-Erhard-Stiftungsprofessur Sommersemester 2010

Mehr

Statistik II Übung 2: Multivariate lineare Regression

Statistik II Übung 2: Multivariate lineare Regression Statistik II Übung 2: Multivariate lineare Regression Diese Übung beschäftigt sich mit dem Zusammenhang zwischen Flugpreisen und der Flugdistanz, dem Passagieraufkommen und der Marktkonzentration. Verwenden

Mehr

Tutorial: Regression Output von R

Tutorial: Regression Output von R Tutorial: Regression Output von R Eine Firma erzeugt Autositze. Ihr Chef ist besorgt über die Anzahl und die Kosten von Maschinenausfällen. Das Problem ist, dass die Maschinen schon alt sind und deswegen

Mehr

Mathematische und statistische Methoden II

Mathematische und statistische Methoden II Methodenlehre e e Prof. Dr. G. Meinhardt 6. Stock, Wallstr. 3 (Raum 06-206) Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung. Mathematische und statistische Methoden II Dr. Malte Persike

Mehr

Statistik III Regressionsanalyse, Varianzanalyse und Verfahren bei Messwiederholung mit SPSS

Statistik III Regressionsanalyse, Varianzanalyse und Verfahren bei Messwiederholung mit SPSS Statistik III Regressionsanalyse, Varianzanalyse und Verfahren bei Messwiederholung mit SPSS Verena Hofmann Dr. phil. des. Departement für Sonderpädagogik Universität Freiburg Petrus-Kanisius-Gasse 21

Mehr

Statistik II Übung 1: Einfache lineare Regression

Statistik II Übung 1: Einfache lineare Regression Statistik II Übung 1: Einfache lineare Regression Diese Übung beschäftigt sich mit dem Zusammenhang zwischen dem Lohneinkommen von sozial benachteiligten Individuen (16-24 Jahre alt) und der Anzahl der

Mehr

Inhaltsverzeichnis. Teil 1 Basiswissen und Werkzeuge, um Statistik anzuwenden

Inhaltsverzeichnis. Teil 1 Basiswissen und Werkzeuge, um Statistik anzuwenden Inhaltsverzeichnis Teil 1 Basiswissen und Werkzeuge, um Statistik anzuwenden 1 Statistik ist Spaß 3 Warum Statistik? 3 Checkpoints 4 Daten 4 Checkpoints 7 Skalen - lebenslang wichtig bei der Datenanalyse

Mehr

Methodenlehre. Vorlesung 10. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Methodenlehre. Vorlesung 10. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg Methodenlehre Vorlesung 10 Prof. Dr., Cognitive Biopsychology and Methods University of Fribourg 1 Methodenlehre II Woche Datum Thema 1 FQ Einführung, Verteilung der Termine 1 18.2.15 Psychologie als Wissenschaft

Mehr

3.3 Konfidenzintervalle für Regressionskoeffizienten

3.3 Konfidenzintervalle für Regressionskoeffizienten 3.3 Konfidenzintervalle für Regressionskoeffizienten Konfidenzintervall (Intervallschätzung): Angabe des Bereichs, in dem der "wahre" Regressionskoeffizient mit einer großen Wahrscheinlichkeit liegen wird

Mehr

Kapitel 2 Wahrscheinlichkeitsrechnung

Kapitel 2 Wahrscheinlichkeitsrechnung Definition 2.77: Normalverteilung & Standardnormalverteilung Es sei µ R und 0 < σ 2 R. Besitzt eine stetige Zufallsvariable X die Dichte f(x) = 1 2 πσ 2 e 1 2 ( x µ σ ) 2, x R, so heißt X normalverteilt

Mehr

Empirische Wirtschaftsforschung

Empirische Wirtschaftsforschung Empirische Wirtschaftsforschung Prof. Dr. Bernd Süßmuth Universität Leipzig Institut für Empirische Wirtschaftsforschung Volkswirtschaftslehre, insbesondere Ökonometrie 1 4. Basiskonzepte der induktiven

Mehr

Vorlesung Wirtschaftsstatistik 2 (FK 040637) Multiple lineare Regression. Dipl.-Ing. Robin Ristl Wintersemester 2012/13

Vorlesung Wirtschaftsstatistik 2 (FK 040637) Multiple lineare Regression. Dipl.-Ing. Robin Ristl Wintersemester 2012/13 Vorlesung Wirtschaftsstatistik 2 (FK 040637) Multiple lineare Regression Dipl.-Ing. Robin Ristl Wintersemester 2012/13 1 Grundidee: Eine abhängige Variable soll als Linearkombination mehrerer unabhängiger

Mehr

Statistik Einführung // Stichprobenverteilung 6 p.2/26

Statistik Einführung // Stichprobenverteilung 6 p.2/26 Statistik Einführung Kapitel 6 Statistik WU Wien Gerhard Derflinger Michael Hauser Jörg Lenneis Josef Leydold Günter Tirler Rosmarie Wakolbinger Statistik Einführung // 6 p.0/26 Lernziele 1. Beschreiben

Mehr

INFERENZSTATISTISCHE AUSSAGEN FÜR LAGEMAßE UND STREUUNGSMAßE. Inferenzstatistik für Lagemaße Inferenzstatistik für Streuungsmaße

INFERENZSTATISTISCHE AUSSAGEN FÜR LAGEMAßE UND STREUUNGSMAßE. Inferenzstatistik für Lagemaße Inferenzstatistik für Streuungsmaße DAS THEMA: INFERENZSTATISTIK III INFERENZSTATISTISCHE AUSSAGEN FÜR LAGEMAßE UND STREUUNGSMAßE Inferenzstatistik für Lagemaße Inferenzstatistik für Streuungsmaße Inferenzstatistik für Lagemaße Standardfehler

Mehr

Von der Normalverteilung zu z-werten und Konfidenzintervallen

Von der Normalverteilung zu z-werten und Konfidenzintervallen Von der Normalverteilung zu z-werten und Konfidenzintervallen Sven Garbade Fakultät für Angewandte Psychologie SRH Hochschule Heidelberg sven.garbade@hochschule-heidelberg.de Statistik 1 S. Garbade (SRH

Mehr

Methodenlehre. Vorlesung 12. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Methodenlehre. Vorlesung 12. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg Methodenlehre Vorlesung 12 Prof. Dr., Cognitive Biopsychology and Methods University of Fribourg 1 Methodenlehre I Woche Datum Thema 1 FQ Einführung, Verteilung der Termine 1 25.9.13 Psychologie als Wissenschaft

Mehr

Statistik II Übung 1: Einfache lineare Regression

Statistik II Übung 1: Einfache lineare Regression Statistik II Übung 1: Einfache lineare Regression Diese Übung beschäftigt sich mit dem Zusammenhang zwischen dem Lohneinkommen von sozial benachteiligten Individuen (16-24 Jahre alt) und der Anzahl der

Mehr

Deskriptive Statistik

Deskriptive Statistik Modul G.1 WS 07/08: Statistik 8.11.2006 1 Deskriptive Statistik Unter deskriptiver Statistik versteht man eine Gruppe statistischer Methoden zur Beschreibung von Daten anhand statistischer Kennwerte, Graphiken,

Mehr

Statistik K urs SS 2004

Statistik K urs SS 2004 Statistik K urs SS 2004 3.Tag Grundlegende statistische Maße Mittelwert (mean) Durchschnitt aller Werte Varianz (variance) s 2 Durchschnittliche quadrierte Abweichung aller Werte vom Mittelwert >> Die

Mehr

Kapitel 5 Kenngrößen empirischer Verteilungen 5.1. Lagemaße. x mod (lies: x-mod) Wofür? Lageparameter. Modus/ Modalwert Zentrum. Median Zentralwert

Kapitel 5 Kenngrößen empirischer Verteilungen 5.1. Lagemaße. x mod (lies: x-mod) Wofür? Lageparameter. Modus/ Modalwert Zentrum. Median Zentralwert Kapitel 5 Kenngrößen empirischer Verteilungen 5.1. Lagemaße Wofür? Lageparameter Modus/ Modalwert Zentrum Median Zentralwert Im Datensatz stehende Informationen auf wenige Kenngrößen verdichten ermöglicht

Mehr

Statistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de

Statistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de rbu leh ch s plu psych Heinz Holling Günther Gediga hogrefe.de Bachelorstudium Psychologie Statistik Testverfahren 18 Kapitel 2 i.i.d.-annahme dem unabhängig. Es gilt also die i.i.d.-annahme (i.i.d = independent

Mehr

Das (multiple) Bestimmtheitsmaß R 2. Beispiel: Ausgaben in Abhängigkeit vom Einkommen (I) Parameterschätzer im einfachen linearen Regressionsmodell

Das (multiple) Bestimmtheitsmaß R 2. Beispiel: Ausgaben in Abhängigkeit vom Einkommen (I) Parameterschätzer im einfachen linearen Regressionsmodell 1 Lineare Regression Parameterschätzung 13 Im einfachen linearen Regressionsmodell sind also neben σ ) insbesondere β 1 und β Parameter, deren Schätzung für die Quantifizierung des linearen Zusammenhangs

Mehr

Jost Reinecke. 7. Juni 2005

Jost Reinecke. 7. Juni 2005 Universität Bielefeld 7. Juni 2005 Testtheorie Test für unabhängige Stichproben Test für abhängige Stichproben Testtheorie Die Testtheorie beinhaltet eine Reihe von Testverfahren, die sich mit der Überprüfung

Mehr

Stichwortverzeichnis. Symbole

Stichwortverzeichnis. Symbole Stichwortverzeichnis Symbole 50ste Perzentil 119 A Absichern, Ergebnisse 203 Abzählbar unendliche Zufallsvariable 146 Alternativhypothese 237 238 formulieren 248 Anekdote 340 Annäherung 171, 191 Antwortquote

Mehr

Deskriptive Beschreibung linearer Zusammenhänge

Deskriptive Beschreibung linearer Zusammenhänge 9 Mittelwert- und Varianzvergleiche Mittelwertvergleiche bei k > 2 unabhängigen Stichproben 9.4 Beispiel: p-wert bei Varianzanalyse (Grafik) Bedienungszeiten-Beispiel, realisierte Teststatistik F = 3.89,

Mehr

I.V. Methoden 4: Regressionsund Pfadanalyse WiSe 02/03

I.V. Methoden 4: Regressionsund Pfadanalyse WiSe 02/03 I.V. Methoden 4: Regressionsund Pfadanalyse WiSe 02/03 Vorlesung: 12.11.2002 He uses statistics as a drunken man use lampposts - for support rather than for illumination. Andrew Lang Dr. Wolfgang Langer

Mehr

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen) 3 Einfache lineare Regression Einfache lineare Modelle mit R 36 Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen) > summary(lm(y~x)) Call: lm(formula =

Mehr

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen) 3 Einfache lineare Regression Einfache lineare Modelle mit R 3.6 Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen) > summary(lm(y~x)) Call: lm(formula

Mehr

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Binomialverteilung und Bernoulli- Experiment

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Binomialverteilung und Bernoulli- Experiment Unterrichtsmaterialien in digitaler und in gedruckter Form Auszug aus: Binomialverteilung und Bernoulli- Experiment Das komplette Material finden Sie hier: Download bei School-Scout.de TOSSNET Der persönliche

Mehr

Kapitel 4: Merkmalszusammenhänge

Kapitel 4: Merkmalszusammenhänge Kapitel 4: Merkmalszusammenhänge Korrelationen 1 Lineare Regression 3 Literatur 5 Korrelationen Mit Hilfe von G*Power lässt sich analog zum Vorgehen beim t-test (Kapitel 3, Band I) vor einer Untersuchung

Mehr

Bachelorprüfung. Praxis der empirischen Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Name, Vorname. Matrikelnr. E-Mail. Studiengang.

Bachelorprüfung. Praxis der empirischen Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Name, Vorname. Matrikelnr. E-Mail. Studiengang. Lehrstuhl für Statistik und empirische Wirtschaftsforschung ach: Prüfer: Bachelorprüfung Praxis der empirischen Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Name, Vorname Matrikelnr. E-Mail Studiengang

Mehr

4.1. Nullhypothese, Gegenhypothese und Entscheidung

4.1. Nullhypothese, Gegenhypothese und Entscheidung rof. Dr. Roland Füss Statistik II SS 8 4. Testtheorie 4.. Nullhypothese, Gegenhypothese und Entscheidung ypothesen Annahmen über die Verteilung oder über einzelne arameter der Verteilung eines Merkmals

Mehr

Ü b u n g s b l a t t 15

Ü b u n g s b l a t t 15 Einführung in die Stochastik Sommersemester 07 Dr. Walter Oevel 2. 7. 2007 Ü b u n g s b l a t t 15 Hier ist zusätzliches Übungsmaterial zur Klausurvorbereitung quer durch die Inhalte der Vorlesung. Eine

Mehr

So berechnen Sie einen Schätzer für einen Punkt

So berechnen Sie einen Schätzer für einen Punkt htw saar 1 EINFÜHRUNG IN DIE STATISTIK: SCHÄTZEN UND TESTEN htw saar 2 Schätzen: Einführung Ziel der Statistik ist es, aus den Beobachtungen eines Merkmales in einer Stichprobe Rückschlüsse über die Verteilung

Mehr

Brückenkurs Statistik für Wirtschaftswissenschaften

Brückenkurs Statistik für Wirtschaftswissenschaften Peter von der Lippe Brückenkurs Statistik für Wirtschaftswissenschaften Weitere Übungsfragen UVK Verlagsgesellschaft mbh Konstanz Mit UVK/Lucius München UVK Verlagsgesellschaft mbh Konstanz und München

Mehr

Analytische Statistik II

Analytische Statistik II Analytische Statistik II Institut für Geographie 1 Schätz- und Teststatistik 2 Grundproblem Generell sind wir nur selten in der Geographie in der Lage, Daten über die Grundgesamtheit zur Verfügung zu haben.

Mehr

Marcel Dettling. GdM 2: LinAlg & Statistik FS 2017 Woche 12. Winterthur, 17. Mai Institut für Datenanalyse und Prozessdesign

Marcel Dettling. GdM 2: LinAlg & Statistik FS 2017 Woche 12. Winterthur, 17. Mai Institut für Datenanalyse und Prozessdesign Marcel Dettling Institut für Datenanalyse und Prozessdesign Zürcher Hochschule für Angewandte Wissenschaften marcel.dettling@zhaw.ch http://stat.ethz.ch/~dettling Winterthur, 17. Mai 2017 1 Verteilung

Mehr

Mittelwertvergleiche, Teil I: Zwei Gruppen

Mittelwertvergleiche, Teil I: Zwei Gruppen FB W. Ludwig-Mayerhofer Statistik II Mittelwertvergleiche Herzlich willkommen zur Vorlesung Mittelwertvergleiche, Teil I: Zwei Gruppen FB W. Ludwig-Mayerhofer Statistik II Mittelwertvergleiche Mittelwertvergleiche:

Mehr

Wahrscheinlichkeitsverteilungen

Wahrscheinlichkeitsverteilungen Universität Bielefeld 3. Mai 2005 Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsrechnung Das Ziehen einer Stichprobe ist die Realisierung eines Zufallsexperimentes. Die Wahrscheinlichkeitsrechnung betrachtet

Mehr

Forschungsstatistik I

Forschungsstatistik I Psychologie Prof. Dr. G. Meinhardt 6. Stock, TB II R. 06-206 (Persike) R. 06-321 (Meinhardt) Sprechstunde jederzeit nach Vereinbarung Forschungsstatistik I Dr. Malte Persike persike@uni-mainz.de http://psymet03.sowi.uni-mainz.de/

Mehr

Mehrdimensionale Zufallsvariablen

Mehrdimensionale Zufallsvariablen Mehrdimensionale Zufallsvariablen Im Folgenden Beschränkung auf den diskreten Fall und zweidimensionale Zufallsvariablen. Vorstellung: Auswerten eines mehrdimensionalen Merkmals ( ) X Ỹ also z.b. ω Ω,

Mehr

Kapitel 7. Regression und Korrelation. 7.1 Das Regressionsproblem

Kapitel 7. Regression und Korrelation. 7.1 Das Regressionsproblem Kapitel 7 Regression und Korrelation Ein Regressionsproblem behandelt die Verteilung einer Variablen, wenn mindestens eine andere gewisse Werte in nicht zufälliger Art annimmt. Ein Korrelationsproblem

Mehr

Statistische Grundlagen I

Statistische Grundlagen I Statistische Grundlagen I Arten der Statistik Zusammenfassung und Darstellung von Daten Beschäftigt sich mit der Untersuchung u. Beschreibung von Gesamtheiten oder Teilmengen von Gesamtheiten durch z.b.

Mehr

Kapitel 1: Deskriptive Statistik

Kapitel 1: Deskriptive Statistik Kapitel 1: Deskriptive Statistik Grafiken Mit Hilfe von SPSS lassen sich eine Vielzahl unterschiedlicher Grafiken für unterschiedliche Zwecke erstellen. Wir besprechen hier die zwei in Kapitel 1.1 thematisierten

Mehr

Allgemeines zu Tests. Statistische Hypothesentests

Allgemeines zu Tests. Statistische Hypothesentests Statistische Hypothesentests Allgemeines zu Tests Allgemeines Tests in normalverteilten Grundgesamtheiten Asymptotische Tests Statistischer Test: Verfahren Entscheidungsregel), mit dem auf Basis einer

Mehr

a) Wie hoch ist die Wahrscheinlichkeit, dass Vokale vorkommen, die länger als 140 ms sind?

a) Wie hoch ist die Wahrscheinlichkeit, dass Vokale vorkommen, die länger als 140 ms sind? Modul G 20.12.2007 Zur Hausaufgabe 3 Erkläre die folgenden Plots und Berechnungen zu Wahrscheinlichkeiten aus technischer und statistischer Sicht. a) Wie hoch ist die Wahrscheinlichkeit, dass Vokale vorkommen,

Mehr

Statistik I für Betriebswirte Vorlesung 4

Statistik I für Betriebswirte Vorlesung 4 Statistik I für Betriebswirte Vorlesung 4 Prof. Dr. Hans-Jörg Starkloff TU Bergakademie Freiberg Institut für Stochastik 25. April 2016 Prof. Dr. Hans-Jörg Starkloff Statistik I für Betriebswirte Vorlesung

Mehr

Die Familie der χ 2 (n)-verteilungen

Die Familie der χ 2 (n)-verteilungen Die Familie der χ (n)-verteilungen Sind Z 1,..., Z m für m 1 unabhängig identisch standardnormalverteilte Zufallsvariablen, so genügt die Summe der quadrierten Zufallsvariablen χ := m Z i = Z 1 +... +

Mehr

Die Familie der χ 2 (n)-verteilungen

Die Familie der χ 2 (n)-verteilungen Die Familie der χ (n)-verteilungen Sind Z 1,..., Z m für m 1 unabhängig identisch standardnormalverteilte Zufallsvariablen, so genügt die Summe der quadrierten Zufallsvariablen χ := m Z i = Z 1 +... +

Mehr

2. Formulieren von Hypothesen. Nullhypothese: H 0 : µ = 0 Gerät exakt geeicht

2. Formulieren von Hypothesen. Nullhypothese: H 0 : µ = 0 Gerät exakt geeicht 43 Signifikanztests Beispiel zum Gauß-Test Bei einer Serienfertigung eines bestimmten Typs von Messgeräten werden vor der Auslieferung eines jeden Gerätes 10 Kontrollmessungen durchgeführt um festzustellen,

Mehr

Biometrie und Methodik (Statistik) - WiSem08/09 Probeklausur 1

Biometrie und Methodik (Statistik) - WiSem08/09 Probeklausur 1 Biometrie und Methodik (Statistik) - WiSem08/09 Probeklausur 1 Aufgabe 1 (10 Punkte). 10 Schüler der zehnten Klasse unterziehen sich zur Vorbereitung auf die Abschlussprüfung einem Mathematiktrainingsprogramm.

Mehr

Methodenlehre. Vorlesung 13. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Methodenlehre. Vorlesung 13. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg Methodenlehre Vorlesung 13 Prof. Dr., Cognitive Biopsychology and Methods University of Fribourg 1 19.05.15 Methodenlehre II Woche Datum Thema 1 FQ Einführung, Verteilung der Termine 1 18.2.15 Psychologie

Mehr

Stichprobenverteilung bei unterschiedlichen Auswahlsätzen

Stichprobenverteilung bei unterschiedlichen Auswahlsätzen Stichprobenverteilung bei unterschiedlichen Auswahlsätzen Begleitende Unterlagen zur Übung Induktive Statistik Michael Westermann Universität Essen Inhaltsverzeichnis 1 Einleitung.......................................................

Mehr

Analyse von Querschnittsdaten. Signifikanztests I Basics

Analyse von Querschnittsdaten. Signifikanztests I Basics Analyse von Querschnittsdaten Signifikanztests I Basics Warum geht es in den folgenden Sitzungen? Kontinuierliche Variablen Generalisierung kategoriale Variablen Datum 13.10.2004 20.10.2004 27.10.2004

Mehr

VS PLUS

VS PLUS VS PLUS Zusatzinformationen zu Medien des VS Verlags Statistik II Inferenzstatistik 2010 Übungsaufgaben und Lösungen - Inferenzstatistik 1 [Übungsaufgaben und Lösungenn - Inferenzstatistik 1] ÜBUNGSAUFGABEN

Mehr

Hypothesentests mit SPSS. Beispiel für einen t-test

Hypothesentests mit SPSS. Beispiel für einen t-test Beispiel für einen t-test Daten: museum-f-v04.sav Hypothese: Als Gründe, in ein Museum zu gehen, geben mehr Frauen als Männer die Erweiterung der Bildung für Kinder an. Dies hängt mit der Geschlechtsrolle

Mehr