Glossar Statistik 2. Bivariate Verfahren: zwei nummerische Merkmale

Transkript

1 Glossar Statistik 2 Bivariate Verfahren: zwei nummerische Merkmale Streudiagramm - Datenpaare (X, Y) als Punkte auf einem zweidimensionale Diagramm (Ordinate: Y, Abszisse: X) Lineare Regression - Optimierungsproblem mittels Methode der kleinsten Quadrate - F(X i) = α + βx i - α wird auch Intercept genannt - α = Y-Achsenabschnitt, β = Steigung - Keine Steigung = kein Z hang - Positive Steigung = positiver linearer Z hang - Negative Steigung = negativer linearer Z hang - Je grösser Steigung (betragsmässig) umso stärker Z hang - Wie schwer ist eine 170cm grosse Person? - Pro 1cm steigt das mittlere Gewicht um Leverage-Effekt - Entsteht wenn ein extremer Ausreisser in X bzw. Y die Regressionsgrade verzieht - Entschärfung mittels Boxplots oder 99% Quantil Linearer Prädiktor - Vorhersagen anhand linearer Regression - Wir schätzen den tatsächlichen MW auf - Tests für β - Zweistichproben-t-Tests - H 1: β = vs. H 0: β = 0 - Auch KI möglich 0 darf nicht in KI liegen Z hang Ausgabe mittels R - Kovarianz - Mass für Stärke des linearen Z hangs - in Stichprobe - Sind X und Y unabhängig, ist E(XY) = E(X)E(Y) und die Kovarianz demnach gleich null - Die Kovarianz zwischen X und Y ist gleich jene zwischen Y und X (umkehrbar) - Die Kovarianz zwischen X und X entspricht der Varianz von X Residuen - Mass der Z hanges (Bestimmtheitsmass) - e i = Y gefittetes Y - Entsprechen den vertikalen Abständen zwischen Punkt und Gerade in Streudiagramm FS

2 Korrelationskoeffizient nach Pearson - Mass der Z hanges (Bestimmtheitsmass) - - r liegt zwischen 1 und -1, je grösser der Betrag, je stärker der Z hang - Vorzeichen ist gleich wie das von β - R 2 = r 2 - Ab 0.3 schwacher linearer Z hang R 2 = 0.1 Wurzel für r - Ab 0.5 starker linearer Z hang R 2 = 0.3 Wurzel für r R 2 - Erklärt wie viel Prozent der Varianz von Y sich durch X erklären lassen Rangkoeffizienten nach Spearman - Es werden Ränge vergeben und zeigt Stärke des monotonen Z hanges - Zeichen ist ρ - Wie stark tendieren grössere X-Werte zu grösseren Y? - Wie stark tendieren grössere X-Werte zu kleineren Y? - Da rangbasiert robust gegenüber Ausreissern - Grafiken für unterschied zwischen Pearson & Spearman: Aussagen über Population Tests - F-Test: prüft Nullhypothese tatsächliches R 2 ist null - Test aus Pearson-Korrelation: prüft Nullhypothese tatsächliche Pearson-Korrelation ist null - Test auf Rangkorrelation nach Spearman: prüft die Nullhypothese tatsächliche Korrelation nach Spearman ist null - Alles Tests auf Z hang p-wert kleiner kritische Schranke es gibt mit XX% Sicherheit einen Z hang Multilineare Modelle lineares Modell - Regressionen zur Untersuchung wie der MW von Y von den Ausprägungen von weiteren Merkmalen (Kovariablen) abhängt - Y ist abhängige Variable, die Kovariablen die unabhängigen - Y ist die erklärte Variable, die Kovariablen die erklärenden - Y ist der Output, die Kovariablen der Input - Kovariablen = Faktoren = Prädiktoren - Lineare Modelle sollen: o Effekte bestimmen o Hypothesen prüfen o Vorhersagen machen FS

3 Modellstruktur - E(Y Kovariablenwerte) = μ(kovariablenwerte) = α + gewichtete Summe der Kovariablenwerte - μ = α + βx + γz + - Auch quadratisch, kubisch, etc. möglich - Immer darauf achten was Referenzkategorie ist bei Berechnungen - Frauen sind im Schnitt leichter als Männer Modellgüte - (Stärke des Z hanges) - Ausdrücken mittels R 2 Dummycodierung - Bei kategorieller Kovariable mit L Ausprägungen - Ausprägungen Ja/Nein - Eine Ausprägung kann gestrichen werden, da sie durch die anderen definiert wird Bsp. Kind, Mann, Frau Ist Mann = 0 und Frau = 0, so muss Kind = 1 sein Transformation - Kovariablen logarithmieren o Es soll der Effekt einer relativen % Veränderung von X auf den MW von Y betrachtet werden o Man erwartet log-z hang o Der Effekt entspricht dann β/100 o Erhöht sich X-Wert um 1%, erhöht sich der Y-Wert im Schnitt um β/100 - Zielgrössen logarithmieren o Es sollen relative Effekte auf den typischen Wert der Zielgrösse beobachtet werden o Man erwartet einen exponentiellen Z hang o Der Effekt entspricht dann e β -1 o Erhöht man den X-Wert um 1, so steigt das geometrische Mittel von Y um (e β -1)x100% o Wichtig in Beschreibung dann auch von ln(preis) sprechen und nicht von Preis! - Kovariablen und Zielgrösse logarithmieren o Erhöht sich X um 1% erhöht sich das geometrische Mittel von Y um etwa (e β -1)x100% - Nichtlinearität o Kovariablen werden erhalten teilweise einen Exponent - Interaktionen o Manchmal beeinflusst eine Kovariable eine andere stark (Bsp. Gewicht bei Mann und Frau anhand Grösse) o Dies kann berücksichtigt werden in dem eine weitere Kategorie eingefügt wird FS

4 Aussagen über Population - KI mittels Studentverfahren Test ob betrachteter Modellparamter wirklich null ist - Will man Vorhersage für Population Student-KI - Will man individuelle Vorhersagen Prädiktions- bzw. Prognoseintervalle - Population: mittlere Mitte aller solcher Wohnungen - Individuell: Wert einer konkreten solchen Wohnung - Intervall für Individuellevorhersagen ist immer grösser (ungenauer) als das für die Population Modellgüte - Globaler F-Test o Testen ob wahres R 2 gleich null Test auf kein Z hang für alle Effekte! - Partieller F-Test o Testen ob gewisse Effekte keinen Einfluss auf Y haben FS

5 Multikollinearität - Korrelierte Kovariablen teilen stet einen gewissen Effekt auf den MW der Zielgrösse - Herausfinden in dem gemeinsames R 2 betrachtet wird - Lässt sich eine Kovariable durch eine lineare Funktion der anderen Kovariable ausdrücken, liegt perfekte Mulitkollinearität vor und das Modell kann nicht berechnet werden Modellvoraussetzungen - Passende Modellstruktur - Gleiche Varianz - Normalverteilung - Keine einflussreichen Beobachtungen - Unabhängigkeit Passende Modellstruktur - Schauen ob der MW der Residuen nicht von den gefitteten Werten abhängt Bsp. Aufteilung in Sektoren, MW überall gleich? sollte Gerade sein! - Folgen bei Verletzung: alle Ereignisse fragwürdig Gleiche Varianz - Homoskedastizität = Varianz von MW der Residuen und den gefitteten Werten ist unabhängig - Heteroskedastizität: obige Bedingung ist Verletzt - Herausfinden mittels residuen-fittet-diagramm - Siehe Grafik oben - Folgen bei Verletzung: Präzision der Vorhersagen und Schätzwerte fraglich Normalverteilung - Normalverteilung der Residuen ist nötig für Student- und F-Test - Schauen ob ECDF der gefitteten Werte etwa normalverteilt - Folgen bei Verletzung: Bei grossen Stichproben aufgrund des zentralen Grenzwertsatztes irrelevant, aber Prädiktionsintervalle stimmen in diesem Fall nicht FS

6 keine einflussreichen Beobachtungen - Frage ob es einen Leverage-Effekt gibt - Betrachtung mittels Boxplots, Korrektur mittels Logarithmisierung möglich - Folgen bei Verletzung: alle Ereignisse sind in Frage gestellt Unabhängigkeit - Beobachtungen müssen unabhängig sein - Ist aber meist erfüllt: jede Person/Wohnung nur einmal in Stichprobe - Bei Verletzung kann versucht werden, aus mehreren Beobachtungen eine zu machen, ist dies nicht möglich müssen spezielle Verfahren für abhängige Beobachtungen angewandt werden (Zeitreihenmodelle, Verfahren bei Messwiederholung) Vorbereitung des Modells - Daten: Merkmale definieren für Erhebung - Wahl der Modellstruktur und der Kovariablen vor Modellierung o Overfitting: wenn zu viele Kovariablen, Ereignisse stimmen dann nur für konkretes Modell (n/10-regel) o Nicht Kovariablen passend zu Modell wählen bzw. die eliminieren, welche unwichtig erscheinen! Dimensionsreduktion Dimensionsreduktion - Verkleinern der Itembatterie durch Ersetzung von deutlich korrelierenden Merkmalen durch einige wenige Merkmale Verfahren der Dimensionsreduktion Wichtigste Variable auswählen - Wichtigste Variable auswählen - Summen (nur für nummerische Variablen) - Hauptkomponentenanalyse (nur für nummerische Variablen) - Clusteranalyse (nur für nummerische Variablen) - Man wählt vor der Analyse aus der Gruppe von Variablen eine besonders wichtige (Literatur, Vorwissen, Fragestellung) aus und repräsentiert dadurch die anderen Variablen Bsp. Zufriedenheit: statt viele Fragen: wie fühlen sie sich? - Vorteile: keine neuen Variablen, Interpretation klar - Nachteile: Informationsverlust, Auswahl wilkürlich Summen - Bestehen Variablen aus m vergleichbaren Merkmalen werden diese zeilenweise addiert (Summenscores) neues Merkmal - Auch gewichtete Summen möglich (1/m (ergibt MW Summe), wichtig/unwichtig) - Vorteile: einfach zu berechnen, Interpretation klar - Nachteile: Informationsverlust, Gewichtung, gleiche Skalen zwingend Hauptkomponentenanalyse PCA - Bildung von m Hauptkomponenten PCs als gewichtete Summen (meist MW=0 und Std=1) der ursprünglichen m Variablen - Interpretation über die Loadings (+/- Z hang, Wichtigkeit anhand Grösse, ein PC erklärt Leistung ) - Ziel: wenige PC s haben die viel von der Varianz erklären - Schauen wo sich einzelnes Objekt in Normalverteilung befindet: (X-MW X) / Std ergibt Anzahl σ - Vorteile: Informationsverlust klar, neue Variablen sind unkorreliert - Nachteile: Interpretation erschwert FS

7 Clusteranalyse - Es werden Cluster (Gruppen) anhand der etwa gleichen Stellung im Diagramm verbunden - Die Cluster repräsentierten neue, kategorielle Merkmale - Für zwei Merkmale von Auge machbar, sonst k-means- Methode - Vorteile: zeigt ähnliche Beobachtungen, Interpretation einfach - Nachteile: Informationsverlust, viele Arten von Clusteranalyse - Bsp. Schüler mit über-, mittlerer- unterdurchschnittlichen Leistung gruppieren * statt numerisches Merkmal auch ordinales FS