Statistische Methoden: Tests, Regression und multivariate Verfahren



Ähnliche Dokumente
Statistik II für Betriebswirte Vorlesung 2

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

9. Schätzen und Testen bei unbekannter Varianz

Motivation. Wilcoxon-Rangsummentest oder Mann-Whitney U-Test. Wilcoxon Rangsummen-Test Voraussetzungen. Bemerkungen

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50, ,5 51,7 48,8

Melanie Kaspar, Prof. Dr. B. Grabowski 1

Tutorial: Homogenitätstest

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau

Überblick über die Verfahren für Ordinaldaten

Statistik II für Betriebswirte Vorlesung 3

Willkommen zur Vorlesung Statistik

Allgemeine Regressionsanalyse. Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl. deterministisch

Füllmenge. Füllmenge. Füllmenge. Füllmenge. Mean = 500,0029 Std. Dev. = 3,96016 N = ,00 490,00 495,00 500,00 505,00 510,00 515,00 Füllmenge

Universität Bonn 28. Juli 2010 Fachbereich Rechts- und Wirtschaftswissenschaften Statistische Abteilung Prof. Dr. A. Kneip. KLAUSUR Statistik B

Klausur zur Vorlesung Multivariate Verfahren, SS Kreditpunkte, 90 min

Einfache Varianzanalyse für abhängige

Binäre abhängige Variablen

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

Biostatistik, WS 2015/2016 Der zwei-stichproben-t-test

Abituraufgabe zur Stochastik, Hessen 2009, Grundkurs (TR)

METHODENLEHRE I WS 2013/14 THOMAS SCHÄFER

Korrelation (II) Korrelation und Kausalität

Eine Einführung in R: Statistische Tests

Die Optimalität von Randomisationstests

Primzahlen und RSA-Verschlüsselung

Einige Statistische Tests für den Ein- Zwei- und k-stichprobenfall (Nach Sachs, Stat. Meth.)

13. Lineare DGL höherer Ordnung. Eine DGL heißt von n-ter Ordnung, wenn Ableitungen y, y, y,... bis zur n-ten Ableitung y (n) darin vorkommen.

Fortgeschrittene Statistik Logistische Regression

Statistische Auswertung:

5 Zusammenhangsmaße, Korrelation und Regression

Gemischte Modelle. Fabian Scheipl, Sonja Greven. SoSe Institut für Statistik Ludwig-Maximilians-Universität München

Plotten von Linien ( nach Jack Bresenham, 1962 )

Statistische Thermodynamik I Lösungen zur Serie 1

Grundlagen der Inferenzstatistik

Name (in Druckbuchstaben): Matrikelnummer: Unterschrift:

50. Mathematik-Olympiade 2. Stufe (Regionalrunde) Klasse Lösung 10 Punkte

Abschlussprüfung Realschule Bayern II / III: 2009 Haupttermin B 1.0 B 1.1

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage:

Austausch- bzw. Übergangsprozesse und Gleichgewichtsverteilungen

Varianzanalyse (ANOVA: analysis of variance)

Business Value Launch 2006

Lineare Funktionen. 1 Proportionale Funktionen Definition Eigenschaften Steigungsdreieck 3

Zusammenhänge zwischen metrischen Merkmalen

Statistik II Wahrscheinlichkeitsrechnung und induktive Statistik Erste Klausur zum Sommersemester Juli 2005

1.3 Die Beurteilung von Testleistungen

Das große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Die Gleichung A x = a hat für A 0 die eindeutig bestimmte Lösung. Für A=0 und a 0 existiert keine Lösung.

Webergänzung zu Kapitel 10

ε heteroskedastisch BINARY CHOICE MODELS Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS?

Zeichen bei Zahlen entschlüsseln

i x k k=1 i u i x i v i 1 0, ,08 2 0, ,18 3 0, ,36 4 0, ,60 5 1, ,00 2,22 G = n 2 n i=1

Lineare Gleichungssysteme

Der Provider möchte möglichst vermeiden, dass die Werbekampagne auf Grund des Testergebnisses irrtümlich unterlassen wird.

Beurteilung der biometrischen Verhältnisse in einem Bestand. Dr. Richard Herrmann, Köln

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

Ein möglicher Unterrichtsgang

Korrelation - Regression. Berghold, IMI

Stochastische Eingangsprüfung,

Kontingenzkoeffizient (nach Pearson)

Beispiel Zusammengesetzte Zufallsvariablen

Rekursionen. Georg Anegg 25. November Methoden und Techniken an Beispielen erklärt

Willkommen zur Vorlesung Statistik (Master)

Lineare Gleichungssysteme

Gleichungen Lösen. Ein graphischer Blick auf Gleichungen

A1.7: Entropie natürlicher Texte

Überblick über die Tests

Korrelation. Übungsbeispiel 1. Übungsbeispiel 4. Übungsbeispiel 2. Übungsbeispiel 3. Korrel.dtp Seite 1

Vorkurs Mathematik Übungen zu Polynomgleichungen

Tangentengleichung. Wie lautet die Geradengleichung für die Tangente, y T =? Antwort:

Dieses erste Kreisdiagramm, bezieht sich auf das gesamte Testergebnis der kompletten 182 getesteten Personen. Ergebnis

Klausur zu Methoden der Statistik I (mit Kurzlösung) Wintersemester 2007/2008. Aufgabe 1

DIFFERENTIALGLEICHUNGEN

W-Rechnung und Statistik für Ingenieure Übung 11

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Info zum Zusammenhang von Auflösung und Genauigkeit

Professionelle Seminare im Bereich MS-Office

Stichprobenauslegung. für stetige und binäre Datentypen

6.2 Scan-Konvertierung (Scan Conversion)

4. Erstellen von Klassen

3. LINEARE GLEICHUNGSSYSTEME

Name: Klasse: Datum: Klassenarbeit Wachstumsvorgänge Kl10-Gruppe B

Quantitative Methoden der Bildungsforschung

Gibt es einen Geschmacksunterschied zwischen Coca Cola und Cola Zero?

Monte-Carlo-Simulationen mit Copulas. Kevin Schellkes und Christian Hendricks

Interne und externe Modellvalidität

Die Pareto Verteilung wird benutzt, um Einkommensverteilungen zu modellieren. Die Verteilungsfunktion ist

Name: Klasse: Datum: Klassenarbeit Wachstumsvorgänge Kl10-Gruppe A

Das Mathematik-Abitur im Saarland

Übungskomplex Felder (1) Eindimensionale Felder Mehrdimensionale Felder

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. Excel Edition. ^ Springer Spektrum

Mathematischer Vorbereitungskurs für Ökonomen

Physik & Musik. Stimmgabeln. 1 Auftrag

Prüfung eines Datenbestandes

Behörde für Bildung und Sport Abitur 2008 Lehrermaterialien zum Leistungskurs Mathematik

Klausur Nr. 1. Wahrscheinlichkeitsrechnung. Keine Hilfsmittel gestattet, bitte alle Lösungen auf dieses Blatt.

Transkript:

(CM)²-Nachwuchsring, Workshop Statistik, 25.Januar 2013 Statistische Methoden: Tests, Regression und multivariate Verfahren Ralf Korn ((CM)², TU Kaiserslautern, Fraunhofer ITWM)

0. Einige Probleme aus der Anwendung mit Statistikbezug Biologie: Tests zur Unterscheidung verschiedener Populationen Auswirkungen verschiedener Behandlungen (z.b. Düngung) Materialdynamik/-erzeugung/-auswahl Vorhersage von Eigenschaften/Verhalten von Material bzw. von Grenzwerten Finanz- und Versicherungsmathematik Kreditbewertung ( Rating ), Einteilung in verschiedenen Ausfallklassen Erkennen von Falschgeld Aufgaben: Vergleich, Vorhersage, Klassifikation => Tests, Regression, mehrdimensionale Daten, Diskriminanzanalyse, Hauptkomponentenanalyse,

1. Wichtige Testverfahren - Grundlagen Was ist ein statistischer Test? Ein Test überprüft anhand relevanter Daten, ob eine Hypothese ( Nullhypothese ) mit einer gegebenen Restfehlerwahrscheinlichkeit ( Siginifikanzniveau ) abgelehnt werden kann oder nicht. Das fälschliche Ablehnen dieser Hypothese wird als Fehler 1. Art bezeichnet, das fälschliche Beibehalten als Fehler 2.Art Bsp. 1: (ähnlich, wie viele Bsp. aus Statistik II für WIs (Franke)) Ein Hersteller eines neuen Lacks soll eine mittlere Trockenzeit von µ 0 =10 min haben. Um das zu überprüfen, nimmt ein Institut 50 Proben und erhält das Stichprobenmittel und die Stichprobenstandardabweichung von : X = 10, 89 min, S = 1, 54 min. 50 50 Klar: das Stichprobenmittel ist größer als 10 min, aber ist das nur ein Messfehler? => Nötig: Annahmen über die Verteilung der Trockenzeiten X i, i = 1,..., 50. Welche Restfehlerw-keit soll beim Ablehnen der Nullhypothese H 0 :µ =10 nicht überschritten werden ( Signifikanzniveau )?

1. Wichtige Testverfahren - Die t-tests a) Der 1-Stichproben-t-Test Wann verwendbar? Vergleich des Mittelwerts einer normal verteilten Stichprobe mit gegebenem Wert µ 0 Was wird als Input benötigt? N = Stichprobengröße, µ 0 = Vergleichswert für den Mittelwert X N = Stichprobenmittelwert, 2 S N = Stichprobenstandardabweichung Was wird getestet? i) H 1 : µ > µ 0 H 0 : µ = µ 0 vs. ii) H 1 : µ < µ 0 iii) H 1 : µ µ 0 Bsp.1 (Fortsetzung) Wir nehmen für die Trockenzeit des Lacks X i an, dass gilt Xi ( 2 ) N µ,σ, wobei σ² unbekannt ist und die Nullhypothese H 0 :µ =10 überprüft werden soll.

1-Stichproben-t-Test (X 1,..., X N u.i.v. N(µ, σ²), σ² unbekannt) 1. Hypothesenwahl: Wähle die zu testende Hypothese i) H 1 : µ > µ 0 H 0 : µ = µ 0 vs. ii) H 1 : µ < µ 0 iii) H 1 : µ µ 0 2. Wahl des Signifikanzniveaus: Lege α fest. 3. Berechnung der Teststatistik: X N µ 0 Berechne t : = N SN 4. Entscheidung: t > t N 11, α, im Falli) Lehne H 0 ab, falls t < t N 1, α, im Fallii), t > t N 11, α / 2, im Falliii) sonst behalte H 0 bei.

Bem.: a) Gaaanz wichtig: Teste nach Möglichkeit immer einseitig! b) Der 1-Stichproben-t-Test kann auch für den Vergleich der Mittelwerte zweier verbundener Stichproben (also immer Paare von zwei abhängigen Beobachtungen ( Wert vor Behandlung, Wert nach Behandlung )) verwendet werden, wenn man annimmt, dass die Differenzen der beiden jeweiligen Komponenten normal verteilt sind. Bsp. 1 (Fortsetzung): Wir vermuten µ>10 und wählen H 1 : µ >10. Wir wählen das S-niveau α=0,05. 10, 89 10 => t : = 50 = 4, 087 > 1, 645 = t49; 0. 95 1, 54 Auf dem S-niveau 0,05 wurde gezeigt, dass die mittlere Trockenzeit größer 10 min ist. Bsp. 2 (Beeinflusst ein Medikament den Blutdruck) N = 20 Personen, X i = Blutdruck der i. Person vor Medikamenteneinnahme, Y i = Blutdruck der i. Person nach Medikamenteneinnahme Bilde die Differenzen der beiden Werte und teste für die Differenzen: H 0 : µ = 0 ( keinen Einfluss ) gegen H 1 : µ 0 ( Einfluss )

Wähle als Signifikanzniveau α= 0,01 Berechne: => D = 10, 8 min, S = 20, 5 min t 20 20 10, 8 = 20 = 2.356 < 2,862 = t 20, 5 19; 0. 995 => H 0 kann nicht abgelehnt werden, obwohl vieles für die Ablehnung spricht!!! Was ist ein p-wert? Der p-wert ist das Signifikanzniveau (also die Schranke für den Fehler 1.Art), so dass der Test bei den vorliegenden Daten gerade noch ablehnen würde, für kleinere Signifikanzniveaus aber nicht (wird oft von Statistikprogrammpaketen angegeben) z.b.: p-wert = 0.0432 => Die Nullhypothese wird dann abgelehnt, wenn das vor (!) dem Durchführen des Tests festgelegte Signifikanzniveau größer/gleich 0,0432 ist. In Bsp. 2 ist der p-wert kleiner (!) als 0,05 (!!!).

1. Wichtige Testverfahren - Die t-tests b) Der 2-Stichproben-t-Test Wann verwendbar? Vergleich der Mittelwerte zweier unabhängiger normal verteilter Stichproben mit gleicher Varianz. Was wird als Input benötigt? N, M = Stichprobengrößen, X N, Y M = Stichprobenmittelwerte, Was wird getestet? i) H 1 : µ 1 > µ 2 H 0 : µ 1 = µ 2 vs. ii) H 1 : µ 1 < µ 2 iii) H 1 : µ 1 µ 2 2 S N, 2 S M = Stichprobenstandardabweichungen

2-Stichproben-t-Test (X 1,...,X N u.i.v. N(µ 1,σ²), Y 1,..., Y M u.i.v. N(µ 2,σ²), σ² unbekannt) 1. Hypothesenwahl: Wähle die zu testende Hypothese i) H 1 : µ 1 > µ 2 H 0 : µ 1 = µ 2 vs. ii) H 1 : µ 1 < µ 2 iii) H 1 : µ 1 µ 2 2. Wahl des Signifikanzniveaus: Lege α fest. 3. Berechnung der Teststatistik: ( ) + ( ) 2 2 N M 1 1 X N YM S N 1 S M 1 Berechne t : = +, S N M N,M : = SN,M N + M 2 4. Entscheidung: t > t, im Falli) Lehne H 0 ab, falls N + M 2, 1 α t < t, im Fallii) N + M 2, α t > t N + M 2, 1 α / 2, im Falliii) sonst behalte H 0 bei.,

Bsp. 3: Es wird vermutet, dass sich der elektrische Widerstand von Kupfer senkt, wenn es mit einem geringen Anteil andrer Metalle legiert wird. H 0 : µ 1 = µ 2 vs. ii) H 1 : µ 1 > µ 2 Gewähltes Signifikanzniveau α= 0,05 Experiment: 60 Messungen X 1,, X 60 bei Standardkupferdraht, 40 Messungen Y 1,, Y 40 bei legiertem Kupferdraht Zahlen: X = 0, 125, Y = 0, 114, S = 0, 005, S = 0, 006 60 40 60,X 40,X t : = + 0, 125 0, 114 = 8, 18 > 1, 644 = t 29, 38 10 1 1 => 60 40 6 98; 0. 95 also kann auf dem S-niveau von 5% festgestellt werden, dass der legierte Kupferdraht einen niedrigeren elektrischen Widerstand besitzt. Achtung: Es muss eigentlich noch mit einem F-Test überprüft werden, ob die Hypothese gleicher Varianzen in beiden Gruppen aufrecht erhalten werden kann!!!,

1. Wichtige Testverfahren - Die t-tests c) Einige Kommentare Bei den t-tests müssen die Daten nicht zwingend normal-verteilt sein, sondern lediglich die Mittelwerte der Daten! Die t-tests funktionieren deshalb oft auch gut bei nicht-normal verteilten Daten, insbesonders bei großen Stichprobengrößen Im Fall nicht-gleicher Varianzen existieren im 2-Stichproben-t-Test geeignete Varianten, so dass er mit diesen durchgeführt werden kann Auf den Mehrstichprobenfall in Form der Varianzanalyse wird hier nicht eingegangen

1. Wichtige Testverfahren - Die Rang-Tests Will man / Kann man bei vorhandenen Daten keine Verteilungsannahme unterstellen, so bieten die Rang-Tests eine sehr gute Alternative zu den t-tests an (selbst, wenn tatsächlich Normalverteilung vorliegt!) Prinzipielle Vorgehensweise: Ordne die vorhandenen Daten gemäß ihrer Werte an, ordne den Daten ihre jeweiligen Ränge innerhalb der Gesamtstichprobe zu, vergleiche die ermittelten Rangsummen mit Werten, die man bei Gültigkeit der Nullhypothese erwartet hätte.

1. Wichtige Testverfahren - Die Rang-Tests a) Der Vorzeichen-Rang-Test Wann verwendbar? Ein Stichprobe mit mindestens ordinalen Daten wird auf Symmetrie um einen bestimmten Wert ξ 0 getestet (bei Normalverteilung Test für den Mittelwert), wobei wir voraussetzen, dass die zugrunde liegende Verteilung symmetrisch ist. Was wird als Input benötigt? R = Rangzahl von X in der Gesamtstichprobe (beginnend mit der kleinsten Zahl) i i Was wird getestet? Teste, ob die Verteilung einer Stichprobe X 1,, X N symmetrisch um den Wert ξ 0 ist. i) H 1 : ξ > ξ 0 H 0 : ξ = ξ 0 vs. ii) H 1 : ξ < ξ 0 iii) H 1 : ξ ξ 0

Vorzeichen-RangTest (X 1,...,X N Stichprobe (von mdst. ordinalen Daten) mit symmetrischer Verteilung um einen Punkt ξ) 1. Hypothesenwahl: Wähle die zu testende Hypothese i) H 1 : ξ > ξ 0 H 0 : ξ = ξ 0 vs. ii) H 1 : ξ < ξ 0 iii) H 1 : ξ ξ 0 2. Wahl des Signifikanzniveaus: Lege α fest. 3. Berechnung der Teststatistik: Ordne jedem X i seinen Rang Ri in der Stichprobe zu (beginnend mit dem kleinsten Wert) und bilde T + : R = 4. Entscheidung: (bei N 20) + T > w, im Falli) Lehne H 0 ab, falls + i:x N, 1 α i >ξ 0 + + > N, 1 α / 2 oder < N, α / 2 i T < w, im Fallii) N, α T w T w, im Falliii) sonst behalte H 0 bei.,

Bem.: a) Bei gleichen Werten ordnen wir den vorkommenden Werten die mittlere Rangzahl zu. b) Für kleine N sind die Quantile w N,a tabelliert. c) Für N >> 20 kann man statt T + die Teststatistik (*) T* : = + ( + ) ( + )( + ) T N N 1 / 4 N N 1 2N 1 / 24 verwenden, die asymptotisch N(0,1)-verteilt ist. Man vergleicht dann in 4. mit den Quantilen der N(0,1)-Verteilung. Diese Approximation gilt nur, falls in den Daten keine gleichen Werte auftreten (sonst ist eine Modifikation zu wählen (hier nicht behandelt). Beispiel: Die folgenden Daten seien Punktzahlen aus einer Klausur. Wir testen, ob sie (mit α=0.05) symmetrisch um ξ 0 = 61 sind: 72, 55,67, 53, 69, 71, 55, 68, 65, 72, 69 T + = 53. Da w11; 0. 025 11 53 54 w11; 0. 975 werden = = gilt, kann die Nullhypothese nicht abgelehnt

1. Wichtige Testverfahren - Die Rang-Tests b) Der Wilcoxon-Rangsummen-Test (Mann-Whitney-Test, U-Test, ) als Alternative zum 2-Stichproben-t-Test Wann verwendbar? Vergleich, ob zwei Stichproben X 1,, X n und Y 1,, Y m dieselbe Verteilung besitzen, wobei vorausgesetzt wird, dass mindestens ordinale Daten vorliegen (und die Verteilungsfunktionen F(x) = G(x +c) erfüllen) Vorgehen Verteile Ränge an die Gesamtstichprobe (hoher Rang = guter Wert), S 1,, S n seien die Ränge der ersten Stichprobe N = n + m, W S s = S Rangsumme der ersten Stichprobe i= 1 1 W W n( n 1) x,y S 2 i = + Mann-Whitney-Statistik

Was wird getestet? i) H 1 : c > 0 H 0 : c = 0 vs. ii) H 1 : c < 0 iii) H 1 : c 0 Um die Nullhypothese zu testen, kann man für kleine n, m auf tabellierte Werte wn,m; der Mann-Whitney-U-Statistik zurück greifen. Für n, m 4 und N 20 gilt die Normalapproximation ( ) (1) ( 1 ) nm nm n + m + Wx,y N,, 2 12 woraus folgt, dass (2) nm Wx,y 2 Z = N 0, 1 nm( n+ m+ 1) 12 ( ) gilt und man mit den Quantilen der Standardnormalverteilung vergleichen kann. α

Wilcoxon-Rangsummen-Test (X 1,, X n und Y 1,, Y m Stichproben (von mdst. ordinalen Daten) mit Verteilungsfunktionen F(x) = G(x +c) für ein c) 1. Hypothesenwahl: Wähle die zu testende Hypothese i) H 1 : c > 0 H 0 : c = 0 vs. ii) H 1 : c < 0 iii) H 1 : c 0 2. Wahl des Signifikanzniveaus: Lege α fest. 3. Berechnung der Teststatistik: Verteile Ränge an die Gesamtstichprobe, S 1,, S n seien die Ränge der ersten Stichprobe und berechne W S s 1 = S, W = W n( n + 1) i= 1 i x,y S 4. Entscheidung: (bei n+m < 20 oder n < 4 oder m < 4) W > w, im Falli) Lehne H 0 ab, falls sonst behalte H 0 bei. x,y 2 n,m; 1 α W < w, im Fallii) x,y n,m; α W > w oder W < w, im Falliii) x,y n,m; 1 α / 2 x,y n,m; α / 2,

Bem.: a) Ordnet man bei nicht eindeutigen Rängen einzelnen Beobachtungen den jeweils mittleren Rang zu, so bleiben die obigen Ergebnisse approximativ richtig. b) Selbst bei Vorliegen normal verteilter Daten ist der Wilcoxon-Rangsummen-Test fast genauso gut wie der 2-Stichproben-t-Test. Beispiel: Ist das Nettoeinkommen geschlechterabhängig? Daten der Allgemeinen Bevölkerungsumfrage der Sozialwissenschaften 2006 mit 20 zufälligen Personen (Quelle: wikipedia) Rang 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Nettoeinkommen 0 400 500 550 600 650 750 800 900 950 1000 1100 1200 1500 1600 1800 1900 2000 2200 3500 Geschlecht M W M W M W M M W W M M W M W M M M M M 1 n = 13, m = 7, ( ) W = W n n + 1 = 43 > 20 = w x,y S 2 13, 7; 0, 95 => Man kann auf dem 5%-Niveau davon ausgehen, dass Männer ein höheres Nettoeinkommen haben.

2. Regressionsverfahren Hauptziel der Regression: Ermittele aus Datenpaaren (x i, y i ) eine funktionale Beziehung (1) y g ( x) Fehler = +, um y-werte aus gegebenen x-werten vorhersagen zu können. => Gesucht ist also die Funktion g(.) (=> Unterschied zu Interpolation!) Vorgehen: Wähle eine geeignete Funktionenfamilie aus, deren Mitglieder g θ, θ Θ durch einen (evtl. mehrdim.) Parameter parametrisiert sind Bestimme den Parameter ( ) 2 i θ i (2) h N ( θ ) : = y g ( x ) i= 1 * θ, so dass die Summe der Fehlerquadrate minimal für θ Θ wird ( Methode der kleinsten Quadrate ).

Wann ist dieses Problem explizit lösbar? Spezialfall Lineare Regression θ = b,...,b linear in g(.) ein, also gilt z.b. Gehen die Parameter ( 1 m ) (3) ( ) ( ) y b f x... b f x, i,...,n, i = 1 1 i + + m m i + ε i = 1 wobei die f i (.) bekannte ( gegebene ) Funktionen und die ε i Fehler sind mit 2 (4) u.i.v., E ( ) 0, Var ( ) ε ε = ε = ν, i i i so spricht man von linearer Regression. Beispiele: (5) y = b1 + b2 x + ε, i = 1,...,n, Regressionsgerade i i i m i i m i (6) y = b1 + b2 x + b x + ε, i = 1,...,n, Regressionspolynom d m d Trig. Regr.funkt. (7) 1 ( ) ( ) y = b + b cos ϕ x + c sin ψ x + ε, i = 1,...,n, i j j i j j i i j= 1 j= 1

Im Fall der Regressionsgerade gilt: (8) ( y y )( x x ) n * i= 1 i n i n * * 2 = 2 1 = n n 2 ( x ) i 1 i x = n b, b y b x d.h. die Steigung ergibt sich als Stichprobenkovarianz von x und y geteilt durch die Stichprobenvarianz von x, der y-achsenabschnitt ist so gewählt, dass der tatsächliche Mittelwert der y-werte gleich dem vorhergesagten Mittelwert entspricht. n, Bsp: Größe und Gewicht Daten von 10 Männern (Größe cm, Gewicht kg) (187,72), (170,60), (180,73), (184,74) (178,72), (180,70), (172,62), (176,70) (186,80), (177,67) 85 80 75 70 65 => Regressionsgerade: (9) y = 93. 243 + 0. 912 x 50 60 55 170 173 176 179 182 185

Allgemeiner Fall Nicht-lineare Regression a) Logit- und Probit-Modell zur Vorhersage von Wahrscheinlichkeiten Idee: Schätze z.b. Ausfallwahrscheinlichkeiten von Krediten aus Fundamentaldaten Problem: W-keiten sollen zwischen 0 und 1 liegen, also Regressionsgerade ungeeignet Ansatz: Wähle als Regressionsfunktion eine Wahrscheinlichkeitsverteilung, deren Parameter in Abhängigkeit von Inputdaten geschätzt werden sollen 1 = i = i = = Logit-Modell ( ( ( i) ( i) )) 1+ exp β 0 + β 1 x 1 +... + βmxm ( i) ( i) P Y = 1 x = P y = 1 = Φ β + β x +... + β x Probit-Modell (10) P ( Y 1 x ) P ( y 1) (11) ( ) ( ) ( ) 0 1 1 i i m m Beachte: Die zu schätzenden Parameter stehen innerhalb einer nicht-linearen Funktion! Man erhält die Parameter durch Anwendung eines nicht-linearen Optimierungsverfahrens (z.b. Newton-Raphson,.) b) Allgemeiner Fall findet z.b. Anwendung bei Parameterkalibrierung/Parameteridentifikation

Bem.: a) Wann gilt bei der Regression ein linearer Zusammenhang? Im Fall einer Regressionsgeraden geht man von linearem Zusammenhang aus, wenn (11) corr(y, X)² 0,8 gilt ( Faustregel ). Im allgemeinen multiplen Modell ( 1) ( p) (12) Y = b + b X +... + b X + ε i 0 1 i p i i benötigt man den Begriff der multiplen Korrelation, für den dann ebenfalls ( ) ( ) (13) ( 1 ) 2 p 1 p ρ Y, X,..., X : = ρ Y,E Y X,..., X 0, 8 gelten muss. ( ) 2 ( ) ( ( ) ( ) ) b) Im Fall normal-verteilter Fehler sind die kleinsten Quadrate-Schätzer bei der linearen Regression auch Maximum-Likelihood-Schätzer. c) Oft transformiert man in Anwendungen die Y-Daten solange, bis sich ein nahezu linearer Zusammenhang zwischen den X- und den Y-Daten ergibt, den man dann durch eine Regressionsgerade schätzt und dann den ursprünglichen Zsh. zwischen X- und Y- Daten durch Rücktransformation erhält. Hier ist Vorsicht bei der Interpretation geboten!

3. Darstellung mehrdimensionaler Daten mit der Gesichterdarstellung Grundlegende Aspekte: Oftmals sind einzelne Objekte (Personen, Wirkstoffe, Kredite, ) nur aufgrund der Erhebung von mehreren Eigenschaften unterscheidbar Optisch sind in Diagrammen oder Punktwolken kaum mehr als zwei Merkmale so darstellbar, dass ein Vergleich leicht möglich ist Alternative: Gesichterdarstellung (siehe Flury/Riedwyl) Beispiel: Identifiziere Falschgeld aufgrund von Messungen x 1,, x 6

Beispiel: Identifiziere Falschgeld aufgrund von Messungen x 1,, x 6 Daten der echten Scheine =>

Beispiel: Identifiziere Falschgeld aufgrund von Messungen x 1,, x 6 Eindimensional: große Überschneidungen der Wertebereiche! => Wie trennt man die Datensätze???

Beispiel: Identifiziere Falschgeld aufgrund von Messungen x 1,, x 6 Idee: Verwende menschliche Gesichter zur Darstellung mehrerer Variablen auf einen Blick! Mögliche Variablen (18 Stück (teils Paare!)) 1 Größe Augen 2 Größe Pupillen 3 Stellung Pupillen 4 Schräge Augen 5/6 Waagr./Senkr. Versch. Augen 7/8 Krümmung/Dichte A.brauen 9/10 Waagr./Senkr. Versch. A.brauen 11/12 Obere/Untere Grenze Haare 13 Untere Grenze Gesicht 14/15 Helligkeit/Schräge Haare 16 Nase 17/18 Öffnung/Krümmung Mund

Beispiel: Identifiziere Falschgeld aufgrund von Messungen x 1,, x 6 Vergleich auf einen Blick!

4. Klassifikation mit Diskriminanzanalyse Hauptziel: Finde Kriterien, um zwei (oder mehrere) Populationen aufgrund von beobachteten Daten zu trennen ( Klassifikation ). Basis: Es sind bereits Gruppen vorhanden (z.b. durch ihre Verteilung oder aber durch Daten gegeben, bei denen man die Gruppenzugehörigkeit kennt). Ziel: Entscheide, zu welcher Population P i, i=1,,k eine Beobachtung x = (x 1, x p ) Idee: Bestimme für eine Beobachtung x die jeweilige Distanz zum Zentrum der verschiedenen Gruppen und ordne die Beobachtung dann der Gruppe zu, zu der x die kleinste Entfernung besitzt Wie macht man das?

Bsp. 1: Zwei Normalverteilungen Gruppe 1 0 1 0 ( X,Y ) N, 0 0 2 Gruppe 2 2 1 0 ( X,Y ) N, 3 0 2 8 6 4 2 0-3 -2-1 0 1 2 3 4 5-2 -4

a) Klassifikation bei bekannter a-priori-verteilung und beliebiger Populationsverteilung Vor.: q i = bekannte a-priori W-keit der Population P i f i (x) = bekannte Dichten der Beobachtung x gegeben der Zugehörigkeit zu Pop.P i C(j i) = Kosten für eine Fehlklassifikation eines Individuums aus P i in P j Klassifikationsregel: Klassifiziere x in die Population P k falls für k gilt (1) qi fi ( x) C ( k i) = min qi fi ( x) C ( j i), j i k i j also wähle die Population, für die die gewichteten Kosten der Fehlklassifikation am geringsten sind. Sind insbesondere alle Fehlklassifikationskosten gleich, so wähle k gemäß (2) q f ( x) max q f ( x) =, k k i i j d.h. wähle die Population mit höchster a-posteriori W-keit.

b) Klassifikation bei bekannter a-priori-verteilung und bekannter Normalverteilung (und gleichen Fehlklassifikationskosten) Vor.: ( i) P i N µ, Σ, mit bekanntem Erwartungswertvektor und gleicher Kovarianzmatrix ( ) Klassifikationsregel: Klassifiziere x in die Population P k falls für alle j gilt q j (3) ukj ( x) ln, wobei q k ( ) ( ) (4) ( ) 1 ( k j ) 1 ( ( k ) ( j) ) 1 ( ( k ) ( j) u ) kj x : = x' Σ µ µ µ + µ ' Σ µ µ 2 bzw. 2 2 2 ( j) 1 j D x D x j k, wobei D x = x µ ' Σ x µ 2 ln q. (5) ( ) ( ) ( ) ( ) ( ( ) ) ( ) k j j j kj u heißt lineare Diskriminanzfunktion zwischen P k und P j. Die Regel heißt nach (5) auch Klassifiziere in die Population, zu deren Mittelwert der gewichtete quadratische Abstand minimal ist.

Bem.: u x = eine Im Fall gleicher a-priori W-keiten für die einzelnen Populationen ist ( ) 0 kj Hyperebene, so dass alle Beobachtungen oberhalb zu k klassifiziert werden. c) Klassifikation bei bekannter a-priori-verteilung und unbekannter Normalverteilung Verwende die Regel aus b), wobei in den Abstandsfunktionen die Mittelwerte und die Kovarianzmatrizen (bei ungleichen Kovarianzmatrizen in den Populationen) durch ihre empirischen Schätzer ersetzt werden.

5. Datenreduktion mit Hauptkomponenten- und Faktorenanalyse Idee: Oft muss man nicht einen kompletten Datensatz in seiner vollen Dimension behandeln, sondern es genügt, nur die wichtige Information zu betrachten => Datenreduktion ( Modellreduktion ) Vor.: Es liegen p-dim. Daten X = X,..., X vor, deren Komponenten nicht linear abhängig sind. ( 1 p ) Ziel: Suche Linearkombinationen (1) Uk = bk1 X 1 +... + bkp X p, so dass (2) p 2 bki = 1, i= 1 (3) Ul unkorreliert zu U 1,...,U l 1, l = 1,..., p, wobei die Varianz von U l maximal unter allen solchen Linearkombinationen sei. U i heißt dann i. Hauptkomponente von X 1,..., X p.

Bem.:a) Berechnung der Hauptkomponenten: Es sei S die (empirische) Kovarianzmatrix von X, S positiv definit mit Eigenwerten (4) λ1... λ p und zugehörigen normierten Eigenvektoren (wie in (2)) ( 1) ( p) (5) b,...,b. Dann gilt für die i. Hauptkomponente ( i) (6) U = b X i ( ) T (=> Algorithmus zur Berechnung der Hauptkomponenten) b) Die Interpretation der Hauptkomponenten ergibt sich aus den Koeffizienten der Hauptkomponententransformation B = (b (1),,b (p) ). c) Es gilt, dass die totale Varianz von X gleich der totalen Varianz von U ist, d.h. p p p (7) Var ( X ) = λ = Var ( U ) d) Datenreduktion. i i i i= 1 i= 1 i= 1 Falls die ersten j Hauptkomponenten fast die gesamte Varianz erklären, genügt es bei vielen Anwendungen nur diese Hauptkomponenten zu betrachten (=>Datenreduktion).

Beispiele (Daten Prof. Unwin (Augsburg))

Hauptkomponenten (unsere b heißen hier e ) Ist das Ergebnis wirklich überraschend? Interpretation? Varianzen der einzelnen Zeiten: Hier könnte man alle bis auf die erste Hauptkomponente weglassen.

Interpretation? Jetzt bräuchte man wohl mdsts. 3-4 Faktoren

Faktoren und Interpretation Die standardisierten Hauptkomponenten (8) 1 F j : = λ j U heißen Faktoren. Offenbar gilt 1, falls i = j (9) Cov( F i,fj ) = 0, falls i j Ziel: Bessere Interpretierbarkeit der Faktoren Varimax-Kriterium nach Kaiser: j Drehe die Faktormatrix F mit einer orthogonalen Abbildung A so, dass die rotierten Faktoren (10) F ɶ : = AF eine Kovarianzmatrix mit Einfachstruktur (nur Werte nahe 0 oder nahe ±1) besitzen. Oft in Statistik-Paketen implementiert, analytisch nur für p=2 gelöst.

6. Schluss Statistik ist wichtig zum Aufbereiten von Daten und zum wissenschaftlichen Beleg neuer (Alternativ-) Hypothesen. Sauberes statistisches Arbeiten ( Vorgehen nach Lehrbuch ) ist heutzutage wichtiger denn je. Nicht nur das Beherrschen von Standardverfahren ist nötig, es müssen auch die Grundprinzipien und Hauptideen (einseitig zweiseitig, nur ablehnen beweist, oft decken nur multiple Untersuchungen Effekte auf, ) verstanden werden Typischerweise sind echte Daten bei weitem nicht so einfach und aussagekräftig wie Lehrbuchbeispiele Statistik-Pakete (R, S, Splus, SAS, ) sind oft weit entwickelt und angenehm, aber im Detail ist ein genaues Nachlesen in der Dokumentation notwendig Und schließlich: Der gute Statistiker produziert nicht einfach viele Zahlen, er versteht sie auch und kann sie interpretieren