Statistische Methoden: Tests, Regression und multivariate Verfahren

Größe: px
Ab Seite anzeigen:

Download "Statistische Methoden: Tests, Regression und multivariate Verfahren"

Transkript

1 (CM)²-Nachwuchsring, Workshop Statistik, 25.Januar 2013 Statistische Methoden: Tests, Regression und multivariate Verfahren Ralf Korn ((CM)², TU Kaiserslautern, Fraunhofer ITWM)

2 0. Einige Probleme aus der Anwendung mit Statistikbezug Biologie: Tests zur Unterscheidung verschiedener Populationen Auswirkungen verschiedener Behandlungen (z.b. Düngung) Materialdynamik/-erzeugung/-auswahl Vorhersage von Eigenschaften/Verhalten von Material bzw. von Grenzwerten Finanz- und Versicherungsmathematik Kreditbewertung ( Rating ), Einteilung in verschiedenen Ausfallklassen Erkennen von Falschgeld Aufgaben: Vergleich, Vorhersage, Klassifikation => Tests, Regression, mehrdimensionale Daten, Diskriminanzanalyse, Hauptkomponentenanalyse,

3 1. Wichtige Testverfahren - Grundlagen Was ist ein statistischer Test? Ein Test überprüft anhand relevanter Daten, ob eine Hypothese ( Nullhypothese ) mit einer gegebenen Restfehlerwahrscheinlichkeit ( Siginifikanzniveau ) abgelehnt werden kann oder nicht. Das fälschliche Ablehnen dieser Hypothese wird als Fehler 1. Art bezeichnet, das fälschliche Beibehalten als Fehler 2.Art Bsp. 1: (ähnlich, wie viele Bsp. aus Statistik II für WIs (Franke)) Ein Hersteller eines neuen Lacks soll eine mittlere Trockenzeit von µ 0 =10 min haben. Um das zu überprüfen, nimmt ein Institut 50 Proben und erhält das Stichprobenmittel und die Stichprobenstandardabweichung von : X = 10, 89 min, S = 1, 54 min Klar: das Stichprobenmittel ist größer als 10 min, aber ist das nur ein Messfehler? => Nötig: Annahmen über die Verteilung der Trockenzeiten X i, i = 1,..., 50. Welche Restfehlerw-keit soll beim Ablehnen der Nullhypothese H 0 :µ =10 nicht überschritten werden ( Signifikanzniveau )?

4 1. Wichtige Testverfahren - Die t-tests a) Der 1-Stichproben-t-Test Wann verwendbar? Vergleich des Mittelwerts einer normal verteilten Stichprobe mit gegebenem Wert µ 0 Was wird als Input benötigt? N = Stichprobengröße, µ 0 = Vergleichswert für den Mittelwert X N = Stichprobenmittelwert, 2 S N = Stichprobenstandardabweichung Was wird getestet? i) H 1 : µ > µ 0 H 0 : µ = µ 0 vs. ii) H 1 : µ < µ 0 iii) H 1 : µ µ 0 Bsp.1 (Fortsetzung) Wir nehmen für die Trockenzeit des Lacks X i an, dass gilt Xi ( 2 ) N µ,σ, wobei σ² unbekannt ist und die Nullhypothese H 0 :µ =10 überprüft werden soll.

5 1-Stichproben-t-Test (X 1,..., X N u.i.v. N(µ, σ²), σ² unbekannt) 1. Hypothesenwahl: Wähle die zu testende Hypothese i) H 1 : µ > µ 0 H 0 : µ = µ 0 vs. ii) H 1 : µ < µ 0 iii) H 1 : µ µ 0 2. Wahl des Signifikanzniveaus: Lege α fest. 3. Berechnung der Teststatistik: X N µ 0 Berechne t : = N SN 4. Entscheidung: t > t N 11, α, im Falli) Lehne H 0 ab, falls t < t N 1, α, im Fallii), t > t N 11, α / 2, im Falliii) sonst behalte H 0 bei.

6 Bem.: a) Gaaanz wichtig: Teste nach Möglichkeit immer einseitig! b) Der 1-Stichproben-t-Test kann auch für den Vergleich der Mittelwerte zweier verbundener Stichproben (also immer Paare von zwei abhängigen Beobachtungen ( Wert vor Behandlung, Wert nach Behandlung )) verwendet werden, wenn man annimmt, dass die Differenzen der beiden jeweiligen Komponenten normal verteilt sind. Bsp. 1 (Fortsetzung): Wir vermuten µ>10 und wählen H 1 : µ >10. Wir wählen das S-niveau α=0,05. 10, => t : = 50 = 4, 087 > 1, 645 = t49; , 54 Auf dem S-niveau 0,05 wurde gezeigt, dass die mittlere Trockenzeit größer 10 min ist. Bsp. 2 (Beeinflusst ein Medikament den Blutdruck) N = 20 Personen, X i = Blutdruck der i. Person vor Medikamenteneinnahme, Y i = Blutdruck der i. Person nach Medikamenteneinnahme Bilde die Differenzen der beiden Werte und teste für die Differenzen: H 0 : µ = 0 ( keinen Einfluss ) gegen H 1 : µ 0 ( Einfluss )

7 Wähle als Signifikanzniveau α= 0,01 Berechne: => D = 10, 8 min, S = 20, 5 min t , 8 = 20 = < 2,862 = t 20, 5 19; => H 0 kann nicht abgelehnt werden, obwohl vieles für die Ablehnung spricht!!! Was ist ein p-wert? Der p-wert ist das Signifikanzniveau (also die Schranke für den Fehler 1.Art), so dass der Test bei den vorliegenden Daten gerade noch ablehnen würde, für kleinere Signifikanzniveaus aber nicht (wird oft von Statistikprogrammpaketen angegeben) z.b.: p-wert = => Die Nullhypothese wird dann abgelehnt, wenn das vor (!) dem Durchführen des Tests festgelegte Signifikanzniveau größer/gleich 0,0432 ist. In Bsp. 2 ist der p-wert kleiner (!) als 0,05 (!!!).

8 1. Wichtige Testverfahren - Die t-tests b) Der 2-Stichproben-t-Test Wann verwendbar? Vergleich der Mittelwerte zweier unabhängiger normal verteilter Stichproben mit gleicher Varianz. Was wird als Input benötigt? N, M = Stichprobengrößen, X N, Y M = Stichprobenmittelwerte, Was wird getestet? i) H 1 : µ 1 > µ 2 H 0 : µ 1 = µ 2 vs. ii) H 1 : µ 1 < µ 2 iii) H 1 : µ 1 µ 2 2 S N, 2 S M = Stichprobenstandardabweichungen

9 2-Stichproben-t-Test (X 1,...,X N u.i.v. N(µ 1,σ²), Y 1,..., Y M u.i.v. N(µ 2,σ²), σ² unbekannt) 1. Hypothesenwahl: Wähle die zu testende Hypothese i) H 1 : µ 1 > µ 2 H 0 : µ 1 = µ 2 vs. ii) H 1 : µ 1 < µ 2 iii) H 1 : µ 1 µ 2 2. Wahl des Signifikanzniveaus: Lege α fest. 3. Berechnung der Teststatistik: ( ) + ( ) 2 2 N M 1 1 X N YM S N 1 S M 1 Berechne t : = +, S N M N,M : = SN,M N + M 2 4. Entscheidung: t > t, im Falli) Lehne H 0 ab, falls N + M 2, 1 α t < t, im Fallii) N + M 2, α t > t N + M 2, 1 α / 2, im Falliii) sonst behalte H 0 bei.,

10 Bsp. 3: Es wird vermutet, dass sich der elektrische Widerstand von Kupfer senkt, wenn es mit einem geringen Anteil andrer Metalle legiert wird. H 0 : µ 1 = µ 2 vs. ii) H 1 : µ 1 > µ 2 Gewähltes Signifikanzniveau α= 0,05 Experiment: 60 Messungen X 1,, X 60 bei Standardkupferdraht, 40 Messungen Y 1,, Y 40 bei legiertem Kupferdraht Zahlen: X = 0, 125, Y = 0, 114, S = 0, 005, S = 0, ,X 40,X t : = + 0, 125 0, 114 = 8, 18 > 1, 644 = t 29, => ; also kann auf dem S-niveau von 5% festgestellt werden, dass der legierte Kupferdraht einen niedrigeren elektrischen Widerstand besitzt. Achtung: Es muss eigentlich noch mit einem F-Test überprüft werden, ob die Hypothese gleicher Varianzen in beiden Gruppen aufrecht erhalten werden kann!!!,

11 1. Wichtige Testverfahren - Die t-tests c) Einige Kommentare Bei den t-tests müssen die Daten nicht zwingend normal-verteilt sein, sondern lediglich die Mittelwerte der Daten! Die t-tests funktionieren deshalb oft auch gut bei nicht-normal verteilten Daten, insbesonders bei großen Stichprobengrößen Im Fall nicht-gleicher Varianzen existieren im 2-Stichproben-t-Test geeignete Varianten, so dass er mit diesen durchgeführt werden kann Auf den Mehrstichprobenfall in Form der Varianzanalyse wird hier nicht eingegangen

12 1. Wichtige Testverfahren - Die Rang-Tests Will man / Kann man bei vorhandenen Daten keine Verteilungsannahme unterstellen, so bieten die Rang-Tests eine sehr gute Alternative zu den t-tests an (selbst, wenn tatsächlich Normalverteilung vorliegt!) Prinzipielle Vorgehensweise: Ordne die vorhandenen Daten gemäß ihrer Werte an, ordne den Daten ihre jeweiligen Ränge innerhalb der Gesamtstichprobe zu, vergleiche die ermittelten Rangsummen mit Werten, die man bei Gültigkeit der Nullhypothese erwartet hätte.

13 1. Wichtige Testverfahren - Die Rang-Tests a) Der Vorzeichen-Rang-Test Wann verwendbar? Ein Stichprobe mit mindestens ordinalen Daten wird auf Symmetrie um einen bestimmten Wert ξ 0 getestet (bei Normalverteilung Test für den Mittelwert), wobei wir voraussetzen, dass die zugrunde liegende Verteilung symmetrisch ist. Was wird als Input benötigt? R = Rangzahl von X in der Gesamtstichprobe (beginnend mit der kleinsten Zahl) i i Was wird getestet? Teste, ob die Verteilung einer Stichprobe X 1,, X N symmetrisch um den Wert ξ 0 ist. i) H 1 : ξ > ξ 0 H 0 : ξ = ξ 0 vs. ii) H 1 : ξ < ξ 0 iii) H 1 : ξ ξ 0

14 Vorzeichen-RangTest (X 1,...,X N Stichprobe (von mdst. ordinalen Daten) mit symmetrischer Verteilung um einen Punkt ξ) 1. Hypothesenwahl: Wähle die zu testende Hypothese i) H 1 : ξ > ξ 0 H 0 : ξ = ξ 0 vs. ii) H 1 : ξ < ξ 0 iii) H 1 : ξ ξ 0 2. Wahl des Signifikanzniveaus: Lege α fest. 3. Berechnung der Teststatistik: Ordne jedem X i seinen Rang Ri in der Stichprobe zu (beginnend mit dem kleinsten Wert) und bilde T + : R = 4. Entscheidung: (bei N 20) + T > w, im Falli) Lehne H 0 ab, falls + i:x N, 1 α i >ξ > N, 1 α / 2 oder < N, α / 2 i T < w, im Fallii) N, α T w T w, im Falliii) sonst behalte H 0 bei.,

15 Bem.: a) Bei gleichen Werten ordnen wir den vorkommenden Werten die mittlere Rangzahl zu. b) Für kleine N sind die Quantile w N,a tabelliert. c) Für N >> 20 kann man statt T + die Teststatistik (*) T* : = + ( + ) ( + )( + ) T N N 1 / 4 N N 1 2N 1 / 24 verwenden, die asymptotisch N(0,1)-verteilt ist. Man vergleicht dann in 4. mit den Quantilen der N(0,1)-Verteilung. Diese Approximation gilt nur, falls in den Daten keine gleichen Werte auftreten (sonst ist eine Modifikation zu wählen (hier nicht behandelt). Beispiel: Die folgenden Daten seien Punktzahlen aus einer Klausur. Wir testen, ob sie (mit α=0.05) symmetrisch um ξ 0 = 61 sind: 72, 55,67, 53, 69, 71, 55, 68, 65, 72, 69 T + = 53. Da w11; w11; werden = = gilt, kann die Nullhypothese nicht abgelehnt

16 1. Wichtige Testverfahren - Die Rang-Tests b) Der Wilcoxon-Rangsummen-Test (Mann-Whitney-Test, U-Test, ) als Alternative zum 2-Stichproben-t-Test Wann verwendbar? Vergleich, ob zwei Stichproben X 1,, X n und Y 1,, Y m dieselbe Verteilung besitzen, wobei vorausgesetzt wird, dass mindestens ordinale Daten vorliegen (und die Verteilungsfunktionen F(x) = G(x +c) erfüllen) Vorgehen Verteile Ränge an die Gesamtstichprobe (hoher Rang = guter Wert), S 1,, S n seien die Ränge der ersten Stichprobe N = n + m, W S s = S Rangsumme der ersten Stichprobe i= 1 1 W W n( n 1) x,y S 2 i = + Mann-Whitney-Statistik

17 Was wird getestet? i) H 1 : c > 0 H 0 : c = 0 vs. ii) H 1 : c < 0 iii) H 1 : c 0 Um die Nullhypothese zu testen, kann man für kleine n, m auf tabellierte Werte wn,m; der Mann-Whitney-U-Statistik zurück greifen. Für n, m 4 und N 20 gilt die Normalapproximation ( ) (1) ( 1 ) nm nm n + m + Wx,y N,, 2 12 woraus folgt, dass (2) nm Wx,y 2 Z = N 0, 1 nm( n+ m+ 1) 12 ( ) gilt und man mit den Quantilen der Standardnormalverteilung vergleichen kann. α

18 Wilcoxon-Rangsummen-Test (X 1,, X n und Y 1,, Y m Stichproben (von mdst. ordinalen Daten) mit Verteilungsfunktionen F(x) = G(x +c) für ein c) 1. Hypothesenwahl: Wähle die zu testende Hypothese i) H 1 : c > 0 H 0 : c = 0 vs. ii) H 1 : c < 0 iii) H 1 : c 0 2. Wahl des Signifikanzniveaus: Lege α fest. 3. Berechnung der Teststatistik: Verteile Ränge an die Gesamtstichprobe, S 1,, S n seien die Ränge der ersten Stichprobe und berechne W S s 1 = S, W = W n( n + 1) i= 1 i x,y S 4. Entscheidung: (bei n+m < 20 oder n < 4 oder m < 4) W > w, im Falli) Lehne H 0 ab, falls sonst behalte H 0 bei. x,y 2 n,m; 1 α W < w, im Fallii) x,y n,m; α W > w oder W < w, im Falliii) x,y n,m; 1 α / 2 x,y n,m; α / 2,

19 Bem.: a) Ordnet man bei nicht eindeutigen Rängen einzelnen Beobachtungen den jeweils mittleren Rang zu, so bleiben die obigen Ergebnisse approximativ richtig. b) Selbst bei Vorliegen normal verteilter Daten ist der Wilcoxon-Rangsummen-Test fast genauso gut wie der 2-Stichproben-t-Test. Beispiel: Ist das Nettoeinkommen geschlechterabhängig? Daten der Allgemeinen Bevölkerungsumfrage der Sozialwissenschaften 2006 mit 20 zufälligen Personen (Quelle: wikipedia) Rang Nettoeinkommen Geschlecht M W M W M W M M W W M M W M W M M M M M 1 n = 13, m = 7, ( ) W = W n n + 1 = 43 > 20 = w x,y S 2 13, 7; 0, 95 => Man kann auf dem 5%-Niveau davon ausgehen, dass Männer ein höheres Nettoeinkommen haben.

20 2. Regressionsverfahren Hauptziel der Regression: Ermittele aus Datenpaaren (x i, y i ) eine funktionale Beziehung (1) y g ( x) Fehler = +, um y-werte aus gegebenen x-werten vorhersagen zu können. => Gesucht ist also die Funktion g(.) (=> Unterschied zu Interpolation!) Vorgehen: Wähle eine geeignete Funktionenfamilie aus, deren Mitglieder g θ, θ Θ durch einen (evtl. mehrdim.) Parameter parametrisiert sind Bestimme den Parameter ( ) 2 i θ i (2) h N ( θ ) : = y g ( x ) i= 1 * θ, so dass die Summe der Fehlerquadrate minimal für θ Θ wird ( Methode der kleinsten Quadrate ).

21 Wann ist dieses Problem explizit lösbar? Spezialfall Lineare Regression θ = b,...,b linear in g(.) ein, also gilt z.b. Gehen die Parameter ( 1 m ) (3) ( ) ( ) y b f x... b f x, i,...,n, i = 1 1 i + + m m i + ε i = 1 wobei die f i (.) bekannte ( gegebene ) Funktionen und die ε i Fehler sind mit 2 (4) u.i.v., E ( ) 0, Var ( ) ε ε = ε = ν, i i i so spricht man von linearer Regression. Beispiele: (5) y = b1 + b2 x + ε, i = 1,...,n, Regressionsgerade i i i m i i m i (6) y = b1 + b2 x + b x + ε, i = 1,...,n, Regressionspolynom d m d Trig. Regr.funkt. (7) 1 ( ) ( ) y = b + b cos ϕ x + c sin ψ x + ε, i = 1,...,n, i j j i j j i i j= 1 j= 1

22 Im Fall der Regressionsgerade gilt: (8) ( y y )( x x ) n * i= 1 i n i n * * 2 = 2 1 = n n 2 ( x ) i 1 i x = n b, b y b x d.h. die Steigung ergibt sich als Stichprobenkovarianz von x und y geteilt durch die Stichprobenvarianz von x, der y-achsenabschnitt ist so gewählt, dass der tatsächliche Mittelwert der y-werte gleich dem vorhergesagten Mittelwert entspricht. n, Bsp: Größe und Gewicht Daten von 10 Männern (Größe cm, Gewicht kg) (187,72), (170,60), (180,73), (184,74) (178,72), (180,70), (172,62), (176,70) (186,80), (177,67) => Regressionsgerade: (9) y = x

23 Allgemeiner Fall Nicht-lineare Regression a) Logit- und Probit-Modell zur Vorhersage von Wahrscheinlichkeiten Idee: Schätze z.b. Ausfallwahrscheinlichkeiten von Krediten aus Fundamentaldaten Problem: W-keiten sollen zwischen 0 und 1 liegen, also Regressionsgerade ungeeignet Ansatz: Wähle als Regressionsfunktion eine Wahrscheinlichkeitsverteilung, deren Parameter in Abhängigkeit von Inputdaten geschätzt werden sollen 1 = i = i = = Logit-Modell ( ( ( i) ( i) )) 1+ exp β 0 + β 1 x βmxm ( i) ( i) P Y = 1 x = P y = 1 = Φ β + β x β x Probit-Modell (10) P ( Y 1 x ) P ( y 1) (11) ( ) ( ) ( ) i i m m Beachte: Die zu schätzenden Parameter stehen innerhalb einer nicht-linearen Funktion! Man erhält die Parameter durch Anwendung eines nicht-linearen Optimierungsverfahrens (z.b. Newton-Raphson,.) b) Allgemeiner Fall findet z.b. Anwendung bei Parameterkalibrierung/Parameteridentifikation

24 Bem.: a) Wann gilt bei der Regression ein linearer Zusammenhang? Im Fall einer Regressionsgeraden geht man von linearem Zusammenhang aus, wenn (11) corr(y, X)² 0,8 gilt ( Faustregel ). Im allgemeinen multiplen Modell ( 1) ( p) (12) Y = b + b X b X + ε i 0 1 i p i i benötigt man den Begriff der multiplen Korrelation, für den dann ebenfalls ( ) ( ) (13) ( 1 ) 2 p 1 p ρ Y, X,..., X : = ρ Y,E Y X,..., X 0, 8 gelten muss. ( ) 2 ( ) ( ( ) ( ) ) b) Im Fall normal-verteilter Fehler sind die kleinsten Quadrate-Schätzer bei der linearen Regression auch Maximum-Likelihood-Schätzer. c) Oft transformiert man in Anwendungen die Y-Daten solange, bis sich ein nahezu linearer Zusammenhang zwischen den X- und den Y-Daten ergibt, den man dann durch eine Regressionsgerade schätzt und dann den ursprünglichen Zsh. zwischen X- und Y- Daten durch Rücktransformation erhält. Hier ist Vorsicht bei der Interpretation geboten!

25 3. Darstellung mehrdimensionaler Daten mit der Gesichterdarstellung Grundlegende Aspekte: Oftmals sind einzelne Objekte (Personen, Wirkstoffe, Kredite, ) nur aufgrund der Erhebung von mehreren Eigenschaften unterscheidbar Optisch sind in Diagrammen oder Punktwolken kaum mehr als zwei Merkmale so darstellbar, dass ein Vergleich leicht möglich ist Alternative: Gesichterdarstellung (siehe Flury/Riedwyl) Beispiel: Identifiziere Falschgeld aufgrund von Messungen x 1,, x 6

26 Beispiel: Identifiziere Falschgeld aufgrund von Messungen x 1,, x 6 Daten der echten Scheine =>

27 Beispiel: Identifiziere Falschgeld aufgrund von Messungen x 1,, x 6 Eindimensional: große Überschneidungen der Wertebereiche! => Wie trennt man die Datensätze???

28 Beispiel: Identifiziere Falschgeld aufgrund von Messungen x 1,, x 6 Idee: Verwende menschliche Gesichter zur Darstellung mehrerer Variablen auf einen Blick! Mögliche Variablen (18 Stück (teils Paare!)) 1 Größe Augen 2 Größe Pupillen 3 Stellung Pupillen 4 Schräge Augen 5/6 Waagr./Senkr. Versch. Augen 7/8 Krümmung/Dichte A.brauen 9/10 Waagr./Senkr. Versch. A.brauen 11/12 Obere/Untere Grenze Haare 13 Untere Grenze Gesicht 14/15 Helligkeit/Schräge Haare 16 Nase 17/18 Öffnung/Krümmung Mund

29 Beispiel: Identifiziere Falschgeld aufgrund von Messungen x 1,, x 6 Vergleich auf einen Blick!

30 4. Klassifikation mit Diskriminanzanalyse Hauptziel: Finde Kriterien, um zwei (oder mehrere) Populationen aufgrund von beobachteten Daten zu trennen ( Klassifikation ). Basis: Es sind bereits Gruppen vorhanden (z.b. durch ihre Verteilung oder aber durch Daten gegeben, bei denen man die Gruppenzugehörigkeit kennt). Ziel: Entscheide, zu welcher Population P i, i=1,,k eine Beobachtung x = (x 1, x p ) Idee: Bestimme für eine Beobachtung x die jeweilige Distanz zum Zentrum der verschiedenen Gruppen und ordne die Beobachtung dann der Gruppe zu, zu der x die kleinste Entfernung besitzt Wie macht man das?

31 Bsp. 1: Zwei Normalverteilungen Gruppe ( X,Y ) N, Gruppe ( X,Y ) N,

32 a) Klassifikation bei bekannter a-priori-verteilung und beliebiger Populationsverteilung Vor.: q i = bekannte a-priori W-keit der Population P i f i (x) = bekannte Dichten der Beobachtung x gegeben der Zugehörigkeit zu Pop.P i C(j i) = Kosten für eine Fehlklassifikation eines Individuums aus P i in P j Klassifikationsregel: Klassifiziere x in die Population P k falls für k gilt (1) qi fi ( x) C ( k i) = min qi fi ( x) C ( j i), j i k i j also wähle die Population, für die die gewichteten Kosten der Fehlklassifikation am geringsten sind. Sind insbesondere alle Fehlklassifikationskosten gleich, so wähle k gemäß (2) q f ( x) max q f ( x) =, k k i i j d.h. wähle die Population mit höchster a-posteriori W-keit.

33 b) Klassifikation bei bekannter a-priori-verteilung und bekannter Normalverteilung (und gleichen Fehlklassifikationskosten) Vor.: ( i) P i N µ, Σ, mit bekanntem Erwartungswertvektor und gleicher Kovarianzmatrix ( ) Klassifikationsregel: Klassifiziere x in die Population P k falls für alle j gilt q j (3) ukj ( x) ln, wobei q k ( ) ( ) (4) ( ) 1 ( k j ) 1 ( ( k ) ( j) ) 1 ( ( k ) ( j) u ) kj x : = x' Σ µ µ µ + µ ' Σ µ µ 2 bzw ( j) 1 j D x D x j k, wobei D x = x µ ' Σ x µ 2 ln q. (5) ( ) ( ) ( ) ( ) ( ( ) ) ( ) k j j j kj u heißt lineare Diskriminanzfunktion zwischen P k und P j. Die Regel heißt nach (5) auch Klassifiziere in die Population, zu deren Mittelwert der gewichtete quadratische Abstand minimal ist.

34 Bem.: u x = eine Im Fall gleicher a-priori W-keiten für die einzelnen Populationen ist ( ) 0 kj Hyperebene, so dass alle Beobachtungen oberhalb zu k klassifiziert werden. c) Klassifikation bei bekannter a-priori-verteilung und unbekannter Normalverteilung Verwende die Regel aus b), wobei in den Abstandsfunktionen die Mittelwerte und die Kovarianzmatrizen (bei ungleichen Kovarianzmatrizen in den Populationen) durch ihre empirischen Schätzer ersetzt werden.

35 5. Datenreduktion mit Hauptkomponenten- und Faktorenanalyse Idee: Oft muss man nicht einen kompletten Datensatz in seiner vollen Dimension behandeln, sondern es genügt, nur die wichtige Information zu betrachten => Datenreduktion ( Modellreduktion ) Vor.: Es liegen p-dim. Daten X = X,..., X vor, deren Komponenten nicht linear abhängig sind. ( 1 p ) Ziel: Suche Linearkombinationen (1) Uk = bk1 X bkp X p, so dass (2) p 2 bki = 1, i= 1 (3) Ul unkorreliert zu U 1,...,U l 1, l = 1,..., p, wobei die Varianz von U l maximal unter allen solchen Linearkombinationen sei. U i heißt dann i. Hauptkomponente von X 1,..., X p.

36 Bem.:a) Berechnung der Hauptkomponenten: Es sei S die (empirische) Kovarianzmatrix von X, S positiv definit mit Eigenwerten (4) λ1... λ p und zugehörigen normierten Eigenvektoren (wie in (2)) ( 1) ( p) (5) b,...,b. Dann gilt für die i. Hauptkomponente ( i) (6) U = b X i ( ) T (=> Algorithmus zur Berechnung der Hauptkomponenten) b) Die Interpretation der Hauptkomponenten ergibt sich aus den Koeffizienten der Hauptkomponententransformation B = (b (1),,b (p) ). c) Es gilt, dass die totale Varianz von X gleich der totalen Varianz von U ist, d.h. p p p (7) Var ( X ) = λ = Var ( U ) d) Datenreduktion. i i i i= 1 i= 1 i= 1 Falls die ersten j Hauptkomponenten fast die gesamte Varianz erklären, genügt es bei vielen Anwendungen nur diese Hauptkomponenten zu betrachten (=>Datenreduktion).

37 Beispiele (Daten Prof. Unwin (Augsburg))

38 Hauptkomponenten (unsere b heißen hier e ) Ist das Ergebnis wirklich überraschend? Interpretation? Varianzen der einzelnen Zeiten: Hier könnte man alle bis auf die erste Hauptkomponente weglassen.

39 Interpretation? Jetzt bräuchte man wohl mdsts. 3-4 Faktoren

40 Faktoren und Interpretation Die standardisierten Hauptkomponenten (8) 1 F j : = λ j U heißen Faktoren. Offenbar gilt 1, falls i = j (9) Cov( F i,fj ) = 0, falls i j Ziel: Bessere Interpretierbarkeit der Faktoren Varimax-Kriterium nach Kaiser: j Drehe die Faktormatrix F mit einer orthogonalen Abbildung A so, dass die rotierten Faktoren (10) F ɶ : = AF eine Kovarianzmatrix mit Einfachstruktur (nur Werte nahe 0 oder nahe ±1) besitzen. Oft in Statistik-Paketen implementiert, analytisch nur für p=2 gelöst.

41 6. Schluss Statistik ist wichtig zum Aufbereiten von Daten und zum wissenschaftlichen Beleg neuer (Alternativ-) Hypothesen. Sauberes statistisches Arbeiten ( Vorgehen nach Lehrbuch ) ist heutzutage wichtiger denn je. Nicht nur das Beherrschen von Standardverfahren ist nötig, es müssen auch die Grundprinzipien und Hauptideen (einseitig zweiseitig, nur ablehnen beweist, oft decken nur multiple Untersuchungen Effekte auf, ) verstanden werden Typischerweise sind echte Daten bei weitem nicht so einfach und aussagekräftig wie Lehrbuchbeispiele Statistik-Pakete (R, S, Splus, SAS, ) sind oft weit entwickelt und angenehm, aber im Detail ist ein genaues Nachlesen in der Dokumentation notwendig Und schließlich: Der gute Statistiker produziert nicht einfach viele Zahlen, er versteht sie auch und kann sie interpretieren

Statistik II für Betriebswirte Vorlesung 3

Statistik II für Betriebswirte Vorlesung 3 PD Dr. Frank Heyde TU Bergakademie Freiberg Institut für Stochastik Statistik II für Betriebswirte Vorlesung 3 5. November 2013 Beispiel: Aktiensplit (Aczel & Sounderpandan, Aufg. 14-28) Ein Börsenanalyst

Mehr

9. Schätzen und Testen bei unbekannter Varianz

9. Schätzen und Testen bei unbekannter Varianz 9. Schätzen und Testen bei unbekannter Varianz Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Schätzen und Testen bei unbekannter Varianz Wenn wir die Standardabweichung σ nicht kennen,

Mehr

Allgemeine Regressionsanalyse. Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl. deterministisch

Allgemeine Regressionsanalyse. Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl. deterministisch Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 9.1 Allgemeine Regressionsanalyse Daten (X j, Y j ), j = 1,..., N unabhängig Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl.

Mehr

Statistik II für Betriebswirte Vorlesung 2

Statistik II für Betriebswirte Vorlesung 2 PD Dr. Frank Heyde TU Bergakademie Freiberg Institut für Stochastik Statistik II für Betriebswirte Vorlesung 2 21. Oktober 2014 Verbundene Stichproben Liegen zwei Stichproben vor, deren Werte einander

Mehr

Eine Einführung in R: Statistische Tests

Eine Einführung in R: Statistische Tests Eine Einführung in R: Statistische Tests Bernd Klaus, Verena Zuber Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.uni-leipzig.de/ zuber/teaching/ws12/r-kurs/

Mehr

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 1 Einführung in die statistische Datenanalyse Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 2 Gliederung 1.Grundlagen 2.Nicht-parametrische Tests a. Mann-Whitney-Wilcoxon-U Test b. Wilcoxon-Signed-Rank

Mehr

12. Vergleich mehrerer Stichproben

12. Vergleich mehrerer Stichproben 12. Vergleich mehrerer Stichproben Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Häufig wollen wir verschiedene Populationen, Verfahren, usw. miteinander vergleichen. Beipiel: Vergleich

Mehr

Multivariate Statistik

Multivariate Statistik Hermann Singer Multivariate Statistik 1 Auflage 15 Oktober 2012 Seite: 12 KAPITEL 1 FALLSTUDIEN Abbildung 12: Logistische Regression: Geschätzte Wahrscheinlichkeit für schlechte und gute Kredite (rot/blau)

Mehr

Einfache statistische Testverfahren

Einfache statistische Testverfahren Einfache statistische Testverfahren Johannes Hain Lehrstuhl für Mathematik VIII (Statistik) 1/29 Hypothesentesten: Allgemeine Situation Im Folgenden wird die statistische Vorgehensweise zur Durchführung

Mehr

Einige Statistische Tests für den Ein- Zwei- und k-stichprobenfall (Nach Sachs, Stat. Meth.)

Einige Statistische Tests für den Ein- Zwei- und k-stichprobenfall (Nach Sachs, Stat. Meth.) ue biostatistik: nichtparametrische testverfahren / ergänzung 1/6 h. Lettner / physik Statistische Testverfahren Einige Statistische Tests für den Ein- Zwei- und k-stichprobenfall (Nach Sachs, Stat. Meth.)

Mehr

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über Güte von s Grundlegendes zum Konzept der Güte Ableitung der Gütefunktion des Gauss im Einstichprobenproblem Grafische Darstellung der Gütefunktionen des Gauss im Einstichprobenproblem Ableitung der Gütefunktion

Mehr

Business Value Launch 2006

Business Value Launch 2006 Quantitative Methoden Inferenzstatistik alea iacta est 11.04.2008 Prof. Dr. Walter Hussy und David Tobinski UDE.EDUcation College im Rahmen des dokforums Universität Duisburg-Essen Inferenzstatistik Erläuterung

Mehr

Motivation. Wilcoxon-Rangsummentest oder Mann-Whitney U-Test. Wilcoxon Rangsummen-Test Voraussetzungen. Bemerkungen

Motivation. Wilcoxon-Rangsummentest oder Mann-Whitney U-Test. Wilcoxon Rangsummen-Test Voraussetzungen. Bemerkungen Universität Karlsruhe (TH) Forschungsuniversität gegründet 825 Wilcoxon-Rangsummentest oder Mann-Whitney U-Test Motivation In Experimenten ist die Datenmenge oft klein Daten sind nicht normalverteilt Dann

Mehr

Statistische Verfahren für das Data Mining in einem Industrieprojekt

Statistische Verfahren für das Data Mining in einem Industrieprojekt Statistische Verfahren für das Data Mining in einem Industrieprojekt Thorsten Dickhaus Forschungszentrum Jülich GmbH Zentralinstitut für Angewandte Mathematik Telefon: 02461/61-4193 E-Mail: th.dickhaus@fz-juelich.de

Mehr

Skriptum zur Veranstaltung. Quantitative Methoden (Mathematik/Statistik) Teil Induktive Statistik. 1. Version (mehr Draft als Skriptum)

Skriptum zur Veranstaltung. Quantitative Methoden (Mathematik/Statistik) Teil Induktive Statistik. 1. Version (mehr Draft als Skriptum) Skriptum zur Veranstaltung Quantitative Methoden (Mathematik/Statistik) Teil Induktive Statistik 1. Version (mehr Draft als Skriptum) Anmerkungen, Aufzeigen von Tippfehlern und konstruktive Kritik erwünscht!!!

Mehr

Analytische Statistik I. Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2009/10

Analytische Statistik I. Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2009/10 Analytische Statistik I Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2009/10 Testen Anpassungstests (goodness of fit) Weicht eine gegebene Verteilung signifikant von einer bekannten

Mehr

Füllmenge. Füllmenge. Füllmenge. Füllmenge. Mean = 500,0029 Std. Dev. = 3,96016 N = 10.000. 485,00 490,00 495,00 500,00 505,00 510,00 515,00 Füllmenge

Füllmenge. Füllmenge. Füllmenge. Füllmenge. Mean = 500,0029 Std. Dev. = 3,96016 N = 10.000. 485,00 490,00 495,00 500,00 505,00 510,00 515,00 Füllmenge 2.4 Stetige Zufallsvariable Beispiel. Abfüllung von 500 Gramm Packungen einer bestimmten Ware auf einer automatischen Abfüllanlage. Die Zufallsvariable X beschreibe die Füllmenge einer zufällig ausgewählten

Mehr

Multinomiale logistische Regression

Multinomiale logistische Regression Multinomiale logistische Regression Die multinomiale logistische Regression dient zur Schätzung von Gruppenzugehörigkeiten bzw. einer entsprechenden Wahrscheinlichkeit hierfür, wobei als abhänginge Variable

Mehr

Melanie Kaspar, Prof. Dr. B. Grabowski 1

Melanie Kaspar, Prof. Dr. B. Grabowski 1 7. Hypothesentests Ausgangssituation: Man muss sich zwischen 2 Möglichkeiten (=Hypothesen) entscheiden. Diese Entscheidung soll mit Hilfe von Beobachtungen ( Stichprobe ) getroffen werden. Die Hypothesen

Mehr

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. Excel Edition. ^ Springer Spektrum

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. Excel Edition. ^ Springer Spektrum Franz Kronthaler Statistik angewandt Datenanalyse ist (k)eine Kunst Excel Edition ^ Springer Spektrum Inhaltsverzeichnis Teil I Basiswissen und Werkzeuge, um Statistik anzuwenden 1 Statistik ist Spaß 3

Mehr

Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel

Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel 16.11.01 MP1 - Grundlagen quantitativer Sozialforschung - (4) Datenanalyse 1 Gliederung Datenanalyse (inferenzstatistisch)

Mehr

Willkommen zur Vorlesung Statistik (Master)

Willkommen zur Vorlesung Statistik (Master) Willkommen zur Vorlesung Statistik (Master) Thema dieser Vorlesung: Verteilungsfreie Verfahren Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften

Mehr

25. Januar 2010. Ruhr-Universität Bochum. Methodenlehre III, WS 2009/2010. Prof. Dr. Holger Dette. 4. Multivariate Mittelwertvergleiche

25. Januar 2010. Ruhr-Universität Bochum. Methodenlehre III, WS 2009/2010. Prof. Dr. Holger Dette. 4. Multivariate Mittelwertvergleiche Ruhr-Universität Bochum 25. Januar 2010 1 / 75 2 / 75 4.1 Beispiel: Vergleich von verschiedenen Unterrichtsmethoden Zwei Zufallsstichproben (A und B) mit je 10 Schülern und 8 Schülern Gruppe A wird nach

Mehr

Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression

Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression Speziell im Zusammenhang mit der Ablehnung der Globalhypothese werden bei einer linearen Einfachregression weitere Fragestellungen

Mehr

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren)

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Multiple Regression 1 Was ist multiple lineare Regression? Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Annahme: Der Zusammenhang

Mehr

Überblick über die Verfahren für Ordinaldaten

Überblick über die Verfahren für Ordinaldaten Verfahren zur Analyse ordinalskalierten Daten 1 Überblick über die Verfahren für Ordinaldaten Unterschiede bei unabhängigen Stichproben Test U Test nach Mann & Whitney H Test nach Kruskal & Wallis parametrische

Mehr

Einleitung 19. Teil I Datenanalyse und Modellbildung Grundlagen 25

Einleitung 19. Teil I Datenanalyse und Modellbildung Grundlagen 25 Inhaltsverzeichnis Einleitung 19 Zu diesem Buch 19 Konventionen in diesem Buch 20 Was Sie nicht lesen müssen 21 Falsche Voraussetzungen 21 Wie dieses Buch aufgebaut ist 21 Teil I: Datenanalyse und Grundlagen

Mehr

Fortgeschrittene Statistik Logistische Regression

Fortgeschrittene Statistik Logistische Regression Fortgeschrittene Statistik Logistische Regression O D D S, O D D S - R A T I O, L O G I T T R A N S F O R M A T I O N, I N T E R P R E T A T I O N V O N K O E F F I Z I E N T E N, L O G I S T I S C H E

Mehr

Weiterbildungskurs Stochastik

Weiterbildungskurs Stochastik Hansruedi Künsch Seminar für Statistik Departement Mathematik, ETH Zürich 24. Juni 2009 Inhalt STATISTIK DER BINOMIALVERTEILUNG 1 STATISTIK DER BINOMIALVERTEILUNG 2 Fragestellungen Typische Fragestellungen

Mehr

Klausur zur Vorlesung Multivariate Verfahren, SS 2006 6 Kreditpunkte, 90 min

Klausur zur Vorlesung Multivariate Verfahren, SS 2006 6 Kreditpunkte, 90 min Klausur, Multivariate Verfahren, SS 2006, 6 Kreditpunkte, 90 min 1 Prof. Dr. Fred Böker 08.08.2006 Klausur zur Vorlesung Multivariate Verfahren, SS 2006 6 Kreditpunkte, 90 min Gesamtpunkte: 39 Aufgabe

Mehr

Statistische Auswertung der Daten von Blatt 13

Statistische Auswertung der Daten von Blatt 13 Statistische Auswertung der Daten von Blatt 13 Problemstellung 1 Graphische Darstellung der Daten 1 Diskussion der Normalverteilung 3 Mittelwerte und deren Konfidenzbereiche 3 Signifikanz der Behandlung

Mehr

1.8 Kolmogorov-Smirnov-Test auf Normalverteilung

1.8 Kolmogorov-Smirnov-Test auf Normalverteilung 1.8 Kolmogorov-Smirnov-Test auf Normalverteilung Der Kolmogorov-Smirnov-Test ist einer der klassischen Tests zum Überprüfen von Verteilungsvoraussetzungen. Der Test vergleicht die Abweichungen der empirischen

Mehr

29. Mai 2006. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt.

29. Mai 2006. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt. L. Fahrmeir, C. Belitz Department für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit Wahlfach Statistik 29. Mai 2006 Hinweise:

Mehr

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50,7 50 51,5 51,7 48,8

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50,7 50 51,5 51,7 48,8 1. Aufgabe: Eine Reifenfirma hat für Winterreifen unterschiedliche Profile entwickelt. Bei jeweils gleicher Geschwindigkeit und auch sonst gleichen Bedingungen wurden die Bremswirkungen gemessen. Die gemessenen

Mehr

8. Methoden der klassischen multivariaten Statistik

8. Methoden der klassischen multivariaten Statistik 8. Methoden der klassischen multivariaten Statistik 8.1. Darstellung von Daten Voraussetzungen auch in diesem Kapitel: Grundgesamtheit (Datenraum) Ω von Objekten (Fällen, Instanzen), denen J-Tupel von

Mehr

Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management

Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management Sommersemester 2013 Hochschule Augsburg : Gliederung 1 Einführung 2 Deskriptive Statistik

Mehr

Studiendesign/ Evaluierungsdesign

Studiendesign/ Evaluierungsdesign Jennifer Ziegert Studiendesign/ Evaluierungsdesign Praxisprojekt: Nutzerorientierte Evaluierung von Visualisierungen in Daffodil mittels Eyetracker Warum Studien /Evaluierungsdesign Das Design einer Untersuchung

Mehr

Biostatistik, Winter 2011/12

Biostatistik, Winter 2011/12 Biostatistik, Winter 2011/12 Vergleich zweier Stichproben, nichtparametrische Tests Prof. Dr. Achim Klenke http://www.aklenke.de 11. Vorlesung: 27.01.2012 1/86 Inhalt 1 Tests t-test 2 Vergleich zweier

Mehr

Korrelation - Regression. Berghold, IMI

Korrelation - Regression. Berghold, IMI Korrelation - Regression Zusammenhang zwischen Variablen Bivariate Datenanalyse - Zusammenhang zwischen 2 stetigen Variablen Korrelation Einfaches lineares Regressionsmodell 1. Schritt: Erstellung eines

Mehr

Schätzer (vgl. Kapitel 1): Stichprobenmittel X N. Stichprobenmedian X N

Schätzer (vgl. Kapitel 1): Stichprobenmittel X N. Stichprobenmedian X N Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 8.1 Schätzer für Lage- und Skalenparameter und Verteilungsmodellwahl Lageparameter (l(x + a) = l(x) + a): Erwartungswert EX Median von X

Mehr

Diskriminanzanalyse Beispiel

Diskriminanzanalyse Beispiel Diskriminanzanalyse Ziel bei der Diskriminanzanalyse ist die Analyse von Gruppenunterschieden, d. h. der Untersuchung von zwei oder mehr Gruppen hinsichtlich einer Vielzahl von Variablen. Diese Methode

Mehr

Statistische Tests zu ausgewählten Problemen

Statistische Tests zu ausgewählten Problemen Einführung in die statistische Testtheorie Statistische Tests zu ausgewählten Problemen Teil 4: Nichtparametrische Tests Statistische Testtheorie IV Einführung Beschränkung auf nichtparametrische Testverfahren

Mehr

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik Ludwig Fahrmeir, Nora Fenske Institut für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik 29. März 21 Hinweise:

Mehr

Standardab er des. Testwert = 145.5 95% Konfidenzintervall. T df Sig. (2-seitig) Differenz Untere Obere -2.011 698.045-5.82-11.50 -.14.

Standardab er des. Testwert = 145.5 95% Konfidenzintervall. T df Sig. (2-seitig) Differenz Untere Obere -2.011 698.045-5.82-11.50 -.14. Aufgabe : einfacher T-Test Statistik bei einer Stichprobe Standardfehl Standardab er des Mittelwert weichung Mittelwertes 699 39.68 76.59 2.894 Test bei einer Sichprobe Testwert = 45.5 95% Konfidenzintervall

Mehr

Beispiel: Sonntagsfrage. Einführung in die induktive Statistik. Statistische Tests. Statistische Tests

Beispiel: Sonntagsfrage. Einführung in die induktive Statistik. Statistische Tests. Statistische Tests Beispiel: Sonntagsfrage Vier Wochen vor der österreichischen Nationalratswahl 1999 wurde 499 Haushalten die Sonntagsfrage gestellt: Falls nächsten Sonntag Wahlen wären, welche Partei würden Sie wählen?

Mehr

Biostatistik, WS 2015/2016 Der zwei-stichproben-t-test

Biostatistik, WS 2015/2016 Der zwei-stichproben-t-test 1/29 Biostatistik, WS 2015/2016 Der zwei-stichproben-t-test (t-test für ungepaarte Stichproben) Matthias Birkner http://www.staff.uni-mainz.de/birkner/biostatistik1516/ 11.12.2015 2/29 Inhalt 1 t-test

Mehr

Mathematische und statistische Methoden II

Mathematische und statistische Methoden II Methodenlehre e e Prof. Dr. G. Meinhardt 6. Stock, Wallstr. 3 (Raum 06-206) Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung. Mathematische und statistische Methoden II Dr. Malte Persike

Mehr

Binäre abhängige Variablen

Binäre abhängige Variablen Binäre abhängige Variablen Thushyanthan Baskaran thushyanthan.baskaran@awi.uni-heidelberg.de Alfred Weber Institut Ruprecht Karls Universität Heidelberg Einführung Oft wollen wir qualitative Variablen

Mehr

1 Statistische Grundlagen

1 Statistische Grundlagen Konzepte in Empirische Ökonomie 1 (Winter) Hier findest Du ein paar Tipps zu den Konzepten in Empirische 1. Wenn Du aber noch etwas Unterstützung kurz vor der Klausur brauchst, schreib uns eine kurze Email.

Mehr

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft Prof. Dr. Helmut Küchenhoff SS08 90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft am 22.7.2008 Anmerkungen Überprüfen Sie bitte sofort, ob Ihre Angabe vollständig ist. Sie sollte

Mehr

9. StatistischeTests. 9.1 Konzeption

9. StatistischeTests. 9.1 Konzeption 9. StatistischeTests 9.1 Konzeption Statistische Tests dienen zur Überprüfung von Hypothesen über einen Parameter der Grundgesamtheit (bei einem Ein-Stichproben-Test) oder über die Verteilung einer Zufallsvariablen

Mehr

Varianzanalyse ANOVA

Varianzanalyse ANOVA Varianzanalyse ANOVA Johannes Hain Lehrstuhl für Mathematik VIII Statistik 1/23 Einfaktorielle Varianzanalyse (ANOVA) Bisher war man lediglich in der Lage, mit dem t-test einen Mittelwertsvergleich für

Mehr

Tutorial: Homogenitätstest

Tutorial: Homogenitätstest Tutorial: Homogenitätstest Eine Bank möchte die Kreditwürdigkeit potenzieller Kreditnehmer abschätzen. Einerseits lebt die Bank ja von der Vergabe von Krediten, andererseits verursachen Problemkredite

Mehr

Wahrscheinlichkeitsrechnung und Statistik für Biologen 5. Der zwei-stichproben-t-test. und der Wilcoxon-Test

Wahrscheinlichkeitsrechnung und Statistik für Biologen 5. Der zwei-stichproben-t-test. und der Wilcoxon-Test Wahrscheinlichkeitsrechnung und Statistik für Biologen 5. Der zwei-stichproben-t-test (t-test für ungepaarte Stichproben) und der Wilcoxon-Test Dirk Metzler 22. Mai 2015 Inhaltsverzeichnis 1 Wiederholung:

Mehr

Modul G.1 WS 07/08: Statistik 17.01.2008 1. Die Korrelation ist ein standardisiertes Maß für den linearen Zusammenhangzwischen zwei Variablen.

Modul G.1 WS 07/08: Statistik 17.01.2008 1. Die Korrelation ist ein standardisiertes Maß für den linearen Zusammenhangzwischen zwei Variablen. Modul G.1 WS 07/08: Statistik 17.01.2008 1 Wiederholung Kovarianz und Korrelation Kovarianz = Maß für den linearen Zusammenhang zwischen zwei Variablen x und y Korrelation Die Korrelation ist ein standardisiertes

Mehr

5 Zusammenhangsmaße, Korrelation und Regression

5 Zusammenhangsmaße, Korrelation und Regression 5 Zusammenhangsmaße, Korrelation und Regression 5.1 Zusammenhangsmaße und Korrelation Aufgabe 5.1 In einem Hauptstudiumsseminar des Lehrstuhls für Wirtschafts- und Sozialstatistik machten die Teilnehmer

Mehr

Klausur zu Methoden der Statistik II (mit Kurzlösung) Sommersemester Aufgabe 1

Klausur zu Methoden der Statistik II (mit Kurzlösung) Sommersemester Aufgabe 1 Lehrstuhl für Statistik und Ökonometrie der Otto-Friedrich-Universität Bamberg Prof. Dr. Susanne Rässler Klausur zu Methoden der Statistik II (mit Kurzlösung) Sommersemester 2013 Aufgabe 1 In einer Urne

Mehr

Kapitel 4: Binäre Regression

Kapitel 4: Binäre Regression Kapitel 4: Binäre Regression Steffen Unkel (basierend auf Folien von Nora Fenske) Statistik III für Nebenfachstudierende WS 2013/2014 4.1 Motivation Ausgangssituation Gegeben sind Daten (y i, x i1,...,

Mehr

6. METRISCHE UND KATEGORIALE MERKMALE

6. METRISCHE UND KATEGORIALE MERKMALE 6. METRISCHE UND KATEGORIALE MERKMALE wenn an einer Beobachtungseinheit eine (oder mehrere) metrische und eine (oder mehrere) kategoriale Variable(n) erhoben wurden Beispiel: Haushaltsarbeit von Teenagern

Mehr

METHODENLEHRE I WS 2013/14 THOMAS SCHÄFER

METHODENLEHRE I WS 2013/14 THOMAS SCHÄFER METHODENLEHRE I WS 2013/14 THOMAS SCHÄFER DAS THEMA: INFERENZSTATISTIK IV INFERENZSTATISTISCHE AUSSAGEN FÜR ZUSAMMENHÄNGE UND UNTERSCHIEDE Inferenzstatistik für Zusammenhänge Inferenzstatistik für Unterschiede

Mehr

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten.

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten. Statistik für Kommunikationswissenschaftler Wintersemester 2009/200 Vorlesung Prof. Dr. Helmut Küchenhoff Übung Cornelia Oberhauser, Monia Mahling, Juliane Manitz Thema 4 Homepage zur Veranstaltung: http://www.statistik.lmu.de/~helmut/kw09.html

Mehr

5.2. Nichtparametrische Tests. 5.2.1. Zwei unabhängige Stichproben: U- Test nach MANN- WHITNEY

5.2. Nichtparametrische Tests. 5.2.1. Zwei unabhängige Stichproben: U- Test nach MANN- WHITNEY 5.2. Nichtparametrische Tests 5.2.1. Zwei unabhängige Stichproben: U- Test nach MANN- WHITNEY Voraussetzungen: - Die Verteilungen der beiden Grundgesamtheiten sollten eine ähnliche Form aufweisen. - Die

Mehr

Universität Bonn 28. Juli 2010 Fachbereich Rechts- und Wirtschaftswissenschaften Statistische Abteilung Prof. Dr. A. Kneip. KLAUSUR Statistik B

Universität Bonn 28. Juli 2010 Fachbereich Rechts- und Wirtschaftswissenschaften Statistische Abteilung Prof. Dr. A. Kneip. KLAUSUR Statistik B Universität Bonn 28. Juli 2010 Fachbereich Rechts- und Wirtschaftswissenschaften Statistische Abteilung Prof. Dr. A. Kneip Sommersemester 2010 KLAUSUR Statistik B Hinweise zur Bearbeitung: Bei allen Teilaufgaben

Mehr

Nichtparametrische statistische Verfahren

Nichtparametrische statistische Verfahren Nichtparametrische statistische Verfahren (im Wesentlichen Analyse von Abhängigkeiten) Kategorien von nichtparametrischen Methoden Beispiel für Rangsummentests: Wilcoxon-Test / U-Test Varianzanalysen 1-faktorielle

Mehr

Teil I Beschreibende Statistik 29

Teil I Beschreibende Statistik 29 Vorwort zur 2. Auflage 15 Vorwort 15 Kapitel 0 Einführung 19 0.1 Methoden und Aufgaben der Statistik............................. 20 0.2 Ablauf statistischer Untersuchungen..............................

Mehr

Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall )

Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall ) Zusammenhänge von Variablen Regressionsanalysen linearer Zusammenhang ( Idealfall ) kein Zusammenhang nichtlinearer monotoner Zusammenhang (i.d.regel berechenbar über Variablentransformationen mittels

Mehr

ε heteroskedastisch BINARY CHOICE MODELS Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS?

ε heteroskedastisch BINARY CHOICE MODELS Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS? BINARY CHOICE MODELS 1 mit Pr( Y = 1) = P Y = 0 mit Pr( Y = 0) = 1 P Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS? Y i = X i β + ε i Probleme: Nonsense Predictions

Mehr

Beurteilung der biometrischen Verhältnisse in einem Bestand. Dr. Richard Herrmann, Köln

Beurteilung der biometrischen Verhältnisse in einem Bestand. Dr. Richard Herrmann, Köln Beurteilung der biometrischen Verhältnisse in einem Bestand Dr. Richard Herrmann, Köln Beurteilung der biometrischen Verhältnisse in einem Bestand 1 Fragestellung Methoden.1 Vergleich der Anzahlen. Vergleich

Mehr

Einführung in die Statistik mit EXCEL und SPSS

Einführung in die Statistik mit EXCEL und SPSS Christine Duller Einführung in die Statistik mit EXCEL und SPSS Ein anwendungsorientiertes Lehr- und Arbeitsbuch Zweite, überarbeitete Auflage Mit 71 Abbildungen und 26 Tabellen Physica-Verlag Ein Unternehmen

Mehr

Inhaltsverzeichnis. Regressionsanalyse. http://mesosworld.ch - Stand vom: 20.1.2010 1

Inhaltsverzeichnis. Regressionsanalyse. http://mesosworld.ch - Stand vom: 20.1.2010 1 Inhaltsverzeichnis Regressionsanalyse... 2 Lernhinweise... 2 Einführung... 2 Theorie (1-8)... 2 1. Allgemeine Beziehungen... 3 2. 'Best Fit'... 3 3. 'Ordinary Least Squares'... 4 4. Formel der Regressionskoeffizienten...

Mehr

Einführung in Statistik und Messwertanalyse für Physiker

Einführung in Statistik und Messwertanalyse für Physiker Gerhard Böhm, Günter Zech Einführung in Statistik und Messwertanalyse für Physiker SUB Göttingen 7 219 110 697 2006 A 12486 Verlag Deutsches Elektronen-Synchrotron Inhalt sverzeichnis 1 Einführung 1 1.1

Mehr

Eine zweidimensionale Stichprobe

Eine zweidimensionale Stichprobe Eine zweidimensionale Stichprobe liegt vor, wenn zwei qualitative Merkmale gleichzeitig betrachtet werden. Eine Urliste besteht dann aus Wertepaaren (x i, y i ) R 2 und hat die Form (x 1, y 1 ), (x 2,

Mehr

8. Februar 2007. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt.

8. Februar 2007. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt. L. Fahrmeir, C. Belitz Department für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit Wahlfach Statistik 8. Februar 2007 Hinweise:

Mehr

Auswertung mit dem Statistikprogramm SPSS: 30.11.05

Auswertung mit dem Statistikprogramm SPSS: 30.11.05 Auswertung mit dem Statistikprogramm SPSS: 30.11.05 Seite 1 Einführung SPSS Was ist eine Fragestellung? Beispiel Welche statistische Prozedur gehört zu welcher Hypothese? Statistische Berechnungen mit

Mehr

Einseitig gerichtete Relation: Mit zunehmender Höhe über dem Meeresspiegel sinkt im allgemeinen die Lufttemperatur.

Einseitig gerichtete Relation: Mit zunehmender Höhe über dem Meeresspiegel sinkt im allgemeinen die Lufttemperatur. Statistik Grundlagen Charakterisierung von Verteilungen Einführung Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsverteilungen Schätzen und Testen Korrelation Regression Einführung Die Analyse und modellhafte

Mehr

b) Bestimmen Sie die Varianz der beiden Schätzer. c) Ist ein oder sind beide Schätzer konsistent? Begründen Sie!

b) Bestimmen Sie die Varianz der beiden Schätzer. c) Ist ein oder sind beide Schätzer konsistent? Begründen Sie! Aufgabe 1 (3 + 3 + 2 Punkte) Ein Landwirt möchte das durchschnittliche Gewicht von einjährigen Ferkeln bestimmen lassen. Dies möchte er aus seinem diesjährigen Bestand an n Tieren schätzen. Er kann dies

Mehr

Bachelorprüfung. Praxis der empirischen Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Name, Vorname. Matrikelnr. E-Mail. Studiengang.

Bachelorprüfung. Praxis der empirischen Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Name, Vorname. Matrikelnr. E-Mail. Studiengang. Lehrstuhl für Statistik und empirische Wirtschaftsforschung Fach: Prüfer: Bachelorprüfung Praxis der empirischen Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Name, Vorname Matrikelnr. E-Mail Studiengang

Mehr

Test auf den Erwartungswert

Test auf den Erwartungswert Test auf den Erwartungswert Wir interessieren uns für den Erwartungswert µ einer metrischen Zufallsgröße. Beispiele: Alter, Einkommen, Körpergröße, Scorewert... Wir können einseitige oder zweiseitige Hypothesen

Mehr

Wilcoxon-Rangsummen-Test

Wilcoxon-Rangsummen-Test Wilcoxon-Rangsummen-Test Theorie: Wilcoxon-Rangsummen-Test Der Wilcoxon-Rangsummen-Test prüft, ob sich die Verteilungen der Grundgesamtheiten zweier Stichproben bezüglich ihrer Lage unterscheiden. Ein

Mehr

Univariate/ multivariate Ansätze. Klaus D. Kubinger. Test- und Beratungsstelle. Effektgrößen

Univariate/ multivariate Ansätze. Klaus D. Kubinger. Test- und Beratungsstelle. Effektgrößen Univariate/ multivariate Ansätze Klaus D. Kubinger Effektgrößen Rasch, D. & Kubinger, K.D. (2006). Statistik für das Psychologiestudium Mit Softwareunter-stützung zur Planung und Auswertung von Untersuchungen

Mehr

Modellierung von Korrelationen zwischen Kreditausfallraten für Kreditportfolios. Bernd Rosenow, 3. Kölner Workshop Quantitative Finanzmarktforschung

Modellierung von Korrelationen zwischen Kreditausfallraten für Kreditportfolios. Bernd Rosenow, 3. Kölner Workshop Quantitative Finanzmarktforschung Modellierung von Korrelationen zwischen Kreditausfallraten für Kreditportfolios Bernd Rosenow Rafael Weißhaupt Frank Altrock Universität zu Köln West LB AG, Düsseldorf Gliederung Beschreibung des Datensatzes

Mehr

Willkommen zur Vorlesung Statistik

Willkommen zur Vorlesung Statistik Willkommen zur Vorlesung Statistik Thema dieser Vorlesung: Varianzanalyse Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften Prof. Dr. Wolfgang

Mehr

Gemischte Modelle. Fabian Scheipl, Sonja Greven. SoSe 2011. Institut für Statistik Ludwig-Maximilians-Universität München

Gemischte Modelle. Fabian Scheipl, Sonja Greven. SoSe 2011. Institut für Statistik Ludwig-Maximilians-Universität München Gemischte Modelle Fabian Scheipl, Sonja Greven Institut für Statistik Ludwig-Maximilians-Universität München SoSe 2011 Inhalt Amsterdam-Daten: LMM Amsterdam-Daten: GLMM Blutdruck-Daten Amsterdam-Daten:

Mehr

9 Diskriminanzanalyse

9 Diskriminanzanalyse 9 Diskriminanzanalyse 9.1 Problemstellung Ziel einer Diskriminanzanalyse: Bereits bekannte Objektgruppen (Klassen/Cluster) anhand ihrer Merkmale charakterisieren und unterscheiden sowie neue Objekte in

Mehr

Überblick über die Tests

Überblick über die Tests Anhang A Überblick über die Tests A.1 Ein-Stichproben-Tests A.1.1 Tests auf Verteilungsannahmen ˆ Shapiro-Wilk-Test Situation: Test auf Normalverteilung H 0 : X N(µ, σ 2 ) H 1 : X nicht normalverteilt

Mehr

Welch-Test. Welch-Test

Welch-Test. Welch-Test Welch-Test Welch-Test Test auf Lageunterschied zweier normalverteilter Grundgesamtheiten mit unbekannten Varianzen durch Vergleich der Mittelwerte zweier unabhängiger Zufallsstichproben. Beispiel Im Labor

Mehr

5. Schließende Statistik. 5.1. Einführung

5. Schließende Statistik. 5.1. Einführung 5. Schließende Statistik 5.1. Einführung Sollen auf der Basis von empirischen Untersuchungen (Daten) Erkenntnisse gewonnen und Entscheidungen gefällt werden, sind die Methoden der Statistik einzusetzen.

Mehr

Klausur zu Methoden der Statistik I (mit Kurzlösung) Wintersemester 2007/2008. Aufgabe 1

Klausur zu Methoden der Statistik I (mit Kurzlösung) Wintersemester 2007/2008. Aufgabe 1 Lehrstuhl für Statistik und Ökonometrie der Otto-Friedrich-Universität Bamberg Prof. Dr. Susanne Rässler Klausur zu Methoden der Statistik I (mit Kurzlösung) Wintersemester 2007/2008 Aufgabe 1 Ihnen liegt

Mehr

Versuchsplanung. Teil 1 Einführung und Grundlagen. Dr. Tobias Kiesling Einführung in die Versuchsplanung

Versuchsplanung. Teil 1 Einführung und Grundlagen. Dr. Tobias Kiesling <kiesling@stat.uni-muenchen.de> Einführung in die Versuchsplanung Versuchsplanung Teil 1 Einführung und Grundlagen Dr. Tobias Kiesling Inhalt Einführung in die Versuchsplanung Hintergründe Grundlegende Prinzipien und Begriffe Vorgehensweise

Mehr

Marktforschung I. Marktforschung I 2

Marktforschung I. Marktforschung I 2 Marktforschung I Marktforschung I Einführung in die Testtheorie (Toporowski) Mathematische Grundlagen (Toporowski) Varianzanalyse (Toporowski) Regressionsanalyse (Boztuğ) Diskriminanzanalyse (Hammerschmidt)

Mehr

Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt!

Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt! Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt! 1 Einführung 2 Wahrscheinlichkeiten kurz gefasst 3 Zufallsvariablen und Verteilungen 4 Theoretische Verteilungen (Wahrscheinlichkeitsfunktion)

Mehr

Statistik im Bachelor-Studium der BWL und VWL

Statistik im Bachelor-Studium der BWL und VWL Max C. Wewel Statistik im Bachelor-Studium der BWL und VWL Methoden, Anwendung, Interpretation Mit herausnehmbarer Formelsammlung ein Imprint von Pearson Education München Boston San Francisco Harlow,

Mehr

Messen im psychologischen Kontext II: Reliabilitätsüberprüfung und explorative Faktorenanalyse

Messen im psychologischen Kontext II: Reliabilitätsüberprüfung und explorative Faktorenanalyse Messen im psychologischen Kontext II: Reliabilitätsüberprüfung und explorative Faktorenanalyse Dominik Ernst 26.05.2009 Bachelor Seminar Dominik Ernst Reliabilität und explorative Faktorenanalyse 1/20

Mehr

Übungsaufgaben zu Kapitel 5. Aufgabe 101. Inhaltsverzeichnis:

Übungsaufgaben zu Kapitel 5. Aufgabe 101. Inhaltsverzeichnis: Inhaltsverzeichnis: Übungsaufgaben zu Kapitel 5... 1 Aufgabe 101... 1 Aufgabe 102... 2 Aufgabe 103... 2 Aufgabe 104... 2 Aufgabe 105... 3 Aufgabe 106... 3 Aufgabe 107... 3 Aufgabe 108... 4 Aufgabe 109...

Mehr

Multivariate Analysemethoden

Multivariate Analysemethoden Multivariate Analysemethoden 30.04.2014 Günter Meinhardt Johannes Gutenberg Universität Mainz Einführung Was sind multivariate Analysemethoden? Vorlesung Übung/Tut Prüfung Verfahrensdarstellung in Überblick

Mehr

k np g(n, p) = Pr p [T K] = Pr p [T k] Φ. np(1 p) DWT 4.1 Einführung 359/467 Ernst W. Mayr

k np g(n, p) = Pr p [T K] = Pr p [T k] Φ. np(1 p) DWT 4.1 Einführung 359/467 Ernst W. Mayr Die so genannte Gütefunktion g gibt allgemein die Wahrscheinlichkeit an, mit der ein Test die Nullhypothese verwirft. Für unser hier entworfenes Testverfahren gilt ( ) k np g(n, p) = Pr p [T K] = Pr p

Mehr

Interne und externe Modellvalidität

Interne und externe Modellvalidität Interne und externe Modellvalidität Interne Modellvalidität ist gegeben, o wenn statistische Inferenz bzgl. der untersuchten Grundgesamtheit zulässig ist o KQ-Schätzer der Modellparameter u. Varianzschätzer

Mehr

Ein möglicher Unterrichtsgang

Ein möglicher Unterrichtsgang Ein möglicher Unterrichtsgang. Wiederholung: Bernoulli Experiment und Binomialverteilung Da der sichere Umgang mit der Binomialverteilung, auch der Umgang mit dem GTR und den Diagrammen, eine notwendige

Mehr

, dt. $+ f(x) = , - + < x < +, " > 0. " 2# Für die zugehörige Verteilungsfunktion F(x) ergibt sich dann: F(x) =

, dt. $+ f(x) = , - + < x < +,  > 0.  2# Für die zugehörige Verteilungsfunktion F(x) ergibt sich dann: F(x) = 38 6..7.4 Normalverteilung Die Gauß-Verteilung oder Normal-Verteilung ist eine stetige Verteilung, d.h. ihre Zufallsvariablen können beliebige reelle Zahlenwerte annehmen. Wir definieren sie durch die

Mehr

Abhängigkeit zweier Merkmale

Abhängigkeit zweier Merkmale Abhängigkeit zweier Merkmale Johannes Hain Lehrstuhl für Mathematik VIII Statistik 1/33 Allgemeine Situation Neben der Untersuchung auf Unterschiede zwischen zwei oder mehreren Untersuchungsgruppen hinsichtlich

Mehr