9 Diskriminanzanalyse

Größe: px
Ab Seite anzeigen:

Download "9 Diskriminanzanalyse"

Transkript

1 9 Diskriminanzanalyse 9.1 Problemstellung Ziel einer Diskriminanzanalyse: Bereits bekannte Objektgruppen (Klassen/Cluster) anhand ihrer Merkmale charakterisieren und unterscheiden sowie neue Objekte in die Klassen einordnen. Nötig: Lernstichprobe von Objekten mit bekannter Klassenzugehörigkeit, um Abgrenzung der verschiedenen Gruppen anhand der beobachteten Merkmale zu lernen. Die Diskriminanzanalyse fällt unter die so genannten Klassifikations- oder auch Mustererkennungsmethoden (engl. pattern recognition). Cluster 1 Cluster 2 Cluster 1 Cluster 2 neue Beobachtung neue Beobachtung zu Cluster 2 Cluster 3 Cluster 3 Beispiel 9.1 : Kreditscoring Die Vergabe von Krediten hängt von der Bereitschaft und Fähigkeit der Kunden ab, die anfallenden Zins- und Tilgungsraten zu bezahlen. Banken stufen potenzielle Kunden vor Kreditvergabe entweder als problemlos oder als Problemfall ein. Problemfälle werden genauer geprüft und der Kredit ggf. abgelehnt. Die Einstufung erfolgt auf Basis von charakterisierenden Merkmalen der Kunden hinsichtlich ihrer persönlichen, wirtschaftlichen und rechtlichen Situation. Weitere Beispiele: Unterscheidung zwischen - Käufern und Nicht-Käufern eines neuen Produktes - Texten verschiedener Autoren 136

2 Definition 9.2 : Modell der Diskriminanzanalyse Eine Grundgesamtheit Ω bestehe aus mehreren Klassen (Gruppen) C 1,..., C k, so dass jedes Element (Objekt) ω Ω zu genau einer Gruppe gehört. Für die Zerlegung C 1,..., C k von Ω gelte also C i C j = für i = j und k j=1 C j = Ω. Ziel ist es, für ein Objekt ω Ω mit unbekannter Klassenzugehörigkeit anhand eines beobachteten Merkmalsvektors x die zugehörige Klasse C j zu ermitteln. Bemerkung 9.3 : Lernstichprobe In der Diskriminanzanalyse werden in der Regel nicht die Klassen selbst, sondern nur bestimmte Merkmale der Objekte beobachtet, anhand derer die Klassenzugehörigkeit festzustellen ist. Um typische Werte der Merkmale für die verschiedenen Klassen zu ermitteln, steht eine Lernstichprobe von Objekten zur Verfügung, für welche die Merkmalsausprägungen und die Klassenzugehörigkeit bekannt sind. Lernstichprobe: (x 1, y 1),...,(x n, y n) mit y i = j Objekt i gehört zu Klasse C j, i = 1,..., n, die ZVe Y gebe also die Klassenzugehörigkeit an. Beispiel 9.4 : Kredite (Fortsetzung Beispiel 9.1) Eine süddeutsche Großbank benutzt zur Einschätzung des Kreditrisikos ihrer Kunden eine Lernstichprobe von 1000 ehemaligen Kreditnehmern. 300 dieser ehemaligen Kunden zahlten den Kredit nicht vereinbarungsgemäß zurück. Es wurden folgende Merkmale erfasst: Kredit zurückgezahlt (ja; nein) bestehendes laufendes Konto bei der Bank (nein; ja - aber im Minus; ja - mit geringem Betrag; ja - als Gehaltskonto in beträchtlicher Höhe) Laufzeit des Kredits (in halben Jahren, bis zu 5 Jahren) bisherige Zahlungsmoral (von schlecht bis sehr gut) Verwendungszweck des Kredits (PKW; Möbel; Radio/Fernsehen; Haushalt; Reparaturen; Ausbildung; Urlaub; Umschulung; Betrieb; Sonstiges) Darlehenshöhe (in insgesamt 10 Kategorien von < 500 bis > Euro) Sparkonto oder Wertpapiere vorhanden (nach Anlagehöhen gestaffelt) Dauer der Beschäftigung bei derzeitigem Arbeitgeber 137

3 Ratenhöhe in % des verfügbaren Einkommens Familienstand und Geschlecht weitere Schuldner / Bürgen beteiligt in der jetzigen Wohnung seit... Jahren Vermögen vorhanden (Haus- und Grundbesitz; Bausparvertrag, Lebensversicherung; PKW, Sonstiges; keins) Alter (in Altersklassen) weitere Ratenkredite anderswo (andere Bank; Kauf-/Versandhaus; keine) Art der Wohnung (Miete; Eigentum; kostenlos überlassen) Anzahl bisheriger Ratenkredite einschl. des laufenden Beruf (nicht beschäftigt, ungelernt nicht sesshaft; ungelernt sesshaft; Facharbeiter, gelernte Angestellte, Beamte bis mittlerer Dienst; Führungskraft, selbstständig, Beamter höherer Dienst) Anzahl unterhaltsberechtigter Personen, die zu versorgen sind Telefon (nein; ja, unter dem Namen des Kunden) Gastarbeiter (ja; nein) Aus den Charakteristika der Kunden in der Lernstichprobe und der Kenntnis über die Rückzahlung ihrer Kredite werden Regeln abgeleitet, nach denen künftige potenzielle Kunden als unproblematisch oder als Risikofall eingestuft werden. Eine Regel, nach der Objekte zu den einzelnen Klassen zugeordnet werden, basiert auf einer so genannten Diskriminanzfunktion. Definition 9.5 : Diskriminanzfunktion, Diskriminanzregel Betrachtet wird ein Modell der Diskriminanzanalyse wie in Definition 9.2. Zu einem Objekt ω werde ein Merkmalsvektor x beobachtet. Eine Funktion D, die dem Beobachtungsvektor x für jede Gruppe C i der Grundgesamtheit einen charakterisierenden Wert D(x, C i ) zuordnet, heißt Diskriminanzfunktion. Eine Regel, die anhand von D(x, C 1 ),..., D(x, C k ) entscheidet, welcher Gruppe C i das Objekt ω zugeordnet wird, heißt Diskriminanzregel. Nachfolgend meist Betrachtung metrisch skalierter stetiger Merkmale. 138

4 9.2 Lineare Diskriminanzanalyse nach Fisher Bemerkung 9.6 : Idee der Diskriminanzregel bei nur einem Merkmal Die Grundgesamtheit Ω zerfalle in die Klassen C 1 und C 2. Pro Objekt werde ein eindimensionales Merkmal X beobachtet. Die Lernstichprobe enthalte n 1 Objekte aus C 1 und n 2 Objekte aus C 2 : x 1,..., x n } = x C 1 1,..., xc 1 n 1 } x C 2 1,..., xc 2 n 2 }, n = n 1 + n 2. Schätzung der Häufigkeitsverteilungen des Merkmals X in den beiden Klassen durch Histogramme der relativen Häufigkeiten. Geglättete Darstellung: C 2 C 1 x C 2 x C 1 x C j : arithmetisches Mittel der Beobachtungen aus Klasse C j in Lernstichprobe. Aus Abbildung: größere Werte von X sprechen tendenziell für das Vorliegen von Klasse 1, während kleinere Werte von X für Klasse 2 sprechen. Nötig: Trennpunkt t zwischen großen und kleinen Werten, vgl. senkrechten Trennstrich in Abb. Der Trennpunkt kann als Mitte zwischen den Gruppenmittelwerten der Lernstichprobe festgelegt werden, t = xc 1+x C 2 2. Für neue Beobachtung x würde man bei der vorliegenden Lernstichprobe entscheiden, dass x aus C 1 (C 2 ) stammt, wenn x > t (x < t) (x = t hat für stetige Merkmale Wahrscheinlichkeit Null und ist vernachlässigbar). Formulierung einer Diskriminanzfunktion: D(x, C 1 ) = 1, x > t 0, x < t, D(x, C 2) = 0, x > t 1, x < t. Diskriminanzregel: ordne Beobachtung x der Klasse C i mit D(x, C i ) = 1 zu. Alternativ kann die Regel auch über D(x, C i ) = x x C i formuliert werden. 139

5 Die Wahl des Trennpunkts in Bem. 9.6 unterstellt implizit, dass das Merkmal X in beiden Gruppen dieselbe Varianz besitzt. Ein Merkmal alleine führt selten zu guten Trennungen zwischen den Gruppen: Suche bessere Unterscheidung anhand mehrerer Merkmale. Bei Vorliegen eines zweidimensionalen Merkmalsvektors X = (X 1, X 2 ) pro Objekt ist es sinnvoll, X 1 und X 2 nicht einzeln zu betrachten, sondern eine Kombination aus beiden zur Trennung der Gruppen zu verwenden. Bemerkung 9.7 : Diskriminanzregel bei zwei Gruppen und zwei Merkmalen Bei zweidimensionalem Merkmal X kann man die Häufigkeitsverteilungen in den Klassen über die Dichtekonturlinien der zugehörigen Verteilungen visualisieren. Die Trennung zwischen den beiden Gruppen erfolgt dann nicht mit einem Trennpunkt, sondern mit einer Trenngeraden: C 2 C 1 Implizite Annahme hierbei: In allen Klassen j = 1,..., k gilt X (µ j, Σ) mit der gleichen elliptischen Verteilung in allen Klassen bis auf Lageunterschiede. Ohne diese Annahme ist die lineare Diskriminanzanalyse zwar anwendbar, liefert aber keine besonders guten Ergebnisse. 140

6 Lineare Diskriminanzfunktion nach Fisher durch Verallgemeinerung des in Bem. 9.7 beschriebenen Ansatzes auf p-dim. Merkmal X pro Objekt: X wird so in eine Linearkombination Z = a 1 X a p X p = a X transformiert, dass Z die zwei Gruppen möglichst gut trennt. Die Koeffizienten a i werden durch ein Maximierungsproblem bestimmt. Bemerkung 9.8 : Lineare Diskriminanzanalyse nach Fisher Grundgesamtheit Ω zerfalle in zwei Klassen C 1 und C 2. Pro Objekt werde p-dim. Merkmal X = (X 1,..., X p ) beobachtet mit metrisch skalierten stetigen Variablen X 1,..., X p. Die Lernstichprobe enthalte n 1 Objekte aus C 1 und n 2 Objekte aus C 2 : mit x C j i = x 1,..., x n } = x C 1 1,..., xc 1 n 1 } x C 2 1,..., xc 2 n 2 } ( x C j i,1,..., xc j i,p), n = n1 + n 2. Zur Trennung zwischen C 1 und C 2 bestimmt man Koeffizientenvektor a = (a 1,..., a p ) so, dass für die projizierten Werte z i = a x i, i = 1,..., n} ( z C 1 z C 2 ) 2 s 2 z = [ a (x C 1 x C 2 ) ] 2 a S x a maximiert wird, mit z C j arithmetisches Mittel der z-werte aus C j, und s 2 z Maß der Variabilität aller z-werte, s 2 z = n 1[ n 1 i=1 (z 1,i z C 1 ) 2 + n 2 i=1 (z 2,i z C 2 ) 2]. Lösung: a = S 1 x (x C 1 x C 2) Einordnung eines neu hinzukommenden Objekts mit Beobachtungsvektor x: Diskriminanzfunktion: 1, a x > a xc 1 + x C 2 D(x, C 1 ) = 2 0, a x < a xc 1 + x C 2 2, D(x, C 2 ) = 0, a x > t 1, a x < t. Trennpunkt: t = zc 1 + z C 2 2 Diskriminanzregel: Ordne ω mit Beobachtung x der Klasse C j zu, für die D(x, C j ) = 1 ist. 141

7 Verallgemeinerung auf k Klassen: Gesamte Abweichungsquadrate: n i=1 (z i z) 2 = Z HZ = a X HX a mit H = I n n 1 1 n 1 n Abweichungsquadrate innerhalb der Gruppen: k n j j=1 i=1 (z C j i z C j ) 2 = k a X jh j X j a =: a Wa j=1 mitx j Datenmatrix für Gruppe j,h j = I nj n 1 1 nj 1 n j und W = k j=1x j H jx j. Abweichungsquadrate zwischen den Gruppen: k n j (z C j z) 2 = j=1 k n j a (x C j x) } 2 =: a Ba j=1 mit B = k j=1 n j (x C j x)(x C j x). Maximiere nun den Quotienten a Ba a Wa Lösungsvektor a: Eigenvektor zum größten Eigenwert von W 1 B. Gruppiere sodann x in die Klasse j mit j = arg min i a (x x C i). Koeffizienten a i der Diskriminanzfunktion geben Auskunft darüber, welche Variablen wie stark zur Trennung der Gruppen beitragen. Damit die Koeffizienten direkt vergleichbar sind, müssen sie geeignet standardisiert werden. Die Lineare Diskriminanzfunktion stellt die einfachste Struktur zur Trennung von Gruppen dar (zweidimensional: Geraden, dreidimensional: Ebenen, höherdimensional: Hyperebenen als trennende Mengen). Andere Trennfunktionen sind denkbar: Die Annahme unterschiedlicher Kovarianzmatrizen in den verschiedenen Gruppen führt zu quadratischen Trennfunktionen und damit zur so genannten quadratischen Diskriminanzanalyse (QDA). 142

8 Beispiel 9.9 : Fisher (1936): The use of multiple measurements in taxonomic problems, Ann. Eugen. 7, Unterscheidung der Irisarten iris setosa (C 1 ) und iris versicolor (C 2 ) anhand von Länge und Breite des Kelchblattes (p = 2) Lernstichprobe mit n 1 = n 2 = 50 Pflanzen jeder Art. x C 1 = (5.006, 3.428) x C 2 = (5.936, 2.770) S x = 1 98 (49 S S 2 ) [( ) ( = ( ) = ( ) S x = a = ( , ) )] Resultierende Diskriminanzregel: Neue Iris mit Merkmalsvektor x = (x 1, x 2 ) in Gruppe iris setosa (C 1 ) einordnen, falls x x 2 > Bei k = 3 mit dritter Irisart iris virginica, n 3 = 50: x C 3 = (6.588, 2.974) S = (49 S S S 3 ) ( ) ( W =, B = a = (1, 1.293) ) Diskriminanzregel: Vergleich von a x , a x und a x führt zu R 1 = x : a x < }, R 2 = x : < a x < }, R 3 = x : < a x} 143

9 9.3 Maximum Likelihood und Bayes Regeln Sei im Folgenden: f j (x) = f(x Y = j) Dichte von X unter Y = j, j = 1,..., k. Ŷ Vorhersage von Y aus der erlernten Diskriminanzregel. R j R p Menge aller x, die Klasse C j zugeordnet werden, j = 1,..., k. Maximum Likelihood Diskriminanzregel: R j = x : f j (x) > f i (x), i = 1,..., k, i = j} Diese unterstellt implizit gleiche a-priori Wahrscheinlichkeiten für alle Klassen und gleiche Kosten aller möglichen Fehlklassifikationen, also gleiche Relevanz aller Gruppen. Verallgemeinerung: p j = P(Y = j) a-priori Ws keit von C j, j = 1,..., k, mit p p k = 1. Kosten von Fehlklassifikationen bei k = 2 Klassen y ŷ c(ŷ = 2 Y = 1) 2 c(ŷ = 1 Y = 2) 0 Kriterium: Minimiere erwartete gesamte Kosten 144

10 Erwartete gesamte Kosten (Expected Costs of Misclassification, ECM): ECM = c(ŷ = 2 Y = 1)P(Ŷ = 2 Y = 1)P(Y = 1) +c(ŷ = 1 Y = 2)P(Ŷ = 1 Y = 2)P(Y = 2) P(Ŷ = 2 Y = 1) = P(X R 2 Y = 1) = f 1 (x)dx R 2 P(Ŷ = 1 Y = 2) = P(X R 1 Y = 2) = f 2 (x)dx R 1 c(ŷ = 1 Y = 2) R 1 : f 1 (x)p(y = 1) c(ŷ = 2 Y = 1) f 2(x)P(Y = 2) R 2 : f 1 (x)p(y = 1) < Spezialfälle: c(ŷ = 1 Y = 2) c(ŷ = 2 Y = 1) f 2(x)P(Y = 2) Gesamte Wahrscheinlichkeit von Fehlklassifikationen: Hier c(ŷ = 2 Y = 1) = c(ŷ = 1 Y = 2) = 1: Maximum Likelihood Regel: R 1 : f 1 (x)p(y = 1) f 2 (x)p(y = 2) R 2 : f 1 (x)p(y = 1) < f 2 (x)p(y = 2) Hier P(Y = 1) = P(Y = 2) und c(ŷ = 1 Y = 2) = c(ŷ = 2 Y = 1): R 1 : f 1 (x) f 2 (x) R 2 : f 1 (x) < f 2 (x) 145

11 Entstehende Regeln unter Normalverteilungsannahmen Fall zweier Gruppen mit gleichen Kovarianzmatrizen, X Y = j} N(µ j, Σ), j = 1, 2: f j (x) = (2π) p/2 Σ 1/2 exp 1 } 2 (x µ j ) Σ 1 (x µ j ), j = 1, 2 (2π) p/2 Σ 1/2 exp 1 } f 1 (x) 2 (x µ 1 ) Σ 1 (x µ 1 ) = f 2 (x) (2π) p/2 Σ 1/2 exp 1 } 2 (x µ 2 ) Σ 1 (x µ 2 ) = exp 1 2 (x µ 1 ) Σ 1 (x µ 1 )+ 1 } 2 (x µ 2 ) Σ 1 (x µ 2 ) = exp (µ 1 µ 2 ) Σ 1 x 1 } 2 (µ 1 µ 2 ) Σ 1 (µ 1 + µ 2 ) [ = exp (µ 1 µ 2 ) Σ 1 x 1 ]} 2 (µ 1 + µ 2 ) Klassifikationsregel: R 1 : (µ 1 µ 2 ) Σ [x 1 1 ] 2 (µ 1 + µ 2 ) ln [ c(ŷ = 1 Y = 2) c(ŷ = 2 Y = 1) ] P(Y = 2) P(Y = 1) Für P(Y = 1) = P(Y = 2) und c(ŷ = 1 Y = 2) = c(ŷ = 2 Y = 1): R 1 : (µ 1 µ 2 ) Σ [x 1 1 ] 2 (µ 1 + µ 2 ) 0 [ ] 1 (µ 1 µ 2 ) Σ 1 x (µ 1 µ 2 ) Σ 1 2 (µ 1 + µ 2 ) Maximum Likelihood Ansatz führt unter Annahme multivariater Normalverteilung von X mit gleichen Kovarianzmatrizen zur linearen Diskriminanzanalyse von Fisher (LDA). Vorige Herleitung über Projektionen benötigt keine Verteilungsannahmen, man kann von der LDA daher auch ohne Normalverteilung gute Ergebnisse erhoffen. Gleichwertig über Betrachtung der Mahalanobisabstände: (x µ 1 ) Σ 1 (x µ 1 )? (x µ 2 ) Σ 1 (x µ 2 ) 146

12 Verallgemeinerungen: ML-Diskriminanzregel bei k normalverteilten Gruppen mit gleicher Kovarianzmatrix: R j : (x µ j ) Σ 1 (x µ j ) = min i=1,...,k (x µ i ) Σ 1 (x µ i ) Quadratische Diskriminanzanalyse (QDA): Fall zweier Normalverteilungen mit verschiedenen Kovarianzmatrizen, X Y = j} N(µ j, Σ j ), j = 1, 2: f j (x) = (2π) p/2 Σ j 1/2 exp 1 } 2 (x µ j ) Σ 1 j (x µ j ) (2π) p/2 Σ f 1 (x) 1 1/2 exp 1 } 2 (x µ 1 ) Σ 1 1 (x µ 1 ) = f 2 (x) (2π) p/2 Σ 2 1/2 exp 1 } 2 (x µ 2 ) Σ2 1(x µ 2 ) = exp 1 } 2 x (Σ 1 1 Σ2 1)x+(µ 1 Σ 1 1 µ 2 Σ 1 2 )x Σ 1 1/2 exp 1 } 1/2 Σ 2 2 (µ 1Σ 1 1 µ 1 µ 2Σ 2 1 µ 2 ) } R 1 : x R p f 1 (x) c(ŷ = 1 Y = 2) P(Y = 2) : f 2 (x) c(ŷ = 2 Y = 1) P(Y = 1) oder über ( ) f1 (x) ln f 2 (x) = 0.5x (Σ 1 1 Σ 1 2 )x+(µ 1 Σ 1 1 µ 2 Σ 1 2 )x+ ln(c) 147

13 Bemerkung 9.10 : Bewertung der Klassifikationsgüte Gütekriterien für die durch die Diskriminanzregel erreichten Trennung: 1. Analytische Berechnung der Fehlklassifikationsraten: Für ML Regel bei zwei Klassen mit X Y = j} N(µ j, Σ) Wegen a [X 1 2 (µ 1 + µ 2 )] Y = 2} N( 0.5δ 2, δ 2 ) mit δ 2 = (µ 1 µ 2 ) Σ 1 (µ 1 µ 2 ): [ P(Ŷ = 1 Y = 2) = P (a X 1 ] 2 (µ 1 + µ 2 ) ) > 0 Y = 2 = 1 Φ(0.5δ 2 /δ) = Φ( 0.5δ) = P(Ŷ = 2 Y = 1), was aus den Daten geschätzt werden kann. Hierbei verläßt man sich jedoch auf die Normalverteilungsannahme. 2. In sample Fehlklassifikationsraten (apparent error rate): Wende Diskriminanzregel auf die Objekte in der Lernstichprobe an und bestimme die Anzahl der Falschklassifikationen. Die entstehenden Fehlklassifikationsraten geben einen ersten Hinweis auf die Trennungsgüte, sind aber zu optimistisch. 3. Out of sample Fehlklassifikationsraten: Bei vielen Beobachtungen mit bekannter Klassenzugehörigkeit kann die Menge dieser Objekte in eine Lern- und eine Validierungsstichprobe unterteilt werden. Die Diskriminanzregel wird anhand der Lernstichprobe und die Fehlklassifikationsraten anhand der Validierungsstichprobe ermittelt. 4. Kreuzvalidierung (cross validation, leave one out): Unter Auslassung einer Beobachtung aus dem Datensatz wird die Diskriminanzfunktion auf Basis der restlichen n 1 Beobachtungen bestimmt und die ausgelassene Beobachtung mit dieser Diskriminanzfunktion klassifiziert. Dies wird sukzessive für alle Beobachtungen durchgeführt und die Fehlklassifikationsraten als Gütekriterium berechnet. Ziel der Diskriminanzanalyse: möglichst gute Trennung der Klassen anhand der beobachteten Merkmale. Eine Diskriminanzregel sollte daher eine bessere Zuordnung zu den Klassen vornehmen als reiner Zufall: 148

14 Bemerkung 9.11 : Test gegen zufällige Zuordnung für LDA Im Modell der Diskriminanzanalyse gemäß Definitionen 9.2 und 9.5 werde unterstellt, dass die multivariate Variable X einer p-dimensionalen Normalverteilung folgt. Dann ist ein Test für das Problem H 0 : keine der betrachteten Variablen verbessert die Klassifikation im Vergleich zu einer zufallsbasierten Zuordnung vs. H 1 : mindestens eine Variable verbessert die Klassifikation gegeben durch folgende Entscheidungsregel: H 0 wird zum Niveau α verworfen, wenn mit n = n 1 + n 2 gilt n p 1 n1 ( n 2 z C 1 z ) C 2 2 > F p n n s 2 p,n p 1;1 α. z Hierbei (vgl. Bem. 9.8): n 1, n 2 Stichprobenumfänge zu den Gruppen C 1 und C 2 z C j arithmetisches Mittel der z-werte zu Objekten aus C j, und s 2 z Maß der Variabilität der gesamten z-werte, s 2 z = n 1 ( n 1 i=1 (zc 1 i z C 1 ) 2 + n 2 i=1 (zc 2 i z C 2 ) 2 ). Dies entspricht F-Test im Varianzanalysemodell der einfachen Varianzanalyse (H 0 : Die Mittelwerte der p Variablen sind in beiden Gruppen gleich). Bemerkung 9.12 a) Variablenselektion: Vergleichbar zur Regressionsanalyse werden die Variablen nicht alle in einem Schritt zur Klassifikation herangezogen, sondern sukzessive aufgenommen oder entfernt, wobei jedesmal getestet wird, ob die Hinzunahme / Entfernung die Klassifikation verbessert. Dies erlaubt die Identifikation nutzloser Variablen, die für neue Objekte nicht mehr erhoben werden müssen. b) Andere Verteilungsarten: Bei nicht elliptischen Verteilungen können andere Klassifikationsverfahren weit bessere Ergebnisse liefern. Ein einfaches Verfahren ist das der k nächsten Nachbarn, bei dem man eine Beobachtung in die Klasse gruppiert, die unter den k nächsten Nachbarn am häufigsten vorkommt. k ist hierbei ein geeignet festzulegender Tuningparameter. c) Andere Variablentypen: Falls die beobachteten Merkmale nur ordinale oder nominale Skalierung besitzen, gibt es Verfahren der Diskriminanzanalyse, die auf entsprechenden Modellannahmen beruhen. Man verwendet hierzu ein so genanntes Multinomialmodell. 149

Kreditscoring zur Klassifikation von Kreditnehmern. Variablenübersicht des Datensatzes "Kreditscoring zur Klassifikation von Kreditnehmern"

Kreditscoring zur Klassifikation von Kreditnehmern. Variablenübersicht des Datensatzes Kreditscoring zur Klassifikation von Kreditnehmern Ergänzung zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1 Kreditscoring zur Klassifikation von Kreditnehmern Beschreibung des Datensatzes Die Vergabe von Privatkrediten wird von der Bonität der

Mehr

Datei Kredit.sav, Variablenbeschreibung und Umkodierungen. Variablenübersicht des Datensatzes "Kreditscoring zur Klassifikation von Kreditnehmern"

Datei Kredit.sav, Variablenbeschreibung und Umkodierungen. Variablenübersicht des Datensatzes Kreditscoring zur Klassifikation von Kreditnehmern A Beschreibung des Original-Datensatzes Kreditscoring Die vorliegende Datei enthält die Daten aus einer geschichteten Lernstichprobe, welche von einer süddeutschen Großbank durchgeführt wurde. Bei einer

Mehr

Entscheidungsbaumverfahren

Entscheidungsbaumverfahren Entscheidungsbaumverfahren Allgemeine Beschreibung Der Entscheidungsbaum ist die Darstellung einer Entscheidungsregel, anhand derer Objekte in Klassen eingeteilt werden. Die Klassifizierung erfolgt durch

Mehr

Kapitel 4: Binäre Regression

Kapitel 4: Binäre Regression Kapitel 4: Binäre Regression Steffen Unkel (basierend auf Folien von Nora Fenske) Statistik III für Nebenfachstudierende WS 2013/2014 4.1 Motivation Ausgangssituation Gegeben sind Daten (y i, x i1,...,

Mehr

Allgemeine Regressionsanalyse. Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl. deterministisch

Allgemeine Regressionsanalyse. Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl. deterministisch Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 9.1 Allgemeine Regressionsanalyse Daten (X j, Y j ), j = 1,..., N unabhängig Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl.

Mehr

Multivariate Statistik

Multivariate Statistik Hermann Singer Multivariate Statistik 1 Auflage 15 Oktober 2012 Seite: 12 KAPITEL 1 FALLSTUDIEN Abbildung 12: Logistische Regression: Geschätzte Wahrscheinlichkeit für schlechte und gute Kredite (rot/blau)

Mehr

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18 3. Deskriptive Statistik Ziel der deskriptiven (beschreibenden) Statistik (explorativen Datenanalyse) ist die übersichtliche Darstellung der wesentlichen in den erhobenen Daten enthaltene Informationen

Mehr

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik Ludwig Fahrmeir, Nora Fenske Institut für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik 29. März 21 Hinweise:

Mehr

25. Januar 2010. Ruhr-Universität Bochum. Methodenlehre III, WS 2009/2010. Prof. Dr. Holger Dette. 4. Multivariate Mittelwertvergleiche

25. Januar 2010. Ruhr-Universität Bochum. Methodenlehre III, WS 2009/2010. Prof. Dr. Holger Dette. 4. Multivariate Mittelwertvergleiche Ruhr-Universität Bochum 25. Januar 2010 1 / 75 2 / 75 4.1 Beispiel: Vergleich von verschiedenen Unterrichtsmethoden Zwei Zufallsstichproben (A und B) mit je 10 Schülern und 8 Schülern Gruppe A wird nach

Mehr

29. Mai 2006. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt.

29. Mai 2006. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt. L. Fahrmeir, C. Belitz Department für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit Wahlfach Statistik 29. Mai 2006 Hinweise:

Mehr

Kontingenzkoeffizient (nach Pearson)

Kontingenzkoeffizient (nach Pearson) Assoziationsmaß für zwei nominale Merkmale misst die Unabhängigkeit zweier Merkmale gibt keine Richtung eines Zusammenhanges an 46 o jl beobachtete Häufigkeiten der Kombination von Merkmalsausprägungen

Mehr

8. Februar 2007. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt.

8. Februar 2007. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt. L. Fahrmeir, C. Belitz Department für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit Wahlfach Statistik 8. Februar 2007 Hinweise:

Mehr

Diskriminanzanalyse Beispiel

Diskriminanzanalyse Beispiel Diskriminanzanalyse Ziel bei der Diskriminanzanalyse ist die Analyse von Gruppenunterschieden, d. h. der Untersuchung von zwei oder mehr Gruppen hinsichtlich einer Vielzahl von Variablen. Diese Methode

Mehr

Statistische Methoden: Tests, Regression und multivariate Verfahren

Statistische Methoden: Tests, Regression und multivariate Verfahren (CM)²-Nachwuchsring, Workshop Statistik, 25.Januar 2013 Statistische Methoden: Tests, Regression und multivariate Verfahren Ralf Korn ((CM)², TU Kaiserslautern, Fraunhofer ITWM) 0. Einige Probleme aus

Mehr

8. Methoden der klassischen multivariaten Statistik

8. Methoden der klassischen multivariaten Statistik 8. Methoden der klassischen multivariaten Statistik 8.1. Darstellung von Daten Voraussetzungen auch in diesem Kapitel: Grundgesamtheit (Datenraum) Ω von Objekten (Fällen, Instanzen), denen J-Tupel von

Mehr

Multinomiale logistische Regression

Multinomiale logistische Regression Multinomiale logistische Regression Die multinomiale logistische Regression dient zur Schätzung von Gruppenzugehörigkeiten bzw. einer entsprechenden Wahrscheinlichkeit hierfür, wobei als abhänginge Variable

Mehr

9 Diskriminanzanalyse

9 Diskriminanzanalyse 9 Dskrmnanzanalyse Zel ener Dskrmnanzanalyse: Berets bekannte Objektgruppen (Klassen/Cluster) anhand hrer Merkmale charakterseren und unterscheden sowe neue Objekte n de Klassen enordnen. Nötg: Lernstchprobe

Mehr

2. Korrelation, lineare Regression und multiple Regression

2. Korrelation, lineare Regression und multiple Regression multiple 2.2 Lineare 2.2 Lineare 1 / 130 2.2 Lineare 2 / 130 2.1 Beispiel: Arbeitsmotivation Untersuchung zur Motivation am Arbeitsplatz in einem Chemie-Konzern 25 Personen werden durch Arbeitsplatz zufällig

Mehr

Commercial Banking Übung 1 Kreditscoring

Commercial Banking Übung 1 Kreditscoring Commercial Banking Übung Kreditscoring Dr. Peter Raupach raupach@wiwi.uni-frankfurt.de Sprechzeit Dienstag 6-7:00 Uhr Raum 603 B Kreditscoring Gliederung Grundanliegen Das Sample Modellspezifikation Diskriminanzanalyse

Mehr

Korrelation - Regression. Berghold, IMI

Korrelation - Regression. Berghold, IMI Korrelation - Regression Zusammenhang zwischen Variablen Bivariate Datenanalyse - Zusammenhang zwischen 2 stetigen Variablen Korrelation Einfaches lineares Regressionsmodell 1. Schritt: Erstellung eines

Mehr

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 1 Einführung in die statistische Datenanalyse Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 2 Gliederung 1.Grundlagen 2.Nicht-parametrische Tests a. Mann-Whitney-Wilcoxon-U Test b. Wilcoxon-Signed-Rank

Mehr

Formelsammlung zu Multivariate Verfahren

Formelsammlung zu Multivariate Verfahren Institut für Statistik Gerhard Tutz, Moritz, Wolfgang Pößnecker Sommersemester 204 Formelsammlung zu Multivariate Verfahren Inhaltsverzeichnis Version 0804204 Diese Formelsammlung darf in der Klausur verwendet

Mehr

3.2 Bivariate Verteilungen

3.2 Bivariate Verteilungen 3.2 Bivariate Verteilungen zwei Variablen X, Y werden gemeinsam betrachtet (an jedem Objekt i, i = 1,..., n, werden gleichzeitig zwei Merkmale beobachtet) Beobachtungswerte sind Paare/Kombinationen von

Mehr

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft Prof. Dr. Helmut Küchenhoff SS08 90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft am 22.7.2008 Anmerkungen Überprüfen Sie bitte sofort, ob Ihre Angabe vollständig ist. Sie sollte

Mehr

Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall )

Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall ) Zusammenhänge von Variablen Regressionsanalysen linearer Zusammenhang ( Idealfall ) kein Zusammenhang nichtlinearer monotoner Zusammenhang (i.d.regel berechenbar über Variablentransformationen mittels

Mehr

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table("c:\\compaufg\\kredit.

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table(c:\\compaufg\\kredit. Lösung 16.3 Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit

Mehr

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren)

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Multiple Regression 1 Was ist multiple lineare Regression? Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Annahme: Der Zusammenhang

Mehr

Varianzanalyse ANOVA

Varianzanalyse ANOVA Varianzanalyse ANOVA Johannes Hain Lehrstuhl für Mathematik VIII Statistik 1/23 Einfaktorielle Varianzanalyse (ANOVA) Bisher war man lediglich in der Lage, mit dem t-test einen Mittelwertsvergleich für

Mehr

Statistik im Bachelor-Studium der BWL und VWL

Statistik im Bachelor-Studium der BWL und VWL Max C. Wewel Statistik im Bachelor-Studium der BWL und VWL Methoden, Anwendung, Interpretation Mit herausnehmbarer Formelsammlung ein Imprint von Pearson Education München Boston San Francisco Harlow,

Mehr

Kapitel 3. Zufallsvariable. Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion. Erwartungswert, Varianz und Standardabweichung

Kapitel 3. Zufallsvariable. Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion. Erwartungswert, Varianz und Standardabweichung Kapitel 3 Zufallsvariable Josef Leydold c 2006 Mathematische Methoden III Zufallsvariable 1 / 43 Lernziele Diskrete und stetige Zufallsvariable Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion

Mehr

ε heteroskedastisch BINARY CHOICE MODELS Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS?

ε heteroskedastisch BINARY CHOICE MODELS Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS? BINARY CHOICE MODELS 1 mit Pr( Y = 1) = P Y = 0 mit Pr( Y = 0) = 1 P Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS? Y i = X i β + ε i Probleme: Nonsense Predictions

Mehr

Inhaltsverzeichnis. Regressionsanalyse. http://mesosworld.ch - Stand vom: 20.1.2010 1

Inhaltsverzeichnis. Regressionsanalyse. http://mesosworld.ch - Stand vom: 20.1.2010 1 Inhaltsverzeichnis Regressionsanalyse... 2 Lernhinweise... 2 Einführung... 2 Theorie (1-8)... 2 1. Allgemeine Beziehungen... 3 2. 'Best Fit'... 3 3. 'Ordinary Least Squares'... 4 4. Formel der Regressionskoeffizienten...

Mehr

Willkommen zur Vorlesung Statistik

Willkommen zur Vorlesung Statistik Willkommen zur Vorlesung Statistik Thema dieser Vorlesung: Varianzanalyse Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften Prof. Dr. Wolfgang

Mehr

Übungsserie Nr. 10 mit Lösungen

Übungsserie Nr. 10 mit Lösungen Übungsserie Nr. 10 mit Lösungen 1 Ein Untersuchungsdesign sieht einen multivariaten Vergleich einer Stichprobe von Frauen mit einer Stichprobe von Männern hinsichtlich der Merkmale X1, X2 und X3 vor (Codierung:

Mehr

12. Vergleich mehrerer Stichproben

12. Vergleich mehrerer Stichproben 12. Vergleich mehrerer Stichproben Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Häufig wollen wir verschiedene Populationen, Verfahren, usw. miteinander vergleichen. Beipiel: Vergleich

Mehr

COMMERCIAL BANKING Sommersemester 2002 Wahrenburg / Raupach Aufgabenblatt 1. Aufgabenblatt 1

COMMERCIAL BANKING Sommersemester 2002 Wahrenburg / Raupach Aufgabenblatt 1. Aufgabenblatt 1 COMMERCIAL BANKING Sommersemester 2002 Wahrenburg / Raupach Aufgabenblatt Aufgabenblatt. (Präsentation zum Kreditscoring) 2. Sie haben einen Kredit an eine börsennotierte Firma XY vergeben. Bestimmen Sie

Mehr

Multivariate Verfahren

Multivariate Verfahren Multivariate Verfahren Lineare Reression Zweck: Vorhersae Dimensionsreduktion Klassifizierun Hauptkomponentenanalyse Korrespondenzanalyse Clusteranalyse Diskriminanzanalyse Eienschaften: nicht-linear verteilunsfrei

Mehr

Einseitig gerichtete Relation: Mit zunehmender Höhe über dem Meeresspiegel sinkt im allgemeinen die Lufttemperatur.

Einseitig gerichtete Relation: Mit zunehmender Höhe über dem Meeresspiegel sinkt im allgemeinen die Lufttemperatur. Statistik Grundlagen Charakterisierung von Verteilungen Einführung Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsverteilungen Schätzen und Testen Korrelation Regression Einführung Die Analyse und modellhafte

Mehr

Schätzer (vgl. Kapitel 1): Stichprobenmittel X N. Stichprobenmedian X N

Schätzer (vgl. Kapitel 1): Stichprobenmittel X N. Stichprobenmedian X N Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 8.1 Schätzer für Lage- und Skalenparameter und Verteilungsmodellwahl Lageparameter (l(x + a) = l(x) + a): Erwartungswert EX Median von X

Mehr

Modul G.1 WS 07/08: Statistik 17.01.2008 1. Die Korrelation ist ein standardisiertes Maß für den linearen Zusammenhangzwischen zwei Variablen.

Modul G.1 WS 07/08: Statistik 17.01.2008 1. Die Korrelation ist ein standardisiertes Maß für den linearen Zusammenhangzwischen zwei Variablen. Modul G.1 WS 07/08: Statistik 17.01.2008 1 Wiederholung Kovarianz und Korrelation Kovarianz = Maß für den linearen Zusammenhang zwischen zwei Variablen x und y Korrelation Die Korrelation ist ein standardisiertes

Mehr

Binäre abhängige Variablen

Binäre abhängige Variablen Binäre abhängige Variablen Thushyanthan Baskaran thushyanthan.baskaran@awi.uni-heidelberg.de Alfred Weber Institut Ruprecht Karls Universität Heidelberg Einführung Oft wollen wir qualitative Variablen

Mehr

Multivariate Analysemethoden

Multivariate Analysemethoden Multivariate Analysemethoden 30.04.2014 Günter Meinhardt Johannes Gutenberg Universität Mainz Einführung Was sind multivariate Analysemethoden? Vorlesung Übung/Tut Prüfung Verfahrensdarstellung in Überblick

Mehr

Lehrstuhl für Betriebswirtschaftslehre mit Schwerpunkt Finanzierung. Klausur "Finanzmanagement" 14. März 2002

Lehrstuhl für Betriebswirtschaftslehre mit Schwerpunkt Finanzierung. Klausur Finanzmanagement 14. März 2002 1 Lehrstuhl für Betriebswirtschaftslehre mit Schwerpunkt Finanzierung Klausur "Finanzmanagement" 14. März 2002 Bearbeitungshinweise: - Die Gesamtbearbeitungsdauer beträgt 60 Minuten. - Schildern Sie ihren

Mehr

Seminar Data Mining and Learning from Data. Predictive Modeling. Thorsten Holz

Seminar Data Mining and Learning from Data. Predictive Modeling. Thorsten Holz Seminar Data Mining and Learning from Data Predictive Modeling Thorsten Holz Human Language Technology and Pattern Recognition Lehrstuhl für Informatik VI, Computer Science Department RWTH Aachen University

Mehr

Statistische Verfahren für das Data Mining in einem Industrieprojekt

Statistische Verfahren für das Data Mining in einem Industrieprojekt Statistische Verfahren für das Data Mining in einem Industrieprojekt Thorsten Dickhaus Forschungszentrum Jülich GmbH Zentralinstitut für Angewandte Mathematik Telefon: 02461/61-4193 E-Mail: th.dickhaus@fz-juelich.de

Mehr

Univariate Lineare Regression. (eine unabhängige Variable)

Univariate Lineare Regression. (eine unabhängige Variable) Univariate Lineare Regression (eine unabhängige Variable) Lineare Regression y=a+bx Präzise lineare Beziehung a.. Intercept b..anstieg y..abhängige Variable x..unabhängige Variable Lineare Regression y=a+bx+e

Mehr

Institut für Soziologie. Methoden 2. Regressionsanalyse I: Einfache lineare Regression

Institut für Soziologie. Methoden 2. Regressionsanalyse I: Einfache lineare Regression Institut für Soziologie Methoden 2 Regressionsanalyse I: Einfache lineare Regression Programm Anwendungsbereich Vorgehensweise Interpretation Annahmen Zusammenfassung Übungsaufgabe Literatur # 2 Anwendungsbereich

Mehr

Computer Vision: 3D-Geometrie. D. Schlesinger () Computer Vision: 3D-Geometrie 1 / 17

Computer Vision: 3D-Geometrie. D. Schlesinger () Computer Vision: 3D-Geometrie 1 / 17 Computer Vision: 3D-Geometrie D. Schlesinger () Computer Vision: 3D-Geometrie 1 / 17 Lochkamera Modell C Projektionszentrum, Optische Achse, Bildebene, P Hauptpunkt (optische Achse kreuzt die Bildebene),

Mehr

Inhaltsverzeichnis. I Einführung in STATISTICA 1. 1 Erste Schritte in STATISTICA 3

Inhaltsverzeichnis. I Einführung in STATISTICA 1. 1 Erste Schritte in STATISTICA 3 I Einführung in STATISTICA 1 1 Erste Schritte in STATISTICA 3 2 Datenhaltung in STATISTICA 11 2.1 Die unterschiedlichen Dateitypen in STATISTICA....... 11 2.2 Import von Daten......... 12 2.3 Export von

Mehr

Skript zur Übung: Grundlagen der empirischen Sozialforschung - Datenanalyse

Skript zur Übung: Grundlagen der empirischen Sozialforschung - Datenanalyse Skript zur Übung: Grundlagen der empirischen Sozialforschung - Datenanalyse Phasen des Forschungsprozesses Auswahl des Forschungsproblems Theoriebildung Theoretische Phase Konzeptspezifikation / Operationalisierung

Mehr

Fragestellungen der Schließenden Statistik

Fragestellungen der Schließenden Statistik Fragestellungen der Schließenden Statistik Bisher: Teil I: Beschreibende Statistik Zusammenfassung von an GesamtheitM N {e,,e N } erhobenem Datensatz x,,x N durch Häufigkeitsverteilung und Kennzahlen für

Mehr

Automatische Mustererkennung zur Klassifikation von Konsumentenverhalten am Beispiel der Kreditwürdigkeitsprüfung

Automatische Mustererkennung zur Klassifikation von Konsumentenverhalten am Beispiel der Kreditwürdigkeitsprüfung Prof. Dr. Gerhard Arminger Dipl.-Ök. Alexandra Schwarz Bergische Universität Wuppertal Fachbereich Wirtschaftswissenschaft Fach Statistik Automatische Mustererkennung zur Klassifikation von Konsumentenverhalten

Mehr

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen 4. Datenanalyse und Modellbildung Deskriptive Statistik 2-1 2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen Für die Auswertung einer Messreihe, die in Form

Mehr

Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt!

Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt! Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt! 1 Einführung 2 Wahrscheinlichkeiten kurz gefasst 3 Zufallsvariablen und Verteilungen 4 Theoretische Verteilungen (Wahrscheinlichkeitsfunktion)

Mehr

9. Schätzen und Testen bei unbekannter Varianz

9. Schätzen und Testen bei unbekannter Varianz 9. Schätzen und Testen bei unbekannter Varianz Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Schätzen und Testen bei unbekannter Varianz Wenn wir die Standardabweichung σ nicht kennen,

Mehr

Abhängigkeit zweier Merkmale

Abhängigkeit zweier Merkmale Abhängigkeit zweier Merkmale Johannes Hain Lehrstuhl für Mathematik VIII Statistik 1/33 Allgemeine Situation Neben der Untersuchung auf Unterschiede zwischen zwei oder mehreren Untersuchungsgruppen hinsichtlich

Mehr

Fallbeispiel: Kreditscoring

Fallbeispiel: Kreditscoring Fallbeispiel: Kreditscoring Stefan Lang 14. Juni 2005 SS 2005 Datensatzbeschreibung (1) Ziel Untersuchung der Bonität eines Kunden in Abhängigkeit von erklärenden Variablen Zielvariable Bonität des Kunden:

Mehr

Kommentierter SPSS-Ausdruck zur logistischen Regression

Kommentierter SPSS-Ausdruck zur logistischen Regression Daten: POK V AG 3 (POKV_AG3_V07.SAV) Kommentierter SPSS-Ausdruck zur logistischen Regression Fragestellung: Welchen Einfluss hat die Fachnähe und das Geschlecht auf die interpersonale Attraktion einer

Mehr

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50,7 50 51,5 51,7 48,8

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50,7 50 51,5 51,7 48,8 1. Aufgabe: Eine Reifenfirma hat für Winterreifen unterschiedliche Profile entwickelt. Bei jeweils gleicher Geschwindigkeit und auch sonst gleichen Bedingungen wurden die Bremswirkungen gemessen. Die gemessenen

Mehr

4. Woche Decodierung; Maximale, Perfekte und Optimale Codes. 4. Woche: Decodierung; Maximale, Perfekte und Optimale Codes 69/ 140

4. Woche Decodierung; Maximale, Perfekte und Optimale Codes. 4. Woche: Decodierung; Maximale, Perfekte und Optimale Codes 69/ 140 4 Woche Decodierung; Maximale, Perfekte und Optimale Codes 4 Woche: Decodierung; Maximale, Perfekte und Optimale Codes 69/ 140 Szenario für fehlerkorrigierende Codes Definition (n, M)-Code Sei C {0, 1}

Mehr

Kommentierte Formelsammlung multivariater statistischer Verfahren. Prof. Dr. Irene Rößler Prof. Dr. Albrecht Ungerer

Kommentierte Formelsammlung multivariater statistischer Verfahren. Prof. Dr. Irene Rößler Prof. Dr. Albrecht Ungerer Kommentierte Formelsammlung multivariater statistischer Verfahren Prof Dr Irene Rößler Prof Dr Albrecht Ungerer Inhaltsverzeichnis i Inhaltsverzeichnis Verfahren im Überblick Beispieldatensatz 1 1 Multiple

Mehr

Beispiel: Sonntagsfrage. Einführung in die induktive Statistik. Statistische Tests. Statistische Tests

Beispiel: Sonntagsfrage. Einführung in die induktive Statistik. Statistische Tests. Statistische Tests Beispiel: Sonntagsfrage Vier Wochen vor der österreichischen Nationalratswahl 1999 wurde 499 Haushalten die Sonntagsfrage gestellt: Falls nächsten Sonntag Wahlen wären, welche Partei würden Sie wählen?

Mehr

Kategoriale abhängige Variablen: Logit- und Probit -Modelle. Statistik II

Kategoriale abhängige Variablen: Logit- und Probit -Modelle. Statistik II Kategoriale abhängige Variablen: Logit- und Probit -Modelle Statistik II Wiederholung Literatur Annahmen und Annahmeverletzungen Funktionen Exponenten, Wurzeln usw. Das Problem Das binäre Logit-Modell

Mehr

Multivariate Verfahren

Multivariate Verfahren Selbstkontrollarbeit 2 Multivariate Verfahren Musterlösung Aufgabe 1 (28 Punkte) Der Marketing-Leiter einer Lebensmittelherstellers möchte herausfinden, mit welchem Richtpreis eine neue Joghurt-Marke auf

Mehr

0 Einführung: Was ist Statistik

0 Einführung: Was ist Statistik 0 Einführung: Was ist Statistik 1 Datenerhebung und Messung Die Messung Skalenniveaus 2 Univariate deskriptive Statistik 3 Multivariate Statistik 4 Regression 5 Ergänzungen Grundbegriffe Statistische Einheit,

Mehr

6.1 Grundbegriffe und historischer Hintergrund

6.1 Grundbegriffe und historischer Hintergrund Kapitel 6 Regression 61 Grundbegriffe und historischer Hintergrund Bedeutung der Regression: Eines der am häufigsten verwendeten statistischen Verfahren Vielfache Anwendung in den Sozialwissenschaften

Mehr

2. Eindimensionale (univariate) Datenanalyse

2. Eindimensionale (univariate) Datenanalyse 2. Eindimensionale (univariate) Datenanalyse Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Kennzahlen, Statistiken In der Regel interessieren uns nicht so sehr die beobachteten Einzeldaten

Mehr

Unsupervised Kernel Regression

Unsupervised Kernel Regression 9. Mai 26 Inhalt Nichtlineare Dimensionsreduktion mittels UKR (Unüberwachte KernRegression, 25) Anknüpfungspunkte Datamining I: PCA + Hauptkurven Benötigte Zutaten Klassische Kernregression Kerndichteschätzung

Mehr

Norm- vs. Kriteriumsorientiertes Testen

Norm- vs. Kriteriumsorientiertes Testen Norm- vs. Kriteriumsorientiertes Testen Aus psychologischen Test ergibt sich in der Regel ein numerisches Testergebnis, das Auskunft über die Merkmalsausprägung der Testperson geben soll. Die aus der Testauswertung

Mehr

9 Resümee. Resümee 216

9 Resümee. Resümee 216 Resümee 216 9 Resümee In der vorliegenden Arbeit werden verschiedene Methoden der Datenreduktion auf ihre Leistungsfähigkeit im sozialwissenschaftlichstatistischen Umfeld anhand eines konkreten Anwendungsfalls

Mehr

Univariate/ multivariate Ansätze. Klaus D. Kubinger. Test- und Beratungsstelle. Effektgrößen

Univariate/ multivariate Ansätze. Klaus D. Kubinger. Test- und Beratungsstelle. Effektgrößen Univariate/ multivariate Ansätze Klaus D. Kubinger Effektgrößen Rasch, D. & Kubinger, K.D. (2006). Statistik für das Psychologiestudium Mit Softwareunter-stützung zur Planung und Auswertung von Untersuchungen

Mehr

6. METRISCHE UND KATEGORIALE MERKMALE

6. METRISCHE UND KATEGORIALE MERKMALE 6. METRISCHE UND KATEGORIALE MERKMALE wenn an einer Beobachtungseinheit eine (oder mehrere) metrische und eine (oder mehrere) kategoriale Variable(n) erhoben wurden Beispiel: Haushaltsarbeit von Teenagern

Mehr

Weitere (wählbare) Kontraste in der SPSS Prozedur Allgemeines Lineares Modell

Weitere (wählbare) Kontraste in der SPSS Prozedur Allgemeines Lineares Modell Einfaktorielle Versuchspläne 27/40 Weitere (wählbare) Kontraste in der SPSS Prozedur Allgemeines Lineares Modell Abweichung Einfach Differenz Helmert Wiederholt Vergleich Jede Gruppe mit Gesamtmittelwert

Mehr

Seminar Text- und Datamining Datamining-Grundlagen

Seminar Text- und Datamining Datamining-Grundlagen Seminar Text- und Datamining Datamining-Grundlagen Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 23.05.2013 Gliederung 1 Klassifikationsprobleme 2 Evaluation

Mehr

Maschinelles Lernen Entscheidungsbäume

Maschinelles Lernen Entscheidungsbäume Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen Entscheidungsbäume Paul Prasse Entscheidungsbäume Eine von vielen Anwendungen: Kreditrisiken Kredit - Sicherheiten

Mehr

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002) 6. Bayes-Klassifikation (Schukat-Talamazzini 2002) (Böhm 2003) (Klawonn 2004) Der Satz von Bayes: Beweis: Klassifikation mittels des Satzes von Bayes (Klawonn 2004) Allgemeine Definition: Davon zu unterscheiden

Mehr

Klausur Wirtschaftsmathematik Lösungshinweise

Klausur Wirtschaftsmathematik Lösungshinweise Klausur Wirtschaftsmathematik Lösungshinweise Prüfungsdatum: 27. Juni 2015 Prüfer: Etschberger Studiengang: Wirtschaftsingenieurwesen Aufgabe 1 16 Punkte Anton Arglos hat von seiner Großmutter 30 000 geschenkt

Mehr

Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel

Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel 16.11.01 MP1 - Grundlagen quantitativer Sozialforschung - (4) Datenanalyse 1 Gliederung Datenanalyse (inferenzstatistisch)

Mehr

Quantitative Methoden der Bildungsforschung

Quantitative Methoden der Bildungsforschung Glieung Wieholung Korrelationen Grundlagen lineare Regression Lineare Regression in SPSS Übung Wieholung Korrelationen Standardisiertes Zusammenhangsmaß (unstandardisiert: Kovarianz) linearer Zusammenhang

Mehr

Das Dialogfeld für die Regressionsanalyse ("Lineare Regression") findet sich im Statistik- Menu unter "Regression"-"Linear":

Das Dialogfeld für die Regressionsanalyse (Lineare Regression) findet sich im Statistik- Menu unter Regression-Linear: Lineare Regression Das Dialogfeld für die Regressionsanalyse ("Lineare Regression") findet sich im Statistik- Menu unter "Regression"-"Linear": Im einfachsten Fall werden mehrere Prädiktoren (oder nur

Mehr

q = 1 p = 0.8 0.2 k 0.8 10 k k = 0, 1,..., 10 1 1 0.8 2 + 10 0.2 0.8 + 10 9 1 2 0.22 1 = 0.8 8 [0.64 + 1.6 + 1.8] = 0.678

q = 1 p = 0.8 0.2 k 0.8 10 k k = 0, 1,..., 10 1 1 0.8 2 + 10 0.2 0.8 + 10 9 1 2 0.22 1 = 0.8 8 [0.64 + 1.6 + 1.8] = 0.678 Lösungsvorschläge zu Blatt 8 X binomialverteilt mit p = 0. und n = 10: a PX = = 10 q = 1 p = 0.8 0. 0.8 10 = 0, 1,..., 10 PX = PX = 0 + PX = 1 + PX = 10 10 = 0. 0 0.8 10 + 0. 1 0.8 9 + 0 1 10 = 0.8 8 [

Mehr

5.2. Nichtparametrische Tests. 5.2.1. Zwei unabhängige Stichproben: U- Test nach MANN- WHITNEY

5.2. Nichtparametrische Tests. 5.2.1. Zwei unabhängige Stichproben: U- Test nach MANN- WHITNEY 5.2. Nichtparametrische Tests 5.2.1. Zwei unabhängige Stichproben: U- Test nach MANN- WHITNEY Voraussetzungen: - Die Verteilungen der beiden Grundgesamtheiten sollten eine ähnliche Form aufweisen. - Die

Mehr

5.2 Optionen Auswahl der Statistiken, die bei der jeweiligen Prozedur zur Verfügung stehen.

5.2 Optionen Auswahl der Statistiken, die bei der jeweiligen Prozedur zur Verfügung stehen. 5 Statistik mit SPSS Die Durchführung statistischer Auswertungen erfolgt bei SPSS in 2 Schritten, der Auswahl der geeigneten Methode, bestehend aus Prozedur Variable Optionen und der Ausführung. 5.1 Variablen

Mehr

Monte Carlo Methoden in Kreditrisiko-Management

Monte Carlo Methoden in Kreditrisiko-Management Monte Carlo Methoden in Kreditrisiko-Management P Kreditportfolio bestehend aus m Krediten; Verlustfunktion L = n i=1 L i; Die Verluste L i sind unabhängig bedingt durch einen Vektor Z von ökonomischen

Mehr

Finanzierungsantrag Per Fax an: 04 51-3 98 28 00 Ratenkredit

Finanzierungsantrag Per Fax an: 04 51-3 98 28 00 Ratenkredit Finanzierungsantrag Per Fax an: 04 51-3 98 28 00 Ratenkredit Kreditbetrag: Angabe der Laufzeit: oder gewünschte Monatsrate: Verwendungszweck: Mon. Vorausetzungen Volljährigkeit mind. 6 Monate beim Arbeitgeber

Mehr

Logistische Regression

Logistische Regression TU Chemnitz SoSe 2012 Seminar: Multivariate Analysemethoden 26.06.2012 Dozent: Dr. Thomas Schäfer Logistische Regression Ein Verfahren zum Schätzen von Wahrscheinlichkeiten Referentinnen: B. Sc. Psych.

Mehr

Tutorial: Homogenitätstest

Tutorial: Homogenitätstest Tutorial: Homogenitätstest Eine Bank möchte die Kreditwürdigkeit potenzieller Kreditnehmer abschätzen. Einerseits lebt die Bank ja von der Vergabe von Krediten, andererseits verursachen Problemkredite

Mehr

Statistik I für Wirtschaftswissenschaftler Klausur am 06.07.2007, 14.00 16.00.

Statistik I für Wirtschaftswissenschaftler Klausur am 06.07.2007, 14.00 16.00. 1 Statistik I für Wirtschaftswissenschaftler Klausur am 06.07.2007, 14.00 16.00. Bitte unbedingt beachten: a) Gewertet werden alle 9 gestellten Aufgaben. b) Lösungswege sind anzugeben. Die Angabe des Endergebnisses

Mehr

Funktionen (linear, quadratisch)

Funktionen (linear, quadratisch) Funktionen (linear, quadratisch) 1. Definitionsbereich Bestimme den Definitionsbereich der Funktion f(x) = 16 x 2 2x + 4 2. Umkehrfunktionen Wie lauten die Umkehrfunktionen der folgenden Funktionen? (a)

Mehr

Konsum- und Kfz-Finanzierung. Grundlagenstudie zur Konsumund. GfK Finanzmarktforschung, Oktober 2008

Konsum- und Kfz-Finanzierung. Grundlagenstudie zur Konsumund. GfK Finanzmarktforschung, Oktober 2008 Grundlagenstudie zur Konsumund Kfz-Finanzierung GfK Finanzmarktforschung, Inhaltsverzeichnis 2 A. Ratenkredite B. Weitere Finanzierungsformen C. Aktuelle Nutzung verschiedener Finanzierungsformen D. Finanzierung

Mehr

Selbstauskunft. (Bitte vollständig und in Druckschrift ausfüllen) Verwendungszweck Neufahrzeug Gebrauchtfahrzeug Einrichtung / Möbel

Selbstauskunft. (Bitte vollständig und in Druckschrift ausfüllen) Verwendungszweck Neufahrzeug Gebrauchtfahrzeug Einrichtung / Möbel Selbstauskunft (Bitte vollständig und in Druckschrift ausfüllen) Angaben zum Vorhaben und Kredit: Verwendungszweck Neufahrzeug Gebrauchtfahrzeug Einrichtung / Möbel Umschuldung Modernisierung Sonstiges:

Mehr

Deskriptive Statistik

Deskriptive Statistik Deskriptive Statistik In der beschreibenden Statistik werden Methoden behandelt, mit deren Hilfe man Daten übersichtlich darstellen und kennzeichnen kann. Die Urliste (=Daten in der Reihenfolge ihrer Erhebung)

Mehr

Auswertung mit dem Statistikprogramm SPSS: 30.11.05

Auswertung mit dem Statistikprogramm SPSS: 30.11.05 Auswertung mit dem Statistikprogramm SPSS: 30.11.05 Seite 1 Einführung SPSS Was ist eine Fragestellung? Beispiel Welche statistische Prozedur gehört zu welcher Hypothese? Statistische Berechnungen mit

Mehr

Log-lineare Analyse I

Log-lineare Analyse I 1 Log-lineare Analyse I Einleitung Die log-lineare Analysemethode wurde von L.A. Goodman in den 60er und 70er Jahren entwickelt. Sie dient zur Analyse von Zusammenhängen in mehrdimensionalen Kontingenztafeln

Mehr

Angewandte Ökonometrie, WS 2012/13, 1. Teilprüfung am 6.12.2012 - Lösungen. Das folgende Modell ist ein GARCH(1,1)-Modell:

Angewandte Ökonometrie, WS 2012/13, 1. Teilprüfung am 6.12.2012 - Lösungen. Das folgende Modell ist ein GARCH(1,1)-Modell: Angewandte Ökonometrie, WS 2012/13, 1. Teilprüfung am 6.12.2012 - Lösungen LV-Leiterin: Univ.Prof.Dr. Sylvia Frühwirth-Schnatter 1 Wahr oder falsch? 1. Das folgende Modell ist ein GARCH(1,1)-Modell: Y

Mehr

Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014

Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014 Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014 Aufgabe 1. Data Mining a) Mit welchen Aufgabenstellungen befasst sich Data Mining? b) Was versteht man unter Transparenz einer Wissensrepräsentation?

Mehr

1. Biometrische Planung

1. Biometrische Planung 1. Biometrische Planung Die biometrische Planung ist Teil der Studienplanung für wissenschaftliche Studien, in denen eine statistische Bewertung von Daten erfolgen soll. Sie stellt alle erforderlichen

Mehr

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining Gliederung 1. Einführung 2. Grundlagen Data Mining Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining 3. Ausgewählte Methoden des Data

Mehr

Stichprobenauslegung. für stetige und binäre Datentypen

Stichprobenauslegung. für stetige und binäre Datentypen Stichprobenauslegung für stetige und binäre Datentypen Roadmap zu Stichproben Hypothese über das interessierende Merkmal aufstellen Stichprobe entnehmen Beobachtete Messwerte abbilden Schluss von der Beobachtung

Mehr

Monte Carlo Simulationen

Monte Carlo Simulationen Monte Carlo Simulationen Erkenntnisse durch die Erschaffung einer virtuellen Welt Stefan Wunsch 31. Mai 2014 INSTITUT FÜR EXPERIMENTELLE KERNPHYSIK (IEKP) KIT Universität des Landes Baden-Württemberg und

Mehr