9 Diskriminanzanalyse

Größe: px
Ab Seite anzeigen:

Download "9 Diskriminanzanalyse"

Transkript

1 9 Diskriminanzanalyse 9.1 Problemstellung Ziel einer Diskriminanzanalyse: Bereits bekannte Objektgruppen (Klassen/Cluster) anhand ihrer Merkmale charakterisieren und unterscheiden sowie neue Objekte in die Klassen einordnen. Nötig: Lernstichprobe von Objekten mit bekannter Klassenzugehörigkeit, um Abgrenzung der verschiedenen Gruppen anhand der beobachteten Merkmale zu lernen. Die Diskriminanzanalyse fällt unter die so genannten Klassifikations- oder auch Mustererkennungsmethoden (engl. pattern recognition). Cluster 1 Cluster 2 Cluster 1 Cluster 2 neue Beobachtung neue Beobachtung zu Cluster 2 Cluster 3 Cluster 3 Beispiel 9.1 : Kreditscoring Die Vergabe von Krediten hängt von der Bereitschaft und Fähigkeit der Kunden ab, die anfallenden Zins- und Tilgungsraten zu bezahlen. Banken stufen potenzielle Kunden vor Kreditvergabe entweder als problemlos oder als Problemfall ein. Problemfälle werden genauer geprüft und der Kredit ggf. abgelehnt. Die Einstufung erfolgt auf Basis von charakterisierenden Merkmalen der Kunden hinsichtlich ihrer persönlichen, wirtschaftlichen und rechtlichen Situation. Weitere Beispiele: Unterscheidung zwischen - Käufern und Nicht-Käufern eines neuen Produktes - Texten verschiedener Autoren 136

2 Definition 9.2 : Modell der Diskriminanzanalyse Eine Grundgesamtheit Ω bestehe aus mehreren Klassen (Gruppen) C 1,..., C k, so dass jedes Element (Objekt) ω Ω zu genau einer Gruppe gehört. Für die Zerlegung C 1,..., C k von Ω gelte also C i C j = für i = j und k j=1 C j = Ω. Ziel ist es, für ein Objekt ω Ω mit unbekannter Klassenzugehörigkeit anhand eines beobachteten Merkmalsvektors x die zugehörige Klasse C j zu ermitteln. Bemerkung 9.3 : Lernstichprobe In der Diskriminanzanalyse werden in der Regel nicht die Klassen selbst, sondern nur bestimmte Merkmale der Objekte beobachtet, anhand derer die Klassenzugehörigkeit festzustellen ist. Um typische Werte der Merkmale für die verschiedenen Klassen zu ermitteln, steht eine Lernstichprobe von Objekten zur Verfügung, für welche die Merkmalsausprägungen und die Klassenzugehörigkeit bekannt sind. Lernstichprobe: (x 1, y 1),...,(x n, y n) mit y i = j Objekt i gehört zu Klasse C j, i = 1,..., n, die ZVe Y gebe also die Klassenzugehörigkeit an. Beispiel 9.4 : Kredite (Fortsetzung Beispiel 9.1) Eine süddeutsche Großbank benutzt zur Einschätzung des Kreditrisikos ihrer Kunden eine Lernstichprobe von 1000 ehemaligen Kreditnehmern. 300 dieser ehemaligen Kunden zahlten den Kredit nicht vereinbarungsgemäß zurück. Es wurden folgende Merkmale erfasst: Kredit zurückgezahlt (ja; nein) bestehendes laufendes Konto bei der Bank (nein; ja - aber im Minus; ja - mit geringem Betrag; ja - als Gehaltskonto in beträchtlicher Höhe) Laufzeit des Kredits (in halben Jahren, bis zu 5 Jahren) bisherige Zahlungsmoral (von schlecht bis sehr gut) Verwendungszweck des Kredits (PKW; Möbel; Radio/Fernsehen; Haushalt; Reparaturen; Ausbildung; Urlaub; Umschulung; Betrieb; Sonstiges) Darlehenshöhe (in insgesamt 10 Kategorien von < 500 bis > Euro) Sparkonto oder Wertpapiere vorhanden (nach Anlagehöhen gestaffelt) Dauer der Beschäftigung bei derzeitigem Arbeitgeber 137

3 Ratenhöhe in % des verfügbaren Einkommens Familienstand und Geschlecht weitere Schuldner / Bürgen beteiligt in der jetzigen Wohnung seit... Jahren Vermögen vorhanden (Haus- und Grundbesitz; Bausparvertrag, Lebensversicherung; PKW, Sonstiges; keins) Alter (in Altersklassen) weitere Ratenkredite anderswo (andere Bank; Kauf-/Versandhaus; keine) Art der Wohnung (Miete; Eigentum; kostenlos überlassen) Anzahl bisheriger Ratenkredite einschl. des laufenden Beruf (nicht beschäftigt, ungelernt nicht sesshaft; ungelernt sesshaft; Facharbeiter, gelernte Angestellte, Beamte bis mittlerer Dienst; Führungskraft, selbstständig, Beamter höherer Dienst) Anzahl unterhaltsberechtigter Personen, die zu versorgen sind Telefon (nein; ja, unter dem Namen des Kunden) Gastarbeiter (ja; nein) Aus den Charakteristika der Kunden in der Lernstichprobe und der Kenntnis über die Rückzahlung ihrer Kredite werden Regeln abgeleitet, nach denen künftige potenzielle Kunden als unproblematisch oder als Risikofall eingestuft werden. Eine Regel, nach der Objekte zu den einzelnen Klassen zugeordnet werden, basiert auf einer so genannten Diskriminanzfunktion. Definition 9.5 : Diskriminanzfunktion, Diskriminanzregel Betrachtet wird ein Modell der Diskriminanzanalyse wie in Definition 9.2. Zu einem Objekt ω werde ein Merkmalsvektor x beobachtet. Eine Funktion D, die dem Beobachtungsvektor x für jede Gruppe C i der Grundgesamtheit einen charakterisierenden Wert D(x, C i ) zuordnet, heißt Diskriminanzfunktion. Eine Regel, die anhand von D(x, C 1 ),..., D(x, C k ) entscheidet, welcher Gruppe C i das Objekt ω zugeordnet wird, heißt Diskriminanzregel. Nachfolgend meist Betrachtung metrisch skalierter stetiger Merkmale. 138

4 9.2 Lineare Diskriminanzanalyse nach Fisher Bemerkung 9.6 : Idee der Diskriminanzregel bei nur einem Merkmal Die Grundgesamtheit Ω zerfalle in die Klassen C 1 und C 2. Pro Objekt werde ein eindimensionales Merkmal X beobachtet. Die Lernstichprobe enthalte n 1 Objekte aus C 1 und n 2 Objekte aus C 2 : x 1,..., x n } = x C 1 1,..., xc 1 n 1 } x C 2 1,..., xc 2 n 2 }, n = n 1 + n 2. Schätzung der Häufigkeitsverteilungen des Merkmals X in den beiden Klassen durch Histogramme der relativen Häufigkeiten. Geglättete Darstellung: C 2 C 1 x C 2 x C 1 x C j : arithmetisches Mittel der Beobachtungen aus Klasse C j in Lernstichprobe. Aus Abbildung: größere Werte von X sprechen tendenziell für das Vorliegen von Klasse 1, während kleinere Werte von X für Klasse 2 sprechen. Nötig: Trennpunkt t zwischen großen und kleinen Werten, vgl. senkrechten Trennstrich in Abb. Der Trennpunkt kann als Mitte zwischen den Gruppenmittelwerten der Lernstichprobe festgelegt werden, t = xc 1+x C 2 2. Für neue Beobachtung x würde man bei der vorliegenden Lernstichprobe entscheiden, dass x aus C 1 (C 2 ) stammt, wenn x > t (x < t) (x = t hat für stetige Merkmale Wahrscheinlichkeit Null und ist vernachlässigbar). Formulierung einer Diskriminanzfunktion: D(x, C 1 ) = 1, x > t 0, x < t, D(x, C 2) = 0, x > t 1, x < t. Diskriminanzregel: ordne Beobachtung x der Klasse C i mit D(x, C i ) = 1 zu. Alternativ kann die Regel auch über D(x, C i ) = x x C i formuliert werden. 139

5 Die Wahl des Trennpunkts in Bem. 9.6 unterstellt implizit, dass das Merkmal X in beiden Gruppen dieselbe Varianz besitzt. Ein Merkmal alleine führt selten zu guten Trennungen zwischen den Gruppen: Suche bessere Unterscheidung anhand mehrerer Merkmale. Bei Vorliegen eines zweidimensionalen Merkmalsvektors X = (X 1, X 2 ) pro Objekt ist es sinnvoll, X 1 und X 2 nicht einzeln zu betrachten, sondern eine Kombination aus beiden zur Trennung der Gruppen zu verwenden. Bemerkung 9.7 : Diskriminanzregel bei zwei Gruppen und zwei Merkmalen Bei zweidimensionalem Merkmal X kann man die Häufigkeitsverteilungen in den Klassen über die Dichtekonturlinien der zugehörigen Verteilungen visualisieren. Die Trennung zwischen den beiden Gruppen erfolgt dann nicht mit einem Trennpunkt, sondern mit einer Trenngeraden: C 2 C 1 Implizite Annahme hierbei: In allen Klassen j = 1,..., k gilt X (µ j, Σ) mit der gleichen elliptischen Verteilung in allen Klassen bis auf Lageunterschiede. Ohne diese Annahme ist die lineare Diskriminanzanalyse zwar anwendbar, liefert aber keine besonders guten Ergebnisse. 140

6 Lineare Diskriminanzfunktion nach Fisher durch Verallgemeinerung des in Bem. 9.7 beschriebenen Ansatzes auf p-dim. Merkmal X pro Objekt: X wird so in eine Linearkombination Z = a 1 X a p X p = a X transformiert, dass Z die zwei Gruppen möglichst gut trennt. Die Koeffizienten a i werden durch ein Maximierungsproblem bestimmt. Bemerkung 9.8 : Lineare Diskriminanzanalyse nach Fisher Grundgesamtheit Ω zerfalle in zwei Klassen C 1 und C 2. Pro Objekt werde p-dim. Merkmal X = (X 1,..., X p ) beobachtet mit metrisch skalierten stetigen Variablen X 1,..., X p. Die Lernstichprobe enthalte n 1 Objekte aus C 1 und n 2 Objekte aus C 2 : mit x C j i = x 1,..., x n } = x C 1 1,..., xc 1 n 1 } x C 2 1,..., xc 2 n 2 } ( x C j i,1,..., xc j i,p), n = n1 + n 2. Zur Trennung zwischen C 1 und C 2 bestimmt man Koeffizientenvektor a = (a 1,..., a p ) so, dass für die projizierten Werte z i = a x i, i = 1,..., n} ( z C 1 z C 2 ) 2 s 2 z = [ a (x C 1 x C 2 ) ] 2 a S x a maximiert wird, mit z C j arithmetisches Mittel der z-werte aus C j, und s 2 z Maß der Variabilität aller z-werte, s 2 z = n 1[ n 1 i=1 (z 1,i z C 1 ) 2 + n 2 i=1 (z 2,i z C 2 ) 2]. Lösung: a = S 1 x (x C 1 x C 2) Einordnung eines neu hinzukommenden Objekts mit Beobachtungsvektor x: Diskriminanzfunktion: 1, a x > a xc 1 + x C 2 D(x, C 1 ) = 2 0, a x < a xc 1 + x C 2 2, D(x, C 2 ) = 0, a x > t 1, a x < t. Trennpunkt: t = zc 1 + z C 2 2 Diskriminanzregel: Ordne ω mit Beobachtung x der Klasse C j zu, für die D(x, C j ) = 1 ist. 141

7 Verallgemeinerung auf k Klassen: Gesamte Abweichungsquadrate: n i=1 (z i z) 2 = Z HZ = a X HX a mit H = I n n 1 1 n 1 n Abweichungsquadrate innerhalb der Gruppen: k n j j=1 i=1 (z C j i z C j ) 2 = k a X jh j X j a =: a Wa j=1 mitx j Datenmatrix für Gruppe j,h j = I nj n 1 1 nj 1 n j und W = k j=1x j H jx j. Abweichungsquadrate zwischen den Gruppen: k n j (z C j z) 2 = j=1 k n j a (x C j x) } 2 =: a Ba j=1 mit B = k j=1 n j (x C j x)(x C j x). Maximiere nun den Quotienten a Ba a Wa Lösungsvektor a: Eigenvektor zum größten Eigenwert von W 1 B. Gruppiere sodann x in die Klasse j mit j = arg min i a (x x C i). Koeffizienten a i der Diskriminanzfunktion geben Auskunft darüber, welche Variablen wie stark zur Trennung der Gruppen beitragen. Damit die Koeffizienten direkt vergleichbar sind, müssen sie geeignet standardisiert werden. Die Lineare Diskriminanzfunktion stellt die einfachste Struktur zur Trennung von Gruppen dar (zweidimensional: Geraden, dreidimensional: Ebenen, höherdimensional: Hyperebenen als trennende Mengen). Andere Trennfunktionen sind denkbar: Die Annahme unterschiedlicher Kovarianzmatrizen in den verschiedenen Gruppen führt zu quadratischen Trennfunktionen und damit zur so genannten quadratischen Diskriminanzanalyse (QDA). 142

8 Beispiel 9.9 : Fisher (1936): The use of multiple measurements in taxonomic problems, Ann. Eugen. 7, Unterscheidung der Irisarten iris setosa (C 1 ) und iris versicolor (C 2 ) anhand von Länge und Breite des Kelchblattes (p = 2) Lernstichprobe mit n 1 = n 2 = 50 Pflanzen jeder Art. x C 1 = (5.006, 3.428) x C 2 = (5.936, 2.770) S x = 1 98 (49 S S 2 ) [( ) ( = ( ) = ( ) S x = a = ( , ) )] Resultierende Diskriminanzregel: Neue Iris mit Merkmalsvektor x = (x 1, x 2 ) in Gruppe iris setosa (C 1 ) einordnen, falls x x 2 > Bei k = 3 mit dritter Irisart iris virginica, n 3 = 50: x C 3 = (6.588, 2.974) S = (49 S S S 3 ) ( ) ( W =, B = a = (1, 1.293) ) Diskriminanzregel: Vergleich von a x , a x und a x führt zu R 1 = x : a x < }, R 2 = x : < a x < }, R 3 = x : < a x} 143

9 9.3 Maximum Likelihood und Bayes Regeln Sei im Folgenden: f j (x) = f(x Y = j) Dichte von X unter Y = j, j = 1,..., k. Ŷ Vorhersage von Y aus der erlernten Diskriminanzregel. R j R p Menge aller x, die Klasse C j zugeordnet werden, j = 1,..., k. Maximum Likelihood Diskriminanzregel: R j = x : f j (x) > f i (x), i = 1,..., k, i = j} Diese unterstellt implizit gleiche a-priori Wahrscheinlichkeiten für alle Klassen und gleiche Kosten aller möglichen Fehlklassifikationen, also gleiche Relevanz aller Gruppen. Verallgemeinerung: p j = P(Y = j) a-priori Ws keit von C j, j = 1,..., k, mit p p k = 1. Kosten von Fehlklassifikationen bei k = 2 Klassen y ŷ c(ŷ = 2 Y = 1) 2 c(ŷ = 1 Y = 2) 0 Kriterium: Minimiere erwartete gesamte Kosten 144

10 Erwartete gesamte Kosten (Expected Costs of Misclassification, ECM): ECM = c(ŷ = 2 Y = 1)P(Ŷ = 2 Y = 1)P(Y = 1) +c(ŷ = 1 Y = 2)P(Ŷ = 1 Y = 2)P(Y = 2) P(Ŷ = 2 Y = 1) = P(X R 2 Y = 1) = f 1 (x)dx R 2 P(Ŷ = 1 Y = 2) = P(X R 1 Y = 2) = f 2 (x)dx R 1 c(ŷ = 1 Y = 2) R 1 : f 1 (x)p(y = 1) c(ŷ = 2 Y = 1) f 2(x)P(Y = 2) R 2 : f 1 (x)p(y = 1) < Spezialfälle: c(ŷ = 1 Y = 2) c(ŷ = 2 Y = 1) f 2(x)P(Y = 2) Gesamte Wahrscheinlichkeit von Fehlklassifikationen: Hier c(ŷ = 2 Y = 1) = c(ŷ = 1 Y = 2) = 1: Maximum Likelihood Regel: R 1 : f 1 (x)p(y = 1) f 2 (x)p(y = 2) R 2 : f 1 (x)p(y = 1) < f 2 (x)p(y = 2) Hier P(Y = 1) = P(Y = 2) und c(ŷ = 1 Y = 2) = c(ŷ = 2 Y = 1): R 1 : f 1 (x) f 2 (x) R 2 : f 1 (x) < f 2 (x) 145

11 Entstehende Regeln unter Normalverteilungsannahmen Fall zweier Gruppen mit gleichen Kovarianzmatrizen, X Y = j} N(µ j, Σ), j = 1, 2: f j (x) = (2π) p/2 Σ 1/2 exp 1 } 2 (x µ j ) Σ 1 (x µ j ), j = 1, 2 (2π) p/2 Σ 1/2 exp 1 } f 1 (x) 2 (x µ 1 ) Σ 1 (x µ 1 ) = f 2 (x) (2π) p/2 Σ 1/2 exp 1 } 2 (x µ 2 ) Σ 1 (x µ 2 ) = exp 1 2 (x µ 1 ) Σ 1 (x µ 1 )+ 1 } 2 (x µ 2 ) Σ 1 (x µ 2 ) = exp (µ 1 µ 2 ) Σ 1 x 1 } 2 (µ 1 µ 2 ) Σ 1 (µ 1 + µ 2 ) [ = exp (µ 1 µ 2 ) Σ 1 x 1 ]} 2 (µ 1 + µ 2 ) Klassifikationsregel: R 1 : (µ 1 µ 2 ) Σ [x 1 1 ] 2 (µ 1 + µ 2 ) ln [ c(ŷ = 1 Y = 2) c(ŷ = 2 Y = 1) ] P(Y = 2) P(Y = 1) Für P(Y = 1) = P(Y = 2) und c(ŷ = 1 Y = 2) = c(ŷ = 2 Y = 1): R 1 : (µ 1 µ 2 ) Σ [x 1 1 ] 2 (µ 1 + µ 2 ) 0 [ ] 1 (µ 1 µ 2 ) Σ 1 x (µ 1 µ 2 ) Σ 1 2 (µ 1 + µ 2 ) Maximum Likelihood Ansatz führt unter Annahme multivariater Normalverteilung von X mit gleichen Kovarianzmatrizen zur linearen Diskriminanzanalyse von Fisher (LDA). Vorige Herleitung über Projektionen benötigt keine Verteilungsannahmen, man kann von der LDA daher auch ohne Normalverteilung gute Ergebnisse erhoffen. Gleichwertig über Betrachtung der Mahalanobisabstände: (x µ 1 ) Σ 1 (x µ 1 )? (x µ 2 ) Σ 1 (x µ 2 ) 146

12 Verallgemeinerungen: ML-Diskriminanzregel bei k normalverteilten Gruppen mit gleicher Kovarianzmatrix: R j : (x µ j ) Σ 1 (x µ j ) = min i=1,...,k (x µ i ) Σ 1 (x µ i ) Quadratische Diskriminanzanalyse (QDA): Fall zweier Normalverteilungen mit verschiedenen Kovarianzmatrizen, X Y = j} N(µ j, Σ j ), j = 1, 2: f j (x) = (2π) p/2 Σ j 1/2 exp 1 } 2 (x µ j ) Σ 1 j (x µ j ) (2π) p/2 Σ f 1 (x) 1 1/2 exp 1 } 2 (x µ 1 ) Σ 1 1 (x µ 1 ) = f 2 (x) (2π) p/2 Σ 2 1/2 exp 1 } 2 (x µ 2 ) Σ2 1(x µ 2 ) = exp 1 } 2 x (Σ 1 1 Σ2 1)x+(µ 1 Σ 1 1 µ 2 Σ 1 2 )x Σ 1 1/2 exp 1 } 1/2 Σ 2 2 (µ 1Σ 1 1 µ 1 µ 2Σ 2 1 µ 2 ) } R 1 : x R p f 1 (x) c(ŷ = 1 Y = 2) P(Y = 2) : f 2 (x) c(ŷ = 2 Y = 1) P(Y = 1) oder über ( ) f1 (x) ln f 2 (x) = 0.5x (Σ 1 1 Σ 1 2 )x+(µ 1 Σ 1 1 µ 2 Σ 1 2 )x+ ln(c) 147

13 Bemerkung 9.10 : Bewertung der Klassifikationsgüte Gütekriterien für die durch die Diskriminanzregel erreichten Trennung: 1. Analytische Berechnung der Fehlklassifikationsraten: Für ML Regel bei zwei Klassen mit X Y = j} N(µ j, Σ) Wegen a [X 1 2 (µ 1 + µ 2 )] Y = 2} N( 0.5δ 2, δ 2 ) mit δ 2 = (µ 1 µ 2 ) Σ 1 (µ 1 µ 2 ): [ P(Ŷ = 1 Y = 2) = P (a X 1 ] 2 (µ 1 + µ 2 ) ) > 0 Y = 2 = 1 Φ(0.5δ 2 /δ) = Φ( 0.5δ) = P(Ŷ = 2 Y = 1), was aus den Daten geschätzt werden kann. Hierbei verläßt man sich jedoch auf die Normalverteilungsannahme. 2. In sample Fehlklassifikationsraten (apparent error rate): Wende Diskriminanzregel auf die Objekte in der Lernstichprobe an und bestimme die Anzahl der Falschklassifikationen. Die entstehenden Fehlklassifikationsraten geben einen ersten Hinweis auf die Trennungsgüte, sind aber zu optimistisch. 3. Out of sample Fehlklassifikationsraten: Bei vielen Beobachtungen mit bekannter Klassenzugehörigkeit kann die Menge dieser Objekte in eine Lern- und eine Validierungsstichprobe unterteilt werden. Die Diskriminanzregel wird anhand der Lernstichprobe und die Fehlklassifikationsraten anhand der Validierungsstichprobe ermittelt. 4. Kreuzvalidierung (cross validation, leave one out): Unter Auslassung einer Beobachtung aus dem Datensatz wird die Diskriminanzfunktion auf Basis der restlichen n 1 Beobachtungen bestimmt und die ausgelassene Beobachtung mit dieser Diskriminanzfunktion klassifiziert. Dies wird sukzessive für alle Beobachtungen durchgeführt und die Fehlklassifikationsraten als Gütekriterium berechnet. Ziel der Diskriminanzanalyse: möglichst gute Trennung der Klassen anhand der beobachteten Merkmale. Eine Diskriminanzregel sollte daher eine bessere Zuordnung zu den Klassen vornehmen als reiner Zufall: 148

14 Bemerkung 9.11 : Test gegen zufällige Zuordnung für LDA Im Modell der Diskriminanzanalyse gemäß Definitionen 9.2 und 9.5 werde unterstellt, dass die multivariate Variable X einer p-dimensionalen Normalverteilung folgt. Dann ist ein Test für das Problem H 0 : keine der betrachteten Variablen verbessert die Klassifikation im Vergleich zu einer zufallsbasierten Zuordnung vs. H 1 : mindestens eine Variable verbessert die Klassifikation gegeben durch folgende Entscheidungsregel: H 0 wird zum Niveau α verworfen, wenn mit n = n 1 + n 2 gilt n p 1 n1 ( n 2 z C 1 z ) C 2 2 > F p n n s 2 p,n p 1;1 α. z Hierbei (vgl. Bem. 9.8): n 1, n 2 Stichprobenumfänge zu den Gruppen C 1 und C 2 z C j arithmetisches Mittel der z-werte zu Objekten aus C j, und s 2 z Maß der Variabilität der gesamten z-werte, s 2 z = n 1 ( n 1 i=1 (zc 1 i z C 1 ) 2 + n 2 i=1 (zc 2 i z C 2 ) 2 ). Dies entspricht F-Test im Varianzanalysemodell der einfachen Varianzanalyse (H 0 : Die Mittelwerte der p Variablen sind in beiden Gruppen gleich). Bemerkung 9.12 a) Variablenselektion: Vergleichbar zur Regressionsanalyse werden die Variablen nicht alle in einem Schritt zur Klassifikation herangezogen, sondern sukzessive aufgenommen oder entfernt, wobei jedesmal getestet wird, ob die Hinzunahme / Entfernung die Klassifikation verbessert. Dies erlaubt die Identifikation nutzloser Variablen, die für neue Objekte nicht mehr erhoben werden müssen. b) Andere Verteilungsarten: Bei nicht elliptischen Verteilungen können andere Klassifikationsverfahren weit bessere Ergebnisse liefern. Ein einfaches Verfahren ist das der k nächsten Nachbarn, bei dem man eine Beobachtung in die Klasse gruppiert, die unter den k nächsten Nachbarn am häufigsten vorkommt. k ist hierbei ein geeignet festzulegender Tuningparameter. c) Andere Variablentypen: Falls die beobachteten Merkmale nur ordinale oder nominale Skalierung besitzen, gibt es Verfahren der Diskriminanzanalyse, die auf entsprechenden Modellannahmen beruhen. Man verwendet hierzu ein so genanntes Multinomialmodell. 149

Kreditscoring zur Klassifikation von Kreditnehmern. Variablenübersicht des Datensatzes "Kreditscoring zur Klassifikation von Kreditnehmern"

Kreditscoring zur Klassifikation von Kreditnehmern. Variablenübersicht des Datensatzes Kreditscoring zur Klassifikation von Kreditnehmern Ergänzung zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1 Kreditscoring zur Klassifikation von Kreditnehmern Beschreibung des Datensatzes Die Vergabe von Privatkrediten wird von der Bonität der

Mehr

Datei Kredit.sav, Variablenbeschreibung und Umkodierungen. Variablenübersicht des Datensatzes "Kreditscoring zur Klassifikation von Kreditnehmern"

Datei Kredit.sav, Variablenbeschreibung und Umkodierungen. Variablenübersicht des Datensatzes Kreditscoring zur Klassifikation von Kreditnehmern A Beschreibung des Original-Datensatzes Kreditscoring Die vorliegende Datei enthält die Daten aus einer geschichteten Lernstichprobe, welche von einer süddeutschen Großbank durchgeführt wurde. Bei einer

Mehr

Entscheidungsbaumverfahren

Entscheidungsbaumverfahren Entscheidungsbaumverfahren Allgemeine Beschreibung Der Entscheidungsbaum ist die Darstellung einer Entscheidungsregel, anhand derer Objekte in Klassen eingeteilt werden. Die Klassifizierung erfolgt durch

Mehr

Kapitel 4: Binäre Regression

Kapitel 4: Binäre Regression Kapitel 4: Binäre Regression Steffen Unkel (basierend auf Folien von Nora Fenske) Statistik III für Nebenfachstudierende WS 2013/2014 4.1 Motivation Ausgangssituation Gegeben sind Daten (y i, x i1,...,

Mehr

Kontingenzkoeffizient (nach Pearson)

Kontingenzkoeffizient (nach Pearson) Assoziationsmaß für zwei nominale Merkmale misst die Unabhängigkeit zweier Merkmale gibt keine Richtung eines Zusammenhanges an 46 o jl beobachtete Häufigkeiten der Kombination von Merkmalsausprägungen

Mehr

Multivariate Statistik

Multivariate Statistik Hermann Singer Multivariate Statistik 1 Auflage 15 Oktober 2012 Seite: 12 KAPITEL 1 FALLSTUDIEN Abbildung 12: Logistische Regression: Geschätzte Wahrscheinlichkeit für schlechte und gute Kredite (rot/blau)

Mehr

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18 3. Deskriptive Statistik Ziel der deskriptiven (beschreibenden) Statistik (explorativen Datenanalyse) ist die übersichtliche Darstellung der wesentlichen in den erhobenen Daten enthaltene Informationen

Mehr

Allgemeine Regressionsanalyse. Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl. deterministisch

Allgemeine Regressionsanalyse. Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl. deterministisch Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 9.1 Allgemeine Regressionsanalyse Daten (X j, Y j ), j = 1,..., N unabhängig Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl.

Mehr

Teil I: Deskriptive Statistik

Teil I: Deskriptive Statistik Teil I: Deskriptive Statistik 2 Grundbegriffe 2.1 Merkmal und Stichprobe 2.2 Skalenniveau von Merkmalen 2.3 Geordnete Stichproben und Ränge 2.1 Merkmal und Stichprobe An (geeignet ausgewählten) Untersuchungseinheiten

Mehr

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table("c:\\compaufg\\kredit.

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table(c:\\compaufg\\kredit. Lösung 16.3 Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit

Mehr

25. Januar 2010. Ruhr-Universität Bochum. Methodenlehre III, WS 2009/2010. Prof. Dr. Holger Dette. 4. Multivariate Mittelwertvergleiche

25. Januar 2010. Ruhr-Universität Bochum. Methodenlehre III, WS 2009/2010. Prof. Dr. Holger Dette. 4. Multivariate Mittelwertvergleiche Ruhr-Universität Bochum 25. Januar 2010 1 / 75 2 / 75 4.1 Beispiel: Vergleich von verschiedenen Unterrichtsmethoden Zwei Zufallsstichproben (A und B) mit je 10 Schülern und 8 Schülern Gruppe A wird nach

Mehr

Diskriminanzanalyse Beispiel

Diskriminanzanalyse Beispiel Diskriminanzanalyse Ziel bei der Diskriminanzanalyse ist die Analyse von Gruppenunterschieden, d. h. der Untersuchung von zwei oder mehr Gruppen hinsichtlich einer Vielzahl von Variablen. Diese Methode

Mehr

Klausur zur Vorlesung Multivariate Verfahren, SS 2006 6 Kreditpunkte, 90 min

Klausur zur Vorlesung Multivariate Verfahren, SS 2006 6 Kreditpunkte, 90 min Klausur, Multivariate Verfahren, SS 2006, 6 Kreditpunkte, 90 min 1 Prof. Dr. Fred Böker 08.08.2006 Klausur zur Vorlesung Multivariate Verfahren, SS 2006 6 Kreditpunkte, 90 min Gesamtpunkte: 39 Aufgabe

Mehr

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik Ludwig Fahrmeir, Nora Fenske Institut für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik 29. März 21 Hinweise:

Mehr

8. Methoden der klassischen multivariaten Statistik

8. Methoden der klassischen multivariaten Statistik 8. Methoden der klassischen multivariaten Statistik 8.1. Darstellung von Daten Voraussetzungen auch in diesem Kapitel: Grundgesamtheit (Datenraum) Ω von Objekten (Fällen, Instanzen), denen J-Tupel von

Mehr

Korrelation - Regression. Berghold, IMI

Korrelation - Regression. Berghold, IMI Korrelation - Regression Zusammenhang zwischen Variablen Bivariate Datenanalyse - Zusammenhang zwischen 2 stetigen Variablen Korrelation Einfaches lineares Regressionsmodell 1. Schritt: Erstellung eines

Mehr

9 Diskriminanzanalyse

9 Diskriminanzanalyse 9 Dskrmnanzanalyse Zel ener Dskrmnanzanalyse: Berets bekannte Objektgruppen (Klassen/Cluster) anhand hrer Merkmale charakterseren und unterscheden sowe neue Objekte n de Klassen enordnen. Nötg: Lernstchprobe

Mehr

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft Prof. Dr. Helmut Küchenhoff SS08 90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft am 22.7.2008 Anmerkungen Überprüfen Sie bitte sofort, ob Ihre Angabe vollständig ist. Sie sollte

Mehr

8. Februar 2007. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt.

8. Februar 2007. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt. L. Fahrmeir, C. Belitz Department für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit Wahlfach Statistik 8. Februar 2007 Hinweise:

Mehr

Commercial Banking Übung 1 Kreditscoring

Commercial Banking Übung 1 Kreditscoring Commercial Banking Übung Kreditscoring Dr. Peter Raupach raupach@wiwi.uni-frankfurt.de Sprechzeit Dienstag 6-7:00 Uhr Raum 603 B Kreditscoring Gliederung Grundanliegen Das Sample Modellspezifikation Diskriminanzanalyse

Mehr

Statistik II für Betriebswirte Vorlesung 3

Statistik II für Betriebswirte Vorlesung 3 PD Dr. Frank Heyde TU Bergakademie Freiberg Institut für Stochastik Statistik II für Betriebswirte Vorlesung 3 5. November 2013 Beispiel: Aktiensplit (Aczel & Sounderpandan, Aufg. 14-28) Ein Börsenanalyst

Mehr

Statistische Methoden: Tests, Regression und multivariate Verfahren

Statistische Methoden: Tests, Regression und multivariate Verfahren (CM)²-Nachwuchsring, Workshop Statistik, 25.Januar 2013 Statistische Methoden: Tests, Regression und multivariate Verfahren Ralf Korn ((CM)², TU Kaiserslautern, Fraunhofer ITWM) 0. Einige Probleme aus

Mehr

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 1 Einführung in die statistische Datenanalyse Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 2 Gliederung 1.Grundlagen 2.Nicht-parametrische Tests a. Mann-Whitney-Wilcoxon-U Test b. Wilcoxon-Signed-Rank

Mehr

2. Korrelation, lineare Regression und multiple Regression

2. Korrelation, lineare Regression und multiple Regression multiple 2.2 Lineare 2.2 Lineare 1 / 130 2.2 Lineare 2 / 130 2.1 Beispiel: Arbeitsmotivation Untersuchung zur Motivation am Arbeitsplatz in einem Chemie-Konzern 25 Personen werden durch Arbeitsplatz zufällig

Mehr

Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression

Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression Speziell im Zusammenhang mit der Ablehnung der Globalhypothese werden bei einer linearen Einfachregression weitere Fragestellungen

Mehr

Proseminar Verarbeitung geographischer Daten (Quant II) Sommersemester 2001 Daniel Braunschweiger Achim Schmidt Tobias Spaltenberger

Proseminar Verarbeitung geographischer Daten (Quant II) Sommersemester 2001 Daniel Braunschweiger Achim Schmidt Tobias Spaltenberger Proseminar Verarbeitung geographischer Daten (Quant II) Sommersemester 2001 Daniel Braunschweiger Achim Schmidt Tobias Spaltenberger Diskriminanzanalyse am Fallbeispiel von 23 Klimastationen in Tunesien

Mehr

Teil II: Einführung in die Statistik

Teil II: Einführung in die Statistik Teil II: Einführung in die Statistik (50 Punkte) Bitte beantworten Sie ALLE Fragen. Es handelt sich um multiple choice Fragen. Sie müssen die exakte Antwortmöglichkeit angeben, um die volle Punktzahl zu

Mehr

29. Mai 2006. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt.

29. Mai 2006. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt. L. Fahrmeir, C. Belitz Department für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit Wahlfach Statistik 29. Mai 2006 Hinweise:

Mehr

5. Schließende Statistik. 5.1. Einführung

5. Schließende Statistik. 5.1. Einführung 5. Schließende Statistik 5.1. Einführung Sollen auf der Basis von empirischen Untersuchungen (Daten) Erkenntnisse gewonnen und Entscheidungen gefällt werden, sind die Methoden der Statistik einzusetzen.

Mehr

TÜV Service tested Prüfgrundlagen

TÜV Service tested Prüfgrundlagen TÜV Service tested Prüfgrundlagen 60 Grundsätzliche Prüfgrundlagen Für die Auszeichnung TÜV Service tested müssen drei Voraussetzungen erfüllt sein: 1. Die Gesamtzufriedenheit muss von den Kunden des Unternehmens

Mehr

Multinomiale logistische Regression

Multinomiale logistische Regression Multinomiale logistische Regression Die multinomiale logistische Regression dient zur Schätzung von Gruppenzugehörigkeiten bzw. einer entsprechenden Wahrscheinlichkeit hierfür, wobei als abhänginge Variable

Mehr

Fortgeschrittene Statistik Logistische Regression

Fortgeschrittene Statistik Logistische Regression Fortgeschrittene Statistik Logistische Regression O D D S, O D D S - R A T I O, L O G I T T R A N S F O R M A T I O N, I N T E R P R E T A T I O N V O N K O E F F I Z I E N T E N, L O G I S T I S C H E

Mehr

Statistik I für Betriebswirte Vorlesung 5

Statistik I für Betriebswirte Vorlesung 5 Statistik I für Betriebswirte Vorlesung 5 PD Dr. Frank Heyde TU Bergakademie Freiberg Institut für Stochastik 07. Mai 2015 PD Dr. Frank Heyde Statistik I für Betriebswirte Vorlesung 5 1 Klassische Wahrscheinlichkeitsdefinition

Mehr

Statistische Tests (Signifikanztests)

Statistische Tests (Signifikanztests) Statistische Tests (Signifikanztests) [testing statistical hypothesis] Prüfen und Bewerten von Hypothesen (Annahmen, Vermutungen) über die Verteilungen von Merkmalen in einer Grundgesamtheit (Population)

Mehr

Klassifikation von Signifikanztests

Klassifikation von Signifikanztests Klassifikation von Signifikanztests nach Verteilungsannahmen: verteilungsabhängige = parametrische Tests verteilungsunabhängige = nichtparametrische Tests Bei parametrischen Tests werden im Modell Voraussetzungen

Mehr

Teil I Beschreibende Statistik 29

Teil I Beschreibende Statistik 29 Vorwort zur 2. Auflage 15 Vorwort 15 Kapitel 0 Einführung 19 0.1 Methoden und Aufgaben der Statistik............................. 20 0.2 Ablauf statistischer Untersuchungen..............................

Mehr

Analyse klassierter Daten: Vor der Analyse fasst man jeweils mehrere Merkmalsausprägungen in (Merkmalswerte-)Klassen zusammen.

Analyse klassierter Daten: Vor der Analyse fasst man jeweils mehrere Merkmalsausprägungen in (Merkmalswerte-)Klassen zusammen. 4. Analyse univariater Daten: Übersicht Mathematik ist die Wissenschaft der reinen Zahl, Statistik die der empirischen Zahl Von univariaten Daten spricht man, wenn bei der Datenerhebung nur ein Merkmal

Mehr

Zufallsgrößen. Vorlesung Statistik für KW 29.04.2008 Helmut Küchenhoff

Zufallsgrößen. Vorlesung Statistik für KW 29.04.2008 Helmut Küchenhoff Zufallsgrößen 2.5 Zufallsgrößen 2.5.1 Verteilungsfunktion einer Zufallsgröße 2.5.2 Wahrscheinlichkeits- und Dichtefunktion Wahrscheinlichkeitsfunktion einer diskreten Zufallsgröße Dichtefunktion einer

Mehr

9. Schätzen und Testen bei unbekannter Varianz

9. Schätzen und Testen bei unbekannter Varianz 9. Schätzen und Testen bei unbekannter Varianz Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Schätzen und Testen bei unbekannter Varianz Wenn wir die Standardabweichung σ nicht kennen,

Mehr

12. Vergleich mehrerer Stichproben

12. Vergleich mehrerer Stichproben 12. Vergleich mehrerer Stichproben Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Häufig wollen wir verschiedene Populationen, Verfahren, usw. miteinander vergleichen. Beipiel: Vergleich

Mehr

3.2 Bivariate Verteilungen

3.2 Bivariate Verteilungen 3.2 Bivariate Verteilungen zwei Variablen X, Y werden gemeinsam betrachtet (an jedem Objekt i, i = 1,..., n, werden gleichzeitig zwei Merkmale beobachtet) Beobachtungswerte sind Paare/Kombinationen von

Mehr

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. Excel Edition. ^ Springer Spektrum

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. Excel Edition. ^ Springer Spektrum Franz Kronthaler Statistik angewandt Datenanalyse ist (k)eine Kunst Excel Edition ^ Springer Spektrum Inhaltsverzeichnis Teil I Basiswissen und Werkzeuge, um Statistik anzuwenden 1 Statistik ist Spaß 3

Mehr

Melanie Kaspar, Prof. Dr. B. Grabowski 1

Melanie Kaspar, Prof. Dr. B. Grabowski 1 7. Hypothesentests Ausgangssituation: Man muss sich zwischen 2 Möglichkeiten (=Hypothesen) entscheiden. Diese Entscheidung soll mit Hilfe von Beobachtungen ( Stichprobe ) getroffen werden. Die Hypothesen

Mehr

Präsenzübungsaufgaben zur Vorlesung Elementare Sachversicherungsmathematik

Präsenzübungsaufgaben zur Vorlesung Elementare Sachversicherungsmathematik Präsenzübungsaufgaben zur Vorlesung Elementare Sachversicherungsmathematik Dozent: Volker Krätschmer Fakultät für Mathematik, Universität Duisburg-Essen, WS 2012/13 1. Präsenzübung Aufgabe T 1 Sei (Z 1,...,

Mehr

Tutorial: Homogenitätstest

Tutorial: Homogenitätstest Tutorial: Homogenitätstest Eine Bank möchte die Kreditwürdigkeit potenzieller Kreditnehmer abschätzen. Einerseits lebt die Bank ja von der Vergabe von Krediten, andererseits verursachen Problemkredite

Mehr

Varianzanalyse ANOVA

Varianzanalyse ANOVA Varianzanalyse ANOVA Johannes Hain Lehrstuhl für Mathematik VIII Statistik 1/23 Einfaktorielle Varianzanalyse (ANOVA) Bisher war man lediglich in der Lage, mit dem t-test einen Mittelwertsvergleich für

Mehr

Übungsserie Nr. 10 mit Lösungen

Übungsserie Nr. 10 mit Lösungen Übungsserie Nr. 10 mit Lösungen 1 Ein Untersuchungsdesign sieht einen multivariaten Vergleich einer Stichprobe von Frauen mit einer Stichprobe von Männern hinsichtlich der Merkmale X1, X2 und X3 vor (Codierung:

Mehr

Lehrstuhl für Betriebswirtschaftslehre mit Schwerpunkt Finanzierung. Klausur "Finanzmanagement" 14. März 2002

Lehrstuhl für Betriebswirtschaftslehre mit Schwerpunkt Finanzierung. Klausur Finanzmanagement 14. März 2002 1 Lehrstuhl für Betriebswirtschaftslehre mit Schwerpunkt Finanzierung Klausur "Finanzmanagement" 14. März 2002 Bearbeitungshinweise: - Die Gesamtbearbeitungsdauer beträgt 60 Minuten. - Schildern Sie ihren

Mehr

Weiterbildungskurs Stochastik

Weiterbildungskurs Stochastik Hansruedi Künsch Seminar für Statistik Departement Mathematik, ETH Zürich 24. Juni 2009 Inhalt STATISTIK DER BINOMIALVERTEILUNG 1 STATISTIK DER BINOMIALVERTEILUNG 2 Fragestellungen Typische Fragestellungen

Mehr

ε heteroskedastisch BINARY CHOICE MODELS Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS?

ε heteroskedastisch BINARY CHOICE MODELS Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS? BINARY CHOICE MODELS 1 mit Pr( Y = 1) = P Y = 0 mit Pr( Y = 0) = 1 P Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS? Y i = X i β + ε i Probleme: Nonsense Predictions

Mehr

Multivariate Statistische Methoden

Multivariate Statistische Methoden Multivariate Statistische Methoden und ihre Anwendung in den Wirtschafts- und Sozialwissenschaften Von Prof. Dr. Hans Peter Litz Carl von Ossietzky Universität Oldenburg v..v.-'... ':,. -X V R.Oldenbourg

Mehr

Überblick. Überblick. Bayessche Entscheidungsregel. A-posteriori-Wahrscheinlichkeit (Beispiel) Wiederholung: Bayes-Klassifikator

Überblick. Überblick. Bayessche Entscheidungsregel. A-posteriori-Wahrscheinlichkeit (Beispiel) Wiederholung: Bayes-Klassifikator Überblick Grundlagen Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung Klassifikation bei bekannter Wahrscheinlichkeitsverteilung Entscheidungstheorie Bayes-Klassifikator

Mehr

Einführung in die Statistik mit EXCEL und SPSS

Einführung in die Statistik mit EXCEL und SPSS Christine Duller Einführung in die Statistik mit EXCEL und SPSS Ein anwendungsorientiertes Lehr- und Arbeitsbuch Zweite, überarbeitete Auflage Mit 71 Abbildungen und 26 Tabellen Physica-Verlag Ein Unternehmen

Mehr

Statistik im Bachelor-Studium der BWL und VWL

Statistik im Bachelor-Studium der BWL und VWL Max C. Wewel Statistik im Bachelor-Studium der BWL und VWL Methoden, Anwendung, Interpretation Mit herausnehmbarer Formelsammlung ein Imprint von Pearson Education München Boston San Francisco Harlow,

Mehr

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über Güte von s Grundlegendes zum Konzept der Güte Ableitung der Gütefunktion des Gauss im Einstichprobenproblem Grafische Darstellung der Gütefunktionen des Gauss im Einstichprobenproblem Ableitung der Gütefunktion

Mehr

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50,7 50 51,5 51,7 48,8

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50,7 50 51,5 51,7 48,8 1. Aufgabe: Eine Reifenfirma hat für Winterreifen unterschiedliche Profile entwickelt. Bei jeweils gleicher Geschwindigkeit und auch sonst gleichen Bedingungen wurden die Bremswirkungen gemessen. Die gemessenen

Mehr

Multivariate Statistische Methoden und ihre Anwendung

Multivariate Statistische Methoden und ihre Anwendung Multivariate Statistische Methoden und ihre Anwendung in den Wirtschafts- und Sozialwissenschaften Von Prof. Dr. Hans Peter Litz Carl von Ossietzky Universität Oldenburg R. Oldenbourg Verlag München Wien

Mehr

Multivariate Verfahren

Multivariate Verfahren Multivariate Verfahren Lineare Reression Zweck: Vorhersae Dimensionsreduktion Klassifizierun Hauptkomponentenanalyse Korrespondenzanalyse Clusteranalyse Diskriminanzanalyse Eienschaften: nicht-linear verteilunsfrei

Mehr

Kapitel 3. Zufallsvariable. Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion. Erwartungswert, Varianz und Standardabweichung

Kapitel 3. Zufallsvariable. Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion. Erwartungswert, Varianz und Standardabweichung Kapitel 3 Zufallsvariable Josef Leydold c 2006 Mathematische Methoden III Zufallsvariable 1 / 43 Lernziele Diskrete und stetige Zufallsvariable Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion

Mehr

Business Value Launch 2006

Business Value Launch 2006 Quantitative Methoden Inferenzstatistik alea iacta est 11.04.2008 Prof. Dr. Walter Hussy und David Tobinski UDE.EDUcation College im Rahmen des dokforums Universität Duisburg-Essen Inferenzstatistik Erläuterung

Mehr

Eine Einführung in R: Statistische Tests

Eine Einführung in R: Statistische Tests Eine Einführung in R: Statistische Tests Bernd Klaus, Verena Zuber Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.uni-leipzig.de/ zuber/teaching/ws12/r-kurs/

Mehr

Willkommen zur Vorlesung Statistik

Willkommen zur Vorlesung Statistik Willkommen zur Vorlesung Statistik Thema dieser Vorlesung: Varianzanalyse Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften Prof. Dr. Wolfgang

Mehr

Willkommen zur Vorlesung Statistik (Master)

Willkommen zur Vorlesung Statistik (Master) Willkommen zur Vorlesung Statistik (Master) Thema dieser Vorlesung: Verteilungsfreie Verfahren Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften

Mehr

Statistische Verfahren für das Data Mining in einem Industrieprojekt

Statistische Verfahren für das Data Mining in einem Industrieprojekt Statistische Verfahren für das Data Mining in einem Industrieprojekt Thorsten Dickhaus Forschungszentrum Jülich GmbH Zentralinstitut für Angewandte Mathematik Telefon: 02461/61-4193 E-Mail: th.dickhaus@fz-juelich.de

Mehr

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren)

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Multiple Regression 1 Was ist multiple lineare Regression? Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Annahme: Der Zusammenhang

Mehr

Seminar zur Energiewirtschaft:

Seminar zur Energiewirtschaft: Seminar zur Energiewirtschaft: Ermittlung der Zahlungsbereitschaft für erneuerbare Energien bzw. bessere Umwelt Vladimir Udalov 1 Modelle mit diskreten abhängigen Variablen 2 - Ausgangssituation Eine Dummy-Variable

Mehr

Formelsammlung zu Multivariate Verfahren

Formelsammlung zu Multivariate Verfahren Institut für Statistik Gerhard Tutz, Moritz, Wolfgang Pößnecker Sommersemester 204 Formelsammlung zu Multivariate Verfahren Inhaltsverzeichnis Version 0804204 Diese Formelsammlung darf in der Klausur verwendet

Mehr

Multivariate Analysemethoden

Multivariate Analysemethoden Multivariate Analysemethoden 30.04.2014 Günter Meinhardt Johannes Gutenberg Universität Mainz Einführung Was sind multivariate Analysemethoden? Vorlesung Übung/Tut Prüfung Verfahrensdarstellung in Überblick

Mehr

Forschungsstatistik I

Forschungsstatistik I Prof. Dr. G. Meinhardt. Stock, Nordflügel R. 0-49 (Persike) R. 0- (Meinhardt) Sprechstunde jederzeit nach Vereinbarung Forschungsstatistik I Dr. Malte Persike persike@uni-mainz.de WS 008/009 Fachbereich

Mehr

Automatische Mustererkennung zur Klassifikation von Konsumentenverhalten am Beispiel der Kreditwürdigkeitsprüfung

Automatische Mustererkennung zur Klassifikation von Konsumentenverhalten am Beispiel der Kreditwürdigkeitsprüfung Prof. Dr. Gerhard Arminger Dipl.-Ök. Alexandra Schwarz Bergische Universität Wuppertal Fachbereich Wirtschaftswissenschaft Fach Statistik Automatische Mustererkennung zur Klassifikation von Konsumentenverhalten

Mehr

Probabilistisches Tracking mit dem Condensation Algorithmus

Probabilistisches Tracking mit dem Condensation Algorithmus Probabilistisches Tracking mit dem Condensation Algorithmus Seminar Medizinische Bildverarbeitung Axel Janßen Condensation - Conditional Density Propagation for Visual Tracking Michael Isard, Andrew Blake

Mehr

Korrelation (II) Korrelation und Kausalität

Korrelation (II) Korrelation und Kausalität Korrelation (II) Korrelation und Kausalität Situation: Seien X, Y zwei metrisch skalierte Merkmale mit Ausprägungen (x 1, x 2,..., x n ) bzw. (y 1, y 2,..., y n ). D.h. für jede i = 1, 2,..., n bezeichnen

Mehr

Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07

Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07 Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07 Ziel der Clusteranalyse: Bilde Gruppen (cluster) aus einer Menge multivariater Datenobjekte (stat

Mehr

Inhaltsverzeichnis. Regressionsanalyse. http://mesosworld.ch - Stand vom: 20.1.2010 1

Inhaltsverzeichnis. Regressionsanalyse. http://mesosworld.ch - Stand vom: 20.1.2010 1 Inhaltsverzeichnis Regressionsanalyse... 2 Lernhinweise... 2 Einführung... 2 Theorie (1-8)... 2 1. Allgemeine Beziehungen... 3 2. 'Best Fit'... 3 3. 'Ordinary Least Squares'... 4 4. Formel der Regressionskoeffizienten...

Mehr

Statistik II: Signifikanztests /1

Statistik II: Signifikanztests /1 Medien Institut : Signifikanztests /1 Dr. Andreas Vlašić Medien Institut (0621) 52 67 44 vlasic@medien-institut.de Gliederung 1. Noch einmal: Grundlagen des Signifikanztests 2. Der chi 2 -Test 3. Der t-test

Mehr

, dt. $+ f(x) = , - + < x < +, " > 0. " 2# Für die zugehörige Verteilungsfunktion F(x) ergibt sich dann: F(x) =

, dt. $+ f(x) = , - + < x < +,  > 0.  2# Für die zugehörige Verteilungsfunktion F(x) ergibt sich dann: F(x) = 38 6..7.4 Normalverteilung Die Gauß-Verteilung oder Normal-Verteilung ist eine stetige Verteilung, d.h. ihre Zufallsvariablen können beliebige reelle Zahlenwerte annehmen. Wir definieren sie durch die

Mehr

Datenanalyse mit Excel. Wintersemester 2013/14

Datenanalyse mit Excel. Wintersemester 2013/14 Datenanalyse mit Excel 1 KORRELATIONRECHNUNG 2 Korrelationsrechnung Ziel der Korrelationsrechnung besteht im bivariaten Fall darin, die Stärke des Zusammenhangs zwischen zwei interessierenden statistischen

Mehr

Universität Bonn 28. Juli 2010 Fachbereich Rechts- und Wirtschaftswissenschaften Statistische Abteilung Prof. Dr. A. Kneip. KLAUSUR Statistik B

Universität Bonn 28. Juli 2010 Fachbereich Rechts- und Wirtschaftswissenschaften Statistische Abteilung Prof. Dr. A. Kneip. KLAUSUR Statistik B Universität Bonn 28. Juli 2010 Fachbereich Rechts- und Wirtschaftswissenschaften Statistische Abteilung Prof. Dr. A. Kneip Sommersemester 2010 KLAUSUR Statistik B Hinweise zur Bearbeitung: Bei allen Teilaufgaben

Mehr

1 Gemischte Lineare Modelle

1 Gemischte Lineare Modelle 1 Gemischte Lineare Modelle Wir betrachten zunächst einige allgemeine Aussagen für Gemischte Lineare Modelle, ohne zu tief in die mathematisch-statistische Theorie vorzustoßen. Danach betrachten wir zunächst

Mehr

Commercial Banking. Kreditgeschäft. Gestaltung der Vertragsbeziehung: Sicherheiten, Kündigungsrechte, Relationship Banking,...

Commercial Banking. Kreditgeschäft. Gestaltung der Vertragsbeziehung: Sicherheiten, Kündigungsrechte, Relationship Banking,... Commercial Banking Kreditgeschäft Themen Rating, Ausfallrisiko erwarteter Verlust, unerwarteter Verlust, Pricing, Risikoabgeltung versus Kreditrationierung Gestaltung der Vertragsbeziehung: Sicherheiten,

Mehr

Einseitig gerichtete Relation: Mit zunehmender Höhe über dem Meeresspiegel sinkt im allgemeinen die Lufttemperatur.

Einseitig gerichtete Relation: Mit zunehmender Höhe über dem Meeresspiegel sinkt im allgemeinen die Lufttemperatur. Statistik Grundlagen Charakterisierung von Verteilungen Einführung Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsverteilungen Schätzen und Testen Korrelation Regression Einführung Die Analyse und modellhafte

Mehr

Signalverarbeitung 2. Volker Stahl - 1 -

Signalverarbeitung 2. Volker Stahl - 1 - - 1 - Überblick Bessere Modelle, die nicht nur den Mittelwert von Referenzvektoren sondern auch deren Varianz berücksichtigen Weniger Fehlklassifikationen Mahalanobis Abstand Besseres Abstandsmaß basierend

Mehr

Binäre abhängige Variablen

Binäre abhängige Variablen Binäre abhängige Variablen Thushyanthan Baskaran thushyanthan.baskaran@awi.uni-heidelberg.de Alfred Weber Institut Ruprecht Karls Universität Heidelberg Einführung Oft wollen wir qualitative Variablen

Mehr

4. Auswertung eindimensionaler Daten

4. Auswertung eindimensionaler Daten 4. Auswertung eindimensionaler Daten Ziel dieses Kapitels: Präsentation von Methoden zur statistischen Auswertung eines einzelnen Merkmals 64 Bezeichnungen (Wiederholung): Merkmalsträger: e 1,..., e n

Mehr

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien Deskription, Statistische Testverfahren und Regression Seminar: Planung und Auswertung klinischer und experimenteller Studien Deskriptive Statistik Deskriptive Statistik: beschreibende Statistik, empirische

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Thomas Vanck Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer

Mehr

Mathematische und statistische Methoden II

Mathematische und statistische Methoden II Methodenlehre e e Prof. Dr. G. Meinhardt 6. Stock, Wallstr. 3 (Raum 06-206) Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung. Mathematische und statistische Methoden II Dr. Malte Persike

Mehr

Ausarbeitung des Seminarvortrags zum Thema

Ausarbeitung des Seminarvortrags zum Thema Ausarbeitung des Seminarvortrags zum Thema Anlagepreisbewegung zum Seminar Finanzmathematische Modelle und Simulationen bei Raphael Kruse und Prof. Dr. Wolf-Jürgen Beyn von Imke Meyer im W9/10 Anlagepreisbewegung

Mehr

Weitere (wählbare) Kontraste in der SPSS Prozedur Allgemeines Lineares Modell

Weitere (wählbare) Kontraste in der SPSS Prozedur Allgemeines Lineares Modell Einfaktorielle Versuchspläne 27/40 Weitere (wählbare) Kontraste in der SPSS Prozedur Allgemeines Lineares Modell Abweichung Einfach Differenz Helmert Wiederholt Vergleich Jede Gruppe mit Gesamtmittelwert

Mehr

Modul G.1 WS 07/08: Statistik 17.01.2008 1. Die Korrelation ist ein standardisiertes Maß für den linearen Zusammenhangzwischen zwei Variablen.

Modul G.1 WS 07/08: Statistik 17.01.2008 1. Die Korrelation ist ein standardisiertes Maß für den linearen Zusammenhangzwischen zwei Variablen. Modul G.1 WS 07/08: Statistik 17.01.2008 1 Wiederholung Kovarianz und Korrelation Kovarianz = Maß für den linearen Zusammenhang zwischen zwei Variablen x und y Korrelation Die Korrelation ist ein standardisiertes

Mehr

3. Der t-test. Der t-test

3. Der t-test. Der t-test Der t-test 3 3. Der t-test Dieses Kapitel beschäftigt sich mit einem grundlegenden statistischen Verfahren zur Auswertung erhobener Daten: dem t-test. Der t-test untersucht, ob sich zwei empirisch gefundene

Mehr

Es können keine oder mehrere Antworten richtig sein. Eine Frage ist NUR dann richtig beantwortet, wenn ALLE richtigen Antworten angekreuzt wurden.

Es können keine oder mehrere Antworten richtig sein. Eine Frage ist NUR dann richtig beantwortet, wenn ALLE richtigen Antworten angekreuzt wurden. Teil III: Statistik Alle Fragen sind zu beantworten. Es können keine oder mehrere Antworten richtig sein. Eine Frage ist NUR dann richtig beantwortet, wenn ALLE richtigen Antworten angekreuzt wurden. Wird

Mehr

4. Woche Decodierung; Maximale, Perfekte und Optimale Codes. 4. Woche: Decodierung; Maximale, Perfekte und Optimale Codes 69/ 140

4. Woche Decodierung; Maximale, Perfekte und Optimale Codes. 4. Woche: Decodierung; Maximale, Perfekte und Optimale Codes 69/ 140 4 Woche Decodierung; Maximale, Perfekte und Optimale Codes 4 Woche: Decodierung; Maximale, Perfekte und Optimale Codes 69/ 140 Szenario für fehlerkorrigierende Codes Definition (n, M)-Code Sei C {0, 1}

Mehr

Evaluation & Forschungsmethoden (Multivariate Analyse) Hauptdiplom-Prüfungsklausur am 03.08.2007 (1.Termin)

Evaluation & Forschungsmethoden (Multivariate Analyse) Hauptdiplom-Prüfungsklausur am 03.08.2007 (1.Termin) Evaluation & Forschungsmethoden (Multivariate Analyse Hauptdiplom-Prüfungsklausur am 03.08.007 (1.Termin Name: Matrikel-Nr.: Aufgabe 1: (3 Punkte Es seien zwei Vektoren a und b (mit mehr als Koordinaten

Mehr

Einführung in Statistik und Messwertanalyse für Physiker

Einführung in Statistik und Messwertanalyse für Physiker Gerhard Böhm, Günter Zech Einführung in Statistik und Messwertanalyse für Physiker SUB Göttingen 7 219 110 697 2006 A 12486 Verlag Deutsches Elektronen-Synchrotron Inhalt sverzeichnis 1 Einführung 1 1.1

Mehr

Institut für Soziologie. Methoden 2. Regressionsanalyse I: Einfache lineare Regression

Institut für Soziologie. Methoden 2. Regressionsanalyse I: Einfache lineare Regression Institut für Soziologie Methoden 2 Regressionsanalyse I: Einfache lineare Regression Programm Anwendungsbereich Vorgehensweise Interpretation Annahmen Zusammenfassung Übungsaufgabe Literatur # 2 Anwendungsbereich

Mehr

Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall )

Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall ) Zusammenhänge von Variablen Regressionsanalysen linearer Zusammenhang ( Idealfall ) kein Zusammenhang nichtlinearer monotoner Zusammenhang (i.d.regel berechenbar über Variablentransformationen mittels

Mehr

Schätzer (vgl. Kapitel 1): Stichprobenmittel X N. Stichprobenmedian X N

Schätzer (vgl. Kapitel 1): Stichprobenmittel X N. Stichprobenmedian X N Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 8.1 Schätzer für Lage- und Skalenparameter und Verteilungsmodellwahl Lageparameter (l(x + a) = l(x) + a): Erwartungswert EX Median von X

Mehr

Statistik - Fehlerrechnung - Auswertung von Messungen

Statistik - Fehlerrechnung - Auswertung von Messungen 2013-11-13 Statistik - Fehlerrechnung - Auswertung von Messungen TEIL I Vorbereitungskurs F-Praktikum B (Physik), RWTH Aachen Thomas Hebbeker Literatur Eindimensionaler Fall: Grundbegriffe Wahrscheinlichkeitsverteilungen:

Mehr

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten.

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten. Statistik für Kommunikationswissenschaftler Wintersemester 2009/200 Vorlesung Prof. Dr. Helmut Küchenhoff Übung Cornelia Oberhauser, Monia Mahling, Juliane Manitz Thema 4 Homepage zur Veranstaltung: http://www.statistik.lmu.de/~helmut/kw09.html

Mehr