2 Distanzen. Distanzen von Objekten. Einleitung Distanzen Repräsentation Klassifikation Segmentierung

Ähnliche Dokumente
Ähnlichkeits- und Distanzmaße

Mathematisch-Statistische Verfahren des Risiko-Managements - SS

Einführung in die Ähnlichkeitsmessung

Variablen und Skalenniveaus

htw saar 1 EINFÜHRUNG IN DIE STATISTIK: BESCHREIBENDE STATISTIK

Kapitel 5. Eigenwerte. Josef Leydold Mathematik für VW WS 2017/18 5 Eigenwerte 1 / 42

4 Lineare Abbildungen und Matrizen

Datenerhebung, Skalenniveaus und Systemdatei

Lineare Algebra. Mathematik II für Chemiker. Daniel Gerth

Euklidische und unitäre Vektorräume

Serie 1 Serie 2 Serie 3 Serie 4 Serie 5 Serie 6. Statistik-Tutorium. Lösungsskizzen Übung SS2005. Thilo Klein. Grundstudium Sommersemester 2008

Kapitel 5. Eigenwerte. Ein Leontief-Modell für eine Volkswirtschaft heißt geschlossen, wenn der Konsum gleich der Produktion ist, d.h. wenn.

Statistik II: Grundlagen und Definitionen der Statistik

Formale Begriffsanalyse

Inhalt. Mathematik für Chemiker II Lineare Algebra. Vorlesung im Sommersemester Kurt Frischmuth. Rostock, April Juli 2015

Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07

Mathematik 1 Bachelorstudiengang Maschinenbau

Geometrische Deutung linearer Abbildungen

Korrelationsmatrix. Statistische Bindungen zwischen den N Zufallsgrößen werden durch die Korrelationsmatrix vollständig beschrieben:

Grundbegriffe. Bibliografie

Statistik. Jan Müller

Kapitel 2: Lineare Gleichungssysteme

Brückenkurs Mathematik. Mittwoch Freitag

Vektoren und Matrizen

Kapitel 17. Unabhängigkeit und Homogenität Unabhängigkeit

Alle weiteren Messoperationen schließen die Klassifikation als Minimaloperation ein.

2. Dezember Lineare Algebra II. Christian Ebert & Fritz Hamm. Skalarprodukt, Norm, Metrik. Matrizen. Lineare Abbildungen

BC 1.2 Mathematik WS 2016/17. BC 1.2 Mathematik Zusammenfassung Kapitel II: Vektoralgebra und lineare Algebra. b 2

3.6 Eigenwerte und Eigenvektoren

Teil I. Lineare Algebra I Vorlesung Sommersemester Olga Holtz. MA 378 Sprechstunde Fr und n.v.

Mehrdimensionale Skalierung

3. Merkmale und Daten

Zusammenhänge zwischen metrischen Merkmalen

Kapitel 1 Beschreibende Statistik

9 Metrische und normierte Räume

Mathematik 1 für Wirtschaftsinformatik

1 x 1 y 1 2 x 2 y 2 3 x 3 y 3... n x n y n

Assoziation & Korrelation

Skalenniveaus =,!=, >, <, +, -

Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg. Datenanalyse II. Stefan Etschberger Sommersemester 2005

Modul 04: Messbarkeit von Merkmalen, Skalen und Klassierung. Prof. Dr. W. Laufner Beschreibende Statistik

Teil I: Deskriptive Statistik

Statistisches Testen

Daten, Datentypen, Skalen

Deskriptive Statistik Erläuterungen

Die wichtigste Klasse von Funktionen zwischen Vektorräumen sind die linearen Abbildungen.

Statistische Grundlagen I

6 Distanzfunktionen (2) 6 Distanzfunktionen. 6.1 Eigenschaften und Klassifikationen. Einführung

6 Distanzfunktionen. Quadratische Pseudo. 1. Eigenschaften und Klassifikation

Forschungsmethoden in der Sozialen Arbeit

1 Lineare Algebra. 1.1 Matrizen und Vektoren. Slide 3. Matrizen. Eine Matrix ist ein rechteckiges Zahlenschema

Matrizen. a12 a1. a11. a1n a 21. a 2 j. a 22. a 2n. A = (a i j ) (m, n) = i te Zeile. a i 1. a i 2. a i n. a i j. a m1 a m 2 a m j a m n] j te Spalte

Lösungsmenge L I = {x R 3x + 5 = 9} = L II = {x R 3x = 4} = L III = { }

Viele wichtige Operationen können als lineare Abbildungen interpretiert werden. Beispielsweise beschreibt die lineare Abbildung

Brückenkurs Mathematik

6. f : Abb(R, R) R mit ϕ f(ϕ) := ϕ(1) Hinweis:f :V W über K bedeutet Abbildung f zwischen den Vektorräumen V und W über demselben

4.3 Bilinearformen. 312 LinAlg II Version Juni 2006 c Rudolf Scharlau

5.1 Determinanten der Ordnung 2 und 3. a 11 a 12 a 21 a 22. det(a) =a 11 a 22 a 12 a 21. a 11 a 21

5.5 PRE-Maße (Fehlerreduktionsmaße) 6

Eigenwerte und Diagonalisierung

IV. Matrizenrechnung. Gliederung. I. Motivation. Lesen mathematischer Symbole. III. Wissenschaftliche Argumentation. i. Rechenoperationen mit Matrizen

Gegenbeispiele in der Wahrscheinlichkeitstheorie

Kapitel XII - Kennzahlen mehrdimensionaler Zufallsvariablen

Lineare Abbildungen und Matrizen

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

6Korrelationsanalyse:Zusammengangsanalysestetiger Merkmale

4 Matrizenrechnung. Beide Operationen geschehen also koeffizientenweise. Daher übertragen sich die Rechenregeln von K(m n, k).

1 Die Jordansche Normalform

2. Mathematische Grundlagen

Methoden der Klassifikation und ihre mathematischen Grundlagen

6.3 Eigenwerte. γ ist Eigenwert von T [T] B B γi ist nicht invertierbar.

Konvexe Menge. Eine Menge D R n heißt konvex, wenn für zwei beliebige Punkte x, y D auch die Verbindungsstrecke dieser Punkte in D liegt, d.h.

7 Lineare Abbildungen und Skalarprodukt

Die deskriptive (beschreibende) Statistik hat als Aufgabe, große Datenmengen durch wenige Kennzahlen. oder Grafiken zu beschreiben.

Metrische Räume und stetige Abbildungen. Inhaltsverzeichnis

Matrizen, Determinanten, lineare Gleichungssysteme

0 Einführung: Was ist Statistik

6 Lineare Gleichungssysteme

1 Einleitung Definitionen, Begriffe Grundsätzliche Vorgehensweise... 3

Kapitel 5 KONVERGENZ

8.2 Invertierbare Matrizen

Kapitel 4. Determinante. Josef Leydold Mathematik für VW WS 2017/18 4 Determinante 1 / 24

6. Normale Abbildungen

10 Kriterien für absolute Konvergenz von Reihen

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 7.-9.

Principal Component Analysis (PCA)

Grundsätzliches Rechnen mit Matrizen Anwendungen. Matrizenrechnung. Fakultät Grundlagen. Juli 2015

Kapitel 1. Vektoren und Matrizen. 1.1 Vektoren

Basis eines Vektorraumes

Clusteranalyse. Clusteranalyse. Fragestellung und Aufgaben. Abgrenzung Clusteranalyse - Diskriminanzanalyse. Rohdatenmatrix und Distanzmatrix

Höhere Mathematik für die Fachrichtung Physik

Bivariate Verteilungen

9 Vektorräume mit Skalarprodukt

Assoziation & Korrelation

Zahlen und metrische Räume

Wiederholung Statistik I. Statistik für SozialwissenschaftlerInnen II p.8

Grundbegriffe (1) Grundbegriffe (2)

1 Euklidische und unitäre Vektorräume

9.2 Invertierbare Matrizen

Vektorräume. 1. v + w = w + v (Kommutativität der Vektoraddition)

Transkript:

2 von Objekten Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 23 316

Gliederung Kapitel 2: von Objekten 2.1 Objekte und Merkmale 2.2 Merkmalstypen und ihre Nominale Merkmale Ordinale Merkmale Quantitative Merkmale 2.3 Aggregation von Quantitative Merkmale Nominale Merkmale Gemischte Datenmatrizen Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 24 316

Schematische Vorgehensweise Objekte Merkmale Interpretation Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 25 316

2.1 Objekte und Merkmale Einige grundlegende Definitionen (Wiederholung): G = {1, 2, 3,...} Grundgesamtheit von Objekten N = {1,...,n} Falls G = N Falls N G M = {1,...,m} Objektmenge Vollerhebung Stichprobe aus der Grundgesamtheit Merkmalsmenge Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 26 316

Die Datenmatrix A = (a ik ) n m = a 11.... a 1m.... Datenmatrix a n1... a nm mit a ik als Ausprägung des Merkmals k bei Objekt i Zeilen von A (Objektvektoren): a T i = (a i1,...,a im ), i N Spalten von A (Merkmalsvektoren): a k = a 1k. a nk, k M A k Menge der möglichen Ausprägungen bei Merkmal k Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 27 316

Beispiel: Hörer einer Vorlesung Merkmale Alter Geschlecht Wohnort Semester Studiengang Prüfungen Objekte 1 22 männlich Augsburg 5 BWL mit VD 2 25 männlich Karlsruhe 10 Mathe mit HD 3 21 weiblich München 4 VWL mit VD 4 28 männlich Augsburg 13 BWL mit VD 5 24 männlich Augsburg 8 BWL ohne VD = A Merkmal k Ausprägungsmenge A k Alter Menge der natürlichen Zahlen Geschlecht {männlich, weiblich} Wohnort Menge aller Orte Semester Menge der natürlichen Zahlen Studiengang {BWL, VWL, Mathematik, Informatik,...} Prüfungen {ohne Vordiplom, mit Vordiplom, mit Hauptdiplom} Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 28 316

Ähnlichkeit contra Verschiedenheit Man benötigt ein Maß, das die Ähnlichkeit zweier Objekte quantifiziert. Ähnlichkeitsmaß (AM): Je größer ein Wert, desto ähnlicher sind sich zwei Objekte. Folgen: Was bedeutet ein Wert AM = 0? Wie groß ist die Ähnlichkeit zweier identischer Objekte? Übergang zu einem Verschiedenheitsmaß Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 29 316

Definition: Distanzindex Sei N = 1,...,n eine Menge von n Objekten. Die Abbildung heißt Distanzindex, wenn gilt: d : N N R + d(i, i) = 0 d(i, j) = d(j, i) d(i,j) 0 [Reflexivität] [Symmetrie] [Nichtnegativität] Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 30 316

Distanzindex: Mögliche Eigenschaften Dreiecksungleichung ( ): d(i, j) d(i, h) + d(h, j) i, j, h N Ist beispielsweise erfüllt bei räumlichem Abstandsbegriff j i h Aber: Ist nicht immer haltbar bzw. sinnvoll (Beispiel: Hoher Distanzindex entspricht schwachem Bedarfsverbund bei Supermarkteinkauf) Tee Zucker Kaffee Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 31 316

Distanzindex: Mögliche Eigenschaften Ultrametrische Ungleichung (U): d(i, j) max { d(i, h), d(j, h) } i, j, h N Es gilt: (U) ( ) ( ) (U) D.h. (U) ist stärker als ( ) Identitätseigenschaft (I): i, j N mit d(i, j) = 0 i = j Ist i.a. nicht erfüllt, da verschiedene Objekte häufig gleiche Merkmalsausprägungen besitzen. Beispiel: Patienten mit identischen Krankheitssymptomen * Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 32 316

Distanzindex: Mögliche Eigenschaften Äquivalenzeigenschaft (A): i, j N mit d(i, j) = 0 d(i, h) = d(j, h) h N D.h. i und j sind äquivalente Objekte. Bemerkung: (A) ist Abschwächung von (I). Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 33 316

Definition: Metriken Ein Distanzindex, der die Eigenschaft ( ) (U) ( ), (I) (U), (I) erfüllt, heißt Quasimetrik, erfüllt, heißt Quasiultrametrik, erfüllt, heißt Metrik, erfüllt, heißt Ultrametrik. Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 34 316

Definition: Distanzmatrix Zusammenfassung aller paarweisen zu einer Matrix: D = (d(i,j)) n n = d(1, 1) d(1,n)..... d(n, 1) d(n,n) bzw. D = (d ij ) n n = d 11 d 1n..... d n1 d nn Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 35 316

Eigenschaften der Distanzmatrix Eine Distanzmatrix D besitzt folgende Eigenschaften: ist quadratisch ist symmetrisch enthält in der Hauptdiagonalen ausschließlich Nullen Somit müssen nur 1 2 zwar n (n 1) berechnet werden und d 12 d 1n.... d n 1n Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 36 316

Gewinnung von Bestimmung der je Merkmal und anschließende Aggregation zur Gesamtdistanzmatrix (siehe Abschnitte 2.2, 2.3) Direkte Beurteilung von Objektpaaren (ohne Berücksichtigung von Merkmalen) Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 37 316

Gewinnung von, direkte Beurteilung: Bei der direkten Beurteilung von Objektpaaren (ohne Vorgabe von Merkmalen) werden jeder Versuchsperson die möglichen Objektpaare vorgelegt, wobei die Ähnlichkeit durch einen Wert aus einem vorher festgelegten Bereich quantifiziert werden soll. Beispiel zur direkten Beurteilung: Die Parteien SPD, CDU und FDP sollten bezüglich ihrer Verschiedenheit auf einer Skala von Null (Parteien sind identisch) bis zehn (Parteien sind maximal verschieden) beurteilt werden. Folgendes Ergebnis sei festgehalten worden: CDU - FDP 4 CDU - SPD 7 SPD - FDP 5 D = FDP SPD CDU 4 7 FDP 5 Vor- und Nachteile dieser Methodik: Vorteile: + implizite Berücksichtigung mehrerer, nicht weiter spezifizierter Merkmale + einfache, schnelle Datenerhebung Nachteile: - Interpretationsschwierigkeiten, da Merkmale unbekannt - nur bei kleiner Objektmenge zweckmäßig (bei n = 10 bereits 1 2 10 9 = 45 Paarvergleiche) Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 38 316

2.2 Merkmalstypen und ihre Grundsätzlich lassen sich folgende Merkmalstypen unterscheiden: Quantitative Merkmale: Alle Ausprägungen des Merkmals werden intuitiv durch reelle Zahlen benannt. Qualitative Merkmale: Die Ausprägungen des Merkmals werden intuitiv durch Worte oder Begriffe, nicht aber durch Zahlen, wiedergegeben (nominale oder ordinale Merkmale). Da es häufig von Vorteil ist, daß die Ausprägungen eines Merkmals durch Zahlen wiedergegeben werden, quantifiziert man i.d.r. die qualitativen Merkmale. Dies geschieht mit Hilfe einer Abbildung, die man Skala nennt. Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 39 316

Definition: Skala Sei k ein Merkmal mit der Ausprägungsmenge A k. Dann heißt die Abbildung f : A k Reine Skala. Bemerkung: Die Abbildung f sollte so gewählt werden, dass die Informationen und Relationen, die für bzw. zwischen den einzelnen Merkmalsausprägungen a ik gelten, auch für die Bildwerte f(a ik ) korrekt sind. Messungen erfordern oft schon eine Skala. Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 40 316

Nominale Merkmale Definition: Ein Merkmal k heißt nominal oder klassifikatorisch, wenn für die Ausprägungen nur nach Gleichheit (=) oder Ungleichheit ( ) unterschieden werden kann. Bezüglich der Äquivalenz ( ) zweier Objekte gilt: Die Abbildung f : A k R mit i k j a ik = a jk bzw. i k j a ik a jk a ik a jk f(a ik ) f(a jk ) heißt Nominalskala. Jeder Distanzindex hat dann die Form: d k (i, j) = 0 für f(a ik ) = f(a jk ) c für f(a ik ) f(a jk ), mit c > 0 Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 41 316

Distanzindex nominaler Daten Beispiel: Geschlecht der Hörer Objekte Alter Geschlecht Wohnort Semester Studiengang Prüfungen 1 22 männlich 1 5 1 mit VD 2 25 männlich 2 10 2 mit HD 3 21 weiblich 3 4 3 mit VD 4 28 männlich 1 13 1 mit VD 5 24 männlich 1 8 1 ohne VD 2 3 4 5 f Geschlecht (weiblich) = 0 f Geschlecht (männlich) = 1 c = 1 D Geschl. = 1 0 1 0 0 2 1 0 0 3 1 1 4 0 Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 42 316

Eigenschaften von Nominalskalen Satz: Jede injektive, reelle Abbildung ist eine Nominalskala. Jeder Distanzindex einer Nominalskala ist eine Quasi-Ultrametrik mit der Eigenschaft (A) (Äquivalenzeigenschaft). Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 43 316

Ordinale Merkmale Definition: Ein Merkmal k heißt ordinal (komparativ), wenn die Ausprägungen vollständig geordnet werden können. Bezüglich der Ordnung zweier Objekte gilt: i j k a ik < a jk niedrigerer Rang i j k a ik = a jk gleicher Rang i k j a ik > a jk höherer Rang Die Abbildung f : A k R mit heißt Ordinalskala. a ik < a jk f(a ik ) < f(a jk ) Ein Distanzindex hat im einfachsten Fall die Form: d k (i, j) = f(a ik ) f(a jk ) Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 44 316

Distanzindex ordinaler Daten Beispiel: Prüfungen der Hörer Objekte Alter Geschlecht Wohnort Semester Studiengang Prüfungen 1 22 männlich 1 5 1 mit VD 2 25 männlich 2 10 2 mit HD 3 21 weiblich 3 4 3 mit VD 4 28 männlich 1 13 1 mit VD 5 24 männlich 1 8 1 ohne VD 2 3 4 5 f Prüfg. (ohne VD) = 1 f Prüfg. (mit VD) = 2 f Prüfg. (mit HD) = 3 c = 1 D Prüfg. = 1 1 0 0 1 2 1 1 2 3 0 1 4 1 Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 45 316

Eigenschaften von Ordinalskalen Satz: Jede streng monotone, reelle Abbildung ist eine Ordinalskala. Der o.g. Distanzindex der Ordinalskala ist eine Quasimetrik mit der Eigenschaft (A) (Äquivalenzeigenschaft). Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 46 316

Quantitative Merkmale Definition: Ein Merkmal k heißt quantitativ (kardinal, metrisch), wenn es ordinal ist und die Differenzen von Ausprägungspaaren vollständig geordnet werden können. Dies bedeutet insbesondere, dass das Ausmaß der Unterschiedlichkeit zweier Ausprägungen bestimmt werden kann und aussagekräftig ist. Die Abbildung f : Ak R mit f(a ik ) = α a ik + β (α > 0, β R) heißt Intervallskala. Die Abbildung f : Ak R mit f(a ik ) = α a ik (α > 0) heißt Verhältnisskala. Die Abbildung f : Ak N 0 mit f(a ik ) = a ik heißt Absolutskala. Jeder Distanzindex einer quantitativen Skala hat die Form: d k (i, j) = φ k f(a ik ) f(a jk ) p φk ermöglicht eine merkmalspezifische lineare Gewichtung. p ermöglicht eine hohe Gewichtung großer Differenzen in Merkmalsausprägungen. Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 47 316

Distanzindex metrischer Daten Beispiel: Alter der Hörer Objekte Alter Geschlecht... 1 22 männlich 2 25 männlich 3 21 weiblich 4 28 männlich 5 24 männlich f(a ik ) = α a ik + β = a ik (d.h. α = 1, β = 0) φ = 1; p = 1 φ = 1; p = 2 2 3 4 5 2 3 4 5 D Alter = 1 3 1 6 2 2 4 3 1 3 7 3 4 4 D Alter = 1 9 1 36 4 2 16 9 1 3 49 9 4 16 Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 48 316

Eigenschaften von metrischen Skalen Satz: Jede positive lineare Abbildung ist eine Intervallskala. Für eine Intervallskala gilt für beliebige Funktionen f: f(a ik ) f(a jk ) f(a i k) f(a j k) = const. Für eine Verhältnisskala gilt für beliebige Funktionen f: f(a ik ) f(a i k) = const. Der Distanzindex einer quantitativen Skala ist unabhängig von β. Die Wirkung von α kann über die φ k beeinflusst werden. Der Distanzindex ist eine Quasimetrik mit der Äquivalenzeigenschaft (A). Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 49 316

2.3 Aggregation von Aufgabe: Sinnvolle Aggregation der einzelnen, merkmalspezifisch ermittelten. Dabei unterscheidet man zwischen ausschließlich nominalen Merkmalen, ausschließlich quantitativen Merkmalen oder gemischten Datenmatrizen. Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 50 316

Distanzaggregation von nominal skalierten Daten Da nominal polytome Merkmale in mehrere binäre Merkmale überführt werden können, werden im Folgenden zunächst binäre Merkmale betrachtet. Dazu werden die Objekte generell durch den Besitz einer bestimmten Eigenschaft charakterisiert. Distanzaggregation bei binären Merkmalen - Idee Zwei Objekte (i, j) weisen bezüglich mehrerer binärer Merkmale eine große Ähnlichkeit auf, wenn häufig - d.h. bei vielen Merkmalen - die gleiche Ausprägung Ja/Ja bzw. 1/1 Nein/Nein bzw. 0/0 zu beobachten ist. Häufige Kombinationen wie Ja/Nein bzw. Nein/Ja weisen auf eine hohe Verschiedenheit hin. Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 51 316

Distanzaggregation bei binären Merkmalen - Umsetzung Gegeben sei eine Datenmatrix A = (a ik ) n m mit a ik {1,0}. Berechne Kontingenztabelle für binäre Merkmale gemäß 1 (Ja) 0 (Nein) 1 (Ja) α ij β ij 0 (Nein) γ ij δ ij und m := α ij + β ij + γ ij + δ ij mit beispielsweise α ij = { k : a ik = a jk = 1 } Jeder aggregierte Distanzindex d(i, j) ist somit eine Funktion von α ij, β ij, γ ij,δ ij. Es gilt also: d(i, j) = f(α ij, β ij, γ ij,δ ij ) 0 Forderungen an d(i, j): monoton wachsend mit βij und γ ij monoton fallend mit αij und δ ij symmetrisch in βij und γ ij Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 52 316

Distanzaggregation bei binären Merkmalen - Umsetzung (2) Varianten für die Bildung von d(i, j): 1. Anzahl nicht übereinstimmender Merkmale d(i, j) = β ij + γ ij = m (α ij + δ ij ) 2. Anteil nicht übereinstimmender Merkmale d(i, j) = β ij + γ ij m 3. Gewichteter Anteil nicht übereinstimmender Merkmale d(i, j) = λ (β ij + γ ij ) λ (β ij + γ ij ) + (1 λ) (α ij + δ ij ) mit λ (0, 1) (Beispiel siehe Vorlesung) Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 53 316

Direkte Distanzaggregation bei nominal-polytom skalierten Merkmalen Sei d k (i, j) = { 0 für aik = a jk c > 0 für a ik a jk 1. Ungewichtete Aggregation der merkmalspezifischen d(i, j) = m d k (i,j) k=1 2. Gewichtete Aggregation der merkmalspezifischen d(i, j) = 1 m A k m A k d k (i,j) k=1 k=1 Bemerkung: Variante (2.) gewichtet Merkmale mit vielen Merkmalsausprägungen stärker als solche mit wenigen, d.h. Wenige Ausprägungen Beitrag zu d(i, j) ist klein Viele Ausprägungen Beitrag zu d(i, j) ist groß (Beispiel siehe Vorlesung) Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 54 316

Distanzaggregation bei metrischen Merkmalen Vorüberlegung: Jeder Okjektvektor a i kann als Punkt im m-dimensionalen Raum dargestellt werden. Die geometrische Anschauung legt es also nahe, die Distanz zwischen i und j durch die Euklidsche Distanz (oder eine Verallgemeinerung dieser) zu messen. Definition: Distanzindex für metrische Merkmale Sei A = (a ik ) n m eine quantitative Datenmatrix. Dann heißt d(i, j) mit d(i, j) = ( m k=1 φ k a ik a jk p ) 1 p, φ k > 0, p N gewichtete L p -Distanz von i und j. Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 55 316

Spezialfälle der gewichteten L p -Distanz Man spricht von einer City-Block-Distanz für p = 1: d(i, j) = m φ k a ik a jk k=1 Euklidschen Distanz für p = 2: d(i, j) = m φ k a ik a jk 2 k=1 Tschebyscheff-Distanz für p : (Grafik und Beispiel siehe Vorlesung) d(i, j) = max k (φ k a ik a jk ) Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 56 316

Spezialfälle der gewichteten L p -Distanz City-Block-Distanz Merkmal 2 Euklidscher Abstand Tschebyscheff-Abstand Objekt j Objekt i Merkmal 1 Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 57 316

Gewichtete L p -Distanz: Beispiel Objekte Alter Semester 1 22 5 2 25 10 3 21 4 4 28 13 5 24 8 L 1 2 3 4 5 1 8 2 14 5 2 10 6 3 3 16 7 4 9 L 2 2 3 4 5 1 34 2 100 13 2 52 18 5 3 130 25 4 41 L 2 3 4 5 1 5 1 8 3 2 6 3 2 3 9 4 4 5 Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 58 316

L p -Distanzindex: Eigenschaften Satz: Jede L p -Distanz ist eine Quasimetrik Es gilt d L1 d L2... d L i,j Die Rangordnung der d ij kann sich bei Verwendung unterschiedlicher L p - ändern. Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 59 316

L p -Distanzindex: Potentielle Probleme Merkmale mit hoher Varianz werden bei Distanzaggregation hoch gewichtet. Abhilfe: Gewichtung z.b. mit merkmalsspezifischen Varianzen oder Spannweiten, d.h. φ k = Var(a k ) bzw. φ k = max(a k ) min(a k ) Sind zwei Merkmale k 1 und k 2 hoch korreliert, dann liefern beide Merkmale etwa die gleiche Information bzgl. der Ähnlichkeit der Objekte. Also werden ähnliche Informationen im Distanzindex mehrfach berücksichtigt. Abhilfe: die Mahalanobis-Distanz Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 60 316

Die Mahalanobis-Distanz Sei A = (a ik ) n m eine quantitative Datenmatrix. Dann heißt d ij mit d ij = m k=1 m s kl (a ik a jk )(a il a jl ) = (a i a j ) T S 1 (a i a j ) l=1 Mahalanobis-Distanz von i und j, wobei (s kl ) m m = S 1 = (Cov(A)) 1 und s kl = 1 n n (a ik a k )(a il a l ) mit a k = 1 n i=1 n i=1 a ik Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 61 316

Mahalanobis-Distanz: Beispiel Objekte Alter Semester ergibt: 1 22 5 2 25 10 3 21 4 4 28 13 5 24 8 L 2 3 4 5 1 9 1 6 1.5 2 6 9 3.5 3 9 1.5 4 3.5 (Berechnung siehe Vorlesung) Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 62 316

Mahalanobis-Distanz: Beispiel mit R > # Alter, Semester > A = cbind(c(22,25,21,28,24), c(5,10,4,13,8)); > > # Anzahl der Objekte > n = dim(a)[1]; > > # Distanzmatrix > d = matrix(0,n,n) > > # Kovarianzmatrix > S = ((n-1)/n)*cov(a); > > for (i in 1:n) d[i,] = mahalanobis(a,a[i,],s); > > # Kosmetik > d = d[lower.tri(d)]; > attr(d,"class")<-"dist"; > attr(d,"size")<-n; > > d; 1 2 3 4 2 9.0 3 1.0 6.0 4 6.0 9.0 9.0 5 1.5 3.5 1.5 3.5 Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 63 316

Mahalanobis-Distanz: Eigenschaften Sind zwei Merkmale k und l hoch korreliert, dann liefern beide Merkmale etwa die gleiche Information bzgl. der Ähnlichkeit der Objekte. Die Mahalanobis- Distanz versieht in diesem Fall den Beitrag der beiden Merkmale mit einem niedrigeren Gewicht s kl. Sind die Merkmale paarweise unkorreliert, d.h. s kl = 0 für k l, dann werden Merkmale mit großer Varianz bei der Berechnung von d ij weniger stark berücksichtigt, da dann gilt: d ij = m s kk (a ik a jk ) 2 = k=1 m k=1 1 s kk (a ik a jk ) 2 = Beachte: In diesem Fall ist S Diagonalmatrix und damit auch S 1. Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 64 316

Aggregation gemischter Datenmatrizen Ausgangssituation: Für jedes Merkmal k = 1,...,m ist ein Distanzindex d k (i, j) gegeben, der das entsprechende Skalenniveau adäquat berücksichtigt. Gesucht: Eine Aggregationsregel g, die die Distanzindizes d 1,...,d m zu einer gemeinsamen Distanz d zusammenfasst. Forderungen an eine Aggregationsregel: Aggregationsregel g : g(0,..., 0) = 0 Gilt für alle Merkmale k = 1,..., m d k (i, j) = d k (i, j ) so folgt daraus auch d(i, j) = d(i, j ) Gilt für alle Merkmale k = 1,..., m d k (i, j) d k (i, j ) und für mind. ein k d k (i, j) < d k (i, j ) so folgt daraus auch d(i, j) < d(i, j ) Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 65 316

Aggregation gemischter Datenmatrizen (I) Linear homogene Aggregationen Sei A = (a ik ) n m eine gemischte Datenmatrix und d 1,...,d m seien die Distanzindizes der Merkmale. Dann ergeben sich für φ k > 0 folgende Distanzindizes: (a) d(i,j) = (b) d(i,j) = m k=1 m k=1 φ k d k (i,j) φ k d k (i,j) max i,j (d k(i,j)) (c) d(i,j) = max (d k(i,j)) k Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 66 316

Linear homogene Aggregationen: Beispiel Geschlecht (1) Studiengang (2) Prüfungen (3) D 1 2 3 4 5 1 0 1 0 0 2 1 0 0 3 1 1 4 0 D 2 2 3 4 5 1 2 1 0 0 2 2 2 2 3 1 1 4 0 D 3 2 3 4 5 1 1 0 0 1 2 1 1 2 3 0 1 4 1 Mit φ 1 = 1, φ 2 = 1 2, φ 3 = 1 2 D (a) 2 3 4 5 1 1.5 1.5 0 0.5 2 2.5 1.5 2 3 1.5 2 4 0.5 ergibt sich D (b) 2 3 4 5 1 3 4 2 7 4 5 1 4 0 4 3 5 4 3 4 1 6 4 4 1 4 D (c) 2 3 4 5 1 2 1 0 1 2 2 2 2 3 1 1 4 1 Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 67 316

Aggregation gemischter Datenmatrizen (II) Aggregationen mit Entscheidungsregeln Sei A = (a ik ) n m eine gemischte Datenmatrix und d 1,...,d m seien die Distanzindizes der Merkmale. Dann ergibt sich für φ k > 0 folgender aggregierter Distanzindex: d(i,j) = m k=1 φ k {(u,v) : u < v, d k (u,v) < d k (i,j)} (Rangordnungsregel) Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 68 316

Aggregation mit Entscheidungsregeln: Beispiel Geschlecht (1) Studiengang (2) Prüfungen (3) D 1 2 3 4 5 1 0 1 0 0 2 1 0 0 3 1 1 4 0 D 2 2 3 4 5 1 2 1 0 0 2 2 2 2 3 1 1 4 0 D 3 2 3 4 5 1 1 0 0 1 2 1 1 2 3 0 1 4 1 Mit φ 1 = φ 2 = φ 3 = 1 ergibt sich D 2 3 4 5 1 9 9 0 3 2 15 9 15 3 9 12 4 3 Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 69 316

Vergleich der Aggregationen (I) Linear homogene Aggregation (a) d(1, 4) < d(1, 5) = d(4, 5) < d(1, 2) = d(1, 3) = d(2, 4) = d(3, 4) < d(2, 5) = d(3, 5) < d(2, 3) (II) Aggr. mit Rangordnungsregel d(1, 4) < d(1, 5) = d(4, 5) < d(1, 2) = d(1, 3) = d(2, 4) = d(3, 4) < d(3, 5) < d(2, 3) = d(2, 5) Die unterschiedlichen Ansätze kommen zu sehr ähnlichen aber im allgemeinen nicht gleichen Ergebnissen. (Philosophie der Datenanalyse) Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 70 316