Einheit 1 Ähnlichkeits- und Distanzmaße IFAS JKU Linz c 2015 Multivariate Verfahren 1 0 / 41
Problemstellung Ziel: Bestimmung von Ähnlichkeit zwischen n Objekten, an denen p Merkmale erhoben wurden. Die Zahl s ij soll die Ähnlichkeit zwischen dem i-ten und dem j-ten Objekt messen. Diese heißt Ähnlichkeitskoeffizient. Diese ist umso größer je ähnlicher sich die Objekte sind. Normierte Ähnlichkeitskoeffizienten haben die Eigenschaft: 0 s ij 1. Analog kann auch ein Distanzmaß d ij betrachtet werden, das die Unähnlichkeit zwischen dem i-ten und dem j-ten Objekt misst. Dieses ist umso kleiner je ähnlicher sich die Objekte sind. IFAS JKU Linz c 2015 Multivariate Verfahren 1 1 / 41
Problemstellung / 2 Distanzmaße können aus normierten Ähnlichkeitskoeffizienten s ij folgendermaßen bestimmt werden: Dann gilt: d ij = 1 s ij. 0 s ij 1 0 d ij 1 Alle Distanzen (zwischen allen Paaren der n Objekte) werden in der sogenannten Distanzmatrix D dargestellt: D = d 11... d 1n..... d n1... d nn IFAS JKU Linz c 2015 Multivariate Verfahren 1 2 / 41
Problemstellung / 3 Je nach Messniveau werden in der Regel unterschiedliche Distanzmaße und Ähnlichkeitsmaße verwendet. IFAS JKU Linz c 2015 Multivariate Verfahren 1 3 / 41
Metrik Eine Metrik ist eine Funktion, die je zwei Elementen eines Raums einen nicht negativen reellen Wert zuordnet, der als Abstand der beiden Elemente voneinander aufgefasst werden kann. Formale Definition: Sei X eine beliebige Menge. Eine Abbildung d : X X R heißt Metrik auf X, wenn für beliebige Elemente x, y und z von X die folgenden Axiome erfüllt sind: 1 Positive Definitheit: d(x, y) 0 und d(x, y) = 0 x = y, 2 Symmetrie: d(x, y) = d(y, x), 3 Dreiecksungleichung: d(x, y) d(x, z) + d(z, y). Die Forderung d(x, y) 0 folgt aus den übrigen, kann also weggelassen werden. Wir betrachten Distanzmaße, die nicht notwendigerweise Metriken sind, aber zumindest Bedingung 1 und 2 erfüllen. IFAS JKU Linz c 2015 Multivariate Verfahren 1 4 / 41
Bestimmung der Distanzen und Ähnlichkeiten aus der Datenmatrix IFAS JKU Linz c 2015 Multivariate Verfahren 1 Bestimmung der Distanzen und Ähnlichkeiten aus der Datenmatrix 5 / 41
Quantitative Merkmale: Beispiel Datenmatrix: Studierender Alter der Mutter Alter des Vaters 1 58 60 2 61 62 3 55 59 4 59 64 5 54 54 6 52 55 IFAS JKU Linz c 2015 Multivariate Verfahren 1 Bestimmung der Distanzen und Ähnlichkeiten aus der Datenmatrix 6 / 41
Quantitative Merkmale: Beispiel / 2 Zentrierte Datenmatrix: Studierender Alter der Mutter Alter des Vaters 1 1.50 1.00 2 4.50 3.00 3-1.50 0.00 4 2.50 5.00 5-2.50-5.00 6-4.50-4.00 IFAS JKU Linz c 2015 Multivariate Verfahren 1 Bestimmung der Distanzen und Ähnlichkeiten aus der Datenmatrix 7 / 41
Quantitative Merkmale: Beispiel / 3 4 Alter des Vaters 4 2 0 2 4 6 3 1 2 5 4 2 0 2 4 Alter der Mutter IFAS JKU Linz c 2015 Multivariate Verfahren 1 Bestimmung der Distanzen und Ähnlichkeiten aus der Datenmatrix 8 / 41
Quantitative Merkmale: Beispiel / 4 Es liegt nahe den kürzesten Abstand zwischen zwei Punkten x i und x j zu bestimmen. Seien ( ) ( ) x i = x i1 x i2 x j = zwei Punkte aus dem R 2. Dann ist aufgrund des Satzes von Pythagoras der kürzeste Abstand gegeben durch d ij = (x i1 x j1 ) 2 + (x i2 x j2 ) 2. x j1 x j2 IFAS JKU Linz c 2015 Multivariate Verfahren 1 Bestimmung der Distanzen und Ähnlichkeiten aus der Datenmatrix 9 / 41
Quantitative Merkmale: Beispiel / 5 Für die 6 Studierenden erhalten wir damit folgende Distanzmatrix: 0.0 3.6 3.2 4.1 7.2 7.8 3.6 0.0 6.7 2.8 10.6 11.4 3.2 6.7 0.0 6.4 5.1 5.0 D = 4.1 2.8 6.4 0.0 11.2 11.4 7.2 10.6 5.1 11.2 0.0 2.2 7.8 11.4 5.0 11.4 2.2 0.0 IFAS JKU Linz c 2015 Multivariate Verfahren 1 Bestimmung der Distanzen und Ähnlichkeiten aus der Datenmatrix 10 / 41
Quantitative Merkmale: Beispiel / 6 Unterscheiden sich die Varianzen der Merkmale, so sollte man die skalierte Distanz bestimmen. Hierzu bestimmt man die Stichprobenvarianzen s1 2 und s2 2 der zwei Merkmale und bildet (x i1 x j1 ) 2 d s ij = = (xi1 s 2 1 s 1 x j1 s 1 + (x i2 x j2 ) 2 s 2 2 ) 2 ( xi2 + x ) 2 j2. s 2 s 2 IFAS JKU Linz c 2015 Multivariate Verfahren 1 Bestimmung der Distanzen und Ähnlichkeiten aus der Datenmatrix 11 / 41
Quantitative Merkmale: Beispiel / 7 Die Stichprobenvarianzen sind s1 2 = 11.5 und s2 1 = 15.2. Die Matrix mit den skalierten euklidischen Distanzen ist 0.0 1.0 0.9 1.1 1.9 2.2 1.0 0.0 1.9 0.8 2.9 3.2 0.9 1.9 0.0 1.7 1.3 1.4 D = 1.1 0.8 1.7 0.0 3.0 3.1 1.9 2.9 1.3 3.0 0.0 0.6 2.2 3.2 1.4 3.1 0.6 0.0 IFAS JKU Linz c 2015 Multivariate Verfahren 1 Bestimmung der Distanzen und Ähnlichkeiten aus der Datenmatrix 12 / 41
Quantitative Merkmale: Beispiel / 8 Wir drehen die Punktwolke, dass die Merkmale bezüglich der neuen Achsen unkorreliert sind. x1 x2 1.73-0.49 5.20-1.48-0.97 1.14 5.43 1.34-5.43-1.34-5.96 0.83 IFAS JKU Linz c 2015 Multivariate Verfahren 1 Bestimmung der Distanzen und Ähnlichkeiten aus der Datenmatrix 13 / 41
Quantitative Merkmale: Beispiel / 9 x 2 6 4 2 0 2 4 6 6 5 3 4 1 2 6 4 2 0 2 4 6 x 1 IFAS JKU Linz c 2015 Multivariate Verfahren 1 Bestimmung der Distanzen und Ähnlichkeiten aus der Datenmatrix 14 / 41
Quantitative Merkmale: Beispiel / 10 Die Stichprobenvarianzen sind s1 2 = 25.1 und s2 1 = 1.6. Die Matrix mit den skalierten euklidischen Distanzen nach dem Drehen ist 0.00 1.04 1.40 1.63 1.58 1.86 1.04 0.00 2.41 2.23 2.12 2.88 1.40 2.41 0.00 1.29 2.15 1.03 D = 1.63 2.23 1.29 0.00 3.03 2.31 1.58 2.12 2.15 3.03 0.00 1.72 1.86 2.88 1.03 2.31 1.72 0.00 IFAS JKU Linz c 2015 Multivariate Verfahren 1 Bestimmung der Distanzen und Ähnlichkeiten aus der Datenmatrix 15 / 41
Quantitative Merkmale: Euklidische Distanz Die euklidische Distanz d ij zwischen dem i-ten und dem j-ten Objekt mit Merkmalsvektoren x i = x i1. x ip ist definiert durch d ij = p (x ik x jk ) 2 = k=1 x j = x j1. x jp (x i x j ) (x i x j ). IFAS JKU Linz c 2015 Multivariate Verfahren 1 Bestimmung der Distanzen und Ähnlichkeiten aus der Datenmatrix 16 / 41
Quantitative Merkmale: Skalierte euklidische Distanz Unterscheiden sich die Varianzen der Merkmale, so sollte man die skalierte Distanz bestimmen. Hierzu bestimmt man die Stichprobenvarianzen s1 2,..., s2 p der Merkmale und bildet dij s = p (x ik x jk ) 2 = p k=1 s 2 k k=1 ( xik s k x ) 2 jk. s k IFAS JKU Linz c 2015 Multivariate Verfahren 1 Bestimmung der Distanzen und Ähnlichkeiten aus der Datenmatrix 17 / 41
Quantitative Merkmale: Skalierte euklidische Distanz / 2 Wir bilden die Diagonalmatrix V mit den Stichprobenvarianzen der Merkmale auf der Hauptdiagonalen: s1 2 0... 0 0 s2 V = 2... 0...... 0 0... s 2 p Es gilt: dij s = (x i x j ) V 1 (x i x j ). IFAS JKU Linz c 2015 Multivariate Verfahren 1 Bestimmung der Distanzen und Ähnlichkeiten aus der Datenmatrix 18 / 41
Quantitative Merkmale: Mahalanobis Distanz Sind die Merkmale korreliert, so empfiehlt es sich die Konfiguration der Punkte zu drehen, dass sie hinsichtlich der neuen Koordinatenachsen unkorreliert sind, um anschließend die skalierten euklidischen Distanzen zu bestimmen. Die Rotationsmatrix bekommt man über die Spektralzerlegung der Varianz-Kovarianz-Matrix. Es gilt: S = T ΛT. Dabei ist T eine orthogonale Matrix, in deren Spalten die Eigenvektoren von S stehen. Λ ist eine Diagonalmatrix. IFAS JKU Linz c 2015 Multivariate Verfahren 1 Bestimmung der Distanzen und Ähnlichkeiten aus der Datenmatrix 19 / 41
Quantitative Merkmale: Mahalanobis Distanz / 2 Die rotierten Beobachtungen bekommt man durch Diese sind unkorreliert, da gilt: T x i. V(T x i ) = T V(x i )T = T ST = T T ΛT T = Λ. Die Eigenwerte sind die Varianzen der rotierten Merkmale. Man bekommt also die rotierten und skalierten Merkmale durch Λ 0.5 T x i, i = 1,..., n Bestimme V(Λ 0.5 T x i ). IFAS JKU Linz c 2015 Multivariate Verfahren 1 Bestimmung der Distanzen und Ähnlichkeiten aus der Datenmatrix 20 / 41
Quantitative Merkmale: Mahalanobis Distanz / 3 Die euklidischen Distanzen zwischen den rotierten und skalierten Beobachtungen bekommt man durch d M ij = = (Λ 0.5 T x i Λ 0.5 T x j ) (Λ 0.5 T x i Λ 0.5 T x i ) (x i x j ) S 1 (x i x j ). Man nennt dies die Mahalanobis-Distanz. IFAS JKU Linz c 2015 Multivariate Verfahren 1 Bestimmung der Distanzen und Ähnlichkeiten aus der Datenmatrix 21 / 41
Quantitative Merkmale: Mahalanobis Distanz / 4 Oft benutzt man die Mahalanobis-Distanz, um den Abstand von Punkten x 1,..., x n zu einem anderen Punkt z zu bestimmen. Dabei wird in der Regel für z ein Schätzer des Lageparameters verwendet. Man berechnet also d M i = (x i x) S 1 (x i x). Mit den Distanzen d1 M,..., d n M kann man Ausreißer identifizieren. Alle Beobachtungen, für die gilt di M > χ 2 p,0.975, sind Ausreißer. Dabei ist χ 2 p,0.975 das 0.975-Quantil der Chiquadratverteilung mit p Freiheitsgraden, wobei p die Anzahl der Merkmale ist. IFAS JKU Linz c 2015 Multivariate Verfahren 1 Bestimmung der Distanzen und Ähnlichkeiten aus der Datenmatrix 22 / 41
Einschub: Eigenwerte und -vektoren Eigenwert und -vektor: Sei A eine quadratische n n Matrix. Dann heißt (die im Allgemeinen komplexe Zahl) λ C Eigenwert von A, wenn ein (im Allgemeinen komplexer) Vektor x C n mit x 0 existiert, so dass gilt: Ax = λx bzw. (A λi) = 0. Der Vektor x heißt dann Eigenvektor zum Eigenwert λ. Eigenwerte und -vektoren symmetrischer Matrizen: Sei A eine symmetrische n n Matrix. Dann gilt: 1 Alle Eigenwerte sind reell. 2 Die zu verschiedenen Eigenwerten gehörenden Eigenvektoren sind paarweise orthogonal. IFAS JKU Linz c 2015 Multivariate Verfahren 1 Bestimmung der Distanzen und Ähnlichkeiten aus der Datenmatrix 23 / 41
Einschub: Eigenwerte und -vektoren / 2 Spektralzerlegung: Sei A eine symmetrische n n Matrix mit rg(a) = r. Dann existiert eine n r Matrix P, sodass gilt: P AP = diag(λ 1,..., λ r ) bzw. A = Pdiag(λ 1,..., λ r )P. Dabei sind λ i die von Null verschiedenen Eigenwerte von A. Die Spaltenvektoren von P entsprechen den (paarweise orthonormalen) zugehörigen Eigenvektoren. IFAS JKU Linz c 2015 Multivariate Verfahren 1 Bestimmung der Distanzen und Ähnlichkeiten aus der Datenmatrix 24 / 41
Quantitative Merkmale: Vergleich Äquidistante Punkte bzgl. der Distanzmaße liegen auf einem Kreis für euklidische Distanz, auf einer Ellipse in Hauptlage für skalierte euklidische Distanz, auf einer Ellipse in beliebiger Lage für die Mahalanobis Distanz. Euklidische Distanz Skalierte euklidische Distanz Malahanobis Distanz IFAS JKU Linz c 2015 Multivariate Verfahren 1 Bestimmung der Distanzen und Ähnlichkeiten aus der Datenmatrix 25 / 41
Quantitative Merkmale: Manhattan-Metrik Ein anderes Distanzmaß erhält man, wenn man die Summe der Längen der beiden Katheten bestimmt. Dies ist die kürzeste Verbindung zwischen zwei Punkten, wenn man eine Stadt mit einem rechtwinkeligen Straßennetz betrachtet. Diese Distanz heißt Manhattan-Metrik oder City-Block-Metrik. Sie ist definiert durch d ij = p x ik x jk. k=1 IFAS JKU Linz c 2015 Multivariate Verfahren 1 Bestimmung der Distanzen und Ähnlichkeiten aus der Datenmatrix 26 / 41
Quantitative Merkmale: Manhattan-Metrik / 2 Eine Skalierung kann erfolgen, indem man den Wert x ij des Merkmals j beim i-ten Objekt durch die Spannweite R j des j-ten Merkmals dividiert. mit d ij = p k=1 x ik x jk R k, R k = max x ik min x ik. i i Äquidistante Punkte liegen auf einem auf der Spitze stehenden Quadrat. IFAS JKU Linz c 2015 Multivariate Verfahren 1 Bestimmung der Distanzen und Ähnlichkeiten aus der Datenmatrix 27 / 41
Binäre Merkmale: Beispiel Student Geschlecht Raucher Auto MatheLK 1 0 0 1 1 2 0 0 1 0 Symmetrische Merkmale: Simple-Matching-Koeffizient Die Distanz wird beschrieben durch den Anteil der Merkmale, wo sich die Beobachtungen unterscheiden. In diesem Fall ist die Distanz gleich 0.25. Asymmetrische Merkmale: Jaccard-Koeffizient Falls alle Merkmale asymmetrisch sind, so schließen wir zunächst alle Merkmale aus der weiteren Betrachtung aus, bei denen beide Objekte den Wert 0 aufweisen. Unter den restlichen Merkmalen bestimmen wir dann den Anteil, bei denen beide Objekte nicht den gleichen Wert aufweisen, um die Distanz zu bestimmen. In diesm Fall ist die Distanz gleich 0.5. IFAS JKU Linz c 2015 Multivariate Verfahren 1 Bestimmung der Distanzen und Ähnlichkeiten aus der Datenmatrix 28 / 41
Binäre Merkmale Die Information, die in einer binären Datenmatrix mit zwei Beobachtungen enthalten ist und notwendig ist, um die Distanz zu bestimmen, kann in folgender Hilfstabelle zusammengefasst werden: Objekt i Objekt j 1 0 1 a b a + b 0 c d c + d a + c b + d p IFAS JKU Linz c 2015 Multivariate Verfahren 1 Bestimmung der Distanzen und Ähnlichkeiten aus der Datenmatrix 29 / 41
Binäre Merkmale / 2 Bei symmetrischen binären Merkmalen sollte sich der Wert des Ähnlichkeits- / Distanzmaßes nicht ändern, wenn die Kodierung vertauscht wird. Das impliziert, dass das Ähnlichkeits- / Distanzmaß nur von a + d und b + c abhängt. Gower & Legendre betrachten folgende Klasse: s GL1 ij = a + d a + d + θ(b + c), wobei θ > 0. Die Distanzmaße d GL1 erhält man durch d GL1 ij = 1 s GL1 ij. IFAS JKU Linz c 2015 Multivariate Verfahren 1 Bestimmung der Distanzen und Ähnlichkeiten aus der Datenmatrix 30 / 41
Binäre Merkmale / 3 Der Simple-Matching-Koeffizient ergibt sich für θ = 1: s SM ij = d SM ij = a + d a + d + b + c, b + c a + d + b + c. Für θ = 2 ergibt sich der Rogers & Tanimoto Koeffizient: s RT ij = d RT ij = a + d a + d + 2(b + c), 2(b + c) a + d + 2(b + c). IFAS JKU Linz c 2015 Multivariate Verfahren 1 Bestimmung der Distanzen und Ähnlichkeiten aus der Datenmatrix 31 / 41
Binäre Merkmale / 4 Für asymmetrische binäre Merkmale sollte sich der Wert des Ähnlichkeits- / Distanzmaßes nicht ändern, wenn die Anzahl der gemeinsamen nichtvorhanden Merkmale d verändert wird. Gower & Legendre betrachten folgende Klasse: s GL2 ij = a a + θ(b + c), wobei θ > 0. Die Distanzmaße d GL2 erhält man durch d GL2 ij = 1 s GL2 ij. IFAS JKU Linz c 2015 Multivariate Verfahren 1 Bestimmung der Distanzen und Ähnlichkeiten aus der Datenmatrix 32 / 41
Binäre Merkmale / 5 Für θ = 1 erhält man den Jaccard-Koeffizienten: s JA ij = a a + b + c, d JA ij = b + c a + b + c. Für θ = 2 erhält man den von Sneath & Sokal vorgeschlagenen Koeffizienten: s SO ij = d SO ij = a a + 2(b + c), 2(b + c) a + 2(b + c). IFAS JKU Linz c 2015 Multivariate Verfahren 1 Bestimmung der Distanzen und Ähnlichkeiten aus der Datenmatrix 33 / 41
Qualitative Merkmale mit mehr als 2 Ausprägungen Sind alle p Merkmale nominal, so schlägt Sneah vor, den Anteil der gleichen Merkmale als Ähnlichkeitsmaß zu verwenden: s ij = u p, d ij = p u p, wobei u die Anzahl der Merkmale ist, bei denen beide Objekte dieselbe Merkmalsausprägung besitzen. IFAS JKU Linz c 2015 Multivariate Verfahren 1 Bestimmung der Distanzen und Ähnlichkeiten aus der Datenmatrix 34 / 41
Qualitative Merkmale mit geordneten Ausprägungen Durch die Ordnung können den Ausprägungen Ränge zugeordnet werden und mit diesen weitergearbeitet werden. Alternativ können auch Scores zugeordnet werden. Beides sind Methoden um das ordinale in ein metrisches Merkmal überzuführen. Dies erfolgt, indem (subjektiv) zusätzliche Annahmen getroffen werden! Die Distanz zwischen zwei Objekten bei einem ordinalen Merkmal erhalten wir dadurch, dass wir den Absolutbetrag der Differenz durch die Spannweite der Ausprägungen des Merkmals dividieren. IFAS JKU Linz c 2015 Multivariate Verfahren 1 Bestimmung der Distanzen und Ähnlichkeiten aus der Datenmatrix 35 / 41
Unterschiedliche Messniveaus Mögliche Kombination von Gower: d ij = p k=1 δ (k) ij d (k) ij p k=1 δ (k) ij. Durch δ (k) ij werden fehlende Beobachtungen die Asymmetrie binärer Merkmale berücksichtigt. IFAS JKU Linz c 2015 Multivariate Verfahren 1 Bestimmung der Distanzen und Ähnlichkeiten aus der Datenmatrix 36 / 41
Unterschiedliche Messniveaus / 2 δ (k) ij ist 0, falls bei mindestens einem Objekt das k-te Merkmal fehlt, bei asymmetrischen binären Merkmalen, falls beide Objekte den Wert 0 haben. In Abhängigkeit vom Messniveau des Merkmals k wird die Distanz d ij zwischen dem i-ten und j-ten Objekt mit den Merkmalsausprägungen x ik beziehungsweise x jk folgendermaßen bestimmt: Bei binären und nominalskalierten Merkmalen gilt: { d (k) 1 wenn x ik x jk ij = 0 wenn x ik = x jk. IFAS JKU Linz c 2015 Multivariate Verfahren 1 Bestimmung der Distanzen und Ähnlichkeiten aus der Datenmatrix 37 / 41
Unterschiedliche Messniveaus / 3 Bei quantitativen Merkmalen und ordinalen Merkmalen, deren Ausprägungsmöglichkeiten gleich den Rängen 1,..., r sind, gilt mit d (k) ij = x ik x jk R k R k = max x ik min x ik. i i IFAS JKU Linz c 2015 Multivariate Verfahren 1 Bestimmung der Distanzen und Ähnlichkeiten aus der Datenmatrix 38 / 41
Unterschiedliche Messniveaus / 4 Sind alle Merkmale quantitativ, und fehlen keine Beobachtungen, dann ist der Gower-Koeffizient gleich der Manhattan-Metrik angewendet auf die durch die Spannweite skalierten Merkmale. Sind alle Merkmale ordinal, dann ist der Gower-Koeffizient gleich der Manhattan-Metrik angewendet auf die durch die Spannweite skalierten Ränge. Sind alle Merkmale symmetrisch binär, so ist der Gower-Koeffizient gleich dem Simple-Matching-Koeffizienten. Sind alle Merkmale asymmetrisch binär, so ist der Gower-Koeffizient gleich dem Jaccard-Koeffizienten. IFAS JKU Linz c 2015 Multivariate Verfahren 1 Bestimmung der Distanzen und Ähnlichkeiten aus der Datenmatrix 39 / 41
Distanzmaße in R Funktion dist() mit einem method Argument mit u.a. möglichen Werten "euclidean" "manhattan" "binary" Funktion daisy() aus dem Paket cluster. Beide returnieren ein Objekt der Klasse dist oder einer Klasse, die davon erbt. Aufgrund der Symmetrie und den bekannten Werten 0 in der Diagonale wird nur die untere Dreiecksmatrix gespeichert. Umwandlung in eine volle Matrix mithilfe von as.matrix(). IFAS JKU Linz c 2015 Multivariate Verfahren 1 Bestimmung der Distanzen und Ähnlichkeiten aus der Datenmatrix 40 / 41
Direkte Bestimmung der Distanzen In den Sozialwissenschaften werden in dem Fall Daten erhoben, sodass direkt alle paarweisen Vergleiche durchgeführt und von den Befragten beurteilt werden. Beim Ratingverfahren wird jedem Vergleich ein Wert von 1 bis n zugeordnet, wobei höhere Werte höhere Unähnlichkeit darstellen. Bei der Rangreihung werden die Paare geordnet, vom ähnlichsten bis zum unähnlichsten. IFAS JKU Linz c 2015 Multivariate Verfahren 1 Bestimmung der Distanzen und Ähnlichkeiten aus der Datenmatrix 41 / 41