Ähnlichkeits- und Distanzmaße

Ähnliche Dokumente
Kapitel 5. Eigenwerte. Ein Leontief-Modell für eine Volkswirtschaft heißt geschlossen, wenn der Konsum gleich der Produktion ist, d.h. wenn.

Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07

Euklidische und unitäre Vektorräume

46 Eigenwerte und Eigenvektoren symmetrischer Matrizen

1 Lineare Algebra. 1.1 Matrizen und Vektoren. Slide 3. Matrizen. Eine Matrix ist ein rechteckiges Zahlenschema

Orthonormalisierung. ein euklidischer bzw. unitärer Vektorraum. Wir setzen

MC-Serie 11: Eigenwerte

6 Eigenwerte und Eigenvektoren

40 Lokale Extrema und Taylor-Formel

Eigenwerte und Diagonalisierung

Korrelationsmatrix. Statistische Bindungen zwischen den N Zufallsgrößen werden durch die Korrelationsmatrix vollständig beschrieben:

4 Lineare Algebra (Teil 2): Quadratische Matrizen

Erweiterte Koordinaten

Mathematische Erfrischungen III - Vektoren und Matrizen

Tutorium Mathematik II, M Lösungen

9.2 Invertierbare Matrizen

Zahlen und metrische Räume

6.1 Definition der multivariaten Normalverteilung

Aussagenlogik. Lehrstuhl für BWL, insb. Mathematik und Statistik Prof. Dr. Michael Merz Mathematik für Betriebswirte I Wintersemester 2015/2016

6 Hauptachsentransformation

Prüfung Lineare Algebra Sei V ein n-dimensionaler euklidischer Raum. Welche der folgenden Aussagen ist wahr?

Lineare Algebra für D-ITET, D-MATL, RW. Beispiellösung für Serie 10. Aufgabe ETH Zürich D-MATH. Herbstsemester Dr. V. Gradinaru D.

3 Elementare Umformung von linearen Gleichungssystemen und Matrizen

Einführung in die Vektor- und Matrizenrechnung. Matrizen

Quadratische Formen und Definitheit

Brückenkurs Mathematik

9 Vektorräume mit Skalarprodukt

Grundzüge der Faktorenanalyse

Proseminar Lineare Algebra II, SS 11. Blatt

C orthogonal und haben die Länge 1). Dann ist die Länge von w = x u + y v gegeben durch w 2 Def. = w,w =

1 Singulärwertzerlegung und Pseudoinverse

Multivariate Statistik

45 Eigenwerte und Eigenvektoren

3.3 Eigenwerte und Eigenräume, Diagonalisierung

Musterlösung zur Aufgabensammlung Statistik I Teil 3

Musterlösungen zur Linearen Algebra II Übungsklausur

Vervollständigung Lateinischer Quadrate

Risikomessung und Value at Risk Wintersemester 2013/14

Aufgabensammlung aus Mathematik 2 UMIT, SS 2010, Version vom 7. Mai 2010

Lineare Algebra. Teil III. Inhaltsangabe

Seminar Einführung in die Kunst mathematischer Ungleichungen

Kapitel 2: Matrizen. 2.1 Matrizen 2.2 Determinanten 2.3 Inverse 2.4 Lineare Gleichungssysteme 2.5 Eigenwerte 2.6 Diagonalisierung

Matrizen, Determinanten, lineare Gleichungssysteme

1 Euklidische und unitäre Vektorräume

A Matrix-Algebra. A.1 Definition und elementare Operationen

Zahlen und metrische Räume

5.1 Determinanten der Ordnung 2 und 3. a 11 a 12 a 21 a 22. det(a) =a 11 a 22 a 12 a 21. a 11 a 21

Matrizen spielen bei der Formulierung ökonometrischer Modelle eine zentrale Rolle: kompakte, stringente Darstellung der Modelle

In diesem Abschnitt betrachten wir nur quadratische Matrizen mit Komponenten aus einem Körper K, also A K n n für ein n N. Wenn (mit einem n > 1)

Assoziation & Korrelation

Skript zur Vorlesung. Lineare Algebra. Prof. Dr.-Ing. Katina Warendorf. 2. Oktober 2014

3.3 Klassifikation quadratischer Formen auf R n

6.3 Hauptachsentransformation

Mathematik II Frühlingsemester 2015 Kapitel 8: Lineare Algebra 8.5 Eigenwerte und Eigenvektoren

Wirtschaftsmathematik Formelsammlung

Zusammenfassung Mathe III. Themenschwerpunkt 3: Analytische Geometrie / lineare Algebra (ean) 1. Rechenregeln mit Vektoren

Inhaltsverzeichnis INHALTSVERZEICHNIS 1

Outline. 1 Vektoren im Raum. 2 Komponenten und Koordinaten. 3 Skalarprodukt. 4 Vektorprodukt. 5 Analytische Geometrie. 6 Lineare Räume, Gruppentheorie

3.6 Eigenwerte und Eigenvektoren

Kapitel 1 Beschreibende Statistik

1 Definition. 2 Besondere Typen. 2.1 Vektoren und transponieren A = 2.2 Quadratische Matrix. 2.3 Diagonalmatrix. 2.

2 Euklidische Vektorräume

Grundsätzliches Rechnen mit Matrizen Anwendungen. Matrizenrechnung. Fakultät Grundlagen. Juli 2015

Serie 10: Inverse Matrix und Determinante

Zusammenhänge zwischen metrischen Merkmalen

Lineare Algebra II, Lösungshinweise Blatt 9

9 Faktorenanalyse. Wir gehen zunächst von dem folgenden Modell aus (Modell der Hauptkomponentenanalyse): Z = F L T

Prof. Dr. G. Wagner Ingenieurmathematik Begleittext Seite 1

1.9 Eigenwerte und Eigenvektoren

4 Vorlesung: Matrix und Determinante

Mathematik II für Studierende der Informatik. Wirtschaftsinformatik (Analysis und lineare Algebra) im Sommersemester 2016

3 Häufigkeitsverteilungen

Diagonalisieren. Nikolai Nowaczyk Lars Wallenborn

Lösung (die Geraden laufen parallel) oder unendlich viele Lösungen.

Mathematik für Anwender II

Lineare Algebra und analytische Geometrie II

Kapitel 6. Zusammenfassung der wichtigsten Ergebnisse dieser Arbeit

Euklidische Distanzmatrizen. Andrei Grecu

Kapitel 5 Kenngrößen empirischer Verteilungen 5.1. Lagemaße. x mod (lies: x-mod) Wofür? Lageparameter. Modus/ Modalwert Zentrum. Median Zentralwert

Mat(2 2, R) Wir bestimmen das charakterische Polynom 1 f A (t) = t 2 t 2 = (t 2)(t + ( 1). ) 2 2. Eigenvektor zu EW 2 ist v 2 = 1 1

Konvergenz im quadratischen Mittel - Hilberträume

Mathematik II Frühjahrssemester 2013

Eigenwerte und Eigenvektoren von Matrizen

Definitionen. Merkblatt lineare Algebra. affiner Teilraum Menge, die durch Addition eines Vektors v 0 zu allen Vektoren eines Vektorraumes V entsteht

klar. Um die zweite Bedingung zu zeigen, betrachte u i U i mit u i = 0. Das mittlere -Zeichen liefert s

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen

Beispiele 1. Gegeben sei das lineare Gleichungssystem mit erweiterter Matrix (A

Lineare Ausgleichsprobleme. Jetzt: Lösung überbestimmter linearer GS, d.h. mehr Gleichungen als Unbekannte

Rückblick auf die letzte Vorlesung. Bemerkung

Lineare Algebra II 6. Übungsblatt

Lineare Gleichungssysteme (Teschl/Teschl 11.1)

( ) ( ). Dann heißt die Zahl

Vektorräume und Rang einer Matrix

Kapitel 6. Metrik, Norm und Skalarproduktl. 6.1 Metrik (Abstand)

Lineare Algebra I. Prof. Dr. M. Rost. Übungen Blatt 10 (WS 2010/2011) Abgabetermin: Donnerstag, 13. Januar.

Übungen zur Linearen Algebra 1

37 Gauß-Algorithmus und lineare Gleichungssysteme

P (X = 2) = 1/36, P (X = 3) = 2/36,...

8 Extremwerte reellwertiger Funktionen

Vektoren und Matrizen

Transkript:

Einheit 1 Ähnlichkeits- und Distanzmaße IFAS JKU Linz c 2015 Multivariate Verfahren 1 0 / 41

Problemstellung Ziel: Bestimmung von Ähnlichkeit zwischen n Objekten, an denen p Merkmale erhoben wurden. Die Zahl s ij soll die Ähnlichkeit zwischen dem i-ten und dem j-ten Objekt messen. Diese heißt Ähnlichkeitskoeffizient. Diese ist umso größer je ähnlicher sich die Objekte sind. Normierte Ähnlichkeitskoeffizienten haben die Eigenschaft: 0 s ij 1. Analog kann auch ein Distanzmaß d ij betrachtet werden, das die Unähnlichkeit zwischen dem i-ten und dem j-ten Objekt misst. Dieses ist umso kleiner je ähnlicher sich die Objekte sind. IFAS JKU Linz c 2015 Multivariate Verfahren 1 1 / 41

Problemstellung / 2 Distanzmaße können aus normierten Ähnlichkeitskoeffizienten s ij folgendermaßen bestimmt werden: Dann gilt: d ij = 1 s ij. 0 s ij 1 0 d ij 1 Alle Distanzen (zwischen allen Paaren der n Objekte) werden in der sogenannten Distanzmatrix D dargestellt: D = d 11... d 1n..... d n1... d nn IFAS JKU Linz c 2015 Multivariate Verfahren 1 2 / 41

Problemstellung / 3 Je nach Messniveau werden in der Regel unterschiedliche Distanzmaße und Ähnlichkeitsmaße verwendet. IFAS JKU Linz c 2015 Multivariate Verfahren 1 3 / 41

Metrik Eine Metrik ist eine Funktion, die je zwei Elementen eines Raums einen nicht negativen reellen Wert zuordnet, der als Abstand der beiden Elemente voneinander aufgefasst werden kann. Formale Definition: Sei X eine beliebige Menge. Eine Abbildung d : X X R heißt Metrik auf X, wenn für beliebige Elemente x, y und z von X die folgenden Axiome erfüllt sind: 1 Positive Definitheit: d(x, y) 0 und d(x, y) = 0 x = y, 2 Symmetrie: d(x, y) = d(y, x), 3 Dreiecksungleichung: d(x, y) d(x, z) + d(z, y). Die Forderung d(x, y) 0 folgt aus den übrigen, kann also weggelassen werden. Wir betrachten Distanzmaße, die nicht notwendigerweise Metriken sind, aber zumindest Bedingung 1 und 2 erfüllen. IFAS JKU Linz c 2015 Multivariate Verfahren 1 4 / 41

Bestimmung der Distanzen und Ähnlichkeiten aus der Datenmatrix IFAS JKU Linz c 2015 Multivariate Verfahren 1 Bestimmung der Distanzen und Ähnlichkeiten aus der Datenmatrix 5 / 41

Quantitative Merkmale: Beispiel Datenmatrix: Studierender Alter der Mutter Alter des Vaters 1 58 60 2 61 62 3 55 59 4 59 64 5 54 54 6 52 55 IFAS JKU Linz c 2015 Multivariate Verfahren 1 Bestimmung der Distanzen und Ähnlichkeiten aus der Datenmatrix 6 / 41

Quantitative Merkmale: Beispiel / 2 Zentrierte Datenmatrix: Studierender Alter der Mutter Alter des Vaters 1 1.50 1.00 2 4.50 3.00 3-1.50 0.00 4 2.50 5.00 5-2.50-5.00 6-4.50-4.00 IFAS JKU Linz c 2015 Multivariate Verfahren 1 Bestimmung der Distanzen und Ähnlichkeiten aus der Datenmatrix 7 / 41

Quantitative Merkmale: Beispiel / 3 4 Alter des Vaters 4 2 0 2 4 6 3 1 2 5 4 2 0 2 4 Alter der Mutter IFAS JKU Linz c 2015 Multivariate Verfahren 1 Bestimmung der Distanzen und Ähnlichkeiten aus der Datenmatrix 8 / 41

Quantitative Merkmale: Beispiel / 4 Es liegt nahe den kürzesten Abstand zwischen zwei Punkten x i und x j zu bestimmen. Seien ( ) ( ) x i = x i1 x i2 x j = zwei Punkte aus dem R 2. Dann ist aufgrund des Satzes von Pythagoras der kürzeste Abstand gegeben durch d ij = (x i1 x j1 ) 2 + (x i2 x j2 ) 2. x j1 x j2 IFAS JKU Linz c 2015 Multivariate Verfahren 1 Bestimmung der Distanzen und Ähnlichkeiten aus der Datenmatrix 9 / 41

Quantitative Merkmale: Beispiel / 5 Für die 6 Studierenden erhalten wir damit folgende Distanzmatrix: 0.0 3.6 3.2 4.1 7.2 7.8 3.6 0.0 6.7 2.8 10.6 11.4 3.2 6.7 0.0 6.4 5.1 5.0 D = 4.1 2.8 6.4 0.0 11.2 11.4 7.2 10.6 5.1 11.2 0.0 2.2 7.8 11.4 5.0 11.4 2.2 0.0 IFAS JKU Linz c 2015 Multivariate Verfahren 1 Bestimmung der Distanzen und Ähnlichkeiten aus der Datenmatrix 10 / 41

Quantitative Merkmale: Beispiel / 6 Unterscheiden sich die Varianzen der Merkmale, so sollte man die skalierte Distanz bestimmen. Hierzu bestimmt man die Stichprobenvarianzen s1 2 und s2 2 der zwei Merkmale und bildet (x i1 x j1 ) 2 d s ij = = (xi1 s 2 1 s 1 x j1 s 1 + (x i2 x j2 ) 2 s 2 2 ) 2 ( xi2 + x ) 2 j2. s 2 s 2 IFAS JKU Linz c 2015 Multivariate Verfahren 1 Bestimmung der Distanzen und Ähnlichkeiten aus der Datenmatrix 11 / 41

Quantitative Merkmale: Beispiel / 7 Die Stichprobenvarianzen sind s1 2 = 11.5 und s2 1 = 15.2. Die Matrix mit den skalierten euklidischen Distanzen ist 0.0 1.0 0.9 1.1 1.9 2.2 1.0 0.0 1.9 0.8 2.9 3.2 0.9 1.9 0.0 1.7 1.3 1.4 D = 1.1 0.8 1.7 0.0 3.0 3.1 1.9 2.9 1.3 3.0 0.0 0.6 2.2 3.2 1.4 3.1 0.6 0.0 IFAS JKU Linz c 2015 Multivariate Verfahren 1 Bestimmung der Distanzen und Ähnlichkeiten aus der Datenmatrix 12 / 41

Quantitative Merkmale: Beispiel / 8 Wir drehen die Punktwolke, dass die Merkmale bezüglich der neuen Achsen unkorreliert sind. x1 x2 1.73-0.49 5.20-1.48-0.97 1.14 5.43 1.34-5.43-1.34-5.96 0.83 IFAS JKU Linz c 2015 Multivariate Verfahren 1 Bestimmung der Distanzen und Ähnlichkeiten aus der Datenmatrix 13 / 41

Quantitative Merkmale: Beispiel / 9 x 2 6 4 2 0 2 4 6 6 5 3 4 1 2 6 4 2 0 2 4 6 x 1 IFAS JKU Linz c 2015 Multivariate Verfahren 1 Bestimmung der Distanzen und Ähnlichkeiten aus der Datenmatrix 14 / 41

Quantitative Merkmale: Beispiel / 10 Die Stichprobenvarianzen sind s1 2 = 25.1 und s2 1 = 1.6. Die Matrix mit den skalierten euklidischen Distanzen nach dem Drehen ist 0.00 1.04 1.40 1.63 1.58 1.86 1.04 0.00 2.41 2.23 2.12 2.88 1.40 2.41 0.00 1.29 2.15 1.03 D = 1.63 2.23 1.29 0.00 3.03 2.31 1.58 2.12 2.15 3.03 0.00 1.72 1.86 2.88 1.03 2.31 1.72 0.00 IFAS JKU Linz c 2015 Multivariate Verfahren 1 Bestimmung der Distanzen und Ähnlichkeiten aus der Datenmatrix 15 / 41

Quantitative Merkmale: Euklidische Distanz Die euklidische Distanz d ij zwischen dem i-ten und dem j-ten Objekt mit Merkmalsvektoren x i = x i1. x ip ist definiert durch d ij = p (x ik x jk ) 2 = k=1 x j = x j1. x jp (x i x j ) (x i x j ). IFAS JKU Linz c 2015 Multivariate Verfahren 1 Bestimmung der Distanzen und Ähnlichkeiten aus der Datenmatrix 16 / 41

Quantitative Merkmale: Skalierte euklidische Distanz Unterscheiden sich die Varianzen der Merkmale, so sollte man die skalierte Distanz bestimmen. Hierzu bestimmt man die Stichprobenvarianzen s1 2,..., s2 p der Merkmale und bildet dij s = p (x ik x jk ) 2 = p k=1 s 2 k k=1 ( xik s k x ) 2 jk. s k IFAS JKU Linz c 2015 Multivariate Verfahren 1 Bestimmung der Distanzen und Ähnlichkeiten aus der Datenmatrix 17 / 41

Quantitative Merkmale: Skalierte euklidische Distanz / 2 Wir bilden die Diagonalmatrix V mit den Stichprobenvarianzen der Merkmale auf der Hauptdiagonalen: s1 2 0... 0 0 s2 V = 2... 0...... 0 0... s 2 p Es gilt: dij s = (x i x j ) V 1 (x i x j ). IFAS JKU Linz c 2015 Multivariate Verfahren 1 Bestimmung der Distanzen und Ähnlichkeiten aus der Datenmatrix 18 / 41

Quantitative Merkmale: Mahalanobis Distanz Sind die Merkmale korreliert, so empfiehlt es sich die Konfiguration der Punkte zu drehen, dass sie hinsichtlich der neuen Koordinatenachsen unkorreliert sind, um anschließend die skalierten euklidischen Distanzen zu bestimmen. Die Rotationsmatrix bekommt man über die Spektralzerlegung der Varianz-Kovarianz-Matrix. Es gilt: S = T ΛT. Dabei ist T eine orthogonale Matrix, in deren Spalten die Eigenvektoren von S stehen. Λ ist eine Diagonalmatrix. IFAS JKU Linz c 2015 Multivariate Verfahren 1 Bestimmung der Distanzen und Ähnlichkeiten aus der Datenmatrix 19 / 41

Quantitative Merkmale: Mahalanobis Distanz / 2 Die rotierten Beobachtungen bekommt man durch Diese sind unkorreliert, da gilt: T x i. V(T x i ) = T V(x i )T = T ST = T T ΛT T = Λ. Die Eigenwerte sind die Varianzen der rotierten Merkmale. Man bekommt also die rotierten und skalierten Merkmale durch Λ 0.5 T x i, i = 1,..., n Bestimme V(Λ 0.5 T x i ). IFAS JKU Linz c 2015 Multivariate Verfahren 1 Bestimmung der Distanzen und Ähnlichkeiten aus der Datenmatrix 20 / 41

Quantitative Merkmale: Mahalanobis Distanz / 3 Die euklidischen Distanzen zwischen den rotierten und skalierten Beobachtungen bekommt man durch d M ij = = (Λ 0.5 T x i Λ 0.5 T x j ) (Λ 0.5 T x i Λ 0.5 T x i ) (x i x j ) S 1 (x i x j ). Man nennt dies die Mahalanobis-Distanz. IFAS JKU Linz c 2015 Multivariate Verfahren 1 Bestimmung der Distanzen und Ähnlichkeiten aus der Datenmatrix 21 / 41

Quantitative Merkmale: Mahalanobis Distanz / 4 Oft benutzt man die Mahalanobis-Distanz, um den Abstand von Punkten x 1,..., x n zu einem anderen Punkt z zu bestimmen. Dabei wird in der Regel für z ein Schätzer des Lageparameters verwendet. Man berechnet also d M i = (x i x) S 1 (x i x). Mit den Distanzen d1 M,..., d n M kann man Ausreißer identifizieren. Alle Beobachtungen, für die gilt di M > χ 2 p,0.975, sind Ausreißer. Dabei ist χ 2 p,0.975 das 0.975-Quantil der Chiquadratverteilung mit p Freiheitsgraden, wobei p die Anzahl der Merkmale ist. IFAS JKU Linz c 2015 Multivariate Verfahren 1 Bestimmung der Distanzen und Ähnlichkeiten aus der Datenmatrix 22 / 41

Einschub: Eigenwerte und -vektoren Eigenwert und -vektor: Sei A eine quadratische n n Matrix. Dann heißt (die im Allgemeinen komplexe Zahl) λ C Eigenwert von A, wenn ein (im Allgemeinen komplexer) Vektor x C n mit x 0 existiert, so dass gilt: Ax = λx bzw. (A λi) = 0. Der Vektor x heißt dann Eigenvektor zum Eigenwert λ. Eigenwerte und -vektoren symmetrischer Matrizen: Sei A eine symmetrische n n Matrix. Dann gilt: 1 Alle Eigenwerte sind reell. 2 Die zu verschiedenen Eigenwerten gehörenden Eigenvektoren sind paarweise orthogonal. IFAS JKU Linz c 2015 Multivariate Verfahren 1 Bestimmung der Distanzen und Ähnlichkeiten aus der Datenmatrix 23 / 41

Einschub: Eigenwerte und -vektoren / 2 Spektralzerlegung: Sei A eine symmetrische n n Matrix mit rg(a) = r. Dann existiert eine n r Matrix P, sodass gilt: P AP = diag(λ 1,..., λ r ) bzw. A = Pdiag(λ 1,..., λ r )P. Dabei sind λ i die von Null verschiedenen Eigenwerte von A. Die Spaltenvektoren von P entsprechen den (paarweise orthonormalen) zugehörigen Eigenvektoren. IFAS JKU Linz c 2015 Multivariate Verfahren 1 Bestimmung der Distanzen und Ähnlichkeiten aus der Datenmatrix 24 / 41

Quantitative Merkmale: Vergleich Äquidistante Punkte bzgl. der Distanzmaße liegen auf einem Kreis für euklidische Distanz, auf einer Ellipse in Hauptlage für skalierte euklidische Distanz, auf einer Ellipse in beliebiger Lage für die Mahalanobis Distanz. Euklidische Distanz Skalierte euklidische Distanz Malahanobis Distanz IFAS JKU Linz c 2015 Multivariate Verfahren 1 Bestimmung der Distanzen und Ähnlichkeiten aus der Datenmatrix 25 / 41

Quantitative Merkmale: Manhattan-Metrik Ein anderes Distanzmaß erhält man, wenn man die Summe der Längen der beiden Katheten bestimmt. Dies ist die kürzeste Verbindung zwischen zwei Punkten, wenn man eine Stadt mit einem rechtwinkeligen Straßennetz betrachtet. Diese Distanz heißt Manhattan-Metrik oder City-Block-Metrik. Sie ist definiert durch d ij = p x ik x jk. k=1 IFAS JKU Linz c 2015 Multivariate Verfahren 1 Bestimmung der Distanzen und Ähnlichkeiten aus der Datenmatrix 26 / 41

Quantitative Merkmale: Manhattan-Metrik / 2 Eine Skalierung kann erfolgen, indem man den Wert x ij des Merkmals j beim i-ten Objekt durch die Spannweite R j des j-ten Merkmals dividiert. mit d ij = p k=1 x ik x jk R k, R k = max x ik min x ik. i i Äquidistante Punkte liegen auf einem auf der Spitze stehenden Quadrat. IFAS JKU Linz c 2015 Multivariate Verfahren 1 Bestimmung der Distanzen und Ähnlichkeiten aus der Datenmatrix 27 / 41

Binäre Merkmale: Beispiel Student Geschlecht Raucher Auto MatheLK 1 0 0 1 1 2 0 0 1 0 Symmetrische Merkmale: Simple-Matching-Koeffizient Die Distanz wird beschrieben durch den Anteil der Merkmale, wo sich die Beobachtungen unterscheiden. In diesem Fall ist die Distanz gleich 0.25. Asymmetrische Merkmale: Jaccard-Koeffizient Falls alle Merkmale asymmetrisch sind, so schließen wir zunächst alle Merkmale aus der weiteren Betrachtung aus, bei denen beide Objekte den Wert 0 aufweisen. Unter den restlichen Merkmalen bestimmen wir dann den Anteil, bei denen beide Objekte nicht den gleichen Wert aufweisen, um die Distanz zu bestimmen. In diesm Fall ist die Distanz gleich 0.5. IFAS JKU Linz c 2015 Multivariate Verfahren 1 Bestimmung der Distanzen und Ähnlichkeiten aus der Datenmatrix 28 / 41

Binäre Merkmale Die Information, die in einer binären Datenmatrix mit zwei Beobachtungen enthalten ist und notwendig ist, um die Distanz zu bestimmen, kann in folgender Hilfstabelle zusammengefasst werden: Objekt i Objekt j 1 0 1 a b a + b 0 c d c + d a + c b + d p IFAS JKU Linz c 2015 Multivariate Verfahren 1 Bestimmung der Distanzen und Ähnlichkeiten aus der Datenmatrix 29 / 41

Binäre Merkmale / 2 Bei symmetrischen binären Merkmalen sollte sich der Wert des Ähnlichkeits- / Distanzmaßes nicht ändern, wenn die Kodierung vertauscht wird. Das impliziert, dass das Ähnlichkeits- / Distanzmaß nur von a + d und b + c abhängt. Gower & Legendre betrachten folgende Klasse: s GL1 ij = a + d a + d + θ(b + c), wobei θ > 0. Die Distanzmaße d GL1 erhält man durch d GL1 ij = 1 s GL1 ij. IFAS JKU Linz c 2015 Multivariate Verfahren 1 Bestimmung der Distanzen und Ähnlichkeiten aus der Datenmatrix 30 / 41

Binäre Merkmale / 3 Der Simple-Matching-Koeffizient ergibt sich für θ = 1: s SM ij = d SM ij = a + d a + d + b + c, b + c a + d + b + c. Für θ = 2 ergibt sich der Rogers & Tanimoto Koeffizient: s RT ij = d RT ij = a + d a + d + 2(b + c), 2(b + c) a + d + 2(b + c). IFAS JKU Linz c 2015 Multivariate Verfahren 1 Bestimmung der Distanzen und Ähnlichkeiten aus der Datenmatrix 31 / 41

Binäre Merkmale / 4 Für asymmetrische binäre Merkmale sollte sich der Wert des Ähnlichkeits- / Distanzmaßes nicht ändern, wenn die Anzahl der gemeinsamen nichtvorhanden Merkmale d verändert wird. Gower & Legendre betrachten folgende Klasse: s GL2 ij = a a + θ(b + c), wobei θ > 0. Die Distanzmaße d GL2 erhält man durch d GL2 ij = 1 s GL2 ij. IFAS JKU Linz c 2015 Multivariate Verfahren 1 Bestimmung der Distanzen und Ähnlichkeiten aus der Datenmatrix 32 / 41

Binäre Merkmale / 5 Für θ = 1 erhält man den Jaccard-Koeffizienten: s JA ij = a a + b + c, d JA ij = b + c a + b + c. Für θ = 2 erhält man den von Sneath & Sokal vorgeschlagenen Koeffizienten: s SO ij = d SO ij = a a + 2(b + c), 2(b + c) a + 2(b + c). IFAS JKU Linz c 2015 Multivariate Verfahren 1 Bestimmung der Distanzen und Ähnlichkeiten aus der Datenmatrix 33 / 41

Qualitative Merkmale mit mehr als 2 Ausprägungen Sind alle p Merkmale nominal, so schlägt Sneah vor, den Anteil der gleichen Merkmale als Ähnlichkeitsmaß zu verwenden: s ij = u p, d ij = p u p, wobei u die Anzahl der Merkmale ist, bei denen beide Objekte dieselbe Merkmalsausprägung besitzen. IFAS JKU Linz c 2015 Multivariate Verfahren 1 Bestimmung der Distanzen und Ähnlichkeiten aus der Datenmatrix 34 / 41

Qualitative Merkmale mit geordneten Ausprägungen Durch die Ordnung können den Ausprägungen Ränge zugeordnet werden und mit diesen weitergearbeitet werden. Alternativ können auch Scores zugeordnet werden. Beides sind Methoden um das ordinale in ein metrisches Merkmal überzuführen. Dies erfolgt, indem (subjektiv) zusätzliche Annahmen getroffen werden! Die Distanz zwischen zwei Objekten bei einem ordinalen Merkmal erhalten wir dadurch, dass wir den Absolutbetrag der Differenz durch die Spannweite der Ausprägungen des Merkmals dividieren. IFAS JKU Linz c 2015 Multivariate Verfahren 1 Bestimmung der Distanzen und Ähnlichkeiten aus der Datenmatrix 35 / 41

Unterschiedliche Messniveaus Mögliche Kombination von Gower: d ij = p k=1 δ (k) ij d (k) ij p k=1 δ (k) ij. Durch δ (k) ij werden fehlende Beobachtungen die Asymmetrie binärer Merkmale berücksichtigt. IFAS JKU Linz c 2015 Multivariate Verfahren 1 Bestimmung der Distanzen und Ähnlichkeiten aus der Datenmatrix 36 / 41

Unterschiedliche Messniveaus / 2 δ (k) ij ist 0, falls bei mindestens einem Objekt das k-te Merkmal fehlt, bei asymmetrischen binären Merkmalen, falls beide Objekte den Wert 0 haben. In Abhängigkeit vom Messniveau des Merkmals k wird die Distanz d ij zwischen dem i-ten und j-ten Objekt mit den Merkmalsausprägungen x ik beziehungsweise x jk folgendermaßen bestimmt: Bei binären und nominalskalierten Merkmalen gilt: { d (k) 1 wenn x ik x jk ij = 0 wenn x ik = x jk. IFAS JKU Linz c 2015 Multivariate Verfahren 1 Bestimmung der Distanzen und Ähnlichkeiten aus der Datenmatrix 37 / 41

Unterschiedliche Messniveaus / 3 Bei quantitativen Merkmalen und ordinalen Merkmalen, deren Ausprägungsmöglichkeiten gleich den Rängen 1,..., r sind, gilt mit d (k) ij = x ik x jk R k R k = max x ik min x ik. i i IFAS JKU Linz c 2015 Multivariate Verfahren 1 Bestimmung der Distanzen und Ähnlichkeiten aus der Datenmatrix 38 / 41

Unterschiedliche Messniveaus / 4 Sind alle Merkmale quantitativ, und fehlen keine Beobachtungen, dann ist der Gower-Koeffizient gleich der Manhattan-Metrik angewendet auf die durch die Spannweite skalierten Merkmale. Sind alle Merkmale ordinal, dann ist der Gower-Koeffizient gleich der Manhattan-Metrik angewendet auf die durch die Spannweite skalierten Ränge. Sind alle Merkmale symmetrisch binär, so ist der Gower-Koeffizient gleich dem Simple-Matching-Koeffizienten. Sind alle Merkmale asymmetrisch binär, so ist der Gower-Koeffizient gleich dem Jaccard-Koeffizienten. IFAS JKU Linz c 2015 Multivariate Verfahren 1 Bestimmung der Distanzen und Ähnlichkeiten aus der Datenmatrix 39 / 41

Distanzmaße in R Funktion dist() mit einem method Argument mit u.a. möglichen Werten "euclidean" "manhattan" "binary" Funktion daisy() aus dem Paket cluster. Beide returnieren ein Objekt der Klasse dist oder einer Klasse, die davon erbt. Aufgrund der Symmetrie und den bekannten Werten 0 in der Diagonale wird nur die untere Dreiecksmatrix gespeichert. Umwandlung in eine volle Matrix mithilfe von as.matrix(). IFAS JKU Linz c 2015 Multivariate Verfahren 1 Bestimmung der Distanzen und Ähnlichkeiten aus der Datenmatrix 40 / 41

Direkte Bestimmung der Distanzen In den Sozialwissenschaften werden in dem Fall Daten erhoben, sodass direkt alle paarweisen Vergleiche durchgeführt und von den Befragten beurteilt werden. Beim Ratingverfahren wird jedem Vergleich ein Wert von 1 bis n zugeordnet, wobei höhere Werte höhere Unähnlichkeit darstellen. Bei der Rangreihung werden die Paare geordnet, vom ähnlichsten bis zum unähnlichsten. IFAS JKU Linz c 2015 Multivariate Verfahren 1 Bestimmung der Distanzen und Ähnlichkeiten aus der Datenmatrix 41 / 41