Distanzen und Ähnlichkeitsmaÿe Michael Siebers Kognitive Systeme Universität Bamberg 25. Mai 2011 M. Siebers (KogSys) Distanzen und Ähnlichkeitsmaÿe 25. Mai 2011 1 / 14
Agenda 1 Distanzen 2 Ähnlichkeitsmaÿe 3 Nominale Attribute M. Siebers (KogSys) Distanzen und Ähnlichkeitsmaÿe 25. Mai 2011 2 / 14
Motivation Wo werden Distanzen und Ähnlichkeitsmaÿe verwendet? M. Siebers (KogSys) Distanzen und Ähnlichkeitsmaÿe 25. Mai 2011 3 / 14
Motivation Wo werden Distanzen und Ähnlichkeitsmaÿe verwendet? Clusteringverfahren M. Siebers (KogSys) Distanzen und Ähnlichkeitsmaÿe 25. Mai 2011 3 / 14
Motivation Wo werden Distanzen und Ähnlichkeitsmaÿe verwendet? Clusteringverfahren Lernverfahren (z. B. k-nearest neighbors) M. Siebers (KogSys) Distanzen und Ähnlichkeitsmaÿe 25. Mai 2011 3 / 14
Inhalt 1 Distanzen 2 Ähnlichkeitsmaÿe 3 Nominale Attribute M. Siebers (KogSys) Distanzen und Ähnlichkeitsmaÿe 25. Mai 2011 4 / 14
Distanzen informell Die Distanz zwischen zwei Objekten stellt intuitiv ihren Abstand voneinander dar. M. Siebers (KogSys) Distanzen und Ähnlichkeitsmaÿe 25. Mai 2011 5 / 14
Distanzen informell Die Distanz zwischen zwei Objekten stellt intuitiv ihren Abstand voneinander dar. Ein Objekt kann hierbei alles mögliche sein: M. Siebers (KogSys) Distanzen und Ähnlichkeitsmaÿe 25. Mai 2011 5 / 14
Distanzen informell Die Distanz zwischen zwei Objekten stellt intuitiv ihren Abstand voneinander dar. Ein Objekt kann hierbei alles mögliche sein: eine Zahl M. Siebers (KogSys) Distanzen und Ähnlichkeitsmaÿe 25. Mai 2011 5 / 14
Distanzen informell Die Distanz zwischen zwei Objekten stellt intuitiv ihren Abstand voneinander dar. Ein Objekt kann hierbei alles mögliche sein: eine Zahl ein Baum M. Siebers (KogSys) Distanzen und Ähnlichkeitsmaÿe 25. Mai 2011 5 / 14
Distanzen informell Die Distanz zwischen zwei Objekten stellt intuitiv ihren Abstand voneinander dar. Ein Objekt kann hierbei alles mögliche sein: eine Zahl ein Baum eine Funktion M. Siebers (KogSys) Distanzen und Ähnlichkeitsmaÿe 25. Mai 2011 5 / 14
Distanzen informell Die Distanz zwischen zwei Objekten stellt intuitiv ihren Abstand voneinander dar. Ein Objekt kann hierbei alles mögliche sein: eine Zahl ein Baum eine Funktion eine Menge von Objekten M. Siebers (KogSys) Distanzen und Ähnlichkeitsmaÿe 25. Mai 2011 5 / 14
Distanzen informell Die Distanz zwischen zwei Objekten stellt intuitiv ihren Abstand voneinander dar. Ein Objekt kann hierbei alles mögliche sein: eine Zahl ein Baum eine Funktion eine Menge von Objekten Normalerweise werden nur Distanzen zwischen gleichartigen Objekten betrachtet. M. Siebers (KogSys) Distanzen und Ähnlichkeitsmaÿe 25. Mai 2011 5 / 14
Distanzen formal Die Distanz zwischen zwei Objekten x und y wird geschrieben als: d(x, y). M. Siebers (KogSys) Distanzen und Ähnlichkeitsmaÿe 25. Mai 2011 6 / 14
Distanzen formal Die Distanz zwischen zwei Objekten x und y wird geschrieben als: d(x, y). d: M M R M. Siebers (KogSys) Distanzen und Ähnlichkeitsmaÿe 25. Mai 2011 6 / 14
Distanzen formal Die Distanz zwischen zwei Objekten x und y wird geschrieben als: d(x, y). d: M M R Damit es sich tatsächlich um eine Distanz handelt, muss sie für beliebige x, y, z M folgende Bedingungen erfüllen: M. Siebers (KogSys) Distanzen und Ähnlichkeitsmaÿe 25. Mai 2011 6 / 14
Distanzen formal Die Distanz zwischen zwei Objekten x und y wird geschrieben als: d(x, y). d: M M R Damit es sich tatsächlich um eine Distanz handelt, muss sie für beliebige x, y, z M folgende Bedingungen erfüllen: 1 d(x, y) = 0 x = y (Denitheit) M. Siebers (KogSys) Distanzen und Ähnlichkeitsmaÿe 25. Mai 2011 6 / 14
Distanzen formal Die Distanz zwischen zwei Objekten x und y wird geschrieben als: d(x, y). d: M M R Damit es sich tatsächlich um eine Distanz handelt, muss sie für beliebige x, y, z M folgende Bedingungen erfüllen: 1 d(x, y) = 0 x = y (Denitheit) 2 d(x, y) = d(y, x) (Symmetrie) M. Siebers (KogSys) Distanzen und Ähnlichkeitsmaÿe 25. Mai 2011 6 / 14
Distanzen formal Die Distanz zwischen zwei Objekten x und y wird geschrieben als: d(x, y). d: M M R Damit es sich tatsächlich um eine Distanz handelt, muss sie für beliebige x, y, z M folgende Bedingungen erfüllen: 1 d(x, y) = 0 x = y (Denitheit) 2 d(x, y) = d(y, x) (Symmetrie) 3 d(x, z) d(x, y) + d(y, z) (Dreiecksungleichung) M. Siebers (KogSys) Distanzen und Ähnlichkeitsmaÿe 25. Mai 2011 6 / 14
Distanzen formal Die Distanz zwischen zwei Objekten x und y wird geschrieben als: d(x, y). d: M M R Damit es sich tatsächlich um eine Distanz handelt, muss sie für beliebige x, y, z M folgende Bedingungen erfüllen: 1 d(x, y) = 0 x = y (Denitheit) 2 d(x, y) = d(y, x) (Symmetrie) 3 d(x, z) d(x, y) + d(y, z) (Dreiecksungleichung) Aus 1 und 3 ergibt sich automatisch d(x, y) 0 M. Siebers (KogSys) Distanzen und Ähnlichkeitsmaÿe 25. Mai 2011 6 / 14
Exkurs: Normen, Metriken Norm Eine Norm ist die Verallgemeinerung der Länge eines Vektors. Die Norm eines Vektors x wird als x notiert. Eine Norm muss für alle Vektoren x, y V und alle a R folgende Bedingungen erfüllen: M. Siebers (KogSys) Distanzen und Ähnlichkeitsmaÿe 25. Mai 2011 7 / 14
Exkurs: Normen, Metriken Norm Eine Norm ist die Verallgemeinerung der Länge eines Vektors. Die Norm eines Vektors x wird als x notiert. Eine Norm muss für alle Vektoren x, y V und alle a R folgende Bedingungen erfüllen: 1 x = 0 x = 0 (Denitheit) M. Siebers (KogSys) Distanzen und Ähnlichkeitsmaÿe 25. Mai 2011 7 / 14
Exkurs: Normen, Metriken Norm Eine Norm ist die Verallgemeinerung der Länge eines Vektors. Die Norm eines Vektors x wird als x notiert. Eine Norm muss für alle Vektoren x, y V und alle a R folgende Bedingungen erfüllen: 1 x = 0 x = 0 (Denitheit) 2 a x = a x (absolute Homogenität) M. Siebers (KogSys) Distanzen und Ähnlichkeitsmaÿe 25. Mai 2011 7 / 14
Exkurs: Normen, Metriken Norm Eine Norm ist die Verallgemeinerung der Länge eines Vektors. Die Norm eines Vektors x wird als x notiert. Eine Norm muss für alle Vektoren x, y V und alle a R folgende Bedingungen erfüllen: 1 x = 0 x = 0 (Denitheit) 2 a x = a x (absolute Homogenität) 3 x + y x + y (Dreiecksungleichung) M. Siebers (KogSys) Distanzen und Ähnlichkeitsmaÿe 25. Mai 2011 7 / 14
Exkurs: Normen, Metriken Norm Eine Norm ist die Verallgemeinerung der Länge eines Vektors. Die Norm eines Vektors x wird als x notiert. Eine Norm muss für alle Vektoren x, y V und alle a R folgende Bedingungen erfüllen: 1 x = 0 x = 0 (Denitheit) 2 a x = a x (absolute Homogenität) 3 x + y x + y (Dreiecksungleichung) Metrik Eine Metrik ist eine mathematische Funktion,die den Abstand zwischen zwei Elementen einer Menge angibt. M. Siebers (KogSys) Distanzen und Ähnlichkeitsmaÿe 25. Mai 2011 7 / 14
Normen/Distanzen Jede Norm lässt sich in eine Distanz umformulieren: d(x, y) = x y p-norm x p = ( n i=1 x i p ) 1 p, p 1 M. Siebers (KogSys) Distanzen und Ähnlichkeitsmaÿe 25. Mai 2011 8 / 14
Normen/Distanzen Jede Norm lässt sich in eine Distanz umformulieren: d(x, y) = x y p-norm x p = ( n i=1 x i p ) 1 p, p 1 Manhattan-Norm x 1 = n i=1 x i M. Siebers (KogSys) Distanzen und Ähnlichkeitsmaÿe 25. Mai 2011 8 / 14
Normen/Distanzen Jede Norm lässt sich in eine Distanz umformulieren: d(x, y) = x y p-norm x p = ( n i=1 x i p ) 1 p, p 1 Manhattan-Norm x 1 = n i=1 x i Euklidische-Norm x 2 = n i=1 x i 2 M. Siebers (KogSys) Distanzen und Ähnlichkeitsmaÿe 25. Mai 2011 8 / 14
Normen/Distanzen Jede Norm lässt sich in eine Distanz umformulieren: d(x, y) = x y p-norm x p = ( n i=1 x i p ) 1 p, p 1 Manhattan-Norm x 1 = n i=1 x i Euklidische-Norm x 2 = n i=1 x i 2 Chebyshev-Norm x = max ( x i ) M. Siebers (KogSys) Distanzen und Ähnlichkeitsmaÿe 25. Mai 2011 8 / 14
Inhalt 1 Distanzen 2 Ähnlichkeitsmaÿe 3 Nominale Attribute M. Siebers (KogSys) Distanzen und Ähnlichkeitsmaÿe 25. Mai 2011 9 / 14
Ähnlichkeitsmaÿe informell Die Ähnlichkeit zwischen zwei Objekten stellt ihre Nähe oder Gleichheit zueinander dar. M. Siebers (KogSys) Distanzen und Ähnlichkeitsmaÿe 25. Mai 2011 10 / 14
Ähnlichkeitsmaÿe informell Die Ähnlichkeit zwischen zwei Objekten stellt ihre Nähe oder Gleichheit zueinander dar. Ein Objekt kann hierbei alles mögliche sein wie bei Distanzen. M. Siebers (KogSys) Distanzen und Ähnlichkeitsmaÿe 25. Mai 2011 10 / 14
Ähnlichkeitsmaÿe informell Die Ähnlichkeit zwischen zwei Objekten stellt ihre Nähe oder Gleichheit zueinander dar. Ein Objekt kann hierbei alles mögliche sein wie bei Distanzen. Es gibt eine höchste Ähnlichkeit die Identität. M. Siebers (KogSys) Distanzen und Ähnlichkeitsmaÿe 25. Mai 2011 10 / 14
Ähnlichkeitsmaÿe informell Die Ähnlichkeit zwischen zwei Objekten stellt ihre Nähe oder Gleichheit zueinander dar. Ein Objekt kann hierbei alles mögliche sein wie bei Distanzen. Es gibt eine höchste Ähnlichkeit die Identität. Ähnlichkeiten machen nur zwischen gleichartigen Objekten Sinn. M. Siebers (KogSys) Distanzen und Ähnlichkeitsmaÿe 25. Mai 2011 10 / 14
Ähnlichkeitsmaÿe formell Die Ähnlichkeit zwischen zwei Objekten x und y wird als s(x, y) notiert. Eine Ähnlichkeit muss für alle x, y, z folgende Bedingungen erfüllen: 1 s(x, y) = s(y, x) (Symmetrie) M. Siebers (KogSys) Distanzen und Ähnlichkeitsmaÿe 25. Mai 2011 11 / 14
Ähnlichkeitsmaÿe formell Die Ähnlichkeit zwischen zwei Objekten x und y wird als s(x, y) notiert. Eine Ähnlichkeit muss für alle x, y, z folgende Bedingungen erfüllen: 1 s(x, y) = s(y, x) (Symmetrie) 2 s(i, j) s(i, i) M. Siebers (KogSys) Distanzen und Ähnlichkeitsmaÿe 25. Mai 2011 11 / 14
Ähnlichkeitsmaÿe formell Die Ähnlichkeit zwischen zwei Objekten x und y wird als s(x, y) notiert. Eine Ähnlichkeit muss für alle x, y, z folgende Bedingungen erfüllen: 1 s(x, y) = s(y, x) (Symmetrie) 2 s(i, j) s(i, i) 3 s(i, j) 0 M. Siebers (KogSys) Distanzen und Ähnlichkeitsmaÿe 25. Mai 2011 11 / 14
Ähnlichkeitsmaÿe formell Die Ähnlichkeit zwischen zwei Objekten x und y wird als s(x, y) notiert. Eine Ähnlichkeit muss für alle x, y, z folgende Bedingungen erfüllen: 1 s(x, y) = s(y, x) (Symmetrie) 2 s(i, j) s(i, i) 3 s(i, j) 0 4 s(i, i) = 1 M. Siebers (KogSys) Distanzen und Ähnlichkeitsmaÿe 25. Mai 2011 11 / 14
Inhalt 1 Distanzen 2 Ähnlichkeitsmaÿe 3 Nominale Attribute M. Siebers (KogSys) Distanzen und Ähnlichkeitsmaÿe 25. Mai 2011 12 / 14
Nominale Attribute Nominale Distanz d(x, y) = n i=0 δ(x i, y i ), wobei δ(a, b) = { 0 a = b 1 andernfalls M. Siebers (KogSys) Distanzen und Ähnlichkeitsmaÿe 25. Mai 2011 13 / 14
Others Jaccard Für binäre Attribute, Anteil gemeinsammer positiver Attribute M. Siebers (KogSys) Distanzen und Ähnlichkeitsmaÿe 25. Mai 2011 14 / 14
Others Jaccard Für binäre Attribute, Anteil gemeinsammer positiver Attribute Cosinus-Ähnlichkeit Winkel zwischen zwei Attribut-Vektoren M. Siebers (KogSys) Distanzen und Ähnlichkeitsmaÿe 25. Mai 2011 14 / 14
Others Jaccard Für binäre Attribute, Anteil gemeinsammer positiver Attribute Cosinus-Ähnlichkeit Winkel zwischen zwei Attribut-Vektoren Dice-Ähnlichkeit Ähnlich Jaccard M. Siebers (KogSys) Distanzen und Ähnlichkeitsmaÿe 25. Mai 2011 14 / 14