6 Distanzfunktionen (2) 6 Distanzfunktionen. 6.1 Eigenschaften und Klassifikationen. Einführung

6 en 6 en (2) 1. Eigenschaften und Klassifikation 2. en auf Punkten Minkowski L m Gewichtete Minkowski L m w Quadratische d q Quadratische Pseudo Dynamical Partial Semi Pseudo Chi Quadrat Semi Pseudo Kullback Leiber Abstandsfunktion Bahattacharyys Abstandsfunktion 1 3. en auf Binärdaten 4. en auf Sequenzen Earth Mover DFT L 2 Editierdistanz 5. en auf allgemeinen Mengen Bottleneck über das Volumen der symmetrischen Differenz Hausdorff Fréchet 2 Einführung 6.1 Eigenschaften und Klassifikationen paarweiser Vergleich der Feature Werte von Medienobjekten hier die häufigsten en analysiert nach Eigenschaften Eigenschaften nutzbar zur Konfiguration eines MMDBS bzgl. Suchszenario Distanzen auf Punkten, Binärdaten, Sequenzen und allgemeinen Mengen Abbildung Feature Werte zweier Medien Objekte auf nichtnegative, reelle Zahl Distanzwert 0 bedeutet maximale Ähnlichkeit Invarianz einer also Unabhängigkeit bzgl. Operation Translation Skalierung Rotation 3 4

Formale Eigenschaften einer binäre Funktion und Selbstidentität (Si): Positivität (Pos): Symmetrie (Sym): mit Klassifikation anhand Erfüllung der Eigenschaften Dreiecksungleichung (Dreieck): 5 6 Beispiele von en Beispiel einer Pseudo absoluter Betrag der Differenz zweier reeller Zahlen indiskrete Pseudo, die jedem Elementepaar aus den Wert 0 zuweist: euklidsche Punkten der Menge auf (Funktion ist praktisch sinnlos) 7 8

Beispiel einer Semi Weitere Eigenschaften von en Semi {a, b, c}: auf der Menge folgende Eigenschaften werden an konkreten Funktionen getestet: Invarianz bzgl. Translation anhand Translationsobjekt T: Die Dreiecksungleichung ist nicht garantiert: Skalierung anhand Skalar S: Rotation anhand Rotationsobjekt R: 9 10 Weitere Eigenschaften von en (2) Distanzeigenschaften im Einheitskreis Darstellung des Einheitskreises: alle Punkte, für die gilt ( ist Zentrum) verschiedene Eigenschaften sind graphisch aus Einheitskreis erkennbar: Selbstidentität: Zentrum liegt auf Kreis mit Radius 0. Positivität: Alle Punkte ungleich Zentrum liegen außerhalb des Kreises mit dem Radius 0 11 12

Distanzeigenschaften im Einheitskreis (2) 6.2 auf Punkten Translationsinvarianz: Einheitskreis ändert Form nicht, wenn Zentrum verschoben wird Symmetrie: bei Translationsinvarianz und Symmetrie teilt Zentrum jede Diagonale zwischen zwei Randpunkten in genau zwei gleich lange Teile Rotationsinvarianz: Einheitskreis ist bzgl. Zentrum rotationssymmetrisch Datentyp: array [1..n] (real) Minkowski L m Gewichtete Minkowski L m w Quadratische d q Quadratische Pseudo Dynamical Partial Semi Pseudo 13 14 6.2 auf Punkten (2) Minkowski Chi Quadrat Semi Pseudo Kullback Leibler Abstandsfunktion Bhattacharyya Abstandsfunktion am häufigsten eingesetzte auf Punkten mit : Sonderfall bei : 15 16

Translationsinvarianz Einheitskreise T sein ein dimensionaler Vektor, der durch die Differenzberechnung aus der Formel verschwindet: aber keine Skalierungs oder Rotationsinvarianz 17 18 Holdersche Ungleichung Sonderfall euklidsche (m=2) es gilt immer: also: Einheitskreis mit niedrigem Wert liegt innerhalb Einheitskreises mit höherem Wert entspricht Länge der Geraden durch beide Punkte Einheitskreis ist kreisförmig Rotationsinvarianz ist erfüllt, da Orthonormalmatrix 19 Matrizenschreibweise: 20

Berechnung von Reihenfolgen anhand Minkowski Dist. fkt. Gewichtete Minkowski Achtung: unterschiedliche Werte erzeugen unterschiedliche Reihenfolgen! Beispiel: achsenparallele Stauchung und Streckung durch Gewichte : Abstände dieser Punkte vom Koordinatenursprung : Forderung: 21 22 Einheitskreis Invarianzen Translationsinvarianz keine Skalierungsinvarianz keine Rotationsinvarianz 23 24

Quadratische Matrix A Matrizenschreibweise: A im dimensionalen Raum ist symmetrische, positiv definierte Matrix Einheitsmatrix : identisch mit Diagonalmatrix: entspricht (Gewichte korrespondieren zu Diagonalelementen) ansonsten: nonuniforme Skalierung, Rotation, Spiegelung der Punkte 25 26 Symmetrische positiv definierte Matrix A Symmetrische positiv definierte Matrix A (2) es gilt immer: (Eigenwertzerlegung): ist orthonormale Matrix (Rotation anhand Eigenvektoren) ist Diagonalmatrix (Skalierung anhand Eigenwerten) Berechnung der Distanz mittels auf transformierten Punkten oft relativ schnell realisierbar 27 28

Invarianzen Beispielmatrix Translationsinvarianz keine Skalierungsinvarianz keine Rotationsinvarianz 29 30 Einheitskreis des Beispiels Mahalanobis Einsatz der quadratischen, wenn Distanzberechnung Kombination unterschiedlicher Dimensionen erfordert Grundlage kann Kovarianzmatrix auf Dimensionen sein Mahalanobis 31 32

Quadratische Pseudo Aufgabe der Forderung nach Positiv Definiertheit für A Ziel: unsymmetrische Translationsinvarianz bzgl. Vektoren des Vektorraums : Quadratische Pseudo (2) den Vektoren entsprechende Diagonalwerte auf Null setzen seien mit die durch auf Null gesetzten Spaltenvektoren, dann gilt: Konstruktion der Matrix A aus geeigneter Orthogonalbases und Diagonalmatrix 33 34 Nachweis der Translationsinvarianz Beispiel Quadratische Pseudo Konstruktion Translationsinvarianz im Winkel von 40 Grad: 35 36

Beispiel Quadratische Pseudo (2) Einheitskreis des Beispiels Die Kombination dieser Matrizen ergibt die gewünschte Matrix A: 37 38 Dynamical Partial Semi Pseudo Dynamical Partial Semi Pseudo folgende Beobachtungen Chang/Wu03 bzgl. Unähnlichkeit im hochdimensionalen Raum: ähnliche Objekte liegen meist nur in wenigen Dimensionen nebeneinander Ähnlichkeit kann häufig nicht an bestimmten Dimensionen festgemacht werden Problem mit Minkowski : alle Dimensionen werden berücksichtigt Berücksichtigung einer dynamischen Untermenge der Dimensionen 39 40

Dynamic Partial Semi Pseudo (2) Eigenschaften und seien zwei Punkte im dimensionalen Raum und der Abstand in Dimension nur die kleinsten Abstände werden berücksichtigt: Selbstidentität und Symmetrie sind erfüllt Verletzung der Positivität und Dreiecksungleichung 41 42 Einheitskreis Chi Quadrat Semi Pseudo zweidimensionaler Raum und 43 Abstand zwischen Histogrammen mit absoluter Häufigkeit ursprünglich in Statistik entwickelt Untersuchung von Abhängigkeit zwischen Zufallsvariablen basiert auf Nullhypothese: Häufigkeitsverteilungen sind gleich also Differenz zwischen erwarteter und tatsächlicher Häufigkeit sind 0 44

Chi Quadrat Semi Pseudo (2) Beispiel erwartete Häufigkeiten: Test, ob Grippedoppelimpfung Grippe verhindern kann Befragung verschiedener Personen über Auftreten von Grippe und Impfungen erwartete Werte sind in Klammern notiert 45 46 Berechnung der erwarteten Häufigkeiten Berechnung der erwarteten Häufigkeiten wenn kein Zusammenhang zwischen Impfung und Gruppe, dann Wert jeder Zelle abschätzbar Beispiel Grippe/keine Impfung Wahrsch. für Grippe ist 46/1000 Wahrsch. für keine Impfung ist 313/1000 Wahrsch. für Grippe/keine Impfung ist 46/1000*313/1000 erwartete Häufigkeit: 46/1000*313/1000*1000=46*313/1000=14,398 47 48

Eigenschaften Einheitskreis Selbstidentität und Symmetrie sind erfüllt Rotationsinvarianz keine Positivität keine Dreiecksungleichung 49 50