DPF Dynamic Partial distance Function Vorgelegt von Sebastian Loose (MatrikelNR.: 169172), Computervisualistikstudent im 4. Semester. Hausarbeit zum Papier DPF A Perceptual Distance Function for Image Retrieval von Beitao Li, Edward Chang und Ching-Tung Wu, für das Proseminar Distanzen und Ähnlichkeitsmaße in Bilder unter Anke Schneidewind im Sommersemester 2005. 1
Einleitung In der heutigen Zeit, in der wir mit digitalen Bildern und digitalen Bildmaterial nahezu überflutet werden, kann es leicht passieren, dass man in einer Datenbank mit Millionen von Bildern den Überblick verliert. Ein besonderes Problem ist, dass man den Bildern nicht immer einen geeignet beschreibenden Namen zuweisen kann, so dass man das Bild schon anhand des Namens finden kann. Somit ist um Bilder in einer Datenbank abzulegen und wiederzufinden nicht nur eine geeignete Datenstruktur zur Speicherung der Bilder nötig, sondern auch eine effiziente Suche darin. Zwei Schwerpunkte des Themenkomplexes Distanzen und Ähnlichkeitsmaße sind der Featurevektor mit den für ein Bild ausschlaggebenden Merkmalen (engl. Features) und zum anderen das Distanzmaß oder auch Ähnlichkeitsmaß. Dies ist die Entscheidung darüber, wie ähnlich ein Bild einem anderen ist. Diese Entscheidung wird meist mit Hilfe einer Distanzfunktion getroffen. Mit einer dieser Distanzfunktionen, der dynamic partial distance function kurz DPF, möchte ich mich in dieser Hausarbeit beschäftigen. Alle Abbildungen, soweit nicht anders angegeben stammen aus Li [1]. Ziel Ziel dieser Arbeit ist es mittels einer geeigneten Distanzfunktion wahrnehmbare Bildähnlichkeit zu bestimmen. Angenommen in einem Merkmalsraum können sich zueinander ähnliche Bilder zusammengefasst und unähnliche davon ferngehalten werden, dann kann dieser Merkmalsraum visuelle Wahrnehmung zuversichtlich erfassen und die zum Generieren des Merkmalsraumes benutzte Distanzfunktion kann visuelle Wahrnehmung akkurat modellieren. Vorbereitung Um diese geeignete Distanzfunktion entwickeln zu können, wurde zunächst ein Merkmalsvektor benötigt in dem alle wichtigen Merkmale eines Bildes gespeichert sind. Dazu haben Li, Chang und Wu verschiedene Merkmalsvektoren, die unterschiedliche Merkmale beinhalten, mit der Euklidischen Distanzfunktion getestet. Der von ihnen dadurch entwickelte Merkmalsvektor besteht aus 144 Merkmalen. Die ersten 108 sind Farbmerkmale und die restlichen 36 Texturmerkmale. Die ihnen dazu zugrunde liegende Datenbank bestand aus 60.000 Bildern. Auf jedem dieser Bilder wurden 24 Transformationen (Rotieren, Skalieren, Schneiden und Formattransformationen) durchgeführt. Somit bekamen sie zu jedem Suchbild 24 ähnliche Bilder, bei denen die Distanz gegen Null gehen müsste. 2
Entwicklung der DPF Der Ausgangspunkt für die DPF ist die Minkowski Metric. Gesucht sei die Distanz zwischen den beiden Bildern X und Y mit einem Merkmalsvektor der Größe p: p d( X,Y ) = ( x i y i r ) 1/r (1) i=1 Bei r = 2 hätten wir z.b. die uns bekannte Euklidische Distanz. Je kleiner die Distanz d, desto ähnlicher sind sich die Bilder X und Y. Der Nachtteil dieser Distanzfunktion ist, dass davon ausgegangen werden muss, dass Ähnlichkeit in allen Merkmalen eines Bildes besteht. Anhand von Abb1 ist zu sehen, dass dem nicht unbedingt so ist. Abb1 zeigt die Distanzen aller Merkmale eines Bildes zu seinem rotierten Gegenstück. Da die Distanz bei den ersten 108 Merkmalen vernachlässigbar klein ist, sieht man deutlich, dass die Farbmerkmale zum Ausgangsbild nahezu gleich sind und sich das rotierte Bild fast nur in den Texturmerkmalen unterscheidet. Um den Nachteil der Ähnlichkeit in allen Merkmalen zu umgehen, gibt es eine gewichtete Variante, die gewichtete Minkowski Metric: p d w ( X,Y ) = ( w i x i y i r ) 1/r (2) i=1 Hierbei wird jedem Merkmal eine gewisse Wertigkeit zugeordnet, die sich dann auf die Distanz auswirkt. Diese Wertigkeitszuordnung wird in einem Gewichtsvektor w gespeichert. Da dieser aber nur statisch ist, treten Probleme auf, denn verschiedene Bilder müssten sich in den gleichen Merkmalen ähnlich sein. Jedoch ist anhand von Abb2 zu sehen, dass sich Bilder in ganz unterschiedlichen Merkmalen ähnlich sein können. Die Abbildung zeigt auf der linken Seite ein zum Ausgangsbild transformiertes Bild. Abb2a stellt eine Formattransformation von JPEG in Gif dar, 2b ist eine am linkem Rand geschnittene Version, 2c eine rotierte und d eine skalierte Version. Auf der rechten Seite sieht 3
man die, den Bildern entsprechenden Grafiken mit den Distanzen der einzelnen Merkmale zum Ausgangsbild. Aufgrund der Ähnlichkeit in verschiedenen Merkmalen ist eine dynamische Gewichtung der Dimensionen (Merkmale) notwendig, um eine vernünftige Distanz zu erhalten. Sei δ i = x 1 -x 2, also die Distanz zweier Merkmalsvektoren X und Y an der i-ten Dimension. Des weiteren sei m die Menge der m kleinsten Distanzen aus der Menge aller Distanzen des 4
Merkmalsvektors, also m = {m kleinste δ i aus {δ 1,..., δ n } wobei m = 1,..., n}. Daraus ergibt sich die Distanzfunktion, die Dynamic Partial distance Function, (DPF): d( m,r ) = ( δ i r ) 1/r (3) δ i m Im Fall m = n würde die DPF wieder zu der Minkowski Metric werden. Solange m < n ist, werden wirklich nur die Merkmale berücksichtigt, bei denen die Distanz am geringsten ist. Das heißt es werden nur die Merkmale der Bilder betrachtet, von denen ausgegangen werden kann, das sich die Bilder in diesen sehr ähneln. Da die in m enthaltenen Merkmale sich für jeden Vergleich von unterschiedlichen Bildern ändern, ist die DPF offensichtlich dynamisch und bringt bessere Ergebnisse als die Minkowski Metric. Mittels empirischer Untersuchungen konnten Li, Chang und Wu feststellen, dass bei m = 114 die DPF am effektivsten arbeitet. Zusammenfassung Es wurde eine Funktion entwickelt, die in der Lage ist sich dynamisch dem jeweiligem Vergleich zweier Bilder anzupassen. Die Dynamik bezieht sich allerdings nur auf ein vorbestimmtest Feature Set. Wenn man es ändern würde, müsste man auch die optimale Größe für m wieder neu bestimmen. Das bringt jedoch einen recht hohen Aufwand mit sich. Zudem erwecken Li, Chang und Wu den Anschein, als würde die DPF nur bei Bildern effektiv arbeiten, bei denen es sich um transformierte Gegenstücke zu den Ausgangsbildern handelt. Denkbar hinderlich ist auch, dass man immer ein Beispielbild haben muss, zu dem die DPF dann in der Datenbank die ähnlichsten heraussucht. Dennoch ist das Ziel von Li, Chang und Wu erreicht. Sie entwickelten eine Funktion, die in der Lage ist in einer Datenbank Bilder nach einer durch diese Distanzfunktion bestimmten Ähnlichkeit zu sortieren. Referenz [1] Beitao Li, Edward Chang, Ching-Tung Wu. DPF A Perceptual Distance Function for Image Retrieval. Electrical & Computer Engineering, U.C. Santa Barbara 5