Large-Scale Image Search

Large-Scale Image Search Visuelle Bildsuche in sehr großen Bildsammlungen Media Mining I Multimedia Computing, Universität Augsburg Rainer.Lienhart@informatik.uni-augsburg.de www.multimedia-computing.{de,org}

Große Bildsammlungen Internet Flickr mit über mit über 2 Milliarden Bildern (Stand 14. Nov. 2007) Seitdem kommen täglich zw. 2 und 3 Millionen Bilder dazu Bilder zum Teil mit Schlagworten versehen Familien 21 854 Fotos seit 1994 ~1500 Bilder pro Jahr = ~120 Bilder pro Monat = ~4 pro Tag 5s pro Bild 3 Tage zum anschauen (bei 10h pro Tag) 5

Anfrage durch Beispiel Anfragebild 6

Was ist das? Anfragebild Golden Gate Golden Gate Golden Gate No. 1, beach Golden Gate Golden Gate, John, Rita Golden Gate, SF Presidio, SF 8

Stochastische Verfahren

Grundidee Fakt: Forschungsgebiet der Textsuche gibt es schon viel länger als das der visuellen Bildsuche Idee: Übertrage erfolgreiche Verfahren der Textsuche auf den Bildbereich Brauchen Analogien zu Dokumenten = Bild Endliche (und überschaubare) Menge an diskreten Worten =? 10

Visuelle Merkmale

Grundidee Ähnliche Objekte zeigen ähnliche lokale Merkmale wie: Farbe und Helligkeiten Muster und Texturen Kanten und Gradienten Formen Lokale Selbstähnlichkeitsstrukturen Ein Bild wird durch die Gesamtheit seiner lokalen Merkmale beschrieben 12

Selbstähnlichkeitsmerkmal (1) Folgende Bilder unterscheiden sich in so ziemlich allem (u.a. Farbe, Textur, Kanten). Nur das Konzept hinter dem zentralen Objekt ist gleich: ein Herz Grundidee: Bilder sind ähnlich bezüglich der räumlichen Anordnung der lokalen Selbstähnlichkeiten 13

Selbstähnlichkeitsmerkmal (2) Lokale Intensitätsmuster werden in der Nachbarschaft in charakteristischer geometrischer Anordnung wiederholt Ref: E. Shechtman, M. Irani. Matching Local Self-Similarities across Images and Videos. In CVPR2007, 2007 14

Selbstähnlichkeitsmerkmal (3) 20 * 4 = 80 Komponenten 15

Suchbeispiel (a) Vorgabemuster (b) Beispiele, wo Vorgabemuster gefunden wurde 16

Regelmäßige Abtastung bzgl. Ort und Skala mit Umgebung fester Größe 17

Unregelmäßige Abtastung 18

Regelmäßige Abtastung bzgl. Ort und Skala mit Umgebung fester Größe 19

Visuelle Worte

Fakten über die Merkmale Pro Bild wird für alle Positionen in allen Skalen dieses Merkmal ausgerechnet zwischen 2,000 bis 10,000 Merkmale pro Bild Merkmale sind n-dimensionale reell-wertige Vektoren (hier n=80) Jeder Merkmalsvektor ist einmalig Damit Text-Suchverfahren angewendet werden können, müssen wir diese unendlich große Menge von Möglichkeiten auf eine endliche Größe quantisieren. 22

Quantisierungsbeispiel Annahmen Elektrisches Thermometer mit unendlicher Genauigkeit Messung der Außentemperatur Alle Werte zwischen -20 C und +40 C möglich z.b. 15,34 C oder -3,76 C Quantisierung auf die nächste ganzzahlige Temperatur z.b. 15 C oder -4 C 61 mögliche ganzzahlige Temperaturen Abbildung (Quantisierung) der reellen Werte aus [-20,40] auf nur 61 Werte 23

2D Quantisierungsbeispiel (1) 1 2 3 4 5 6 7 48 49 1D: 7 Wörter 2D: 7 2 =49 Wörter 3D: 7 3 =343 Wörter 4D: 7 4 =2401 Wörter 10D: 7 10 =282.475.249 80D: 7 80 4*10 67 Wörter 49 Repräsentanten (Cluster-Zentren) 24

2D Quantisierungsbeispiel (2) 1 2 3 4 5 6 7 48 49 49 Repräsentanten (Cluster-Zentren) 19 Repräsentanten (Cluster-Zentren) 25

Quantisierung Gegeben: Ziel: Menge X von n Vektoren X={x 1,, x n } aus dem d- dimensionalen Raum d Positive natürliche Zahl k: k Finde eine Menge von k Punkten C={c 1,, c k } aus dem d- dimensionalen Raum d, welche den durchschnittlichen quadratischen Abstand zwischen den Punkten und dem nächsten Mittelpunkt minimiert. Realität: ( c 1, c2,..., ck ) arg min min xi j ( c1, c2,..., ck ) i 1 kein exakter Algorithmus zur Suche des globalen Minimum in polynomer Zeit bekannt c Daher: Man begnügt sich mit dem lokalen Minimum: K-Means Clustering n j 2 5 3 1 4 6 2 7 26

K - Means Clustering (1) 1. Gebe gewünschte Anzahl der Repräsentanten (Cluster) vor (e.g., k=5). 27

K - Means Clustering (2) 1. Gebe gewünschte Anzahl der Repräsentanten (Cluster) vor (e.g., k=5). 2. Wähle zufällig k Cluster- Mittelpunkte. 28

K - Means Clustering (3) 1. Gebe gewünschte Anzahl der Repräsentanten (Cluster) vor (e.g., k=5). 2. Wähle zufällig k Cluster- Mittelpunkte. 3. Ordne jeden Punkt dem nächsten Clusterpunkt zu. 29

K - Means Clustering (4) 1. Gebe gewünschte Anzahl der Repräsentanten (Cluster) vor (e.g., k=5). 2. Wähle zufällig k Cluster- Mittelpunkte. 3. Ordne jeden Punkt dem räumlich nächsten Cluster- Mittelpunkt zu. 4. Berechne für jeden Cluster einen neuen Cluster- Mittelpunkt 30

K - Means Clustering (4) 1. Gebe gewünschte Anzahl der Repräsentanten (Cluster) vor (e.g., k=5). 2. Wähle zufällig k Cluster- Mittelpunkte. 3. Ordne jeden Punkt dem räumlich nächsten Cluster- Mittelpunkt zu. 4. Berechne für jeden Cluster einen neuen Cluster- Mittelpunkt 5. und setze gehe dort hin 6. und wiederhole ab 3. 31

Erstelle Visuelles Wörterbuch Viele lokale Merkmalsvektoren pro Bild K-Means Clustering Wähle die Cluster- Mittelpunkte als visuelles Wörterbuch Visuellen Wörterbuch (hier: 2400 Worte) 32

Dokument Term - Matrix

Dokument Term - Matrix Gegeben: Eine Sammlung von N Textdokumenten D={d 1,,d N } mit Termen aus einem Vokabular W={w 1,,w M }, bei denen wir die Reihenfolge der Wörter völlig ignorieren Wortmengenmodell (Bag-of-Word Model) beschrieben durch die sog. Dokument Term - Matrix der Größe N x M d 1 d i d N w 1,, w j,, w M n(d i, w j ) Beinhaltet absolute Häufigkeiten (#), mit denen die Terme in den Dokumenten auftreten: N = ( n(d i, w j ) ) ij Dokumentvektor Termvektor 34

Kosinus-Abstandsmaß Der M-dimensionale Dokumentvektor d ist unser Merkmalsvektor pro Bild (M = # der Wörter im Wörterbuch) Jeder Merkmalsvektor beschreibt einen Punkt im M-dimensionalen Raum M Die Merkmalsvektoren zweier zu vergleichender Merkmale spannen eine Winkel θ auf. cos( d, d 1 Abstandsmaß: 2 d 1, d2 ) cos( ) d d d 1 2 M M w 1 w 1 d d 2 1i 1i d 2i M w 1 d 2 2i d1, d ) 1 cos( ) ( 2 d 1 d i d N d q w 1,, w j,, w M d 1 θ d2 n(d i, w j ) Dokumentvektor w 1,, w j,, w M 36

Problem mit Dokumentvektor Tischtennis Ping- Pong Pferd Esel Flugzeug Flughafen Synonyme Verschiedene Worte, die das Gleiche bedeuten Visuell Ähnliches Ähnliches oder Dinge der gleichen Art Wortfelder Existieren in der gleiche Szene/am gleichen Ort 37

Wahrscheinlichkeiten Anzahl der Worte: n n( d i, w j ) i, j Wahrscheinlichkeit für das Auftreten eines Wortes w j in einem Dokument d i : p( di, wj ) n( di, wj ) / n d 1 d i w 1,, w j,, w M n(d i, w j ) d N Wahrscheinlichkeit für ein Dokument: p ( di ) p( di, wj ) j Dokumentvektor Termvektor 38

Probabilistic Latent Semantic Analysis Erzeugermodell für Beobachtungspaare (d i,w j ): Wähle ein Dokument d i mit Wahrscheinlichkeit p(d i ) Wähle einen verborgenen Aspekt z k mit Wahrscheinlichkeit p(z k d i ) Erzeuge ein Wort w j mit Wahrscheinlichkeit p(w j z k ) D Z W ) ( i d P ) ( i z k d P ) ( k w j z P K k k j i k i K k k j i k i K k j k i j i z w P d z P d p z w P d z P d p w z d P w d P 1 1 1 ) ( ) ( ) ( ) ( ) ( ) ( ),, ( ), ( Annahme: w j unabhängig von d i gegeben z k : p(w j d i,z k ) = p(w j z k ) 39

Probabilistic LSA (plsa) P( d, w i ) Kompression: j Bespiel: P( d ) # der Worte=1000, # der Bilder=1 Mio., # der Aspekte = 40 Ohne Aspekte: Wir brauchen 1,000,000 x 1000 = 1 Milliarden Wahrscheinlichkeiten Mit Aspekten: i K k 1 P( z Wir brauchen 1,000,000 x 40 + 40 x 1000 Wahrscheinlichkeiten k d ) P( w i j z k ) EM-Lernen: L N ln L i 1 j 1 N i 1 j 1 N M M i 1 j 1 P( d M Ausgabe: P(w j z k ), p(z k d i ) i ln P( d n( d, w i j, w, w )lnp( d EM Klassifikation von d: Gegeben p(w j z k ), bestimme p(z k d) i ) j n( d, w i j ) j ) max n( d, w i i j ), w j ) max 40

Beispielergebnisse auf Text (1) Die 2 Aspekte, die am wahrscheinlichsten das Word flight erzeugen. Die 2 Aspekte, die am wahrscheinlichsten das Word love erzeugen. Topic Detection and Tracking corpus (TDT1) ~ 7 Mio Wörter 15863 Dokumente K=128 Die Wortstämme, die für den jeweiligen Aspekt am wahrscheinlichsten sind: p(w j z k ) Ref: Thomas Hoffmann. Unsupervised Learning by Probabilistic 2008 Prof. Dr. Rainer Lienhart, Multimedia Latent Computing, Semantic Institut für Analysis. Informatik, Universität Machine Augsburg Learning, Vol. 42, Issue 1-2, 41 pp. 177-196, 2001.

Visuelle Suche

Bildklassifikationsmodel Metapher -- Zusammenfassung: Bild Textdokument Objektkategorien Aspekte (z.b. Mensch, Grass, Haus, etc.) Lokale visuelle Worte Worten im Text Visuelle Worte werden durch Diskretisierung der kontinuierlichen Merkmale zur Beschreibung lokaler visueller Muster erzeugt. Ein Bild mit mehreren Objekten wird als Dokument mit mehreren Aspekten modelliert. Dokumente werden bezüglich ihrer Aspektverteilung verglichen, d.h. bezüglich p(z k d i ) 44

Realistische Bilddatenbank (1) 253,460 Bilder wurden von Flickr heruntergeladen, von denen jedes mit mindestens einem der 23 Wörter rechts beschriftet war. Die Datenbank wurde ohne jede Nachverarbeitung so wie heruntergeladen benutzt. Category # OR list of tags # of image 1 wildlife animal animals cat cats 30476 2 dog dogs 26119 3 bird birds 21279 4 flower flowers 28816 5 graffiti 22318 6 sign signs 14488 7 surf surfing 29998 8 night 33999 9 food 19582 10 building buildings 17303 11 goldengate goldengatebridge 24362 12 baseball 12390 Total # of Images (Note images may have multiple tags) 253,460 45

Real World Database (2) 46

Realistische Database (3) Falsche Beschriftungen 47

plsa - Gebäude 48

plsa - Grafitti 49

plsa - Baseball 50

plsa Golden Gate 51

plsa - Text 52

Ausblick Andere stochastische Verfahren LDA Deep Belief Networks Andere Modalitäten Schlagworte Usergruppen 1.9 1.7 1.5 1.3 1.1 0.9 0.7 0.7 0.6 Cosine JS L1 IR measure 0.5 Andere Ähnlichkeitsmaße 0.4 0.3 LDA+IR measure plsa+ir measure 53