Large-Scale Image Search

Ähnliche Dokumente
Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Wie Google Webseiten bewertet. François Bry

Vorlesung Text und Data Mining S9 Text Clustering. Hans Hermann Weber Univ. Erlangen, Informatik

Wasserfall-Ansätze zur Bildsegmentierung

Anleitung über den Umgang mit Schildern

OECD Programme for International Student Assessment PISA Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland

Der Kalender im ipad

Zeichen bei Zahlen entschlüsseln

1 Mathematische Grundlagen

Microsoft Access 2013 Navigationsformular (Musterlösung)

Theoretische Grundlagen der Informatik WS 09/10

Aufgaben zur Flächenberechnung mit der Integralrechung

Exploration und Klassifikation von BigData

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

Konzepte der Informatik

9 Auto. Rund um das Auto. Welche Wörter zum Thema Auto kennst du? Welches Wort passt? Lies die Definitionen und ordne zu.

W-Rechnung und Statistik für Ingenieure Übung 11

R ist freie Software und kann von der Website.

MATHEMATIK 3 STUNDEN. DATUM: 8. Juni 2009

Microsoft Access 2010 Navigationsformular (Musterlösung)

Die Post hat eine Umfrage gemacht

Handbuch zur Anlage von Turnieren auf der NÖEV-Homepage

Hilfe zur Urlaubsplanung und Zeiterfassung

Kurzleitfaden für Schüler

Suche schlecht beschriftete Bilder mit Eigenen Abfragen

Übungsklausur. Bitte wählen Sie fünf Aufgaben aus! Aufgabe 1. Übungsklausur zu Mathematik I für BWL und VWL (WS 2008/09) PD Dr.

Die Online-Meetings bei den Anonymen Alkoholikern. zum Thema. Online - Meetings. Eine neue Form der Selbsthilfe?

Grundbegriffe der Informatik

Abituraufgabe zur analytischen Geometrie, Hessen 2013, B2, Grundkurs (TR)

Markovketten. Bsp. Page Ranking für Suchmaschinen. Wahlfach Entscheidung unter Risiko und stat. Datenanalyse

YouTube: Video-Untertitel übersetzen

Kill Keyword Density. Weshalb die Keyword Density blanker Unsinn ist.

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin:

How-to: Webserver NAT. Securepoint Security System Version 2007nx

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis

Im Jahr t = 0 hat eine Stadt Einwohner. Nach 15 Jahren hat sich die Einwohnerzahl verdoppelt. z(t) = at + b

Abitur 2007 Mathematik GK Stochastik Aufgabe C1

Zahlen auf einen Blick

Lassen Sie sich dieses sensationelle Projekt Schritt für Schritt erklären:

Abituraufgabe zur Stochastik, Hessen 2009, Grundkurs (TR)

Finanzwirtschaft. Teil II: Bewertung

ClubWebMan Veranstaltungskalender

Stellen Sie bitte den Cursor in die Spalte B2 und rufen die Funktion Sverweis auf. Es öffnet sich folgendes Dialogfenster

Anleitung zur Erstellung von Serienbriefen (Word 2003) unter Berücksichtigung von Titeln (wie Dr., Dr. med. usw.)


Clustering Seminar für Statistik

Ebenenmasken Grundlagen

Kapiteltests zum Leitprogramm Binäre Suchbäume

JRK-Spielplatztest. Was macht Spaß und kostet nix! Eine Kampagne des Jugendrotkreuzes im Nürnberger Land. Version 1.5 Juli 2008

Grundlagen der Theoretischen Informatik, SoSe 2008

Multicheck Schülerumfrage 2013

Primzahlen und RSA-Verschlüsselung

Proseminar: Website-Managment-System. NetObjects Fusion. von Christoph Feller

Step by Step Webserver unter Windows Server von Christian Bartl

Falten regelmäßiger Vielecke

Was ist Sozial-Raum-Orientierung?

Wie Sie beliebig viele PINs, die nur aus Ziffern bestehen dürfen, mit einem beliebigen Kennwort verschlüsseln: Schritt 1


Binäre Bäume. 1. Allgemeines. 2. Funktionsweise. 2.1 Eintragen

Einführung in. Logische Schaltungen

GLEICH WEIT WEG. Aufgabe. Das ist ein Ausschnitt aus der Tausenderreihe:

Melanie Kaspar, Prof. Dr. B. Grabowski 1

1 topologisches Sortieren

Jede Zahl muss dabei einzeln umgerechnet werden. Beginnen wir also ganz am Anfang mit der Zahl,192.

Anzeige von eingescannten Rechnungen

teischl.com Software Design & Services e.u. office@teischl.com

Erstellen einer digitalen Signatur für Adobe-Formulare

Wie löst man Mathematikaufgaben?

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Handbuch. NAFI Online-Spezial. Kunden- / Datenverwaltung. 1. Auflage. (Stand: )

Offen für Neues. Glas im Innenbereich.

VibonoCoaching Brief -No. 18

Mit der Maus im Menü links auf den Menüpunkt 'Seiten' gehen und auf 'Erstellen klicken.

Welche Bereiche gibt es auf der Internetseite vom Bundes-Aufsichtsamt für Flugsicherung?

Statistische Thermodynamik I Lösungen zur Serie 1

Lineare Gleichungssysteme

Diagnoseaufgaben. egative Zahlen. Ganz In mit Ganztag mehr Zukunft. Das neue Ganztagsgymnasium NRW. TU Dortmund

Bestimmung einer ersten

Tangentengleichung. Wie lautet die Geradengleichung für die Tangente, y T =? Antwort:

Statistik I für Betriebswirte Vorlesung 5

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Portfolio: "Die Ratten" von Gerhart Hauptmann

Eva Douma: Die Vorteile und Nachteile der Ökonomisierung in der Sozialen Arbeit

Eine Anwendung mit InstantRails 1.7

Vorbereitungsaufgaben

In diesem Tutorial lernen Sie, wie Sie einen Termin erfassen und verschiedene Einstellungen zu einem Termin vornehmen können.

SHG INVEST DAS SOLLTEN SIE UNBEDINGT. lesen, bevor Sie selbst verkaufen...

Anhand des bereits hergeleiteten Models erstellen wir nun mit der Formel

Wie Projektziele gemessen werden können oder wie man Indikatoren entwickeln kann?

Wärmebildkamera. Arbeitszeit: 15 Minuten

UpToNet DMS Posteingang

Quantilsschätzung als Werkzeug zur VaR-Berechnung

Eigene Dokumente, Fotos, Bilder etc. sichern

Grundlagen der Monte Carlo Simulation

Lineare Gleichungssysteme

DER SELBST-CHECK FÜR IHR PROJEKT

Statuten in leichter Sprache

Kulturelle Evolution 12

Schulung Marketing Engine Thema : Einrichtung der App

Transkript:

Large-Scale Image Search Visuelle Bildsuche in sehr großen Bildsammlungen Media Mining I Multimedia Computing, Universität Augsburg Rainer.Lienhart@informatik.uni-augsburg.de www.multimedia-computing.{de,org}

Large-Scale Image Search Visuelle Bildsuche in sehr großen Bildsammlungen Media Mining I Multimedia Computing, Universität Augsburg Rainer.Lienhart@informatik.uni-augsburg.de www.multimedia-computing.{de,org}

Large-Scale Image Search Visuelle Bildsuche in sehr großen Bildsammlungen Media Mining I Multimedia Computing, Universität Augsburg Rainer.Lienhart@informatik.uni-augsburg.de www.multimedia-computing.{de,org}

Large-Scale Image Search Visuelle Bildsuche in sehr großen Bildsammlungen Media Mining I Multimedia Computing, Universität Augsburg Rainer.Lienhart@informatik.uni-augsburg.de www.multimedia-computing.{de,org}

Große Bildsammlungen Internet Flickr mit über mit über 2 Milliarden Bildern (Stand 14. Nov. 2007) Seitdem kommen täglich zw. 2 und 3 Millionen Bilder dazu Bilder zum Teil mit Schlagworten versehen Familien 21 854 Fotos seit 1994 ~1500 Bilder pro Jahr = ~120 Bilder pro Monat = ~4 pro Tag 5s pro Bild 3 Tage zum anschauen (bei 10h pro Tag) 5

Anfrage durch Beispiel Anfragebild 6

Was ist das? Anfragebild Golden Gate Golden Gate Golden Gate No. 1, beach Golden Gate Golden Gate, John, Rita Golden Gate, SF Presidio, SF 8

Stochastische Verfahren

Grundidee Fakt: Forschungsgebiet der Textsuche gibt es schon viel länger als das der visuellen Bildsuche Idee: Übertrage erfolgreiche Verfahren der Textsuche auf den Bildbereich Brauchen Analogien zu Dokumenten = Bild Endliche (und überschaubare) Menge an diskreten Worten =? 10

Visuelle Merkmale

Grundidee Ähnliche Objekte zeigen ähnliche lokale Merkmale wie: Farbe und Helligkeiten Muster und Texturen Kanten und Gradienten Formen Lokale Selbstähnlichkeitsstrukturen Ein Bild wird durch die Gesamtheit seiner lokalen Merkmale beschrieben 12

Selbstähnlichkeitsmerkmal (1) Folgende Bilder unterscheiden sich in so ziemlich allem (u.a. Farbe, Textur, Kanten). Nur das Konzept hinter dem zentralen Objekt ist gleich: ein Herz Grundidee: Bilder sind ähnlich bezüglich der räumlichen Anordnung der lokalen Selbstähnlichkeiten 13

Selbstähnlichkeitsmerkmal (2) Lokale Intensitätsmuster werden in der Nachbarschaft in charakteristischer geometrischer Anordnung wiederholt Ref: E. Shechtman, M. Irani. Matching Local Self-Similarities across Images and Videos. In CVPR2007, 2007 14

Selbstähnlichkeitsmerkmal (3) 20 * 4 = 80 Komponenten 15

Suchbeispiel (a) Vorgabemuster (b) Beispiele, wo Vorgabemuster gefunden wurde 16

Regelmäßige Abtastung bzgl. Ort und Skala mit Umgebung fester Größe 17

Unregelmäßige Abtastung 18

Regelmäßige Abtastung bzgl. Ort und Skala mit Umgebung fester Größe 19

Visuelle Worte

Fakten über die Merkmale Pro Bild wird für alle Positionen in allen Skalen dieses Merkmal ausgerechnet zwischen 2,000 bis 10,000 Merkmale pro Bild Merkmale sind n-dimensionale reell-wertige Vektoren (hier n=80) Jeder Merkmalsvektor ist einmalig Damit Text-Suchverfahren angewendet werden können, müssen wir diese unendlich große Menge von Möglichkeiten auf eine endliche Größe quantisieren. 22

Quantisierungsbeispiel Annahmen Elektrisches Thermometer mit unendlicher Genauigkeit Messung der Außentemperatur Alle Werte zwischen -20 C und +40 C möglich z.b. 15,34 C oder -3,76 C Quantisierung auf die nächste ganzzahlige Temperatur z.b. 15 C oder -4 C 61 mögliche ganzzahlige Temperaturen Abbildung (Quantisierung) der reellen Werte aus [-20,40] auf nur 61 Werte 23

2D Quantisierungsbeispiel (1) 1 2 3 4 5 6 7 48 49 1D: 7 Wörter 2D: 7 2 =49 Wörter 3D: 7 3 =343 Wörter 4D: 7 4 =2401 Wörter 10D: 7 10 =282.475.249 80D: 7 80 4*10 67 Wörter 49 Repräsentanten (Cluster-Zentren) 24

2D Quantisierungsbeispiel (2) 1 2 3 4 5 6 7 48 49 49 Repräsentanten (Cluster-Zentren) 19 Repräsentanten (Cluster-Zentren) 25

Quantisierung Gegeben: Ziel: Menge X von n Vektoren X={x 1,, x n } aus dem d- dimensionalen Raum d Positive natürliche Zahl k: k Finde eine Menge von k Punkten C={c 1,, c k } aus dem d- dimensionalen Raum d, welche den durchschnittlichen quadratischen Abstand zwischen den Punkten und dem nächsten Mittelpunkt minimiert. Realität: ( c 1, c2,..., ck ) arg min min xi j ( c1, c2,..., ck ) i 1 kein exakter Algorithmus zur Suche des globalen Minimum in polynomer Zeit bekannt c Daher: Man begnügt sich mit dem lokalen Minimum: K-Means Clustering n j 2 5 3 1 4 6 2 7 26

K - Means Clustering (1) 1. Gebe gewünschte Anzahl der Repräsentanten (Cluster) vor (e.g., k=5). 27

K - Means Clustering (2) 1. Gebe gewünschte Anzahl der Repräsentanten (Cluster) vor (e.g., k=5). 2. Wähle zufällig k Cluster- Mittelpunkte. 28

K - Means Clustering (3) 1. Gebe gewünschte Anzahl der Repräsentanten (Cluster) vor (e.g., k=5). 2. Wähle zufällig k Cluster- Mittelpunkte. 3. Ordne jeden Punkt dem nächsten Clusterpunkt zu. 29

K - Means Clustering (4) 1. Gebe gewünschte Anzahl der Repräsentanten (Cluster) vor (e.g., k=5). 2. Wähle zufällig k Cluster- Mittelpunkte. 3. Ordne jeden Punkt dem räumlich nächsten Cluster- Mittelpunkt zu. 4. Berechne für jeden Cluster einen neuen Cluster- Mittelpunkt 30

K - Means Clustering (4) 1. Gebe gewünschte Anzahl der Repräsentanten (Cluster) vor (e.g., k=5). 2. Wähle zufällig k Cluster- Mittelpunkte. 3. Ordne jeden Punkt dem räumlich nächsten Cluster- Mittelpunkt zu. 4. Berechne für jeden Cluster einen neuen Cluster- Mittelpunkt 5. und setze gehe dort hin 6. und wiederhole ab 3. 31

Erstelle Visuelles Wörterbuch Viele lokale Merkmalsvektoren pro Bild K-Means Clustering Wähle die Cluster- Mittelpunkte als visuelles Wörterbuch Visuellen Wörterbuch (hier: 2400 Worte) 32

Dokument Term - Matrix

Dokument Term - Matrix Gegeben: Eine Sammlung von N Textdokumenten D={d 1,,d N } mit Termen aus einem Vokabular W={w 1,,w M }, bei denen wir die Reihenfolge der Wörter völlig ignorieren Wortmengenmodell (Bag-of-Word Model) beschrieben durch die sog. Dokument Term - Matrix der Größe N x M d 1 d i d N w 1,, w j,, w M n(d i, w j ) Beinhaltet absolute Häufigkeiten (#), mit denen die Terme in den Dokumenten auftreten: N = ( n(d i, w j ) ) ij Dokumentvektor Termvektor 34

Kosinus-Abstandsmaß Der M-dimensionale Dokumentvektor d ist unser Merkmalsvektor pro Bild (M = # der Wörter im Wörterbuch) Jeder Merkmalsvektor beschreibt einen Punkt im M-dimensionalen Raum M Die Merkmalsvektoren zweier zu vergleichender Merkmale spannen eine Winkel θ auf. cos( d, d 1 Abstandsmaß: 2 d 1, d2 ) cos( ) d d d 1 2 M M w 1 w 1 d d 2 1i 1i d 2i M w 1 d 2 2i d1, d ) 1 cos( ) ( 2 d 1 d i d N d q w 1,, w j,, w M d 1 θ d2 n(d i, w j ) Dokumentvektor w 1,, w j,, w M 36

Problem mit Dokumentvektor Tischtennis Ping- Pong Pferd Esel Flugzeug Flughafen Synonyme Verschiedene Worte, die das Gleiche bedeuten Visuell Ähnliches Ähnliches oder Dinge der gleichen Art Wortfelder Existieren in der gleiche Szene/am gleichen Ort 37

Wahrscheinlichkeiten Anzahl der Worte: n n( d i, w j ) i, j Wahrscheinlichkeit für das Auftreten eines Wortes w j in einem Dokument d i : p( di, wj ) n( di, wj ) / n d 1 d i w 1,, w j,, w M n(d i, w j ) d N Wahrscheinlichkeit für ein Dokument: p ( di ) p( di, wj ) j Dokumentvektor Termvektor 38

Probabilistic Latent Semantic Analysis Erzeugermodell für Beobachtungspaare (d i,w j ): Wähle ein Dokument d i mit Wahrscheinlichkeit p(d i ) Wähle einen verborgenen Aspekt z k mit Wahrscheinlichkeit p(z k d i ) Erzeuge ein Wort w j mit Wahrscheinlichkeit p(w j z k ) D Z W ) ( i d P ) ( i z k d P ) ( k w j z P K k k j i k i K k k j i k i K k j k i j i z w P d z P d p z w P d z P d p w z d P w d P 1 1 1 ) ( ) ( ) ( ) ( ) ( ) ( ),, ( ), ( Annahme: w j unabhängig von d i gegeben z k : p(w j d i,z k ) = p(w j z k ) 39

Probabilistic LSA (plsa) P( d, w i ) Kompression: j Bespiel: P( d ) # der Worte=1000, # der Bilder=1 Mio., # der Aspekte = 40 Ohne Aspekte: Wir brauchen 1,000,000 x 1000 = 1 Milliarden Wahrscheinlichkeiten Mit Aspekten: i K k 1 P( z Wir brauchen 1,000,000 x 40 + 40 x 1000 Wahrscheinlichkeiten k d ) P( w i j z k ) EM-Lernen: L N ln L i 1 j 1 N i 1 j 1 N M M i 1 j 1 P( d M Ausgabe: P(w j z k ), p(z k d i ) i ln P( d n( d, w i j, w, w )lnp( d EM Klassifikation von d: Gegeben p(w j z k ), bestimme p(z k d) i ) j n( d, w i j ) j ) max n( d, w i i j ), w j ) max 40

Beispielergebnisse auf Text (1) Die 2 Aspekte, die am wahrscheinlichsten das Word flight erzeugen. Die 2 Aspekte, die am wahrscheinlichsten das Word love erzeugen. Topic Detection and Tracking corpus (TDT1) ~ 7 Mio Wörter 15863 Dokumente K=128 Die Wortstämme, die für den jeweiligen Aspekt am wahrscheinlichsten sind: p(w j z k ) Ref: Thomas Hoffmann. Unsupervised Learning by Probabilistic 2008 Prof. Dr. Rainer Lienhart, Multimedia Latent Computing, Semantic Institut für Analysis. Informatik, Universität Machine Augsburg Learning, Vol. 42, Issue 1-2, 41 pp. 177-196, 2001.

Visuelle Suche

Bildklassifikationsmodel Metapher -- Zusammenfassung: Bild Textdokument Objektkategorien Aspekte (z.b. Mensch, Grass, Haus, etc.) Lokale visuelle Worte Worten im Text Visuelle Worte werden durch Diskretisierung der kontinuierlichen Merkmale zur Beschreibung lokaler visueller Muster erzeugt. Ein Bild mit mehreren Objekten wird als Dokument mit mehreren Aspekten modelliert. Dokumente werden bezüglich ihrer Aspektverteilung verglichen, d.h. bezüglich p(z k d i ) 44

Realistische Bilddatenbank (1) 253,460 Bilder wurden von Flickr heruntergeladen, von denen jedes mit mindestens einem der 23 Wörter rechts beschriftet war. Die Datenbank wurde ohne jede Nachverarbeitung so wie heruntergeladen benutzt. Category # OR list of tags # of image 1 wildlife animal animals cat cats 30476 2 dog dogs 26119 3 bird birds 21279 4 flower flowers 28816 5 graffiti 22318 6 sign signs 14488 7 surf surfing 29998 8 night 33999 9 food 19582 10 building buildings 17303 11 goldengate goldengatebridge 24362 12 baseball 12390 Total # of Images (Note images may have multiple tags) 253,460 45

Real World Database (2) 46

Realistische Database (3) Falsche Beschriftungen 47

plsa - Gebäude 48

plsa - Grafitti 49

plsa - Baseball 50

plsa Golden Gate 51

plsa - Text 52

Ausblick Andere stochastische Verfahren LDA Deep Belief Networks Andere Modalitäten Schlagworte Usergruppen 1.9 1.7 1.5 1.3 1.1 0.9 0.7 0.7 0.6 Cosine JS L1 IR measure 0.5 Andere Ähnlichkeitsmaße 0.4 0.3 LDA+IR measure plsa+ir measure 53