Bildverarbeitung und Multimodale Sensorverarbeitung Computer Vision and Multimodal Computing

Ähnliche Dokumente
Bildauswertung in UAV

Large-Scale Mining and Retrieval of Visual Data in a Multimodal Context

Kinect Nils Röder, Björn Frömmer

Bildverarbeitung in der Qualitätskontrolle. Sebastian Zambal LEADING INNOVATIONS

Technische Gesichtserkennung

Ein- und Ausgabegeräte für AR-Systeme

Erweiterte Realität. Sarah Seifert. 10. Juni (Universität Leipzig) Erweiterte Realität 10. Juni / 20

7. Sinn. Bordcomputer mit

In- und Outdoor Positionierungssysteme

Tracking Technologien für Augmented Reality

Blindennavigation. als Anwendung für Location-based Services. Andreas Hub

Modellierungstechniken im Softwaredesign. Praxisprojekt [ai] Control WS 2011/2012 Lara Baschour und Anne Heiting

Bachelor-Arbeiten am Lehrstuhl Informatik VII. Dr. Frank Weichert. technische universität dortmund

MOTION TRACKING. Olaf Christ AIS-Sommersemester 2000 Betreuer: Prof. C. Klauck

FlexDetect. Christoph Sulzbachner, AIT

Requirements Engineering I

SEMINAR AUTOMATISCHE GESICHTSERKENNUNG

Bewegte Dinge verstehen

Trend 2010: Multi-Shot-Techniken in der Kamera Wenn eine Aufnahme für ein gutes Bild nicht reicht

SAP Enterprise Asset Management Maintenance Worker Role

Datenblatt zu EOS Optical Infrared Tracking-System ZGDV, Darmstadt Stand:

Virtual Dressing Room

Wearables & Internet of Things. Definition, Chancen und Risiken saarcamp 2014 Nico Maas

Smart Objects Physische Objekte als Zugang zur digitalen Welt

Themenvorschlä ge fü r stüdentische Arbeiten äm Lehrstühl Integrierte Aütomätion

Industrielle Bildverarbeitung mit OpenCV

Projekt: 2- und 3-dimensionales Darstellen Thema:»AeroShow«

Programmieren von Web Informationssystemen

Folge 19 - Bäume Binärbäume - Allgemeines. Grundlagen: Ulrich Helmich: Informatik 2 mit BlueJ - Ein Kurs für die Stufe 12

Smart Glasses im industriellen Einsatz Auf dem Weg zur papierlosen Fabrik

Computer Graphik I (3D) Dateneingabe

Head-Mounted Displays Typen, Eigenschaften und Einsatzmöglichkeiten. 3. Expertenworkshop: Datenbrillen (BAuA) Dortmund,

GI-Technologien zur Umsetzung der EU-Wasserrahmenrichtlinie (WRRL): Wissensbasen. Teil 1: Einführung: Wissensbasis und Ontologie.

Videoüberwachung im Wandel. Thomas Adler, Product Manager

Mobile Mapping - Schnell und flexibel zur Punktwolke und zum 3D Modell

Computer Vision: AdaBoost. D. Schlesinger () Computer Vision: AdaBoost 1 / 10

SCHNELLERE FORSCHUNG MIT EINEM GRAFIKPROZESSORBESCHLEUNIGTEN

Ibeo Laserscanner Der Multi-Applikations-Sensor

Bildverstehen. Vorlesung an der TU Chemnitz SS 2013

Mobiler Kiosk für Carsharing-Konzepte. Projektvorschlag zur Feldstudie mit wissenschaftlicher Begleitung Ulm/Wiesbaden,

Worx Landroid - Software Update

Eine flexible Architektur für Fahrerassistenzsysteme

Augmented Reality by AUTO BILD Erweitern Sie Ihre Markenkommunikation

Sandro Castronovo. Seminar Intelligent Virtual Characters am DFKI SS Leiter: Dr. Michael Kipp

paluno Software & CPS Matthias Book Innovationsworkshop Horizon 2020 ICT

Analyse von Wurzelwachstum und Wurzelhaaren im Lichtscheiben- Fluoreszenzmikroskop

Visualisierung der Imperfektion in multidimensionalen Daten

Sicherheit in eingebetteten Systemen Luxus oder Notwendigkeit?

Studie zeigt: Unternehmen sind nicht auf mobiles Arbeiten vorbereitet

Newsletter-Pluginsim Vergleich

If you have any issue logging in, please Contact us Haben Sie Probleme bei der Anmeldung, kontaktieren Sie uns bitte 1

Programmieren von Webinformationssystemen

Bei Fragen zum Anwendungsfach haben Sie seitens des Fachbereichs Informatik folgende Kontaktmöglichkeiten:

Intrusion Detection Systeme. Definition (BSI) Alternative Definition IDS

Seminar Seminarname SS 2003

Security Kann es Sicherheit im Netz geben?

Wearable Computing im Gesundheitswesen

DIGITALES PLANEN UND GESTALTEN 2015

Automatisierte Objektaufnahme für Bilddatenbanken

Präsentation des Dissertationsvorhabens Erste Schritte. Carola Carstens Hildesheim, 15. Oktober 2007

Mit 3D SHAPEscan wird die Zukunft greifbar: Neuer 3D Sensor ermöglicht einfache, hochflexible Entnahme unsortierter Bauteile

Positionsdynamische Modellierung zur Situations- und Spieleridentifikation im Fußball

15 Arten von QR-Code-Inhalten!

Kapitel 8: Semantische Netze

Kundenbindung und Neukundengewinnung im Vertriebskanal Selbstbedienung

PREMIS Aktuelle Entwicklungen und Perspektiven

Erzeugung und Auswertung dynamischer 3D Geländemodelle durch Kombination von Laserscanner und GNSS Daten an Tagebaugroßgeräten

Probleme der Navigation von Rehabilitationsroboter: Intelligenter Rollstuhl

Ausarbeitung Iavor Jelev & Jintao Ding

November 22, 1979, Fürstenfeld, Österreich

Hohe Wachstumsraten für ISRA Systeme im Automotive- und im Assembly-Bereich

Projekt-Themen. Institut für Maschinelles Sehen und Darstellen Wintersemester 2005/06

Semantic Web. Anwendungsbereiche & Entwicklungen. Dr. Michael Granitzer

SE Requirements. Michael Maur, Philipp Zühlke. Fachbereich Informatik Praktische Informatik Prof. Dr. W. Henhapl/ Andreas Kaminski

:= Modellabbildung. Bildsynthese (Rendering) Bildsynthese

Arbeitskreise KWF Tagung Bopfingen 2012

Computer Augmented Reality

Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words

Internet of things. Copyright 2016 FUJITSU

Neurophysiologie und -psychologie der Aufmerksamkeit. Seminar, WS 2011/2012

Probeklausur. Lenz Belzner. January 26, Lenz Belzner Probeklausur January 26, / 16

Volvo Car Switzerland AG

elearning SIGNAL project Hans Dietmar Jäger 1

SAFETY & SECURITY DEPARTMENT SAFETY & SECURITY DEPARTMENT DREI RESEARCH AREAS

Prof. J. Zhang Universität Hamburg. AB Technische Aspekte Multimodaler Systeme. 6. Januar 2004

Real-Time Spotting of Human Activities in Industrial Environments

Apps Programmierung von Android-Smartphones

Selbstorganisierende Sensorik VMT Technologie Workshop 2015 Mannheim.

Betrachtung von Verfahren zur Posenbestimmung und Merkmalsexktraktion. Thorsten Jost INF-MA SR Wintersemester 2008/

R&I-Fließbilder in PLANEDS

Arbeitsgruppe Neuroinformatik

Seminar Robotik WS 02/03

EINFÜHRUNG IN DIE WIRTSCHAFTSINFORMATIK -ÜBUNGEN- Marina Tropmann-Frick

Im Original veränderbare Word-Dateien

Your Partner for Luxury and Lifestyle Estates Ihr Partner für Luxus- und Lifestyle-Immobilien

Analytisches CRM in der Automobilindustrie

Motion Capture. Menschliche Bewegungen digital erfassen. Dipl.Ing. Sophie Jörg

Modellierung von Positionssensoren. Jörg Roth Fachbereich Informatik Fernuniversität Hagen

Transkript:

Bildverarbeitung und Multimodale Sensorverarbeitung Computer Vision and Multimodal Computing Schiele, Bernt Max-Planck-Institut für Informatik, Saarbrücken Korrespondierender Autor E-Mail: schiele@mpi-inf.mpg.de Zusammenfassung Die Arbeitsgruppe Bildverarbeitung und multimodale Sensorverarbeitung wurde 2010 neu gegründet und umfasst derzeit 10 Wissenschaftler. Die Arbeitsgebiete der Gruppe sind zum einen die Bildverarbeitung mit einem Schwerpunkt auf Objekterkennung und 3D-Szenenbeschreibung und zum anderen multisensorbasierte Kontexterkennung im Bereich des Ubiquitous und Wearable Computing. Im Folgenden werden exemplarisch einige Forschungsthemen vorgestellt. Summary The department computer vision and multimodal computing has been founded 2010 with currently 10 scientists. The research areas of the department are on the one hand computer vision with a focus on object recognition and 3D scene understanding and on the other hand multimodal context recognition in the area of ubiquitous and wearable computing. The following summarizes a few representative research themes. Einleitung Sensoren wie Kameras, GPS und Beschleunigungssensoren werden immer häufiger in Geräte und Umgebungen eingebettet und sind uns heute schon auf vielfältige Weise nützlich. Die rechnergestützte Verarbeitung der Sensorinformation hat enorme Fortschritte erzielt, ist aber in aller Regel auf einfache Sachverhalte beschränkt. Das bedeutet insbesondere, dass Geräte und Computer, die Zugriff auf diese Sensorinformation haben, diese nicht vollständig interpretieren und somit Ihre Umgebung nicht wirklich verstehen können. Die Arbeitsgruppe beschäftigt sich deshalb mit dem Verstehen von Sensorinformation, wobei zum einen mächtige Sensoren wie Kameras aber auch eingebettete Sensoren wie z. B. Gyroskope und Beschleunigungssensoren zum Einsatz kommen. Skalierbarkeit der Objektklassenerkennung Im Bereich der Bildverarbeitung beschäftigt sich die Arbeitsgruppe u. a. mit dem Problem der Objekterkennung, das eines der fundamentalen Probleme des Bildverstehens darstellt. Durch die heutige Omnipräsenz von 2011 Max-Planck-Gesellschaft www.mpg.de 1/5

digitalem Bildmaterial werden solche automatische, visuelle Objektklassenerkennungstechniken immer wichtiger. Während State-of-the-Art-Systeme bemerkenswerte Erkennungsleistungen für individuelle Klassen bereitstellen, ist die simultane Erkennung von vielen Klassen nach wie vor eine der größten Herausforderungen: Das Lernen der Objektmodelle erfordert eine ausreichend große Anzahl repräsentativer Trainingsbeispiele, häufig in Form von manuell annotierten Bildern. Da das manuelle Annotieren teuer ist, versucht unsere Forschung die erforderliche Anzahl von Trainingsbeispielen zum Lernen von Objektmodellen zu reduzieren, um dadurch die Skalierbarkeit zu ermöglichen. A bb. 1: Objektklassenerkennung: Illustration der Wiederverwendung von Objektm odellkom ponenten. Gezeigt ist ein Pferdem odell, das die verschiedenen Körperteile des Tieres und deren Konstellation repräsentiert (links). Unter Verwendung einiger weniger Giraffenbilder (Mitte) kann ein leistungsfähiges Modell zur Detektion von Giraffen erstellt werden (rechts). In unserer Forschung beschäftigen wir uns mit verschiedenen Ansätzen, um diese Skalierbarkeit zu erreichen. In einem Ansatz entwickeln wir ein Objektklassenmodell, welches Objekte als Ansammlung von lokalisierten Teilformen repräsentiert. Da ähnliche Objektklassen ähnliche Repräsentationen teilen (wie z. B. Pferde und Giraffen haben beide Beine und weisen ähnliche Symmetrien auf), können die Komponenten eines Modells (z. B. das Modell der Pferdebeine) wiederverwendet werden, um ein anderes Modell (z. B. ein Giraffen-Modell) zu generieren (Abb. 1) [1,2]. In einem weiteren Projekt werden solche Modellkomponenten, die wiederverwendet werden sollen, automatisch identifiziert. Hierbei kommen Sprachverarbeitungsmethoden zum Einsatz, die es erlauben natürlich-sprachliche Informationsquellen zu durchsuchen, wie z. B. Wikipedia oder Yahoo web. In einem weiteren Ansatz verzichten wir vollständig auf Trainingsbilder und lernen Objektmodelle direkt von computergestützten Zeichnungen (CAD-Modelle). Um solche CAD-Modelle zur Erkennung von Objekten in realen Bildern verwenden zu können, schlagen wir eine formbasierte Abstraktion der Objekterscheinung vor. Unsere Experimente demonstrieren die außergewöhnliche Leistungsfähigkeit bei der Erkennung z. B. von Autos, auch im Vergleich zu Ansätzen, die Trainingsbilder aus der realen Welt verwenden. Personendetektion und Haltungsabschätzung in anspruchsvollen Szenen der Realwelt Menschen aufzufinden und zu verfolgen ist eine Schlüsseltechnologie für viele Anwendungen z. B. in der Robotertechnik und Fahrzeugsicherheit, bei Szenarien von Mensch-Computer Interaktion oder für die Indizierung von Bildern und Videos aus dem Web. In den letzten Jahren haben wir einen Ansatz entwickelt, Menschen zu detektieren und ihre Haltungen in komplexen Straßenszenen abzuschätzen. Die größte wissenschaftliche Herausforderung ist hierbei, dass in Szenen realistischer Komplexität, wie sie z. B. in Fußgängerzonen oder Straßenkreuzungen auftreten, sich die Szenen dynamisch verändern und viele Menschen gleichzeitig im Bild zu sehen sind, die sich auch gegenseitig verdecken. 2011 Max-Planck-Gesellschaft www.mpg.de 2/5

A bb. 2: Personendetektion und Haltungsabschätzung in realen Szenen: Beispiele der Personendetektion und 3D- Haltungsschätzung unseres Ansatzes. Verschiedene Schlüsselkomponenten tragen zum Erfolg des Ansatzes bei [3]. Zum einen kommen gelernte Erscheinungsmodelle der verschiedenen menschlichen Körperteile zum Einsatz, die durch einen kinematischen Baum der Körperteilkonfigurationen gekoppelt sind. Das zweite Schlüsselelement ermöglicht die Personenverfolgung und die 3D-Haltungsabschätzung. Konkret schlagen wir eine mehrstufige Inferenz- Prozedur für die 3D-Haltungsabschätzung vor. Unser Ansatz übertrifft die bisherigen Arbeiten, da nicht nur einfache Bildmerkmale wie Silhouetten und Kanten verwendet werden, sondern auch mächtigere lokale Bildbeschreibungen. Zusätzlich verfeinern und verbessern wir diese Schätzungen, indem wir sie über die Zeit verfolgen, was es ermöglicht Personen trotz längerer Abdeckungsereignisse zu verfolgen (Abb. 2). 3D-Szenenverständnis mit monokularen Kameras Inspiriert vom visuellen System des Menschen, gilt visuelles Szenenverständnis seit Beginn der Forschungsaktivitäten als der heilige Gral des maschinellen Sehens. In der Anfangszeit wurde versucht, ausgehend von Merkmalen wie Kanten, eine vollständige Szenenbeschreibung und Szenenerfassung mittels bottom-up Methodik zu erlangen. Da sich die zuverlässige Extraktion solcher Merkmale als sehr viel schwieriger als erwartet herausstellte, blieb Szenenverständnis trotz enormer Bemühungen selbst für relativ eingeschränkte und einfache Szenen ein illusorisches Ziel. In der Zwischenzeit wurden allerdings enorme Fortschritte für Teilprobleme erzielt wie in den Bereichen der Kamerageometrieschätzung, Bildsegmentierung, Objekterfassung und Objektverfolgung. Da die Leistungsfähigkeit dieser Algorithmen ein bemerkenswertes Niveau erreicht hat, glauben wir, dass das Problem der automatischen Erschließung und Erfassung von 3D- Szenen aus Einzelbildern und Videosequenzen neu untersucht werden sollte. A bb. 3: 3D-Szenenverständnis m it m onokularen Kam eras: sem antische Szenensegm entierung (links) und Objektdetektionen und Ergebnisse unserer 3D-Szeneninferenz (rechts). Ohne Frage sind Anwendungsszenarien, wie zum Beispiel mobile Serviceroboter und Fußgängerschutz im Automobilbereich, von hoher wissenschaftlicher und wirtschaftlicher Bedeutung. Daher benutzen wir die Erkennung von Fußgängern und Fahrzeugen mit einer bewegten Kamera, die auf einem Auto oder einem Roboter montiert ist als Anwendungsbeispiel für unsere Arbeit [4]. Für beide Anwendungsbereiche können wir domänenspezifisches Wissen wirksam einsetzen. Der von uns entwickelte Ansatz kombiniert a priori Wissen mit leistungsfähigen Objektklassendetektoren und semantischer Segmentierung. Objektklassendetektoren 2011 Max-Planck-Gesellschaft www.mpg.de 3/5

bestimmen die 2D-Position von Objekten in einem Bild; semantische Szenensegmentierung erkennt semantische Klassen wie Straße, Himmel oder Objekt für jeden Bildpunkt, während zusätzlich Bildinformation über mehrere Einzelbilder hinweg akkumulieren. Mit dieser Formulierung kann über die Zeit ein robusteres Ergebnis mittels geometrischer und dynamischer Konsistenz erreicht werden. Durch die 3D-Modellierung ist unser Ansatz in der Lage, komplexe Interaktionen, wie zum Beispiel Verdeckungen und physische Abgrenzung zwischen Objekten sowie geometrische Konsistenz, darzustellen (Abb. 3). Erkennung menschlicher Aktivitäten Das zweite Gebiet der Arbeitsgruppe ist im Bereich der multimodalen Sensorverarbeitung. Ein besonderer Fokus ist derzeit das Erfassen und Verstehen des Kontexts des Benutzers, der eine entscheidende Rolle bei der Mensch-Computer-Interaktion spielt. Die Kontexterfassung kann natürliche Kommunikation ermöglichen, zum Beispiel mit Robotern, die die Ziele des Benutzers verstehen und zum richtigen Zeitpunkt Unterstützung bieten. In unserer Arbeit konzentrieren wir uns derzeit auf eine bestimmte Art des Kontexts: der Erkennung menschlicher Aktivitäten. Während bei der Erkennung kurzfristiger und einfacherer Aktivitäten (wie beispielsweise dem Händeschütteln oder Laufen) beeindruckende Fortschritte gemacht wurden, ist die Forschung zu komplexeren menschlichen Aktivitäten, die mehrere Minuten oder Stunden dauern (wie beispielsweise die Morgenroutine oder eine Montageaufgabe), weitaus weniger erforscht. Daher legen wir unser Hauptaugenmerk auf verschiedene Aspekte bei der Erkennung menschlicher Aktivitäten hinsichtlich komplexer und längerfristiger Aktivitäten. Hierbei verwenden wir insbesondere am Körper angebrachte, tragbare Sensoren, die aus einer Ich- Perspektive erfassen, welche Aktivitäten der Benutzer zu jeder Zeit und an jedem Ort ausführt. Angesichts der Fortschritte der Mikrotechnologie sind kostengünstige Sensoren bereits heute weit verbreitet und in Uhren, Handys oder sogar Kleidungsstücken zu finden. Bewegungsdaten können so erfasst und analysiert werden, um die Aktivitäten mithilfe von maschinellen Lerntechniken zu verstehen. Einer der erforschten Ansätze nutzt dabei die Tatsache, dass längere Aktivitäten aus kürzeren, einfacheren Aktivitäten zusammengesetzt sind. Nimmt man eine Bauanleitung für einen Spiegel besteht eine von mehreren Aufgaben darin, den Rahmen an der Platte zu befestigen. Diese Aufgabe setzt sich aus mehreren Schritten zusammen und es wird deutlich, dass zusammengesetzte Aktivitäten erhebliche Abweichungen mit sich bringen: Zusammengesetzte Aktivitäten können unterbrochen werden; die Dauer kann je nach Benutzer sehr unterschiedlich sein; die zugrundeliegenden Aktivitäten können in verschiedener Reihenfolge erfolgen. Unser Ansatz [5] modelliert diese hierarchische Natur solcher Aktivitäten, wobei explizit verschiedene Ausführungsarten erlaubt und erkannt werden. Die Erhaltung der hierarchischen Struktur zusammengesetzter Aktivitäten bietet weitere Vorteile. Teilaktivitäten, die in verschiedenen zusammengesetzten Aktivitäten ähnlich sind, können gemeinsam verwendet werden ähnlich einem Vokabular. Ohne bereits bekannte Teilaktivitäten erneut lernen zu müssen, können neue zusammengesetzte Aktivitäten mit minimalen Trainingsdaten gelernt werden. [1] B. Leibe, A. Leonardis, B. Schiele: Robust Object Detection with Interleaved Categorization and Segmentation. International Journal of Computer Vision 77, 259-289 (2008). 2011 Max-Planck-Gesellschaft www.mpg.de 4/5

[3] M. Andriluka, S. Roth, B. Schiele: Monocular 3D Pose Estimation and Tracking by Detection. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2010. [4] C. Wojek, S. Roth, K. Schindler, B. Schiele: Monocular 3D Scene Modeling and Inference: Understanding Multi-Object Traffic Scenes. European Conference on Computer Vision (ECCV), 2010. [5] U. Blanke, B. Schiele: Remember and Transfer what you have Learned - Recognizing Composite Activities based on Activity Spotting. IEEE International Symposium on Wearable Computers (ISWC), 2010. 2011 Max-Planck-Gesellschaft www.mpg.de 5/5