Photofinishing. Neural Networks in. Diss, ETH * -S> accepted on the recommendation of. Dipl. El.-Ing. ETH Michael Kocheisen.



Ähnliche Dokumente
Klausur BWL V Investition und Finanzierung (70172)

Efficient Design Space Exploration for Embedded Systems

WAS IST DER KOMPARATIV: = The comparative

Künstliches binäres Neuron

Das neue Volume-Flag S (Scannen erforderlich)

Dominik Stockem Datenschutzbeauftragter Microsoft Deutschland GmbH

Kurzanleitung um Transponder mit einem scemtec TT Reader und der Software UniDemo zu lesen

Listening Comprehension: Talking about language learning

On the List Update Problem

UM ALLE DATEN ZU KOPIEREN. ZUNÄCHST die Daten des alten Telefons auf einen Computer kopieren


Zeichen bei Zahlen entschlüsseln

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Daten haben wir reichlich! The unbelievable Machine Company 1

Security Patterns. Benny Clauss. Sicherheit in der Softwareentwicklung WS 07/08

AGROPLUS Buchhaltung. Daten-Server und Sicherheitskopie. Version vom b

EEX Kundeninformation

Professionelle Seminare im Bereich MS-Office

Installation der SAS Foundation Software auf Windows

1.1 VoIP - Kein Notruf möglich. 1.2 VoIP - Vorrang von Notrufen

Large-Scale Mining and Retrieval of Visual Data in a Multimodal Context

Installation mit Lizenz-Server verbinden

Was meinen die Leute eigentlich mit: Grexit?

KURZANLEITUNG. Firmware-Upgrade: Wie geht das eigentlich?

ACDSee Pro 3-Tutorials: Schnelle Korrekturen mit dem Beleuchtungstool

Bedienungsanleitung User Manual

Persönliche Zukunftsplanung mit Menschen, denen nicht zugetraut wird, dass sie für sich selbst sprechen können Von Susanne Göbel und Josef Ströbl

Einführung in die Robotik Einführung. Mohamed Oubbati Institut für Neuroinformatik. Tel.: (+49) 731 / mohamed.oubbati@uni-ulm.de

Installationsanleitung dateiagent Pro

Lichtbrechung an Linsen

1. Einführung Erstellung einer Teillieferung Erstellung einer Teilrechnung 6

DAS PARETO PRINZIP DER SCHLÜSSEL ZUM ERFOLG

miditech 4merge 4-fach MIDI Merger mit :

Auszug der Neuerungen von CATIA V5 Release 14

Step by Step Softwareverteilung unter Novell. von Christian Bartl

Primzahlen und RSA-Verschlüsselung

Windows Server 2012 R2 Essentials & Hyper-V

Kapiteltests zum Leitprogramm Binäre Suchbäume

Bilder zum Upload verkleinern

Perceptive Document Composition

Anwendungsbeispiele Sign Live! Secure Mail Gateway

Radiation Grafted Fuel Cell Membranes with Improved Oxidative Stability

arlanis Software AG SOA Architektonische und technische Grundlagen Andreas Holubek

10%, 7,57 kb 20%, 5,3 kb 30%, 4,33 kb 40%, 3,71 kb 50%, 3,34 kb. 60%, 2,97 kb 70%, 2,59 kb 80%, 2,15 kb 90%, 1,62 kb 99%, 1,09 kb

Smartphone Benutzung. Sprache: Deutsch. Letzte Überarbeitung: 25. April

Technische Analyse der Zukunft

Lineare Gleichungssysteme

Urs Meier Art der Info Technical Info (Februar 2002) Aus unserer Projekterfahrung und Forschung

Anwendungsbeispiele. Neuerungen in den s. Webling ist ein Produkt der Firma:

Jede Zahl muss dabei einzeln umgerechnet werden. Beginnen wir also ganz am Anfang mit der Zahl,192.

Straumann CARES Visual 8.5.1

Institut für Computational Engineering ICE. N ä h e r d ra n a m S ys t e m d e r Te c h n i k d e r Z u ku n f t. w w w. n t b.

Ein Schritt von zu Hause zur Arbeit

Die Post hat eine Umfrage gemacht

Konzept zur Push Notification/GCM für das LP System (vormals BDS System)

Titelbild1 ANSYS. Customer Portal LogIn

10.1 Auflösung, Drucken und Scannen

Advoware mit VPN Zugriff lokaler Server / PC auf externe Datenbank

Grundbegriffe der Informatik

SharePoint 2010 Mobile Access

ECO-Manager - Funktionsbeschreibung

Die Renaissance von Unified Communication in der Cloud. Daniel Jonathan Valik UC, Cloud and Collaboration

Studieren- Erklärungen und Tipps

Einführung in die Robotik Kinematik. Mohamed Oubbati Institut für Neuroinformatik. Tel.: (+49) 731 / mohamed.oubbati@uni-ulm.de

Was ist Sozial-Raum-Orientierung?

Kurs Photoshop. Lehrplan zum

HDR für Einsteiger Wann brauche ist das? Anregungen aus Fotobuch und ersten eigenen Erfahrungen von Christian Sischka

The Transfer Function Bake- Off

Untersuchung der Auswahl der Hauptfreiheitsgrade zum Import eines Modells von ANSYS nach SIMPACK

Tuning des Weblogic /Oracle Fusion Middleware 11g. Jan-Peter Timmermann Principal Consultant PITSS

Fragebogen: Abschlussbefragung

MobiDM-App Handbuch für Windows Mobile

Big Data Projekte richtig managen!

Auswertung des Fragebogens zum CO2-Fußabdruck

Group and Session Management for Collaborative Applications

YouTube: Video-Untertitel übersetzen

Nicht über uns ohne uns

Kurzanleitung. MEYTON Aufbau einer Internetverbindung. 1 Von 11

IBIS Professional. z Dokumentation zur Dublettenprüfung

AUFBAUPROGRAMME YOU ONLY LIVE ONCE, BUT IF YOU DO IT RIGHT, ONCE IS ENOUGH.

KIP Druckerstatus Benutzerhandbuch KIP Druckerstatus Installations- und Benutzerhandbuch

Die neue Aufgabe von der Monitoring-Stelle. Das ist die Monitoring-Stelle:

WORKSHOP für das Programm XnView

Autoformat während der Eingabe

SEMINAR Modifikation für die Nutzung des Community Builders

Histogramm Mit dem Histogramm zu besseren Bildern?!

Research Note zum Thema: Laufzeit von Support-Leistungen für Server OS

Critical Chain and Scrum

Gimp Kurzanleitung. Offizielle Gimp Seite:

Schulungspräsentation zur Erstellung von CEWE FOTOBÜCHERN

Windows 10 Sicherheit im Überblick

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Super-Resolution. Irena Kpogbezan & Moritz Brettschneider. Seminar Computational Photography

LS3/5A customer questionnaire

6.2 Scan-Konvertierung (Scan Conversion)

Installation SQL- Server 2012 Single Node

Inhalt. 1 Einleitung AUTOMATISCHE DATENSICHERUNG AUF EINEN CLOUDSPEICHER

Zwischenablage (Bilder, Texte,...)

[Customer Service by KCS.net] KEEPING CUSTOMERS SUCCESSFUL

Die 10 goldenen Regeln der Fotografie

Transkript:

Diss, ETH * -S> Diss. ETH 11985 Neural Networks in Photofinishing A dissertation submitted to the SWISS FEDERAL INSTITUTE OF TECHNOLOGY ZURICH for the degree of Doctor of Technical Sciences presented by Dipl. El.-Ing. ETH Michael Kocheisen born June 6, 1966 citizen of Olten, SO accepted on the recommendation of Prof. Dr. G. Troster, examiner Prof. Dr. F. Eggimann, co-examiner Dr. U. A. Miiller, co-examiner 1997

Abstract The pictures we take in everyday life are almost always color and graylevel optimized when processed in the photo lab. These corrections are performed by photo printers during the transfer from negatives to paper prints and serve to improve the subjective impression of the pictures. The algorithms that determine the correction parameters are a key technology of photo printers and influence both customer satisfaction and production costs. The work presented investigates the application of artificial neural networks to improving the correction algorithms. It mainly covers the following three fields: the calculation of the correction parameters, the detection of picture sequences with similar motives and face location on low-resolution color scans. Correction is necessary because human perception of colors and brightness adapts to different surroundings. When pictures are viewed, perception is adapted to the environment, not to the scene on the pic ture. A true reproduction of the original colors would give a wrong impression to the viewer. If we want the colors on the picture to ap pear the same as they were perceived when the picture was taken, they need to be adjusted. Because there is no accurate model of human color and gray-level adaptation, heuristics become necessary. In the work presented, neural networks, that are able to adapt to ("learn") a given problem from examples, have been employed. A first set of experiments were dedicated to finding a neural net work that performs color and gray-level correction of the photos. The training examples were taken from a database of 30,000 photos of real production that included target correction parameters determined by a human expert. In more than 280 training experiments with varying in put features and network sizes, a multi-layer perceptron that achieved a slightly better color correction than a state-of-the-art conventional algorithm running on today's photo printer was found. Another scope that has been explored is the detection of picture sequences of the same scene. The customer expects the colors and graylevel values of different pictures from the same scene to be exactly the same. In order to achieve this, the photo printer needs to recognize similar pictures. For this purpose a multi-layer perceptron that decides whether two pictures are similar or not was developed. Three different input representations were investigated: bare color data of two images,

viii Abstract two simple color histograms, and the difference of the two color his tograms. The best network found achieved a classification rate of 74%, which is about the same performance as achieved by humans. Using this network about 27 % of the pictures are expected to be corrected better than they are today, whereas only 2 % will probably show poorer quality. The final part of the work investigates the application of neural networks for face detection on color photos. It is motivated by the fact that people are most sensitive to deviation of colors in face regions. If face locations were known, the correction algorithm could optimize those regions. This is also what a human expert does. However, today's photo printers can't derive context-based information. An algorithm that works on the low-resolution color scans of the photos (26x39 pixel) provided by the photo printer was developed. Face detection is based on the color and shape information of candidate regions, which are mainly invariants of geometrical moments and heuristically determined ratios of different region areas. Relying on this information, a neural network decides if the candidate region is a face or not. The algorithm detects 64 % of the faces of a real lab production, including heads with beards, mustaches and sunglasses. This percentage is astoundingly high considering the low resolution available. Most of the countless training experiments with the large picture database were carried out on the MUSIC parallel supercomputer (Multi processor System with Intelligent Communication). This system was developed in the Electronics Laboratory of the Swiss Federal Institute of Technology and the author was part of the team that developed its parallel neural networks simulation software. Its peak performance is about 100 times the workstation speed of a Sun Sparc-10 and the results presented could not have been obtained without its help.

Zusammenfassung Farbe und Helligkeit unserer Fotos werden fast immer vom verarbeitenden Fotolabor optimiert. Diese Optimierung dient der Verbesserung des subjektiven Eindrucks der Bilder. Die Bilder werden dazu automatisch vom Fotoprinter wahrend des Transfers vom Negativ zum Fotopapier korrigiert. Die Algorithmen, die die Korrekturparameter bestimmen, stellen dabei eine Schlusseltechnologie dar und haben einen wesentlichen Einfluss sowohl auf die Produktionskosten als auch auf die Zufriedenheit der Kunden. In dieser Arbeit wurde der Einsatz von Neuronalen Netzen zur Verbesserung der Korrekturalgorithmen untersucht und behandelte im wesentlichen drei Anwendungsgebiete: Die Berechnung der Korrekturparameter, die Bestimmung von Fotos mit ahnlichen Motiven, und die Gesichtserkennung auf niedrig aufgelssten Bilder. Fotokorrektur ist notwendig, weil sich die menschliche Farb- und Helligkeitswahmehmung den unterschiedlichen Umgebungsbedingungen anpasst. Beim Betrachten der Fotos erfolgt eine Anpassung unseres Sehsinns an die aktuelle Umgebung und nicht an die Beleuchtungsverhaltnisse der Szene auf dem Foto. Aus diesem Grund wurde eine wahrheitsgetreue Wiedergabe der Orginalfarben einen falschen Bildeindruck erzeugen. Sollen hingegen die Farben so wiedergegeben werden, wie wir sie bei der Aufnahme empfunden haben, miissen sie korrigiert werden. Diese Korrektur basiert auf Heuristiken, da keine genugend genauen Modelle der menschlichen Farb- und Helligkeitswahmehmung existieren. In dieser Arbeit wurden Neuronale Netze verwendet, die fahig sind, sich mit Hilfe von Beispielen an ein gegebenes Problem anzupassen ("zu lernen"). Eine erste Reihe von Experimenten war der Suche nach einem Neu ronalen Netz zur Farb- und Grauwertkorrektur fur Fotos gewidmet. Die Trainingsbeispiele, welche aus der realen Produktion stammen und von einem menschlichen Experten mit den optimalen Korrekturparametem versehen wurden, wurden einer Fotodatenbank mit 30'000 Fotos entnommen. In mehr als 280 Trainingsexperimenten mit variierenden Eingangsdaten und Netzwerkgrossen wurde ein Mehr-Schicht-Perzeptron gefunden, das im Vergleich zu einem sehr guten konventionellen Korrekturalgorithmus heutiger Fotoprinter eine verbesserte Farbkorrektur aufweist. Ein andere Teil dieser Arbeit beschaftigt sich mit dem Detektie-

X Zusammenfassung ren von Fotoserien, die die gleiche Szene aufweisen. Der Kunde erwartet, dass die Farben von Bildern, die die gleiche Szene zeigen, exakt iibereinstimmen. Um dies zu erreichen, benotigt der Fotoprinter die In formation, auf welchen Bildern die selbe Szene abgebildet ist. Zu diesem Zweck wurde ein Mehr-Schicht-Perzeptron entwickelt, das die Entscheidung fallt, ob zwei Bilder ahnlich sind oder nicht. Drei verschieden Arten von Eingangsinformationen wurden untersucht: direkte Farbdaten zweier Bilder, zwei einfache Farbhistogramme, sowie die Differenz der beiden Farbhistogramme. Das beste, gefundene Netzwerk erreichte eine Klassierungsrate von 74%, was etwa der menschlichen Leistung gleichkommt. Beim Einsatz diese Netzwerkes werden erwartungsgemass 27 % der Bilder besser korrigiert wobei nur 2 % an Qualitat einbiissen. Der letzte Teil der Arbeit untersucht die Anwendung von Neuronalen Netzen zur Gesichtsdetektion auf Farbbildern. Die Motivation resultiert aus der Tatsache, dass die Kunden sehr sensibel auf abweichende Gesichtsfarben reagieren. Ein Lokalisieren der Gesichtsregionen auf dem Foto ermoglicht es dem Korrekturalgorithmus, das Bild hinsichtlich dieser Regionen zu optimieren, was auch dem Vorgehen eines Experten entspricht. Heutige Fotoprinter sind aber nicht imstande, kontextbasierte Informationen zu bilden. Zu diesem Zweck wurde ein Algorithmus entwickelt, der auf niedrig aufgelosten Farbscans der Negative (26x39 Pixel) basiert, welche der Fotoprinter liefert. Die Gesichtserkennung basiert auf Farb- und Forminformationen, hauptsachlich Invarianten geometrischer Momente und heuristisch bestimmten Flachenverhaltnissen von verschiedenen Regionen. Mit Hilfe dieser Informationen entscheidet ein Neuronales Netz, ob es sich bei dem betrachteten Bildbereich um ein Gesicht handelt oder nicht. Der Algorithmus detektiert 64% der Gesichter einer realen Fotolaborproduktion, einschliesslich KSpfe mit Barten, Schnauzbarten und Sonnenbrillen, was in Anbetracht der verfiigbaren, niedrigen Auflosung erstaunlich ist. Der grosste Teil der unzahligen Trainingsexperimente mit der grossen Datenbank wurden auf dem MUSIC Parallel-Supercomputer (Multi processor System with Intelligent Communication) ausgeftihrt. Dieses System wurde am Institute fur Elektronik der EidgenQssischen Technischen Hochschule entwickelt. Der Autor war Teil des Teams, das die Software zur Simulation von Neuronalen Netzwerken entwickelte. Der Parallelcomputer ist ca. 100 mal schneller als eine Sun Sparc-10 Workstation. Ohne den Einsatz des Parallelrechners hatten die hier prasentierten Resultate nicht erzielt werden konnen.