Julius-Maximilians-Universität Würzburg Institut für Informatik Lehrstuhl für Künstliche Intelligenz und Angewandte Informatik.

Transkript

1 Julius-Maximilians-Universität Würzburg Institut für Informatik Lehrstuhl für Künstliche Intelligenz und Angewandte Informatik Bachelorarbeit im Studiengang Informatik zur Erlangung des akademischen Grades Bachelor of Science Recherche, Anwendung und Evaluierung verschiedener Verfahren zur Gesichtswiedererkennung Autor: Alexander Hartelt MatNr Abgabe: 18. Oktober Betreuer: Prof. Dr. Frank Puppe 2. Betreuer: M. Sc. Christian Reul

2 2 Abstract In dieser Bachelorarbeit wurde ein Programm entwickelt, das ein übergebenes Bild einer Person vorverarbeitet und von diesem Merkmale des Gesichtes extrahiert. Diese Merkmale werden verwendet, um eine Klassifikation der Person durchzuführen. Die Merkmalsextraktion wurde mit der Local Binary Pattern Histogramm (LBPH) Implementierung von OpenCV und der Convolutional Neural Netzwerk Implementierung von OpenFace getestet. Bei der Vorverarbeitung wird das übergebene Bild in ein Graustufenbild umgewandelt, das Gesicht aus dem Bild heraus geschnitten und eine Ausrichtung des Gesichts vorgenommen. Zusätzlich besteht die Möglichkeit, den Kontrast der Bilder durch einen Histogramm Ausgleich zu erhöhen. Die Evaluation erfolgte auf mehreren Datensets, von denen eines selbst erstellt wurde. Die Ergebnisse fielen, je nach Datenset sehr unterschiedlich aus. Auf dem eigens erstellten Datenset erreichte das System mit der LBPH-Extraktion eine Erkennungsrate von bis zu 66%. Die Convolutional Neural Netzwerk Implementierung erzielte bei demselben Datenset eine Erkennungsrate von ca. 93,9%. Zusätzlich wurde der Einfluss auf die Erkennungsrate durch die Anzahl der Trainingsdaten evaluiert. Bei einer Erhöhung der Trainingsbilder verbesserte sich bei beiden Systemen stets die Erkennungsrate. Vor allem die Verdopplung der Anzahl der Trainingsbilder von einem auf zwei Bildern erwies sich als sehr effektiv. Des weiteren wird vor der Konzipierung und Evaluation eine Zusammenfassung verschiedener Herangehensweisen zur Gesichtswiedererkennung gegeben. Darunter befindet sich eine Beschreibung der LBPH-, der Eigengesichter-, der Convolutional Neural Network- und der Feature basierten Herangehensweise.

3 Inhaltsverzeichnis 3 Inhaltsverzeichnis Abbildungsverzeichnis 5 Tabellenverzeichnis 6 1 Einleitung 7 2 Grundlagen für die Computer Vision Computer Vision Darstellung von Bildern in der Computer Vision RGB-Modell Grundlage Umwandlung zum Graustufenbild Histogramme Grundlage Histogramm Ausgleich Filter Übersicht zur Gesichtswiedererkennung Typischer Ablauf der Gesichtswiedererkennung Mögliche Herangehensweisen zur Gesichtswiedererkennung Local Binary Pattern Variationen am Radius und Anzahl der Punkte Uniforme Binary Patterns Anpassungen für die Gesichtswiedererkennung Eigengesichter Fishergesichter Feature basierte Herangehensweise Convolutional Neural Networks Convolutional Layer Max-Pooling Layer Fully Connected Layer Training des gefalteten Neuronalen Netzwerk Weitere State of the Art Methoden High Dimensional LBP High Fidelity Pose and Expression Normalization Ergebnisse Probleme bei der Gesichtswiedererkennung Variierende Beleuchtung Pose Verdeckung Konzeption und Verwendete Materialien Konzeption Verwendete Computer Vision Bibliotheken OpenCV Dlib Überblick über weitere Frameworks zur Gesichtswiedererkennung 39

4 Inhaltsverzeichnis Datensets Face Fussball Datenset Deutschland Vorbearbeiten der Bilder zur Verbesserung der Erkennungsraten Gesichtserkennung Augenerkennung anhand Kaskaden Augenerkennung mit Hilfe der Dlib Bibliothek Anpassung der Intensität von Farben Evaluation Durchführung der Evaluation Ergebnisse des Face94-Datenset Ergebnisse des Face95-Datenset Parameter des LBPH Evaluation des Fussball-Datensets Der Einfluss der Anzahl der Trainingsbilder auf die Genauigkeit Evaluation von OpenFace Erwähnenswerte Auffälligkeiten Diskussion und Ausblick Zusammenfassung der Ergebnisse Ausblick Literaturverzeichnis 59 Anhang Einlesen der Trainingsbilder Programm Installation Anwendung CD mit Ausarbeitung und Programmcode 66 Eidesstattliche Erklärung 66

5 Abbildungsverzeichnis 5 Abbildungsverzeichnis 1 Mögliche Darstellung eines Graustufenbildes in der Computer-Vision. 8 2 Darstellung des RGB Farben Spektrums als drei Dimensionaler Würfel [BB09] Umwandlung des RGB Bildes zum Graustufenbild Histogramm eines Graustufenbild Histogramm Ausgleich Funktionsweise eines Filter Nicht Lineare Filter Phasen der Gesichtswiedererkennung LBP-Berechnung Unterschiedliche Radien bei der LBP-Erstellung LBP Histogramm Gewichtung Darstellung von Eigengesichtern Darstellung der genutzten Merkmale Darstellung eines Integralbildes Beispiel eines Convolutional Neural Networks (CNN) Funktionsweise des Pooling Layers Training des CNN LBP Pyramide Ablauf der Hoch dimensionalen LBP Herangehensweise Posen und Ausdruck Normierung Evaluationen des LFW-Datenset Beleuchtungsproblem Posenproblem Ablaufdiagramm des Programms Beispielbilder des Faces94 Datenset Beispielbilder des eigenem Datensets Unbearbeitete Bilder Augenerkennung mit Hilfe von opencv Dlib Landmark Positionen Augenerkennung mit Hilfe von Dlib Resultat des Face Alignments Ergebnis der Histogram Equalization Trainingsbilder des face94-datenset Trainingsbilder des face95-datenset Einfluss auf die Erkennung, durch die Anzahl der Trainingsbilder pro Person Einfluss der Anzahl an Trainingsbildern pro Person auf die Erkennungsrate Falsch Klassifzierungen Auffälligkeiten bei der Evaluation Vergleich eines modellierten Gesichtes mit einer Aufnahme

6 Tabellenverzeichnis 6 Tabellenverzeichnis 1 Gefundenen FaceRecogntion Projekte/Frameworks Evaluation des LBPH Einfluss der Anzahl an Trainingsbildern pro Person auf die Erkennungsrate 53 4 Gegenüberstellung von OpenFace und OpenCV Einfluss der Anzahl an Vergleichsbilder auf die Erkennungsrate

7 1 Einleitung 7 1 Einleitung Das Automatische Wiedererkennen von Personen anhand biometrischer Daten mit Hilfe eines Computers hat in den letzten Jahren zunehmend an Bedeutung gewonnen. In der Kriminalistik werden heutzutage Fingerabdrücke genutzt um anhand dieser eine Person zu identifizieren. Jedoch hat die Identifizierung durch Fingerabdrücke den Nachteil, dass eine Interaktion mit der zu identifizierenden Person nötig ist. Diese ist bei der Wiedererkennung einer Person durch das Gesicht nicht nötig. Stattdessen werden mit Hilfe von Kameras Bilder aufgenommen, anhand deren eine Identifizierung erfolgen kann. Dadurch ist die Gesichtswiedererkennung besonders bei Themen wie der Terrorismusprävention heutzutage nicht mehr weg zu denken. Besonders der Einsatz solcher Systeme im Bereich der öffentlichen Verkehrsmitteln, z. B. an Flughäfen, Bahnhöfen oder in Zügen, ist derzeit ein heiß diskutiertes Thema. Ziel dieser Arbeit ist es dem Leser einen Überblick über die Gesichtswiedererkennung zu geben. Dazu werden sowohl Problematiken, als auch der Stand der Technik aufgezeigt. Im zweiten Teil der Arbeit soll ein Gesichtswiedererkennungs-Programm implementiert werden. Für die Evaluation wird ein eigenes aus Fußballspielern bestehendes Datenset erstellt. Evaluiert wird die Local Binary Pattern Histogramm Implementierung von OpenCV und die Neuronale Netz Implementierung von OpenFace. Zu erwähnen ist hier, dass OpenFace bereits eine Vorverarbeitung der Bilder implementiert hat. Die OpenCV Implementierung umfasst keine Vorverarbeitung und musste dahingehend zuerst erweitert werden. Die Arbeit ist in acht Kapitel aufgeteilt und ist wie folgend strukturiert: In Kapitel 2 werden Grundlagen der Computer Vision, die für den Verlauf der Arbeit wichtig sind, aufgezeigt. Anschließend wird im Kapitel 3 ein Überblick über den grundsätzlichen Ablauf der Gesichtswiedererkennung gegeben. Des Weiteren werden Herangehensweisen zur Gesichtswiedererkennung, die teilweise in OpenCV implementiert sind oder zum State of the Art gehören, aufgezeigt. In Kapitel 4 werden genutzte Materialien, wie Bibliotheken oder Datensets beschrieben. Zusätzlich wird eine kurze Übersicht zum Konzept des implementierten Programms gegeben. Im 5 Kapitel wird die Herangehensweise, die Probleme und die Erfolge der implementierten Vorverarbeitung aufgezeigt. Die Ergebnisse zur Evaluation des Implementierten Programms und OpenFace finden sich in Kapitel 6 wieder. Die Arbeit wird mit einer Diskussion und einem Ausblick über Erweiterungen des Programms, abgeschlossen.

8 2 Grundlagen für die Computer Vision 8 2 Grundlagen für die Computer Vision Ziel dieses Kapitel ist es einen Überblick über wichtige Grundlagen für die Computer Vision und die Gesichtswiedererkennung zu geben. Aus diesem Grund ist dieses wie folgt strukturiert: Zuerst wird der Begriff Computer Vision definiert. Anschließend werden Hintergrundinformationen über das Abspeichern von Bildern in der Computer Vision gegeben. Dabei werden sowohl RGB als auch Graustufenbilder diskutiert, da diese wichtig für die Gesichtswiedererkennung und Vorverarbeitung sind. Zusätzlich wird ein kurzer Überblick über Histogramme gegeben, die ebenfalls relevant für eine Herangehensweise der Gesichtswiedererkennung ist. Auch wird eine Beschreibung der verschiedene Herangehensweisen zur Gesichtserkennung gegeben. 2.1 Computer Vision Die Computer Vision beschreibt den Bereich der Informatik, der sich mit Systemen oder Algorithmen beschäftigt, die dem menschlichen Sehen nachempfunden sind. Dabei wird versucht Bilder auf Computerebene zu verstehen, um automatisiertes Arbeiten zu bewerkstelligen. Computer Vision umfasst dabei Bereiche wie Objektdetektion, Zeichenerkennung und Lageerkennung. 2.2 Darstellung von Bildern in der Computer Vision Um automatisiertes Arbeiten mit Bildern zu bewerkstelligen, müssen Bilder für den Computer so dargestellt werden, dass diese für ihn verständlich sind. In der Computer Vision werden Bilder häufig als Matrizen dargestellt. Jeder Eintrag in dieser Matrix repräsentiert dabei ein Pixel im Bild. Ein Graustufenbild mit Breite x und Höhe y hat somit xy viele Einträge. Beispielsweise hat die Repräsentation eines Graustufenbild mit Pixelhöhe 80 und Pixelbreite 80 bereits 6400 Einträge. P 1, P 1,x P y, P y,x Abbildung 1: Mögliche Darstellung eines Graustufenbildes in der Computer-Vision Anders als im geometrischen Koordinatensystem, ist der Nullpunkt in der Bildverarbeitung im oberen linken Eck angesiedelt (siehe 1). Ausgehend davon nimmt der x-wert nach rechts zu und der y-wert wird nach unten hin größer. Die Repräsentation von RGB-Bildern in der Computer Vision basiert auf dem gleichen

9 2 Grundlagen für die Computer Vision 9 Ansatz. Da bei den RGB-Bildern jedoch drei Kanäle für die Farben Rot, Grün und Blau existieren, ist diese leicht erweitert worden. Diese Erweiterung für RGB-Bilder ist auf zwei Wegen möglich: Eine der Varianten besteht darin, statt in jedem Eintrag der Matrix nur einen Wert zu speichern, gleich drei Werte abzulegen. Statt nur den Grauwert in einem Eintrag zu speichern, wird in einem Eintrag der Rotwert, Grünwert und Blauwert gesichert. Die andere Möglichkeit besteht darin, für jeden Kanal des RGB eine eigene Repräsentation (Matrix) zu erstellen. 2.3 RGB-Modell Im Folgendem Abschnitt wird eine Übersicht über das RGB-Modell und dessen Umwandlung zum Graustufenbild gegeben Grundlage Nach der Dreifarbentheorie lässt sich jede Farbe durch das Mischen der Primärfarben erhalten. Das RGB-Modell basiert auf dieser Methode und nutzt die Farben Rot, Grün und Blau, um andere Farben auszudrücken. Der Farbanteil der Farben kann je nach Größe des Speicherplatzes, den sie beziehen unterschiedliche Werte einnehmen. In der Regel wird jedem Farbanteil ein Byte (8 Bit) zugewiesen, wodurch Werte zwischen 0 und 255 möglich sind (2 8 ). Insgesamt existieren in der 1 Byte Darstellung ausreichend Farben (ca. 16 Millionen), um alle wichtigen Informationen zu repräsentieren. Da das RGB Modell Farben addiert, um andere Farben zu erhalten (additive Farbmischung) startet jede Farbe mit der schwarzen Farbe. Erst mit dem Addieren einer Primärfarbe entstehen andere Farben [BB09].

10 2 Grundlagen für die Computer Vision 10 Abbildung 2: Darstellung des RGB Farben Spektrums als drei Dimensionaler Würfel [BB09] Umwandlung zum Graustufenbild Für die Gesichtswiedererkennung spielen Graustufenbilder eine wichtige Rolle, da mit diesen schneller und einfacher zu arbeiten ist. Bilder von Gesichtern liegen oftmals in der Farbversion vor, weswegen diese erst in ein Graustufenbild umgewandelt werden müssen. Das RGB-Bild hat mit Rot, Grün und Blau drei Kanäle zu Verfügung, um Farben zu generieren. Das Graustufenbild besitzt dagegen nur einen Kanal, dementsprechend kann ein Pixel des Graustufenbildes nur einen Grauwert annehmen. Je höher der Wert des Grauwertes desto heller erscheint der Pixel. Einer der einfachsten Algorithmen für das Umwandeln eines RGB-Bildes in ein Graustufenbild ist wahrscheinlich das Bilden des Durchschnittes über alle drei Kanäle. Grauwert = 1 3 R G B (1) Dadurch, dass das menschliche Auge Farben unterschiedlich stark wahrnimmt, wird häufig bei der Umwandlung des Bildes in der Computer Vision versucht dies zu berücksichtigen. Aus diesem Grund werden die einzelnen Farbkanäle unterschiedlich stark gewichtet. Die Farben Grün und Rot werden heller wahrgenommen als die blaue Farbe [BB09]. Daraus ergibt sich zur Umwandlung folgende Gleichung: Grauwert = R G B (2)

11 2 Grundlagen für die Computer Vision 11 (a) RGB-Bild (b) Graustufenbild Abbildung 3: Umwandlung des RGB Bildes zum Graustufenbild 2.4 Histogramme Im Folgendem Abschnitt wird eine Übersicht über Histogramme gegeben Grundlage Das Histogramm eines Bildes beschreibt das statistische Aufkommen bestimmter Farben. Bei einem 1 Byte großen Graustufenbild würde beispielsweise das Auftreten der 256 Farben gezählt, indem die Farbe jedes Pixels betrachtet wird. Die Ausgabe einer Histogramm Erstellung ist ein Vektor. Oftmals wird dieser Vektor als Balkendiagramm visualisiert, dessen X-Achse die Intensität der verschiedenen Pixel angibt und dessen Y-Achse die Anzahl der Pixel mit genau dieser Intensität darstellt. Das Histogramm ist so dargestellt, dass von links nach rechts die Intensität heller wird. In dem einfachen Fall eines 8-Bit Graustufenbildes würde das Histogramm beispielsweise das Aufkommen der 256 Graustufen festhalten. Dabei sind im linken Teil des Histogramms die dunklen Pixel des Bildes angesiedelt, die nach rechts hin immer heller werden. Jeder Balken im Histogramm ist dabei definiert als, h(i) = die Anzahl der Pixel in einem Bild mit der Intensität i [BB09]. (3) Die Verteilung der Pixel lässt sich aus dem Histogramm somit leicht ablesen. Da das Histogramm das statistische Aufkommen bestimmt, gehen globale, räumliche Informationen des Bildes verloren. Dementsprechend lässt sich aus einem Histogramm nicht mehr das ursprüngliche Bild rekonstruieren. Oftmals ist es auch nützlich zu wissen wie weit das Aufkommen der Farbwerte der Pixel von einer Gleichverteilung entfernt ist. Um dies ebenfalls leicht abzulesen, wird ein kumulatives Histogramm erstellt, indem jedem Grauwert die Summe aller Aufkommen bis zu diesem Grauwert zugerechnet wird. H(g) = h(i) (4)

12 2 Grundlagen für die Computer Vision 12 (a) Graustufenbild (b) Histogramm Abbildung 4: Histogramm eines Graustufenbild Bei einer Gleichverteilung aller Grauwerte wäre die Darstellung des kumulativen Histogramms eine monoton steigende Gerade. Diese beiden Histogramme und die Informationen, die mit dem Bild extrahiert werden, können genutzt werden, um das Bild besser zu verstehen und eventuell nötige Anpassungen vorzunehmen. Beispielsweise lässt sich damit herausfinden, ob Bilder überoder unterbelichtet sind. Zusätzlich zur Helligkeit gibt ein Histogramm Auskunft über den Kontrast und die Intensitätsverteilung der Pixel in einem Bild. Dies ist unter anderem in der Gesichtswiedererkennung sinnvoll, um Unregelmäßigkeiten gegebenenfalls zu normieren Histogramm Ausgleich Der Histogramm Ausgleich wird genutzt, um den Kontrast von Bilder zu verbessern. Oftmals ist es notwendig Bilder soweit anzupassen, dass ihre Intensitätsverteilung ähnlich ist, um diese besser vergleichen und vereinheitlichen zu können [BB09]. Dies findet vor allem Verwendung bei über- oder unterbelichteten Bildern. Ziel des Histogramm Ausgleichs ist es das Bild so anzupassen, dass das Histogramm dieses angepassten Bildes eine Gleichverteilung aufweisen würde. Dies wird bewerkstelligt, indem eine Punktoperation auf jeden Pixelwert angewendet wird. Der Punktoperat wird aus dem Kumulativen Histogramm generiert. Dieser ist wie folgt für jeden Pixelwert definiert:

13 2 Grundlagen für die Computer Vision 13 f eq (a) = H(a) K 1 MN M und N stehen dabei für die Maße des Bildes. Der Parameter K gibt die Anzahl der unterschiedlichen Pixelwerten an, die in dem Bild auftauchen. Wie in Abbildung 5 zu sehen ist, versucht die Histogramm Equalization das Bild soweit zu ändern, dass das kumulative Histogramm eine monoton steigende Gerade aufweist. (5) Abbildung 5: Oben: Histogramm eines Bildes (links), Histogramm eines Bildes nach der Histogramm Equalization (rechts) Unten: Kumulative Histogramm eines Bildes (links), Kumulative Histogramm nach der Histogramm Equalization (rechts)[bb09] 2.5 Filter Ein Filter wird häufig genutzt, um Bilder für einen Anwendungsfall zu verbessern. Mit einem Filter ist es beispielsweise möglich bestimmte Feature wie die Kanten eines Bildes herauszuarbeiten, oder störende Anteile eines Bildes zu reduzieren. Dies funktioniert auf ähnlicher Weise wie eine Punktoperation, nur dass statt eines Punktes oder Pixels ein kleiner Bereich im Bild genommen wird, um den Wert des neuen Pixels zu berechnen. Die Größe des Bereiches der benutzt wird, ist dabei vom verwendeten Filter abhängig [BB09]. Häufig wird zwischen linearen und nichtlinearen Filtern unterschieden. Ein nicht linearer Filter wäre beispielsweise der sogenannte Minimums-Filter, der das

14 2 Grundlagen für die Computer Vision 14 Pixel durch das dunkelste Nachbarpixel ersetzt. Abbildung 6 stellt die Funktionsweise eines Filters auf das Bild I mit dessen Ausgabebild I schematisch dar. Abbildung 6: Funktionsweise eines Filters Die Filtermatrix H ist der Operator, der auf das Bild angewendet wird. Die Filtermatrix besitzt einen sogenannten Filterkern (Rot eingezeichnet), der schrittweise über jedes Pixel im Bild gezogen wird. Der neue Wert des Pixel I (u,v) wird berechnet, wenn der Filterkern über dem Pixel I(u,v) liegt. Dies geschieht, indem jeder Filterkoeffizient H(i,j) mit dem korrespondierten Bild Element I(u+i,v+i) multipliziert wird und die Ergebnisse addiert werden. Das daraus resultierende Ergebnis ist der neue Wert für das neue Bild I [BB09]. Abbildung 7: Anwendung von Filtern

15 2 Grundlagen für die Computer Vision 15 In Abbildung 7 wird die Anwendung von zwei Filtern gezeigt. Das Weichzeichnen wird erzeugt, indem eine Filtermatrix verwendet wird, die die umliegenden Nachbarpixel verwendet, um den Durchschnitt zu berechnen. Entgegengesetzt dazu wird beim Laplace-Kantenfilter der Unterschied zwischen den Pixel und dessen Nachbarn dazu genutzt, um Kanten im Bild zu berechnen.

16 3 Übersicht zur Gesichtswiedererkennung 16 3 Übersicht zur Gesichtswiedererkennung Diese Kapitel gibt zuerst einen grundsätzlichen Überblick zum Ablauf der Gesichtswiedererkennung. Nachfolgend werden zusätzlich die bekanntesten Methoden zur Gesichtswiedererkennung genauer erläutert. 3.1 Typischer Ablauf der Gesichtswiedererkennung Die Gesichtswiedererkennung setzt sich aus mehreren Bereichen zusammen. Abbildung 8 zeigt beispielsweise einen möglichen Ablauf der Gesichtswiedererkennung. Dieser kann in die Phasen Gesichtserkennung, eventuell benötigtes Vorbearbeiten der Daten, Extrahieren der Gesichtsmerkmale und anschließendes Wiedererkennen des Gesichtes unterteilt werden. Teilweise kann auf die Phasen Gesichtserkennung und Vorbearbeitung der Daten verzichtet werden, falls die Testbilder und Trainingsbilder bereits vorbearbeitet vorliegen. Der folgende Abschnitt gibt einen kurzen Überblick über die einzelnen Phasen der Gesichtswiedererkennung: Gesichtserkennung: Obwohl die Face Detection ein eigenes Gebiet der Computer Vision ist, ist dieses eng mit der Gesichtswiedererkennung verknüpft. Dies hat mehrere Gründe: Liegen beispielsweise die Bilder der Gesichter unvorbereitet vor, so muss erst das Gesicht in diesem Bild gefunden und herausgeschnitten werden. Dies ist vor allem sinnvoll, wenn mehrere Gesichter in einem Bild vorkommen. Bei den meisten Methoden zur Wiedererkennung wird davon ausgegangen, dass bereits nur ein Gesicht auf dem übergebenen Bild zu sehen ist. Preprocessing: Eng verbunden mit der Gesichtswiedererkennung ist das Vorbearbeiten der Bilder, da die Gesichtserkennung genutzt werden kann, um sich auf den Bereich des Bildes mit dem Gesichtes zu konzentrieren und weitere unwichtige Informationen auf dem Bild zu verdecken. Zusätzlich wird in dieser Phase versucht die einzelnen Bilder untereinander zu normieren. Die Idee dahinter ist, dass die Gesichter insgesamt ähnlich bis gleich aufgebaut sind und somit Unregelmäßigkeiten wie Verschiebungen oder Rotation beseitigt werden. Neben besseren Ergebnissen bei der Gesichtswiedererkennung führt dies zu einer besseren Performance, wodurch in späteren Phasen weniger Rechenleistung für die Wiedererkennung nötig ist. Feature Extraction: Diese Phase entzieht dem Bild die wichtigsten Informationen um damit später Gesichter untereinander vergleichen zu können. Wie und welche Informationen herausgezogen werden hängt von der Herangehensweise des verwendeten Algorithmus ab.

17 3 Übersicht zur Gesichtswiedererkennung 17 Face Recognition: Das eigentliche Wiedererkennen der Gesichter wird in der Literatur häufig einer eigenen Phase zugeschrieben. Hier werden die Merkmale, bzw. Informationen, die aus den Gesichtern herausgelesen wurden dazu genutzt, um diese mit dem wiederzuerkennenden Gesicht zu vergleichen und bei einem Treffer die ID der Wiedererkannten Person auszugeben. Abbildung 8: Phasen der Gesichtswiedererkennung 3.2 Mögliche Herangehensweisen zur Gesichtswiedererkennung Das Gebiet der Gesichtserkennung ist sehr beliebt. Jährlich entstehen hunderte neue Arbeiten über diesen Bereich. Dementsprechend gibt es eine große Anzahl von verschiedenen Herangehensweisen, die sich dem Problem der Wiedererkennung von Gesichtern widmen. Diese Herangehensweisen unterscheiden sich teils stark von anderen, teils sind diese aber nur kleine Anpassungen von bereits existierenden Algorithmen. Trotz dieser großen Anzahl lassen sich diese Methoden in drei Unterkategorien einteilen: Die Geometrische Feature basierte Herangehensweise nutzt lokale Merkmale, wie Augen, Nasen, Mund Position und Beziehungen wie Auge zu Auge Distanz um Gesichter wieder zu erkennen. Die Holistische Herangehensweise nutzt anstelle von lokalen Merkmalen im Gesicht das komplette Gesicht oder auch Bild zur Gesichtswiederkennung. Diese Art der Wiedererkennung nutzen oft die Diskriminanzanalyse oder Hauptkomponentenanalyse um die Feature Vektoren zu reduzieren. Hierunter zählen Methoden wie Fisherfaces oder Eigenfaces.

18 3 Übersicht zur Gesichtswiedererkennung 18 Die Hybride Herangehensweise wird genutzt, falls Methoden sich weder in die Geometrische Feature basierte, beziehungsweise in die Holistische Herangehensweise eingliedern lassen. Solche Methoden basieren oft auf Teilen beider Methoden um Gesichter wiederzuerkennen. Nachfolgend werden verschiedene Methoden zur Merkmalsextraktion vorgestellt. 3.3 Local Binary Pattern Local Binary Pattern (LBP) ist ein sehr beliebtes Thema in der Computer Vision, da diese schnell und einfach zu verstehen sind. Ursprünglich wurden LBP zur Klassifizierung von Texturen genutzt. Inzwischen lassen sich durch Anpassungen diese auch zum Wiedererkennen von Gesichtern nutzen. Die Grundidee von LBP ist es die lokale Struktur festzuhalten, indem jedem Pixel ein Wert zugeordnet wird, der durch einen Vergleich der Intensität mit jedem Nachbar Pixel erstellt wird. Ist die Intensität des zu vergleichenden Pixel höher so wird eine 1 geschrieben, andernfalls eine 0. Das Ergebnis ist eine Binärsumme, die durch Ablesen der erstellten Werte in eine Richtung entsteht. Aus den so entstehenden Binärsummen wird ein Histogramm erstellt, das genutzt werden kann um Texturen zu erkennen. Das Histogramm selbst hat dabei 256 (2 8 ) verschiedene Einträge, da jedes Pixel acht Nachbarn hat und diese jeweils zwei Werte (0 oder 1) annehmen können. Durch dieses Vorgehen haben die Local Binary Patterns den Vorteil, robuster gegen Lichteinstrahlung und Pose zu sein [Pie]. Abbildung 9: Beispielberechnung des Lokal Binary Pattern für ein Pixel [AHP06] Variationen am Radius und Anzahl der Punkte Um auch einen Deskriptor für Texturen unterschiedliche Größe zu erstellen, wurde der LBP Pattern dahingehend erweitert, dass auch unterschiedlich große Nachbarschaften genutzt werden können [AHP06]. Die Nachbarschaft eines Pixel ist dabei eine Auswahl von Punkten, die sich mit einem bestimmten Radius um das Pixel befinden. Die Schreibweise ist definiert als : (P,R) bei der P die Anzahl der Punkte auf dem Kreis ist und R der Radius ist. (6)

19 3 Übersicht zur Gesichtswiedererkennung 19 Falls sich die Punkte des Kreises nicht auf dem Zentrum eines Pixels befinden, wird eine bilineare Interpolation benötigt um sich den nächsten Zentren anzunähern. Wie in 10 zu sehen ist, ist (8,1) ein Kreis mit Radius von 1, auf welchem 8 Punkte markiert sind. Abbildung 10: Nachbarkeitbeispiele der Größe (8,1), (16,2) und (8,2)[AHP06] Uniforme Binary Patterns Um die Größe des Histogramm Vektors zu reduzieren wurden sogenannte Uniforme Local Binary Pattern eingeführt [OPM02]. Uniform Binary Pattern haben höchstens zwei Bitübergänge im Patter. Dementsprechend wäre , und beispielsweise Uniform. Pattern mit vier Übergänge wie oder mit sechs wären nicht mehr uniform. Der Unterschied befindet sich jedoch in der Erstellung des Histogramms aus den Binary Patterns. Während jeder unterschiedlicher Uniforme Pattern einen Eintrag im Histogramm bekommt, werden alle nicht uniformen Pattern dem gleichen Eintrag zugeordnet [AHP06]. Das Histogramm eines 1 Byte großen Graustufenbildes kann 256 Einträge (bins) aufweisen, mit Hilfe der uniformen Pattern können die Einträge des Histogramms jedoch auf 59 (58 uniforme Pattern + 1 Pattern für alle nicht uniforme) reduziert werden. Dies hat viel kleinere Vektoren zur folge, mit denen einfacher zu Arbeiten ist. Die meisten vorkommenden Pattern in einen Graustufenbild sind laut Matti Pietikäinen [AHP06] Uniform. So besteht ein 1 Byte großes Graustufenbild zu 90,6% aus uniformen Pattern (8,1). Mit der Größe des Radius des Kreises nimmt dies aber ab, bei (16,2) sind nur noch 70% aller Pattern uniform Anpassungen für die Gesichtswiedererkennung Das Problem der Local Binary Pattern für die Gesichtserkennung ist hierbei, dass die globalen Informationen des Gesichtes, wie der Aufbau eines Gesichtes, durch die Nutzung des Histogramms verloren gehen. Aus diesem Grund wird das Bild in viele kleinere Segmente geteilt. Für jedes dieser kleineren Bildsegmente wird das Histogramm nach

20 3 Übersicht zur Gesichtswiedererkennung 20 obigem Schema berechnet. Aus den daraus resultierenden Histogrammen wird ein Deskriptor für das gesamte Bild erstellt, in dem die einzelnen Histogramme miteinander konkateniert werden. Der somit entstandene Deskriptor basiert somit auf drei verschiedenen Level der Lokalität[AHP06] Das erste Level ist das Vergleichen der einzelnen Pixel miteinander. Auf dem zweiten Level werden die Binärsummen genutzt, um das Histogramm eines kleinen Bereiches zu erstellen. Letztendlich wird durch das konkatenieren dieser "lokalen" Histogramme ein globaler Deskriptor erstellt, der die Informationen des gesamten Bildes nutzt und der dazu genutzt werden kann, um Gesichter wieder zu erkennen. Zusätzlich werden die einzelnen Segmente des Bildes unterschiedlich stark gewertet. So ist vor allem der Augenbereich für die Gesichtserkennung aussagekräftig, aber Bereichen wie Mund und Schläfen kommen ebenso mehr Bedeutung zu. Abbildung 11: LBP Histogramm Gewichtung [AHP06]

21 3 Übersicht zur Gesichtswiedererkennung Eigengesichter Die Eigengesichter gehört dem holistischen Methodenbereich zur Gesichtswiedererkennung an, die zudem auf der Hauptkomponentenanalyse basieren. Die Hauptkomponentenanalyse erstellt Hauptkomponenten (Linearkombinationen), um mit Hilfe dieser große Matrizen vereinfacht darzustellen. Auf diesem Grundgedanke baut die Eigengesichter Herangehensweise auf. Die Matrixrepräsentation (siehe 2.2) der Gesichtsbilder werden in Vektoren umgebaut, damit diese Punkte im Raum repräsentieren. Dies geschieht, indem die Zeilen der Matrix der Reihe nach hinten angehängt werden. Die Matrix aus Kapitel 2.2 könnte dann in etwa so aussehen: vector = (p 1,1,.,.,., p 1,x,..., p y,1,.,.,., p y,x ) (7) Die Vektoren der Gesichter bilden einen sogenannten Gesichtsraum. Die Idee ist, durch das Messen der Distanz in dem Gesichtsraum, die Ähnlichkeit verschiedener Gesichter zu ermitteln. Liegt die Distanz in einem bestimmten Bereich so gilt das Gesicht als erkannt. Zusätzlich lässt sich anhand der Distanz erkennen, ob es sich bei dem Bild um ein Gesicht handelt, indem ermittelt wird, ob das zu erkennende Gesicht im Bereich des Gesichtsraumes liegt. Jedoch ist dieser Gesichtsraum selbst bei sehr kleinen Bildern sehr groß. Wird beispielsweise ein übliches Graustufenbild mit Länge und Breite 100 betrachtet, so besitzt der Vektor dieses Graustufenbildes bereits zehntausend Dimensionen. Mit Vektoren dieser Dimension Operationen auszuführen ist natürlich sehr rechenintensiv und führt zu zusätzlichen Problemen bei der Gesichtsidentifizierung. Aus diesem Grund werden diese Daten in einen kleiner dimensionierten Raum mit Hilfe der Hauptkomponentenanalyse versucht zu projizieren. Das Verfahren selbst wurde von Matthew Turk und Alex Pentland entwickelt [TP91] und gliedert sich in folgende Schritte: Schritt 1: Aufgrund der Hauptkomponentenanalyse müssen die einzelnen Bilder normiert werden. Aus diesem Grund wird bei der Eigengesichts Herangehensweise ein Durchschnittsbild aus allen Gesichtern konstruiert, indem alle Gesichter addiert und durch deren Anzahl geteilt werden. µ = 1 n x i (8) n i=1,wobei n die Gesamtanzahl aller Gesichter und x ein Gesicht aus dem Trainingsset ist.

22 3 Übersicht zur Gesichtswiedererkennung 22 Schritt 2: Das ermittelte Durchschnittsbild wird von jedem Bild abgezogen um die normierten Gesichter zu bekommen. φ i = x i µ (9) Schritt 3: Der nächste Schritt ist das Bauen der Kovarianz Matrix aus den normalisierten Gesichtern nach dem Schema: C = 1 n φ i φ T i = AA T (10) n i=1 Schritt 4: Aus der Kovarianz Matrix werden die Eigenwerte und Eigenvektoren berechnet. Der Vektor v ist dabei ein Eigenvektor der Matrix C, wenn dieser durch Multiplikation mit C auf ein vielfaches von v abgebildet wird. Daraus ergibt sich folgender Formel, bei der v der Eigenvektor und λ der Eigenwert ist. Cv = λv (11) Schritt 5: Nachdem die Eigenwerte berechnet wurden, werden die Eigenvektoren absteigend nach ihrem Eigenwert sortiert. Dabei bildet jeder Eigenvektor v i eine Spalte der Matrix V, der Eigenraum genannt wird.[ws00] V = (v 1, v 2..., v n ) (12) Gesichtserkennung bei der Eigengesichtsmethode Mit dem Eigenraum, der in Gleichung 12 erstellt wurde, ist es möglich die Gesichtswiedererkennung durchzuführen. Bevor das wiederzuerkennende Gesicht wiedererkannt werden kann, müssen alle Trainingsbilder in den Gesichtsraum projiziert werden. Dies wird bewerkstelligt, indem das Skalarprodukt vom Gesichtsraum mit jeden normalisierten Bild berechnet wird. Die daraus resultierenden Vektoren sind die Eigengesichter - daher auch der Name dieser Herangehensweise. Jedes Trainingsbild lässt sich aus Addition der verschiedenen Eigengesichter rekonstruieren. Dabei werden die Eigengesichter für jedes Gesicht jedoch unterschiedlich stark gewichtet. Abbildung 12 zeigt die ersten zehn Eigengesichter, die beim Training eines Datensets erstellt worden. Die Gesichter können dabei als globale Varianz über alle Gesichter wahrgenommen werden [ZT]. Durch die Sortierung der Eigenwerte stellen die vordersten Eigengesichter die größte Varianz dar. Die letzten Eigengesichter, die im Normalfall die geringsten Varianz aufweisen, sind bei größeren Datensets oftmals nur noch verrauschte Bilder.

23 3 Übersicht zur Gesichtswiedererkennung 23 Um das zu klassifizierende Bild zu erkennen wird dieses ebenfalls in den Gesichtsraum projiziert. Davor muss dieses jedoch erst ebenfalls nach Schema 8 vereinheitlicht werden. Ist dies geschehen muss lediglich der nächste Vektor im Gesichtsraum gefunden werden um das Testbild zu klassifizieren. Da über die Distanz der Vektoren die Ähnlichkeit der Gesichter zueinander bestimmt werden kann, kommt als Klassifikator die Euklidische Distanz zum Einsatz. Diese sucht lediglich den nächsten Vektor im Unterraum um das Gesicht zu klassifizieren. Abbildung 12: Darstellung von Eigengesichter des faces94 Datensets 3.5 Fishergesichter Das Fishergesichtsverfahren ist genauso wie die Eigengesichtsherangehensweise eine holistische Methode zur Gesichtswiedererkennung. Beide Verfahren sind dabei ähnlich aufgebaut. Das Problem bei der Eigengesichtsmethode ist, dass bei Klassifizierung eines Gesichtes, das sich in Mimik und Beleuchtung von den trainierten Gesichtern unterscheidet, es zu einer falschen Klassifizierung kommen kann. Dies liegt daran, dass die Variation in Mimik und Beleuchtung zu einer höheren Varianz, als der Unterschied zu einem Gesicht einer anderen Person führen kann. Um dies zu vermeiden werden bei dem Fishergesichtsverfahren die Gesichter in Klassen aufgeteilt. Genauso wie bei dem Eigengesichtsverfahren werden die einzelnen Bilder in einen Unterraum projiziert. Bei der Fishergesichtsmethode wird versucht die Varianz der Bilder von ähnlichen Personen (Klassen) zu minimieren und zugleich die Varianz der Bilder unterschiedlicher Personen zu maximieren. Gesichter einer Person werden dadurch im projizierten Unterraum unabhängig von deren Unterschiede (bsp. durch Zeit, Licht hervorgerufen) nah beieinander liegen, währenddessen die Gesichter anderer Personen weiter davon entfernt sein werden. Insgesamt ist das Fishergesichter Verfahren dem Eigengesichtsverfahren ähnlich aufgebaut und gliedert sich in folgende Schritte:

24 3 Übersicht zur Gesichtswiedererkennung 24 Schritt 1: Ähnlich wie bei dem PCA basierten Verfahren wird auch hier ein Durchschnittsgesicht aller Gesichter erstellt. µ = 1 n x i (13) n i=1 Da die einzelnen Gesichter einer Klasse angehören, wird zusätzlich ein Durchschnittsgesicht jeder Klasse (Person) erstellt. µ k = 1 n k x i,k (14) n k i=1 bei der n k die Anzahl aller Gesichter in einer Klasse, und x i,k ein Gesicht der Klasse k aus dem Trainingsset ist. Schritt 2: Darauffolgend wird sowohl die Zerstreuungsmatriz für die Zerstreuung der Bilder in jeder Klasse berechnet C n i S w = (x ji m j )(x ji m j ) T (15) i=1 j=1 als auch die Zerstreuung zwischen den einzelnen Klassen, C S b = n i (m i m)(m i m) T (16) i=1 bei der n i die Anzahl der Bilder in der Klasse i, m das Durchschnittsgesicht aller Gesichter, und m j das Durchschnittsgesicht einer Klasse (Person) ist. Schritt 3: Der Fisher Algorithmus versucht nun eine Projektion W zu finden, der die Klassen bestmöglich trennt [Faca] W opt = argmax w W T S B W W T S W W (17) Schritt 4: Die Berechnung von W erfolgt auf dem selben Weg wie bei dem Eigengesichtsverfahren, indem das generelle Eigenproblem gelöst wird, [Faca] S B v i = λ i S w v i w (18) bei der v ein Eigenvektor und λ der dazugehörige Eigenwert ist. Die Klassifizierung selbst erfolgt analog zur Eigengesichtsmethode.

25 3 Übersicht zur Gesichtswiedererkennung Feature basierte Herangehensweise Einer der ersten Versuche automatisch Gesichter zu klassifizieren lag darin, Positionen wichtiger Gesichtsparteien wie Augen und Mund zu extrahieren um damit einen Vektor zu konstruieren, der ein Gesicht beschreibt. Der Vektor wurde dabei aus 16 sogenannter Features konstruiert. Die erfolgreiche Klassifikation lag bei einem 20 Bilder Datenset bei 75%.[BP92]. Jedoch nahm die erfolgreiche Klassifizierung recht schnell bei der Hinzunahme weitere neuen Personen ab. Später veröffentlichte R. Brunnelli eine erweiterte Form dieser Herangehensweise. Der Unterschied ist hierbei, dass der Vektor zur Klassifizierung eines Gesichtes aus Punkten besteht, [BP92] die viele Informationen des Gesichtes festhalten, robust gegen Licht und Stimmung der Person sind und bei denen die Bestimmung der Punkte möglichst einfach ist. Abbildung 13 zeigt ein Beispielgesicht mit Markierungen solcher verwendeter Features. Abbildung 13: Verwendete Merkmale im Gesicht zur Vektorerstellung[BP92] Insgesamt wurden 22 Features zur Vektorerstellung genutzt. Darunter befinden sich [BP92] die Position von Nase, Mund und Augen, die Dicke der Augenbrauen über der Pupille des Auges,

26 3 Übersicht zur Gesichtswiedererkennung 26 die Gesamtbreite des Gesichtes und Informationen zur Breite und Höhe von wichtigen Merkmalen, sowie eine Beschreibung der Form des Kinns durch mehrere Radien. Sehr wichtig bei dieser Herangehensweise ist die Pose und Perspektive der Gesichter. Dies liegt unter anderem daran, dass beispielsweise Informationen wie die Höhe der Augenbrauen zur Klassifizierung genutzt werden. Ist das trainierte Gesicht beispielsweise mehr rotiert als das zu klassifizierende Gesicht würde keine erfolgreiche Klassifizierung mehr stattfinden. Aus diesem Grund müssen die Gesichter vorher normiert werden, damit sie unabhängig von Rotation, Skalierung und Position sind. Die wichtigsten Schritte umfassen dabei[bp92]: Das Finden der Augenpositionen und Winkels, um mit Hilfe dieser die Skalierung anzupassen, indem die Distanz zwischen den Augen gefunden wird und das Gesicht nach einem Referenz Template skaliert wird. Zusätzlich wird die Helligkeit des Bildes angepasst, indem jeder Pixel durch die durchschnittliche Pixelintensität der Nachbarschaft geteilt wird, um Helligkeitsschwankungen auszugleichen. Um das Finden der Gesichtsmerkmale und Kanten zu vereinfachen, wird ein Integralbild erstellt. Aber anstatt das Integralbild als Ganzes zu nutzten, wird es in zwei Bereiche gegliedert. Zum einen in die Vertikale Integral Projektion und die Horizontale Projektion y 2 V (x) = I(x, y) (19) y=y 1 x 2 H(x) = I(x, y) (20) y=x 1 Diese Aufteilung hat den Vorteil, dass aus der Horizontalen Projektion leichter Informationen wie die Breite des Gesichtes und der Nase abgelesen werden können. Aus der Vertikalen Projizierung können dagegen Informationen, wie Position von bestimmten Merkmalen und Höheninformationen entnommen werden.[bp92]. Die Klassifizierung erfolgte dann über den nächsten Nachbar Klassifizierer. Mit dieser Herangehensweise wurden schon deutlich bessere Ergebnisse erzielt. So besitzt es bei einem 20 Klassen großen Datenset eine Genauigkeit von circa 85%. Jedoch weißt die Herangehensweise auch eine relativ große abnehmende Genauigkeit bei der Hinzunahme neuer Klassen auf. Zusätzlich ist diese sehr empfindlich gegenüber Verdeckungen und zeitlichen Änderungen.

27 3 Übersicht zur Gesichtswiedererkennung 27 Abbildung 14: Darstellung von einem Integralbild eines Gesichtes[BP92] 3.7 Convolutional Neural Networks Convolutional oder auch gefaltete Neuronale Netzwerke (CNN) sind eine Art von Neuronalen Netzen, die vor allem Aufgaben im Bereich der Computer Vision automatisieren sollen. Optische Zeichenerkennung, Gesicht oder Objekt Erkennung, aber auch Identifizierung von Objekten und Personen, sind Bereiche der Computer Vision in denen gefaltete Neuronale Netze bereits erfolgreich zum Einsatz kommen. In diesem Abschnitt wird ein Überblick über gefaltete Neuronale Netze gegeben. Ein gefaltetes Neuronales Netztwerk kann aus vielen Layern bestehen. Die wichtigsten Layer eines CNN können dabei von folgendem Typ sein: Convolutional Layer (Max)-pooling Layer Fully Connected Layer Im folgendem wird über diese Layer ein Überblick gegeben. Abbildung 15 stellt den Möglichen Aufbau eines Convolutional Network dar.

28 3 Übersicht zur Gesichtswiedererkennung 28 Abbildung 15: Beispiel eines Convolutional Neural Networks [CNNa] Convolutional Layer Der Convolutional Layer ist der Kern des gefalteten Netzwerk. Die Hauptaufgabe dieses Layers ist es Merkmale des Bildes zu extrahieren. Dieser Output wird berechnet, indem ein Filter/Kernel (siehe 2.5) über das Bild gelegt wird. Das Filterfenster wird schrittweise über jedes Pixel im Bild gezogen, um den Wert für das Pixel des neuen Bildes zu berechnen. Dieses neue Bild wird Feature Map genannt [CNNb][CNNa]. Zu erwähnen ist jedoch, dass jeder Convolutional Layer mehrere Filter besitzen kann. Der Output des Convolution Layer kann dementsprechend eine unterschiedliche Tiefe aufweisen. Aus der Sicht des neuronalen Netzwerkes ist der Filter die Gewichtung für alle Neuronen im Convolutional Layer. Als Eingabe dienen kleinere quadratischer Bereiche von Pixeln aus dem Bild, die durch ein über das Bild gleitendes Fenster bestimmt werden. Rezeptive Felder: Ein weiterer Grund für das Aufteilen in mehrere kleinerer Bereiche ist die Performance. Da der Rechenaufwand zu hoch wäre, um jedes Neuron mit jedem Pixel auf dem Bild zu verknüpfen werden sogenannte Rezeptive Felder erstellt. Diese Felder sind immer eine bestimmte Breite und Höhe groß. Jedes Neuron ist somit nur noch mit allen Pixeln in einem kleinen Bereich des Bildes verknüpft. Ein Nebeneffekt ist zusätzlich der Erhalt der lokalen Struktur des Bildes Max-Pooling Layer In der Regel ist nach jedem Convolutional Layer ein Pooling Layer geschaltet. Die Aufgabe des Pooling Layer ist es die Größe der Feature Maps, die aus dem Convolutional Layer gewonnen werden zu reduzieren [CNNa]. Dies bewirkt unter anderem auch eine Reduzierung des Rechenaufwands für später folgende Layers. Der Pooling Layer

29 3 Übersicht zur Gesichtswiedererkennung 29 reduziert die Dimension der Feature Maps, indem er kleine Blöcke der Feature Map nimmt und diese zusammenfasst. Abbildung 16 veranschaulicht die Funktionsweise des Max-Pooling Layers. Der obere Abschnitt des Bildes zeigt die Ausgabe des Convolutinal Layers bei dem 64 verschiedene Filter für das Eingabebild benutzt wurden. Nach dem Pooling Schritt verringert sich die Größe jeder Feature Maps von 224 x 224 auf 112 x 112. Bei Max Pooling mit Filtergröße 2 x 2 wird in dem Filterbereich der größte vorkommende Wert als neuer Wert für die Reduzierte Feature Map gewählt (siehe Abb. 16). Zudem wird durch das Wählen des stets größten Wertes die Robustheit gegen die Rotation bei der Erkennung verbessert. Abbildung 16: Funktionsweise des Pooling Layers [CNNa] Fully Connected Layer Die Fully Connected Layers stehen meist am Ende des Neuronalen Netzes und kann aus mehreren Schichten bestehen. Diese verbinden die Neuronen des Layers mit allen Aktivierungen der vorherigen Schicht. Der Fully Connected Layer nutzt die extrahierten Merkmale aus dem Convolutional Layer und dem Pooling Layer um das Bild zu klassifizieren. Oftmals wird in der Ausgabeschicht des Fully Connected Layers die Soft-

30 3 Übersicht zur Gesichtswiedererkennung 30 max Funktion genutzt, wodurch die Ausgabe des Neuronalen Netzes ein Vektor ist, der summiert 1 ergibt Training des gefalteten Neuronalen Netzwerk Um ein Aussagekräftiges Modell zu erhalten, muss dieses vorher trainiert werden. Genauso wie bei herkömmlichen Neuronalen Netzen wird dazu Backpropagation genutzt. Das Training des Gefalteten Neuronalen Netzen lässt sich vereinfacht in folgenden Schritten ausdrücken: Schritt 1: Das Neuronale Netzwerk wird mit zufälligen Werten initialisiert. Die Filter, die am Anfang des Neuronalen Netzes verwendet werden, sind somit mit zufälligen Werten versehen. Wie bei einem herkömmlichen Feedforward Neuronalen Netz wird der Output des Netzes mit diesen Gewichtungen berechnet. Schritt 2: Das Erwartete Ergebnis wird mit dem in Schritt 1 berechneten Ergebnis verglichen. Falls ein Unterschied vorliegt, wird dies als Fehler des Neuronalen Netzes angesehen. Schritt 3: Wurde in Schritt 2 ein Fehler berechnet, so wird ausgehend von der Ausgabeschicht das Neuronale Netzwerk rückwärts durchgegangen. Dabei werden die Gewichtungen und damit die Filter soweit angepasst, dass bei erneuter Eingabe der gleichen Werte ein besserer Ergebnis resultieren würde. Abbildung 17 visualisiert das gerade Genannte noch einmal. Eingabe ist ein Bild, auf dem ein Boot abgebildet ist. Das Gewünschte Ergebnis bei diesem Netzwerk ist, der Feature Vektor [0,0,1,0]. Da die Werte am Anfang zufällig initialisiert werden ist es sehr unwahrscheinlich diesen Vektor direkt als Ausgabe zu erhalten. Je nach Filter könnte der Ausgabe Vektor nach dem ersten Durchlauf beispielsweise den Vektor [0.1,0,5,0.2, 0.2] annehmen. Das Neuronale Netzwerk wird deswegen rückwärts durchgegangen, um die Werte so anzupassen, dass bei erneuter Eingabe der Ausgabe Vektor dem erwarteten Vektor ähnlicher aussehen würde. Je mehr Trainingsbilder genommen werden, desto robuster ist das resultierende Modell. Zur Klassifizierung müssen die Gesichter lediglich in das Neuronale Netz eingespeist werden. Ausgabe ist entweder eine Matrix- Repräsentation, anhand deren ein Vergleich stattfinden kann oder ein Softmax-Vektor.

31 3 Übersicht zur Gesichtswiedererkennung 31 Abbildung 17: Training des Gefalteten Neuronalen Netzes [CNNb] 3.8 Weitere State of the Art Methoden Dieser Abschnitt stellt ein paar aktuelle State of the Art Methoden kurz zusammen, die nicht auf Convolutional Neural Networks basieren High Dimensional LBP Dieser Ansatz ist eine Erweiterung der in vorgestellten Herangehensweise. Anstatt die Local Binary Pattern für jedes Pixel im ganzem Bild zu berechnen, werden hierbei ausschließlich fixe Bereiche wichtiger Punkte wie Augen, Nase und Mundposition gewählt (Beispielsweise der 20 x 20 Bereich um das Auge). Dieser fixe Bereich wird von unterschiedlichen Skalierungen des Bildes genommen um den Feature Vektor zu bauen[ccws13]. Dies hat den Vorteil, dass der fixe Bereich der großen Skalierung die detaillierte Erscheinung um den betrachteten Punkt beschreibt und der fixe Bereich der kleinen Skalierung beispielsweise die Form und Aufbau des Gesichtes festhält. Abbildung 18: Mehrskalige Repräsentation [CCWS13]

32 3 Übersicht zur Gesichtswiedererkennung 32 Die so generierte Feature Vektoren können bis zu Dimensionen aufweisen, weshalb es nötig ist eine Reduzierung vorzunehmen. Die Reduzierung erfolgt, indem zuerst mit Hilfe der Hauptkomponentenanalyse der Feature Vektor komprimiert wird[ccws13]. Auf diese komprimierten Feature Vektoren wird eine überwachte Unterraum Lernmethode wie LDA oder Joint Bayesian angewendet, um für die Gesichtserkennung wichtige Informationen zu extrahieren. Nachdem diese Vorgehensweise für alle Bilder im Trainingsset angewendet wurde, kann eine Matrix konstruiert werden, mit der hoch dimensionierte Feature Vektoren direkt auf klein dimensionierte projiziert werden können. Mit Hilfe dieser können die zu testenden Bilder auf eine schnelle Weise in niedrig dimensionierte Feature Vektoren umgewandelt werden, die mit den Feature Vektoren des Trainingssets auf Ähnlichkeiten verglichen werden kann. In Abbildung 20 ist der Ablauf schematisch dargestellt. Abbildung 19: Ablauf der Hochdimensionalen LBP Herangehensweise [CCWS13] High Fidelity Pose and Expression Normalization Viele Fehler bei der Wiedererkennung geschehen durch die unterschiedlichen Posen und Ausdrucke der Personen. Diese Herangehensweise versucht diese Fehler zu reduzieren,

33 3 Übersicht zur Gesichtswiedererkennung 33 indem eine Normierung der Gesichtspartie vorgenommen wird. Anstatt der herkömmlichen Vorverarbeitungspipeline, bei der die Gesichter lediglich gedreht werden und verschiedene Pixeloperationen durchgeführt werden, können hier beispielsweise gedrehte Gesichter zu einem Frontalgesicht rekonstruiert werden und Ausdrücke des Gesichtes vereinheitlicht werden. Wie in Abbildung 20 zu sehen, besteht der erste Schritt deshalb darin verschiedene Landmarks im Gesicht zu bestimmen, die mit einem 3D Face Model gepaart werden, um damit die Pose des Gesichtes zu ermitteln und später leichter die Gesichtstextur auf Pixel abzubilden [ZLY + 15]. Mit Hilfe dieses Face Models ist es möglich das Gesicht in eine frontale Position zu bringen. Zusätzlich wird versucht den Ausdruck und die Stimmung des Gesichtes in einen neutralen Zustand zu bringen, der dann bei allen Gesichtern einheitlich ist. Die Stellen im Gesicht, die vorher im Gesicht durch die Pose verdeckt waren, werden rekonstruiert, indem unter anderem durch das Spiegeln des Gesichtes Informationen hinzugewonnen werden. Dieses erweiterte Vorverarbeiten erhöhte die ohnehin gute Erkennungsrate bei den High Dimesional Local Binary Pattern um circa 2% auf 95%. Abbildung 20: Ablauf der erweiterten Vorverarbeitung [ZLY + 15] 3.9 Ergebnisse Für den Vergleich von Herangehensweisen zur Gesichtswiedererkennung ist ein Datenset notwendig, das zum einen einheitlich ist und zum anderen sämtliche Herausforderungen des Alltags mit einschließt. Darunter zählt unter anderem die Problematik bei der Erkennung durch Mimik, Pose und der Beleuchtung. Da das Labeld Faces in the Wild (LFW) [4] Datenset aus Bildern des öffentliche Lebens besteht, sind all diese Herausforderung enthalten. Aus diesem Grund ist das LFW-Datenset häufig die erste Anlaufstelle bei der Evaluation von neuen Algorithmen. Abbild 21 hält die Ergebnisse von verschiedenen State of the Art Methoden der Gesichtswiedererkennung fest. Auf der Y-Achse ist die Erkennungsrate der evaluierten Herangehensweisen zu finden und die X-Achse beschreibt die prozentuale Rate der falsch positiv wiedererkannten Gesichter. Die Evaluation zeigt, das mit der richtigen Vorverarbeitung Pipeline und

34 3 Übersicht zur Gesichtswiedererkennung 34 ausreichend Trainingsbildern bereits sehr gute Ergebnisse bei der Wiedererkennung erzielt werden können. Vor allem im Bereich des Deep Learnings wie mit Face++ oder der FaceNet Herangehensweise sind mit circa 99,5% Wiedererkennung sehr gute Ergebnisse erzielt worden. Diese Ergebnisse übertreffen bereits die menschliche Fähigkeit Person wiederzuerkennen [HRBLM07]. Auf dem gleichen Datenset wurde die menschliche Performance evaluiert. Im Durchschnitt lag die Erkennungsrate bei Bildern, die aus dem Kontext herausgeschnittenen wurden bei 97,53% und bei vorverarbeiteten Bilder bei 99,20%. Abbildung 21: Evaluationen des LFW-Datenset [HRBLM07] 3.10 Probleme bei der Gesichtswiedererkennung Bilder von Gesichtern, die nicht unter perfekten Bedingungen erstellt wurden, sind häufig von äußeren Faktoren wie Licht, variierendem Hintergrund, Bildqualität und Pose

35 3 Übersicht zur Gesichtswiedererkennung 35 der Person beeinflusst. Während Probleme, wie der variierende Hintergrund behoben werden können, indem diese durch Bildbearbeitungstechniken entfernt werden, stellen Variation in Licht und Pose ein größeres Problem dar. Im Folgenden werden Probleme der Gesichtswiedererkennung aufgezeigt Variierende Beleuchtung Ungünstige Lichtverhältnisse oder Belichtungen kann die Klassifizierung des Gesichts stark beeinflussen. Häufig ist ein anderer Aufnahmeort oder eine andere Uhrzeit der Grund für solch einen Unterschied in der Belichtung. Abbildung 22 zeigt Bilder von zwei Personen, bei denen das automatische Wiedererkennen durch die unterschiedliche Belichtung der Gesichter erschwert wurde. Das Problem tritt vor allem bei Herangehensweisen auf, die Bilder auf Pixelebene vergleichen. Dies liegt daran, dass der Unterschied durch die Belichtung zweier Gesichter größer sein kann, als der Unterschied zwischen zwei verschiedenen Gesichtern [Facb]. Die Folge ist schließlich eine falsche Klassifizierung, da der Unterschied der zwei fremden Gesichtern kleiner ist, als der Unterschied der unterschiedlich beleuchteten Gesicht derselben Person. Herangehensweisen, die von Abbildung 22: Gesichter mit Variation in der Beleuchtung[Facb] diesem Problem besonders betroffen sind, sind hollistische Methoden wie die Eigengesichter oder Fishergesichter Pose Ein weiteres Problem stellt der Winkel des Gesichts auf dem Bild dar. Frontalaufnahmen eines Gesichts liefern die besten Ergebnisse. Während leichte Winkelvariationen von den meisten Herangehensweisen verkraftet (vgl. ersten zwei Gesichter in Abbildung 23) werden und die Erkennungsrate dabei nur minimal beeinflusst wird, kommt es bei starker Variation (viertes Gesicht 23) im Winkel oder Pose des Gesichts zu starker

36 3 Übersicht zur Gesichtswiedererkennung 36 Beeinträchtigung bei der Erkennung des Gesichtes. Dies liegt unter anderem daran, dass beim Training der Gesichtserkennung Gesichter genommen werden die vereinheitlicht (bsp. Augen sind im Bild oben, Kinn unten) wurden. In der Theorie ist es zwar möglich die Klassifikatoren der jeweiligen Personen auf alle möglichen Gesichtsrotation zu trainieren, um eine Wiedererkennung zu ermöglichen. In der Praxis macht dies jedoch keinen Sinn, da zum einem zu viele Trainingsbilder benötigt werden, um so einen Klassifikator zu trainieren, was die Performance verschlechtern würde, zum anderen dies einen Verlust in der Genauigkeit mit sich bringen würde. Deswegen werden in der Praxis oftmals vereinheitlichte Bilder mit kleiner Variationen in der Rotation genommen,um die Robustheit zu erhöhen. Die zweite Spalte in Abbildung 23 stellt eine Kombination des Posen und Beleuchtung Problem dar. Abbildung 23: Gesichter mit Variation in der Pose[Facb] Verdeckung Ursachen einer Verdeckung können beispielsweise Gegenstände, wie Brillen oder Schale sein die Teile der Gesichts verdecken. Aber auch ungünstige Aufnahmen, bei der sich beispielsweise die Hand vor dem Gesicht befindet oder Aufnahmen bei denen mehrere Jahre dazwischen liegen, können Ursache sein. Dies stellt vor allem ein Problem bei Applikationen dar, die anhand eines Bildes die Person wiedererkennen sollen. Bei der Identifizierung durch einen Videostream ist es möglich nur die gut geeigneten Bilder für die Wiedererkennung zu benutzten und andere Bilder zu verwerfen.

37 4 Konzeption und Verwendete Materialien 37 4 Konzeption und Verwendete Materialien Dieses Kapitel gibt zuerst eine Übersicht über den Ablauf des Implementierten Programms, mit dem die Evaluation durchgeführt wurde. Des weiteren werden Materialien wie Datensets und benutzte Bibliotheken vorgestellt. 4.1 Konzeption In Abbildung 29 ist der grobe Ablauf des Programms als Ablaufdiagramm dargestellt. Das Programm kann dabei in zwei Teile aufgespalten werden. Der erste Teil besteht aus dem Training des Gesichtswiedererkennungsmodell mit den Trainingsbildern. Die Trainingsbilder, die zum Training verwendet wurden, sind mit dem gleichen Vorverarbeitungsablauf, der für die Testbilder zum Einsatz kommt, vorverarbeitet worden. Die Vorverarbeiten der Trainingsbilder findet jedoch außerhalb des eigentlichen Programmablaufs statt, damit bei jeder Neuinitialisierung des Programms nicht alle Daten erneut vorverarbeitet werden müssen. Die Gesichtsmerkmale, die zum Vergleich der einzelnen Personen verwendet werden, werden durch OpenCV im RAM abgelegt, um bei einer Klassifizierung schnell darauf zurückgreifen zu können. Die andere Hälfte des Programms versucht anhand der Merkmale der Trainingsdaten das Testbild zu klassifizieren. Dazu wird das Testbild auf die gleiche Weise, wie die Trainingsbilder vorverarbeitet. Die wichtigsten Schritte sind unter anderem die Gesichtsausrichtung (Ausschneiden, Rotation, Skalierung), die Anpassung der Intensität der Farbe und die Umwandlung zum Graustufenbild. Daraufhin werden aus dem Bild die Gesichtsmerkmale extrahiert, die dann wiederum mit dem im RAM abgelegten Merkmalen der Trainingsdaten verglichen werden können, um eine Klassifizierung vorzunehmen. Zu erwähnen ist, dass über die Programm Parameter ebenfalls eine Evaluation des Trainingssets gestartet werden kann. Statt der weiteren Eingabe eines Testbildes, konstruiert das Programm aus dem übergebenen Datenset eigenständig ein Test und Trainingsset, mit denen die Evaluation durchgeführt wird.

38 4 Konzeption und Verwendete Materialien 38 Abbildung 24: Ablauf des Programms 4.2 Verwendete Computer Vision Bibliotheken Nachfolgend wird ein kurzer Überblick über die verwendeten Computer Vision Bibliotheken gegeben OpenCV OpenCV ist eine im Jahre 2000 entstandene frei zugängliche Bibliothek für den Bereich der Computer Vision und Bildbearbeitung. Die Bibliothek selbst ist plattformunabhängig und ist in C und C++ geschrieben. Inzwischen ist Version 3.1 veröffentlicht worden. OpenCV zeichnet sich dabei durch ihre Geschwindigkeit und großen Umfang aus. Die Bibliothek weist dabei über 2500 optimierte Algorithmen auf, die sowohl klassische als auch State-of-the-Art Algorithmen umfassen [opeb]. Durch die modular gehaltene Struktur von OpenCV müssen nur die Teile der Bibliothek geladen werden, die auch gebraucht werden. Wichtige Module neben dem Kern Module, sind unter anderem diese Module: imgproc, für Aktionen rund um die Bildbearbeitung imgcodecs, zum Laden und Abspeichern von Bildern objdetect, zur Detektion von Objekten mithilfe von Kaskaden ml, für Algorithmen rund um das Thema Machine Learning highgui, was eine GUI bereitstellt

39 4 Konzeption und Verwendete Materialien 39 Seit Version 3.0 sind Teile der Funktionen von OpenCV ausgelagert worden. Davon betroffen sind vor allem neue Module, die entweder noch nicht genug getestet wurden oder an denen noch weiter entwickelt wird. Diese sogenannte opencv_contrib Ergänzung Bibliothek kann jedoch sehr einfach in OpenCV integriert werden. Des weiteren ist zu erwähnen, dass OpenCV die BSD Lizenzierung nutzt, wodurch sich diese Bibliothek sowohl für die gewerbliche, als auch nicht gewerbliche Nutzung eignet Dlib Dlib ist ein in C++ geschriebenes Toolkit für viele Algorithmen zum Bereich des Maschinellen Lernens und der Computer Vision. Dabei zeichnet sich dieses vor allem durch die Implementierung von relativ neuen Algorithmen zur Computer Vision aus. Zusätzlich stellt Dlib durch das Bereitstellen einer aktuellen Dokumentation und vielen Beispielen einen schnellen Einstieg dar. Durch die Open Source Lizenzierung eignet sich Dlib sowohl für den privaten als auch gewerbliche Gebrauch Überblick über weitere Frameworks zur Gesichtswiedererkennung Im Laufe dieser Arbeit wurde nach frei zugänglichen Bibliotheken zum Thema Gesichtswiedererkennung recherchiert. Neben mehreren Online APIs, die hauptsächlich auf Gefaltete Neuronale Netze basieren und meistens nur für eine kleinen Kontingent kostenlos nutzbar sind, sind vor allem die Frameworks OpenFace [ALS16]und OpenBr [Oped] gefunden worden. Beide Projekte besitzen eine eigene Vorverarbeitungspipeline und sind Open Source lizenziert. OpenFace implementiert mit dem Convolutional Neural Network einen relativ neuen Ansatz zu Gesichtswiedererkennung. Dies ist ebenfalls an der Erkennungsrate zu erkennen, bei der die Neuronale Netzwerk Implementierung von OpenFace beide implementierten Verfahren von OpenBR schlägt [opec]. Projekt Algorihmus LFW Erkennungsrate OpenFace Convolutional Neural Networks 97,3% OpenBR 4SF 82,8% OpenBR Eigenfaces 64,8% Tabelle 1: Gefundenen FaceRecogntion Projekte/Frameworks 4.3 Datensets In diesem Abschnitt wird ein Überblick über existierende Gesicht-Datensets gegeben, die unter anderem für die spätere Evaluation nötig sind. Aufgrund des hohen Interesses an diesem Thema existiert eine hohe Anzahl an verschiedenen Datensets. Jedoch muss

40 4 Konzeption und Verwendete Materialien 40 beachtet werden, dass je nach Zweck und Herangehensweise Datensets unterschiedlich sinnvoll sind. Beispielsweise brauchen PCA oder LDA basierte Herangehensweisen mehrere Bilder pro Klasse und können deswegen schwer bei Datensets, die nur wenige oder ein Bild pro Klasse beinhalten genutzt werden. Zusätzlich ist zu erwähnen, dass alle hier aufgeführten Datensets, bis auf das Fussball Datenset, frei zugänglich und online einsehbar sind Face94 Hierbei handelt es sich um ein vom Schwierigkeitsgrad einfaches Datenset. Insgesamt sind 153 unterschiedliche Personen enthalten die sowohl Gesichter männlicher, als auch weiblicher Personen beinhalten. Jedes Bild ist eine Frontalaufnahme des Gesichtes mit der Auflösung von 180 auf 200 Pixel. Da alle Bilder in einer Aufnahme-Session gemacht wurden, sind die Bilder von keiner durch die Zeit veränderten Erscheinung betroffen. Der Hintergrund der Bilder ist mit der Farbe grün für alle Bilder derselbe. Viel Unterschied bei den Bildern ist durch einen sich ändernden Ausdruck gegeben. Die Position der Gesichter auf den Bildern besitzen lediglich leichte Variationen. Zusätzlich existieren durch die Aufnahme am denselben Ort keine Variationen in der Beleuchtung bei den verschiedenen Aufnahmen. Abbildung 25: Beispielbilder des Faces94 Datenset [1]

41 4 Konzeption und Verwendete Materialien Fussball Datenset Deutschland Das für diese Arbeit konstruierte Datenset besteht aus 80 unterschiedlichen Spielern der ersten Fußball Bundesliga. In jedem Bild ist eine Frontalaufnahme des Gesichtes eines Fußballers zu sehen. Als Frontalaufnahme wurden alle Gesichter gezählt, die höchstens Grad von einer Profilaufnahme abweichen. Dabei existiert keine einheitliche Auflösung der Bilder. Die Bilder weisen teilweise niedrigere Auflösungen von 300 x 300 und Hohe, wie 1500 x 1500 auf. Es wurde lediglich darauf geachtet, dass Bilder ausgesucht wurden, bei denen die Auflösung des Gesichtes auf dem Bild circa 200 x 200 oder mehr beträgt. Die Grundlage der Bilder für das Datenset wurde aus der Internetseite kicker [3] extrahiert. Zusätzlich wurde das Datenset durch Bilder der Google-Bilder Suche erweitert. Unter anderem dadurch, dass die Bilder weitestgehend zufällig ausgewählt wurden, ergaben sich folgende Schwierigkeiten für die Gesichtserkennung: Stark variierender Hintergrund Veränderungen des Gesichts (Bart, Narben) Häufig variierende Pose unterschiedliche Beleuchtung Abbildung 26: Beispielbilder des Fußballdatenset. Alle hier aufgelisteten Bilder sind aus dem Online Kicker-Sportmagazin entommen [3]

42 5 Vorbearbeiten der Bilder zur Verbesserung der Erkennungsraten 42 5 Vorbearbeiten der Bilder zur Verbesserung der Erkennungsraten Bilder von Gesichtern, die nicht unter perfekten Bedingungen erstellt wurden, sind häufig von äußeren Faktoren wie Licht, Bild Qualität und Pose der Person beeinflusst. Diese wirken sich häufig auf die Klassifikation des Gesichtes einer Personen negativ aus. Um diesen Faktoren entgegenzuwirken werden Bilder häufig vorverarbeitet. Ziel dieser Vorverarbeitung ist es zum einen die Erkennungsraten zu erhöhen, aber auch ein leichteres Weiterverarbeiten der Bilder zu ermöglichen, womit eine Reduzierung der Verarbeitungszeit einhergeht. Je nach Herangehensweise der Wiedererkennung von Gesichtern in Bildern werden unterschiedliche Methoden zur Vorverarbeitung genutzt. Bei einigen holistischen Methoden ist es beispielsweise wichtig auf eine einheitliche Beleuchtung der Gesichter in den Bildern zu achten. Dies wird bei den Local Binary Pattern nicht benötigt. Einzig das Umwandeln von Farbbildern in Graustufenbildern wird derzeit von den meisten State of the Art Methoden genutzt. 5.1 Gesichtserkennung Wie bereits erwähnt, ist es hilfreich die Gesichter der Personen zu vereinheitlichen. Wichtig ist vor allem die Bilder bzw. Gesichter so zu drehen, dass die Augen in einer Horizontalen Ebene liegen. Bevor dies bewerkstelligt werden kann, müssen die Gesichter im Bild gefunden werden. Dies hat zusätzlich den Zweck unwichtige Informationen herauszuschneiden, die weder für das Face Alignment, noch für die Gesichtserkennung von Bedeutung sind. Getestet wurde die Face Detektion sowohl mit Hilfe der Haar- Cascaden von OpenCV, als auch mit der Histogramm of Gradient Implementierung der Dlib Bibliothek. Bei Frontalgesichtern oder kaum verdeckten Gesichtern lieferte die Erkennung der Gesichter bei beide Methoden gute Ergebnisse. Jedoch wies die Implementierung von OpenCV eine höhere False Positive Rate auf. Oftmals wurden also Gesichter erkannt, die keine Gesichter waren. Dies war jedoch für diese Arbeit kein größeres Problem, da sowieso Bilder genommen wurden auf denen sich nur ein Gesicht befindet und somit das Gesicht gewählt wurde, dass die höchste Wahrscheinlichkeit aufgewiesen hat. Abbildung 27 zeigt die Bilder auf, anhand deren die nächsten Schritte zum Face Alignment veranschaulicht werden.

43 5 Vorbearbeiten der Bilder zur Verbesserung der Erkennungsraten 43 Abbildung 27: Unbearbeitete Bilder Datenset:[2] Augenerkennung anhand Kaskaden Um das Gesicht richtig auszurichten werden die Postionen der Augen benötigt. Die Augenpostion wurde anfangs ebenfalls mit den Kaskaden der OpenCV Bibliothek bestimmt. Dazu wurde das Erkannte und bereits ausgeschnittene Gesicht genutzt. Open- CV stellt zum Erkennen von Augen verschiedene Kaskaden zur Verfügung. Darunter befinden sich: haarcascade_eye.xml haarcascade_mcs_lefteye.xml haarcascade_mcs_righteye.xml Während erstere Kaskade sowohl auf das linke und das rechte Auge trainiert ist, sind die beiden anderen jeweils auf ein Auge trainiert. Das haarcascade_eye.xml liefert jedoch nur unter sehr günstigen Bedingungen akzeptable Ergebnisse. Weit bessere Ergebnisse liefern haarcascade_mcs_lefteye.xml und haarcascade_mcs_righteye.xml, die von der Erweiterten OpenCV_Contribution Bibliothek mitgeliefert werden. Um die Erkennungsrate zu erhöhen und die Zeit zu reduzieren wurde zudem das erkannte Gesicht in der Mitte geteilt und dem richtigen Kaskade zugeordnet. Sind die Augenpostionen bestimmt, können diese dazu verwendet werden eine Rotationsmatrix zu erstellen, anhand dessen das Bild gedreht wird. Dazu muss lediglich der Winkel zwischen den beiden Augen und der Punkt an der das Bild gedreht werden soll bestimmt werden. Abbildung 28 zeigt die Ergebnisse der Augenerkennung mithilfe der beiden Kaskaden an. Insgesamt wurden zehn Augen von möglichen 16 erkannt. Nur von vier der acht Personen wurden beide Augen erkannt, wodurch das Face Alignment möglich

44 5 Vorbearbeiten der Bilder zur Verbesserung der Erkennungsraten 44 war. Für den Fall, das nur ein oder kein Auge erkannt wird ist kein Face Alignment nach beschriebener Methode möglich. Insgesamt gesehen liefern die Kaskaden unzu- Abbildung 28: Augenerkennung mit Hilfe von OpenCV Kaskaden Datenset:[2] verlässige Erkennungsraten. Wird diese ungenaue Bestimmung für das Preprocessing der Trainingsdaten benutzt, kann dadurch die Wiedererkennungsrate einer Personen verschlechtert werden Augenerkennung mit Hilfe der Dlib Bibliothek Die Dlib Bibliothek verwendet einen anderen Weg um die Landmarks in einem Gesicht zu erkennen. Ziel der Landmark Erkennung ist es [KS14][ali] eine Form S zu erkennen, die der wirklichen Form des Gesichts am nächsten ist. Um dies zu bewerkstelligen, wird eine Regression Funktion gelernt, die versucht extrahierte Gesichtsmerkmale auf eine Form abzubilden. Zum Extrahieren der Features kommen Methoden, wie die HOG Features oder der Pixelunterschied in dem Bereich des zu extrahierenden Merkmals zum Einsatz. Eine Gesichtsform ist dabei definiert als S = [x 1, y 1,..., x n, y n ], (21) bei der n die Anzahl der unterschiedlichen Landmarks ist. Die Landmark Erkennung läuft dabei in mehreren Schritten, sogenannten Regression Stages ab. Ähnlich wie bei der Gesichtserkennung von Viola und Jones, werden mehrere schwache Regressoren (R 1, R 2,..., R T ) auf additive Weise zusammen gefasst (vgl. [ali]) um die möglichst genaue Form des Gesichts zu ermitteln. S t = S t 1 + R t (I, S t 1 ), t = 1,...T (22)

45 5 Vorbearbeiten der Bilder zur Verbesserung der Erkennungsraten 45 Der Regressor R t berechnet anhand eines Bildes I und der vorherigen Form S t 1 einen Inkrement, der zur vorherigen Form wiederum addiert wird um eine aktualisierte Form zu erhalten. Dies geschieht so lange bis alle T Regressoren benutzt wurden. Die Regressoren selbst werden gelernt, damit diese den Alignment Fehler S S true 2 (23) minimieren. Es wird also versucht den Unterschied zwischen der vorhergesagten und der tatsächlichen Form des Gesichts zu minimalisieren. Die Regressoren werden sequentiell berechnet. Dementsprechend ergibt sich für den R t Regressor folgende Formel: R t = argmin R N i=1 S i_true (S t 1 i + R(I i, S t i 1)) (24) bei der I i das Bild mit dem Index i, S i_true die echte Form des I-ten Gesichts ist und S t 1 i die im Schritt vorher geschätzte Form des Gesichts ist [ali]. Die Implementierung von Dlib baut auf diesem Ansatz auf, erweitert diesen jedoch anhand eines Regression Baumes[KS14]. Insgesamt liefert der Landmark Detektor der Dlib Bibliothek die x und y Koordinate von 68 Landmarks. Die Punkte beschränken sich dabei auf Stellen im Gesicht. Die Landmarks befinden unter anderem auf den Augenbrauen, den Augen, dem Gesicht und den Konturen des Gesichtes. Laut Vahid Kazemi and Josephine Sullivan liegt die Abbildung 29: Positionen der Landmarks der Dlib Bibliothek durchschnittliche Fehlerrate der Landmark Erkennung bei gerade mal 5%. Die Fehlerrate gibt an, um wieviel Prozent der erkannte Landmark vom echten Landmark entfernt ist. Bei dem sehr häufig genutzten Datenset LFPW zur Landmark Erkennung erzielte es gerade mal eine Fehlerrate von 3,4% und übertrifft damit die meisten ande-

46 5 Vorbearbeiten der Bilder zur Verbesserung der Erkennungsraten 46 ren Landmark Erkennungs-Algorithmen. Zu erwähnen ist, das die Erkennung ebenfalls nur einen Bruchteil vorheriger Landmark Erkennungs Algorithmen dauert. Abbildung 30 visualisiert dieses Ergebnis. Entgegen der Herangehensweise mit den Abbildung 30: Landmark Erkennung mithilfe der Dlib Bibliothek Datenset:[2] Kaskaden liefert dieser Ansatz eine verlässliche Erkennungsrate. Bei allen acht Bildern liefert Dlib die Koordinaten von 69 Landmarks, die mit der wirklichen Lage in den meisten Fällen exakt übereinstimmen. Lediglich im ersten Gesicht werden die Konturen auf der linken Seite des Gesichtes nicht richtig erkannt. Die Position der Augen werden bei allen Bildern exakt bestimmt, wodurch eine zuverlässige Gesicht Alignment möglich ist. Zu erwähnen ist, das selbst die richtige Postion von verdeckten Landmarks oft richtig erkannt wird. Dies ist vor allem in dritten Bild gut zu erkennen bei der beinahe die Hälfte des Gesichtes von Haaren bedeckt ist. Wie in 30 weist die Detektion eine gute Robustheit gegen die Invarianz der Pose des Gesichts auf. Die Ergebnisse des Face Alignments werden in Abbildung 31 dargestellt. Zu sehen ist, dass das Ziel des Face Alignment erfüllt wurde. Die Augen jedes Gesichtes befinden sich in einer horizontalen Ebene, sind also von eventuellen Rotationen befreit.

47 5 Vorbearbeiten der Bilder zur Verbesserung der Erkennungsraten 47 Abbildung 31: Resultat des FaceAlignment mithilfe der Dlib Bibliothek Datenset:[2] 5.2 Anpassung der Intensität von Farben Jedoch hat nicht nur die Pose und der Ausdruck Einfluss auf die Wiedererkennung des Gesichtes. Die erfolgreiche Klassifizierung von Gesichtern hängt ebenfalls stark von der Qualität des zu klassifizierenden Bildes ab. Wie in bereits erwähnt stellen unteroder überbelichtete Bilder bei der Gesichtswiederkennung ein Problem dar. Aus diesem Grund werden schon im vorhinein solche Bilder vorverarbeitet, um die entstehenden Probleme bei der Gesichtswiedererkennung zu reduzieren. Diese Arbeit nutzt einen Histogramm Ausgleich, um die Bilder so zu bearbeiten, dass der Kontrast des Bildes verbessert wird, indem die Intensität der Pixel umverteilt werden. Ziel ist es das Aufkommen der Grauwerte so zu verteilen, dass diese möglichst das gesamte Graustufen Spektrum umfassen. Abbildung 32 zeigt das Ergebnis der Bilder nach dem Histogramm Ausgleich. Besonders hervorzuheben sind sowohl das zweite, fünfte und letzte Bild, die durch den Histogramm Ausgleich deutlich an Kontrast hinzugewonnen haben.

48 5 Vorbearbeiten der Bilder zur Verbesserung der Erkennungsraten 48 Abbildung 32: Ergebnis der Beispielbilder nach der FaceAlignment mithilfe der dlib Bibliothek Datenset:[2] Insgesamt bietet sich ein Histogramm Ausgleich zum Vorverarbeiten bei Applikationen an, die über den Tag verteilt Aufnahmen machen und wodurch die Bilder Schwankungen in der Helligkeit besitzen.

49 6 Evaluation 49 6 Evaluation In diesem Kapitel wird die Local Binary Pattern Histogramm mit verschiedenen Parametern und Einstellungen getestet. Zusätzlich wird die Neuronale Netz Implementierung von OpenFace evaluiert. 6.1 Durchführung der Evaluation Um aussagekräftigere Ergebnisse bei der Evaluation zu erhalten, wurde das Test- und Training-Datenset dynamisch aus dem Ursprungsdatenset erstellt. Dazu wurde vor jedem Durchgang ein zufälliger "Seed" erstellt, mit dem entschieden wurde, ob das entsprechende Bild dem Trainings oder Test-Datenset hinzugefügt wird. Mit den so resultierenden Test- und Trainingssets wurde eine Evaluation durchgeführt, indem für jedes Bild im Testset überprüft wurde, ob die richtige Person klassifiziert wurde. Insgesamt wurden für jede Parameter Einstellung zehn Evaluationen durchlaufen. Zusätzlich wurde für jedes falsch klassifizierte Testbild die Distanz zur richtigen Klassifikation ermittelt Ergebnisse des Face94-Datenset Die Evaluation mit diesem Datenset erzielte wie erwartet sehr gute Ergebnisse. Bereits mit einem Trainingsbild lag die Erkennungsrate zwischen 98% und 99%. Die Hinzunahme neuere Trainingsbilder erbrachte keine nennenswerte Verbesserungen. Die guten Ergebnisse liegen unter anderem an dem sehr einfachen Datenset. Die Bilder jeder Person im Datenset sind sich sehr ähnlich. Abbildung 33 stellt jeweils sechs Bilder zweier Personen dar. Wie dort zu sehen sind die Unterschiede der Bilder einer Person sehr gering, wodurch weniger Trainingsbilder für eine gute Erkennungsrate benötigt werden. Zusätzlich sind alle Bilder gleich aufgebaut, wodurch ebenfalls die Erkennungsrate verbessert wird. Jedoch zeigt dieses Trainingsset, wie wichtig eine gute Vorverarbeitung für die Erkennungsrate ist.

50 6 Evaluation 50 Abbildung 33: Trainingsbilder des face94-datenset Ergebnisse des Face95-Datenset Bei diesem Datenset konnte der Einfluss durch die Anzahl der Trainingsbilder auf die Erkennungsrate sehr gut getestet werden. Die Erkennungsrate bei der Nutzung von lediglich einem Trainingsbild liegt bei 75%. Obwohl, dass face94- und face95-datenset ähnlich aufgebaut sind, ist die schlechtere Erkennungsrate zum einen auf die Bewegung in den Bildern, wodurch verschiedene Veränderungen hervor geworfen werden und die schlechtere Qualität der Bilder zurückzuführen. Durch die Hinzunahme eines Trainingsbildes stieg die Erkennungsrate um 8%-9%. Die weitere Hinzunahme führte stets zu einer Verbesserung (siehe Abbildung 36. Bei der Nutzung von 10 Trainingsbildern wies der LBPH eine Erkennungsrate von circa 99% auf. In Abbildung 34 sind Beispielbilder das face95-datensets zu sehen, die im Vergleich zum face94-datenset schon deutlich größere Unterschiede aufweisen. Abbildung 34: Trainingsbilder des face95-datenset

51 6 Evaluation 51 Abbildung 35: Einfluss auf die Erkennung, durch die Anzahl der Trainingsbilder pro Person Parameter des LBPH Im Folgendem werden die einzelnen Parameter mit dem der Local Binary Pattern initialisiert werden kann kurz vorgestellt. Radius: Der Radius gibt an, wie groß der Abstand zu den Nachbarpixeln sein soll, die für die Berechnung des Local Binary Pattern genutzt werden. Punkte: Die Anzahl der Punkte, die auf dem Kreis vorkommen. Eine Erhöhung dieses Parameters führt zu einer komplexeren Berechnung der Feature Vektoren und hat damit direkten Einfluss auf die Performance. FH: Dieser Parameter gibt die Anzahl der Fenster an, in die das Bild in der horizontalen Ebene unterteilt wird. Ein Wert von 8 gibt beispielsweise an, dass das Bild in 8 kleinere Bilder in der Horizontale unterteilt wird FV: Dieser Wert gibt analog zu FH die Anzahl der Fenster an, in welches das Bild in der vertikalen Ebene unterteilt wird. Ein Wert von 8 in der horizontalen Ebene und der Vertikalen Ebene gibt beispielsweise an, dass das gesamte Bild in 64 (8 x 8 ) kleinere Bilder unterteilt wird Evaluation des Fussball-Datensets Getestet wurde die Local Binary Pattern Histogramm Herangehensweise mit verschiedenen Parametern. Als Vergleichswert für die verschiedenen Parametereinstellung dient

52 6 Evaluation 52 Distanz/ Parameter >5 (R,P,X,Y) 1_8_8_8 43% 6% 4% 3% 5% 39% 2_8_8_8 48% 8% 5% 4% 4% 31% 1_12_8_8 40% 10% 5% 4% 3% 38% 1_12_12_12 48% 8% 5% 4% 3% 32% 2_12_8_8 48% 9% 4% 3% 2% 34% 2_12_16_16 61% 6% 4% 3% 3% 23% 3_12_16_16 66% 9% 3% 3% 2% 17% Tabelle 2: Evaluation des LBPH die Einstellung 1,8,8,8 (Radius,Punkte/Nachbarn,FensterX, FensterY). Diese Einstellungen erzielte eine Genauigkeit von 43%. Mit dem Versuch, die Genauigkeit zu erhöhen wurde an den LBPH Parametern experimentiert. Dazu wurden einzeln die verschiedenen Parameter des Local Binary Pattern Histogramm justiert. Tabelle 2 gibt eine Übersicht über die Einstellungen, mit denen das Datenset evaluiert wurde. Bereits die Erhöhung des Radius um den Wert 1 führt zu einer 5%-igen Verbesserung. Jedoch muss hierbei beachtet werden, dass jedes Vorverarbeitete Gesicht auf die Größe 200 x 200 skaliert wurde. Somit lässt sich nicht pauschal sagen, dass eine Erhöhung des Radius bei den LBPH stets zu einer Verbesserung führt. Die Erhöhung der Punkte, die für die Berechnung der Lokal Binary Pattern benötigt wird, führte in den Tests stets zu einer Erhöhung der Erkennungsrate. Ausnahme ist hier die Erhöhung der Punkte von 8 auf 12 bei einem Radius von 1. Da bei einem Radius von 1 höchstens acht Nachbarpixel existieren, ist dies aber nachvollziehbar. Auch die Erhöhung des FH & FV Wertes wirkte sich positiv auf die Erkennungsrate aus. Dies liegt daran, dass durch die Erhöhung dieses Parameters mehr Wert auf die lokale Struktur des Bildes gelegt wird. Das beste Ergebnis wurde mit der Einstellung 3,12,16,16 mit einer Genauigkeit von 66% erzielt. In Tabelle 2 ist zusätzlich die Distanz zu der Richtigen Klassifikation angeben. Die Spalte mit dem Wert zwei gibt beispielsweise an, dass bei der Parametereinstellung 3,12,16,16 9% der Bilder richtig erkannt wurden, nachdem das Bild mit der geringsten Distanz entfernt wurde. Dies ist die Wahrscheinlichkeit wie viel der falsch klassifizierten Bilder durch den LBPH Klassifikator als zweit Ähnlichstes eingestuft wird. Insgesamt besitzen lediglich 17% der Testbildern eine Distanz größer fünf Der Einfluss der Anzahl der Trainingsbilder auf die Genauigkeit Im folgendem Abschnitt wird der Einfluss der Anzahl der Trainingsbilder auf die Erkennungsrate evaluiert. Getestet wurde der LBPH mit einer unterschiedlichen großen Anzahl an Trainingsbilder pro Person und der Parametereinstellung (2,12,16,16), da mit dieser die Evaluation deutlich schneller war und somit mehr getestet werden konnte.

53 6 Evaluation 53 Dabei ist schnell zu erkennen, dass die Anzahl der Trainingsbilder die Erkennungsrate stark beeinflusst. Dies visualisiert Tabelle 3. Besonders das Hinzufügen eines zweiten Trainingsbildes erhöht mit einen Sprung von 15% die Erkennungsrate von 34% auf 49%. Distanz/ Anzahl >5 Trainingsbilder 4 61% 6% 4% 3% 3% 23% 3 58% 7% 5% 3% 3% 24% 2 49% 8% 4% 3% 4% 32% 1 34% 7% 4% 3% 2% 50% Tabelle 3: Einfluss der Anzahl an Trainingsbildern pro Person auf die Erkennungsrate Die weitere Erhöhung der Trainingsbilder führte stets zu einer Erhöhung der Erkennungsrate, auch wenn diese nicht so groß, wie bei der Erhöhung von einem auf zwei Trainingsbilder ausgefallen ist. Letztendlich wurde die Erkennungsrate fast verdoppelt, indem die Anzahl der Trainingsbilder von eins auf vier erhöht wurde. Abbildung 36: Einfluss auf die Erkennung, durch die Anzahl der Trainingsbilder pro Person 6.2 Evaluation von OpenFace Dieser Abschnitt evaluiert die Neuronale Netz Implementierung von OpenFace anhand des Fussball-Datenset. Die Erkennungsrate wurde auf zwei unterschiedliche Wege

54 6 Evaluation 54 ermittelt. Zum einen wurde die Erkennungsrate ermittelt, indem jeweils zwei Bilder im Datenset verglichen wurden. Beim Vergleich von zwei Bildern der gleichen Person musste das System beispielsweise erkennen, dass es sich um die gleiche Person handelt. Genauso musste das System beim Vergleich von zwei unterschiedlichen Personen erkennen, dass es sich um verschiedene Personen handelt. Die Erkennungsrate ergab sich, indem die Anzahl der Richtigen Erkennungen durch die Anzahl der gesamten Vergleiche geteilt wurde. Insgesamt wurde jedes Bild jeder Person mit jedem anderen Bild verglichen (Ausgenommen sind Vergleiche von denselben Bildern). Da für diese Evaluation das Fußballdatenset gewählt wurde, wurden somit insgesamt ca ((80 Personen * 5 Bilder pro Person) 2 ) Vergleiche durchgeführt. Die Wiedererkennung erreichte hierbei eine Erkennungsrate von 99,3%. Der Vergleich wurde mit den vom Neuronalen Netz konstruierten Repräsentationen durchgeführt. Dementsprechend musste für jedes Bild im Datenset die Repräsentation vorher abgespeichert werden. Zusätzlich wurde die Erkennungsrate auf dem gleichen Weg, wie bei der LBPH Evaluation ermittelt, um einen Vergleich beider Herangehensweisen darstellen zu können. Dementsprechend wurde das zu testende Bild im Datensatz mit jedem Bild im Datenset verglichen, um das ähnlichste Bild zu erhalten. Für eine erfolgreiche Klassifizierung musste die Person auf dem ähnlichsten Bild, mit der Person auf dem getesteten Bild übereinstimmen. Zusätzlich wurde für jede falsche Klassifizierung wieder ermittelt, ob das zweit, dritt, viert oder fünft ähnlichste Bild, der getesteten Person gleicht. Wie in Tabelle 4 zu sehen, liegt die Erkennungsrate nur noch bei 93,9%, statt den soeben 99,3% genannten. Dies liegt daran, dass bei dieser Evaluation weniger Vergleiche gemacht werden und somit eine falsch Klassifikation mehr Einfluss auf die Erkennungsrate hatte. Insgesamt ist die Erkennungsrate trotzdem sehr gut, was durch den recht neuen Ansatz nicht verwunderlich ist. Vor allem ist zu erwähnen, das nur bei 1,1% der Bilder die gesuchte Person sich nicht unter den ähnlichsten fünf befand. Tabelle 4 stellt die Ergebnisse von OpenFace und OpenCV mit vier Vergleichsbilder gegenüber. Distanz/ Projekt >5 OpenFace 93,9% 2,8% 1,5% 0,7% 0% 1,1% OpenCV 66% 9% 3% 3% 2% 17% Tabelle 4: Gegenüberstellung von OpenFace und OpenCV Des Weiteren wurde der Einfluss der Trainingsdaten auf Erkennungsrate ermittelt. Tabelle 5 präsentiert die Ergebnisse. Genauso wie bei der LBPH-Herangehensweise führen mehr Vergleichsbilder zu einer höheren Genauigkeit bei der Erkennung.

55 6 Evaluation 55 Distanz/ Anzahl der Vergleichsbilder >5 4 93,9% 2,8% 1,5% 0,7% 0% 1,1% 3 92,9% 3,5% 1,5% 0,8% 0,2% 1,1% 2 90% 5,2% 1,8% 0,7% 0,7% 1,6% 1 84% 7,5% 3,1% 1,4% 0,8% 3,1% Tabelle 5: Einfluss der Anzahl an Vergleichsbilder auf die Erkennungsrate Abbildung 37 zeigt vier Falsch Klassifizierungen. In den vier Sets, war das linke Bild das zu testende Bild und das rechte Bild jeweils das ähnlichste Bild zum getesteten Bild im ganzen Datenset. Abbildung 37: Falsch Klassifzierungen, Bilderquelle:[6][3] 6.3 Erwähnenswerte Auffälligkeiten Im Laufe der Evaluation mit OpenFace ist aufgefallen, dass dunkelhäutige Personen im Datenset tendenziell häufiger als hellhäutige inkorrekt klassifiziert wurden. Insgesamt waren ca. 43% der falsch Klassifizierungen dunkelhäutig, bei einer 17,7% Vertretung dunkelhäutiger Personen im Datenset. Vor allem die mehrmalige Verwechslung der in der ersten Zeile in Abbildung 38 abgebildeten Personen ist verwunderlich, da diese sowohl eine komplett andere Kopfform, als auch eine anderen Hauttyp aufweisen. Die zweite Zeile im Bild stellt andere Vergleichsbilder von Ramos da, die eine geringere Ähnlichkeit, als das Bild von Kingsley aufgewiesen haben.

56 6 Evaluation 56 Abbildung 38: Auffälligkeiten bei der Evaluation, Bilderquelle:[6][3] Ob diese Verhalten jedoch am trainierten Modell von OpenFace oder den verwendeten Bildern liegt, kann aufgrund der kleinen Menge an Testbildern nicht endgültig geklärt werden. Erwähnenswert ist auch der Vergleich eines mit dem Computer modellierten Gesichtes mit der wirklichen Aufnahme der Person. Interessanterweise wies dieses Modellbild beim Vergleich mit einer Realaufnahme eine hohe Ähnlichkeit auf. Teilweise wies dieses sogar eine höhere Ähnlichkeit als andere Vergleichsbilder der Person auf. Abbildung 39: Vergleich eines mit dem Computer modellierten Gesichtes mit einer Aufnahme, Bilderquellen:[5][3]