Object Recognition with Convolutional Neural Networks

Transkript

1 Object Recognition with Convolutional Neural Networks Michael Ziegler Seminar KI: gestern, heute, morgen Angewandte Informatik, Universität Bamberg Zusammenfassung. In dieser Arbeit wird auf Objekterkennung mit Convolutional Neural Networks (CNNs) eingegangen. Dazu werden zunächst neuronale Netzwerke erklärt, welche die Grundlage für CNNs bilden. Dann wird auf die Architektur und Funktionsweise von CNNs eingegangen. Abschließend werden zwei Ansätze zur Objekterkennung näher gebracht und miteinander verglichen. Schlüsselwörter: Neural networks, Convolutional Neural Networks, Image Classification, Object recognition 1 Einleitung Objekterkennung ist für Maschinen keine einfache Aufgabe, auch Menschen fällt es schwer bestimmte Objekte zu unterscheiden bzw. eine eindeutige Objektbezeichnung zu bestimmen. Sobald Objekte von Maschinen erkannt werden sollen, soll dies meist auf Basis von Video- bzw. Bilddaten geschehen. Einen ersten Durchbruch bezüglich der computerbasierten Klassifizierung von Bildern mithilfe neuronaler Netzwerke erreichten LeCun et al. (1990), indem sie hierzu ein Convolutional Neural Network (CNN) zur Erkennung von Postleitzahlen verwendeten. Dies brachte kurze Zeit neues Interesse in das Gebiet der neuronalen Netze. Nach der Anwendung des Netzwerkes von Krizhevsky, Sutskever und Hinton (2012) in der ImageNet Large-Scale Visual Recognition Challenge 2012 (ILSVRC), in welcher eine Fehlerrate von nur 16,4% (15,3% mit Vortraining) erreicht wurde, setzt sich dieses bis heute fort. Klassifizierung ist jedoch nicht alleiniger Bestandteil der Objekterkennung, hinzukommt die Lokalisation des jeweiligen Objektes. Object Detection ist ein Verfahren der Lokalisierung, hier wird jedes erkannte Objekt im Bild mit einem Rechteck markiert, welches die Ausmaße des Objektes möglichst begrenzt, aber gleichzeitig komplett umschließt (engl. Minimum Bounding Box). Eine andere Herangehensweise ist, die der semantischen Segmentierung von Bildern. Hier wird jedes Pixel klassifiziert, dadurch kann ein Bild in Regionen eingeteilt werden, welche dann die jeweiligen Objekte kennzeichnen. Auch hierfür können CNNs eingesetzt werden. Dies zeigen Long, Shelhamer und Darrell (2015) in ihrer Arbeit, in welcher sie damalige aktuelle Techniken bei Genauigkeit und Schnelligkeit übertreffen. Beide Ansätze können in Abbildung 1 betrachtet werden.

2 Abb. 1. Resultierende Regionen aus einer semantischen Segmentierung (links (Mottaghi et al., 2014)) und Minimum Bounding Boxes (rechts (Redmon et al., 2016)). In dieser Arbeit werden zuna chst unter Abschnitt 2 die grundlegenden Bestandteile und Funktionsweisen von neuronalen Netzen beschrieben. Im Anschluss werden CNNs (Abschnitt 3) erkla rt und abschließend unter Abschnitt 4 auf zwei Ansa tze zur Objekterkennung mit CNNs na her eingegangen. Deren erste Arbeiten stammen jeweils von Girshick, Donahue, Darrell und Malik (2014) und Redmon et al. (2016). 2 Neuronales Netz Ein neuronales Netz ist eine Menge von verbundenen Perzeptronen, auch Neuronen genannt, welche durch Anpassung ihrer Parameter trainiert werden. U bliche Trainingsziele, basierend auf dem Ausgabevektor (auch als Tensor bezeichnet), sind die Klassifikation, Replikation und oder allgemein die Abstraktion der Eingangsdaten. Besonders die Klassifizierung ist im Kontext der Objekterkennung wichtig. 2.1 Perzeptron Aufbauend auf einer ersten Formalisierung von Rosenblatt (1958) haben Minsky und Papert (1969) verschiedene Modelle fu r Perzeptronen erstellt. Ein allgemeiner Aufbau eines Perzeptrons wird im Folgenden gegeben. Ein Perzeptron gewichtet eine Reihe von Eingangsdaten und summiert diese auf (siehe Formel 1). X steht dabei fu r die zu gewichtenden Daten und W fu r die zugeho rigen Gewichte. net(x, W ) = n X i=0 xi wi (1)

3 Zusätzlich zu den eigentlichen Gewichten wird ein Schwellwert in der Summenfunktion miteinbezogen, welcher ebenfalls vom Netzwerk trainiert wird. Dies erlaubt dem Trainingsalgorithmus einen Einfluss auf die Aktivierungsfunktion zu haben. Oft wird der Schwellwert einfach als Gewicht w 0 im Perzeptron gesehen. Der zugehörige Datenwert x 0 ist daher immer gleich 1 (Rumelhart, Hinton & Williams, 1986, S. 533; Zell, 1994, S ). Auf den Ergebniswert der Summenfunktion wird eine Aktivierungsfunktion (siehe Abschnitt 2.2) angewendet und der resultierende Wert weitergegeben. Ein Perzeptron hat auf den Weitergabewert bzw. auf die Aktivierung des Neurons nur durch seine Gewichte Einfluss (McCulloch & Pitts, 1943, S. 115). Eine beispielhafte Darstellung eines Perzeptrons und die Beziehungen zwischen Daten, Gewichten und Aktivierungsfunktion (in diesem Fall eine Leaky-ReLU-Funktion, siehe Abschnitt 2.2 und Formel 3) kann in Abbildung 2 betrachtet werden. 1 x 0 Schwellwert w 0 x 1 w 1 x 2 w 2.. Aktivierungsfunktion x n Daten w n Gewichte Abb. 2. Grafische Darstellung eines Perzeptrons, inklusive Aktivierungsfunktion und Schwellwert. 2.2 Aktivierungsfunktion Da das Perzeptron nur bei signifikanten Daten aktiviert werden soll, wird eine Aktivierungsfunktion definiert. Die aufsummierten Gewichtungen werden dieser Funktion (inklusive Schwellwert) übergeben und je nach Funktionsdefinition, wird dann das Neuron aktiviert. Diese kann je nach Anwendungsfall beliebig ausfallen. Im Grunde gibt die Aktivierungsfunktion vor, mit welchem Wertebereich im Anschluss weitergearbeitet wird. Neben anderen hat sich besonders die Rectified Linear Unit (ReLU) als allgemein gut erwiesen (Goodfellow, Bengio & Courville, 2016, S. 168). Diese ist durch Formel 2 definiert. Die Funktion aktiviert nur, falls Werte größer als Null übergeben werden.

4 ReLU : f act (x) = max(0, x) (2) Leaky ReLU : f act (x) = max(0.1x, x) (3) 1 Sigmoid : f act (x) = 1 + e x (4) Falls durch den Lernalgorithmus (siehe Abschnitt 2.4) die Gewichte des jeweiligen Neurons in einer Weise angepasst wurden, dass nur negative Werte die ReLU-Funktion erreichen, ist es sehr wahrscheinlich, dass das Neuron in Zukunft nicht mehr aktiviert wird (Goodfellow et al., 2016, S. 187). Daher gibt es Abwandlungen der ReLU-Funktion welche auch bei negativen Werten aktivieren (siehe Formel 3). Im Gegensatz hierzu normalisiert Formel 4 alle Eingangswerte auf Ausgangswerte zwischen 0 und 1. Die jeweilige Funktion wird vor dem Training gewählt und ist in der Regel für alle Neuronen im Netzwerk gleich. 2.3 Feedforward Neural Network Generell lassen sich Feedforward- (FFNN) und Feedback Neural Networks als Arten der neuronalen Netze unterscheiden. Da jedoch auf CNNs hingeführt wird, welche eine Unterart der FFNNs darstellen, wird nur auf FFNNs eingegangen. Bei FFNNs werden die Daten bzw. Ergebnisse jeweils an die nächste Ebene weitergegeben. FFNNs sind in drei Arten von Ebenen organisiert (Rumelhart et al., 1986, S. 533; Yegnanarayana, 1999, S ): Eingabeebene E Hier werden die zu verarbeitenden Daten eingelesen. Es existiert immer nur eine Eingabeebene. Verborgeneebene V Diese besteht aus Neuronen, welche die Daten aus der vorherigen Ebene abstrahieren. Es ist möglich beliebig viele verborgene Ebenen zu verwenden, jedoch erhöht sich dadurch die Lern- und Klassifizierungszeit. Jede verborgene Ebene kann wiederum beliebig viele Neuronen beinhalten. Die gewählte Anzahl hängt vom Anwendungsfall ab. In Ripley (1996, S ) werden verschiedene Methoden zur Parameterwahl betrachtet. Eine klare Empfehlung kann nicht gegebenen werden, da jede Methode einige Nachteile hat. Generell kann jedoch die Fehlerrate durch eine Erhöhung der Neuronen in der ersten verborgenen Ebene stark verringert werden. Dies führt jedoch in manchen Fällen zu Overfitting (Bengio, 2009, S. 18). Die erste verborgene Ebene ist direkt mit der Eingangsebene verbunden. Ausgabeebene A Die Ausgabeebene stell meist die Klassifizierung bzw. endgültige Abstraktion der Eingangsdaten dar. Sie erhält ihre Daten aus der letzten verborgenen Ebene. Auf Basis dieser Ergebnisse kann dann ein Lernalgorithmus angewendet werden.

5 Eine beispielhafte Darstellung eines FFNNs kann Abbildung 3 entnommen werden. Eingabeebene Verborgeneebene Ausgabeebene E 1 V 1 E 2 E 3. V 2. V n2. A 1 A n3 E n1 Abb. 3. Ein Feedforward Neural Network mit jeweils einer Eingabe-, Verborgenen- und Ausgabeebene. 2.4 Backpropagation Wie bereits in vorangegangenen Abschnitten beschrieben, haben hauptsächlich die Gewichte der einzelnen Neuronen, neben der Aktivierungsfunktion und den Eingangsdaten, einen Einfluss auf den Ausgabevektor. Nun wäre es möglich jedes Gewicht im Netzwerk manuell anzupassen, um das gewünschte Ergebnis zu erzielen. Da dies aber schon wegen der sehr großen Menge an Gewichten scheitern wird, ist dafür ein Lernalgorithmus notwendig. Der Backpropagation-Algorithmus von Rumelhart et al. (1986) eignet sich für das Lernen in mehrstufigen neuronalen Netzwerken. Dieser ist eine Verallgemeinerung der Delta-Regel (Zell, 1994, S. 108), welche nur für einstufige Netze verwendet werden kann. Beide basieren auf der Minimierung des Fehlers, auch Gradient Descent genannt, welcher durch die Fehlerfunktionen 5 und 6 berechnet wird. Dabei ist der Gesamtfehler E die Summe der Fehler über alle Muster E p. E p ist der quadrierte Unterschied zwischen dem erwarteten Wert t (aus den Trainingsdaten) und dem berechneten Wert o für ein bestimmtes Neuron j (Zell, 1994, S. 106).

6 E = p E p (5) E p = 1 (t pj o pj ) 2 (6) 2 j Eine Veränderung des Fehlerwertes, wird durch Anpassung der Gewichte W um einen Bruchteil W erreicht (siehe Formel 7). Dieser verhält sich gegenüber dem negativen Gradienten E(W ) der Fehlerfunktion und dem Faktor η proportional, welcher auch als Lernfaktor oder Schrittweite bezeichnet wird (Zell, 1994, S. 106). W = η E(W ) (7) Durch Anwendung der Kettenregel auf Formel 7 und einigen Modifikationen (genaueres in den Arbeiten von Zell (1994) und Rumelhart et al. (1986)) ergibt sich folgende Formel zur Berechnung der Veränderung eines bestimmten Gewichtes (Zell, 1994, S. 110): p w ij = ηo pi δ pj (8) mit δ pj = { f act(net pj )(t pj o pj ) falls j eine Ausgabezelle ist, f act(net pj ) k δ pkw jk falls j eine verdeckte Zelle ist. (9) Falls als Aktivierungsfunktion ReLU (siehe Formel 2) verwendet wird, ergibt sich: f act = 1 (10) Was den Lernprozess vereinfacht und gleichzeitig beschleunigt. Der Algorithmus wird bis heute erfolgreich angewendet. Im größeren Maßstab bereits durch LeCun et al. (1989), wo handgeschriebene Postleitzahlen mithilfe von Backpropagation erkannt werden konnten, obwohl (zu dieser Zeit noch ungewöhnlich) direkt Bilddaten statt Feature-Vektoren an das neuronale Netz gegeben wurden. 3 Convolutional Neural Network Die Arbeiten von LeCun et al. (1989) und Denker et al. (1989) legten die Grundlage für das erste Convolutional Neural Network (CNN) in LeCun et al. (1990). Ein CNN unterscheidet sich gegenüber einem klassischen Feedforward Neural Network (siehe Abschnitt 2.3) durch eine Reihe an speziellen verborgenen Ebenen, welche jeweils eine andere Aufgabe übernehmen. Diese werden im Folgenden beschrieben.

7 3.1 Convolutional Layer Da das CNN ursprünglich zur Klassifizierung von Bildern entwickelt wurde, verwendet es Methoden zur Erkennung und Kombinierung lokaler Merkmale. Jedes Neuron in einem Convolutional Layer ist für einen bestimmten Bereich der Eingangsdaten zuständig, dies wird auch Receptive Field genannt. Da jedoch, vor allem in der Bildverarbeitung, bestimmte Merkmale nicht immer an der gleichen Stelle in den Eingangsdaten vorkommen, werden Neuronen mit den gleichen Gewichten auf alle Bereiche der Daten angewendet. Sie untersuchen somit die Daten auf die gleichen Merkmale. Die aggregierten Zustände der Neuronen, welche die gleichen Gewichte haben, werden Feature Maps oder auch Activation Maps genannt (LeCun et al., 1990, S. 399). Eine grafische Visualisierung kann in Abbildung 4 betrachtet werden. Um einzelne Merkmale zu Objekten kombinieren zu können, sind mehrere solcher Feature Maps nötig. Ein einzelner Convolutional Layer besteht somit aus mehreren Feature Maps. Abb. 4. Feature Maps (links) und die jeweiligen Eingangsdaten (rechts). Die farbigen Pixel stellen dabei die erkannten Merkmale dar (Zeiler & Fergus, 2014, S. 4). Der Convolutional Layer kann durch eine Vielzahl von Parametern beeinflusst werden, welche neben der eigentlichen Verarbeitung auch die Größe des Ebenen-Outputs und damit die Anzahl der Neuronen bestimmen. Diese werden im Folgenden näher beschrieben (Karpathy, 2015): Größe des Rezeptive Fields F Durch die Größe des Rezeptive Fields wird festgelegt, welche Datenmenge jedes Neuron des Convolutional Layers verarbeiten muss. Dabei sind die Eingangsdaten, speziell im Bereich der Bildverarbeitung, als dreidimensional zu sehen. Beispielsweise hat ein Bild mit einer Höhe und Weite von 32 Pixeln und einem Rot, Grün und Blau Kanal ein Volumen von Ein Rezeptive Field mit einer Größe von 4 4, würde somit ein Volumen von 4 4 3

8 betrachten, da ein Rezeptive Field immer die komplette Tiefe verarbeitet. Dementsprechend verhält sich auch die Anzahl der Gewichte, der jeweiligen Neuronen. In diesem Beispiel hätte jedes Neuron dieser Ebene 48 Gewichte (zuzüglich eines Gewichtes für den Schwellwert, siehe Abschnitt 2.1). Schrittweite des Rezeptive Fields S Die Schrittweite bestimmt die Pixelanzahl, um welche das Feld verschoben wird, nach dem Wechseln zum nächsten Neuron. Tiefe des Convolutional Layers Die Tiefe des Convolutional Layers gibt die Anzahl der Merkmale vor, auf welche die Eingangsdaten untersucht werden sollen. Sie ist dadurch mit der Anzahl an Feature Maps gleichzusetzen (siehe Abbildung 5). Input Padding P Häufig werden Eingangsdaten nicht in dem gewünschten Volumen zur Verfügung gestellt. Dies kann mithilfe von Padding der Eingabedaten umgangen werden. Dabei werden die Daten um Nullwerte erweitert und somit das eigentliche Volumen vergrößert. Abb. 5. Ein Convolutional Layer (blau) welcher einen Stapel von Neuronen auf einen Bereich der Eingangsdaten (rot), der Größe , anwendet (Karpathy, 2015). Mithilfe von Formel 11, 12 und 13 kann jeweils die Breite, Höhe und Tiefe des Ausgabevolumens des Convolutional Layers berechnet werden. Eingabedaten W mit den Dimensionen von , ein Rezeptive Field mit Höhe und Weite von 5, ein Padding von 3, eine Schrittweite von 3 und eine Tiefe von 10 würde ein Ausgabevolumen von Werten bzw. ein Layer von Neuronen ergeben.

9 W 2 = W 1 F + 2P + 1 S (11) H 2 = H 1 F + 2P + 1 S (12) D 2 = K (13) 3.2 Pooling Layer Laut LeCun et al. (1990, S. 400) benötigen Features, welche im hierarchischen Aufbau eines Objektes auf einer höheren Ebene liegen, keine hohe Genauigkeit im räumlichen Bezug. Außerdem sei eine reduzierte Genauigkeit sogar vorteilhaft, da ein schwaches Versetzen des Inputs eine reduzierte Auswirkung auf die Repräsentation im Netzwerk hat. Um dies zu erreichen setzen LeCun et al. (1990) einen Averaging Layer ein. Heute wird allgemein von einem Pooling Layer gesprochen. Dazu werden die berechneten Feature Maps in Bereiche eingeteilt, auf welche eine Funktion angewendet wird. Häufig verwendet werden die MAX- oder AVG-Funktion, welche den größten oder den durchschnittlichen Wert berechnen. Durch diese Operation verkleinert sich die Menge an Daten und damit auch die benötigte Rechenleistung und den Speicherbedarf in sukzessiven Schritten. Besonders der MAX-Pooling Layer führt zu einem Informationsverlust. Falls beispielsweise zwei hohe Werte in einem der Bereiche des Pooling Layers vorkommen, wird nur einer davon übernommen. Die Information, dass sich an dieser Stelle eine hohe Konzentration von großen Werten befand, geht damit in folgenden Ebenen verloren. Um weiterhin den Backpropagation-Algorithmus anwenden zu können, muss neben den eigentlichen berechneten Werten des Pooling Layers, auch die Position der Werte in der vorangegangenen Ebene gespeichert werden (Karpathy, 2015). Springenberg, Dosovitskiy, Brox und Riedmiller (2014) beschreiben hingegen, dass der Pooling Layer auch durch einen Convolutional Layer ausgetauscht werden kann, ohne das ein Genauigkeitsverlust stattfindet. 3.3 Activation Layer Um einen modularen Aufbau und Performance-Gewinn zu erreichen, wird oft in modernen Deep Learning Frameworks 1 die Aktivierungsfunktion vom Neuron losgelöst. Stattdessen kommt eine dedizierte Ebene zum Einsatz, welche nur für das Anwenden der Aktivierungsfunktion auf alle gegebenen Werte zuständig ist. Eine erhöhte Performance kann beispielsweise erreicht werden, falls der Activation Layer erst nach dem Pooling Layer verwendet wird, da hier weniger Werte verarbeitet werden müssen. 1 Tensorflow:

10 3.4 Fully Connected Layer Der Fully Connected Layer ist dabei für die Klassifizierung der Ergebnisse aus vorangegangen Daten zuständig. Daher ist er nur am Ende eines CNNs einzusetzen. Er besteht aus einer Reihe von Neuronen, wobei jedes Neuron auf alle Daten des vorangegangen Layers Zugriff hat. 4 Objekterkennung mithilfe von CNN s 4.1 R-CNN Mit R-CNN verbesserten Girshick et al. (2014) im Vergleich zu früheren Objekterkennungsverfahren die Erkennungsrate erheblich. Ihre Methode gliedert sich in drei Teilbereiche auf: Region Proposals Zunächst werden aus Bildern Vorschläge für Regionen kalkuliert, dies geschieht durch Selective Search (Uijlings, Van De Sande, Gevers & Smeulders, 2013) welche eine Kombination von Exhaustive Search und Segmentierung darstellt, die hierzu verwendete Methode ist jedoch vom Rest der Schritte unabhängig. So kann auch ein anderer Algorithmus für diesen Zweck verwendet werden. Feature Extraction Das von Girshick et al. benutzte CNN akzeptiert nur RGB-Bilder der Größe Pixel. Die errechneten Regionen müssen daher auf diese Größe transformiert werden. Hierzu wird zunächst eine Minimum Bounding Box um die Region erzeugt. Dann wird diese Box um eine Anzahl von Pixel p erweitert, um den Kontext um die Region einzuschließen. Im betrachteten Papier wurde ein p = 16 verwendet. Als letzter Transformationsschritt wird das Bild dann, auf die vom CNN benötige Größe, gezerrt. Das verwendete CNN erzeugt durch Anwendung von fünf Convolutional Layer (siehe Abschnitt 3.1) und zwei Fully Connected Layer (siehe Abschnitt 3.4) einen Feature-Vektor mit 4096 Dimensionen. Dieser wird für jede im vorigen Schritt erkannte Region erzeugt. Klassifizierung Diese werden mithilfe von State Vector Machines (näheres in Cortes und Vapnik (1995)) klassifiziert. Leider ist das Verfahren nicht schnell (47s pro Bild auf einer Nvidia K40 GPU übertaktet auf 875 MHz), dies liegt laut Girshick (2015) vor allem daran, dass pro Region Proposal ein Feature Vektor separat berechnet wird. Das verbesserte Verfahren, Fast R-CNN, vermeidet dies, indem jedes Bild durch ein Fully Convolutional Network geschickt wird und deren Ergebnisse mithilfe eines Region of Interest (RoI) Layers in Feature-Vektoren transformiert wird. Durch Fully Connected Layer werden dann aus den Feature Vektoren die Klassifizierungen, als auch eine verbesserte Bounding Box für die jeweiligen Objekte erzeugt.

11 Weiterhin ist auch bei Fast R-CNN die eigentliche Erzeugung der Region Proposals zeitaufwändig. Mit Faster R-CNN wird dies durch ein Region Proposal Network (RPN) übernommen (Ren, He, Girshick & Sun, 2015). Eine weitere Entwicklung von R-CNN ist der Einsatz von Masken, welche eine weitere Objektrepräsentation neben den Bounding Boxes darstellt, genannt Mask R-CNN (He, Gkioxari, Dollár & Girshick, 2017). 4.2 YOLO Das Verfahren von Redmon et al. (2016) zur Objekterkennung zeichnet sich durch seine Einfachheit aus. Sowohl Klassifizierung als auch Lokalisierung erfolgen durch ein einziges CNN. Ein gegebenes Bild, welches auf Objekte untersucht werden soll, wird somit nur einmal betrachtet. Daher auch der Name des Verfahrens: You Only Look Once (YOLO). Laut den Autoren hat dieses Verfahren den Vorteil gegenüber mehrstufigen Verfahren, wie z.b. R-CNN (siehe Abschnitt 4.1), dass es einfacher optimiert werden kann. Gleichzeitig sehen sie Objekterkennung als Regressionsproblem, welches durch eine Hierarchie von Bounding Boxes und deren Klassifizierung gelöst werden kann. Im Gegensatz zu R-CNN basiert YOLO seine Klassifikationen auf dem kompletten Bildinhalt. Dies bedeutet, dass der Kontext eines bestimmten Objektes mit in die Klassifizierung einbezogen wird. Bei R-CNN geschieht dies auch (durch den zusätzlichen Rand der Bounding Boxes), jedoch im kleineren Umfang. Hierdurch macht YOLO weniger Fehlklassifikationen für Hintergründe im Vergleich mit Fast R-CNN (siehe Abbildung 6). Zusätzlich schafft YOLO eine bessere Generalisierung der gelernten Daten. Dadurch ist YOLO besser auf unerwartete Situationen vorbereitet, wie beispielsweise die Klassifizierung von gemalten Bildern. Jedoch macht YOLO im Vergleich mit Fast R-CNN häufiger Lokalisierungsfehler. Abb. 6. Durchschnittliche Lokalisierungs- und Hintergrundfehlerraten über 20 Klassen (Redmon et al., 2016).

12 Durch den einfachen Verarbeitungsprozess, ist auch die Objekterkennung sehr schnell, so ist bei der Standard Ausführung von YOLO (24 Convolutional Layer mit Max Pooling und 2 Fully Connected Layer) eine Erkennungsrate von 45 FPS möglich. Bei einer Variante von YOLO, welche auf Schnelligkeit getrimmt wurde (9 statt 24 Convolutional Layer und weniger Filter) ist eine Rate von 155 FPS möglich. Besonders im Bereich der Echtzeitsysteme sind beide YOLO-Varianten anderen Verfahren, im Bezug auf die Erkennungsrate, stark überlegen. Verglichen mit Systemen welche besonders hohe Erkennungsraten erreichen, schafft YOLO auch gute Ergebnisse. Vergleichsdaten können Tabelle 1 entnommen werden. Die Daten wurde mit einer Titan X GPU ermittelt. Tabelle 1. Vergleich von YOLO mit anderen Verfahren, gegliedert nach Echtzeitsystemen und Systemen mit hohen Erkennungsraten. Die Spalte Train bezieht sich, bei Echtzeitsystemen, auf Pascal VOC des jeweiligen Jahres (Redmon et al., 2016). Real-Time Detectors Train map FPS 100Hz DPM Hz DPM Fast YOLO YOLO Less Than Real-Time Fastest DPM R-CNN Minus R Fast R-CNN Faster R-CNN VGG Faster R-CNN ZF YOLO VGG Wie bereits beschrieben, wird die Objekterkennung durch ein CNN durchgeführt. Dieses teilt gegebene Bilder in ein S S Gitter ein. Jede Zelle des Gitters berechnet eine Anzahl B an Bounding Boxes, sowie einen Confidence- Faktor voraus. Der Confidence-Faktor besteht dabei aus der Wahrscheinlichkeit, dass die jeweilige Zelle ein Objekt enthält, sowie die Genauigkeit der vorhergesagten Box. Dies wird als P r(object) IOUpred truth definiert. Eine Bounding Box wird durch ihre Position im Bild (x, y) und ihre Größe (w, h) bestimmt. Neben den Vorhersagen für die Lokalisierung des Objektes wird auch die Klassifizierung pro Zelle erledigt. Jede Zelle ist dabei für eine Anzahl C an Klassen zuständig. Diese werden durch den Term P r(class i Object) ausgedrückt. Beide Information werden dann am Ende zur Objekterkennung kombiniert. Der Tensor des CNN hat ein Volumen von S S (B 5+C). Außerdem können die klassenspezifischen Confidence-Faktoren durch Formel 14 ausgedrückt werden (Redmon et al., 2016). P r(class i Object) P r(object) IOU truth pred = P r(class i ) IOU truth pred (14)

13 Der Nachfolger von YOLO, YOLO9000 bzw. YOLOv2 von Redmon und Farhadi (2016) adressiert Probleme von YOLO und bringt einige Modifikationen. Die einzelnen Techniken und ihre Auswirkungen können in Tabelle 2 betrachtet werden. Besonders die Verwendung von höher auflösenden Bildern für das Training des Netzwerkes, sowie der Einsatz von Anchor-Boxen (wie bei Faster R-CNN) sind für eine höhere Genauigkeit verantwortlich. Eine genauere Erklärung der einzelnen Änderungen findet sich in der Primärquelle. Tabelle 2. Übersicht der Erweiterungen von YOLOv2 im Vergleich mit YOLO und deren Wirkung auf die Genauigkeit (Redmon & Farhadi, 2016). YOLO YOLOv2 batch norm? hi-res classifier? convolutional? anchor boxes? new network? dimension priors? location prediction? passthrough? multi-scale? hi-res detector? VOC2007 map Fazit Im Rahmen dieser Arbeit wurde in die Objekterkennung mithilfe Convolutional Neural Networks eingeführt. Dazu wurden zunächst die Grundlagen, in Form von neuronalen Netzwerken und Backpropagation erarbeitet, um danach die einzelnen Bestandteile von CNNs darzustellen. Abschließend wurden zwei moderne Ansätze zur Objekterkennung betrachtet und gegenübergestellt, wobei beide als Grundlage CNNs einsetzen. Nicht betrachtet wurden in dieser Arbeit allgemein rekurrente neuronale Netze. Diese zeichnen sich, im Gegensatz zu FFNNs, durch Verbindungen zu vorangegangenen Ebenen aus. Liang und Hu (2015) schlagen in ihrer Arbeit ein Recurrent Convolutional Neural Network (RCNN) vor, welches sich ebenfalls zur Objekterkennung eignet und anderen Modellen der damaligen Zeit überlegen ist. Ein weiterer Ansatz für die zukünftige Forschung wäre die Synthese zwischen RCNNs und den Techniken welche in R-CNN und YOLO erarbeitet wurden, hierdurch könnten mögliche Optimierungspotentiale aufgezeigt werden. Literatur Bengio, Y. (2009). Learning Deep Architectures for AI. Foundations and trends in Machine Learning, 2 (1),

14 Cortes, C. & Vapnik, V. (1995). Support-vector networks. Machine learning, 20 (3), Denker, J. S., Gardner, W. R., Graf, H. P., Henderson, D., Howard, R. E., Hubbard, W.,... Guyon, I. (1989). Neural network recognizer for hand-written zip code digits. In Advances in neural information processing systems (S ). Girshick, R. (2015). Fast r-cnn. In Proceedings of the ieee international conference on computer vision (S ). Girshick, R., Donahue, J., Darrell, T. & Malik, J. (2014). Rich feature hierarchies for accurate object detection and semantic segmentation. In Proceedings of the ieee conference on computer vision and pattern recognition (S ). Goodfellow, I., Bengio, Y. & Courville, A. (2016). Deep learning. MIT Press. He, K., Gkioxari, G., Dollár, P. & Girshick, R. (2017). Mask r-cnn. arxiv preprint arxiv: Karpathy, A. (2015). CS231n Convolutional Neural Networks for Visual Recognition. Zugriff am auf convolutional-networks/ Krizhevsky, A., Sutskever, I. & Hinton, G. E. (2012). Imagenet classification with deep convolutional neural networks. In Advances in neural information processing systems (S ). LeCun, Y., Boser, B., Denker, J. S., Henderson, D., Howard, R. E., Hubbard, W. & Jackel, L. D. (1989). Backpropagation Applied to Handwritten Zip Code Recognition. Neural Computation, 1 (4), LeCun, Y., Boser, B. E., Denker, J. S., Henderson, D., Howard, R. E., Hubbard, W. E. & Jackel, L. D. (1990). Handwritten digit recognition with a back-propagation network. In Advances in neural information processing systems (S ). Liang, M. & Hu, X. (2015). Recurrent Convolutional Neural Network for Object Recognition. In Proceedings of the ieee conference on computer vision and pattern recognition (S ). Long, J., Shelhamer, E. & Darrell, T. (2015). Fully convolutional networks for semantic segmentation. In Proceedings of the ieee conference on computer vision and pattern recognition (S ). McCulloch, W. S. & Pitts, W. (1943). A logical calculus of the ideas immanent in nervous activity. The bulletin of mathematical biophysics, 5 (4), Minsky, M. & Papert, S. (1969). Perceptrons. MIT Press. Mottaghi, R., Chen, X., Liu, X., Cho, N.-G., Lee, S.-W., Fidler, S.,... Yuille, A. (2014). The role of context for object detection and semantic segmentation in the wild. In Proceedings of the ieee conference on computer vision and pattern recognition (S ). Redmon, J., Divvala, S., Girshick, R. & Farhadi, A. (2016). You only look once: Unified, real-time object detection. In Proceedings of the ieee conference on computer vision and pattern recognition (S ).

15 Redmon, J. & Farhadi, A. (2016). Yolo9000: better, faster, stronger. arxiv preprint arxiv: Ren, S., He, K., Girshick, R. & Sun, J. (2015). Faster r-cnn: Towards real-time object detection with region proposal networks. In Advances in neural information processing systems (S ). Ripley, B. D. (1996). Pattern recognition and neural networks. Cambridge university press. Rosenblatt, F. (1958). The perceptron: A probabilistic model for information storage and organization in the brain. Psychological review, 65 (6), 386. Rumelhart, D. E., Hinton, G. E. & Williams, R. J. (1986). Learning representations by back-propagating errors. Nature, 323 (6088), Springenberg, J. T., Dosovitskiy, A., Brox, T. & Riedmiller, M. (2014). Striving for Simplicity: The All Convolutional Net. arxiv preprint ar- Xiv: Uijlings, J. R. R., Van De Sande, K. E. A., Gevers, T. & Smeulders, A. W. M. (2013). Selective Search for Object Recognition. International Journal of Computer Vision, 104 (2), Yegnanarayana, B. (1999). Artificial Neural Networks. Prentice-Hall of India. Zeiler, M. D. & Fergus, R. (2014). Visualizing and understanding convolutional networks. In European conference on computer vision (S ). Zell, A. (1994). Simulation Neuronaler Netze. Addison-Wesley.