1. Juni, 2017 Künstliche Intelligenz Stand der Forschung, Aktuelle Probleme & Herausforderungen Prof. Dr. Roland Kwitt Fachbereich Computerwissenschaften Universität Salzburg
Übersicht Begrifflichkeiten & Einführung Auswahl an aktuellen Problemen & Stand der Forschung Praktische Umsetzung im Unternehmen Herausforderungen
Begrifflichkeiten (1) Summe der kognitiven Fähigkeiten des Menschen? Künstliche Intelligenz
Begrifflichkeiten (1) Summe der kognitiven Fähigkeiten des Menschen? Künstliche Intelligenz (2) Generierung von Expertise Maschinelles Lernen durch Erfahrung.
Begrifflichkeiten (1) Summe der kognitiven Fähigkeiten des Menschen? Künstliche Intelligenz (2) Generierung von Expertise Maschinelles Lernen durch Erfahrung. Deep Learning (3) (Mächtige) Umsetzung von Punkt (2)
Begrifflichkeiten Zuwachs an Forschungsarbeiten zu KI-verwandten Themen über die letzen Jahre. 2600 Erwartete Anzahl an Einreichungen 2017 > 3000! Anzahl an Einreichungen 1950 1300 650 Neural Information Processing Systems (NIPS) 0 2001 2002 2005 2009 2014 2016
Maschinelles Sehen / Lernen Mit welchen Arten von Problem haben wir es zu tun? Klassifikation
Maschinelles Sehen / Lernen Mit welchen Arten von Problem haben wir es zu tun? Klassifikation Katze
Maschinelles Sehen / Lernen Mit welchen Arten von Problem haben wir es zu tun? Klassifikation & Lokalisation
Maschinelles Sehen / Lernen Mit welchen Arten von Problem haben wir es zu tun? Klassifikation & Lokalisation Katze + Koordinaten
Maschinelles Sehen / Lernen Mit welchen Arten von Problem haben wir es zu tun? Objekterkennung
Maschinelles Sehen / Lernen Mit welchen Arten von Problem haben wir es zu tun? Objekterkennung Katze Pferd
Maschinelles Sehen / Lernen Mit welchen Arten von Problem haben wir es zu tun? Segmentierung
Maschinelles Sehen / Lernen Mit welchen Arten von Problem haben wir es zu tun? Segmentierung
Maschinelles Sehen / Lernen Mit welchen Arten von Problem haben wir es zu tun? Fragen & Antworten Frage: Wie viele Tiere kommen im Bild vor? Antwort: 2 Frage: Welche / wie viele Tiere kommen vor? Antwort: Eine Katze, ein Pferd
Maschinelles Sehen / Lernen Mit welchen Arten von Problem haben wir es zu tun? Bildregistrierung
Maschinelles Sehen / Lernen Mit welchen Arten von Problem haben wir es zu tun? Bildregistrierung Transformation
Maschinelles Sehen / Lernen Mit welchen Arten von Problem haben wir es zu tun? Bildregistrierung Transformation
Deep Learning Grundideen Traditionell Merkmal Extraktion Klassifizierung Auto vom Entwickler vorgegeben, sozusagen designed by hand (z.b., Kanten, Farbinformationen, etc.) z.b., Kategorie des nähesten Nachbarn
Deep Learning Grundideen Traditionell Merkmal Extraktion Klassifizierung Auto vom Entwickler vorgegeben, sozusagen designed by hand (z.b., Kanten, Farbinformationen, etc.) z.b., Kategorie des nähesten Nachbarn Deep Learning (Deep Neural Networks) Low-level Merkmale Mid-level Merkmale High-level Merkmale Klassifizierung Auto Merkmale auf verschiedenen Ebene werden erlernt auf Basis von Trainingsdaten
Deep Learning Grundidee Ein künstliches Neuron Eingangssignal... Summe Eingangssignal Neuronales Netz: im Wesentlichen eine Zusammenschaltung von Bauelementen dieser Art!
Deep Learning Grundidee Deep Learning (Deep Neural Networks) Low-level Merkmale Mid-level Merkmale High-level Merkmale Klassifizierung Auto Merkmale auf verschiedenen Ebene werden erlernt auf Basis von Trainingsdaten
Deep Learning Grundidee Deep Learning (Deep Neural Networks) Low-level Merkmale Mid-level Merkmale High-level Merkmale Klassifizierung Auto Merkmale auf verschiedenen Ebene werden erlernt auf Basis von Trainingsdaten
Deep Learning Grundidee Deep Learning (Deep Neural Networks) Deep Learning Learning Hierarchical Representations Deep Learning == Learning Hierarchical Representations Y LeCun Y LeCun Low-level Mid-level High-level It's deep if has it has more than one stage non-linear feature transformation It's deep if it more than one stage of of non-linear feature transformation Merkmale Merkmale Merkmale Klassifizierung Low-Level Mid-Level Mid-Level High-Level High-Level Trainable Trainable Low-Level Feature Feature Feature Classifier Feature Feature Feature Classifier Merkmale auf verschiedenen Ebene werden erlernt auf Basis von Trainingsdaten Feature visualization convolutional trained ImageNet from [Zeiler & Fergus 2013] Feature visualization of of convolutional netnet trained on on ImageNet from [Zeiler & Fergus 2013] Auto
Deep Learning Grundidee Deep Learning (Deep Neural Networks) Deep Learning Learning Hierarchical Representations Deep Learning = Learning Hierarchical Representations Deep Learning == Learning Hierarchical Representations Y LeCun Y LeCun Y LeCun Low-level Mid-level High-level It's deep if has itif has more than one stage non-linear feature transformation It's deep itmore has more than one stage of non-linear feature transformation It's deep if it than one stage of of non-linear feature transformation Merkmale Merkmale Merkmale Low-Level Mid-Level High-Level Trainable Low-LevelMid-Level Mid-LevelHigh-Level High-Level Trainable Trainable Low-Level Feature Feature Feature Classifier Feature Feature Feature Feature Feature Classifier Classifier Feature Klassifizierung Merkmale auf verschiedenen Ebene werden erlernt auf Basis von Trainingsdaten Feature visualization convolutional trained ImageNet from [Zeiler & Fergus 2013] Feature visualization of convolutional net trained on ImageNet from [Zeiler & Fergus 2013] Feature visualization of of convolutional netnet trained on on ImageNet from [Zeiler & Fergus 2013] Auto
Deep Learning Grundidee Deep Learning (Deep Neural Networks) Low-level Merkmale Mid-level Merkmale High-level Merkmale Klassifizierung Auto Merkmale auf verschiedenen Ebene werden erlernt auf Basis von Trainingsdaten Erlernte (visuelle) Konzepte auf verschiedenen Ebenen
Deep Learning Grundidee Was bedeutet Lernen in diesem Zusammenhang? Trainingsdaten Neuronales Netz
Deep Learning Grundidee Was bedeutet Lernen in diesem Zusammenhang? Trainingsdaten Neuronales Netz Flugzeug (Ziel: Minimierung der Fehler über alle Kategorien) Kategorie: Flugzeuge Lernen = Einstellen günstiger Parameter
Aktuelle Probleme & Stand der Forschung 1. Klassifizierung von Fotos/Bildern vor 2012: ca. 45-47% Fehler 2011/2012: ca. 37% Fehler (@NIPS 2011) Aktuell*: ca. 21% Fehler (Netz mit ~25 Millionen Parameter) ImageNet (2010) Challenge ~1 Million Bilder in 1000 Kategorien *Xie et al., Aggregated Residual Transformations for Deep Neural Networks https://github.com/facebookresearch/resnext
indicates that registration results were di eomorphic). initial momentum networks highlighted in bold. best indicates that all all registration results were di eomorphic). OurOur initial momentum networks areare highlighted in bold. TheThe best results highlighted in bold. results areare alsoalso highlighted in bold. Aktuelle Probleme & Stand der Forschung (a) Moving image (a) Moving image (b) Target image (b) Target image (c) LDDMM (c) LDDMM (d) Predict (probabilistic) (d) Predict (probabilistic) 2. Registrierung von medizinischen Bildern (z.b., MRT) Ziel Quelle Yang et al., Quicksilver: Fast Predictive Image Registration https://github.com/rkwitt/quicksilver (e) Uncertainty (e) Uncertainty
indicates that all registration results were di eomorphic). Our initial momentum networks are highlighted in bold. The indicates that all registration results were di eomorphic). initial momentum networks highlighted in bold. bestbest indicates that all registration results were di eomorphic). OurOur initial momentum networks areare highlighted in bold. TheThe best results are also highlighted in bold. results also highlighted in bold. results areare also highlighted in bold. Aktuelle Probleme & Stand der Forschung (a) Moving image (a) Moving image (a) Moving image (b)image Target image (b) Target image (b) Target (c) LDDMM (c) LDDMM (c) LDDMM (d) Predict (probabilistic) (e) Uncertainty (e) Uncertainty (d) Predict (probabilistic) (e) Uncertainty (d) Predict (probabilistic) 2. Registrierung von medizinischen Bildern (z.b., MRT) Ziel Quelle Yang et al., Quicksilver: Fast Predictive Image Registration https://github.com/rkwitt/quicksilver Traditionell (Rechenzeit ca. 10 [min])
indicates indicates that that all all registration registration results results were were di eomorphic). di eomorphic). Our Our initial initial momentum momentum networks are are highlighted highlighted bold. inthe bold. The The bestbest indicates that all registration results were di eomorphic). Our initial momentum networks are highlighted in in bold. The best indicates that all registration results were di eomorphic). initial momentum networks are highlighted in bold. best indicates that all registration results were di eomorphic). OurOur initial momentum networks arenetworks highlighted in bold. The best results results are are also also highlighted highlighted in bold. in bold. results are also highlighted in bold. results are also highlighted in bold. results are also highlighted in bold. Aktuelle Probleme & Stand der Forschung (a) Moving (a) Moving image image (b) Target (b) image Target (b) image Target image image (c) LDDMM (c) LDDMM (c) LDDMM (a) Moving image (b)image Target (c) LDDMM (a) Moving image (b) Target (c) LDDMM (a) Moving image (d) Predict (d) Predict (probabilistic) (probabilistic) (e) Uncertainty (e) Uncertainty (d) Predict (probabilistic) (e) Uncertainty (d) Predict (probabilistic) (e) Uncertainty (d) Predict (probabilistic) (e) Uncertainty 2. Registrierung von medizinischen Bildern (z.b., MRT) Ziel Quelle Yang et al., Quicksilver: Fast Predictive Image Registration https://github.com/rkwitt/quicksilver Traditionell (Rechenzeit ca. 10 [min]) Neuronales Netz (Rechenzeit ca. 18 [s]) Unsicherheit (in der Vorhersage)
Aktuelle Probleme & Stand der Forschung 3. Image Translation ( Bildübersetzung ) Zebra Pferd Foto Monet VanGogh Monet Foto Isola et al., Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks https://github.com/junyanz/pytorch-cyclegan-and-pix2pix
Aktuelle Probleme & Stand der Forschung 4. Neural Style Transfer Transfer des Bildinhaltes hinsichtlich bekannter Stilrichtungen Foto Gatys et al., A Neural Algorithm of Artistic Style https://github.com/jcjohnson/neural-style
Aktuelle Probleme & Stand der Forschung 4. Neural Style Transfer Transfer des Bildinhaltes hinsichtlich bekannter Stilrichtungen Foto Gatys et al., A Neural Algorithm of Artistic Style https://github.com/jcjohnson/neural-style Sternennacht (van Gogh)
Aktuelle Probleme & Stand der Forschung 4. Neural Style Transfer Transfer des Bildinhaltes hinsichtlich bekannter Stilrichtungen Foto Gatys et al., A Neural Algorithm of Artistic Style https://github.com/jcjohnson/neural-style Sternennacht (van Gogh) The Shipwreck (William Turner)
Aktuelle Probleme & Stand der Forschung 4. Neural Style Transfer Transfer des Bildinhaltes hinsichtlich bekannter Stilrichtungen Foto Gatys et al., A Neural Algorithm of Artistic Style https://github.com/jcjohnson/neural-style Sternennacht (van Gogh) The Shipwreck (William Turner) The Scream (Edvard Munch)
Aktuelle Probleme & Stand der Forschung 5. Predictive video models Video (4 Frames) Vorhersage (12 Frames) Video (4 Frames) Vorhersage (12 Frames) Vondrick & Torralba, Generating the Future with Adversarial Transformers
Aktuelle Probleme & Stand der Forschung 5. Predictive video models Video (4 Frames) Vorhersage (12 Frames) Video (4 Frames) Vorhersage (12 Frames) Vondrick & Torralba, Generating the Future with Adversarial Transformers
Aktuelle Probleme & Stand der Forschung 5. Predictive video models Video (4 Frames) Vorhersage (12 Frames) Video (4 Frames) Vorhersage (12 Frames) Vondrick & Torralba, Generating the Future with Adversarial Transformers
Aktuelle Probleme & Stand der Forschung 5. Predictive video models Video (4 Frames) Vorhersage (12 Frames) Video (4 Frames) Vorhersage (12 Frames) Vondrick & Torralba, Generating the Future with Adversarial Transformers
Aktuelle Probleme & Stand der Forschung 5. Predictive video models Video (4 Frames) Vorhersage (12 Frames) Video (4 Frames) Vorhersage (12 Frames) Vondrick & Torralba, Generating the Future with Adversarial Transformers
Praktische Umsetzung im Unternehmen Momentane Fortschritt in dem Forschungsbereich angetrieben von Unternehmen.
Praktische Umsetzung im Unternehmen Hardware GPU (Graphics Processing Unit): z.b., Nvidia Titan X (Kostenpunkt: ca. 1200.-) Nvidia DevBox
Praktische Umsetzung im Unternehmen Software 1. TensorFlow (Google) 2. Torch / PyTorch (Facebook) 3. Caffe (UC Berkeley) 4. Theano Alle diese Frameworks werden momentan auch kommerziell eingesetzt. (z.b., Google Bildsuche, Facebook Face Recognition / Tagging, etc.)
Herausforderungen Im Wesentlichen fehlt es einer Maschine an Alltagsverstand (common sense). Der Ball bricht durch den Tisch weil er aus Styropor ist. Frage: Ist der Ball, oder der Tisch aus Styropor? (typisches Winograd Schema benannt nach Terry Winograd) Bei Fragen dieser Art, sind Maschinen zu ~60%, und Menschen zu ~95% korrekt.
Herausforderungen
Herausforderungen Supervised Learning (die meisten aktuellen Anwendungen + alle Beispiele von heute)
Herausforderungen Reinforcement Learning (erfolgreich bei Spielen, z.b., AlphaGo, Doom) Supervised Learning (die meisten aktuellen Anwendungen + alle Beispiele von heute)
Herausforderungen Reinforcement Learning (erfolgreich bei Spielen, z.b., AlphaGo, Doom) Supervised Learning (die meisten aktuellen Anwendungen + alle Beispiele von heute) Unsupervised/Predictive Learning (mehr oder weniger ungelöst)
Danke für Ihre Aufmerksamkeit! Fragen? Kontakt: roland.kwitt@sbg.ac.at