INTELLIGENTE DATENANALYSE IN MATLAB

Ähnliche Dokumente
INTELLIGENTE DATENANALYSE IN MATLAB. Datenselektion und Datenaufbereitung

INTELLIGENTE DATENANALYSE IN MATLAB. Überwachtes Lernen: Entscheidungsbäume

INTELLIGENTE DATENANALYSE IN MATLAB. Unüberwachtes Lernen: Clustern von Attributen

INTELLIGENTE DATENANALYSE IN MATLAB. Evaluation & Exploitation von Modellen

INTELLIGENTE DATENANALYSE IN MATLAB. Evaluation & Exploitation von Modellen

INTELLIGENTE DATENANALYSE IN MATLAB

INTELLIGENTE DATENANALYSE IN MATLAB

Entscheidungsbäume. Minh-Khanh Do Erlangen,

INTELLIGENTE DATENANALYSE IN MATLAB

Data Mining - Wiederholung

Problemanalye und Datenvorverarbeitung

Einführung in die medizinische Bildverarbeitung WS 12/13

Datenvorverarbeitung von nominalen Daten für Data Mining

Numerische Methoden. Thomas Huckle Stefan Schneider. Eine Einführung für Informatiker, Naturwissenschaftler, Ingenieure und Mathematiker.

Motivation. Themenblock: Data Preprocessing. Einsatzgebiete für Data Mining I. Modell von Gianotti und Pedreschi

fuzzy-entscheidungsbäume

Information Retrieval, Vektorraummodell

Kapitel 4: Data Mining

Kap. 7: Wavelets. 2. Diskrete Wavelet-Transformation (DWT) 4. JPEG2000. H. Burkhardt, Institut für Informatik, Universität Freiburg DBV-I 1

Decision Tree Learning

Navigation anhand natürlicher Landmarken mit Hilfe der Scale Invariant Feature Transform. Thorsten Jost INF-M2 AW1 Sommersemester

Projektbericht. Evaluation und Ableitung von Ergebnissen anhand eines Fragebogens zur Studentensituation an der Hochschule Wismar

dacore Datenbanksysteme AG Neue Konzepte zur Optimierung der Auslastungsplanung und Big Data im Informationsmanagement

Unüberwachtes Lernen: Clusteranalyse und Assoziationsregeln

Seminar Visual Analytics and Visual Data Mining

Einführung in Support Vector Machines (SVMs)

Multivariate Verfahren

Inhaltsverzeichnis. 2 Diagramme Standarddiagramme Signalverlaufsdiagramm Signalverlaufsgraph...

Lineare Gleichungssysteme Hierarchische Matrizen

Data Mining und Knowledge Discovery in Databases

Minimal spannende Bäume

Multimedia-Datenbanken im SS 2010 Einführung in MMDB

3D-Rekonstruktion aus Bildern

Universität Trier. Fachbereich IV. Wintersemester 2004/2005. Wavelets made easy. Kapitel 2 Mehrdimensionale Wavelets und Anwendungen

Bayesianische Netzwerke - Lernen und Inferenz

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK

Inhaltsverzeichnis. Kapitel 1: Rechnen mit Zahlen. Kapitel 2: Umformen von Ausdrücken. Kapitel 3: Gleichungen, Ungleichungen, Gleichungssysteme

Vorlesung 7 GRAPHBASIERTE BILDSEGMENTIERUNG

Gibbs sampling. Sebastian Pado. October 30, Seien X die Trainingdaten, y ein Testdatenpunkt, π die Parameter des Modells

3.3 Nächste-Nachbarn-Klassifikatoren

Rechenaufwand der LR- und LDL T - Zerlegung

Singular Value Decomposition

Numerische Mathematik

WMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou

Vorlesung. Data und Web Mining. Kurzinformation zur. Univ.-Prof. Dr. Ralph Bergmann. Lehrstuhl für Wirtschaftsinformatik II

Mustererkennung und Klassifikation

Modul Digitale Bildverarbeitung SS16 Bestandteile der Lehrveranstaltung und Prüfung: Vorlesungen Übungsserien Praktika (ImageJ) bis Mai 2016 Projekt

PG-402 Wissensmanagement: Zeitreihen in Datenbanken

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2008 Termin: 4. 7.

Vorlesung 2 KÜRZESTE WEGE

WEKA A Machine Learning Interface for Data Mining

Mathematische Probleme lösen mit Maple

Mathematische Grundlagen III

Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell

5 BINÄRE ENTSCHEIDUNGS- DIAGRAMME (BDDS)

Angewandte Statistik mit R

Visualisierung hochdimensionaler Daten. Hauptseminar SS11 Michael Kircher

k-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering

Foundations of uncertain data integration

Orthogonale Matrix. Definition 4.19

Data-Mining: Ausgewählte Verfahren und Werkzeuge

Syntaktische und Statistische Mustererkennung. Bernhard Jung

Intelligente Algorithmen Einführung in die Technologie

Naive Bayes für Regressionsprobleme

Inhalt. 4.1 Motivation. 4.2 Evaluation. 4.3 Logistische Regression. 4.4 k-nächste Nachbarn. 4.5 Naïve Bayes. 4.6 Entscheidungsbäume

Entscheidungsbäume aus großen Datenbanken: SLIQ

D-INFK Lineare Algebra HS 2017 Özlem Imamoglu Olga Sorkine-Hornung. Serie 11

Clusteranalyse: Gauß sche Mischmodelle

Vorlesung Datenstrukturen

Inhaltsverzeichnis. Vorwort. Abbildungsverzeichnis. Tabellenverzeichnis. 1 Einleitung Gegenstand Aufbau 4

NoSQL Datenbanken EIN ÜBERBLICK ÜBER NICHT-RELATIONALE DATENBANKEN UND DEREN POTENTIALE IM ALLGEMEINEN UND IN DER INDUSTRIE

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

Diskrete Fourier-Transformation und FFT. 1. Die diskrete Fourier-Transformation (DFT) 2. Die Fast Fourier Transform (FFT)

Maschinelles Lernen Entscheidungsbäume

Nutzung maschinellen Lernens zur Extraktion von Paragraphen aus PDF-Dokumenten

Relevante Fachgebiete für Data Mining

Predictive Modeling Markup Language. Thomas Morandell

Algorithmische Methoden für schwere Optimierungsprobleme

Bildverbesserung (Image Enhancement)

Moderne Methoden der KI: Maschinelles Lernen

Information Retrieval,

Inhaltsverzeichnis. Ulrich Stein. Programmieren mit MATLAB. Programmiersprache, Grafische Benutzeroberflächen, Anwendungen

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck

Seminar. Visual Computing. Poisson Surface Reconstruction. Peter Hagemann Andreas Meyer. Peter Eisert: Visual Computing SS 11.

Lernen von Entscheidungsbäumen. Volker Tresp Summer 2014

Transkript:

INTELLIGENTE DATENANALYSE IN MATLAB Datenselektion und Datenaufbereitung

Literatur I. H. Witten, E. Frank: Data Mining i Practical Machine Learning Tools and Techniques. J. Han, M. Kamber: Data Mining i Concepts and Techniques. 2

Überblick Sh Schritte der Datenanalyse: Datenvorverarbeitung Problemanalyse Problemlösung Anwendung der Lösung Aggregation und Selektion von Daten. Integration und Säuberung der Daten. Feature- Extraktion. Bestimmen von gegeb./gesuchten Größen. Wahl des Performanzmaß/ Zielkriteriums. Modellraum und Modellannahmen. Algorithmen für das Optimieren des Zielkriteriums finden. Implementieren der Algorithmen. Modell-Selektion & -Anpassung. Training & Evaluation des Modells auf gegebenen Daten. Vorhersage für neue Daten. 3

Überblick Aggregation und Selektion von Daten. Datenquellen identifizieren und selektieren. Bestimmung von Art und Umfang der Daten. Integration und Säuberung der Daten. Unvollständige/fehlende Daten. Fehlerhafte und inkonsistente Daten. Feature-Extraktion. Feature generieren. Daten transformieren. Daten- & Feature-Reduktion. 4

Aggregation und Selektion von Daten: Datenquellen identifizieren und selektieren Genauigkeit i (Anteil Rauschen in den Daten). Vollständigkeit (Anteil fehlender/unbrauchbarer Werte). Konsistenz (Widerspruch in Daten einer/mehrerer Quellen). Aktualität der Datenquelle. Glaubwürdigkeit der Datenquelle. Mehrwert/Redundanz. Verständlichkeit (Bedeutung der Attribute). Verfügbarkeit. 5

Aggregation und Selektion von Daten: Bestimmung von Art und Umfang der Daten Si Stichprobe: Auswahl repräsentativer Daten. Umfang der Daten: Menge an unterschiedlichen Instanzen. Menge an unterschiedlichen Attributen. Datendichte/Sparsity. Art der Daten: Elementare/zusammengesetzte Daten. 6

Aggregation und Selektion von Daten: Bestimmung von Art und Umfang der Daten Elementare Datentypen: Kontinuierliche Werte (z.b. Temperatur, Alter). Ordinale Daten, d.h. diskrete Werte einer geordneten Menge (z.b. Schulnoten, Fahrzeugklassen, Stockwerke). Nominale Daten, d.h. diskrete Werte einer ungeordneten Menge (z.b. Wörter, Familienstand, Augenfarbe, Nationalität). Zusammengesetzte Datentypen: Tupel/Vektoren, Matrizen, Tensoren (z.b. Bilder). Sequenzen (z.b. Text, EKG-Kurve, Audio-/Video-Daten). Graphen, verlinkte Daten (z.b. Webseiten, Moleküle). 7

Integration und Säuberung der Daten Daten zusammentragen, konvertieren und integrieren i in eine kohärente Form, z.b. in einem Data Warehouse. Daten-Integration (z.b. unterschiedliche Speicherformate/-orte). orte) Schema-Integration (z.b. Metadaten von verschiedenen Quellen, gleiche/ähnliche Attribute unterschiedlicher Quellen) Daten-Konflikte behandeln (z.b. Umrechnung von Einheiten). i Redundante Informationen erkennen (z.b. durch Korrelationsanalyse, Dubletten-Suche). Säuberung der Daten. 8

Integration und Säuberung der Daten: Unvollständige/fehlende Daten Arten von fehlenden Daten: Fehlende Werte (Attributbelegungen). Fehlende Attribute welche für die Datenanalyse von Interesse wären. Aggregierte Werte/Attribute. Ursache für fehlende Daten: Zufälliges Fehlen (z.b. Speicherfehler, Fehlfunktion eines Messinstruments). Systematisches Fehlen (z.b. Wert zu einem früheren Zeitpunkt unwichtig/unbekannt). Daten-Integration (z.b. gelöschte Werte aufgrund von Inkonsistenzen). Daten-Aggregation (z.b. aus Datenschutzgründen). 9

Integration und Säuberung der Daten: Unvollständige/fehlende Daten Behandlung fehlender Werte: Betreffende Instanzen/Attribute löschen. Erweiterung des Wertebereichs (z.b. missing ) und/oder der Attributmenge (z.b. binäres Attribut_XY_bekannt). Fehlende Werte aus Daten schätzen: Mean/Median Imputation (evtl. Klassen-abhängig). abhängig) Inferenz aus den Daten (z.b. mittels EM-Algorithmus). Fehlende Werte nicht behandeln (späteres Lern-/Analyseverfahren berücksichtigt fehlende Werte). 10

Integration und Säuberung der Daten: Fehlerhafte und inkonsistente Daten At Arten von fehlerhaften h ft Daten: Rauschen in numerischen Werten. Ausreißer/falsch gelabelte Daten. Inkonsistenz. Ursache für fehlerhafte Daten: x x N Zufällige Störung (z.b. durch Messungenauigkeit). it) 2 ~ (0, ) Systematische Störung (z.b. technische Grenzen, Formatierungsfehler). Unabsichtliche Störung (z.b. falsches Labeling durch menschliche Fehler). Absichtliche Störung (z.b. durch Spammer bei Emails). Daten-Integration (z.b. fehlerhafte Konvertierung/Datenübertragung, Inkonsistenzen durch sich wiedersprechende Datenquellen). 11

Integration und Säuberung der Daten: Fehlerhafte und inkonsistente Daten Identifizierung i fehlerhafter h f Werte: Binning: äquidistante Diskretisierung in Bins Bins mit einem/wenigen Instanzen enthalten evtl. Ausreißer. Clustering: Suche nach Regionen mit hoher Datendichte (Cluster) Cluster mit einem/wenigen Instanzen enthalten evtl. Ausreißer. Active Learning: Wiederspruch zwischen Daten und Modell auffällige Instanzen werden Menschen zur Kontrolle vorgeschlagen. Behandlung fehlerhafter Werte: Glättung numerischer Werte (z.b. Regression, Moving Average). Diskretisierung (z.b. Alter {kücken, bivi, uhu}). Als fehlend behandeln. 12

Integration und Säuberung der Daten: Fehlerhafte und inkonsistente Daten Clustering Lineare Regression 13

Feature-Extraktion: Feature generieren Text-Vorverarbeitung: Konvertierung (z.b. Zeichensatz, Klein-/Großschreibung, HTML-Decoding). Tokenisierung. Stopwords (z.b. Artikel, Konjunktionen) entfernen. Stemming (z.b. Verben in Infinitivform, Substantive in Singularform). Feature aus Texten: TF-IDF (Term Frequency Inverse Document Frequency). Bag-of-Words (Wörter sind nominale bzw. binäre Attribute). N-Gram (Wort-Tupel der Länge N sind nominale bzw. binäre Attribute). OSB (Orthogonal Sparse Bigrams). Darstellung als Baum/Graph (z.b. bei XML). 14

Feature-Extraktion: Feature generieren Bag-of-Words: Hello World 0 0 1 0 0 1 0 0 T TF-IDF: tf i, j idf i max freq k N log n i i, j freq k, j freqi, j w i, jtf i, jidf i max freq k Index von World k, j N log n i Index von Hello 15

Feature-Extraktion: Feature generieren Bild-Vorverarbeitung: i Normierung (z.b. Farbwerte, Helligkeit, Farbintensität, Größe, Lage). Transformation (z.b. Skalierung, Verschiebung, Drehung). Filtern (z.b. Glättung, Kantenhervorhebung). Feature aus Bildern: Metainformationen (z.b. Tags, Format, Größe, Farbverteilung). Pixelvektor (Umwandlung der Bildmatrix in Vektor). FFT (Fast Fourier Transform). SIFT (Scale-Invariant Feature Transform). HT (Hough Transform). 16

Feature-Extraktion: Feature generieren Convolution Kernel 17

Feature-Extraktion: Feature generieren Vorverarbeitung verlinkter Daten: Umwandlung verlinkter Daten in (un-)gewicheten, (un-)gerichten Graph. Graph-Konvertierung (z.b. Minimal Spanning Tree/Forest, zusammenhängender Graph, Zyklen-freier Graph). Feature aus verlinkten Daten: Knoten-Attribute (z.b. Anzahl ein-/ausgehender Kanten). Kanten-Attribute (z.b. verbindende Knoten, Gewicht, Richtung). Häufige Subgraphen, Subtrees, Cliquen. 18

Feature-Extraktion: Daten transformieren Feature-Normalisierung: i Min/Max-Normalisierung: x xmin new x x Z-Score-Normalisierung: x Dezimal-Skalierung: x x x x new new new new max min min xmax xmin x x new x 10 a a max i x 10 i 1 new Logarithmische Skalierung: x log a x 19

Feature-Extraktion: Daten transformieren Instanzen normalisieren: i Unabhängige l a -Normierung aller Datenpunkte: new 1 x x x a Korrelation zw. Attributen entfernen: x new N(,) 0 I 1 n i i LU-Zerlegung der Kovarianz-Matrix x xx x T. n Transformation der Eingaben: Feature-Konstruktion: i 1 new 1 2 T x L U x x Kombination elementarer Feature (z.b. ( x, x ) x, xx, x x ). 2 Mapping elementarer Feature (z.b. x x,log x, x ). i j j i j i j i i i i 20

Feature-Extraktion: Daten transformieren Diskretisierung: i i Binning/Clustering: Wertebereich auf Mittelpunkte/Mediane der Bins bzw. Cluster einschränken. Entropie-basierte Diskretisierung: S1 S2 Partitionierung der Menge S in S 1 und S 2 durch arg min H S H. 1 S2 SS1S2 S S Binärisierung: Numerische Werte (durch Schwellwert). Nominale Werte (jeder Wert des Wertebereichs wird ein eigenes, binäres Attribut). Natürliche Partitionierung (z.b. durch Hierarchien/Taxonomien). 21

Feature-Extraktion: Daten- & Feature-Reduktion Feature-Selektion (Dimensionsreduktion): i i Vorwärts-Selektion bzw. Rückwärts-Elimination (Kombination aus beiden). Elimination nach dem Lernen. Automatische Selektion beim Lernen (z.b. Entscheidungsbaumlernen). Datenkompression: Wavelet-/Fourier-Transformation. Hauptkomponenten-/Faktoranalyse. Interpolation (z.b. lineare Interpolation, Spline-Interpolation). Regression (z.b. lineare Regression). Sampling. Hauptkomponenten t 22

Zusammenfassung Datenvorverarbeitung entscheidend d für Qualität der Datenanalyse. Dient der Bereitstellung t aller relevanten Daten in der nützlichsten Form. Sie umfasst Aggregation und Selektion von Daten, Integration und Säuberung der Daten und Feature-Extraktion. Vorverarbeitung oft zeitaufwendiger als Datenanalyse! 23