INTELLIGENTE DATENANALYSE IN MATLAB
|
|
|
- Laura Sarah Hausler
- vor 9 Jahren
- Abrufe
Transkript
1 INTELLIGENTE DATENANALYSE IN MATLAB Datenselektion und Datenaufbereitung
2 Literatur I. H. Witten, E. Frank: Data Mining i Practical Machine Learning Tools and Techniques. J. Han, M. Kamber: Data Mining i Concepts and Techniques. 2
3 Überblick Sh Schritte der Datenanalyse: Datenvorverarbeitung Problemanalyse Problemlösung Anwendung der Lösung Aggregation und Selektion von Daten. Integration und Säuberung der Daten. Feature- Extraktion. Bestimmen von gegeb./gesuchten Größen. Wahl des Performanzmaß/ Zielkriteriums. Modellraum und Modellannahmen. Algorithmen für das Optimieren des Zielkriteriums finden. Implementieren der Algorithmen. Modell-Selektion & -Anpassung. Training & Evaluation des Modells auf gegebenen Daten. Vorhersage für neue Daten. 3
4 Überblick Aggregation und Selektion von Daten. Datenquellen identifizieren und selektieren. Bestimmung von Art und Umfang der Daten. Integration und Säuberung der Daten. Unvollständige/fehlende Daten. Fehlerhafte und inkonsistente Daten. Feature-Extraktion. Feature generieren. Daten transformieren. Daten- & Feature-Reduktion. 4
5 Aggregation und Selektion von Daten: Datenquellen identifizieren und selektieren Genauigkeit i (Anteil Rauschen in den Daten). Vollständigkeit (Anteil fehlender/unbrauchbarer Werte). Konsistenz (Widerspruch in Daten einer/mehrerer Quellen). Aktualität der Datenquelle. Glaubwürdigkeit der Datenquelle. Mehrwert/Redundanz. Verständlichkeit (Bedeutung der Attribute). Verfügbarkeit. 5
6 Aggregation und Selektion von Daten: Bestimmung von Art und Umfang der Daten Si Stichprobe: Auswahl repräsentativer Daten. Umfang der Daten: Menge an unterschiedlichen Instanzen. Menge an unterschiedlichen Attributen. Datendichte/Sparsity. Art der Daten: Elementare/zusammengesetzte Daten. 6
7 Aggregation und Selektion von Daten: Bestimmung von Art und Umfang der Daten Elementare Datentypen: Kontinuierliche Werte (z.b. Temperatur, Alter). Ordinale Daten, d.h. diskrete Werte einer geordneten Menge (z.b. Schulnoten, Fahrzeugklassen, Stockwerke). Nominale Daten, d.h. diskrete Werte einer ungeordneten Menge (z.b. Wörter, Familienstand, Augenfarbe, Nationalität). Zusammengesetzte Datentypen: Tupel/Vektoren, Matrizen, Tensoren (z.b. Bilder). Sequenzen (z.b. Text, EKG-Kurve, Audio-/Video-Daten). Graphen, verlinkte Daten (z.b. Webseiten, Moleküle). 7
8 Integration und Säuberung der Daten Daten zusammentragen, konvertieren und integrieren i in eine kohärente Form, z.b. in einem Data Warehouse. Daten-Integration (z.b. unterschiedliche Speicherformate/-orte). orte) Schema-Integration (z.b. Metadaten von verschiedenen Quellen, gleiche/ähnliche Attribute unterschiedlicher Quellen) Daten-Konflikte behandeln (z.b. Umrechnung von Einheiten). i Redundante Informationen erkennen (z.b. durch Korrelationsanalyse, Dubletten-Suche). Säuberung der Daten. 8
9 Integration und Säuberung der Daten: Unvollständige/fehlende Daten Arten von fehlenden Daten: Fehlende Werte (Attributbelegungen). Fehlende Attribute welche für die Datenanalyse von Interesse wären. Aggregierte Werte/Attribute. Ursache für fehlende Daten: Zufälliges Fehlen (z.b. Speicherfehler, Fehlfunktion eines Messinstruments). Systematisches Fehlen (z.b. Wert zu einem früheren Zeitpunkt unwichtig/unbekannt). Daten-Integration (z.b. gelöschte Werte aufgrund von Inkonsistenzen). Daten-Aggregation (z.b. aus Datenschutzgründen). 9
10 Integration und Säuberung der Daten: Unvollständige/fehlende Daten Behandlung fehlender Werte: Betreffende Instanzen/Attribute löschen. Erweiterung des Wertebereichs (z.b. missing ) und/oder der Attributmenge (z.b. binäres Attribut_XY_bekannt). Fehlende Werte aus Daten schätzen: Mean/Median Imputation (evtl. Klassen-abhängig). abhängig) Inferenz aus den Daten (z.b. mittels EM-Algorithmus). Fehlende Werte nicht behandeln (späteres Lern-/Analyseverfahren berücksichtigt fehlende Werte). 10
11 Integration und Säuberung der Daten: Fehlerhafte und inkonsistente Daten At Arten von fehlerhaften h ft Daten: Rauschen in numerischen Werten. Ausreißer/falsch gelabelte Daten. Inkonsistenz. Ursache für fehlerhafte Daten: x x N Zufällige Störung (z.b. durch Messungenauigkeit). it) 2 ~ (0, ) Systematische Störung (z.b. technische Grenzen, Formatierungsfehler). Unabsichtliche Störung (z.b. falsches Labeling durch menschliche Fehler). Absichtliche Störung (z.b. durch Spammer bei s). Daten-Integration (z.b. fehlerhafte Konvertierung/Datenübertragung, Inkonsistenzen durch sich wiedersprechende Datenquellen). 11
12 Integration und Säuberung der Daten: Fehlerhafte und inkonsistente Daten Identifizierung i fehlerhafter h f Werte: Binning: äquidistante Diskretisierung in Bins Bins mit einem/wenigen Instanzen enthalten evtl. Ausreißer. Clustering: Suche nach Regionen mit hoher Datendichte (Cluster) Cluster mit einem/wenigen Instanzen enthalten evtl. Ausreißer. Active Learning: Wiederspruch zwischen Daten und Modell auffällige Instanzen werden Menschen zur Kontrolle vorgeschlagen. Behandlung fehlerhafter Werte: Glättung numerischer Werte (z.b. Regression, Moving Average). Diskretisierung (z.b. Alter {kücken, bivi, uhu}). Als fehlend behandeln. 12
13 Integration und Säuberung der Daten: Fehlerhafte und inkonsistente Daten Clustering Lineare Regression 13
14 Feature-Extraktion: Feature generieren Text-Vorverarbeitung: Konvertierung (z.b. Zeichensatz, Klein-/Großschreibung, HTML-Decoding). Tokenisierung. Stopwords (z.b. Artikel, Konjunktionen) entfernen. Stemming (z.b. Verben in Infinitivform, Substantive in Singularform). Feature aus Texten: TF-IDF (Term Frequency Inverse Document Frequency). Bag-of-Words (Wörter sind nominale bzw. binäre Attribute). N-Gram (Wort-Tupel der Länge N sind nominale bzw. binäre Attribute). OSB (Orthogonal Sparse Bigrams). Darstellung als Baum/Graph (z.b. bei XML). 14
15 Feature-Extraktion: Feature generieren Bag-of-Words: Hello World T TF-IDF: tf i, j idf i max freq k N log n i i, j freq k, j freqi, j w i, jtf i, jidf i max freq k Index von World k, j N log n i Index von Hello 15
16 Feature-Extraktion: Feature generieren Bild-Vorverarbeitung: i Normierung (z.b. Farbwerte, Helligkeit, Farbintensität, Größe, Lage). Transformation (z.b. Skalierung, Verschiebung, Drehung). Filtern (z.b. Glättung, Kantenhervorhebung). Feature aus Bildern: Metainformationen (z.b. Tags, Format, Größe, Farbverteilung). Pixelvektor (Umwandlung der Bildmatrix in Vektor). FFT (Fast Fourier Transform). SIFT (Scale-Invariant Feature Transform). HT (Hough Transform). 16
17 Feature-Extraktion: Feature generieren Convolution Kernel 17
18 Feature-Extraktion: Feature generieren Vorverarbeitung verlinkter Daten: Umwandlung verlinkter Daten in (un-)gewicheten, (un-)gerichten Graph. Graph-Konvertierung (z.b. Minimal Spanning Tree/Forest, zusammenhängender Graph, Zyklen-freier Graph). Feature aus verlinkten Daten: Knoten-Attribute (z.b. Anzahl ein-/ausgehender Kanten). Kanten-Attribute (z.b. verbindende Knoten, Gewicht, Richtung). Häufige Subgraphen, Subtrees, Cliquen. 18
19 Feature-Extraktion: Daten transformieren Feature-Normalisierung: i Min/Max-Normalisierung: x xmin new x x Z-Score-Normalisierung: x Dezimal-Skalierung: x x x x new new new new max min min xmax xmin x x new x 10 a a max i x 10 i 1 new Logarithmische Skalierung: x log a x 19
20 Feature-Extraktion: Daten transformieren Instanzen normalisieren: i Unabhängige l a -Normierung aller Datenpunkte: new 1 x x x a Korrelation zw. Attributen entfernen: x new N(,) 0 I 1 n i i LU-Zerlegung der Kovarianz-Matrix x xx x T. n Transformation der Eingaben: Feature-Konstruktion: i 1 new 1 2 T x L U x x Kombination elementarer Feature (z.b. ( x, x ) x, xx, x x ). 2 Mapping elementarer Feature (z.b. x x,log x, x ). i j j i j i j i i i i 20
21 Feature-Extraktion: Daten transformieren Diskretisierung: i i Binning/Clustering: Wertebereich auf Mittelpunkte/Mediane der Bins bzw. Cluster einschränken. Entropie-basierte Diskretisierung: S1 S2 Partitionierung der Menge S in S 1 und S 2 durch arg min H S H. 1 S2 SS1S2 S S Binärisierung: Numerische Werte (durch Schwellwert). Nominale Werte (jeder Wert des Wertebereichs wird ein eigenes, binäres Attribut). Natürliche Partitionierung (z.b. durch Hierarchien/Taxonomien). 21
22 Feature-Extraktion: Daten- & Feature-Reduktion Feature-Selektion (Dimensionsreduktion): i i Vorwärts-Selektion bzw. Rückwärts-Elimination (Kombination aus beiden). Elimination nach dem Lernen. Automatische Selektion beim Lernen (z.b. Entscheidungsbaumlernen). Datenkompression: Wavelet-/Fourier-Transformation. Hauptkomponenten-/Faktoranalyse. Interpolation (z.b. lineare Interpolation, Spline-Interpolation). Regression (z.b. lineare Regression). Sampling. Hauptkomponenten t 22
23 Zusammenfassung Datenvorverarbeitung entscheidend d für Qualität der Datenanalyse. Dient der Bereitstellung t aller relevanten Daten in der nützlichsten Form. Sie umfasst Aggregation und Selektion von Daten, Integration und Säuberung der Daten und Feature-Extraktion. Vorverarbeitung oft zeitaufwendiger als Datenanalyse! 23
INTELLIGENTE DATENANALYSE IN MATLAB. Datenselektion und Datenaufbereitung
INTELLIGENTE DATENANALYSE IN MATLAB Datenselektion und Datenaufbereitung Überblick Schritte der Datenanalyse: Datenvorverarbeitung Problemanalyse Problemlösung Anwendung der Lösung Aggregation und Selektion
INTELLIGENTE DATENANALYSE IN MATLAB. Überwachtes Lernen: Entscheidungsbäume
INTELLIGENTE DATENANALYSE IN MATLAB Überwachtes Lernen: Entscheidungsbäume Literatur Stuart Russell und Peter Norvig: Artificial Intelligence. Andrew W. Moore: http://www.autonlab.org/tutorials. 2 Überblick
INTELLIGENTE DATENANALYSE IN MATLAB. Unüberwachtes Lernen: Clustern von Attributen
INTELLIGENTE DATENANALYSE IN MATLAB Unüberwachtes Lernen: Clustern von Attributen Literatur J. Han, M. Kamber: Data Mining Concepts and Techniques. J. Han et. al: Mining Frequent Patterns without Candidate
INTELLIGENTE DATENANALYSE IN MATLAB. Evaluation & Exploitation von Modellen
INTELLIGENTE DATENANALYSE IN MATLAB Evaluation & Exploitation von Modellen Überblick Schritte der Datenanalyse: Datenvorverarbeitung Problemanalyse Problemlösung Anwendung der Lösung Aggregation und Selektion
INTELLIGENTE DATENANALYSE IN MATLAB. Evaluation & Exploitation von Modellen
INTELLIGENTE DATENANALYSE IN MATLAB Evaluation & Exploitation von Modellen Überblick Schritte der Datenanalyse: Datenvorverarbeitung Problemanalyse Problemlösung Anwendung der Lösung Aggregation und Selektion
INTELLIGENTE DATENANALYSE IN MATLAB
INTELLIGENTE DATENANALYSE IN MATLAB Evaluation & Exploitation von Modellen Überblick Sh Schritte der Datenanalyse: Datenvorverarbeitung Problemanalyse Problemlösung Anwendung der Lösung Aggregation und
INTELLIGENTE DATENANALYSE IN MATLAB
INTELLIGENTE DATENANALYSE IN MATLAB Einführungsveranstaltung Überblick Organisation Literatur Inhalt und Ziele der Vorlesung Beispiele aus der Praxis 2 Organisation Vorlesung/Übung + Projektarbeit. 4 Semesterwochenstunden.
Entscheidungsbäume. Minh-Khanh Do Erlangen,
Entscheidungsbäume Minh-Khanh Do Erlangen, 11.07.2013 Übersicht Allgemeines Konzept Konstruktion Attributwahl Probleme Random forest E-Mail Filter Erlangen, 11.07.2013 Minh-Khanh Do Entscheidungsbäume
INTELLIGENTE DATENANALYSE IN MATLAB
INTELLIGENTE DATENANALYSE IN MATLAB Bildanalyse Literatur David A. Forsyth: Computer Vision i A Modern Approach. Mark S. Nixon und Alberto S. Aguado: Feature Extraction and Image Processing. Ulrich Schwanecke:
Data Mining - Wiederholung
Data Mining - Wiederholung Norbert Fuhr 18. Januar 2006 Problemstellungen Problemstellungen Daten vs. Information Def. Data Mining Arten von strukturellen Beschreibungen Regeln (Klassifikation, Assoziations-)
Problemanalye und Datenvorverarbeitung
Organisation Hören Sie die electure mathematische Grundlagen Interesse an Tutorium? Vielleicht 7.5., 12-14h? Am Donnersteg bieten wir zwei Übungsgruppen an (Freitag, 1. Mai, ist frei) Donnerstag 10-12
Einführung in die medizinische Bildverarbeitung WS 12/13
Einführung in die medizinische Bildverarbeitung WS 12/13 Stephan Gimbel Kurze Wiederholung Pipeline Pipelinestufen können sich unterscheiden, beinhalten aber i.d.r. eine Stufe zur Bildvorverarbeitung zur
Datenvorverarbeitung von nominalen Daten für Data Mining
Datenvorverarbeitung von nominalen Daten für Data Mining Entstanden 2004/2005 bei der T-Systems International GmbH unter Betreuung von Prof. Dr. J. Fürnkranz Seite 1 Gliederung Datenvorverarbeitung Prepared
Numerische Methoden. Thomas Huckle Stefan Schneider. Eine Einführung für Informatiker, Naturwissenschaftler, Ingenieure und Mathematiker.
Thomas Huckle Stefan Schneider Numerische Methoden Eine Einführung für Informatiker, Naturwissenschaftler, Ingenieure und Mathematiker 2. Auflage Mit 103 Abbildungen und 9 Tabellen 4Q Springer Inhaltsverzeichnis
Motivation. Themenblock: Data Preprocessing. Einsatzgebiete für Data Mining I. Modell von Gianotti und Pedreschi
Motivation Themenblock: Data Preprocessing We are drowning in information, but starving for knowledge! (John Naisbett) Was genau ist Datenanalyse? Praktikum: Data Warehousing und Data Mining Was ist Data
fuzzy-entscheidungsbäume
fuzzy-entscheidungsbäume klassische Entscheidungsbaumverfahren fuzzy Entscheidungsbaumverfahren Entscheidungsbäume Was ist ein guter Mietwagen für einen Familienurlaub auf Kreta? 27. März 23 Sebastian
Information Retrieval, Vektorraummodell
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Paul Prasse Michael Großhans Uwe Dick Information Retrieval Konstruktion
Kapitel 4: Data Mining
LUDWIG- MAXIMILIANS- UNIVERSITY MUNICH DEPARTMENT INSTITUTE FOR INFORMATICS Skript zur Vorlesung: Einführung in die Informatik: Systeme und Anwendungen Sommersemester 2017 Kapitel 4: Data Mining Vorlesung:
Kap. 7: Wavelets. 2. Diskrete Wavelet-Transformation (DWT) 4. JPEG2000. H. Burkhardt, Institut für Informatik, Universität Freiburg DBV-I 1
Kap. 7: Wavelets. Die kontinuierliche Wavelet-Transformation (WT). Diskrete Wavelet-Transformation (DWT) 3. Sh Schnelle Wavelet-Transformation ltt ti (FWT) 4. JPEG000 H. Burkhardt, Institut für Informatik,
Decision Tree Learning
Decision Tree Learning Computational Linguistics Universität des Saarlandes Sommersemester 2011 28.04.2011 Entscheidungsbäume Repräsentation von Regeln als Entscheidungsbaum (1) Wann spielt Max Tennis?
Navigation anhand natürlicher Landmarken mit Hilfe der Scale Invariant Feature Transform. Thorsten Jost INF-M2 AW1 Sommersemester
Navigation anhand natürlicher Landmarken mit Hilfe der Scale Invariant Feature Transform Thorsten Jost INF-M2 AW1 Sommersemester 2008 Agenda Motivation Feature Detection Beispiele Posenbestimmung in Räumen
Projektbericht. Evaluation und Ableitung von Ergebnissen anhand eines Fragebogens zur Studentensituation an der Hochschule Wismar
Business Intelligence Master Digitale Logistik und Management Projektbericht Evaluation und Ableitung von Ergebnissen anhand eines Fragebogens zur Studentensituation an der Hochschule Wismar Matthias Säger
dacore Datenbanksysteme AG Neue Konzepte zur Optimierung der Auslastungsplanung und Big Data im Informationsmanagement
dacore Datenbanksysteme AG Neue Konzepte zur Optimierung der Auslastungsplanung und Big Data im Informationsmanagement dacore Datenbanksysteme AG Neue Konzepte zur Optimierung der Auslastungsplanung Die
Unüberwachtes Lernen: Clusteranalyse und Assoziationsregeln
Unüberwachtes Lernen: Clusteranalyse und Assoziationsregeln Praktikum: Data Warehousing und Data Mining Clusteranalyse Clusteranalyse Idee Bestimmung von Gruppen ähnlicher Tupel in multidimensionalen Datensätzen.
Seminar Visual Analytics and Visual Data Mining
Seminar Visual Analytics and Visual Data Mining Dozenten:, AG Visual Computing Steffen Oeltze, AG Visualisierung Organisatorisches Seminar für Diplom und Bachelor-Studenten (max. 18) (leider nicht für
Einführung in Support Vector Machines (SVMs)
Einführung in (SVM) Januar 31, 2011 Einführung in (SVMs) Table of contents Motivation Einführung in (SVMs) Outline Motivation Vektorrepräsentation Klassifikation Motivation Einführung in (SVMs) Vektorrepräsentation
Multivariate Verfahren
Multivariate Verfahren Lineare Regression Zweck: Vorhersage x Dimensionsreduktion x x Klassifizierung x x Hauptkomponentenanalyse Korrespondenzanalyse Clusteranalyse Diskriminanzanalyse Eigenschaften:
Inhaltsverzeichnis. 2 Diagramme Standarddiagramme Signalverlaufsdiagramm Signalverlaufsgraph...
7 Inhaltsverzeichnis 1 Grundlagen... 13 1.1 Verfahren und Beispiele... 13 1.2 Mathematik-Grundlagen... 15 1.2.1 Konstanten... 15 1.2.2 Vergleichselemente... 16 1.2.3 Verknüpfungselemente... 17 1.2.4 Funktionen
Lineare Gleichungssysteme Hierarchische Matrizen
Kompaktkurs Lineare Gleichungssysteme Hierarchische Matrizen M. Bebendorf, O. Steinbach O. Steinbach Lineare Gleichungssysteme SIMNET Kurs 24. 27.4.26 / 6 Numerische Simulation stationäre und instationäre
Data Mining und Knowledge Discovery in Databases
Data Mining und Knowledge Discovery in Databases Begriffsabgrenzungen... Phasen der KDD...3 3 Datenvorverarbeitung...4 3. Datenproblematik...4 3. Möglichkeiten der Datenvorverarbeitung...4 4 Data Mining
Minimal spannende Bäume
http://www.uni-magdeburg.de/harbich/ Minimal spannende Fakultät für Informatik Otto-von-Guericke-Universität 2 Inhalt Definition Wege Untergraphen Kantengewichtete Graphen Minimal spannende Algorithmen
Multimedia-Datenbanken im SS 2010 Einführung in MMDB
Multimedia-Datenbanken im SS 2010 Einführung in MMDB Dr.-Ing. Marcin Grzegorzek 27.04.2010 Ähnlichkeitssuche in Multimedia-Datenbanken 2/ 28 Inhalte und Termine 1. Einführung in MMDB 1.1 Grundlegende Begriffe
3D-Rekonstruktion aus Bildern
Allgemeine Nachrichtentechnik Prof. Dr.-Ing. Udo Zölzer 3D-Rekonstruktion aus Bildern Dipl.-Ing. Christian Ruwwe 41. Treffen der ITG-Fachgruppe Algorithmen für die Signalverarbeitung HSU Hamburg 24. Februar
Universität Trier. Fachbereich IV. Wintersemester 2004/2005. Wavelets made easy. Kapitel 2 Mehrdimensionale Wavelets und Anwendungen
Universität Trier Fachbereich IV Wintersemester 2004/2005 Wavelets made easy Kapitel 2 Mehrdimensionale Wavelets und Anwendungen Thomas Queckbörner 16.11.2004 Übersicht des Kapitels: 1. Einführung 2. Zweidimensionale
Bayesianische Netzwerke - Lernen und Inferenz
Bayesianische Netzwerke - Lernen und Inferenz Manuela Hummel 9. Mai 2003 Gliederung 1. Allgemeines 2. Bayesianische Netzwerke zur Auswertung von Genexpressionsdaten 3. Automatische Modellselektion 4. Beispiel
Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK
Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 08.05.2014 Gliederung 1 Vorverarbeitung
Inhaltsverzeichnis. Kapitel 1: Rechnen mit Zahlen. Kapitel 2: Umformen von Ausdrücken. Kapitel 3: Gleichungen, Ungleichungen, Gleichungssysteme
Kapitel 1: Rechnen mit Zahlen 1.1 Rechnen mit reellen Zahlen 1.2 Berechnen von Summen und Produkten 1.3 Primfaktorzerlegung 1.4 Größter gemeinsamer Teiler 1.5 Kleinstes gemeinsames Vielfaches 1.6 n-te
Vorlesung 7 GRAPHBASIERTE BILDSEGMENTIERUNG
Vorlesung 7 GRAPHBASIERTE BILDSEGMENTIERUNG 195 Bildsegmentierung! Aufgabe: Bestimme inhaltlich zusammenhängende, homogene Bereiche eines Bildes! Weit verbreitetes Problem in der Bildverarbeitung! Viele
Gibbs sampling. Sebastian Pado. October 30, Seien X die Trainingdaten, y ein Testdatenpunkt, π die Parameter des Modells
Gibbs sampling Sebastian Pado October 30, 2012 1 Bayessche Vorhersage Seien X die Trainingdaten, y ein Testdatenpunkt, π die Parameter des Modells Uns interessiert P (y X), wobei wir über das Modell marginalisieren
3.3 Nächste-Nachbarn-Klassifikatoren
3.3 Nächste-Nachbarn-Klassifikatoren Schrauben Nägel Klammern Neues Objekt Instanzbasiertes Lernen (instance based learning) Einfachster Nächste-Nachbar-Klassifikator: Zuordnung zu der Klasse des nächsten
Rechenaufwand der LR- und LDL T - Zerlegung
6. Großübung Rechenaufwand der LR- und LDL T - Zerlegung Rückwärtseinsetzen Der Algorithmus kann der Folie 3.0 entnommen werden. Dieser kann in die folgenden Rechenoperationen aufgesplittet werden: Für
Singular Value Decomposition
Singular Value Decomposition (Singulärwertzerlegung) Seminar Robust Design Vitali Müller 2 Inhalt Was ist die SVD? Interpretationen Anwendungsmöglichkeiten Berechnung 3 Datenmatrix Experiment mit n Objekten
Numerische Mathematik
Numerische Mathematik Von Martin Hermann 2., überarbeitete und erweiterte Auflage Oldenbourg Verlag München Wien Vorwort zur ersten Auflage Vorwort zur zweiten Auflage V VII 1 Wichtige Phänomene des numerischen
WMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou
WMS Block: Management von Wissen in nform PART: Text Mining Myra Spiliopoulou WIE ERFASSEN UND VERWALTEN WIR EXPLIZITES WISSEN? 1. Wie strukturieren wir Wissen in nform? 2. Wie verwalten wir nsammlungen?
Vorlesung. Data und Web Mining. Kurzinformation zur. Univ.-Prof. Dr. Ralph Bergmann. Lehrstuhl für Wirtschaftsinformatik II
Kurzinformation zur Vorlesung Data und Web Mining Univ.-Prof. Dr. Ralph Bergmann www.wi2.uni-trier.de - I - 1 - Die Ausgangssituation (1) Unternehmen und Organisationen haben enorme Datenmengen angesammelt
Mustererkennung und Klassifikation
Mustererkennung und Klassifikation WS 2007/2008 Fakultät Informatik Technische Informatik Prof. Dr. Matthias Franz [email protected] www-home.htwg-konstanz.de/~mfranz/heim.html Grundlagen Überblick
Modul Digitale Bildverarbeitung SS16 Bestandteile der Lehrveranstaltung und Prüfung: Vorlesungen Übungsserien Praktika (ImageJ) bis Mai 2016 Projekt
Modul Digitale Bildverarbeitung SS16 Bestandteile der Lehrveranstaltung und Prüfung: Vorlesungen Übungsserien Praktika (ImageJ) bis Mai 2016 Projekt im Juni 2016 Themen: Digitale Bilder, Eigenschaften
PG-402 Wissensmanagement: Zeitreihen in Datenbanken
PG-402 Wissensmanagement: Zeitreihen in Datenbanken 07.05.2002 Klaus Unterstein 07.05.02 PG402 Wissensmanagement Zeitreihen in Datenbanken 1 Übersicht Zeitreihen Schritte bei der Zeitreihenanalyse Anwendungsfallbeispiel:
Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2008 Termin: 4. 7.
Semestralklausur zur Vorlesung Web Mining Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2008 Termin: 4. 7. 2008 Name: Vorname: Matrikelnummer: Fachrichtung: Punkte: (1).... (2)....
Vorlesung 2 KÜRZESTE WEGE
Vorlesung 2 KÜRZESTE WEGE 34 Kürzeste Wege im Graphen Motivation! Heute:! Kürzeste Wege von einem Knoten (SSSP)! Kürzeste Wege zwischen allen Knotenpaaren (APSP)! Viele Anwendungen:! Navigationssysteme!
WEKA A Machine Learning Interface for Data Mining
WEKA A Machine Learning Interface for Data Mining Frank Eibe, Mark Hall, Geoffrey Holmes, Richard Kirkby, Bernhard Pfahringer, Ian H. Witten Reinhard Klaus Losse Künstliche Intelligenz II WS 2009/2010
Mathematische Probleme lösen mit Maple
Mathematische Probleme lösen mit Maple Ein Kurzeinstieg Bearbeitet von Thomas Westermann überarbeitet 2008. Buch. XII, 169 S. ISBN 978 3 540 77720 5 Format (B x L): 15,5 x 23,5 cm Weitere Fachgebiete >
Mathematische Grundlagen III
Mathematische Grundlagen III Maschinelles Lernen III: Clustering Vera Demberg Universität des Saarlandes 7. Juli 202 Vera Demberg (UdS) Mathe III 7. Juli 202 / 35 Clustering vs. Klassifikation In den letzten
Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell
Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten Teil
5 BINÄRE ENTSCHEIDUNGS- DIAGRAMME (BDDS)
5 BINÄRE ENTSCHEIDUNGS- DIAGRAMME (BDDS) Sommersemester 2009 Dr. Carsten Sinz, Universität Karlsruhe Datenstruktur BDD 2 1986 von R. Bryant vorgeschlagen zur Darstellung von aussagenlogischen Formeln (genauer:
Angewandte Statistik mit R
Reiner Hellbrück Angewandte Statistik mit R Eine Einführung für Ökonomen und Sozialwissenschaftler 2., überarbeitete Auflage B 374545 GABLER Inhaltsverzeichnis Vorwort zur zweiten Auflage Tabellenverzeichnis
Visualisierung hochdimensionaler Daten. Hauptseminar SS11 Michael Kircher
Hauptseminar SS11 Inhalt Einführung zu hochdimensionalen Daten Visualisierungsmöglichkeiten dimensionale Teilmengen dimensionale Schachtelung Achsenumgestaltung Algorithmen zur Dimensionsreduktion Zusammenfassung
k-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering
Rückblick k-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering Hierarchisches Clustering bestimmt eine Folge von Clusterings, die als Dendrogramm darstellbar
Foundations of uncertain data integration
Foundations of uncertain data integration Seminar Informationsintegration Stephan Barnert IT Management & Consulting 11.09.2015 Agenda Problemstellung Einleitung Beispiel zur Integration Wiederholung LAV
Orthogonale Matrix. Definition 4.19
Orthogonale Matrix Ausgleichsprobleme sind häufig schlecht konditioniert. Matrix des Normalengleichungssystems kann nahezu singulär sein. Spezielle Matrixzerlegung für höhere numerische Stabilität: QR-Zerlegung
Data-Mining: Ausgewählte Verfahren und Werkzeuge
Fakultät Informatik Institut für Angewandte Informatik Lehrstuhl Technische Informationssysteme Data-Mining: Ausgewählte Verfahren und Vortragender: Jia Mu Betreuer: Dipl.-Inf. Denis Stein Dresden, den
Syntaktische und Statistische Mustererkennung. Bernhard Jung
Syntaktische und Statistische Mustererkennung VO 1.0 840.040 (UE 1.0 840.041) Bernhard Jung [email protected] http://bernhard.jung.name/vussme/ 1 Organisatorisches Donnerstags, 13-15 (c.t.), Seminarraum
Intelligente Algorithmen Einführung in die Technologie
Intelligente Algorithmen Einführung in die Technologie Dr. KIT Universität des Landes Baden-Württemberg und nationales Forschungszentrum in der Helmholtz-Gemeinschaft www.kit.edu Natürlich sprachliche
Naive Bayes für Regressionsprobleme
Naive Bayes für Regressionsprobleme Vorhersage numerischer Werte mit dem Naive Bayes Algorithmus Nils Knappmeier Fachgebiet Knowledge Engineering Fachbereich Informatik Technische Universität Darmstadt
Inhalt. 4.1 Motivation. 4.2 Evaluation. 4.3 Logistische Regression. 4.4 k-nächste Nachbarn. 4.5 Naïve Bayes. 4.6 Entscheidungsbäume
4. Klassifikation Inhalt 4.1 Motivation 4.2 Evaluation 4.3 Logistische Regression 4.4 k-nächste Nachbarn 4.5 Naïve Bayes 4.6 Entscheidungsbäume 4.7 Support Vector Machines 4.8 Neuronale Netze 4.9 Ensemble-Methoden
Entscheidungsbäume aus großen Datenbanken: SLIQ
Entscheidungsbäume aus großen Datenbanken: SLIQ C4.5 iteriert häufig über die Trainingsmenge Wie häufig? Wenn die Trainingsmenge nicht in den Hauptspeicher passt, wird das Swapping unpraktikabel! SLIQ:
D-INFK Lineare Algebra HS 2017 Özlem Imamoglu Olga Sorkine-Hornung. Serie 11
D-INFK Lineare Algebra HS 2017 Özlem Imamoglu Olga Sorkine-Hornung Serie 11 1. Wir betrachten das überbestimmte Gleichungssystem Ax = y mit 1 1 1 1 A := 1 1 0 1 0 1, y := 2 3 0 0 1 4 Berechnen Sie die
Clusteranalyse: Gauß sche Mischmodelle
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse: Gauß sche Mischmodelle iels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer
Vorlesung Datenstrukturen
Vorlesung Datenstrukturen Graphdarstellungen Maike Buchin 0.6.017 Graphen Motivation: Graphen treten häufig als Abstraktion von Objekten (Knoten) und ihren Beziehungen (Kanten) auf. Beispiele: soziale
Inhaltsverzeichnis. Vorwort. Abbildungsverzeichnis. Tabellenverzeichnis. 1 Einleitung Gegenstand Aufbau 4
Inhaltsverzeichnis Vorwort Abbildungsverzeichnis Tabellenverzeichnis v xv xvii 1 Einleitung 1 1.1 Gegenstand 1 1.2 Aufbau 4 2 Datenerhebung - ganz praktisch 7 2.1 Einleitung 7 2.2 Erhebungsplan 7 2.2.1
NoSQL Datenbanken EIN ÜBERBLICK ÜBER NICHT-RELATIONALE DATENBANKEN UND DEREN POTENTIALE IM ALLGEMEINEN UND IN DER INDUSTRIE
NoSQL Datenbanken EIN ÜBERBLICK ÜBER NICHT-RELATIONALE DATENBANKEN UND DEREN POTENTIALE IM ALLGEMEINEN UND IN DER INDUSTRIE Was bedeutet NoSQL? Ein Sammelbegriff für alternative Datenbanklösungen, die
Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke
Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,
Diskrete Fourier-Transformation und FFT. 1. Die diskrete Fourier-Transformation (DFT) 2. Die Fast Fourier Transform (FFT)
Diskrete Fourier-Transformation und FFT 2. Die Fast Fourier Transform (FFT) 3. Anwendungsbeispiele der DFT 1 Wiederholung: Fourier-Transformation und Fourier-Reihe Fourier-Transformation kontinuierlicher
Maschinelles Lernen Entscheidungsbäume
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen Entscheidungsbäume Paul Prasse Entscheidungsbäume Eine von vielen Anwendungen: Kreditrisiken Kredit - Sicherheiten
Nutzung maschinellen Lernens zur Extraktion von Paragraphen aus PDF-Dokumenten
Nutzung maschinellen Lernens zur Extraktion von Paragraphen aus PDF-Dokumenten Albert-Ludwigs-Universität zu Freiburg 13.09.2016 Maximilian Dippel [email protected] Überblick I Einführung Problemstellung
Relevante Fachgebiete für Data Mining
Relevante Fachgebiete für Data Mining 1 Prozesse beim Data Mining 1. Data cleaning: Datensäuberung von Rauschen & Inkonsistenz 2. Data integration: Datenintegration aus multiplen Quellen 3. Data selection:
Predictive Modeling Markup Language. Thomas Morandell
Predictive Modeling Markup Language Thomas Morandell Index Einführung PMML als Standard für den Austausch von Data Mining Ergebnissen/Prozessen Allgemeine Struktur eines PMML Dokuments Beispiel von PMML
Algorithmische Methoden für schwere Optimierungsprobleme
Algorithmische Methoden für schwere Optimierungsprobleme Prof. Dr. Henning Meyerhenke Institut für Theoretische Informatik 1 KIT Henning Universität desmeyerhenke, Landes Baden-Württemberg Institutund
Bildverbesserung (Image Enhancement)
Prof. Dr. Wolfgang Konen, Thomas Zielke Bildverbesserung (Image Enhancement) WS07 7.1 Konen, Zielke Der Prozess der Bildverbesserung (1) Bildverbesserung wird häufig dafür eingesetzt, die für einen menschlichen
Moderne Methoden der KI: Maschinelles Lernen
Moderne Methoden der KI: Maschinelles Lernen Prof. Dr.Hans-Dieter Burkhard Vorlesung Entscheidungsbäume Darstellung durch Regeln ID3 / C4.5 Bevorzugung kleiner Hypothesen Overfitting Entscheidungsbäume
Information Retrieval,
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Uwe Dick Peter Haider Paul Prasse Information Retrieval Konstruktion von
Inhaltsverzeichnis. Ulrich Stein. Programmieren mit MATLAB. Programmiersprache, Grafische Benutzeroberflächen, Anwendungen
Inhaltsverzeichnis Ulrich Stein Programmieren mit MATLAB Programmiersprache, Grafische Benutzeroberflächen, Anwendungen ISBN (Buch): 978-3-446-43243-7 ISBN (E-Book): 978-3-446-43319-9 Weitere Informationen
Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität
Datenstrukturen und Algorithmen Christian Sohler FG Algorithmen & Komplexität 1 Clustering: Partitioniere Objektmenge in Gruppen(Cluster), so dass sich Objekte in einer Gruppe ähnlich sind und Objekte
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Thomas Vanck Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer
Seminar. Visual Computing. Poisson Surface Reconstruction. Peter Hagemann Andreas Meyer. Peter Eisert: Visual Computing SS 11.
Poisson Surface Reconstruction Peter Hagemann Andreas Meyer Seminar 1 Peter Eisert: SS 11 Motivation Zur 3D Darstellung von Objekten werden meist Scan-Daten erstellt Erstellung eines Dreieckmodells aus
Lernen von Entscheidungsbäumen. Volker Tresp Summer 2014
Lernen von Entscheidungsbäumen Volker Tresp Summer 2014 1 Anforderungen an Methoden zum Datamining Schnelle Verarbeitung großer Datenmengen Leichter Umgang mit hochdimensionalen Daten Das Lernergebnis
