Data Mining - Wiederholung



Ähnliche Dokumente
Data Mining - Wiederholung

Data Mining und maschinelles Lernen

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

Moderne Methoden der KI: Maschinelles Lernen

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

Folien zu Data Mining von I. H. Witten und E. Frank. übersetzt von N. Fuhr

Data Mining mit der SEMMA Methodik. Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG

Vergleich von SVM und Regel- und Entscheidungsbaum-Lernern

WEKA A Machine Learning Interface for Data Mining

Techniken des Maschinellen Lernens für Data Mining. Ian Witten, Eibe Frank. (übersetzt von Norbert Fuhr)

Data Mining und Text Mining Einführung. S2 Einfache Regellerner

Data Mining für die industrielle Praxis

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining.

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining.

Data Mining mit RapidMiner

Entscheidungsbäume aus großen Datenbanken: SLIQ

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002)

Skalenniveau Grundlegende Konzepte

Auswertung mit dem Statistikprogramm SPSS:

Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining

Modellierung. Entscheidungsbäume, ume, Boosting, Metalerner, Random Forest. Wolfgang Konen Fachhochschule Köln Oktober 2007.

Folien zu Data Mining von I. H. Witten und E. Frank. übersetzt von N. Fuhr

MS SQL Server 2012 (4)

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen

Data-Mining: Ausgewählte Verfahren und Werkzeuge

2. Lernen von Entscheidungsbäumen

Data Mining mit Rapidminer im Direktmarketing ein erster Versuch. Hasan Tercan und Hans-Peter Weih

Seminar Business Intelligence Teil II. Data Mining & Knowledge Discovery

Folien zu Data Mining von I. H. Witten and E. Frank. übersetzt von N. Fuhr

Motivation. Themenblock: Data Preprocessing. Einsatzgebiete für Data Mining I. Modell von Gianotti und Pedreschi

INTELLIGENTE DATENANALYSE IN MATLAB

Häufige Item-Mengen: die Schlüssel-Idee. Vorlesungsplan. Apriori Algorithmus. Methoden zur Verbessung der Effizienz von Apriori

ChangePoint-Analysen - ein Überblick

Einführung in Statistik und Messwertanalyse für Physiker

Elisabeth Raab-Steiner/Michael Benesch. Der Fragebogen. Von der Forschungsidee zur SPSS/PASW-Auswertung. 2., aktualisierte Auflage. facultas.

Allgemeine Regressionsanalyse. Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl. deterministisch

Text Mining 4. Seminar Klassifikation

Analyse von Tabellen und kategorialen Daten

Praktikum Data Warehousing und Data Mining

Dokumenten-Clustering. Norbert Fuhr

Schulinternes Curriculum für Informatik (Q2) Stand April 2015

Vorlesung Text und Data Mining S9 Text Clustering. Hans Hermann Weber Univ. Erlangen, Informatik

Data Mining-Modelle und -Algorithmen

ML-Werkzeuge und ihre Anwendung

Maschinelles Lernen Entscheidungsbäume

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Entscheidungsbäume

PRAKTIKUM Experimentelle Prozeßanalyse 2. VERSUCH AS-PA-2 "Methoden der Modellbildung statischer Systeme" Teil 2 (für ausgewählte Masterstudiengänge)

Veranstaltungsort Bildungsherberge der Studierendenschaft der FernUniversität Hagen

Florian Frötscher und Demet Özçetin

INTELLIGENTE DATENANALYSE IN MATLAB. Überwachtes Lernen: Entscheidungsbäume

Decision Tree Learning

Überwachtes Lernen: Klassifikation und Regression

Data Mining und Knowledge Discovery in Databases

Kapitel 11* Grundlagen ME. Aufbau eines ME-Systems Entwicklung eines ME-Systems. Kapitel11* Grundlagen ME p.1/12

Computerlinguistische Textanalyse

Programmiertechnik II

Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014

4. Lernen von Entscheidungsbäumen. Klassifikation mit Entscheidungsbäumen. Entscheidungsbaum

Algorithmische Modelle als neues Paradigma

Künstliche Intelligenz Maschinelles Lernen

Einleitung 19. Teil I Datenanalyse und Modellbildung Grundlagen 25

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining

Neuerungen Analysis Services

Data Mining Bericht. Analyse der Lebenssituation der Studenten. der Hochschule Wismar. Zur Veranstaltung. Business Intelligence

Universität Leipzig Institut für Informatik Auffinden von Dubletten in ECommerce Datenbeständen

Lazar (Lazy-Structure-Activity Relationships)

0 Einführung: Was ist Statistik

MapReduce und Datenbanken Thema 15: Strom bzw. Onlineverarbeitung mit MapReduce

Unsupervised Kernel Regression

Lehrangebot. Fachgebiet Informationssysteme Prof. Dr. Norbert Fuhr. N. Fuhr, U. Duisburg-Essen. Lehrangebot

Data Mining Anwendungen und Techniken

3.3 Nächste-Nachbarn-Klassifikatoren

Datenbanken und Informationssysteme

Modellbasierte Diagnosesysteme

x 2 x 1 x Lernen mit Entscheidungsbäumen

Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens

Textmining Klassifikation von Texten Teil 1: Naive Bayes

Vorlesung Maschinelles Lernen

Seminar Text- und Datamining Datamining-Grundlagen

Data Mining - Clustering. Sven Elvers

Web Data Mining. Alexander Hinneburg Sommersemester 2007

Inhalt 1 Einführung Ausgewählte Begriffe Vorgehensweise im Überblick... 14

Inhaltsverzeichnis. Vorwort 1. Kapitel 1 Einführung 3. Kapitel 2 Messtheorie und deskriptive Statistik 13

Mining High-Speed Data Streams

Prototypenentwicklung zur Identifikation gleichartiger Nachrichtenticker am Beispiel des Gashandels

Fragenkatalog zur Vorlesung "Grundlagen des Data Mining" (WS 2006/07)

Bayes sches Lernen: Übersicht

Insulin Dependent Diabetes Mellitus Rats and Autoimmune Diabetes

Christian FG Schendera. Regressionsanalyse. mit SPSS. 2. korrigierte und aktualisierte Auflage DE GRUYTER OLDENBOURG

Inhaltsverzeichnis. Fragestellungen und Methoden 11. Vorwort 15. Kapitel 1 Einführung 17. Kapitel 2 Statistische Grundbegriffe 23

Informationsflut bewältigen - Textmining in der Praxis

Rekonstruktion biologischer Netzwerke (mit probabilistischen Methoden) Einführung

Leseproben aus dem Buch: "Kanban mit System zur optimalen Lieferkette" Dr. Thomas Klevers, MI-Wirtschaftsbuch

Grundlagen der Datenanalyse am Beispiel von SPSS

Map Reduce on Hadoop Seminar SS09. Similarity Join. Tim Felgentreff, Andrina Mascher

Analyse von Querschnittsdaten. Regression mit Dummy-Variablen

Projektbericht. Evaluation und Ableitung von Ergebnissen anhand eines Fragebogens zur Studentensituation an der Hochschule Wismar

Schulinternes Curriculum im Fach Informatik

Transkript:

Data Mining - Wiederholung Norbert Fuhr 9. Juni 2008

Problemstellungen Problemstellungen Daten vs. Information Def. Data Mining Arten von strukturellen Beschreibungen Regeln (Klassifikation, Assoziations-) Regressionsfunktionen Entscheidungsbäume Domänenwissen und Transparenz der gelernten Beschreibungen Versionsraum Arten von Bias Beschreibungssprache, Suche, Überadaption Ethische Aspekte

Eingabe: Konzepte, Instanzen, Attribute Eingabe: Konzepte, Instanzen, Attribute Konzepte Klassifikationen Assoziationen, Clustering, Nummerische Vorhersage Instanzen Eigenschaften einer instanz Multi-Instanz-Problem Rekursion

Eingabe: Konzepte, Instanzen, Attribute Eingabe: Attribute Skalenniveaus Nominalskala Ordinalskala Intervallskala Verhältnisskala Semantik fehlender Werte Ungenaue Werte

Ausgabe: Wissensrepräsentation Ausgabe: Wissensrepräsentation Entscheidungstabellen Entscheidungsbäume Nominale vs. nummerische Attribute Behandlung fehlender Werte Entscheidungsregeln Bäume Regeln Regelinterpretation: Konflikte, nicht abgedeckte Fälle Assoziationsregeln Unterstützung und Konfidenz Interpretation Regeln mit Ausnahmen: Struktur, Vorteile Regeln mit Relationen

Ausgabe: Wissensrepräsentation Ausgabe: Wissensrepräsentation (Fortsetzung) Lineare Regression Bäume zur nummerischen Vorhersage Modellbaum Regressionsbaum Instanz-basierte Repräsentation Abstandsmetrik Prototypen/Rechteckige Generalisierungen Cluster: Repräsentation

Algorithmen Algorithmen 1R Grundversion nummerische Attribute Überadaption Berücksichtigung aller Attribute Naiver Bayes Modifizierte Wahrscheinlichkeitsschätzer Fehlende Werte nummerische Werte: Wahrscheinlichkeitsdichte Entscheidungsbäume: ID3 Teile-und-herrsche-Ansatz Attributauswahl: Informationsgewinn Reinheitsmaß: Entropie Gewinnverhältnis

Algorithmen Algorithmen (2) Abdeckungsalgorithmen einfacher Abdeckungsalgorithmus Auswahl einer Bedingung PRISM-Algorithmus Regeln vs. Entscheidungslisten Assoziationsregeln Unterstützung und Konfidenz einer Regel Gewinnung von Assoziationsregeln: Item sets Effiziente Generierung von Regeln

Algorithmen Algorithmen (3) Lineare Modelle Minimierung des quadratischen Fehlers Klassifikation durch Regression logistische Regression Instanzbasiertes Lernen Methoden Distanzfunktion Normalisierung

Evaluierung des Gelernten Evaluierung des Gelernten Aspekte: Training, Testen, Tuning Training, Validieren. Testen Resubstitutionsfehler Vorhersage der Qualität: Vertrauensintervalle Optimale Ausnutzung der Daten Holdout Kreuzvalidierung Leave-one-out Bootstrap Vergleich von Verfahren Signifikanztests: Hypothesen Paarweiser t-test Unabhängige Stichproben

Evaluierung des Gelernten Evaluierung des Gelernten(2) Schätzung von Wahrscheinlichkeiten Verlustfunktionen: quadratisch, informationell Kosten-basierte Maße Fallmatrix Steigerungsdiagramm ROC-Kurve kostensensitives Lernen Evaluierung nummerischer Vorhersagen Fehlermaße Korrelationskoeffizient Das Prinzip der minimalen Beschreibungslänge MDL MAP Bayessche Modell-Mittelung MDL und Clustering

Bayessche Netzwerke Bayessche Netzwerke Aufbau Bayesscher Netze Berechnung der Klassenwahrscheinlichkeiten 1 Berechnung des Produktes von Wahrscheinlichkeiten pro Klasse 2 Normalisierung Zugnundeliegende Annahme

Implementierung Entscheidungsbäume Entscheidungsbäume Nummerische Attribute Mehrwege-Aufteilung Fehlende Werte Pruning Prepruning Postpruning: Ersetzen/Hochziehen von Teilbäumen Komplexität der Bauminduktion Von Bäumen zu Regeln

Implementierung Klassifikationsregeln Klassifikationsregeln Auswahlkriterien für Bedingungen Fehlende Werte, nummerische Attribute Pruning von Regeln Signifikanzmaße inkrementelles vs. globales Pruning Incremental reduced-error pruning Pruning in PART Regeln mit Ausnahmen Generierung

Implementierung Erweiterung der linearen Klassifikation Erweiterung der linearen Klassifikation Nichtlineare Klassengrenzen Supportvektor-Maschinen Hyperebene mit maximalem Abstand Supportvektoren Kernel-Funktionen Verrauschte Daten Spärliche Daten

Implementierung Instanz-basiertes Lernen Instanz-basiertes Lernen Probleme des 1-NN-Verfahrens Lernen von Prototypen Beschleunigung und Bekämpfung von Rauschen Gewichtete Attribute Rechteckige Generalisierungen

Implementierung Bäume für die nummerische Vorhersage Bäume für die nummerische Vorhersage Regressionsbäume Modellbäume Aufbau des Baumes Nominale Attribute Fehlende Werte M5-Algorithmus Lokal gewichtete Regression Entwurfsentscheidungen Gewichtungsfunktion Glättungsparameter zur Skalierung der Distanzfunktion

Implementierung Clustern Clustern Grundlegende Methoden Hierarchisches Clustern k-means Inkrementelles Clustern Klassen-Nützlichkeit Nummerische Attribute Wahrscheinlichkeits-basiertes Clustern Mischungsmodell EM-Algorithmus Bayes sches Clustern

Aufbereitung von Input und Output Modifikation der Eingabe Modifikation der Eingabe Attributselektion: Schema-unabhängig, schema-spezifisch Attribut-Diskretisierung: Unüberwacht/überwacht, Fehler- vs. Entropie-basiert, Umkehr der Diskretisierung Daten-Transformationen: Hauptkomponentenanalyse, zufällige Projektionen, Text, Zeitreihen Unsaubere Daten: Daten säubern, Robuste Regression, Entdecken von Anomalien

Aufbereitung von Input und Output Modifikation der Ausgabe Modifikation der Ausgabe Meta-Lernen: Bagging (mit Kosten), Randomisierung, Boosting, additive (logistische) Regression, Optionen-Bäume, logistische Modellbäume, stacking, ECOCs Benutzung unklassifizierter Daten: Clustering zur Klassifikation, Co-Training, EM and Co-Training