Data Mining - Wiederholung

Ähnliche Dokumente
Data Mining - Wiederholung

Data Mining und maschinelles Lernen

Moderne Methoden der KI: Maschinelles Lernen

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

WEKA A Machine Learning Interface for Data Mining

Data Mining und Text Mining Einführung. S2 Einfache Regellerner

Folien zu Data Mining von I. H. Witten und E. Frank. übersetzt von N. Fuhr

Maschinelles Lernen Entscheidungsbäume

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Entscheidungsbäume

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining.

2. Lernen von Entscheidungsbäumen

Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014

Auswertung mit dem Statistikprogramm SPSS:

Vorlesung Maschinelles Lernen

Überwachtes Lernen: Klassifikation und Regression

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining.

Data Mining Anwendungen und Techniken

Häufige Item-Mengen: die Schlüssel-Idee. Vorlesungsplan. Apriori Algorithmus. Methoden zur Verbessung der Effizienz von Apriori

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002)

Data-Mining: Ausgewählte Verfahren und Werkzeuge

Data Mining mit der SEMMA Methodik. Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG

Text Mining 4. Seminar Klassifikation

Seminar Business Intelligence (2) Data Mining & Knowledge Discovery

Data Mining-Modelle und -Algorithmen

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen

Skalenniveau Grundlegende Konzepte

Seminar Business Intelligence Teil II: Data-Mining und Knowledge-Discovery

5 Data Warehouses und Data Mining

Maschinelles Lernen Entscheidungsbäume

Einführung in Data Mining mit Weka. Philippe Thomas Ulf Leser

Data Mining Bericht. Analyse der Lebenssituation der Studenten. der Hochschule Wismar. Zur Veranstaltung. Business Intelligence

Data Mining mit Rapidminer im Direktmarketing ein erster Versuch. Hasan Tercan und Hans-Peter Weih

Data Mining und Knowledge Discovery in Databases

Data-Mining Aufspüren von Mustern mit Hilfe von Entscheidungsbäumen

Werkzeuge. 12. Data Mining

Motivation. Themenblock: Data Preprocessing. Einsatzgebiete für Data Mining I. Modell von Gianotti und Pedreschi

Data Mining - Clustering. Sven Elvers

DIPLOMARBEIT. Herr Jens Böttcher. Statistische Analyse großer Datenmengen mittels Oracle Data Mining 11g

MS SQL Server 2012 (4)

Algorithmische Modelle als neues Paradigma

Elisabeth Raab-Steiner/Michael Benesch. Der Fragebogen. Von der Forschungsidee zur SPSS/PASW-Auswertung. 2., aktualisierte Auflage. facultas.

Seminar Data Mining and Learning from Data. Predictive Modeling. Thorsten Holz

Fakultät für Wirtschaftswissenschaften. Data Mining

Data Mining mit RapidMiner

3. Lernen von Entscheidungsbäumen

Seminar Text- und Datamining Datamining-Grundlagen

Techniken des Maschinellen Lernens für Data Mining. Ian Witten, Eibe Frank. (übersetzt von Norbert Fuhr)

6. Überblick zu Data Mining-Verfahren

4. Lernen von Entscheidungsbäumen. Klassifikation mit Entscheidungsbäumen. Entscheidungsbaum

Computerlinguistische Textanalyse

Data-Mining und Knowledge Discovery in Databases (KDD) Ein Überblick

Relevante Fachgebiete für Data Mining

Künstliche Intelligenz Maschinelles Lernen

Informationstheorethisches Theorem nach Shannon

Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining

Unsupervised Kernel Regression

Proseminar - Data Mining

Prozesse beim Data Mining. Relevante Fachgebiete für Data Mining. Beispiel: Datenquelle (relationale DB) Architektur eines Data Mining Systems

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining

8. Clusterbildung, Klassifikation und Mustererkennung

6. Überblick zu Data Mining-Verfahren

Data Mining in Datenbanken

Vorlesungsplan. Data Mining in Datenbanken. Einleitung. Veranstaltungsmodalitäten. Alexander Hinneburg

Data Mining und Text Mining Einführung. S1 Überblick Data Mining

Data Mining mit Microsoft SQL Server

Kapitel 11* Grundlagen ME. Aufbau eines ME-Systems Entwicklung eines ME-Systems. Kapitel11* Grundlagen ME p.1/12

Management Support Systeme

Proseminar - Data Mining

Visualisierung der Imperfektion in multidimensionalen Daten

Data Mining und Statistik: Gemeinsamkeiten und Unterschiede

Data Warehousing und Data Mining

Künstliche Neuronale Netze und Data Mining

Vorlesung 3 MINIMALE SPANNBÄUME

Grundbegriffe (1) Grundbegriffe (2)

Data Mining zur Entscheidungsunterstützung in der Hydrologie

generiere aus Textdokumenten zunächst Metadaten, wende Data Mining - Techniken dann nur auf diese an

Proseminar - Data Mining

Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens

Literatur. Dominating Set (DS) Dominating Sets in Sensornetzen. Problem Minimum Dominating Set (MDS)

0 Einführung: Was ist Statistik

Hochschule Wismar. Projektbericht. Evaluation und Ableitung von Ergebnissen anhand eines Fragebogens zur Studentensituation an der Hochschule Wismar

Präsentation zur Diplomprüfung. Thema der Diplomarbeit:

Seminar Business Intelligence Teil II. Data Mining & Knowledge Discovery

Vorlesung Text und Data Mining S9 Text Clustering. Hans Hermann Weber Univ. Erlangen, Informatik

Textmining Klassifikation von Texten Teil 1: Naive Bayes

Data Mining - Marketing-Schlagwort oder ernstzunehmende Innovation?

Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07

Programmiertechnik II

Data Mining in SAP NetWeaver BI

Next Best Product. Kundenspezifische Produktangebote in einer Multichannel Umgebung

2. Microsoft Innovationstag Nord Integrierte Lösungen in der Öffentlichen Verwaltung

fh management, communication & it Constantin von Craushaar fh-management, communication & it Statistik Angewandte Statistik

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren)

Transkript:

Data Mining - Wiederholung Norbert Fuhr 18. Januar 2006

Problemstellungen Problemstellungen Daten vs. Information Def. Data Mining Arten von strukturellen Beschreibungen Regeln (Klassifikation, Assoziations-) Regressionsfunktionen Entscheidungsbäume Domänenwissen und Transparenz der gelernten Beschreibungen Versionsraum Arten von Bias Beschreibungssprache, Suche, Überadaption Ethische Aspekte

Eingabe: Konzepte, Instanzen, Attribute Eingabe: Konzepte, Instanzen, Attribute Konzepte Klassifikationen Assoziationen, Clustering, Nummerische Vorhersage Instanzen Eigenschaften einer instanz Multi-Instanz-Problem Rekursion

Eingabe: Konzepte, Instanzen, Attribute Eingabe: Attribute Skalenniveaus Nominalskala Ordinalskala Intervallskala Verhältnisskala Semantik fehlender Werte Ungenaue Werte

Ausgabe: Wissensrepräsentation Ausgabe: Wissensrepräsentation Entscheidungstabellen Entscheidungsbäume Nominale vs. nummerische Attribute Behandlung fehlender Werte Entscheidungsregeln Bäume Regeln Regelinterpretation: Konflikte, nicht abgedeckte Fälle Assoziationsregeln Unterstützung und Konfidenz Interpretation Regeln mit Ausnahmen: Struktur, Vorteile Regeln mit Relationen

Ausgabe: Wissensrepräsentation Ausgabe: Wissensrepräsentation (Fortsetzung) Lineare Regression Bäume zur nummerischen Vorhersage Modellbaum Regressionsbaum Instanz-basierte Repräsentation Abstandsmetrik Prototypen/Rechteckige Generalisierungen Cluster: Repräsentation

Algorithmen Algorithmen 1R Grundversion nummerische Attribute Überadaption Berücksichtigung aller Attribute Naiver Bayes Modifizierte Wahrscheinlichkeitsschätzer Fehlende Werte nummerische Werte: Wahrscheinlichkeitsdichte Entscheidungsbäume: ID3 Teile-und-herrsche-Ansatz Attributauswahl: Informationsgewinn Reinheitsmaß: Entropie Gewinnverhältnis

Algorithmen Algorithmen (2) Abdeckungsalgorithmen einfacher Abdeckungsalgorithmus Auswahl einer Bedingung PRISM-Algorithmus Regeln vs. Entscheidungslisten Assoziationsregeln Unterstützung und Konfidenz einer Regel Gewinnung von Assoziationsregeln: Item sets Effiziente Generierung von Regeln

Algorithmen Algorithmen (3) Lineare Modelle Minimierung des quadratischen Fehlers Klassifikation durch Regression logistische Regression Instanzbasiertes Lernen Methoden Distanzfunktion Normalisierung

Evaluierung des Gelernten Evaluierung des Gelernten Aspekte: Training, Testen, Tuning Training, Validieren. Testen Resubstitutionsfehler Vorhersage der Qualität: Vertrauensintervalle Optimale Ausnutzung der Daten Holdout Kreuzvalidierung Leave-one-out Bootstrap Vergleich von Verfahren Signifikanztests: Hypothesen Paarweiser t-test Unabhängige Stichproben

Evaluierung des Gelernten Evaluierung des Gelernten(2) Schätzung von Wahrscheinlichkeiten Verlustfunktionen: quadratisch, informationell Kosten-basierte Maße Fallmatrix Steigerungsdiagramm ROC-Kurve kostensensitives Lernen Evaluierung nummerischer Vorhersagen Fehlermaße Korrelationskoeffizient Das Prinzip der minimalen Beschreibungslänge MDL MAP Bayessche Modell-Mittelung MDL und Clustering

Bayessche Netzwerke Bayessche Netzwerke Aufbau Bayesscher Netze Berechnung der Klassenwahrscheinlichkeiten 1 Berechnung des Produktes von Wahrscheinlichkeiten pro Klasse 2 Normalisierung Zugnundeliegende Annahme

Implementierung Entscheidungsbäume Entscheidungsbäume Nummerische Attribute Mehrwege-Aufteilung Fehlende Werte Pruning Prepruning Postpruning: Ersetzen/Hochziehen von Teilbäumen Komplexität der Bauminduktion Von Bäumen zu Regeln

Implementierung Klassifikationsregeln Klassifikationsregeln Auswahlkriterien für Bedingungen Fehlende Werte, nummerische Attribute Pruning von Regeln Signifikanzmaße inkrementelles vs. globales Pruning Incremental reduced-error pruning Pruning in PART Regeln mit Ausnahmen Generierung

Implementierung Erweiterung der linearen Klassifikation Erweiterung der linearen Klassifikation Nichtlineare Klassengrenzen Supportvektor-Maschinen Hyperebene mit maximalem Abstand Supportvektoren Kernel-Funktionen Verrauschte Daten Spärliche Daten

Implementierung Instanz-basiertes Lernen Instanz-basiertes Lernen Probleme des 1-NN-Verfahrens Lernen von Prototypen Beschleunigung und Bekämpfung von Rauschen Gewichtete Attribute Rechteckige Generalisierungen

Implementierung Bäume für die nummerische Vorhersage Bäume für die nummerische Vorhersage Regressionsbäume Modellbäume Aufbau des Baumes Nominale Attribute Fehlende Werte M5-Algorithmus Lokal gewichtete Regression Entwurfsentscheidungen Gewichtungsfunktion Glättungsparameter zur Skalierung der Distanzfunktion

Implementierung Clustern Clustern Grundlegende Methoden Hierarchisches Clustern k-means Inkrementelles Clustern Klassen-Nützlichkeit Nummerische Attribute Wahrscheinlichkeits-basiertes Clustern Mischungsmodell EM-Algorithmus Bayes sches Clustern