Seminar Business Intelligence Teil II Data Mining & Knowledge Discovery
Was ist Data Mining? Sabine Queckbörner
Was ist Data Mining? Data Mining Was ist Data Mining? Nach welchen Mustern wird gesucht? Wie wird gesucht? Knowledge Discovery in Databases (KDD) Der KDD-Prozess Gegenüberstellung Data Mining und KDD Online Analytical Processing (OLAP) Gegenüberstellung Data Mining und OLAP Problemfelder des Data Mining Übersicht
Data Mining Begriffsbestimmung Was ist Data Mining? Analyse großer mengen mit automatischen oder halbautomatischen Werkzeugen (Berry, Linoff) Methode zur Problemlösung um logische oder mathematische, zum Teil komplexe Beschreibungen von Mustern und Regelmäßigkeiten in sätzen zu entdecken (Decker, Focardy)
Data Mining Begriffsbestimmung Was ist Data Mining? Teilschritt des KDD-Prozesses, der aus der Anwendung von analysealgorithmen besteht und zu einer Auflistung von Mustern, die aus gewonnen wurden, führt (Fayyad, Piatetsky-Shapiro und Smyth) Data Mining als Anwendung von Algorithmen auf mit der Zielsetzung, Muster aus den zu extrahieren.
Data Mining Nach welchen Mustern wird gesucht Data Mining Was ist Data Mining? Nach welchen Mustern wird gesucht? Wie wird gesucht? Knowledge Discovery in Databases (KDD) Der KDD-Prozess Gegenüberstellung Data Mining und KDD Online Analytical Processing (OLAP) Gegenüberstellung Data Mining und OLAP
Data Mining Nach welchen Mustern wird gesucht Ausprägungen Regeln und Abhängigkeiten Gruppen (Cluster) Verbindungsmuster (Link) Zeitliche Muster (Sequence) Abweichungen Formeln und Gesetzmäßigkeiten
Data Mining Nach welchen Mustern wird gesucht Nicht alle gefundenen Muster sind für den Benutzer interessant! Nicht alle für den Benutzer relevanten Muster werden gefunden!
Data Mining Wie wird gesucht? Data Mining Was ist Data Mining? Nach welchen Mustern wird gesucht? Wie wird gesucht? Knowledge Discovery in Databases (KDD) Der KDD-Prozess Gegenüberstellung Data Mining und KDD Online Analytical Processing (OLAP) Gegenüberstellung Data Mining und OLAP Problemfelder des Data Mining
Data Mining Wie wird gesucht? Möglichkeiten Nach mehreren Mustern parallel suchen In verschiedenen Abstraktionsebenen suchen Nach verschiedenen Schwerpunkten
Data Mining Wie wird gesucht? Methoden Künstliche neuronale Netze Kohonen-Netze Lineare Regression Genetische Algorithmen CHAID Regelbasierte Systeme
KDD Data Mining Was ist Data Mining? Nach welchen Mustern wird gesucht? Wie wird gesucht? Knowledge Discovery in Databases Der KDD-Prozess Der KDD-Prozess Gegenüberstellung Data Mining und KDD Online Analytical Processing (OLAP) Gegenüberstellung Data Mining und OLAP Problemfelder des Data Mining
KDD Der KDD-Prozess Prozess zur Identifikation von Mustern Gültig Neuartig Potentiell nützlich Verständlich Wissen
KDD Der KDD-Prozess Auswahl Integration Bereinigung Reduktion Projektion Data Mining Interpretation Zieldaten Vorbereitete Transformierte Muster Wissen Auswahl Zieldaten
KDD Der KDD-Prozess Auswahl Integration Bereinigung Reduktion Projektion Data Mining Interpretation Zieldaten Vorbereitete Transformierte Muster Wissen Integration Bereinigung Zieldaten Vorbereitete
KDD Der KDD-Prozess Auswahl Integration Bereinigung Reduktion Projektion Data Mining Interpretation Zieldaten Vorbereitete Transformierte Muster Wissen Reduktion Projektion Vorbereitete Transformierte
KDD Der KDD-Prozess Auswahl Integration Bereinigung Reduktion Projektion Data Mining Interpretation Zieldaten Vorbereitete Transformierte Muster Wissen Data Mining Transformierte Muster
KDD Der KDD-Prozess Auswahl Integration Bereinigung Reduktion Projektion Data Mining Interpretation Zieldaten Vorbereitete Transformierte Muster Wissen Interpretation Muster Wissen
KDD Data Mining Was ist Data Mining? Nach welchen Mustern wird gesucht? Wie wird gesucht? Data Mining KDD Knowledge Discovery in Databases Der KDD-Prozess Gegenüberstellung Data Mining und KDD Online Analytical Processing (OLAP) Gegenüberstellung Data Mining und OLAP Problemfelder des Data Mining
KDD Data Mining KDD Auswahl Integration Bereinigung Reduktion Projektion Data Mining Interpretation Alle Zieldaten Vorbereitete Transformierte Muster Wissen Data Mining ist ein Teilschritt des KDD-Prozesses
OLAP Data Mining Was ist Data Mining? Nach welchen Mustern wird gesucht? Wie wird gesucht? Knowledge Discovery in Databases (KDD) Der KDD-Prozess Gegenüberstellung Data Mining und KDD Online Analytical Processing (OLAP) Gegenüberstellung Data Mining und OLAP Problemfelder des Data Mining
OLAP würfel n Dimensionen n Attribute Beispiel: Ort 3 Dimensionen: Ort, Zeit, Produkt Zeit Produkt
OLAP würfel n Dimensionen n Attribute Wertebereich kontinuierlich diskret Hierarchien Abstraktionsebenen
OLAP Hierarchien Beispiel: Hierarchie auf Attribut Zeit Jahr 2003 Quartal 1.Quartal 2003... 4. Quartal 2003 Januar 2003 Februar 2003 März 2003... Dezember 2003 Monat
OLAP Roll-Up Drill-Down Drill-Down 1.Quartal 2003 Januar 2003 Februar 2003 März 2003 Roll-Up
OLAP Roll-Up Drill-Down Ort Produkt Ort Produkt = Radio Slice Zeit Zeit Ort = KL Ort Zeit Produkt Zeit Produkt
OLAP Roll-Up Drill-Down Slice Dice Ort Produkt Ort = RLP Zeit = 4.Quartal Produkt = Rundfunkgeräte Ort Zeit Produkt Zeit
OLAP Roll-Up Drill-Down Slice Dice Rotate (Pivote)
OLAP Data Mining OLAP Data Mining Was ist Data Mining? Nach welchen Mustern wird gesucht? Wie wird gesucht? Knowledge Discovery in Databases (KDD) Der KDD-Prozess Gegenüberstellung Data Mining und KDD Online Analytical Processing (OLAP) Gegenüberstellung Data Mining und OLAP Problemfelder des Data Mining
OLAP Rennpferd Arbeitspferd OLAP = Arbeitspferd Data Mining = Rennpferd Data Mining OLAP
OLAP Data Mining OLAP Data Mining als Erweiterung des OLAP OLAP Data Mining Analyseziel notwendig (z.b. Hypothese) Kein Analyseziel notwendig (kann Hypothesen liefern) Ergebnis steht fest (z.b. Bestätigung der Hypothese) Ergebnis steht nicht fest, unbekannte Muster möglich müssen bekannt sein (Benutzer wählt aus) können vollkommen unbekannt sein Benutzerinteraktive Analyse (aktive Auswertung der ) Automatische Analyse (computergestützte Algorithmen) Ergebnis ist eine andere Darstellungsform der Ergebnis sind Zusammenhänge und Muster in den
OLAP OLAP Mining Data Mining OLAP integrierte, konsistente und gesäuberte Anwendung von Data-Mining-Algorithmen Interaktive Analyse und anschauliche Interpretation wie bei OLAP OLAP-Mining-Funktionen (Auszug) Cubing then Mining Mining then Cubing
Problemfelder Problemfelder des Data Mining Data Mining Was ist Data Mining? Nach welchen Mustern wird gesucht? Wie wird gesucht? Knowledge Discovery in Databases (KDD) Der KDD-Prozess Gegenüberstellung Data Mining und KDD Online Analytical Processing (OLAP) Gegenüberstellung Data Mining und OLAP Problemfelder des Data Mining
Problemfelder Problemfelder des Data Mining Speichergröße Problem: Lösung: Antwortzeit Problem: Lösung: passen nicht vollständig in den Speicher Algorithmen, die zum Beispiel in mehreren Durchgängen analysieren schnellere Analysen gewünscht kürzere Antwortzeiten des Systems parallele Analysetechniken Vielfalt der typen Problem: neue typen, Videos... Benutzerfreundlichkeit schutz und Sicherheit
Was ist Data Mining? Zusammenfassung Data Mining Muster, Verfahren KDD-Prozess Data Mining als Teilschritt des KDD-Prozesses OLAP modell, Data Mining als Erweiterung des OLAP Problemfelder
Vielen Dank