Infos. Inhaltsverzeichnis. Einführung

Größe: px
Ab Seite anzeigen:

Download "Infos. Inhaltsverzeichnis. Einführung"

Transkript

1 Wissensextraktion Prof. Dr. Jürgen Cleve / Prof. Dr. Uwe Lämmel Infos Lehrveranstaltungen 2 V + 2 Ü, geteilt: Prüfung Prof. Lämmel: NN Prof. Cleve: Klassische Verfahren Projekt und MP 30min Skript, Folien, Übungen etc. in Stud.IP: Wissensextraktion Skript und Folien CopyShop Hochschule Wismar 26. Januar 2015 Literatur Cleve/Lämmel: Data Mining, Oldenbourg s. auch Skript und Stud.IP KNIME Modul DM Weitere Infos unter Stud.IP KNIME Desktop in ILIAS, etliche Zusatzinfos (Videos, Tests) 26. Januar 2015 Inhaltsverzeichnis Inhaltsverzeichnis Einführung Data Mining Grundlagen Anwendungsklassen Wissensrepräsentation Methoden und Verfahren Datenvorbereitung Bewertung Einführung Data Mining Grundlagen Anwendungsklassen Wissensrepräsentation Methoden und Verfahren Datenvorbereitung Bewertung Inhaltsverzeichnis Kapitel Januar 2015 Einführung Folie 1-1 (6) Einführung Data Mining und Business Intelligence Auswertung von Massendaten Ablauf einer Datenanalyse Data you don t need is never lost. Ander s first negative Principle of Computers Was ist Data Mining? 1.1 Data Mining und Business Intelligence Folie 1-2 (7) 1.1 Data Mining und Business Intelligence Folie 1-3 (8) Business Intelligence Business Intelligence Business Intelligence (BI) ist ein relativ neuer Begriff. Effektiver/effizienter Umgang mit dem Unternehmenswissen für das Überleben wichtig Nach und nach: Reihe von Techniken, Programmen etc. für Unternehmenswissen Heute: Business Intelligence Zusammenfassung dieser Techniken und Architekturen für eine effiziente Verwaltung/Analyse des Unternehmenswissens Aufgaben von BI: Wissensgewinnung, -verwaltung und -verarbeitung. Querbezüge zu Informationsmanagement Datenbanken/Data Warehouse Künstliche Intelligenz Data Mining (inkl. OLAP, Statistik)

2 1.1 Data Mining und Business Intelligence Folie 1-4 (9) 1.1 Data Mining und Business Intelligence Folie 1-5 (10) Business Intelligence Definition Business Intelligence Definition Verschiedene Definitionen des Begriffs Business Intelligence. Business Intelligence im engeren/weiteren/weiten Sinn. Business Intelligence im engeren Sinn: Kernapplikationen, die eine Entscheidungsfindung direkt unterstützen. Online Analytical Processing (OLAP) die Management Information Systems (MIS) Executive Information Systems (EIS) Data Mining und Business Intelligence Folie 1-6 (11) 1.1 Data Mining und Business Intelligence Folie 1-7 (12) Business Intelligence Definition Business Intelligence Definition Etwas weiterer BI-Begriff: alle Analyse-orientierten Anwendungen Data Mining Reporting Analytisches Customer Relationship Management... BI im weiten Verständnis: Alle Anwendungen, die im Entscheidungsprozess benutzt werden. Präsentationssysteme Datenspeicherung und -verwaltung Data Mining und Business Intelligence Folie 1-8 (13) 1.1 Data Mining und Business Intelligence Folie 1-9 (14) Business Intelligence Definition Business Intelligence Data Mining Schwerpunkt dieser Vorlesung: Wissensextraktion / Data Mining... nur kleiner Ausschnitt aus dem BI-Spektrum Abbildung Business Intelligence [Kemper et al.] 1.2 Auswertung von Massendaten Folie 1-10 (15) 1.2 Auswertung von Massendaten Folie 1-11 (16) Was fangen wir mit den Unmengen von Daten an? Motivation Industrielle Prozessdaten Umsatzdaten Genom-Daten Bilder Textinformationen weltweit stetig steigende Datenflut grobe Schätzungen: Verdoppelung alle 20 Monate Daten über den initialen Zweck hinaus benutzen Data Mining = Datenschürfen Suche nach Mustern oder auffälligen Häufungen Suche nach Beurteilungskriterien für vorgegebene Ziele Ausführbar zu Zeiten schwacher Computerauslastung (z.b. nachts)

3 1.2 Auswertung von Massendaten Folie 1-12 (17) 1.2 Auswertung von Massendaten Folie 1-13 (18) Stories of success Vorhersage von Klausurnoten Erzeugen eines Entscheidungsbaums (generiert aus alten Kreditdaten) als Entscheidungshilfe für die Bewertung der Kreditwürdigkeit eines Kunden Generierung von Mustern von typischen Reisenden, um den Verkauf von Billigflügen oder -urlauben zu managen Windeln und Bier: Analyse des Kaufverhaltens ergibt, dass derjenige, der Windeln kauft, sehr häufig auch Bier kauft, aber nicht umgekehrt. Analyse der Gene bei Diabetes-Kranken, um typische Gene zu erkennen Grammatik <= 6 > 6 Logik TM <= 6 > 6 <= 6 > 6 5 (17.0/1.0) Grundlagen 3 (2.0) Logik <= 1 > 1 <= 8 > 8 5 (2.0) 4 (6.0/1.0) 3 (2.0/1.0) 2 (2.0) Abb. 1: Entscheidungsbaum für die TI-Klausur 2013/ Ablauf einer Datenanalyse Folie 1-14 (19) 1.3 Ablauf einer Datenanalyse Folie 1-15 (20) Ablauf einer Datenanalyse Folgende Phasen unterscheidet man beim Data Mining: Selektion Auswahl der geeigneten Datenmengen Datenvorverarbeitung Skalierung, Ausreißer... Transformation Umwandlung in adäquate Datenformate Data Mining eigentliches Suchen nach Mustern etc. Interpretation / Evaluation Interpretation der Ergebnisse und Auswertung Ablauf einer Datenanalyse Datenselektion Daten Datenvorverarbeitung Zieldaten Datentransformation bereinigte Daten Data Mining bereinigte und transformierte Daten Evaluation & Interpretation Muster Regeln... Information Wissen Abb. 2: Ablauf eines Data-Mining-Prozesses [Fayyad et al.] 1.3 Ablauf einer Datenanalyse Folie 1-16 (21) CRISP Data-Mining-Modell CRISP Data-Mining-Modell 1.3 Ablauf einer Datenanalyse Folie 1-17 (22) CRISP Data-Mining-Modell CRISP Data-Mining-Modell Das CRISP-DM-Modell wurde durch NCR, Daimler-Benz, ISL, OHRA entwickelt. Cross Industry Standard Process for Data Mining (http://www.crisp-dm.org/). Man geht von einem Lebenszyklus in 6 Etappen aus: 1. Verstehen der Aufgabe 2. Verständnis der Daten 3. Datenvorbereitung 4. Data Mining (Modellbildung) 5. Evaluation 6. Einsatz im & Konsequenzen für Unternehmen Business Understanding Deployment Data Evaluation Data Understanding Data Preparation Modelling Abb. 3: CRISP-Modell 1.3 Ablauf einer Datenanalyse Folie 1-18 (23) Datenselektion Datenselektion 1.3 Ablauf einer Datenanalyse Folie 1-19 (24) Datenvorverarbeitung Datenvorverarbeitung Welche Daten sind verfügbar? Zusammenführen von Daten aus unterschiedlichen Quellen interne / externe Daten Qualität des Zieldatenbestands untersuchen und durch Einsatz geeigneter Verfahren verbessern Fehlerhafte Daten Fehlende Daten Ausreißer

4 1.3 Ablauf einer Datenanalyse Folie 1-20 (25) Datentransformation Datentransformation 1.3 Ablauf einer Datenanalyse Folie 1-21 (26) Data Mining Data Mining Analyserelevanten Zieldatenbestand in ein solches Datenbankschema transformieren, das von dem verwendeten Data-Mining-System verarbeitet werden kann Attribute transformieren Dimensionsreduktion Verfahrensauswahl (z.b. Clusteranalyse) Konfiguration des Verfahrens 1.3 Ablauf einer Datenanalyse Folie 1-22 (27) Evaluation und Interpretation Evaluation und Interpretation Inhaltsverzeichnis 26. Januar 2015 Einführung Bewertung der Resultate Anforderungen: Gültigkeit Neuartigkeit Nützlichkeit Verständlichkeit Data Mining Grundlagen Anwendungsklassen Wissensrepräsentation Methoden und Verfahren Datenvorbereitung Bewertung Inhaltsverzeichnis Kapitel Januar 2015 Data Mining Grundlagen Folie 2-1 (30) Data Mining Grundlagen Begriffe Zwei Beispiele Interdisziplinarität Datentypen Abstands- und Ähnlichkeitsmaße Weitere Grundbegriffe If you file it, you ll know where it is but you ll never need it. If you don t file it, you ll need it but never know where it is. Tillis s Organizational Principle 2.1 Begriffe Folie 2-2 (31) 2.1 Begriffe Folie 2-3 (32) Daten Information Definition 2.1 (Daten) Ansammlungen von Zeichen mit der dazugehörigen Syntax werden Daten genannt. Daten Plural des lateinischen Datum, ein Informationselement. unstrukturierte Daten (Bild, Text) semistrukturierte Daten (WWW-Seiten) strukturierte Daten (Datenbanken) Definition 2.2 (Information) Werden Daten mit einer Bedeutung gekoppelt, handelt es sich um Informationen. Information zweckbestimmte Interpretation von Daten durch den Menschen

5 2.1 Begriffe Folie 2-4 (33) 2.1 Begriffe Folie 2-5 (34) Wissen Data Mining Definition 2.4 (Data Mining) Definition 2.3 (Wissen) Eine Information in Verbindung mit der Fähigkeit, diese zu benutzen, wird als Wissen bezeichnet. Information, die man anzuwenden weiß Wissen Beim Data Mining (Datenschürfen) handelt es sich um die Extraktion von Wissen aus Daten. Data Mining ist die nichttriviale und automatische Suche nach Wissen in Massendaten. Man unterscheidet: Data Mining i.e.s. (strukturierte Daten) Web Mining (semistrukturierte Daten) Text Mining (unstrukturierte Daten) 2.2 Zwei Beispiele Folie 2-6 (35) 2.2 Zwei Beispiele Folie 2-7 (36) Beispiele Beispiele In Warenhäusern werden an den Kassen die verkauften Waren elektronisch erfasst. Diese Daten werden in Datenbanken abgelegt, wodurch riesige Datenbestände über Verkaufsumsätze zur Verfügung stehen. Mit Hilfe von Data-Mining-Verfahren können nun verschiedene Analysen auf diesen Daten durchgeführt werden: Welche Waren werden häufig gemeinsam mit anderen gekauft? Wann werden welche Waren in welchen Mengen gekauft? Benutzen dieser Informationen, um effizient bestimmte Aufgaben lösen zu können. Erkennen von Kundengruppen Zuschneiden von Werbeprospekten auf diese Kundengruppen gezieltes Versenden von Werbeprospekten an konkrete Zielgruppen 2.3 Interdisziplinarität Folie 2-8 (37) 2.3 Interdisziplinarität Folie 2-9 (38) Interdisziplinarität Interdisziplinarität Es gibt eine ganze Reihe von Bezügen des Data Mining zu anderen Disziplinen. Data Mining ist höchst interdisziplinär. Statistik Mathematik Datenbanken Data Warehouses Wissensbasierte Systeme Künstliche Intelligenz Data Mining Datenbanken Maschinelles Lernen Statistik Visualisierung Visualisierung Computergraphik Abb. 4: Interdisziplinarität 2.4 Datentypen Folie 2-10 (39) 2.4 Datentypen Folie 2-11 (40) Datentypen Man unterscheidet folgende wichtige Datentypen: nominal ordinal metrisch Verfeinerungen möglich: Nominale Daten unterliegen keinerlei Rangfolge. Sie können lediglich nach dem Kriterium gleich bzw. nicht gleich sortiert werden. Ordinale Daten haben zumindest eine Ordnungsrelation (wie <). Metrische Daten besitzen alle Ordnungsmerkmale der reellen Zahlen. Man kann mit ihnen rechnen. Intervalle (Geburtsjahr) Verhältniszahlen (Gewicht, Größe) Gute Beispiele in [Dorian Pyle, S. 67]. Datentypen nominal ordinal metrisch Farbe Schulnote Fläche Beruf Schuhgröße Geschwindigkeit Familienstand Erdbebenstärke Körpergröße Staatsangehörigkeit Altersgruppe Kinderzahl Tabelle 1: Beispiel Datentypen

6 2.4 Datentypen Folie 2-12 (41) 2.5 Abstands- und Ähnlichkeitsmaße Folie 2-13 (42) Umwandlung von ordinalen in metrische Daten Abstands- und Ähnlichkeitsmaße Betrachten ein Attribut mit den Ausprägungen klein, mittelgroß, groß, sehr groß. Umwandlung in metrisches Attribut: klein 0 mittelgroß 0,3 groß 0,7 sehr groß 1 Achtung: Willkürliche Wahl der Zahlen beeinflusst den Abstand zwischen den Werten und eventuell das Resultat. dist(v,w): Abstand zweier Datensätze simil(v,w): Ähnlichkeit zweier Datensätze Zur Bestimmung der Ähnlichkeit wird meist der Abstand herangezogen: simil(v,w) = f(dist(v,w)) 2.5 Abstands- und Ähnlichkeitsmaße Folie 2-14 (43) 2.5 Abstands- und Ähnlichkeitsmaße Folie 2-15 (44) Eigenschaften von Distanzfunktionen Distanzfunktionen Eine Abstandsfunktion (auch Distanzfunktion genannt) sollte folgende Eigenschaften erfüllen: dist(x,x) = 0 dist(x,y) = dist(y,x) dist(x,y) dist(x,z) + dist(z,y) Folgende typische Distanzfunktionen gibt es: Hamming-Distanz: dist H (v,w) = count i (v i w i ) Euklidische Distanz: dist E (v,w) = (v i w i ) 2 i Manhattandistanz: dist S (v,w) = ( v i w i ) i Maximumdistanz: dist Max (v,w) = max( v i w i ) i... Minkowski-Distanz: dist Minkowski (v,w) = p v i w i p i 2.5 Abstands- und Ähnlichkeitsmaße Folie 2-16 (45) 2.5 Abstands- und Ähnlichkeitsmaße Folie 2-17 (46) Distanzfunktionen Aufgaben dist H = 2, dist E 8.9, dist Man = 12, dist Max = 8 Aufgabe 2.1 (Distanz) Wenn man die Schritte des Königs auf einem Schachbrett als Distanz wählt, welchem Distanzbegriff entspricht das? Und welchem Begriff entspricht die Anzahl der Felder, die der Turm passieren müsste? Aufgabe 2.2 (Distanz) Berechnen Sie die Distanz zwischen den Punkten (0,1,2), (1,5,3) und (4,-2,3). Verwenden Sie dabei alle 4 aufgeführten Distanzfunktionen. Abb. 5: Beispiel Distanzen 2.5 Abstands- und Ähnlichkeitsmaße Folie 2-18 (47) 2.6 Weitere Grundbegriffe Folie 2-19 (48) Aufgaben Weitere Grundbegriffe Aufgabe 2.3 (Distanz) Suchen Sie weitere Abstandsmaße. Aufgabe 2.4 (Datentypen) Welchen Typ von Daten haben wir bei den Postleitzahlen: nominal, ordinal, metrisch? Lernen aus gegebenen Beispielen: Instanzenmenge E. Lernen auf einer Teilmenge von E: Trainingsmenge T E Validieren auf einer anderen Teilmenge von E (meist E \ T ): Validierungsmenge

7 2.6 Weitere Grundbegriffe Folie 2-20 (49) Lern-Strategien 3 Anwendungsklassen Wissensextraktion Inhaltsverzeichnis 26. Januar 2015 Einführung Data Mining Grundlagen Nicht-überwachtes Lernen: Die zu entdeckenden Muster sind unbekannt. Überwachtes Lernen: Es werden Beispiele vorgegeben, z.b. Beispiele für Nadel- oder Laubbäume. Anwendungsklassen Wissensrepräsentation Methoden und Verfahren Datenvorbereitung Bewertung 3 Anwendungsklassen Wissensextraktion Inhaltsverzeichnis Kapitel Januar Anwendungsklassen Wissensextraktion Anwendungsklassen Folie 3-1 (52) Anwendungsklassen Klassifikation Clustering Numerische Vorhersage Assoziationsanalyse Text Mining Web Mining Klassifikation Clustering All great discoveries are made by mistake. Young s Law Numerische Vorhersage Assoziation Text Mining Web Mining 3 Anwendungsklassen Wissensextraktion 3.1 Klassifikation Folie 3-2 (53) 3 Anwendungsklassen Wissensextraktion 3.1 Klassifikation Folie 3-3 (54) Klassifikation Klassifikation Ziel der Klassifikation ist die Einteilung eines Gegenstandsbereichs (z.b. Kunden) in Klassen (normale / sehr gute Kreditwürdigkeit). Trainingsproben Klassifikationsalgorithmus Name Alter Ein- Kreditkommen würd. Adam 30 niedrig normal Beate 30 niedrig sehr gut Klassifikations- Clemens hoch sehr gut regeln (z.b.) Diana > 40 mittel normal WENN Alter = UND Egon > 40 mittel normal Einkommen = hoch DANN Frank hoch sehr gut Kreditwürdigkeit = sehr gut Abb. 6: Klassifikation Lernphase 3 Anwendungsklassen Wissensextraktion 3.1 Klassifikation Folie 3-4 (55) 3 Anwendungsklassen Wissensextraktion 3.1 Klassifikation Folie 3-5 (56) Klassifikation Klassifikation Testproben Name Alter Ein- Kredit- Bewertung kommen würdigkeit durch Regeln Gerda hoch sehr gut sehr gut Hanno hoch normal sehr gut Inge > 40 hoch sehr gut Abb. 7: Klassifikation Testphase Neue Daten Name Alter Ein- Kredit- Bewertung kommen würdigkeit durch Regeln Jochen hoch?? sehr gut Karl Abb. 8: Klassifikation Anwendungsphase

8 3 Anwendungsklassen Wissensextraktion 3.1 Klassifikation Folie 3-6 (57) 3 Anwendungsklassen Wissensextraktion 3.2 Clustering Folie 3-7 (58) Klassifikation Clustering Beispiel 3.1 (Klassifikation) Vorhersage, ob ein bestimmter Kunde auf eine Werbeaktion reagieren wird Zeichenerkennung (Kfz-Kennzeichen, Adressen etc.) Vorhersage von Erdbebenwahrscheinlichkeiten Einige Verfahren: Induktion von Entscheidungsbäumen Induktion von Klassifikationsregeln Neuronale Feedforward Netze Bayes-Verfahren Ziel der Clusteranalyse ist es, eine gegebene Instanzenmenge E (E X) in verschiedene Teilmengen (Cluster) zu zerlegen. Die Individuen innerhalb eines Clusters sollen dabei möglichst ähnlich sein, wohingegen Individuen verschiedener Cluster möglichst unähnlich sein sollen. 3 Anwendungsklassen Wissensextraktion 3.2 Clustering Folie 3-8 (59) 3 Anwendungsklassen Wissensextraktion 3.2 Clustering Folie 3-9 (60) Clustering Clustering Gegeben X Instanzenraum E X Instanzenmenge dist : X X R + Abstandsfunktion quality : 2 2X R Qualitätsfunktion Gesucht Clustermenge C = {C 1,...,C k }, wobei: C i E quality(c) max C i C j = (optional) C 1... C k = E (optional) Abb. 9: Schlechtes und gutes Clustering 3 Anwendungsklassen Wissensextraktion 3.2 Clustering Folie 3-10 (61) 3 Anwendungsklassen Wissensextraktion 3.3 Numerische Vorhersage Folie 3-11 (62) Clustering Numerische Vorhersage Beispiel 3.2 (Clustern) Finden homogener Kundengruppen zur gezielten Angebotsgestaltung OCR: Finden von Buchstabengruppen, die ähnliche Bilder haben, um spezialisierte Klassifikatoren zu entwickeln Einige Verfahren: k-means-algorithmus Selbstorganisierende Neuronale Netze (z.b. Kohonen Map, Growing Neural Gas) Gegeben: X Menge möglicher Instanzenbeschreibungen Y Menge möglicher Zielwerte E Menge von Beispielen (x,y) X Y, wobei y = f(x) Gesucht: Funktion y = h(x), so dass error(h,f) min. 3 Anwendungsklassen Wissensextraktion 3.3 Numerische Vorhersage Folie 3-12 (63) 3 Anwendungsklassen Wissensextraktion 3.4 Assoziationsanalyse Folie 3-13 (64) Numerische Vorhersage Assoziationsanalyse Beispiel 3.3 (Numerische Vorhersage) Vorhersage von Verkaufszahlen zur Lageroptimierung Vorhersage von Aktienkursen Zeitreihenanalyse Einige Verfahren: Lineare Regression Regressionsbäume Neuronale Netze (Feed forward) Assoziation beschäftigt sich mit der Erkennung und Quantifizierung von Zusammenhängen und Abhängigkeiten von Attributen. unabhängig von der eigentlichen Klassifikation Suche nach Zusammenhängen zwischen den Attributen Beispiel 3.4 (Assoziationsanalyse) Ein Versandhaus erkennt: Wer A kauft, kauft häufig auch B. Also: Anpassung des Angebotsverhaltens

9 3 Anwendungsklassen Wissensextraktion 3.4 Assoziationsanalyse Folie 3-14 (65) 3 Anwendungsklassen Wissensextraktion 3.5 Text Mining Folie 3-15 (66) Einordnung in das Data Mining Text Mining Identifikation von Regelmäßigkeiten, Herausarbeiten von Regeln Vorhersage des Verhaltens neuer Datensätzen Anwendungsgebiete: Risikoabschätzung im Kreditwesen, Versicherungsbranche Spielanalyse gegnerischer Fußballmannschaften... Text Mining beschäftigt sich mit der Analyse von Textdokumenten. Texte sind im Gegensatz zu Datenbanken und Web-Seiten unstrukturiert. Einige Verfahren: A-Priori-Verfahren ART-Netze 3 Anwendungsklassen Wissensextraktion 3.6 Web Mining Folie 3-16 (67) 3 Anwendungsklassen Wissensextraktion 3.6 Web Mining Folie 3-17 (68) Web Mining Web Mining Web Mining Web Content Mining Web Usage Mining Web Content Mining Web Usage Mining Web Log Mining Integrated Web Usage Mining Abb. 10: Web Mining 3 Anwendungsklassen Wissensextraktion 3.6 Web Mining Folie 3-18 (69) Web Log Mining Inhaltsverzeichnis 26. Januar 2015 Einführung Internet bedeutende Plattform für die Abwicklung geschäftlicher Prozesse Wichtig: Gute Web-Präsenz Web Log Mining: Analyse des Nutzer-Verhaltens, um Rückschlüsse für Optimierung der Web-Präsenz zu ziehen. Data Mining Grundlagen Anwendungsklassen Wissensrepräsentation Methoden und Verfahren Datenvorbereitung Bewertung Inhaltsverzeichnis Kapitel Januar 2015 Wissensrepräsentation Folie 4-1 (72) Wissensrepräsentation Entscheidungstabellen Entscheidungsbäume Klassifikationsregeln Assoziationsregeln Instanzenbasierte Darstellung Cluster Quality is inversely proportional to the time left for completion of the project. Wright s first law of quality. 1. Entscheidungstabellen 2. Entscheidungsbäume 3. Klassifikationsregeln 4. Assoziationsregeln 5. Instanzenbasierte Darstellung 6. Cluster

10 4.1 Entscheidungstabellen Folie 4-2 (73) 4.1 Entscheidungstabellen Folie 4-3 (74) Entscheidungstabellen Eine Entscheidungstabelle ist die tabellarische Auflistung möglicher Bedingungen (Eingaben) und des gewünschten Ergebnisses (Ausgabe), das jeder Bedingung entspricht. Entscheidungstabellen Beispiel 4.1 (Entscheidungstabelle) In Tabelle 2 ist eine Entscheidungstabelle für das Golfspiel gegeben. outlook temperature humidity windy play sunny hot high false no sunny hot high true no sunny mild high false no sunny mild normal true yes sunny cool normal false yes overcast hot high false yes overcast hot normal false yes overcast mild high true yes overcast cool normal true yes rainy mild high false yes rainy mild normal false yes rainy mild high true no rainy cool normal false yes rainy cool normal true no Tabelle 2: Entscheidungstabelle für Golf-Spiel 4.2 Entscheidungsbäume Folie 4-4 (75) 4.2 Entscheidungsbäume Folie 4-5 (76) Entscheidungsbäume Repräsentationsform, bei der die Ergebnisse einer Bedingung verzweigt dargestellt werden. Diese Verzweigungen können wiederum andere Verzweigungen generieren. graphisch aufbereitete Darstellung Entscheidungen einfach nachvollziehbar Entscheidungsbäume Beispiel 4.2 (Golfspiel) In Abbildung 11 ist ein möglicher Entscheidungsbaum für das Golf-Beispiel angegeben. sunny humidity overcast outlook yes rainy windy high normal false true no yes yes no Abb. 11: Entscheidungsbaum Golf-Spiel 4.2 Entscheidungsbäume Folie 4-6 (77) 4.3 Klassifikationsregeln Folie 4-7 (78) Entscheidungsbäume Klassifikationsregeln Die Einteilung in Klassen wird mittels Regeln dargestellt. UND-verknüpfte Auswertung der Attribute ODER-Verknüpfung mehrerer Regeln Beispiel 4.3 (Golfspiel) Abb. 12: WEKA-Entscheidungsbaum Golf-Spiel IF outlook = sunny AND humidity = high THEN play = no IF outlook = rainy AND windy = true THEN play = no IF outlook = overcast THEN play = yes IF humidity = normal THEN play = yes IF none of the above THEN play = yes 4.4 Assoziationsregeln Folie 4-8 (79) 4.4 Assoziationsregeln Folie 4-9 (80) Assoziationsregeln Warenkorbanalyse Suche nach Zusammenhängen zwischen den Attributen unabhängig von der eigentlichen Klassifikation Warenkorbanalyse: In einem Supermarkt werden an der Kasse die Warenkörbe aller Kunden erfasst. Wenn Waschpulver gekauft wird, wird i. allg. auch Weichspüler gekauft: IF waschpulver THEN weichspüler Wenn Fisch gekauft wird, wird i. allg. kein Fleisch gekauft: IF fisch THEN fleisch Wenn Sekt gekauft wird, werden i. allg. auch Pralinen gekauft: IF sekt THEN pralinen

11 4.4 Assoziationsregeln Folie 4-10 (81) Golfspiel 4.4 Assoziationsregeln Folie 4-11 (82) Einfache Assoziationsregeln Einfache Assoziationsregeln Beispiel 4.4 (Golfspiel) Man kann Assoziationsregeln auch folgendermaßen darstellen. IF temperature = cool THEN humidity = normal IF humidity = normal AND windy = false THEN play = yes IF outlook = sunny AND play = no THEN humidity = high IF windy = false AND play = no THEN outlook = sunny AND humidity = high Mengen von Items I Menge von Aktionen T Assoziationsregel: Implikation mit Angaben über die Häufigkeit ihres Auftretens in T Prämisse A, Konsequenz B sind Konjunktionen von Elementen aus I (Itemsets), z.b. A = {I 1,I 2,I 3 } und B = {I 7 } A B /0 Form der Regel: A B 4.4 Assoziationsregeln Folie 4-12 (83) Einfache Assoziationsregeln Einfache Assoziationsregeln 4.4 Assoziationsregeln Folie 4-13 (84) Einfache Assoziationsregeln Support und Konfidenz Die Regel {bier, chips} {tvzeitung} Support: relative Häufigkeit eines Itemsets in der Menge der Aktionen supp(a B) = P(A B) ist also als abkürzende Schreibweise für die Regel zu verstehen. IF bier=yes AND... THEN... Konfidenz: relative Häufigkeit einer Regel in der Menge der Aktionen supp(a B) conf(a B) = supp(a) 4.4 Assoziationsregeln Folie 4-14 (85) Einfache Assoziationsregeln Support und Konfidenz 4.4 Assoziationsregeln Folie 4-15 (86) Schwellwerte Schwellwerte Beispiel 4.5 (Support und Konfidenz) Wie hoch sind Support und Konfidenz der Regel IF temperature = cool THEN humidity = normal supp(temperature = cool humidity = normal) = P(A B) = 4 supp(temperature = cool) = P(A) = 4 14 conf(a B) = 4 supp(a B) 14 = = 1 supp(a) 4 14 Die Regel ist also absolut sicher, sie hat einen Support von Bei großen Datenbanken: sehr viele Regeln (10 3,10 4,...) möglich,... auch seltene Regeln und Regeln mit geringer Konfidenz Lösung: Einführung von Schwellwerten: supp min, conf min Festlegung durch Analysten Nicht jede unsinnige Regel ist damit zu verhindern: {Person lebt} {Person atmet} 4.4 Assoziationsregeln Folie 4-16 (87) Schwellwerte Assoziationsregeln Beispiel 4.6 (Assoziationsregeln) In Abb. 13 sind die WEKA-apriori-Assoziationsregeln dargestellt. Minimum support: 0.15 Minimum metric <confidence>: 0.9 Best rules found: 1. humidity=normal windy=false 4 ==> play=yes 4 conf:1 2. temp=cool 4 ==> humidity=normal 4 conf:1 3. outlook=overcast 4 ==> play=yes 4 conf:1 4. temp=cool play=yes 3 ==> humidity=normal 3 conf:1 5. outlook=rainy windy=false 3 ==> play=yes 3 conf:1 6. outlook=rainy play=yes 3 ==> windy=false 3 conf:1 7. outlook=sunny humidity=high 3 ==> play=no 3 conf:1 8. outlook=sunny play=no 3 ==> humidity=high 3 conf:1 9. temp=cool windy=false 2 ==> humidity=normal play=yes 2 conf:1 10. temp=cool humidity=normal windy=false 2 ==> play=yes 2 conf:1 4.4 Assoziationsregeln Folie 4-17 (88) Arten von Assoziationsregeln Arten von Assoziationsregeln hierarchische Assoziationsregeln (Taxonomien) temporale Assoziationsregeln (Sequenzanalyse) quantitative Assoziationsregeln unscharfe Assoziationsregeln Wozu weitere Arten? Verbessern der Aussagekraft von Regeln Genauere Vorhersagen (Zahlen, Ausprägungen) Anpassen an Problemgebiet Abb. 13: Assoziationsregeln für Golf-Spiel

12 4.4 Assoziationsregeln Folie 4-18 (89) Arten von Assoziationsregeln Hierarchische Assoziationsregeln 4.4 Assoziationsregeln Folie 4-19 (90) Arten von Assoziationsregeln Quantitative Assoziationsregeln Idee: Gruppierung von Items und Itemsets Generalisierung (vergleichbar Vererbung in OO) Beispiel 4.7 (Hierarchische Assoziationsregeln) Messer, Gabel Besteck Doppelpass, Flanke Angriff Ergebnis: Reduktion der Anzahl der Regeln Erhöhung der Support-Werte Algorithmus: Einfügen der Oberbegriffe als Items Idee: Aufnahme konkreter Attributausprägungen (Zahlen, Zeichenketten) Vorhersage von Einkommen, Kinderzahl,... Vorgehen: 1. Einteilung des Wertebereichs in Intervalle (Klassifizierung). 2. Für jedes Intervall wird ein neuer Begriff geschaffen. 3. Die originalen Begriffe werden durch die neuen ersetzt. 4.4 Assoziationsregeln Folie 4-20 (91) Arten von Assoziationsregeln Quantitative Assoziationsregeln Beispiel 4.8 (Quantitative Assoziationsregeln) Neue Klassifizierung: Alter Anzahl Kinder Einkommen Alter: [0,29],[30,49],[50, ) Kinder: [0,1],[2, ) Einkommen: [0,2999],[3000, ) (Alter [0,29],Einkommen [0,2999]) (Kinder = 0/1) 4.4 Assoziationsregeln Folie 4-21 (92) Arten von Assoziationsregeln Unscharfe Assoziationsregeln Problem: starre Intervallgrenzen der quantitativen Regeln Ausreißer, Messfehler (Physik, Messdaten) Lösung: sprachliche Begriffe statt fester Intervallgrenzen, z.b.: jung, alt, früh, spät Zuordnung zu Gruppen nach Fuzzy-Logik-Methoden 4.4 Assoziationsregeln Folie 4-22 (93) Arten von Assoziationsregeln Unscharfe Assoziationsregeln 4.4 Assoziationsregeln Folie 4-23 (94) Arten von Assoziationsregeln Temporale Assoziationsregeln Beispiel 4.9 (Unscharfe Assoziationsregeln) Ein Call-Center plant, Daten der eingehenden Anrufe zu speichern, (u.a.): Zeitpunkt, an dem der Anruf angenommen wurde. Ziel: Sortierung der Anrufe nachtageszeiten z.b.: Nacht, Morgen, Nachmittag und Abend. Das Intervall Nacht endet um 6 Uhr, ihm folgt das Intervall Morgen. Der Morgen endet um 12 Uhr und geht in den Nachmittag über usw. Überschneidungen durch Fuzzy-Modelle darstellbar. Idee: Erfassung zeitlich abhängiger Aktionen Beispiel: hoher Bierkonsum am Freitag hoher Konsum von Kopfschmerztabletten am Samstag Umsetzung: Temporale Datenbanken Regeln als Schnappschüsse aktueller Zusammenhänge Beobachtung der Veränderungen der Zusammenhänge Anwendung: Logfile-Analyse 4.5 Instanzenbasierte Darstellung Folie 4-24 (95) 4.6 Cluster Folie 4-25 (96) Instanzenbasierte Darstellung Cluster Bei der instanzenbasierten Darstellung werden ähnlich wie beim Auswendiglernen einfach alle Individuen gespeichert, z.b. in einer relationalen Datenbank. Wird eine Grundgesamtheit in Teilmengen zerlegt, deren Individuen zueinander ähnlicher als zu den Individuen der anderen Teilmengen sind, bezeichnet man diese Teilmengen als Cluster.

13 4.6 Cluster Folie 4-26 (97) 4.6 Cluster Folie 4-27 (98) Cluster Cluster Bedingungen Individuen innerhalb eines Clusters zueinander ähnlich Individuen unterschiedlicher Clusters zueinander unähnlich Darstellung Instanzenbasiert Cluster-Zentrum (Codebook-Vector): Centroid oder Medoid über Wahrscheinlichkeitsverteilungen Medoid xcentroid Abb. 14: Centroid und Medoid 4.6 Cluster Folie 4-28 (99) Cluster k-means ====== Number of iterations: 4 Within cluster sum of squared errors: 26.0 Cluster centroids: Cluster 0 Mean/Mode: sunny mild high FALSE yes Std Devs: N/A N/A N/A N/A N/A Cluster 1 Mean/Mode: overcast cool normal TRUE yes Std Devs: N/A N/A N/A N/A N/A Clustered Instances 0 10 ( 71%) 1 4 ( 29%) Abb. 15: Cluster für das Wetter-Beispiel 26. Januar 2015 Inhaltsverzeichnis Einführung Data Mining Grundlagen Anwendungsklassen Wissensrepräsentation Methoden und Verfahren Datenvorbereitung Bewertung Inhaltsverzeichnis Kapitel Januar 2015 Methoden und Verfahren Folie 5-1 (102) Methoden und Verfahren Instanzenbasiertes Lernen Entscheidungsbaumlernen Verfahren zur Assoziationsanalyse Lineare Regression Überwachte und selbstorganisierende unüberwachte neuronale Netze Verfahren zur Clusterbildung Naive Bayes A carelessly planned project takes three times longer to complete than expected; a carefully planned project takes only twice as long. Golub s Second Law of Computerdom Folie 5-2 (103) Folie 5-3 (104) Hinweis Bei den studentischen Projekten (unter meiner Homepage) findet man eine Reihe von Verfahren erläutert. Benutzen Sie ebenso den ILIAS-Modul Data Mining. Verfahren Übersicht N u K m l e a ṛ s A s T s C V i e W s l o x e f o u r t b i z s h k i t e M M a a e r i i t t r s n n i i i a i i o o n g n n n n g e g g Instanzenbasiertes Lernen x k Nearest Neighbour x (x) (x) Entscheidungsbaumlernen x (x) a priori x x x Lineare Regression x Überwachte Neuronale Netze x x x Selbstorganisierende Neuronale Netze (x) x k-means x Naive Bayes x x Tabelle 3: Data-Mining-Verfahren und Anwendungsklassen

14 5.1 Instanzenbasiertes Lernen Folie 5-4 (105) Instanzenbasiertes Lernen 5.1 Instanzenbasiertes Lernen Folie 5-5 (106) k Nearest Neighbour k Nearest Neighbour y einfachstes Verfahren Speicherung aller bekannten Individuen Suche des ähnlichsten Individuums Dessen Klasse wird vorhergesagt. Abb. 16: Beispiel k Nearest Neighbour x 5.1 Instanzenbasiertes Lernen Folie 5-6 (107) k Nearest Neighbour k Nearest Neighbour 5.1 Instanzenbasiertes Lernen Folie 5-7 (108) Der knn-algorithmus Der knn-algorithmus instanzenbasiertes Verfahren Lernschritt: Beispielobjekte nur gespeichert Klassifikationsschritt: Unbekannte Objekte werden über Ähnlichkeit zu gespeicherten Beispielen klassifiziert. Komplexität des Verfahrens nur durch den Klassifikationsschritt Der Lernschritt beim knn-lernen ist sehr einfach. Sei f(x) die zu erlernende Funktion. Für jedes Trainingsbeispiel (x,f(x)) speichere das Beispiel in einer Liste Trainingsbeispiele. 5.1 Instanzenbasiertes Lernen Folie 5-8 (109) Der knn-algorithmus knn Diskrete Funktion 5.1 Instanzenbasiertes Lernen Folie 5-9 (110) Der knn-algorithmus knn V := {v 1,v 2,...,v m } eine endliche Menge (Zielattributwerte) zu erlernende Funktion: f : R n V zu klassifizierendes Beispiel: y Für alle x i in der Menge Trainingsbeispiele berechne die Ähnlichkeit zu y. Wähle diejenigen k Beispiele x 1,x 2,...,x k aus, die zu y am ähnlichsten sind. klasse(y) := max v V k p=1 { 1, falls a=b δ(v,f(x p )) mit δ(a,b) := 0, sonst Beispiel 5.1 (knn) Nr Alter verheiratet Eigenheim Akademiker Einkommen 1 alt ja ja ja hoch 2 alt ja nein nein gering 3 mittel nein nein nein gering 4 mittel ja ja ja hoch 5 jung nein nein nein gering 6 jung ja nein nein mittel 7 jung ja ja ja mittel 8 alt nein ja nein hoch Einkommen für jung/verheiratet/ohne Eigenheim/Akademiker. k= Instanzenbasiertes Lernen Folie 5-10 (111) Der knn-algorithmus knn 5.1 Instanzenbasiertes Lernen Folie 5-11 (112) Der knn-algorithmus knn Reellwertige Funktion Beispiel 5.1 cont. Nr Alter verheiratet Eigenheim Akademiker Abstand neu jung ja nein ja 1 alt ja ja ja 2 2 alt ja nein nein 2 3 mittel nein nein nein 3 4 mittel ja ja ja 2 5 jung nein nein nein 2 6 jung ja nein nein 1 7 jung ja ja ja 1 8 alt nein ja nein 4 analog diskreter Fall Zurückgegeben wird der Mittelwert Für alle x i in der Menge Trainingsbeispiele berechne die Ähnlichkeit zu y. Wähle diejenigen k Beispiele x 1,x 2,...,x k aus, die zu y am ähnlichsten sind. k f(x p ) p=1 f (y) := k Datensätze 6 und 7: Gehaltsgruppe mittel.

15 5.1 Instanzenbasiertes Lernen Folie 5-12 (113) Ein verfeinerter Algorithmus knn Ein verfeinerter Algorithmus 5.1 Instanzenbasiertes Lernen Folie 5-13 (114) Ein verfeinerter Algorithmus Diskrete Funktionen als Gewicht: das Inverse des Quadrats der Distanz Schwäche von knn: alle k Beispiele sind gleichgewichtet geringer (euklidischer) Abstand = hohe Ähnlichkeit also: Gewichte einführen Shepard s method Sei wieder V := {v 1,v 2,...,v m } die Menge aller Werte, die das Zielattribut annehmen kann. Für alle x i in der Menge Trainingsbeispiele berechne die Ähnlichkeit zu y. Wähle diejenigen k Beispiele x 1,x 2,...,x k aus, die zu y am ähnlichsten sind. f(x i ) falls y = x i für ein i klasse(y) := max v V k p=1 w p δ(v,f(x p )) sonst { 1, falls a=b mit δ(a,b) := 0, sonst und w p := 1 dist(y,xp) Instanzenbasiertes Lernen Folie 5-14 (115) Ein verfeinerter Algorithmus Reellwertige Funktionen 5.1 Instanzenbasiertes Lernen Folie 5-15 (116) Anmerkungen Anmerkungen Für alle x i in der Menge Trainingsbeispiele berechne die Ähnlichkeit zu y. Wähle diejenigen k Beispiele x 1,x 2,...,x k aus, die zu y am ähnlichsten sind. f(x i ) falls y = x i für ein i f (y) := mit w p := 1 dist(y,xp) 2. k p=1 wp f(xp) k p=1 wp sonst Für k 1 arbeitet der knn-algorithmus i. allg. auch bei verrauschten Trainingsdaten sehr gut. Im Gegensatz beispielsweise zum Entscheidungsbaum werden alle Attribute in die Berechnung einbezogen. Die Auswahl der Trainingsdaten verdient einige Beachtung. So ist z.b. von Bedeutung, dass die Trainingsvektoren den Lösungsraum möglichst gleichmäßig aufspannen. 5.1 Instanzenbasiertes Lernen Folie 5-16 (117) Anmerkungen 5.1 Instanzenbasiertes Lernen Folie 5-17 (118) Anmerkungen Aufgabe 5.1 (knn) Klassifizieren Sie folgende Datensätze mittels knn. Alt. Fr/Sa Hung. Gäste Reserv. Typ Zeit Warten ja nein ja einige nein Franz ja ja ja voll ja Chin nein nein nein keine nein Burger 0-10 Alternative: Gibt es ein geeignetes anderes Restaurant? (ja/nein) Fr/Sa: Ist Freitag oder Samstag? (ja/nein) Hungrig: Bin ich hungrig? (ja/nein) Gäste: Wieviele Leute sind im Restaurant? (keine/einige/voll) Reservierung: Habe ich reserviert? (ja/nein) Typ: Um welche Art von Restaurant handelt es sich? Wartezeit: Welche Wartezeit wird vom Restaurant geschätzt? Warten (Zielattribut): Warte ich, wenn alle Tische besetzt sind? Aufgabe 5.1 cont. Alt. Fr/Sa Hung. Gäste Reserv. Typ Zeit Warten ja nein ja einige ja Franz ja ja nein ja voll nein Chin nein nein nein nein einige nein Burger 0-10 ja ja ja ja voll nein Chin ja ja ja nein voll ja Franz. >60 nein nein nein ja einige ja Ital ja nein nein nein keine nein Burger 0-10 nein nein nein ja einige ja Chin ja nein ja nein voll nein Burger >60 nein ja ja ja voll ja Ital nein nein nein nein keine nein Chin nein ja ja ja voll nein Burger ja Tabelle 4: Restaurant-Beispiel 5.2 Entscheidungsbaumlernen Folie 5-18 (119) Erzeugen eines Entscheidungsbaums Entscheidungsbaumlernen Algorithmus Gegeben: Beispielmenge E und Attributmenge A Auswählen eines Attributs a A Erzeugen der mit a markierten Baumwurzel Für jede Ausprägung ω ω a (ω a = Ausprägungsmenge von a) 1. Erzeugen einer mit ω markierten Kante 2. Generieren der Beispiel-Menge E ω E : e E ω : ω a (e) = ω 3. Wenn E ω = /0: Beenden der Kante mit NIL Sonst: Wenn alle Beispiele e E ω in derselben Klasse k sind: Kante mit Blatt k abschließen Sonst: 3.1 Erzeugen eines Entscheidungsbaums aus Attributmenge A = A \ {a} und Beispielmenge E ω 3.2 Einhängen dieses Baums am Kantenende 5.2 Entscheidungsbaumlernen Folie 5-19 (120) Erzeugen eines Entscheidungsbaums Entscheidungsbaumlernen Golfspiel Tag outlook temperature humidity windy play 1 sunny hot high false no 2 sunny hot high true no 3 overcast hot high false yes 4 rainy mild high false yes 5 rainy cool normal false yes 6 rainy cool normal true no 7 overcast cool normal true yes 8 sunny mild high false no 9 sunny cool normal false yes 10 rainy mild normal false yes 11 sunny mild normal true yes 12 overcast mild high true yes 13 overcast hot normal false yes 14 rainy mild high true no Tabelle 5: Daten Golfspiel

16 5.2 Entscheidungsbaumlernen Folie 5-20 (121) Erzeugen eines Entscheidungsbaums Entscheidungsbaumlernen Golfspiel 5.2 Entscheidungsbaumlernen Folie 5-21 (122) Auswahl eines Attributs Auswahl eines Attributs Wurzelattribut (a) Ausprägungen von outlook E sunny = Datensätze 1,2,8,9,11 outlook sunny overcast rainy humidity yes windy 3,7,12,13 high normal false true no yes yes no E = alle Daten E rainy = Datensätze 4,5,6,10,14 manuell zufällig berechnet (durch Benutzer) Abb. 17: Entscheidungsbaum Golf-Spiel 5.2 Entscheidungsbaumlernen Folie 5-22 (123) Auswahl eines Attributs Automatische Attributwahl 5.2 Entscheidungsbaumlernen Folie 5-23 (124) Metrische Attribute Metrische Attribute Beispiel 5.2 (Automatische Attributwahl) Attribut mit lokal bester Klassifikationsleistung probeweise Teilung an allen Attributen Vorhersage der Mehrheitsklasse Auswahl des Attributs mit der geringsten Fehlerrate error a error a = i error(ω a ) = falsch alle ( A ωai error(ω ai )) min. A Für jede Ausprägung (d.h. jede vorkommende Zahl) eine eigene Kante? Unsinnig!! Lösung: Gruppierung Schwellwerte Zusammenfassung zu Intervallen nur 2 Kanten (kleiner / größer Schwellwert) 5.2 Entscheidungsbaumlernen Folie 5-24 (125) Der ID3-Algorithmus zur Erzeugung eines Entscheidungsbaums ID3-Algorithmus zur Entscheidungsbaumgenerierung 5.2 Entscheidungsbaumlernen Folie 5-25 (126) Der ID3-Algorithmus zur Erzeugung eines Entscheidungsbaums ID3-Algorithmus zur Entscheidungsbaumgenerierung Nr. Zielattr. frühere Kredit- Verschul- Sicher- Ein- Risiko würdigkeit dung heiten kommen 1 hoch schlecht hoch keine 0 bis 15 2 hoch unbekannt hoch keine 15 bis 35 3 mittel unbekannt niedrig keine 15 bis 35 4 hoch unbekannt niedrig keine 0 bis 15 5 niedrig unbekannt niedrig keine über 35 6 niedrig unbekannt niedrig angemessen über 35 7 hoch schlecht niedrig keine 0 bis 15 8 mittel schlecht niedrig angemessen über 35 9 niedrig gut niedrig keine über niedrig gut hoch angemessen über hoch gut hoch keine 0 bis mittel gut hoch keine 15 bis niedrig gut hoch keine über hoch schlecht hoch keine 15 bis 35 Tabelle 6: Kreditrisiko Abb. 18: Entscheidungsbaum 5.2 Entscheidungsbaumlernen Folie 5-26 (127) Der ID3-Algorithmus zur Erzeugung eines Entscheidungsbaums ID3-Algorithmus zur Entscheidungsbaumgenerierung 5.2 Entscheidungsbaumlernen Folie 5-27 (128) Der ID3-Algorithmus zur Erzeugung eines Entscheidungsbaums ID3-Algorithmus zur Entscheidungsbaumgenerierung Welcher Baum ist für die Klassifikation der unbekannten Datensätze optimal? Der ID3-Algorithmus unterstellt, dass dies der einfachste Baum ist. Abb. 19: Entscheidungsbaum 2

17 5.2 Entscheidungsbaumlernen Folie 5-28 (129) Der ID3-Algorithmus zur Erzeugung eines Entscheidungsbaums ID3-Algorithmus zur Entscheidungsbaumgenerierung FUNCTION induce_tree(beispielmenge Ex, Attribute Attr) IF alle Eintraege aus Ex gehoeren zur gleichen Klasse THEN RETURN Blattknoten mit Beschriftung dieser Klasse ELSE Waehle ein Attribut A aus Attr; Setze A als Wurzel fuer den aktuellen Baum; Loesche A aus Attr; FOREACH Wert AV von A Erstelle Kante im Baum mit Kantenbeschriftung AV; Seien Ex_AV alle Elemente von Beispielmenge Ex, die als Wert fuer A gerade AV haben; Ergebnis der Kante AV := induce_tree(ex_av,attr); END FOREACH; END IF; END. Abb. 20: Algorithmus Entscheidungsbaum 5.2 Entscheidungsbaumlernen Folie 5-29 (130) Der ID3-Algorithmus zur Erzeugung eines Entscheidungsbaums Auswahl eines geeigneten Attributs? Grundlage: Informationstheorie Wahl des Attributs, das den größten Informationsgewinn liefert. Der Informationsgehalt eines Attributs B wird gemessen als: I(B) = k p(b i ) log 2 (p(b i )) i=1 Dabei stellen die b i die möglichen Werte des Attributs B dar. p ist die Wahrscheinlichkeit (besser: relative Häufigkeit) für das Eintreffen von b i. 5.2 Entscheidungsbaumlernen Folie 5-30 (131) Der ID3-Algorithmus zur Erzeugung eines Entscheidungsbaums Informationsgehalt der Kredit-Tabelle p(risiko hoch) = 6 14 p(risiko mittel) = 3 14 p(risiko niedrig) = 5 14 Folglich ist I(Risiko) = I(Tabelle) = 6 14 log 2( 6 14 ) 3 14 log 2( 3 14 ) 5 14 log 2( 5 14 ) = 1, Entscheidungsbaumlernen Folie 5-31 (132) Der ID3-Algorithmus zur Erzeugung eines Entscheidungsbaums ID 3 und maximaler Informationsgewinn Man wählt das Attribut mit dem maximalen Informationsgewinn. I(Tabelle) Alle Datensätze Kreditwürdigkeit? unbekannt schlecht gut Teiltabelle 1 Teiltabelle 2 Teiltabelle 3 Kreditwürdigkeit = unbekannt Kreditwürdigkeit = gut Kreditwürdigkeit = schlecht G(Kreditwürdigkeit) Abb. 21: Informationsgewinn Informationsgewinn = I(Tabelle) G(Kreditwürdigkeit) 5.2 Entscheidungsbaumlernen Folie 5-32 (133) Der ID3-Algorithmus zur Erzeugung eines Entscheidungsbaums ID 3 und Informationsgewinn Beispielmenge E (die komplette DB) gegeben. Wählt man ein Attribut B mit n Ausprägungen aus, so wird E in n Teilmengen (Teildatenbanken) zerlegt: {E 1,...,E n }. Mit B als Wurzel des Baums ist die zur Fertigstellung des Baums voraussichtlich erforderliche Informationsmenge: G(B) = n E j j=1 E I(E j) G (gain) ist die gewichtete Summe der Einzelinformationen. Der Gewinn an Information wird dann berechnet als: gewinn(b) = I(E) G(B) Es gilt, gewinn zu maximieren. Dazu geht man alle Attribute durch und wählt jenes aus, das den maximalen Gewinn liefert. 5.2 Entscheidungsbaumlernen Folie 5-33 (134) Der ID3-Algorithmus zur Erzeugung eines Entscheidungsbaums ID 3 und Informationsgewinn Wählen zunächst Kreditwürdigkeit als Attribut. Kreditwürdigkeit hat 3 Ausprägungen: unbekannt, schlecht, gut. Für jeden Wert zählen wir, wie oft welches Risiko vorkommt: Wert hohes Risiko mittleres Risiko niedriges Risiko unbekannt schlecht gut I(Kreditw_unbek) = 2 5 log 2( 2 5 ) 1 5 log 2( 1 5 ) 2 5 log 2( 2 5 ) = 1,52 I(Kreditw_schlecht) = 3 4 log 2( 3 4 ) 1 4 log 2( 1 4 ) = 0,81 I(Kreditw_gut) = 1 5 log 2( 1 5 ) 1 5 log 2( 1 5 ) 3 5 log 2( 3 5 ) = 1,37 G(Kreditwürdigkeit) = n Ej E I(E j) = j= , , ,37 = 1, Entscheidungsbaumlernen Folie 5-34 (135) Der ID3-Algorithmus zur Erzeugung eines Entscheidungsbaums ID 3 und Gain-Berechnung 5.2 Entscheidungsbaumlernen Folie 5-35 (136) Der ID3-Algorithmus zur Erzeugung eines Entscheidungsbaums ID 3 Beispiel I(Tabelle) = 1,531 hoch = 2x mittel = 1x niedrig = 2x unbekannt 5x Gesamte Tabelle Kreditwürdigkeit? hoch = 3x mittel = 1x niedrig = 0x schlecht 4x (14) hoch = 6x mittel = 3x niedrig = 5x gut 5x Teiltabelle 1 Teiltabelle 2 Teiltabelle 3 Kreditwürdigkeit = unbekannt... = schlecht... = gut I = 1,52 hoch = 1x I = I = mittel = 1x 0,81 niedrig = 3x 1,37 G(Kreditwürdigkeit) = 5/14 * 1,52 + 4/14 * 0,81 + 5/14 * 1,37 gewinn(kreditwuerdigkeit) = 1,531 1,265 = 0,266 gewinn(einkommen) = 1,531 0,564 = 0,967 gewinn(verschuldung) = 1,531 1,468 = 0,063 gewinn(sicherheiten) = 1,531 1,325 = 0,206 Man wählt nun einkommen als obersten Knoten, da der Gewinn dort am größten ist, und setzt das Verfahren für jeden Teilbaum rekursiv fort. Abb. 22: Gain-Berechnung

18 5.2 Entscheidungsbaumlernen Folie 5-36 (137) Der ID3-Algorithmus zur Erzeugung eines Entscheidungsbaums Fortsetzung für Zweig einkommen= Entscheidungsbaumlernen Folie 5-37 (138) Der ID3-Algorithmus zur Erzeugung eines Entscheidungsbaums Informationsgehalt der reduzierten Kredit-Tabelle nur noch die Datensätze, wo einkommen=15-35 gilt Spalte für Einkommen eigentlich nun unnötig Nr. Zielattr. frühere Kredit- Verschul- Sicher- Ein- Risiko würdigkeit dung heiten kommen 2 hoch unbekannt hoch keine 15 bis 35 3 mittel unbekannt niedrig keine 15 bis mittel gut hoch keine 15 bis hoch schlecht hoch keine 15 bis 35 Tabelle 7: Kreditrisiko p(risiko hoch) = 2 4 p(risiko mittel) = 2 4 p(risiko niedrig) = 0 4 Folglich ist I(Risiko) = I(Tabelle2) = 2 4 log 2( 2 4 ) 2 4 log 2( 2 4 ) 0 4 log 2( 0 4 ) = Entscheidungsbaumlernen Folie 5-38 (139) Der ID3-Algorithmus zur Erzeugung eines Entscheidungsbaums Attribut mit maximalem Informationsgewinn Nun wählt man wieder das Attribut aus, das den maximalen Informationsgewinn erzielt. gewinn(kreditwuerdigkeit) = 1 0,5 = 0,5 gewinn(verschuldung) = 1 0,6887 = 0,3113 gewinn(sicherheiten) = 1 1 = 0 Man wählt folglich kreditwuerdigkeit als nächsten Knoten, da der Gewinn dort am größten ist. 5.2 Entscheidungsbaumlernen Folie 5-39 (140) Der ID3-Algorithmus zur Erzeugung eines Entscheidungsbaums Der Gini-Index Der Gini-Index ist das Äquivalent zum Informationsgehalt einer Tabelle bezüglich eines Zielattributs B: gini(b) = 1 k p(b i ) 2 i=1 Dabei stellen die b i die möglichen Werte des Attributs B dar. p ist die Wahrscheinlichkeit (besser: relative Häufigkeit) für das Eintreffen von b i. Analog zum Gain definiert man dann n E j GINI(B) = j=1 E gini(e j) 5.2 Entscheidungsbaumlernen Folie 5-40 (141) C4.5-Algorithmus C4.5-Algorithmus 5.2 Entscheidungsbaumlernen Folie 5-41 (142) C4.5-Algorithmus ISplit Wesentlicher Nachteil des ID3-Algorithmus: kann nicht mit numerischen Attributen umgehen C4.5 (Nachfolger von ID3) kann dies. Numerische Attribute in Intervalle unterteilt ordinale Attribute Betrachten Attribut A mit n Ausprägungen A 1,...,A n Für jedes i: Bilden Intervalle [a a A i ] und [a a > A i ] 2 Intervalle: neue (ordinale) Ausprägungen des Attributs A Wählen die Intervallbildung, die den größten Gewinn liefert. Bemerkung 5.1 (ISplit) Der ID3-Algorithmus hat einen weiteren Nachteil: Die Sortierung der Attribute favorisiert Attribute mit vielen verschiedenen Ausprägungen. Deshalb normalisiert C4.5 den Informationsgewinn. Sei: ISplit(B) = n E j j=1 E log 2( E j E ) Der Gewinn an Information wird dann normalisiert: gewinn (B) = gewinn(b) ISplit(B) 5.2 Entscheidungsbaumlernen Folie 5-42 (143) C4.5-Algorithmus ISplit 5.2 Entscheidungsbaumlernen Folie 5-43 (144) C4.5-Algorithmus ISplit Beispiel 5.3 (ISplit) Betrachten Ausschnitt aus einer Kino-Besuch-Datenbank. Variante 1: Preis Kino besucht j n j j n j j n n j j n 4/5 billig: 4 Ausprägungen 8/9 teuer: 8 Ausprägungen Variante 2: 4 billig: 1 Ausprägung 5 moderat: 3 Ausprägungen 8 teuer: 6 Ausprägungen 9 sehr teuer: 2 Ausprägungen Beispiel 5.3 cont. Gain: Variante 1: 0,97 Variante 2: 0,73 Damit wird der Gewinn bei Variante 2 größer sein. Typischer Effekt: Attribute mit vielen Ausprägungen bevorzugt. Deshalb: Dividieren Informationsgewinn durch den ISplit: ISplit Variante 1: 0,92 ISplit Variante 2: 1,73 Größerer ISplit reduziert den Gewinn für Variante 2 stärker.

19 5.2 Entscheidungsbaumlernen Folie 5-44 (145) Probleme Probleme 5.2 Entscheidungsbaumlernen Folie 5-45 (146) Probleme ACHTUNG!! I. allg. großes Problem: Entscheidungsbaum kann ALLE Trainingsdaten korrekt klassifizieren,... aber auf den Testdaten nicht gut funktionieren. Entscheidungsbaum hat Trainingsdaten auswendig gelernt. Effekt wird Overfitting genannt. Verkürzen der Bäume nötig: Keine weiteren Unterbäume, wenn eine bestimmte Anzahl von Trainingsdaten unterschritten wird. Ersetzen bereits generierter Unterbäume durch ein Blatt. Entscheidungsbaum wird Trainingsdaten häufig nicht zu 100% korrekt vorhersagen, durch: das Reduzieren der Tiefe des Baums (s.o.) widersprüchliche Daten. oder 5.2 Entscheidungsbaumlernen Folie 5-46 (147) Ergänzungen Ergänzungen ID3 Top down induction of decision trees (TDIDT). Es wird univariater Baum erzeugt. (An jedem Knoten wird exakt ein Attribut abgefragt.) Es gibt auch Verfahren, die multivariate Entscheidungsbäume generieren. Jetzt können in einem Knoten mehrere Attribute benutzt werden. Z.B. als Linearkombination von Attributen: Gewicht + 2 * Größe < 70. Schnitte im Merkmalsraum linear, aber nicht mehr achsenparallel. Auch nichtlineare Ausdrücke abfragbar: Gewicht / (Größe*Größe) < 25. Nun sind die Schnitte im Merkmalsraum beliebig kurvig. Vorteil: meist genauer und kleiner. Nachteil: schwieriger zu bauen und auch schwerer lesbar 5.2 Entscheidungsbaumlernen Folie 5-47 (148) Aufgaben Aufgaben Aufgabe 5.2 (Golfspiel) Bestimmen Sie aus den folgenden Daten einen Entscheidungsbaum für das Attribut Play?, welches angibt, ob unter den gegebenen Witterungsbedingungen Golf gespielt wird. Wählen Sie bei gleicher Güte zweier Attribute das in der Tabelle weiter links stehende. Wie gehen Sie mit den numerischen Werten um? 5.2 Entscheidungsbaumlernen Folie 5-48 (149) Aufgaben Golfbeispiel Aufgabe 5.2 cont. Outlook Temp ( F) Humidity (%) Windy? Play? sunny false no sunny true no overcast false yes rain false yes rain false yes rain true no overcast true yes sunny false no sunny false yes rain false yes sunny true yes overcast true yes overcast false yes rain true no Tabelle 8: Daten Golfspiel 5.2 Entscheidungsbaumlernen Folie 5-49 (150) Aufgaben Restaurantbeispiel Aufgabe 5.3 (Restaurant) Tabelle mit diesen Attributen: Alternative: Gibt es in der Nähe ein anderes Restaurant? (ja/nein) Fr/Sa: Ist Freitag oder Samstag? (ja/nein) Hungrig: Bin ich hungrig? (ja/nein) Gäste: Wieviele Leute sind im Restaurant? (keine/einige/voll) Reservierung: Habe ich reserviert? (ja/nein) Typ: Um welche Art von Restaurant handelt es sich? (Franz./Chin./Ital./Burger) Wartezeit: Welche voraussichtliche Wartezeit wird vom Restaurant geschätzt? (0-10/10-30/30-60/>60) Warten (Zielattribut): Warte ich, wenn alle Tische besetzt sind? (ja/nein) 5.2 Entscheidungsbaumlernen Folie 5-50 (151) Aufgaben Restaurantbeispiel Aufgabe 5.3 cont. Generieren Sie einen Entscheidungsbaum und klassifizieren Sie nachfolgende Datensätze. Alt. Fr/Sa Hung. Gäste Reserv. Typ Zeit Warten ja nein ja einige nein Franz ja ja ja voll ja Chin nein nein nein keine nein Burger Entscheidungsbaumlernen Folie 5-51 (152) Aufgaben Restaurantbeispiel Aufgabe 5.3 cont. Alt. Fr/Sa Hung. Gäste Reserv. Typ Zeit Warten ja nein ja einige ja Franz ja ja nein ja voll nein Chin nein nein nein nein einige nein Burger 0-10 ja ja ja ja voll nein Chin ja ja ja nein voll ja Franz. >60 nein nein nein ja einige ja Ital ja nein nein nein keine nein Burger 0-10 nein nein nein ja einige ja Chin ja nein ja nein voll nein Burger >60 nein ja ja ja voll ja Ital nein nein nein nein keine nein Chin nein ja ja ja voll nein Burger ja Tabelle 9: Daten Restaurantbeispiel

20 5.3 Verfahren zur Assoziationsanalyse Folie 5-52 (153) Verfahren zur Assoziationsanalyse 5.3 Verfahren zur Assoziationsanalyse Folie 5-53 (154) Der A-Priori-Algorithmus Der A-Priori-Algorithmus Wir wenden uns nun der Aufgabe zu, Assoziationsregeln zu finden. Der Standard-Algorithmus ist der A-Priori-Algorithmus. Der A-Priori-Algorithmus gehört zu den wichtigsten iterativen Verfahren Grundlage AIS-Algorithmus 1993 Ziel: Finden von Frequent Itemsets Itemsets, deren Support über supp min 5.3 Verfahren zur Assoziationsanalyse Folie 5-54 (155) Der A-Priori-Algorithmus Vorgehensweise 5.3 Verfahren zur Assoziationsanalyse Folie 5-55 (156) Der A-Priori-Algorithmus Generierung der Kandidaten Der A-Priori-Algorithmus wird in zwei Schritten vollzogen: 1. Finden von Frequent Itemsets (Kandidaten) mit ausreichendem Support 2. Erzeugen von Assoziationsregeln aus allen Frequent Itemsets Diese Phase läuft in zwei Teilschritten ab: Join-Phase Pruning-Phase 5.3 Verfahren zur Assoziationsanalyse Folie 5-56 (157) Der A-Priori-Algorithmus Join- und Pruning-Phase Join-Phase: Erzeugen von Frequent Itemsets der Länge k mit k > 2 paarweises Verbinden aller (k 1)-langen Sets, die sich in einem Element unterscheiden Ergebnis: k-elementige Menge, in der zwei Teilmengen Frequent Itemsets sind Pruning-Phase: Zerlegen der Frequent Itemsets in Teilmengen Test, ob alle diese Teilmengen Frequent Itemsets sind (Monotonieeigenschaft) Algorithmus endet, wenn keine Frequent Itemsets mehr gefunden werden 5.3 Verfahren zur Assoziationsanalyse Folie 5-57 (158) Der A-Priori-Algorithmus A Priori Beispiel Beispiel 5.4 (A priori) Betrachten Kinobesuche. Wer geht gern mit wem? Kinobesuch-ID Kinobesucher k 1 Anne, Claudia, Ernst k 2 Anne, Ernst, Gudrun k 3 Anne, Claudia, Ernst, Franz, Gudrun k 4 Anne, Claudia, Horst k 5 Bernd, Claudia, Ernst, Franz, Gudrun k 6 Bernd, Claudia, Ernst, Gudrun, Horst 5.3 Verfahren zur Assoziationsanalyse Folie 5-58 (159) Der A-Priori-Algorithmus A Priori Beispiel 5.3 Verfahren zur Assoziationsanalyse Folie 5-59 (160) Der A-Priori-Algorithmus A Priori Beispiel Beispiel 5.4 cont. Wir fordern als minimalen Support: 50%. Anne 4 66% Bernd 2 33% Claudia 5 83% Ernst 5 83% Franz 2 33% Gudrun 4 66% Horst 2 33% Bernd, Franz und Horst erfüllen nicht den minimalen Support. Beispiel 5.4 cont. Nun bilden wir 2er FIS: Anne, Claudia 50% (1) Anne, Ernst 50% (2) Anne, Gudrun 33% (3) Claudia, Ernst 66% (4) Claudia, Gudrun 50% (5) Ernst, Gudrun 66% (6) Einer dieser 6 Kandidaten erfüllt den Support nicht.

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining Gliederung 1. Einführung 2. Grundlagen Data Mining Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining 3. Ausgewählte Methoden des Data

Mehr

Maschinelles Lernen Entscheidungsbäume

Maschinelles Lernen Entscheidungsbäume Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen Entscheidungsbäume Paul Prasse Entscheidungsbäume Eine von vielen Anwendungen: Kreditrisiken Kredit - Sicherheiten

Mehr

Data Mining und Text Mining Einführung. S2 Einfache Regellerner

Data Mining und Text Mining Einführung. S2 Einfache Regellerner Data Mining und Text Mining Einführung S2 Einfache Regellerner Hans Hermann Weber Univ. Erlangen, Informatik 8 Wintersemester 2003 hans.hermann.weber@gmx.de Inhalt Einiges über Regeln und Bäume R1 ein

Mehr

Ermittlung von Assoziationsregeln aus großen Datenmengen. Zielsetzung

Ermittlung von Assoziationsregeln aus großen Datenmengen. Zielsetzung Ermittlung von Assoziationsregeln aus großen Datenmengen Zielsetzung Entscheidungsträger verwenden heutzutage immer häufiger moderne Technologien zur Lösung betriebswirtschaftlicher Problemstellungen.

Mehr

Data Mining Anwendungen und Techniken

Data Mining Anwendungen und Techniken Data Mining Anwendungen und Techniken Knut Hinkelmann DFKI GmbH Entdecken von Wissen in banken Wissen Unternehmen sammeln ungeheure mengen enthalten wettbewerbsrelevantes Wissen Ziel: Entdecken dieses

Mehr

Data Mining - Wiederholung

Data Mining - Wiederholung Data Mining - Wiederholung Norbert Fuhr 9. Juni 2008 Problemstellungen Problemstellungen Daten vs. Information Def. Data Mining Arten von strukturellen Beschreibungen Regeln (Klassifikation, Assoziations-)

Mehr

Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014

Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014 Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014 Aufgabe 1. Data Mining a) Mit welchen Aufgabenstellungen befasst sich Data Mining? b) Was versteht man unter Transparenz einer Wissensrepräsentation?

Mehr

Data Mining und maschinelles Lernen

Data Mining und maschinelles Lernen Data Mining und maschinelles Lernen Einführung und Anwendung mit WEKA Caren Brinckmann 16. August 2000 http://www.coli.uni-sb.de/~cabr/vortraege/ml.pdf http://www.cs.waikato.ac.nz/ml/weka/ Inhalt Einführung:

Mehr

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002)

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002) 3. Entscheidungsbäume Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002) (aus Wilhelm 2001) Beispiel: (aus Böhm 2003) Wann sind Entscheidungsbäume

Mehr

Management Support Systeme

Management Support Systeme Management Support Systeme WS 24-25 4.-6. Uhr PD Dr. Peter Gluchowski Folie Gliederung MSS WS 4/5. Einführung Management Support Systeme: Informationssysteme zur Unterstützung betrieblicher Fach- und Führungskräfte

Mehr

Data Mining mit der SEMMA Methodik. Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG

Data Mining mit der SEMMA Methodik. Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG Data Mining mit der SEMMA Methodik Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG Data Mining Data Mining: Prozeß der Selektion, Exploration und Modellierung großer Datenmengen, um Information

Mehr

Data Mining und Knowledge Discovery in Databases

Data Mining und Knowledge Discovery in Databases Data Mining und Knowledge Discovery in Databases Begriffsabgrenzungen... Phasen der KDD...3 3 Datenvorverarbeitung...4 3. Datenproblematik...4 3. Möglichkeiten der Datenvorverarbeitung...4 4 Data Mining

Mehr

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining.

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining. Motivation Themenblock: Klassifikation Praktikum: Data Warehousing und Data Mining Ziel Item hat mehrere Attribute Anhand von n Attributen wird (n+)-tes vorhergesagt. Zusätzliches Attribut erst später

Mehr

The integration of business intelligence and knowledge management

The integration of business intelligence and knowledge management The integration of business intelligence and knowledge management Seminar: Business Intelligence Ketevan Karbelashvili Master IE, 3. Semester Universität Konstanz Inhalt Knowledge Management Business intelligence

Mehr

Motivation. Themenblock: Data Preprocessing. Einsatzgebiete für Data Mining I. Modell von Gianotti und Pedreschi

Motivation. Themenblock: Data Preprocessing. Einsatzgebiete für Data Mining I. Modell von Gianotti und Pedreschi Motivation Themenblock: Data Preprocessing We are drowning in information, but starving for knowledge! (John Naisbett) Was genau ist Datenanalyse? Praktikum: Data Warehousing und Data Mining Was ist Data

Mehr

Data Mining Bericht. Analyse der Lebenssituation der Studenten. der Hochschule Wismar. Zur Veranstaltung. Business Intelligence

Data Mining Bericht. Analyse der Lebenssituation der Studenten. der Hochschule Wismar. Zur Veranstaltung. Business Intelligence Data Mining Bericht Analyse der Lebenssituation der Studenten der Hochschule Wismar Zur Veranstaltung Business Intelligence Eingereicht von: Mohamed Oukettou 108 208 Maxim Beifert 118 231 Vorgelegt von:

Mehr

Data-Mining: Ausgewählte Verfahren und Werkzeuge

Data-Mining: Ausgewählte Verfahren und Werkzeuge Fakultät Informatik Institut für Angewandte Informatik Lehrstuhl Technische Informationssysteme Data-Mining: Ausgewählte Verfahren und Vortragender: Jia Mu Betreuer: Dipl.-Inf. Denis Stein Dresden, den

Mehr

5 Data Warehouses und Data Mining

5 Data Warehouses und Data Mining 5 Data Warehouses und Data Mining Mittels OLAP Techniken können große Datenmengen unterschiedlich stark verdichtet und gezielt aufbereitet werden. Mittels Data Mining können große Datenmengen nach bisher

Mehr

Exploration und Klassifikation von BigData

Exploration und Klassifikation von BigData Exploration und Klassifikation von BigData Inhalt Einführung Daten Data Mining: Vorbereitungen Clustering Konvexe Hülle Fragen Google: Riesige Datenmengen (2009: Prozessieren von 24 Petabytes pro Tag)

Mehr

MS SQL Server 2012 (4)

MS SQL Server 2012 (4) MS SQL Server 2012 (4) Data Mining, Analyse und multivariate Verfahren Marco Skulschus Jan Tittel Marcus Wiederstein Webseite zum Buch: http://vvwvv.comelio-medien.com/buch-kataiog/ms sql_server/ms sql

Mehr

Seminar Business Intelligence Teil II. Data Mining & Knowledge Discovery

Seminar Business Intelligence Teil II. Data Mining & Knowledge Discovery Seminar Business Intelligence Teil II Data Mining & Knowledge Discovery Was ist Data Mining? Sabine Queckbörner Was ist Data Mining? Data Mining Was ist Data Mining? Nach welchen Mustern wird gesucht?

Mehr

Künstliche Neuronale Netze und Data Mining

Künstliche Neuronale Netze und Data Mining Künstliche Neuronale Netze und Data Mining Catherine Janson, icasus GmbH Heidelberg Abstract Der Begriff "künstliche Neuronale Netze" fasst Methoden der Informationstechnik zusammen, deren Entwicklung

Mehr

Masterarbeit. im Studiengang Informatik. Kombinationen von Data Mining-Verfahren: Analyse und Automatisierung. Ulf Mewe Matrikel.-Nr.

Masterarbeit. im Studiengang Informatik. Kombinationen von Data Mining-Verfahren: Analyse und Automatisierung. Ulf Mewe Matrikel.-Nr. LEIBNIZ UNIVERSITÄT HANNOVER FAKULTÄT FÜR ELEKTROTECHNIK UND INFORMATIK INSTITUT FÜR PRAKTISCHE INFORMATIK FACHGEBIET DATENBANKEN UND INFORMATIONSSYSTEME Masterarbeit im Studiengang Informatik Kombinationen

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Entscheidungsbäume

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Entscheidungsbäume Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Entscheidungsbäume Christoph Sawade/Niels Landwehr Jules Rasetaharison, Tobias Scheffer Entscheidungsbäume Eine von vielen Anwendungen:

Mehr

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining.

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining. Personalisierung Personalisierung Thomas Mandl Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung Klassifikation Die Nutzer werden in vorab bestimmte Klassen/Nutzerprofilen

Mehr

Seminar Text- und Datamining Datamining-Grundlagen

Seminar Text- und Datamining Datamining-Grundlagen Seminar Text- und Datamining Datamining-Grundlagen Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 23.05.2013 Gliederung 1 Klassifikationsprobleme 2 Evaluation

Mehr

Data Mining-Modelle und -Algorithmen

Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining ist ein Prozess, bei dem mehrere Komponenten i n- teragieren. Sie greifen auf Datenquellen, um diese zum Training,

Mehr

Business Intelligence. Business Intelligence Seminar, WS 2007/08

Business Intelligence. Business Intelligence Seminar, WS 2007/08 Business Intelligence Seminar, WS 2007/08 Prof. Dr. Knut Hinkelmann Fachhochschule Nordwestschweiz knut.hinkelmann@fhnw.ch Business Intelligence Entscheidungsorientierte Sammlung, Aufbereitung und Darstellung

Mehr

6. Überblick zu Data Mining-Verfahren

6. Überblick zu Data Mining-Verfahren 6. Überblick zu Data Mining-Verfahren Einführung Clusteranalyse k-means-algorithmus Canopy Clustering Klassifikation Klassifikationsprozess Konstruktion eines Entscheidungsbaums Assoziationsregeln / Warenkorbanalyse

Mehr

2. Microsoft Innovationstag Nord Integrierte Lösungen in der Öffentlichen Verwaltung

2. Microsoft Innovationstag Nord Integrierte Lösungen in der Öffentlichen Verwaltung 2. Microsoft Innovationstag Nord Integrierte Lösungen in der Öffentlichen Verwaltung Reporting, Analyse und Data Mining André Henkel, initions AG 22. und 23. Oktober 2013 in Hamburg

Mehr

Data Mining (ehem. Entscheidungsunterstützungssysteme)

Data Mining (ehem. Entscheidungsunterstützungssysteme) Data Mining (ehem. Entscheidungsunterstützungssysteme) Melanie Pfoh Anja Tetzner Christian Schieder Übung WS 2014/15 AGENDA TEIL 1 Aufgabe 1 (Wiederholung OPAL / Vorlesungsinhalte) ENTSCHEIDUNG UND ENTSCHEIDUNGSTHEORIE

Mehr

6. Überblick zu Data Mining-Verfahren

6. Überblick zu Data Mining-Verfahren 6. Überblick zu Data Mining-Verfahren Einführung Clusteranalse k-means-algorithmus Klassifikation Klassifikationsprozess Konstruktion eines Entscheidungsbaums Assoziationsregeln / Warenkorbanalse Support

Mehr

Data Mining - Marketing-Schlagwort oder ernstzunehmende Innovation?

Data Mining - Marketing-Schlagwort oder ernstzunehmende Innovation? 1. Konferenz der A Benutzer KFE in Forschung und Entwicklung Data Mining - Marketing-chlagwort oder ernstzunehmende Innovation? Hans-Peter Höschel,, Heidelberg 1. Konferenz der A Benutzer KFE in Forschung

Mehr

Data Mining mit Rapidminer im Direktmarketing ein erster Versuch. Hasan Tercan und Hans-Peter Weih

Data Mining mit Rapidminer im Direktmarketing ein erster Versuch. Hasan Tercan und Hans-Peter Weih Data Mining mit Rapidminer im Direktmarketing ein erster Versuch Hasan Tercan und Hans-Peter Weih Motivation und Ziele des Projekts Anwendung von Data Mining im Versicherungssektor Unternehmen: Standard

Mehr

Datenbanken-Themen im OS "Data Mining" SS 2010

Datenbanken-Themen im OS Data Mining SS 2010 Prof. Dr.-Ing. Thomas Kudraß HTWK Leipzig, FIMN Datenbanken-Themen im OS "Data Mining" SS 2010 Die Vorträge sollten eine Dauer von 60 Minuten (Einzelvortrag) bzw. 45 Minuten (Doppelvortrag) haben. Nachfolgend

Mehr

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002) 6. Bayes-Klassifikation (Schukat-Talamazzini 2002) (Böhm 2003) (Klawonn 2004) Der Satz von Bayes: Beweis: Klassifikation mittels des Satzes von Bayes (Klawonn 2004) Allgemeine Definition: Davon zu unterscheiden

Mehr

Grundlagen und Basisalgorithmus

Grundlagen und Basisalgorithmus Grundlagen und Basisalgorithmus Proseminar -Genetische Programmierung- Dezember 2001 David König Quelle: Kinnebrock W.: Optimierung mit genetischen und selektiven Algorithmen. München, Wien: Oldenbourg

Mehr

Data Mining für die industrielle Praxis

Data Mining für die industrielle Praxis Data Mining für die industrielle Praxis von Ralf Otte, Viktor Otte, Volker Kaiser 1. Auflage Hanser München 2004 Verlag C.H. Beck im Internet: www.beck.de ISBN 978 3 446 22465 0 Zu Leseprobe schnell und

Mehr

FernUniversität in Hagen. Seminar 01912 Data Mining im Sommersemester 2008 Häufige Muster und Assoziationsregeln. Thema 1.1.1 Der Apriori-Algorithmus

FernUniversität in Hagen. Seminar 01912 Data Mining im Sommersemester 2008 Häufige Muster und Assoziationsregeln. Thema 1.1.1 Der Apriori-Algorithmus FernUniversität in Hagen Seminar 01912 Data Mining im Sommersemester 2008 Häufige Muster und Assoziationsregeln Thema 1.1.1 Der Apriori-Algorithmus Referentin: Olga Riener Olga Riener. Thema 1.1.1. Der

Mehr

Programmiertechnik II

Programmiertechnik II Bäume Symboltabellen Suche nach Werten (items), die unter einem Schlüssel (key) gefunden werden können Bankkonten: Schlüssel ist Kontonummer Flugreservierung: Schlüssel ist Flugnummer, Reservierungsnummer,...

Mehr

Algorithmische Modelle als neues Paradigma

Algorithmische Modelle als neues Paradigma Algorithmische Modelle als neues Paradigma Axel Schwer Seminar über Philosophische Grundlagen der Statistik, WS 2010/11 Betreuer: Prof. Dr. Thomas Augustin München, den 28. Januar 2011 1 / 29 LEO BREIMAN

Mehr

Der CRISP-DM Prozess für Data Mining. CRISP-DM Standard CRISP-DM. Wozu einen standardisierten Prozess?

Der CRISP-DM Prozess für Data Mining. CRISP-DM Standard CRISP-DM. Wozu einen standardisierten Prozess? Wozu einen standardisierten Prozess? Der Prozess der Wissensentdeckung muss verlässlich und reproduzierbar sein auch für Menschen mit geringem Data Mining Hintergrundwissen. Der CRISP-DM Prozess für Data

Mehr

Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining

Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining Ausgangssituation Kaizen Data Mining ISO 9001 Wenn andere Methoden an ihre Grenzen stoßen Es gibt unzählige Methoden, die Abläufe

Mehr

Dominik Pretzsch TU Chemnitz 2011

Dominik Pretzsch TU Chemnitz 2011 Dominik Pretzsch TU Chemnitz 2011 Wir leben im Informationszeitalter und merken es daran, dass wir uns vor Information nicht mehr retten können. Nicht der überwältigende Nutzen der Information, sondern

Mehr

Diskriminanzanalyse Beispiel

Diskriminanzanalyse Beispiel Diskriminanzanalyse Ziel bei der Diskriminanzanalyse ist die Analyse von Gruppenunterschieden, d. h. der Untersuchung von zwei oder mehr Gruppen hinsichtlich einer Vielzahl von Variablen. Diese Methode

Mehr

Lars Priebe Senior Systemberater. ORACLE Deutschland GmbH

Lars Priebe Senior Systemberater. ORACLE Deutschland GmbH Lars Priebe Senior Systemberater ORACLE Deutschland GmbH Data Mining als Anwendung des Data Warehouse Konzepte und Beispiele Agenda Data Warehouse Konzept und Data Mining Data Mining Prozesse Anwendungs-Beispiele

Mehr

Seminar Business Intelligence Teil II: Data-Mining und Knowledge-Discovery

Seminar Business Intelligence Teil II: Data-Mining und Knowledge-Discovery Seminar usiness Intelligence Teil II: Data-Mining und Knowledge-Discovery Thema : Vortrag von Philipp reitbach. Motivation Übersicht. rundlagen. Entscheidungsbauminduktion. ayes sche Klassifikation. Regression.

Mehr

Vorwort zur zweiten Auflage...V. Vorwort zur ersten Auflage... VIII

Vorwort zur zweiten Auflage...V. Vorwort zur ersten Auflage... VIII Vorwort zur zweiten Auflage...V Vorwort zur ersten Auflage... VIII 1 Management Support Systeme und Business Intelligence Anwendungssysteme zur Unterstützung von Managementaufgaben...1 1.1 Computergestützte

Mehr

Anwendung der Predictive Analytics

Anwendung der Predictive Analytics TDWI Konferenz mit BARC@TDWI Track 2014 München, 23. 25. Juni 2014 Anwendung der Predictive Analytics Prof. Dr. Carsten Felden Dipl. Wirt. Inf. Claudia Koschtial Technische Universität Bergakademie Freiberg

Mehr

Einführung in das Data Mining Clustering / Clusteranalyse

Einführung in das Data Mining Clustering / Clusteranalyse Einführung in das Data Mining Clustering / Clusteranalyse Sascha Szott Fachgebiet Informationssysteme HPI Potsdam 21. Mai 2008 Teil I Einführung Clustering / Clusteranalyse Ausgangspunkt: Menge O von Objekten

Mehr

Text Mining und CRM. Hans Hermann Weber Univ. Erlangen IMMD 8, den 12.09.03

Text Mining und CRM. Hans Hermann Weber Univ. Erlangen IMMD 8, den 12.09.03 Text Mining und CRM Hans Hermann Weber Univ. Erlangen IMMD 8, den 12.09.03 Was ist Textmining Unstrukturierte Daten (Text) anreichern mit Strukturinformation: Metadaten hinzufügen Struktur (Segmentinformation)

Mehr

9 Resümee. Resümee 216

9 Resümee. Resümee 216 Resümee 216 9 Resümee In der vorliegenden Arbeit werden verschiedene Methoden der Datenreduktion auf ihre Leistungsfähigkeit im sozialwissenschaftlichstatistischen Umfeld anhand eines konkreten Anwendungsfalls

Mehr

Vorlesung 04.12.2006: Binäre Entscheidungsdiagramme (BDDs) Dr. Carsten Sinz

Vorlesung 04.12.2006: Binäre Entscheidungsdiagramme (BDDs) Dr. Carsten Sinz Vorlesung 04.12.2006: Binäre Entscheidungsdiagramme (BDDs) Dr. Carsten Sinz Datenstruktur BDD 1986 von R. Bryant vorgeschlagen zur Darstellung von aussagenlogischen Formeln (genauer: Booleschen Funktionen)

Mehr

Fachgruppe Statistik, Risikoanalyse & Computing. STAT672 Data Mining. Sommersemester 2007. Prof. Dr. R. D. Reiß

Fachgruppe Statistik, Risikoanalyse & Computing. STAT672 Data Mining. Sommersemester 2007. Prof. Dr. R. D. Reiß Fachgruppe Statistik, Risikoanalyse & Computing STAT672 Data Mining Sommersemester 2007 Prof. Dr. R. D. Reiß Überblick Data Mining Begrifflichkeit Unter Data Mining versteht man die Computergestützte Suche

Mehr

Data Warehousing und Data Mining

Data Warehousing und Data Mining Data Warehousing und Data Mining Einführung in Data Mining Ulf Leser Wissensmanagement in der Bioinformatik Wo sind wir? Einleitung & Motivation Architektur Modellierung von Daten im DWH Umsetzung des

Mehr

Mit KI gegen SPAM. Proseminar Künstliche Intelligenz

Mit KI gegen SPAM. Proseminar Künstliche Intelligenz Mit KI gegen SPAM Proseminar Künstliche Intelligenz SS 2006 Florian Laib Ausblick Was ist SPAM? Warum SPAM-Filter? Naive Bayes-Verfahren Fallbasiertes Schließen Fallbasierte Filter TiMBL Vergleich der

Mehr

generiere aus Textdokumenten zunächst Metadaten, wende Data Mining - Techniken dann nur auf diese an

generiere aus Textdokumenten zunächst Metadaten, wende Data Mining - Techniken dann nur auf diese an 9. Text- und Web-Mining Text Mining: Anwendung von Data Mining - Verfahren auf große Mengen von Online-Textdokumenten Web Mining: Anwendung von Data Mining - Verfahren auf Dokumente aus dem WWW oder auf

Mehr

Web Data Mining. Alexander Hinneburg Sommersemester 2007

Web Data Mining. Alexander Hinneburg Sommersemester 2007 Web Data Mining Alexander Hinneburg Sommersemester 2007 Termine Vorlesung Mi. 10:00-11:30 Raum?? Übung Mi. 11:45-13:15 Raum?? Klausuren Mittwoch, 23. Mai Donnerstag, 12. Juli Buch Bing Liu: Web Data Mining

Mehr

Data Cube. Aggregation in SQL. Beispiel: Autoverkäufe. On-line Analytical Processing (OLAP) 1. Einführung. 2. Aggregation in SQL, GROUP BY

Data Cube. Aggregation in SQL. Beispiel: Autoverkäufe. On-line Analytical Processing (OLAP) 1. Einführung. 2. Aggregation in SQL, GROUP BY Data Cube On-line Analytical Processing (OLAP). Einführung Ziel: Auffinden interessanter Muster in großen Datenmengen 2. Aggregation in SQL, GROUP BY 3. Probleme mit GROUP BY 4. Der Cube-Operator! Formulierung

Mehr

Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07

Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07 Regression Trees Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07 Ao.Univ.Prof. Dr. Marcus Hudec marcus.hudec@univie.ac.at Institut für Scientific Computing, Universität Wien 2

Mehr

Textmining Klassifikation von Texten Teil 1: Naive Bayes

Textmining Klassifikation von Texten Teil 1: Naive Bayes Textmining Klassifikation von Texten Teil 1: Naive Bayes Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten 1: Naive

Mehr

Proseminar - Data Mining

Proseminar - Data Mining Proseminar - Data Mining SCCS, Fakultät für Informatik Technische Universität München SS 2014, SS 2014 1 Data Mining: Beispiele (1) Hausnummererkennung (Klassifikation) Source: http://arxiv.org/abs/1312.6082,

Mehr

Data/Information Quality Management

Data/Information Quality Management Data/Information Quality Management Seminar WI/Informationsmanagement im Sommersemester 2002 Markus Berberov, Roman Eder, Peter Gerstbach 11.6.2002 Inhalt! Daten und Datenqualität! Einführung und Definition!

Mehr

Multivariate Statistik

Multivariate Statistik Hermann Singer Multivariate Statistik 1 Auflage 15 Oktober 2012 Seite: 12 KAPITEL 1 FALLSTUDIEN Abbildung 12: Logistische Regression: Geschätzte Wahrscheinlichkeit für schlechte und gute Kredite (rot/blau)

Mehr

Data-Mining und Knowledge Discovery in Databases (KDD) Ein Überblick

Data-Mining und Knowledge Discovery in Databases (KDD) Ein Überblick Institut für Angewandte Informatik Professur für Technische Informationssysteme Fakultätsname XYZ Fachrichtung XYZ Institutsname XYZ, Professur XYZ Data-Mining und Knowledge Discovery in Databases (KDD)

Mehr

Automatisierte Dossier- Erstellung mittels Text-Mining

Automatisierte Dossier- Erstellung mittels Text-Mining Automatisierte Dossier- Erstellung mittels Text-Mining Paul Assendorp Grundseminar 11.12.2014 Paul Assendorp Automatisierte Dossier-Erstellung 1 Gliederung Motivation Textmining Tools Aktueller Stand Ausblick

Mehr

Vom Suchen und Finden individueller Empfehlungen aus großen Objektmengen. PD Dr.-Ing. habil. Meike Klettke meike.klettke@uni-rostock.

Vom Suchen und Finden individueller Empfehlungen aus großen Objektmengen. PD Dr.-Ing. habil. Meike Klettke meike.klettke@uni-rostock. Vom Suchen und Finden individueller Empfehlungen aus großen Objektmengen PD Dr.-Ing. habil. Meike Klettke meike.klettke@uni-rostock.de 1 Informationsflut Amazon: Alle lieferbaren Bücher (930.000 Titeln

Mehr

Eine Baumstruktur sei folgendermaßen definiert. Eine Baumstruktur mit Grundtyp Element ist entweder

Eine Baumstruktur sei folgendermaßen definiert. Eine Baumstruktur mit Grundtyp Element ist entweder Programmieren in PASCAL Bäume 1 1. Baumstrukturen Eine Baumstruktur sei folgendermaßen definiert. Eine Baumstruktur mit Grundtyp Element ist entweder 1. die leere Struktur oder 2. ein Knoten vom Typ Element

Mehr

Matrikelnr: Name: Vorname: Aufgabe 1 2 3 4 Summe Maximal erreichbare 20 30 30 20 100 Punktzahl Erreichte Punktzahl. Note:

Matrikelnr: Name: Vorname: Aufgabe 1 2 3 4 Summe Maximal erreichbare 20 30 30 20 100 Punktzahl Erreichte Punktzahl. Note: Fakultät für Wirtschaftswissenschaft Matrikelnr: Name: Vorname: : Modul 32711 Business Intelligence Termin: 28.03.2014, 9:00 11:00 Uhr Prüfer: Univ.-Prof. Dr. U. Baumöl Aufbau und Bewertung der Aufgabe

Mehr

Proseminar - Data Mining

Proseminar - Data Mining Proseminar - Data Mining SCCS, Fakultät für Informatik Technische Universität München SS 2012, SS 2012 1 Data Mining Pipeline Planung Aufbereitung Modellbildung Auswertung Wir wollen nützliches Wissen

Mehr

Einführung in die Wissensverarbeitung und Data Mining

Einführung in die Wissensverarbeitung und Data Mining Einführung in die Wissensverarbeitung und Data Mining Peter Becker FH Bonn-Rhein-Sieg Fachbereich Angewandte Informatik!" $# Vorlesung Wintersemester 2001/02 1. Einführung Vorbemerkungen 1 Einführung Vorbemerkungen

Mehr

4. Jeder Knoten hat höchstens zwei Kinder, ein linkes und ein rechtes.

4. Jeder Knoten hat höchstens zwei Kinder, ein linkes und ein rechtes. Binäre Bäume Definition: Ein binärer Baum T besteht aus einer Menge von Knoten, die durch eine Vater-Kind-Beziehung wie folgt strukturiert ist: 1. Es gibt genau einen hervorgehobenen Knoten r T, die Wurzel

Mehr

Künstliche Intelligenz Dirk Krechel SS 2009

Künstliche Intelligenz Dirk Krechel SS 2009 Künstliche Intelligenz Dirk Krechel SS 2009 Überblick über das Modul 1. Einführung 2. Symbolische Verfahren Logik Aussagenlogik Prädikatenlogik Horn Logik Prolog 3. Suchen und Bewerten Problemlösen durch

Mehr

Inhaltsverzeichnis. Fragestellungen und Methoden 11. Vorwort 15. Kapitel 1 Einführung 17. Kapitel 2 Statistische Grundbegriffe 23

Inhaltsverzeichnis. Fragestellungen und Methoden 11. Vorwort 15. Kapitel 1 Einführung 17. Kapitel 2 Statistische Grundbegriffe 23 Fragestellungen und Methoden 11 Vorwort 15 Kapitel 1 Einführung 17 1.1 KonzeptiondesBuchs... 18 1.2 AufbaudesBuchs... 19 1.3 Programmversionen von PASW bzw. SPSS..... 20 1.4 WiekanndiesesBuchverwendetwerden?...

Mehr

Data Mining mit RapidMiner

Data Mining mit RapidMiner Motivation Data Mining mit RapidMiner CRISP: DM-Prozess besteht aus unterschiedlichen Teilaufgaben Datenvorverarbeitung spielt wichtige Rolle im DM-Prozess Systematische Evaluationen erfordern flexible

Mehr

Datenbankmodelle 1. Das Entity-Relationship-Modell. Prof. Dr. Bernhard Schiefer 2-1

Datenbankmodelle 1. Das Entity-Relationship-Modell. Prof. Dr. Bernhard Schiefer 2-1 Datenbankmodelle 1 Das Entity-Relationship-Modell Prof. Dr. Bernhard Schiefer 2-1 Datenbankmodelle ER-Modell hierarchisches Modell Netzwerkmodell relationales Modell objektorientierte Modelle Prof. Dr.

Mehr

Seminar Business Intelligence (2) Data Mining & Knowledge Discovery

Seminar Business Intelligence (2) Data Mining & Knowledge Discovery Seminar Business Intelligence () Data Mining & Knowledge Discovery Thema: Klassifikation und Prädiktion Ausarbeitung von Philipp Breitbach AG DBIS Betreuung: Jernej Kovse Inhaltsverzeichnis INHALTSVERZEICHNIS...

Mehr

Kapitel 4: Data Mining

Kapitel 4: Data Mining LUDWIG- MAXIMILIANS- UNIVERSITY MUNICH DEPARTMENT INSTITUTE FOR INFORMATICS Skript zur Vorlesung: Einführung in die Informatik: Systeme und Anwendungen Sommersemester 2011 Kapitel 4: Data Mining Vorlesung:

Mehr

Folge 19 - Bäume. 19.1 Binärbäume - Allgemeines. Grundlagen: Ulrich Helmich: Informatik 2 mit BlueJ - Ein Kurs für die Stufe 12

Folge 19 - Bäume. 19.1 Binärbäume - Allgemeines. Grundlagen: Ulrich Helmich: Informatik 2 mit BlueJ - Ein Kurs für die Stufe 12 Grundlagen: Folge 19 - Bäume 19.1 Binärbäume - Allgemeines Unter Bäumen versteht man in der Informatik Datenstrukturen, bei denen jedes Element mindestens zwei Nachfolger hat. Bereits in der Folge 17 haben

Mehr

Kostenmaße. F3 03/04 p.188/395

Kostenmaße. F3 03/04 p.188/395 Kostenmaße Bei der TM nur ein Kostenmaß: Ein Schritt (Konfigurationsübergang) kostet eine Zeiteinheit; eine Bandzelle kostet eine Platzeinheit. Bei der RAM zwei Kostenmaße: uniformes Kostenmaß: (wie oben);

Mehr

Grundlagen der Programmierung 2. Bäume

Grundlagen der Programmierung 2. Bäume Grundlagen der Programmierung 2 Bäume Prof. Dr. Manfred Schmidt-Schauÿ Künstliche Intelligenz und Softwaretechnologie 24. Mai 2006 Graphen Graph: Menge von Knoten undzugehörige (gerichtete oder ungerichtete)

Mehr

Übungsaufgaben zur Lehrveranstaltung. Data Mining. im Studiengang Informatik

Übungsaufgaben zur Lehrveranstaltung. Data Mining. im Studiengang Informatik Übungsaufgaben zur Lehrveranstaltung Data Mining im Studiengang Informatik modifizierte Version (einige Aufgaben entfernt und eigene Aufgaben hinzugefügt) der Aufgaben aus Tan/Steinbach/Kumar: Introduction

Mehr

Grundlagen der Informatik. Prof. Dr. Stefan Enderle NTA Isny

Grundlagen der Informatik. Prof. Dr. Stefan Enderle NTA Isny Grundlagen der Informatik Prof. Dr. Stefan Enderle NTA Isny 2 Datenstrukturen 2.1 Einführung Syntax: Definition einer formalen Grammatik, um Regeln einer formalen Sprache (Programmiersprache) festzulegen.

Mehr

Business Intelligence. Data Warehouse / Analyse Sven Elvers 2005-07-06

Business Intelligence. Data Warehouse / Analyse Sven Elvers 2005-07-06 Business Intelligence Data Warehouse / Analyse Sven Elvers 2005-07-06 Einleitung Dieses Dokument beschreibt einen für das Verständnis relevanten Teil der Präsentation. Business Intelligence Motivation

Mehr

Data Warehousing und Data Mining

Data Warehousing und Data Mining Data Warehousing und Data Mining Klassifikation Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Einführung Problemstellung Evaluation Overfitting knn Klassifikator Naive-Bayes

Mehr

Einführungsveranstaltung: Data Warehouse

Einführungsveranstaltung: Data Warehouse Einführungsveranstaltung: 1 Anwendungsbeispiele Berichtswesen Analyse Planung Forecasting/Prognose Darstellung/Analyse von Zeitreihen Performancevergleiche (z.b. zwischen Organisationseinheiten) Monitoring

Mehr

Data-Mining Aufspüren von Mustern mit Hilfe von Entscheidungsbäumen

Data-Mining Aufspüren von Mustern mit Hilfe von Entscheidungsbäumen Hausarbeit Im Rahmen des Seminars Datenanalyse Thema: Data-Mining Aufspüren von Mustern mit Hilfe von Entscheidungsbäumen Seminarleiter: Dr. Siegbert Klinke Humboldt-Universität zu Berlin Abteilung Statistik

Mehr

Dr. Andreas Hotho, Robert Jäschke Fachgebiet Wissensverarbeitung 30.10.2008. Wintersemester 2008/2009

Dr. Andreas Hotho, Robert Jäschke Fachgebiet Wissensverarbeitung 30.10.2008. Wintersemester 2008/2009 Dr. Andreas Hotho, Robert Jäschke Fachgebiet Wissensverarbeitung 30.10.2008 1. Übung Knowledge Discovery Wintersemester 2008/2009 Vorbemerkungen Vorlesungsfolien und Übungsblätter können Sie im Internet

Mehr

Business Intelligence und Geovisualisierung in der Gesundheitswirtschaft

Business Intelligence und Geovisualisierung in der Gesundheitswirtschaft Business Intelligence und Geovisualisierung in der Gesundheitswirtschaft Prof. Dr. Anett Mehler-Bicher Fachhochschule Mainz, Fachbereich Wirtschaft Prof. Dr. Klaus Böhm health&media GmbH 2011 health&media

Mehr

OLAP und Data Mining. On-Line Analytical Processing. Coddsche Regeln OLAP. Data Mining. Begriff Coddsche Regeln FASMI Operationen und Anfragesprachen

OLAP und Data Mining. On-Line Analytical Processing. Coddsche Regeln OLAP. Data Mining. Begriff Coddsche Regeln FASMI Operationen und Anfragesprachen OLAP und Data Mining OLAP Begriff Coddsche Regeln FASMI Operationen und Anfragesprachen Data Mining Begriff und Prozeß Verfahren Vorlesung Data-Warehouse-Technologien 9-1 On-Line Analytical Processing

Mehr

Abschnitt: Algorithmendesign und Laufzeitanalyse

Abschnitt: Algorithmendesign und Laufzeitanalyse Abschnitt: Algorithmendesign und Laufzeitanalyse Definition Divide-and-Conquer Paradigma Divide-and-Conquer Algorithmen verwenden die Strategien 1 Divide: Teile das Problem rekursiv in Subproblem gleicher

Mehr

Hochschule Wismar. Fakultät für Wirtschaftswissenschaften. Data Mining zur Identifikation potentieller Kunden

Hochschule Wismar. Fakultät für Wirtschaftswissenschaften. Data Mining zur Identifikation potentieller Kunden Hochschule Wismar Fakultät für Wirtschaftswissenschaften Data Mining zur Identifikation potentieller Kunden Masterarbeit zur Erlangung des Grades Master of Science (M.Sc.) der Hochschule Wismar eingereicht

Mehr

Vorlesung. Datenschutz und Privatheit in vernetzten Informationssystemen

Vorlesung. Datenschutz und Privatheit in vernetzten Informationssystemen Vorlesung Datenschutz und Privatheit in vernetzten Informationssystemen Kapitel 7: Privacy Preserving Data Mining Thorben Burghardt, Erik Buchmann buchmann@ipd.uka.de Thanks to Chris Clifton & Group IPD,

Mehr

Grundbegriffe (1) Grundbegriffe (2)

Grundbegriffe (1) Grundbegriffe (2) Grundbegriffe (1) S.1 Äquivalenzklasse Unter einer Äquivalenzklasse versteht man eine Klasse von Objekten, die man hinsichtlich bestimmter Merkmalsausprägungen als gleich (äquivalent) betrachtet. (z.b.

Mehr

TNS EX A MINE BehaviourForecast Predictive Analytics for CRM. TNS Infratest Applied Marketing Science

TNS EX A MINE BehaviourForecast Predictive Analytics for CRM. TNS Infratest Applied Marketing Science TNS EX A MINE BehaviourForecast Predictive Analytics for CRM 1 TNS BehaviourForecast Warum BehaviourForecast für Sie interessant ist Das Konzept des Analytischen Customer Relationship Managements (acrm)

Mehr

Vortrag zum Paper Results of the Active Learning Challenge von Guyon, et. al. Sören Schmidt Fachgebiet Knowledge Engineering

Vortrag zum Paper Results of the Active Learning Challenge von Guyon, et. al. Sören Schmidt Fachgebiet Knowledge Engineering Vortrag zum Paper Results of the Active Learning Challenge von Guyon, et. al. Sören Schmidt Fachgebiet Knowledge Engineering 11.12.2012 Vortrag zum Paper Results of the Active Learning Challenge von Isabelle

Mehr

Mining top-k frequent itemsets from data streams

Mining top-k frequent itemsets from data streams Seminar: Maschinelles Lernen Mining top-k frequent itemsets from data streams R.C.-W. Wong A.W.-C. Fu 1 Gliederung 1. Einleitung 2. Chernoff-basierter Algorithmus 3. top-k lossy counting Algorithmus 4.

Mehr

WS 2009/10. Diskrete Strukturen

WS 2009/10. Diskrete Strukturen WS 2009/10 Diskrete Strukturen Prof. Dr. J. Esparza Lehrstuhl für Grundlagen der Softwarezuverlässigkeit und theoretische Informatik Fakultät für Informatik Technische Universität München http://www7.in.tum.de/um/courses/ds/ws0910

Mehr