Infos. Inhaltsverzeichnis. Einführung

Größe: px
Ab Seite anzeigen:

Download "Infos. Inhaltsverzeichnis. Einführung"

Transkript

1 Wissensextraktion Prof. Dr. Jürgen Cleve / Prof. Dr. Uwe Lämmel Infos Lehrveranstaltungen 2 V + 2 Ü, geteilt: Prüfung Prof. Lämmel: NN Prof. Cleve: Klassische Verfahren Projekt und MP 30min Skript, Folien, Übungen etc. in Stud.IP: Wissensextraktion Skript und Folien CopyShop Hochschule Wismar 26. Januar 2015 Literatur Cleve/Lämmel: Data Mining, Oldenbourg s. auch Skript und Stud.IP KNIME Modul DM Weitere Infos unter Stud.IP KNIME Desktop in ILIAS, etliche Zusatzinfos (Videos, Tests) 26. Januar 2015 Inhaltsverzeichnis Inhaltsverzeichnis Einführung Data Mining Grundlagen Anwendungsklassen Wissensrepräsentation Methoden und Verfahren Datenvorbereitung Bewertung Einführung Data Mining Grundlagen Anwendungsklassen Wissensrepräsentation Methoden und Verfahren Datenvorbereitung Bewertung Inhaltsverzeichnis Kapitel Januar 2015 Einführung Folie 1-1 (6) Einführung Data Mining und Business Intelligence Auswertung von Massendaten Ablauf einer Datenanalyse Data you don t need is never lost. Ander s first negative Principle of Computers Was ist Data Mining? 1.1 Data Mining und Business Intelligence Folie 1-2 (7) 1.1 Data Mining und Business Intelligence Folie 1-3 (8) Business Intelligence Business Intelligence Business Intelligence (BI) ist ein relativ neuer Begriff. Effektiver/effizienter Umgang mit dem Unternehmenswissen für das Überleben wichtig Nach und nach: Reihe von Techniken, Programmen etc. für Unternehmenswissen Heute: Business Intelligence Zusammenfassung dieser Techniken und Architekturen für eine effiziente Verwaltung/Analyse des Unternehmenswissens Aufgaben von BI: Wissensgewinnung, -verwaltung und -verarbeitung. Querbezüge zu Informationsmanagement Datenbanken/Data Warehouse Künstliche Intelligenz Data Mining (inkl. OLAP, Statistik)

2 1.1 Data Mining und Business Intelligence Folie 1-4 (9) 1.1 Data Mining und Business Intelligence Folie 1-5 (10) Business Intelligence Definition Business Intelligence Definition Verschiedene Definitionen des Begriffs Business Intelligence. Business Intelligence im engeren/weiteren/weiten Sinn. Business Intelligence im engeren Sinn: Kernapplikationen, die eine Entscheidungsfindung direkt unterstützen. Online Analytical Processing (OLAP) die Management Information Systems (MIS) Executive Information Systems (EIS) Data Mining und Business Intelligence Folie 1-6 (11) 1.1 Data Mining und Business Intelligence Folie 1-7 (12) Business Intelligence Definition Business Intelligence Definition Etwas weiterer BI-Begriff: alle Analyse-orientierten Anwendungen Data Mining Reporting Analytisches Customer Relationship Management... BI im weiten Verständnis: Alle Anwendungen, die im Entscheidungsprozess benutzt werden. Präsentationssysteme Datenspeicherung und -verwaltung Data Mining und Business Intelligence Folie 1-8 (13) 1.1 Data Mining und Business Intelligence Folie 1-9 (14) Business Intelligence Definition Business Intelligence Data Mining Schwerpunkt dieser Vorlesung: Wissensextraktion / Data Mining... nur kleiner Ausschnitt aus dem BI-Spektrum Abbildung Business Intelligence [Kemper et al.] 1.2 Auswertung von Massendaten Folie 1-10 (15) 1.2 Auswertung von Massendaten Folie 1-11 (16) Was fangen wir mit den Unmengen von Daten an? Motivation Industrielle Prozessdaten Umsatzdaten Genom-Daten Bilder Textinformationen weltweit stetig steigende Datenflut grobe Schätzungen: Verdoppelung alle 20 Monate Daten über den initialen Zweck hinaus benutzen Data Mining = Datenschürfen Suche nach Mustern oder auffälligen Häufungen Suche nach Beurteilungskriterien für vorgegebene Ziele Ausführbar zu Zeiten schwacher Computerauslastung (z.b. nachts)

3 1.2 Auswertung von Massendaten Folie 1-12 (17) 1.2 Auswertung von Massendaten Folie 1-13 (18) Stories of success Vorhersage von Klausurnoten Erzeugen eines Entscheidungsbaums (generiert aus alten Kreditdaten) als Entscheidungshilfe für die Bewertung der Kreditwürdigkeit eines Kunden Generierung von Mustern von typischen Reisenden, um den Verkauf von Billigflügen oder -urlauben zu managen Windeln und Bier: Analyse des Kaufverhaltens ergibt, dass derjenige, der Windeln kauft, sehr häufig auch Bier kauft, aber nicht umgekehrt. Analyse der Gene bei Diabetes-Kranken, um typische Gene zu erkennen Grammatik <= 6 > 6 Logik TM <= 6 > 6 <= 6 > 6 5 (17.0/1.0) Grundlagen 3 (2.0) Logik <= 1 > 1 <= 8 > 8 5 (2.0) 4 (6.0/1.0) 3 (2.0/1.0) 2 (2.0) Abb. 1: Entscheidungsbaum für die TI-Klausur 2013/ Ablauf einer Datenanalyse Folie 1-14 (19) 1.3 Ablauf einer Datenanalyse Folie 1-15 (20) Ablauf einer Datenanalyse Folgende Phasen unterscheidet man beim Data Mining: Selektion Auswahl der geeigneten Datenmengen Datenvorverarbeitung Skalierung, Ausreißer... Transformation Umwandlung in adäquate Datenformate Data Mining eigentliches Suchen nach Mustern etc. Interpretation / Evaluation Interpretation der Ergebnisse und Auswertung Ablauf einer Datenanalyse Datenselektion Daten Datenvorverarbeitung Zieldaten Datentransformation bereinigte Daten Data Mining bereinigte und transformierte Daten Evaluation & Interpretation Muster Regeln... Information Wissen Abb. 2: Ablauf eines Data-Mining-Prozesses [Fayyad et al.] 1.3 Ablauf einer Datenanalyse Folie 1-16 (21) CRISP Data-Mining-Modell CRISP Data-Mining-Modell 1.3 Ablauf einer Datenanalyse Folie 1-17 (22) CRISP Data-Mining-Modell CRISP Data-Mining-Modell Das CRISP-DM-Modell wurde durch NCR, Daimler-Benz, ISL, OHRA entwickelt. Cross Industry Standard Process for Data Mining (http://www.crisp-dm.org/). Man geht von einem Lebenszyklus in 6 Etappen aus: 1. Verstehen der Aufgabe 2. Verständnis der Daten 3. Datenvorbereitung 4. Data Mining (Modellbildung) 5. Evaluation 6. Einsatz im & Konsequenzen für Unternehmen Business Understanding Deployment Data Evaluation Data Understanding Data Preparation Modelling Abb. 3: CRISP-Modell 1.3 Ablauf einer Datenanalyse Folie 1-18 (23) Datenselektion Datenselektion 1.3 Ablauf einer Datenanalyse Folie 1-19 (24) Datenvorverarbeitung Datenvorverarbeitung Welche Daten sind verfügbar? Zusammenführen von Daten aus unterschiedlichen Quellen interne / externe Daten Qualität des Zieldatenbestands untersuchen und durch Einsatz geeigneter Verfahren verbessern Fehlerhafte Daten Fehlende Daten Ausreißer

4 1.3 Ablauf einer Datenanalyse Folie 1-20 (25) Datentransformation Datentransformation 1.3 Ablauf einer Datenanalyse Folie 1-21 (26) Data Mining Data Mining Analyserelevanten Zieldatenbestand in ein solches Datenbankschema transformieren, das von dem verwendeten Data-Mining-System verarbeitet werden kann Attribute transformieren Dimensionsreduktion Verfahrensauswahl (z.b. Clusteranalyse) Konfiguration des Verfahrens 1.3 Ablauf einer Datenanalyse Folie 1-22 (27) Evaluation und Interpretation Evaluation und Interpretation Inhaltsverzeichnis 26. Januar 2015 Einführung Bewertung der Resultate Anforderungen: Gültigkeit Neuartigkeit Nützlichkeit Verständlichkeit Data Mining Grundlagen Anwendungsklassen Wissensrepräsentation Methoden und Verfahren Datenvorbereitung Bewertung Inhaltsverzeichnis Kapitel Januar 2015 Data Mining Grundlagen Folie 2-1 (30) Data Mining Grundlagen Begriffe Zwei Beispiele Interdisziplinarität Datentypen Abstands- und Ähnlichkeitsmaße Weitere Grundbegriffe If you file it, you ll know where it is but you ll never need it. If you don t file it, you ll need it but never know where it is. Tillis s Organizational Principle 2.1 Begriffe Folie 2-2 (31) 2.1 Begriffe Folie 2-3 (32) Daten Information Definition 2.1 (Daten) Ansammlungen von Zeichen mit der dazugehörigen Syntax werden Daten genannt. Daten Plural des lateinischen Datum, ein Informationselement. unstrukturierte Daten (Bild, Text) semistrukturierte Daten (WWW-Seiten) strukturierte Daten (Datenbanken) Definition 2.2 (Information) Werden Daten mit einer Bedeutung gekoppelt, handelt es sich um Informationen. Information zweckbestimmte Interpretation von Daten durch den Menschen

5 2.1 Begriffe Folie 2-4 (33) 2.1 Begriffe Folie 2-5 (34) Wissen Data Mining Definition 2.4 (Data Mining) Definition 2.3 (Wissen) Eine Information in Verbindung mit der Fähigkeit, diese zu benutzen, wird als Wissen bezeichnet. Information, die man anzuwenden weiß Wissen Beim Data Mining (Datenschürfen) handelt es sich um die Extraktion von Wissen aus Daten. Data Mining ist die nichttriviale und automatische Suche nach Wissen in Massendaten. Man unterscheidet: Data Mining i.e.s. (strukturierte Daten) Web Mining (semistrukturierte Daten) Text Mining (unstrukturierte Daten) 2.2 Zwei Beispiele Folie 2-6 (35) 2.2 Zwei Beispiele Folie 2-7 (36) Beispiele Beispiele In Warenhäusern werden an den Kassen die verkauften Waren elektronisch erfasst. Diese Daten werden in Datenbanken abgelegt, wodurch riesige Datenbestände über Verkaufsumsätze zur Verfügung stehen. Mit Hilfe von Data-Mining-Verfahren können nun verschiedene Analysen auf diesen Daten durchgeführt werden: Welche Waren werden häufig gemeinsam mit anderen gekauft? Wann werden welche Waren in welchen Mengen gekauft? Benutzen dieser Informationen, um effizient bestimmte Aufgaben lösen zu können. Erkennen von Kundengruppen Zuschneiden von Werbeprospekten auf diese Kundengruppen gezieltes Versenden von Werbeprospekten an konkrete Zielgruppen 2.3 Interdisziplinarität Folie 2-8 (37) 2.3 Interdisziplinarität Folie 2-9 (38) Interdisziplinarität Interdisziplinarität Es gibt eine ganze Reihe von Bezügen des Data Mining zu anderen Disziplinen. Data Mining ist höchst interdisziplinär. Statistik Mathematik Datenbanken Data Warehouses Wissensbasierte Systeme Künstliche Intelligenz Data Mining Datenbanken Maschinelles Lernen Statistik Visualisierung Visualisierung Computergraphik Abb. 4: Interdisziplinarität 2.4 Datentypen Folie 2-10 (39) 2.4 Datentypen Folie 2-11 (40) Datentypen Man unterscheidet folgende wichtige Datentypen: nominal ordinal metrisch Verfeinerungen möglich: Nominale Daten unterliegen keinerlei Rangfolge. Sie können lediglich nach dem Kriterium gleich bzw. nicht gleich sortiert werden. Ordinale Daten haben zumindest eine Ordnungsrelation (wie <). Metrische Daten besitzen alle Ordnungsmerkmale der reellen Zahlen. Man kann mit ihnen rechnen. Intervalle (Geburtsjahr) Verhältniszahlen (Gewicht, Größe) Gute Beispiele in [Dorian Pyle, S. 67]. Datentypen nominal ordinal metrisch Farbe Schulnote Fläche Beruf Schuhgröße Geschwindigkeit Familienstand Erdbebenstärke Körpergröße Staatsangehörigkeit Altersgruppe Kinderzahl Tabelle 1: Beispiel Datentypen

6 2.4 Datentypen Folie 2-12 (41) 2.5 Abstands- und Ähnlichkeitsmaße Folie 2-13 (42) Umwandlung von ordinalen in metrische Daten Abstands- und Ähnlichkeitsmaße Betrachten ein Attribut mit den Ausprägungen klein, mittelgroß, groß, sehr groß. Umwandlung in metrisches Attribut: klein 0 mittelgroß 0,3 groß 0,7 sehr groß 1 Achtung: Willkürliche Wahl der Zahlen beeinflusst den Abstand zwischen den Werten und eventuell das Resultat. dist(v,w): Abstand zweier Datensätze simil(v,w): Ähnlichkeit zweier Datensätze Zur Bestimmung der Ähnlichkeit wird meist der Abstand herangezogen: simil(v,w) = f(dist(v,w)) 2.5 Abstands- und Ähnlichkeitsmaße Folie 2-14 (43) 2.5 Abstands- und Ähnlichkeitsmaße Folie 2-15 (44) Eigenschaften von Distanzfunktionen Distanzfunktionen Eine Abstandsfunktion (auch Distanzfunktion genannt) sollte folgende Eigenschaften erfüllen: dist(x,x) = 0 dist(x,y) = dist(y,x) dist(x,y) dist(x,z) + dist(z,y) Folgende typische Distanzfunktionen gibt es: Hamming-Distanz: dist H (v,w) = count i (v i w i ) Euklidische Distanz: dist E (v,w) = (v i w i ) 2 i Manhattandistanz: dist S (v,w) = ( v i w i ) i Maximumdistanz: dist Max (v,w) = max( v i w i ) i... Minkowski-Distanz: dist Minkowski (v,w) = p v i w i p i 2.5 Abstands- und Ähnlichkeitsmaße Folie 2-16 (45) 2.5 Abstands- und Ähnlichkeitsmaße Folie 2-17 (46) Distanzfunktionen Aufgaben dist H = 2, dist E 8.9, dist Man = 12, dist Max = 8 Aufgabe 2.1 (Distanz) Wenn man die Schritte des Königs auf einem Schachbrett als Distanz wählt, welchem Distanzbegriff entspricht das? Und welchem Begriff entspricht die Anzahl der Felder, die der Turm passieren müsste? Aufgabe 2.2 (Distanz) Berechnen Sie die Distanz zwischen den Punkten (0,1,2), (1,5,3) und (4,-2,3). Verwenden Sie dabei alle 4 aufgeführten Distanzfunktionen. Abb. 5: Beispiel Distanzen 2.5 Abstands- und Ähnlichkeitsmaße Folie 2-18 (47) 2.6 Weitere Grundbegriffe Folie 2-19 (48) Aufgaben Weitere Grundbegriffe Aufgabe 2.3 (Distanz) Suchen Sie weitere Abstandsmaße. Aufgabe 2.4 (Datentypen) Welchen Typ von Daten haben wir bei den Postleitzahlen: nominal, ordinal, metrisch? Lernen aus gegebenen Beispielen: Instanzenmenge E. Lernen auf einer Teilmenge von E: Trainingsmenge T E Validieren auf einer anderen Teilmenge von E (meist E \ T ): Validierungsmenge

7 2.6 Weitere Grundbegriffe Folie 2-20 (49) Lern-Strategien 3 Anwendungsklassen Wissensextraktion Inhaltsverzeichnis 26. Januar 2015 Einführung Data Mining Grundlagen Nicht-überwachtes Lernen: Die zu entdeckenden Muster sind unbekannt. Überwachtes Lernen: Es werden Beispiele vorgegeben, z.b. Beispiele für Nadel- oder Laubbäume. Anwendungsklassen Wissensrepräsentation Methoden und Verfahren Datenvorbereitung Bewertung 3 Anwendungsklassen Wissensextraktion Inhaltsverzeichnis Kapitel Januar Anwendungsklassen Wissensextraktion Anwendungsklassen Folie 3-1 (52) Anwendungsklassen Klassifikation Clustering Numerische Vorhersage Assoziationsanalyse Text Mining Web Mining Klassifikation Clustering All great discoveries are made by mistake. Young s Law Numerische Vorhersage Assoziation Text Mining Web Mining 3 Anwendungsklassen Wissensextraktion 3.1 Klassifikation Folie 3-2 (53) 3 Anwendungsklassen Wissensextraktion 3.1 Klassifikation Folie 3-3 (54) Klassifikation Klassifikation Ziel der Klassifikation ist die Einteilung eines Gegenstandsbereichs (z.b. Kunden) in Klassen (normale / sehr gute Kreditwürdigkeit). Trainingsproben Klassifikationsalgorithmus Name Alter Ein- Kreditkommen würd. Adam 30 niedrig normal Beate 30 niedrig sehr gut Klassifikations- Clemens hoch sehr gut regeln (z.b.) Diana > 40 mittel normal WENN Alter = UND Egon > 40 mittel normal Einkommen = hoch DANN Frank hoch sehr gut Kreditwürdigkeit = sehr gut Abb. 6: Klassifikation Lernphase 3 Anwendungsklassen Wissensextraktion 3.1 Klassifikation Folie 3-4 (55) 3 Anwendungsklassen Wissensextraktion 3.1 Klassifikation Folie 3-5 (56) Klassifikation Klassifikation Testproben Name Alter Ein- Kredit- Bewertung kommen würdigkeit durch Regeln Gerda hoch sehr gut sehr gut Hanno hoch normal sehr gut Inge > 40 hoch sehr gut Abb. 7: Klassifikation Testphase Neue Daten Name Alter Ein- Kredit- Bewertung kommen würdigkeit durch Regeln Jochen hoch?? sehr gut Karl Abb. 8: Klassifikation Anwendungsphase

8 3 Anwendungsklassen Wissensextraktion 3.1 Klassifikation Folie 3-6 (57) 3 Anwendungsklassen Wissensextraktion 3.2 Clustering Folie 3-7 (58) Klassifikation Clustering Beispiel 3.1 (Klassifikation) Vorhersage, ob ein bestimmter Kunde auf eine Werbeaktion reagieren wird Zeichenerkennung (Kfz-Kennzeichen, Adressen etc.) Vorhersage von Erdbebenwahrscheinlichkeiten Einige Verfahren: Induktion von Entscheidungsbäumen Induktion von Klassifikationsregeln Neuronale Feedforward Netze Bayes-Verfahren Ziel der Clusteranalyse ist es, eine gegebene Instanzenmenge E (E X) in verschiedene Teilmengen (Cluster) zu zerlegen. Die Individuen innerhalb eines Clusters sollen dabei möglichst ähnlich sein, wohingegen Individuen verschiedener Cluster möglichst unähnlich sein sollen. 3 Anwendungsklassen Wissensextraktion 3.2 Clustering Folie 3-8 (59) 3 Anwendungsklassen Wissensextraktion 3.2 Clustering Folie 3-9 (60) Clustering Clustering Gegeben X Instanzenraum E X Instanzenmenge dist : X X R + Abstandsfunktion quality : 2 2X R Qualitätsfunktion Gesucht Clustermenge C = {C 1,...,C k }, wobei: C i E quality(c) max C i C j = (optional) C 1... C k = E (optional) Abb. 9: Schlechtes und gutes Clustering 3 Anwendungsklassen Wissensextraktion 3.2 Clustering Folie 3-10 (61) 3 Anwendungsklassen Wissensextraktion 3.3 Numerische Vorhersage Folie 3-11 (62) Clustering Numerische Vorhersage Beispiel 3.2 (Clustern) Finden homogener Kundengruppen zur gezielten Angebotsgestaltung OCR: Finden von Buchstabengruppen, die ähnliche Bilder haben, um spezialisierte Klassifikatoren zu entwickeln Einige Verfahren: k-means-algorithmus Selbstorganisierende Neuronale Netze (z.b. Kohonen Map, Growing Neural Gas) Gegeben: X Menge möglicher Instanzenbeschreibungen Y Menge möglicher Zielwerte E Menge von Beispielen (x,y) X Y, wobei y = f(x) Gesucht: Funktion y = h(x), so dass error(h,f) min. 3 Anwendungsklassen Wissensextraktion 3.3 Numerische Vorhersage Folie 3-12 (63) 3 Anwendungsklassen Wissensextraktion 3.4 Assoziationsanalyse Folie 3-13 (64) Numerische Vorhersage Assoziationsanalyse Beispiel 3.3 (Numerische Vorhersage) Vorhersage von Verkaufszahlen zur Lageroptimierung Vorhersage von Aktienkursen Zeitreihenanalyse Einige Verfahren: Lineare Regression Regressionsbäume Neuronale Netze (Feed forward) Assoziation beschäftigt sich mit der Erkennung und Quantifizierung von Zusammenhängen und Abhängigkeiten von Attributen. unabhängig von der eigentlichen Klassifikation Suche nach Zusammenhängen zwischen den Attributen Beispiel 3.4 (Assoziationsanalyse) Ein Versandhaus erkennt: Wer A kauft, kauft häufig auch B. Also: Anpassung des Angebotsverhaltens

9 3 Anwendungsklassen Wissensextraktion 3.4 Assoziationsanalyse Folie 3-14 (65) 3 Anwendungsklassen Wissensextraktion 3.5 Text Mining Folie 3-15 (66) Einordnung in das Data Mining Text Mining Identifikation von Regelmäßigkeiten, Herausarbeiten von Regeln Vorhersage des Verhaltens neuer Datensätzen Anwendungsgebiete: Risikoabschätzung im Kreditwesen, Versicherungsbranche Spielanalyse gegnerischer Fußballmannschaften... Text Mining beschäftigt sich mit der Analyse von Textdokumenten. Texte sind im Gegensatz zu Datenbanken und Web-Seiten unstrukturiert. Einige Verfahren: A-Priori-Verfahren ART-Netze 3 Anwendungsklassen Wissensextraktion 3.6 Web Mining Folie 3-16 (67) 3 Anwendungsklassen Wissensextraktion 3.6 Web Mining Folie 3-17 (68) Web Mining Web Mining Web Mining Web Content Mining Web Usage Mining Web Content Mining Web Usage Mining Web Log Mining Integrated Web Usage Mining Abb. 10: Web Mining 3 Anwendungsklassen Wissensextraktion 3.6 Web Mining Folie 3-18 (69) Web Log Mining Inhaltsverzeichnis 26. Januar 2015 Einführung Internet bedeutende Plattform für die Abwicklung geschäftlicher Prozesse Wichtig: Gute Web-Präsenz Web Log Mining: Analyse des Nutzer-Verhaltens, um Rückschlüsse für Optimierung der Web-Präsenz zu ziehen. Data Mining Grundlagen Anwendungsklassen Wissensrepräsentation Methoden und Verfahren Datenvorbereitung Bewertung Inhaltsverzeichnis Kapitel Januar 2015 Wissensrepräsentation Folie 4-1 (72) Wissensrepräsentation Entscheidungstabellen Entscheidungsbäume Klassifikationsregeln Assoziationsregeln Instanzenbasierte Darstellung Cluster Quality is inversely proportional to the time left for completion of the project. Wright s first law of quality. 1. Entscheidungstabellen 2. Entscheidungsbäume 3. Klassifikationsregeln 4. Assoziationsregeln 5. Instanzenbasierte Darstellung 6. Cluster

10 4.1 Entscheidungstabellen Folie 4-2 (73) 4.1 Entscheidungstabellen Folie 4-3 (74) Entscheidungstabellen Eine Entscheidungstabelle ist die tabellarische Auflistung möglicher Bedingungen (Eingaben) und des gewünschten Ergebnisses (Ausgabe), das jeder Bedingung entspricht. Entscheidungstabellen Beispiel 4.1 (Entscheidungstabelle) In Tabelle 2 ist eine Entscheidungstabelle für das Golfspiel gegeben. outlook temperature humidity windy play sunny hot high false no sunny hot high true no sunny mild high false no sunny mild normal true yes sunny cool normal false yes overcast hot high false yes overcast hot normal false yes overcast mild high true yes overcast cool normal true yes rainy mild high false yes rainy mild normal false yes rainy mild high true no rainy cool normal false yes rainy cool normal true no Tabelle 2: Entscheidungstabelle für Golf-Spiel 4.2 Entscheidungsbäume Folie 4-4 (75) 4.2 Entscheidungsbäume Folie 4-5 (76) Entscheidungsbäume Repräsentationsform, bei der die Ergebnisse einer Bedingung verzweigt dargestellt werden. Diese Verzweigungen können wiederum andere Verzweigungen generieren. graphisch aufbereitete Darstellung Entscheidungen einfach nachvollziehbar Entscheidungsbäume Beispiel 4.2 (Golfspiel) In Abbildung 11 ist ein möglicher Entscheidungsbaum für das Golf-Beispiel angegeben. sunny humidity overcast outlook yes rainy windy high normal false true no yes yes no Abb. 11: Entscheidungsbaum Golf-Spiel 4.2 Entscheidungsbäume Folie 4-6 (77) 4.3 Klassifikationsregeln Folie 4-7 (78) Entscheidungsbäume Klassifikationsregeln Die Einteilung in Klassen wird mittels Regeln dargestellt. UND-verknüpfte Auswertung der Attribute ODER-Verknüpfung mehrerer Regeln Beispiel 4.3 (Golfspiel) Abb. 12: WEKA-Entscheidungsbaum Golf-Spiel IF outlook = sunny AND humidity = high THEN play = no IF outlook = rainy AND windy = true THEN play = no IF outlook = overcast THEN play = yes IF humidity = normal THEN play = yes IF none of the above THEN play = yes 4.4 Assoziationsregeln Folie 4-8 (79) 4.4 Assoziationsregeln Folie 4-9 (80) Assoziationsregeln Warenkorbanalyse Suche nach Zusammenhängen zwischen den Attributen unabhängig von der eigentlichen Klassifikation Warenkorbanalyse: In einem Supermarkt werden an der Kasse die Warenkörbe aller Kunden erfasst. Wenn Waschpulver gekauft wird, wird i. allg. auch Weichspüler gekauft: IF waschpulver THEN weichspüler Wenn Fisch gekauft wird, wird i. allg. kein Fleisch gekauft: IF fisch THEN fleisch Wenn Sekt gekauft wird, werden i. allg. auch Pralinen gekauft: IF sekt THEN pralinen

11 4.4 Assoziationsregeln Folie 4-10 (81) Golfspiel 4.4 Assoziationsregeln Folie 4-11 (82) Einfache Assoziationsregeln Einfache Assoziationsregeln Beispiel 4.4 (Golfspiel) Man kann Assoziationsregeln auch folgendermaßen darstellen. IF temperature = cool THEN humidity = normal IF humidity = normal AND windy = false THEN play = yes IF outlook = sunny AND play = no THEN humidity = high IF windy = false AND play = no THEN outlook = sunny AND humidity = high Mengen von Items I Menge von Aktionen T Assoziationsregel: Implikation mit Angaben über die Häufigkeit ihres Auftretens in T Prämisse A, Konsequenz B sind Konjunktionen von Elementen aus I (Itemsets), z.b. A = {I 1,I 2,I 3 } und B = {I 7 } A B /0 Form der Regel: A B 4.4 Assoziationsregeln Folie 4-12 (83) Einfache Assoziationsregeln Einfache Assoziationsregeln 4.4 Assoziationsregeln Folie 4-13 (84) Einfache Assoziationsregeln Support und Konfidenz Die Regel {bier, chips} {tvzeitung} Support: relative Häufigkeit eines Itemsets in der Menge der Aktionen supp(a B) = P(A B) ist also als abkürzende Schreibweise für die Regel zu verstehen. IF bier=yes AND... THEN... Konfidenz: relative Häufigkeit einer Regel in der Menge der Aktionen supp(a B) conf(a B) = supp(a) 4.4 Assoziationsregeln Folie 4-14 (85) Einfache Assoziationsregeln Support und Konfidenz 4.4 Assoziationsregeln Folie 4-15 (86) Schwellwerte Schwellwerte Beispiel 4.5 (Support und Konfidenz) Wie hoch sind Support und Konfidenz der Regel IF temperature = cool THEN humidity = normal supp(temperature = cool humidity = normal) = P(A B) = 4 supp(temperature = cool) = P(A) = 4 14 conf(a B) = 4 supp(a B) 14 = = 1 supp(a) 4 14 Die Regel ist also absolut sicher, sie hat einen Support von Bei großen Datenbanken: sehr viele Regeln (10 3,10 4,...) möglich,... auch seltene Regeln und Regeln mit geringer Konfidenz Lösung: Einführung von Schwellwerten: supp min, conf min Festlegung durch Analysten Nicht jede unsinnige Regel ist damit zu verhindern: {Person lebt} {Person atmet} 4.4 Assoziationsregeln Folie 4-16 (87) Schwellwerte Assoziationsregeln Beispiel 4.6 (Assoziationsregeln) In Abb. 13 sind die WEKA-apriori-Assoziationsregeln dargestellt. Minimum support: 0.15 Minimum metric <confidence>: 0.9 Best rules found: 1. humidity=normal windy=false 4 ==> play=yes 4 conf:1 2. temp=cool 4 ==> humidity=normal 4 conf:1 3. outlook=overcast 4 ==> play=yes 4 conf:1 4. temp=cool play=yes 3 ==> humidity=normal 3 conf:1 5. outlook=rainy windy=false 3 ==> play=yes 3 conf:1 6. outlook=rainy play=yes 3 ==> windy=false 3 conf:1 7. outlook=sunny humidity=high 3 ==> play=no 3 conf:1 8. outlook=sunny play=no 3 ==> humidity=high 3 conf:1 9. temp=cool windy=false 2 ==> humidity=normal play=yes 2 conf:1 10. temp=cool humidity=normal windy=false 2 ==> play=yes 2 conf:1 4.4 Assoziationsregeln Folie 4-17 (88) Arten von Assoziationsregeln Arten von Assoziationsregeln hierarchische Assoziationsregeln (Taxonomien) temporale Assoziationsregeln (Sequenzanalyse) quantitative Assoziationsregeln unscharfe Assoziationsregeln Wozu weitere Arten? Verbessern der Aussagekraft von Regeln Genauere Vorhersagen (Zahlen, Ausprägungen) Anpassen an Problemgebiet Abb. 13: Assoziationsregeln für Golf-Spiel

12 4.4 Assoziationsregeln Folie 4-18 (89) Arten von Assoziationsregeln Hierarchische Assoziationsregeln 4.4 Assoziationsregeln Folie 4-19 (90) Arten von Assoziationsregeln Quantitative Assoziationsregeln Idee: Gruppierung von Items und Itemsets Generalisierung (vergleichbar Vererbung in OO) Beispiel 4.7 (Hierarchische Assoziationsregeln) Messer, Gabel Besteck Doppelpass, Flanke Angriff Ergebnis: Reduktion der Anzahl der Regeln Erhöhung der Support-Werte Algorithmus: Einfügen der Oberbegriffe als Items Idee: Aufnahme konkreter Attributausprägungen (Zahlen, Zeichenketten) Vorhersage von Einkommen, Kinderzahl,... Vorgehen: 1. Einteilung des Wertebereichs in Intervalle (Klassifizierung). 2. Für jedes Intervall wird ein neuer Begriff geschaffen. 3. Die originalen Begriffe werden durch die neuen ersetzt. 4.4 Assoziationsregeln Folie 4-20 (91) Arten von Assoziationsregeln Quantitative Assoziationsregeln Beispiel 4.8 (Quantitative Assoziationsregeln) Neue Klassifizierung: Alter Anzahl Kinder Einkommen Alter: [0,29],[30,49],[50, ) Kinder: [0,1],[2, ) Einkommen: [0,2999],[3000, ) (Alter [0,29],Einkommen [0,2999]) (Kinder = 0/1) 4.4 Assoziationsregeln Folie 4-21 (92) Arten von Assoziationsregeln Unscharfe Assoziationsregeln Problem: starre Intervallgrenzen der quantitativen Regeln Ausreißer, Messfehler (Physik, Messdaten) Lösung: sprachliche Begriffe statt fester Intervallgrenzen, z.b.: jung, alt, früh, spät Zuordnung zu Gruppen nach Fuzzy-Logik-Methoden 4.4 Assoziationsregeln Folie 4-22 (93) Arten von Assoziationsregeln Unscharfe Assoziationsregeln 4.4 Assoziationsregeln Folie 4-23 (94) Arten von Assoziationsregeln Temporale Assoziationsregeln Beispiel 4.9 (Unscharfe Assoziationsregeln) Ein Call-Center plant, Daten der eingehenden Anrufe zu speichern, (u.a.): Zeitpunkt, an dem der Anruf angenommen wurde. Ziel: Sortierung der Anrufe nachtageszeiten z.b.: Nacht, Morgen, Nachmittag und Abend. Das Intervall Nacht endet um 6 Uhr, ihm folgt das Intervall Morgen. Der Morgen endet um 12 Uhr und geht in den Nachmittag über usw. Überschneidungen durch Fuzzy-Modelle darstellbar. Idee: Erfassung zeitlich abhängiger Aktionen Beispiel: hoher Bierkonsum am Freitag hoher Konsum von Kopfschmerztabletten am Samstag Umsetzung: Temporale Datenbanken Regeln als Schnappschüsse aktueller Zusammenhänge Beobachtung der Veränderungen der Zusammenhänge Anwendung: Logfile-Analyse 4.5 Instanzenbasierte Darstellung Folie 4-24 (95) 4.6 Cluster Folie 4-25 (96) Instanzenbasierte Darstellung Cluster Bei der instanzenbasierten Darstellung werden ähnlich wie beim Auswendiglernen einfach alle Individuen gespeichert, z.b. in einer relationalen Datenbank. Wird eine Grundgesamtheit in Teilmengen zerlegt, deren Individuen zueinander ähnlicher als zu den Individuen der anderen Teilmengen sind, bezeichnet man diese Teilmengen als Cluster.

13 4.6 Cluster Folie 4-26 (97) 4.6 Cluster Folie 4-27 (98) Cluster Cluster Bedingungen Individuen innerhalb eines Clusters zueinander ähnlich Individuen unterschiedlicher Clusters zueinander unähnlich Darstellung Instanzenbasiert Cluster-Zentrum (Codebook-Vector): Centroid oder Medoid über Wahrscheinlichkeitsverteilungen Medoid xcentroid Abb. 14: Centroid und Medoid 4.6 Cluster Folie 4-28 (99) Cluster k-means ====== Number of iterations: 4 Within cluster sum of squared errors: 26.0 Cluster centroids: Cluster 0 Mean/Mode: sunny mild high FALSE yes Std Devs: N/A N/A N/A N/A N/A Cluster 1 Mean/Mode: overcast cool normal TRUE yes Std Devs: N/A N/A N/A N/A N/A Clustered Instances 0 10 ( 71%) 1 4 ( 29%) Abb. 15: Cluster für das Wetter-Beispiel 26. Januar 2015 Inhaltsverzeichnis Einführung Data Mining Grundlagen Anwendungsklassen Wissensrepräsentation Methoden und Verfahren Datenvorbereitung Bewertung Inhaltsverzeichnis Kapitel Januar 2015 Methoden und Verfahren Folie 5-1 (102) Methoden und Verfahren Instanzenbasiertes Lernen Entscheidungsbaumlernen Verfahren zur Assoziationsanalyse Lineare Regression Überwachte und selbstorganisierende unüberwachte neuronale Netze Verfahren zur Clusterbildung Naive Bayes A carelessly planned project takes three times longer to complete than expected; a carefully planned project takes only twice as long. Golub s Second Law of Computerdom Folie 5-2 (103) Folie 5-3 (104) Hinweis Bei den studentischen Projekten (unter meiner Homepage) findet man eine Reihe von Verfahren erläutert. Benutzen Sie ebenso den ILIAS-Modul Data Mining. Verfahren Übersicht N u K m l e a ṛ s A s T s C V i e W s l o x e f o u r t b i z s h k i t e M M a a e r i i t t r s n n i i i a i i o o n g n n n n g e g g Instanzenbasiertes Lernen x k Nearest Neighbour x (x) (x) Entscheidungsbaumlernen x (x) a priori x x x Lineare Regression x Überwachte Neuronale Netze x x x Selbstorganisierende Neuronale Netze (x) x k-means x Naive Bayes x x Tabelle 3: Data-Mining-Verfahren und Anwendungsklassen

14 5.1 Instanzenbasiertes Lernen Folie 5-4 (105) Instanzenbasiertes Lernen 5.1 Instanzenbasiertes Lernen Folie 5-5 (106) k Nearest Neighbour k Nearest Neighbour y einfachstes Verfahren Speicherung aller bekannten Individuen Suche des ähnlichsten Individuums Dessen Klasse wird vorhergesagt. Abb. 16: Beispiel k Nearest Neighbour x 5.1 Instanzenbasiertes Lernen Folie 5-6 (107) k Nearest Neighbour k Nearest Neighbour 5.1 Instanzenbasiertes Lernen Folie 5-7 (108) Der knn-algorithmus Der knn-algorithmus instanzenbasiertes Verfahren Lernschritt: Beispielobjekte nur gespeichert Klassifikationsschritt: Unbekannte Objekte werden über Ähnlichkeit zu gespeicherten Beispielen klassifiziert. Komplexität des Verfahrens nur durch den Klassifikationsschritt Der Lernschritt beim knn-lernen ist sehr einfach. Sei f(x) die zu erlernende Funktion. Für jedes Trainingsbeispiel (x,f(x)) speichere das Beispiel in einer Liste Trainingsbeispiele. 5.1 Instanzenbasiertes Lernen Folie 5-8 (109) Der knn-algorithmus knn Diskrete Funktion 5.1 Instanzenbasiertes Lernen Folie 5-9 (110) Der knn-algorithmus knn V := {v 1,v 2,...,v m } eine endliche Menge (Zielattributwerte) zu erlernende Funktion: f : R n V zu klassifizierendes Beispiel: y Für alle x i in der Menge Trainingsbeispiele berechne die Ähnlichkeit zu y. Wähle diejenigen k Beispiele x 1,x 2,...,x k aus, die zu y am ähnlichsten sind. klasse(y) := max v V k p=1 { 1, falls a=b δ(v,f(x p )) mit δ(a,b) := 0, sonst Beispiel 5.1 (knn) Nr Alter verheiratet Eigenheim Akademiker Einkommen 1 alt ja ja ja hoch 2 alt ja nein nein gering 3 mittel nein nein nein gering 4 mittel ja ja ja hoch 5 jung nein nein nein gering 6 jung ja nein nein mittel 7 jung ja ja ja mittel 8 alt nein ja nein hoch Einkommen für jung/verheiratet/ohne Eigenheim/Akademiker. k= Instanzenbasiertes Lernen Folie 5-10 (111) Der knn-algorithmus knn 5.1 Instanzenbasiertes Lernen Folie 5-11 (112) Der knn-algorithmus knn Reellwertige Funktion Beispiel 5.1 cont. Nr Alter verheiratet Eigenheim Akademiker Abstand neu jung ja nein ja 1 alt ja ja ja 2 2 alt ja nein nein 2 3 mittel nein nein nein 3 4 mittel ja ja ja 2 5 jung nein nein nein 2 6 jung ja nein nein 1 7 jung ja ja ja 1 8 alt nein ja nein 4 analog diskreter Fall Zurückgegeben wird der Mittelwert Für alle x i in der Menge Trainingsbeispiele berechne die Ähnlichkeit zu y. Wähle diejenigen k Beispiele x 1,x 2,...,x k aus, die zu y am ähnlichsten sind. k f(x p ) p=1 f (y) := k Datensätze 6 und 7: Gehaltsgruppe mittel.

15 5.1 Instanzenbasiertes Lernen Folie 5-12 (113) Ein verfeinerter Algorithmus knn Ein verfeinerter Algorithmus 5.1 Instanzenbasiertes Lernen Folie 5-13 (114) Ein verfeinerter Algorithmus Diskrete Funktionen als Gewicht: das Inverse des Quadrats der Distanz Schwäche von knn: alle k Beispiele sind gleichgewichtet geringer (euklidischer) Abstand = hohe Ähnlichkeit also: Gewichte einführen Shepard s method Sei wieder V := {v 1,v 2,...,v m } die Menge aller Werte, die das Zielattribut annehmen kann. Für alle x i in der Menge Trainingsbeispiele berechne die Ähnlichkeit zu y. Wähle diejenigen k Beispiele x 1,x 2,...,x k aus, die zu y am ähnlichsten sind. f(x i ) falls y = x i für ein i klasse(y) := max v V k p=1 w p δ(v,f(x p )) sonst { 1, falls a=b mit δ(a,b) := 0, sonst und w p := 1 dist(y,xp) Instanzenbasiertes Lernen Folie 5-14 (115) Ein verfeinerter Algorithmus Reellwertige Funktionen 5.1 Instanzenbasiertes Lernen Folie 5-15 (116) Anmerkungen Anmerkungen Für alle x i in der Menge Trainingsbeispiele berechne die Ähnlichkeit zu y. Wähle diejenigen k Beispiele x 1,x 2,...,x k aus, die zu y am ähnlichsten sind. f(x i ) falls y = x i für ein i f (y) := mit w p := 1 dist(y,xp) 2. k p=1 wp f(xp) k p=1 wp sonst Für k 1 arbeitet der knn-algorithmus i. allg. auch bei verrauschten Trainingsdaten sehr gut. Im Gegensatz beispielsweise zum Entscheidungsbaum werden alle Attribute in die Berechnung einbezogen. Die Auswahl der Trainingsdaten verdient einige Beachtung. So ist z.b. von Bedeutung, dass die Trainingsvektoren den Lösungsraum möglichst gleichmäßig aufspannen. 5.1 Instanzenbasiertes Lernen Folie 5-16 (117) Anmerkungen 5.1 Instanzenbasiertes Lernen Folie 5-17 (118) Anmerkungen Aufgabe 5.1 (knn) Klassifizieren Sie folgende Datensätze mittels knn. Alt. Fr/Sa Hung. Gäste Reserv. Typ Zeit Warten ja nein ja einige nein Franz ja ja ja voll ja Chin nein nein nein keine nein Burger 0-10 Alternative: Gibt es ein geeignetes anderes Restaurant? (ja/nein) Fr/Sa: Ist Freitag oder Samstag? (ja/nein) Hungrig: Bin ich hungrig? (ja/nein) Gäste: Wieviele Leute sind im Restaurant? (keine/einige/voll) Reservierung: Habe ich reserviert? (ja/nein) Typ: Um welche Art von Restaurant handelt es sich? Wartezeit: Welche Wartezeit wird vom Restaurant geschätzt? Warten (Zielattribut): Warte ich, wenn alle Tische besetzt sind? Aufgabe 5.1 cont. Alt. Fr/Sa Hung. Gäste Reserv. Typ Zeit Warten ja nein ja einige ja Franz ja ja nein ja voll nein Chin nein nein nein nein einige nein Burger 0-10 ja ja ja ja voll nein Chin ja ja ja nein voll ja Franz. >60 nein nein nein ja einige ja Ital ja nein nein nein keine nein Burger 0-10 nein nein nein ja einige ja Chin ja nein ja nein voll nein Burger >60 nein ja ja ja voll ja Ital nein nein nein nein keine nein Chin nein ja ja ja voll nein Burger ja Tabelle 4: Restaurant-Beispiel 5.2 Entscheidungsbaumlernen Folie 5-18 (119) Erzeugen eines Entscheidungsbaums Entscheidungsbaumlernen Algorithmus Gegeben: Beispielmenge E und Attributmenge A Auswählen eines Attributs a A Erzeugen der mit a markierten Baumwurzel Für jede Ausprägung ω ω a (ω a = Ausprägungsmenge von a) 1. Erzeugen einer mit ω markierten Kante 2. Generieren der Beispiel-Menge E ω E : e E ω : ω a (e) = ω 3. Wenn E ω = /0: Beenden der Kante mit NIL Sonst: Wenn alle Beispiele e E ω in derselben Klasse k sind: Kante mit Blatt k abschließen Sonst: 3.1 Erzeugen eines Entscheidungsbaums aus Attributmenge A = A \ {a} und Beispielmenge E ω 3.2 Einhängen dieses Baums am Kantenende 5.2 Entscheidungsbaumlernen Folie 5-19 (120) Erzeugen eines Entscheidungsbaums Entscheidungsbaumlernen Golfspiel Tag outlook temperature humidity windy play 1 sunny hot high false no 2 sunny hot high true no 3 overcast hot high false yes 4 rainy mild high false yes 5 rainy cool normal false yes 6 rainy cool normal true no 7 overcast cool normal true yes 8 sunny mild high false no 9 sunny cool normal false yes 10 rainy mild normal false yes 11 sunny mild normal true yes 12 overcast mild high true yes 13 overcast hot normal false yes 14 rainy mild high true no Tabelle 5: Daten Golfspiel

16 5.2 Entscheidungsbaumlernen Folie 5-20 (121) Erzeugen eines Entscheidungsbaums Entscheidungsbaumlernen Golfspiel 5.2 Entscheidungsbaumlernen Folie 5-21 (122) Auswahl eines Attributs Auswahl eines Attributs Wurzelattribut (a) Ausprägungen von outlook E sunny = Datensätze 1,2,8,9,11 outlook sunny overcast rainy humidity yes windy 3,7,12,13 high normal false true no yes yes no E = alle Daten E rainy = Datensätze 4,5,6,10,14 manuell zufällig berechnet (durch Benutzer) Abb. 17: Entscheidungsbaum Golf-Spiel 5.2 Entscheidungsbaumlernen Folie 5-22 (123) Auswahl eines Attributs Automatische Attributwahl 5.2 Entscheidungsbaumlernen Folie 5-23 (124) Metrische Attribute Metrische Attribute Beispiel 5.2 (Automatische Attributwahl) Attribut mit lokal bester Klassifikationsleistung probeweise Teilung an allen Attributen Vorhersage der Mehrheitsklasse Auswahl des Attributs mit der geringsten Fehlerrate error a error a = i error(ω a ) = falsch alle ( A ωai error(ω ai )) min. A Für jede Ausprägung (d.h. jede vorkommende Zahl) eine eigene Kante? Unsinnig!! Lösung: Gruppierung Schwellwerte Zusammenfassung zu Intervallen nur 2 Kanten (kleiner / größer Schwellwert) 5.2 Entscheidungsbaumlernen Folie 5-24 (125) Der ID3-Algorithmus zur Erzeugung eines Entscheidungsbaums ID3-Algorithmus zur Entscheidungsbaumgenerierung 5.2 Entscheidungsbaumlernen Folie 5-25 (126) Der ID3-Algorithmus zur Erzeugung eines Entscheidungsbaums ID3-Algorithmus zur Entscheidungsbaumgenerierung Nr. Zielattr. frühere Kredit- Verschul- Sicher- Ein- Risiko würdigkeit dung heiten kommen 1 hoch schlecht hoch keine 0 bis 15 2 hoch unbekannt hoch keine 15 bis 35 3 mittel unbekannt niedrig keine 15 bis 35 4 hoch unbekannt niedrig keine 0 bis 15 5 niedrig unbekannt niedrig keine über 35 6 niedrig unbekannt niedrig angemessen über 35 7 hoch schlecht niedrig keine 0 bis 15 8 mittel schlecht niedrig angemessen über 35 9 niedrig gut niedrig keine über niedrig gut hoch angemessen über hoch gut hoch keine 0 bis mittel gut hoch keine 15 bis niedrig gut hoch keine über hoch schlecht hoch keine 15 bis 35 Tabelle 6: Kreditrisiko Abb. 18: Entscheidungsbaum 5.2 Entscheidungsbaumlernen Folie 5-26 (127) Der ID3-Algorithmus zur Erzeugung eines Entscheidungsbaums ID3-Algorithmus zur Entscheidungsbaumgenerierung 5.2 Entscheidungsbaumlernen Folie 5-27 (128) Der ID3-Algorithmus zur Erzeugung eines Entscheidungsbaums ID3-Algorithmus zur Entscheidungsbaumgenerierung Welcher Baum ist für die Klassifikation der unbekannten Datensätze optimal? Der ID3-Algorithmus unterstellt, dass dies der einfachste Baum ist. Abb. 19: Entscheidungsbaum 2

17 5.2 Entscheidungsbaumlernen Folie 5-28 (129) Der ID3-Algorithmus zur Erzeugung eines Entscheidungsbaums ID3-Algorithmus zur Entscheidungsbaumgenerierung FUNCTION induce_tree(beispielmenge Ex, Attribute Attr) IF alle Eintraege aus Ex gehoeren zur gleichen Klasse THEN RETURN Blattknoten mit Beschriftung dieser Klasse ELSE Waehle ein Attribut A aus Attr; Setze A als Wurzel fuer den aktuellen Baum; Loesche A aus Attr; FOREACH Wert AV von A Erstelle Kante im Baum mit Kantenbeschriftung AV; Seien Ex_AV alle Elemente von Beispielmenge Ex, die als Wert fuer A gerade AV haben; Ergebnis der Kante AV := induce_tree(ex_av,attr); END FOREACH; END IF; END. Abb. 20: Algorithmus Entscheidungsbaum 5.2 Entscheidungsbaumlernen Folie 5-29 (130) Der ID3-Algorithmus zur Erzeugung eines Entscheidungsbaums Auswahl eines geeigneten Attributs? Grundlage: Informationstheorie Wahl des Attributs, das den größten Informationsgewinn liefert. Der Informationsgehalt eines Attributs B wird gemessen als: I(B) = k p(b i ) log 2 (p(b i )) i=1 Dabei stellen die b i die möglichen Werte des Attributs B dar. p ist die Wahrscheinlichkeit (besser: relative Häufigkeit) für das Eintreffen von b i. 5.2 Entscheidungsbaumlernen Folie 5-30 (131) Der ID3-Algorithmus zur Erzeugung eines Entscheidungsbaums Informationsgehalt der Kredit-Tabelle p(risiko hoch) = 6 14 p(risiko mittel) = 3 14 p(risiko niedrig) = 5 14 Folglich ist I(Risiko) = I(Tabelle) = 6 14 log 2( 6 14 ) 3 14 log 2( 3 14 ) 5 14 log 2( 5 14 ) = 1, Entscheidungsbaumlernen Folie 5-31 (132) Der ID3-Algorithmus zur Erzeugung eines Entscheidungsbaums ID 3 und maximaler Informationsgewinn Man wählt das Attribut mit dem maximalen Informationsgewinn. I(Tabelle) Alle Datensätze Kreditwürdigkeit? unbekannt schlecht gut Teiltabelle 1 Teiltabelle 2 Teiltabelle 3 Kreditwürdigkeit = unbekannt Kreditwürdigkeit = gut Kreditwürdigkeit = schlecht G(Kreditwürdigkeit) Abb. 21: Informationsgewinn Informationsgewinn = I(Tabelle) G(Kreditwürdigkeit) 5.2 Entscheidungsbaumlernen Folie 5-32 (133) Der ID3-Algorithmus zur Erzeugung eines Entscheidungsbaums ID 3 und Informationsgewinn Beispielmenge E (die komplette DB) gegeben. Wählt man ein Attribut B mit n Ausprägungen aus, so wird E in n Teilmengen (Teildatenbanken) zerlegt: {E 1,...,E n }. Mit B als Wurzel des Baums ist die zur Fertigstellung des Baums voraussichtlich erforderliche Informationsmenge: G(B) = n E j j=1 E I(E j) G (gain) ist die gewichtete Summe der Einzelinformationen. Der Gewinn an Information wird dann berechnet als: gewinn(b) = I(E) G(B) Es gilt, gewinn zu maximieren. Dazu geht man alle Attribute durch und wählt jenes aus, das den maximalen Gewinn liefert. 5.2 Entscheidungsbaumlernen Folie 5-33 (134) Der ID3-Algorithmus zur Erzeugung eines Entscheidungsbaums ID 3 und Informationsgewinn Wählen zunächst Kreditwürdigkeit als Attribut. Kreditwürdigkeit hat 3 Ausprägungen: unbekannt, schlecht, gut. Für jeden Wert zählen wir, wie oft welches Risiko vorkommt: Wert hohes Risiko mittleres Risiko niedriges Risiko unbekannt schlecht gut I(Kreditw_unbek) = 2 5 log 2( 2 5 ) 1 5 log 2( 1 5 ) 2 5 log 2( 2 5 ) = 1,52 I(Kreditw_schlecht) = 3 4 log 2( 3 4 ) 1 4 log 2( 1 4 ) = 0,81 I(Kreditw_gut) = 1 5 log 2( 1 5 ) 1 5 log 2( 1 5 ) 3 5 log 2( 3 5 ) = 1,37 G(Kreditwürdigkeit) = n Ej E I(E j) = j= , , ,37 = 1, Entscheidungsbaumlernen Folie 5-34 (135) Der ID3-Algorithmus zur Erzeugung eines Entscheidungsbaums ID 3 und Gain-Berechnung 5.2 Entscheidungsbaumlernen Folie 5-35 (136) Der ID3-Algorithmus zur Erzeugung eines Entscheidungsbaums ID 3 Beispiel I(Tabelle) = 1,531 hoch = 2x mittel = 1x niedrig = 2x unbekannt 5x Gesamte Tabelle Kreditwürdigkeit? hoch = 3x mittel = 1x niedrig = 0x schlecht 4x (14) hoch = 6x mittel = 3x niedrig = 5x gut 5x Teiltabelle 1 Teiltabelle 2 Teiltabelle 3 Kreditwürdigkeit = unbekannt... = schlecht... = gut I = 1,52 hoch = 1x I = I = mittel = 1x 0,81 niedrig = 3x 1,37 G(Kreditwürdigkeit) = 5/14 * 1,52 + 4/14 * 0,81 + 5/14 * 1,37 gewinn(kreditwuerdigkeit) = 1,531 1,265 = 0,266 gewinn(einkommen) = 1,531 0,564 = 0,967 gewinn(verschuldung) = 1,531 1,468 = 0,063 gewinn(sicherheiten) = 1,531 1,325 = 0,206 Man wählt nun einkommen als obersten Knoten, da der Gewinn dort am größten ist, und setzt das Verfahren für jeden Teilbaum rekursiv fort. Abb. 22: Gain-Berechnung

18 5.2 Entscheidungsbaumlernen Folie 5-36 (137) Der ID3-Algorithmus zur Erzeugung eines Entscheidungsbaums Fortsetzung für Zweig einkommen= Entscheidungsbaumlernen Folie 5-37 (138) Der ID3-Algorithmus zur Erzeugung eines Entscheidungsbaums Informationsgehalt der reduzierten Kredit-Tabelle nur noch die Datensätze, wo einkommen=15-35 gilt Spalte für Einkommen eigentlich nun unnötig Nr. Zielattr. frühere Kredit- Verschul- Sicher- Ein- Risiko würdigkeit dung heiten kommen 2 hoch unbekannt hoch keine 15 bis 35 3 mittel unbekannt niedrig keine 15 bis mittel gut hoch keine 15 bis hoch schlecht hoch keine 15 bis 35 Tabelle 7: Kreditrisiko p(risiko hoch) = 2 4 p(risiko mittel) = 2 4 p(risiko niedrig) = 0 4 Folglich ist I(Risiko) = I(Tabelle2) = 2 4 log 2( 2 4 ) 2 4 log 2( 2 4 ) 0 4 log 2( 0 4 ) = Entscheidungsbaumlernen Folie 5-38 (139) Der ID3-Algorithmus zur Erzeugung eines Entscheidungsbaums Attribut mit maximalem Informationsgewinn Nun wählt man wieder das Attribut aus, das den maximalen Informationsgewinn erzielt. gewinn(kreditwuerdigkeit) = 1 0,5 = 0,5 gewinn(verschuldung) = 1 0,6887 = 0,3113 gewinn(sicherheiten) = 1 1 = 0 Man wählt folglich kreditwuerdigkeit als nächsten Knoten, da der Gewinn dort am größten ist. 5.2 Entscheidungsbaumlernen Folie 5-39 (140) Der ID3-Algorithmus zur Erzeugung eines Entscheidungsbaums Der Gini-Index Der Gini-Index ist das Äquivalent zum Informationsgehalt einer Tabelle bezüglich eines Zielattributs B: gini(b) = 1 k p(b i ) 2 i=1 Dabei stellen die b i die möglichen Werte des Attributs B dar. p ist die Wahrscheinlichkeit (besser: relative Häufigkeit) für das Eintreffen von b i. Analog zum Gain definiert man dann n E j GINI(B) = j=1 E gini(e j) 5.2 Entscheidungsbaumlernen Folie 5-40 (141) C4.5-Algorithmus C4.5-Algorithmus 5.2 Entscheidungsbaumlernen Folie 5-41 (142) C4.5-Algorithmus ISplit Wesentlicher Nachteil des ID3-Algorithmus: kann nicht mit numerischen Attributen umgehen C4.5 (Nachfolger von ID3) kann dies. Numerische Attribute in Intervalle unterteilt ordinale Attribute Betrachten Attribut A mit n Ausprägungen A 1,...,A n Für jedes i: Bilden Intervalle [a a A i ] und [a a > A i ] 2 Intervalle: neue (ordinale) Ausprägungen des Attributs A Wählen die Intervallbildung, die den größten Gewinn liefert. Bemerkung 5.1 (ISplit) Der ID3-Algorithmus hat einen weiteren Nachteil: Die Sortierung der Attribute favorisiert Attribute mit vielen verschiedenen Ausprägungen. Deshalb normalisiert C4.5 den Informationsgewinn. Sei: ISplit(B) = n E j j=1 E log 2( E j E ) Der Gewinn an Information wird dann normalisiert: gewinn (B) = gewinn(b) ISplit(B) 5.2 Entscheidungsbaumlernen Folie 5-42 (143) C4.5-Algorithmus ISplit 5.2 Entscheidungsbaumlernen Folie 5-43 (144) C4.5-Algorithmus ISplit Beispiel 5.3 (ISplit) Betrachten Ausschnitt aus einer Kino-Besuch-Datenbank. Variante 1: Preis Kino besucht j n j j n j j n n j j n 4/5 billig: 4 Ausprägungen 8/9 teuer: 8 Ausprägungen Variante 2: 4 billig: 1 Ausprägung 5 moderat: 3 Ausprägungen 8 teuer: 6 Ausprägungen 9 sehr teuer: 2 Ausprägungen Beispiel 5.3 cont. Gain: Variante 1: 0,97 Variante 2: 0,73 Damit wird der Gewinn bei Variante 2 größer sein. Typischer Effekt: Attribute mit vielen Ausprägungen bevorzugt. Deshalb: Dividieren Informationsgewinn durch den ISplit: ISplit Variante 1: 0,92 ISplit Variante 2: 1,73 Größerer ISplit reduziert den Gewinn für Variante 2 stärker.

19 5.2 Entscheidungsbaumlernen Folie 5-44 (145) Probleme Probleme 5.2 Entscheidungsbaumlernen Folie 5-45 (146) Probleme ACHTUNG!! I. allg. großes Problem: Entscheidungsbaum kann ALLE Trainingsdaten korrekt klassifizieren,... aber auf den Testdaten nicht gut funktionieren. Entscheidungsbaum hat Trainingsdaten auswendig gelernt. Effekt wird Overfitting genannt. Verkürzen der Bäume nötig: Keine weiteren Unterbäume, wenn eine bestimmte Anzahl von Trainingsdaten unterschritten wird. Ersetzen bereits generierter Unterbäume durch ein Blatt. Entscheidungsbaum wird Trainingsdaten häufig nicht zu 100% korrekt vorhersagen, durch: das Reduzieren der Tiefe des Baums (s.o.) widersprüchliche Daten. oder 5.2 Entscheidungsbaumlernen Folie 5-46 (147) Ergänzungen Ergänzungen ID3 Top down induction of decision trees (TDIDT). Es wird univariater Baum erzeugt. (An jedem Knoten wird exakt ein Attribut abgefragt.) Es gibt auch Verfahren, die multivariate Entscheidungsbäume generieren. Jetzt können in einem Knoten mehrere Attribute benutzt werden. Z.B. als Linearkombination von Attributen: Gewicht + 2 * Größe < 70. Schnitte im Merkmalsraum linear, aber nicht mehr achsenparallel. Auch nichtlineare Ausdrücke abfragbar: Gewicht / (Größe*Größe) < 25. Nun sind die Schnitte im Merkmalsraum beliebig kurvig. Vorteil: meist genauer und kleiner. Nachteil: schwieriger zu bauen und auch schwerer lesbar 5.2 Entscheidungsbaumlernen Folie 5-47 (148) Aufgaben Aufgaben Aufgabe 5.2 (Golfspiel) Bestimmen Sie aus den folgenden Daten einen Entscheidungsbaum für das Attribut Play?, welches angibt, ob unter den gegebenen Witterungsbedingungen Golf gespielt wird. Wählen Sie bei gleicher Güte zweier Attribute das in der Tabelle weiter links stehende. Wie gehen Sie mit den numerischen Werten um? 5.2 Entscheidungsbaumlernen Folie 5-48 (149) Aufgaben Golfbeispiel Aufgabe 5.2 cont. Outlook Temp ( F) Humidity (%) Windy? Play? sunny false no sunny true no overcast false yes rain false yes rain false yes rain true no overcast true yes sunny false no sunny false yes rain false yes sunny true yes overcast true yes overcast false yes rain true no Tabelle 8: Daten Golfspiel 5.2 Entscheidungsbaumlernen Folie 5-49 (150) Aufgaben Restaurantbeispiel Aufgabe 5.3 (Restaurant) Tabelle mit diesen Attributen: Alternative: Gibt es in der Nähe ein anderes Restaurant? (ja/nein) Fr/Sa: Ist Freitag oder Samstag? (ja/nein) Hungrig: Bin ich hungrig? (ja/nein) Gäste: Wieviele Leute sind im Restaurant? (keine/einige/voll) Reservierung: Habe ich reserviert? (ja/nein) Typ: Um welche Art von Restaurant handelt es sich? (Franz./Chin./Ital./Burger) Wartezeit: Welche voraussichtliche Wartezeit wird vom Restaurant geschätzt? (0-10/10-30/30-60/>60) Warten (Zielattribut): Warte ich, wenn alle Tische besetzt sind? (ja/nein) 5.2 Entscheidungsbaumlernen Folie 5-50 (151) Aufgaben Restaurantbeispiel Aufgabe 5.3 cont. Generieren Sie einen Entscheidungsbaum und klassifizieren Sie nachfolgende Datensätze. Alt. Fr/Sa Hung. Gäste Reserv. Typ Zeit Warten ja nein ja einige nein Franz ja ja ja voll ja Chin nein nein nein keine nein Burger Entscheidungsbaumlernen Folie 5-51 (152) Aufgaben Restaurantbeispiel Aufgabe 5.3 cont. Alt. Fr/Sa Hung. Gäste Reserv. Typ Zeit Warten ja nein ja einige ja Franz ja ja nein ja voll nein Chin nein nein nein nein einige nein Burger 0-10 ja ja ja ja voll nein Chin ja ja ja nein voll ja Franz. >60 nein nein nein ja einige ja Ital ja nein nein nein keine nein Burger 0-10 nein nein nein ja einige ja Chin ja nein ja nein voll nein Burger >60 nein ja ja ja voll ja Ital nein nein nein nein keine nein Chin nein ja ja ja voll nein Burger ja Tabelle 9: Daten Restaurantbeispiel

20 5.3 Verfahren zur Assoziationsanalyse Folie 5-52 (153) Verfahren zur Assoziationsanalyse 5.3 Verfahren zur Assoziationsanalyse Folie 5-53 (154) Der A-Priori-Algorithmus Der A-Priori-Algorithmus Wir wenden uns nun der Aufgabe zu, Assoziationsregeln zu finden. Der Standard-Algorithmus ist der A-Priori-Algorithmus. Der A-Priori-Algorithmus gehört zu den wichtigsten iterativen Verfahren Grundlage AIS-Algorithmus 1993 Ziel: Finden von Frequent Itemsets Itemsets, deren Support über supp min 5.3 Verfahren zur Assoziationsanalyse Folie 5-54 (155) Der A-Priori-Algorithmus Vorgehensweise 5.3 Verfahren zur Assoziationsanalyse Folie 5-55 (156) Der A-Priori-Algorithmus Generierung der Kandidaten Der A-Priori-Algorithmus wird in zwei Schritten vollzogen: 1. Finden von Frequent Itemsets (Kandidaten) mit ausreichendem Support 2. Erzeugen von Assoziationsregeln aus allen Frequent Itemsets Diese Phase läuft in zwei Teilschritten ab: Join-Phase Pruning-Phase 5.3 Verfahren zur Assoziationsanalyse Folie 5-56 (157) Der A-Priori-Algorithmus Join- und Pruning-Phase Join-Phase: Erzeugen von Frequent Itemsets der Länge k mit k > 2 paarweises Verbinden aller (k 1)-langen Sets, die sich in einem Element unterscheiden Ergebnis: k-elementige Menge, in der zwei Teilmengen Frequent Itemsets sind Pruning-Phase: Zerlegen der Frequent Itemsets in Teilmengen Test, ob alle diese Teilmengen Frequent Itemsets sind (Monotonieeigenschaft) Algorithmus endet, wenn keine Frequent Itemsets mehr gefunden werden 5.3 Verfahren zur Assoziationsanalyse Folie 5-57 (158) Der A-Priori-Algorithmus A Priori Beispiel Beispiel 5.4 (A priori) Betrachten Kinobesuche. Wer geht gern mit wem? Kinobesuch-ID Kinobesucher k 1 Anne, Claudia, Ernst k 2 Anne, Ernst, Gudrun k 3 Anne, Claudia, Ernst, Franz, Gudrun k 4 Anne, Claudia, Horst k 5 Bernd, Claudia, Ernst, Franz, Gudrun k 6 Bernd, Claudia, Ernst, Gudrun, Horst 5.3 Verfahren zur Assoziationsanalyse Folie 5-58 (159) Der A-Priori-Algorithmus A Priori Beispiel 5.3 Verfahren zur Assoziationsanalyse Folie 5-59 (160) Der A-Priori-Algorithmus A Priori Beispiel Beispiel 5.4 cont. Wir fordern als minimalen Support: 50%. Anne 4 66% Bernd 2 33% Claudia 5 83% Ernst 5 83% Franz 2 33% Gudrun 4 66% Horst 2 33% Bernd, Franz und Horst erfüllen nicht den minimalen Support. Beispiel 5.4 cont. Nun bilden wir 2er FIS: Anne, Claudia 50% (1) Anne, Ernst 50% (2) Anne, Gudrun 33% (3) Claudia, Ernst 66% (4) Claudia, Gudrun 50% (5) Ernst, Gudrun 66% (6) Einer dieser 6 Kandidaten erfüllt den Support nicht.

2. Lernen von Entscheidungsbäumen

2. Lernen von Entscheidungsbäumen 2. Lernen von Entscheidungsbäumen Entscheidungsbäume 2. Lernen von Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch Attribut/Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse

Mehr

Künstliche Intelligenz Maschinelles Lernen

Künstliche Intelligenz Maschinelles Lernen Künstliche Intelligenz Maschinelles Lernen Stephan Schwiebert Sommersemester 2009 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Maschinelles Lernen Überwachtes Lernen

Mehr

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining Gliederung 1. Einführung 2. Grundlagen Data Mining Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining 3. Ausgewählte Methoden des Data

Mehr

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,

Mehr

Data Mining Anwendungen und Techniken

Data Mining Anwendungen und Techniken Data Mining Anwendungen und Techniken Knut Hinkelmann DFKI GmbH Entdecken von Wissen in banken Wissen Unternehmen sammeln ungeheure mengen enthalten wettbewerbsrelevantes Wissen Ziel: Entdecken dieses

Mehr

4. Lernen von Entscheidungsbäumen. Klassifikation mit Entscheidungsbäumen. Entscheidungsbaum

4. Lernen von Entscheidungsbäumen. Klassifikation mit Entscheidungsbäumen. Entscheidungsbaum 4. Lernen von Entscheidungsbäumen Klassifikation mit Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch /Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse zugeordnet werden.

Mehr

Data Mining und Text Mining Einführung. S2 Einfache Regellerner

Data Mining und Text Mining Einführung. S2 Einfache Regellerner Data Mining und Text Mining Einführung S2 Einfache Regellerner Hans Hermann Weber Univ. Erlangen, Informatik 8 Wintersemester 2003 hans.hermann.weber@gmx.de Inhalt Einiges über Regeln und Bäume R1 ein

Mehr

Ermittlung von Assoziationsregeln aus großen Datenmengen. Zielsetzung

Ermittlung von Assoziationsregeln aus großen Datenmengen. Zielsetzung Ermittlung von Assoziationsregeln aus großen Datenmengen Zielsetzung Entscheidungsträger verwenden heutzutage immer häufiger moderne Technologien zur Lösung betriebswirtschaftlicher Problemstellungen.

Mehr

Data Mining - Wiederholung

Data Mining - Wiederholung Data Mining - Wiederholung Norbert Fuhr 9. Juni 2008 Problemstellungen Problemstellungen Daten vs. Information Def. Data Mining Arten von strukturellen Beschreibungen Regeln (Klassifikation, Assoziations-)

Mehr

Maschinelles Lernen Entscheidungsbäume

Maschinelles Lernen Entscheidungsbäume Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen Entscheidungsbäume Paul Prasse Entscheidungsbäume Eine von vielen Anwendungen: Kreditrisiken Kredit - Sicherheiten

Mehr

Data Mining und maschinelles Lernen

Data Mining und maschinelles Lernen Data Mining und maschinelles Lernen Einführung und Anwendung mit WEKA Caren Brinckmann 16. August 2000 http://www.coli.uni-sb.de/~cabr/vortraege/ml.pdf http://www.cs.waikato.ac.nz/ml/weka/ Inhalt Einführung:

Mehr

Moderne Methoden der KI: Maschinelles Lernen

Moderne Methoden der KI: Maschinelles Lernen Moderne Methoden der KI: Maschinelles Lernen Prof. Dr.Hans-Dieter Burkhard Vorlesung Entscheidungsbäume Darstellung durch Regeln ID3 / C4.5 Bevorzugung kleiner Hypothesen Overfitting Entscheidungsbäume

Mehr

Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014

Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014 Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014 Aufgabe 1. Data Mining a) Mit welchen Aufgabenstellungen befasst sich Data Mining? b) Was versteht man unter Transparenz einer Wissensrepräsentation?

Mehr

Data Mining mit der SEMMA Methodik. Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG

Data Mining mit der SEMMA Methodik. Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG Data Mining mit der SEMMA Methodik Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG Data Mining Data Mining: Prozeß der Selektion, Exploration und Modellierung großer Datenmengen, um Information

Mehr

Mathematische Grundlagen III

Mathematische Grundlagen III Mathematische Grundlagen III Maschinelles Lernen II: Klassifikation mit Entscheidungsbäumen Vera Demberg Universität des Saarlandes 12. Juli 2012 Vera Demberg (UdS) Mathe III 12. Juli 2012 1 / 38 Einleitung

Mehr

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002)

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002) 3. Entscheidungsbäume Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002) (aus Wilhelm 2001) Beispiel: (aus Böhm 2003) Wann sind Entscheidungsbäume

Mehr

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining.

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining. Motivation Themenblock: Klassifikation Praktikum: Data Warehousing und Data Mining Ziel Item hat mehrere Attribute Anhand von n Attributen wird (n+)-tes vorhergesagt. Zusätzliches Attribut erst später

Mehr

Seminar Business Intelligence Teil II. Data Mining & Knowledge Discovery

Seminar Business Intelligence Teil II. Data Mining & Knowledge Discovery Seminar Business Intelligence Teil II Data Mining & Knowledge Discovery Was ist Data Mining? Sabine Queckbörner Was ist Data Mining? Data Mining Was ist Data Mining? Nach welchen Mustern wird gesucht?

Mehr

Vorlesung Maschinelles Lernen

Vorlesung Maschinelles Lernen Vorlesung Maschinelles Lernen Additive Modelle Katharina Morik Informatik LS 8 Technische Universität Dortmund 7.1.2014 1 von 34 Gliederung 1 Merkmalsauswahl Gütemaße und Fehlerabschätzung 2 von 34 Ausgangspunkt:

Mehr

Management Support Systeme

Management Support Systeme Management Support Systeme WS 24-25 4.-6. Uhr PD Dr. Peter Gluchowski Folie Gliederung MSS WS 4/5. Einführung Management Support Systeme: Informationssysteme zur Unterstützung betrieblicher Fach- und Führungskräfte

Mehr

Lernen von Entscheidungsbäumen. Volker Tresp Summer 2014

Lernen von Entscheidungsbäumen. Volker Tresp Summer 2014 Lernen von Entscheidungsbäumen Volker Tresp Summer 2014 1 Anforderungen an Methoden zum Datamining Schnelle Verarbeitung großer Datenmengen Leichter Umgang mit hochdimensionalen Daten Das Lernergebnis

Mehr

MS SQL Server 2012 (4)

MS SQL Server 2012 (4) MS SQL Server 2012 (4) Data Mining, Analyse und multivariate Verfahren Marco Skulschus Jan Tittel Marcus Wiederstein Webseite zum Buch: http://vvwvv.comelio-medien.com/buch-kataiog/ms sql_server/ms sql

Mehr

Data Mining Standards am Beispiel von PMML. Data Mining Standards am Beispiel von PMML

Data Mining Standards am Beispiel von PMML. Data Mining Standards am Beispiel von PMML Data Mining Standards am Beispiel von PMML Allgemeine Definitionen im Data Mining Data Mining (DM) Ein Prozess, um interessante neue Muster, Korrelationen und Trends in großen Datenbeständen zu entdecken,

Mehr

Data Mining und Knowledge Discovery in Databases

Data Mining und Knowledge Discovery in Databases Data Mining und Knowledge Discovery in Databases Begriffsabgrenzungen... Phasen der KDD...3 3 Datenvorverarbeitung...4 3. Datenproblematik...4 3. Möglichkeiten der Datenvorverarbeitung...4 4 Data Mining

Mehr

x 2 x 1 x 3 5.1 Lernen mit Entscheidungsbäumen

x 2 x 1 x 3 5.1 Lernen mit Entscheidungsbäumen 5.1 Lernen mit Entscheidungsbäumen Falls zum Beispiel A = {gelb, rot, blau} R 2 und B = {0, 1}, so definiert der folgende Entscheidungsbaum eine Hypothese H : A B (wobei der Attributvektor aus A mit x

Mehr

6.6 Vorlesung: Von OLAP zu Mining

6.6 Vorlesung: Von OLAP zu Mining 6.6 Vorlesung: Von OLAP zu Mining Definition des Begriffs Data Mining. Wichtige Data Mining-Problemstellungen, Zusammenhang zu Data Warehousing,. OHO - 1 Definition Data Mining Menge von Techniken zum

Mehr

Data Mining als Arbeitsprozess

Data Mining als Arbeitsprozess Data Mining als Arbeitsprozess Hagen Knaf Studiengang Angewandte Mathematik Hochschule RheinMain 31. Dezember 2015 In Unternehmen werden umfangreichere Aktivitäten oder Projekte im Bereich des Data Mining

Mehr

5. Assoziationsregeln

5. Assoziationsregeln 5. Generieren von Assoziationsregeln Grundbegriffe 5. Assoziationsregeln Assoziationsregeln beschreiben gewisse Zusammenhänge und Regelmäßigkeiten zwischen verschiedenen Dingen, z.b. den Artikeln eines

Mehr

WEKA A Machine Learning Interface for Data Mining

WEKA A Machine Learning Interface for Data Mining WEKA A Machine Learning Interface for Data Mining Frank Eibe, Mark Hall, Geoffrey Holmes, Richard Kirkby, Bernhard Pfahringer, Ian H. Witten Reinhard Klaus Losse Künstliche Intelligenz II WS 2009/2010

Mehr

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen 7. Clusteranalyse (= Häufungsanalyse; Clustering-Verfahren) wird der multivariaten Statistik zugeordnet Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut,

Mehr

Motivation. Themenblock: Data Preprocessing. Einsatzgebiete für Data Mining I. Modell von Gianotti und Pedreschi

Motivation. Themenblock: Data Preprocessing. Einsatzgebiete für Data Mining I. Modell von Gianotti und Pedreschi Motivation Themenblock: Data Preprocessing We are drowning in information, but starving for knowledge! (John Naisbett) Was genau ist Datenanalyse? Praktikum: Data Warehousing und Data Mining Was ist Data

Mehr

Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens

Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 17.04.2015 Entscheidungsprobleme beim Textmining

Mehr

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining.

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining. Personalisierung Personalisierung Thomas Mandl Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung Klassifikation Die Nutzer werden in vorab bestimmte Klassen/Nutzerprofilen

Mehr

Data Mining Bericht. Analyse der Lebenssituation der Studenten. der Hochschule Wismar. Zur Veranstaltung. Business Intelligence

Data Mining Bericht. Analyse der Lebenssituation der Studenten. der Hochschule Wismar. Zur Veranstaltung. Business Intelligence Data Mining Bericht Analyse der Lebenssituation der Studenten der Hochschule Wismar Zur Veranstaltung Business Intelligence Eingereicht von: Mohamed Oukettou 108 208 Maxim Beifert 118 231 Vorgelegt von:

Mehr

Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining

Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining Ausgangssituation Kaizen Data Mining ISO 9001 Wenn andere Methoden an ihre Grenzen stoßen Es gibt unzählige Methoden, die Abläufe

Mehr

Maschinelles Lernen. Kapitel 5

Maschinelles Lernen. Kapitel 5 Kapitel 5 Maschinelles Lernen Im täglichen Leben begegnet uns das Lernen meist in einer Mischung aus den Aspekten der Vergrößerung von Wissen und der Verbesserung von Fähigkeiten. Beim Erlernen einer Fremdsprache

Mehr

5 Data Warehouses und Data Mining

5 Data Warehouses und Data Mining 5 Data Warehouses und Data Mining Mittels OLAP Techniken können große Datenmengen unterschiedlich stark verdichtet und gezielt aufbereitet werden. Mittels Data Mining können große Datenmengen nach bisher

Mehr

Hochschule Wismar. Projektbericht. Evaluation und Ableitung von Ergebnissen anhand eines Fragebogens zur Studentensituation an der Hochschule Wismar

Hochschule Wismar. Projektbericht. Evaluation und Ableitung von Ergebnissen anhand eines Fragebogens zur Studentensituation an der Hochschule Wismar Hochschule Wismar Fakultät für Wirtschaftswissenschaften Projektbericht Evaluation und Ableitung von Ergebnissen anhand eines Fragebogens zur Studentensituation an der Hochschule Wismar zur VERANSTALTUNG

Mehr

Data-Mining: Ausgewählte Verfahren und Werkzeuge

Data-Mining: Ausgewählte Verfahren und Werkzeuge Fakultät Informatik Institut für Angewandte Informatik Lehrstuhl Technische Informationssysteme Data-Mining: Ausgewählte Verfahren und Vortragender: Jia Mu Betreuer: Dipl.-Inf. Denis Stein Dresden, den

Mehr

Bayes sches Lernen: Übersicht

Bayes sches Lernen: Übersicht Bayes sches Lernen: Übersicht Bayes sches Theorem MAP, ML Hypothesen MAP Lernen Minimum Description Length Principle Bayes sche Klassifikation Naive Bayes Lernalgorithmus Teil 5: Naive Bayes + IBL (V.

Mehr

The integration of business intelligence and knowledge management

The integration of business intelligence and knowledge management The integration of business intelligence and knowledge management Seminar: Business Intelligence Ketevan Karbelashvili Master IE, 3. Semester Universität Konstanz Inhalt Knowledge Management Business intelligence

Mehr

Exploration und Klassifikation von BigData

Exploration und Klassifikation von BigData Exploration und Klassifikation von BigData Inhalt Einführung Daten Data Mining: Vorbereitungen Clustering Konvexe Hülle Fragen Google: Riesige Datenmengen (2009: Prozessieren von 24 Petabytes pro Tag)

Mehr

Data Mining-Modelle und -Algorithmen

Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining ist ein Prozess, bei dem mehrere Komponenten i n- teragieren. Sie greifen auf Datenquellen, um diese zum Training,

Mehr

Grundlagen und Basisalgorithmus

Grundlagen und Basisalgorithmus Grundlagen und Basisalgorithmus Proseminar -Genetische Programmierung- Dezember 2001 David König Quelle: Kinnebrock W.: Optimierung mit genetischen und selektiven Algorithmen. München, Wien: Oldenbourg

Mehr

Algorithmische Modelle als neues Paradigma

Algorithmische Modelle als neues Paradigma Algorithmische Modelle als neues Paradigma Axel Schwer Seminar über Philosophische Grundlagen der Statistik, WS 2010/11 Betreuer: Prof. Dr. Thomas Augustin München, den 28. Januar 2011 1 / 29 LEO BREIMAN

Mehr

Data Mining - Marketing-Schlagwort oder ernstzunehmende Innovation?

Data Mining - Marketing-Schlagwort oder ernstzunehmende Innovation? 1. Konferenz der A Benutzer KFE in Forschung und Entwicklung Data Mining - Marketing-chlagwort oder ernstzunehmende Innovation? Hans-Peter Höschel,, Heidelberg 1. Konferenz der A Benutzer KFE in Forschung

Mehr

Seminar zum Thema Künstliche Intelligenz:

Seminar zum Thema Künstliche Intelligenz: Wolfgang Ginolas Seminar zum Thema Künstliche Intelligenz: Clusteranalyse Wolfgang Ginolas 11.5.2005 Wolfgang Ginolas 1 Beispiel Was ist eine Clusteranalyse Ein einfacher Algorithmus 2 bei verschieden

Mehr

Data Mining (ehem. Entscheidungsunterstützungssysteme)

Data Mining (ehem. Entscheidungsunterstützungssysteme) Data Mining (ehem. Entscheidungsunterstützungssysteme) Melanie Pfoh Anja Tetzner Christian Schieder Übung WS 2014/15 AGENDA TEIL 1 Aufgabe 1 (Wiederholung OPAL / Vorlesungsinhalte) ENTSCHEIDUNG UND ENTSCHEIDUNGSTHEORIE

Mehr

3. Lernen von Entscheidungsbäumen

3. Lernen von Entscheidungsbäumen 3. Lernen von Entscheidungsbäumen Entscheidungsbäume 3. Lernen von Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch Attribut/Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse

Mehr

Masterarbeit. im Studiengang Informatik. Kombinationen von Data Mining-Verfahren: Analyse und Automatisierung. Ulf Mewe Matrikel.-Nr.

Masterarbeit. im Studiengang Informatik. Kombinationen von Data Mining-Verfahren: Analyse und Automatisierung. Ulf Mewe Matrikel.-Nr. LEIBNIZ UNIVERSITÄT HANNOVER FAKULTÄT FÜR ELEKTROTECHNIK UND INFORMATIK INSTITUT FÜR PRAKTISCHE INFORMATIK FACHGEBIET DATENBANKEN UND INFORMATIONSSYSTEME Masterarbeit im Studiengang Informatik Kombinationen

Mehr

Seminar Text- und Datamining Datamining-Grundlagen

Seminar Text- und Datamining Datamining-Grundlagen Seminar Text- und Datamining Datamining-Grundlagen Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 23.05.2013 Gliederung 1 Klassifikationsprobleme 2 Evaluation

Mehr

Data Cube. Aggregation in SQL. Beispiel: Autoverkäufe. On-line Analytical Processing (OLAP) 1. Einführung. 2. Aggregation in SQL, GROUP BY

Data Cube. Aggregation in SQL. Beispiel: Autoverkäufe. On-line Analytical Processing (OLAP) 1. Einführung. 2. Aggregation in SQL, GROUP BY Data Cube On-line Analytical Processing (OLAP). Einführung Ziel: Auffinden interessanter Muster in großen Datenmengen 2. Aggregation in SQL, GROUP BY 3. Probleme mit GROUP BY 4. Der Cube-Operator! Formulierung

Mehr

Knowledge Discovery. Lösungsblatt 1

Knowledge Discovery. Lösungsblatt 1 Universität Kassel Fachbereich Mathematik/nformatik Fachgebiet Wissensverarbeitung Hertie-Stiftungslehrstuhl Wilhelmshöher Allee 73 34121 Kassel Email: hotho@cs.uni-kassel.de Tel.: ++49 561 804-6252 Dr.

Mehr

Lars Priebe Senior Systemberater. ORACLE Deutschland GmbH

Lars Priebe Senior Systemberater. ORACLE Deutschland GmbH Lars Priebe Senior Systemberater ORACLE Deutschland GmbH Data Mining als Anwendung des Data Warehouse Konzepte und Beispiele Agenda Data Warehouse Konzept und Data Mining Data Mining Prozesse Anwendungs-Beispiele

Mehr

Sortierverfahren für Felder (Listen)

Sortierverfahren für Felder (Listen) Sortierverfahren für Felder (Listen) Generell geht es um die Sortierung von Daten nach einem bestimmten Sortierschlüssel. Es ist auch möglich, daß verschiedene Daten denselben Sortierschlüssel haben. Es

Mehr

Data Warehouse Definition (1) http://de.wikipedia.org/wiki/data-warehouse

Data Warehouse Definition (1) http://de.wikipedia.org/wiki/data-warehouse Data Warehouse Definition (1) http://de.wikipedia.org/wiki/data-warehouse Ein Data-Warehouse bzw. Datenlager ist eine zentrale Datensammlung (meist eine Datenbank), deren Inhalt sich aus Daten unterschiedlicher

Mehr

Fortgeschrittene Computerintensive Methoden: Assoziationsregeln Steffen Unkel Manuel Eugster, Bettina Grün, Friedrich Leisch, Matthias Schmid

Fortgeschrittene Computerintensive Methoden: Assoziationsregeln Steffen Unkel Manuel Eugster, Bettina Grün, Friedrich Leisch, Matthias Schmid Fortgeschrittene Computerintensive Methoden: Assoziationsregeln Steffen Unkel Manuel Eugster, Bettina Grün, Friedrich Leisch, Matthias Schmid Institut für Statistik LMU München Sommersemester 2013 Zielsetzung

Mehr

2. Microsoft Innovationstag Nord Integrierte Lösungen in der Öffentlichen Verwaltung

2. Microsoft Innovationstag Nord Integrierte Lösungen in der Öffentlichen Verwaltung 2. Microsoft Innovationstag Nord Integrierte Lösungen in der Öffentlichen Verwaltung Reporting, Analyse und Data Mining André Henkel, initions AG 22. und 23. Oktober 2013 in Hamburg

Mehr

Web Mining und Farming

Web Mining und Farming Web Mining und Farming Shenwei Song Gliederung Übersicht über Web Mining und Farming Web Mining Klassifikation des Web Mining Wissensbasierte Wrapper-Induktion Web Farming Übersicht über Web-Farming-Systeme

Mehr

Teil I: Deskriptive Statistik

Teil I: Deskriptive Statistik Teil I: Deskriptive Statistik 2 Grundbegriffe 2.1 Merkmal und Stichprobe 2.2 Skalenniveau von Merkmalen 2.3 Geordnete Stichproben und Ränge 2.1 Merkmal und Stichprobe An (geeignet ausgewählten) Untersuchungseinheiten

Mehr

Web Data Mining. Alexander Hinneburg Sommersemester 2007

Web Data Mining. Alexander Hinneburg Sommersemester 2007 Web Data Mining Alexander Hinneburg Sommersemester 2007 Termine Vorlesung Mi. 10:00-11:30 Raum?? Übung Mi. 11:45-13:15 Raum?? Klausuren Mittwoch, 23. Mai Donnerstag, 12. Juli Buch Bing Liu: Web Data Mining

Mehr

Nichtlineare Optimierung ohne Nebenbedingungen

Nichtlineare Optimierung ohne Nebenbedingungen Kapitel 2 Nichtlineare Optimierung ohne Nebenbedingungen In diesem Abschnitt sollen im wesentlichen Verfahren zur Bestimmung des Minimums von nichtglatten Funktionen in einer Variablen im Detail vorgestellt

Mehr

Fakultät für Wirtschaftswissenschaften. Data Mining

Fakultät für Wirtschaftswissenschaften. Data Mining Fakultät für Wirtschaftswissenschaften Data Mining Untersuchung der Umfragedaten der Direktstudenten im Bereich Wirtschaft der Hochschule Wismar mit der Open-Source Software Knime Zur Veranstaltung Business

Mehr

Mining High-Speed Data Streams

Mining High-Speed Data Streams Mining High-Speed Data Streams Pedro Domingos & Geoff Hulten Departement of Computer Science & Engineering University of Washington Datum : 212006 Seminar: Maschinelles Lernen und symbolische Ansätze Vortragender:

Mehr

Vorwort zur zweiten Auflage...V. Vorwort zur ersten Auflage... VIII

Vorwort zur zweiten Auflage...V. Vorwort zur ersten Auflage... VIII Vorwort zur zweiten Auflage...V Vorwort zur ersten Auflage... VIII 1 Management Support Systeme und Business Intelligence Anwendungssysteme zur Unterstützung von Managementaufgaben...1 1.1 Computergestützte

Mehr

Fachgruppe Statistik, Risikoanalyse & Computing. STAT672 Data Mining. Sommersemester 2007. Prof. Dr. R. D. Reiß

Fachgruppe Statistik, Risikoanalyse & Computing. STAT672 Data Mining. Sommersemester 2007. Prof. Dr. R. D. Reiß Fachgruppe Statistik, Risikoanalyse & Computing STAT672 Data Mining Sommersemester 2007 Prof. Dr. R. D. Reiß Überblick Data Mining Begrifflichkeit Unter Data Mining versteht man die Computergestützte Suche

Mehr

Data Mining für die industrielle Praxis

Data Mining für die industrielle Praxis Data Mining für die industrielle Praxis von Ralf Otte, Viktor Otte, Volker Kaiser 1. Auflage Hanser München 2004 Verlag C.H. Beck im Internet: www.beck.de ISBN 978 3 446 22465 0 Zu Leseprobe schnell und

Mehr

Anwendung der Predictive Analytics

Anwendung der Predictive Analytics TDWI Konferenz mit BARC@TDWI Track 2014 München, 23. 25. Juni 2014 Anwendung der Predictive Analytics Prof. Dr. Carsten Felden Dipl. Wirt. Inf. Claudia Koschtial Technische Universität Bergakademie Freiberg

Mehr

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002) 6. Bayes-Klassifikation (Schukat-Talamazzini 2002) (Böhm 2003) (Klawonn 2004) Der Satz von Bayes: Beweis: Klassifikation mittels des Satzes von Bayes (Klawonn 2004) Allgemeine Definition: Davon zu unterscheiden

Mehr

Häufige Item-Mengen: die Schlüssel-Idee. Vorlesungsplan. Apriori Algorithmus. Methoden zur Verbessung der Effizienz von Apriori

Häufige Item-Mengen: die Schlüssel-Idee. Vorlesungsplan. Apriori Algorithmus. Methoden zur Verbessung der Effizienz von Apriori Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,

Mehr

Universität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme

Universität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme Universität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme Studienprojekt Invisible Web (Dipl.-Inform. Gudrun Fischer - WS 2003/04) Blockseminar

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Entscheidungsbäume

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Entscheidungsbäume Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Entscheidungsbäume Christoph Sawade/Niels Landwehr Jules Rasetaharison, Tobias Scheffer Entscheidungsbäume Eine von vielen Anwendungen:

Mehr

Mining the Web. Analyse von Benutzerpfaden und Nutzertypen im Internet. Business Unit CRM Solutions SAS Deutschland. Dr.

Mining the Web. Analyse von Benutzerpfaden und Nutzertypen im Internet. Business Unit CRM Solutions SAS Deutschland. Dr. Mining the Web Analyse von Benutzerpfaden und Nutzertypen im Internet Dr. Frank Säuberlich Business Unit CRM Solutions SAS Deutschland Agenda 1. Einleitung: Der Lebenszyklus eines e-kunden Begriffsdefinition

Mehr

Inhaltsverzeichnis. Fragestellungen und Methoden 11. Vorwort 15. Kapitel 1 Einführung 17. Kapitel 2 Statistische Grundbegriffe 23

Inhaltsverzeichnis. Fragestellungen und Methoden 11. Vorwort 15. Kapitel 1 Einführung 17. Kapitel 2 Statistische Grundbegriffe 23 Fragestellungen und Methoden 11 Vorwort 15 Kapitel 1 Einführung 17 1.1 KonzeptiondesBuchs... 18 1.2 AufbaudesBuchs... 19 1.3 Programmversionen von PASW bzw. SPSS..... 20 1.4 WiekanndiesesBuchverwendetwerden?...

Mehr

6. Überblick zu Data Mining-Verfahren

6. Überblick zu Data Mining-Verfahren 6. Überblick zu Data Mining-Verfahren Einführung Clusteranalyse k-means-algorithmus Canopy Clustering Klassifikation Klassifikationsprozess Konstruktion eines Entscheidungsbaums Assoziationsregeln / Warenkorbanalyse

Mehr

Data/Information Quality Management

Data/Information Quality Management Data/Information Quality Management Seminar WI/Informationsmanagement im Sommersemester 2002 Markus Berberov, Roman Eder, Peter Gerstbach 11.6.2002 Inhalt! Daten und Datenqualität! Einführung und Definition!

Mehr

Künstliche Neuronale Netze und Data Mining

Künstliche Neuronale Netze und Data Mining Künstliche Neuronale Netze und Data Mining Catherine Janson, icasus GmbH Heidelberg Abstract Der Begriff "künstliche Neuronale Netze" fasst Methoden der Informationstechnik zusammen, deren Entwicklung

Mehr

Dominik Pretzsch TU Chemnitz 2011

Dominik Pretzsch TU Chemnitz 2011 Dominik Pretzsch TU Chemnitz 2011 Wir leben im Informationszeitalter und merken es daran, dass wir uns vor Information nicht mehr retten können. Nicht der überwältigende Nutzen der Information, sondern

Mehr

Clustern. Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so dass:

Clustern. Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so dass: Text-Clustern 1 Clustern Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so dass: Beispiele innerhalb eines Clusters sich sehr ähnlich Beispiele in verschiedenen

Mehr

8. Clusterbildung, Klassifikation und Mustererkennung

8. Clusterbildung, Klassifikation und Mustererkennung 8. Clusterbildung, Klassifikation und Mustererkennung Begriffsklärung (nach Voss & Süße 1991): Objekt: wird in diesem Kapitel mit einem zugeordneten Merkmalstupel (x 1,..., x M ) identifiziert (Merkmalsextraktion

Mehr

Business Intelligence. Business Intelligence Seminar, WS 2007/08

Business Intelligence. Business Intelligence Seminar, WS 2007/08 Business Intelligence Seminar, WS 2007/08 Prof. Dr. Knut Hinkelmann Fachhochschule Nordwestschweiz knut.hinkelmann@fhnw.ch Business Intelligence Entscheidungsorientierte Sammlung, Aufbereitung und Darstellung

Mehr

Vorlesung 04.12.2006: Binäre Entscheidungsdiagramme (BDDs) Dr. Carsten Sinz

Vorlesung 04.12.2006: Binäre Entscheidungsdiagramme (BDDs) Dr. Carsten Sinz Vorlesung 04.12.2006: Binäre Entscheidungsdiagramme (BDDs) Dr. Carsten Sinz Datenstruktur BDD 1986 von R. Bryant vorgeschlagen zur Darstellung von aussagenlogischen Formeln (genauer: Booleschen Funktionen)

Mehr

2. Datenvorverarbeitung

2. Datenvorverarbeitung Kurzreferat Das Ziel beim Clustering ist es möglichst gleich Datensätze zu finden und diese in Gruppen, sogenannte Cluster zu untergliedern. In dieser Dokumentation werden die Methoden k-means und Fuzzy

Mehr

Textmining Klassifikation von Texten Teil 1: Naive Bayes

Textmining Klassifikation von Texten Teil 1: Naive Bayes Textmining Klassifikation von Texten Teil 1: Naive Bayes Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten 1: Naive

Mehr

Entscheidungsunterstützungssysteme

Entscheidungsunterstützungssysteme Vorlesung WS 2013/2014 Christian Schieder Professur Wirtschaftsinformatik II cschie@tu-chemnitz.eu Literatur zur Vorlesung Gluchowski, P.; Gabriel, R.; Dittmar, C.: Management Support Systeme und Business

Mehr

Literatur. Dominating Set (DS) Dominating Sets in Sensornetzen. Problem Minimum Dominating Set (MDS)

Literatur. Dominating Set (DS) Dominating Sets in Sensornetzen. Problem Minimum Dominating Set (MDS) Dominating Set 59 Literatur Dominating Set Grundlagen 60 Dominating Set (DS) M. V. Marathe, H. Breu, H.B. Hunt III, S. S. Ravi, and D. J. Rosenkrantz: Simple Heuristics for Unit Disk Graphs. Networks 25,

Mehr

Teil II Optimierung. Peter Buchholz 2016. Modellgestützte Analyse und Optimierung Kap. 9 Einführung Optimierung

Teil II Optimierung. Peter Buchholz 2016. Modellgestützte Analyse und Optimierung Kap. 9 Einführung Optimierung Teil II Optimierung Gliederung 9 Einführung, Klassifizierung und Grundlagen 10 Lineare Optimierung 11 Ganzzahlige und kombinatorische Optimierung 12 Dynamische Optimierung Literatur: zu 10-12: Neumann,

Mehr

Mining über RDBMSe. von. Christian Widmer. Wie gut lässt sich Mining mit SQL realisieren?

Mining über RDBMSe. von. Christian Widmer. Wie gut lässt sich Mining mit SQL realisieren? Mining über RDBMSe von Christian Widmer Wie gut lässt sich Mining mit SQL realisieren? Müssen neue Konstrukte zur Verfügung gestellt werden, wenn ja welche? Vortragsüberblick Association Rules Apriori

Mehr

Entscheidungsbäume. Definition Entscheidungsbaum. Frage: Gibt es einen Sortieralgorithmus mit o(n log n) Vergleichen?

Entscheidungsbäume. Definition Entscheidungsbaum. Frage: Gibt es einen Sortieralgorithmus mit o(n log n) Vergleichen? Entscheidungsbäume Frage: Gibt es einen Sortieralgorithmus mit o(n log n) Vergleichen? Definition Entscheidungsbaum Sei T ein Binärbaum und A = {a 1,..., a n } eine zu sortierenden Menge. T ist ein Entscheidungsbaum

Mehr

Was ist ein Compiler?

Was ist ein Compiler? Was ist ein Compiler? Was ist ein Compiler und worum geht es? Wie ist ein Compiler aufgebaut? Warum beschäftigen wir uns mit Compilerbau? Wie ist die Veranstaltung organisiert? Was interessiert Sie besonders?

Mehr

Mit KI gegen SPAM. Proseminar Künstliche Intelligenz

Mit KI gegen SPAM. Proseminar Künstliche Intelligenz Mit KI gegen SPAM Proseminar Künstliche Intelligenz SS 2006 Florian Laib Ausblick Was ist SPAM? Warum SPAM-Filter? Naive Bayes-Verfahren Fallbasiertes Schließen Fallbasierte Filter TiMBL Vergleich der

Mehr

Folge 19 - Bäume. 19.1 Binärbäume - Allgemeines. Grundlagen: Ulrich Helmich: Informatik 2 mit BlueJ - Ein Kurs für die Stufe 12

Folge 19 - Bäume. 19.1 Binärbäume - Allgemeines. Grundlagen: Ulrich Helmich: Informatik 2 mit BlueJ - Ein Kurs für die Stufe 12 Grundlagen: Folge 19 - Bäume 19.1 Binärbäume - Allgemeines Unter Bäumen versteht man in der Informatik Datenstrukturen, bei denen jedes Element mindestens zwei Nachfolger hat. Bereits in der Folge 17 haben

Mehr

Grundlagen des Maschinellen Lernens Kap. 4: Lernmodelle Teil II

Grundlagen des Maschinellen Lernens Kap. 4: Lernmodelle Teil II 1. Motivation 2. Lernmodelle Teil I 2.1. Lernen im Limes 2.2. Fallstudie: Lernen von Patternsprachen 3. Lernverfahren in anderen Domänen 3.1. Automatensynthese 3.2. Entscheidungsbäume 3.3. Entscheidungsbäume

Mehr

Seminar Künstliche Intelligenz WS 2013/14 Grundlagen des Maschinellen Lernens

Seminar Künstliche Intelligenz WS 2013/14 Grundlagen des Maschinellen Lernens Seminar Künstliche Intelligenz WS 2013/14 Grundlagen des Maschinellen Lernens Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 19.12.2013 Allgemeine Problemstellung

Mehr

Data Mining mit Rapidminer im Direktmarketing ein erster Versuch. Hasan Tercan und Hans-Peter Weih

Data Mining mit Rapidminer im Direktmarketing ein erster Versuch. Hasan Tercan und Hans-Peter Weih Data Mining mit Rapidminer im Direktmarketing ein erster Versuch Hasan Tercan und Hans-Peter Weih Motivation und Ziele des Projekts Anwendung von Data Mining im Versicherungssektor Unternehmen: Standard

Mehr

Vielen Dank an Dennis Riehle für die Bereitstellung dieser Folien

Vielen Dank an Dennis Riehle für die Bereitstellung dieser Folien Vielen Dank an Dennis Riehle für die Bereitstellung dieser Folien 1.1 Definition Datenbank Ein Datenbanksystem (DBS) ist ein System zur elektronischen Datenverwaltung. Die wesentliche Aufgabe eines DBS

Mehr

Eine Baumstruktur sei folgendermaßen definiert. Eine Baumstruktur mit Grundtyp Element ist entweder

Eine Baumstruktur sei folgendermaßen definiert. Eine Baumstruktur mit Grundtyp Element ist entweder Programmieren in PASCAL Bäume 1 1. Baumstrukturen Eine Baumstruktur sei folgendermaßen definiert. Eine Baumstruktur mit Grundtyp Element ist entweder 1. die leere Struktur oder 2. ein Knoten vom Typ Element

Mehr

Entscheidungsunterstützende Systeme

Entscheidungsunterstützende Systeme Entscheidungsunterstützende Systeme (WS 015/016) Klaus Berberich (klaus.berberich@htwsaar.de) Rainer Lenz (rainer.lenz@htwsaar.de) 0. Organisatorisches Dozenten Klaus Berberich (klaus.berberich@htwsaar.de)

Mehr

Seminarvortrag zum Thema maschinelles Lernen I - Entscheidungsbäume. von Lars-Peter Meyer. im Seminar Methoden wissensbasierter Systeme

Seminarvortrag zum Thema maschinelles Lernen I - Entscheidungsbäume. von Lars-Peter Meyer. im Seminar Methoden wissensbasierter Systeme Seminarvortrag zum Thema maschinelles Lernen I - Entscheidungsbäume von Lars-Peter Meyer im Seminar Methoden wissensbasierter Systeme bei Prof. Brewka im WS 2007/08 Übersicht Überblick maschinelles Lernen

Mehr

Entscheidungsbaum-Lernen: Übersicht

Entscheidungsbaum-Lernen: Übersicht Entscheidungsbaum-Lernen: Übersicht Entscheidungsbäume Repräsentationsformalismus Tests Semantik: Klassifikation Ausdrucksfähigkeit Lernen von Entscheidungsbäumen Szenario vollst. Suche vs. TDIDT Maße:

Mehr