Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining

Größe: px
Ab Seite anzeigen:

Download "Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining"

Transkript

1 Gliederung 1. Einführung 2. Grundlagen Data Mining Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining 3. Ausgewählte Methoden des Data Mining Entscheidungsbaumverfahren Künstliche Neuronale Netze Clusterverfahren Assoziationsverfahren 4. Zusammenfassung und Ausblick Folie 85

2 Data Mining - Entscheidungsbaumverfahren Ziel: Erzeugung eines Modells, durch welches unbekannte Datenobjekte bestimmten vorgegebenen Klassen zugeordnet werden können Vorgehensweise: Zuordnung anhand von Regeln (Darstellung mit Klassifikationsbäumen) Beispiel: Einteilung von Datensätzen mit Angaben über Kunden derart, dass damit die Käufergruppe erkannt werden kann, in die ein neuer Kunde voraussichtlich gehört Voraussetzung: Datenbestand, bei dem für jeden Datensatz die zugehörige Klasse bekannt ist

3 Data Mining - Entscheidungsbaumverfahren Grundsätzliche Arbeitsweise: Aufteilung des Gesamtdatenbestandes in eine Trainingsmenge und eine Testmenge Sukzessive Aufteilung der Trainingsmenge, so dass sich daraus homogenere Gruppen von Datensätzen bezüglich der Klassifikationsvariablen ergeben Darstellung der Aufteilung der Datenmengen durch einen Baum, in dem jeder Knoten eine Datenmenge indiziert, dem ein Homogenitätsmaß zugeordnet wird Fortführung der Aufteilung, bis das Homogenitätsmaß einen vorgegebenen Wert erreicht Überprüfung der Ergebnisse anhand der Testmenge

4 Data Mining - Entscheidungsbaumverfahren Beispiel: Es liege für eine Kreditwürdigkeitsprüfung eine Menge von Kundendatensätzen vor. Dabei werden 70 % der Kunden als kreditwürdig und 30 % der Kunden als nicht-kreditwürdig eingestuft. Durch eine Aufteilung des Gesamtdatenbestandes anhand eines Merkmales sollen zwei Teilmengen derart entstehen, dass sich in der einen Teilmenge mehr Kundendatensätze mit der Eigenschaft kreditwürdig und in der anderen Teilmenge mehr Kundendatensätze mit der Eigenschaft nicht-kreditwürdig befinden. Beide Teilmengen weisen damit eine bessere Homogenität bezüglich der Klassifikationsvariablen auf, als der Ausgangsdatenbestand.

5 Data Mining - Entscheidungsbaumverfahren Datensätze Gesamt: 1000 Datensätze Klasse X: 300 Datensätze Klasse Y: 700 Attribut A: erfüllt nicht Bedingung K 1 Attribut A: erfüllt Bedingung K 1 Datensätze Gesamt: 600 Datensätze Klasse X: 280 Datensätze Klasse Y: 320 Datensätze Gesamt: 400 Datensätze Klasse X: 20 Datensätze Klasse Y: 380 Attribut B: erfüllt Bedingung K 2 Attribut B: erfüllt nicht Bedingung K 2 Datensätze Gesamt: 300 Datensätze Klasse X: 20 Datensätze Klasse Y: 280 Datensätze Gesamt: 300 Datensätze Klasse X: 260 Datensätze Klasse Y: 40

6 Data Mining - Entscheidungsbaumverfahren Regeln: Nachdem ein derartiger Baum generiert worden ist, können nun anhand des Baumes neuen Datensätzen deren voraussichtliche Klassen zugeordnet werden. Im Beispiel sind dies folgende Regeln: WENN Attribut A die Bedingung K1 erfüllt, DANN gehört das zugehörige Objekt der Klasse Y an. WENN Attribut A nicht die Bedingung K1 erfüllt und Attribut B nicht die Bedingung K2, DANN gehört das zugehörige Objekt der Klasse X an. WENN Attribut A nicht die Bedingung K1 erfüllt und Attribut B die Bedingung K2, DANN gehört das zugehörige Objekt der Klasse Y an.

7 Data Mining - Entscheidungsbaumverfahren Die Entscheidungsbaumverfahren lassen sich durch die zugehörigen Splitkriterien unterscheiden. Die Splitkriterien basieren auf einem Homogenitätsmaß, welches etwa mit Hilfe der relativen Häufigkeit p i des Auftretens bestimmter Datensätze einer bestimmten Klasse i definiert werden kann. Beispiel: Von 1000 Datensätzen sind 700 der Klasse 1 und 300 der Klasse 2 zugeordnet. Damit gilt für den Datenbestand: p 1 = 70 %, p 2 = 30 % Das Ziel ist nun, die Datensätze einzelnen Knoten zuzuordnen und dabei möglichst ausgeprägte Klassenzugehörigkeiten zu erreichen. Je unterschiedlicher die knotenspezifischen Häufigkeiten sind, desto homogener ist der Knoten. Ideal wäre eine Verteilung (100%, 0 %).

8 Data Mining - Entscheidungsbaumverfahren Als Maß für die Homogenität des Knoten T kann die Entropie verwendet werden. Entropie( T ) = Gilt Entropie = 0, so ist der Knoten homogen. Die Entropie nimmt ihren Maximalwert an (log 2 der Klassenanzahl), wenn eine Gleichverteilung vorliegt. k i= 1 p i log 2 p i mit( 0 log2 0 = 0) MS-Excel-Entropie

9 Data Mining - Entscheidungsbaumverfahren Es wird dann der Split gewählt, der den größten Informationsgewinn bringt. Der IG beschreibt die erwartete Reduktion der Entropie, wenn der Wert des Attributs A bekannt ist. Informationsgewinn (IG) durch Split der Menge T in m Teilmengen T i (i=1,,m): IG = Entropie( T ) m i= 1 Ein neuer Knoten T a enthält alle Elemente, bei denen das Attribut A die Ausprägung a annimmt. Der Informationsgewinn ergibt sich als Entropie des noch nicht weiter unterteilten Knotens T minus der Summe der Entropien der neuen Knoten T a, wobei als Gewichtung die relative Größe der neuen Knoten T a bezogen auf den Ausgangsknoten T gewählt wird. Ti T Entropie( Ti )

10 Data Mining - Entscheidungsbaumverfahren Als weiteres Maß für die Homogenität des Knoten T kann der Gini-Index verwendet werden. Gini(T) = 1 Gilt Gini (T) = 0, so ist der Knoten homogen. Der Gini-Index nimmt seinen Maximalwert an, wenn eine Gleichverteilung vorliegt. Es wird dann der Split gewählt, der den kleinsten Gini-Index für eine Partition des Knotens T mittels Attribut A bringt: k i= 1 2 p i T = a Gini ( T, A) Gini( Ta ) a A T MS-Excel-Gini

11 Data Mining - Entscheidungsbaumverfahren Die Güte eines Entscheidungsbaumes kann anhand der Fehlklassifikationsquote gemessen werden. Die Fehlklassifikationsquote gibt den Anteil der durch das Modell fehlerhaft klassifizierten Datensätze zur Gesamtanzahl der klassifizierten Datensätze an. Sie sollte nicht auf dem Trainingsdatenbestand, sondern auf einer davon unabhängigen Testmenge ermittelt werden. Darüber hinaus kann auch eine Fehlklassifikationsquote bezüglich des zur Modellierung eingesetzten Datenbestandes ermittelt werden. Diese Quote ist in der Regel ungleich Null, da in einem Endknoten alle Datensätze derselben Klasse zugeordnet werden, unabhängig von der tatsächlich vorliegenden Klassenzugehörigkeit. Diese Größe ist jedoch in ihrer Aussagefähigkeit beschränkt, da sie durch weitere Aufteilungen der Endknoten in homogenere Knoten verringert werden kann. Sie dient dennoch als erster Hinweis auf die Güte des Baums.

12 Data Mining - Entscheidungsbaumverfahren Durch die Trainingsmenge kann eine Baum generiert werden, der durch viele Splits sehr homogene Knoten für die betrachteten Daten ergibt. Wenn jedoch nur sehr wenige Datensätze einen Knoten repräsentieren, so ist die Aussagefähigkeit gering. Deshalb wird die Güte des Entscheidungsbaums anhand eines Testdatenbestandes ermittelt. Ist die Fehlklassifikationsquote hier zu hoch, so ist der generierte Entscheidungsbaum für allgemeine Anwendungen nicht anwendbar. Dann muss die Baumtiefe verringert werden und damit auch die Regelkomplexität. Dieses Phänomen wird Overfitting (Überanpassung an die Trainingsdaten) genannt.

13 Data Mining - Entscheidungsbaumverfahren Strategien zur Reduzierung des Overfitting-Problems: Entfernen von fehlerhaften Trainingsdaten Wahl einer geeigneten Größe der Trainingsmenge Keine absolut homogenen Knoten Mindestanzahl von Datensätzen in den Knoten Pruning

14 Data Mining - Entscheidungsbaumverfahren Unter Pruning wird das nachträgliche Modifizieren des Entscheidungsbaumes verstanden, mit dem Ziel die Fehlklassifikationsquote auf unbekannten Datensätzen zu verringern. Eine Pruning-Strategie ist das Fehlerreduktions-Pruning: Hierbei wird in jedem Pruning-Schritt derjenige Teilbaum T des Gesamtbaumes E bestimmt, durch dessen Entfernung der Klassifikationsfehler auf der Validierungsmenge am stärksten verringert wird. Dieser Teilbaum wird anschließend entfernt.

15 In einem Versandhaus sollen Spezialkataloge versendet werden. Für einige Kunden wurden bereits Entscheidungen über die zu versendenden Kataloge getroffen. Als Attribute der Kunden stehen die Anzahl der gekauften Artikel in den Gruppen Textilien und Geschenkartikel sowie der dabei angefallene Durchschnittspreis zur Verfügung. Die Ausprägungen sind qualitativer Natur. Es wird nur unterschieden zwischen wenig, mittel und viel bzw. niedrig, mittel und hoch. Für die Kataloge stehen die Varianten Textil (T)-Katalog, ein Geschenkartikel (G)-Katalog oder kein (N-)Katalog zur Verfügung.

16 12 Kundenprofile Kunden Textilien Geschenkartikel D-Preis Katalog X1 mittel wenig mittel T X2 wenig mittel niedrig N X3 mittel viel mittel T G X4 viel wenig hoch T X5 wenig mittel hoch G X6 viel mittel niedrig T G X7 wenig viel niedrig G X8 mittel wenig niedrig N X9 viel wenig niedrig T X10 wenig wenig hoch N X11 wenig viel mittel G X12 viel viel hoch T G

17 1,..,12 Textilien wenig mittel viel ( ) 1 2, 5, 7, 10, , 3, 8 3 4, 6, 9, 12 p ( ) i ( ) ( 2 2 ) T, G, TG, N T, G, TG, N T, G, TG, N Entropie 0,9710 1, IG(Textilien) = 5 (0,9710) 3 (1,5850) (1) = 0,

18 1,..,12 Geschenkartikel wenig mittel viel Entropie 1 1, 4, 8, 9, , 5, 6 3 3, 7, 11, 12 p ( 3 2 ) i ( 1 1 1) 5 0 ( ) T, G, TG, N T, G, TG, N T, G, TG, N 0,9710 1, IG(Geschenkartikel) = 2 5 (0,9710) (1,5850) 12 (1) = 0, 8658

19 1,..,12 Durchschnittspreis wenig mittel viel 1 2, 6, 7, 8, 9 2 1, 3, , 5, 10, 12 p ( ) ( ) i ( ) Entropie 1,9219 1, IG(Durchschnittspreis) = T, G, TG, N T, G, TG, N T, G, TG, N (1,9219) 3 (1,5850) (2) = 0,1363

20 Geschenkartikel wenig mittel 1,..,12 viel 1 1, 4, 8, 9, , 5, 6 3 3, 7, 11, 12 Textilien w m v N 10 1, 8 4, 9 T, N T Entropie 0, IG(Textilien) = 0, * *1 5 *0 = 0, 5710

21 Geschenkartikel wenig mittel 1,..,12 viel 1 1, 4, 8, 9, , 5, 6 3 3, 7, 11, 12 D-preis w m v N,T 8, 9 1 4, 10 T T, N Entropie 0, IG(D-preis) = 0, * *0 5 *1 = 0, 1710

22 Geschenkartikel wenig mittel 1,..,12 viel 1 1, 4, 8, 9, , 5, 6 3 Textilien w m v Textilien 3, 7, 11, , 8 4, 9 2, 5 N T, N T N, G? TG Entropie 1, IG(Textilien) =, *1 0 *0 = 0,

23 Geschenkartikel wenig mittel 1,..,12 viel 1 1, 4, 8, 9, , 5, 6 3 Textilien w m v D-preis 3, 7, 11, , 8 4, 9 2, 6 5 N T, N T N, TG? G Entropie 1, IG(D-Preis) =, *1 0 *0 = 0,

24 Geschenkartikel wenig mittel 1,..,12 viel 1 1, 4, 8, 9, , 5, 6 3 Textilien w m v Textilien Textilien 3, 7, 11, , 8 4, 9 N 2, 5 T, N T N, G? 6 TG 7, G TG TG Entropie 1 1 IG(Textilien) = 1 2 * *0 4 *0 = 1

25 Geschenkartikel wenig mittel 1,..,12 viel 1 1, 4, 8, 9, , 5, 6 3 Textilien w m v Textilien D-preis 3, 7, 11, , 8 4, 9 N 2, 5 T, N T N, G? TG G TG, G 6 7 3, TG Entropie 1 1 IG(Textilien) = 1 2 * *1 4 *0 = 0, 5

26 Geschenkartikel wenig mittel 1,..,12 viel 1 1, 4, 8, 9, , 5, 6 3 Textilien w m v Textilien Textilien 3, 7, 11, , 8 4, 9 N T, N T n m h 2, 5 N, G? 6 TG 7, G TG TG 8 1

27 1,..,12 Geschenkartikel wenig mittel viel , 4, 8, 9, 10 2, 5, 6 3, 7, 11, 12 Textilien w m v Textilien w m v Textilien w m v 10 1, 8 4, 9 2, 5 6 7, N T, N N, G? TG G TG TG n m h n m h Preis Preis N T? N? G

28 Beim Splitkriterium Gini-Koeffizient ergibt sich der gleiche Baum. Für den Splitt des Wurzelknotens gilt: Gini(Textil)= 0,53 ; Gini(Geschenk)=0,53 ; Gini(Preis)=0,72 Die Splits in der zweiten Phase erfolgen gemäß der Werte Gini(Textil) 0,2 0,33 0 Gini(Preis) 0,4 0,33 0,25

29 Geschenkartikel wenig 1,..,12 1, 4, 8, 9, 10 Textilien Preis T m 1, 8 m 1 Regel: IF Geschenkartikel: wenig AND Textilien: mittel AND Preis: mittel THEN T

Management Support Systeme

Management Support Systeme Management Support Systeme WS 24-25 4.-6. Uhr PD Dr. Peter Gluchowski Folie Gliederung MSS WS 4/5. Einführung Management Support Systeme: Informationssysteme zur Unterstützung betrieblicher Fach- und Führungskräfte

Mehr

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002)

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002) 3. Entscheidungsbäume Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002) (aus Wilhelm 2001) Beispiel: (aus Böhm 2003) Wann sind Entscheidungsbäume

Mehr

Data Mining Anwendungen und Techniken

Data Mining Anwendungen und Techniken Data Mining Anwendungen und Techniken Knut Hinkelmann DFKI GmbH Entdecken von Wissen in banken Wissen Unternehmen sammeln ungeheure mengen enthalten wettbewerbsrelevantes Wissen Ziel: Entdecken dieses

Mehr

Entscheidungsbaumverfahren

Entscheidungsbaumverfahren Entscheidungsbaumverfahren Allgemeine Beschreibung Der Entscheidungsbaum ist die Darstellung einer Entscheidungsregel, anhand derer Objekte in Klassen eingeteilt werden. Die Klassifizierung erfolgt durch

Mehr

Moderne Methoden der KI: Maschinelles Lernen

Moderne Methoden der KI: Maschinelles Lernen Moderne Methoden der KI: Maschinelles Lernen Prof. Dr.Hans-Dieter Burkhard Vorlesung Entscheidungsbäume Darstellung durch Regeln ID3 / C4.5 Bevorzugung kleiner Hypothesen Overfitting Entscheidungsbäume

Mehr

2. Lernen von Entscheidungsbäumen

2. Lernen von Entscheidungsbäumen 2. Lernen von Entscheidungsbäumen Entscheidungsbäume 2. Lernen von Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch Attribut/Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse

Mehr

Maschinelles Lernen Entscheidungsbäume

Maschinelles Lernen Entscheidungsbäume Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen Entscheidungsbäume Paul Prasse Entscheidungsbäume Eine von vielen Anwendungen: Kreditrisiken Kredit - Sicherheiten

Mehr

Algorithmische Modelle als neues Paradigma

Algorithmische Modelle als neues Paradigma Algorithmische Modelle als neues Paradigma Axel Schwer Seminar über Philosophische Grundlagen der Statistik, WS 2010/11 Betreuer: Prof. Dr. Thomas Augustin München, den 28. Januar 2011 1 / 29 LEO BREIMAN

Mehr

Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014

Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014 Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014 Aufgabe 1. Data Mining a) Mit welchen Aufgabenstellungen befasst sich Data Mining? b) Was versteht man unter Transparenz einer Wissensrepräsentation?

Mehr

Anwendung der Business Analytics

Anwendung der Business Analytics Anwendung der Business Analytics TDWI 2013 München Prof. Dr. Carsten Felden Dipl.-Wirt.-Inf. Claudia Koschtial Technische Universität Bergakademie Freiberg (Sachsen) Institut für Wirtschaftsinformatik

Mehr

Seminar Business Intelligence (2) Data Mining & Knowledge Discovery

Seminar Business Intelligence (2) Data Mining & Knowledge Discovery Seminar Business Intelligence () Data Mining & Knowledge Discovery Thema: Klassifikation und Prädiktion Ausarbeitung von Philipp Breitbach AG DBIS Betreuung: Jernej Kovse Inhaltsverzeichnis INHALTSVERZEICHNIS...

Mehr

Lernen von Entscheidungsbäumen. Volker Tresp Summer 2014

Lernen von Entscheidungsbäumen. Volker Tresp Summer 2014 Lernen von Entscheidungsbäumen Volker Tresp Summer 2014 1 Anforderungen an Methoden zum Datamining Schnelle Verarbeitung großer Datenmengen Leichter Umgang mit hochdimensionalen Daten Das Lernergebnis

Mehr

Data Mining und Text Mining Einführung. S2 Einfache Regellerner

Data Mining und Text Mining Einführung. S2 Einfache Regellerner Data Mining und Text Mining Einführung S2 Einfache Regellerner Hans Hermann Weber Univ. Erlangen, Informatik 8 Wintersemester 2003 hans.hermann.weber@gmx.de Inhalt Einiges über Regeln und Bäume R1 ein

Mehr

Jan Parthey, Christin Seifert. 22. Mai 2003

Jan Parthey, Christin Seifert. 22. Mai 2003 Simulation Rekursiver Auto-Assoziativer Speicher (RAAM) durch Erweiterung eines klassischen Backpropagation-Simulators Jan Parthey, Christin Seifert jpar@hrz.tu-chemnitz.de, sech@hrz.tu-chemnitz.de 22.

Mehr

Seminar Business Intelligence Teil II: Data-Mining und Knowledge-Discovery

Seminar Business Intelligence Teil II: Data-Mining und Knowledge-Discovery Seminar usiness Intelligence Teil II: Data-Mining und Knowledge-Discovery Thema : Vortrag von Philipp reitbach. Motivation Übersicht. rundlagen. Entscheidungsbauminduktion. ayes sche Klassifikation. Regression.

Mehr

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining.

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining. Motivation Themenblock: Klassifikation Praktikum: Data Warehousing und Data Mining Ziel Item hat mehrere Attribute Anhand von n Attributen wird (n+)-tes vorhergesagt. Zusätzliches Attribut erst später

Mehr

4. Lernen von Entscheidungsbäumen. Klassifikation mit Entscheidungsbäumen. Entscheidungsbaum

4. Lernen von Entscheidungsbäumen. Klassifikation mit Entscheidungsbäumen. Entscheidungsbaum 4. Lernen von Entscheidungsbäumen Klassifikation mit Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch /Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse zugeordnet werden.

Mehr

Entscheidungsunterstützungssysteme

Entscheidungsunterstützungssysteme Vorlesung WS 2013/2014 Christian Schieder Professur Wirtschaftsinformatik II cschie@tu-chemnitz.eu Literatur zur Vorlesung Gluchowski, P.; Gabriel, R.; Dittmar, C.: Management Support Systeme und Business

Mehr

Vorlesung Maschinelles Lernen

Vorlesung Maschinelles Lernen Vorlesung Maschinelles Lernen Additive Modelle Katharina Morik Informatik LS 8 Technische Universität Dortmund 7.1.2014 1 von 34 Gliederung 1 Merkmalsauswahl Gütemaße und Fehlerabschätzung 2 von 34 Ausgangspunkt:

Mehr

Automatische Mustererkennung zur Klassifikation von Konsumentenverhalten am Beispiel der Kreditwürdigkeitsprüfung

Automatische Mustererkennung zur Klassifikation von Konsumentenverhalten am Beispiel der Kreditwürdigkeitsprüfung Prof. Dr. Gerhard Arminger Dipl.-Ök. Alexandra Schwarz Bergische Universität Wuppertal Fachbereich Wirtschaftswissenschaft Fach Statistik Automatische Mustererkennung zur Klassifikation von Konsumentenverhalten

Mehr

Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07

Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07 Regression Trees Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07 Ao.Univ.Prof. Dr. Marcus Hudec marcus.hudec@univie.ac.at Institut für Scientific Computing, Universität Wien 2

Mehr

Künstliche Intelligenz Maschinelles Lernen

Künstliche Intelligenz Maschinelles Lernen Künstliche Intelligenz Maschinelles Lernen Stephan Schwiebert Sommersemester 2009 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Maschinelles Lernen Überwachtes Lernen

Mehr

x 2 x 1 x 3 5.1 Lernen mit Entscheidungsbäumen

x 2 x 1 x 3 5.1 Lernen mit Entscheidungsbäumen 5.1 Lernen mit Entscheidungsbäumen Falls zum Beispiel A = {gelb, rot, blau} R 2 und B = {0, 1}, so definiert der folgende Entscheidungsbaum eine Hypothese H : A B (wobei der Attributvektor aus A mit x

Mehr

DISKUSSIONSBEITRÄGE DER FAKULTÄT FÜR BETRIEBSWIRTSCHAFTSLEHRE MERCATOR SCHOOL OF MANAGEMENT UNIVERSITÄT DUISBURG-ESSEN. Nr. 374

DISKUSSIONSBEITRÄGE DER FAKULTÄT FÜR BETRIEBSWIRTSCHAFTSLEHRE MERCATOR SCHOOL OF MANAGEMENT UNIVERSITÄT DUISBURG-ESSEN. Nr. 374 DISKUSSIONSBEITRÄGE DER FAKULTÄT FÜR BETRIEBSWIRTSCHAFTSLEHRE MERCATOR SCHOOL OF MANAGEMENT UNIVERSITÄT DUISBURG-ESSEN Nr. 374 Eignung von Verfahren der Mustererkennung im Process Mining Sabrina Kohne

Mehr

Data Mining mit Rapidminer im Direktmarketing ein erster Versuch. Hasan Tercan und Hans-Peter Weih

Data Mining mit Rapidminer im Direktmarketing ein erster Versuch. Hasan Tercan und Hans-Peter Weih Data Mining mit Rapidminer im Direktmarketing ein erster Versuch Hasan Tercan und Hans-Peter Weih Motivation und Ziele des Projekts Anwendung von Data Mining im Versicherungssektor Unternehmen: Standard

Mehr

Mining High-Speed Data Streams

Mining High-Speed Data Streams Mining High-Speed Data Streams Pedro Domingos & Geoff Hulten Departement of Computer Science & Engineering University of Washington Datum : 212006 Seminar: Maschinelles Lernen und symbolische Ansätze Vortragender:

Mehr

Maschinelles Lernen Entscheidungsbäume

Maschinelles Lernen Entscheidungsbäume Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen Entscheidungsbäume Christoph Sawade /Niels Landwehr/Paul Prasse Dominik Lahmann Tobias Scheffer Entscheidungsbäume

Mehr

Überwachtes Lernen: Klassifikation und Regression

Überwachtes Lernen: Klassifikation und Regression Überwachtes Lernen: Klassifikation und Regression Praktikum: Data Warehousing und Data Mining Klassifikationsprobleme Idee Bestimmung eines unbekannten kategorischen Attributwertes (ordinal mit Einschränkung)

Mehr

3. Lernen von Entscheidungsbäumen

3. Lernen von Entscheidungsbäumen 3. Lernen von Entscheidungsbäumen Entscheidungsbäume 3. Lernen von Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch Attribut/Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse

Mehr

Data Mining im Marketing SS 2000

Data Mining im Marketing SS 2000 KATHOLISCHE UNIVERSITÄT EICHSTÄTT WIRTSCHAFTSWISSENSCHAFTLICHE FAKULTÄT INGOLSTADT LEHRSTUHL FÜR ABWL UND WIRTSCHAFTSINFORMATIK PROF. DR. KLAUS D. WILDE Data Mining im Marketing SS 000 Theorie zu: Entscheidungsbäumen

Mehr

TEXTKLASSIFIKATION. WS 2011/12 Computerlinguistik I Deasy Sukarya & Tania Bellini

TEXTKLASSIFIKATION. WS 2011/12 Computerlinguistik I Deasy Sukarya & Tania Bellini TEXTKLASSIFIKATION WS 2011/12 Computerlinguistik I Deasy Sukarya & Tania Bellini GLIEDERUNG 1. Allgemeines Was ist Textklassifikation? 2. Aufbau eines Textklassifikationssystems 3. Arten von Textklassifikationssystemen

Mehr

Data Mining Standards am Beispiel von PMML. Data Mining Standards am Beispiel von PMML

Data Mining Standards am Beispiel von PMML. Data Mining Standards am Beispiel von PMML Data Mining Standards am Beispiel von PMML Allgemeine Definitionen im Data Mining Data Mining (DM) Ein Prozess, um interessante neue Muster, Korrelationen und Trends in großen Datenbeständen zu entdecken,

Mehr

Hochschule Wismar. Fakultät für Wirtschaftswissenschaften. Masterthesis. Entscheidungsbaumgenerierung als elearning-modul

Hochschule Wismar. Fakultät für Wirtschaftswissenschaften. Masterthesis. Entscheidungsbaumgenerierung als elearning-modul Hochschule Wismar Fakultät für Wirtschaftswissenschaften Masterthesis Entscheidungsbaumgenerierung als elearning-modul Masterthesis zur Erlangung des Grades Master of Science in Wirtschaftsinformatik der

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Entscheidungsbäume

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Entscheidungsbäume Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Entscheidungsbäume Christoph Sawade/Niels Landwehr Jules Rasetaharison, Tobias Scheffer Entscheidungsbäume Eine von vielen Anwendungen:

Mehr

Data Warehousing und Data Mining

Data Warehousing und Data Mining Data Warehousing und Data Mining Klassifikation Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Einführung Problemstellung Evaluation Overfitting knn Klassifikator Naive-Bayes

Mehr

Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining

Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining Ausgangssituation Kaizen Data Mining ISO 9001 Wenn andere Methoden an ihre Grenzen stoßen Es gibt unzählige Methoden, die Abläufe

Mehr

Data Mining und Knowledge Discovery in Databases

Data Mining und Knowledge Discovery in Databases Data Mining und Knowledge Discovery in Databases Begriffsabgrenzungen... Phasen der KDD...3 3 Datenvorverarbeitung...4 3. Datenproblematik...4 3. Möglichkeiten der Datenvorverarbeitung...4 4 Data Mining

Mehr

Data-Mining Aufspüren von Mustern mit Hilfe von Entscheidungsbäumen

Data-Mining Aufspüren von Mustern mit Hilfe von Entscheidungsbäumen Hausarbeit Im Rahmen des Seminars Datenanalyse Thema: Data-Mining Aufspüren von Mustern mit Hilfe von Entscheidungsbäumen Seminarleiter: Dr. Siegbert Klinke Humboldt-Universität zu Berlin Abteilung Statistik

Mehr

Kapitel 4: Data Mining

Kapitel 4: Data Mining LUDWIG- MAXIMILIANS- UNIVERSITY MUNICH DEPARTMENT INSTITUTE FOR INFORMATICS Skript zur Vorlesung: Einführung in die Informatik: Systeme und Anwendungen Sommersemester 2011 Kapitel 4: Data Mining Vorlesung:

Mehr

4. Jeder Knoten hat höchstens zwei Kinder, ein linkes und ein rechtes.

4. Jeder Knoten hat höchstens zwei Kinder, ein linkes und ein rechtes. Binäre Bäume Definition: Ein binärer Baum T besteht aus einer Menge von Knoten, die durch eine Vater-Kind-Beziehung wie folgt strukturiert ist: 1. Es gibt genau einen hervorgehobenen Knoten r T, die Wurzel

Mehr

Diskriminanzanalyse Beispiel

Diskriminanzanalyse Beispiel Diskriminanzanalyse Ziel bei der Diskriminanzanalyse ist die Analyse von Gruppenunterschieden, d. h. der Untersuchung von zwei oder mehr Gruppen hinsichtlich einer Vielzahl von Variablen. Diese Methode

Mehr

Data Mining und maschinelles Lernen

Data Mining und maschinelles Lernen Data Mining und maschinelles Lernen Einführung und Anwendung mit WEKA Caren Brinckmann 16. August 2000 http://www.coli.uni-sb.de/~cabr/vortraege/ml.pdf http://www.cs.waikato.ac.nz/ml/weka/ Inhalt Einführung:

Mehr

9 Resümee. Resümee 216

9 Resümee. Resümee 216 Resümee 216 9 Resümee In der vorliegenden Arbeit werden verschiedene Methoden der Datenreduktion auf ihre Leistungsfähigkeit im sozialwissenschaftlichstatistischen Umfeld anhand eines konkreten Anwendungsfalls

Mehr

Maschinelles Lernen. Kapitel 5

Maschinelles Lernen. Kapitel 5 Kapitel 5 Maschinelles Lernen Im täglichen Leben begegnet uns das Lernen meist in einer Mischung aus den Aspekten der Vergrößerung von Wissen und der Verbesserung von Fähigkeiten. Beim Erlernen einer Fremdsprache

Mehr

Business Intelligence mit Microsoft SQL Server 2005

Business Intelligence mit Microsoft SQL Server 2005 Business Intelligence mit Microsoft SQL Server 2005 Holger Schrödl ISBN 3-446-40463-5 Leseprobe Weitere Informationen oder Bestellungen unter http://www.hanser.de/3-446-40463-5 sowie im Buchhandel 4.6

Mehr

Informationsflut bewältigen - Textmining in der Praxis

Informationsflut bewältigen - Textmining in der Praxis Informationsflut bewältigen - Textmining in der Praxis Christiane Theusinger Business Unit Data Mining & CRM Solutions SAS Deutschland Ulrich Reincke Manager Business Data Mining Solutions SAS Deutschland

Mehr

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen 7. Clusteranalyse (= Häufungsanalyse; Clustering-Verfahren) wird der multivariaten Statistik zugeordnet Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut,

Mehr

Seminar Text- und Datamining Datamining-Grundlagen

Seminar Text- und Datamining Datamining-Grundlagen Seminar Text- und Datamining Datamining-Grundlagen Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 23.05.2013 Gliederung 1 Klassifikationsprobleme 2 Evaluation

Mehr

Künstliche Neuronale Netze und Data Mining

Künstliche Neuronale Netze und Data Mining Künstliche Neuronale Netze und Data Mining Catherine Janson, icasus GmbH Heidelberg Abstract Der Begriff "künstliche Neuronale Netze" fasst Methoden der Informationstechnik zusammen, deren Entwicklung

Mehr

Visualisierung der Imperfektion in multidimensionalen Daten

Visualisierung der Imperfektion in multidimensionalen Daten Visualisierung der Imperfektion in multidimensionalen Daten Horst Fortner Imperfektion und erweiterte Konzepte im Data Warehousing Betreuer: Heiko Schepperle 2 Begriffe (1) Visualisierung [Wikipedia] abstrakte

Mehr

B-Bäume I. Algorithmen und Datenstrukturen 220 DATABASE SYSTEMS GROUP

B-Bäume I. Algorithmen und Datenstrukturen 220 DATABASE SYSTEMS GROUP B-Bäume I Annahme: Sei die Anzahl der Objekte und damit der Datensätze. Das Datenvolumen ist zu groß, um im Hauptspeicher gehalten zu werden, z.b. 10. Datensätze auf externen Speicher auslagern, z.b. Festplatte

Mehr

Erzeugung zufälliger Graphen und Bayes-Netze

Erzeugung zufälliger Graphen und Bayes-Netze Erzeugung zufälliger Graphen und Bayes-Netze Proseminar Algorithmen auf Graphen Georg Lukas, IF2000 2002-07-09 E-Mail: georg@op-co.de Folien: http://op-co.de/bayes/ Gliederung 1. Einleitung 2. einfache

Mehr

Data Mining mit der SEMMA Methodik. Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG

Data Mining mit der SEMMA Methodik. Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG Data Mining mit der SEMMA Methodik Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG Data Mining Data Mining: Prozeß der Selektion, Exploration und Modellierung großer Datenmengen, um Information

Mehr

3 Quellencodierung. 3.1 Einleitung

3 Quellencodierung. 3.1 Einleitung Source coding is what Alice uses to save money on her telephone bills. It is usually used for data compression, in other words, to make messages shorter. John Gordon 3 Quellencodierung 3. Einleitung Im

Mehr

Grundlagen der Programmierung 2. Bäume

Grundlagen der Programmierung 2. Bäume Grundlagen der Programmierung 2 Bäume Prof. Dr. Manfred Schmidt-Schauÿ Künstliche Intelligenz und Softwaretechnologie 24. Mai 2006 Graphen Graph: Menge von Knoten undzugehörige (gerichtete oder ungerichtete)

Mehr

2. Microsoft Innovationstag Nord Integrierte Lösungen in der Öffentlichen Verwaltung

2. Microsoft Innovationstag Nord Integrierte Lösungen in der Öffentlichen Verwaltung 2. Microsoft Innovationstag Nord Integrierte Lösungen in der Öffentlichen Verwaltung Reporting, Analyse und Data Mining André Henkel, initions AG 22. und 23. Oktober 2013 in Hamburg

Mehr

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining.

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining. Personalisierung Personalisierung Thomas Mandl Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung Klassifikation Die Nutzer werden in vorab bestimmte Klassen/Nutzerprofilen

Mehr

Entscheidungsbaum-Lernen: Übersicht

Entscheidungsbaum-Lernen: Übersicht Entscheidungsbaum-Lernen: Übersicht Entscheidungsbäume Repräsentationsformalismus Tests Semantik: Klassifikation Ausdrucksfähigkeit Lernen von Entscheidungsbäumen Szenario vollst. Suche vs. TDIDT Maße:

Mehr

Verborgene Schätze heben

Verborgene Schätze heben Verborgene Schätze heben Data Mining mit dem Microsoft SQL Server Martin Oesterer Leiter Vertrieb HMS Analytical Software GmbH Data Mining. Was ist eigentlich wichtig? Data Mining ist: die Extraktion von

Mehr

Clustering und Klassifikation

Clustering und Klassifikation Clustering und Klassifikation Matthias Pretzer matthias.pretzer@informatik.uni-oldenburg.de Ferdinand-von-Schill-Str. 3 26131 Oldenburg 5. Februar 2003 Im heutigen Informationszeitalter fallen immer schneller

Mehr

Ermittlung von Assoziationsregeln aus großen Datenmengen. Zielsetzung

Ermittlung von Assoziationsregeln aus großen Datenmengen. Zielsetzung Ermittlung von Assoziationsregeln aus großen Datenmengen Zielsetzung Entscheidungsträger verwenden heutzutage immer häufiger moderne Technologien zur Lösung betriebswirtschaftlicher Problemstellungen.

Mehr

Text Mining 4. Seminar Klassifikation

Text Mining 4. Seminar Klassifikation Text Mining 4. Seminar Klassifikation Stefan Bordag 1. Klassifikation Stringklassifikation (männliche-weibliche Vornamen) Dokument klassifikation Bayesian Neuronal network (Decision tree) (Rule learner)

Mehr

Statistik II für Betriebswirte Vorlesung 3

Statistik II für Betriebswirte Vorlesung 3 PD Dr. Frank Heyde TU Bergakademie Freiberg Institut für Stochastik Statistik II für Betriebswirte Vorlesung 3 5. November 2013 Beispiel: Aktiensplit (Aczel & Sounderpandan, Aufg. 14-28) Ein Börsenanalyst

Mehr

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,

Mehr

6. Überblick zu Data Mining-Verfahren

6. Überblick zu Data Mining-Verfahren 6. Überblick zu Data Mining-Verfahren Einführung Clusteranalse k-means-algorithmus Klassifikation Klassifikationsprozess Konstruktion eines Entscheidungsbaums Assoziationsregeln / Warenkorbanalse Support

Mehr

FH-Mannheim. Studiengang Informatik SS2005 KDM. Prof. Dr. A.Schmücker-Schend. Data Mining Anwendungen. Übungsblatt 2 Aufgabe 3

FH-Mannheim. Studiengang Informatik SS2005 KDM. Prof. Dr. A.Schmücker-Schend. Data Mining Anwendungen. Übungsblatt 2 Aufgabe 3 FH-Mannheim Studiengang Informatik SS2005 KDM Prof. Dr. A.Schmücker-Schend Data Mining Anwendungen Übungsblatt 2 Aufgabe 3 Abgabe bis zum 12. Mai 2005 Gruppe 13 NAME MATRIKELNUMMER UNTERSCHRIFT Uli Ruffler

Mehr

Maximizing the Spread of Influence through a Social Network

Maximizing the Spread of Influence through a Social Network 1 / 26 Maximizing the Spread of Influence through a Social Network 19.06.2007 / Thomas Wener TU-Darmstadt Seminar aus Data und Web Mining bei Prof. Fürnkranz 2 / 26 Gliederung Einleitung 1 Einleitung 2

Mehr

Neuerungen Analysis Services

Neuerungen Analysis Services Neuerungen Analysis Services Neuerungen Analysis Services Analysis Services ermöglicht Ihnen das Entwerfen, Erstellen und Visualisieren von Data Mining-Modellen. Diese Mining-Modelle können aus anderen

Mehr

Data Mining Bericht. Analyse der Lebenssituation der Studenten. der Hochschule Wismar. Zur Veranstaltung. Business Intelligence

Data Mining Bericht. Analyse der Lebenssituation der Studenten. der Hochschule Wismar. Zur Veranstaltung. Business Intelligence Data Mining Bericht Analyse der Lebenssituation der Studenten der Hochschule Wismar Zur Veranstaltung Business Intelligence Eingereicht von: Mohamed Oukettou 108 208 Maxim Beifert 118 231 Vorgelegt von:

Mehr

Sortierverfahren für Felder (Listen)

Sortierverfahren für Felder (Listen) Sortierverfahren für Felder (Listen) Generell geht es um die Sortierung von Daten nach einem bestimmten Sortierschlüssel. Es ist auch möglich, daß verschiedene Daten denselben Sortierschlüssel haben. Es

Mehr

riskkv Scorenalyse riskkv Scoring Seite 1 von 9

riskkv Scorenalyse riskkv Scoring Seite 1 von 9 riskkv Scorenalyse riskkv Scoring Seite 1 von 9 Das Modul dient der flexiblen Erstellung, Auswertung und Verwendung von Scores. Durch vordefinierte Templates können in einer Einklicklösung bspw. versichertenbezogene

Mehr

Data Mining (ehem. Entscheidungsunterstützungssysteme)

Data Mining (ehem. Entscheidungsunterstützungssysteme) Data Mining (ehem. Entscheidungsunterstützungssysteme) Melanie Pfoh Anja Tetzner Christian Schieder Übung WS 2014/15 AGENDA TEIL 1 Aufgabe 2 (Wiederholung OPAL / Vorlesungsinhalte) ENTSCHEIDUNGSBAUMVERFAHREN

Mehr

Investition und Risiko. Finanzwirtschaft I 5. Semester

Investition und Risiko. Finanzwirtschaft I 5. Semester Investition und Risiko Finanzwirtschaft I 5. Semester 1 Gliederung Ziel Korrekturverfahren: Einfache Verfahren der Risikoberücksichtigung Sensitivitätsanalyse Monte Carlo Analyse Investitionsentscheidung

Mehr

Data-Mining: Ausgewählte Verfahren und Werkzeuge

Data-Mining: Ausgewählte Verfahren und Werkzeuge Fakultät Informatik Institut für Angewandte Informatik Lehrstuhl Technische Informationssysteme Data-Mining: Ausgewählte Verfahren und Vortragender: Jia Mu Betreuer: Dipl.-Inf. Denis Stein Dresden, den

Mehr

Data Mining im e-commerce am Beispiel der Deutschen Bahn AG

Data Mining im e-commerce am Beispiel der Deutschen Bahn AG Fellowship Data Mining im e-commerce am Beispiel der Deutschen Bahn AG Katja Steuernagel Universität Kaiserslautern Momentan: GIP AG Göttelmannstraße 17 55130 Mainz katja@katja-steuernagel.de Zusammenfassung

Mehr

Informatik 11 Kapitel 2 - Rekursive Datenstrukturen

Informatik 11 Kapitel 2 - Rekursive Datenstrukturen Fachschaft Informatik Informatik 11 Kapitel 2 - Rekursive Datenstrukturen Michael Steinhuber König-Karlmann-Gymnasium Altötting 15. Januar 2016 Folie 1/77 Inhaltsverzeichnis I 1 Datenstruktur Schlange

Mehr

Data Mining als Arbeitsprozess

Data Mining als Arbeitsprozess Data Mining als Arbeitsprozess Hagen Knaf Studiengang Angewandte Mathematik Hochschule RheinMain 31. Dezember 2015 In Unternehmen werden umfangreichere Aktivitäten oder Projekte im Bereich des Data Mining

Mehr

Seminar Business Intelligence Teil II. Data Mining & Knowledge Discovery

Seminar Business Intelligence Teil II. Data Mining & Knowledge Discovery Seminar Business Intelligence Teil II Data Mining & Knowledge Discovery Was ist Data Mining? Sabine Queckbörner Was ist Data Mining? Data Mining Was ist Data Mining? Nach welchen Mustern wird gesucht?

Mehr

EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN

EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN T-SYSTEMS MULTIMEDIA SOLUTIONS GMBH, 16. FEBRUAR 2012 1. Schlüsselworte Semantic Web, Opinion Mining, Sentiment Analysis, Stimmungsanalyse,

Mehr

Analyse bivariater Kontingenztafeln

Analyse bivariater Kontingenztafeln Analyse bivariater Kontingenztafeln Werden zwei kategoriale Merkmale mit nicht zu vielen möglichen Ausprägungen gemeinsam analysiert, so kommen zur Beschreibung der gemeinsamen Verteilung im allgemeinen

Mehr

Algorithmen und Datenstrukturen Bereichsbäume

Algorithmen und Datenstrukturen Bereichsbäume Algorithmen und Datenstrukturen Bereichsbäume Matthias Teschner Graphische Datenverarbeitung Institut für Informatik Universität Freiburg SS 12 Überblick Einführung k-d Baum BSP Baum R Baum Motivation

Mehr

Exploration und Klassifikation von BigData

Exploration und Klassifikation von BigData Exploration und Klassifikation von BigData Inhalt Einführung Daten Data Mining: Vorbereitungen Clustering Konvexe Hülle Fragen Google: Riesige Datenmengen (2009: Prozessieren von 24 Petabytes pro Tag)

Mehr

Business Intelligence. Business Intelligence Seminar, WS 2007/08

Business Intelligence. Business Intelligence Seminar, WS 2007/08 Business Intelligence Seminar, WS 2007/08 Prof. Dr. Knut Hinkelmann Fachhochschule Nordwestschweiz knut.hinkelmann@fhnw.ch Business Intelligence Entscheidungsorientierte Sammlung, Aufbereitung und Darstellung

Mehr

Ersatzteile der Extraklasse Magento-Module der Shopwerft

Ersatzteile der Extraklasse Magento-Module der Shopwerft Ersatzteile der Extraklasse Magento-Module der Shopwerft MicroStudio - Fotolia.com E-Mails sind für Online-Shops ein zentrales Mittel in der Kundenkommunikation. Zur Abwicklung von Bestellungen werden

Mehr

Lösungen zu den Übungsaufgaben aus Kapitel 3

Lösungen zu den Übungsaufgaben aus Kapitel 3 Lösungen zu den Übungsaufgaben aus Kapitel 3 Ü3.1: a) Die Start-Buchungslimits betragen b 1 = 25, b 2 = 20 und b 3 = 10. In der folgenden Tabelle sind jeweils die Annahmen ( ) und Ablehnungen ( ) der Anfragen

Mehr

Data Cube. Aggregation in SQL. Beispiel: Autoverkäufe. On-line Analytical Processing (OLAP) 1. Einführung. 2. Aggregation in SQL, GROUP BY

Data Cube. Aggregation in SQL. Beispiel: Autoverkäufe. On-line Analytical Processing (OLAP) 1. Einführung. 2. Aggregation in SQL, GROUP BY Data Cube On-line Analytical Processing (OLAP). Einführung Ziel: Auffinden interessanter Muster in großen Datenmengen 2. Aggregation in SQL, GROUP BY 3. Probleme mit GROUP BY 4. Der Cube-Operator! Formulierung

Mehr

Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens

Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 17.04.2015 Entscheidungsprobleme beim Textmining

Mehr

6.6 Vorlesung: Von OLAP zu Mining

6.6 Vorlesung: Von OLAP zu Mining 6.6 Vorlesung: Von OLAP zu Mining Definition des Begriffs Data Mining. Wichtige Data Mining-Problemstellungen, Zusammenhang zu Data Warehousing,. OHO - 1 Definition Data Mining Menge von Techniken zum

Mehr

Textmining Klassifikation von Texten Teil 1: Naive Bayes

Textmining Klassifikation von Texten Teil 1: Naive Bayes Textmining Klassifikation von Texten Teil 1: Naive Bayes Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten 1: Naive

Mehr

Proseminar Künstliche Intelligenz

Proseminar Künstliche Intelligenz Proseminar Künstliche Intelligenz Data-Mining Tobias Loose Roy Thieme 20. Dezember 2011 1 / 51 Inhaltsverzeichnis 1 Einleitung 2 Empfehlungen Metriken Dinge Empfehlen 3 Clusteranalyse Hierarchische Clusteranalyse

Mehr

8. Clusterbildung, Klassifikation und Mustererkennung

8. Clusterbildung, Klassifikation und Mustererkennung 8. Clusterbildung, Klassifikation und Mustererkennung Begriffsklärung (nach Voss & Süße 1991): Objekt: wird in diesem Kapitel mit einem zugeordneten Merkmalstupel (x 1,..., x M ) identifiziert (Merkmalsextraktion

Mehr

Ein Schlüssel ist eine Menge von Attributen (also eines oder mehrere), die eine Datenzeile (Tupel) einer Tabelle eindeutig identifiziert

Ein Schlüssel ist eine Menge von Attributen (also eines oder mehrere), die eine Datenzeile (Tupel) einer Tabelle eindeutig identifiziert Maika Büschenfeldt Datenbanken: Skript 1 1. Was ist eine relationale Datenbank? In Datenbanken können umfangreiche Datenbestände strukturiert abgelegt werden. Das Konzept relationaler Datenbanken soll

Mehr

1 Predictive Analytics mit Random Forest

1 Predictive Analytics mit Random Forest Predictive Analytics Demokratie im Wald 1 Agenda 1. Predictive Analytics Übersicht 2. Random Forest Grundkonzepte und Anwendungsfelder 3. Entscheidungsbaum Classification and Regression Tree (CART) 4.

Mehr

- Eine typische Ausfallrate, wie sie bei vielen technischen Anwendungen zu sehen ist hat die Form einer Badewanne, deshalb nennt man diese Kurve auch

- Eine typische Ausfallrate, wie sie bei vielen technischen Anwendungen zu sehen ist hat die Form einer Badewanne, deshalb nennt man diese Kurve auch 1 2 - Eine typische Ausfallrate, wie sie bei vielen technischen Anwendungen zu sehen ist hat die Form einer Badewanne, deshalb nennt man diese Kurve auch Badewannenkurve. -mit der Badewannenkurve lässt

Mehr

Knowledge Discovery. Lösungsblatt 1

Knowledge Discovery. Lösungsblatt 1 Universität Kassel Fachbereich Mathematik/nformatik Fachgebiet Wissensverarbeitung Hertie-Stiftungslehrstuhl Wilhelmshöher Allee 73 34121 Kassel Email: hotho@cs.uni-kassel.de Tel.: ++49 561 804-6252 Dr.

Mehr

26. GIL Jahrestagung

26. GIL Jahrestagung GeorgAugustUniversität Göttingen 26. GIL Jahrestagung Einsatz von künstlichen Neuronalen Netzen im Informationsmanagement der Land und Ernährungswirtschaft: Ein empirischer Methodenvergleich Holger Schulze,

Mehr

Maschinelles Lernen: Neuronale Netze. Ideen der Informatik Kurt Mehlhorn

Maschinelles Lernen: Neuronale Netze. Ideen der Informatik Kurt Mehlhorn Maschinelles Lernen: Neuronale Netze Ideen der Informatik Kurt Mehlhorn 16. Januar 2014 Übersicht Stand der Kunst im Bilderverstehen: Klassifizieren und Suchen Was ist ein Bild in Rohform? Biologische

Mehr

6. Überblick zu Data Mining-Verfahren

6. Überblick zu Data Mining-Verfahren 6. Überblick zu Data Mining-Verfahren Einführung Clusteranalyse k-means-algorithmus Canopy Clustering Klassifikation Klassifikationsprozess Konstruktion eines Entscheidungsbaums Assoziationsregeln / Warenkorbanalyse

Mehr

Kapitel ML: III (Fortsetzung)

Kapitel ML: III (Fortsetzung) Kapitel ML: III (Fortsetzung) III. Entscheidungsbäume Repräsentation und Konstruktion Impurity-Funktionen Entscheidungsbaumalgorithmen Pruning ML: III-87 Decision Trees c STEIN/LETTMANN 2005-2011 Missklassifikationskosten

Mehr

Data Mining - Clustering. Sven Elvers

Data Mining - Clustering. Sven Elvers Agenda Data Mining Clustering Aktuelle Arbeiten Thesis Outline 2 Agenda Data Mining Clustering Aktuelle Arbeiten Thesis Outline 3 Data Mining Entdecken versteckter Informationen, Muster und Zusammenhänge

Mehr