Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining.

Größe: px
Ab Seite anzeigen:

Download "Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining."

Transkript

1 Motivation Themenblock: Klassifikation Praktikum: Data Warehousing und Data Mining Ziel Item hat mehrere Attribute Anhand von n Attributen wird (n+)-tes vorhergesagt. Zusätzliches Attribut erst später bekannt Grundlage für Voraussage Menge von Tupeln (Trainingsmenge) für die alle Werte bekannt Beispiel: Attribute,, n: Alter, Einkommen, Beruf, Attribut n+: Kreditwürdigkeit Ansätze Binäre Entscheidungsbäume Neuronale Netze genetische Algorithmen Case-Based Reasoning Entscheidungsbäume Bayes Baum wird aufgebaut, basierend auf Training Set Unterschiedliche Entscheidungsbäume für das gleiche Trainings Set möglich. 3 4

2 Binäre Entscheidungsbäume - Aufbau Wie findet man gute Split-Attribute und wie legt man den Schwellwert fest? Entropie eines Splits: Ziel: Split finden, der Entropie minimiert. Definition von Entropie: Wann ist Entropie minimal, wann maximal? Naive Bayes weitere Möglichkeit, einen Attributwert vorherzusagen Beispiel: Vorherzusagendes Tupel: (,,,c=?) Vorgehen nach Naive Bayes: a a a3 c Sei X={a, a, a3}. Wahrscheinlichkeit, dass unser Tupel den Wert c= hat: P(c= X)= P(c=)*P(X c=)= P(c=)*P(a= c=)*p(a= c=)*p(a3= c=)=,574*,5*,5*,5=,8 Wahrscheinlichkeit, dass unser Tupel den Wert c= hat: P(c= X)= P(c=)*P(X c=)= P(c=)*P(a= c=) P(a= c=), P(a3= c=)=,486*,33*,66*,66=,6 Jetzt die wahrscheinlichste Hypothese suchen (max {P(c= X), P(c= X)}) -> c= 5 6 Naive Bayes - Weitere Eigenschaften Klassifikation mit dem Oracle Data Miner Attribute unabhängig voneinander betrachtet Vgl. Entscheidungsbaum: Reihenfolge nicht wichtig Liefert in der Theorie sehr gute Ergebnisse Aber: In der Praxis nicht unbedingt da Zusammenhänge zwischen Attributen ignoriert neues Modell erstellen: Classificationsmodell Wizard: Trainingsdaten auswählen Art der Daten angeben: single record per case: EinTupel für einen Fall oder multi record per case = mehrere Tupel für Fall (z.b.: Ein Kunde kauft beliebig viele Artikel. Pro gekauftem Artikel bekommt der Kunde ein Tupel) 7 8

3 Data Miner - Naive Bayes Beschleunigen des Algorithmus: Singleton Treshold: nur solche berücksichtigt, deren Vorkommen über eingegebenen Threshold liegt z.b. Range=.3 -> Item muss in mind. 3% aller Tupel vorkommen Pairwise Treshold: wie Singleton nur für jeweils zwei Items Data Miner - Adaptive Bayes Network Parameter: SingleFeatureBuild: baut Entscheidungsbaum auf Einziger Classifier, der Regeln anzeigt Predictors: Maximale Anzahl der genutzten Attribute Default: 5 Network Feature Deapth: Maximale Anzahl der Ebenen des Baums Default: Möglichkeit Zeitlimit einzusetzen 9 Data Miner - Adaptive Bayes Network - Regeln Knoten der Entscheidungsbäume mit Regeln Support Anzahl Tupel die alle Regeln erfüllen / Anzahl aller Tupel Confidence Anzahl Tupel, die Regel erfüllen / Anzahl Tupel die Werte der Bedingung der Regel enthalten Beispiel Regel 98:,6% aller Tupel enthalten die Attributwerte HOUSEHOLD_SIZE=3, PROMO_RESPOND= und AFFINITY_CARD= 6,5% der Tupel mit Attributwert HOUSEHOLD_SIZE=3 und PROMO_RESPOND= haben den Attributwert AFFINITY_CARD= Adaptive Bayes Network MultiFeatureBuild Kombination aus Naive Bayes Classifier und Entscheidungsbäumen Predictors: max. Anzahl der Attribute für die Erstellung der Entscheidungsbäume Naive Bayes Predictors: max. Anzahl Attribute für den Naive Bayes-Classifier Network Feature Depth: max. Tiefe der Entscheidungsbäume Pruned Network Features: Wenn ein weiterer Baum erstellt wurde, wird getestet, ob er die Akkuratheit des Modells verbessert oder verschlechtert. Mithilfe des PNF wird festgelegt, ab wie vielen verschlechternden Bäumen der Algorithmus terminiert.

4 Adaptive Bayes Network NaiveBayesBuild erstellt einen reduzierten Naive Bayes Classifier Naive Bayes Predictors: maximale Anzahl der Attribute, die bei der Modellerstellung berücksichtigt werden Berechtigung wohl aus Kompatibilitätsgründen mit früheren Versionen des Oracle Data Miners Singleton Treshold und Pairwise Treshold sind fest auf gestellt. Klassifikation Cost weitere Parameter bei der Modellerstellung Kostenmatrix: Im Beispiel: Gesucht sind Kunden, die Ihren Umsatz nach erhalt einer Rabattkarte um Prozent erhöhen (Avinity_Card = ) Target Value ist somit False Positive: Ein Kunde bekommt eine Rabattkarte, aber kauft nicht entsprechend mehr False Negative: Ein Kunde bekommt keine Karte, hätte aber mit Karte mehr gekauft 3 4 Klassifikation Kostenmatrix I ohne Kostenatrix: Veränderungen geht der Algorithmus davon aus, dass uns False Positive und False Negative gleich stören Algorithmus versucht, die Gesamtkosten des Ergebnisses zu minimieren in unserem Beispiel möchte der Kaufhausbesitzer unbedingt den Umsatz steigern und gibt dafür lieber mal ein paar Karten zuviel aus der Hand, als eine zu wenig. False Positive stören uns also weniger als False Negative Klassifikation Kostenmatrix II in den Zeilen sind die tatsächlichen Werte eingetragen und in den Spalten die Vorhergesagten Für welche Kunden steht dieses Feld? Was haben wir verändert? 5 6

5 Klassifikation - Prior Priors Probability Setting wenn die Daten auf einem Stratified Sample erstellt wurden, kann man den Algorithmus anpassen in diesem Beispiel wurde ein Sample mit gleicher Verteilung der Werte des Attributs Avinity_Card erstellt tatsächliche Datenverteilung: Klassifikation Test I Modell testen Parameter: Standard Test: Test findet auf einem neuen Datensatz statt Cross Validation Test: nur sehr wenige Datentupel zur Verfügung Modell auf gesamtem Datensatz erstellen mit leave-one-out crossvalidation -Methode auf demselben Datensatz testen 7 8 Klassifikation Test II Ergebnis: die Hälfte aller Kunden, denen wir eine Karte zuteilen, werden Ihren Umsatz entsprechend erhöhen (ohne Data Mining hier 3%) ca.,5% der Kunden, die den Umsatz um % gesteigert hätten sind uns entgangen (Pred= Act= / Act= *) Möglichkeit, das Ergebnis in Excel zu exportieren Classifikation Test III Lift ist eine weitere Möglichkeit der Modellbewertung. Bsp.: Wie viele meine Kunden muss ich mit Karten versorgen, um mit meinem Modell % der Leute zu finden, die Ihren Umsatz um % steigern? 9

6 Classifikation - Modellbewertung Classifikation Modellbewertung Ergebnis Cumulative Target: zu lesen: nach rechts sind die Quantile in % angetragen nach oben die Gesamtpopulation und in blau die True Positives um % der Kunden zu finden, die wir suchen, sind ca. 5% unserer mit größter Sicherheit vorhergesagten Kunden notwendig wie sähe Cumulative Target Chart für Algorithmus aus, der alle Tupel richtig klassifiziert? Ergebnis Cumulative Lift: zeigt an, um wieviel besser das Modell klassifiziert, als eine zufällige Vorhersage des Zielattributs Beispiel.Quantil: Faktor 3,6 bedeutet, wir finden mit unseren sichersten vorhergesagten % der Tupel über 3mal soviele gewünschte Kunden wie ohne Modell Ist es sinnvoll, Kunden des neunten Quantils, deren Vorhersagewert AFFINITY_CARD = ist, eine Rabattkarte zuzuteilen?

Motivation. Themenblock: Data Preprocessing. Einsatzgebiete für Data Mining I. Modell von Gianotti und Pedreschi

Motivation. Themenblock: Data Preprocessing. Einsatzgebiete für Data Mining I. Modell von Gianotti und Pedreschi Motivation Themenblock: Data Preprocessing We are drowning in information, but starving for knowledge! (John Naisbett) Was genau ist Datenanalyse? Praktikum: Data Warehousing und Data Mining Was ist Data

Mehr

Data Mining und maschinelles Lernen

Data Mining und maschinelles Lernen Data Mining und maschinelles Lernen Einführung und Anwendung mit WEKA Caren Brinckmann 16. August 2000 http://www.coli.uni-sb.de/~cabr/vortraege/ml.pdf http://www.cs.waikato.ac.nz/ml/weka/ Inhalt Einführung:

Mehr

Überwachtes Lernen: Klassifikation und Regression

Überwachtes Lernen: Klassifikation und Regression Überwachtes Lernen: Klassifikation und Regression Praktikum: Data Warehousing und Data Mining Klassifikationsprobleme Idee Bestimmung eines unbekannten kategorischen Attributwertes (ordinal mit Einschränkung)

Mehr

Maschinelles Lernen Entscheidungsbäume

Maschinelles Lernen Entscheidungsbäume Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen Entscheidungsbäume Paul Prasse Entscheidungsbäume Eine von vielen Anwendungen: Kreditrisiken Kredit - Sicherheiten

Mehr

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002)

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002) 3. Entscheidungsbäume Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002) (aus Wilhelm 2001) Beispiel: (aus Böhm 2003) Wann sind Entscheidungsbäume

Mehr

Data Mining-Modelle und -Algorithmen

Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining ist ein Prozess, bei dem mehrere Komponenten i n- teragieren. Sie greifen auf Datenquellen, um diese zum Training,

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Entscheidungsbäume

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Entscheidungsbäume Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Entscheidungsbäume Christoph Sawade/Niels Landwehr Jules Rasetaharison, Tobias Scheffer Entscheidungsbäume Eine von vielen Anwendungen:

Mehr

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002) 6. Bayes-Klassifikation (Schukat-Talamazzini 2002) (Böhm 2003) (Klawonn 2004) Der Satz von Bayes: Beweis: Klassifikation mittels des Satzes von Bayes (Klawonn 2004) Allgemeine Definition: Davon zu unterscheiden

Mehr

Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014

Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014 Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014 Aufgabe 1. Data Mining a) Mit welchen Aufgabenstellungen befasst sich Data Mining? b) Was versteht man unter Transparenz einer Wissensrepräsentation?

Mehr

Data Mining mit der SEMMA Methodik. Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG

Data Mining mit der SEMMA Methodik. Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG Data Mining mit der SEMMA Methodik Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG Data Mining Data Mining: Prozeß der Selektion, Exploration und Modellierung großer Datenmengen, um Information

Mehr

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining Gliederung 1. Einführung 2. Grundlagen Data Mining Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining 3. Ausgewählte Methoden des Data

Mehr

Data Mining Anwendungen und Techniken

Data Mining Anwendungen und Techniken Data Mining Anwendungen und Techniken Knut Hinkelmann DFKI GmbH Entdecken von Wissen in banken Wissen Unternehmen sammeln ungeheure mengen enthalten wettbewerbsrelevantes Wissen Ziel: Entdecken dieses

Mehr

Data Mining mit Rapidminer im Direktmarketing ein erster Versuch. Hasan Tercan und Hans-Peter Weih

Data Mining mit Rapidminer im Direktmarketing ein erster Versuch. Hasan Tercan und Hans-Peter Weih Data Mining mit Rapidminer im Direktmarketing ein erster Versuch Hasan Tercan und Hans-Peter Weih Motivation und Ziele des Projekts Anwendung von Data Mining im Versicherungssektor Unternehmen: Standard

Mehr

Data Mining - Wiederholung

Data Mining - Wiederholung Data Mining - Wiederholung Norbert Fuhr 9. Juni 2008 Problemstellungen Problemstellungen Daten vs. Information Def. Data Mining Arten von strukturellen Beschreibungen Regeln (Klassifikation, Assoziations-)

Mehr

Data Mining Bericht. Analyse der Lebenssituation der Studenten. der Hochschule Wismar. Zur Veranstaltung. Business Intelligence

Data Mining Bericht. Analyse der Lebenssituation der Studenten. der Hochschule Wismar. Zur Veranstaltung. Business Intelligence Data Mining Bericht Analyse der Lebenssituation der Studenten der Hochschule Wismar Zur Veranstaltung Business Intelligence Eingereicht von: Mohamed Oukettou 108 208 Maxim Beifert 118 231 Vorgelegt von:

Mehr

MS SQL Server 2012 (4)

MS SQL Server 2012 (4) MS SQL Server 2012 (4) Data Mining, Analyse und multivariate Verfahren Marco Skulschus Jan Tittel Marcus Wiederstein Webseite zum Buch: http://vvwvv.comelio-medien.com/buch-kataiog/ms sql_server/ms sql

Mehr

Textmining Klassifikation von Texten Teil 1: Naive Bayes

Textmining Klassifikation von Texten Teil 1: Naive Bayes Textmining Klassifikation von Texten Teil 1: Naive Bayes Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten 1: Naive

Mehr

Data Mining und Knowledge Discovery in Databases

Data Mining und Knowledge Discovery in Databases Data Mining und Knowledge Discovery in Databases Begriffsabgrenzungen... Phasen der KDD...3 3 Datenvorverarbeitung...4 3. Datenproblematik...4 3. Möglichkeiten der Datenvorverarbeitung...4 4 Data Mining

Mehr

Evaluation. Caroline Sporleder. Computational Linguistics Universität des Saarlandes. Sommersemester 2011 26.05.2011

Evaluation. Caroline Sporleder. Computational Linguistics Universität des Saarlandes. Sommersemester 2011 26.05.2011 Evaluation Caroline Sporleder Computational Linguistics Universität des Saarlandes Sommersemester 2011 26.05.2011 Caroline Sporleder Evaluation (1) Datensets Caroline Sporleder Evaluation (2) Warum evaluieren?

Mehr

Data Warehousing und Data Mining

Data Warehousing und Data Mining Data Warehousing und Data Mining Klassifikation Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Einführung Problemstellung Evaluation Overfitting knn Klassifikator Naive-Bayes

Mehr

Neuerungen Analysis Services

Neuerungen Analysis Services Neuerungen Analysis Services Neuerungen Analysis Services Analysis Services ermöglicht Ihnen das Entwerfen, Erstellen und Visualisieren von Data Mining-Modellen. Diese Mining-Modelle können aus anderen

Mehr

Seminar Business Intelligence Teil II: Data-Mining und Knowledge-Discovery

Seminar Business Intelligence Teil II: Data-Mining und Knowledge-Discovery Seminar usiness Intelligence Teil II: Data-Mining und Knowledge-Discovery Thema : Vortrag von Philipp reitbach. Motivation Übersicht. rundlagen. Entscheidungsbauminduktion. ayes sche Klassifikation. Regression.

Mehr

Seminar Business Intelligence (2) Data Mining & Knowledge Discovery

Seminar Business Intelligence (2) Data Mining & Knowledge Discovery Seminar Business Intelligence () Data Mining & Knowledge Discovery Thema: Klassifikation und Prädiktion Ausarbeitung von Philipp Breitbach AG DBIS Betreuung: Jernej Kovse Inhaltsverzeichnis INHALTSVERZEICHNIS...

Mehr

Data Mining Software. Funktionsvergleich und Benchmarkstudie. -Probekapitel-

Data Mining Software. Funktionsvergleich und Benchmarkstudie. -Probekapitel- Data Mining Software Funktionsvergleich und Benchmarkstudie -Probekapitel- mayato -Studie Data Mining Software 2009 4.3 KXEN Analytic Framework 4.04 Im Folgenden wird das Self-Acting Data Mining-Werkzeug

Mehr

Seminar Text- und Datamining Datamining-Grundlagen

Seminar Text- und Datamining Datamining-Grundlagen Seminar Text- und Datamining Datamining-Grundlagen Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 23.05.2013 Gliederung 1 Klassifikationsprobleme 2 Evaluation

Mehr

Proseminar - Data Mining

Proseminar - Data Mining Proseminar - Data Mining SCCS, Fakultät für Informatik Technische Universität München SS 2012, SS 2012 1 Data Mining Pipeline Planung Aufbereitung Modellbildung Auswertung Wir wollen nützliches Wissen

Mehr

Datamining Cup Lab 2005

Datamining Cup Lab 2005 Datamining Cup Lab 2005 Arnd Issler und Helga Velroyen 18. Juli 2005 Einleitung Jährlich wird der Datamining Cup 1 von der Firma Prudsys und der TU Chemnitz veranstaltet. Im Rahmen des Datamining-Cup-Praktikums

Mehr

Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07

Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07 Regression Trees Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07 Ao.Univ.Prof. Dr. Marcus Hudec marcus.hudec@univie.ac.at Institut für Scientific Computing, Universität Wien 2

Mehr

Naive Bayes. 5. Dezember 2014. Naive Bayes 5. Dezember 2014 1 / 18

Naive Bayes. 5. Dezember 2014. Naive Bayes 5. Dezember 2014 1 / 18 Naive Bayes 5. Dezember 2014 Naive Bayes 5. Dezember 2014 1 / 18 Inhaltsverzeichnis 1 Thomas Bayes 2 Anwendungsgebiete 3 Der Satz von Bayes 4 Ausführliche Form 5 Beispiel 6 Naive Bayes Einführung 7 Naive

Mehr

Proseminar - Data Mining

Proseminar - Data Mining Proseminar - Data Mining SCCS, Fakultät für Informatik Technische Universität München SS 2014, SS 2014 1 Data Mining: Beispiele (1) Hausnummererkennung (Klassifikation) Source: http://arxiv.org/abs/1312.6082,

Mehr

Informationsflut bewältigen - Textmining in der Praxis

Informationsflut bewältigen - Textmining in der Praxis Informationsflut bewältigen - Textmining in der Praxis Christiane Theusinger Business Unit Data Mining & CRM Solutions SAS Deutschland Ulrich Reincke Manager Business Data Mining Solutions SAS Deutschland

Mehr

Mit KI gegen SPAM. Proseminar Künstliche Intelligenz

Mit KI gegen SPAM. Proseminar Künstliche Intelligenz Mit KI gegen SPAM Proseminar Künstliche Intelligenz SS 2006 Florian Laib Ausblick Was ist SPAM? Warum SPAM-Filter? Naive Bayes-Verfahren Fallbasiertes Schließen Fallbasierte Filter TiMBL Vergleich der

Mehr

Der CRISP-DM Prozess für Data Mining. CRISP-DM Standard CRISP-DM. Wozu einen standardisierten Prozess?

Der CRISP-DM Prozess für Data Mining. CRISP-DM Standard CRISP-DM. Wozu einen standardisierten Prozess? Wozu einen standardisierten Prozess? Der Prozess der Wissensentdeckung muss verlässlich und reproduzierbar sein auch für Menschen mit geringem Data Mining Hintergrundwissen. Der CRISP-DM Prozess für Data

Mehr

Informationstheorethisches Theorem nach Shannon

Informationstheorethisches Theorem nach Shannon Informationstheorethisches Theorem nach Shannon Beispiel zum Codierungsaufwand - Wiederholung: Informationstheorethisches Modell (Shannon) Sei x eine Aussage. Sei M ein Modell Wieviele Bits sind aussreichend,

Mehr

Management Support Systeme

Management Support Systeme Management Support Systeme WS 24-25 4.-6. Uhr PD Dr. Peter Gluchowski Folie Gliederung MSS WS 4/5. Einführung Management Support Systeme: Informationssysteme zur Unterstützung betrieblicher Fach- und Führungskräfte

Mehr

Termin3 Klassifikation multispektraler Daten unüberwachte Verfahren

Termin3 Klassifikation multispektraler Daten unüberwachte Verfahren Ziel Termin3 Klassifikation multispektraler Daten unüberwachte Verfahren Einteilung (=Klassifikation) der Pixel eines multispektralen Datensatzes in eine endliche Anzahl von Klassen. Es sollen dabei versucht

Mehr

Relationale Datenbanken Datenbankgrundlagen

Relationale Datenbanken Datenbankgrundlagen Datenbanksystem Ein Datenbanksystem (DBS) 1 ist ein System zur elektronischen Datenverwaltung. Die wesentliche Aufgabe eines DBS ist es, große Datenmengen effizient, widerspruchsfrei und dauerhaft zu speichern

Mehr

Conjoint Measurement:

Conjoint Measurement: Conjoint Measurement: Eine Erfolgsgeschichte Das Ganze ist mehr als die Summe seiner Teile Leonhard Kehl Paul Green & Vithala Rao (1971) De-Kompositionelle Messung von Präferenzstrukturen aus Gesamt-Urteilen:

Mehr

MythMiner. Ein Empfehlungssystem für Fernsehprogramme auf Basis von RapidMiner. Balázs Bárány. Linuxwochen Wien, 7. 5. 2011

MythMiner. Ein Empfehlungssystem für Fernsehprogramme auf Basis von RapidMiner. Balázs Bárány. Linuxwochen Wien, 7. 5. 2011 Voraussetzungen für Data Mining und Text Mining Schluÿ Ein Empfehlungssystem für Fernsehprogramme auf Basis von RapidMiner Linuxwochen Wien, 7. 5. 2011 Voraussetzungen für Data Mining und Text Mining Schluÿ

Mehr

Projektaufgaben Block 2

Projektaufgaben Block 2 Kurs BZQ III - Stochastikpraktikum WS 2013/14 Humboldt-Universität zu Berlin Randolf Altmeyer Philip-Moritz Eckert Projektaufgaben Block 2 Abgabe: bis 10.12.2013 Zur Einstimmung (freiwillig, ohne Abgabe)

Mehr

Seminar Data Mining and Learning from Data. Predictive Modeling. Thorsten Holz

Seminar Data Mining and Learning from Data. Predictive Modeling. Thorsten Holz Seminar Data Mining and Learning from Data Predictive Modeling Thorsten Holz Human Language Technology and Pattern Recognition Lehrstuhl für Informatik VI, Computer Science Department RWTH Aachen University

Mehr

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining.

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining. Personalisierung Personalisierung Thomas Mandl Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung Klassifikation Die Nutzer werden in vorab bestimmte Klassen/Nutzerprofilen

Mehr

5.3 Sampling-Algorithmen

5.3 Sampling-Algorithmen 5.3 Sampling-Algorithmen Vorgehensweise in der Statistik: Gesamtheit von Werten durch kleine, möglichst repräsentative Stichprobe darstellen. (Vgl. z. B. Hochrechnungen für Wahlergebnisse.) Genauer: Gegeben

Mehr

Themenblock: Erstellung eines Cube

Themenblock: Erstellung eines Cube Themenblock: Erstellung eines Cube Praktikum: Data Warehousing und Data Mining Einführung relationale Datenbanken Problem Verwaltung großer Mengen von Daten Idee Speicherung der Daten in Form von Tabellen

Mehr

Problem: Finde für Alphabet mit n Zeichen einen Binärcode, der die Gesamtlänge eines Textes (über diesem Alphabet) minimiert.

Problem: Finde für Alphabet mit n Zeichen einen Binärcode, der die Gesamtlänge eines Textes (über diesem Alphabet) minimiert. Anwendungen von Bäumen 4.3.2 Huffman Code Problem: Finde für Alphabet mit n Zeichen einen Binärcode, der die Gesamtlänge eines Textes (über diesem Alphabet) minimiert. => nutzbar für Kompression Code fester

Mehr

ML-Werkzeuge und ihre Anwendung

ML-Werkzeuge und ihre Anwendung Kleine Einführung: und ihre Anwendung martin.loesch@kit.edu (0721) 608 45944 Motivation Einsatz von maschinellem Lernen erfordert durchdachtes Vorgehen Programmieren grundlegender Verfahren aufwändig fehlerträchtig

Mehr

Data Warehousing und Data Mining

Data Warehousing und Data Mining Data Warehousing und Data Mining Einführung in Data Mining Ulf Leser Wissensmanagement in der Bioinformatik Wo sind wir? Einleitung & Motivation Architektur Modellierung von Daten im DWH Umsetzung des

Mehr

Datamining-Cup 2012 - TeamFK i. Datamining-Cup 2012 - TeamFK

Datamining-Cup 2012 - TeamFK i. Datamining-Cup 2012 - TeamFK i Datamining-Cup 2012 - TeamFK ii Inhaltsverzeichnis 1 Programme und Datenvorverarbeitung 1 2 Vorbetrachtung der Daten 2 2.1 Zeitintervalle..................................................... 2 2.2 Mittelwert

Mehr

eassessment Oracle DB Engine Whitepaper

eassessment Oracle DB Engine Whitepaper eassessment Oracle DB Engine Whitepaper DOKUMENT: TYP: eassessment Oracle DB Engine Whitepaper Plattformdokumentation ERSTELLT VON: nova ratio AG Universitätsstraße 3 56070 Koblenz Deutschland VERSION:

Mehr

TEXTKLASSIFIKATION. WS 2011/12 Computerlinguistik I Deasy Sukarya & Tania Bellini

TEXTKLASSIFIKATION. WS 2011/12 Computerlinguistik I Deasy Sukarya & Tania Bellini TEXTKLASSIFIKATION WS 2011/12 Computerlinguistik I Deasy Sukarya & Tania Bellini GLIEDERUNG 1. Allgemeines Was ist Textklassifikation? 2. Aufbau eines Textklassifikationssystems 3. Arten von Textklassifikationssystemen

Mehr

Data-Mining Aufspüren von Mustern mit Hilfe von Entscheidungsbäumen

Data-Mining Aufspüren von Mustern mit Hilfe von Entscheidungsbäumen Hausarbeit Im Rahmen des Seminars Datenanalyse Thema: Data-Mining Aufspüren von Mustern mit Hilfe von Entscheidungsbäumen Seminarleiter: Dr. Siegbert Klinke Humboldt-Universität zu Berlin Abteilung Statistik

Mehr

Programmiertechnik II

Programmiertechnik II Bäume Symboltabellen Suche nach Werten (items), die unter einem Schlüssel (key) gefunden werden können Bankkonten: Schlüssel ist Kontonummer Flugreservierung: Schlüssel ist Flugnummer, Reservierungsnummer,...

Mehr

The integration of business intelligence and knowledge management

The integration of business intelligence and knowledge management The integration of business intelligence and knowledge management Seminar: Business Intelligence Ketevan Karbelashvili Master IE, 3. Semester Universität Konstanz Inhalt Knowledge Management Business intelligence

Mehr

5 Data Warehouses und Data Mining

5 Data Warehouses und Data Mining 5 Data Warehouses und Data Mining Mittels OLAP Techniken können große Datenmengen unterschiedlich stark verdichtet und gezielt aufbereitet werden. Mittels Data Mining können große Datenmengen nach bisher

Mehr

Künstliche Neuronale Netze und Data Mining

Künstliche Neuronale Netze und Data Mining Künstliche Neuronale Netze und Data Mining Catherine Janson, icasus GmbH Heidelberg Abstract Der Begriff "künstliche Neuronale Netze" fasst Methoden der Informationstechnik zusammen, deren Entwicklung

Mehr

Artificial Life und Multiagentensysteme

Artificial Life und Multiagentensysteme Vortrag im Rahmen des Seminars: Artificial Life und Multiagentensysteme Prof. Dr. Winfried Kurth Sommersemester 2003 Prognose von Zeitreihen mit GA/GP Mathias Radicke, Informatikstudent, 10. Semester Gliederung

Mehr

Data Mining und der MS SQL Server

Data Mining und der MS SQL Server Data Mining und der MS SQL Server Data Mining und der MS SQL Server Data Mining ist der Prozess der Ermittlung aussagefähiger I n- formationen aus großen Datensätzen. Data Mining nutzt die m a- thematische

Mehr

15 Optimales Kodieren

15 Optimales Kodieren 15 Optimales Kodieren Es soll ein optimaler Kodierer C(T ) entworfen werden, welcher eine Information (z.b. Text T ) mit möglichst geringer Bitanzahl eindeutig überträgt. Die Anforderungen an den optimalen

Mehr

TNS EX A MINE BehaviourForecast Predictive Analytics for CRM. TNS Infratest Applied Marketing Science

TNS EX A MINE BehaviourForecast Predictive Analytics for CRM. TNS Infratest Applied Marketing Science TNS EX A MINE BehaviourForecast Predictive Analytics for CRM 1 TNS BehaviourForecast Warum BehaviourForecast für Sie interessant ist Das Konzept des Analytischen Customer Relationship Managements (acrm)

Mehr

Algorithmische Modelle als neues Paradigma

Algorithmische Modelle als neues Paradigma Algorithmische Modelle als neues Paradigma Axel Schwer Seminar über Philosophische Grundlagen der Statistik, WS 2010/11 Betreuer: Prof. Dr. Thomas Augustin München, den 28. Januar 2011 1 / 29 LEO BREIMAN

Mehr

6. Überblick zu Data Mining-Verfahren

6. Überblick zu Data Mining-Verfahren 6. Überblick zu Data Mining-Verfahren Einführung Clusteranalse k-means-algorithmus Klassifikation Klassifikationsprozess Konstruktion eines Entscheidungsbaums Assoziationsregeln / Warenkorbanalse Support

Mehr

Mining top-k frequent itemsets from data streams

Mining top-k frequent itemsets from data streams Seminar: Maschinelles Lernen Mining top-k frequent itemsets from data streams R.C.-W. Wong A.W.-C. Fu 1 Gliederung 1. Einleitung 2. Chernoff-basierter Algorithmus 3. top-k lossy counting Algorithmus 4.

Mehr

Inhaltsverzeichnis: 1. Produktbeschreibung 1.1 Arbeitsweise

Inhaltsverzeichnis: 1. Produktbeschreibung 1.1 Arbeitsweise Inhaltsverzeichnis: 1. Produktbeschreibung 1.1 Arbeitsweise 2. Funktionen der Menüleiste 2.1 Erfassung / Bearbeitung Angebote Aufträge Lieferschein Rechnung Rechnungsbuch Begleitliste 2.2 Auswertungen

Mehr

ERP Cloud Tutorial. E-Commerce ECM ERP SFA EDI. Backup. Klassifikationen erfassen und importieren. www.comarch-cloud.de

ERP Cloud Tutorial. E-Commerce ECM ERP SFA EDI. Backup. Klassifikationen erfassen und importieren. www.comarch-cloud.de ERP Cloud SFA ECM Backup E-Commerce ERP EDI Klassifikationen erfassen und importieren www.comarch-cloud.de Inhaltsverzeichnis 1 Ziel des s 3 2 Kurze Einführung: Was sind Klassifikationen? 3 3 Klassifikationen

Mehr

2. Microsoft Innovationstag Nord Integrierte Lösungen in der Öffentlichen Verwaltung

2. Microsoft Innovationstag Nord Integrierte Lösungen in der Öffentlichen Verwaltung 2. Microsoft Innovationstag Nord Integrierte Lösungen in der Öffentlichen Verwaltung Reporting, Analyse und Data Mining André Henkel, initions AG 22. und 23. Oktober 2013 in Hamburg

Mehr

Automatische Mustererkennung zur Klassifikation von Konsumentenverhalten am Beispiel der Kreditwürdigkeitsprüfung

Automatische Mustererkennung zur Klassifikation von Konsumentenverhalten am Beispiel der Kreditwürdigkeitsprüfung Prof. Dr. Gerhard Arminger Dipl.-Ök. Alexandra Schwarz Bergische Universität Wuppertal Fachbereich Wirtschaftswissenschaft Fach Statistik Automatische Mustererkennung zur Klassifikation von Konsumentenverhalten

Mehr

Proseminar - Data Mining

Proseminar - Data Mining Vorbesprechung Proseminar - Data Mining SCCS, Fakultät für Informatik Technische Universität München SS 2015 Vorbesprechung, SS 2015 1 Data Mining: Beispiele (1) Hausnummererkennung (Klassifikation) Source:

Mehr

9 Resümee. Resümee 216

9 Resümee. Resümee 216 Resümee 216 9 Resümee In der vorliegenden Arbeit werden verschiedene Methoden der Datenreduktion auf ihre Leistungsfähigkeit im sozialwissenschaftlichstatistischen Umfeld anhand eines konkreten Anwendungsfalls

Mehr

1 Predictive Analytics mit Random Forest

1 Predictive Analytics mit Random Forest Predictive Analytics Demokratie im Wald 1 Agenda 1. Predictive Analytics Übersicht 2. Random Forest Grundkonzepte und Anwendungsfelder 3. Entscheidungsbaum Classification and Regression Tree (CART) 4.

Mehr

Semiüberwachte Paarweise Klassifikation

Semiüberwachte Paarweise Klassifikation Semiüberwachte Paarweise Klassifikation Bachelor-Thesis von Andriy Nadolskyy aus Jaworiw Dezember 2013 Fachbereich Informatik Knowledge Engineering Semiüberwachte Paarweise Klassifikation Vorgelegte Bachelor-Thesis

Mehr

Version 1.0 Erstellt am 12.12.2014 Zuletzt geändert am 17.12.2014. Gültig für Release 1.0.0.0

Version 1.0 Erstellt am 12.12.2014 Zuletzt geändert am 17.12.2014. Gültig für Release 1.0.0.0 Version 1.0 Erstellt am 12.12.2014 Zuletzt geändert am 17.12.2014 Gültig für Release 1.0.0.0 Inhalt 1 WebPart Site Informationen 3 1.1 Funktionalität 3 1.2 Bereitstellung und Konfiguration 4 2 WebPart

Mehr

KONSTRUKTION VON ROT-SCHWARZ-BÄUMEN

KONSTRUKTION VON ROT-SCHWARZ-BÄUMEN KONSTRUKTION VON ROT-SCHWARZ-BÄUMEN RALF HINZE Institut für Informatik III Universität Bonn Email: ralf@informatik.uni-bonn.de Homepage: http://www.informatik.uni-bonn.de/~ralf Februar, 2001 Binäre Suchbäume

Mehr

Algorithmen und Datenstrukturen

Algorithmen und Datenstrukturen Algorithmen und Datenstrukturen Dipl. Inform. Andreas Wilkens 1 Organisatorisches Freitag, 05. Mai 2006: keine Vorlesung! aber Praktikum von 08.00 11.30 Uhr (Gruppen E, F, G, H; Vortestat für Prototyp)

Mehr

3.2 Binäre Suche. Usr/local/www/ifi/fk/menschen/schmid/folien/infovk.ppt 1

3.2 Binäre Suche. Usr/local/www/ifi/fk/menschen/schmid/folien/infovk.ppt 1 3.2 Binäre Suche Beispiel 6.5.1: Intervallschachtelung (oder binäre Suche) (Hier ist n die Anzahl der Elemente im Feld!) Ein Feld A: array (1..n) of Integer sei gegeben. Das Feld sei sortiert, d.h.: A(i)

Mehr

Data Warehouse. Kapitel 17. Abbildung 17.1: Zusammenspiel zwischen OLTP und OLAP. Man unterscheidet zwei Arten von Datenbankanwendungen:

Data Warehouse. Kapitel 17. Abbildung 17.1: Zusammenspiel zwischen OLTP und OLAP. Man unterscheidet zwei Arten von Datenbankanwendungen: Kapitel 17 Data Warehouse OLTP Online Transaction Processing OLAP Online Analytical Processing Decision Support-Anfragen Data Mining opera- tionale DB opera- tionale DB opera- tionale DB Data Warehouse

Mehr

Vortrag zum Paper Results of the Active Learning Challenge von Guyon, et. al. Sören Schmidt Fachgebiet Knowledge Engineering

Vortrag zum Paper Results of the Active Learning Challenge von Guyon, et. al. Sören Schmidt Fachgebiet Knowledge Engineering Vortrag zum Paper Results of the Active Learning Challenge von Guyon, et. al. Sören Schmidt Fachgebiet Knowledge Engineering 11.12.2012 Vortrag zum Paper Results of the Active Learning Challenge von Isabelle

Mehr

Business Analytics im E-Commerce

Business Analytics im E-Commerce Business Analytics im E-Commerce Kunde, Kontext und sein Verhalten verstehen für personalisierte Kundenansprache Janusz Michalewicz CEO Über die Firma Crehler Erstellung von Onlineshops Analyse von Transaktionsdaten

Mehr

Text Mining Praktikum. Durchführung: Andreas Niekler Email: aniekler@informatik.uni-leipzig.de Zimmer: Paulinum (P) 818

Text Mining Praktikum. Durchführung: Andreas Niekler Email: aniekler@informatik.uni-leipzig.de Zimmer: Paulinum (P) 818 Text Mining Praktikum Durchführung: Andreas Niekler Email: aniekler@informatik.uni-leipzig.de Zimmer: Paulinum (P) 818 Rahmenbedingungen Gruppen von 2- (max)4 Personen Jede Gruppe erhält eine Aufgabe Die

Mehr

Binäre lineare Optimierung mit K*BMDs p.1/42

Binäre lineare Optimierung mit K*BMDs p.1/42 Binäre lineare Optimierung mit K*BMDs Ralf Wimmer wimmer@informatik.uni-freiburg.de Institut für Informatik Albert-Ludwigs-Universität Freiburg Binäre lineare Optimierung mit K*BMDs p.1/42 Grundlagen Binäre

Mehr

1. Woche Einführung in die Codierungstheorie, Definition Codes, Präfixcode, kompakte Codes

1. Woche Einführung in die Codierungstheorie, Definition Codes, Präfixcode, kompakte Codes 1 Woche Einführung in die Codierungstheorie, Definition Codes, Präfixcode, kompakte Codes 1 Woche: Einführung in die Codierungstheorie, Definition Codes, Präfixcode, kompakte Codes 5/ 44 Unser Modell Shannon

Mehr

Räumliches Data Mining

Räumliches Data Mining Räumliches Data Mining Spatial Data Mining Data Mining = Suche nach "interessanten Mustern" in sehr großen Datensätzen => explorative Datenanlyse auch: Knowledge Discovery in Databases (KDD) verbreitete

Mehr

SAP Predictive Challenge - Lösung. DI Walter Müllner, Dr. Ingo Peter, Markus Tempel 22. April 2015

SAP Predictive Challenge - Lösung. DI Walter Müllner, Dr. Ingo Peter, Markus Tempel 22. April 2015 SAP Predictive Challenge - Lösung DI Walter Müllner, Dr. Ingo Peter, Markus Tempel 22. April 2015 Teil II - Lösung Teil II-1: Fachbereich (automated mode) Teil II-2: Experte (PAL HANA) Teil II-3: Vergleich

Mehr

Exploration und Klassifikation von BigData

Exploration und Klassifikation von BigData Exploration und Klassifikation von BigData Inhalt Einführung Daten Data Mining: Vorbereitungen Clustering Konvexe Hülle Fragen Google: Riesige Datenmengen (2009: Prozessieren von 24 Petabytes pro Tag)

Mehr

Künstliche Intelligenz

Künstliche Intelligenz Künstliche Intelligenz Data Mining Approaches for Instrusion Detection Espen Jervidalo WS05/06 KI - WS05/06 - Espen Jervidalo 1 Overview Motivation Ziel IDS (Intrusion Detection System) HIDS NIDS Data

Mehr

Die Excel Schnittstelle - Pro Pack

Die Excel Schnittstelle - Pro Pack Die Excel Schnittstelle - Pro Pack Die Excel Pro Pack ist eine Erweiterung der normalen Excel Schnittstelle, die in der Vollversion von POSWare Bestandteil der normalen Lizenz und somit für alle Lizenznehmer

Mehr

Künstliche Intelligenz Dirk Krechel SS 2009

Künstliche Intelligenz Dirk Krechel SS 2009 Künstliche Intelligenz Dirk Krechel SS 2009 Überblick über das Modul 1. Einführung 2. Symbolische Verfahren Logik Aussagenlogik Prädikatenlogik Horn Logik Prolog 3. Suchen und Bewerten Problemlösen durch

Mehr

Zeichnen von Graphen. graph drawing

Zeichnen von Graphen. graph drawing Zeichnen von Graphen graph drawing WS 2006 / 2007 Gruppe: D_rot_Ala0607 Christian Becker 11042315 Eugen Plischke 11042351 Vadim Filippov 11042026 Gegeben sei ein Graph G = (V; E) Problemstellung V E =

Mehr

Auswertung für Warenwirtschaft/ERP, Interbase und ODBC... 2

Auswertung für Warenwirtschaft/ERP, Interbase und ODBC... 2 Cubix O.L.A.P... 2 Auswertung für Warenwirtschaft/ERP, Interbase und ODBC... 2 Datenverbindung über ODBC... 4 Datenbereitstellung über SQL... 5 Festlegung der Dimensionen... 6 Festlegung der Summen...

Mehr

Inhaltsverzeichnis 1 Einleitung 2 Ansätze in Forschung und Praxis

Inhaltsverzeichnis 1 Einleitung 2 Ansätze in Forschung und Praxis ix 1 Einleitung 1 1.1 Motivation 1 1.1.1 Das Projekt»Steuerkanzlei 2005«2 1.1.2 Generalisierung des Anwendungsfalls 3 1.1.3 Situation der Business Intelligence 4 1.1.4 Probleme in der praktischen Anwendung

Mehr

Data Mining und Statistik: Gemeinsamkeiten und Unterschiede

Data Mining und Statistik: Gemeinsamkeiten und Unterschiede Universität Ulm Seminararbeit zum Thema Data Mining und Statistik: Gemeinsamkeiten und Unterschiede vorgelegt von: Daniel Meschenmoser betreut von: Dr. Tomas Hrycej Dr. Matthias Grabert Ulm, im Februar

Mehr

Proseminar Künstliche Intelligenz

Proseminar Künstliche Intelligenz Proseminar Künstliche Intelligenz Data-Mining Tobias Loose Roy Thieme 20. Dezember 2011 1 / 51 Inhaltsverzeichnis 1 Einleitung 2 Empfehlungen Metriken Dinge Empfehlen 3 Clusteranalyse Hierarchische Clusteranalyse

Mehr

Kapiteltests zum Leitprogramm Binäre Suchbäume

Kapiteltests zum Leitprogramm Binäre Suchbäume Kapiteltests zum Leitprogramm Binäre Suchbäume Björn Steffen Timur Erdag überarbeitet von Christina Class Binäre Suchbäume Kapiteltests für das ETH-Leitprogramm Adressaten und Institutionen Das Leitprogramm

Mehr

Fachgruppe Statistik, Risikoanalyse & Computing. STAT672 Data Mining. Sommersemester 2007. Prof. Dr. R. D. Reiß

Fachgruppe Statistik, Risikoanalyse & Computing. STAT672 Data Mining. Sommersemester 2007. Prof. Dr. R. D. Reiß Fachgruppe Statistik, Risikoanalyse & Computing STAT672 Data Mining Sommersemester 2007 Prof. Dr. R. D. Reiß Überblick Data Mining Begrifflichkeit Unter Data Mining versteht man die Computergestützte Suche

Mehr

3. Übung. Einführung MS Access. TU Dresden - Institut für Bauinformatik Folie-Nr.: 1

3. Übung. Einführung MS Access. TU Dresden - Institut für Bauinformatik Folie-Nr.: 1 WP3-13 Bauinformatik-Vertiefte Grundlagen 3. Übung Einführung MS Access Folie-Nr.: 1 Allgemeines Microsoft Access ist ein Datenbank-Management-System (DBMS) zur Verwaltung von Daten in Datenbanken und

Mehr

Optimierung von Direct Marketing-Kampagnen im Fundraising dank Data Mining

Optimierung von Direct Marketing-Kampagnen im Fundraising dank Data Mining 1.22 Optimierung von Direct Marketing-Kampagnen im Fundraising dank Data Mining Raphael Hess WWF Schweiz 28. Oktober 2010 1 Agenda Worum es geht! Data Mining 2 2 WWF Worldwide 1961 Gründungsjahr +5,000

Mehr

6. Überblick zu Data Mining-Verfahren

6. Überblick zu Data Mining-Verfahren 6. Überblick zu Data Mining-Verfahren Einführung Clusteranalyse k-means-algorithmus Canopy Clustering Klassifikation Klassifikationsprozess Konstruktion eines Entscheidungsbaums Assoziationsregeln / Warenkorbanalyse

Mehr

Universität Kassel. Fachbereich Informatik/FB16. Projektarbeit. im Studiengang Informatik/Bachelor. Projekt: Data-Mining-Cup 2007

Universität Kassel. Fachbereich Informatik/FB16. Projektarbeit. im Studiengang Informatik/Bachelor. Projekt: Data-Mining-Cup 2007 Universität Kassel Fachbereich Informatik/FB16 Projektarbeit im Studiengang Informatik/Bachelor Projekt: Data-Mining-Cup 2007 eingereicht von: eingereicht von: eingereicht von: Christian Voigtmann

Mehr