Data Warehousing und Data Mining

Größe: px
Ab Seite anzeigen:

Download "Data Warehousing und Data Mining"

Transkript

1 Data Warehousing und Data Mining Einführung in Data Mining Ulf Leser Wissensmanagement in der Bioinformatik

2 Wo sind wir? Einleitung & Motivation Architektur Modellierung von Daten im DWH Umsetzung des multidimensionalen Datenmodells Extraction, Transformation & Load (ETL) Indexstrukturen für DWH Logische Optimierung Materialisierte Sichten Data Mining Ulf Leser: Data Warehousing und Data Mining 2

3 Inhalt dieser Vorlesung Was ist Data Mining? Typische Problemstellungen & Anwendungen Datenaufbereitung Deskriptive Datenanalyse Oracle Data Mining Ulf Leser: Data Warehousing und Data Mining 3

4 Beispiel Wann werden Baseballspiele durchgeführt? Beobachtungen des Vortags Ziel: Vorhersage der Spieldurchführung aufgrund früherer Beobachtungen Ulf Leser: Data Warehousing und Data Mining 4

5 Vorhersage Sunny Hot Normal False?? Einfacher Versuch: Regeln ableiten Ulf Leser: Data Warehousing und Data Mining 5

6 Entscheidungsbäume Outlook Temperature sunny overcast Temperature rainy Temperature hot mild Windy Humidity high No true false No Ulf Leser: Data Warehousing und Data Mining 6

7 Mehr Beobachtungen Sunny Hot High False Yes Sunny Hot High False No Sunny Hot High True No.. Ulf Leser: Data Warehousing und Data Mining 7

8 Aber wie? Outlook Temperature sunny overcast Temperature rainy Temperature Windy Humidity high true false hot mild No 2/3: No, 1/3: Yes Welche Faktoren sind am aussagekräftigsten? In welcher Reihenfolge bauen wir den Baum am besten? Müssen wir immer bis zu den Blättern gehen? Ulf Leser: Data Warehousing und Data Mining 8

9 Entscheidungsregeln Andere Darstellung des Baumes Regeln = Modell der Wirklichkeit Festlegung der Attribute und möglichen Ausprägungen Vereinfachung: Bestimmte Attribute, Bestimmte Ausprägungen Qualität von Regeln Support: Auf wie viele der Trainingsdaten passt die Regel? Confidence: Für wie viele der passenden Trainingsdaten sagt die Regel das richtige Ergebnis voraus? Ulf Leser: Data Warehousing und Data Mining 9

10 Traditionelle Analysemethode Manuell ausgeführte statistische Analyse Eher wenige Datensätze, eher wenig Attribute Formulieren von Hypothesen und deren Überprüfung Hypothesis-driven Wie hoch ist die statistische Evidenz, dass das Wetter am Vortag mit der Austragung eines Baseballspiels korreliert? Hypothesen werden vor der Datenanalyse formuliert Im DWH: Man überlegt sich mögliche Zusammenhänge und überprüft sie durch Formulieren der entsprechenden Anfrage Ulf Leser: Data Warehousing und Data Mining 10

11 Data Mining We are drowning in data and starving for knowledge Was machen Kunden eigentlich auf meiner Webseite? Riesige Datenberge Business: Weblogs, Telefonate, Einkäufe, Börsendaten, Forschung: Astronomie, Teilchenphysik, Bioinformatik, Jeder: Nachrichten, Blogs, Webseiten, Fotos, Millionen oder Milliarden von Datensätzen Hochdimensionale Daten mit Hunderten von Attributen Schon Formulierung von Hypothesen ist schwierig Data-Driven : Automatische Generierung und Prüfung von Hypothesen Vorsicht: Irgendwas findet man immer Ulf Leser: Data Warehousing und Data Mining 11

12 Beispiele Welche Kunden erreiche ich mit welcher Werbung am Besten? Welche Assoziationen bestehen zwischen den in einem Supermarkt gekauften Waren? Bei welchen Telefonkunden besteht der Verdacht eines Betrugs? DWH Zu welcher Klasse gehört dieser Stern? Ulf Leser: Data Warehousing und Data Mining 12

13 Knowledge Discovery in Databases [FPSS96] KDD is the non-trivial process of identifying valid, novel, useful and ultimately understandable patterns in data" Valid: Muster sind im statistischen Sinne valide (signifikant) Novel: Bisher unbekannt Useful: keine Mengen von undurchschaubarer Assoziationen Unterstandable: Man versteht die Muster (und damit die Daten) Sehr viel Interpretationsspielraum Data Mining als kreative Tätigkeit Ulf Leser: Data Warehousing und Data Mining 13

14 KDD als Prozess Quelle: [FPPS96] Datenauswahl Datenvorverarbeitung Datenreduktion Explorative Datenanalyse Data Mining Interpretation und Anwendung Ulf Leser: Data Warehousing und Data Mining 14

15 Inhalt dieser Vorlesung Was ist Data Mining? Typische Problemstellungen Klassifikation Clustering Assoziationsregeln Datenaufbereitung Deskriptive Datenanalyse Oracle Data Mining Ulf Leser: Data Warehousing und Data Mining 15

16 Eingabe Unser Modell Eine Menge O={o 1, o 2,,o n } von Objekten Jedes Objekt o i wird beschrieben durch die gleiche Menge von Attributen A={a 1, a 2,,a m } Heißen auch Dimensionen oder Feature Die Attributwerte o ij können kategorial, diskret, oder kontinuierlich sein Attributwerte können geordnet, halbgeordnet, ungeordnet sein Definition Eine Klassifikationsfunktion f:o C bildet Objekte aus O auf eine Menge von Klassen C={C 1, C 2,, C l } ab Ulf Leser: Data Warehousing und Data Mining 16

17 Drei klassische DM Aufgaben Klassifikation Gegeben eine Menge von Objekten und eine Menge von Klassen Welcher Klasse gehören die unklassifizierten Objekte an? Beispiel: Fraud-Detection bei Kreditkarten Clustering Gegeben eine Menge von Objekten Gibt es Gruppen (Cluster) ähnlicher Objekte? Beispiel: Segmentierung von Kunden Assoziationsregeln Geg. Menge von jeweils gemeinsam durchgeführten Aktionen Welche Aktionen kommen besonders häufig zusammen vor? Beispiel: Welche Produkte werden häufig gemeinsam gekauft? Ulf Leser: Data Warehousing und Data Mining 17

18 Klassifikation Attribute debt, income Jeder Kunde als Punkt im zweidimensionalen Raum Klassen: loan was fine (o) loan was lost (x) Für historische Objekte ist Klassenzugehörigkeit bekannt Finde Funktion, die neue Objekte (Werte für debt, income) einer der zwei Klasse zuordnet Für neue Kunden also ihre Klasse vorhersagt Ulf Leser: Data Warehousing und Data Mining 18

19 Lineare Trennung Quelle: [FPPS96] Berechnung der Trennfunktion, die den Fehler minimiert Komplexere Funktionen als lineare sind möglich Geht nur bei numerischen Attributen Ulf Leser: Data Warehousing und Data Mining 19

20 Overfitting Overfitting Modell ist perfekt für Trainingsdaten Aber sehr wahrscheinlich schlecht für andere Daten Ulf Leser: Data Warehousing und Data Mining 20

21 Hierarchische Aufteilung Verwendung lokaler Trennfunktionen Siehe Entscheidungsregeln Ulf Leser: Data Warehousing und Data Mining 21

22 Clustering Finde Gruppen zusammengehöriger Objekte Benötigt Abstandsmaß d Es soll gelten: zusammengehörend = nahe bzgl. d Ulf Leser: Data Warehousing und Data Mining 22

23 Clustern Daten? Ulf Leser: Data Warehousing und Data Mining 23

24 Nicht immer einfach Problem deutlich schlechter definiert als Klassifikation Wie groß sollen die Cluster ein? Welche Form dürfen die Cluster haben? Wie viele Cluster erwartet man? Müssen alle Punkte geclustert werden? Dürfen sich Cluster überlappen? Quelle: [ES00] Ulf Leser: Data Warehousing und Data Mining 24

25 Association Rule Mining Welche Items wurden häufiger als t Mal zusammen verkauft? Quelle: [Dun02] Problem: Es gibt so viele mögliche Itemsets! Wie viele? Ulf Leser: Data Warehousing und Data Mining 25

26 Grundprinzip: Large Itemset property Jede Subgruppe eines häufigen Itemsets muss häufig sein oder Häufige große Itemsets müssen aus häufigen kleinen Itemsets bestehen Ulf Leser: Data Warehousing und Data Mining 26

27 Weitere Themen Text-Mining: Clustering und Klassifikation von Texten Verschlagwortung; Plagiaterkennung; gezieltes Verschicken von Nachrichten; Clustering von Suchmaschinenergebnissen; Web-Mining Welche Webseiten werden häufig in einer bestimmten Reihenfolge besucht? Welche Struktur haben Web-Sites? Wie kommen Kunden mit meiner Webseite klar? Spatial Mining Daten mit geographischem Bezug Graph-Mining Struktur sozialer Netzwerke, Web als Graph, biologische Netzwerke, Ulf Leser: Data Warehousing und Data Mining 27

28 Klassifikation [Dun02] Ulf Leser: Data Warehousing und Data Mining 28

29 Beispiele aus der Praxis [AN00] Bonitätsprüfung im Versandhandel Gelernt aus ~5000 Beispielen mit ~100 Features Abbuchungen, Zahlungsverhalten, 1-2% Verbesserung in der Vorhersage bringt >Millionen Euro Verbundkäufe in Warenkorbdaten Kundensegmentierung aus Nutzungsverhalten Telekoms: Welche Tarife anbieten? Welche Tarife schaffen? Tarifeinstufung von Kunden bei Versicherungen Ulf Leser: Data Warehousing und Data Mining 29

30 Inhalt dieser Vorlesung Was ist Data Mining? Typische Problemstellungen Datenaufbereitung Deskriptive Datenanalyse Oracle Data Mining Ulf Leser: Data Warehousing und Data Mining 30

31 Datenaufbereitung Viele DM Verfahren reagieren empfindlich auf Ausreißer, fehlende Werte, Datenfehler etc. Preprocessing: Herstellung einer homogenen, vollständigen und bereinigten Datenbasis Alles aus ETL: Transformation, Plausibilität, Umrechnung, Ersetzung von fehlenden Werten durch Schätzen, Extrapolation Diskretisierung von Werten (Binning) Z.B. Einteilung des Einkommens von Kunden in 5 Bereiche Glättet Ausreißer, reduziert die Zahl verschiedener Werte Ranking von Werten Statt absoluten Einkommen wird der Rang benutzt Glättet Ausreißern Lässt aber auch ev. wichtige Unterschiede verschwinden Ulf Leser: Data Warehousing und Data Mining 31

32 Binning Normal distribution Uniform distribution Extremfall: Ersetzen durch einen Wert Schlechte Idee Ulf Leser: Data Warehousing und Data Mining 32

33 Equi-Width Histograms Normal distribution Equi-width Zahl der Bins festlegen und Raum äquidistant aufteilen Bins enthalten unterschiedlich viele Werte und decken den ganzen Raum gleichmäßig ab Berechnung durch Sortierung und einen Scan Ulf Leser: Data Warehousing und Data Mining 33

34 Equi-Depth Normal distribution Equi-Depth Zahl der Bins festlegen, dann Raum so aufteilen, dass alle Bins gleich viele Tupel enthalten Führt zu gleichgroßen Bins mit unterschiedlicher Breite Ulf Leser: Data Warehousing und Data Mining 34

35 Inhalt dieser Vorlesung Was ist Data Mining? Typische Problemstellungen Datenaufbereitung Explorative Datenanalyse Oracle Data Mining Ulf Leser: Data Warehousing und Data Mining 35

36 Explorative (deskriptive) Datenanalyse Ziel: Gefühl für die Daten bekommen Welche Werte sind wie häufig? Unterliegen die Werte einer bestimmten Verteilung? Sind zwei (oder mehr) Attributwerte stark korreliert? Bei Tupeln nicht einfach Vorbereitung zur Auswahl des Data Mining Verfahrens Hier: Nur ganz einfache statistische Kennwerte Und deren Berechnung im DWH Ulf Leser: Data Warehousing und Data Mining 36

37 Univariate Beschreibung Beschreibung der Verteilung der Werte eines Attributs Suche nach einer möglichst kompakten Beschreibung Alle Werte: Verteilungsfunktion Ein Wert: Mittelwert, Median, Mode (häufigste Wert) Quelle: [HK05] Ulf Leser: Data Warehousing und Data Mining 37

38 Normalverteilte Daten Sehr viele Daten sind normalverteilt Zwei Werte: Standardabweichung und Varianz [μ σ, μ+σ]: Ca. 68% der Datenpunkte [μ 2σ, μ+2σ]: Ca. 95% der Datenpunkte [μ 3σ, μ+3σ]: >99% der Datenpunkte Ulf Leser: Data Warehousing und Data Mining 38

39 Visualisierung von Verteilungen Boxplots Min und max Erstes und drittes Quartil Mittelwert und (meist) Median Histogramme Ulf Leser: Data Warehousing und Data Mining 39

40 SQL Standard SQL: avg, stddev, median, quartile Wie findet man den mode eines Attributs t.a? SELECT a, cnt FROM (SELECT a, count(a) cnt FROM t GROUP BY a ORDER BY count(a)) WHERE ROWNUM=1; Ulf Leser: Data Warehousing und Data Mining 40

41 Multivariate Beschreibung Gleichzeitige Betrachtung der Verteilungen zweier (oder mehr) Attribute Einfachsten Fall: Statistische Unabhängigkeit P(a b)=p(a) und umgekehrt Besser beide Attribute univariat beschreiben Erkennbar im Scatter-Plot Ulf Leser: Data Warehousing und Data Mining 41

42 Kontingenztabellen Sehr oft sind Attribute aber nicht unabhängig Trotzdem nimmt man das oft an um Dinge einfach zu halten Kontingenztabelle für kategoriale Attribute Mittelfristig Arbeitslos Langfristig Arbeitslos Summen Ohne Ausbildung Mit abgeschlossener Ausbildung Summe Was erwartet man für unabhängige Attribute? Ulf Leser: Data Warehousing und Data Mining 42

43 Korrelationskoeffizient Misst die lineare Korrelation zweier Attribute X und Y r XY = n n i= 1 ( x ( xi x) ( yi y) i x) i= 1 i= 1 2 n ( y i y) 2 r XY > 0 r XY r XY < 0 r XY Ulf Leser: Data Warehousing und Data Mining 43

44 SQL Berechnung Kontingenztabelle für Attribute t.a und t.b? SELECT a,b,count(*) FROM t GROUP BY cube(a,b); Berechnung des Korrelationskoeffizienten für t.a und t.b? SELECT up/sqrt(down) FROM (SELECT sum((a-ma)*(b-mb)) up FROM t, (SELECT avg(a) ma, avg(b) mb FROM t) tm), (SELECT sum(sqr(a-ma))*sum(sqr(b-mb)) down FROM t, (SELECT avg(a) ma, avg(b) mb FROM t) tm); r XY = n ( x x) ( y i i i= 1 n n 2 ( xi x) i= 1 i= 1 ( y i y) y) 2 Ulf Leser: Data Warehousing und Data Mining 44

45 Inhalt dieser Vorlesung Was ist Data Mining? Typische Problemstellungen Datenaufbereitung Deskriptive Datenanalyse Oracle Data Mining Ulf Leser: Data Warehousing und Data Mining 45

46 Oracle Data Mining (ODM) Bibliothek mit typischen Data Mining Algorithmen Daten müssen in einer Tabelle vorliegen Zugriff über zwei APIs DBMS_DATA_MINING / DBMS_DATA_MINING_TRANSFORM Java API ODM Models Die meisten Verfahren berechnen Modelle Entscheidungsbäume, Verteilungen, Modelle werden in der DB gespeichert und können ausgetauscht, angewandt, exportiert und importiert werden Ulf Leser: Data Warehousing und Data Mining 46

47 Einige ODM Algorithmen Klassifikation: Decision Tree, Naive Bayes, Bayes Networks, SVM Regression Clustering: K-Means, hierarchisches Clustering Association Rule Mining Text Mining: Clustering, Klassifikation Ulf Leser: Data Warehousing und Data Mining 47

48 Literatur Han, J. and Kamber, M. (2006). "Data Mining. Concepts and Techniques", Morgan Kaufmann. Alpar, P. and Niedereichholz, J., Eds. (2000). "Data Mining im praktischen Einsatz". Braunschweig/Wiesbaden, Vieweg Verlagsgesellschaft. Dunham, A. M. H. (2002). "Data Mining". New Jersey, Pearson Education Inc. Ester, M. and Sander, J. (2000). "Knowledge Discovery in Databases". Berlin, Springer. Fayyad, U. M., Piatetsky-Shapiro, G. and Smyth, P. (1996). "From Data Mining to Knowledge Discovery in Databases." AI Magazine 17(3): Ganti, V., Gehrke, J. and Ramakrishnan, R. (1999). "Mining Very Large Databases." IEEE Computer: Ulf Leser: Data Warehousing und Data Mining 48

Data Warehousing und Data Mining

Data Warehousing und Data Mining Data Warehousing und Data Mining Einführung in Data Mining Ulf Leser Wissensmanagement in der Bioinformatik Ermittlung von Änderungen Von Quellen zum Cube Änderungen kommen aus Quellen Differential Snapshot

Mehr

Data Mining und Knowledge Discovery in Databases

Data Mining und Knowledge Discovery in Databases Data Mining und Knowledge Discovery in Databases Begriffsabgrenzungen... Phasen der KDD...3 3 Datenvorverarbeitung...4 3. Datenproblematik...4 3. Möglichkeiten der Datenvorverarbeitung...4 4 Data Mining

Mehr

Motivation. Themenblock: Data Preprocessing. Einsatzgebiete für Data Mining I. Modell von Gianotti und Pedreschi

Motivation. Themenblock: Data Preprocessing. Einsatzgebiete für Data Mining I. Modell von Gianotti und Pedreschi Motivation Themenblock: Data Preprocessing We are drowning in information, but starving for knowledge! (John Naisbett) Was genau ist Datenanalyse? Praktikum: Data Warehousing und Data Mining Was ist Data

Mehr

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen 4. Datenanalyse und Modellbildung Deskriptive Statistik 2-1 2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen Für die Auswertung einer Messreihe, die in Form

Mehr

Data Warehousing. Sommersemester 2005. Ulf Leser Wissensmanagement in der Bioinformatik

Data Warehousing. Sommersemester 2005. Ulf Leser Wissensmanagement in der Bioinformatik Data Warehousing Sommersemester 2005 Ulf Leser Wissensmanagement in der Bioinformatik ... Der typische Walmart Kaufagent verwendet täglich mächtige Data Mining Werkzeuge, um die Daten der 300 Terabyte

Mehr

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining.

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining. Motivation Themenblock: Klassifikation Praktikum: Data Warehousing und Data Mining Ziel Item hat mehrere Attribute Anhand von n Attributen wird (n+)-tes vorhergesagt. Zusätzliches Attribut erst später

Mehr

Management Support Systeme

Management Support Systeme Management Support Systeme WS 24-25 4.-6. Uhr PD Dr. Peter Gluchowski Folie Gliederung MSS WS 4/5. Einführung Management Support Systeme: Informationssysteme zur Unterstützung betrieblicher Fach- und Führungskräfte

Mehr

Data Mining (ehem. Entscheidungsunterstützungssysteme)

Data Mining (ehem. Entscheidungsunterstützungssysteme) Data Mining (ehem. Entscheidungsunterstützungssysteme) Melanie Pfoh Anja Tetzner Christian Schieder Übung WS 2014/15 AGENDA TEIL 1 Aufgabe 1 (Wiederholung OPAL / Vorlesungsinhalte) ENTSCHEIDUNG UND ENTSCHEIDUNGSTHEORIE

Mehr

Proseminar - Data Mining

Proseminar - Data Mining Proseminar - Data Mining SCCS, Fakultät für Informatik Technische Universität München SS 2012, SS 2012 1 Data Mining Pipeline Planung Aufbereitung Modellbildung Auswertung Wir wollen nützliches Wissen

Mehr

Dr. Andreas Hotho, Robert Jäschke Fachgebiet Wissensverarbeitung 30.10.2008. Wintersemester 2008/2009

Dr. Andreas Hotho, Robert Jäschke Fachgebiet Wissensverarbeitung 30.10.2008. Wintersemester 2008/2009 Dr. Andreas Hotho, Robert Jäschke Fachgebiet Wissensverarbeitung 30.10.2008 1. Übung Knowledge Discovery Wintersemester 2008/2009 Vorbemerkungen Vorlesungsfolien und Übungsblätter können Sie im Internet

Mehr

Ermittlung von Assoziationsregeln aus großen Datenmengen. Zielsetzung

Ermittlung von Assoziationsregeln aus großen Datenmengen. Zielsetzung Ermittlung von Assoziationsregeln aus großen Datenmengen Zielsetzung Entscheidungsträger verwenden heutzutage immer häufiger moderne Technologien zur Lösung betriebswirtschaftlicher Problemstellungen.

Mehr

Datenbanken-Themen im OS "Data Mining" SS 2010

Datenbanken-Themen im OS Data Mining SS 2010 Prof. Dr.-Ing. Thomas Kudraß HTWK Leipzig, FIMN Datenbanken-Themen im OS "Data Mining" SS 2010 Die Vorträge sollten eine Dauer von 60 Minuten (Einzelvortrag) bzw. 45 Minuten (Doppelvortrag) haben. Nachfolgend

Mehr

Maschinelles Lernen und Data Mining: Methoden und Anwendungen

Maschinelles Lernen und Data Mining: Methoden und Anwendungen Maschinelles Lernen und Data Mining: Methoden und Anwendungen Eyke Hüllermeier Knowledge Engineering & Bioinformatics Fachbereich Mathematik und Informatik GFFT-Jahrestagung, Wesel, 17. Januar 2008 Knowledge

Mehr

Proseminar - Data Mining

Proseminar - Data Mining Proseminar - Data Mining SCCS, Fakultät für Informatik Technische Universität München SS 2014, SS 2014 1 Data Mining: Beispiele (1) Hausnummererkennung (Klassifikation) Source: http://arxiv.org/abs/1312.6082,

Mehr

Data Warehousing und Data Mining

Data Warehousing und Data Mining Data Warehousing und Data Mining Klassifikation Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Einführung Problemstellung Evaluation Overfitting knn Klassifikator Naive-Bayes

Mehr

Data Mining - Wiederholung

Data Mining - Wiederholung Data Mining - Wiederholung Norbert Fuhr 9. Juni 2008 Problemstellungen Problemstellungen Daten vs. Information Def. Data Mining Arten von strukturellen Beschreibungen Regeln (Klassifikation, Assoziations-)

Mehr

Predictive Modeling Markup Language. Thomas Morandell

Predictive Modeling Markup Language. Thomas Morandell Predictive Modeling Markup Language Thomas Morandell Index Einführung PMML als Standard für den Austausch von Data Mining Ergebnissen/Prozessen Allgemeine Struktur eines PMML Dokuments Beispiel von PMML

Mehr

Masterarbeit. im Studiengang Informatik. Kombinationen von Data Mining-Verfahren: Analyse und Automatisierung. Ulf Mewe Matrikel.-Nr.

Masterarbeit. im Studiengang Informatik. Kombinationen von Data Mining-Verfahren: Analyse und Automatisierung. Ulf Mewe Matrikel.-Nr. LEIBNIZ UNIVERSITÄT HANNOVER FAKULTÄT FÜR ELEKTROTECHNIK UND INFORMATIK INSTITUT FÜR PRAKTISCHE INFORMATIK FACHGEBIET DATENBANKEN UND INFORMATIONSSYSTEME Masterarbeit im Studiengang Informatik Kombinationen

Mehr

Anwendung der Predictive Analytics

Anwendung der Predictive Analytics TDWI Konferenz mit BARC@TDWI Track 2014 München, 23. 25. Juni 2014 Anwendung der Predictive Analytics Prof. Dr. Carsten Felden Dipl. Wirt. Inf. Claudia Koschtial Technische Universität Bergakademie Freiberg

Mehr

Dominik Pretzsch TU Chemnitz 2011

Dominik Pretzsch TU Chemnitz 2011 Dominik Pretzsch TU Chemnitz 2011 Wir leben im Informationszeitalter und merken es daran, dass wir uns vor Information nicht mehr retten können. Nicht der überwältigende Nutzen der Information, sondern

Mehr

Seminar Business Intelligence Teil II. Data Mining & Knowledge Discovery

Seminar Business Intelligence Teil II. Data Mining & Knowledge Discovery Seminar Business Intelligence Teil II Data Mining & Knowledge Discovery Was ist Data Mining? Sabine Queckbörner Was ist Data Mining? Data Mining Was ist Data Mining? Nach welchen Mustern wird gesucht?

Mehr

Eine computergestützte Einführung mit

Eine computergestützte Einführung mit Thomas Cleff Deskriptive Statistik und Explorative Datenanalyse Eine computergestützte Einführung mit Excel, SPSS und STATA 3., überarbeitete und erweiterte Auflage ^ Springer Inhaltsverzeichnis 1 Statistik

Mehr

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining.

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining. Personalisierung Personalisierung Thomas Mandl Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung Klassifikation Die Nutzer werden in vorab bestimmte Klassen/Nutzerprofilen

Mehr

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18 3. Deskriptive Statistik Ziel der deskriptiven (beschreibenden) Statistik (explorativen Datenanalyse) ist die übersichtliche Darstellung der wesentlichen in den erhobenen Daten enthaltene Informationen

Mehr

Künstliche Neuronale Netze und Data Mining

Künstliche Neuronale Netze und Data Mining Künstliche Neuronale Netze und Data Mining Catherine Janson, icasus GmbH Heidelberg Abstract Der Begriff "künstliche Neuronale Netze" fasst Methoden der Informationstechnik zusammen, deren Entwicklung

Mehr

9 Resümee. Resümee 216

9 Resümee. Resümee 216 Resümee 216 9 Resümee In der vorliegenden Arbeit werden verschiedene Methoden der Datenreduktion auf ihre Leistungsfähigkeit im sozialwissenschaftlichstatistischen Umfeld anhand eines konkreten Anwendungsfalls

Mehr

Data Mining und maschinelles Lernen

Data Mining und maschinelles Lernen Data Mining und maschinelles Lernen Einführung und Anwendung mit WEKA Caren Brinckmann 16. August 2000 http://www.coli.uni-sb.de/~cabr/vortraege/ml.pdf http://www.cs.waikato.ac.nz/ml/weka/ Inhalt Einführung:

Mehr

Data Mining und Text Mining Einführung. S2 Einfache Regellerner

Data Mining und Text Mining Einführung. S2 Einfache Regellerner Data Mining und Text Mining Einführung S2 Einfache Regellerner Hans Hermann Weber Univ. Erlangen, Informatik 8 Wintersemester 2003 hans.hermann.weber@gmx.de Inhalt Einiges über Regeln und Bäume R1 ein

Mehr

MythMiner. Ein Empfehlungssystem für Fernsehprogramme auf Basis von RapidMiner. Balázs Bárány. Linuxwochen Wien, 7. 5. 2011

MythMiner. Ein Empfehlungssystem für Fernsehprogramme auf Basis von RapidMiner. Balázs Bárány. Linuxwochen Wien, 7. 5. 2011 Voraussetzungen für Data Mining und Text Mining Schluÿ Ein Empfehlungssystem für Fernsehprogramme auf Basis von RapidMiner Linuxwochen Wien, 7. 5. 2011 Voraussetzungen für Data Mining und Text Mining Schluÿ

Mehr

2. Microsoft Innovationstag Nord Integrierte Lösungen in der Öffentlichen Verwaltung

2. Microsoft Innovationstag Nord Integrierte Lösungen in der Öffentlichen Verwaltung 2. Microsoft Innovationstag Nord Integrierte Lösungen in der Öffentlichen Verwaltung Reporting, Analyse und Data Mining André Henkel, initions AG 22. und 23. Oktober 2013 in Hamburg

Mehr

Steuerungsverfahren und ihre Datenstrukturen 02 - Datenmanagement

Steuerungsverfahren und ihre Datenstrukturen 02 - Datenmanagement Steuerungsverfahren und ihre Datenstrukturen 02 - Datenmanagement 1 Übersicht - Datenmanagement 1 Übersicht - Datenmanagement...1 2 Übersicht: Datenbanken - Datawarehouse...2 3 Übersicht: Data Mining...11

Mehr

Häufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln

Häufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln Häufigkeitstabellen Menüpunkt Data PivotTable Report (bzw. entsprechendes Icon): wähle Data Range (Zellen, die die Daten enthalten + Zelle mit Variablenname) wähle kategoriale Variable für Spalten- oder

Mehr

Data Mining Anwendungen und Techniken

Data Mining Anwendungen und Techniken Data Mining Anwendungen und Techniken Knut Hinkelmann DFKI GmbH Entdecken von Wissen in banken Wissen Unternehmen sammeln ungeheure mengen enthalten wettbewerbsrelevantes Wissen Ziel: Entdecken dieses

Mehr

Einführung in die Statistik mir R

Einführung in die Statistik mir R Einführung in die Statistik mir R ww w. syn t egris.de Überblick GESCHÄFTSFÜHRUNG Andreas Baumgart, Business Processes and Service Gunar Hofmann, IT Solutions Sven-Uwe Weller, Design und Development Jens

Mehr

Knowledge Discovery In Databases. Data Mining - Der moderne Goldrausch?

Knowledge Discovery In Databases. Data Mining - Der moderne Goldrausch? Oberseminar Data Mining 07. April 2010 Methodik des Data Mining Knowledge Discovery In Databases oder auch Data Mining - Der moderne Goldrausch? Data Mining...? Hochleistungsrechnen Geoinformationssysteme

Mehr

Inhaltsverzeichnis. I Einführung in STATISTICA 1. 1 Erste Schritte in STATISTICA 3

Inhaltsverzeichnis. I Einführung in STATISTICA 1. 1 Erste Schritte in STATISTICA 3 I Einführung in STATISTICA 1 1 Erste Schritte in STATISTICA 3 2 Datenhaltung in STATISTICA 11 2.1 Die unterschiedlichen Dateitypen in STATISTICA....... 11 2.2 Import von Daten......... 12 2.3 Export von

Mehr

Data Mining mit der SEMMA Methodik. Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG

Data Mining mit der SEMMA Methodik. Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG Data Mining mit der SEMMA Methodik Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG Data Mining Data Mining: Prozeß der Selektion, Exploration und Modellierung großer Datenmengen, um Information

Mehr

Data-Mining und Knowledge Discovery in Databases (KDD) Ein Überblick

Data-Mining und Knowledge Discovery in Databases (KDD) Ein Überblick Institut für Angewandte Informatik Professur für Technische Informationssysteme Fakultätsname XYZ Fachrichtung XYZ Institutsname XYZ, Professur XYZ Data-Mining und Knowledge Discovery in Databases (KDD)

Mehr

bersicht Datenbanken und Datawarehouses Datenbank Datenbanksysteme Niels Schršter

bersicht Datenbanken und Datawarehouses Datenbank Datenbanksysteme Niels Schršter bersicht Niels Schršter EinfŸhrung GROUP BY Roll UpÔs Kreuztabellen Cubes Datenbank Ansammlung von Tabellen, die einen ãausschnitt der WeltÒ fÿr eine Benutzergruppe beschreiben. Sie beschreiben die funktionalen

Mehr

Proseminar - Data Mining

Proseminar - Data Mining Vorbesprechung Proseminar - Data Mining SCCS, Fakultät für Informatik Technische Universität München SS 2015 Vorbesprechung, SS 2015 1 Data Mining: Beispiele (1) Hausnummererkennung (Klassifikation) Source:

Mehr

Kapitel 1: Einleitung

Kapitel 1: Einleitung Ludwig-Maximilians-Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Sommersemester 2013 Kapitel 1: Einleitung

Mehr

Seminar Text- und Datamining Datamining-Grundlagen

Seminar Text- und Datamining Datamining-Grundlagen Seminar Text- und Datamining Datamining-Grundlagen Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 23.05.2013 Gliederung 1 Klassifikationsprobleme 2 Evaluation

Mehr

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002) 6. Bayes-Klassifikation (Schukat-Talamazzini 2002) (Böhm 2003) (Klawonn 2004) Der Satz von Bayes: Beweis: Klassifikation mittels des Satzes von Bayes (Klawonn 2004) Allgemeine Definition: Davon zu unterscheiden

Mehr

Behavioral Targeting und selbstlernende Kampagnen. Aktuelle Herausforderungen für Data Mining. Dr. Alexander K. Seewald

Behavioral Targeting und selbstlernende Kampagnen. Aktuelle Herausforderungen für Data Mining. Dr. Alexander K. Seewald Behavioral Targeting und selbstlernende Kampagnen Aktuelle Herausforderungen für Data Mining Dr. Alexander K. Seewald Behavioral Targeting Kognitive Neurowissenschaften Verhalten aussagekräftiger als Erklärung

Mehr

Die Microsoft-Komplettlösung für Datawarehousing, Big Data und Business Intelligence im Überblick. Volker.Hinz@microsoft.com

Die Microsoft-Komplettlösung für Datawarehousing, Big Data und Business Intelligence im Überblick. Volker.Hinz@microsoft.com Die Microsoft-Komplettlösung für Datawarehousing, Big Data und Business Intelligence im Überblick Volker.Hinz@microsoft.com Was sagt der Markt? Fakten Meinung der Analysten zu Microsofts Angeboten Nutzen

Mehr

Agenda. Themenblock: Data Preprocessing. Gründe für Data Preprocessing. Data Mining Projekt - Zeitaufwand. Data Preprocessing SPSS Clementine

Agenda. Themenblock: Data Preprocessing. Gründe für Data Preprocessing. Data Mining Projekt - Zeitaufwand. Data Preprocessing SPSS Clementine Themenblock: Data Preprocessing Praktikum: Data Warehousing und Data Mining Praktikum Data Warehousing und Mining 2 Data Mining Projekt - Zeitaufwand Problemspezifikation: 20% Was ist das Problem? Wie

Mehr

Maschinelles Lernen Entscheidungsbäume

Maschinelles Lernen Entscheidungsbäume Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen Entscheidungsbäume Paul Prasse Entscheidungsbäume Eine von vielen Anwendungen: Kreditrisiken Kredit - Sicherheiten

Mehr

Risiken bei der Analyse sehr großer Datenmengen. Dr. Thomas Hoppe

Risiken bei der Analyse sehr großer Datenmengen. Dr. Thomas Hoppe Risiken bei der Analyse sehr großer Datenmengen Dr. Thomas Hoppe Datenaufbereitung Datenanalyse Data Mining Data Science Big Data Risiken der Analyse Sammlung Integration Transformation Fehlerbereinigung

Mehr

8.1 Temporal Data Mining. 8. Besondere Datentypen und Anwendungen. 8.1 Temporal Data Mining. 8.1 Zeitreihen-Analyse. Problemstellung.

8.1 Temporal Data Mining. 8. Besondere Datentypen und Anwendungen. 8.1 Temporal Data Mining. 8.1 Zeitreihen-Analyse. Problemstellung. 8. Besondere Datentypen und Anwendungen Inhalt dieses Kapitels 8.1 Temporal Data Mining, Sequential Patterns, Modifikation des Apriori-Algorithmus 8.2 Spatial Data Mining Aufgaben und Probleme, typische

Mehr

Data Mining - Marketing-Schlagwort oder ernstzunehmende Innovation?

Data Mining - Marketing-Schlagwort oder ernstzunehmende Innovation? 1. Konferenz der A Benutzer KFE in Forschung und Entwicklung Data Mining - Marketing-chlagwort oder ernstzunehmende Innovation? Hans-Peter Höschel,, Heidelberg 1. Konferenz der A Benutzer KFE in Forschung

Mehr

Data-Mining: Ausgewählte Verfahren und Werkzeuge

Data-Mining: Ausgewählte Verfahren und Werkzeuge Fakultät Informatik Institut für Angewandte Informatik Lehrstuhl Technische Informationssysteme Data-Mining: Ausgewählte Verfahren und Vortragender: Jia Mu Betreuer: Dipl.-Inf. Denis Stein Dresden, den

Mehr

Data Mining mit Rapidminer im Direktmarketing ein erster Versuch. Hasan Tercan und Hans-Peter Weih

Data Mining mit Rapidminer im Direktmarketing ein erster Versuch. Hasan Tercan und Hans-Peter Weih Data Mining mit Rapidminer im Direktmarketing ein erster Versuch Hasan Tercan und Hans-Peter Weih Motivation und Ziele des Projekts Anwendung von Data Mining im Versicherungssektor Unternehmen: Standard

Mehr

MS SQL Server 2012 (4)

MS SQL Server 2012 (4) MS SQL Server 2012 (4) Data Mining, Analyse und multivariate Verfahren Marco Skulschus Jan Tittel Marcus Wiederstein Webseite zum Buch: http://vvwvv.comelio-medien.com/buch-kataiog/ms sql_server/ms sql

Mehr

The integration of business intelligence and knowledge management

The integration of business intelligence and knowledge management The integration of business intelligence and knowledge management Seminar: Business Intelligence Ketevan Karbelashvili Master IE, 3. Semester Universität Konstanz Inhalt Knowledge Management Business intelligence

Mehr

Einführung in die Wissensverarbeitung und Data Mining

Einführung in die Wissensverarbeitung und Data Mining Einführung in die Wissensverarbeitung und Data Mining Peter Becker FH Bonn-Rhein-Sieg Fachbereich Angewandte Informatik!" $# Vorlesung Wintersemester 2001/02 1. Einführung Vorbemerkungen 1 Einführung Vorbemerkungen

Mehr

PMML Predictive Modeling Markup Language

PMML Predictive Modeling Markup Language PMML Predictive Modeling Markup Language Thomas Morandell 30/01/2003 1. Index 1. Index... 2 2. Einführung... 3 2.1. Definition Data Mining... 3 2.2. Motivation für Standards in Data Mining... 3 3. PMML

Mehr

Fachgruppe Statistik, Risikoanalyse & Computing. STAT672 Data Mining. Sommersemester 2007. Prof. Dr. R. D. Reiß

Fachgruppe Statistik, Risikoanalyse & Computing. STAT672 Data Mining. Sommersemester 2007. Prof. Dr. R. D. Reiß Fachgruppe Statistik, Risikoanalyse & Computing STAT672 Data Mining Sommersemester 2007 Prof. Dr. R. D. Reiß Überblick Data Mining Begrifflichkeit Unter Data Mining versteht man die Computergestützte Suche

Mehr

Informationstheorethisches Theorem nach Shannon

Informationstheorethisches Theorem nach Shannon Informationstheorethisches Theorem nach Shannon Beispiel zum Codierungsaufwand - Wiederholung: Informationstheorethisches Modell (Shannon) Sei x eine Aussage. Sei M ein Modell Wieviele Bits sind aussreichend,

Mehr

Data Mining mit RapidMiner

Data Mining mit RapidMiner Motivation Data Mining mit RapidMiner CRISP: DM-Prozess besteht aus unterschiedlichen Teilaufgaben Datenvorverarbeitung spielt wichtige Rolle im DM-Prozess Systematische Evaluationen erfordern flexible

Mehr

Machine Learning: Der KDD-Prozess

Machine Learning: Der KDD-Prozess : Der KDD-Prozess Data-Mining Aufgaben Aufgabe Wissensextraktion durch automatisches Erkennen von Mustern in Daten Keine spezifische Hypothese darüber, welche Muster vorliegen sollten Gesucht werden Muster,

Mehr

Inhaltsverzeichnis. Fragestellungen und Methoden 11. Vorwort 15. Kapitel 1 Einführung 17. Kapitel 2 Statistische Grundbegriffe 23

Inhaltsverzeichnis. Fragestellungen und Methoden 11. Vorwort 15. Kapitel 1 Einführung 17. Kapitel 2 Statistische Grundbegriffe 23 Fragestellungen und Methoden 11 Vorwort 15 Kapitel 1 Einführung 17 1.1 KonzeptiondesBuchs... 18 1.2 AufbaudesBuchs... 19 1.3 Programmversionen von PASW bzw. SPSS..... 20 1.4 WiekanndiesesBuchverwendetwerden?...

Mehr

Text Mining und CRM. Hans Hermann Weber Univ. Erlangen IMMD 8, den 12.09.03

Text Mining und CRM. Hans Hermann Weber Univ. Erlangen IMMD 8, den 12.09.03 Text Mining und CRM Hans Hermann Weber Univ. Erlangen IMMD 8, den 12.09.03 Was ist Textmining Unstrukturierte Daten (Text) anreichern mit Strukturinformation: Metadaten hinzufügen Struktur (Segmentinformation)

Mehr

3.2 Bivariate Verteilungen

3.2 Bivariate Verteilungen 3.2 Bivariate Verteilungen zwei Variablen X, Y werden gemeinsam betrachtet (an jedem Objekt i, i = 1,..., n, werden gleichzeitig zwei Merkmale beobachtet) Beobachtungswerte sind Paare/Kombinationen von

Mehr

Exploration und Klassifikation von BigData

Exploration und Klassifikation von BigData Exploration und Klassifikation von BigData Inhalt Einführung Daten Data Mining: Vorbereitungen Clustering Konvexe Hülle Fragen Google: Riesige Datenmengen (2009: Prozessieren von 24 Petabytes pro Tag)

Mehr

Vortrag zum Paper Results of the Active Learning Challenge von Guyon, et. al. Sören Schmidt Fachgebiet Knowledge Engineering

Vortrag zum Paper Results of the Active Learning Challenge von Guyon, et. al. Sören Schmidt Fachgebiet Knowledge Engineering Vortrag zum Paper Results of the Active Learning Challenge von Guyon, et. al. Sören Schmidt Fachgebiet Knowledge Engineering 11.12.2012 Vortrag zum Paper Results of the Active Learning Challenge von Isabelle

Mehr

Einseitig gerichtete Relation: Mit zunehmender Höhe über dem Meeresspiegel sinkt im allgemeinen die Lufttemperatur.

Einseitig gerichtete Relation: Mit zunehmender Höhe über dem Meeresspiegel sinkt im allgemeinen die Lufttemperatur. Statistik Grundlagen Charakterisierung von Verteilungen Einführung Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsverteilungen Schätzen und Testen Korrelation Regression Einführung Die Analyse und modellhafte

Mehr

Räumliches Data Mining

Räumliches Data Mining Räumliches Data Mining Spatial Data Mining Data Mining = Suche nach "interessanten Mustern" in sehr großen Datensätzen => explorative Datenanlyse auch: Knowledge Discovery in Databases (KDD) verbreitete

Mehr

Seminar Komplexe Objekte in Datenbanken

Seminar Komplexe Objekte in Datenbanken Seminar Komplexe Objekte in Datenbanken OPTICS: Ordering Points To Identify the Clustering Structure Lehrstuhl für Informatik IX - Univ.-Prof. Dr. Thomas Seidl, RWTH-Aachen http://www-i9.informatik.rwth-aachen.de

Mehr

DataMining in der polizeilichen Anwendung

DataMining in der polizeilichen Anwendung Hintergrund / Motivation DataMining in der polizeilichen Anwendung Heiko Held, BKA Wiesbaden Zur Zuständigkeit des Fachbereichs KI14 zählt u.a. die Marktbeobachtung und Toolauswahl im Bereich von Analysesoftware.

Mehr

Seminar im Sommersemester 2005 DATA WAREHOUSING. Data Mining. Christian Knappe. Fachrichtung Wirtschaftsinformatik Friedrich-Schiller-Universität Jena

Seminar im Sommersemester 2005 DATA WAREHOUSING. Data Mining. Christian Knappe. Fachrichtung Wirtschaftsinformatik Friedrich-Schiller-Universität Jena Seminar im Sommersemester 2005 DATA WAREHOUSING Data Mining Christian Knappe Fachrichtung Wirtschaftsinformatik Friedrich-Schiller-Universität Jena Fakultät für Mathematik und Informatik Lehrstuhl für

Mehr

Data Mining-Modelle und -Algorithmen

Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining ist ein Prozess, bei dem mehrere Komponenten i n- teragieren. Sie greifen auf Datenquellen, um diese zum Training,

Mehr

Einfache Statistiken in Excel

Einfache Statistiken in Excel Einfache Statistiken in Excel Dipl.-Volkswirtin Anna Miller Bergische Universität Wuppertal Schumpeter School of Business and Economics Lehrstuhl für Internationale Wirtschaft und Regionalökonomik Raum

Mehr

Statistische Verfahren für das Data Mining in einem Industrieprojekt

Statistische Verfahren für das Data Mining in einem Industrieprojekt Statistische Verfahren für das Data Mining in einem Industrieprojekt Thorsten Dickhaus Forschungszentrum Jülich GmbH Zentralinstitut für Angewandte Mathematik Telefon: 02461/61-4193 E-Mail: th.dickhaus@fz-juelich.de

Mehr

Algorithmische Modelle als neues Paradigma

Algorithmische Modelle als neues Paradigma Algorithmische Modelle als neues Paradigma Axel Schwer Seminar über Philosophische Grundlagen der Statistik, WS 2010/11 Betreuer: Prof. Dr. Thomas Augustin München, den 28. Januar 2011 1 / 29 LEO BREIMAN

Mehr

Auswertung mit dem Statistikprogramm SPSS: 30.11.05

Auswertung mit dem Statistikprogramm SPSS: 30.11.05 Auswertung mit dem Statistikprogramm SPSS: 30.11.05 Seite 1 Einführung SPSS Was ist eine Fragestellung? Beispiel Welche statistische Prozedur gehört zu welcher Hypothese? Statistische Berechnungen mit

Mehr

Sequential Pattern Analysis und Markov-Modelle. Christian Weiß Institut für Angewandte Mathematik und Statistitik Universität Würzburg

Sequential Pattern Analysis und Markov-Modelle. Christian Weiß Institut für Angewandte Mathematik und Statistitik Universität Würzburg Sequential Pattern Analysis und Markov-Modelle. Christian Weiß Institut für Angewandte Mathematik und Statistitik Universität Würzburg Sequential Pattern Analysis Historische Aspekte Data Mining als Teildisziplin

Mehr

Data Mining. Data Warehousing und analytische Datenbanken. Naim Tamtam. Betreuer: K. Büchse. Seminar

Data Mining. Data Warehousing und analytische Datenbanken. Naim Tamtam. Betreuer: K. Büchse. Seminar Friedrisch Schiller Universität Jena Fakultät für Mathematik und Informatik Lehrstuhl für Datenbanksysteme und Informationssysteme Prof. Dr. Klaus Küspert Seminar Data Warehousing und analytische Datenbanken

Mehr

Data Mining für die industrielle Praxis

Data Mining für die industrielle Praxis Data Mining für die industrielle Praxis von Ralf Otte, Viktor Otte, Volker Kaiser 1. Auflage Hanser München 2004 Verlag C.H. Beck im Internet: www.beck.de ISBN 978 3 446 22465 0 Zu Leseprobe schnell und

Mehr

Data Cube. Aggregation in SQL. Beispiel: Autoverkäufe. On-line Analytical Processing (OLAP) 1. Einführung. 2. Aggregation in SQL, GROUP BY

Data Cube. Aggregation in SQL. Beispiel: Autoverkäufe. On-line Analytical Processing (OLAP) 1. Einführung. 2. Aggregation in SQL, GROUP BY Data Cube On-line Analytical Processing (OLAP). Einführung Ziel: Auffinden interessanter Muster in großen Datenmengen 2. Aggregation in SQL, GROUP BY 3. Probleme mit GROUP BY 4. Der Cube-Operator! Formulierung

Mehr

Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014

Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014 Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014 Aufgabe 1. Data Mining a) Mit welchen Aufgabenstellungen befasst sich Data Mining? b) Was versteht man unter Transparenz einer Wissensrepräsentation?

Mehr

Vorlesung. Datenschutz und Privatheit in vernetzten Informationssystemen

Vorlesung. Datenschutz und Privatheit in vernetzten Informationssystemen Vorlesung Datenschutz und Privatheit in vernetzten Informationssystemen Kapitel 7: Privacy Preserving Data Mining Thorben Burghardt, Erik Buchmann buchmann@ipd.uka.de Thanks to Chris Clifton & Group IPD,

Mehr

Statistik und Wahrscheinlichkeitsrechnung

Statistik und Wahrscheinlichkeitsrechnung Statistik und Wahrscheinlichkeitsrechnung Übung 2 28.02.2008 1 Inhalt der heutigen Übung Beschreibende Statistik Gemeinsames Lösen der Übungsaufgaben 2.1: Häufigkeitsverteilung 2.2: Tukey Boxplot 25:Korrelation

Mehr

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining Gliederung 1. Einführung 2. Grundlagen Data Mining Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining 3. Ausgewählte Methoden des Data

Mehr

Korrelation - Regression. Berghold, IMI

Korrelation - Regression. Berghold, IMI Korrelation - Regression Zusammenhang zwischen Variablen Bivariate Datenanalyse - Zusammenhang zwischen 2 stetigen Variablen Korrelation Einfaches lineares Regressionsmodell 1. Schritt: Erstellung eines

Mehr

Data Mining in Datenbanksystemen. Hjalmar Hagen Data Mining Seminar der Universität Ulm, Abteilung SAI, in Zusammenarbeit mit DaimlerChrysler

Data Mining in Datenbanksystemen. Hjalmar Hagen Data Mining Seminar der Universität Ulm, Abteilung SAI, in Zusammenarbeit mit DaimlerChrysler Data Mining in Datenbanksystemen Hjalmar Hagen Data Mining Seminar der Universität Ulm, Abteilung SAI, in Zusammenarbeit mit DaimlerChrysler 19. Februar 2004 Inhaltsverzeichnis 1 Einleitung 2 2 CRoss Industry

Mehr

Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining

Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining Ausgangssituation Kaizen Data Mining ISO 9001 Wenn andere Methoden an ihre Grenzen stoßen Es gibt unzählige Methoden, die Abläufe

Mehr

Neuerungen im Enterprise Miner 5.2 & Text Miner 2.3

Neuerungen im Enterprise Miner 5.2 & Text Miner 2.3 Neuerungen im Enterprise Miner 5.2 & Text Miner 2.3 Copyright 2005, SAS Institute Inc. All rights reserved. Ulrich Reincke, SAS Deutschland Agenda Der Neue Enterprise Miner 5.2 Der Neue Text Miner 2.3

Mehr

Verborgene Schätze heben

Verborgene Schätze heben Verborgene Schätze heben Data Mining mit dem Microsoft SQL Server Martin Oesterer Leiter Vertrieb HMS Analytical Software GmbH Data Mining. Was ist eigentlich wichtig? Data Mining ist: die Extraktion von

Mehr

5 Data Warehouses und Data Mining

5 Data Warehouses und Data Mining 5 Data Warehouses und Data Mining Mittels OLAP Techniken können große Datenmengen unterschiedlich stark verdichtet und gezielt aufbereitet werden. Mittels Data Mining können große Datenmengen nach bisher

Mehr

Automatisierte Dossier- Erstellung mittels Text-Mining

Automatisierte Dossier- Erstellung mittels Text-Mining Automatisierte Dossier- Erstellung mittels Text-Mining Paul Assendorp Grundseminar 11.12.2014 Paul Assendorp Automatisierte Dossier-Erstellung 1 Gliederung Motivation Textmining Tools Aktueller Stand Ausblick

Mehr

Vom Suchen und Finden individueller Empfehlungen aus großen Objektmengen. PD Dr.-Ing. habil. Meike Klettke meike.klettke@uni-rostock.

Vom Suchen und Finden individueller Empfehlungen aus großen Objektmengen. PD Dr.-Ing. habil. Meike Klettke meike.klettke@uni-rostock. Vom Suchen und Finden individueller Empfehlungen aus großen Objektmengen PD Dr.-Ing. habil. Meike Klettke meike.klettke@uni-rostock.de 1 Informationsflut Amazon: Alle lieferbaren Bücher (930.000 Titeln

Mehr

Was ist Data Mining... in der Fundraising Praxis?

Was ist Data Mining... in der Fundraising Praxis? Was ist Data Mining...... in der Fundraising Praxis? Erkennen von unbekannten Mustern in sehr grossen Datenbanken (> 1000 GB) wenige und leistungsfähige Verfahren Automatisierung Erkennen von unbekannten

Mehr

Multivariate Statistik

Multivariate Statistik Hermann Singer Multivariate Statistik 1 Auflage 15 Oktober 2012 Seite: 12 KAPITEL 1 FALLSTUDIEN Abbildung 12: Logistische Regression: Geschätzte Wahrscheinlichkeit für schlechte und gute Kredite (rot/blau)

Mehr

Einführung in das Data Mining Clustering / Clusteranalyse

Einführung in das Data Mining Clustering / Clusteranalyse Einführung in das Data Mining Clustering / Clusteranalyse Sascha Szott Fachgebiet Informationssysteme HPI Potsdam 21. Mai 2008 Teil I Einführung Clustering / Clusteranalyse Ausgangspunkt: Menge O von Objekten

Mehr

Lehrgebiet Informationssysteme

Lehrgebiet Informationssysteme Lehrgebiet AG Datenbanken und (Prof. Michel, Prof. Härder) AG Heterogene (Prof. Deßloch) http://wwwlgis.informatik.uni-kl.de/ Was sind? Computergestützte Programmsysteme, die Informationen erfassen, dauerhaft

Mehr

Der CRISP-DM Prozess für Data Mining. CRISP-DM Standard CRISP-DM. Wozu einen standardisierten Prozess?

Der CRISP-DM Prozess für Data Mining. CRISP-DM Standard CRISP-DM. Wozu einen standardisierten Prozess? Wozu einen standardisierten Prozess? Der Prozess der Wissensentdeckung muss verlässlich und reproduzierbar sein auch für Menschen mit geringem Data Mining Hintergrundwissen. Der CRISP-DM Prozess für Data

Mehr

Lars Priebe Senior Systemberater. ORACLE Deutschland GmbH

Lars Priebe Senior Systemberater. ORACLE Deutschland GmbH Lars Priebe Senior Systemberater ORACLE Deutschland GmbH Data Mining als Anwendung des Data Warehouse Konzepte und Beispiele Agenda Data Warehouse Konzept und Data Mining Data Mining Prozesse Anwendungs-Beispiele

Mehr

Textmining Klassifikation von Texten Teil 1: Naive Bayes

Textmining Klassifikation von Texten Teil 1: Naive Bayes Textmining Klassifikation von Texten Teil 1: Naive Bayes Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten 1: Naive

Mehr