5 Data Warehouses und Data Mining

Größe: px
Ab Seite anzeigen:

Download "5 Data Warehouses und Data Mining"

Transkript

1 5 Data Warehouses und Data Mining Mittels OLAP Techniken können große Datenmengen unterschiedlich stark verdichtet und gezielt aufbereitet werden. Mittels Data Mining können große Datenmengen nach bisher unbekannten Zusammenhängen durchsucht werden. 5.1 Data Warehouses, Decision Support und OLAP zwei Arten von Datenbankanwendungen: online transaction processing (OLTP) online analytical processing (OLAP) Prof. Dr. Dietmar Seipel 407

2 Online Transaction Processing (OLTP) Beipiele: Buchung eines Fluges in einem Flugreservierungssystem Verarbeitung einer Bestellung in einem Handelsunternehmen operatives Tagesgeschäft Update lastig Transaktionen verarbeiten nur begrenzte Datenmengen jüngste, aktuell gültige Daten Prof. Dr. Dietmar Seipel 408

3 5.1.1 Online Analytical Processing (OLAP) Beipiele: Wie hat sich die Auslastung der Transatlantikflüge über die letzten zwei Jahre entwickelt? Wie haben sich besonders offensive Marketingstrategien für bestimmte Produktlinien auf die Verkaufszahlen ausgewirkt? entscheidungsunterstützende Anwendungen Anfrage lastig Rückschlässe auf die Entwicklung des Unternehmens sehr große Datenmengen historische Daten Prof. Dr. Dietmar Seipel 409

4 OLAP Auswertungen Grundlage für die strategische Unternehmensplanung Bestandteil umfassender Decision Support Systeme oder Management Informationssysteme Es besteht momentan weitgehender Konsens, daß man OLTP und OLAP Anwendungen nicht auf derselben Datenbank ausführen sollte: OLTP Datenbanken sind auf Änderungstransaktionen mit Zugriff auf sehr begrenzte Datenmengen optimiert. Die OLTP Daten sind auf verschiedene Datenbanken verteilt. OLAP Anfragen sind sehr komplex und sie betreffen meist sehr große Datenmengen. Die parallele Auswertung von OLAP Anfragen könnte das OLTP Processing empfindlich stören. Prof. Dr. Dietmar Seipel 410

5 Aufbau eines Data Warehouse dediziertes Datenbanksystem Integration aller für die Decision Support Anwendungen notwendigen Daten in konsolidierter Form für das initiale Laden müssen die Daten konsolidiert, gereinigt und durch Aggregation teilweise vor verdichtet werden die Auffrischung des Data Warehouse erfolgt meist im Batchmodus Prof. Dr. Dietmar Seipel 411

6 DB Entwurf für ein Data Warehouse Sternschema (star schema) eine Faktentabelle mehrer Dimensionstabellen verbunden über Fremdschlüsselbeziehungen Die Faktentabelle ist oft riesig. Sie wird normalisiert. Die Dimensionstabellen sind viel kleiner. Sie werden in der Regel nicht normalisiert, da sonst die Anfrageformulierung und bearbeitung erschwert würde. Die Verleztung der Normalformen ist nicht so kritisch, da die Daten nur selten verändert werden. Die Normalisierung der Dimensionstabellen würde ein Sternflockenschema (star flake schema) ergeben. Prof. Dr. Dietmar Seipel 412

7 Filialen Verkäufer Beispiel eines Sternschemas Zeit Verkäufe Anzahl Faktentabelle Kunden Produkte Verkäufe (Datum, Filiale, Verkäufer, Kunde, Produkt, Anzahl) Dimensionstabellen Zeit (Datum, Tag, Monat, Jahr, Wochentag, KW, Quartal, Saison, Filialen (Id, Land, Bezirk, ) Verkäufer (Id, Name, Fachgebiet, Manager, Alter, ) Kunden (Id, Name, Alter, ) Produkte (Id, Typ, Gruppe, Hauptgruppe, Hersteller, ) ) Fremdschlüsselbedingungen von der Faktentabelle auf die Dimensionstabellen Prof. Dr. Dietmar Seipel 413

8 VERKÄUFE DATUM FILIALE VERKÄUFER KUNDE PRODUKT ANZAHL Würzburg Würzburg ZEIT DATUM TAG MONAT JAHR WOCHENTAG KW QUARTAL SAISON Juli 2000 Dienstag 30 3 Hochsommer Juli 2000 Mittwoch 30 3 Hochsommer Prof. Dr. Dietmar Seipel 414

9 FILIALEN ID LAND BEZIRK Würzburg D Bayern KUNDEN ID NAME ALTER 4711 Seipel 43 VERKÄUFER ID NAME FACHGEBIET MANAGER ALTER 825 Handyman Elektronik PRODUKTE ID TYP GRUPPE HAUPTGRUPPE HERSTELLER 1347 Handy Mobiltelekom Telekom Siemens Prof. Dr. Dietmar Seipel 415

10 Größenordnungen: Faktentabelle: viele Millionen Tupel Dimensionstabellen: Produkte Einträge in Zeit Tabelle (3 Jahre) 100 GB bis zu 10 TB Daten Prof. Dr. Dietmar Seipel 416

11 5.1.2 Anfragen im Sternschema: Star Joins Wieviele Handies wurden in den Bayerischen Filialen zu Weihnachten 2001 gekauft? Join über die Fremdchlüsselbedingungen Restriktionen auf den Dimensionstabellen Gruppierung und Aggregation der Ergebnistupel zur Verdichtung erleichtern die Interpretation der Ergebnisse Prof. Dr. Dietmar Seipel 417

12 Anfrage 1: Wieviele Handies haben Kunden in den bayerischen Filialen zu Weihnachten 2001 pro Hersteller gekauft? SELECT FROM WHERE AND AND z.jahr = 2001 AND AND GROUP BY p.hersteller, SUM (v.anzahl) Verkäufe v, Produkte p, Zeit z, Filialen f v.produkt = p.produkt AND v.datum = z.datum v.filiale = f.id AND p.typ = Handy z.saison = Weihnachten f.bezirk = Bayern p.hersteller Prof. Dr. Dietmar Seipel 418

13 Roll Up und Drill Down unterschiedliche Verdichtungsgrade: Drill Down: Erweiterung der Group By Klausel führt zu weniger starker Verdichtung Roll Up: Verkleinerung der Group By Klausel führt zu stärkerer Verdichtung Prof. Dr. Dietmar Seipel 419

14 Anfrage 2: Wieviele Handies haben Kunden pro Hersteller und Jahr pro Jahr insgesamt gekauft? SELECT FROM WHERE AND GROUP BY p.hersteller, z.jahr, SUM (v.anzahl) Verkäufe v, Produkte p, Zeit z v.produkt = p.produkt AND v.datum = z.datum p.typ = Handy p.hersteller, z.jahr Prof. Dr. Dietmar Seipel 420

15 SELECT FROM WHERE AND GROUP BY z.jahr, SUM (v.anzahl) Verkäufe v, Produkte p, Zeit z v.produkt = p.produkt AND v.datum = z.datum p.typ = Handy z.jahr SELECT FROM WHERE AND SUM (v.anzahl) Verkäufe v, Produkte p v.produkt = p.produkt p.typ = Handy Prof. Dr. Dietmar Seipel 421

16 Hersteller Jahr Anzahl Siemens Siemens Siemens Motorola Nokia Jahr Anzahl Hersteller Anzahl Siemens Motorola Nokia Prof. Dr. Dietmar Seipel 422

17 Spreadsheet Darstellung Hersteller Jahr Siemens Motorola Nokia Prof. Dr. Dietmar Seipel 423

18 Die Nutzer von Decision Support Systemen wollen sehr flexibel Daten stark verdichtet oder detailierter darstellen. Operationen: slice: Schneiden in Scheiben durch einzelne Selektionen auf den Dimensionstabellen dice: Schneiden in Würfel durch kombinierte Selektionen auf den Dimensionstabellen Prof. Dr. Dietmar Seipel 424

19 Der CUBE Operator Man kann viele Aggregate aus anderen noch nicht so stark verdichteten Aggregaten berechnen: GROUP BY A, B, C und GROUP BY C, D, E GROUP BY A, B, C, D, E Der CUBE Operator des DBMS nutzt dies zur Optimierung. Bei einer Aggregation über Attribute werden alle Unter Aggregate gemeinsam berechnet. Dann können Drill Down Operationen leicht ausgeführt werden. Prof. Dr. Dietmar Seipel 425

20 SELECT FROM WHERE AND AND AND GROUP BY p.hersteller, z.jahr, f.land, SUM (v.anzahl) Verkäufe v, Produkte p, Zeit z, Filialen f v.produkt = p.produkt v.datum = z.datum v.filiale = f.id p.typ = Handy CUBE (p.hersteller, z.jahr, f.land) Prof. Dr. Dietmar Seipel 426

21 Jahr Filiale Materialisierungs Hierarchie Produkt Filiale Produkt Jahr Produkt Filiale Jahr Filiale Produkt Jahr Prof. Dr. Dietmar Seipel 427

22 Zeit Hierarchie Jahr Quartal Woche (KW) Monat Tag Kalenderwochen (KW) können zu zwei unterschiedlichen Monaten gehören Prof. Dr. Dietmar Seipel 428

23 Data Warehouse Architekturen ROLAP: relationales OLAP auf der Basis relationaler Datenbanken MOLAP: multi dimensionales OLAP auf der Basis mehr dimensionaler Datenstrukturen mehr dimensionale Arrays dünn besetzte (sparse) Dimensionen Prof. Dr. Dietmar Seipel 429

24 5.2 Data Mining Beim Data Mining werden große Datenmengen nach bisher unbekannten Zusammenhängen durchsucht. Ziel: hoch skalierbare Algorithmen, die auch auf sehr großen Datenmengen anwendbar sind. drei Ansätze: Klassifikation von Objekten Finden von Assoziationsregeln Clusterung von ähnlichen Objekten Prof. Dr. Dietmar Seipel 430

25 Knowledge Discovery in Datenbanken (KDD) Knowledge Evaluation und Präsentation Data Mining Selektion und Transformation Muster Data Warehouses Cleaning und Integration Datenbanken flache Files Prof. Dr. Dietmar Seipel 431

26 5.2.1 Klassifikation Risiko Abschätzung von Versicherungspolicen; beispielsweise für Autohaftpflicht oder Risikolebensversicherungen Datenobjekte werden gemäß ihrer Attributwerte klassifiziert, um daraus eine möglichst genaue Vorhersage treffen zu können Klassifikationsregel: Vorhersage Attribute vorherzusagendes (abhängiges) Attribut (Ziel) Prädikate Prof. Dr. Dietmar Seipel 432

27 Beispiel (Kreditwürdigkeit) Id Married PrevDef Income Def C1 yes no 50 no C2 yes no 100 no C3 no yes 135 yes C4 yes no 125 no C5 yes no 50 no C6 no no 30 no C7 yes yes 10 no C8 yes no 10 yes C9 yes no 75 no C10 yes yes 45 no Id Married PrevDef Income Def C11 yes no 60 yes C12 no yes 125 yes C13 yes yes 20 no C14 no no 15 no C15 no no 60 no C16 yes no 15 yes C17 yes no 35 no C18 no yes 160 yes C19 yes no 40 no C20 yes no 30 no to default: einen Kredit nicht zurück zahlen Prof. Dr. Dietmar Seipel 433

28 Klassifikationsregeln 1. Falls jemand noch keinen Kredit platzen ließ, verheiratet ist und mindestens 30 T Euro verdient, dann wird er keinen Kredit platzen lassen: 2. Falls jemand schon einmal einen Kredit platzen ließ, dann hängt seine Kreditwürdigkeit stark davon ab ob er verheiratet ist: Prof. Dr. Dietmar Seipel 434

29 Beispiel (Auto) 1. Männer über 35, die ein Coupé fahren, gehören in eine hohe Riskogruppe (Draufgänger in der Midlife Crisis): männlich Coupé 2. Männer über 35, die einen Kleinbus (Mini Van) fahren, gehören in eine niedrige Riskogruppe (verantwortungsbewußter Familienvater) männlich Mini Van Prof. Dr. Dietmar Seipel 435

30 Entscheidungs Baum Ein Klassifikations/Entscheidungs Baum faßt viele Klassifikationsregeln zu einem Klassifikationsschema zusammen. Jedes Blatt des Baums entspricht einer Klassifikationsregel. Welche Attribute für die Klassifikation herangezogen werden kann durch den Benutzer gesteuert werden, oder es kann auch vollautomatisch durch Ausprobieren geschehen. Prof. Dr. Dietmar Seipel 436

31 Entscheidungs Baum (Kreditwürdigkeit) PrevDef yes no Married Married yes no yes no Def = no (3, 100%) Def = yes (3, 100%) Income Def = no (3, 100%) Def = yes (2, 100%) Def = no (8, 89%) Def = yes (1, 11%) Prof. Dr. Dietmar Seipel 437

32 Entscheidungs Baum (Auto) Geschlecht Alter m w geringes Risiko hohes Risiko Autotyp Coupé hohes Risiko Mini Van geringes Risiko Prof. Dr. Dietmar Seipel 438

33 Bestimmung von Entscheidungs Bäumen Aufspalten der Tabelle in und Id Married PrevDef Income Def C1 yes no 50 no C2 yes no 100 no C4 yes no 125 no C5 yes no 50 no C6 no no 30 no C8 yes no 10 yes C9 yes no 75 no C11 yes no 60 yes C14 no no 15 no C15 no no 60 no C16 yes no 15 yes C17 yes no 35 no C19 yes no 40 no C20 yes no 30 no Id Married PrevDef Income Def C3 no yes 135 yes C7 yes yes 10 no C10 yes yes 45 no C12 no yes 125 yes C13 yes yes 20 no C18 no yes 160 yes Prof. Dr. Dietmar Seipel 439

34 Entropie Begriff aus der Informationstheorie Für eine Tabelle mit der Attributmenge der Wertebereich von. und ein Attribut sei Für einen Wert sei die Anzahl der Tupel aus mit diesem Wert für und für das Attribut : die relative Häufigkeit des Wertes Wir setzen Prof. Dr. Dietmar Seipel 440

35 Falls alle Werte in haben, so gilt dieselbe Wahrscheinlichkeit Prof. Dr. Dietmar Seipel 441

36 Beispiel (Kreditwürdigkeit) : : : ferner gilt in den Teil Tabellen: Prof. Dr. Dietmar Seipel 442

37 Sie 1. Falls man bezüglich das Ziel Attribut. aufspaltet, dann ist die gewichtet gemittelte Entropie der Teiltabellen Es gilt immer 2. Der Informationsgewinn beim Aufspalten ist im Beispiel: Prof. Dr. Dietmar Seipel 443 gegeben durch

38 Der ID3 Algorithmus von Quinlan (1986) 1. Falls und, dann gibt es genau einen Wert nicht aufgespalten. wird wird mit markiert. für, 2. Falls dann wird ebenfalls nicht aufgespalten. wird mit dem häufigsten Wert und keine Attribute mehr hat, für markiert. 3. Sonst: Bestimme das Attribut mit dem größten Informationsgewinn und spalte in die Teil Tabellen, für, auf. Wende das Verfahren rekursiv auf diese Teil Tabellen an. mit Diskretisierung von kontinuierlichen Wertebereichen: C4.5 Algorithmus Prof. Dr. Dietmar Seipel 444

39 Aufspalten bezüglich und : Id Married PrevDef Income Def C1 yes no 50 no C2 yes no 100 no C4 yes no 125 no C5 yes no 50 no C8 yes no 10 yes C9 yes no 75 no C11 yes no 60 yes C16 yes no 15 yes C17 yes no 35 no C19 yes no 40 no C20 yes no 30 no Id Married PrevDef Income Def C7 yes yes 10 no C10 yes yes 45 no C13 yes yes 20 no Id Married PrevDef Income Def C6 no no 30 no C14 no no 15 no C15 no no 60 no Id Married PrevDef Income Def C3 no yes 135 yes C12 no yes 120 yes C18 no yes 160 yes Prof. Dr. Dietmar Seipel 445

40 Aufspalten der Daten: Training Set: Erzeugung eines Entscheidungsbaumes Validation Set: Beschneiden des Entscheidungsbaumes an den Blättern Test Set: Test des Entscheidungsbaumes Verfeinerungen des Ansatzes: gain ratio (Quinlan 1986) gini index (Breiman et al. 1984) Prof. Dr. Dietmar Seipel 446

41 5.2.2 Assoziationsregeln Beispiel (Walmart) Bei der Auswertung von Supermarkteinkäufen im Walmart wurde in den USA festgestellt, daß oft im selben Einkaufswagen Bier, Kartoffelchips und Baby Windeln zu finden waren. Prof. Dr. Dietmar Seipel 447

42 ist die Anzahl der Transaktionen, welche 2. Der Support von ist der Anteil der Transaktionen, welche Frequent Itemsets Definition (Itemsets) Sei eine Menge von Items und Transaktionen mit. eine Menge von Sei ein Itemset: 1. Die Häufigkeit von enthalten: enthalten: 3. heißt für frequent, falls d.h. Prof. Dr. Dietmar Seipel 448

43 Der Á Priori Algorithmus Induktive Bestimmung der Menge aller Frequent Itemsets der Größe. 1. Generiere 2. Bestimme erweitere dazu alle und teste ob auch wieder ein Frequent Itemset ist: um alle aus und :, mit, 3. Verbesserung, falls (vgl. dynamische Programmierung): Prof. Dr. Dietmar Seipel 449

44 Der Á Priori Algorithmus bestimmt alle Frequent Itemsets. Er basiert darauf, daß alle Teilmengen eines Frequent Itemsets frequent sind, denn ebenfalls Da die Bestimmung von zeitaufwendig ist, kann man bei der Berechnung von zuerst testen, ob alle Itemsets frequent sind, bevor man berechnet. Für ein Itemset für ein Kandidaten Itemset, mit d.h. dem Schnitt Teilmenge von der Größe, welche aus der bestehen, auf Größe kann man z.b. alle Teilmengen und und einer testen. Prof. Dr. Dietmar Seipel 450

45 , Beispiel (Drucker) Produkte: Transaktionen: : die Frequent Itemsets müssen in mindestens Transaktionen enthalten sein Wir bestimmen Prof. Dr. Dietmar Seipel 451 nur für relevante Itemsets.

46 1. betrachtete Itemsets: Drucker Papier PC Scanner Toner Wir erhalten Also gibt es kein Frequent Itemset, denn aus egal von welcher Größe mit folgt Prof. Dr. Dietmar Seipel 452

47 2. relevante Itemsets: Drucker Papier PC Scanner Toner Die Itemsets, welche sie sind alle nicht frequent. enthalten, werden nicht betrachtet; Prof. Dr. Dietmar Seipel 453

48 3. 3 der 4 möglichen Erweiterungen der Frequent 2 Itemsets sind nicht relevant: Das Itemset welches keinen Drucker enthält, ist eine Obermenge von und von und somit nicht frequent. Die Itemsets und sind ebenfalls Obermengen davon und somit nicht frequent. Das einzige relevante Itemset der Größe ist frequent: Drucker Papier PC Scanner Toner keine Frequent Itemsets der Größe : Prof. Dr. Dietmar Seipel 454

49 Beispiel (Kreditwürdigkeit) Frequent Itemsets: Es gibt hier Itemsets der Größe, denn es gibt Attribut Teilmengen der Größe, und für jedes Attribut gibt es hier zwei mögliche Werte. Ein Eintrag von denen besagt, daß es maximal, d.h. nicht verlängerbar, sind. Frequent Itemsets der Größegibt, Prof. Dr. Dietmar Seipel 455

50 : alle maximalen Frequent Itemsets haben die Größe 4 Married PrevDef Income Def no yes yes no yes no no yes no no no 2 yes 2 no 2 yes 3 no 8 Prof. Dr. Dietmar Seipel 456

51 : es gibt 4 maximale Frequent Itemsets der Größe 2 und ein maximales Frequent Itemset der Größe 4 Married PrevDef Income Def yes no yes yes no 4 4 yes 4 5 no 8 Prof. Dr. Dietmar Seipel 457

52 : es gibt 3 maximale Frequent Itemsets der Größe 1 und ein maximales Frequent Itemset der Größe 4 Married PrevDef Income Def no 6 yes 6 yes 6 yes no no 8 : es gibt ein maximales Frequent Itemset der Größe 4 Married PrevDef Income Def yes no no 8 Prof. Dr. Dietmar Seipel 458

53 Assoziationsregeln Definition (Assoziationsregel, Support, Confidence) Eine Assoziationsregel hat die Form für Itemsets. 1. Der Support von sowohl als auch gibt den Anteil der Transaktionen an, die enthalten: Die Confidence von 2. gibt den Anteil der Transaktionen, die enthalten, bezogen auf die Transaktionen, die enthalten, an: und 3. Falls, so schreiben wir Prof. Dr. Dietmar Seipel 459

54 Beispiel (Support und Confidence von Assoziationsregeln) 1. Für die Assoziationsregel erhalten wir und 2. Für die Assoziationsregel erhalten wir und Prof. Dr. Dietmar Seipel 460

55 Assoziationsregeln zum Entscheidungs Baum (Kreditwürdigkeit) PrevDef yes no Married Married yes no yes no Def = no Def = yes Income Def = no Def = yes Def = no Prof. Dr. Dietmar Seipel 461

56 Die Zweige des Entscheidungs Baums entsprechen folgenden Assoziationsregeln: 15%,100% 15%,100% 10%,100% 40%,89% 15%,100% Prof. Dr. Dietmar Seipel 462

57 3. Falls um, so erhöht man die Confidence, wenn man um Satz (Support und Confidence von Assoziationsregeln) Sie 1. Für 2. Für gilt eine Assoziationsregel. gilt verkleinert. Für gilt 4. Falls, so erhöht man die Confidence, wenn man vergrößert und um verkleinert. Für gilt Prof. Dr. Dietmar Seipel 463 und und und

58 , so verringert man die Confidence, wenn man, so verringert man die Confidence, wenn man 5. Falls verkleinert. Für gilt und um 6. Falls verkleinert und um vergrößert. Für gilt und um 7. Für ein Itemset und gilt, so gilt auch Prof. Dr. Dietmar Seipel 464 Falls

59 Bestimmung der Assoziationsregeln Definition (Redundante Assoziationsregeln) Eine Assoziationsregel heißt redundant, 1. falls oder, da dann trivialerweise immer gilt, 2. falls es eine andere Assoziationsregel mit und und da dann bereits aus In der Regel gibt es sehr viele Assoziationsregeln. gibt,, folgt. Man kann redundante Assoziationsregeln Berechnung weglassen. Außer enthalten sie nur redundante Information. bei der Prof. Dr. Dietmar Seipel 465

60 Beispiel (Kreditwürdigkeit) Wir bestimmen alle nicht redundanten Assoziationsregeln mit Def oder Def. Married PrevDef Income Def yes no yes 10% 100% no no no 15% 100% no yes yes 15% 100% yes yes no 15% 100% yes no no 40% 89% yes no 45% 90% no no 50% 91% Neben den Assoziationsregeln wurden zwei weitere Assoziationsregeln berechnet. zum Entscheidungs Baum Prof. Dr. Dietmar Seipel 466

61 Falls man an Assoziationsregeln mit beliebigen rechten Seiten interessiert ist, so könnte man sich zur Reduktion des Aufkommens auf nicht redundante, maximale Assoziationsregeln beschränken. Definition (Subsumtion von Assoziationsregeln) 1. Eine Assoziationsregel kurz falls subsumiert eine Assoziationsregel und und 2. Eine Assoziationsregel heißt maximal, falls sie von keiner anderen Assoziationsregel subsumiert wird. Falls und so folgt schon aus da dann immer automatisch auch gilt. Prof. Dr. Dietmar Seipel 467

62 Assoziationsregeln mit 40% und 80%: Married PrevDef Income Def yes no no 40% 80% yes no no 40% hper yes no 45% 82% yes no 45% 82% yes no 45% 82% yes no 45% 82% yes no 45% 90% yes no 45% 90% no no 50% 91% no no 50% 91% no no 50% 91% Prof. Dr. Dietmar Seipel 468

63 weitere Assoziationsregeln mit 15% 40% und 80%: Married PrevDef Income Def no no no 15% 100% no yes yes 15% 100% no no no 15% 100% no yes yes 15% 100% yes yes no 15% 100% yes no yes 15% 100% yes no yes 15% 100% yes yes no 15% 100% no yes yes 15% 100% yes 20% 80% no 25% 83% Prof. Dr. Dietmar Seipel 469

64 weitere Assoziationsregeln mit 10% 20% und 80%: Married PrevDef Income Def yes no yes 10% 100% yes yes no 10% 100% yes yes no 10% 100% yes no yes 10% 100% Assoziationsregeln zum Entscheidungs Baum: Die berechnete Assoziationsregel 50%,91% subsumiert die Regel Die Regeln,, Entscheidungs Baums wurden auch berechnet. zum vierten Zweig des Entscheidungs Baums. und zu den anderen Zweigen des Prof. Dr. Dietmar Seipel 470

65 5.2.3 Clustering Auffinden von Gruppen logisch verwandeter Objekte, so daß die Objekte einer Gruppe sehr ähnlich sind; Ähnlichkeitsmaß: Euklidscher Abstand o.ä., Normierung, so daß die besonders relevanten Dimensionen (Charakteristika) stärker gewichtet werden als andere; Outlier Detection: Objekte, die aus dem Rahmen fallen. Bei Klassifikationsregeln und Entscheidungsbäumen sind die Kategorien nach denen die Objekte klassifiziert werden, vorher bekannt. Beim Clustering werden diese erst durch den Algorithmus bestimmt. Prof. Dr. Dietmar Seipel 471

66 Cluster und Outlier: outlier Prof. Dr. Dietmar Seipel 472

67 Der K Means Algorithmus Gewünschte Anzahl von Clustern 1. wähle zufällig Objekte als Zentren der initialencluster aus 2. ordne die restlichen Objekte jeweils dem nächsten Cluster zu (Änhlichkeitsvergleich mit dem Zentrum des Clusters) 3. berechne die Zentren der Cluster neu als die Mittelwerte der Objekte des Clusters 4. wiederhole die Schritte 2 und 3 solange bis sich die Cluster nicht mehr verändern Verfeinerungen: Wiederholung des Algorithmus mit verschiedenen initialen Zentren gezielte Selektion der initialen Zentren Test verschiedener Werte für die Anzahl der Zentren Prof. Dr. Dietmar Seipel 473

68 Beispiel: Id Alter Note S S S S S S Prof. Dr. Dietmar Seipel 474

69 Clusterung nach dem Alter: initiale Clusterzentren und Cluster: Zentren: S1, S4 Cluster 1: S1, S2, S3 Cluster 2: S4, S5, S6 neue Clusterzentren und Cluster: Zentren: ( )/3 = , ( )/3 = 23 Cluster 1: S1, S2, S3, S4 Cluster 2: S5, S6 das frühere Zentrum von Cluster 2 ist ins Cluster 1 gewandert weitere Schritte bringen keine Veränderung der Cluster Notendurchschnitt von ( )/4 = in Cluster 1 (jüngere Studenten) und ( )/2 = 3.55 in Cluster 2 (ältere Studenten). Prof. Dr. Dietmar Seipel 475

70 fach gewichten, da dann die neuen numerischen Werte zwischen 0 und Beispiel (Kreditwürdigkeit) Transformation: Wir bilden nicht numerische Werte auf numerische ab: yes no Ci Damit rangieren die numerischen Werte für Married, PrevDef und Def zwischen 0 und 1. Normierung: Das Einkommen rangiert zunächst zwischen 0 und 160. Im Vergleich zu den anderen Attributen kann man es mittels Income Income liegen. Prof. Dr. Dietmar Seipel 476

71 Clusterung mittels K Means vierfache Gewichtung des Einkommens: Income 3 Cluster: Income Id Married PrevDef Income Def Id Married PrevDef Income Def 1 C1 yes no 50 no 1 C14 no no 15 no 1 C2 yes no 100 no 1 C15 no no 60 no 1 C3 no yes 135 yes 1 C17 yes no 35 no 1 C4 yes no 125 no 1 C18 no yes 160 yes 1 C5 yes no 50 no 1 C19 yes no 40 no 1 C6 no no 30 no 1 C20 yes no 30 no 1 C9 yes no 75 no 2 C13 yes yes 20 no 1 C10 yes yes 45 no 2 C7 yes yes 10 no 1 C11 yes no 60 yes 3 C16 yes no 15 yes 1 C12 no yes 125 yes 3 C8 yes no 10 yes Die Cluster Einkommen, und außerdem gilt und enthalten verheiratete Personen mit niedrigen Prof. Dr. Dietmar Seipel 477

72 zweifache Gewichtung des Einkommens: Income 4 Cluster: Income Id Married PrevDef Income Def 1 C1 yes no 50 no 1 C2 yes no 100 no 1 C4 yes no 125 no 1 C5 yes no 50 no 1 C9 yes no 75 no 1 C17 yes no 35 no 1 C19 yes no 40 no 1 C20 yes no 30 no 2 C8 yes no 10 yes 2 C11 yes no 60 yes 2 C16 yes no 15 yes Id Married PrevDef Income Def 3 C7 yes yes 10 no 3 C10 yes yes 45 no 3 C13 yes yes 20 no 4 C3 no yes 135 yes 4 C6 no no 30 no 4 C12 no yes 125 yes 4 C14 no no 15 no 4 C15 no no 60 no 4 C18 no yes 160 yes 3 Cluster: und oder und oder und zusammen Prof. Dr. Dietmar Seipel 478

73 Hierarchisches Clustering 1. starte mit einem Cluster pro Datenobjekt 2. verschmelze zwei möglichst nahe beeinander liegende Cluster, basierend auf der Distanz zwischen den Zentren (Mittelwerten) der Cluster der Distanz zwischen den zwei nächsten Nachbarn zweier Cluster (d.h., je einem Element der jeweils betrachteten Cluster) 3. dieser Prozeß kann zu jedem Zeitpunkt abgebrochen werden, sobald man ein zufriedenstellendes Clustering erreicht hat Prof. Dr. Dietmar Seipel 479

74 Dentrogramm 17,17,18,20,23,26 17,17,18,20 17,17,18 17,17 23, Prof. Dr. Dietmar Seipel 480

OLTP: Online Transaction Processing

OLTP: Online Transaction Processing Moderne Betriebliche Anwendungen von Datenbanksystemen Online Transaction Processing (bisheriger Fokus) Data Warehouse-Anwendungen Data Mining OLTP: Online Transaction Processing Beispiele Flugbuchungssystem

Mehr

Data Warehouse. Kapitel 17. Abbildung 17.1: Zusammenspiel zwischen OLTP und OLAP. Man unterscheidet zwei Arten von Datenbankanwendungen:

Data Warehouse. Kapitel 17. Abbildung 17.1: Zusammenspiel zwischen OLTP und OLAP. Man unterscheidet zwei Arten von Datenbankanwendungen: Kapitel 17 Data Warehouse OLTP Online Transaction Processing OLAP Online Analytical Processing Decision Support-Anfragen Data Mining opera- tionale DB opera- tionale DB opera- tionale DB Data Warehouse

Mehr

Data Warehouse. Kapitel 17. Abbildung 17.1: Zusammenspiel zwischen OLTP und OLAP. Man unterscheidet zwei Arten von Datenbankanwendungen:

Data Warehouse. Kapitel 17. Abbildung 17.1: Zusammenspiel zwischen OLTP und OLAP. Man unterscheidet zwei Arten von Datenbankanwendungen: Kapitel 17 Data Warehouse OLTP Online Transaction Processing OLAP Online Analytical Processing Decision Support-Anfragen Data Mining opera- tionale DB opera- tionale DB opera- tionale DB Data Warehouse

Mehr

Data Warehouses und Moderne Betriebliche Anwendungen von Datenbanksystemen

Data Warehouses und Moderne Betriebliche Anwendungen von Datenbanksystemen Data Warehouses und Moderne Betriebliche Anwendungen von Datenbanksystemen (Folien von A. Kemper zum Buch 'Datenbanksysteme') Online Transaction Processing Betriebswirtschaftliche Standard- Software (SAP

Mehr

Kapitel 17: Date Warehouse

Kapitel 17: Date Warehouse Kapitel 17: Date Warehouse 1 OLTP versus OLAP OLTP (Online Transaction Processing) z.b. Flugreservierung, Handelsunternehmen kleine, kurze Transaktionen jeweils auf jüngstem Zustand OLAP (Online Analytical

Mehr

Data Warehouse. Kapitel 16. Abbildung 16.1: Zusammenspiel zwischen OLTP und OLAP. Man unterscheidet zwei Arten von Datenbankanwendungen:

Data Warehouse. Kapitel 16. Abbildung 16.1: Zusammenspiel zwischen OLTP und OLAP. Man unterscheidet zwei Arten von Datenbankanwendungen: Kapitel 16 Data Warehouse OLTP Online Transaction Processing OLAP Online Analytical Processing Decision Support-Anfragen Data Mining operationale DB operationale DB operationale DB Data Warehouse operationale

Mehr

Data Warehousing. Fragen des Marketingleiters. Beispiel: : Amazon. Technisch... Amazon weltweit... Datenbank. Aufbau eines DWH OLAP <-> OLTP Datacube

Data Warehousing. Fragen des Marketingleiters. Beispiel: : Amazon. Technisch... Amazon weltweit... Datenbank. Aufbau eines DWH OLAP <-> OLTP Datacube Fragen des Marketingleiters Data Warehousing Wie viele Bestellungen haben wir jeweils im Monat vor Weihnachten, aufgeschlüsselt nach? Aufbau eines DWH OLAP OLTP Datacube Beispiel: : Amazon Technisch

Mehr

Betriebliche Anwendungen

Betriebliche Anwendungen Betriebliche Anwendungen OLTP Data Warehouse Data Mining Kapitel 17 1 OLTP: Online Transaction Processing Beispiele Flugbuchungssystem Bestellungen in einem Handelsunternehmen Charakterisierung Hoher Parallelitätsgrad

Mehr

Einführung relationale Datenbanken. Themenblock: Erstellung eines Cube. Schlüssel. Relationenmodell Relationenname Attribut. Problem.

Einführung relationale Datenbanken. Themenblock: Erstellung eines Cube. Schlüssel. Relationenmodell Relationenname Attribut. Problem. Themenblock: Erstellung eines Cube Einführung relationale Datenbanken Problem Verwaltung großer Mengen von Daten Praktikum: Data Warehousing und Data Mining Idee Speicherung der Daten in Form von Tabellen

Mehr

Themenblock: Erstellung eines Cube

Themenblock: Erstellung eines Cube Themenblock: Erstellung eines Cube Praktikum: Data Warehousing und Data Mining Einführung relationale Datenbanken Problem Verwaltung großer Mengen von Daten Idee Speicherung der Daten in Form von Tabellen

Mehr

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining.

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining. Motivation Themenblock: Klassifikation Praktikum: Data Warehousing und Data Mining Ziel Item hat mehrere Attribute Anhand von n Attributen wird (n+)-tes vorhergesagt. Zusätzliches Attribut erst später

Mehr

Das Multidimensionale Datenmodell

Das Multidimensionale Datenmodell Das Multidimensionale Datenmodell Konzeptuelle Modellierung Umsetzung des Modells Beispiel ER-Modell 2 / 36 Probleme ER-Modellierung Keine Unterscheidung Klassifikation, Attribute, Kenngrößen Dimension

Mehr

Data Warehousing. Weitere Buzzwörter: OLAP, Decision Support, Data Mining

Data Warehousing. Weitere Buzzwörter: OLAP, Decision Support, Data Mining Data Warehousing Weitere Buzzwörter: OLAP, Decision Support, Data Mining Wichtige Hinweise Zu diesem Thema gibt es eine Spezialvorlesung im Sommersemester Hier nur grober Überblick über Idee und einige

Mehr

Seminar Business Intelligence Teil II. Data Mining & Knowledge Discovery

Seminar Business Intelligence Teil II. Data Mining & Knowledge Discovery Seminar Business Intelligence Teil II Data Mining & Knowledge Discovery Was ist Data Mining? Sabine Queckbörner Was ist Data Mining? Data Mining Was ist Data Mining? Nach welchen Mustern wird gesucht?

Mehr

6.6 Vorlesung: Von OLAP zu Mining

6.6 Vorlesung: Von OLAP zu Mining 6.6 Vorlesung: Von OLAP zu Mining Definition des Begriffs Data Mining. Wichtige Data Mining-Problemstellungen, Zusammenhang zu Data Warehousing,. OHO - 1 Definition Data Mining Menge von Techniken zum

Mehr

Vertrautmachen mit Daten

Vertrautmachen mit Daten Kapitel III Vertrautmachen mit Daten 2004 AIFB / FZI 1 III Vertrautmachen mit Daten (see also Data Preparation ) 2004 AIFB / FZI 2 III Vertrautmachen mit Daten III.1 OLAP III.1.1 Einführung in OLAP Wie

Mehr

MIS by Franziska Täschler, Winformation GmbH ftaeschler@winformation-gmbh.ch Ausgabe 01/2001

MIS by Franziska Täschler, Winformation GmbH ftaeschler@winformation-gmbh.ch Ausgabe 01/2001 MIS Glossar by Franziska Täschler, Winformation GmbH ftaeschler@winformation-gmbh.ch Ausgabe 01/2001 Aggregat Data Cube Data Marts Data Mining Data Warehouse (DWH) Daten Decision Support Systeme (DSS)

Mehr

Data Cube. Aggregation in SQL. Beispiel: Autoverkäufe. On-line Analytical Processing (OLAP) 1. Einführung. 2. Aggregation in SQL, GROUP BY

Data Cube. Aggregation in SQL. Beispiel: Autoverkäufe. On-line Analytical Processing (OLAP) 1. Einführung. 2. Aggregation in SQL, GROUP BY Data Cube On-line Analytical Processing (OLAP). Einführung Ziel: Auffinden interessanter Muster in großen Datenmengen 2. Aggregation in SQL, GROUP BY 3. Probleme mit GROUP BY 4. Der Cube-Operator! Formulierung

Mehr

Datenbanksysteme 2 Frühjahr-/Sommersemester 2014 28. Mai 2014

Datenbanksysteme 2 Frühjahr-/Sommersemester 2014 28. Mai 2014 Lehrstuhl für Praktische Informatik III Prof. Dr. Guido Moerkotte Email: moer@db.informatik.uni-mannheim.de Marius Eich Email: marius.eich@uni-mannheim.de Datenbanksysteme 2 8. Übungsblatt Frühjahr-/Sommersemester

Mehr

Vorlesung Datenbankmanagementsysteme

Vorlesung Datenbankmanagementsysteme Vorlesung Datenbankmanagementsysteme SQL zur Datenanalyse & Einführung Online Analytical Processing (OLAP) (auf Basis von Oracle) Vorlesung Datenbankmanagementsysteme SQL zur Datenanalyse M. Lange, S.

Mehr

The integration of business intelligence and knowledge management

The integration of business intelligence and knowledge management The integration of business intelligence and knowledge management Seminar: Business Intelligence Ketevan Karbelashvili Master IE, 3. Semester Universität Konstanz Inhalt Knowledge Management Business intelligence

Mehr

Motivation. Themenblock: Data Preprocessing. Einsatzgebiete für Data Mining I. Modell von Gianotti und Pedreschi

Motivation. Themenblock: Data Preprocessing. Einsatzgebiete für Data Mining I. Modell von Gianotti und Pedreschi Motivation Themenblock: Data Preprocessing We are drowning in information, but starving for knowledge! (John Naisbett) Was genau ist Datenanalyse? Praktikum: Data Warehousing und Data Mining Was ist Data

Mehr

10. Vorlesung: Datenorganisation SS 2007

10. Vorlesung: Datenorganisation SS 2007 10. Vorlesung: Datenorganisation SS 2007 8 Parallele Transaktionen 9 9.1 Drei-Ebenen Ebenen-Architektur 9.2 Verteilte Datenbanken 9.3 Client-Server Server-Datenbanken 9.4 Föderierte Datenbanken 9.5 Das

Mehr

OLAP und Data Warehouses

OLAP und Data Warehouses OLP und Data Warehouses Überblick Monitoring & dministration Externe Quellen Operative Datenbanken Extraktion Transformation Laden Metadaten- Repository Data Warehouse OLP-Server nalyse Query/Reporting

Mehr

Knowledge Discovery. Lösungsblatt 1

Knowledge Discovery. Lösungsblatt 1 Universität Kassel Fachbereich Mathematik/nformatik Fachgebiet Wissensverarbeitung Hertie-Stiftungslehrstuhl Wilhelmshöher Allee 73 34121 Kassel Email: hotho@cs.uni-kassel.de Tel.: ++49 561 804-6252 Dr.

Mehr

Data Mining Anwendungen und Techniken

Data Mining Anwendungen und Techniken Data Mining Anwendungen und Techniken Knut Hinkelmann DFKI GmbH Entdecken von Wissen in banken Wissen Unternehmen sammeln ungeheure mengen enthalten wettbewerbsrelevantes Wissen Ziel: Entdecken dieses

Mehr

Data Mining-Modelle und -Algorithmen

Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining ist ein Prozess, bei dem mehrere Komponenten i n- teragieren. Sie greifen auf Datenquellen, um diese zum Training,

Mehr

Data Mining und Knowledge Discovery in Databases

Data Mining und Knowledge Discovery in Databases Data Mining und Knowledge Discovery in Databases Begriffsabgrenzungen... Phasen der KDD...3 3 Datenvorverarbeitung...4 3. Datenproblematik...4 3. Möglichkeiten der Datenvorverarbeitung...4 4 Data Mining

Mehr

Seminar im Sommersemester 2004 an der Universität Karlsruhe (TH)

Seminar im Sommersemester 2004 an der Universität Karlsruhe (TH) Seminar im Sommersemester 2004 an der Universität Karlsruhe (TH) Verteilung und Integration von Informationen im Verkehrsbereich Thema: OLAP in verteilten Data-Warehouse- Umgebungen Vortrag: Christian

Mehr

Data Warehouse Grundlagen

Data Warehouse Grundlagen Seminarunterlage Version: 2.10 Version 2.10 vom 24. Juli 2015 Dieses Dokument wird durch die veröffentlicht.. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen sind Warenzeichen

Mehr

Kap. 6 Data Warehouse

Kap. 6 Data Warehouse 1 Kap. 6 Data Warehouse 6.1 Was ist ein Data Warehouse, Motivation? 6.2 Data Cube und Cube-Operationen 6.3 Workshop: MS SQL Server, Cube Operationen 6.4 Physischer Entwurf, Implementierung von Cubes 6.5

Mehr

Vorwort zur 5. Auflage... 15 Über den Autor... 16

Vorwort zur 5. Auflage... 15 Über den Autor... 16 Vorwort zur 5. Auflage...................................... 15 Über den Autor............................................ 16 Teil I Grundlagen.............................................. 17 1 Einführung

Mehr

Einsatz von Datenbanken im Forschungslabor. Workflow und Data Mining

Einsatz von Datenbanken im Forschungslabor. Workflow und Data Mining Einsatz von Datenbanken im Forschungslabor Friedrich-Alexander-Universität Erlangen-Nürnberg Technische Fakultät, Institut für Informatik Lehrstuhl für Informatik 6 (Datenbanksysteme) Datenbanken weshalb?

Mehr

Data Warehouse Definition (1) http://de.wikipedia.org/wiki/data-warehouse

Data Warehouse Definition (1) http://de.wikipedia.org/wiki/data-warehouse Data Warehouse Definition (1) http://de.wikipedia.org/wiki/data-warehouse Ein Data-Warehouse bzw. Datenlager ist eine zentrale Datensammlung (meist eine Datenbank), deren Inhalt sich aus Daten unterschiedlicher

Mehr

2. Lernen von Entscheidungsbäumen

2. Lernen von Entscheidungsbäumen 2. Lernen von Entscheidungsbäumen Entscheidungsbäume 2. Lernen von Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch Attribut/Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse

Mehr

Verwandt, logisch kohärent, zweckspezifisch, an reale Welt orientiert. Entität kann in einer oder mehreren Unterklassen sein

Verwandt, logisch kohärent, zweckspezifisch, an reale Welt orientiert. Entität kann in einer oder mehreren Unterklassen sein 1 Definitionen 1.1 Datenbank Verwandt, logisch kohärent, zweckspezifisch, an reale Welt orientiert Integriert, selbstbeschreibend, verwandt 1.2 Intension/Extension Intension: Menge der Attribute Extension:

Mehr

3.17 Zugriffskontrolle

3.17 Zugriffskontrolle 3. Der SQL-Standard 3.17. Zugriffskontrolle Seite 1 3.17 Zugriffskontrolle Datenbanken enthalten häufig vertrauliche Informationen, die nicht jedem Anwender zur Verfügung stehen dürfen. Außerdem wird man

Mehr

2 Datenbanksysteme, Datenbankanwendungen und Middleware... 45

2 Datenbanksysteme, Datenbankanwendungen und Middleware... 45 Vorwort 15 Teil I Grundlagen 19 i Einführung In das Thema Datenbanken 21 I.I Warum ist Datenbankdesign wichtig? 26 i.2 Dateisystem und Datenbanken 28 1.2.1 Historische Wurzeln 29 1.2.2 Probleme bei der

Mehr

Aufgabe 1: [Logische Modellierung]

Aufgabe 1: [Logische Modellierung] Aufgabe 1: [Logische Modellierung] a) Entwerfen Sie für das von Ihnen entworfene Modell aus Aufgabe 2 des 1. Übungsblattes ein Star-Schema. b) Entwerfen Sie für das vorangegangene Modell einen Teil eines

Mehr

TU München, Fakultät für Informatik Lehrstuhl III: Datenbanksysteme Prof. Dr. Thomas Neumann

TU München, Fakultät für Informatik Lehrstuhl III: Datenbanksysteme Prof. Dr. Thomas Neumann TU München, Fakultät für Informatik Lehrstuhl III: Datenbanksysteme Prof. Dr. Thomas Neumann Blatt Nr. 11 Übung zur Vorlesung Einsatz und Realisierung von Datenbanksystemen im SoSe15 Moritz Kaufmann (moritz.kaufmann@tum.de)

Mehr

Komponenten und Architekturen von Analytischen Informationssystemen (AIS)

Komponenten und Architekturen von Analytischen Informationssystemen (AIS) Komponenten und Architekturen von Analytischen Informationssystemen (AIS) Melanie Pfoh Konsultation 27. Juni 2013 Hinweis Diese Folien ersetzen keinesfalls den Übungsstoff des zugehörigen e-learning-kurses.

Mehr

Komponenten und Architekturen von Analytischen Informationssystemen (AIS)

Komponenten und Architekturen von Analytischen Informationssystemen (AIS) Komponenten und Architekturen von Analytischen Informationssystemen (AIS) Melanie Pfoh Konsultation Zusammenfassung OPAL 6. Übung Juni 2015 Agenda Hinweise zur Klausur Zusammenfassung OPAL Übungen / Kontrollfragen

Mehr

Neuerungen Analysis Services

Neuerungen Analysis Services Neuerungen Analysis Services Neuerungen Analysis Services Analysis Services ermöglicht Ihnen das Entwerfen, Erstellen und Visualisieren von Data Mining-Modellen. Diese Mining-Modelle können aus anderen

Mehr

Mengenvergleiche: Alle Konten außer das, mit dem größten Saldo.

Mengenvergleiche: Alle Konten außer das, mit dem größten Saldo. Mengenvergleiche: Mehr Möglichkeiten als der in-operator bietet der θany und der θall-operator, also der Vergleich mit irgendeinem oder jedem Tupel der Unteranfrage. Alle Konten außer das, mit dem größten

Mehr

Kapitel 6 Einführung in Data Warehouses

Kapitel 6 Einführung in Data Warehouses Kapitel 6 Einführung in Data Warehouses Skript zur Vorlesung: Datenbanksysteme II Sommersemester 2008, LMU München 2008 Dr. Peer Kröger Dieses Skript basiert zu einem Teil auf dem Skript zur Vorlesung

Mehr

Maschinelles Lernen Entscheidungsbäume

Maschinelles Lernen Entscheidungsbäume Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen Entscheidungsbäume Paul Prasse Entscheidungsbäume Eine von vielen Anwendungen: Kreditrisiken Kredit - Sicherheiten

Mehr

Frühjahrsemester 2011. Data Warehousing Kapitel 5: Data Warehousing. H. Schuldt. 5.1 Einführung. Filiale Allschwil

Frühjahrsemester 2011. Data Warehousing Kapitel 5: Data Warehousing. H. Schuldt. 5.1 Einführung. Filiale Allschwil Frühjahrsemester Data Warehousing Kapitel 5: Data Warehousing H. Schuldt Wiederholung aus Kapitel 5. Einführung Tresgros Tresgros Tresgros Filiale Muttenz Filiale Allschwil Filiale Liestal Anfragen: Welches

Mehr

Einführung in OLAP und Business Analysis. Gunther Popp dc soft GmbH

Einführung in OLAP und Business Analysis. Gunther Popp dc soft GmbH Einführung in OLAP und Business Analysis Gunther Popp dc soft GmbH Überblick Wozu Business Analysis mit OLAP? OLAP Grundlagen Endlich... Technischer Background Microsoft SQL 7 & OLAP Services Folie 2 -

Mehr

Data Mining - Wiederholung

Data Mining - Wiederholung Data Mining - Wiederholung Norbert Fuhr 9. Juni 2008 Problemstellungen Problemstellungen Daten vs. Information Def. Data Mining Arten von strukturellen Beschreibungen Regeln (Klassifikation, Assoziations-)

Mehr

Logische Modellierung von Data Warehouses

Logische Modellierung von Data Warehouses Logische Modellierung von Data Warehouses Vertiefungsarbeit von Karin Schäuble Gliederung. Einführung. Abgrenzung und Grundlagen. Anforderungen. Logische Modellierung. Methoden.. Star Schema.. Galaxy-Schema..

Mehr

Views in SQL. 2 Anlegen und Verwenden von Views 2

Views in SQL. 2 Anlegen und Verwenden von Views 2 Views in SQL Holger Jakobs bibjah@bg.bib.de, holger@jakobs.com 2010-07-15 Inhaltsverzeichnis 1 Wozu dienen Views? 1 2 Anlegen und Verwenden von Views 2 3 Schreibfähigkeit von Views 3 3.1 Views schreibfähig

Mehr

Objektorientierte Datenbanken

Objektorientierte Datenbanken OODB 11 Slide 1 Objektorientierte Datenbanken Vorlesung 11 vom 01.07.2004 Dr. Sebastian Iwanowski FH Wedel OODB 11 Slide 2 Inhalt heute: Datenbanken in betriebswirtschaftlichen Anwendungen OTLP (SAP) Data

Mehr

Frühjahrsemester 2010. Data Warehousing Kapitel 5: Data Warehousing. H. Schuldt. 5.1 Einführung. Filiale Allschwil

Frühjahrsemester 2010. Data Warehousing Kapitel 5: Data Warehousing. H. Schuldt. 5.1 Einführung. Filiale Allschwil Frühjahrsemester Data Warehousing Kapitel 5: Data Warehousing H. Schuldt Wiederholung aus Kapitel 5. Einführung Tresgros Tresgros Tresgros Filiale Muttenz Filiale Allschwil Filiale Liestal Anfragen: Welches

Mehr

Prozesse beim Data Mining. Relevante Fachgebiete für Data Mining. Beispiel: Datenquelle (relationale DB) Architektur eines Data Mining Systems

Prozesse beim Data Mining. Relevante Fachgebiete für Data Mining. Beispiel: Datenquelle (relationale DB) Architektur eines Data Mining Systems Relevante Fachgebiete für Data Mining Prozesse beim Data Mining 1. Data cleaning: Datensäuberung von Rauschen & Inkonsistenz 2. Data integration: Datenintegration aus multiplen Quellen 3. Data selection:

Mehr

Ermittlung von Assoziationsregeln aus großen Datenmengen. Zielsetzung

Ermittlung von Assoziationsregeln aus großen Datenmengen. Zielsetzung Ermittlung von Assoziationsregeln aus großen Datenmengen Zielsetzung Entscheidungsträger verwenden heutzutage immer häufiger moderne Technologien zur Lösung betriebswirtschaftlicher Problemstellungen.

Mehr

Business Intelligence. Business Intelligence Seminar, WS 2007/08

Business Intelligence. Business Intelligence Seminar, WS 2007/08 Business Intelligence Seminar, WS 2007/08 Prof. Dr. Knut Hinkelmann Fachhochschule Nordwestschweiz knut.hinkelmann@fhnw.ch Business Intelligence Entscheidungsorientierte Sammlung, Aufbereitung und Darstellung

Mehr

Agenda. Themenblock: Data Warehousing (I) Referenzarchitektur. Eigenschaften eines Data Warehouse. Einführung Data Warehouse Data Access mit SQL

Agenda. Themenblock: Data Warehousing (I) Referenzarchitektur. Eigenschaften eines Data Warehouse. Einführung Data Warehouse Data Access mit SQL Themenblock: Data Warehousing (I) Praktikum: Data Warehousing und Data Mining 2 Eigenschaften eines Data Warehouse Referenzarchitektur Integrierte Sicht auf beliebige Daten aus verschieden Datenbanken

Mehr

Datenbanken und Informationssysteme

Datenbanken und Informationssysteme Datenbanken und Informationssysteme Lehrangebot Stefan Conrad Heinrich-Heine-Universität Düsseldorf Institut für Informatik April 2012 Stefan Conrad (HHU) Datenbanken und Informationssysteme April 2012

Mehr

Management Support Systeme

Management Support Systeme Management Support Systeme WS 24-25 4.-6. Uhr PD Dr. Peter Gluchowski Folie Gliederung MSS WS 4/5. Einführung Management Support Systeme: Informationssysteme zur Unterstützung betrieblicher Fach- und Führungskräfte

Mehr

Data Mining und Text Mining Einführung. S2 Einfache Regellerner

Data Mining und Text Mining Einführung. S2 Einfache Regellerner Data Mining und Text Mining Einführung S2 Einfache Regellerner Hans Hermann Weber Univ. Erlangen, Informatik 8 Wintersemester 2003 hans.hermann.weber@gmx.de Inhalt Einiges über Regeln und Bäume R1 ein

Mehr

Austauschformate für Data Mining und OLAP

Austauschformate für Data Mining und OLAP Studiengang: Informatik Prüfer: Betreuer: Prof. Dr. B. Mitschang Dipl. Inform. Holger Schwarz begonnen am: 19. November 2000 beendet am: 18. Mai 2001 CR-Klassifikation: H.2.7, H.4.2 Studienarbeit Nr. 1811

Mehr

Realisierung von OLAP Operatoren in einem visuellen Analysetool. Vortrag von Alexander Spachmann und Thomas Lindemeier

Realisierung von OLAP Operatoren in einem visuellen Analysetool. Vortrag von Alexander Spachmann und Thomas Lindemeier Realisierung von OLAP Operatoren in einem visuellen Analysetool Vortrag von Alexander Spachmann und Thomas Lindemeier Gliederung Ausgangssituation/Motivation Was ist OLAP? Anwendungen Was sind Operatoren?

Mehr

Exploration und Klassifikation von BigData

Exploration und Klassifikation von BigData Exploration und Klassifikation von BigData Inhalt Einführung Daten Data Mining: Vorbereitungen Clustering Konvexe Hülle Fragen Google: Riesige Datenmengen (2009: Prozessieren von 24 Petabytes pro Tag)

Mehr

Betriebliche Anwendungen

Betriebliche Anwendungen Betriebliche Anwendungen OLTP Data Warehouse Data Mining OLTP: Online Transaction Processing Beispiele Flugbuchungssystem Bestellungen in einem Handelsunternehmen Charakterisierung Hoher Parallelitätsgrad

Mehr

Häufige Item-Mengen: die Schlüssel-Idee. Vorlesungsplan. Apriori Algorithmus. Methoden zur Verbessung der Effizienz von Apriori

Häufige Item-Mengen: die Schlüssel-Idee. Vorlesungsplan. Apriori Algorithmus. Methoden zur Verbessung der Effizienz von Apriori Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,

Mehr

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen 7. Clusteranalyse (= Häufungsanalyse; Clustering-Verfahren) wird der multivariaten Statistik zugeordnet Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut,

Mehr

Informatik II Datenorganisation Datenbanken

Informatik II Datenorganisation Datenbanken Informatik II Datenorganisation Datenbanken Studiengang Wirtschaftsingenieurwesen (2. Semester) Prof. Dr. Sabine Kühn Tel. (0351) 462 2490 Fachbereich Informatik/Mathematik skuehn@informatik.htw-dresden.de

Mehr

Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014

Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014 Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014 Aufgabe 1. Data Mining a) Mit welchen Aufgabenstellungen befasst sich Data Mining? b) Was versteht man unter Transparenz einer Wissensrepräsentation?

Mehr

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002)

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002) 3. Entscheidungsbäume Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002) (aus Wilhelm 2001) Beispiel: (aus Böhm 2003) Wann sind Entscheidungsbäume

Mehr

Masterarbeit. im Studiengang Informatik. Kombinationen von Data Mining-Verfahren: Analyse und Automatisierung. Ulf Mewe Matrikel.-Nr.

Masterarbeit. im Studiengang Informatik. Kombinationen von Data Mining-Verfahren: Analyse und Automatisierung. Ulf Mewe Matrikel.-Nr. LEIBNIZ UNIVERSITÄT HANNOVER FAKULTÄT FÜR ELEKTROTECHNIK UND INFORMATIK INSTITUT FÜR PRAKTISCHE INFORMATIK FACHGEBIET DATENBANKEN UND INFORMATIONSSYSTEME Masterarbeit im Studiengang Informatik Kombinationen

Mehr

Klausur Datenbanken Wintersemester 2011/2012 Prof. Dr. Wolfgang May 8. Februar 2012, 14-16 Uhr Bearbeitungszeit: 90 Minuten

Klausur Datenbanken Wintersemester 2011/2012 Prof. Dr. Wolfgang May 8. Februar 2012, 14-16 Uhr Bearbeitungszeit: 90 Minuten Klausur Datenbanken Wintersemester 2011/2012 Prof. Dr. Wolfgang May 8. Februar 2012, 14-16 Uhr Bearbeitungszeit: 90 Minuten Vorname: Nachname: Matrikelnummer: Studiengang: Bei der Klausur sind keine Hilfsmittel

Mehr

1. Data Warehouses - Einführung

1. Data Warehouses - Einführung 1. s - Einführung Definition Einsatzbeispiele OLTP vs. OLAP Grobarchitektur Virtuelle vs. physische Datenintegration Mehrdimensionale Datensicht Star-Schema, -Anfragen Data Mining Prof. E. Rahm 1-1 y yy

Mehr

Data Mining mit der SEMMA Methodik. Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG

Data Mining mit der SEMMA Methodik. Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG Data Mining mit der SEMMA Methodik Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG Data Mining Data Mining: Prozeß der Selektion, Exploration und Modellierung großer Datenmengen, um Information

Mehr

Data Warehouse Technologien

Data Warehouse Technologien Veit Köppen Gunter Saake Kai-Uwe Sattler Data Warehouse Technologien Inhaltsverzeichnis Inhaltsverzeichnis vii 1 Einführung in Data-Warehouse-Systeme 1 1.1 Anwendungsszenario Getränkemarkt...............

Mehr

6. Überblick zu Data Mining-Verfahren

6. Überblick zu Data Mining-Verfahren 6. Überblick zu Data Mining-Verfahren Einführung Clusteranalyse k-means-algorithmus Canopy Clustering Klassifikation Klassifikationsprozess Konstruktion eines Entscheidungsbaums Assoziationsregeln / Warenkorbanalyse

Mehr

DATENBANKEN SQL UND SQLITE VON MELANIE SCHLIEBENER

DATENBANKEN SQL UND SQLITE VON MELANIE SCHLIEBENER DATENBANKEN SQL UND SQLITE VON MELANIE SCHLIEBENER INHALTSVERZEICHNIS 1. Datenbanken 2. SQL 1.1 Sinn und Zweck 1.2 Definition 1.3 Modelle 1.4 Relationales Datenbankmodell 2.1 Definition 2.2 Befehle 3.

Mehr

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining.

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining. Personalisierung Personalisierung Thomas Mandl Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung Klassifikation Die Nutzer werden in vorab bestimmte Klassen/Nutzerprofilen

Mehr

Mala Bachmann September 2000

Mala Bachmann September 2000 Mala Bachmann September 2000 Wein-Shop (1) Umsatz pro Zeit und Produkt Umsatz Jan Feb Mrz Q1 Apr 2000 Merlot 33 55 56 144 18 760 Cabernet-S. 72 136 117 325 74 1338 Shiraz 85 128 99 312 92 1662 Rotweine

Mehr

Dr. Andreas Hotho, Robert Jäschke Fachgebiet Wissensverarbeitung 30.10.2008. Wintersemester 2008/2009

Dr. Andreas Hotho, Robert Jäschke Fachgebiet Wissensverarbeitung 30.10.2008. Wintersemester 2008/2009 Dr. Andreas Hotho, Robert Jäschke Fachgebiet Wissensverarbeitung 30.10.2008 1. Übung Knowledge Discovery Wintersemester 2008/2009 Vorbemerkungen Vorlesungsfolien und Übungsblätter können Sie im Internet

Mehr

Multidimensionales Datenmodell, Cognos

Multidimensionales Datenmodell, Cognos Data Warehousing (II): Multidimensionales Datenmodell, Cognos Praktikum: Data Warehousing und Mining Praktikum Data Warehousing und Mining, Sommersemester 2010 Vereinfachte Sicht auf die Referenzarchitektur

Mehr

Veit Köppen Gunter Saake Kai-Uwe Sattler. 2. Auflage. Data Warehouse Technologien

Veit Köppen Gunter Saake Kai-Uwe Sattler. 2. Auflage. Data Warehouse Technologien Veit Köppen Gunter Saake Kai-Uwe Sattler 2. Auflage Data Warehouse Technologien Inhaltsverzeichnis Inhaltsverzeichnis ix 1 Einführung in Data-Warehouse-Systeme 1 1.1 Anwendungsszenario Getränkemarkt...

Mehr

Seminar in der Seminarreihe Business Intelligence 1. OLAP und Datawarehousing

Seminar in der Seminarreihe Business Intelligence 1. OLAP und Datawarehousing Seminar in der Seminarreihe Business Intelligence 1 OLAP und Datawarehousing OLAP & Warehousing Die wichtigsten Produkte Die Gliederung Produkt Bewertung & Vergleiche Die Marktentwicklung Der aktuelle

Mehr

Clustern. Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so dass:

Clustern. Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so dass: Text-Clustern 1 Clustern Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so dass: Beispiele innerhalb eines Clusters sich sehr ähnlich Beispiele in verschiedenen

Mehr

Data Warehousing und Data Mining

Data Warehousing und Data Mining Data Warehousing und Data Mining 2 Cognos Report Net (CRN) Ermöglicht Erstellen von Ad-hoc-Anfragen (Query Studio) Berichten (Report Studio) Backend Data Cube Relationale Daten Übung: Cognos Report Net

Mehr

Data Mining Standards am Beispiel von PMML. Data Mining Standards am Beispiel von PMML

Data Mining Standards am Beispiel von PMML. Data Mining Standards am Beispiel von PMML Data Mining Standards am Beispiel von PMML Allgemeine Definitionen im Data Mining Data Mining (DM) Ein Prozess, um interessante neue Muster, Korrelationen und Trends in großen Datenbeständen zu entdecken,

Mehr

bersicht Datenbanken und Datawarehouses Datenbank Datenbanksysteme Niels Schršter

bersicht Datenbanken und Datawarehouses Datenbank Datenbanksysteme Niels Schršter bersicht Niels Schršter EinfŸhrung GROUP BY Roll UpÔs Kreuztabellen Cubes Datenbank Ansammlung von Tabellen, die einen ãausschnitt der WeltÒ fÿr eine Benutzergruppe beschreiben. Sie beschreiben die funktionalen

Mehr

Visualisierung der Imperfektion in multidimensionalen Daten

Visualisierung der Imperfektion in multidimensionalen Daten Visualisierung der Imperfektion in multidimensionalen Daten Horst Fortner Imperfektion und erweiterte Konzepte im Data Warehousing Betreuer: Heiko Schepperle 2 Begriffe (1) Visualisierung [Wikipedia] abstrakte

Mehr

Business Intelligence und Geovisualisierung in der Gesundheitswirtschaft

Business Intelligence und Geovisualisierung in der Gesundheitswirtschaft Business Intelligence und Geovisualisierung in der Gesundheitswirtschaft Prof. Dr. Anett Mehler-Bicher Fachhochschule Mainz, Fachbereich Wirtschaft Prof. Dr. Klaus Böhm health&media GmbH 2011 health&media

Mehr

Themenblock: Data Warehousing (I)

Themenblock: Data Warehousing (I) Themenblock: Data Warehousing (I) Praktikum: Data Warehousing und Data Mining Agenda Einführung Data Warehouses Online Transactional Processing (OLTP) Datenmanipulation mit SQL Anfragen mit SQL Online

Mehr

Pivotieren. Themenblock: Anfragen auf dem Cube. Roll-up und Drill-down. Slicing und Dicing. Praktikum: Data Warehousing und Data Mining. Produkt.

Pivotieren. Themenblock: Anfragen auf dem Cube. Roll-up und Drill-down. Slicing und Dicing. Praktikum: Data Warehousing und Data Mining. Produkt. Zeit Pivotieren Themenblock: Anfragen auf dem Cube Praktikum: Data Warehousing und Data Mining Zeit Zeit 2 Roll-up und Drill-down Slicing und Dicing Drill-down Januar 2 3 33 1. Quartal 11 36 107 Februar

Mehr

Kapitel 4: Data Warehouse Architektur

Kapitel 4: Data Warehouse Architektur Data Warehousing, Motivation Zugriff auf und Kombination von Daten aus mehreren unterschiedlichen Quellen, Kapitel 4: Data Warehousing und Mining 1 komplexe Datenanalyse über mehrere Quellen, multidimensionale

Mehr

6. Überblick zu Data Mining-Verfahren

6. Überblick zu Data Mining-Verfahren 6. Überblick zu Data Mining-Verfahren Einführung Clusteranalse k-means-algorithmus Klassifikation Klassifikationsprozess Konstruktion eines Entscheidungsbaums Assoziationsregeln / Warenkorbanalse Support

Mehr

WEKA A Machine Learning Interface for Data Mining

WEKA A Machine Learning Interface for Data Mining WEKA A Machine Learning Interface for Data Mining Frank Eibe, Mark Hall, Geoffrey Holmes, Richard Kirkby, Bernhard Pfahringer, Ian H. Witten Reinhard Klaus Losse Künstliche Intelligenz II WS 2009/2010

Mehr

Data Mining und maschinelles Lernen

Data Mining und maschinelles Lernen Data Mining und maschinelles Lernen Einführung und Anwendung mit WEKA Caren Brinckmann 16. August 2000 http://www.coli.uni-sb.de/~cabr/vortraege/ml.pdf http://www.cs.waikato.ac.nz/ml/weka/ Inhalt Einführung:

Mehr

Einführungsveranstaltung: Data Warehouse

Einführungsveranstaltung: Data Warehouse Einführungsveranstaltung: 1 Anwendungsbeispiele Berichtswesen Analyse Planung Forecasting/Prognose Darstellung/Analyse von Zeitreihen Performancevergleiche (z.b. zwischen Organisationseinheiten) Monitoring

Mehr

Star-Schema-Modellierung mit ERwin - eine kritische Reflexion der Leistungspotentiale und Anwendungsmöglichkeiten

Star-Schema-Modellierung mit ERwin - eine kritische Reflexion der Leistungspotentiale und Anwendungsmöglichkeiten Star-Schema-Modellierung mit ERwin - eine kritische Reflexion der Leistungspotentiale und Anwendungsmöglichkeiten Michael Hahne T&I GmbH Workshop MSS-2000 Bochum, 24. März 2000 Folie 1 Worum es geht...

Mehr

Mit Transbase Hypercube Data Warehouse Anwendungen effizient betreiben. Die Hypercube-Technologie

Mit Transbase Hypercube Data Warehouse Anwendungen effizient betreiben. Die Hypercube-Technologie Mit Transbase Hypercube Data Warehouse Anwendungen effizient betreiben Transbase Hypercube ist eine Transbase -Option, die die innovative Hypercube-Technologie für komplexe analytische Anwendungen (OLAP)

Mehr

Hinweise zur Klausur Zusammenfassung OPAL-Übungen / Kontrollfragen Fragen Vertiefung Modellierung

Hinweise zur Klausur Zusammenfassung OPAL-Übungen / Kontrollfragen Fragen Vertiefung Modellierung Komponenten und Architekturen von Analytischen Informationssystemen (AIS) Melanie Pfoh Konsultation Zusammenfassung OPAL 24. Juni 2014 Agenda Hinweise zur Klausur Zusammenfassung OPAL-Übungen / Kontrollfragen

Mehr

Datenbanken: Datenintegrität. www.informatikzentrale.de

Datenbanken: Datenintegrität. www.informatikzentrale.de Datenbanken: Datenintegrität Definition "Datenkonsistenz" "in der Datenbankorganisation (...) die Korrektheit der gespeicherten Daten im Sinn einer widerspruchsfreien und vollständigen Abbildung der relevanten

Mehr

Relevante Fachgebiete für Data Mining

Relevante Fachgebiete für Data Mining Relevante Fachgebiete für Data Mining 1 Prozesse beim Data Mining 1. Data cleaning: Datensäuberung von Rauschen & Inkonsistenz 2. Data integration: Datenintegration aus multiplen Quellen 3. Data selection:

Mehr