5 Data Warehouses und Data Mining

Save this PDF as:
 WORD  PNG  TXT  JPG

Größe: px
Ab Seite anzeigen:

Download "5 Data Warehouses und Data Mining"

Transkript

1 5 Data Warehouses und Data Mining Mittels OLAP Techniken können große Datenmengen unterschiedlich stark verdichtet und gezielt aufbereitet werden. Mittels Data Mining können große Datenmengen nach bisher unbekannten Zusammenhängen durchsucht werden. 5.1 Data Warehouses, Decision Support und OLAP zwei Arten von Datenbankanwendungen: online transaction processing (OLTP) online analytical processing (OLAP) Prof. Dr. Dietmar Seipel 407

2 Online Transaction Processing (OLTP) Beipiele: Buchung eines Fluges in einem Flugreservierungssystem Verarbeitung einer Bestellung in einem Handelsunternehmen operatives Tagesgeschäft Update lastig Transaktionen verarbeiten nur begrenzte Datenmengen jüngste, aktuell gültige Daten Prof. Dr. Dietmar Seipel 408

3 5.1.1 Online Analytical Processing (OLAP) Beipiele: Wie hat sich die Auslastung der Transatlantikflüge über die letzten zwei Jahre entwickelt? Wie haben sich besonders offensive Marketingstrategien für bestimmte Produktlinien auf die Verkaufszahlen ausgewirkt? entscheidungsunterstützende Anwendungen Anfrage lastig Rückschlässe auf die Entwicklung des Unternehmens sehr große Datenmengen historische Daten Prof. Dr. Dietmar Seipel 409

4 OLAP Auswertungen Grundlage für die strategische Unternehmensplanung Bestandteil umfassender Decision Support Systeme oder Management Informationssysteme Es besteht momentan weitgehender Konsens, daß man OLTP und OLAP Anwendungen nicht auf derselben Datenbank ausführen sollte: OLTP Datenbanken sind auf Änderungstransaktionen mit Zugriff auf sehr begrenzte Datenmengen optimiert. Die OLTP Daten sind auf verschiedene Datenbanken verteilt. OLAP Anfragen sind sehr komplex und sie betreffen meist sehr große Datenmengen. Die parallele Auswertung von OLAP Anfragen könnte das OLTP Processing empfindlich stören. Prof. Dr. Dietmar Seipel 410

5 Aufbau eines Data Warehouse dediziertes Datenbanksystem Integration aller für die Decision Support Anwendungen notwendigen Daten in konsolidierter Form für das initiale Laden müssen die Daten konsolidiert, gereinigt und durch Aggregation teilweise vor verdichtet werden die Auffrischung des Data Warehouse erfolgt meist im Batchmodus Prof. Dr. Dietmar Seipel 411

6 DB Entwurf für ein Data Warehouse Sternschema (star schema) eine Faktentabelle mehrer Dimensionstabellen verbunden über Fremdschlüsselbeziehungen Die Faktentabelle ist oft riesig. Sie wird normalisiert. Die Dimensionstabellen sind viel kleiner. Sie werden in der Regel nicht normalisiert, da sonst die Anfrageformulierung und bearbeitung erschwert würde. Die Verleztung der Normalformen ist nicht so kritisch, da die Daten nur selten verändert werden. Die Normalisierung der Dimensionstabellen würde ein Sternflockenschema (star flake schema) ergeben. Prof. Dr. Dietmar Seipel 412

7 Filialen Verkäufer Beispiel eines Sternschemas Zeit Verkäufe Anzahl Faktentabelle Kunden Produkte Verkäufe (Datum, Filiale, Verkäufer, Kunde, Produkt, Anzahl) Dimensionstabellen Zeit (Datum, Tag, Monat, Jahr, Wochentag, KW, Quartal, Saison, Filialen (Id, Land, Bezirk, ) Verkäufer (Id, Name, Fachgebiet, Manager, Alter, ) Kunden (Id, Name, Alter, ) Produkte (Id, Typ, Gruppe, Hauptgruppe, Hersteller, ) ) Fremdschlüsselbedingungen von der Faktentabelle auf die Dimensionstabellen Prof. Dr. Dietmar Seipel 413

8 VERKÄUFE DATUM FILIALE VERKÄUFER KUNDE PRODUKT ANZAHL Würzburg Würzburg ZEIT DATUM TAG MONAT JAHR WOCHENTAG KW QUARTAL SAISON Juli 2000 Dienstag 30 3 Hochsommer Juli 2000 Mittwoch 30 3 Hochsommer Prof. Dr. Dietmar Seipel 414

9 FILIALEN ID LAND BEZIRK Würzburg D Bayern KUNDEN ID NAME ALTER 4711 Seipel 43 VERKÄUFER ID NAME FACHGEBIET MANAGER ALTER 825 Handyman Elektronik PRODUKTE ID TYP GRUPPE HAUPTGRUPPE HERSTELLER 1347 Handy Mobiltelekom Telekom Siemens Prof. Dr. Dietmar Seipel 415

10 Größenordnungen: Faktentabelle: viele Millionen Tupel Dimensionstabellen: Produkte Einträge in Zeit Tabelle (3 Jahre) 100 GB bis zu 10 TB Daten Prof. Dr. Dietmar Seipel 416

11 5.1.2 Anfragen im Sternschema: Star Joins Wieviele Handies wurden in den Bayerischen Filialen zu Weihnachten 2001 gekauft? Join über die Fremdchlüsselbedingungen Restriktionen auf den Dimensionstabellen Gruppierung und Aggregation der Ergebnistupel zur Verdichtung erleichtern die Interpretation der Ergebnisse Prof. Dr. Dietmar Seipel 417

12 Anfrage 1: Wieviele Handies haben Kunden in den bayerischen Filialen zu Weihnachten 2001 pro Hersteller gekauft? SELECT FROM WHERE AND AND z.jahr = 2001 AND AND GROUP BY p.hersteller, SUM (v.anzahl) Verkäufe v, Produkte p, Zeit z, Filialen f v.produkt = p.produkt AND v.datum = z.datum v.filiale = f.id AND p.typ = Handy z.saison = Weihnachten f.bezirk = Bayern p.hersteller Prof. Dr. Dietmar Seipel 418

13 Roll Up und Drill Down unterschiedliche Verdichtungsgrade: Drill Down: Erweiterung der Group By Klausel führt zu weniger starker Verdichtung Roll Up: Verkleinerung der Group By Klausel führt zu stärkerer Verdichtung Prof. Dr. Dietmar Seipel 419

14 Anfrage 2: Wieviele Handies haben Kunden pro Hersteller und Jahr pro Jahr insgesamt gekauft? SELECT FROM WHERE AND GROUP BY p.hersteller, z.jahr, SUM (v.anzahl) Verkäufe v, Produkte p, Zeit z v.produkt = p.produkt AND v.datum = z.datum p.typ = Handy p.hersteller, z.jahr Prof. Dr. Dietmar Seipel 420

15 SELECT FROM WHERE AND GROUP BY z.jahr, SUM (v.anzahl) Verkäufe v, Produkte p, Zeit z v.produkt = p.produkt AND v.datum = z.datum p.typ = Handy z.jahr SELECT FROM WHERE AND SUM (v.anzahl) Verkäufe v, Produkte p v.produkt = p.produkt p.typ = Handy Prof. Dr. Dietmar Seipel 421

16 Hersteller Jahr Anzahl Siemens Siemens Siemens Motorola Nokia Jahr Anzahl Hersteller Anzahl Siemens Motorola Nokia Prof. Dr. Dietmar Seipel 422

17 Spreadsheet Darstellung Hersteller Jahr Siemens Motorola Nokia Prof. Dr. Dietmar Seipel 423

18 Die Nutzer von Decision Support Systemen wollen sehr flexibel Daten stark verdichtet oder detailierter darstellen. Operationen: slice: Schneiden in Scheiben durch einzelne Selektionen auf den Dimensionstabellen dice: Schneiden in Würfel durch kombinierte Selektionen auf den Dimensionstabellen Prof. Dr. Dietmar Seipel 424

19 Der CUBE Operator Man kann viele Aggregate aus anderen noch nicht so stark verdichteten Aggregaten berechnen: GROUP BY A, B, C und GROUP BY C, D, E GROUP BY A, B, C, D, E Der CUBE Operator des DBMS nutzt dies zur Optimierung. Bei einer Aggregation über Attribute werden alle Unter Aggregate gemeinsam berechnet. Dann können Drill Down Operationen leicht ausgeführt werden. Prof. Dr. Dietmar Seipel 425

20 SELECT FROM WHERE AND AND AND GROUP BY p.hersteller, z.jahr, f.land, SUM (v.anzahl) Verkäufe v, Produkte p, Zeit z, Filialen f v.produkt = p.produkt v.datum = z.datum v.filiale = f.id p.typ = Handy CUBE (p.hersteller, z.jahr, f.land) Prof. Dr. Dietmar Seipel 426

21 Jahr Filiale Materialisierungs Hierarchie Produkt Filiale Produkt Jahr Produkt Filiale Jahr Filiale Produkt Jahr Prof. Dr. Dietmar Seipel 427

22 Zeit Hierarchie Jahr Quartal Woche (KW) Monat Tag Kalenderwochen (KW) können zu zwei unterschiedlichen Monaten gehören Prof. Dr. Dietmar Seipel 428

23 Data Warehouse Architekturen ROLAP: relationales OLAP auf der Basis relationaler Datenbanken MOLAP: multi dimensionales OLAP auf der Basis mehr dimensionaler Datenstrukturen mehr dimensionale Arrays dünn besetzte (sparse) Dimensionen Prof. Dr. Dietmar Seipel 429

24 5.2 Data Mining Beim Data Mining werden große Datenmengen nach bisher unbekannten Zusammenhängen durchsucht. Ziel: hoch skalierbare Algorithmen, die auch auf sehr großen Datenmengen anwendbar sind. drei Ansätze: Klassifikation von Objekten Finden von Assoziationsregeln Clusterung von ähnlichen Objekten Prof. Dr. Dietmar Seipel 430

25 Knowledge Discovery in Datenbanken (KDD) Knowledge Evaluation und Präsentation Data Mining Selektion und Transformation Muster Data Warehouses Cleaning und Integration Datenbanken flache Files Prof. Dr. Dietmar Seipel 431

26 5.2.1 Klassifikation Risiko Abschätzung von Versicherungspolicen; beispielsweise für Autohaftpflicht oder Risikolebensversicherungen Datenobjekte werden gemäß ihrer Attributwerte klassifiziert, um daraus eine möglichst genaue Vorhersage treffen zu können Klassifikationsregel: Vorhersage Attribute vorherzusagendes (abhängiges) Attribut (Ziel) Prädikate Prof. Dr. Dietmar Seipel 432

27 Beispiel (Kreditwürdigkeit) Id Married PrevDef Income Def C1 yes no 50 no C2 yes no 100 no C3 no yes 135 yes C4 yes no 125 no C5 yes no 50 no C6 no no 30 no C7 yes yes 10 no C8 yes no 10 yes C9 yes no 75 no C10 yes yes 45 no Id Married PrevDef Income Def C11 yes no 60 yes C12 no yes 125 yes C13 yes yes 20 no C14 no no 15 no C15 no no 60 no C16 yes no 15 yes C17 yes no 35 no C18 no yes 160 yes C19 yes no 40 no C20 yes no 30 no to default: einen Kredit nicht zurück zahlen Prof. Dr. Dietmar Seipel 433

28 Klassifikationsregeln 1. Falls jemand noch keinen Kredit platzen ließ, verheiratet ist und mindestens 30 T Euro verdient, dann wird er keinen Kredit platzen lassen: 2. Falls jemand schon einmal einen Kredit platzen ließ, dann hängt seine Kreditwürdigkeit stark davon ab ob er verheiratet ist: Prof. Dr. Dietmar Seipel 434

29 Beispiel (Auto) 1. Männer über 35, die ein Coupé fahren, gehören in eine hohe Riskogruppe (Draufgänger in der Midlife Crisis): männlich Coupé 2. Männer über 35, die einen Kleinbus (Mini Van) fahren, gehören in eine niedrige Riskogruppe (verantwortungsbewußter Familienvater) männlich Mini Van Prof. Dr. Dietmar Seipel 435

30 Entscheidungs Baum Ein Klassifikations/Entscheidungs Baum faßt viele Klassifikationsregeln zu einem Klassifikationsschema zusammen. Jedes Blatt des Baums entspricht einer Klassifikationsregel. Welche Attribute für die Klassifikation herangezogen werden kann durch den Benutzer gesteuert werden, oder es kann auch vollautomatisch durch Ausprobieren geschehen. Prof. Dr. Dietmar Seipel 436

31 Entscheidungs Baum (Kreditwürdigkeit) PrevDef yes no Married Married yes no yes no Def = no (3, 100%) Def = yes (3, 100%) Income Def = no (3, 100%) Def = yes (2, 100%) Def = no (8, 89%) Def = yes (1, 11%) Prof. Dr. Dietmar Seipel 437

32 Entscheidungs Baum (Auto) Geschlecht Alter m w geringes Risiko hohes Risiko Autotyp Coupé hohes Risiko Mini Van geringes Risiko Prof. Dr. Dietmar Seipel 438

33 Bestimmung von Entscheidungs Bäumen Aufspalten der Tabelle in und Id Married PrevDef Income Def C1 yes no 50 no C2 yes no 100 no C4 yes no 125 no C5 yes no 50 no C6 no no 30 no C8 yes no 10 yes C9 yes no 75 no C11 yes no 60 yes C14 no no 15 no C15 no no 60 no C16 yes no 15 yes C17 yes no 35 no C19 yes no 40 no C20 yes no 30 no Id Married PrevDef Income Def C3 no yes 135 yes C7 yes yes 10 no C10 yes yes 45 no C12 no yes 125 yes C13 yes yes 20 no C18 no yes 160 yes Prof. Dr. Dietmar Seipel 439

34 Entropie Begriff aus der Informationstheorie Für eine Tabelle mit der Attributmenge der Wertebereich von. und ein Attribut sei Für einen Wert sei die Anzahl der Tupel aus mit diesem Wert für und für das Attribut : die relative Häufigkeit des Wertes Wir setzen Prof. Dr. Dietmar Seipel 440

35 Falls alle Werte in haben, so gilt dieselbe Wahrscheinlichkeit Prof. Dr. Dietmar Seipel 441

36 Beispiel (Kreditwürdigkeit) : : : ferner gilt in den Teil Tabellen: Prof. Dr. Dietmar Seipel 442

37 Sie 1. Falls man bezüglich das Ziel Attribut. aufspaltet, dann ist die gewichtet gemittelte Entropie der Teiltabellen Es gilt immer 2. Der Informationsgewinn beim Aufspalten ist im Beispiel: Prof. Dr. Dietmar Seipel 443 gegeben durch

38 Der ID3 Algorithmus von Quinlan (1986) 1. Falls und, dann gibt es genau einen Wert nicht aufgespalten. wird wird mit markiert. für, 2. Falls dann wird ebenfalls nicht aufgespalten. wird mit dem häufigsten Wert und keine Attribute mehr hat, für markiert. 3. Sonst: Bestimme das Attribut mit dem größten Informationsgewinn und spalte in die Teil Tabellen, für, auf. Wende das Verfahren rekursiv auf diese Teil Tabellen an. mit Diskretisierung von kontinuierlichen Wertebereichen: C4.5 Algorithmus Prof. Dr. Dietmar Seipel 444

39 Aufspalten bezüglich und : Id Married PrevDef Income Def C1 yes no 50 no C2 yes no 100 no C4 yes no 125 no C5 yes no 50 no C8 yes no 10 yes C9 yes no 75 no C11 yes no 60 yes C16 yes no 15 yes C17 yes no 35 no C19 yes no 40 no C20 yes no 30 no Id Married PrevDef Income Def C7 yes yes 10 no C10 yes yes 45 no C13 yes yes 20 no Id Married PrevDef Income Def C6 no no 30 no C14 no no 15 no C15 no no 60 no Id Married PrevDef Income Def C3 no yes 135 yes C12 no yes 120 yes C18 no yes 160 yes Prof. Dr. Dietmar Seipel 445

40 Aufspalten der Daten: Training Set: Erzeugung eines Entscheidungsbaumes Validation Set: Beschneiden des Entscheidungsbaumes an den Blättern Test Set: Test des Entscheidungsbaumes Verfeinerungen des Ansatzes: gain ratio (Quinlan 1986) gini index (Breiman et al. 1984) Prof. Dr. Dietmar Seipel 446

41 5.2.2 Assoziationsregeln Beispiel (Walmart) Bei der Auswertung von Supermarkteinkäufen im Walmart wurde in den USA festgestellt, daß oft im selben Einkaufswagen Bier, Kartoffelchips und Baby Windeln zu finden waren. Prof. Dr. Dietmar Seipel 447

42 ist die Anzahl der Transaktionen, welche 2. Der Support von ist der Anteil der Transaktionen, welche Frequent Itemsets Definition (Itemsets) Sei eine Menge von Items und Transaktionen mit. eine Menge von Sei ein Itemset: 1. Die Häufigkeit von enthalten: enthalten: 3. heißt für frequent, falls d.h. Prof. Dr. Dietmar Seipel 448

43 Der Á Priori Algorithmus Induktive Bestimmung der Menge aller Frequent Itemsets der Größe. 1. Generiere 2. Bestimme erweitere dazu alle und teste ob auch wieder ein Frequent Itemset ist: um alle aus und :, mit, 3. Verbesserung, falls (vgl. dynamische Programmierung): Prof. Dr. Dietmar Seipel 449

44 Der Á Priori Algorithmus bestimmt alle Frequent Itemsets. Er basiert darauf, daß alle Teilmengen eines Frequent Itemsets frequent sind, denn ebenfalls Da die Bestimmung von zeitaufwendig ist, kann man bei der Berechnung von zuerst testen, ob alle Itemsets frequent sind, bevor man berechnet. Für ein Itemset für ein Kandidaten Itemset, mit d.h. dem Schnitt Teilmenge von der Größe, welche aus der bestehen, auf Größe kann man z.b. alle Teilmengen und und einer testen. Prof. Dr. Dietmar Seipel 450

45 , Beispiel (Drucker) Produkte: Transaktionen: : die Frequent Itemsets müssen in mindestens Transaktionen enthalten sein Wir bestimmen Prof. Dr. Dietmar Seipel 451 nur für relevante Itemsets.

46 1. betrachtete Itemsets: Drucker Papier PC Scanner Toner Wir erhalten Also gibt es kein Frequent Itemset, denn aus egal von welcher Größe mit folgt Prof. Dr. Dietmar Seipel 452

47 2. relevante Itemsets: Drucker Papier PC Scanner Toner Die Itemsets, welche sie sind alle nicht frequent. enthalten, werden nicht betrachtet; Prof. Dr. Dietmar Seipel 453

48 3. 3 der 4 möglichen Erweiterungen der Frequent 2 Itemsets sind nicht relevant: Das Itemset welches keinen Drucker enthält, ist eine Obermenge von und von und somit nicht frequent. Die Itemsets und sind ebenfalls Obermengen davon und somit nicht frequent. Das einzige relevante Itemset der Größe ist frequent: Drucker Papier PC Scanner Toner keine Frequent Itemsets der Größe : Prof. Dr. Dietmar Seipel 454

49 Beispiel (Kreditwürdigkeit) Frequent Itemsets: Es gibt hier Itemsets der Größe, denn es gibt Attribut Teilmengen der Größe, und für jedes Attribut gibt es hier zwei mögliche Werte. Ein Eintrag von denen besagt, daß es maximal, d.h. nicht verlängerbar, sind. Frequent Itemsets der Größegibt, Prof. Dr. Dietmar Seipel 455

50 : alle maximalen Frequent Itemsets haben die Größe 4 Married PrevDef Income Def no yes yes no yes no no yes no no no 2 yes 2 no 2 yes 3 no 8 Prof. Dr. Dietmar Seipel 456

51 : es gibt 4 maximale Frequent Itemsets der Größe 2 und ein maximales Frequent Itemset der Größe 4 Married PrevDef Income Def yes no yes yes no 4 4 yes 4 5 no 8 Prof. Dr. Dietmar Seipel 457

52 : es gibt 3 maximale Frequent Itemsets der Größe 1 und ein maximales Frequent Itemset der Größe 4 Married PrevDef Income Def no 6 yes 6 yes 6 yes no no 8 : es gibt ein maximales Frequent Itemset der Größe 4 Married PrevDef Income Def yes no no 8 Prof. Dr. Dietmar Seipel 458

53 Assoziationsregeln Definition (Assoziationsregel, Support, Confidence) Eine Assoziationsregel hat die Form für Itemsets. 1. Der Support von sowohl als auch gibt den Anteil der Transaktionen an, die enthalten: Die Confidence von 2. gibt den Anteil der Transaktionen, die enthalten, bezogen auf die Transaktionen, die enthalten, an: und 3. Falls, so schreiben wir Prof. Dr. Dietmar Seipel 459

54 Beispiel (Support und Confidence von Assoziationsregeln) 1. Für die Assoziationsregel erhalten wir und 2. Für die Assoziationsregel erhalten wir und Prof. Dr. Dietmar Seipel 460

55 Assoziationsregeln zum Entscheidungs Baum (Kreditwürdigkeit) PrevDef yes no Married Married yes no yes no Def = no Def = yes Income Def = no Def = yes Def = no Prof. Dr. Dietmar Seipel 461

56 Die Zweige des Entscheidungs Baums entsprechen folgenden Assoziationsregeln: 15%,100% 15%,100% 10%,100% 40%,89% 15%,100% Prof. Dr. Dietmar Seipel 462

57 3. Falls um, so erhöht man die Confidence, wenn man um Satz (Support und Confidence von Assoziationsregeln) Sie 1. Für 2. Für gilt eine Assoziationsregel. gilt verkleinert. Für gilt 4. Falls, so erhöht man die Confidence, wenn man vergrößert und um verkleinert. Für gilt Prof. Dr. Dietmar Seipel 463 und und und

58 , so verringert man die Confidence, wenn man, so verringert man die Confidence, wenn man 5. Falls verkleinert. Für gilt und um 6. Falls verkleinert und um vergrößert. Für gilt und um 7. Für ein Itemset und gilt, so gilt auch Prof. Dr. Dietmar Seipel 464 Falls

59 Bestimmung der Assoziationsregeln Definition (Redundante Assoziationsregeln) Eine Assoziationsregel heißt redundant, 1. falls oder, da dann trivialerweise immer gilt, 2. falls es eine andere Assoziationsregel mit und und da dann bereits aus In der Regel gibt es sehr viele Assoziationsregeln. gibt,, folgt. Man kann redundante Assoziationsregeln Berechnung weglassen. Außer enthalten sie nur redundante Information. bei der Prof. Dr. Dietmar Seipel 465

60 Beispiel (Kreditwürdigkeit) Wir bestimmen alle nicht redundanten Assoziationsregeln mit Def oder Def. Married PrevDef Income Def yes no yes 10% 100% no no no 15% 100% no yes yes 15% 100% yes yes no 15% 100% yes no no 40% 89% yes no 45% 90% no no 50% 91% Neben den Assoziationsregeln wurden zwei weitere Assoziationsregeln berechnet. zum Entscheidungs Baum Prof. Dr. Dietmar Seipel 466

61 Falls man an Assoziationsregeln mit beliebigen rechten Seiten interessiert ist, so könnte man sich zur Reduktion des Aufkommens auf nicht redundante, maximale Assoziationsregeln beschränken. Definition (Subsumtion von Assoziationsregeln) 1. Eine Assoziationsregel kurz falls subsumiert eine Assoziationsregel und und 2. Eine Assoziationsregel heißt maximal, falls sie von keiner anderen Assoziationsregel subsumiert wird. Falls und so folgt schon aus da dann immer automatisch auch gilt. Prof. Dr. Dietmar Seipel 467

62 Assoziationsregeln mit 40% und 80%: Married PrevDef Income Def yes no no 40% 80% yes no no 40% hper yes no 45% 82% yes no 45% 82% yes no 45% 82% yes no 45% 82% yes no 45% 90% yes no 45% 90% no no 50% 91% no no 50% 91% no no 50% 91% Prof. Dr. Dietmar Seipel 468

63 weitere Assoziationsregeln mit 15% 40% und 80%: Married PrevDef Income Def no no no 15% 100% no yes yes 15% 100% no no no 15% 100% no yes yes 15% 100% yes yes no 15% 100% yes no yes 15% 100% yes no yes 15% 100% yes yes no 15% 100% no yes yes 15% 100% yes 20% 80% no 25% 83% Prof. Dr. Dietmar Seipel 469

64 weitere Assoziationsregeln mit 10% 20% und 80%: Married PrevDef Income Def yes no yes 10% 100% yes yes no 10% 100% yes yes no 10% 100% yes no yes 10% 100% Assoziationsregeln zum Entscheidungs Baum: Die berechnete Assoziationsregel 50%,91% subsumiert die Regel Die Regeln,, Entscheidungs Baums wurden auch berechnet. zum vierten Zweig des Entscheidungs Baums. und zu den anderen Zweigen des Prof. Dr. Dietmar Seipel 470

65 5.2.3 Clustering Auffinden von Gruppen logisch verwandeter Objekte, so daß die Objekte einer Gruppe sehr ähnlich sind; Ähnlichkeitsmaß: Euklidscher Abstand o.ä., Normierung, so daß die besonders relevanten Dimensionen (Charakteristika) stärker gewichtet werden als andere; Outlier Detection: Objekte, die aus dem Rahmen fallen. Bei Klassifikationsregeln und Entscheidungsbäumen sind die Kategorien nach denen die Objekte klassifiziert werden, vorher bekannt. Beim Clustering werden diese erst durch den Algorithmus bestimmt. Prof. Dr. Dietmar Seipel 471

66 Cluster und Outlier: outlier Prof. Dr. Dietmar Seipel 472

67 Der K Means Algorithmus Gewünschte Anzahl von Clustern 1. wähle zufällig Objekte als Zentren der initialencluster aus 2. ordne die restlichen Objekte jeweils dem nächsten Cluster zu (Änhlichkeitsvergleich mit dem Zentrum des Clusters) 3. berechne die Zentren der Cluster neu als die Mittelwerte der Objekte des Clusters 4. wiederhole die Schritte 2 und 3 solange bis sich die Cluster nicht mehr verändern Verfeinerungen: Wiederholung des Algorithmus mit verschiedenen initialen Zentren gezielte Selektion der initialen Zentren Test verschiedener Werte für die Anzahl der Zentren Prof. Dr. Dietmar Seipel 473

68 Beispiel: Id Alter Note S S S S S S Prof. Dr. Dietmar Seipel 474

69 Clusterung nach dem Alter: initiale Clusterzentren und Cluster: Zentren: S1, S4 Cluster 1: S1, S2, S3 Cluster 2: S4, S5, S6 neue Clusterzentren und Cluster: Zentren: ( )/3 = , ( )/3 = 23 Cluster 1: S1, S2, S3, S4 Cluster 2: S5, S6 das frühere Zentrum von Cluster 2 ist ins Cluster 1 gewandert weitere Schritte bringen keine Veränderung der Cluster Notendurchschnitt von ( )/4 = in Cluster 1 (jüngere Studenten) und ( )/2 = 3.55 in Cluster 2 (ältere Studenten). Prof. Dr. Dietmar Seipel 475

70 fach gewichten, da dann die neuen numerischen Werte zwischen 0 und Beispiel (Kreditwürdigkeit) Transformation: Wir bilden nicht numerische Werte auf numerische ab: yes no Ci Damit rangieren die numerischen Werte für Married, PrevDef und Def zwischen 0 und 1. Normierung: Das Einkommen rangiert zunächst zwischen 0 und 160. Im Vergleich zu den anderen Attributen kann man es mittels Income Income liegen. Prof. Dr. Dietmar Seipel 476

71 Clusterung mittels K Means vierfache Gewichtung des Einkommens: Income 3 Cluster: Income Id Married PrevDef Income Def Id Married PrevDef Income Def 1 C1 yes no 50 no 1 C14 no no 15 no 1 C2 yes no 100 no 1 C15 no no 60 no 1 C3 no yes 135 yes 1 C17 yes no 35 no 1 C4 yes no 125 no 1 C18 no yes 160 yes 1 C5 yes no 50 no 1 C19 yes no 40 no 1 C6 no no 30 no 1 C20 yes no 30 no 1 C9 yes no 75 no 2 C13 yes yes 20 no 1 C10 yes yes 45 no 2 C7 yes yes 10 no 1 C11 yes no 60 yes 3 C16 yes no 15 yes 1 C12 no yes 125 yes 3 C8 yes no 10 yes Die Cluster Einkommen, und außerdem gilt und enthalten verheiratete Personen mit niedrigen Prof. Dr. Dietmar Seipel 477

72 zweifache Gewichtung des Einkommens: Income 4 Cluster: Income Id Married PrevDef Income Def 1 C1 yes no 50 no 1 C2 yes no 100 no 1 C4 yes no 125 no 1 C5 yes no 50 no 1 C9 yes no 75 no 1 C17 yes no 35 no 1 C19 yes no 40 no 1 C20 yes no 30 no 2 C8 yes no 10 yes 2 C11 yes no 60 yes 2 C16 yes no 15 yes Id Married PrevDef Income Def 3 C7 yes yes 10 no 3 C10 yes yes 45 no 3 C13 yes yes 20 no 4 C3 no yes 135 yes 4 C6 no no 30 no 4 C12 no yes 125 yes 4 C14 no no 15 no 4 C15 no no 60 no 4 C18 no yes 160 yes 3 Cluster: und oder und oder und zusammen Prof. Dr. Dietmar Seipel 478

73 Hierarchisches Clustering 1. starte mit einem Cluster pro Datenobjekt 2. verschmelze zwei möglichst nahe beeinander liegende Cluster, basierend auf der Distanz zwischen den Zentren (Mittelwerten) der Cluster der Distanz zwischen den zwei nächsten Nachbarn zweier Cluster (d.h., je einem Element der jeweils betrachteten Cluster) 3. dieser Prozeß kann zu jedem Zeitpunkt abgebrochen werden, sobald man ein zufriedenstellendes Clustering erreicht hat Prof. Dr. Dietmar Seipel 479

74 Dentrogramm 17,17,18,20,23,26 17,17,18,20 17,17,18 17,17 23, Prof. Dr. Dietmar Seipel 480

Datenbanksysteme 2009

Datenbanksysteme 2009 Datenbanksysteme 2009 Kapitel 17: Data Warehouse Oliver Vornberger Institut für Informatik Universität Osnabrück 1 OLTP versus OLAP OLTP (Online Transaction Processing) z.b. Flugreservierung, Handelsunternehmen

Mehr

OLTP: Online Transaction Processing

OLTP: Online Transaction Processing Moderne Betriebliche Anwendungen von Datenbanksystemen Online Transaction Processing (bisheriger Fokus) Data Warehouse-Anwendungen Data Mining OLTP: Online Transaction Processing Beispiele Flugbuchungssystem

Mehr

Data Warehouses und Moderne Betriebliche Anwendungen von Datenbanksystemen

Data Warehouses und Moderne Betriebliche Anwendungen von Datenbanksystemen Data Warehouses und Moderne Betriebliche Anwendungen von Datenbanksystemen (Folien von A. Kemper zum Buch 'Datenbanksysteme') Online Transaction Processing Betriebswirtschaftliche Standard- Software (SAP

Mehr

Data Warehouse. Kapitel 17. Abbildung 17.1: Zusammenspiel zwischen OLTP und OLAP. Man unterscheidet zwei Arten von Datenbankanwendungen:

Data Warehouse. Kapitel 17. Abbildung 17.1: Zusammenspiel zwischen OLTP und OLAP. Man unterscheidet zwei Arten von Datenbankanwendungen: Kapitel 17 Data Warehouse OLTP Online Transaction Processing OLAP Online Analytical Processing Decision Support-Anfragen Data Mining opera- tionale DB opera- tionale DB opera- tionale DB Data Warehouse

Mehr

Kapitel 17: Date Warehouse

Kapitel 17: Date Warehouse Kapitel 17: Date Warehouse 1 OLTP versus OLAP OLTP (Online Transaction Processing) z.b. Flugreservierung, Handelsunternehmen kleine, kurze Transaktionen jeweils auf jüngstem Zustand OLAP (Online Analytical

Mehr

Data Warehouse. Kapitel 17. Abbildung 17.1: Zusammenspiel zwischen OLTP und OLAP. Man unterscheidet zwei Arten von Datenbankanwendungen:

Data Warehouse. Kapitel 17. Abbildung 17.1: Zusammenspiel zwischen OLTP und OLAP. Man unterscheidet zwei Arten von Datenbankanwendungen: Kapitel 17 Data Warehouse OLTP Online Transaction Processing OLAP Online Analytical Processing Decision Support-Anfragen Data Mining opera- tionale DB opera- tionale DB opera- tionale DB Data Warehouse

Mehr

Data Warehouse. Kapitel 16. Abbildung 16.1: Zusammenspiel zwischen OLTP und OLAP. Man unterscheidet zwei Arten von Datenbankanwendungen:

Data Warehouse. Kapitel 16. Abbildung 16.1: Zusammenspiel zwischen OLTP und OLAP. Man unterscheidet zwei Arten von Datenbankanwendungen: Kapitel 16 Data Warehouse OLTP Online Transaction Processing OLAP Online Analytical Processing Decision Support-Anfragen Data Mining operationale DB operationale DB operationale DB Data Warehouse operationale

Mehr

Betriebliche Anwendungen

Betriebliche Anwendungen Betriebliche nwendungen SP R/3: Enterprise Resource Modelling (ERP-System) OLTP Data Warehouse Data Mining WN (Internet) LN Kapitel 17 1 Relationales DBMS als Backend-Server (Oracle, Informix, DB2, MS

Mehr

Data Warehousing. Fragen des Marketingleiters. Beispiel: : Amazon. Technisch... Amazon weltweit... Datenbank. Aufbau eines DWH OLAP <-> OLTP Datacube

Data Warehousing. Fragen des Marketingleiters. Beispiel: : Amazon. Technisch... Amazon weltweit... Datenbank. Aufbau eines DWH OLAP <-> OLTP Datacube Fragen des Marketingleiters Data Warehousing Wie viele Bestellungen haben wir jeweils im Monat vor Weihnachten, aufgeschlüsselt nach? Aufbau eines DWH OLAP OLTP Datacube Beispiel: : Amazon Technisch

Mehr

Betriebliche Anwendungen

Betriebliche Anwendungen Betriebliche Anwendungen OLTP Data Warehouse Data Mining Kapitel 17 1 OLTP: Online Transaction Processing Beispiele Flugbuchungssystem Bestellungen in einem Handelsunternehmen Charakterisierung Hoher Parallelitätsgrad

Mehr

Betriebliche Anwendungen

Betriebliche Anwendungen Betriebliche Anwendungen SAP R/3: Enterprise Resource Modelling (ERP-System) OLTP Data Warehouse Data Mining WAN (Internet) LAN Kapitel 7 Relationales DBMS als Backend-Server (Oracle, Informix, DB2, MS

Mehr

Datenbanken Unit 9: OLAP, OLTP und objektrelationale Datenbanken

Datenbanken Unit 9: OLAP, OLTP und objektrelationale Datenbanken Datenbanken Unit 9: OLAP, OLTP und objektrelationale Datenbanken 17. V. 2017 Outline 1 Organisatorisches 2 SQL 3 OLTP, OLAP, SAP, and Data Warehouse OLTP and OLAP SAP 4 Objekt-relationale Datenbanken Beispiel

Mehr

Datenbanken Unit 9: OLAP, OLTP und objektrelationale Datenbanken

Datenbanken Unit 9: OLAP, OLTP und objektrelationale Datenbanken Datenbanken Unit 9: OLAP, OLTP und objektrelationale Datenbanken 31. V. 2016 Outline 1 Organisatorisches 2 SQL 3 OLTP, OLAP, SAP, and Data Warehouse OLTP and OLAP SAP 4 Objekt-relationale Datenbanken Beispiel

Mehr

Data Warehousing. Aufbau eines DWH OLAP <-> OLTP Datacube

Data Warehousing. Aufbau eines DWH OLAP <-> OLTP Datacube Data Warehousing Aufbau eines DWH OLAP OLTP Datacube Beispiel: : Amazon 2 Datenbank 3 Fragen des Marketingleiters Wie viele Bestellungen haben wir jeweils im Monat vor Weihnachten, aufgeschlüsselt

Mehr

Data Warehousing. Beispiel: : Amazon. Aufbau eines DWH OLAP <-> OLTP Datacube. FU-Berlin, DBS I 2006, Hinze / Scholz

Data Warehousing. Beispiel: : Amazon. Aufbau eines DWH OLAP <-> OLTP Datacube. FU-Berlin, DBS I 2006, Hinze / Scholz Data Warehousing Aufbau eines DWH OLAP OLTP Datacube Beispiel: : Amazon 2 1 Datenbank 3 Fragen des Marketingleiters Wie viele Bestellungen haben wir jeweils im Monat vor Weihnachten, aufgeschlüsselt

Mehr

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining.

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining. Motivation Themenblock: Klassifikation Praktikum: Data Warehousing und Data Mining Ziel Item hat mehrere Attribute Anhand von n Attributen wird (n+)-tes vorhergesagt. Zusätzliches Attribut erst später

Mehr

Seminar im Sommersemester 2004 an der Universität Karlsruhe (TH)

Seminar im Sommersemester 2004 an der Universität Karlsruhe (TH) Seminar im Sommersemester 2004 an der Universität Karlsruhe (TH) Verteilung und Integration von Informationen im Verkehrsbereich Thema: OLAP in verteilten Data-Warehouse- Umgebungen Vortrag: Christian

Mehr

Einführung relationale Datenbanken. Themenblock: Erstellung eines Cube. Schlüssel. Relationenmodell Relationenname Attribut. Problem.

Einführung relationale Datenbanken. Themenblock: Erstellung eines Cube. Schlüssel. Relationenmodell Relationenname Attribut. Problem. Themenblock: Erstellung eines Cube Einführung relationale Datenbanken Problem Verwaltung großer Mengen von Daten Praktikum: Data Warehousing und Data Mining Idee Speicherung der Daten in Form von Tabellen

Mehr

Themenblock: Erstellung eines Cube

Themenblock: Erstellung eines Cube Themenblock: Erstellung eines Cube Praktikum: Data Warehousing und Data Mining Einführung relationale Datenbanken Problem Verwaltung großer Mengen von Daten Idee Speicherung der Daten in Form von Tabellen

Mehr

Das Multidimensionale Datenmodell

Das Multidimensionale Datenmodell Das Multidimensionale Datenmodell Konzeptuelle Modellierung Umsetzung des Modells Beispiel ER-Modell 2 / 36 Probleme ER-Modellierung Keine Unterscheidung Klassifikation, Attribute, Kenngrößen Dimension

Mehr

Seminar Business Intelligence Teil II. Data Mining & Knowledge Discovery

Seminar Business Intelligence Teil II. Data Mining & Knowledge Discovery Seminar Business Intelligence Teil II Data Mining & Knowledge Discovery Was ist Data Mining? Sabine Queckbörner Was ist Data Mining? Data Mining Was ist Data Mining? Nach welchen Mustern wird gesucht?

Mehr

Data Mining Anwendungen und Techniken

Data Mining Anwendungen und Techniken Data Mining Anwendungen und Techniken Knut Hinkelmann DFKI GmbH Entdecken von Wissen in banken Wissen Unternehmen sammeln ungeheure mengen enthalten wettbewerbsrelevantes Wissen Ziel: Entdecken dieses

Mehr

Datenbanksysteme 2 Frühjahr-/Sommersemester 2014 28. Mai 2014

Datenbanksysteme 2 Frühjahr-/Sommersemester 2014 28. Mai 2014 Lehrstuhl für Praktische Informatik III Prof. Dr. Guido Moerkotte Email: moer@db.informatik.uni-mannheim.de Marius Eich Email: marius.eich@uni-mannheim.de Datenbanksysteme 2 8. Übungsblatt Frühjahr-/Sommersemester

Mehr

Data Warehouse Definition (1) http://de.wikipedia.org/wiki/data-warehouse

Data Warehouse Definition (1) http://de.wikipedia.org/wiki/data-warehouse Data Warehouse Definition (1) http://de.wikipedia.org/wiki/data-warehouse Ein Data-Warehouse bzw. Datenlager ist eine zentrale Datensammlung (meist eine Datenbank), deren Inhalt sich aus Daten unterschiedlicher

Mehr

Data Cube. Aggregation in SQL. Beispiel: Autoverkäufe. On-line Analytical Processing (OLAP) 1. Einführung. 2. Aggregation in SQL, GROUP BY

Data Cube. Aggregation in SQL. Beispiel: Autoverkäufe. On-line Analytical Processing (OLAP) 1. Einführung. 2. Aggregation in SQL, GROUP BY Data Cube On-line Analytical Processing (OLAP). Einführung Ziel: Auffinden interessanter Muster in großen Datenmengen 2. Aggregation in SQL, GROUP BY 3. Probleme mit GROUP BY 4. Der Cube-Operator! Formulierung

Mehr

Anfragen an multidimensionale Daten

Anfragen an multidimensionale Daten Anfragen an multidimensionale Daten Alexander Heidrich - BID8 09.06.2005 Hintergrundbild: http://www.csc.calpoly.edu/~zwood/teaching/csc471/finalproj02/afternoon/mfouquet/cube.jpg Inhaltsübersicht Motivation

Mehr

Data Warehousing. Weitere Buzzwörter: OLAP, Decision Support, Data Mining

Data Warehousing. Weitere Buzzwörter: OLAP, Decision Support, Data Mining Data Warehousing Weitere Buzzwörter: OLAP, Decision Support, Data Mining Wichtige Hinweise Zu diesem Thema gibt es eine Spezialvorlesung im Sommersemester Hier nur grober Überblick über Idee und einige

Mehr

6.6 Vorlesung: Von OLAP zu Mining

6.6 Vorlesung: Von OLAP zu Mining 6.6 Vorlesung: Von OLAP zu Mining Definition des Begriffs Data Mining. Wichtige Data Mining-Problemstellungen, Zusammenhang zu Data Warehousing,. OHO - 1 Definition Data Mining Menge von Techniken zum

Mehr

Kapitel 6. Vorlesung: PD Dr. Peer Kröger

Kapitel 6. Vorlesung: PD Dr. Peer Kröger Kapitel 6 Einführung in Data Warehouses Vorlesung: PD Dr. Peer Kröger Dieses Skript basiert auf den Skripten zur Vorlesung Datenbanksysteme II an der LMU München Dieses Skript basiert auf den Skripten

Mehr

MIS by Franziska Täschler, Winformation GmbH ftaeschler@winformation-gmbh.ch Ausgabe 01/2001

MIS by Franziska Täschler, Winformation GmbH ftaeschler@winformation-gmbh.ch Ausgabe 01/2001 MIS Glossar by Franziska Täschler, Winformation GmbH ftaeschler@winformation-gmbh.ch Ausgabe 01/2001 Aggregat Data Cube Data Marts Data Mining Data Warehouse (DWH) Daten Decision Support Systeme (DSS)

Mehr

Data Mining-Modelle und -Algorithmen

Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining ist ein Prozess, bei dem mehrere Komponenten i n- teragieren. Sie greifen auf Datenquellen, um diese zum Training,

Mehr

Vorlesung Datenbankmanagementsysteme

Vorlesung Datenbankmanagementsysteme Vorlesung Datenbankmanagementsysteme SQL zur Datenanalyse & Einführung Online Analytical Processing (OLAP) (auf Basis von Oracle) Vorlesung Datenbankmanagementsysteme SQL zur Datenanalyse M. Lange, S.

Mehr

Data Mining auf Datenströmen Andreas M. Weiner

Data Mining auf Datenströmen Andreas M. Weiner Technische Universität Kaiserslautern Fachbereich Informatik Lehrgebiet Datenverwaltungssysteme Integriertes Seminar Datenbanken und Informationssysteme Sommersemester 2005 Thema: Data Streams Andreas

Mehr

Aufgabe 1: [Logische Modellierung]

Aufgabe 1: [Logische Modellierung] Aufgabe 1: [Logische Modellierung] a) Entwerfen Sie für das von Ihnen entworfene Modell aus Aufgabe 2 des 1. Übungsblattes ein Star-Schema. b) Entwerfen Sie für das vorangegangene Modell einen Teil eines

Mehr

Motivation. Themenblock: Data Preprocessing. Einsatzgebiete für Data Mining I. Modell von Gianotti und Pedreschi

Motivation. Themenblock: Data Preprocessing. Einsatzgebiete für Data Mining I. Modell von Gianotti und Pedreschi Motivation Themenblock: Data Preprocessing We are drowning in information, but starving for knowledge! (John Naisbett) Was genau ist Datenanalyse? Praktikum: Data Warehousing und Data Mining Was ist Data

Mehr

Verwandt, logisch kohärent, zweckspezifisch, an reale Welt orientiert. Entität kann in einer oder mehreren Unterklassen sein

Verwandt, logisch kohärent, zweckspezifisch, an reale Welt orientiert. Entität kann in einer oder mehreren Unterklassen sein 1 Definitionen 1.1 Datenbank Verwandt, logisch kohärent, zweckspezifisch, an reale Welt orientiert Integriert, selbstbeschreibend, verwandt 1.2 Intension/Extension Intension: Menge der Attribute Extension:

Mehr

The integration of business intelligence and knowledge management

The integration of business intelligence and knowledge management The integration of business intelligence and knowledge management Seminar: Business Intelligence Ketevan Karbelashvili Master IE, 3. Semester Universität Konstanz Inhalt Knowledge Management Business intelligence

Mehr

Unüberwachtes Lernen: Clusteranalyse und Assoziationsregeln

Unüberwachtes Lernen: Clusteranalyse und Assoziationsregeln Unüberwachtes Lernen: Clusteranalyse und Assoziationsregeln Praktikum: Data Warehousing und Data Mining Clusteranalyse Clusteranalyse Idee Bestimmung von Gruppen ähnlicher Tupel in multidimensionalen Datensätzen.

Mehr

Mengenvergleiche: Alle Konten außer das, mit dem größten Saldo.

Mengenvergleiche: Alle Konten außer das, mit dem größten Saldo. Mengenvergleiche: Mehr Möglichkeiten als der in-operator bietet der θany und der θall-operator, also der Vergleich mit irgendeinem oder jedem Tupel der Unteranfrage. Alle Konten außer das, mit dem größten

Mehr

10. Vorlesung: Datenorganisation SS 2007

10. Vorlesung: Datenorganisation SS 2007 10. Vorlesung: Datenorganisation SS 2007 8 Parallele Transaktionen 9 9.1 Drei-Ebenen Ebenen-Architektur 9.2 Verteilte Datenbanken 9.3 Client-Server Server-Datenbanken 9.4 Föderierte Datenbanken 9.5 Das

Mehr

Mathematische Grundlagen III

Mathematische Grundlagen III Mathematische Grundlagen III Maschinelles Lernen III: Clustering Vera Demberg Universität des Saarlandes 7. Juli 202 Vera Demberg (UdS) Mathe III 7. Juli 202 / 35 Clustering vs. Klassifikation In den letzten

Mehr

Knowledge Discovery. Lösungsblatt 1

Knowledge Discovery. Lösungsblatt 1 Universität Kassel Fachbereich Mathematik/nformatik Fachgebiet Wissensverarbeitung Hertie-Stiftungslehrstuhl Wilhelmshöher Allee 73 34121 Kassel Email: hotho@cs.uni-kassel.de Tel.: ++49 561 804-6252 Dr.

Mehr

Vorwort zur 5. Auflage... 15 Über den Autor... 16

Vorwort zur 5. Auflage... 15 Über den Autor... 16 Vorwort zur 5. Auflage...................................... 15 Über den Autor............................................ 16 Teil I Grundlagen.............................................. 17 1 Einführung

Mehr

Vorlesung Wissensentdeckung in Datenbanken

Vorlesung Wissensentdeckung in Datenbanken Vorlesung Wissensentdeckung in Datenbanken Data Cube Katharina Morik, Uwe Ligges Informatik LS 8 22.04.2010 1 von 26 Gliederung 1 Einführung 2 Aggregation in SQL, GROUP BY 3 Probleme mit GROUP BY 4 Der

Mehr

Data Mining und Knowledge Discovery in Databases

Data Mining und Knowledge Discovery in Databases Data Mining und Knowledge Discovery in Databases Begriffsabgrenzungen... Phasen der KDD...3 3 Datenvorverarbeitung...4 3. Datenproblematik...4 3. Möglichkeiten der Datenvorverarbeitung...4 4 Data Mining

Mehr

Vorlesung Wissensentdeckung in Datenbanken

Vorlesung Wissensentdeckung in Datenbanken Gliederung Vorlesung Wissensentdeckung in Datenbanken Data Cube Katharina Morik, Claus Weihs 14.07.2009 1 Einführung 2 Aggregation in SQL, GROUP BY 3 Probleme mit GROUP BY 4 Der Cube-Operator 5 Implementierung

Mehr

Objektorientierte Datenbanken

Objektorientierte Datenbanken OODB 11 Slide 1 Objektorientierte Datenbanken Vorlesung 11 vom 01.07.2004 Dr. Sebastian Iwanowski FH Wedel OODB 11 Slide 2 Inhalt heute: Datenbanken in betriebswirtschaftlichen Anwendungen OTLP (SAP) Data

Mehr

Datenbanken Unit 10: Ranking und Data Mining Erstellen und Ändern von Datenbanken

Datenbanken Unit 10: Ranking und Data Mining Erstellen und Ändern von Datenbanken Datenbanken Unit 10: Ranking und Data Mining Erstellen und Ändern von Datenbanken 7. VI. 2016 Organisatorisches nächste Woche am 14. Juni Abschlusstest (Gruppe 1: 10:00 11:15, Gruppe 2: 11:30 12:45 ) Übungsblatt

Mehr

Vertrautmachen mit Daten

Vertrautmachen mit Daten Kapitel III Vertrautmachen mit Daten 2004 AIFB / FZI 1 III Vertrautmachen mit Daten (see also Data Preparation ) 2004 AIFB / FZI 2 III Vertrautmachen mit Daten III.1 OLAP III.1.1 Einführung in OLAP Wie

Mehr

2. Lernen von Entscheidungsbäumen

2. Lernen von Entscheidungsbäumen 2. Lernen von Entscheidungsbäumen Entscheidungsbäume 2. Lernen von Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch Attribut/Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse

Mehr

OLAP und Data Warehouses

OLAP und Data Warehouses OLP und Data Warehouses Überblick Monitoring & dministration Externe Quellen Operative Datenbanken Extraktion Transformation Laden Metadaten- Repository Data Warehouse OLP-Server nalyse Query/Reporting

Mehr

Data Mining und Text Mining Einführung. S2 Einfache Regellerner

Data Mining und Text Mining Einführung. S2 Einfache Regellerner Data Mining und Text Mining Einführung S2 Einfache Regellerner Hans Hermann Weber Univ. Erlangen, Informatik 8 Wintersemester 2003 hans.hermann.weber@gmx.de Inhalt Einiges über Regeln und Bäume R1 ein

Mehr

Clustern. Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so dass:

Clustern. Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so dass: Text-Clustern 1 Clustern Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so dass: Beispiele innerhalb eines Clusters sich sehr ähnlich Beispiele in verschiedenen

Mehr

Relationale Datenbanken Datenbankgrundlagen

Relationale Datenbanken Datenbankgrundlagen Datenbanksystem Ein Datenbanksystem (DBS) 1 ist ein System zur elektronischen Datenverwaltung. Die wesentliche Aufgabe eines DBS ist es, große Datenmengen effizient, widerspruchsfrei und dauerhaft zu speichern

Mehr

Datenbanken: Datenintegrität. www.informatikzentrale.de

Datenbanken: Datenintegrität. www.informatikzentrale.de Datenbanken: Datenintegrität Definition "Datenkonsistenz" "in der Datenbankorganisation (...) die Korrektheit der gespeicherten Daten im Sinn einer widerspruchsfreien und vollständigen Abbildung der relevanten

Mehr

Einsatz von Datenbanken im Forschungslabor. Workflow und Data Mining

Einsatz von Datenbanken im Forschungslabor. Workflow und Data Mining Einsatz von Datenbanken im Forschungslabor Friedrich-Alexander-Universität Erlangen-Nürnberg Technische Fakultät, Institut für Informatik Lehrstuhl für Informatik 6 (Datenbanksysteme) Datenbanken weshalb?

Mehr

2 Datenbanksysteme, Datenbankanwendungen und Middleware... 45

2 Datenbanksysteme, Datenbankanwendungen und Middleware... 45 Vorwort 15 Teil I Grundlagen 19 i Einführung In das Thema Datenbanken 21 I.I Warum ist Datenbankdesign wichtig? 26 i.2 Dateisystem und Datenbanken 28 1.2.1 Historische Wurzeln 29 1.2.2 Probleme bei der

Mehr

Kap. 6 Data Warehouse

Kap. 6 Data Warehouse 1 Kap. 6 Data Warehouse 6.1 Was ist ein Data Warehouse, Motivation? 6.2 Data Cube und Cube-Operationen 6.3 Workshop: MS SQL Server, Cube Operationen 6.4 Physischer Entwurf, Implementierung von Cubes 6.5

Mehr

Unterstützung der Unternehmenssteuerung durch Data Warehouses mit ganzheitlicher Sicht auf Daten aus operativen Systemen

Unterstützung der Unternehmenssteuerung durch Data Warehouses mit ganzheitlicher Sicht auf Daten aus operativen Systemen Rückblick Unterstützung der Unternehmenssteuerung durch Data arehouses mit ganzheitlicher Sicht auf Daten aus operativen Systemen Online Transaction Processing (OLTP) und Online Analytical Processing unterscheiden

Mehr

Unterstützung der Unternehmenssteuerung durch Data Warehouses mit ganzheitlicher Sicht auf Daten aus operativen Systemen

Unterstützung der Unternehmenssteuerung durch Data Warehouses mit ganzheitlicher Sicht auf Daten aus operativen Systemen Rückblick Unterstützung der Unternehmenssteuerung durch Data arehouses mit ganzheitlicher Sicht auf Daten aus operativen Systemen Online Transaction Processing (OLTP) und Online Analytical Processing unterscheiden

Mehr

Data Cube. 1. Einführung. 2. Aggregation in SQL, GROUP BY. 3. Probleme mit GROUP BY. 4. Der Cube-Operator. 5. Implementierung des Data Cube

Data Cube. 1. Einführung. 2. Aggregation in SQL, GROUP BY. 3. Probleme mit GROUP BY. 4. Der Cube-Operator. 5. Implementierung des Data Cube Data Cube 1. Einführung 2. Aggregation in SQL, GROUP BY 3. Probleme mit GROUP BY 4. Der Cube-Operator 5. Implementierung des Data Cube 6. Zusammenfassung und Ausblick Dank an Hanna Köpcke! 1 On-line Analytical

Mehr

Suche schlecht beschriftete Bilder mit Eigenen Abfragen

Suche schlecht beschriftete Bilder mit Eigenen Abfragen Suche schlecht beschriftete Bilder mit Eigenen Abfragen Ist die Bilderdatenbank über einen längeren Zeitraum in Benutzung, so steigt die Wahrscheinlichkeit für schlecht beschriftete Bilder 1. Insbesondere

Mehr

Maschinelles Lernen: Symbolische Ansätze

Maschinelles Lernen: Symbolische Ansätze Maschinelles Lernen: Symbolische Ansätze Wintersemester 2009/2010 Musterlösung für das 9. Übungsblatt Aufgabe 1: Decision Trees Gegeben sei folgende Beispielmenge: Age Education Married Income Credit?

Mehr

3.17 Zugriffskontrolle

3.17 Zugriffskontrolle 3. Der SQL-Standard 3.17. Zugriffskontrolle Seite 1 3.17 Zugriffskontrolle Datenbanken enthalten häufig vertrauliche Informationen, die nicht jedem Anwender zur Verfügung stehen dürfen. Außerdem wird man

Mehr

OLAP und der MS SQL Server

OLAP und der MS SQL Server OLAP und der MS SQL Server OLAP und der MS SQL Server OLAP-Systeme werden wie umfangreiche Berichtssysteme heute nicht mehr von Grund auf neu entwickelt. Stattdessen konzentriert man sich auf die individuellen

Mehr

Assoziationsregeln & Sequenzielle Muster. A. Hinneburg, Web Data Mining MLU Halle-Wittenberg, SS 2007

Assoziationsregeln & Sequenzielle Muster. A. Hinneburg, Web Data Mining MLU Halle-Wittenberg, SS 2007 Assoziationsregeln & Sequenzielle Muster 0 Übersicht Grundlagen für Assoziationsregeln Apriori Algorithmus Verschiedene Datenformate Finden von Assoziationsregeln mit mehren unteren Schranken für Unterstützung

Mehr

Künstliche Intelligenz Maschinelles Lernen

Künstliche Intelligenz Maschinelles Lernen Künstliche Intelligenz Maschinelles Lernen Stephan Schwiebert Sommersemester 2009 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Maschinelles Lernen Überwachtes Lernen

Mehr

TU München, Fakultät für Informatik Lehrstuhl III: Datenbanksysteme Prof. Dr. Thomas Neumann

TU München, Fakultät für Informatik Lehrstuhl III: Datenbanksysteme Prof. Dr. Thomas Neumann TU München, Fakultät für Informatik Lehrstuhl III: Datenbanksysteme Prof. Dr. Thomas Neumann Blatt Nr. 10 Übung zur Vorlesung Einsatz und Realisierung von Datenbanksystemen im SoSe15 Moritz Kaufmann (moritz.kaufmann@tum.de)

Mehr

Maschinelles Lernen: Symbolische Ansätze

Maschinelles Lernen: Symbolische Ansätze Maschinelles Lernen: Symbolische Ansätze Wintersemester 2009/2010 Musterlösung für das 13. Übungsblatt Aufgabe 1: Apriori Gegeben seien folgende Beobachtungen vom Kaufverhalten von Kunden: beer chips dip

Mehr

Kapitel 7 Grundlagen von Data

Kapitel 7 Grundlagen von Data LUDWIG- MAXIMILIANS- UNIVERSITY MUNICH DEPARTMENT INSTITUTE FOR INFORMATICS DATABASE Skript zur Vorlesung: Datenbanksysteme II Sommersemester 2014 Kapitel 7 Grundlagen von Data Warehouses Vorlesung: PD

Mehr

5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften 5. Clusteranalyse Vorbemerkungen 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer

Mehr

Data Warehouse Grundlagen

Data Warehouse Grundlagen Seminarunterlage Version: 2.10 Version 2.10 vom 24. Juli 2015 Dieses Dokument wird durch die veröffentlicht.. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen sind Warenzeichen

Mehr

Entscheidungsbäume. Minh-Khanh Do Erlangen,

Entscheidungsbäume. Minh-Khanh Do Erlangen, Entscheidungsbäume Minh-Khanh Do Erlangen, 11.07.2013 Übersicht Allgemeines Konzept Konstruktion Attributwahl Probleme Random forest E-Mail Filter Erlangen, 11.07.2013 Minh-Khanh Do Entscheidungsbäume

Mehr

TU München, Fakultät für Informatik Lehrstuhl III: Datenbanksysteme Prof. Dr. Thomas Neumann

TU München, Fakultät für Informatik Lehrstuhl III: Datenbanksysteme Prof. Dr. Thomas Neumann TU München, Fakultät für Informatik Lehrstuhl III: Datenbanksysteme Prof. Dr. Thomas Neumann Blatt Nr. 11 Übung zur Vorlesung Einsatz und Realisierung von Datenbanksystemen im SoSe15 Moritz Kaufmann (moritz.kaufmann@tum.de)

Mehr

Business Intelligence und Geovisualisierung in der Gesundheitswirtschaft

Business Intelligence und Geovisualisierung in der Gesundheitswirtschaft Business Intelligence und Geovisualisierung in der Gesundheitswirtschaft Prof. Dr. Anett Mehler-Bicher Fachhochschule Mainz, Fachbereich Wirtschaft Prof. Dr. Klaus Böhm health&media GmbH 2011 health&media

Mehr

Lars Priebe Senior Systemberater. ORACLE Deutschland GmbH

Lars Priebe Senior Systemberater. ORACLE Deutschland GmbH Lars Priebe Senior Systemberater ORACLE Deutschland GmbH Data Mining als Anwendung des Data Warehouse Konzepte und Beispiele Agenda Data Warehouse Konzept und Data Mining Data Mining Prozesse Anwendungs-Beispiele

Mehr

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen 7. Clusteranalyse (= Häufungsanalyse; Clustering-Verfahren) wird der multivariaten Statistik zugeordnet Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut,

Mehr

Access Grundlagen. David Singh

Access Grundlagen. David Singh Access Grundlagen David Singh Inhalt Access... 2 Access Datenbank erstellen... 2 Tabellenelemente... 2 Tabellen verbinden... 2 Bericht gestalten... 3 Abfragen... 3 Tabellen aktualisieren... 4 Allgemein...

Mehr

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002)

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002) 3. Entscheidungsbäume Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002) (aus Wilhelm 2001) Beispiel: (aus Böhm 2003) Wann sind Entscheidungsbäume

Mehr

Data Warehouses und Data Mining

Data Warehouses und Data Mining Data Warehouses und Data Mining Online Transaction Processing Data Warehouse-Anwendungen Data Mining OLTP: Online Transaction Processing Beispiele: Flugbuchungssystem Bestellungen in einem Handelsunternehmen

Mehr

Data Warehouse ??? Ein Data Warehouse ist keine von der Stange zu kaufende Standardsoftware, sondern immer eine unternehmensindividuelle

Data Warehouse ??? Ein Data Warehouse ist keine von der Stange zu kaufende Standardsoftware, sondern immer eine unternehmensindividuelle ??? Zusammenfassung, Ergänzung, Querverbindungen, Beispiele A.Kaiser; WU-Wien MIS 188 Data Warehouse Ein Data Warehouse ist keine von der Stange zu kaufende Standardsoftware, sondern immer eine unternehmensindividuelle

Mehr

Data Mining mit der SEMMA Methodik. Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG

Data Mining mit der SEMMA Methodik. Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG Data Mining mit der SEMMA Methodik Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG Data Mining Data Mining: Prozeß der Selektion, Exploration und Modellierung großer Datenmengen, um Information

Mehr

Ermittlung von Assoziationsregeln aus großen Datenmengen. Zielsetzung

Ermittlung von Assoziationsregeln aus großen Datenmengen. Zielsetzung Ermittlung von Assoziationsregeln aus großen Datenmengen Zielsetzung Entscheidungsträger verwenden heutzutage immer häufiger moderne Technologien zur Lösung betriebswirtschaftlicher Problemstellungen.

Mehr

DATENBANKEN SQL UND SQLITE VON MELANIE SCHLIEBENER

DATENBANKEN SQL UND SQLITE VON MELANIE SCHLIEBENER DATENBANKEN SQL UND SQLITE VON MELANIE SCHLIEBENER INHALTSVERZEICHNIS 1. Datenbanken 2. SQL 1.1 Sinn und Zweck 1.2 Definition 1.3 Modelle 1.4 Relationales Datenbankmodell 2.1 Definition 2.2 Befehle 3.

Mehr

Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014

Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014 Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014 Aufgabe 1. Data Mining a) Mit welchen Aufgabenstellungen befasst sich Data Mining? b) Was versteht man unter Transparenz einer Wissensrepräsentation?

Mehr

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer Clusterstruktur kennen, verschiedene

Mehr

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining.

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining. Personalisierung Personalisierung Thomas Mandl Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung Klassifikation Die Nutzer werden in vorab bestimmte Klassen/Nutzerprofilen

Mehr

Data Warehousing und Data Mining

Data Warehousing und Data Mining Data Warehousing und Data Mining 2 Cognos Report Net (CRN) Ermöglicht Erstellen von Ad-hoc-Anfragen (Query Studio) Berichten (Report Studio) Backend Data Cube Relationale Daten Übung: Cognos Report Net

Mehr

Maschinelles Lernen Entscheidungsbäume

Maschinelles Lernen Entscheidungsbäume Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen Entscheidungsbäume Paul Prasse Entscheidungsbäume Eine von vielen Anwendungen: Kreditrisiken Kredit - Sicherheiten

Mehr

Klausur Datenbanken Wintersemester 2004/2005 Prof. Dr. Wolfgang May 10. Februar 2004, 11-13 Uhr Bearbeitungszeit: 90 Minuten

Klausur Datenbanken Wintersemester 2004/2005 Prof. Dr. Wolfgang May 10. Februar 2004, 11-13 Uhr Bearbeitungszeit: 90 Minuten Klausur Datenbanken Wintersemester 2004/2005 Prof. Dr. Wolfgang May 10. Februar 2004, 11-13 Uhr Bearbeitungszeit: 90 Minuten Vorname: Nachname: Matrikelnummer: Bei der Klausur sind keine Hilfsmittel (Skripten,

Mehr

Datenbanken & Informationssysteme (WS 2016/2017)

Datenbanken & Informationssysteme (WS 2016/2017) Datenbanken & Informationssysteme (WS 2016/2017) Klaus Berberich (klaus.berberich@htwsaar.de) Wolfgang Braun (wolfgang.braun@htwsaar.de) 0. Organisatorisches Dozenten Klaus Berberich (klaus.berberich@htwsaar.de)

Mehr

SQL - Datenbankdesign - Aufbau

SQL - Datenbankdesign - Aufbau SQL - Datenbankdesign - Aufbau Kompakt-Intensiv-Training Unsere fünftägige ANSI SQL Schulung vermittelt Ihnen alle nötigen Kenntnisse zur Erstellung von Datenauswertungen und Programmierung wiederkehrender

Mehr

INTELLIGENTE DATENANALYSE IN MATLAB. Unüberwachtes Lernen: Clustern von Attributen

INTELLIGENTE DATENANALYSE IN MATLAB. Unüberwachtes Lernen: Clustern von Attributen INTELLIGENTE DATENANALYSE IN MATLAB Unüberwachtes Lernen: Clustern von Attributen Literatur J. Han, M. Kamber: Data Mining Concepts and Techniques. J. Han et. al: Mining Frequent Patterns without Candidate

Mehr

Data Mining - Wiederholung

Data Mining - Wiederholung Data Mining - Wiederholung Norbert Fuhr 9. Juni 2008 Problemstellungen Problemstellungen Daten vs. Information Def. Data Mining Arten von strukturellen Beschreibungen Regeln (Klassifikation, Assoziations-)

Mehr

Data Cubes PG Wissensmangement Seminarphase

Data Cubes PG Wissensmangement Seminarphase PG 402 - Wissensmangement Seminarphase 23.10.2001-25.10.2001 Hanna Köpcke Lehrstuhl für Künstliche Intelligenz Universität Dortmund Übersicht 1. Einführung 2. Aggregation in SQL, GROUP BY 3. Probleme mit

Mehr

Komponenten und Architekturen von Analytischen Informationssystemen (AIS)

Komponenten und Architekturen von Analytischen Informationssystemen (AIS) Komponenten und Architekturen von Analytischen Informationssystemen (AIS) Melanie Pfoh Konsultation 27. Juni 2013 Hinweis Diese Folien ersetzen keinesfalls den Übungsstoff des zugehörigen e-learning-kurses.

Mehr

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining Gliederung 1. Einführung 2. Grundlagen Data Mining Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining 3. Ausgewählte Methoden des Data

Mehr

Komponenten und Architekturen von Analytischen Informationssystemen (AIS)

Komponenten und Architekturen von Analytischen Informationssystemen (AIS) Komponenten und Architekturen von Analytischen Informationssystemen (AIS) Melanie Pfoh Konsultation Zusammenfassung OPAL 6. Übung Juni 2015 Agenda Hinweise zur Klausur Zusammenfassung OPAL Übungen / Kontrollfragen

Mehr

Einführung in Data Warehouses

Einführung in Data Warehouses Vorlesung Datebanksysteme II im SoSe 2015 Einführung in Data Warehouses Vorlesung: PD Dr. Peer Kröger Einführung in Data Warehouses Übersicht 1 Einleitung 2 Datenmodellierung 3 Anfragebearbeitung 2 Einführung

Mehr