Relevante Fachgebiete für Data Mining Prozesse beim Data Mining
|
|
- Curt Lichtenberg
- vor 5 Jahren
- Abrufe
Transkript
1 Relevante Fachgebiete für Data Mining Prozesse beim Data Mining 1. Data cleaning: Datensäuberung von Rauschen & Inkonsistenz 2. Data integration: Datenintegration aus multiplen Quellen 3. Data selection: Auswahl der zur Analyse relevanten Daten 4. Data transformation: Umwandlung in geeignetes Format 5. Data Mining: Kernprozess 6. Pattern evaluation: Identifikation wirklich interessanter Muster 7. Knowledge presentation: Visualisierung der Ergebnisse 1 2
2 Architektur eines Data Mining Systems Beispiel: Datenquelle (relationale DB) Komponenten: Datenquelle (Datenbank, Data warehouse oder andere Quelle) Datenserver (Datenbank oder Data warehouse) Wissensbasis (knowledge base) Data Mining Maschine (data mining engine) Musterauswertungsmodul (pattern evaluation module) GUI 3 4
3 Beispiel Datenintegration in Data Warehouse Aufbau eines Data Warehouse Beschreibt aggregierte Daten (auf der Basis von Einzeltransaktionen mit Datum, Artikel, Filiale, Anbieter usw.) in mehreren Dimensionen (hier 3: Zeitraum, Artikelgruppe, Ort) zu bestimmten Themen (hier: Verkaufszahlen in $). Typische Repräsentation ist ein n-dimensionaler Datenwürfel (Data cube). zugrundeliegende Daten: 5 6
4 Varianten Jeder Kuboid repräsentiert eine andere Datenzusammenfassung 2 Beispiele für 2-D und 4-D Kuboide 2-D Kuboid-Beispiel (Type+Time), textuell: 2-D Kuboid-Beispiel (Type+Time+Location+Supplier), grafisch: 7 8
5 Definitionsschemata für Data Warehouses Alternative Definitionsschemata (a) Snowflake Schema (Normalisierung der Dimensionstabellen) Star-Schema, bestehend aus: (1) einer große zentrale Tabelle (Fakttabelle) mit Kerndaten (2) einer Menge von kleineren Begleittabellen für jede Dimension (Dimensionstabellen) b) Fact Constellation Schema (mehrere Fakt-Tabellen) Definition in DQML (Data Mining Query language): define cube sales_star [time, item, branch, location]: dollars_sold = sum (sales_in_dollars), units_sold = count(*) define dimension time as (time-key, day, day_of_week, month, quarter, year) define dimension item as (item_key, item_name, brand, type, supplier-type) define dimension branch as (branch_key, branch_name, branch-type) define dimension location as (location_key, street, city, province_or_state, country) 9 10
6 Konzepthierarchien Konzepthierarchien sind wichtig für die Navigation in Data Warehouses (Verfeinerung und Generalisierung von Sichten für alle Dimensionen). Häufig sind sie bereits implizit im Datenbank-Schema, z.b. bei location: city, province_or_state, country. OLAP-Operationen (OnLine Analytical Processing) OLAP-Operationen benutzen Konzepthierarchien und ermöglichen dem Benutzer die interaktive Analyse der Daten, indem Sichten auf die Daten verändert werden. Typische Operatoren sind: Roll-up (Drill-up): Datenaggregation durch Aufsteigen in Konzepthierarchie oder Reduktion einer Dimension Drill-down: Datenverfeinerung (invers zu Roll-up) durch Absteigen in Konzepthierarchie oder Hinzufügen einer Dimension Slice bzw. Dice: Selektion einer bzw. mehrerer Dimensionen eines Datenwürfel. Ergebnis ist ein Teilwürfel. Pivot (rotate): Rotation der Axen Konzepthierarchien repräsentieren Hintergrundwissen und werden explizit als Schema-Hierarchie im Datenbankschema definiert, wobei auch Heterarchien (partielle Ordnung; s. (b)) sinnvoll sind. Typische Konzepthierarchien (z.b. für Zeit) sind meist vordefiniert
7 Beispiel für OLAP-Operationen Hervorheben von Ausnahmen Pro Zelle können Indikatoren für überraschende Werte (d.h. starke Abweichungen zu vergleichbaren Zellen) auf allen Aggregationsebenen berechnet werden: SelfExp: Indikator für Abweichung ( Überraschungsgrad ) zu anderen Zellen auf derselben Aggregationsebene InExp: Indikator für Abweichung auf niederen (d.h. bei aktueller Sicht unsichtbaren) Aggregationsebenen PathExp: Indikator für Abweichungen auf dem Pfad zu niederen Abstraktionenebenen 13 14
8 Beispiel für Abweichungs-Entdeckung Formen der Datenvorverarbeitung SelfExp wird als Hintergrundfarbe kodiert, InExp als Kasten, Stärke der Abweichung als Intensität. Starke InExp-Abweichungen finden sich in Jul, Aug, Sep. Eine Path-Exp. die für eine der Zellen aktiviert wird, zeigt mehr Auffälligkeiten in der Dimension Item (im Vergleich zu Region) (Sony b/w printer in Dec = -11%, Toshiba desktop computer in Aug = 5%) Sony b/w printer im Nov (-15%) ist im Vergleich zu Nov-Gesamtzahlen (-4%) weniger überraschend als im Dec (-11% zu +3%). Die Kästchen (InExp) bei IBM-desktop computer im Jul und Sep triggeren eine weitere Verfeinerung (nach Regionen): (South in Sep = -34% 15 16
9 Datensäuberung (Data cleaning) Umgangsmöglichkeiten mit fehlenden Werten: Ignorieren des Tupel Manuelles Auffüllen Einsetzen einer globalen Konstante (z.b. unbekannt) Mittelwert aller Attribut-Tupel einsetzen Mittelwert aller Attribut-Tupel der gleichen Klasse einsetzen Den wahrscheinlichsten Wert einsetzen (z.b. mit Entscheidungsbäumen, Bayes schen Inferenzen oder Regression ermittelt) Umgangsmöglichkeiten mit verrauschten Daten: Binning: Glätten der Werte durch Berücksichtung von Nachbarwerten. Bsp.: Originalfolge sei 4, 8, 15, 21, 21, 24, 25, 28, 34 Aufteilung in bins : (4, 8, 15) (21, 21, 24) (25, 28, 34) Glätten durch Mittelwerte: (9, 9, 9) (22, 22, 22) (29, 29, 29) Glätten durch Bin-Grenzen: (4, 4, 15) (21, 21, 24) (25, 25, 34) Clustering: Ausreißer können durch Clustering entdeckt und dann ggf. entfernt werden Manuelle Überprüfung von Ausreißer-Kandidaten Regression: (Mulitple) lineare Regression ermittelt lineare Zusammenhänge zwischen zwischen zweien bzw. mehreren Variablen. Falls solche Zusammenhänge existieren, können Ausreißer leicht festgestellt werden. Datenintegration Typische Integrationsprobleme: Schema Integration (z.b. Identifikation unterschiedlicher Attributnamen im Datenbankschema wie cust_number versus customer_id ). Erkennen von Redundanz (z.b. wenn ein Attributwert aus einem anderen hergeleitet werden kann; kann z.b. mit Korrelationsanalyse festgestellt werden) Erkennung von Duplikaten (z.b. identische Tupel) Erkennen von Datenwertkonflikten (können z.b. durch unterschiedliche Maßeinheiten verursacht werden, z.b. Entfernung in km oder Meilen, oder durch verschiedene Kontexte, z.b. Preise mit/ohne Mwst). Erkennen von inkonsistenten Daten: Vergleich der Daten mit externen Referenzen (z.b. Papierbelege) Berücksichtigung von Constraints Inkonsistenzen durch fehlerhafte Datenintegration 17 18
10 Datentransformation Typische Transformationsoperationen für Data Mining: Glättung verrauschter Daten (s.o.) Aggregation bzw. Verallgemeinerung (Zusammenfassung von Daten ähnlich wie bei Konstruktion der Data Cubes und Konzepthierarchien) Normalisierung (Skalierung der Attributdaten, so dass sie in ein bestimmtes Intervall passen, z.b. zwischen 0 und 1) Attributkonstruktion (Konstruktion neuer Attribute aus alten, z.b. um Redundanzen zu verringern oder aussagekräftigere Attribute zu erzeugen). Transformationen mit dem Ziel der Datenreduktion (z.b. Entfernen irrelevanter oder redundanter Dimensionen, Datenkompression, Wechsel der Repräsentation). Data Mining Funktionen (1) Konzeptbeschreibung: Datencharakterisierung: Beschreibung einer Zielklasse, z.b. Eigenschaften aller Kunden, die mehr als 1000 pro Jahr ausgeben. Ergebnis in verschiedenen grafischen Formaten (Kuchen-, Balkendiagramme, Kurven, Tabellen), als Data Cube oder als Regeln Datendifferenzierung: Vergleich einer Zielklasse mit allgemeinen Merkmalen einer Vergleichklasse, z.b. Vergleich der Produkte, die im letzten Jahr um mindestens 10% besser verkauft wurden, mit denen, die sich um mindestens 10% verschlechtert haben. Assoziationsregel-Analyse: Entdecken von Merkmalswerten, die häufig in einer Datenmenge (z.b. in Warenkörben oder bei Transaktionsdaten) zusammen auftreten, z.b. wenn Alter (X, 20-29) und Einkommen (X, K ) kauft (X, CD-Player) mit Support = 2% und Konfidenz = 60% Klassifikation und Vorhersage Herausfinden von Modellen (Funktionen), die ein Konzept so beschreiben und differenzieren, dass eine Vorhersage des Konzeptnamens aufgrund von Eigenschaften möglich ist, z.b. mit Regeln, Entscheidungsbäumen, mathematischen Formeln oder Neuronalen Netzen. Relevanzanalyse: Herausfinden, welche Eigenschaften für die Klassifikation und Vorhersage überhaupt relevant sind
11 Cluster-Analyse Data Mining Funktionen (2) Im Gegensatz zur Klassifikation, bei der klassifizierte Datenobjekte (Fälle mit Lösung) analysiert werden, werden bei der Cluster-Analyse nichtklassifizierte Datenobjekte (Fälle ohne Lösung) in ähnliche Gruppen eingeteilt. Bsp.: Herausfinden homogener Subgruppen der Kunden. Interessantheit von Mustern Problem: Data Mining Systeme produzieren oft Tausende oder Millionen von Mustern bzw. Regeln. Davon ist nur ein Bruchteil wenn überhaupt für Menschen interessant (Problem ähnlich wie bei Information Retrieval bzw. Suchmaschinen): Lösungsaspekte: 1. Was macht Muster interessant? 2. Kann ein Data Mining System alle interessanten Muster generieren (Recall)? 3. Kann ein Data Mining System nur interessante Muster generieren (Precision)? Kennzeichen interessanter Muster: a) für Menschen einfach verständlich b) auf neue Daten mit gewisser Wahrscheinlichkeit übertragbar c) potentiell nützlich d) neu Objektive Interessantheitskriterien: z.b. Support und Confidence bei Assoziationsregeln Ausreißer-Analyse: Ausreißer werden häufig als Rauschen oder Ausnahmen ignoriert, aber in manchen Anwendungen ist ihre Analyse zentral, z.b. bei der Betrugsanalyse. Subjektive Interessantheitskriterien: relevant für Zielfunktion, kein Allgemeinwissen, unerwartet im Vergleich zu bisherigem Wissensstand, hilfreich bei Hypothesenbestätigung Zeitliche Entwicklungs-Analyse Entdeckung von Trends in zeitorientierten Daten 21 22
12 Präsentations- & Visualisierungsformen Beschreibungsaspekte des Data Mining 23 24
13 Beschreibungssprache (DMQL): Toplevel Aktuelle Themengebiete beim Data Mining Methoden: Mining verschiedener Arten von Wissen (s. Funktionen) Interaktives Mining auf verschiedenen Abstraktionsebenen Einbezug von Hintergrundwissen Data Mining Anfragesprachen (analog zu SQL, z.b. DMQL) Präsentation und Visualisierung von Data Mining Ergebnissen Umgang mit Rauschen und unvollständigen Daten Formalisierung der Interessantheit Performanz: Effizienz und Skalierbarkeit der Data Mining Algorithmen Parallele, verteilte und inkrementelle Algorithmen Vielfalt von Datentypen: Relationale und komplexe Datentypen Heterogene Datenbanken Web Mining 25 26
Prozesse beim Data Mining. Relevante Fachgebiete für Data Mining. Beispiel: Datenquelle (relationale DB) Architektur eines Data Mining Systems
Relevante Fachgebiete für Data Mining Prozesse beim Data Mining 1. Data cleaning: Datensäuberung von Rauschen & Inkonsistenz 2. Data integration: Datenintegration aus multiplen Quellen 3. Data selection:
MehrRelevante Fachgebiete für Data Mining
Relevante Fachgebiete für Data Mining 1 Prozesse beim Data Mining 1. Data cleaning: Datensäuberung von Rauschen & Inkonsistenz 2. Data integration: Datenintegration aus multiplen Quellen 3. Data selection:
MehrSummarization-based Aggregation
Summarization-based Aggregation Daten Generalisierung: Prozess, der Anwendungsdaten schrittweise von niedrigen auf höhere konzeptuelle Level aggregiert Conceptual levels 2 3 4 5 example: all federal states
MehrSeminar Business Intelligence Teil II. Data Mining & Knowledge Discovery
Seminar Business Intelligence Teil II Data Mining & Knowledge Discovery Was ist Data Mining? Sabine Queckbörner Was ist Data Mining? Data Mining Was ist Data Mining? Nach welchen Mustern wird gesucht?
MehrData Mining - Wiederholung
Data Mining - Wiederholung Norbert Fuhr 18. Januar 2006 Problemstellungen Problemstellungen Daten vs. Information Def. Data Mining Arten von strukturellen Beschreibungen Regeln (Klassifikation, Assoziations-)
MehrAnfragen an multidimensionale Daten
Anfragen an multidimensionale Daten Alexander Heidrich - BID8 09.06.2005 Hintergrundbild: http://www.csc.calpoly.edu/~zwood/teaching/csc471/finalproj02/afternoon/mfouquet/cube.jpg Inhaltsübersicht Motivation
MehrKonzeptbeschreibung Ziel: Methode: Vorgehen: Entfernen von Attributen Verallgemeinerung von Attributen Relevanzanalyse der restlichen Attribute
Konzeptbeschreibung Ziel: Knappe Charakterisierung einer Datenmenge im Vergleich zu einer anderen Datenmenge (Kontrastmenge) Methode: Herausfinden charakteristischer Attribute auf angemessener Abstraktionsebene
MehrDatenbanksysteme 2009
Datenbanksysteme 2009 Kapitel 17: Data Warehouse Oliver Vornberger Institut für Informatik Universität Osnabrück 1 OLTP versus OLAP OLTP (Online Transaction Processing) z.b. Flugreservierung, Handelsunternehmen
MehrInformationsmaß. Konzeptbeschreibung. Beispiel für Konzept-Charakterisierung (1) Beispiel für Konzept-Charakterisierung (2)
Konzeptbeschreibung Ziel: Knappe Charakterisierung einer Datenmenge im Vergleich zu einer anderen Datenmenge (Kontrastmenge) Methode: Herausfinden charakteristischer Attribute auf angemessener Abstraktionsebene
MehrAssoziationsregeln & Sequenzielle Muster. A. Hinneburg, Web Data Mining MLU Halle-Wittenberg, SS 2007
Assoziationsregeln & Sequenzielle Muster 0 Übersicht Grundlagen für Assoziationsregeln Apriori Algorithmus Verschiedene Datenformate Finden von Assoziationsregeln mit mehren unteren Schranken für Unterstützung
MehrMultidimensionale Modellierung
Multidimensionale Modellierung Vorlesung: Übung: Patrick Schäfer Berlin, 27. November 2017 patrick.schaefer@hu-berlin.de https://hu.berlin/vl_dwhdm17 https://hu.berlin/ue_dwhdm17 Grundlagen Fakten (Kennzahlen/Messgrößen):
MehrTeil II: Architektur eines Data-Warehouse-Systems... 57
O:/Wiley/Reihe_Dummies/9783527714476_Gerken/3d/ftoc.3d from 08.08.2018 14:02:02 Auf einen Blick Einleitung... 19 Teil I: Was ist ein Data Warehouse?... 25 Kapitel 1: Ein Beispiel zur Einführung..... 27
MehrProjektbericht. Evaluation und Ableitung von Ergebnissen anhand eines Fragebogens zur Studentensituation an der Hochschule Wismar
Business Intelligence Master Digitale Logistik und Management Projektbericht Evaluation und Ableitung von Ergebnissen anhand eines Fragebogens zur Studentensituation an der Hochschule Wismar Matthias Säger
MehrMaschinelles Lernen und Data Mining
Semestralklausur zur Vorlesung Maschinelles Lernen und Data Mining Prof. J. Fürnkranz / Dr. G. Grieser Technische Universität Darmstadt Wintersemester 2004/05 Termin: 14. 2. 2005 Name: Vorname: Matrikelnummer:
MehrData-Warehouse-Praktikum
Data-Warehouse-Praktikum WS 18/19 Universität Leipzig, Institut für Informatik Abteilung Datenbanken Prof. Dr. E. Rahm V. Christen, M. Franke, Z. Sehili {christen, franke, sehili}@informatik.uni-leipzig.de
MehrDimensionen, Measures
... Operationen und peicherung Multi-dimensionaler Daten Aggregate um RED WHITE BLUE Group By (with total) By Color um Cross Tab Chevy Ford By Color RED WHITE BLUE By Make um By Make & Year By Year FORD
MehrKapitel 17: Date Warehouse
Kapitel 17: Date Warehouse 1 OLTP versus OLAP OLTP (Online Transaction Processing) z.b. Flugreservierung, Handelsunternehmen kleine, kurze Transaktionen jeweils auf jüngstem Zustand OLAP (Online Analytical
MehrVorlesung Wissensentdeckung in Datenbanken
Vorlesung Wissensentdeckung in Datenbanken Data Cube Katharina Morik, Uwe Ligges Informatik LS 8 22.04.2010 1 von 26 Gliederung 1 Einführung 2 Aggregation in SQL, GROUP BY 3 Probleme mit GROUP BY 4 Der
MehrVorlesung Wissensentdeckung in Datenbanken
Gliederung Vorlesung Wissensentdeckung in Datenbanken Data Cube Katharina Morik, Claus Weihs 14.07.2009 1 Einführung 2 Aggregation in SQL, GROUP BY 3 Probleme mit GROUP BY 4 Der Cube-Operator 5 Implementierung
MehrData Mining auf Datenströmen Andreas M. Weiner
Technische Universität Kaiserslautern Fachbereich Informatik Lehrgebiet Datenverwaltungssysteme Integriertes Seminar Datenbanken und Informationssysteme Sommersemester 2005 Thema: Data Streams Andreas
MehrEinführung relationale Datenbanken. Themenblock: Erstellung eines Cube. Schlüssel. Relationenmodell Relationenname Attribut. Problem.
Themenblock: Erstellung eines Cube Einführung relationale Datenbanken Problem Verwaltung großer Mengen von Daten Praktikum: Data Warehousing und Data Mining Idee Speicherung der Daten in Form von Tabellen
MehrINTELLIGENTE DATENANALYSE IN MATLAB. Unüberwachtes Lernen: Clustern von Attributen
INTELLIGENTE DATENANALYSE IN MATLAB Unüberwachtes Lernen: Clustern von Attributen Literatur J. Han, M. Kamber: Data Mining Concepts and Techniques. J. Han et. al: Mining Frequent Patterns without Candidate
MehrThemenblock: Erstellung eines Cube
Themenblock: Erstellung eines Cube Praktikum: Data Warehousing und Data Mining Einführung relationale Datenbanken Problem Verwaltung großer Mengen von Daten Idee Speicherung der Daten in Form von Tabellen
MehrJens Schmidt Senior Member Technical Staff
Jens Schmidt Senior Member Technical Staff Oracle 9i Data Mining Connector 1.1 für mysap BW Agenda Data Mining Grundlagen Der Data Mining Prozess Oracle Data Mining Integration mit mysap BW Agenda Data
MehrData Cube. 1. Einführung. 2. Aggregation in SQL, GROUP BY. 3. Probleme mit GROUP BY. 4. Der Cube-Operator. 5. Implementierung des Data Cube
Data Cube 1. Einführung 2. Aggregation in SQL, GROUP BY 3. Probleme mit GROUP BY 4. Der Cube-Operator 5. Implementierung des Data Cube 6. Zusammenfassung und Ausblick Dank an Hanna Köpcke! 1 On-line Analytical
MehrAnwendungen des Data Mining in der Praxis. Seminarvortrag von Holger Dürr
Anwendungen des Data Mining in der Praxis Seminarvortrag von Holger Dürr Seminar Data Mining Wintersemester 2003/20042004 Professor Dr. Schweigert - Universität Ulm Themenübersicht Data Mining - Kleine
MehrDatenbanken Unit 9: OLAP, OLTP, Data Warehouse Ranking Algorithmen
Datenbanken Unit 9: OLAP, OLTP, Data Warehouse Ranking Algorithmen 28. V. 2018 Outline 1 Organisatorisches 2 OLTP, OLAP, SAP, and Data Warehouse OLTP and OLAP SAP 3 Ranking 4 SQL Organisatorisches Ergebnisse
MehrData Warehousing. Fragen des Marketingleiters. Beispiel: : Amazon. Technisch... Amazon weltweit... Datenbank. Aufbau eines DWH OLAP <-> OLTP Datacube
Fragen des Marketingleiters Data Warehousing Wie viele Bestellungen haben wir jeweils im Monat vor Weihnachten, aufgeschlüsselt nach? Aufbau eines DWH OLAP OLTP Datacube Beispiel: : Amazon Technisch
MehrDatenbanken. Schemaerweiterung zur Abbildung von Imperfekten Daten. Andreas Merkel
Seminar Impferfektion und Datenbanken Schemaerweiterung zur Abbildung von Imperfekten Daten Andreas Merkel Inhalt Einführung - Eigenschaften des relationalen Modells - Erweiterungsmöglichkeiten Zwei unterschiedliche
Mehr5 Data Warehouses und Data Mining
5 Data Warehouses und Data Mining Mittels OLAP Techniken können große Datenmengen unterschiedlich stark verdichtet und gezielt aufbereitet werden. Mittels Data Mining können große Datenmengen nach bisher
MehrÜbung zur Einführung in die Wirtschaftsinformatik Cognos Powerplay als Beispiel für ein DSS
Übung zur Einführung in die Wirtschaftsinformatik 2006-05 - 10 Cognos Powerplay als Beispiel für ein DSS 1 Entscheidungsunterstützungssysteme (EUS) Decision Support Systems (DSS) EUS sollen das gemeinsame
MehrCase-Based Reasoning und anderen Inferenzmechanismen
Case-Based Reasoning und anderen Inferenzmechanismen Daniel Müller 21 April 2006 DM () CBR und Inferenz 21 April 2006 1 / 31 Contents 1 Einleitung 2 Inferenzmechanismen Statistische Verfahren Data Mining
MehrSAP Business Intelligence
SAP Business Intelligence Helmut Roos Diplom-Ingenieur Unternehmensberater Grundlagen zu Netweaver 7.0 D-67067 Ludwigshafen +49 (621) 5 29 44 65 Data Acquisition Common Read / Write Interface Open Interface
MehrVorlesung Wissensentdeckung in Datenbanken
Vorlesung Wissensentdeckung in Datenbanken Data Cube Katharina Morik, Claus Weihs 21.04.2015 1 von 40 Gliederung 1 Einführung 2 Aggregation in SQL, GROUP BY 3 Probleme mit GROUP BY 4 Der Cube-Operator
Mehr6.2 Datenmodellierung
Umsetzung des multidimensionalen Modells Interne Verwaltung der Daten durch - Relationale Strukturen (Tabellen) Relationales OLAP (ROLAP) Vorteile: Verfügbarkeit, Reife der Systeme - Multidimensionale
MehrVorlesung Wissensentdeckung in Datenbanken
Vorlesung Wissensentdeckung in Datenbanken Data Cube Kristian Kersting, (Katharina Morik), Claus Weihs Informatik LS 8 Computergestützte Statistik Technische Universität Dortmund 15.04.2014 1 von 43 Was
Mehrfuzzy-entscheidungsbäume
fuzzy-entscheidungsbäume klassische Entscheidungsbaumverfahren fuzzy Entscheidungsbaumverfahren Entscheidungsbäume Was ist ein guter Mietwagen für einen Familienurlaub auf Kreta? 27. März 23 Sebastian
MehrInformationssysteme. Prof. Dr. Hans Czap. Lehrstuhl für Wirtschaftsinformatik I. Lehrstuhl für Wirtschaftsinformatik I - II - 1 -
Vorlesung Grundlagen betrieblicher Informationssysteme Prof. Dr. Hans Czap Email: Hans.Czap@uni-trier.de - II - 1 - Inhalt Kap. 1 Ziele der Datenbanktheorie Kap. 2 Datenmodellierung und Datenbankentwurf
MehrBetriebliche Anwendungen
Betriebliche nwendungen SP R/3: Enterprise Resource Modelling (ERP-System) OLTP Data Warehouse Data Mining WN (Internet) LN Kapitel 17 1 Relationales DBMS als Backend-Server (Oracle, Informix, DB2, MS
MehrData Warehouse. Kapitel 17. Abbildung 17.1: Zusammenspiel zwischen OLTP und OLAP. Man unterscheidet zwei Arten von Datenbankanwendungen:
Kapitel 17 Data Warehouse OLTP Online Transaction Processing OLAP Online Analytical Processing Decision Support-Anfragen Data Mining opera- tionale DB opera- tionale DB opera- tionale DB Data Warehouse
Mehr1 Business-Intelligence-Architektur 1
D3kjd3Di38lk323nnm xi 1 Business-Intelligence-Architektur 1 1.1 Data Warehouse....................................... 1 1.2 OLAP und mehrdimensionale Datenbanken.................. 4 1.3 Architekturvarianten....................................
MehrTeil VIII. Weiterführende Veranstaltungen im FG Wissensverarbeitung
Teil VIII Weiterführende Veranstaltungen im FG Wissensverarbeitung Überblick 1 Zusammenfassung AlgoDS 2 Datenbanken 3 Internet-Suchmaschinen 4 Knowledge Discovery 5 Künstliche Intelligenz 6 Seminare &
MehrDatenbanken Unit 9: OLAP, OLTP und objektrelationale Datenbanken
Datenbanken Unit 9: OLAP, OLTP und objektrelationale Datenbanken 31. V. 2016 Outline 1 Organisatorisches 2 SQL 3 OLTP, OLAP, SAP, and Data Warehouse OLTP and OLAP SAP 4 Objekt-relationale Datenbanken Beispiel
MehrKapitel 6. Vorlesung: PD Dr. Peer Kröger
Kapitel 6 Einführung in Data Warehouses Vorlesung: PD Dr. Peer Kröger Dieses Skript basiert auf den Skripten zur Vorlesung Datenbanksysteme II an der LMU München Dieses Skript basiert auf den Skripten
MehrData Cubes PG Wissensmangement Seminarphase
PG 402 - Wissensmangement Seminarphase 23.10.2001-25.10.2001 Hanna Köpcke Lehrstuhl für Künstliche Intelligenz Universität Dortmund Übersicht 1. Einführung 2. Aggregation in SQL, GROUP BY 3. Probleme mit
MehrInhaltsverzeichnis. 1 Einleitung 1. 2 Aufbau von Data-Warehouse-Systemen 15. Lehner, Wolfgang Datenbanktechnologie für Data-Warehouse-Systeme 2003
1 Einleitung 1 1.1 Betriebswirtschaftlicher Ursprung des Data Warehousing 2 1.2 Statistischer Ursprung des Data Warehousing 5 1.3 Fòderativer Ursprung des Data Warehousing 7 1.4 Definition eines Data-Warehouse-Systems
MehrDatenbanken Grundlagen und Design
Frank Geisler Datenbanken Grundlagen und Design 3., aktualisierte und erweiterte Auflage mitp Vorwort 15 Teil I Grundlagen 19 i Einführung in das Thema Datenbanken 21 i.i Warum ist Datenbankdesign wichtig?
MehrINTELLIGENTE DATENANALYSE IN MATLAB
INTELLIGENTE DATENANALYSE IN MATLAB Datenselektion und Datenaufbereitung Literatur I. H. Witten, E. Frank: Data Mining i Practical Machine Learning Tools and Techniques. J. Han, M. Kamber: Data Mining
MehrOLTP: Online Transaction Processing
Moderne Betriebliche Anwendungen von Datenbanksystemen Online Transaction Processing (bisheriger Fokus) Data Warehouse-Anwendungen Data Mining OLTP: Online Transaction Processing Beispiele Flugbuchungssystem
MehrData Mining und Statistik: Gemeinsamkeiten und Unterschiede. Daniel Meschenmoser
Data Mining und Statistik: Gemeinsamkeiten und Unterschiede Daniel Meschenmoser Übersicht Gemeinsamkeiten von Data Mining und Statistik Unterschiede zwischen Data Mining und Statistik Assoziationsregeln
MehrOLAP und Data Warehouses
OLP und Data Warehouses Überblick Monitoring & dministration Externe Quellen Operative Datenbanken Extraktion Transformation Laden Metadaten- Repository Data Warehouse OLP-Server nalyse Query/Reporting
MehrMotivation. Themenblock: Data Preprocessing. Einsatzgebiete für Data Mining I. Modell von Gianotti und Pedreschi
Motivation Themenblock: Data Preprocessing We are drowning in information, but starving for knowledge! (John Naisbett) Was genau ist Datenanalyse? Praktikum: Data Warehousing und Data Mining Was ist Data
MehrLogische Modelle für OLAP. Burkhard Schäfer
Logische Modelle für OLAP Burkhard Schäfer Übersicht Einführung in OLAP Multidimensionale Daten: Hypercubes Operationen Formale Grundlagen Zusammenfassung Einführung in OLAP Verfahren zur Analyse großer
MehrMathematische Grundlagen III
Mathematische Grundlagen III Maschinelles Lernen III: Clustering Vera Demberg Universität des Saarlandes 7. Juli 202 Vera Demberg (UdS) Mathe III 7. Juli 202 / 35 Clustering vs. Klassifikation In den letzten
MehrDatenbanken in der Bioinformatik
Datenbanken in der Bioinformatik Kapitel 5 Modellierungsalternativen http://dbs.uni-leipzig.de Institut für Informatik Vorläufiges Inhaltsverzeichnis 1. Grundlagen 2. Klassifizierung von BioDB, Überblick
MehrData Mining - Wiederholung
Data Mining - Wiederholung Norbert Fuhr 9. Juni 2008 Problemstellungen Problemstellungen Daten vs. Information Def. Data Mining Arten von strukturellen Beschreibungen Regeln (Klassifikation, Assoziations-)
MehrData Warehousing. Aufbau eines DWH OLAP <-> OLTP Datacube
Data Warehousing Aufbau eines DWH OLAP OLTP Datacube Beispiel: : Amazon 2 Datenbank 3 Fragen des Marketingleiters Wie viele Bestellungen haben wir jeweils im Monat vor Weihnachten, aufgeschlüsselt
MehrData Warehouses und Moderne Betriebliche Anwendungen von Datenbanksystemen
Data Warehouses und Moderne Betriebliche Anwendungen von Datenbanksystemen (Folien von A. Kemper zum Buch 'Datenbanksysteme') Online Transaction Processing Betriebswirtschaftliche Standard- Software (SAP
MehrData Warehousing. Beispiel: : Amazon. Aufbau eines DWH OLAP <-> OLTP Datacube. FU-Berlin, DBS I 2006, Hinze / Scholz
Data Warehousing Aufbau eines DWH OLAP OLTP Datacube Beispiel: : Amazon 2 1 Datenbank 3 Fragen des Marketingleiters Wie viele Bestellungen haben wir jeweils im Monat vor Weihnachten, aufgeschlüsselt
MehrRealisierung von OLAP Operatoren in einem visuellen Analysetool. Vortrag von Alexander Spachmann und Thomas Lindemeier
Realisierung von OLAP Operatoren in einem visuellen Analysetool Vortrag von Alexander Spachmann und Thomas Lindemeier Gliederung Ausgangssituation/Motivation Was ist OLAP? Anwendungen Was sind Operatoren?
MehrLernen von Klassifikationen
Lernen von Klassifikationen Gegeben: Trainingsbeispiele: Paare der Form (x i, f(x i )) Gesucht: Funktion f, die die Trainingsbeispiele klassifiziert. (a): Lernen mit Trainingsdaten (b): Genauigkeitsüberprüfung
MehrDatenbanken Unit 9: OLAP, OLTP und objektrelationale Datenbanken
Datenbanken Unit 9: OLAP, OLTP und objektrelationale Datenbanken 17. V. 2017 Outline 1 Organisatorisches 2 SQL 3 OLTP, OLAP, SAP, and Data Warehouse OLTP and OLAP SAP 4 Objekt-relationale Datenbanken Beispiel
MehrData Mining Standards am Beispiel von PMML. Data Mining Standards am Beispiel von PMML
Data Mining Standards am Beispiel von PMML Allgemeine Definitionen im Data Mining Data Mining (DM) Ein Prozess, um interessante neue Muster, Korrelationen und Trends in großen Datenbeständen zu entdecken,
MehrData Mining Cup deck using PDA or similar devices. Wissensextraktion Multimedia Engineering
Data Mining Cup 2012 Wissensextraktion Multimedia Engineering deck using PDA or similar devices Fakultät für Ingenieurwissenschaften Jevgenij Jakunschin Christian Mewes www.hs-wismar.de 2 Gliederung 1.
MehrInhaltsverzeichnis. 1 Einleitung Motivation und Umfeld Zielsetzung der Arbeit Methodisches Vorgehen und Aufbau der Arbeit 3
Inhaltsverzeichnis 1 Einleitung 1 1.1 Motivation und Umfeld 1 1.2 Zielsetzung der Arbeit 2 1.3 Methodisches Vorgehen und Aufbau der Arbeit 3 2 Grundlagen des Feuerwehrwesens 5 2.1 Kategorisierung der Feuerwehren
MehrModerne Methoden der KI: Maschinelles Lernen
Moderne Methoden der KI: Maschinelles Lernen Prof. Dr.Hans-Dieter Burkhard Vorlesung Sommer-Semester 2008 Konzept-Lernen Konzept-Lernen Lernen als Suche Inductive Bias Konzept-Lernen: Problemstellung Ausgangspunkt:
MehrWissensentdeckung in Datenbanken
Wissensentdeckung in Datenbanken SQL, Häufige Mengen Nico Piatkowski und Uwe Ligges 11.05.2017 1 von 16 Überblick Was bisher geschah... Modellklassen Verlustfunktionen Numerische Optimierung Regularisierung
MehrApriori-Algorithmus zur Entdeckung von Assoziationsregeln
Apriori-Algorithmus zur Entdeckung von PG 42 Wissensmanagment Lehrstuhl für Künstliche Intelligenz 22. Oktober 21 Gliederung Motivation Formale Problemdarstellung Apriori-Algorithmus Beispiel Varianten
MehrVerwandt, logisch kohärent, zweckspezifisch, an reale Welt orientiert. Entität kann in einer oder mehreren Unterklassen sein
1 Definitionen 1.1 Datenbank Verwandt, logisch kohärent, zweckspezifisch, an reale Welt orientiert Integriert, selbstbeschreibend, verwandt 1.2 Intension/Extension Intension: Menge der Attribute Extension:
MehrINTELLIGENTE DATENANALYSE IN MATLAB
INTELLIGENTE DATENANALYSE IN MATLAB Lernen von Assoziationsregeln Literatur J. Han, M. Kamber: Data Mining i Concepts and Techniques. J. Han et. al: Mining i Frequent Patterns without t Candidate Generation.
MehrUnterstützung der Unternehmenssteuerung durch Data Warehouses mit ganzheitlicher Sicht auf Daten aus operativen Systemen
Rückblick Unterstützung der Unternehmenssteuerung durch Data arehouses mit ganzheitlicher Sicht auf Daten aus operativen Systemen Online Transaction Processing (OLTP) und Online Analytical Processing unterscheiden
MehrUnterstützung der Unternehmenssteuerung durch Data Warehouses mit ganzheitlicher Sicht auf Daten aus operativen Systemen
Rückblick Unterstützung der Unternehmenssteuerung durch Data arehouses mit ganzheitlicher Sicht auf Daten aus operativen Systemen Online Transaction Processing (OLTP) und Online Analytical Processing unterscheiden
MehrData Warehouse. Kapitel 16. Abbildung 16.1: Zusammenspiel zwischen OLTP und OLAP. Man unterscheidet zwei Arten von Datenbankanwendungen:
Kapitel 16 Data Warehouse OLTP Online Transaction Processing OLAP Online Analytical Processing Decision Support-Anfragen Data Mining operationale DB operationale DB operationale DB Data Warehouse operationale
MehrBusiness Intelligence & Reporting. Michael Cordes Holger Oehring Matthias Rein
Business Intelligence & Reporting Michael Cordes Holger Oehring Matthias Rein Ziele Einführung Business Intelligence / Front Room Online Analytical Processing (OLAP) Arten des Reporting & Nutzergruppen
MehrVorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke
Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,
MehrAnfragesprachen für On-Line Analytical Processing (OLAP)
Anfragesprachen für On-Line Analytical Processing (OLAP) Seminar Business Intelligence Teil I: OLAP & Data Warehousing René Rondot rondot@informatik.uni-kl.de Universität Kaiserslautern Anfragesprachen
MehrData Warehouse. Kapitel 17. Abbildung 17.1: Zusammenspiel zwischen OLTP und OLAP. Man unterscheidet zwei Arten von Datenbankanwendungen:
Kapitel 17 Data Warehouse OLTP Online Transaction Processing OLAP Online Analytical Processing Decision Support-Anfragen Data Mining opera- tionale DB opera- tionale DB opera- tionale DB Data Warehouse
MehrFortgeschrittene OLAP Analysemodelle
Fortgeschrittene OLAP Analysemodelle Jens Kübler Imperfektion und erweiterte Konzepte im Data Warehousing 2 Grundlagen - Datenanalyse Systemmodell Datenmodell Eingaben System Schätzer Datentypen Datenoperationen
MehrAnalytic Views: Einsatzgebiete im Data Warehouse
Analytic Views: Einsatzgebiete im Data Warehouse Dani Schnider Trivadis AG Zürich/Glattbrugg, Schweiz Einleitung Analytic Views sind eine der wesentlichen Erweiterungen in Oracle 12c Release 2. Durch zusätzliche
MehrNachtrag: Farben. Farbblindheit. (Light und Bartlein 2004)
Nachtrag: Farben Farbblindheit (Light und Bartlein 2004) 1 Vorgeschlagene Farbskalen (Light and Bartlein 2004) Farbkodierung metrisch skalierter Daten Unterscheide: 1. Sequential Data (ohne Betonung der
MehrDatenbankentwicklung
Datenbankentwicklung Berechnung und Präsentation von Daten Organisation der Daten in alleinstehende Tabellen Exklusiver Zugriff auf alle Informationen einer Tabelle Beschränkte Anzahl von Daten pro Tabellenblatt
MehrDIMEX Data Import/Export
DIMEX Data Import/Export PROCOS Professional Controlling Systems AG Gewerbeweg 15 FL- 9490 Vaduz PROCOS Professional Controlling Systems AG Inhaltsverzeichnis 1 ALLGEMEIN...3 2 GRUNDLEGENDE FUNKTIONEN...4
MehrÜbersicht. A. Hinneburg, Web Data Mining MLU Halle-Wittenberg, SS 2007
Übersicht Grundlagen für Assoziationsregeln Apriori Algorithmus Verschiedene Datenformate Finden von Assoziationsregeln mit mehren unteren Schranken für Unterstützung Finden von Assoziationsregeln für
MehrBetriebliche Anwendungen
Betriebliche Anwendungen SAP R/3: Enterprise Resource Modelling (ERP-System) OLTP Data Warehouse Data Mining WAN (Internet) LAN Kapitel 7 Relationales DBMS als Backend-Server (Oracle, Informix, DB2, MS
MehrData Mining und Maschinelles Lernen Lösungsvorschlag für das 12. Übungsblatt
Data Mining und Maschinelles Lernen Lösungsvorschlag für das 12. Übungsblatt Knowledge Engineering Group Data Mining und Maschinelles Lernen Lösungsvorschlag 12. Übungsblatt 1 Aufgabe 1: Apriori (1) Gegeben
MehrKapitel 7 Grundlagen von Data
LUDWIG- MAXIMILIANS- UNIVERSITY MUNICH DEPARTMENT INSTITUTE FOR INFORMATICS DATABASE Skript zur Vorlesung: Datenbanksysteme II Sommersemester 2014 Kapitel 7 Grundlagen von Data Warehouses Vorlesung: PD
MehrKnowledge Discovery In Databases. Data Mining - Der moderne Goldrausch?
Oberseminar Data Mining 07. April 2010 Methodik des Data Mining Knowledge Discovery In Databases oder auch Data Mining - Der moderne Goldrausch? Data Mining...? Hochleistungsrechnen Geoinformationssysteme
MehrUniversität Leipzig Institut für Informatik Auffinden von Dubletten in ECommerce Datenbeständen
Universität Leipzig Institut für Informatik Auffinden von Dubletten in ECommerce Datenbeständen Hanna Köpcke AG 3: Objekt Matching Agenda Problemstellung FEVER-System - Manuell definierte Match-Strategien
MehrBusiness Intelligence. Business Intelligence Seminar, WS 2007/08
Business Intelligence Seminar, WS 2007/08 Prof. Dr. Knut Hinkelmann Fachhochschule Nordwestschweiz knut.hinkelmann@fhnw.ch Business Intelligence Entscheidungsorientierte Sammlung, Aufbereitung und Darstellung
MehrVertrautmachen mit Daten
Kapitel III Vertrautmachen mit Daten 2004 AIFB / FZI 1 III Vertrautmachen mit Daten (see also Data Preparation ) 2004 AIFB / FZI 2 III Vertrautmachen mit Daten III.1 OLAP III.1.1 Einführung in OLAP Wie
Mehr2. Microsoft Innovationstag Nord Integrierte Lösungen in der Öffentlichen Verwaltung
2. Microsoft Innovationstag Nord Integrierte Lösungen in der Öffentlichen Verwaltung Reporting, Analyse und Data Mining André Henkel, initions AG 22. und 23. Oktober 2013 in Hamburg
MehrVergleich von SVM und Regel- und Entscheidungsbaum-Lernern
Vergleich von SVM und Regel- und Entscheidungsbaum-Lernern Chahine Abid Bachelor Arbeit Betreuer: Prof. Johannes Fürnkranz Frederik Janssen 28. November 2013 Fachbereich Informatik Fachgebiet Knowledge
MehrKomponenten und Architekturen von Analytischen Informationssystemen (AIS)
Komponenten und Architekturen von Analytischen Informationssystemen (AIS) Melanie Pfoh Konsultation 27. Juni 2013 Hinweis Diese Folien ersetzen keinesfalls den Übungsstoff des zugehörigen e-learning-kurses.
MehrKapitel 5: Vom relationalen zum multidimensionalen Datenmodell
Kapitel 5: Vom relationalen zum multidimensionalen Datenmodell Data Warehousing und Mining 1 Data Warehousing, Gliederung Dimensionen und Measures Schematypen für Data Warehousing GroupBy und Data Cubes
MehrKapitel 5: Vom relationalen zum multidimensionalen Datenmodell
Data Warehousing, Gliederung Kapitel 5: Vom relationalen zum multidimensionalen Datenmodell Dimensionen und Measures Schematypen für Data Warehousing GroupBy und Data Cubes Operatoren für den Data Cube
MehrD1: Relationale Datenstrukturen (14)
D1: Relationale Datenstrukturen (14) Die Schüler entwickeln ein Verständnis dafür, dass zum Verwalten größerer Datenmengen die bisherigen Werkzeuge nicht ausreichen. Dabei erlernen sie die Grundbegriffe
MehrDOAG BI Data-Mining in sozialen Online-Netzwerken
DOAG BI 2013 Data-Mining in sozialen Online-Netzwerken Bianca Vornamen Böckelmann, Name, 17. dd.mm.yyyy April 2013 Agenda Über Robotron Motivation Knowledge Discovery in Databases (KDD)-Prozess Oracle
MehrChristian Kurze BI-Praktikum IBM WS 2008/09
Einführung in die multidimensionale Datenmodellierung e mit ADAPT BI-Praktikum IBM WS 2008/09 1 Gliederung Einführung multidimensionale Datenmodellierung 1. Multidimensionales Modell BI-Praktikum IBM WS
Mehr