Machine Learning: Der KDD-Prozess

Save this PDF as:
 WORD  PNG  TXT  JPG

Größe: px
Ab Seite anzeigen:

Download "Machine Learning: Der KDD-Prozess"

Transkript

1 : Der KDD-Prozess

2 Data-Mining Aufgaben Aufgabe Wissensextraktion durch automatisches Erkennen von Mustern in Daten Keine spezifische Hypothese darüber, welche Muster vorliegen sollten Gesucht werden Muster, die in Bezug auf das Domänenwissen interpretierbar sind Von Daten zum Wissen We are drowing in information, but starving for knowledge John Naisbett Randbedingungen Sehr große Datenbanken mit vielen Fehlern: Bioinformatik Viele Muster und Trends, bleiben unentdeckt: Marktanalyse

3 Definitionsversuch Automatische Extraktion Verwendet Methoden der Statistik und andere Verfahren Versteckte Information Erst das Verständnis von Zusammenhängen ermöglicht Entscheidungen Prädiktive Information Prospektive statt retrospektive Analyse,,Data Mining is the automated extraction of hidden predictive information from (large) databases Thearling, Introduction to Data Mining

4 Data Mining Data Mining Historie Ursprünglich ein Ausdruck, den Statistiker für das Überinterpretieren von Daten zu falschen Schlussfolgerungen verwendet haben. Heute verwendet mit der Bedeutung Entdecken von sinnvollen Datenmengen

5 Data Mining Data Mining Historie Ursprünglich ein Ausdruck, den Statistiker für das Überinterpretieren von Daten zu falschen Schlussfolgerungen verwendet haben. Heute verwendet mit der Bedeutung Entdecken von sinnvollen Datenmengen Der Parapsychologe David Rhine untersuchte extrasensorische Wahrnehmung (ESP) Studenten sollten 10 Karten raten. 1/1000 der Studenten riet alle richtig. Beim erneuten Testen waren diese nicht besser als der Durchschnitt Schlussfolgerung: telling people to have ESP causes them to lose it!

6

7 Knowledge Discovery Fayyad (1996)

8 Beispiel-Anwendungen Marktanalyse Welcher Kunde kauft was? Welchen Kunden direkt ansprechen? Betrugsentdeckung Wird die Kreditkarte missbräuchlich verwendet? Weist die Stromrechnung auf Manipulation hin? Bioinformatik Gibt es Hinweise auf die Qualität der Daten? Abgrenzung data warehousing ad hoc reporting Datenvisualisierung Software-Agenten

9 Individualisierte Start-Seiten

10 Individualisierte Start-Seiten

11 1. 1 Motivation riesige Datenmengen werden automatisch gesammelt Bei welchen Telefonkunden besteht der Verdacht eines Betrugs? Zu welcher Klasse gehört dieser Stern? Welche Assoziationen bestehen zwischen den in einem Supermarkt gekauften Waren? solche Analysen lassen sich nicht mehr manuell durchführen

12 1.1 Definition KDD [Fayyad, Piatetsky-Shapiro & Smyth 96] (KDD) ist der Prozess der (semi-) automatischen Extraktion von Wissen aus Datenbanken, das gültig bisher unbekannt und potentiell nützlich ist. Bemerkungen (semi)-automatisch: im Unterschied zu manueller Analyse. Häufig ist trotzdem Interaktion mit dem Benutzer nötig. gültig: im statistischen Sinn. bisher unbekannt: bisher nicht explizit, kein Allgemeinwissen. potentiell nützlich: für eine gegebene Anwendung.

13 1.1 Abgrenzung KDD Statistik modellbasierte Inferenzen Schwerpunkt auf numerischen Daten [Berthold & Hand 1999] Maschinelles Lernen Suchverfahren Schwerpunkt auf symbolischen Daten [Mitchell 1997] Datenbanksysteme Skalierbarkeit für große Datenmengen neue Datentypen (z.b. Webdaten) Integration mit kommerziellen Datenbanksystemen [Chen, Han & Yu 1996]

14 1.1 KDD-Prozeß Prozessmodell nach Han Task-relevant Data Data Mining Knowledge Pattern Evaluation Data Warehouse Data Cleaning Databases Selection Data Integration Fokussieren Vorverarbeitung Transformation Data Mining Evaluation Datenbank Muster Wissen

15 1.1 Fokussieren Verständnis der gegebenen Anwendung z.b. Tarifgestaltung in der Telekommmunikations-Branche Definition des Ziels des KDD z.b. Segmentation der Kunden Beschaffung der Daten z.b. aus operationaler DB zur Abrechnung Klärung der Verwaltung der Daten File System oder DBS? Bsp.-Anwendung Selektion der relevanten Daten z.b ausgewählte Kunden mit allen Anrufen in 2011

16 1.1 Vorverarbeitung Integration von Daten aus unterschiedlichen Quellen einfache Übersetzungen von Attributnamen (z.b. KNr --> KundenSchl) Nutzen von Anwendungswissen um ähnliche Daten zusammenzufassen (z.b. regionale Zuordnung von Postleitzahlen) Konsistenzprüfung Test anwendungsspezifischer Konsistenzbedingungen Bereinigung von Inkonsistenzen Vervollständigung Ersetzen von unbekannten Attributwerten durch Defaults Verteilung der Attributwerte soll i.a. erhalten bleiben! Vorverarbeitung ist häufig einer der aufwendigsten KDD-Schritte

17 1.1 Vorverarbeitung Data Warehouse [Chaudhuri & Dayal 1997] dauerhafte integrierte Sammlung von Daten aus unterschiedlichen Quellen zum Zweck der Analyse bzw. Entscheidungsunterstützung Operationelle DB Data Warehouse Report Generator Integrieren Laden Aktualisieren Bedient OLAP Data Mining

18 1.1 Transformation Diskretisierung numerischer Attribute unabhängig von der Data-Mining-Aufgabe z.b. Aufteilung des Wertebereichs in Intervalle gleicher Länge abhängig von der Data-Mining-Aufgabe z.b. Aufteilung in Intervalle so, daß der Informationsgewinn in Bezug auf die Klassenzugehörigkeit maximiert wird Erzeugen abgeleiteter Attribute durch Aggregation über Mengen von Datensätzen z.b. von einzelnen Anrufen zu Gesprächsminuten tagsüber, Wochentag, Stadtgespräch durch Verknüpfung mehrerer Attribute z.b. Umsatzänderung = Umsatz Umsatz 2009

19 1.1 Transformation Attribut-Selektion manuell wenn Anwendungswissen über die Bedeutung der Attribute und über die gegebene Data-Mining-Aufgabe bekannt ist automatisch Bottom-Up (ausgehend von der leeren Menge jeweils ein Attribut hinzufügen) Top-Down (ausgehend von der Gesamtmenge der Attribute jeweils ein Attribut entfernen) z.b. so, dass die Diskriminierung der Klassen optimiert wird zu viele Attribute führen zu Ineffizienz und evtl. Ineffektivität des Data Mining. manche Transformationen können durch OLAP-Systeme realisiert werden.

20 1.1 Data Mining Definition [Fayyad, Piatetsky-Shapiro, Smyth 96] Data Mining ist die Anwendung effizienter Algorithmen, die die in einer Datenbank enthaltenen Muster liefern. Data-Mining-Aufgaben Clustering a a a a b b b a b b Klassifikation b a A und B --> C Assoziationsregeln Generalisierung andere Aufgaben: Regression, Entdecken von Ausreißern...

21 1.1 Data Mining Anwendungen Clustering Customer Segmentation, Klassifikation Bewertung der Kreditwürdigkeit Beobachtungen Assoziationsregeln, Reorganisation eines Supermarkts Generalisierung Beschreibung von Clustern, Kundengruppenanalyse

22 1.1 Evaluation Ablauf Präsentation der gefundenen Muster häufig durch entsprechende Visualisierungen. Bewertung der Muster durch den Benutzer. Bei schlechter Bewertung erneutes Data Mining mit: anderen Parametern, anderem Verfahren, anderen Daten. Bei guter Bewertung: Integration des gefundenen Wissens in die Wissensbasis, Nutzung des neuen Wissens für zukünftige KDD-Prozesse.

23 1.1 Evaluation Bewertung der gefundenen Muster Vorhersagekraft der Muster Verwendete Daten sind Stichprobe aus der Grundgesamtheit aller Daten. Wie gut lassen sich die in diesen Trainingsdaten gefundenen Muster auf zukünftige Daten verallgemeinern? Vorhersagekraft wächst mit Größe und Repräsentativität der Stichprobe. Interessantheit der Muster Muster schon bekannt? Muster überraschend? Muster für viele Fälle anwendbar?

24 Knowledge Discovery Fayyad (1996)

25 Knowledge Discovery

26 Knowledge Discovery

27 1.2 Datenschutz Große Gefahren des Missbrauchs der Data-Mining-Techniken, insbesondere dann, wenn persönliche Daten ohne Kenntnis der betreffenden Person gesammelt und analysiert werden Datenschutz (privacy) muss im Kontext des KDD neu diskutiert werden! Beispiel Amazon.de: e=utf8&nodeid= sammelt persönliche Daten... when you search, buy, bid, post, participate in a contest or questionnaire, or communicate with customer service. erlaubt dem Kunden, die persönlichen Daten zu überprüfen und zu korrigieren, behaupten Sie! Wie geht das?

28 Individualisierte Produktsichten

29 Individualisierte Produktsichten

30 Individualisierte Produktsichten

31 Individualisierte Produktsichten

32 Individualisierte Produktsichten

33 Struktur der (Lern)-daten Instanz spezifischer Typ eines Beispiels Etwas, was klassifiziert, assoziiert oder geclustert wird Individuelles, unabhängiges Beispiel des Zielkonzeptes Charakterisiert durch einen vorbestimmten Satz von Attributen Eingabe Instanzen/Datensatz Repräsentation als einfache Relation/flat file Probleme Eher restriktive Form der Eingabe Keine Beziehungen zwischen Objekten Aber: sehr praxisnah, da häufig verwendet

34 Bsp. Familienbaum Johannes M und Käthe F Maika F und Jannes M Ute F Johann M Edda F und Georg M Henriette F Hans M Ubbo Bernd M M

35 Familienbaum als Tabelle Name Gender Parent1 Parent2 Johannes Male?? Käthe Female?? Ute Female Johannes Käthe Johann Male Johannes Käthe Edda Female Johannes Käthe Georg Male Maika Jannes Henriette Female Maika Jannes Hans Male Maika Jannes Ubbo Male Edda Georg Bernd Male Edda Georg

36 Schwester-von Beziehung 1. Person 2. Person Schwest. Johannes Käthe No Johannes Ute No Ute Johann No Ute Johann No Ute Edda Yes Georg Henriette Yes Ubbo Bernd No Bernd Ubbo No 1. Person 2. Person Schwest. Edda Ute Yes Johann Edda Yes Georg Henriette Yes Hans Henriette Yes Johann Ute Yes Ute Edda Yes Alle anderen No Closed-world assumption

37 Vollständige Repräsentation 1. Person 2. Person Schwest. Name Gend. Parent1 Parent2 Name Gend. Parent1 Parent2 Ute Fem Johann. Käthe Edda Fem Johann. Käthe Ja Johann Male Johann. Käthe Edda Fem Johann. Käthe Ja Georg Male Maika Jannes Henrie. Fem Maika Jannes Ja Hans Male Maika Jannes Henrie. Fem Maika Jannes Ja Edda Male Johann. Käthe Ute Fem Johann. Käthe Ja Johann Male Johann. Käthe Ute Fem Johann. Käthe Ja Alle anderen Nein If second person s gender = female and first person s parent = second person s parent then sister-of = Yes

38 Geglättete Datei Glätten auch De-Normalisierung genannt. Einige Relationen werden zusammengefügt, um eine neue Relation zu bilden Möglich ist das mit jedem finiten Satz von finiten Relationen Problem Beziehungen ohne vorher spezifizierte Anzahl von Objekten Bsp.: Konzept der Kernfamilie De-Normalisierung kann nicht erwünschte Regularitäten erzeugen, die die Struktur der Datenbank reflektieren Bsp.: Lieferant sagt die Adresse des Lieferanten voraus

39 Struktur der Attribute Grundprinzip Jede Instanz wird durch eine feste Anzahl von Merkmalen (Attribute) beschrieben Problem 1 Die Anzahl der Attribute kann in der Praxis variieren Lösung: irrelevant value -flag Problem 2 Existenz eines Attributes kann von dem Wert eines anderen Attributes abhängen Typen von Attributen Nominal Ordinal Intervall Verhältnis

40 Nominalskalierte Attribute Wertebereich diskrete Symbole Werte selbst sind nur Namen oder Label Beispiel Attribut Vorhersage der Wetterdaten Werte: Nasskalt, bewölkt, sonnig,... Eigenschaften Keine Relation ist impliziert zwischen nominal Werten (z.b. keine Ordnung) Nur Gleichheitstest können durchgeführt werden

41 Ordinalskalierte Attribute Geordnete Wertemenge Aber: keine Distanzen zwischen den Werten definiert Beispiel: Attribut Temperatur in den Wetterdaten Werte: Heiss > Warm > Kalt Arithmetische Operationen wie Addition bzw. Subtraktion machen keinen Sinn Beispielregel: Temperatur < heiss Sport = Ja Vorsicht Aus den Namen der Attribute läßt sich nicht auf Nominaloder Ordinalskalierung schließen

42 Intervallskalierte Attribute Eigenschaften Intervallmengen sind nicht nur geordnet, sondern auch in bestimmte und gleiche Einheiten aufgeteilt Konsequenz Differenz zwischen Werten macht Sinn Summe oder Produkt macht keinen Sinn!? Null-Wert ist nicht definiert!

43 Rationalskalierte Attribute Verhältnismengen definieren auch den Null-Wert Bsp.: Attribut Distanz Distanz zwischen einem Objekt und sich selbst ist null Eigenschaften Verhältnismengen werden wie rationale Zahlen behandelt Alle mathematischen Operationen sind erlaubt Probleme gibt es einen inhärent definierten Null-Wert? Antwort abhängig von Wissen Fahrenheit kannte z.b. keine untere Grenze für Temperatur

44 Rationalskalierte Attribute Verhältnismengen definieren auch den Null-Wert Bsp.: Attribut Distanz Distanz zwischen einem Objekt und sich selbst ist null (Quelle: 29_de.svg&filetimestamp= )

45 Eingabevorbereitung Problem unterschiedliche Datenquellen (z.b. Verkaufsdaten, Controlling, Kundenkartei...) Datenintegration Tabellen, Konventionen, Zeitintervalle, Datenaggregation, Primärschlüssel, Fehler... Anforderungen Daten müssen zusammen getragen, integriert und gesäubert werden Data Warehouse konsistenter Zugriff WWW: unstrukturiert Externe Daten könnten erforderlich werden Kritisch: Typ und Level der Datenaggregation

46 Missing Values Problem Häufig erkennbar durch out-of-range-einträge unbekannter, nicht aufgenommener, irrelevanter Typ Gründe nicht funktionierendes Equipment, Vergleich unterschiedlicher Datensätze, Messung unmöglich... Eigenschaften Missing value kann selbst auch signifikant sein Bsp.: fehlender Test in einer medizinischen Untersuchung Häufig: missing als zusätzliches Attribut oder NULL value

47 Ungenaue Werte Ursache Daten wurden nicht zum minen aufgenommen Folge Fehler und Auslassungen, die nicht den Zweck der ursprünglich beabsichtigten Auswertung stören Beispiel Schlechte Qualitätssicherung bei der Erfassung des Alters der Kunden später aber Bedarf für Markanalyse Nominalattribute Typographische Fehler Wichtig, weil Stringvergleich Intervallattribute Typographische und Messfehler in numerischen Attributen Ausrutscher müssen identifiziert werden Fehler könnten bewusst eingebracht werden (z.b. falsche PLZ)

Knowledge Discovery in Databases

Knowledge Discovery in Databases Knowledge Discovery in Databases Organisatorisches Prof. Gerd Stumme Dipl.-Math. Robert Jäschke FG Wissensverarbeitung Präsenzübung bedeutet selbständiges Bearbeiten des Übungsblattes in Kleingruppen à

Mehr

Knowledge Discovery in Databases

Knowledge Discovery in Databases Knowledge Discovery in Databases Organisatorisches Dr. Andreas Hotho Prof. Gerd Stumme Dipl.-Math. Robert Jäschke FG Wissensverarbeitung Vorlesung Beginn: 22. Oktober 2008 Mittwoch, 10.15 11.45 Uhr in

Mehr

Knowledge Discovery in Databases

Knowledge Discovery in Databases Knowledge Discovery in Databases Dr. Andreas Hotho Prof. Gerd Stumme Dipl.-Math. Robert Jäschke FG Wissensverarbeitung 1 http://www.lkw-stefan.de/galerie/tagebau/tagebau.htm Organisatorisches Vorlesung

Mehr

Seminar Business Intelligence Teil II. Data Mining & Knowledge Discovery

Seminar Business Intelligence Teil II. Data Mining & Knowledge Discovery Seminar Business Intelligence Teil II Data Mining & Knowledge Discovery Was ist Data Mining? Sabine Queckbörner Was ist Data Mining? Data Mining Was ist Data Mining? Nach welchen Mustern wird gesucht?

Mehr

Knowledge Discovery in Databases Dr. Andreas Hotho FG Wissensverarbeitung FB Mathematik/Informatik

Knowledge Discovery in Databases Dr. Andreas Hotho FG Wissensverarbeitung FB Mathematik/Informatik Knowledge Discovery in Databases Dr. Andreas Hotho FG Wissensverarbeitung FB Mathematik/Informatik 1 Organisatorisches Vorlesung Beginn: 13. April 2005 Mittwoch, 14.15 15.45 Uhr in Raum 0443 Übungen Dienstag,

Mehr

Knowledge Discovery in Databases

Knowledge Discovery in Databases Knowledge Discovery in Databases Organisatorisches Dr. Andreas Hotho FG Wissensverarbeitung FB Mathematik/Informatik Vorlesung Beginn: 13. April 2005 Mittwoch, 14.15 15.45 Uhr in Raum 0443 Übungen Dienstag,

Mehr

Data Mining als Arbeitsprozess

Data Mining als Arbeitsprozess Data Mining als Arbeitsprozess Hagen Knaf Studiengang Angewandte Mathematik Hochschule RheinMain 31. Dezember 2015 In Unternehmen werden umfangreichere Aktivitäten oder Projekte im Bereich des Data Mining

Mehr

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining.

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining. Personalisierung Personalisierung Thomas Mandl Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung Klassifikation Die Nutzer werden in vorab bestimmte Klassen/Nutzerprofilen

Mehr

Data Mining Anwendungen und Techniken

Data Mining Anwendungen und Techniken Data Mining Anwendungen und Techniken Knut Hinkelmann DFKI GmbH Entdecken von Wissen in banken Wissen Unternehmen sammeln ungeheure mengen enthalten wettbewerbsrelevantes Wissen Ziel: Entdecken dieses

Mehr

Motivation. Themenblock: Data Preprocessing. Einsatzgebiete für Data Mining I. Modell von Gianotti und Pedreschi

Motivation. Themenblock: Data Preprocessing. Einsatzgebiete für Data Mining I. Modell von Gianotti und Pedreschi Motivation Themenblock: Data Preprocessing We are drowning in information, but starving for knowledge! (John Naisbett) Was genau ist Datenanalyse? Praktikum: Data Warehousing und Data Mining Was ist Data

Mehr

6 Vorverarbeitung. Kapitel 6 Vorverarbeitung. Einführung der Vorverarbeitung. Einführung in die Vorverarbeitung

6 Vorverarbeitung. Kapitel 6 Vorverarbeitung. Einführung der Vorverarbeitung. Einführung in die Vorverarbeitung 6 Vorverarbeitung 6.1 Einführung in die Vorverarbeitung Zweck der Vorverarbeitung Kapitel 6 Vorverarbeitung Transformiere die Daten so, dass sie optimal vom Miner verarbeitet werden können. Problem: -

Mehr

Data Mining Standards am Beispiel von PMML. Data Mining Standards am Beispiel von PMML

Data Mining Standards am Beispiel von PMML. Data Mining Standards am Beispiel von PMML Data Mining Standards am Beispiel von PMML Allgemeine Definitionen im Data Mining Data Mining (DM) Ein Prozess, um interessante neue Muster, Korrelationen und Trends in großen Datenbeständen zu entdecken,

Mehr

Data Mining-Modelle und -Algorithmen

Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining ist ein Prozess, bei dem mehrere Komponenten i n- teragieren. Sie greifen auf Datenquellen, um diese zum Training,

Mehr

Data Warehouse Definition (1) http://de.wikipedia.org/wiki/data-warehouse

Data Warehouse Definition (1) http://de.wikipedia.org/wiki/data-warehouse Data Warehouse Definition (1) http://de.wikipedia.org/wiki/data-warehouse Ein Data-Warehouse bzw. Datenlager ist eine zentrale Datensammlung (meist eine Datenbank), deren Inhalt sich aus Daten unterschiedlicher

Mehr

Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens

Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 17.04.2015 Entscheidungsprobleme beim Textmining

Mehr

Data Mining-Projekte

Data Mining-Projekte Data Mining-Projekte Data Mining-Projekte Data Mining stellt normalerweise kein ei nmaliges Projekt dar, welches Erkenntnisse liefert, die dann nur einmal verwendet werden, sondern es soll gewöhnlich ein

Mehr

WEKA A Machine Learning Interface for Data Mining

WEKA A Machine Learning Interface for Data Mining WEKA A Machine Learning Interface for Data Mining Frank Eibe, Mark Hall, Geoffrey Holmes, Richard Kirkby, Bernhard Pfahringer, Ian H. Witten Reinhard Klaus Losse Künstliche Intelligenz II WS 2009/2010

Mehr

Kapitel 4: Data Mining

Kapitel 4: Data Mining LUDWIG- MAXIMILIANS- UNIVERSITY MUNICH DEPARTMENT INSTITUTE FOR INFORMATICS Skript zur Vorlesung: Einführung in die Informatik: Systeme und Anwendungen Sommersemester 2017 Kapitel 4: Data Mining Vorlesung:

Mehr

Data Mining - Marketing-Schlagwort oder ernstzunehmende Innovation?

Data Mining - Marketing-Schlagwort oder ernstzunehmende Innovation? 1. Konferenz der A Benutzer KFE in Forschung und Entwicklung Data Mining - Marketing-chlagwort oder ernstzunehmende Innovation? Hans-Peter Höschel,, Heidelberg 1. Konferenz der A Benutzer KFE in Forschung

Mehr

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002)

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002) 3. Entscheidungsbäume Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002) (aus Wilhelm 2001) Beispiel: (aus Böhm 2003) Wann sind Entscheidungsbäume

Mehr

Ermittlung von Assoziationsregeln aus großen Datenmengen. Zielsetzung

Ermittlung von Assoziationsregeln aus großen Datenmengen. Zielsetzung Ermittlung von Assoziationsregeln aus großen Datenmengen Zielsetzung Entscheidungsträger verwenden heutzutage immer häufiger moderne Technologien zur Lösung betriebswirtschaftlicher Problemstellungen.

Mehr

ML-Werkzeuge und ihre Anwendung

ML-Werkzeuge und ihre Anwendung Kleine Einführung: und ihre Anwendung martin.loesch@kit.edu (0721) 608 45944 Motivation Einsatz von maschinellem Lernen erfordert durchdachtes Vorgehen Programmieren grundlegender Verfahren aufwändig fehlerträchtig

Mehr

Data/Information Quality Management

Data/Information Quality Management Data/Information Quality Management Seminar WI/Informationsmanagement im Sommersemester 2002 Markus Berberov, Roman Eder, Peter Gerstbach 11.6.2002 Inhalt! Daten und Datenqualität! Einführung und Definition!

Mehr

Dominik Pretzsch TU Chemnitz 2011

Dominik Pretzsch TU Chemnitz 2011 Dominik Pretzsch TU Chemnitz 2011 Wir leben im Informationszeitalter und merken es daran, dass wir uns vor Information nicht mehr retten können. Nicht der überwältigende Nutzen der Information, sondern

Mehr

Seminar im Sommersemester 2005 DATA WAREHOUSING. Data Mining. Christian Knappe. Fachrichtung Wirtschaftsinformatik Friedrich-Schiller-Universität Jena

Seminar im Sommersemester 2005 DATA WAREHOUSING. Data Mining. Christian Knappe. Fachrichtung Wirtschaftsinformatik Friedrich-Schiller-Universität Jena Seminar im Sommersemester 2005 DATA WAREHOUSING Data Mining Christian Knappe Fachrichtung Wirtschaftsinformatik Friedrich-Schiller-Universität Jena Fakultät für Mathematik und Informatik Lehrstuhl für

Mehr

Datenbanken: Relationales Datenbankmodell RDM

Datenbanken: Relationales Datenbankmodell RDM Das RDM wurde in den 70'er Jahren von Codd entwickelt und ist seit Mitte der 80'er Jahre definierter Standard für Datenbanksysteme! Der Name kommt vom mathematischen Konzept einer Relation: (Sind A, B

Mehr

Data Mining (ehem. Entscheidungsunterstützungssysteme)

Data Mining (ehem. Entscheidungsunterstützungssysteme) Data Mining (ehem. Entscheidungsunterstützungssysteme) Melanie Pfoh Anja Tetzner Christian Schieder Übung WS 2014/15 AGENDA TEIL 1 Aufgabe 1 (Wiederholung OPAL / Vorlesungsinhalte) ENTSCHEIDUNG UND ENTSCHEIDUNGSTHEORIE

Mehr

Wolfgang Konen, FH Köln

Wolfgang Konen, FH Köln Die Daten verstehen Wolfgang onen, FH öln November 2009 adaptiert nach [WittenFrank01], übersetzt von N. Fuhr W. onen DMC WS2009 Seite - 1 informatiöln 2. Schritt aus CRISP: Daten verstehen Deployment

Mehr

Einführung in Datenbanksysteme. H. Wünsch 01.2001

Einführung in Datenbanksysteme. H. Wünsch 01.2001 Einführung in Datenbanksysteme H. Wünsch 01.2001 H. Wünsch 01/2001 Einführung Datenbanken 2 Was sind Datenbanken? Datenbanken sind Systeme zur Beschreibung, Speicherung und Wiedergewinnung von Datenmengen.

Mehr

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining Gliederung 1. Einführung 2. Grundlagen Data Mining Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining 3. Ausgewählte Methoden des Data

Mehr

Web Mining und Farming

Web Mining und Farming Web Mining und Farming Shenwei Song Gliederung Übersicht über Web Mining und Farming Web Mining Klassifikation des Web Mining Wissensbasierte Wrapper-Induktion Web Farming Übersicht über Web-Farming-Systeme

Mehr

Was ist Analyse? Hannover, CeBIT 2014 Patrick Keller

Was ist Analyse? Hannover, CeBIT 2014 Patrick Keller Was ist? Hannover, CeBIT 2014 Patrick Keller Business Application Research Center Historie 1994: Beginn der Untersuchung von Business-Intelligence-Software am Lehrstuhl Wirtschaftsinformatik der Universität

Mehr

Web Information Retrieval. Zwischendiskussion. Überblick. Meta-Suchmaschinen und Fusion (auch Rank Aggregation) Fusion

Web Information Retrieval. Zwischendiskussion. Überblick. Meta-Suchmaschinen und Fusion (auch Rank Aggregation) Fusion Web Information Retrieval Hauptseminar Sommersemester 2003 Thomas Mandl Überblick Mehrsprachigkeit Multimedialität Heterogenität Qualität, semantisch, technisch Struktur Links HTML Struktur Technologische

Mehr

Data Mining mit der SEMMA Methodik. Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG

Data Mining mit der SEMMA Methodik. Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG Data Mining mit der SEMMA Methodik Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG Data Mining Data Mining: Prozeß der Selektion, Exploration und Modellierung großer Datenmengen, um Information

Mehr

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,

Mehr

Kapitel 1: Einleitung

Kapitel 1: Einleitung Ludwig-Maximilians-Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Wintersemester 2008/2009 Kapitel

Mehr

Data Mining und maschinelles Lernen

Data Mining und maschinelles Lernen Data Mining und maschinelles Lernen Einführung und Anwendung mit WEKA Caren Brinckmann 16. August 2000 http://www.coli.uni-sb.de/~cabr/vortraege/ml.pdf http://www.cs.waikato.ac.nz/ml/weka/ Inhalt Einführung:

Mehr

9 Resümee. Resümee 216

9 Resümee. Resümee 216 Resümee 216 9 Resümee In der vorliegenden Arbeit werden verschiedene Methoden der Datenreduktion auf ihre Leistungsfähigkeit im sozialwissenschaftlichstatistischen Umfeld anhand eines konkreten Anwendungsfalls

Mehr

Data Mining und Knowledge Discovery in Databases

Data Mining und Knowledge Discovery in Databases Data Mining und Knowledge Discovery in Databases Begriffsabgrenzungen... Phasen der KDD...3 3 Datenvorverarbeitung...4 3. Datenproblematik...4 3. Möglichkeiten der Datenvorverarbeitung...4 4 Data Mining

Mehr

Analyse von unstrukturierten Daten. Peter Jeitschko, Nikolaus Schemel Oracle Austria

Analyse von unstrukturierten Daten. Peter Jeitschko, Nikolaus Schemel Oracle Austria Analyse von unstrukturierten Daten Peter Jeitschko, Nikolaus Schemel Oracle Austria Evolution von Business Intelligence Manuelle Analyse Berichte Datenbanken (strukturiert) Manuelle Analyse Dashboards

Mehr

Datenbanken 16.1.2008. Die Entwicklung der Datenbanksysteme ist eng an die der Hardware gekoppelt und wird wie jene in Generationen eingeteilt:

Datenbanken 16.1.2008. Die Entwicklung der Datenbanksysteme ist eng an die der Hardware gekoppelt und wird wie jene in Generationen eingeteilt: Datenbanksysteme Entwicklung der Datenbanksysteme Die Entwicklung der Datenbanksysteme ist eng an die der Hardware gekoppelt und wird wie jene in Generationen eingeteilt: 1. Generation: In den fünfziger

Mehr

Fortgeschrittene Statistik Logistische Regression

Fortgeschrittene Statistik Logistische Regression Fortgeschrittene Statistik Logistische Regression O D D S, O D D S - R A T I O, L O G I T T R A N S F O R M A T I O N, I N T E R P R E T A T I O N V O N K O E F F I Z I E N T E N, L O G I S T I S C H E

Mehr

Web Data Mining. Alexander Hinneburg Sommersemester 2007

Web Data Mining. Alexander Hinneburg Sommersemester 2007 Web Data Mining Alexander Hinneburg Sommersemester 2007 Termine Vorlesung Mi. 10:00-11:30 Raum?? Übung Mi. 11:45-13:15 Raum?? Klausuren Mittwoch, 23. Mai Donnerstag, 12. Juli Buch Bing Liu: Web Data Mining

Mehr

Kapitel 1: Einleitung

Kapitel 1: Einleitung Ludwig Maximilians Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Wintersemester 2003/2004 Kapitel

Mehr

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining.

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining. Motivation Themenblock: Klassifikation Praktikum: Data Warehousing und Data Mining Ziel Item hat mehrere Attribute Anhand von n Attributen wird (n+)-tes vorhergesagt. Zusätzliches Attribut erst später

Mehr

Fragenkatalog zur Vorlesung "Grundlagen des Data Mining" (WS 2006/07)

Fragenkatalog zur Vorlesung Grundlagen des Data Mining (WS 2006/07) Fragenkatalog zur Vorlesung "Grundlagen des Data Mining" (WS 2006/07) 1. Grenzen Sie die Begriffe "Daten" und "Wissen" mit je 3 charakteristischen Eigenschaften gegeander ab. 2. Nennen Sie vier verschiedene

Mehr

Einführung in die Fuzzy Logic

Einführung in die Fuzzy Logic Einführung in die Fuzzy Logic Entwickelt von L. Zadeh in den 60er Jahren Benutzt unscharfe (fuzzy) Begriffe und linguistische Variablen Im Gegensatz zur Booleschen Logik {0,} wird das ganze Intervall [0,]

Mehr

Visualisierung der Imperfektion in multidimensionalen Daten

Visualisierung der Imperfektion in multidimensionalen Daten Visualisierung der Imperfektion in multidimensionalen Daten Horst Fortner Imperfektion und erweiterte Konzepte im Data Warehousing Betreuer: Heiko Schepperle 2 Begriffe (1) Visualisierung [Wikipedia] abstrakte

Mehr

Online Analytical Processing

Online Analytical Processing Online Analytical Processing Online Analytical Processing Online Analytical Processing (OLAP) ermöglicht die multidimensionale Betrachtung von Daten zwecks E rmittlung eines entscheidungsunterstützenden

Mehr

Maschinelles Lernen und Data Mining: Methoden und Anwendungen

Maschinelles Lernen und Data Mining: Methoden und Anwendungen Maschinelles Lernen und Data Mining: Methoden und Anwendungen Eyke Hüllermeier Knowledge Engineering & Bioinformatics Fachbereich Mathematik und Informatik GFFT-Jahrestagung, Wesel, 17. Januar 2008 Knowledge

Mehr

Interne und externe Modellvalidität

Interne und externe Modellvalidität Interne und externe Modellvalidität Interne Modellvalidität ist gegeben, o wenn statistische Inferenz bzgl. der untersuchten Grundgesamtheit zulässig ist o KQ-Schätzer der Modellparameter u. Varianzschätzer

Mehr

9. Schätzen und Testen bei unbekannter Varianz

9. Schätzen und Testen bei unbekannter Varianz 9. Schätzen und Testen bei unbekannter Varianz Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Schätzen und Testen bei unbekannter Varianz Wenn wir die Standardabweichung σ nicht kennen,

Mehr

Data Mining mit RapidMiner

Data Mining mit RapidMiner Motivation Data Mining mit RapidMiner CRISP: DM-Prozess besteht aus unterschiedlichen Teilaufgaben Datenvorverarbeitung spielt wichtige Rolle im DM-Prozess Systematische Evaluationen erfordern flexible

Mehr

Dateiorganisation und Zugriffsstrukturen

Dateiorganisation und Zugriffsstrukturen Dateiorganisation und Zugriffsstrukturen Prof. Dr. T. Kudraß 1 Mögliche Dateiorganisationen Viele Alternativen existieren, jede geeignet für bestimmte Situation (oder auch nicht) Heap-Dateien: Geeignet

Mehr

Kapitel 1: Einleitung

Kapitel 1: Einleitung Ludwig-Maximilians-Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Sommersemester 2013 Kapitel 1: Einleitung

Mehr

Data Mining - Wiederholung

Data Mining - Wiederholung Data Mining - Wiederholung Norbert Fuhr 9. Juni 2008 Problemstellungen Problemstellungen Daten vs. Information Def. Data Mining Arten von strukturellen Beschreibungen Regeln (Klassifikation, Assoziations-)

Mehr

Datenbanken: Datenintegrität. www.informatikzentrale.de

Datenbanken: Datenintegrität. www.informatikzentrale.de Datenbanken: Datenintegrität Definition "Datenkonsistenz" "in der Datenbankorganisation (...) die Korrektheit der gespeicherten Daten im Sinn einer widerspruchsfreien und vollständigen Abbildung der relevanten

Mehr

2. Microsoft Innovationstag Nord Integrierte Lösungen in der Öffentlichen Verwaltung

2. Microsoft Innovationstag Nord Integrierte Lösungen in der Öffentlichen Verwaltung 2. Microsoft Innovationstag Nord Integrierte Lösungen in der Öffentlichen Verwaltung Reporting, Analyse und Data Mining André Henkel, initions AG 22. und 23. Oktober 2013 in Hamburg

Mehr

GI-Technologien zur Umsetzung der EU-Wasserrahmenrichtlinie (WRRL): Wissensbasen. Teil 1: Einführung: Wissensbasis und Ontologie.

GI-Technologien zur Umsetzung der EU-Wasserrahmenrichtlinie (WRRL): Wissensbasen. Teil 1: Einführung: Wissensbasis und Ontologie. GI-Technologien zur Umsetzung der EU-Wasserrahmenrichtlinie (WRRL): Wissensbasen Teil 1: Einführung: Wissensbasis und Ontologie Was ist eine Wissensbasis? Unterschied zur Datenbank: Datenbank: strukturiert

Mehr

Jan Ehmke Doktorandenworkshop 2008 St. Andreasberg, 10.03.2008

Jan Ehmke Doktorandenworkshop 2008 St. Andreasberg, 10.03.2008 Ermittlung dynamischer Fahrzeiten für die City-Logistik Jan Ehmke Doktorandenworkshop 2008 St. Andreasberg, 10.03.2008 Inhalt Einführung Planung in der City-Logistik Erhebung dynamischer Fahrzeiten Konzeption

Mehr

PRÜFUNG FÜR ELEKTROINGENIEURE. Softwaretechnik I. Musterlösung SS 12. - Ohne Gewähr -

PRÜFUNG FÜR ELEKTROINGENIEURE. Softwaretechnik I. Musterlösung SS 12. - Ohne Gewähr - PRÜFUNG FÜR ELEKTROINGENIEURE Softwaretechnik I Musterlösung SS 12 - Ohne Gewähr - LfdNr. Thema Punkte Zeitbedarf in min 1 Analyse und Entwurf 15 30 2 Basistechniken und Test 15 30 3 Projektmanagement

Mehr

Data Mining und Maschinelles Lernen Lösungsvorschlag für das 7. Übungsblatt

Data Mining und Maschinelles Lernen Lösungsvorschlag für das 7. Übungsblatt Data Mining und Maschinelles Lernen Lösungsvorschlag für das 7. Übungsblatt Knowledge Engineering Group Data Mining und Maschinelles Lernen Lösungsvorschlag 7. Übungsblatt 1 Aufgabe 1a) Auffüllen von Attributen

Mehr

Maschinelles Lernen Entscheidungsbäume

Maschinelles Lernen Entscheidungsbäume Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen Entscheidungsbäume Paul Prasse Entscheidungsbäume Eine von vielen Anwendungen: Kreditrisiken Kredit - Sicherheiten

Mehr

Methodenkurs Text Mining 01: Know Your Data

Methodenkurs Text Mining 01: Know Your Data Methodenkurs Text Mining 01: Know Your Data Eva Enderichs SoSe2015 Eva EnderichsSoSe2015 01: Know Your Data 1 Eva EnderichsSoSe2015 01: Know Your Data 2 Typen von Korpora annotiert VS naturbelassen wenige

Mehr

Definition Informationssystem

Definition Informationssystem Definition Informationssystem Informationssysteme (IS) sind soziotechnische Systeme, die menschliche und maschinelle Komponenten umfassen. Sie unterstützen die Sammlung, Verarbeitung, Bereitstellung, Kommunikation

Mehr

Data-Mining und Knowledge Discovery in Databases (KDD) Ein Überblick

Data-Mining und Knowledge Discovery in Databases (KDD) Ein Überblick Institut für Angewandte Informatik Professur für Technische Informationssysteme Fakultätsname XYZ Fachrichtung XYZ Institutsname XYZ, Professur XYZ Data-Mining und Knowledge Discovery in Databases (KDD)

Mehr

Business Value Launch 2006

Business Value Launch 2006 Quantitative Methoden Inferenzstatistik alea iacta est 11.04.2008 Prof. Dr. Walter Hussy und David Tobinski UDE.EDUcation College im Rahmen des dokforums Universität Duisburg-Essen Inferenzstatistik Erläuterung

Mehr

SE Besprechung. Übung 3 Softwareprozesse

SE Besprechung. Übung 3 Softwareprozesse SE Besprechung Übung 3 Softwareprozesse SE, 08.11.11 Mengia Zollinger Analyse der Systemkomponenten(3 Punkte) Mögliche Ansätze: 3-Schichten-Architektur (tree-tier-architecture) Präsentation Anwendungslogik

Mehr

Kapitel 1: Einleitung

Kapitel 1: Einleitung Ludwig-Maximilians-Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Wintersemester 2007/2008 Kapitel

Mehr

Datenbankmodelle 1. Das Entity-Relationship-Modell. Prof. Dr. Bernhard Schiefer 2-1

Datenbankmodelle 1. Das Entity-Relationship-Modell. Prof. Dr. Bernhard Schiefer 2-1 Datenbankmodelle 1 Das Entity-Relationship-Modell Prof. Dr. Bernhard Schiefer 2-1 Datenbankmodelle ER-Modell hierarchisches Modell Netzwerkmodell relationales Modell objektorientierte Modelle Prof. Dr.

Mehr

Knowledge Discovery In Databases. Data Mining - Der moderne Goldrausch?

Knowledge Discovery In Databases. Data Mining - Der moderne Goldrausch? Oberseminar Data Mining 07. April 2010 Methodik des Data Mining Knowledge Discovery In Databases oder auch Data Mining - Der moderne Goldrausch? Data Mining...? Hochleistungsrechnen Geoinformationssysteme

Mehr

ER-Modell. Entity-Relationship-Model

ER-Modell. Entity-Relationship-Model + ER-Modell Entity-Relationship-Model + Was ist ein Modell? Worte/Zitat aus einem Physikbuch: "Modelle sind also Vorstellungshilfen und Wirklichkeitshilfen, nicht die Wirklichkeit selbst." (Metzler Physik).

Mehr

Scanner Daten: Von der derzeitigen Praxis zu Empfehlungen

Scanner Daten: Von der derzeitigen Praxis zu Empfehlungen Scanner Daten: Von der derzeitigen Praxis zu Empfehlungen Dr. Berthold Feldmann Eurostat C4 Preisstatistik; Kaufkraftparitäten; Wohnungsstatistik Struktur des Vortrags Hintergrund Abgedeckte Produktgruppen

Mehr

Text-Mining: Einführung

Text-Mining: Einführung Text-Mining: Einführung Claes Neuefeind Fabian Steeg 22. April 2010 Organisatorisches Was ist Text-Mining? Definitionen Anwendungsbeispiele Textuelle Daten Aufgaben u. Teilbereiche Literatur Kontakt Sprechstunde:

Mehr

Teil I: Deskriptive Statistik

Teil I: Deskriptive Statistik Teil I: Deskriptive Statistik 2 Grundbegriffe 2.1 Merkmal und Stichprobe 2.2 Skalenniveau von Merkmalen 2.3 Geordnete Stichproben und Ränge 2.1 Merkmal und Stichprobe An (geeignet ausgewählten) Untersuchungseinheiten

Mehr

Profilbezogene informatische Bildung in den Klassenstufen 9 und 10. Schwerpunktthema Daten und Datenbanken

Profilbezogene informatische Bildung in den Klassenstufen 9 und 10. Schwerpunktthema Daten und Datenbanken Profilbezogene informatische Bildung in den Klassenstufen 9 und 10 Schwerpunktthema Robby Buttke Fachberater für Informatik RSA Chemnitz Fachliche Einordnung Phasen relationaler Modellierung Fachlichkeit

Mehr

Relationale Datenbanken Datenbankgrundlagen

Relationale Datenbanken Datenbankgrundlagen Datenbanksystem Ein Datenbanksystem (DBS) 1 ist ein System zur elektronischen Datenverwaltung. Die wesentliche Aufgabe eines DBS ist es, große Datenmengen effizient, widerspruchsfrei und dauerhaft zu speichern

Mehr

DATENQUALITÄT IN GENOMDATENBANKEN

DATENQUALITÄT IN GENOMDATENBANKEN DATENQUALITÄT IN GENOMDATENBANKEN Alexander Fehr 28. Januar 2004 Gliederung Motivation Biologische Grundkonzepte Genomdaten Datenproduktion und Fehler Data Cleansing 2 Motivation (1) Genomdatenbanken enthalten

Mehr

Data Mining: Einige Grundlagen aus der Stochastik

Data Mining: Einige Grundlagen aus der Stochastik Data Mining: Einige Grundlagen aus der Stochastik Hagen Knaf Studiengang Angewandte Mathematik Hochschule RheinMain 21. Oktober 2015 Vorwort Das vorliegende Skript enthält eine Zusammenfassung verschiedener

Mehr

Grundlagen der Inferenzstatistik

Grundlagen der Inferenzstatistik Grundlagen der Inferenzstatistik (Induktive Statistik oder schließende Statistik) Dr. Winfried Zinn 1 Deskriptive Statistik versus Inferenzstatistik Die Deskriptive Statistik stellt Kenngrößen zur Verfügung,

Mehr

Aufgabe GBIS (TPCW-Benchmark)

Aufgabe GBIS (TPCW-Benchmark) Aufgabe GBIS (TPCW-Benchmark) 28. April 2003 Boris Stumm 28. April 2003 1 Besprechung GBIS-Aufgabe Vorstellung des Praktikums Vorstellen der ersten Aufgabe Hinweise zum Praktikum Endgültige Auf- und Zuteilung

Mehr

Data Warehousing und Data Mining

Data Warehousing und Data Mining Data Warehousing und Data Mining Einführung in Data Mining Ulf Leser Wissensmanagement in der Bioinformatik Wo sind wir? Einleitung & Motivation Architektur Modellierung von Daten im DWH Umsetzung des

Mehr

Dr. Andreas Hotho, Robert Jäschke Fachgebiet Wissensverarbeitung 30.10.2008. Wintersemester 2008/2009

Dr. Andreas Hotho, Robert Jäschke Fachgebiet Wissensverarbeitung 30.10.2008. Wintersemester 2008/2009 Dr. Andreas Hotho, Robert Jäschke Fachgebiet Wissensverarbeitung 30.10.2008 1. Übung Knowledge Discovery Wintersemester 2008/2009 Vorbemerkungen Vorlesungsfolien und Übungsblätter können Sie im Internet

Mehr

Datenbanken II Speicherung und Verarbeitung großer Objekte (Large Objects [LOBs])

Datenbanken II Speicherung und Verarbeitung großer Objekte (Large Objects [LOBs]) Datenbanken II Speicherung und Verarbeitung großer Objekte (Large Objects [LOBs]) Hochschule für Technik, Wirtschaft und Kultur Leipzig 06.06.2008 Datenbanken II,Speicherung und Verarbeitung großer Objekte

Mehr

Text Mining Praktikum. Durchführung: Andreas Niekler Email: aniekler@informatik.uni-leipzig.de Zimmer: Paulinum (P) 818

Text Mining Praktikum. Durchführung: Andreas Niekler Email: aniekler@informatik.uni-leipzig.de Zimmer: Paulinum (P) 818 Text Mining Praktikum Durchführung: Andreas Niekler Email: aniekler@informatik.uni-leipzig.de Zimmer: Paulinum (P) 818 Rahmenbedingungen Gruppen von 2- (max)4 Personen Jede Gruppe erhält eine Aufgabe Die

Mehr

Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining

Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining Ausgangssituation Kaizen Data Mining ISO 9001 Wenn andere Methoden an ihre Grenzen stoßen Es gibt unzählige Methoden, die Abläufe

Mehr

DATENBANKEN SQL UND SQLITE VON MELANIE SCHLIEBENER

DATENBANKEN SQL UND SQLITE VON MELANIE SCHLIEBENER DATENBANKEN SQL UND SQLITE VON MELANIE SCHLIEBENER INHALTSVERZEICHNIS 1. Datenbanken 2. SQL 1.1 Sinn und Zweck 1.2 Definition 1.3 Modelle 1.4 Relationales Datenbankmodell 2.1 Definition 2.2 Befehle 3.

Mehr

Anwendung der Predictive Analytics

Anwendung der Predictive Analytics TDWI Konferenz mit BARC@TDWI Track 2014 München, 23. 25. Juni 2014 Anwendung der Predictive Analytics Prof. Dr. Carsten Felden Dipl. Wirt. Inf. Claudia Koschtial Technische Universität Bergakademie Freiberg

Mehr

PPC und Data Mining. Seminar aus Informatik LV-911.039. Michael Brugger. Fachbereich der Angewandten Informatik Universität Salzburg. 28.

PPC und Data Mining. Seminar aus Informatik LV-911.039. Michael Brugger. Fachbereich der Angewandten Informatik Universität Salzburg. 28. PPC und Data Mining Seminar aus Informatik LV-911.039 Michael Brugger Fachbereich der Angewandten Informatik Universität Salzburg 28. Mai 2010 M. Brugger () PPC und Data Mining 28. Mai 2010 1 / 14 Inhalt

Mehr

Anforderungen aus der Normung

Anforderungen aus der Normung Anforderungen aus der Normung Mehrere nationale und internationale Normen fordern den Einsatz und die Verwendung von statistischen Verfahren. Mit den daraus gewonnenen Ergebnissen (insbesondere Kennzahlen)

Mehr

Database Exchange Manager. Infinqa IT Solutions GmbH, Berlin Stralauer Allee 2 10245 Berlin Tel.:+49(0) 30 2900 8639 Fax.:+49(0) 30 2900 8695

Database Exchange Manager. Infinqa IT Solutions GmbH, Berlin Stralauer Allee 2 10245 Berlin Tel.:+49(0) 30 2900 8639 Fax.:+49(0) 30 2900 8695 Database Exchange Manager Replication Service- schematische Darstellung Replication Service- allgemeines Replikation von Daten von bzw. in ein SAP-System und einer relationalen DMS-Datenbank Kombination

Mehr

Grammatiken. Einführung

Grammatiken. Einführung Einführung Beispiel: Die arithmetischen Ausdrücke über der Variablen a und den Operationen + und können wie folgt definiert werden: a, a + a und a a sind arithmetische Ausdrücke Wenn A und B arithmetische

Mehr

Einführung in die Wissensverarbeitung und Data Mining

Einführung in die Wissensverarbeitung und Data Mining Einführung in die Wissensverarbeitung und Data Mining Peter Becker FH Bonn-Rhein-Sieg Fachbereich Angewandte Informatik!" $# Vorlesung Wintersemester 2001/02 1. Einführung Vorbemerkungen 1 Einführung Vorbemerkungen

Mehr

Visual Business Analytics Visueller Zugang zu Big Data

Visual Business Analytics Visueller Zugang zu Big Data Visual Business Analytics Visueller Zugang zu Big Data Dr.-Ing. Jörn Kohlhammer Fraunhofer-Institut für Graphische Datenverarbeitung (IGD) Fraunhoferstraße 5 64283 Darmstadt Tel.: +49 6151 155-646 Fax:

Mehr

Business Intelligence. Business Intelligence Seminar, WS 2007/08

Business Intelligence. Business Intelligence Seminar, WS 2007/08 Business Intelligence Seminar, WS 2007/08 Prof. Dr. Knut Hinkelmann Fachhochschule Nordwestschweiz knut.hinkelmann@fhnw.ch Business Intelligence Entscheidungsorientierte Sammlung, Aufbereitung und Darstellung

Mehr

MS SQL Server 2012 (4)

MS SQL Server 2012 (4) MS SQL Server 2012 (4) Data Mining, Analyse und multivariate Verfahren Marco Skulschus Jan Tittel Marcus Wiederstein Webseite zum Buch: http://vvwvv.comelio-medien.com/buch-kataiog/ms sql_server/ms sql

Mehr

SQL: statische Integrität

SQL: statische Integrität SQL: statische Integrität.1 SQL: statische Integrität Im allgemeinen sind nur solche Instanzen einer Datenbank erlaubt, deren Relationen die der Datenbank bekannten Integritätsbedingungen erfüllen. Integritätsbedingungen

Mehr

JMangler. Frithjof Kurtz. Universität Bonn, Seminar Softw aretechnologie WS 03/04, Jmangler Frithjof Kurtz 1

JMangler. Frithjof Kurtz. Universität Bonn, Seminar Softw aretechnologie WS 03/04, Jmangler Frithjof Kurtz 1 JMangler Frithjof Kurtz Universität Bonn, Seminar Softw aretechnologie WS 03/04, Jmangler Frithjof Kurtz 1 JMangler Vortragsgliederung Motivation Java Grundlagen JMangler Grundlagen Transformationen Algorithmen

Mehr

Lars Priebe Senior Systemberater. ORACLE Deutschland GmbH

Lars Priebe Senior Systemberater. ORACLE Deutschland GmbH Lars Priebe Senior Systemberater ORACLE Deutschland GmbH Data Mining als Anwendung des Data Warehouse Konzepte und Beispiele Agenda Data Warehouse Konzept und Data Mining Data Mining Prozesse Anwendungs-Beispiele

Mehr

Data Warehouse ??? Ein Data Warehouse ist keine von der Stange zu kaufende Standardsoftware, sondern immer eine unternehmensindividuelle

Data Warehouse ??? Ein Data Warehouse ist keine von der Stange zu kaufende Standardsoftware, sondern immer eine unternehmensindividuelle ??? Zusammenfassung, Ergänzung, Querverbindungen, Beispiele A.Kaiser; WU-Wien MIS 188 Data Warehouse Ein Data Warehouse ist keine von der Stange zu kaufende Standardsoftware, sondern immer eine unternehmensindividuelle

Mehr