Einführung in Data Mining anhand des Modells CRISP-DM

Größe: px
Ab Seite anzeigen:

Download "Einführung in Data Mining anhand des Modells CRISP-DM"

Transkript

1 Einführung in Data Mining anhand des Modells CRISP-DM Seminarvortrag Linnea Passing Seminar, Scientific Programming, FH Aachen Stand: Rechen- und Kommunikationszentrum (RZ)

2 Agenda Motivation Ausblick auf das Bachelorprojekt Data Mining / Knowledge Discovery in Databases Schnittstellen Statistik Datenbanksysteme CRISP-DM Begriffe Vorgehen Bewertung Literatur Folie 2

3 Motivation Es fallen immer mehr Daten an, Bonuskarten, Soziale Netzwerke, Handynutzung Astronomie, Meteorologie die möglichst automatisiert ausgewertet werden sollen Muster und Gruppenzugehörigkeit erkennen Trends vorhersagen um die Produktivität zu erhöhen und Erkenntnisse zu gewinnen. Kundenabwanderung frühzeitig erkennen Empfehlungen ( Kunden, die diesen Artikel gekauft haben, kauften auch ) Kreditwürdigkeit bestimmen Folie 3

4 Bachelorprojekt: RZ-Rechencluster Verbessertes Reporting für die Verantwortlichen am Rechenzentrum und der RWTH Wer nutzt den Rechencluster? Kann man Nutzergruppen unterscheiden? Lassen sich Trends bei der Benutzung erkennen? Wann und wieso fallen Teile des Clusters aus? Werden die Ressourcen effizient genutzt? Restriktionen Sehr große Datenmenge Fortlaufende, möglichst automatisierte Auswertung geplant Data Mining soll verwendet werden Folie 4

5 Terminologie Knowledge Discovery in Databases (KDD) Knowledge Discovery in Databases is the non-trivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data. (Fayyad, Piatetsky-Shapiro and Smyth 1996) automatisierter Prozess iterativ, bestehend aus mehreren Schritten Data Mining (DM) ursprünglich: ein Teilschritt des KDD: Anwenden der Algorithmen heute: gesamter Prozess des KDD, Begriffe werden synonym verwendet Folie 5

6 Vorgehensweise Ziel: Definiertes Vorgehen standardisierte Prozesse zur Arbeitserleichterung Wissensweitergabe, Lehrwerke Projektplanung, bessere Argumentation dem Kunden gegenüber Einteilung in Phasen Verstehen / Einarbeitung Datenaufbereitung und -transformation Anwenden der Algorithmen Aufbereitung der Ergebnisse, Projektabschluss Phasenübergänge? Folie 6

7 Schnittstellen Statistik Clustering: Daten in Gruppen einordnen, Ausreißer finden Klassifikation: Daten bestehenden Klassen zuordnen Assoziationsregeln: Wenn A und B, dann (mit großer Wahrscheinlichkeit) C Datenbanksysteme schneller, wahlfreier Datenzugriff Ad-hoc-Anfragen per SQL Performanceverbesserung durch read-only Datenbanken, Data Warehousing Folie 7

8 Terminologie: Datenbanken Data Mining Spalte Zeile Matrikelnummer Alter Schuhgröße Attribut Tupel Merkmal Datensatz Objekt Integrieren Zusammenfügen von Daten aus mehreren Quellen Fehlende und falsche Werte? Folie 8

9 CRISP-DM Cross-Industry Standard Process for Data Mining Beginn 1996 Vertreter mehrerer Firmen Förderung durch Europäische Union 2000: CRISP-DM 1.0 Selbstverständnis aus der Praxis kommend, Anregungen aus einer SIG frei verfügbar, nicht an proprietäre Programme gebunden nicht an einen Anwendungsfall gebunden ( Cross-Industry ) Folie 9

10 Verbreitung Umfrage aus dem Jahr 2007, via What main methodology are you using for data mining? (n=150) CRISP-DM My own SEMMA KDD Process My organization's Domain-specific methodology Other methodology, not domain-specific None Folie 10

11 Terminologie Hierarchischer Aufbau Process Instance Sechs Phasen, kein lineares Abarbeiten Process Model Reference Model User Guide generic task: Verwendung in allen Phase Projekten möglich specialized task: Verwendung in Generic Task Specialized Task einem speziellen Projekt, Annahmen getroffen Output Activity Output Activity Folie 11

12 Phasen und Dokumente Business Understanding Projektplan Vertrag Data Understanding Wissen über Daten Data Preparation Qualitätsbewertung Datenänderungen Modeling Evaluation Deployment Parameter Präsentation Algorithmen Projektablaufplan Ergebnisse deployment plan Dauer der Phasen stark unterschiedlich Folie 12

13 Datenqualität einige Kriterien der Datenqualität Vollständigkeit Genauigkeit Korrektheit Relevanz Fehlwerte Einzelne Merkmale Ganze Datensätze fehlen Falschwerte Echte Falschwerte: falsche Daten wurden gemessen / erhoben Unechte Falschwerte: korrekte Daten wurden falsch in die Datenbank übernommen Folie 13

14 Datenqualität verbessern Vorgehen Daten standardisieren: Formate, Rechtschreibung, Daten bereinigen: Fehler finden, Fehlwerte ergänzen, Duplikate entfernen, Fehlerhafte (alte) Daten speichern Methoden Logische Überlegungen Extremwerte/Ausreißer genauer betrachten Abgleich mit Listen Duplikate löschen Datenqualität bestimmen noise level : Anteil der falschen Werte Folie 14

15 Phasen und Dokumente Business Understanding Projektplan Vertrag Data Understanding Wissen über Daten Data Preparation Qualitätsbewertung Datenänderungen Modeling Evaluation Deployment Parameter Präsentation Algorithmen Projektablaufplan Ergebnisse deployment plan Dauer der Phasen stark unterschiedlich Folie 15

16 Clustering-Algorithmen Anforderungen an die Daten quantitative Merkmale Vektoren der Dimension m in Koordinatensystem darstellbar Zu erwartendes Ergebnis Einteilung in Cluster Clusterzentrum = Centroid Eigenschaften iterativ viele ähnliche Algorithmen, hier: Clustering durch Varianzminimierung Algorithmus findet kein absolutes Optimum, konvergiert aber schnell Folie 16

17 Clustering-Algorithmen benötigte Datenstrukturen Liste der Datensätze und Cluster-Zugehörigkeit Liste der Cluster und Centroide Algorithmus es soll n Cluster geben jeden Datenpunkt einem Cluster zuordnen Distanzfunktion, hier: euklidisch zweidimensional: d euklid = x x 2 centroid + y y 2 centroid Centroid neu bestimmen jeden Datenpunkt dem nächsten (Distanzformel!) Cluster zuordnen letzte zwei Schritte wiederholen, bis sich nichts mehr ändert Folie 17

18 Clustering-Algorithmen Ausgangslage Folie 18

19 Clustering-Algorithmen Centroide bestimmt Folie 19

20 Clustering-Algorithmen Datenpunkte zuordnen Folie 20

21 Clustering-Algorithmen Centroide bestimmen Folie 21

22 Clustering-Algorithmen Datenpunkte zuordnen Folie 22

23 Clustering-Algorithmen Centroide bestimmen und Ende Folie 23

24 Phasen und Dokumente Business Understanding Projektplan Vertrag Data Understanding Wissen über Daten Data Preparation Qualitätsbewertung Datenänderungen Modeling Evaluation Deployment Parameter Präsentation Algorithmen Projektablaufplan Ergebnisse deployment plan Dauer der Phasen stark unterschiedlich Folie 24

25 Phasenübergänge Vorlage aus dem CRISP-DM 1.0 Step-by-step data mining guide Folie 25

26 Zusammenfassung Phasen Einarbeitung in Thema und Daten Vorbereitung und Anwendung der Mathematik Prüfung der Ergebnisse Präsentation und Verwendung der Ergebnisse Aufbau wie ein Projekt Start und Ende vorgegeben begrenztes Budget / Ressourcen definiertes Ziel Vertrag, Zwischenberichte an Auftraggeber interne Dokumente ( lessons learned ) Folie 26

27 Bewertung Vorteile von CRISP-DM / einer definierten Vorgehensweise Hohe Erfolgschance durch bereits erprobte Anleitung Projektplanung (Zeit, Ressourcen, Budget, Risiken) einfacher Kommunikation zwischen technischen und kaufmännischen Mitarbeitern sowie mit den Kunden besser Nachteile Overhead, insbesondere durch die vielen Dokumente, die erstellt werden müssen individuelle Anpassungen an das eigene Projekt sinnvoll Folie 27

28 Literatur Chapman, Clinton, Kerber, Khabaza, Reinartz, Shearer, Wirth CRISP-DM 1.0 Step-by-step data mining guide SPSS, 2000 Online verfügbar: Piatetsky-Shapiro Poll: What main methodology are you using for data mining? mining methodology.htm Ester, Sander Knowledge Discovery in Databases Springer-Verlag, 2000 Folie 28

29 Vielen Dank für Ihre Aufmerksamkeit Gibt es noch Fragen? Folie 29

FH Aachen. Standort Jülich. Fachbereich Medizintechnik und Technomathematik Bachelorstudiengang Scientific Programming.

FH Aachen. Standort Jülich. Fachbereich Medizintechnik und Technomathematik Bachelorstudiengang Scientific Programming. FH Aachen Standort Jülich Fachbereich Medizintechnik und Technomathematik Bachelorstudiengang Scientific Programming Seminararbeit Einführung in Data Mining anhand des Modells CRISP-DM Aachen, 14. Dezember

Mehr

Data Mining im Einzelhandel Methoden und Werkzeuge

Data Mining im Einzelhandel Methoden und Werkzeuge Fakultät Informatik Institut für Angewandte Informatik Professur Technische Informationssysteme Proseminar Technische Informationssysteme Data Mining im Einzelhandel Methoden und Werkzeuge Betreuer: Dipl.-Ing.

Mehr

Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion

Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion Vortrag Seminararbeit David Pogorzelski Aachen, 22.01.2015 Agenda 1 2 3 4 5 Ziel der

Mehr

Data Mining und Knowledge Discovery in Databases

Data Mining und Knowledge Discovery in Databases Data Mining und Knowledge Discovery in Databases Begriffsabgrenzungen... Phasen der KDD...3 3 Datenvorverarbeitung...4 3. Datenproblematik...4 3. Möglichkeiten der Datenvorverarbeitung...4 4 Data Mining

Mehr

Knowledge Discovery. Lösungsblatt 1

Knowledge Discovery. Lösungsblatt 1 Universität Kassel Fachbereich Mathematik/nformatik Fachgebiet Wissensverarbeitung Hertie-Stiftungslehrstuhl Wilhelmshöher Allee 73 34121 Kassel Email: hotho@cs.uni-kassel.de Tel.: ++49 561 804-6252 Dr.

Mehr

PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTE WS 09/10

PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTE WS 09/10 PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTE WS 09/10 DATA MINING ALS EXPERIMENT VORTRAG: CHRISTOPH NÖLLENHEIDT 26.01.10 Ablauf Das CRISP-DM-Modell Zwei verschiedene Standpunkte über die Theoriebildung

Mehr

Data Mining - Oracle vs. Open Source

Data Mining - Oracle vs. Open Source Data Mining - Oracle vs. Open Source ein Erfahrungsbericht Prof. Dr. Reinhold von Schwerin D. Adam, K. Böll, S. Funk, F. Knittel, F. Langenbruch S. Nagel, H. Weissbach Hochschule Ulm, Fakultät für Informatik

Mehr

Projekt-INF Folie 1

Projekt-INF Folie 1 Folie 1 Projekt-INF Entwicklung eines Testbed für den empirischen Vergleich verschiedener Methoden des maschinellen Lernens im Bezug auf die Erlernung von Produktentwicklungswissen Folie 2 Inhalt Ziel

Mehr

Data/Information Quality Management

Data/Information Quality Management Data/Information Quality Management Seminar WI/Informationsmanagement im Sommersemester 2002 Markus Berberov, Roman Eder, Peter Gerstbach 11.6.2002 Inhalt! Daten und Datenqualität! Einführung und Definition!

Mehr

Domain-independent. independent Duplicate Detection. Vortrag von Marko Pilop & Jens Kleine. SE Data Cleansing

Domain-independent. independent Duplicate Detection. Vortrag von Marko Pilop & Jens Kleine. SE Data Cleansing SE Data Cleansing Domain-independent independent Duplicate Detection Vortrag von Marko Pilop & Jens Kleine http://www.informatik.hu-berlin.de/~pilop/didd.pdf {pilop jkleine}@informatik.hu-berlin.de 1.0

Mehr

Maschinelles Lernen zur Hautkrebsvorhersage

Maschinelles Lernen zur Hautkrebsvorhersage Maschinelles Lernen zur Hautkrebsvorhersage Eine Bachelorarbeit von Daniel Fischer Betreuung: Dipl. Inf. Frederik Janssen Prof. Dr. Johannes Fürnkranz Dr. med. Matthias Herbst 03.07.2011 Fachbereich Informatik

Mehr

Was ist Data Mining... in der Fundraising Praxis?

Was ist Data Mining... in der Fundraising Praxis? Was ist Data Mining...... in der Fundraising Praxis? Erkennen von unbekannten Mustern in sehr grossen Datenbanken (> 1000 GB) wenige und leistungsfähige Verfahren Automatisierung Erkennen von unbekannten

Mehr

Clustering 2010/06/11 Sebastian Koch 1

Clustering 2010/06/11 Sebastian Koch 1 Clustering 2010/06/11 1 Motivation Quelle: http://www.ha-w.de/media/schulung01.jpg 2010/06/11 2 Was ist Clustering Idee: Gruppierung von Objekten so, dass: Innerhalb einer Gruppe sollen die Objekte möglichst

Mehr

Data Mining auf Datenströmen Andreas M. Weiner

Data Mining auf Datenströmen Andreas M. Weiner Technische Universität Kaiserslautern Fachbereich Informatik Lehrgebiet Datenverwaltungssysteme Integriertes Seminar Datenbanken und Informationssysteme Sommersemester 2005 Thema: Data Streams Andreas

Mehr

Data Mining Projektsteuerung: Wie kombiniere ich CRISP-DM und Scrum?

Data Mining Projektsteuerung: Wie kombiniere ich CRISP-DM und Scrum? Data Mining Projektsteuerung: Wie kombiniere ich CRISP-DM und Scrum? Prof. Dr. R. von Schwerin & V. Herbort, M.Sc. Institut für Informatik 29. Juni 2010 Inhalt 1 Einführung CRoss Industry Standard Process

Mehr

Data Mining Standards am Beispiel von PMML. Data Mining Standards am Beispiel von PMML

Data Mining Standards am Beispiel von PMML. Data Mining Standards am Beispiel von PMML Data Mining Standards am Beispiel von PMML Allgemeine Definitionen im Data Mining Data Mining (DM) Ein Prozess, um interessante neue Muster, Korrelationen und Trends in großen Datenbeständen zu entdecken,

Mehr

Seminar Business Intelligence Teil II. Data Mining & Knowledge Discovery

Seminar Business Intelligence Teil II. Data Mining & Knowledge Discovery Seminar Business Intelligence Teil II Data Mining & Knowledge Discovery Was ist Data Mining? Sabine Queckbörner Was ist Data Mining? Data Mining Was ist Data Mining? Nach welchen Mustern wird gesucht?

Mehr

Data Mining (ehem. Entscheidungsunterstützungssysteme)

Data Mining (ehem. Entscheidungsunterstützungssysteme) Data Mining (ehem. Entscheidungsunterstützungssysteme) Melanie Pfoh Anja Tetzner Christian Schieder Übung WS 2014/15 AGENDA TEIL 1 Aufgabe 1 (Wiederholung OPAL / Vorlesungsinhalte) ENTSCHEIDUNG UND ENTSCHEIDUNGSTHEORIE

Mehr

Personalisierung internetbasierter Handelsszenarien. Matthias Pretzer

Personalisierung internetbasierter Handelsszenarien. Matthias Pretzer Matthias Pretzer matthias.pretzer@informatik.uni-oldenburg.de http://diko-project.de/ Fachbereich Informatik Abteilung Informationssysteme Prof. Dr. Appelrath Inhalt: Motivation Grundlagen Anwendungsszenario

Mehr

Anwendung der Predictive Analytics

Anwendung der Predictive Analytics TDWI Konferenz mit BARC@TDWI Track 2014 München, 23. 25. Juni 2014 Anwendung der Predictive Analytics Prof. Dr. Carsten Felden Dipl. Wirt. Inf. Claudia Koschtial Technische Universität Bergakademie Freiberg

Mehr

Inhaltliche Planung für die Vorlesung

Inhaltliche Planung für die Vorlesung Vorlesung: Künstliche Intelligenz - Mustererkennung - P LS ES S ST ME Künstliche Intelligenz Miao Wang 1 Inhaltliche Planung für die Vorlesung 1) Definition und Geschichte der KI, PROLOG 2) Expertensysteme

Mehr

Data Warehousing und Data Mining

Data Warehousing und Data Mining Data Warehousing und Data Mining Einführung in Data Mining Ulf Leser Wissensmanagement in der Bioinformatik Wo sind wir? Einleitung & Motivation Architektur Modellierung von Daten im DWH Umsetzung des

Mehr

Dr. Andreas Hotho, Robert Jäschke Fachgebiet Wissensverarbeitung 30.10.2008. Wintersemester 2008/2009

Dr. Andreas Hotho, Robert Jäschke Fachgebiet Wissensverarbeitung 30.10.2008. Wintersemester 2008/2009 Dr. Andreas Hotho, Robert Jäschke Fachgebiet Wissensverarbeitung 30.10.2008 1. Übung Knowledge Discovery Wintersemester 2008/2009 Vorbemerkungen Vorlesungsfolien und Übungsblätter können Sie im Internet

Mehr

Analyse von Transaktionsdaten im Online-Ticketing mit Data-Mining-Methoden

Analyse von Transaktionsdaten im Online-Ticketing mit Data-Mining-Methoden 1 Analyse von Transaktionsdaten im Online-Ticketing mit Data-Mining-Methoden Marten Pfannenschmidt, Freie Universität Berlin Prof. Dr. Jan Fabian Ehmke, Europa-Universität Viadrina Frank Schreier, Berliner

Mehr

Maschinelles Lernen und Data Mining: Methoden und Anwendungen

Maschinelles Lernen und Data Mining: Methoden und Anwendungen Maschinelles Lernen und Data Mining: Methoden und Anwendungen Eyke Hüllermeier Knowledge Engineering & Bioinformatics Fachbereich Mathematik und Informatik GFFT-Jahrestagung, Wesel, 17. Januar 2008 Knowledge

Mehr

Whisky-Empfehlungen. Whisky-Empfehlungen - Joachim Schole

Whisky-Empfehlungen. Whisky-Empfehlungen - Joachim Schole Whisky-Empfehlungen 1 Agenda Motivation Einführung in die Domäne Whisky Einführung Empfehlungssysteme Einführung KDD, Data Mining, Clustering Aktueller Stand & Aufgaben 2 Motivation Problem Whisky-Empfehlung

Mehr

EFM-DBSCAN EIN BAUMBASIERTER CLUSTERING- ALGORITHMUS UNTER AUSNUTZUNG ERWEITERTER LEADER-UMGEBUNGEN. Philipp Egert. 08. März 2017

EFM-DBSCAN EIN BAUMBASIERTER CLUSTERING- ALGORITHMUS UNTER AUSNUTZUNG ERWEITERTER LEADER-UMGEBUNGEN. Philipp Egert. 08. März 2017 08. März 2017 EFM-DBSCAN EIN BAUMBASIERTER CLUSTERING- ALGORITHMUS UNTER AUSNUTZUNG ERWEITERTER LEADER-UMGEBUNGEN Philipp Egert Fachgebiet Datenbank- und Informationssysteme Motivation DBSCAN als Vorreiter

Mehr

Dokumentation 4.0 Darstellen, Auswerten, Planen, Entscheiden

Dokumentation 4.0 Darstellen, Auswerten, Planen, Entscheiden Eine Initiative zur Verbesserung der Trinkwasserinstallationen in Gebäuden. Dokumentation 4.0 Darstellen, Auswerten, Planen, Entscheiden Ing. Johannes Quicala Fachausschussmitglied, FORUM Wasserhygiene

Mehr

Neuere Konzepte von Informationssystemen Teil II. Neuere Konzepte von Informationssystemen Teil II. Gliederung. Motivation #1.

Neuere Konzepte von Informationssystemen Teil II. Neuere Konzepte von Informationssystemen Teil II. Gliederung. Motivation #1. Neuere Konzepte von Informationssystemen Teil II Kapitel : KDD & Data Mining Gliederung Diese Vorlesung gliedert sich wie folgt: Einführung: Klassische Fragestellungen Data-Mining-Aufgaben Data-Mining-Verfahren

Mehr

Teil VIII. Weiterführende Veranstaltungen im FG Wissensverarbeitung

Teil VIII. Weiterführende Veranstaltungen im FG Wissensverarbeitung Teil VIII Weiterführende Veranstaltungen im FG Wissensverarbeitung Überblick 1 Zusammenfassung AlgoDS 2 Datenbanken 3 Internet-Suchmaschinen 4 Knowledge Discovery 5 Künstliche Intelligenz 6 Seminare &

Mehr

DB Hackday Datenqualität von ausgewählten Open Data Quellen und Möglichkeiten zur Verbesserung

DB Hackday Datenqualität von ausgewählten Open Data Quellen und Möglichkeiten zur Verbesserung Hier bitte vollflächig Titelbild einfügen ODER Diesen Text und Begrenzungslinie unten mit einem weissen Kasten überdecken. Titel: Zweite Zeile Orange+ fett formatieren! Bild immer bis zu den Kanten führen

Mehr

Clustering. Clustering:

Clustering. Clustering: Clustering Clustering: Gruppierung und Einteilung einer Datenmenge nach ähnlichen Merkmalen Unüberwachte Klassifizierung (Neuronale Netze- Terminologie) Distanzkriterium: Ein Datenvektor ist zu anderen

Mehr

Seminar im Sommersemester 2005 DATA WAREHOUSING. Data Mining. Christian Knappe. Fachrichtung Wirtschaftsinformatik Friedrich-Schiller-Universität Jena

Seminar im Sommersemester 2005 DATA WAREHOUSING. Data Mining. Christian Knappe. Fachrichtung Wirtschaftsinformatik Friedrich-Schiller-Universität Jena Seminar im Sommersemester 2005 DATA WAREHOUSING Data Mining Christian Knappe Fachrichtung Wirtschaftsinformatik Friedrich-Schiller-Universität Jena Fakultät für Mathematik und Informatik Lehrstuhl für

Mehr

Vortrag Iterative Prozessmodelle/SCRUM

Vortrag Iterative Prozessmodelle/SCRUM Vortrag Iterative Prozessmodelle/SCRUM von Marcus Hörger 1 Übersicht Einleitung Prozess Der Software-Entwicklungsprozess Prozessmodelle Lineare Prozessmodelle Das Phasenmodell Iterative Prozessmodelle

Mehr

Datenbanken und Informationssysteme

Datenbanken und Informationssysteme Datenbanken und Informationssysteme Lehrangebot Stefan Conrad Heinrich-Heine-Universität Düsseldorf Institut für Informatik April 2012 Stefan Conrad (HHU) Datenbanken und Informationssysteme April 2012

Mehr

Machine Learning. (nicht immer Lernen involviert, wenn Verbesserung erzielt wird: Wechseln der Klingen eines Rasenmähers)

Machine Learning. (nicht immer Lernen involviert, wenn Verbesserung erzielt wird: Wechseln der Klingen eines Rasenmähers) Machine Learning 0. Vorbemerkungen Was ist Lernen? Simon: Jede Veränderung eines Systems, die es ihm erlaubt, eine Aufgabe bei der Wiederholung derselben Aufgabe oder einer Aufgabe derselben Art besser

Mehr

Management Support Systeme

Management Support Systeme Management Support Systeme WS 24-25 4.-6. Uhr PD Dr. Peter Gluchowski Folie Gliederung MSS WS 4/5. Einführung Management Support Systeme: Informationssysteme zur Unterstützung betrieblicher Fach- und Führungskräfte

Mehr

... Text Clustern. Clustern. Einführung Clustern. Einführung Clustern

... Text Clustern. Clustern. Einführung Clustern. Einführung Clustern Clustern Tet Clustern Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so daß: Beispiele innerhalb eines Clusters sich sehr ähnlich Beispiele in verschiedenen Clustern

Mehr

Knowledge Discovery In Databases. Data Mining - Der moderne Goldrausch?

Knowledge Discovery In Databases. Data Mining - Der moderne Goldrausch? Oberseminar Data Mining 07. April 2010 Methodik des Data Mining Knowledge Discovery In Databases oder auch Data Mining - Der moderne Goldrausch? Data Mining...? Hochleistungsrechnen Geoinformationssysteme

Mehr

Projektbericht. Evaluation und Ableitung von Ergebnissen anhand eines Fragebogens zur Studentensituation an der Hochschule Wismar

Projektbericht. Evaluation und Ableitung von Ergebnissen anhand eines Fragebogens zur Studentensituation an der Hochschule Wismar Business Intelligence Master Digitale Logistik und Management Projektbericht Evaluation und Ableitung von Ergebnissen anhand eines Fragebogens zur Studentensituation an der Hochschule Wismar Matthias Säger

Mehr

Business and Data Understanding. Business und Data Understanding

Business and Data Understanding. Business und Data Understanding Business und Data Understanding Gliederung 1. Grundlagen 2. Von Data Warehouse zu Data Mining 3. Das CRISP-DM Referenzmodell 4. Die Phasen Business- und Data Understanding 5. Überblick der weiteren Phasen

Mehr

Fragenkatalog zur Vorlesung "Grundlagen des Data Mining" (WS 2006/07)

Fragenkatalog zur Vorlesung Grundlagen des Data Mining (WS 2006/07) Fragenkatalog zur Vorlesung "Grundlagen des Data Mining" (WS 2006/07) 1. Grenzen Sie die Begriffe "Daten" und "Wissen" mit je 3 charakteristischen Eigenschaften gegeander ab. 2. Nennen Sie vier verschiedene

Mehr

Agile BI Was ist das eigentlich? Hochschule Ulm - V. Herbort & Prof. Dr. R. von Schwerin

Agile BI Was ist das eigentlich? Hochschule Ulm - V. Herbort & Prof. Dr. R. von Schwerin Agile BI Was ist das eigentlich? Hochschule Ulm - V. Herbort & Prof. Dr. R. von Schwerin Inhalt Agilität in der Business Intelligence Agile Software-Projekte Agile Data Warehousing / Self-Service BI 29.10.10

Mehr

PPC und Data Mining. Seminar aus Informatik LV-911.039. Michael Brugger. Fachbereich der Angewandten Informatik Universität Salzburg. 28.

PPC und Data Mining. Seminar aus Informatik LV-911.039. Michael Brugger. Fachbereich der Angewandten Informatik Universität Salzburg. 28. PPC und Data Mining Seminar aus Informatik LV-911.039 Michael Brugger Fachbereich der Angewandten Informatik Universität Salzburg 28. Mai 2010 M. Brugger () PPC und Data Mining 28. Mai 2010 1 / 14 Inhalt

Mehr

Data Mining Möglichkeiten und Anwendungsfelder

Data Mining Möglichkeiten und Anwendungsfelder Data Mining Möglichkeiten und Anwendungsfelder 15. Symposium on Privacy and Security, Zürich, 31. 8. 2010 Dr. Stefan Rüping Fraunhofer IAIS Fraunhofer Institut für intelligente Analyse- und a~í~=jáåáåö=ó=jööäáåüâéáíéå=ìåç=^åïéåçìåöëñéäçéê=

Mehr

Werkzeugunterstützte Projektprognose

Werkzeugunterstützte Projektprognose Werkzeugunterstützte Projektprognose Elena Emelyanova elena.emelyanova@rwthaachen.de 26.06.2015 Motivation? 2 Motivation 3 Motivation Daten von externem Kooperationspartner: # Projekte Projektdauer (in

Mehr

Projektgruppe. Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten

Projektgruppe. Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten Projektgruppe Jennifer Post Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten 2. Juni 2010 Motivation Immer mehr Internet-Seiten Immer mehr digitale Texte Viele Inhalte ähnlich oder gleich

Mehr

Data Warehousing und Data Mining

Data Warehousing und Data Mining Data Warehousing und Data Mining Einführung in Data Mining Ulf Leser Wissensmanagement in der Bioinformatik Wo sind wir? Einleitung & Motivation Architektur Modellierung von Daten im DWH Umsetzung des

Mehr

Assoziationsregeln & Sequenzielle Muster. A. Hinneburg, Web Data Mining MLU Halle-Wittenberg, SS 2007

Assoziationsregeln & Sequenzielle Muster. A. Hinneburg, Web Data Mining MLU Halle-Wittenberg, SS 2007 Assoziationsregeln & Sequenzielle Muster 0 Übersicht Grundlagen für Assoziationsregeln Apriori Algorithmus Verschiedene Datenformate Finden von Assoziationsregeln mit mehren unteren Schranken für Unterstützung

Mehr

Knowledge Discovery in Databases

Knowledge Discovery in Databases Knowledge Discovery in Databases Organisatorisches Prof. Gerd Stumme Dipl.-Math. Robert Jäschke FG Wissensverarbeitung Präsenzübung bedeutet selbständiges Bearbeiten des Übungsblattes in Kleingruppen à

Mehr

Übersicht. A. Hinneburg, Web Data Mining MLU Halle-Wittenberg, SS 2007

Übersicht. A. Hinneburg, Web Data Mining MLU Halle-Wittenberg, SS 2007 Übersicht Grundlagen für Assoziationsregeln Apriori Algorithmus Verschiedene Datenformate Finden von Assoziationsregeln mit mehren unteren Schranken für Unterstützung Finden von Assoziationsregeln für

Mehr

Kapitel 1: Einleitung

Kapitel 1: Einleitung Ludwig-Maximilians-Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Sommersemester 2013 Kapitel 1: Einleitung

Mehr

Methoden zur Cluster - Analyse

Methoden zur Cluster - Analyse Kapitel 4 Spezialvorlesung Modul 10-202-2206 (Fortgeschrittene Methoden in der Bioinformatik) Jana Hertel Professur für Bioinformatik Institut für Informatik Universität Leipzig Machine learning in bioinformatics

Mehr

Data Mining - Motivation

Data Mining - Motivation Data Mining - Motivation "Computers have promised us a fountain of wisdom but delivered a flood of data." "It has been estimated that the amount of information in the world doubles every 20 months." (Frawley,

Mehr

Data Warehousing und Data Mining

Data Warehousing und Data Mining Data Warehousing und Data Mining Einführung in Data Mining Ulf Leser Wissensmanagement in der Bioinformatik Wo sind wir? Einleitung & Motivation Architektur Modellierung von Daten im DWH Umsetzung des

Mehr

Lokalisierung und Topologiekontrolle

Lokalisierung und Topologiekontrolle Lokalisierung und Topologiekontrolle Seminar: Kommunikation in drahtlosen Sensornetzwerken Martin Schmidt Einführung Lokalisierung: Für viele Informationen ist die Position wichtig Traditionelle Technik

Mehr

Strukturerkennende Verfahren

Strukturerkennende Verfahren Strukturerkennende Verfahren Viele Verfahren der multivariaten Datenanalyse dienen dazu, die in den Daten vorliegenden Strukturen zu erkennen und zu beschreiben. Dabei kann es sich um Strukturen sehr allgemeiner

Mehr

Data Mining als Arbeitsprozess

Data Mining als Arbeitsprozess Data Mining als Arbeitsprozess Hagen Knaf Studiengang Angewandte Mathematik Hochschule RheinMain 31. Dezember 2015 In Unternehmen werden umfangreichere Aktivitäten oder Projekte im Bereich des Data Mining

Mehr

Prognose von Kostenschwankungen mit Predictive Analytics DOAG 2016

Prognose von Kostenschwankungen mit Predictive Analytics DOAG 2016 Prognose von Kostenschwankungen mit Predictive Analytics DOAG 2016 CGI Deutschland Ltd. & Co. KG (Sulzbach) Alfred Stelzl (Lead Consultant Big Data Analytics) November 2016 CGI Group Inc. Agenda 2 Agenda

Mehr

Inhalt. 6.1 Motivation. 6.2 Klassifikation. 6.3 Clusteranalyse. 6.4 Asszoziationsanalyse. Datenbanken & Informationssysteme / Kapitel 6: Data Mining

Inhalt. 6.1 Motivation. 6.2 Klassifikation. 6.3 Clusteranalyse. 6.4 Asszoziationsanalyse. Datenbanken & Informationssysteme / Kapitel 6: Data Mining 6. Data Mining Inhalt 6.1 Motivation 6.2 Klassifikation 6.3 Clusteranalyse 6.4 Asszoziationsanalyse 2 6.1 Motivation Data Mining and Knowledge Discovery zielt darauf ab, verwertbare Erkenntnisse (actionable

Mehr

Anwendungen des Data Mining in der Praxis. Seminarvortrag von Holger Dürr

Anwendungen des Data Mining in der Praxis. Seminarvortrag von Holger Dürr Anwendungen des Data Mining in der Praxis Seminarvortrag von Holger Dürr Seminar Data Mining Wintersemester 2003/20042004 Professor Dr. Schweigert - Universität Ulm Themenübersicht Data Mining - Kleine

Mehr

Mathematische Grundlagen III

Mathematische Grundlagen III Mathematische Grundlagen III Maschinelles Lernen III: Clustering Vera Demberg Universität des Saarlandes 7. Juli 202 Vera Demberg (UdS) Mathe III 7. Juli 202 / 35 Clustering vs. Klassifikation In den letzten

Mehr

Workshops digitale Transformation

Workshops digitale Transformation Workshops digitale Transformation Workshops digitale transformation So gelingt der sichere einstieg S M L XL ImpulSWorkshop Digitale transformation Digitaler Reifegrad Digitale Strategie Digitale Transformation

Mehr

Knowledge Discovery in Databases

Knowledge Discovery in Databases Knowledge Discovery in Databases Organisatorisches Dr. Andreas Hotho Prof. Gerd Stumme Dipl.-Math. Robert Jäschke FG Wissensverarbeitung Vorlesung Beginn: 22. Oktober 2008 Mittwoch, 10.15 11.45 Uhr in

Mehr

Knowledge Discovery in Databases

Knowledge Discovery in Databases Knowledge Discovery in Databases Dr. Andreas Hotho Prof. Gerd Stumme Dipl.-Math. Robert Jäschke FG Wissensverarbeitung 1 http://www.lkw-stefan.de/galerie/tagebau/tagebau.htm Organisatorisches Vorlesung

Mehr

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,

Mehr

Gliederung. 1. Einleitung (1) 1. Einleitung (2) On detecting differences between groups

Gliederung. 1. Einleitung (1) 1. Einleitung (2) On detecting differences between groups Seminar im Fach Informatik Sommersemester 2006 Sascha Rüger Gliederung 1. Einleitung 2. Data Mining Systeme 3. Auswertung 4. Weitere Untersuchungen 5. Fazit 1. Einleitung (1) wichtige Aufgabe der Datenanalyse:

Mehr

Vorlesung Wissensentdeckung

Vorlesung Wissensentdeckung Vorlesung Wissensentdeckung Einführung 5.4.2011 Gliederung 1 Modellbildung und Evaluation 2 Verlaufsmodell der Wissensentdeckung 3 Einführung in das Werkzeug RapidMiner Problem Wir haben nur eine endliche

Mehr

Data Mining mit RapidMiner. Fakultät Informatik Lehrstuhl für Künstliche Intelligenz

Data Mining mit RapidMiner. Fakultät Informatik Lehrstuhl für Künstliche Intelligenz Data Mining mit RapidMiner Fakultät Informatik Motivation CRISP: DM-Prozess besteht aus unterschiedlichen Teilaufgaben Datenvorverarbeitung spielt wichtige Rolle im DM-Prozess Systematische Evaluationen

Mehr

Der CRISP-DM Prozess für Data Mining. CRISP-DM Standard CRISP-DM. Wozu einen standardisierten Prozess?

Der CRISP-DM Prozess für Data Mining. CRISP-DM Standard CRISP-DM. Wozu einen standardisierten Prozess? Wozu einen standardisierten Prozess? Der Prozess der Wissensentdeckung muss verlässlich und reproduzierbar sein auch für Menschen mit geringem Data Mining Hintergrundwissen. Der CRISP-DM Prozess für Data

Mehr

Knowledge Discovery in Databases Dr. Andreas Hotho FG Wissensverarbeitung FB Mathematik/Informatik

Knowledge Discovery in Databases Dr. Andreas Hotho FG Wissensverarbeitung FB Mathematik/Informatik Knowledge Discovery in Databases Dr. Andreas Hotho FG Wissensverarbeitung FB Mathematik/Informatik 1 Organisatorisches Vorlesung Beginn: 13. April 2005 Mittwoch, 14.15 15.45 Uhr in Raum 0443 Übungen Dienstag,

Mehr

Knowledge Discovery in Databases

Knowledge Discovery in Databases Knowledge Discovery in Databases Organisatorisches Dr. Andreas Hotho FG Wissensverarbeitung FB Mathematik/Informatik Vorlesung Beginn: 13. April 2005 Mittwoch, 14.15 15.45 Uhr in Raum 0443 Übungen Dienstag,

Mehr

INTELLIGENTE DATENANALYSE IN MATLAB

INTELLIGENTE DATENANALYSE IN MATLAB INTELLIGENTE DATENANALYSE IN MATLAB Einführungsveranstaltung Überblick Organisation Literatur Inhalt und Ziele der Vorlesung Beispiele aus der Praxis 2 Organisation Vorlesung/Übung + Projektarbeit. 4 Semesterwochenstunden.

Mehr

SharePoint 2007 als unternehmensweite Collaboration-Plattform Marc Werner-Nietz

SharePoint 2007 als unternehmensweite Collaboration-Plattform Marc Werner-Nietz SharePoint 2007 als unternehmensweite Collaboration-Plattform Marc Werner-Nietz Festo AG & Co. KG Esslingen were@de.festo.com Agenda Festo Das Unternehmen Warum SharePoint? Vorgehensweise bei der Einführung

Mehr

Nutzung maschinellen Lernens zur Extraktion von Paragraphen aus PDF-Dokumenten

Nutzung maschinellen Lernens zur Extraktion von Paragraphen aus PDF-Dokumenten Nutzung maschinellen Lernens zur Extraktion von Paragraphen aus PDF-Dokumenten Albert-Ludwigs-Universität zu Freiburg 13.09.2016 Maximilian Dippel max.dippel@tf.uni-freiburg.de Überblick I Einführung Problemstellung

Mehr

Vorlesung. Data und Web Mining. Kurzinformation zur. Univ.-Prof. Dr. Ralph Bergmann. Lehrstuhl für Wirtschaftsinformatik II

Vorlesung. Data und Web Mining. Kurzinformation zur. Univ.-Prof. Dr. Ralph Bergmann.  Lehrstuhl für Wirtschaftsinformatik II Kurzinformation zur Vorlesung Data und Web Mining Univ.-Prof. Dr. Ralph Bergmann www.wi2.uni-trier.de - I - 1 - Die Ausgangssituation (1) Unternehmen und Organisationen haben enorme Datenmengen angesammelt

Mehr

Kapitel 4: Data Mining

Kapitel 4: Data Mining LUDWIG- MAXIMILIANS- UNIVERSITY MUNICH DEPARTMENT INSTITUTE FOR INFORMATICS Skript zur Vorlesung: Einführung in die Informatik: Systeme und Anwendungen Sommersemester 2017 Kapitel 4: Data Mining Vorlesung:

Mehr

Case-Based Reasoning und anderen Inferenzmechanismen

Case-Based Reasoning und anderen Inferenzmechanismen Case-Based Reasoning und anderen Inferenzmechanismen Daniel Müller 21 April 2006 DM () CBR und Inferenz 21 April 2006 1 / 31 Contents 1 Einleitung 2 Inferenzmechanismen Statistische Verfahren Data Mining

Mehr

Kontextabhängige Integration von Diensten in intelligente Umgebungen

Kontextabhängige Integration von Diensten in intelligente Umgebungen Kontextabhängige Integration von Diensten in intelligente Umgebungen Philipp Lehsten, M.Sc. 22.11.2017 2009 UNIVERSITÄT ROSTOCK Fakultät für Informatik und Elektrotechnik Agenda Motivation Dienstevielfalt

Mehr

Unüberwachtes Lernen: Clusteranalyse und Assoziationsregeln

Unüberwachtes Lernen: Clusteranalyse und Assoziationsregeln Unüberwachtes Lernen: Clusteranalyse und Assoziationsregeln Praktikum: Data Warehousing und Data Mining Clusteranalyse Clusteranalyse Idee Bestimmung von Gruppen ähnlicher Tupel in multidimensionalen Datensätzen.

Mehr

Professionelle Konversions- Analyse und -Optimierung

Professionelle Konversions- Analyse und -Optimierung Professionelle Konversions- Analyse und -Optimierung etracker GmbH 1 Ich verschreibe Ihnen eine Sammlung an Medikamenten auf Basis von Best-Practices. Probieren Sie die Medikamente der Reihe nach aus und

Mehr

Knowledge Discovery in Databases

Knowledge Discovery in Databases Knowledge Discovery in Databases Springer-V erlag Berlin Heidelberg GmbH Martin Ester Jorg Sander Knowledge Discovery in Databases Techniken und Anwendungen Mit 150 Abbildungen i Springer Dr. Martin Ester

Mehr

Anpassung an den Klimawandel in der Normung

Anpassung an den Klimawandel in der Normung Anpassung an den Klimawandel in der Normung Stand der Entwicklungen Dr.-Ing. Mingyi Wang, Abt. Sach- und Technische-Versicherung, Schadenverhütung, Statistik Inhalt Nationale, europäische und internationale

Mehr

Exploration und Klassifikation von BigData

Exploration und Klassifikation von BigData Exploration und Klassifikation von BigData Inhalt Einführung Daten Data Mining: Vorbereitungen Clustering Konvexe Hülle Fragen Google: Riesige Datenmengen (2009: Prozessieren von 24 Petabytes pro Tag)

Mehr

Knowledge Discovery in Databases

Knowledge Discovery in Databases Knowledge Discovery in Databases Seminar zum Fach K Information Engineering Folien entstammen bzw. basieren auf Vorlesung zum Thema Knowledge Discovery am Institut für Angewandte Informatik und Formale

Mehr

Maschinelles Lernen und Data Mining

Maschinelles Lernen und Data Mining Semestralklausur zur Vorlesung Maschinelles Lernen und Data Mining Prof. J. Fürnkranz / Dr. G. Grieser Technische Universität Darmstadt Wintersemester 2004/05 Termin: 14. 2. 2005 Name: Vorname: Matrikelnummer:

Mehr

Data Mining Cup deck using PDA or similar devices. Wissensextraktion Multimedia Engineering

Data Mining Cup deck using PDA or similar devices. Wissensextraktion Multimedia Engineering Data Mining Cup 2012 Wissensextraktion Multimedia Engineering deck using PDA or similar devices Fakultät für Ingenieurwissenschaften Jevgenij Jakunschin Christian Mewes www.hs-wismar.de 2 Gliederung 1.

Mehr

Hauptseminar Data Mining im Wintersemester 2008 / 2009

Hauptseminar Data Mining im Wintersemester 2008 / 2009 Ludwig Maximilians Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Hauptseminar Data Mining im Wintersemester 2008 / 2009 Prof. Dr. Christian Böhm Annahita

Mehr

Predictive Analytics für Dummies. Click here if your download doesn"t start automatically

Predictive Analytics für Dummies. Click here if your download doesnt start automatically Predictive Analytics für Dummies Click here if your download doesn"t start automatically Predictive Analytics für Dummies Anasse Bari, Mohamed Chaouchi, Tommy Jung Predictive Analytics für Dummies Anasse

Mehr

Text-Mining: Einführung

Text-Mining: Einführung Text-Mining: Einführung Claes Neuefeind Fabian Steeg 22. April 2010 Organisatorisches Was ist Text-Mining? Definitionen Anwendungsbeispiele Textuelle Daten Aufgaben u. Teilbereiche Literatur Kontakt Sprechstunde:

Mehr

SS 2011 IBB4C Datenmanagement Fr 15:15 16:45 R 1.007. Vorlesung #1

SS 2011 IBB4C Datenmanagement Fr 15:15 16:45 R 1.007. Vorlesung #1 Vorlesung #1 Ihr Dozent... Name: Bojan Milijaš Ausbildung: Diplom-Informatiker Universität Passau, Vertiefungsgebiet Datenbanken, Prof. Alfons Kemper, Ph.D. Beschäftigung: Seit 1997 bei ORACLE Deutschland

Mehr

Der CRISP-DM Prozess für Data Mining

Der CRISP-DM Prozess für Data Mining technische universität Der CRISP-DM Prozess für Data Mining Prof. Dr. Katharina Morik Wozu einen standardisierten Prozess? Der Prozess der Wissensentdeckung muss verlässlich und reproduzierbar sein auch

Mehr

Steuerungsverfahren und ihre Datenstrukturen 02 - Datenmanagement

Steuerungsverfahren und ihre Datenstrukturen 02 - Datenmanagement Steuerungsverfahren und ihre Datenstrukturen 02 - Datenmanagement 1 Übersicht - Datenmanagement 1 Übersicht - Datenmanagement...1 2 Übersicht: Datenbanken - Datawarehouse...2 3 Übersicht: Data Mining...11

Mehr

Data Warehousing und Data Mining

Data Warehousing und Data Mining Data Warehousing und Data Mining Clustering Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Einführung Clustergüte Ähnlichkeiten Clustermitte Hierarchisches Clustering Partitionierendes

Mehr