Einführung in Data Mining anhand des Modells CRISP-DM
|
|
- Jonas Morgenstern
- vor 7 Jahren
- Abrufe
Transkript
1 Einführung in Data Mining anhand des Modells CRISP-DM Seminarvortrag Linnea Passing Seminar, Scientific Programming, FH Aachen Stand: Rechen- und Kommunikationszentrum (RZ)
2 Agenda Motivation Ausblick auf das Bachelorprojekt Data Mining / Knowledge Discovery in Databases Schnittstellen Statistik Datenbanksysteme CRISP-DM Begriffe Vorgehen Bewertung Literatur Folie 2
3 Motivation Es fallen immer mehr Daten an, Bonuskarten, Soziale Netzwerke, Handynutzung Astronomie, Meteorologie die möglichst automatisiert ausgewertet werden sollen Muster und Gruppenzugehörigkeit erkennen Trends vorhersagen um die Produktivität zu erhöhen und Erkenntnisse zu gewinnen. Kundenabwanderung frühzeitig erkennen Empfehlungen ( Kunden, die diesen Artikel gekauft haben, kauften auch ) Kreditwürdigkeit bestimmen Folie 3
4 Bachelorprojekt: RZ-Rechencluster Verbessertes Reporting für die Verantwortlichen am Rechenzentrum und der RWTH Wer nutzt den Rechencluster? Kann man Nutzergruppen unterscheiden? Lassen sich Trends bei der Benutzung erkennen? Wann und wieso fallen Teile des Clusters aus? Werden die Ressourcen effizient genutzt? Restriktionen Sehr große Datenmenge Fortlaufende, möglichst automatisierte Auswertung geplant Data Mining soll verwendet werden Folie 4
5 Terminologie Knowledge Discovery in Databases (KDD) Knowledge Discovery in Databases is the non-trivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data. (Fayyad, Piatetsky-Shapiro and Smyth 1996) automatisierter Prozess iterativ, bestehend aus mehreren Schritten Data Mining (DM) ursprünglich: ein Teilschritt des KDD: Anwenden der Algorithmen heute: gesamter Prozess des KDD, Begriffe werden synonym verwendet Folie 5
6 Vorgehensweise Ziel: Definiertes Vorgehen standardisierte Prozesse zur Arbeitserleichterung Wissensweitergabe, Lehrwerke Projektplanung, bessere Argumentation dem Kunden gegenüber Einteilung in Phasen Verstehen / Einarbeitung Datenaufbereitung und -transformation Anwenden der Algorithmen Aufbereitung der Ergebnisse, Projektabschluss Phasenübergänge? Folie 6
7 Schnittstellen Statistik Clustering: Daten in Gruppen einordnen, Ausreißer finden Klassifikation: Daten bestehenden Klassen zuordnen Assoziationsregeln: Wenn A und B, dann (mit großer Wahrscheinlichkeit) C Datenbanksysteme schneller, wahlfreier Datenzugriff Ad-hoc-Anfragen per SQL Performanceverbesserung durch read-only Datenbanken, Data Warehousing Folie 7
8 Terminologie: Datenbanken Data Mining Spalte Zeile Matrikelnummer Alter Schuhgröße Attribut Tupel Merkmal Datensatz Objekt Integrieren Zusammenfügen von Daten aus mehreren Quellen Fehlende und falsche Werte? Folie 8
9 CRISP-DM Cross-Industry Standard Process for Data Mining Beginn 1996 Vertreter mehrerer Firmen Förderung durch Europäische Union 2000: CRISP-DM 1.0 Selbstverständnis aus der Praxis kommend, Anregungen aus einer SIG frei verfügbar, nicht an proprietäre Programme gebunden nicht an einen Anwendungsfall gebunden ( Cross-Industry ) Folie 9
10 Verbreitung Umfrage aus dem Jahr 2007, via What main methodology are you using for data mining? (n=150) CRISP-DM My own SEMMA KDD Process My organization's Domain-specific methodology Other methodology, not domain-specific None Folie 10
11 Terminologie Hierarchischer Aufbau Process Instance Sechs Phasen, kein lineares Abarbeiten Process Model Reference Model User Guide generic task: Verwendung in allen Phase Projekten möglich specialized task: Verwendung in Generic Task Specialized Task einem speziellen Projekt, Annahmen getroffen Output Activity Output Activity Folie 11
12 Phasen und Dokumente Business Understanding Projektplan Vertrag Data Understanding Wissen über Daten Data Preparation Qualitätsbewertung Datenänderungen Modeling Evaluation Deployment Parameter Präsentation Algorithmen Projektablaufplan Ergebnisse deployment plan Dauer der Phasen stark unterschiedlich Folie 12
13 Datenqualität einige Kriterien der Datenqualität Vollständigkeit Genauigkeit Korrektheit Relevanz Fehlwerte Einzelne Merkmale Ganze Datensätze fehlen Falschwerte Echte Falschwerte: falsche Daten wurden gemessen / erhoben Unechte Falschwerte: korrekte Daten wurden falsch in die Datenbank übernommen Folie 13
14 Datenqualität verbessern Vorgehen Daten standardisieren: Formate, Rechtschreibung, Daten bereinigen: Fehler finden, Fehlwerte ergänzen, Duplikate entfernen, Fehlerhafte (alte) Daten speichern Methoden Logische Überlegungen Extremwerte/Ausreißer genauer betrachten Abgleich mit Listen Duplikate löschen Datenqualität bestimmen noise level : Anteil der falschen Werte Folie 14
15 Phasen und Dokumente Business Understanding Projektplan Vertrag Data Understanding Wissen über Daten Data Preparation Qualitätsbewertung Datenänderungen Modeling Evaluation Deployment Parameter Präsentation Algorithmen Projektablaufplan Ergebnisse deployment plan Dauer der Phasen stark unterschiedlich Folie 15
16 Clustering-Algorithmen Anforderungen an die Daten quantitative Merkmale Vektoren der Dimension m in Koordinatensystem darstellbar Zu erwartendes Ergebnis Einteilung in Cluster Clusterzentrum = Centroid Eigenschaften iterativ viele ähnliche Algorithmen, hier: Clustering durch Varianzminimierung Algorithmus findet kein absolutes Optimum, konvergiert aber schnell Folie 16
17 Clustering-Algorithmen benötigte Datenstrukturen Liste der Datensätze und Cluster-Zugehörigkeit Liste der Cluster und Centroide Algorithmus es soll n Cluster geben jeden Datenpunkt einem Cluster zuordnen Distanzfunktion, hier: euklidisch zweidimensional: d euklid = x x 2 centroid + y y 2 centroid Centroid neu bestimmen jeden Datenpunkt dem nächsten (Distanzformel!) Cluster zuordnen letzte zwei Schritte wiederholen, bis sich nichts mehr ändert Folie 17
18 Clustering-Algorithmen Ausgangslage Folie 18
19 Clustering-Algorithmen Centroide bestimmt Folie 19
20 Clustering-Algorithmen Datenpunkte zuordnen Folie 20
21 Clustering-Algorithmen Centroide bestimmen Folie 21
22 Clustering-Algorithmen Datenpunkte zuordnen Folie 22
23 Clustering-Algorithmen Centroide bestimmen und Ende Folie 23
24 Phasen und Dokumente Business Understanding Projektplan Vertrag Data Understanding Wissen über Daten Data Preparation Qualitätsbewertung Datenänderungen Modeling Evaluation Deployment Parameter Präsentation Algorithmen Projektablaufplan Ergebnisse deployment plan Dauer der Phasen stark unterschiedlich Folie 24
25 Phasenübergänge Vorlage aus dem CRISP-DM 1.0 Step-by-step data mining guide Folie 25
26 Zusammenfassung Phasen Einarbeitung in Thema und Daten Vorbereitung und Anwendung der Mathematik Prüfung der Ergebnisse Präsentation und Verwendung der Ergebnisse Aufbau wie ein Projekt Start und Ende vorgegeben begrenztes Budget / Ressourcen definiertes Ziel Vertrag, Zwischenberichte an Auftraggeber interne Dokumente ( lessons learned ) Folie 26
27 Bewertung Vorteile von CRISP-DM / einer definierten Vorgehensweise Hohe Erfolgschance durch bereits erprobte Anleitung Projektplanung (Zeit, Ressourcen, Budget, Risiken) einfacher Kommunikation zwischen technischen und kaufmännischen Mitarbeitern sowie mit den Kunden besser Nachteile Overhead, insbesondere durch die vielen Dokumente, die erstellt werden müssen individuelle Anpassungen an das eigene Projekt sinnvoll Folie 27
28 Literatur Chapman, Clinton, Kerber, Khabaza, Reinartz, Shearer, Wirth CRISP-DM 1.0 Step-by-step data mining guide SPSS, 2000 Online verfügbar: Piatetsky-Shapiro Poll: What main methodology are you using for data mining? mining methodology.htm Ester, Sander Knowledge Discovery in Databases Springer-Verlag, 2000 Folie 28
29 Vielen Dank für Ihre Aufmerksamkeit Gibt es noch Fragen? Folie 29
FH Aachen. Standort Jülich. Fachbereich Medizintechnik und Technomathematik Bachelorstudiengang Scientific Programming.
FH Aachen Standort Jülich Fachbereich Medizintechnik und Technomathematik Bachelorstudiengang Scientific Programming Seminararbeit Einführung in Data Mining anhand des Modells CRISP-DM Aachen, 14. Dezember
MehrData Mining im Einzelhandel Methoden und Werkzeuge
Fakultät Informatik Institut für Angewandte Informatik Professur Technische Informationssysteme Proseminar Technische Informationssysteme Data Mining im Einzelhandel Methoden und Werkzeuge Betreuer: Dipl.-Ing.
MehrEntwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion
Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion Vortrag Seminararbeit David Pogorzelski Aachen, 22.01.2015 Agenda 1 2 3 4 5 Ziel der
MehrData Mining und Knowledge Discovery in Databases
Data Mining und Knowledge Discovery in Databases Begriffsabgrenzungen... Phasen der KDD...3 3 Datenvorverarbeitung...4 3. Datenproblematik...4 3. Möglichkeiten der Datenvorverarbeitung...4 4 Data Mining
MehrKnowledge Discovery. Lösungsblatt 1
Universität Kassel Fachbereich Mathematik/nformatik Fachgebiet Wissensverarbeitung Hertie-Stiftungslehrstuhl Wilhelmshöher Allee 73 34121 Kassel Email: hotho@cs.uni-kassel.de Tel.: ++49 561 804-6252 Dr.
MehrPROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTE WS 09/10
PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTE WS 09/10 DATA MINING ALS EXPERIMENT VORTRAG: CHRISTOPH NÖLLENHEIDT 26.01.10 Ablauf Das CRISP-DM-Modell Zwei verschiedene Standpunkte über die Theoriebildung
MehrData Mining - Oracle vs. Open Source
Data Mining - Oracle vs. Open Source ein Erfahrungsbericht Prof. Dr. Reinhold von Schwerin D. Adam, K. Böll, S. Funk, F. Knittel, F. Langenbruch S. Nagel, H. Weissbach Hochschule Ulm, Fakultät für Informatik
MehrProjekt-INF Folie 1
Folie 1 Projekt-INF Entwicklung eines Testbed für den empirischen Vergleich verschiedener Methoden des maschinellen Lernens im Bezug auf die Erlernung von Produktentwicklungswissen Folie 2 Inhalt Ziel
MehrData/Information Quality Management
Data/Information Quality Management Seminar WI/Informationsmanagement im Sommersemester 2002 Markus Berberov, Roman Eder, Peter Gerstbach 11.6.2002 Inhalt! Daten und Datenqualität! Einführung und Definition!
MehrDomain-independent. independent Duplicate Detection. Vortrag von Marko Pilop & Jens Kleine. SE Data Cleansing
SE Data Cleansing Domain-independent independent Duplicate Detection Vortrag von Marko Pilop & Jens Kleine http://www.informatik.hu-berlin.de/~pilop/didd.pdf {pilop jkleine}@informatik.hu-berlin.de 1.0
MehrMaschinelles Lernen zur Hautkrebsvorhersage
Maschinelles Lernen zur Hautkrebsvorhersage Eine Bachelorarbeit von Daniel Fischer Betreuung: Dipl. Inf. Frederik Janssen Prof. Dr. Johannes Fürnkranz Dr. med. Matthias Herbst 03.07.2011 Fachbereich Informatik
MehrWas ist Data Mining... in der Fundraising Praxis?
Was ist Data Mining...... in der Fundraising Praxis? Erkennen von unbekannten Mustern in sehr grossen Datenbanken (> 1000 GB) wenige und leistungsfähige Verfahren Automatisierung Erkennen von unbekannten
MehrClustering 2010/06/11 Sebastian Koch 1
Clustering 2010/06/11 1 Motivation Quelle: http://www.ha-w.de/media/schulung01.jpg 2010/06/11 2 Was ist Clustering Idee: Gruppierung von Objekten so, dass: Innerhalb einer Gruppe sollen die Objekte möglichst
MehrData Mining auf Datenströmen Andreas M. Weiner
Technische Universität Kaiserslautern Fachbereich Informatik Lehrgebiet Datenverwaltungssysteme Integriertes Seminar Datenbanken und Informationssysteme Sommersemester 2005 Thema: Data Streams Andreas
MehrData Mining Projektsteuerung: Wie kombiniere ich CRISP-DM und Scrum?
Data Mining Projektsteuerung: Wie kombiniere ich CRISP-DM und Scrum? Prof. Dr. R. von Schwerin & V. Herbort, M.Sc. Institut für Informatik 29. Juni 2010 Inhalt 1 Einführung CRoss Industry Standard Process
MehrData Mining Standards am Beispiel von PMML. Data Mining Standards am Beispiel von PMML
Data Mining Standards am Beispiel von PMML Allgemeine Definitionen im Data Mining Data Mining (DM) Ein Prozess, um interessante neue Muster, Korrelationen und Trends in großen Datenbeständen zu entdecken,
MehrSeminar Business Intelligence Teil II. Data Mining & Knowledge Discovery
Seminar Business Intelligence Teil II Data Mining & Knowledge Discovery Was ist Data Mining? Sabine Queckbörner Was ist Data Mining? Data Mining Was ist Data Mining? Nach welchen Mustern wird gesucht?
MehrData Mining (ehem. Entscheidungsunterstützungssysteme)
Data Mining (ehem. Entscheidungsunterstützungssysteme) Melanie Pfoh Anja Tetzner Christian Schieder Übung WS 2014/15 AGENDA TEIL 1 Aufgabe 1 (Wiederholung OPAL / Vorlesungsinhalte) ENTSCHEIDUNG UND ENTSCHEIDUNGSTHEORIE
MehrPersonalisierung internetbasierter Handelsszenarien. Matthias Pretzer
Matthias Pretzer matthias.pretzer@informatik.uni-oldenburg.de http://diko-project.de/ Fachbereich Informatik Abteilung Informationssysteme Prof. Dr. Appelrath Inhalt: Motivation Grundlagen Anwendungsszenario
MehrAnwendung der Predictive Analytics
TDWI Konferenz mit BARC@TDWI Track 2014 München, 23. 25. Juni 2014 Anwendung der Predictive Analytics Prof. Dr. Carsten Felden Dipl. Wirt. Inf. Claudia Koschtial Technische Universität Bergakademie Freiberg
MehrInhaltliche Planung für die Vorlesung
Vorlesung: Künstliche Intelligenz - Mustererkennung - P LS ES S ST ME Künstliche Intelligenz Miao Wang 1 Inhaltliche Planung für die Vorlesung 1) Definition und Geschichte der KI, PROLOG 2) Expertensysteme
MehrData Warehousing und Data Mining
Data Warehousing und Data Mining Einführung in Data Mining Ulf Leser Wissensmanagement in der Bioinformatik Wo sind wir? Einleitung & Motivation Architektur Modellierung von Daten im DWH Umsetzung des
MehrDr. Andreas Hotho, Robert Jäschke Fachgebiet Wissensverarbeitung 30.10.2008. Wintersemester 2008/2009
Dr. Andreas Hotho, Robert Jäschke Fachgebiet Wissensverarbeitung 30.10.2008 1. Übung Knowledge Discovery Wintersemester 2008/2009 Vorbemerkungen Vorlesungsfolien und Übungsblätter können Sie im Internet
MehrAnalyse von Transaktionsdaten im Online-Ticketing mit Data-Mining-Methoden
1 Analyse von Transaktionsdaten im Online-Ticketing mit Data-Mining-Methoden Marten Pfannenschmidt, Freie Universität Berlin Prof. Dr. Jan Fabian Ehmke, Europa-Universität Viadrina Frank Schreier, Berliner
MehrMaschinelles Lernen und Data Mining: Methoden und Anwendungen
Maschinelles Lernen und Data Mining: Methoden und Anwendungen Eyke Hüllermeier Knowledge Engineering & Bioinformatics Fachbereich Mathematik und Informatik GFFT-Jahrestagung, Wesel, 17. Januar 2008 Knowledge
MehrWhisky-Empfehlungen. Whisky-Empfehlungen - Joachim Schole
Whisky-Empfehlungen 1 Agenda Motivation Einführung in die Domäne Whisky Einführung Empfehlungssysteme Einführung KDD, Data Mining, Clustering Aktueller Stand & Aufgaben 2 Motivation Problem Whisky-Empfehlung
MehrEFM-DBSCAN EIN BAUMBASIERTER CLUSTERING- ALGORITHMUS UNTER AUSNUTZUNG ERWEITERTER LEADER-UMGEBUNGEN. Philipp Egert. 08. März 2017
08. März 2017 EFM-DBSCAN EIN BAUMBASIERTER CLUSTERING- ALGORITHMUS UNTER AUSNUTZUNG ERWEITERTER LEADER-UMGEBUNGEN Philipp Egert Fachgebiet Datenbank- und Informationssysteme Motivation DBSCAN als Vorreiter
MehrDokumentation 4.0 Darstellen, Auswerten, Planen, Entscheiden
Eine Initiative zur Verbesserung der Trinkwasserinstallationen in Gebäuden. Dokumentation 4.0 Darstellen, Auswerten, Planen, Entscheiden Ing. Johannes Quicala Fachausschussmitglied, FORUM Wasserhygiene
MehrNeuere Konzepte von Informationssystemen Teil II. Neuere Konzepte von Informationssystemen Teil II. Gliederung. Motivation #1.
Neuere Konzepte von Informationssystemen Teil II Kapitel : KDD & Data Mining Gliederung Diese Vorlesung gliedert sich wie folgt: Einführung: Klassische Fragestellungen Data-Mining-Aufgaben Data-Mining-Verfahren
MehrTeil VIII. Weiterführende Veranstaltungen im FG Wissensverarbeitung
Teil VIII Weiterführende Veranstaltungen im FG Wissensverarbeitung Überblick 1 Zusammenfassung AlgoDS 2 Datenbanken 3 Internet-Suchmaschinen 4 Knowledge Discovery 5 Künstliche Intelligenz 6 Seminare &
MehrDB Hackday Datenqualität von ausgewählten Open Data Quellen und Möglichkeiten zur Verbesserung
Hier bitte vollflächig Titelbild einfügen ODER Diesen Text und Begrenzungslinie unten mit einem weissen Kasten überdecken. Titel: Zweite Zeile Orange+ fett formatieren! Bild immer bis zu den Kanten führen
MehrClustering. Clustering:
Clustering Clustering: Gruppierung und Einteilung einer Datenmenge nach ähnlichen Merkmalen Unüberwachte Klassifizierung (Neuronale Netze- Terminologie) Distanzkriterium: Ein Datenvektor ist zu anderen
MehrSeminar im Sommersemester 2005 DATA WAREHOUSING. Data Mining. Christian Knappe. Fachrichtung Wirtschaftsinformatik Friedrich-Schiller-Universität Jena
Seminar im Sommersemester 2005 DATA WAREHOUSING Data Mining Christian Knappe Fachrichtung Wirtschaftsinformatik Friedrich-Schiller-Universität Jena Fakultät für Mathematik und Informatik Lehrstuhl für
MehrVortrag Iterative Prozessmodelle/SCRUM
Vortrag Iterative Prozessmodelle/SCRUM von Marcus Hörger 1 Übersicht Einleitung Prozess Der Software-Entwicklungsprozess Prozessmodelle Lineare Prozessmodelle Das Phasenmodell Iterative Prozessmodelle
MehrDatenbanken und Informationssysteme
Datenbanken und Informationssysteme Lehrangebot Stefan Conrad Heinrich-Heine-Universität Düsseldorf Institut für Informatik April 2012 Stefan Conrad (HHU) Datenbanken und Informationssysteme April 2012
MehrMachine Learning. (nicht immer Lernen involviert, wenn Verbesserung erzielt wird: Wechseln der Klingen eines Rasenmähers)
Machine Learning 0. Vorbemerkungen Was ist Lernen? Simon: Jede Veränderung eines Systems, die es ihm erlaubt, eine Aufgabe bei der Wiederholung derselben Aufgabe oder einer Aufgabe derselben Art besser
MehrManagement Support Systeme
Management Support Systeme WS 24-25 4.-6. Uhr PD Dr. Peter Gluchowski Folie Gliederung MSS WS 4/5. Einführung Management Support Systeme: Informationssysteme zur Unterstützung betrieblicher Fach- und Führungskräfte
Mehr... Text Clustern. Clustern. Einführung Clustern. Einführung Clustern
Clustern Tet Clustern Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so daß: Beispiele innerhalb eines Clusters sich sehr ähnlich Beispiele in verschiedenen Clustern
MehrKnowledge Discovery In Databases. Data Mining - Der moderne Goldrausch?
Oberseminar Data Mining 07. April 2010 Methodik des Data Mining Knowledge Discovery In Databases oder auch Data Mining - Der moderne Goldrausch? Data Mining...? Hochleistungsrechnen Geoinformationssysteme
MehrProjektbericht. Evaluation und Ableitung von Ergebnissen anhand eines Fragebogens zur Studentensituation an der Hochschule Wismar
Business Intelligence Master Digitale Logistik und Management Projektbericht Evaluation und Ableitung von Ergebnissen anhand eines Fragebogens zur Studentensituation an der Hochschule Wismar Matthias Säger
MehrBusiness and Data Understanding. Business und Data Understanding
Business und Data Understanding Gliederung 1. Grundlagen 2. Von Data Warehouse zu Data Mining 3. Das CRISP-DM Referenzmodell 4. Die Phasen Business- und Data Understanding 5. Überblick der weiteren Phasen
MehrFragenkatalog zur Vorlesung "Grundlagen des Data Mining" (WS 2006/07)
Fragenkatalog zur Vorlesung "Grundlagen des Data Mining" (WS 2006/07) 1. Grenzen Sie die Begriffe "Daten" und "Wissen" mit je 3 charakteristischen Eigenschaften gegeander ab. 2. Nennen Sie vier verschiedene
MehrAgile BI Was ist das eigentlich? Hochschule Ulm - V. Herbort & Prof. Dr. R. von Schwerin
Agile BI Was ist das eigentlich? Hochschule Ulm - V. Herbort & Prof. Dr. R. von Schwerin Inhalt Agilität in der Business Intelligence Agile Software-Projekte Agile Data Warehousing / Self-Service BI 29.10.10
MehrPPC und Data Mining. Seminar aus Informatik LV-911.039. Michael Brugger. Fachbereich der Angewandten Informatik Universität Salzburg. 28.
PPC und Data Mining Seminar aus Informatik LV-911.039 Michael Brugger Fachbereich der Angewandten Informatik Universität Salzburg 28. Mai 2010 M. Brugger () PPC und Data Mining 28. Mai 2010 1 / 14 Inhalt
MehrData Mining Möglichkeiten und Anwendungsfelder
Data Mining Möglichkeiten und Anwendungsfelder 15. Symposium on Privacy and Security, Zürich, 31. 8. 2010 Dr. Stefan Rüping Fraunhofer IAIS Fraunhofer Institut für intelligente Analyse- und a~í~=jáåáåö=ó=jööäáåüâéáíéå=ìåç=^åïéåçìåöëñéäçéê=
MehrWerkzeugunterstützte Projektprognose
Werkzeugunterstützte Projektprognose Elena Emelyanova elena.emelyanova@rwthaachen.de 26.06.2015 Motivation? 2 Motivation 3 Motivation Daten von externem Kooperationspartner: # Projekte Projektdauer (in
MehrProjektgruppe. Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten
Projektgruppe Jennifer Post Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten 2. Juni 2010 Motivation Immer mehr Internet-Seiten Immer mehr digitale Texte Viele Inhalte ähnlich oder gleich
MehrData Warehousing und Data Mining
Data Warehousing und Data Mining Einführung in Data Mining Ulf Leser Wissensmanagement in der Bioinformatik Wo sind wir? Einleitung & Motivation Architektur Modellierung von Daten im DWH Umsetzung des
MehrAssoziationsregeln & Sequenzielle Muster. A. Hinneburg, Web Data Mining MLU Halle-Wittenberg, SS 2007
Assoziationsregeln & Sequenzielle Muster 0 Übersicht Grundlagen für Assoziationsregeln Apriori Algorithmus Verschiedene Datenformate Finden von Assoziationsregeln mit mehren unteren Schranken für Unterstützung
MehrKnowledge Discovery in Databases
Knowledge Discovery in Databases Organisatorisches Prof. Gerd Stumme Dipl.-Math. Robert Jäschke FG Wissensverarbeitung Präsenzübung bedeutet selbständiges Bearbeiten des Übungsblattes in Kleingruppen à
MehrÜbersicht. A. Hinneburg, Web Data Mining MLU Halle-Wittenberg, SS 2007
Übersicht Grundlagen für Assoziationsregeln Apriori Algorithmus Verschiedene Datenformate Finden von Assoziationsregeln mit mehren unteren Schranken für Unterstützung Finden von Assoziationsregeln für
MehrKapitel 1: Einleitung
Ludwig-Maximilians-Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Sommersemester 2013 Kapitel 1: Einleitung
MehrMethoden zur Cluster - Analyse
Kapitel 4 Spezialvorlesung Modul 10-202-2206 (Fortgeschrittene Methoden in der Bioinformatik) Jana Hertel Professur für Bioinformatik Institut für Informatik Universität Leipzig Machine learning in bioinformatics
MehrData Mining - Motivation
Data Mining - Motivation "Computers have promised us a fountain of wisdom but delivered a flood of data." "It has been estimated that the amount of information in the world doubles every 20 months." (Frawley,
MehrData Warehousing und Data Mining
Data Warehousing und Data Mining Einführung in Data Mining Ulf Leser Wissensmanagement in der Bioinformatik Wo sind wir? Einleitung & Motivation Architektur Modellierung von Daten im DWH Umsetzung des
MehrLokalisierung und Topologiekontrolle
Lokalisierung und Topologiekontrolle Seminar: Kommunikation in drahtlosen Sensornetzwerken Martin Schmidt Einführung Lokalisierung: Für viele Informationen ist die Position wichtig Traditionelle Technik
MehrStrukturerkennende Verfahren
Strukturerkennende Verfahren Viele Verfahren der multivariaten Datenanalyse dienen dazu, die in den Daten vorliegenden Strukturen zu erkennen und zu beschreiben. Dabei kann es sich um Strukturen sehr allgemeiner
MehrData Mining als Arbeitsprozess
Data Mining als Arbeitsprozess Hagen Knaf Studiengang Angewandte Mathematik Hochschule RheinMain 31. Dezember 2015 In Unternehmen werden umfangreichere Aktivitäten oder Projekte im Bereich des Data Mining
MehrPrognose von Kostenschwankungen mit Predictive Analytics DOAG 2016
Prognose von Kostenschwankungen mit Predictive Analytics DOAG 2016 CGI Deutschland Ltd. & Co. KG (Sulzbach) Alfred Stelzl (Lead Consultant Big Data Analytics) November 2016 CGI Group Inc. Agenda 2 Agenda
MehrInhalt. 6.1 Motivation. 6.2 Klassifikation. 6.3 Clusteranalyse. 6.4 Asszoziationsanalyse. Datenbanken & Informationssysteme / Kapitel 6: Data Mining
6. Data Mining Inhalt 6.1 Motivation 6.2 Klassifikation 6.3 Clusteranalyse 6.4 Asszoziationsanalyse 2 6.1 Motivation Data Mining and Knowledge Discovery zielt darauf ab, verwertbare Erkenntnisse (actionable
MehrAnwendungen des Data Mining in der Praxis. Seminarvortrag von Holger Dürr
Anwendungen des Data Mining in der Praxis Seminarvortrag von Holger Dürr Seminar Data Mining Wintersemester 2003/20042004 Professor Dr. Schweigert - Universität Ulm Themenübersicht Data Mining - Kleine
MehrMathematische Grundlagen III
Mathematische Grundlagen III Maschinelles Lernen III: Clustering Vera Demberg Universität des Saarlandes 7. Juli 202 Vera Demberg (UdS) Mathe III 7. Juli 202 / 35 Clustering vs. Klassifikation In den letzten
MehrWorkshops digitale Transformation
Workshops digitale Transformation Workshops digitale transformation So gelingt der sichere einstieg S M L XL ImpulSWorkshop Digitale transformation Digitaler Reifegrad Digitale Strategie Digitale Transformation
MehrKnowledge Discovery in Databases
Knowledge Discovery in Databases Organisatorisches Dr. Andreas Hotho Prof. Gerd Stumme Dipl.-Math. Robert Jäschke FG Wissensverarbeitung Vorlesung Beginn: 22. Oktober 2008 Mittwoch, 10.15 11.45 Uhr in
MehrKnowledge Discovery in Databases
Knowledge Discovery in Databases Dr. Andreas Hotho Prof. Gerd Stumme Dipl.-Math. Robert Jäschke FG Wissensverarbeitung 1 http://www.lkw-stefan.de/galerie/tagebau/tagebau.htm Organisatorisches Vorlesung
MehrVorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke
Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,
MehrGliederung. 1. Einleitung (1) 1. Einleitung (2) On detecting differences between groups
Seminar im Fach Informatik Sommersemester 2006 Sascha Rüger Gliederung 1. Einleitung 2. Data Mining Systeme 3. Auswertung 4. Weitere Untersuchungen 5. Fazit 1. Einleitung (1) wichtige Aufgabe der Datenanalyse:
MehrVorlesung Wissensentdeckung
Vorlesung Wissensentdeckung Einführung 5.4.2011 Gliederung 1 Modellbildung und Evaluation 2 Verlaufsmodell der Wissensentdeckung 3 Einführung in das Werkzeug RapidMiner Problem Wir haben nur eine endliche
MehrData Mining mit RapidMiner. Fakultät Informatik Lehrstuhl für Künstliche Intelligenz
Data Mining mit RapidMiner Fakultät Informatik Motivation CRISP: DM-Prozess besteht aus unterschiedlichen Teilaufgaben Datenvorverarbeitung spielt wichtige Rolle im DM-Prozess Systematische Evaluationen
MehrDer CRISP-DM Prozess für Data Mining. CRISP-DM Standard CRISP-DM. Wozu einen standardisierten Prozess?
Wozu einen standardisierten Prozess? Der Prozess der Wissensentdeckung muss verlässlich und reproduzierbar sein auch für Menschen mit geringem Data Mining Hintergrundwissen. Der CRISP-DM Prozess für Data
MehrKnowledge Discovery in Databases Dr. Andreas Hotho FG Wissensverarbeitung FB Mathematik/Informatik
Knowledge Discovery in Databases Dr. Andreas Hotho FG Wissensverarbeitung FB Mathematik/Informatik 1 Organisatorisches Vorlesung Beginn: 13. April 2005 Mittwoch, 14.15 15.45 Uhr in Raum 0443 Übungen Dienstag,
MehrKnowledge Discovery in Databases
Knowledge Discovery in Databases Organisatorisches Dr. Andreas Hotho FG Wissensverarbeitung FB Mathematik/Informatik Vorlesung Beginn: 13. April 2005 Mittwoch, 14.15 15.45 Uhr in Raum 0443 Übungen Dienstag,
MehrINTELLIGENTE DATENANALYSE IN MATLAB
INTELLIGENTE DATENANALYSE IN MATLAB Einführungsveranstaltung Überblick Organisation Literatur Inhalt und Ziele der Vorlesung Beispiele aus der Praxis 2 Organisation Vorlesung/Übung + Projektarbeit. 4 Semesterwochenstunden.
MehrSharePoint 2007 als unternehmensweite Collaboration-Plattform Marc Werner-Nietz
SharePoint 2007 als unternehmensweite Collaboration-Plattform Marc Werner-Nietz Festo AG & Co. KG Esslingen were@de.festo.com Agenda Festo Das Unternehmen Warum SharePoint? Vorgehensweise bei der Einführung
MehrNutzung maschinellen Lernens zur Extraktion von Paragraphen aus PDF-Dokumenten
Nutzung maschinellen Lernens zur Extraktion von Paragraphen aus PDF-Dokumenten Albert-Ludwigs-Universität zu Freiburg 13.09.2016 Maximilian Dippel max.dippel@tf.uni-freiburg.de Überblick I Einführung Problemstellung
MehrVorlesung. Data und Web Mining. Kurzinformation zur. Univ.-Prof. Dr. Ralph Bergmann. Lehrstuhl für Wirtschaftsinformatik II
Kurzinformation zur Vorlesung Data und Web Mining Univ.-Prof. Dr. Ralph Bergmann www.wi2.uni-trier.de - I - 1 - Die Ausgangssituation (1) Unternehmen und Organisationen haben enorme Datenmengen angesammelt
MehrKapitel 4: Data Mining
LUDWIG- MAXIMILIANS- UNIVERSITY MUNICH DEPARTMENT INSTITUTE FOR INFORMATICS Skript zur Vorlesung: Einführung in die Informatik: Systeme und Anwendungen Sommersemester 2017 Kapitel 4: Data Mining Vorlesung:
MehrCase-Based Reasoning und anderen Inferenzmechanismen
Case-Based Reasoning und anderen Inferenzmechanismen Daniel Müller 21 April 2006 DM () CBR und Inferenz 21 April 2006 1 / 31 Contents 1 Einleitung 2 Inferenzmechanismen Statistische Verfahren Data Mining
MehrKontextabhängige Integration von Diensten in intelligente Umgebungen
Kontextabhängige Integration von Diensten in intelligente Umgebungen Philipp Lehsten, M.Sc. 22.11.2017 2009 UNIVERSITÄT ROSTOCK Fakultät für Informatik und Elektrotechnik Agenda Motivation Dienstevielfalt
MehrUnüberwachtes Lernen: Clusteranalyse und Assoziationsregeln
Unüberwachtes Lernen: Clusteranalyse und Assoziationsregeln Praktikum: Data Warehousing und Data Mining Clusteranalyse Clusteranalyse Idee Bestimmung von Gruppen ähnlicher Tupel in multidimensionalen Datensätzen.
MehrProfessionelle Konversions- Analyse und -Optimierung
Professionelle Konversions- Analyse und -Optimierung etracker GmbH 1 Ich verschreibe Ihnen eine Sammlung an Medikamenten auf Basis von Best-Practices. Probieren Sie die Medikamente der Reihe nach aus und
MehrKnowledge Discovery in Databases
Knowledge Discovery in Databases Springer-V erlag Berlin Heidelberg GmbH Martin Ester Jorg Sander Knowledge Discovery in Databases Techniken und Anwendungen Mit 150 Abbildungen i Springer Dr. Martin Ester
MehrAnpassung an den Klimawandel in der Normung
Anpassung an den Klimawandel in der Normung Stand der Entwicklungen Dr.-Ing. Mingyi Wang, Abt. Sach- und Technische-Versicherung, Schadenverhütung, Statistik Inhalt Nationale, europäische und internationale
MehrExploration und Klassifikation von BigData
Exploration und Klassifikation von BigData Inhalt Einführung Daten Data Mining: Vorbereitungen Clustering Konvexe Hülle Fragen Google: Riesige Datenmengen (2009: Prozessieren von 24 Petabytes pro Tag)
MehrKnowledge Discovery in Databases
Knowledge Discovery in Databases Seminar zum Fach K Information Engineering Folien entstammen bzw. basieren auf Vorlesung zum Thema Knowledge Discovery am Institut für Angewandte Informatik und Formale
MehrMaschinelles Lernen und Data Mining
Semestralklausur zur Vorlesung Maschinelles Lernen und Data Mining Prof. J. Fürnkranz / Dr. G. Grieser Technische Universität Darmstadt Wintersemester 2004/05 Termin: 14. 2. 2005 Name: Vorname: Matrikelnummer:
MehrData Mining Cup deck using PDA or similar devices. Wissensextraktion Multimedia Engineering
Data Mining Cup 2012 Wissensextraktion Multimedia Engineering deck using PDA or similar devices Fakultät für Ingenieurwissenschaften Jevgenij Jakunschin Christian Mewes www.hs-wismar.de 2 Gliederung 1.
MehrHauptseminar Data Mining im Wintersemester 2008 / 2009
Ludwig Maximilians Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Hauptseminar Data Mining im Wintersemester 2008 / 2009 Prof. Dr. Christian Böhm Annahita
MehrPredictive Analytics für Dummies. Click here if your download doesn"t start automatically
Predictive Analytics für Dummies Click here if your download doesn"t start automatically Predictive Analytics für Dummies Anasse Bari, Mohamed Chaouchi, Tommy Jung Predictive Analytics für Dummies Anasse
MehrText-Mining: Einführung
Text-Mining: Einführung Claes Neuefeind Fabian Steeg 22. April 2010 Organisatorisches Was ist Text-Mining? Definitionen Anwendungsbeispiele Textuelle Daten Aufgaben u. Teilbereiche Literatur Kontakt Sprechstunde:
MehrSS 2011 IBB4C Datenmanagement Fr 15:15 16:45 R 1.007. Vorlesung #1
Vorlesung #1 Ihr Dozent... Name: Bojan Milijaš Ausbildung: Diplom-Informatiker Universität Passau, Vertiefungsgebiet Datenbanken, Prof. Alfons Kemper, Ph.D. Beschäftigung: Seit 1997 bei ORACLE Deutschland
MehrDer CRISP-DM Prozess für Data Mining
technische universität Der CRISP-DM Prozess für Data Mining Prof. Dr. Katharina Morik Wozu einen standardisierten Prozess? Der Prozess der Wissensentdeckung muss verlässlich und reproduzierbar sein auch
MehrSteuerungsverfahren und ihre Datenstrukturen 02 - Datenmanagement
Steuerungsverfahren und ihre Datenstrukturen 02 - Datenmanagement 1 Übersicht - Datenmanagement 1 Übersicht - Datenmanagement...1 2 Übersicht: Datenbanken - Datawarehouse...2 3 Übersicht: Data Mining...11
MehrData Warehousing und Data Mining
Data Warehousing und Data Mining Clustering Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Einführung Clustergüte Ähnlichkeiten Clustermitte Hierarchisches Clustering Partitionierendes
Mehr