Exploration und Klassifikation von BigData

Größe: px
Ab Seite anzeigen:

Download "Exploration und Klassifikation von BigData"

Transkript

1 Exploration und Klassifikation von BigData

2 Inhalt Einführung Daten Data Mining: Vorbereitungen Clustering Konvexe Hülle Fragen

3

4 Google: Riesige Datenmengen (2009: Prozessieren von 24 Petabytes pro Tag) Verschiedene Themenbereiche Sehr gute Precision/RecallWerte Konkrete Suche Wissenschaftliche Daten: Grosse Datenmenge Thematische Datenbank Exploration

5 Daten Flare RHESSI

6

7 Ziele des Projektes (Visuelle) Exploration der Daten ermöglichen Interessante Flares finden Vergleich von Flares Ähnlichkeiten finden Mögliche Lösung: Data Mining

8 Data Mining Systematisches Anwenden statistischer Methoden auf grosse Datenbestände mit dem Ziel neue Querverbindungen und Trends zu erkennen (nur Analyseschritt) Ziel in unserem Fall: Finden eines Ähnlichkeitsmasses

9 Parameter 1 Parameter 2 Parameter 3 Parameter 4 Parameter 1 Parameter 2 Parameter 3 Parameter 4

10 Wahl der geeigneten Parameter Gleichmässige Verteilung > ungeeignet Klare Strukturen > geeignet

11

12 Data Mining Techniken/Algorithmen: Graphen Machine Learning Histogramme Clustering Neuronale Netzwerke

13 Clustering Typen Partitionierende Verfahren (z.b. kmeans) Hierarchische Verfahren (z.b. DIANA) Dichtebasierte Verfahren (z.b. DBSCAN, OPTICS) Kombinierte Verfahren (z.b. Spectral Clustering)

14 kmeans 1. Wähle k zufällige Mittelwerte aus dem Datensatz 2. Ordne alle Datenobjekte demjenigen Cluster zu, bei dem die ClusterVarianz am wenigsten erhöht wird. 3. Berechne die Mittelpunkte der Cluster neu

15 Resultat kmeans mit k=25

16 Resultat kmeans mit k=10

17 kmeans Probleme Muss nicht optimale Lösung finden Anzahl Clusterzentren k muss im Voraus gewählt werden Sucht immer konvexe Cluster Keine Ausreisser

18 DBSCAN DensityBased Spatial Clustering of Applications with Noise 1. Benenne alle Datenpunkte als Kern, Rand oder Rauschpunkte 2. Lösche alle Rauschpunkte (ergeben den Cluster Noise ) 3. Verbinde Kernpunkte, die innerhalb einer ϵkugel liegen durch eine Kante 4. Eine Menge verbundener Kernpunkte bilden einen separaten Cluster 5. Weise jeden Randpunkt dem Cluster eines benachbarten Kernpunkts zu

19 Resultat DBSCAN mit ϵ=0.03 und MinPts=50

20 DBSCAN Vorteile Anzahl Cluster muss nicht angegeben werden Form der Cluster kann beliebig sein Rauschpunkte können erkannt werden DBSCAN Nachteile Nicht komplett deterministisch Probleme mit Datensets welche grosse unterschiede in der Dichte haben 2 Parameter müssen gefunden werden

21 Finden von ϵ und MinPts Ansätze: Nur Teile des Raumes betrachten Evolutionärer Algorithmus

22 Wie weiter nach dem Clustering? Möglichkeit zum Vergleich der Cluster gesucht

23 Konvexe Hülle Berechnung der konvexen Hülle durch GiftWrap Algorithmus (Jarvis march). Quelle:

24 Konvexe Hülle 3D

25 Konvexe Hülle 3D

26 Konvexe Hülle 3D

27 Konvexe Hülle 3D B Volumen Tetraeder ABCP (P ist einer der anderen Punkte): C A Volumen positiv: Punkt P steht links vom Dreieck ABC Volumen = 0: Punkt P koplanar zum Dreieck ABC Volumen negativ: Punkt P steht rechts vom Dreieck ABC

28 Konvexe Hülle 3D

29 Konvexe Hülle 3D

30 Konvexe Hülle 3D

31 Konvexe Hülle 3D

32 Konvexe Hülle 3D

33 Konvexe Hülle 3D

34 Konvexe Hülle 3D

35 Konvexe Hülle 3D

36 Konvexe Hülle 3D

37 Konvexe Hülle 3D

38 Konvexe Hülle 3D

39 Konvexe Hülle 3D

40 Konvexe Hülle wie weiter? Berechne Überschneidung der Cluster verschiedener Flares Punkt innerhalb einer konvexen Hülle? Liegt Punkt links von allen Teilen der konvexen Hülle? Berechne Strahl und Zähle, wie häufig die konvexe Hülle geschnitten wird (0: ausserhalb, 1: innerhalb, 2: ausserhalb)

41 Ähnlichkeitsmass Ähnlichkeit der Cluster verschiedener Flares berechnen, durch Berechnen der Überschneidung der Cluster.

42 Ablauf Data Mining in Projekten Daten kennenlernen Richtige Parameter finden Richtigen Data Mining Ansatz finden Implementation der gefundenen Lösungen Evaluation der Resultate Präsentation der Resultate

43 Fragen?

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen 7. Clusteranalyse (= Häufungsanalyse; Clustering-Verfahren) wird der multivariaten Statistik zugeordnet Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut,

Mehr

Kapitel 5: Clustering

Kapitel 5: Clustering Ludwig Maximilians Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Wintersemester 2006/2007 Kapitel

Mehr

Einführung in das Data Mining Clustering / Clusteranalyse

Einführung in das Data Mining Clustering / Clusteranalyse Einführung in das Data Mining Clustering / Clusteranalyse Sascha Szott Fachgebiet Informationssysteme HPI Potsdam 21. Mai 2008 Teil I Einführung Clustering / Clusteranalyse Ausgangspunkt: Menge O von Objekten

Mehr

Inhalt dieses Kapitels. Ziel des Clustering, Anwendungen, Typen von Clustering-Algorithmen

Inhalt dieses Kapitels. Ziel des Clustering, Anwendungen, Typen von Clustering-Algorithmen 2. Clustering Inhalt dieses Kapitels 3. Einleitung Ziel des Clustering, Anwendungen, Typen von Clustering-Algorithmen 3.2 Partitionierende Verfahren k-means, k-medoid, Expectation Maximization, Initialisierung

Mehr

Data Warehousing und Data Mining

Data Warehousing und Data Mining Data Warehousing und Data Mining Clustering Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Einführung Clustergüte Ähnlichkeiten Clustermitte Hierarchisches Clustering Partitionierendes

Mehr

Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion

Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion Vortrag Seminararbeit David Pogorzelski Aachen, 22.01.2015 Agenda 1 2 3 4 5 Ziel der

Mehr

Clustern. Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so dass:

Clustern. Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so dass: Text-Clustern 1 Clustern Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so dass: Beispiele innerhalb eines Clusters sich sehr ähnlich Beispiele in verschiedenen

Mehr

Moderne Clusteralgorithmen eine vergleichende Analyse auf zweidimensionalen Daten

Moderne Clusteralgorithmen eine vergleichende Analyse auf zweidimensionalen Daten Moderne Clusteralgorithmen eine vergleichende Analyse auf zweidimensionalen Daten Marcus Josiger, Kathrin Kirchner Friedrich Schiller Universität Jena 07743 Jena m.josiger@gmx.de, k.kirchner@wiwi.uni-jena.de

Mehr

Data Mining in der Cloud

Data Mining in der Cloud Data Mining in der Cloud von Jan-Christoph Meier Hamburg, 21.06.2012 1 Ablauf Einführung Verwandte Arbeiten Fazit / Ausblick Literatur 2 Ablauf Einführung Verwandte Arbeiten Fazit / Ausblick Literatur

Mehr

Data Mining - Clustering. Sven Elvers

Data Mining - Clustering. Sven Elvers Agenda Data Mining Clustering Aktuelle Arbeiten Thesis Outline 2 Agenda Data Mining Clustering Aktuelle Arbeiten Thesis Outline 3 Data Mining Entdecken versteckter Informationen, Muster und Zusammenhänge

Mehr

3.5 Datenbanktechniken zur Leistungssteigerung. 3. Clustering. 3.5 Datenbanktechniken zur Leistungssteigerung. 3. Clustering. Inhalt dieses Kapitels

3.5 Datenbanktechniken zur Leistungssteigerung. 3. Clustering. 3.5 Datenbanktechniken zur Leistungssteigerung. 3. Clustering. Inhalt dieses Kapitels 3.1 Einleitung 3. Clustering Inhalt dieses Kapitels Ziel des Clustering, Distanzfunktionen, Anwendungen, Typen von Algorithmen 3.2 Partitionierende Verfahren k-means, k-medoid, Expectation Maximization,

Mehr

Seminar Komplexe Objekte in Datenbanken

Seminar Komplexe Objekte in Datenbanken Seminar Komplexe Objekte in Datenbanken OPTICS: Ordering Points To Identify the Clustering Structure Lehrstuhl für Informatik IX - Univ.-Prof. Dr. Thomas Seidl, RWTH-Aachen http://www-i9.informatik.rwth-aachen.de

Mehr

KLASSIFIZIERUNG VON SCHADSOFTWARE ANHAND VON SIMULIERTEM NETZWERKVERKEHR

KLASSIFIZIERUNG VON SCHADSOFTWARE ANHAND VON SIMULIERTEM NETZWERKVERKEHR Retail KLASSIFIZIERUNG VON SCHADSOFTWARE ANHAND VON SIMULIERTEM NETZWERKVERKEHR Technology Life Sciences & Healthcare Florian Hockmann Ruhr-Universität Bochum florian.hockmann@rub.de Automotive Consumer

Mehr

Data Mining und Knowledge Discovery in Databases

Data Mining und Knowledge Discovery in Databases Data Mining und Knowledge Discovery in Databases Begriffsabgrenzungen... Phasen der KDD...3 3 Datenvorverarbeitung...4 3. Datenproblematik...4 3. Möglichkeiten der Datenvorverarbeitung...4 4 Data Mining

Mehr

WEKA A Machine Learning Interface for Data Mining

WEKA A Machine Learning Interface for Data Mining WEKA A Machine Learning Interface for Data Mining Frank Eibe, Mark Hall, Geoffrey Holmes, Richard Kirkby, Bernhard Pfahringer, Ian H. Witten Reinhard Klaus Losse Künstliche Intelligenz II WS 2009/2010

Mehr

Data Mining-Modelle und -Algorithmen

Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining ist ein Prozess, bei dem mehrere Komponenten i n- teragieren. Sie greifen auf Datenquellen, um diese zum Training,

Mehr

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,

Mehr

Proseminar - Data Mining

Proseminar - Data Mining Proseminar - Data Mining SCCS, Fakultät für Informatik Technische Universität München SS 2012, SS 2012 1 Data Mining Pipeline Planung Aufbereitung Modellbildung Auswertung Wir wollen nützliches Wissen

Mehr

Data Mining Anwendungen und Techniken

Data Mining Anwendungen und Techniken Data Mining Anwendungen und Techniken Knut Hinkelmann DFKI GmbH Entdecken von Wissen in banken Wissen Unternehmen sammeln ungeheure mengen enthalten wettbewerbsrelevantes Wissen Ziel: Entdecken dieses

Mehr

Rückblick. Wenn k-dimensionale Zelle C nicht dicht, dann alle (k+1)-dimensionalen Zellen, in denen C als Unterzelle enthalten ist, nicht dicht

Rückblick. Wenn k-dimensionale Zelle C nicht dicht, dann alle (k+1)-dimensionalen Zellen, in denen C als Unterzelle enthalten ist, nicht dicht Subspace Clustering CLIQUE: Rückblick Datenraum wird in Zellen der Breite ξ zerlegt. Eine Zelle ist dicht, wenn sie mind. τ Punkte enthält. Zusammenhängende Zellen bilden Cluster Unterraumsuche: - bottom-up

Mehr

Data Mining - Marketing-Schlagwort oder ernstzunehmende Innovation?

Data Mining - Marketing-Schlagwort oder ernstzunehmende Innovation? 1. Konferenz der A Benutzer KFE in Forschung und Entwicklung Data Mining - Marketing-chlagwort oder ernstzunehmende Innovation? Hans-Peter Höschel,, Heidelberg 1. Konferenz der A Benutzer KFE in Forschung

Mehr

Datenbanken-Themen im OS "Data Mining" SS 2010

Datenbanken-Themen im OS Data Mining SS 2010 Prof. Dr.-Ing. Thomas Kudraß HTWK Leipzig, FIMN Datenbanken-Themen im OS "Data Mining" SS 2010 Die Vorträge sollten eine Dauer von 60 Minuten (Einzelvortrag) bzw. 45 Minuten (Doppelvortrag) haben. Nachfolgend

Mehr

Fachgruppe Statistik, Risikoanalyse & Computing. STAT672 Data Mining. Sommersemester 2007. Prof. Dr. R. D. Reiß

Fachgruppe Statistik, Risikoanalyse & Computing. STAT672 Data Mining. Sommersemester 2007. Prof. Dr. R. D. Reiß Fachgruppe Statistik, Risikoanalyse & Computing STAT672 Data Mining Sommersemester 2007 Prof. Dr. R. D. Reiß Überblick Data Mining Begrifflichkeit Unter Data Mining versteht man die Computergestützte Suche

Mehr

Large-Scale Image Search

Large-Scale Image Search Large-Scale Image Search Visuelle Bildsuche in sehr großen Bildsammlungen Media Mining I Multimedia Computing, Universität Augsburg Rainer.Lienhart@informatik.uni-augsburg.de www.multimedia-computing.{de,org}

Mehr

Data Warehousing und Data Mining

Data Warehousing und Data Mining Data Warehousing und Data Mining Clustering Ulf Leser Wissensmanagement in der Bioinformatik Mehr Beobachtungen Sunny Hot High False Yes Sunny Hot High False No Sunny Hot High True No.. Ulf Leser: DWH

Mehr

Algorithms for Regression and Classification

Algorithms for Regression and Classification Fakultät für Informatik Effiziente Algorithmen und Komplexitätstheorie Algorithms for Regression and Classification Robust Regression and Genetic Association Studies Robin Nunkesser Fakultät für Informatik

Mehr

Web Data Mining. Alexander Hinneburg Sommersemester 2007

Web Data Mining. Alexander Hinneburg Sommersemester 2007 Web Data Mining Alexander Hinneburg Sommersemester 2007 Termine Vorlesung Mi. 10:00-11:30 Raum?? Übung Mi. 11:45-13:15 Raum?? Klausuren Mittwoch, 23. Mai Donnerstag, 12. Juli Buch Bing Liu: Web Data Mining

Mehr

Knowledge Discovery in Datenbanken I (IN5042)

Knowledge Discovery in Datenbanken I (IN5042) Knowledge Discovery in Datenbanken I (IN5042) Titel Knowledge Discovery in Databases I Typ Vorlesung mit Übung Credits 6 ECTS Lehrform/SWS 3V + 2Ü Sprache Deutsch Modulniveau Master Arbeitsaufwand Präsenzstunden

Mehr

Universität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme

Universität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme Universität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme Studienprojekt Invisible Web (Dipl.-Inform. Gudrun Fischer - WS 2003/04) Blockseminar

Mehr

Einführung in die Bioinformatik

Einführung in die Bioinformatik Einführung in die Bioinformatik Kay Nieselt SS 011 9. It s hip to chip - von Microarrays zu personalisierter Medizin WSI/ZBIT, Eberhard Karls Universität Tübingen Das menschliche Genom (.000.000.000 Basenpaare)

Mehr

Spatial Data Mining. Thomas Gäbler 04IN1

Spatial Data Mining. Thomas Gäbler 04IN1 Spatial Data Mining 1. Motivation 2. Räumliche Datenbanken 2.1 Unterschied zum klassischen Data Mining 2.2 topologische Beziehungen 2.3 metrische Beziehungen 2.4 gerichtete Beziehungen 3. Spatial Data

Mehr

Seminar zum Thema Künstliche Intelligenz:

Seminar zum Thema Künstliche Intelligenz: Wolfgang Ginolas Seminar zum Thema Künstliche Intelligenz: Clusteranalyse Wolfgang Ginolas 11.5.2005 Wolfgang Ginolas 1 Beispiel Was ist eine Clusteranalyse Ein einfacher Algorithmus 2 bei verschieden

Mehr

MS SQL Server 2012 (4)

MS SQL Server 2012 (4) MS SQL Server 2012 (4) Data Mining, Analyse und multivariate Verfahren Marco Skulschus Jan Tittel Marcus Wiederstein Webseite zum Buch: http://vvwvv.comelio-medien.com/buch-kataiog/ms sql_server/ms sql

Mehr

Density-Based Clustering in large Databases using Projections and Visualizations

Density-Based Clustering in large Databases using Projections and Visualizations Density-Based Clustering in large Databases using Projections and Visualizations Alexander Hinneburg Institut für Informatik Martin-Luther-Universität Halle-Wittenberg hinneburg@informatik.uni-halle.de

Mehr

Analyse dichtebasierter Clusteralgorithmen am Beispiel von DBSCAN und MajorClust. Michael Busch Studienarbeit WS 2004/2005 Universität Paderborn

Analyse dichtebasierter Clusteralgorithmen am Beispiel von DBSCAN und MajorClust. Michael Busch Studienarbeit WS 2004/2005 Universität Paderborn Analyse dichtebasierter Clusteralgorithmen am Beispiel von DBSCAN und MajorClust Michael Busch Studienarbeit WS 2004/2005 Universität Paderborn 22. März 2005 ii Analyse dichtebasierter Clusteralgorithmen

Mehr

Geometrie I. Sebastian Redinger Informatik 2 Programmiersysteme Martensstraße Erlangen

Geometrie I. Sebastian Redinger Informatik 2 Programmiersysteme Martensstraße Erlangen Geometrie I Sebastian Redinger 01.07.2015 Informatik 2 Programmiersysteme Martensstraße 3 91058 Erlangen Gliederung Grundlagen CCW Polygone Picks Theorem Konvexe Hülle - Graham Scan - Jarvis March 2 Gliederung

Mehr

Seminar Visual Analytics and Visual Data Mining

Seminar Visual Analytics and Visual Data Mining Seminar Visual Analytics and Visual Data Mining Dozenten:, AG Visual Computing Steffen Oeltze, AG Visualisierung Organisatorisches Seminar für Diplom und Bachelor-Studenten (max. 18) (leider nicht für

Mehr

Proseminar - Data Mining

Proseminar - Data Mining Proseminar - Data Mining SCCS, Fakultät für Informatik Technische Universität München SS 2014, SS 2014 1 Data Mining: Beispiele (1) Hausnummererkennung (Klassifikation) Source: http://arxiv.org/abs/1312.6082,

Mehr

Clustering Seminar für Statistik

Clustering Seminar für Statistik Clustering Markus Kalisch 03.12.2014 1 Ziel von Clustering Finde Gruppen, sodas Elemente innerhalb der gleichen Gruppe möglichst ähnlich sind und Elemente von verschiedenen Gruppen möglichst verschieden

Mehr

Cluster-Analyse Ziel: Anwendungsbereiche: Nutzen: Bezug zur Statistik: Bezug zu maschinellem Lernen:

Cluster-Analyse Ziel: Anwendungsbereiche: Nutzen: Bezug zur Statistik: Bezug zu maschinellem Lernen: Cluster-Analyse Ziel: Analyse von Daten ohne Klassenzugehörigkeit (mit Klassen siehe Klassifikation). Objekte werden so zu Clustern zusammengefasst, dass innerhalb eines Clusters die Objekte möglichst

Mehr

Data Mining mit RapidMiner

Data Mining mit RapidMiner Motivation Data Mining mit RapidMiner CRISP: DM-Prozess besteht aus unterschiedlichen Teilaufgaben Datenvorverarbeitung spielt wichtige Rolle im DM-Prozess Systematische Evaluationen erfordern flexible

Mehr

8.2.2.3 Übung - Arbeiten mit Android

8.2.2.3 Übung - Arbeiten mit Android 5.0 8.2.2.3 Übung - Arbeiten mit Android Einführung Drucken Sie die Übung aus und führen Sie sie Übungen durch. In dieser Übung werden Sie Apps und Widgets auf dem Home-Bildschirm platzieren und Sie zwischen

Mehr

Kapitel IR:I. I. Einführung. Retrieval-Szenarien Begriffsbildung Einordnung Information Retrieval

Kapitel IR:I. I. Einführung. Retrieval-Szenarien Begriffsbildung Einordnung Information Retrieval Kapitel IR:I I. Einführung Retrieval-Szenarien Begriffsbildung Einordnung Information Retrieval IR:I-1 Introduction STEIN 2005-2010 Retrieval-Szenarien Liefere Dokumente, die die Terme «Information» und

Mehr

Verborgene Schätze heben

Verborgene Schätze heben Verborgene Schätze heben Data Mining mit dem Microsoft SQL Server Martin Oesterer Leiter Vertrieb HMS Analytical Software GmbH Data Mining. Was ist eigentlich wichtig? Data Mining ist: die Extraktion von

Mehr

Synergien aus Graph-Theorie und Data-Mining für die Analyse von Netzwerkdaten

Synergien aus Graph-Theorie und Data-Mining für die Analyse von Netzwerkdaten für die Analyse von Netzwerkdaten Tanja Hartmann, Patricia Iglesias Sánchez, Andrea Kappes, Emmanuel Müller und Christopher Oßner IPD Institut für Programmstrukturen und Datenorganisation ITI Institut

Mehr

Einführung in die Bioinformatik

Einführung in die Bioinformatik Einführung in die Bioinformatik Kay Nieselt SS 01 8. It s hip to chip - von Microarrays zu personalisierter Medizin WSI/ZBIT, Eberhard Karls Universität Tübingen Das menschliche Genom (~.000.000.000 Basenpaare)

Mehr

Domain-independent. independent Duplicate Detection. Vortrag von Marko Pilop & Jens Kleine. SE Data Cleansing

Domain-independent. independent Duplicate Detection. Vortrag von Marko Pilop & Jens Kleine. SE Data Cleansing SE Data Cleansing Domain-independent independent Duplicate Detection Vortrag von Marko Pilop & Jens Kleine http://www.informatik.hu-berlin.de/~pilop/didd.pdf {pilop jkleine}@informatik.hu-berlin.de 1.0

Mehr

J. W. Goethe-Universität Frankfurt Seminar Data Mining WS98/99

J. W. Goethe-Universität Frankfurt Seminar Data Mining WS98/99 J. W. Goethe-Universität Frankfurt Seminar Data Mining WS98/99 Thema: Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications von Stefan Steinhaus (7 November 1999) Inhaltsverzeichnis

Mehr

Algorithmen und Datenstrukturen Bereichsbäume

Algorithmen und Datenstrukturen Bereichsbäume Algorithmen und Datenstrukturen Bereichsbäume Matthias Teschner Graphische Datenverarbeitung Institut für Informatik Universität Freiburg SS 12 Überblick Einführung k-d Baum BSP Baum R Baum Motivation

Mehr

Kapitel 4: Data Mining

Kapitel 4: Data Mining LUDWIG- MAXIMILIANS- UNIVERSITY MUNICH DEPARTMENT INSTITUTE FOR INFORMATICS Skript zur Vorlesung: Einführung in die Informatik: Systeme und Anwendungen Sommersemester 2011 Kapitel 4: Data Mining Vorlesung:

Mehr

Vorlesung Text und Data Mining S9 Text Clustering. Hans Hermann Weber Univ. Erlangen, Informatik

Vorlesung Text und Data Mining S9 Text Clustering. Hans Hermann Weber Univ. Erlangen, Informatik Vorlesung Text und Data Mining S9 Text Clustering Hans Hermann Weber Univ. Erlangen, Informatik Document Clustering Überblick 1 Es gibt (sehr viele) verschiedene Verfahren für das Bilden von Gruppen Bei

Mehr

Unsupervised Kernel Regression

Unsupervised Kernel Regression 9. Mai 26 Inhalt Nichtlineare Dimensionsreduktion mittels UKR (Unüberwachte KernRegression, 25) Anknüpfungspunkte Datamining I: PCA + Hauptkurven Benötigte Zutaten Klassische Kernregression Kerndichteschätzung

Mehr

Jan Ehmke Doktorandenworkshop 2008 St. Andreasberg, 10.03.2008

Jan Ehmke Doktorandenworkshop 2008 St. Andreasberg, 10.03.2008 Ermittlung dynamischer Fahrzeiten für die City-Logistik Jan Ehmke Doktorandenworkshop 2008 St. Andreasberg, 10.03.2008 Inhalt Einführung Planung in der City-Logistik Erhebung dynamischer Fahrzeiten Konzeption

Mehr

Masterarbeit. im Studiengang Informatik. Kombinationen von Data Mining-Verfahren: Analyse und Automatisierung. Ulf Mewe Matrikel.-Nr.

Masterarbeit. im Studiengang Informatik. Kombinationen von Data Mining-Verfahren: Analyse und Automatisierung. Ulf Mewe Matrikel.-Nr. LEIBNIZ UNIVERSITÄT HANNOVER FAKULTÄT FÜR ELEKTROTECHNIK UND INFORMATIK INSTITUT FÜR PRAKTISCHE INFORMATIK FACHGEBIET DATENBANKEN UND INFORMATIONSSYSTEME Masterarbeit im Studiengang Informatik Kombinationen

Mehr

PPC und Data Mining. Seminar aus Informatik LV-911.039. Michael Brugger. Fachbereich der Angewandten Informatik Universität Salzburg. 28.

PPC und Data Mining. Seminar aus Informatik LV-911.039. Michael Brugger. Fachbereich der Angewandten Informatik Universität Salzburg. 28. PPC und Data Mining Seminar aus Informatik LV-911.039 Michael Brugger Fachbereich der Angewandten Informatik Universität Salzburg 28. Mai 2010 M. Brugger () PPC und Data Mining 28. Mai 2010 1 / 14 Inhalt

Mehr

Clustering und Klassifikation

Clustering und Klassifikation Clustering und Klassifikation Matthias Pretzer matthias.pretzer@informatik.uni-oldenburg.de Ferdinand-von-Schill-Str. 3 26131 Oldenburg 5. Februar 2003 Im heutigen Informationszeitalter fallen immer schneller

Mehr

Data-Mining und Knowledge Discovery in Databases (KDD) Ein Überblick

Data-Mining und Knowledge Discovery in Databases (KDD) Ein Überblick Institut für Angewandte Informatik Professur für Technische Informationssysteme Fakultätsname XYZ Fachrichtung XYZ Institutsname XYZ, Professur XYZ Data-Mining und Knowledge Discovery in Databases (KDD)

Mehr

Data Mining zur Entscheidungsunterstützung in der Hydrologie

Data Mining zur Entscheidungsunterstützung in der Hydrologie Data Mining zur Entscheidungsunterstützung in der Hydrologie Thomas Seidl, Ralph Krieger, Ira Assent, Boris Glavic, Heribert Nacken, Sabine Bartusseck, Hani Sewilam Zusammenfassung Zur Umsetzung der europäischen

Mehr

Data Mining Standards am Beispiel von PMML. Data Mining Standards am Beispiel von PMML

Data Mining Standards am Beispiel von PMML. Data Mining Standards am Beispiel von PMML Data Mining Standards am Beispiel von PMML Allgemeine Definitionen im Data Mining Data Mining (DM) Ein Prozess, um interessante neue Muster, Korrelationen und Trends in großen Datenbeständen zu entdecken,

Mehr

Praktikum: Mediensicherheit und Forensik

Praktikum: Mediensicherheit und Forensik Praktikum: Mediensicherheit und Forensik Kontakt: Martin.Steinebach@SIT.Fraunhofer.de Fraunhofer Slide 1 Vorgehensweise Es gibt keine regelmäßigen Treffen für alle, sondern: Je Thema gibt es ein Team und

Mehr

Ideen der Informatik. Maschinelles Lernen. Kurt Mehlhorn Adrian Neumann Max-Planck-Institut für Informatik

Ideen der Informatik. Maschinelles Lernen. Kurt Mehlhorn Adrian Neumann Max-Planck-Institut für Informatik Ideen der Informatik Maschinelles Lernen Kurt Mehlhorn Adrian Neumann Max-Planck-Institut für Informatik Übersicht Lernen: Begriff Beispiele für den Stand der Kunst Spamerkennung Handschriftenerkennung

Mehr

Real-time Data Mining

Real-time Data Mining Florian Stompe Real-time Data Mining Datenmodellierung und Mustererkennung in Echtzeit Diplomica Verlag Florian Stompe Real-time Data Mining: Datenmodellierung und Mustererkennung in Echtzeit ISBN: 978-3-8366-2879-2

Mehr

Eine Einführung in R: Hochdimensionale Daten: n << p Teil II

Eine Einführung in R: Hochdimensionale Daten: n << p Teil II Eine Einführung in R: Hochdimensionale Daten: n

Mehr

Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014

Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014 Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014 Aufgabe 1. Data Mining a) Mit welchen Aufgabenstellungen befasst sich Data Mining? b) Was versteht man unter Transparenz einer Wissensrepräsentation?

Mehr

3. Clustering. 3. Clustering. 3.5 Datenbanktechniken zur Leistungssteigerung. 3.5 Datenbanktechniken zur Leistungssteigerung. Inhalt dieses Kapitels

3. Clustering. 3. Clustering. 3.5 Datenbanktechniken zur Leistungssteigerung. 3.5 Datenbanktechniken zur Leistungssteigerung. Inhalt dieses Kapitels 3 Einleitung 3 Clustering Inhalt dieses Kapitels Ziel des Clustering, Distanzfunktionen, Anwendungen, Typen von Algorithmen 32 Partitionierende Verfahren k-means, k-medoid, Expectation Maximization, Initialisierung

Mehr

Inhaltliche Planung für die Vorlesung

Inhaltliche Planung für die Vorlesung Vorlesung: Künstliche Intelligenz - Mustererkennung - P LS ES S ST ME Künstliche Intelligenz Miao Wang 1 Inhaltliche Planung für die Vorlesung 1) Definition und Geschichte der KI, PROLOG 2) Expertensysteme

Mehr

Data-Mining: Ausgewählte Verfahren und Werkzeuge

Data-Mining: Ausgewählte Verfahren und Werkzeuge Fakultät Informatik Institut für Angewandte Informatik Lehrstuhl Technische Informationssysteme Data-Mining: Ausgewählte Verfahren und Vortragender: Jia Mu Betreuer: Dipl.-Inf. Denis Stein Dresden, den

Mehr

ML-Werkzeuge und ihre Anwendung

ML-Werkzeuge und ihre Anwendung Kleine Einführung: und ihre Anwendung martin.loesch@kit.edu (0721) 608 45944 Motivation Einsatz von maschinellem Lernen erfordert durchdachtes Vorgehen Programmieren grundlegender Verfahren aufwändig fehlerträchtig

Mehr

Datenschutzgerechtes Data Mining

Datenschutzgerechtes Data Mining Datenschutzgerechtes Data Mining Seminarvortrag von Simon Boese Student der Wirtschaftsinformatik Wissensgewinnung Rohdaten aus DataWarehouse / OLAP Klassifikation / Assoziation Neue Infos: allgemeine

Mehr

Data. Guido Oswald Solution Architect @SAS Switzerland. make connections share ideas be inspired

Data. Guido Oswald Solution Architect @SAS Switzerland. make connections share ideas be inspired make connections share ideas be inspired Data Guido Oswald Solution Architect @SAS Switzerland BIG Data.. Wer? BIG Data.. Wer? Wikipedia sagt: Als Big Data werden besonders große Datenmengen bezeichnet,

Mehr

Dokumenten-Clustering. Norbert Fuhr

Dokumenten-Clustering. Norbert Fuhr Dokumenten-Clustering Norbert Fuhr Dokumenten-Clustering (Dokumenten-)Cluster: Menge von ähnlichen Dokumenten Ausgangspunkt Cluster-Hypothese : die Ähnlichkeit der relevanten Dokumente untereinander und

Mehr

Wie Google Webseiten bewertet. François Bry

Wie Google Webseiten bewertet. François Bry Wie Google Webseiten bewertet François Bry Heu6ge Vorlesung 1. Einleitung 2. Graphen und Matrizen 3. Erste Idee: Ranking als Eigenvektor 4. Fragen: Exisi6ert der Eigenvektor? Usw. 5. Zweite Idee: Die Google

Mehr

Generalisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE

Generalisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE Institut für Kartographie und Geoinformatik Leibniz Universität Hannover Generalisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE Frank Thiemann, Thomas Globig Frank.Thiemann@ikg.uni-hannover.de

Mehr

kurse 2013 Die genauen Kurstermine und Anmeldeformulare finden Sie unter www.dynelytics.com

kurse 2013 Die genauen Kurstermine und Anmeldeformulare finden Sie unter www.dynelytics.com Kurse 2013 SPSS kurse 2013 1 2 3 4 5 6 7 Einführungskurs Arbeiten mit IBM SPSS Statistics IBM SPSS Statistics in der Medizin Praktische Einführung in die quantitative Marktforschung Vertiefungskurs Arbeiten

Mehr

MapReduce und Datenbanken Thema 15: Strom bzw. Onlineverarbeitung mit MapReduce

MapReduce und Datenbanken Thema 15: Strom bzw. Onlineverarbeitung mit MapReduce MapReduce Jan Kristof Nidzwetzki MapReduce 1 / 17 Übersicht 1 Begriffe 2 Verschiedene Arbeiten 3 Ziele 4 DEDUCE: at the intersection of MapReduce and stream processing Beispiel 5 Beyond online aggregation:

Mehr

Prof. Dr.-Ing. Rainer Schmidt 1

Prof. Dr.-Ing. Rainer Schmidt 1 Prof. Dr.-Ing. Rainer Schmidt 1 Business Analytics und Big Data sind Thema vieler Veröffentlichungen. Big Data wird immer häufiger bei Google als Suchbegriff verwendet. Prof. Dr.-Ing. Rainer Schmidt 2

Mehr

Praxisorientierte. Weiterbildung KURSE 2014. dynelytics AG SCHNECKENMANNSTRASSE 25 CH-8044 ZÜRICH

Praxisorientierte. Weiterbildung KURSE 2014. dynelytics AG SCHNECKENMANNSTRASSE 25 CH-8044 ZÜRICH KURSE 2014 Praxisorientierte Weiterbildung dynelytics AG SCHNECKENMANNSTRASSE 25 CH-8044 ZÜRICH TELEFON (+41) 44 266 90 30 FAX (+41) 44 266 90 39 E-MAIL INFO@DYNELYTICS.COM Dynelytics IBM SPSS-Kurse 2014

Mehr

Big & Smart Data. bernard.bekavac@htwchur.ch

Big & Smart Data. bernard.bekavac@htwchur.ch Big & Smart Data Prof. Dr. Bernard Bekavac Schweizerisches Institut für Informationswissenschaft SII Studienleiter Bachelor of Science in Information Science bernard.bekavac@htwchur.ch Quiz An welchem

Mehr

GMDS-Tagung 2006 Bioinformatik 1. Assessing the stability of unsupervised learning results in small-sample-size problems

GMDS-Tagung 2006 Bioinformatik 1. Assessing the stability of unsupervised learning results in small-sample-size problems GMDS-Tagung 2006 Bioinformatik 1 Assessing the stability of unsupervised learning results in small-sample-size problems Ulrich Möller Email: Ulrich.Moeller@hki-jena.de Leibniz Institute for Natural Product

Mehr

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining Gliederung 1. Einführung 2. Grundlagen Data Mining Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining 3. Ausgewählte Methoden des Data

Mehr

Einführung. Information Retrieval. IR-Aufgaben. IR in Beispielen. Adhoc-Suche: Web. IR in Beispielen. Was ist IR? Norbert Fuhr

Einführung. Information Retrieval. IR-Aufgaben. IR in Beispielen. Adhoc-Suche: Web. IR in Beispielen. Was ist IR? Norbert Fuhr Einführung Information Retrieval Norbert Fuhr 13. Oktober 2011 IR in Beispielen Was ist IR? Daten Information Wissen Dimensionen des IR Rahmenarchitektur für IR-Systeme Adhoc-Suche: Web IR in Beispielen

Mehr

Linienland, Flächenland und der Hyperraum Ein Ausflug durch die Dimensionen

Linienland, Flächenland und der Hyperraum Ein Ausflug durch die Dimensionen Linienland, Flächenland und der Hyperraum Ein Ausflug durch die Dimensionen Stephan Rosebrock Pädagogische Hochschule Karlsruhe 23. März 2013 Stephan Rosebrock (Pädagogische Hochschule Linienland, Karlsruhe)

Mehr

Big Data Alter Wein in neuen Schläuchen? 27.11.2013 Josef Schmid M.A. Dynelytics AG

Big Data Alter Wein in neuen Schläuchen? 27.11.2013 Josef Schmid M.A. Dynelytics AG Big Data Alter Wein in neuen Schläuchen? 27.11.2013 Josef Schmid M.A. Dynelytics AG 2 Big Data Gartner prognostiziert, dass Unternehmen im laufenden Jahr für IT-Lösungen im Big-Data- Bereich 34 Milliarden

Mehr

Data Warehouse Definition (1) http://de.wikipedia.org/wiki/data-warehouse

Data Warehouse Definition (1) http://de.wikipedia.org/wiki/data-warehouse Data Warehouse Definition (1) http://de.wikipedia.org/wiki/data-warehouse Ein Data-Warehouse bzw. Datenlager ist eine zentrale Datensammlung (meist eine Datenbank), deren Inhalt sich aus Daten unterschiedlicher

Mehr

8. Clusterbildung, Klassifikation und Mustererkennung

8. Clusterbildung, Klassifikation und Mustererkennung 8. Clusterbildung, Klassifikation und Mustererkennung Begriffsklärung (nach Voss & Süße 1991): Objekt: wird in diesem Kapitel mit einem zugeordneten Merkmalstupel (x 1,..., x M ) identifiziert (Merkmalsextraktion

Mehr

x 2 x 1 x 3 5.1 Lernen mit Entscheidungsbäumen

x 2 x 1 x 3 5.1 Lernen mit Entscheidungsbäumen 5.1 Lernen mit Entscheidungsbäumen Falls zum Beispiel A = {gelb, rot, blau} R 2 und B = {0, 1}, so definiert der folgende Entscheidungsbaum eine Hypothese H : A B (wobei der Attributvektor aus A mit x

Mehr

Robustheitsuntersuchung am Beispiel der rechnerischen Simulation der ECE-R14

Robustheitsuntersuchung am Beispiel der rechnerischen Simulation der ECE-R14 alt 1. Vergleich der Methoden Reine Monte-Carlo-Analyse Ersatzflächenbasierte Monte-Carlo-Analyse 2. Restriktionen nach ECE-R14 3. FEM-Modell 4. Bauteile/ Parameter 5. Anwendung beider Methoden auf ECE-R14

Mehr

Häufige Item-Mengen: die Schlüssel-Idee. Vorlesungsplan. Apriori Algorithmus. Methoden zur Verbessung der Effizienz von Apriori

Häufige Item-Mengen: die Schlüssel-Idee. Vorlesungsplan. Apriori Algorithmus. Methoden zur Verbessung der Effizienz von Apriori Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,

Mehr

Masterarbeit. Jan-Christoph Meier. Konzeption und Entwicklung eines Systems zur automatisierten Clusteranalyse von Daten aus der Durchflusszytometrie

Masterarbeit. Jan-Christoph Meier. Konzeption und Entwicklung eines Systems zur automatisierten Clusteranalyse von Daten aus der Durchflusszytometrie Masterarbeit Jan-Christoph Meier Konzeption und Entwicklung eines Systems zur automatisierten Clusteranalyse von Daten aus der Durchflusszytometrie Fakultät Technik und Informatik Studiendepartment Informatik

Mehr

Treffsichere Absatzprognosen durch Predictive Analytics

Treffsichere Absatzprognosen durch Predictive Analytics Treffsichere Absatzprognosen durch Predictive Analytics Prof. Dr. Michael Feindt, Karlsruhe Institute of Technology KIT Chief Scientific Advisor, Phi-T GmbH und Blue Yonder GmbH & Co KG 3. Europäischer

Mehr

Oracle 10g und SQL Server 2005 ein Vergleich. Thomas Wächtler 39221

Oracle 10g und SQL Server 2005 ein Vergleich. Thomas Wächtler 39221 Oracle 10g und SQL Server 2005 ein Vergleich Thomas Wächtler 39221 Inhalt 1. Einführung 2. Architektur SQL Server 2005 1. SQLOS 2. Relational Engine 3. Protocol Layer 3. Services 1. Replication 2. Reporting

Mehr

20.01.2015 Fabian Grimme und Tino Krüger 1 INDREX. Evaluierung von H2O. Enterprise Data Management Beuth Hochschule für Technik

20.01.2015 Fabian Grimme und Tino Krüger 1 INDREX. Evaluierung von H2O. Enterprise Data Management Beuth Hochschule für Technik 20.01.2015 Fabian Grimme und Tino Krüger 1 INDREX Evaluierung von H2O Enterprise Data Management Beuth Hochschule für Technik 20.01.2015 Fabian Grimme und Tino Krüger 2 INDREX im Überblick In-Database

Mehr

Data Mining in SAP NetWeaver BI

Data Mining in SAP NetWeaver BI Martin Kießwetter, Dirk Vahl kam p Data Mining in SAP NetWeaver BI Galileo Press Bonn Boston 2.1 Was ist Data Mining? 17 2.2 Data Mining, KDD und Business Intelligence 20 2.3 KDD-Prozessmodelle 22 2.4

Mehr

Computerviren, Waldbrände und Seuchen - ein stochastisches Modell für die Reichweite einer Epidemie

Computerviren, Waldbrände und Seuchen - ein stochastisches Modell für die Reichweite einer Epidemie Computerviren, Waldbrände und Seuchen - ein stochastisches für die Reichweite einer Epidemie Universität Hildesheim Schüler-Universität der Universität Hildesheim, 21.06.2012 Warum Mathematik? Fragen zum

Mehr

R-Akademie Kursangebot November 2012

R-Akademie Kursangebot November 2012 Kooperationspartner der R-Akademie Kursangebot November 2012 Was ist R? R ist eine Open Source Programmiersprache zur statistischen Datenanalyse und -visualisierung. Mittlerweile hat sich R, neben den

Mehr

Ein Vergleich von Methoden für Multi-klassen Support Vector Maschinen

Ein Vergleich von Methoden für Multi-klassen Support Vector Maschinen Ein Vergleich von Methoden für Multi-klassen Support Vector Maschinen Einführung Auf binären Klassifikatoren beruhende Methoden One-Against-All One-Against-One DAGSVM Methoden die alle Daten zugleich betrachten

Mehr

Projekt zur Entwicklung, Umsetzung und Evaluation von Leitlinien zum adaptiven Management von Datenqualität in Kohortenstudien und Registern

Projekt zur Entwicklung, Umsetzung und Evaluation von Leitlinien zum adaptiven Management von Datenqualität in Kohortenstudien und Registern Projekt zur Entwicklung, Umsetzung und Evaluation von Leitlinien zum adaptiven Management von Datenqualität in Kohortenstudien und Registern gefördert durch die Indikatoren von Datenqualität Michael Nonnemacher

Mehr