Exploration und Klassifikation von BigData

Größe: px
Ab Seite anzeigen:

Download "Exploration und Klassifikation von BigData"

Transkript

1 Exploration und Klassifikation von BigData

2 Inhalt Einführung Daten Data Mining: Vorbereitungen Clustering Konvexe Hülle Fragen

3

4 Google: Riesige Datenmengen (2009: Prozessieren von 24 Petabytes pro Tag) Verschiedene Themenbereiche Sehr gute Precision/RecallWerte Konkrete Suche Wissenschaftliche Daten: Grosse Datenmenge Thematische Datenbank Exploration

5 Daten Flare RHESSI

6

7 Ziele des Projektes (Visuelle) Exploration der Daten ermöglichen Interessante Flares finden Vergleich von Flares Ähnlichkeiten finden Mögliche Lösung: Data Mining

8 Data Mining Systematisches Anwenden statistischer Methoden auf grosse Datenbestände mit dem Ziel neue Querverbindungen und Trends zu erkennen (nur Analyseschritt) Ziel in unserem Fall: Finden eines Ähnlichkeitsmasses

9 Parameter 1 Parameter 2 Parameter 3 Parameter 4 Parameter 1 Parameter 2 Parameter 3 Parameter 4

10 Wahl der geeigneten Parameter Gleichmässige Verteilung > ungeeignet Klare Strukturen > geeignet

11

12 Data Mining Techniken/Algorithmen: Graphen Machine Learning Histogramme Clustering Neuronale Netzwerke

13 Clustering Typen Partitionierende Verfahren (z.b. kmeans) Hierarchische Verfahren (z.b. DIANA) Dichtebasierte Verfahren (z.b. DBSCAN, OPTICS) Kombinierte Verfahren (z.b. Spectral Clustering)

14 kmeans 1. Wähle k zufällige Mittelwerte aus dem Datensatz 2. Ordne alle Datenobjekte demjenigen Cluster zu, bei dem die ClusterVarianz am wenigsten erhöht wird. 3. Berechne die Mittelpunkte der Cluster neu

15 Resultat kmeans mit k=25

16 Resultat kmeans mit k=10

17 kmeans Probleme Muss nicht optimale Lösung finden Anzahl Clusterzentren k muss im Voraus gewählt werden Sucht immer konvexe Cluster Keine Ausreisser

18 DBSCAN DensityBased Spatial Clustering of Applications with Noise 1. Benenne alle Datenpunkte als Kern, Rand oder Rauschpunkte 2. Lösche alle Rauschpunkte (ergeben den Cluster Noise ) 3. Verbinde Kernpunkte, die innerhalb einer ϵkugel liegen durch eine Kante 4. Eine Menge verbundener Kernpunkte bilden einen separaten Cluster 5. Weise jeden Randpunkt dem Cluster eines benachbarten Kernpunkts zu

19 Resultat DBSCAN mit ϵ=0.03 und MinPts=50

20 DBSCAN Vorteile Anzahl Cluster muss nicht angegeben werden Form der Cluster kann beliebig sein Rauschpunkte können erkannt werden DBSCAN Nachteile Nicht komplett deterministisch Probleme mit Datensets welche grosse unterschiede in der Dichte haben 2 Parameter müssen gefunden werden

21 Finden von ϵ und MinPts Ansätze: Nur Teile des Raumes betrachten Evolutionärer Algorithmus

22 Wie weiter nach dem Clustering? Möglichkeit zum Vergleich der Cluster gesucht

23 Konvexe Hülle Berechnung der konvexen Hülle durch GiftWrap Algorithmus (Jarvis march). Quelle:

24 Konvexe Hülle 3D

25 Konvexe Hülle 3D

26 Konvexe Hülle 3D

27 Konvexe Hülle 3D B Volumen Tetraeder ABCP (P ist einer der anderen Punkte): C A Volumen positiv: Punkt P steht links vom Dreieck ABC Volumen = 0: Punkt P koplanar zum Dreieck ABC Volumen negativ: Punkt P steht rechts vom Dreieck ABC

28 Konvexe Hülle 3D

29 Konvexe Hülle 3D

30 Konvexe Hülle 3D

31 Konvexe Hülle 3D

32 Konvexe Hülle 3D

33 Konvexe Hülle 3D

34 Konvexe Hülle 3D

35 Konvexe Hülle 3D

36 Konvexe Hülle 3D

37 Konvexe Hülle 3D

38 Konvexe Hülle 3D

39 Konvexe Hülle 3D

40 Konvexe Hülle wie weiter? Berechne Überschneidung der Cluster verschiedener Flares Punkt innerhalb einer konvexen Hülle? Liegt Punkt links von allen Teilen der konvexen Hülle? Berechne Strahl und Zähle, wie häufig die konvexe Hülle geschnitten wird (0: ausserhalb, 1: innerhalb, 2: ausserhalb)

41 Ähnlichkeitsmass Ähnlichkeit der Cluster verschiedener Flares berechnen, durch Berechnen der Überschneidung der Cluster.

42 Ablauf Data Mining in Projekten Daten kennenlernen Richtige Parameter finden Richtigen Data Mining Ansatz finden Implementation der gefundenen Lösungen Evaluation der Resultate Präsentation der Resultate

43 Fragen?

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen 7. Clusteranalyse (= Häufungsanalyse; Clustering-Verfahren) wird der multivariaten Statistik zugeordnet Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut,

Mehr

Kapitel 5: Clustering

Kapitel 5: Clustering Ludwig Maximilians Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Wintersemester 2006/2007 Kapitel

Mehr

Einführung in das Data Mining Clustering / Clusteranalyse

Einführung in das Data Mining Clustering / Clusteranalyse Einführung in das Data Mining Clustering / Clusteranalyse Sascha Szott Fachgebiet Informationssysteme HPI Potsdam 21. Mai 2008 Teil I Einführung Clustering / Clusteranalyse Ausgangspunkt: Menge O von Objekten

Mehr

Inhalt dieses Kapitels. Ziel des Clustering, Anwendungen, Typen von Clustering-Algorithmen

Inhalt dieses Kapitels. Ziel des Clustering, Anwendungen, Typen von Clustering-Algorithmen 2. Clustering Inhalt dieses Kapitels 3. Einleitung Ziel des Clustering, Anwendungen, Typen von Clustering-Algorithmen 3.2 Partitionierende Verfahren k-means, k-medoid, Expectation Maximization, Initialisierung

Mehr

Data Warehousing und Data Mining

Data Warehousing und Data Mining Data Warehousing und Data Mining Clustering Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Einführung Clustergüte Ähnlichkeiten Clustermitte Hierarchisches Clustering Partitionierendes

Mehr

Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion

Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion Vortrag Seminararbeit David Pogorzelski Aachen, 22.01.2015 Agenda 1 2 3 4 5 Ziel der

Mehr

Clustern. Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so dass:

Clustern. Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so dass: Text-Clustern 1 Clustern Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so dass: Beispiele innerhalb eines Clusters sich sehr ähnlich Beispiele in verschiedenen

Mehr

Data Mining-Modelle und -Algorithmen

Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining ist ein Prozess, bei dem mehrere Komponenten i n- teragieren. Sie greifen auf Datenquellen, um diese zum Training,

Mehr

Moderne Clusteralgorithmen eine vergleichende Analyse auf zweidimensionalen Daten

Moderne Clusteralgorithmen eine vergleichende Analyse auf zweidimensionalen Daten Moderne Clusteralgorithmen eine vergleichende Analyse auf zweidimensionalen Daten Marcus Josiger, Kathrin Kirchner Friedrich Schiller Universität Jena 07743 Jena m.josiger@gmx.de, k.kirchner@wiwi.uni-jena.de

Mehr

3.5 Datenbanktechniken zur Leistungssteigerung. 3. Clustering. 3.5 Datenbanktechniken zur Leistungssteigerung. 3. Clustering. Inhalt dieses Kapitels

3.5 Datenbanktechniken zur Leistungssteigerung. 3. Clustering. 3.5 Datenbanktechniken zur Leistungssteigerung. 3. Clustering. Inhalt dieses Kapitels 3.1 Einleitung 3. Clustering Inhalt dieses Kapitels Ziel des Clustering, Distanzfunktionen, Anwendungen, Typen von Algorithmen 3.2 Partitionierende Verfahren k-means, k-medoid, Expectation Maximization,

Mehr

Data Mining - Clustering. Sven Elvers

Data Mining - Clustering. Sven Elvers Agenda Data Mining Clustering Aktuelle Arbeiten Thesis Outline 2 Agenda Data Mining Clustering Aktuelle Arbeiten Thesis Outline 3 Data Mining Entdecken versteckter Informationen, Muster und Zusammenhänge

Mehr

Data Mining Anwendungen und Techniken

Data Mining Anwendungen und Techniken Data Mining Anwendungen und Techniken Knut Hinkelmann DFKI GmbH Entdecken von Wissen in banken Wissen Unternehmen sammeln ungeheure mengen enthalten wettbewerbsrelevantes Wissen Ziel: Entdecken dieses

Mehr

Proseminar - Data Mining

Proseminar - Data Mining Proseminar - Data Mining SCCS, Fakultät für Informatik Technische Universität München SS 2012, SS 2012 1 Data Mining Pipeline Planung Aufbereitung Modellbildung Auswertung Wir wollen nützliches Wissen

Mehr

Data Mining in der Cloud

Data Mining in der Cloud Data Mining in der Cloud von Jan-Christoph Meier Hamburg, 21.06.2012 1 Ablauf Einführung Verwandte Arbeiten Fazit / Ausblick Literatur 2 Ablauf Einführung Verwandte Arbeiten Fazit / Ausblick Literatur

Mehr

KLASSIFIZIERUNG VON SCHADSOFTWARE ANHAND VON SIMULIERTEM NETZWERKVERKEHR

KLASSIFIZIERUNG VON SCHADSOFTWARE ANHAND VON SIMULIERTEM NETZWERKVERKEHR Retail KLASSIFIZIERUNG VON SCHADSOFTWARE ANHAND VON SIMULIERTEM NETZWERKVERKEHR Technology Life Sciences & Healthcare Florian Hockmann Ruhr-Universität Bochum florian.hockmann@rub.de Automotive Consumer

Mehr

Seminar Komplexe Objekte in Datenbanken

Seminar Komplexe Objekte in Datenbanken Seminar Komplexe Objekte in Datenbanken OPTICS: Ordering Points To Identify the Clustering Structure Lehrstuhl für Informatik IX - Univ.-Prof. Dr. Thomas Seidl, RWTH-Aachen http://www-i9.informatik.rwth-aachen.de

Mehr

Data Mining und Knowledge Discovery in Databases

Data Mining und Knowledge Discovery in Databases Data Mining und Knowledge Discovery in Databases Begriffsabgrenzungen... Phasen der KDD...3 3 Datenvorverarbeitung...4 3. Datenproblematik...4 3. Möglichkeiten der Datenvorverarbeitung...4 4 Data Mining

Mehr

Data Mining - Marketing-Schlagwort oder ernstzunehmende Innovation?

Data Mining - Marketing-Schlagwort oder ernstzunehmende Innovation? 1. Konferenz der A Benutzer KFE in Forschung und Entwicklung Data Mining - Marketing-chlagwort oder ernstzunehmende Innovation? Hans-Peter Höschel,, Heidelberg 1. Konferenz der A Benutzer KFE in Forschung

Mehr

Rückblick. Wenn k-dimensionale Zelle C nicht dicht, dann alle (k+1)-dimensionalen Zellen, in denen C als Unterzelle enthalten ist, nicht dicht

Rückblick. Wenn k-dimensionale Zelle C nicht dicht, dann alle (k+1)-dimensionalen Zellen, in denen C als Unterzelle enthalten ist, nicht dicht Subspace Clustering CLIQUE: Rückblick Datenraum wird in Zellen der Breite ξ zerlegt. Eine Zelle ist dicht, wenn sie mind. τ Punkte enthält. Zusammenhängende Zellen bilden Cluster Unterraumsuche: - bottom-up

Mehr

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,

Mehr

Datenbanken-Themen im OS "Data Mining" SS 2010

Datenbanken-Themen im OS Data Mining SS 2010 Prof. Dr.-Ing. Thomas Kudraß HTWK Leipzig, FIMN Datenbanken-Themen im OS "Data Mining" SS 2010 Die Vorträge sollten eine Dauer von 60 Minuten (Einzelvortrag) bzw. 45 Minuten (Doppelvortrag) haben. Nachfolgend

Mehr

Large-Scale Image Search

Large-Scale Image Search Large-Scale Image Search Visuelle Bildsuche in sehr großen Bildsammlungen Media Mining I Multimedia Computing, Universität Augsburg Rainer.Lienhart@informatik.uni-augsburg.de www.multimedia-computing.{de,org}

Mehr

Data Warehousing und Data Mining

Data Warehousing und Data Mining Data Warehousing und Data Mining Clustering Ulf Leser Wissensmanagement in der Bioinformatik Mehr Beobachtungen Sunny Hot High False Yes Sunny Hot High False No Sunny Hot High True No.. Ulf Leser: DWH

Mehr

Algorithms for Regression and Classification

Algorithms for Regression and Classification Fakultät für Informatik Effiziente Algorithmen und Komplexitätstheorie Algorithms for Regression and Classification Robust Regression and Genetic Association Studies Robin Nunkesser Fakultät für Informatik

Mehr

Data Mining mit RapidMiner

Data Mining mit RapidMiner Motivation Data Mining mit RapidMiner CRISP: DM-Prozess besteht aus unterschiedlichen Teilaufgaben Datenvorverarbeitung spielt wichtige Rolle im DM-Prozess Systematische Evaluationen erfordern flexible

Mehr

WEKA A Machine Learning Interface for Data Mining

WEKA A Machine Learning Interface for Data Mining WEKA A Machine Learning Interface for Data Mining Frank Eibe, Mark Hall, Geoffrey Holmes, Richard Kirkby, Bernhard Pfahringer, Ian H. Witten Reinhard Klaus Losse Künstliche Intelligenz II WS 2009/2010

Mehr

Einführung in die Bioinformatik

Einführung in die Bioinformatik Einführung in die Bioinformatik Kay Nieselt SS 011 9. It s hip to chip - von Microarrays zu personalisierter Medizin WSI/ZBIT, Eberhard Karls Universität Tübingen Das menschliche Genom (.000.000.000 Basenpaare)

Mehr

J. W. Goethe-Universität Frankfurt Seminar Data Mining WS98/99

J. W. Goethe-Universität Frankfurt Seminar Data Mining WS98/99 J. W. Goethe-Universität Frankfurt Seminar Data Mining WS98/99 Thema: Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications von Stefan Steinhaus (7 November 1999) Inhaltsverzeichnis

Mehr

Spatial Data Mining. Thomas Gäbler 04IN1

Spatial Data Mining. Thomas Gäbler 04IN1 Spatial Data Mining 1. Motivation 2. Räumliche Datenbanken 2.1 Unterschied zum klassischen Data Mining 2.2 topologische Beziehungen 2.3 metrische Beziehungen 2.4 gerichtete Beziehungen 3. Spatial Data

Mehr

Fachgruppe Statistik, Risikoanalyse & Computing. STAT672 Data Mining. Sommersemester 2007. Prof. Dr. R. D. Reiß

Fachgruppe Statistik, Risikoanalyse & Computing. STAT672 Data Mining. Sommersemester 2007. Prof. Dr. R. D. Reiß Fachgruppe Statistik, Risikoanalyse & Computing STAT672 Data Mining Sommersemester 2007 Prof. Dr. R. D. Reiß Überblick Data Mining Begrifflichkeit Unter Data Mining versteht man die Computergestützte Suche

Mehr

Density-Based Clustering in large Databases using Projections and Visualizations

Density-Based Clustering in large Databases using Projections and Visualizations Density-Based Clustering in large Databases using Projections and Visualizations Alexander Hinneburg Institut für Informatik Martin-Luther-Universität Halle-Wittenberg hinneburg@informatik.uni-halle.de

Mehr

Analyse dichtebasierter Clusteralgorithmen am Beispiel von DBSCAN und MajorClust. Michael Busch Studienarbeit WS 2004/2005 Universität Paderborn

Analyse dichtebasierter Clusteralgorithmen am Beispiel von DBSCAN und MajorClust. Michael Busch Studienarbeit WS 2004/2005 Universität Paderborn Analyse dichtebasierter Clusteralgorithmen am Beispiel von DBSCAN und MajorClust Michael Busch Studienarbeit WS 2004/2005 Universität Paderborn 22. März 2005 ii Analyse dichtebasierter Clusteralgorithmen

Mehr

Web Data Mining. Alexander Hinneburg Sommersemester 2007

Web Data Mining. Alexander Hinneburg Sommersemester 2007 Web Data Mining Alexander Hinneburg Sommersemester 2007 Termine Vorlesung Mi. 10:00-11:30 Raum?? Übung Mi. 11:45-13:15 Raum?? Klausuren Mittwoch, 23. Mai Donnerstag, 12. Juli Buch Bing Liu: Web Data Mining

Mehr

Knowledge Discovery in Datenbanken I (IN5042)

Knowledge Discovery in Datenbanken I (IN5042) Knowledge Discovery in Datenbanken I (IN5042) Titel Knowledge Discovery in Databases I Typ Vorlesung mit Übung Credits 6 ECTS Lehrform/SWS 3V + 2Ü Sprache Deutsch Modulniveau Master Arbeitsaufwand Präsenzstunden

Mehr

Proseminar - Data Mining

Proseminar - Data Mining Proseminar - Data Mining SCCS, Fakultät für Informatik Technische Universität München SS 2014, SS 2014 1 Data Mining: Beispiele (1) Hausnummererkennung (Klassifikation) Source: http://arxiv.org/abs/1312.6082,

Mehr

Seminar Visual Analytics and Visual Data Mining

Seminar Visual Analytics and Visual Data Mining Seminar Visual Analytics and Visual Data Mining Dozenten:, AG Visual Computing Steffen Oeltze, AG Visualisierung Organisatorisches Seminar für Diplom und Bachelor-Studenten (max. 18) (leider nicht für

Mehr

Universität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme

Universität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme Universität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme Studienprojekt Invisible Web (Dipl.-Inform. Gudrun Fischer - WS 2003/04) Blockseminar

Mehr

Cluster-Analyse Ziel: Anwendungsbereiche: Nutzen: Bezug zur Statistik: Bezug zu maschinellem Lernen:

Cluster-Analyse Ziel: Anwendungsbereiche: Nutzen: Bezug zur Statistik: Bezug zu maschinellem Lernen: Cluster-Analyse Ziel: Analyse von Daten ohne Klassenzugehörigkeit (mit Klassen siehe Klassifikation). Objekte werden so zu Clustern zusammengefasst, dass innerhalb eines Clusters die Objekte möglichst

Mehr

Kapitel IR:I. I. Einführung. Retrieval-Szenarien Begriffsbildung Einordnung Information Retrieval

Kapitel IR:I. I. Einführung. Retrieval-Szenarien Begriffsbildung Einordnung Information Retrieval Kapitel IR:I I. Einführung Retrieval-Szenarien Begriffsbildung Einordnung Information Retrieval IR:I-1 Introduction STEIN 2005-2010 Retrieval-Szenarien Liefere Dokumente, die die Terme «Information» und

Mehr

Seminar zum Thema Künstliche Intelligenz:

Seminar zum Thema Künstliche Intelligenz: Wolfgang Ginolas Seminar zum Thema Künstliche Intelligenz: Clusteranalyse Wolfgang Ginolas 11.5.2005 Wolfgang Ginolas 1 Beispiel Was ist eine Clusteranalyse Ein einfacher Algorithmus 2 bei verschieden

Mehr

Data Mining Standards am Beispiel von PMML. Data Mining Standards am Beispiel von PMML

Data Mining Standards am Beispiel von PMML. Data Mining Standards am Beispiel von PMML Data Mining Standards am Beispiel von PMML Allgemeine Definitionen im Data Mining Data Mining (DM) Ein Prozess, um interessante neue Muster, Korrelationen und Trends in großen Datenbeständen zu entdecken,

Mehr

Lernen neuer Malware-URL-Muster in einem Hostblocking-System

Lernen neuer Malware-URL-Muster in einem Hostblocking-System Lernen neuer Malware-URL-Muster in einem Hostblocking-System Thomas Hungenberg, Dr. Timo Steffens Referat 121 CERT-Bund, BSI DFN-Workshop 09.02.2010 Agenda Malware-Trends Hostblocking Lernen neuer Muster

Mehr

Kapitel 4: Data Mining

Kapitel 4: Data Mining LUDWIG- MAXIMILIANS- UNIVERSITY MUNICH DEPARTMENT INSTITUTE FOR INFORMATICS Skript zur Vorlesung: Einführung in die Informatik: Systeme und Anwendungen Sommersemester 2011 Kapitel 4: Data Mining Vorlesung:

Mehr

Unsupervised Kernel Regression

Unsupervised Kernel Regression 9. Mai 26 Inhalt Nichtlineare Dimensionsreduktion mittels UKR (Unüberwachte KernRegression, 25) Anknüpfungspunkte Datamining I: PCA + Hauptkurven Benötigte Zutaten Klassische Kernregression Kerndichteschätzung

Mehr

Clustering Seminar für Statistik

Clustering Seminar für Statistik Clustering Markus Kalisch 03.12.2014 1 Ziel von Clustering Finde Gruppen, sodas Elemente innerhalb der gleichen Gruppe möglichst ähnlich sind und Elemente von verschiedenen Gruppen möglichst verschieden

Mehr

Masterarbeit. im Studiengang Informatik. Kombinationen von Data Mining-Verfahren: Analyse und Automatisierung. Ulf Mewe Matrikel.-Nr.

Masterarbeit. im Studiengang Informatik. Kombinationen von Data Mining-Verfahren: Analyse und Automatisierung. Ulf Mewe Matrikel.-Nr. LEIBNIZ UNIVERSITÄT HANNOVER FAKULTÄT FÜR ELEKTROTECHNIK UND INFORMATIK INSTITUT FÜR PRAKTISCHE INFORMATIK FACHGEBIET DATENBANKEN UND INFORMATIONSSYSTEME Masterarbeit im Studiengang Informatik Kombinationen

Mehr

MS SQL Server 2012 (4)

MS SQL Server 2012 (4) MS SQL Server 2012 (4) Data Mining, Analyse und multivariate Verfahren Marco Skulschus Jan Tittel Marcus Wiederstein Webseite zum Buch: http://vvwvv.comelio-medien.com/buch-kataiog/ms sql_server/ms sql

Mehr

PPC und Data Mining. Seminar aus Informatik LV-911.039. Michael Brugger. Fachbereich der Angewandten Informatik Universität Salzburg. 28.

PPC und Data Mining. Seminar aus Informatik LV-911.039. Michael Brugger. Fachbereich der Angewandten Informatik Universität Salzburg. 28. PPC und Data Mining Seminar aus Informatik LV-911.039 Michael Brugger Fachbereich der Angewandten Informatik Universität Salzburg 28. Mai 2010 M. Brugger () PPC und Data Mining 28. Mai 2010 1 / 14 Inhalt

Mehr

Synergien aus Graph-Theorie und Data-Mining für die Analyse von Netzwerkdaten

Synergien aus Graph-Theorie und Data-Mining für die Analyse von Netzwerkdaten für die Analyse von Netzwerkdaten Tanja Hartmann, Patricia Iglesias Sánchez, Andrea Kappes, Emmanuel Müller und Christopher Oßner IPD Institut für Programmstrukturen und Datenorganisation ITI Institut

Mehr

Data-Mining und Knowledge Discovery in Databases (KDD) Ein Überblick

Data-Mining und Knowledge Discovery in Databases (KDD) Ein Überblick Institut für Angewandte Informatik Professur für Technische Informationssysteme Fakultätsname XYZ Fachrichtung XYZ Institutsname XYZ, Professur XYZ Data-Mining und Knowledge Discovery in Databases (KDD)

Mehr

Einführung in die Bioinformatik

Einführung in die Bioinformatik Einführung in die Bioinformatik Kay Nieselt SS 01 8. It s hip to chip - von Microarrays zu personalisierter Medizin WSI/ZBIT, Eberhard Karls Universität Tübingen Das menschliche Genom (~.000.000.000 Basenpaare)

Mehr

Häufige Item-Mengen: die Schlüssel-Idee. Vorlesungsplan. Apriori Algorithmus. Methoden zur Verbessung der Effizienz von Apriori

Häufige Item-Mengen: die Schlüssel-Idee. Vorlesungsplan. Apriori Algorithmus. Methoden zur Verbessung der Effizienz von Apriori Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,

Mehr

Prototypenentwicklung zur Identifikation gleichartiger Nachrichtenticker am Beispiel des Gashandels

Prototypenentwicklung zur Identifikation gleichartiger Nachrichtenticker am Beispiel des Gashandels Prototypenentwicklung zur Identifikation gleichartiger Nachrichtenticker am Beispiel des Gashandels TDWI Konferenz München, 24.06.2014 M.Sc.Susann Dreikorn Institut für Wirtschaftsinformatik, 2014 Agenda

Mehr

Verborgene Schätze heben

Verborgene Schätze heben Verborgene Schätze heben Data Mining mit dem Microsoft SQL Server Martin Oesterer Leiter Vertrieb HMS Analytical Software GmbH Data Mining. Was ist eigentlich wichtig? Data Mining ist: die Extraktion von

Mehr

Praktikum: Mediensicherheit und Forensik

Praktikum: Mediensicherheit und Forensik Praktikum: Mediensicherheit und Forensik Kontakt: Martin.Steinebach@SIT.Fraunhofer.de Fraunhofer Slide 1 Vorgehensweise Es gibt keine regelmäßigen Treffen für alle, sondern: Je Thema gibt es ein Team und

Mehr

Real-time Data Mining

Real-time Data Mining Florian Stompe Real-time Data Mining Datenmodellierung und Mustererkennung in Echtzeit Diplomica Verlag Florian Stompe Real-time Data Mining: Datenmodellierung und Mustererkennung in Echtzeit ISBN: 978-3-8366-2879-2

Mehr

Domain-independent. independent Duplicate Detection. Vortrag von Marko Pilop & Jens Kleine. SE Data Cleansing

Domain-independent. independent Duplicate Detection. Vortrag von Marko Pilop & Jens Kleine. SE Data Cleansing SE Data Cleansing Domain-independent independent Duplicate Detection Vortrag von Marko Pilop & Jens Kleine http://www.informatik.hu-berlin.de/~pilop/didd.pdf {pilop jkleine}@informatik.hu-berlin.de 1.0

Mehr

Algorithmen und Datenstrukturen Bereichsbäume

Algorithmen und Datenstrukturen Bereichsbäume Algorithmen und Datenstrukturen Bereichsbäume Matthias Teschner Graphische Datenverarbeitung Institut für Informatik Universität Freiburg SS 12 Überblick Einführung k-d Baum BSP Baum R Baum Motivation

Mehr

Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014

Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014 Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014 Aufgabe 1. Data Mining a) Mit welchen Aufgabenstellungen befasst sich Data Mining? b) Was versteht man unter Transparenz einer Wissensrepräsentation?

Mehr

8.2.2.3 Übung - Arbeiten mit Android

8.2.2.3 Übung - Arbeiten mit Android 5.0 8.2.2.3 Übung - Arbeiten mit Android Einführung Drucken Sie die Übung aus und führen Sie sie Übungen durch. In dieser Übung werden Sie Apps und Widgets auf dem Home-Bildschirm platzieren und Sie zwischen

Mehr

Data. Guido Oswald Solution Architect @SAS Switzerland. make connections share ideas be inspired

Data. Guido Oswald Solution Architect @SAS Switzerland. make connections share ideas be inspired make connections share ideas be inspired Data Guido Oswald Solution Architect @SAS Switzerland BIG Data.. Wer? BIG Data.. Wer? Wikipedia sagt: Als Big Data werden besonders große Datenmengen bezeichnet,

Mehr

Data-Mining: Ausgewählte Verfahren und Werkzeuge

Data-Mining: Ausgewählte Verfahren und Werkzeuge Fakultät Informatik Institut für Angewandte Informatik Lehrstuhl Technische Informationssysteme Data-Mining: Ausgewählte Verfahren und Vortragender: Jia Mu Betreuer: Dipl.-Inf. Denis Stein Dresden, den

Mehr

Clustering und Klassifikation

Clustering und Klassifikation Clustering und Klassifikation Matthias Pretzer matthias.pretzer@informatik.uni-oldenburg.de Ferdinand-von-Schill-Str. 3 26131 Oldenburg 5. Februar 2003 Im heutigen Informationszeitalter fallen immer schneller

Mehr

Generalisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE

Generalisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE Institut für Kartographie und Geoinformatik Leibniz Universität Hannover Generalisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE Frank Thiemann, Thomas Globig Frank.Thiemann@ikg.uni-hannover.de

Mehr

Prof. Dr.-Ing. Rainer Schmidt 1

Prof. Dr.-Ing. Rainer Schmidt 1 Prof. Dr.-Ing. Rainer Schmidt 1 Business Analytics und Big Data sind Thema vieler Veröffentlichungen. Big Data wird immer häufiger bei Google als Suchbegriff verwendet. Prof. Dr.-Ing. Rainer Schmidt 2

Mehr

Dokumenten-Clustering. Norbert Fuhr

Dokumenten-Clustering. Norbert Fuhr Dokumenten-Clustering Norbert Fuhr Dokumenten-Clustering (Dokumenten-)Cluster: Menge von ähnlichen Dokumenten Ausgangspunkt Cluster-Hypothese : die Ähnlichkeit der relevanten Dokumente untereinander und

Mehr

Jan Ehmke Doktorandenworkshop 2008 St. Andreasberg, 10.03.2008

Jan Ehmke Doktorandenworkshop 2008 St. Andreasberg, 10.03.2008 Ermittlung dynamischer Fahrzeiten für die City-Logistik Jan Ehmke Doktorandenworkshop 2008 St. Andreasberg, 10.03.2008 Inhalt Einführung Planung in der City-Logistik Erhebung dynamischer Fahrzeiten Konzeption

Mehr

Data Mining zur Entscheidungsunterstützung in der Hydrologie

Data Mining zur Entscheidungsunterstützung in der Hydrologie Data Mining zur Entscheidungsunterstützung in der Hydrologie Thomas Seidl, Ralph Krieger, Ira Assent, Boris Glavic, Heribert Nacken, Sabine Bartusseck, Hani Sewilam Zusammenfassung Zur Umsetzung der europäischen

Mehr

Big & Smart Data. bernard.bekavac@htwchur.ch

Big & Smart Data. bernard.bekavac@htwchur.ch Big & Smart Data Prof. Dr. Bernard Bekavac Schweizerisches Institut für Informationswissenschaft SII Studienleiter Bachelor of Science in Information Science bernard.bekavac@htwchur.ch Quiz An welchem

Mehr

Algorithmische Methoden zur Netzwerkanalyse

Algorithmische Methoden zur Netzwerkanalyse Algorithmische Methoden zur Netzwerkanalyse Juniorprof. Dr. Henning Meyerhenke Institut für Theoretische Informatik 1 KIT Henning Universität desmeyerhenke, Landes Baden-Württemberg Institutund für Theoretische

Mehr

Linienland, Flächenland und der Hyperraum Ein Ausflug durch die Dimensionen

Linienland, Flächenland und der Hyperraum Ein Ausflug durch die Dimensionen Linienland, Flächenland und der Hyperraum Ein Ausflug durch die Dimensionen Stephan Rosebrock Pädagogische Hochschule Karlsruhe 23. März 2013 Stephan Rosebrock (Pädagogische Hochschule Linienland, Karlsruhe)

Mehr

Data Warehouse Definition (1) http://de.wikipedia.org/wiki/data-warehouse

Data Warehouse Definition (1) http://de.wikipedia.org/wiki/data-warehouse Data Warehouse Definition (1) http://de.wikipedia.org/wiki/data-warehouse Ein Data-Warehouse bzw. Datenlager ist eine zentrale Datensammlung (meist eine Datenbank), deren Inhalt sich aus Daten unterschiedlicher

Mehr

Computerviren, Waldbrände und Seuchen - ein stochastisches Modell für die Reichweite einer Epidemie

Computerviren, Waldbrände und Seuchen - ein stochastisches Modell für die Reichweite einer Epidemie Computerviren, Waldbrände und Seuchen - ein stochastisches für die Reichweite einer Epidemie Universität Hildesheim Schüler-Universität der Universität Hildesheim, 21.06.2012 Warum Mathematik? Fragen zum

Mehr

GMDS-Tagung 2006 Bioinformatik 1. Assessing the stability of unsupervised learning results in small-sample-size problems

GMDS-Tagung 2006 Bioinformatik 1. Assessing the stability of unsupervised learning results in small-sample-size problems GMDS-Tagung 2006 Bioinformatik 1 Assessing the stability of unsupervised learning results in small-sample-size problems Ulrich Möller Email: Ulrich.Moeller@hki-jena.de Leibniz Institute for Natural Product

Mehr

8. Clusterbildung, Klassifikation und Mustererkennung

8. Clusterbildung, Klassifikation und Mustererkennung 8. Clusterbildung, Klassifikation und Mustererkennung Begriffsklärung (nach Voss & Süße 1991): Objekt: wird in diesem Kapitel mit einem zugeordneten Merkmalstupel (x 1,..., x M ) identifiziert (Merkmalsextraktion

Mehr

Oracle 10g und SQL Server 2005 ein Vergleich. Thomas Wächtler 39221

Oracle 10g und SQL Server 2005 ein Vergleich. Thomas Wächtler 39221 Oracle 10g und SQL Server 2005 ein Vergleich Thomas Wächtler 39221 Inhalt 1. Einführung 2. Architektur SQL Server 2005 1. SQLOS 2. Relational Engine 3. Protocol Layer 3. Services 1. Replication 2. Reporting

Mehr

Vorlesung Text und Data Mining S9 Text Clustering. Hans Hermann Weber Univ. Erlangen, Informatik

Vorlesung Text und Data Mining S9 Text Clustering. Hans Hermann Weber Univ. Erlangen, Informatik Vorlesung Text und Data Mining S9 Text Clustering Hans Hermann Weber Univ. Erlangen, Informatik Document Clustering Überblick 1 Es gibt (sehr viele) verschiedene Verfahren für das Bilden von Gruppen Bei

Mehr

Masterarbeit. Jan-Christoph Meier. Konzeption und Entwicklung eines Systems zur automatisierten Clusteranalyse von Daten aus der Durchflusszytometrie

Masterarbeit. Jan-Christoph Meier. Konzeption und Entwicklung eines Systems zur automatisierten Clusteranalyse von Daten aus der Durchflusszytometrie Masterarbeit Jan-Christoph Meier Konzeption und Entwicklung eines Systems zur automatisierten Clusteranalyse von Daten aus der Durchflusszytometrie Fakultät Technik und Informatik Studiendepartment Informatik

Mehr

Treffsichere Absatzprognosen durch Predictive Analytics

Treffsichere Absatzprognosen durch Predictive Analytics Treffsichere Absatzprognosen durch Predictive Analytics Prof. Dr. Michael Feindt, Karlsruhe Institute of Technology KIT Chief Scientific Advisor, Phi-T GmbH und Blue Yonder GmbH & Co KG 3. Europäischer

Mehr

Ideen der Informatik. Maschinelles Lernen. Kurt Mehlhorn Adrian Neumann Max-Planck-Institut für Informatik

Ideen der Informatik. Maschinelles Lernen. Kurt Mehlhorn Adrian Neumann Max-Planck-Institut für Informatik Ideen der Informatik Maschinelles Lernen Kurt Mehlhorn Adrian Neumann Max-Planck-Institut für Informatik Übersicht Lernen: Begriff Beispiele für den Stand der Kunst Spamerkennung Handschriftenerkennung

Mehr

Ein Vergleich von Methoden für Multi-klassen Support Vector Maschinen

Ein Vergleich von Methoden für Multi-klassen Support Vector Maschinen Ein Vergleich von Methoden für Multi-klassen Support Vector Maschinen Einführung Auf binären Klassifikatoren beruhende Methoden One-Against-All One-Against-One DAGSVM Methoden die alle Daten zugleich betrachten

Mehr

Visual Data Mining im Überblick

Visual Data Mining im Überblick I Visual Data Mining im Überblick Lehrveranstaltung: Seminar Softwaretechnik Dozenten: Stefan Jähnichen, Susanne Jucknath Semester: WS 02 /03 Verfasser: Konrad Kellermann TU Berlin Matrikelnummer: 190213

Mehr

Informationstheorethisches Theorem nach Shannon

Informationstheorethisches Theorem nach Shannon Informationstheorethisches Theorem nach Shannon Beispiel zum Codierungsaufwand - Wiederholung: Informationstheorethisches Modell (Shannon) Sei x eine Aussage. Sei M ein Modell Wieviele Bits sind aussreichend,

Mehr

- Google als Suchmaschine richtig nutzen -

- Google als Suchmaschine richtig nutzen - - Google als Suchmaschine richtig nutzen - Google ist die wohl weltweit bekannteste und genutzte Suchmaschine der Welt. Google indexiert und aktualisiert eingetragene Seiten in bestimmten Intervallen um

Mehr

Eine Einführung in R: Hochdimensionale Daten: n << p Teil II

Eine Einführung in R: Hochdimensionale Daten: n << p Teil II Eine Einführung in R: Hochdimensionale Daten: n

Mehr

Künstliche Neuronale Netze und Data Mining

Künstliche Neuronale Netze und Data Mining Künstliche Neuronale Netze und Data Mining Catherine Janson, icasus GmbH Heidelberg Abstract Der Begriff "künstliche Neuronale Netze" fasst Methoden der Informationstechnik zusammen, deren Entwicklung

Mehr

Techniken zur Analyse von Logdaten

Techniken zur Analyse von Logdaten Techniken zur Analyse von Logdaten Yevgen Mexin Institut für Informatik, Fakultät EIM Prof. Dr. Kleine Büning, Dr. Anderka Einleitung Logs Protokolle Arbeitsprozess Erfolgreich erfüllte Aufgaben Entstehende

Mehr

Datenschutzgerechtes Data Mining

Datenschutzgerechtes Data Mining Datenschutzgerechtes Data Mining Seminarvortrag von Simon Boese Student der Wirtschaftsinformatik Wissensgewinnung Rohdaten aus DataWarehouse / OLAP Klassifikation / Assoziation Neue Infos: allgemeine

Mehr

Visual Business Analytics Visueller Zugang zu Big Data

Visual Business Analytics Visueller Zugang zu Big Data Visual Business Analytics Visueller Zugang zu Big Data Dr.-Ing. Jörn Kohlhammer Fraunhofer-Institut für Graphische Datenverarbeitung (IGD) Fraunhoferstraße 5 64283 Darmstadt Tel.: +49 6151 155-646 Fax:

Mehr

Text Mining Praktikum. Durchführung: Andreas Niekler Email: aniekler@informatik.uni-leipzig.de Zimmer: Paulinum (P) 818

Text Mining Praktikum. Durchführung: Andreas Niekler Email: aniekler@informatik.uni-leipzig.de Zimmer: Paulinum (P) 818 Text Mining Praktikum Durchführung: Andreas Niekler Email: aniekler@informatik.uni-leipzig.de Zimmer: Paulinum (P) 818 Rahmenbedingungen Gruppen von 2- (max)4 Personen Jede Gruppe erhält eine Aufgabe Die

Mehr

Christian Zietzsch / Norman Zänker. Text Mining. und dessen Implementierung. Diplomica Verlag

Christian Zietzsch / Norman Zänker. Text Mining. und dessen Implementierung. Diplomica Verlag Christian Zietzsch / Norman Zänker Text Mining und dessen Implementierung Diplomica Verlag Christian Zietzsch, Norman Zänker Text Mining und dessen Implementierung ISBN: 978-3-8428-0970-3 Herstellung:

Mehr

Predictive Analysis und Data Mining die Kristallkugel und Ihr Business Value [Session C2] Uetliberg, 16.09.2014 www.boak.ch

Predictive Analysis und Data Mining die Kristallkugel und Ihr Business Value [Session C2] Uetliberg, 16.09.2014 www.boak.ch Predictive Analysis und Data Mining die Kristallkugel und Ihr Business Value [Session C2] Uetliberg, 16.09.2014 www.boak.ch it Diese Session gibt einen Überblick über Predictive und Data Mining, die Value-Proposition

Mehr

Inhaltliche Planung für die Vorlesung

Inhaltliche Planung für die Vorlesung Vorlesung: Künstliche Intelligenz - Mustererkennung - P LS ES S ST ME Künstliche Intelligenz Miao Wang 1 Inhaltliche Planung für die Vorlesung 1) Definition und Geschichte der KI, PROLOG 2) Expertensysteme

Mehr

K-Means Clustering for Automatic Image Segmentation

K-Means Clustering for Automatic Image Segmentation Westfälische Wilhelms Universität Münster Institut für Informatik Ausarbeitung zum Thema K-Means Clustering for Automatic Image Segmentation im Rahmen des Seminars Ausgewählte Themen zu Bildverstehen und

Mehr

0 Einführung: Was ist Statistik

0 Einführung: Was ist Statistik 0 Einführung: Was ist Statistik 1 Datenerhebung und Messung 2 Univariate deskriptive Statistik 3 Multivariate Statistik 4 Regression 5 Ergänzungen Explorative Datenanalyse EDA Auffinden von Strukturen

Mehr

Wie Google Webseiten bewertet. François Bry

Wie Google Webseiten bewertet. François Bry Wie Google Webseiten bewertet François Bry Heu6ge Vorlesung 1. Einleitung 2. Graphen und Matrizen 3. Erste Idee: Ranking als Eigenvektor 4. Fragen: Exisi6ert der Eigenvektor? Usw. 5. Zweite Idee: Die Google

Mehr

MapReduce und Datenbanken Thema 15: Strom bzw. Onlineverarbeitung mit MapReduce

MapReduce und Datenbanken Thema 15: Strom bzw. Onlineverarbeitung mit MapReduce MapReduce Jan Kristof Nidzwetzki MapReduce 1 / 17 Übersicht 1 Begriffe 2 Verschiedene Arbeiten 3 Ziele 4 DEDUCE: at the intersection of MapReduce and stream processing Beispiel 5 Beyond online aggregation:

Mehr

Komponenten für kooperative Intrusion Detection in dynamischen Koalitionsumgebungen

Komponenten für kooperative Intrusion Detection in dynamischen Koalitionsumgebungen Komponenten für kooperative Intrusion Detection in dynamischen Koalitionsumgebungen Marko Jahnke /F Neuenahrer Str. 20 D-53343 Wachtberg jahnke@fgan.de Unter Mitarbeit von Sven Henkel, Michael Bussmann

Mehr

Parallelisierung von Data Mining - Algorithmen

Parallelisierung von Data Mining - Algorithmen Fakultät für Elektrotechnik und Informatik Institut für Praktische Informatik Fachgebiet Datenbanken und Informationssysteme Parallelisierung von Data Mining - Algorithmen Masterarbeit im Studiengang Informatik

Mehr