Seminar Visual Analytics and Visual Data Mining



Ähnliche Dokumente
Visualisierung. Rückblick. Scientific Visualization vs. Informationsvisualisierung. Allgemeine Ziele und Anforderungen Prof. Dr.-Ing.

Exploration und Klassifikation von BigData

PPC und Data Mining. Seminar aus Informatik LV Michael Brugger. Fachbereich der Angewandten Informatik Universität Salzburg. 28.

Seminar Business Intelligence Teil II. Data Mining & Knowledge Discovery

Visualisierung in Natur- und Technikwissenschaften. 0. Einführung. Vorlesung: Mi, 11:15 12:45 + Fr, 9:15 10:45, INF Prof. Dr.

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. Excel Edition. ^ Springer Spektrum

Mining High-Speed Data Streams

Monte-Carlo-Simulationen mit Copulas. Kevin Schellkes und Christian Hendricks

Korrelation (II) Korrelation und Kausalität

Prof. Dr.-Ing. Rainer Schmidt 1

Proseminar Sommersemester 2015

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

Korrelation - Regression. Berghold, IMI

0 Einführung: Was ist Statistik

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Data Cube. Aggregation in SQL. Beispiel: Autoverkäufe. On-line Analytical Processing (OLAP) 1. Einführung. 2. Aggregation in SQL, GROUP BY

Data Mining für die industrielle Praxis

Statistik und Datenanalyse. eine praktische Einführung

Predictive Modeling Markup Language. Thomas Morandell

Visualisierung von Geodaten

Virtual Roundtable: Business Intelligence - Trends

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen

WEKA A Machine Learning Interface for Data Mining

Was ist clevere Altersvorsorge?

Visualisierung der Imperfektion in multidimensionalen Daten

Grundlagen der Datenanalyse am Beispiel von SPSS

Fachgruppe Statistik, Risikoanalyse & Computing. STAT672 Data Mining. Sommersemester Prof. Dr. R. D. Reiß

Prozessoptimierung in der Markt- und Medienforschung bei der Deutschen Welle (DW) mit Big Data Technologien. Berlin, Mai 2013

Allgemeines Lineares Modell Einführung

RapidMiner als Werkzeug für die textorientierten Geisteswissenschaften Katharina Morik

Wie Google Webseiten bewertet. François Bry


Die Interferenz von flexiblen Arbeitszeiten mit der Nutzbarkeit arbeitsfreier Zeit Ein Prädiktor für soziale Beeinträchtigungen

Risiken bei der Analyse sehr großer Datenmengen. Dr. Thomas Hoppe

Vorhersagemodell für die Verfügbarkeit von IT-Services

Visuelle Suche in Digitalen Filmarchiven Visual Search in Digital Film Archives. Visuelle Exploration Digitaler Bibliothken

THEMA: "SAS STORED PROCESSES - SCHNELL GEZAUBERT" HELENE SCHMITZ

Der Einsatz von Social Media im Stadtmarketing. Alexander Masser, Hans-Jürgen Seimetz, Peter Zeile

BI in der Cloud eine valide Alternative Überblick zum Leistungsspektrum und erste Erfahrungen

Industrie 4.0 in Deutschland

Maximizing the Spread of Influence through a Social Network

Seminar: Moderne Web Technologien (MWT)

Veranstaltungsort Bildungsherberge der Studierendenschaft der FernUniversität Hagen

4. AUSSAGENLOGIK: SYNTAX. Der Unterschied zwischen Objektsprache und Metasprache lässt sich folgendermaßen charakterisieren:

Interactive exploration of neural networks in Python. 3-d simulation of the e-puck robot in virtual environments

Felix-Nicolai Müller. Seminar Fragebogenmethodik - WS2009/ Universität Trier Dr. Dirk Kranz

3D Visualisierung von UML Umgebungsmodellen

I. B Eine geeignete Organisation sicherstellen

Modellierung von Korrelationen zwischen Kreditausfallraten für Kreditportfolios. Bernd Rosenow, 3. Kölner Workshop Quantitative Finanzmarktforschung

W.WIINM32.11 (Datawarehousing) W.WIMAT03.13 (Statistik)

Übungsklausur vom 7. Dez. 2007

Web Mining Übung. Aufgaben. Umfang

Betriebswirtschaftliches Beratungstool für Steuerberater Ziele, Inhalte und Struktur

Fassade. Objektbasiertes Strukturmuster. C. Restorff & M. Rohlfing

IMS - Learning Design

Zufriedenheit mit der Fachtagung insgesamt

Zahlenoptimierung Herr Clever spielt optimierte Zahlen

Supporting Consumers by Characterizing the Quality of Online Health Information: A Multidimensional Framework. Von Dominic Kipry

INDUSTRIE Ein Überblick zugehöriger Projekte

How-to: Webserver NAT. Securepoint Security System Version 2007nx

In konstanten Modellen wird davon ausgegangen, dass die zu prognostizierende Größe sich über die Zeit hinweg nicht verändert.

Seminar Informationsintegration und Informationsqualität. Dragan Sunjka. 30. Juni 2006

DISKUSSIONSBEITRÄGE DER FAKULTÄT FÜR BETRIEBSWIRTSCHAFTSLEHRE MERCATOR SCHOOL OF MANAGEMENT UNIVERSITÄT DUISBURG-ESSEN. Nr. 374

UserManual. Handbuch zur Konfiguration einer FRITZ!Box. Autor: Version: Hansruedi Steiner 2.0, November 2014

Klausur zur Vorlesung Multivariate Verfahren, SS Kreditpunkte, 90 min

Auswertung zu "Projektmanagement B, SS08"

Fabian Grimme und Tino Krüger 1 INDREX. Evaluierung von H2O. Enterprise Data Management Beuth Hochschule für Technik

Business Analytics im E-Commerce

Übungsklausur. Bitte wählen Sie fünf Aufgaben aus! Aufgabe 1. Übungsklausur zu Mathematik I für BWL und VWL (WS 2008/09) PD Dr.

Varianzanalyse (ANOVA: analysis of variance)

Zur Validität von 360 Feedbacks eine generalisierbarkeitstheoretische Reanalyse auf Faktorenebene

Statistische Datenanalyse mit SPSS

Häufige Item-Mengen: die Schlüssel-Idee. Vorlesungsplan. Apriori Algorithmus. Methoden zur Verbessung der Effizienz von Apriori

Kommunikation im Team verbessern mit Mindjet MindManager. Ein Vortrag von Steven Greenhill MindBusiness GmbH

Felix Klug SS Tutorium Deskriptive Statistik

Seminar. NoSQL Datenbank Technologien. Michaela Rindt - Christopher Pietsch. Richtlinien Ausarbeitung (15. November 2015)

Was sind Ontologie-Editoren?

Step by Step Webserver unter Windows Server von Christian Bartl

One-class Support Vector Machines

Informationsblatt zu den Seminaren am Lehrstuhl. für Transportsysteme und -logistik

Eine Bürokratiekostenfolgenabschätzung zum zweiten Gesetz für moderne Dienstleistungen am Arbeitsmarkt im Hinblick auf die Einführung einer Gleitzone

Fachdidaktik der Informatik Jörg Depner, Kathrin Gaißer

A Domain Specific Language for Project Execution Models

THREAD ARCS: An Thread Visualization

26. GIL Jahrestagung

Sichere Anleitung Zertifikate / Schlüssel für Kunden der Sparkasse Germersheim-Kandel. Sichere . der

Umstieg auf Microsoft Exchange in der Fakultät 02

Transparente Hausverwaltung Marketingschmäh oder doch: eine neue Dimension der Dienstleistung?

Big & Smart Data. bernard.bekavac@htwchur.ch

Dr. Kraus & Partner Ihr Angebot zu Konfliktmanagement

Kundenzufriedenheit im IT-Outsourcing grundsätzliche Überlegungen und empirische Ergebnisse Prof. Dr. Eberhard Schott

Data Quality Management: Abgleich großer, redundanter Datenmengen

Installationsanleitung Maschinenkonfiguration und PP s. Release: VISI 21 Autor: Anja Gerlach Datum: 18. Dezember 2012 Update: 18.

Transkript:

Seminar Visual Analytics and Visual Data Mining Dozenten:, AG Visual Computing Steffen Oeltze, AG Visualisierung

Organisatorisches Seminar für Diplom und Bachelor-Studenten (max. 18) (leider nicht für Master-Studenten) Zeit und Ort: wöchentlich 13-15 Uhr (c.t.) E037 Web: http://isgwww.cs.uni-magdeburg.de/cv/lehre/visualanalytics Scheinkriterien (B=ECTS-Credits 3; D=2SWS) 30 min. themenbezogener Vortrag + 15 min. Diskussion Beteiligung an Diskussion der anderen Vorträge Anwesenheit Schriftliche Zusammenfassung des Vortrags 3-5 Seiten (Abgabe bis Ende der Vorlesungszeit)

Ablauf: Diese Woche: Kurzeinführung VDM (Dirk) Anmeldung/Registrierung Nächste Woche: Vortrag VA (Steffen) Themenvergabe Eine Woche Pause Erste Vorträge t

Hausaufgabe: Je ein Thema aus VDM und VA von der Webpage auswählen (insgesamt 2 Themen wählen) Web: http://isgwww.cs.uni-magdeburg.de/cv/lehre/visualanalytics

Einführung in Visual Data Mining

Gliederung Analyseproblem Grundlagen Visual Data Mining Grundlagen Datenbeschreibung Ausgewählte Methoden

Zielstellung Vollständige Datensatz-Analyse (Cluster, Korelationen, Muster)

Analyseproblem Große Datensätze (z.t. > 10-100 TB) Große Anzahl von Dimensionen (z.t. > 10³ ) Große Anzahl von Mustern (Pattern) die Eigenschaften charakterisieren (z.t > 200 * 10³ Muster) Kontextunabhängige Aussagen kaum möglich (z.b. bei Cluster)

Orginal Cluster 1 Cluster 2 Kontextunabhängige Aussagen kaum möglich (z.b. bei Cluster)

Klassische Lösung des Analyseproblems (1) Automatische Analyse mit Mitteln der Statistik, Numerik und Analysis Data Mining [z.b. Adriaans u Zantinge 1996] Multivariate Regression Maximum Likelihood Bayes und andere Schätzer Machine Learning [z.b. Alpaydin 2004] Support Vector Machinen Neuronale Netzwerke Hierachiches Clustering Hidden Markov Models

Klassische Lösung des Analyseproblems (2) Probleme gelöst: Große Datensätze (z.t. > 10-100 TB) Große Anzahl von Dimensionen (z.t. > 10³ ) Probleme weiterhin: Große Muster-Anzahl weiterhin nicht behandelbar/ interpretierbar Kontextunabhängige Aussagen kaum möglich (z.b. bei Cluster)

Lösungsidee: Einbindung der Kognition des Nutzers um Probleme zu lösen. Visual Analytics & Visual Data Mining

Was ist Visual Data Mining (VDM)?

Was ist Visual Data Mining (VDM)? Datenbasiertes Erzeugen von interpretierbaren Visualisierungen zum kognitiven Zugang des Nutzer zu diesen Daten

Was ist Visual Data Mining (VDM)? VDM in der Praxis: Kombination Data Mining Technicken & Visualisierungstechniken [Keim et al. 2002] Informations Visualization Visualisierung abstrakter Daten (Web-Dokumenten, Datenbanken, Text, Softwaresystemen) Scientific Visualization Visualisierung physikalischer Daten (Geologische, Klimatische u.ä Messungen, Simulationsergebnisse, Strömungsdaten)

Welche Zielstellung hat VDM? Schaffung visueller Schnittstelle zwischen Daten und Nutzer Visualisierung aggregiert Daten Visualisierung soll expressiv, effektiv und angemessen sein [Schumann 2000]

Welche Zielstellung hat VDM? Schaffung visueller Schnittstelle zwischen Daten und Nutzer Visualisierung aggregiert Daten Visualisierung soll expressiv, effektiv und angemessen sein [Schumann 2000] Datenmenge unverfälscht wiedergeben [Jung 98] Benutzerfreundlichste Vis nehmen [Mackinlay 86] Kosten/ Nutzen Faktor bei Erzeugung berücksichtigen [Schumann 2000]

Welche Zielstellung hat VDM? Präsentation Visualisierung als fachübergreifendes Kommunikationsmedium Konfirmative visuelle Informationssuche Gerichtete Suche -> Ziel:Hyphothesentest Explorative visuelle Informationssuche Ungerichtete Suche nach Mustern ->Ziel: Suchraum einschränken

Mermalsklassen Nominal Quantitativ Ordinal Ordnung 'Belgien', 'Luxenburg', 'Niederlande' Zahl geordnet 0=Punkt, 1=Vektor, 2=Matrix, 3=Tensor, etc. Merkmale= Abhängige Dimension= Unabhängige Datensatz m n Abildung f von m unabhängige auf n abhängige Variabeln: f: R -> R

Fomalisierte Datenbeschreibung (1) L-Notation [Bergeron et al. 1989] L k m k...dimensionalität des Beobachtungsraumes (unabhängige Variabeln) m...dimensionalität der beobachteten Merkmale (abhängige Variabeln) L L k m>1 0 m>0 z.b. Multiparameter Daten z.b. Gitterfreie Daten

Fomalisierte Datenbeschreibung (2) E-Notation [Brodlie 1992] E* # *...Charackteristik der abhängigen Variabeln S=Skalarer Wert V3=Vektorieller Wert mit 3 Komponenten #...Charakteristik der abhängigen Variabeln Zahl=Dimension der Beobachteten Werte [] =abgegrenzter Bereich {} =diskreter Bereich E E V3 [3] 1S 4 z.b. Statischer 3D Strömungsdatensatz z.b. 3D MRT-Daten über die Zeit

Ausgewählte VDM-Methoden Allgemeine Technicken: Pixelorientiert Geometrische Transformationen Iconenbasiert

Ausgewählte VDM-Methoden ScatterPlots } quadratische Korrelation [Nocke2007]

Ausgewählte VDM-Methoden Parallele Koordinaten } Cluster

Ausgewählte VDM-Methoden Parallele Koordinaten+ ScatterPlots= 3D Parallele Koordinaten [http://bdtnp.lbl.gov:8080/fly-net/content/bid/pcx/parallelcoordinates/parallelcoordinates.html, Stand: 6.7.2009]

Ausgewählte VDM-Methoden BarCharts und Histogramme Schneller allgemeiner Überblick Gute Vergleichsmöglichkeit zwischen verschiedenen Erhebungen

Ausgewählte VDM-Methoden Glyphen [Nocke2007] Intuitiv, aber nur begrenzte Anzahl von Merkmalen visualisierbar

Ausgewählte VDM-Methoden TreeMaps [http://ncva.itn.liu.se/research, Stand: 6.7.2009] Zum visualisieren hierarchischer Daten

Ausgewählte VDM-Methoden Linear Integral Convolution (LIC) Rauschtextur wird gefaltet mit Vektorfeld Korrelation in Richtung Stromline keine Korrelation orthogonal zur Stromlinie http://www.vis.uni-stuttgart.de/ger/research/proj/spp1147/lic/, Stand 28.8.2009

Zusammenfassung VDM als visuelle Schnittstelle zwischen Nutzer und Daten Nutzen von Kognition um kontextabhängige Daten-Analyse zu ermöglichen VDM = Computergraphik + Daten + Interpretationsregeln Ausblick Nächste Woche: Vortrag Visual Analytics (Steffen)

Vielen Dank für Eure Aufmerksamkeit Literaturtips: Heidrun Schuman, Wolfgang Müller Visualisierung -> Grundlagen und Allgemeine Methoden Springer 2000 ISBN 3-540-64944-1 Tom Soukup, Ian Davidson Visual Data Mining Techniques and Tools for Data Visualization and Mining John Wiley & Sons, Inc. ISBN 0-471-14999-3 Ben Fry Visualizing Data O'Reilly ISBN-10: 0-596-51455-7 ISBN-13: 978-0-596-51455-6