Seminar Visual Analytics and Visual Data Mining Dozenten:, AG Visual Computing Steffen Oeltze, AG Visualisierung
Organisatorisches Seminar für Diplom und Bachelor-Studenten (max. 18) (leider nicht für Master-Studenten) Zeit und Ort: wöchentlich 13-15 Uhr (c.t.) E037 Web: http://isgwww.cs.uni-magdeburg.de/cv/lehre/visualanalytics Scheinkriterien (B=ECTS-Credits 3; D=2SWS) 30 min. themenbezogener Vortrag + 15 min. Diskussion Beteiligung an Diskussion der anderen Vorträge Anwesenheit Schriftliche Zusammenfassung des Vortrags 3-5 Seiten (Abgabe bis Ende der Vorlesungszeit)
Ablauf: Diese Woche: Kurzeinführung VDM (Dirk) Anmeldung/Registrierung Nächste Woche: Vortrag VA (Steffen) Themenvergabe Eine Woche Pause Erste Vorträge t
Hausaufgabe: Je ein Thema aus VDM und VA von der Webpage auswählen (insgesamt 2 Themen wählen) Web: http://isgwww.cs.uni-magdeburg.de/cv/lehre/visualanalytics
Einführung in Visual Data Mining
Gliederung Analyseproblem Grundlagen Visual Data Mining Grundlagen Datenbeschreibung Ausgewählte Methoden
Zielstellung Vollständige Datensatz-Analyse (Cluster, Korelationen, Muster)
Analyseproblem Große Datensätze (z.t. > 10-100 TB) Große Anzahl von Dimensionen (z.t. > 10³ ) Große Anzahl von Mustern (Pattern) die Eigenschaften charakterisieren (z.t > 200 * 10³ Muster) Kontextunabhängige Aussagen kaum möglich (z.b. bei Cluster)
Orginal Cluster 1 Cluster 2 Kontextunabhängige Aussagen kaum möglich (z.b. bei Cluster)
Klassische Lösung des Analyseproblems (1) Automatische Analyse mit Mitteln der Statistik, Numerik und Analysis Data Mining [z.b. Adriaans u Zantinge 1996] Multivariate Regression Maximum Likelihood Bayes und andere Schätzer Machine Learning [z.b. Alpaydin 2004] Support Vector Machinen Neuronale Netzwerke Hierachiches Clustering Hidden Markov Models
Klassische Lösung des Analyseproblems (2) Probleme gelöst: Große Datensätze (z.t. > 10-100 TB) Große Anzahl von Dimensionen (z.t. > 10³ ) Probleme weiterhin: Große Muster-Anzahl weiterhin nicht behandelbar/ interpretierbar Kontextunabhängige Aussagen kaum möglich (z.b. bei Cluster)
Lösungsidee: Einbindung der Kognition des Nutzers um Probleme zu lösen. Visual Analytics & Visual Data Mining
Was ist Visual Data Mining (VDM)?
Was ist Visual Data Mining (VDM)? Datenbasiertes Erzeugen von interpretierbaren Visualisierungen zum kognitiven Zugang des Nutzer zu diesen Daten
Was ist Visual Data Mining (VDM)? VDM in der Praxis: Kombination Data Mining Technicken & Visualisierungstechniken [Keim et al. 2002] Informations Visualization Visualisierung abstrakter Daten (Web-Dokumenten, Datenbanken, Text, Softwaresystemen) Scientific Visualization Visualisierung physikalischer Daten (Geologische, Klimatische u.ä Messungen, Simulationsergebnisse, Strömungsdaten)
Welche Zielstellung hat VDM? Schaffung visueller Schnittstelle zwischen Daten und Nutzer Visualisierung aggregiert Daten Visualisierung soll expressiv, effektiv und angemessen sein [Schumann 2000]
Welche Zielstellung hat VDM? Schaffung visueller Schnittstelle zwischen Daten und Nutzer Visualisierung aggregiert Daten Visualisierung soll expressiv, effektiv und angemessen sein [Schumann 2000] Datenmenge unverfälscht wiedergeben [Jung 98] Benutzerfreundlichste Vis nehmen [Mackinlay 86] Kosten/ Nutzen Faktor bei Erzeugung berücksichtigen [Schumann 2000]
Welche Zielstellung hat VDM? Präsentation Visualisierung als fachübergreifendes Kommunikationsmedium Konfirmative visuelle Informationssuche Gerichtete Suche -> Ziel:Hyphothesentest Explorative visuelle Informationssuche Ungerichtete Suche nach Mustern ->Ziel: Suchraum einschränken
Mermalsklassen Nominal Quantitativ Ordinal Ordnung 'Belgien', 'Luxenburg', 'Niederlande' Zahl geordnet 0=Punkt, 1=Vektor, 2=Matrix, 3=Tensor, etc. Merkmale= Abhängige Dimension= Unabhängige Datensatz m n Abildung f von m unabhängige auf n abhängige Variabeln: f: R -> R
Fomalisierte Datenbeschreibung (1) L-Notation [Bergeron et al. 1989] L k m k...dimensionalität des Beobachtungsraumes (unabhängige Variabeln) m...dimensionalität der beobachteten Merkmale (abhängige Variabeln) L L k m>1 0 m>0 z.b. Multiparameter Daten z.b. Gitterfreie Daten
Fomalisierte Datenbeschreibung (2) E-Notation [Brodlie 1992] E* # *...Charackteristik der abhängigen Variabeln S=Skalarer Wert V3=Vektorieller Wert mit 3 Komponenten #...Charakteristik der abhängigen Variabeln Zahl=Dimension der Beobachteten Werte [] =abgegrenzter Bereich {} =diskreter Bereich E E V3 [3] 1S 4 z.b. Statischer 3D Strömungsdatensatz z.b. 3D MRT-Daten über die Zeit
Ausgewählte VDM-Methoden Allgemeine Technicken: Pixelorientiert Geometrische Transformationen Iconenbasiert
Ausgewählte VDM-Methoden ScatterPlots } quadratische Korrelation [Nocke2007]
Ausgewählte VDM-Methoden Parallele Koordinaten } Cluster
Ausgewählte VDM-Methoden Parallele Koordinaten+ ScatterPlots= 3D Parallele Koordinaten [http://bdtnp.lbl.gov:8080/fly-net/content/bid/pcx/parallelcoordinates/parallelcoordinates.html, Stand: 6.7.2009]
Ausgewählte VDM-Methoden BarCharts und Histogramme Schneller allgemeiner Überblick Gute Vergleichsmöglichkeit zwischen verschiedenen Erhebungen
Ausgewählte VDM-Methoden Glyphen [Nocke2007] Intuitiv, aber nur begrenzte Anzahl von Merkmalen visualisierbar
Ausgewählte VDM-Methoden TreeMaps [http://ncva.itn.liu.se/research, Stand: 6.7.2009] Zum visualisieren hierarchischer Daten
Ausgewählte VDM-Methoden Linear Integral Convolution (LIC) Rauschtextur wird gefaltet mit Vektorfeld Korrelation in Richtung Stromline keine Korrelation orthogonal zur Stromlinie http://www.vis.uni-stuttgart.de/ger/research/proj/spp1147/lic/, Stand 28.8.2009
Zusammenfassung VDM als visuelle Schnittstelle zwischen Nutzer und Daten Nutzen von Kognition um kontextabhängige Daten-Analyse zu ermöglichen VDM = Computergraphik + Daten + Interpretationsregeln Ausblick Nächste Woche: Vortrag Visual Analytics (Steffen)
Vielen Dank für Eure Aufmerksamkeit Literaturtips: Heidrun Schuman, Wolfgang Müller Visualisierung -> Grundlagen und Allgemeine Methoden Springer 2000 ISBN 3-540-64944-1 Tom Soukup, Ian Davidson Visual Data Mining Techniques and Tools for Data Visualization and Mining John Wiley & Sons, Inc. ISBN 0-471-14999-3 Ben Fry Visualizing Data O'Reilly ISBN-10: 0-596-51455-7 ISBN-13: 978-0-596-51455-6