Visualisierung der Imperfektion in multidimensionalen Daten

Transkript

1 Universität Karlsruhe (TH) Fakultät für Informatik Institut für Programmstrukturen und Datenorganisation (IPD) Hauptseminar Imperfektion und erweiterte Konzepte im Data Warehousing Visualisierung der Imperfektion in multidimensionalen Daten Seminararbeit von Cand.-Inform. Horst Fortner Sommersemester 2005

2

3 Inhaltsverzeichnis Abbildungsverzeichnis iii 8 Visualisierung der Imperfektion in multidimensionalen Daten Einführung Motivation Begriffe Visualisierung imperfekter Informationen im Straßenverkehr Benutzergruppen im Straßenverkehrsbereich Visualisierungstechniken (noch ohne Imperfektion) Erweiterung der drei vorgestellten Verfahren um Imperfektion Skizzierung des Visualisierungswerkzeugs Datenvisualisierung und Visual Data Mining (VDM) Einordnung des VDM Automatisiertes Data Mining und seine Schwächen Visuelle Datenexploration Beispiel-Einsatzgebiet für VDM: Kooperatives Data Mining Klassifizierung visueller Data Mining Techniken Einordnung und Vergleich Zusammenfassung und Ausblick Literaturverzeichnis 23 i

4 Inhaltsverzeichnis ii

5 Abbildungsverzeichnis 8.1 Übersicht der Visualisierungstechniken [For05] Bewertungstabelle Visualisierungstechniken [For05] Beispiel ThemeRiver [SHW02] Prinzip der parallelen Koordinaten [Spe01] Inxight Table Lens [IS] ThemeRiver ohne (li.) und mit (re.) Ergänzung um Ungenauigkeit - auf beiden Seiten ist die Unschärfe durch linguistische Variablen visualisiert. [For05] Parallele Koordinaten, erweitert um Imperfektion. [For05] Table Lens, erweitert um Imperfektion. [For05] Bewertung der um Imperfektion erweiterten Visualisierungstechniken. [For05] Paketstruktur im Visualisierungswerkzeug [For05] Einordnung des VDM zwischen Data Mining und Informationsvisualisierung [Fay96] VDM im KDD-Prozess [Fay96] Ansätze des visuellen Data Mining Exemplarischer Entscheidungsbaum [Ank04] Der interaktive Mining-Prozess mit DataJewel [Ank04] Die Visualisierungstechnik CalendarView [Ank04] Klassifikation visueller DM-Techniken [Kei01] iii

6

7 Horst Fortner 8 Visualisierung der Imperfektion in multidimensionalen Daten 8.1 Einführung Motivation Die Visualisierung multidimensionaler Daten verbessert typische Data Mining Anwendungen sowie OLAP-Anwendungen (Online Analytical Processing) und ermöglicht kooperatives Data Mining, bei dem der Benutzer interaktiv die Datenanalyse steuert. In dieser Seminararbeit werden zunächst bestehende Visualisierungstechniken daraufhin untersucht, wie sie sich um imperfekte Informationen erweitern lassen und anschließend bewertet. Weiterhin wird auf die Bedeutung des Visual Data Mining (VDM) eingegangen und erläutert, welche Rolle die Visualisierung im VDM spielt. Anschließend werden die vorgestellten Visualisierungstechniken sowie die VDM-Techniken mittels eines orthogonalen Klassifikationsschemas eingeordnet. Das letzte Kapitel fasst die Ergebnisse zusammen und gibt einen Ausblick auf interessante zukünftige Forschungszweige Begriffe Imperfekte Informationen: Es lässt sich eine Grobeinteilung imperfekter Informationen in drei Kategorien durchführen [Koo04], nämlich in unsichere, unscharfe und ungenaue Informationen. Unsicher ist eine Information, wenn nicht entschieden werden kann, ob sie wahr oder falsch ist. Unsichere Informationen treten z. B. in Wettervorhersagen auf, da diese Prognosen nur wahrscheinlich sind, nicht aber sicher. 1

8 8 Visualisierung der Imperfektion in multidimensionalen Daten Unscharf ist eine Information, wenn bei Verwendung von Kategorien für gewisse Eigenschaften keine eindeutige Grenze gezogen werden kann (linguistische Variablen), z.b. ist nicht scharf abgrenzbar, ob ein Mensch groß oder ein Produkt teuer ist. Ungenau ist eine Information, wenn sie durch Intervalle angegeben wird, die nicht beliebig genau (bzw. kurz) sein können, z. B. spricht man bei Messungen in der Physik von Messungenauigkeit. Visualisierung: Laut Wikipedia bedeutet Visualisierung, abstrakte Daten in eine angebrachte, verstehbare Form zu bringen. Dabei können Details weggelassen werden, die im Kontext vernachlässigbar sind. Visualisierte Daten müssen daher korrekt interpretiert werden. Diese Definition weist schon darauf hin, dass bei der Visualisierung Imperfektion implizit vorhanden sein kann, da Informationen ( Details ) weggelassen werden können. Im Rahmen dieser Seminararbeit bedeutet Visualisierung insbesondere die grafische Darstellung von multidimensionalen Datenmengen. Multidimensionale Daten: Dies bedeutet, dass es sich um Daten mit vielen Attributwerten handelt, die sich zu orthogonalen Dimensionen zusammenfassen lassen und als Ausgangsbasis für Analyseanwendungen dienen. 8.2 Visualisierung imperfekter Informationen im Straßenverkehr 1 Im Straßenverkehr treten imperfekte Informationen z.b. bei unsicheren Angaben von Staulängen, bei ungenauen Baustellenlängenangaben oder auch bei Berechnungen von Radiosendern, die den erwarteten Zeitverlust angeben. All diesen Beispielen ist gemein, dass sie dem Benutzer aber immerhin das ungefähre Ausmaß der zu erwartenden Verspätung aufzeigen. In diesem Kapitel werden zunächst die Benutzergruppen im Straßenverkehrsbereich identifiziert. Danach werden drei Visualisierungstechniken eingeführt und eine Einschätzung gegeben, wie gut diese für die Benutzergruppen geeignet sind. Anchließend werden diese Verfahren um Imperfektion erweitert und schließlich wird das Visualisierungswerkzeug aus der Studienarbeit [For05] skizziert Benutzergruppen im Straßenverkehrsbereich Verkehrsteilnehmer On-Trip: Für den Verkehrsteilnehmer On-Trip sind seine aktuelle Position und Geschwindigkeit sowie Informationen zum Verkehrsfluss besonders wichtig. Wird z. B. eine Straße gesperrt, benötigt er zwei Nachrichten: Eine beim Inkrafttreten der Sperrung und eine bei deren Aufhebung. Des Weiteren sind das Wetter sowie Baustellen ebenfalls von Interesse für diesen Verkehrsteilnehmer, 1 Die Ausführungen dieses Kapitels basieren auf der Studienarbeit [For05] von Oliver Forster 2

9 8.2 Visualisierung imperfekter Informationen im Straßenverkehr insbesondere wenn sie Einfluss auf den Verkehrsfluss haben (Eis, Nebel, nur einspurig befahrbare Baustellen etc.). Verkehrsteilnehmer Pre-Trip: Dieser Benutzertyp plant seine Route im Vorfeld und braucht dazu Informationen zum Verkehrsnetz. Im Vorfeld bekannte Störgrößen für den Verkehrsfluss, etwa Langzeitbaustellen oder auch gesperrte Straßen, sind für ihn wichtig. Auch das zu erwartende Verkehrsaufkommen (z. B. ein hohes Aufkommen zur Urlaubszeit) ist ein wichtiger Faktor bei seiner Planung. Das Wetter spielt, insbesondere bei früher Routenplanung, eine ungeordnete Rolle, da z.b. über eine Woche hinausgehende Wettervorhersagen zu unsicher sind, als dass sie als Entscheidungskriterium herhalten könnten. Verkehrsingenieur: Der Ingenieur benötigt alle Arten von Informationen zum Verkehrsnetz, damit er einen Überblick hat, wenn z.b. Umleitungen empfohlen werden sollen. Zudem ist der aktuelle Verkehrsfluss auf seinem Zuständigkeitsgebiet (und nicht etwa nur auf einer geplanten Route) von großer Bedeutung, da er auf Störfaktoren z. B. mit Umleitungen und Temporegulierungen reagieren kann und somit möglichst frühzeitig informiert werden sollte. Verkehrswissenschaftler: Für den Wissenschaftler sind vor allem aggregierte und statistisch nutzbare Daten interessant statt Einzeldaten wie ein Unfall. Je nach Art der Untersuchung, die er anstellt, können für ihn bestimmte Daten wichtig und andere irrelevant sein (das gesamte Verkehrsnetz spielt keine Rolle, wenn nur eine Strecke untersucht wird). Zusammenfassend lässt sich feststellen, dass verschiedene Informationen für die besprochenen Benutzergruppen von Bedeutung sind und jede Gruppe daher andere Anforderungen an die Visualisierung stellt Visualisierungstechniken (noch ohne Imperfektion) Nach der Identifikation der beteiligten Benutzergruppen und deren Anforderungen werden in diesem Abschnitt drei Visualisierungstechniken vorgestellt. Bewertungskriterien für Visualisierungstechniken im Hinblick auf die Benutzergruppen Um die drei vorzustellenden Visualisierungstechniken bewerten zu können, werden in diesem Abschnitt zunächst vier Bewertungskriterien eingeführt, welche eine qualitative Einordnung der Techniken ermöglichen und Aufschluss darüber geben, inwieweit sie für die zuvor vorgestellten Benutzergruppen geeignet sind. Übersichtlichkeit Dieses Kriterium bringt zum Ausdruck, wie schnell sich der Betrachter einer visualisierten Datenmenge die für ihn interessanten Informationen herauslesen kann und wie deutlich es erkennbar ist (z. B. auch ohne Exper- 3

10 8 Visualisierung der Imperfektion in multidimensionalen Daten tenwissen, denn deutlich erkennbar ist natürlich subjektiv). Negativ auf die Übersichtlichkeit wirkt sich eine zu große Detailtreue aus - insofern besteht hier Konfliktpotential bezüglich des Kriteriums der Vollständigkeit. Insbesondere für den Verkehrsteilnehmer ist dieses Kriterium hoch zu bewerten, die anderen Gruppen arbeiten beruflich damit, weshalb ihr Blick geschulter ist beim Erkennen wichtiger Informationen. Vollständigkeit Um die Vollständigkeit zu erfüllen, muss eine Visualisierungstechnik alle vorhandenen Daten mit in die Darstellung einbeziehen. Fehlen wichtige Informationen, etwa hohe Windgeschwindigkeiten bei in die Darstellung mit einbezogenem Glatteis, so ist die Darstellung nicht mehr vollständig zu nennen. Vor allem der Verkehrsingenieur und der Verkehrswissenschaftler fordern die Erfüllung dieses Kriteriums. Möglichkeit zur Interaktion Da der Benutzer nur eine begrenzte Zahl von Daten verarbeiten kann, sollte ihm die Möglichkeit gegeben werden, die Darstellung interaktiv zu verändern, z.b. durch das Weglassen von Informationen, deren andere Gewichtung oder auch durch die Navigation in Hierarchien. In [Spe01] wird als Beispiel für sog. Fokus + Kontext-Techniken der Fisheyeview genannt, der das Hauptaugenmerk auf einen Ausschnitt der Informationen lenkt und den Rest unscharf erscheinen lässt. Prinzipiell ist die Interaktionsmöglichkeit für alle Benutzergruppen von Interesse. Anwendbarkeit auf ein Verkehrsszenario Dieses nur auf den Verkehr bezogene Kriterium spielt in der Studienarbeit von Oliver Forster eine besondere Rolle, tritt hier aber in den Hintergrund. Dieses Kriterium bewertet, wie gut eine Technik sich im Verkehr einsetzen lässt unabhängig von den anderen drei Kriterien. Kategorien und Verfahren In Oliver Forsters Studienarbeit werden 18 Verfahren vorgestellt (siehe Abbildung 8.1) und sieben davon um Imperfektion erweitert. An dieser Stelle werde ich drei dieser Verfahren beschreiben, und zwar ThemeRiver aus der Kategorie Dokumente und Table Lens und Parallele Koordinaten aus der Kategorie Hochdimensionale Daten. Die restlichen Visualisierungsarten finden sich in Abbildung 8.2, und zwar jeweils mit Bewertung. Da diese Techniken in [For05] näher vorgestellt werden, verzichte ich hier auf die genaue Beschreibung aller 18 Verfahren. ThemeRiver Der ThemeRiver ist eine Visualisierungstechnik für Dokumente, die Veränderungen des thematischen Schwerpunkts innerhalb einer Menge Dokumente visualisiert. Der Themenfluss wird über die Zeitachse dargestellt, die Themenschwerpunkte werden farblich voneinander abgegrenzt, wobei die Dicke einer 4

11 8.2 Visualisierung imperfekter Informationen im Straßenverkehr Abbildung 8.1: Übersicht der Visualisierungstechniken [For05] Schicht proportional zur Bedeutung des Themas ist. Von einem Fluss spricht man, da zwischen diskreten Zeitpunkten z.b. mittels Splines interpoliert wird. Beim ThemeRiver sind Interaktion und das Zoomen auf der Zeitachse möglich. Diese relativ einfache und leicht verständliche Darstellung ermöglicht auch Laien einen einfachen Zugang. Der Verkehrsteilnehmer On-Trip und Pre-Trip sollte die Schaubilder daher gut verstehen können. In Abbildung 8.3 ist die Häufigkeit von Texten Fidel Castros im Zeitraum von November 1959 bis Juni 1961 dargestellt. Parallele Koordinaten Mittels paralleler Koordinaten lässt sich eine Vielzahl von Dimensionen auf zweidimensionalen Medien wie Papier oder Monitor ausgeben. Dazu werden alle Achsen (bzw. Variablen oder Attribute) des multidimensionalen Raums nebeneinander parallel angeordnet. Die Länge der parallelen Strecken spiegelt dabei den Wertebereich jedes Attributs wider, wobei die eingezeichneten Attributwerte als Punkte eingezeichnet und schließlich mit einer Linie verbunden werden (siehe Abbildung 8.4. Eine solche zur besseren Erkennbarkeit oft eingefärbte Linie stellt bei n Attributen ein einzelnes n-tupel dar. Ein großer Vorteil der parallelen Koordinaten ist, dass die beliebig vielen Attribute alle gleich behandelt werden. Interaktion ist dadurch gegeben, dass der Benutzer die Achsen anders anordnen kann, was dem besseren Verständnis der Beziehung zwischen zwei Attributen dienen kann. Zudem können Attribute (bzw. deren Achsen) auch ausgeblendet werden, was für eine gefilterte Darstellung sorgt und dieses Verfahren flexibel macht. Auch Vollständigkeit wird gewährleistet, da alle Attributwerte durch die Verwendung einer eigenen Achse visualisiert werden. Allerdings wird die Darstellung bei Einbeziehung aller Attribute schnell unübersichtlich, insbesondere wenn viele Tupel vorliegen und sich die Verbindungslinien der Tupel oft überkreuzen oder nah beieinander liegen. Experten der Interpretation von parallelen Koordinaten können dieser Visualisierung viele Informationen entnehmen, gerade auch durch die flexible Anordnung 5

12 8 Visualisierung der Imperfektion in multidimensionalen Daten Abbildung 8.2: Bewertungstabelle Visualisierungstechniken [For05] der Achsen. Während dem Verkehrsingenieur durch die aggregierte Darstellung der Blick auf einzelne Teilstrecken erschwert wird, eignet sich diese Technik sehr gut für den Verkehrswissenschaftler. Für den Pre-Trip Verkehrsteilnehmer erfordert diese Technik zu viel Einarbeitungszeit auf Grund der ungewohnten Darstellung mehrerer Achsen nebeneinander und überfordert den On-Trip Verkehrsteilnehmer völlig. Table Lens Die Table Lens Technik dient der Daten-Analyse durch den Benutzer, der diese interaktiv steuern kann. Wie in Abbildung 8.5 zu sehen ist, ist die Ausgabe tabellarisch aufgebaut. Interessante Bereiche werden mittels der Fokus + Kontext-Technik in den Vordergrund gerückt (ähnlich der Fisheye-Sicht), wodurch man auch in großen Datenmengen gezielt Informationen hervorheben kann. Für On-Trip Verkehrsteilnehmer eignet sich diese Darstellung auf Grund ihrer Komplexität nicht, ebenso wenig für den Pre-Trip. Für die beiden anderen Gruppen, Wissenschaftler und Ingenieur, ist die Technik hingegen gut geeignet eben durch ihre vollständige Darstellung mit Fokussierungsmöglichkeit Erweiterung der Verfahren um Imperfektion 2 Die Visualisierung der drei Aspekte der Imperfektion (Unsicherheit, Unschärfe, Ungenauigkeit) ist unterschiedlich einfach zu realisieren. Zudem lassen sich die drei vorgestellten Techniken nicht immer um alle Aspekte sinnvoll erweitern. Der ThemeRiver eignet sich für eine Erweiterung um Unschärfe, indem Linienstärke proportional zu einer linguistischen Variablen eingezeichnet wird (z.b. 2 Vgl. [For05]. 6

13 8.2 Visualisierung imperfekter Informationen im Straßenverkehr Abbildung 8.3: Beispiel ThemeRiver [SHW02] Abbildung 8.4: Prinzip der parallelen Koordinaten [Spe01] kein, wenig, viel beim Niederschlag in Abbildung 8.6). Unsicherheit lässt sich z.b. durch Musterungen wie im rechten Bild in Abbildung 8.6 darstellen, wobei der schraffierte Bereich ein Ungenauigkeitsintervall darstellt, in dem keine eindeutige Aussage darüber möglich ist, ob die Strecke z.b. frei ist oder ob Staugefahr herrscht. Ich denke, dass man die schraffierten Bereiche auch einfach durch eine weitere Farbe visualisieren könnte und dieser dann eine neue linguistische Variable zuweisen könnte, z.b. könnte man Frei/Staugefahr braun einfärben und Staugefahr/Stau orange, wodurch dann fünf statt drei Variablen vorhanden wären. Die in der Abbildung verwendete Schraffur verdeutlicht aber besser den Zusammenhang zwischen sicherer und unsicherer Information, da die voll ausgefüllten Linien einen sicheren Mindestwert darstellen und die Unsicherheit durch die Schraffur schnell als solche erkennbar ist. Bei den parallelen Koordinaten in Abbildung 8.7 ist die Unsicherheit im linken Bild durch den Graustufenwert visualisiert, wobei eine Linie einem Streckabschnitt der A5 entspricht und die Graustufe der Sicherheit des Datensatzes gemäß gewählt ist. An dieser Stelle möchte ich anmerken, dass man durch diese Darstellung etwas eingeschränkt ist, da man zum Beispiel nicht visualisieren kann, dass auf einem Streckenabschnitt ganz sicher kein Nebel vorhanden ist, man aber gleichzeitig über die Rutschgefahr keine Aussage treffen kann. Um unterschiedlichen Attributen wie Nebel und Rutschgefahr verschiedene Sicherheitsgrade zuzuweisen, würde ich hier eine kleine Erweiterung vorschlagen, und zwar wäre ein Wechsel der Graustufe innerhalb des Streckenzuges sinnvoll, sodass eine Linie beim Übergang von einem Attribut zum anderen in der Graustufe (und damit der Sicherheit der Information) veränderbar ist. Die Ungenauigkeit wird dadurch visualisiert, dass eine Linie vor 7

14 8 Visualisierung der Imperfektion in multidimensionalen Daten Abbildung 8.5: Inxight Table Lens [IS] einem mit Ungenauigkeit behafteten Attribut aufgespaltet und danach wieder zusammengeführt wird. Dies ist im Beispiel beim Attribut Niederschlag in der Mitte von Abbildung 8.7 zu sehen. Unschärfe lässt sich bei dieser Visualisierungstechnik schwieriger visualisieren. Im rechten Bild von Abbildung 8.7 sind die Werte der Zugehörigkeitsfunktion zu den linguistischen Variablen des Niederschlags, nämlich kein, schwach und stark um 90 gedreht zur Zeichenebene angetragen. Die Linie, die den Streckenabschnitt A5/73 repräsentiert, bedeutet nun, dass die Zugehörigkeitsfunktion viele Werte der linguistischen Variable kein zuordnet, wohingegen schwach und stark nur wenige Werte auf sich vereinen können, d.h. insgesamt kann man wohl zu Recht von keinem Niederschlag auf diesem Streckenabschnitt sprechen. Bei der Table Lens Technik lässt sich die Unsicherheit wie in Abbildung 8.8 auf der linken Seite zu sehen mittels Graustufen visualisieren, wobei dunklere Graustufen eine größere Sicherheit darstellen. Die Unschärfe wird durch einen für jede linguistische Variable jeweils anders gefärbten Balken dargestellt, dessen Länge proportional zu den Werten der Terme eingezeichnet wird. Die rechte Seite von Abbildung 8.8 kombiniert schließlich Unsicherheit und Ungenaugikeit, indem zur Graustufen-Färbung der Balken noch ein gepunktetes Segment ans Ende der Balken angehängt wird, welches das Ungenauigkeitsintervall darstellt, d.h. der Anfang dieses Segments markiert die untere Intervallgrenze, während das Ende des gesamten Balkens die obere Intervallgrenze markiert. 8

15 8.2 Visualisierung imperfekter Informationen im Straßenverkehr Abbildung 8.6: ThemeRiver ohne (li.) und mit (re.) Ergänzung um Ungenauigkeit - auf beiden Seiten ist die Unschärfe durch linguistische Variablen visualisiert. [For05] Abbildung 8.7: Parallele Koordinaten, erweitert um Imperfektion. [For05] Bewertungskriterien bei der Erweiterung einer Technik um Imperfektion Bei der Erweiterung von Verfahren um Imperfektion sollten nach [For05] folgende vier Punkte beachtet werden: 1. Verhältnismäßigkeit: Die Imperfektion sollte keinen größeren Stellenwert in der Visualisierung bekommen als die eigentliche Information, d.h. die Imperfektion soll die Hauptinformation nur ergänzen. 2. Imperfektionsabgrenzung: Imperfekte Informationen sollten in der Visualsierung klar von perfekten Informationen unterschieden werden können. 3. Unterscheidbarkeit: Mehrere dargestellte Imperfektionsarten sollten innerhalb einer Visualisierung voneinander unterscheidbar sein. 9

16 8 Visualisierung der Imperfektion in multidimensionalen Daten Abbildung 8.8: Table Lens, erweitert um Imperfektion. [For05] 4. Mächtigkeitserhaltung: Die Möglichkeiten einer Visualisierungstechnik sollten durch die Erweiterung um Imperfektion nicht beschnitten werden, insbesondere sollte die erweiterte Technik nicht unübersichtlicher werden. Bewertung der erweiterten Verfahren In der Tabelle in Abbildung 8.9 sind alle in der Studienarbeit [For05] um Imperfektion erweiterten Visualisierungstechniken an Hand der vier eingeführten Kriterien bewertet. Die beiden Techniken für hochdimensionale Daten, Table Lens und Parallele Koordinaten, schneiden in dieser Bewertung in allen Kategorien gut bis sehr gut ab, womit sie sich für die Imperfektionserweiterung sehr gut eignen. Abbildung 8.9: Bewertung der um Imperfektion erweiterten Visualisierungstechniken. [For05] 10

17 8.3 Datenvisualisierung und Visual Data Mining (VDM) Skizzierung des Visualisierungswerkzeugs Das von Oliver Forster mit Java-Swing implementierte Visualisierungswerkzeug Visualizerlässt den Benutzer den Typ der zu visualisierenden Information mit verschiedenen Visualisierungstechniken darstellen. Er implementierte exemplarisch zwei Techniken, nämlich die erweiterten Balkendiagramme (Teil der Table Lens Technik) und ThemeRiver. Das Paket Visualizer enthält vier Hauptklassen Abbildung 8.10: Paketstruktur im Visualisierungswerkzeug [For05] (siehe Abbildung 8.10 und jeweils in einem gesonderten Paket Klassen, die das Laden von Information bzw. das Layout betreffen. Die Kopplung des Werkzeuges mit den Visualisierungstechniken erfolgt über die Pakete fuzzythemeriver und impchart2d, welche jeweils die Erweiterung einer bereits vorhandenen Software und deren Anbindung an den Visualizer übernehmen. Vorhandene Informationen müssen zur Darstellung im Visualizer zunächst über den DataLoader in ein festgelegtes zentrales Format gebracht werden und werden danach vom TechniqueLoader in das technikspezifische Format für eine Visualisierung umgewandelt. Für neue Informationsarten reicht es aus, eine Klasse zur Erzeugung des festgelegten zentralen Formats zu erstellen; es muss also nicht für jede Technik eine neue Klasse zur Umwandlung in deren Format geschrieben werden beim Hinzufügen neuer Informationsarten, wodurch eine einfache Erweiterbarkeit sichergestellt ist. Das Visualisierungswerkzeug eignet sich für den Verkehrsteilnehmer Pre-Trip und für Teilaufgaben des Verkehrsingenieurs/-wissenschaftlers. Nähere Details zum Visualizer finden sich in [For05]. 8.3 Datenvisualisierung und Visual Data Mining (VDM) Nachdem im letzten Kapitel die Erweiterung von Visualisierungstechniken um Imperfektion auf dem Sektor Straßenverkehr behandelt wurden, beschäftigt sich 11

18 8 Visualisierung der Imperfektion in multidimensionalen Daten dieses Kapitel mit dem in der Literatur beim Thema Visualisierung auftauchenden Begriff des Visual Data Mining (VDM), einem mit der Visualisierung von multidimensionalen Daten in Beziehung stehenden Teilbereich des Data Mining. Zunächst gebe ich eine Einführung in verschiedene VDM-Ansätze, danach werden das automatisierte Data Mining und seine Schwächen behandelt, die zum Ansatz der Visuellen Datenexploration geführt haben. Anschließend werden Beispiel- Einsatzgebiete des Kooperativen Data Mining vorgestellt, nämlich die Kooperative Klassifikation und das Interaktive Temporale Data Mining. Bei jeder vorgestellten Technik werde ich darauf eingehen, in wie weit bereits Imperfektion in der Technik bereits vorhanden ist und wie sie dargestellt wird, sofern sie überhaupt berücksichtigt wurde. Schließlich wird noch eine Klassifikationsmöglichkeit vorgestellt, an Hand derer VDM-Techniken entlang orthogonaler Achsen eingeordnet werden können Einordnung des VDM Wie in Abbildung 8.11 zu sehen, befindet sich das Visual Data Mining (VDM) in der Schnittmenge von Data Mining und Information Visualization, d.h. dass im VDM Algorithmen aus dem Mining-Bereich eingesetzt werden und Visualisierungstechniken aus dem Bereich des Informationsvisualisierung. Eine Definition Abbildung 8.11: Einordnung des VDM zwischen Data Mining und Informationsvisualisierung [Fay96] des VDM gibt Mihael Ankerst in seiner Dissertation: Visuelles Data Mining ist ein Teil des KDD-Prozesses, der Visualisierung als Kommunikationsmittel zwischen Mensch und Computer nutzt, um neue und interpretierbare Muster zu erkennen und Wissen zu generieren. [Ank01] Ein Überblick darüber, in welchem Bereich das VDM im KDD-Prozess (Knowledge Discovery in Databases) angesiedelt ist, wird im Schema in Abbildung 8.12 gegeben. Das Schema basiert auf der allgemein anerkannten Definition des KDD- Begriffs von Fayyad: Wissensentdeckung in Datenbanken ist der nichttriviale Prozess der Identifizierung gültiger, neuartiger, potentiell nützlicher und verständlicher Muster in (großen) Datenbeständen. [Fay96] Im Grunde geht es beim VDM darum, den Data Mining Schritt und den Interpretationsschritt im ständigen Wechsel durchzuführen und den Menschen bei der Klassifikation oder Mustersuche zu unterstützen bzw. seine Intuition miteinzubeziehen, um schneller zu Ergebnissen zu kommen und redundante Muster zu entfer- 12

19 8.3 Datenvisualisierung und Visual Data Mining (VDM) nen. Damit kombiniert das VDM die letzten beiden Schritte des KDD-Prozesses zu einer neuen Einheit. Abbildung 8.12: VDM im KDD-Prozess [Fay96] Im VDM lassen sich mehrere Ansätze unterscheiden (siehe Abbildung 8.13). Ansatz a) setzt auf klassischen Data Mining Algorithmen auf, deren Ergebnisse (z.b. erkannte Muster) visualisiert werden. Nachdem die Ergebnisse der Visualisierung vorliegen, entscheidet der Benutzer, ob der Data Mining-Prozess erfolgreich war oder ob der Prozess rekursiv beginnend beim Algorithmus mit geänderten Parametern neu gestartet wird. In der Literatur werden auf diesem Ansatz aufbauende Visualisierungsmethoden auch als Visual Data Mining Tools bezeichnet. Ansatz b) visualisiert die Zwischenergebnisse; dadurch wird der Benutzer stärker in den DM-Prozess einbezogen. Es werden Algorithmen verwendet, die nur präprozessierte Zwischenergebnisse liefern, in denen der Benutzer durch Einsatz von Visualisierungstechniken nach aussagekräftigen Mustern sucht. Der Hauptvorteil dieses Ansatzes ist, dass DM-Algorithmen losgelöst von der Problemstellung verwendet werden (zur Berechnung der Zwischenergebnisse). Allerdings ist hier im Gegensatz zu Ansatz a) keinerlei Rekursion integriert, was für mich die Frage aufwirft, wie mit unzufrieden stellenden Ergebnissen umgegangen wird. Schließlich ist nicht jeder Versuch, Wissen aus Daten zu gewinnen, von Erfolg gekrönt. Ansatz c) schließlich visualisiert Rohdaten und verwendet keine klassischen DM- Algorithmen. Es findet eine Rekursion zwischen den Benutzereingaben und der Visualisierung statt, wodurch die Interaktionsmöglichkeit hier am größten ist, was auch durch die sofortige Aktualisierung der Darstellung (durch interaktive Werkzeuge wie z.b. dynamische Abfragetechniken) unterstrichen wird. Bei diesem Ansatz sprechen Soukup und Davidson in [TS03] auch von Data Visualization - Techniken. Besonders Ansatz c) kommt dem Online Analytical Processing (OLAP) sehr nahe, denn einige der zwölf von Edgar F. Codd in [Cod93] aufgestellten Regeln bzw. Anforderungen an ein OLAP-System werden auch von Ansatz c) erfüllt, darunter vor allem die zehnte Regel (Intuitive Datenanalyse), aber auch die elfte Regel (Flexibles Berichtswesen, Ergebnisse im Report frei anordbar) und die zwölfte (Unbegrenzte Anzahl von Dimensionen und Konsolidierungsebenen) können von Ansatz c) erfüllt werden. Andere Regeln von Codd, wie etwa Regel fünf (Client- Server Archtitektur) oder acht (Mehrbenutzerunterstützung) sind hingegen nicht 13

20 8 Visualisierung der Imperfektion in multidimensionalen Daten Abbildung 8.13: Ansätze des visuellen Data Mining in dem VDM-Ansatz c) festgeschrieben, wodurch aus meiner Sicht auch ein OLAP- System mit diesem Ansatz beschrieben könnte, allerdings mit der Einschränkung, dass in Ansatz c) keine so präzisen Regeln wie die von Codd formuliert sind (d.h. Ansatz c) ist etwas abstrakter gehalten als OLAP) Automatisiertes Data Mining und seine Schwächen Data Mining ist ein iterativer Prozess, dessen Ergebnisse im Rahmen der Datenanalyse die Voraussetzung für eine spätere Evaluierung sind. Beim Data Mining, das auf vorverarbeiteten Daten operiert, soll mittels effizienter Verfahren potentiell nützliches Wissen in großen Datenmengen aufgefunden werden [Ank04] d.h. es sollen Informationen aus Datenmengen gewonnen werden. Heutzutage sind das Data Mining sowie die gesamte Datenanalyse weitgehend automatisiert, was dazu führt, dass einige Probleme auftreten, die durch die Automatisierung nur unzureichend gelöst werden. Erstens fließt vorhandenes Wissen in den Köpfen der Menschen nur schwer oder gar nicht in die Datenanalyse mit ein. Zweitens lassen sich die Erkenntnisse einer Iteration oft nur schwer in eine verbesserte weitere Iteration transferieren, sodass letztlich weiter zurückgegangen wird zum Vorverarbeitungsschritt und eine andere Vorverarbeitung der Daten erfolgt, die bessere Ergebnisse verspricht. Drittens wenden sich heutige Produkte an Experten auf dem Gebiet des Data Mining, weshalb die Fähigkeit dieser Experten, die gewonnenen Ergebnisse zu kommunizieren, von zentraler Bedeutung ist - mit anderen Worten ist es denkbar, dass ein Data Mining Projekt auf Grund der (Un-)Fähigkeit des Experten scheitert, gewonnene Informationen an den oder die Auftraggeber zu vermitteln. 14

21 8.3 Datenvisualisierung und Visual Data Mining (VDM) Visuelle Datenexploration Auf Grund der Schwächen des automatisierten Data Mining schlägt Ankerst in [Ank04] einen benutzerorientierten Ansatz vor, bei dem der Mensch die Datenanalyse steuert. Bei der visuellen Datenexploration (vgl. [Kei02]) sollen die Kreativität und das Verständnis des Menschen verbunden werden mit der der hohen Speicherkapazität und Rechenleistung des Computers. Durch die Visualisierung der Daten kann der Mensch die Struktur der Daten verstehen, Hypothesen aufstellen und diese interaktiv verifizieren bzw. falsifizieren. Dadurch muss der Benutzer nicht auf die oft lange dauernden automatischen Berechnungen warten, sondern er bekommt Zwischenschritte angezeigt und kann den weiteren Verlauf der Exploration damit in eine neue Richtung lenken. Infolgedessen kann auch ein Rechenlauf frühzeitig abgebrochen werden, wenn sich bereits bei den Zwischenschritten abzeichnet, dass mit den gewählten Data-Mining-Parametern keine sinnvollen Ergebnisse zu erwarten sind. Vorteile bietet VDM insbesondere dann, wenn die Explorationsziele nicht genau spezifiziert sind und wenn stark inhomogene und verrauschte Daten vorliegen. Da die visuelle Datenxploration einfacher ist (eine Kenntnis von komplexen Algorithmen ist nicht erforderlich), kann sie auch von Nicht-Spezialisten durchgeführt werden. Weiterhin ist vorteilhaft, dass der Nutzer besser versteht, wie die gewonnen Informationen zu Stande kamen, da der Nutzer den Explorationsvorgang schließlich mitgelenkt hat. Im Endeffekt sind so häufig bessere Ergebnissen erzielbar, gerade in Szenarien, in denen die Automatisierung versagt. Die visuelle Datenexploration lässt sich gemäß dem Information Seeking Mantra [Shn96] in drei Schritte untergliedern: Der Overview-Schritt soll dem Benutzer einen Überblick über die Daten verschaffen. Beim Zoom and Filter-Schritt kann der Benutzer erkannte Muster selektieren (filtern) und genauer betrachten (zoomen). Schließlich bietet der Details-on-Demand -Schritt dem Nutzer die Möglichkeit, auf Details der Daten zuzugreifen Beispiel-Einsatzgebiet für VDM: Kooperatives Data Mining Beim kooperativen Data Mining [Ank04] werden Data Mining Algorithmen und Visualisierungstechniken integriert, sodass bestehende automatisierte Verfahren um die Möglichkeit bereichert werden, den Benutzer interaktiv am Mining Prozess teilnehmen zu lassen. Das Wort kooperativ wird hier synonym zu interaktiv verwendet. An dieser Stelle sollen zwei konkrete Data-Mining-Verfahren vorgestellt werden, die kooperative Klassifikation und das interaktive temporale Data Mining. Ein weiteres Verfahren [Hin99], welches hier jedoch nicht näher behandelt wird, wendet die Idee des kooperativen Data Mining auf hochdimensionale Clustering- Algorithmen an. Kooperative Klassifikation Die Klassifikation ist eines der zentralen Verfahren des Data Mining. Im ersten der zwei Schritte der Klassifikation werden bereits klassifizierte Daten (sog. Trai- 15

22 8 Visualisierung der Imperfektion in multidimensionalen Daten ningsdaten) analysiert, sodass ein Modell mit charakteristischen Attributwerten erstellt werden kann, um im zweiten Schritt der Klassifikation neue Daten gemäß diesem Modell in Klassen einzuteilen. Zur Erstellung eines Klassifikationsmodells wird häufig ein Entscheidungsbaum-Klassifikator verwendet. Aus den Trainingsdaten wird von der Wurzel beginnend ein Entscheidungsbaum konstruiert, wobei Knoten eine Teilmenge der Trainingsdaten, Kanten einen Test auf das Attribut des Vaterknotens und Blätter die Zugehörigkeit zu einer Klasse bedeuten. Die Sensoren im abgebildeten Baum 8.14 bestimmen das Ausfallrisiko eines Heizkörpers. Bei der Konstruktion des Baumes wird zuerst derjenige Sensor gesucht, der die Trainingsdaten am besten in zwei Klassen einteilt. Dies tut Sensor 1, weshalb er zur Wurzel wird. Für die Kinder und deren Kinder wird rekursiv ebenso solch ein am besten separierender Sensor gesucht, bis alle Knoten einen ausreichenden Anteil an einer einzigen Klasse haben, was sie zu Blättern werden lässt. In diesem ausreichenden Anteil steckt bereits ein gewisses Maß an Imper- Abbildung 8.14: Exemplarischer Entscheidungsbaum [Ank04] fektion, nämlich die Unsicherheit, dass nicht alle Daten, die beim Verfolgen der Kanten zu einem Blatt (= Risikoklasse) führen, auch berechtigterweise in diese Risikoklasse eingeordnet werden können, z.b. wenn man den ausreichenden Anteil auf 95% festlegt, liegen 5% der Daten mit negativem Wert bei Sensor 1 und positivem Wert bei Sensor 5 in der hohen Risikoklasse statt in der niedrigen. Weiterhin ist die Abgrenzung in positive und negative Messwerte der Sensoren zwar scharf, doch ist das Ziehen einer Grenze, ab der man Trainingsdaten in eine andere Klasse einteilt, nicht immer einfach. Es kann nämlich eine Rolle spielen, wie dicht die Trainingsdaten an der Grenze beieinander liegen, denn viele nur ganz knapp die Grenze über-/unterschreitende Daten könnten einen Hinweis darauf liefern, dass die Grenze falsch gezogen wurde. Im Wesentlichen gibt es drei Kritikpunkte der automatischen Entscheidungsbaum-Klassifikatoren: Erstens kann der Benutzer sein vorhandenes Wissen in das Verfahren kaum einfließen lassen, zweitens wird zur Laufzeitverkürzung ein Greedy-Verfahren verwendet und drittens werden nicht im Entscheidungsbaum verwendete Attribute einfach weggelassen. Kritikpunkt 16

23 8.3 Datenvisualisierung und Visual Data Mining (VDM) zwei und drei lassen wieder Imperfektion erahnen. So kann das Greedy-Verfahren sub-optimale Ergebnisse produzieren und die unterschlagenen Informationen aus Punkt 3 sind zwar nicht imperfekt im Sinne der drei Arten der Imperfektion aus Definition 1.2, jedoch ist der Baum damit unvollständig im Bezug auf die Verwendung aller über die Daten zur Verfügung stehenden Informationen. Interaktives temporales Data Mining Beim interaktiven temporalen Data Mining haben die zu analysierenden Daten für jeden Datensatz eine zeitliche Information, etwa einen Messzeitpunkt bei einer Messreihe. Hier soll die Architektur sowohl von DM-Experten als auch von Fachexperten (die aber im DM unerfahren sind) benutzbar sein. Auch bei dieser Variante hat der Besucher die volle Palette der Zoom-and-Filter Möglichkeiten. Beispielhaft soll hier auf das Mining-System DataJewel und dessen Visualisierungstechnik CalenderView verwiesen werden. Wie DataJewel arbeitet und welche Interaktionsmöglichkeiten dem Benutzer zur Verfügung stehen, ist in Abbildung 8.15 ersichtlich. CalendarView in Abbildung 8.16 visualisiert die zeitliche Ver- Abbildung 8.15: Der interaktive Mining-Prozess mit DataJewel [Ank04] teilung von Ereignishäufigkeiten in Kalenderform, was den Vorteil hat, dass die Darstellung zum einen den meisten Personen schon vertraut ist und zum anderen, dass z.b. Wochenenden oder wöchentliche Wiederholungen von Ereignissen leichter wahrgenommen werden können. Zudem werden verschiedene Ereignisse auf mit verschiedenen Farben dargestellt, was für Menschen allerdings nur bei einer kleinen Anzahl von Ereignissen übersichtlich bleibt, da bei einer größeren Anzahl die Ereignisse nicht mehr unterscheidbar sind. Bei einer größeren Zahl von 17

24 8 Visualisierung der Imperfektion in multidimensionalen Daten Ereignissen können daher DM-Algorithmen aufgerufen werden, die in Sekunden zeitliche Muster finden. Für diese Form des Data Mining müssen bestehende Algorithmen dahingehend modifiziert werden, dass bereits nach einem linearen Durchlauf der Daten ein Zwischenergebnis vorliegt, was interaktives Arbeiten mit der Software ermöglicht. Die berechneten Ergebnisse der Algorithmen haben dann eine veränderte Farbzuweisung zur Folge, wobei der Benutzer auch alternativ die Farbzuweisung nach seinen Vorstellungen interaktiv verändern kann und so Teilsysteme, etwa die Triebwerke eines Flugzeugs betreffende Teilsyssteme anders einfärben als solche, die für die Klimatisierung des Flugzeuginneren zuständig sind. Abbildung 8.16: Die Visualisierungstechnik CalendarView [Ank04] Imperfektion im VDM: Sowohl die kooperative Klassifikation als auch das interaktive temporale Data Ming sind inhärent unvollkommen. Denn wie schon oben erwähnt, ist beim Entscheidungsbaum-Klassifikator die Festlegung der Grenze, ab der bestimmte Daten einer Klasse angehören, teilweise recht schwierig, vor allem bei diffusen, verrauschten Daten. Außerdem steckt in der Klasseneinteilung die Unsicherheit, dass nicht alle Daten korrekterweise zu einer Klasse zusammengefasst werden, sondern dass eben eine festgelegte Schwelle erreicht wurde, sodass ein geringer Prozentsatz in der Klasse eigentlich nicht in diese gehört. Nach außen hin wird diese Art der Imperfektion allerdings nicht repräsentiert, außer vielleicht in einem Bericht, welcher einer Analyse beiliegt und Meta-Informationen enthält, etwa eben warum gewisse Schwellwerte gewählt wurden, ob die Daten schwer in Klassen einteilbar waren oder auch ob andere Schwierigkeiten im Zusammenhang mit Imperfektion auftraten. Bei der Visualisierungstechnik CalenderView ist die Beschränkung auf einen Tag als kleinste Einheit grobkörnig gewählt, denn es könnte z.b. eine Rolle spielen, zu welcher Uhrzeit innerhalb eines Tages ein Wartungsintervall stattfindet, etwa bei 18

25 8.4 Einordnung und Vergleich Zügen und deren Radreifen. Die Reaktion auf Fehler wäre schneller, wenn die Routine-Kontrolle früh am Tag erfolgt als Nachts - dieser Unterschied wird aber nicht visualisiert Klassifizierung visueller Data Mining Techniken Die Klassifikation in Abbildung 8.17 wurde in [Kei01] eingeführt und ermöglicht eine orthogonale Einordnung von VDM-Techniken. Damit lassen sich die Visualisierungstechniken, die in dieser Arbeit vorgestellt wurden, in folgendem Koordinatensystem einzeichnen. Der zu visualisierende Datentyp umfasst die verschiede- Abbildung 8.17: Klassifikation visueller DM-Techniken [Kei01] nen Arten von vorliegenden Daten, von eindimensionalen Daten, wie z.b. mit dem ThemeRiver visualisierte temporale Daten über multidimensionale Daten etwa aus relationalen Datenbanken bis hin zu Graphen der Internetstruktur (z.b. Skitter- Graph). Die Visualisierungstechniken fangen bei bekannten Techniken wie Säulenoder Kreisdiagrammen an und gehen bis hin zu geschachtelten Visualisierungen, etwa bei Treemaps. Mit Interaktions- und Verzerrungstechniken lässt sich das visuelle Data-Mining vom Benutzer in eine bestimmte Richtung lenken. Hier soll eine Aufzählung von Verfahren genügen: GrandTour-System (interaktive Projektion), Polaris-System (interaktive Selektion), spotfire-system (interaktives Zooming), Hyperbolic Tree (interaktive Verzerrung), XGobi System (interakives Linkging and brushing). 8.4 Einordnung und Vergleich Will man die im zweiten Kapitel vorgestellten Visualisierungstechniken im Verkehrsbereich an Hand der im letzten Kapitel vorgestellten orthogonalen Klassifikation einordnen, lassen sich meiner Ansicht nach nur die beiden Achsen zu visualisierender Datentyp und Visualisierungstechnik genauer eingrenzen, in der 19

26 8 Visualisierung der Imperfektion in multidimensionalen Daten Richtung Interaktions- und Verzerrungstechniken gebe ich nur eine persönliche Einschätzung über nötige und wünschenswerte Interaktionstechniken, da mir diese Dimension vom Verfahren her nicht eindeutig festgelegt erscheint. ThemeRiver würde ich in Sachen Interaktions- und Verzerrungstechnik unter Zoom, bei Datentyp unter eindimensional und bei Visualisierungstechnik unter Standard 2D/3D Visualisierung einordnen, wobei die Möglichkeit der Inter- aktion nicht auf das Zoomen beschränkt sein muss und auch eine Verzerrung nicht ausgeschlossen ist. Zoomen ist aber deshalb wichtig, da es bei großen Sammlungen von Texten erforderlich sein kann, auf der Zeitachse zu zoomen, um damit z.b. kürzere Abschnitte der Schaffensphasen eines Schriftstellers oder Politikers genauer zu analysieren. Die parallelen Koordinaten müssen mindestens die interaktive Selektion unterstützen, damit die gewünschten Dimensionen ein- und ausgeblendet werden können. Der Datentyp ist multidimensional und die Visualisierungstechnik ist eine geometrische Transformation. Projektion und Zoom sind bei dieser Technik sinnvolle Interaktionstechniken - je nach Anwendungszweck und Datenbasis. Die Table Lens-Technik ist vom Datentyp her multidimensional und als Visualisierungstechnik eine Standard 2D/3D Visualisierung. Als Interaktionstechnik sollte dem Benutzer auf jeden Fall eine Filter-Möglichkeit an die Hand gegeben werden, damit er sich z.b. bei sehr vielen Autobahnabschnitts-Daten von verschiedenen Autobahnen nur diejenigen anzeigen lassen kann, die zu der von ihm betrachteten Autobahn gehören. Wie oben schon erwähnt, muss das aber nicht die einzige Interaktionsmöglichkeit sein; für die Selektion und die Verzerrung sind auch sinnvolle Anwendungen denkbar, etwa die Auswahl von Strecken, die von Glatteis betroffen sind oder die verzerrte Darstellung z.b. von sehr windigen Streckabschnitten in der Visualisierung, damit sie in der Flut von Streckabschnitten auffallen, die ein Verkehrsingenieur visualisieren lässt. Die beiden in Kapitel 8.3 vorgestellten VDM-Techniken Kooperative Klassifikation und Interaktives temporales Data Mining verwenden beide pixel-basierte Visualierungstechniken und arbeiten vom Datentyp her mit multidimensionalen Daten. Die Möglichkeiten zur Interaktion im DataJewel-System (vgl. [Ank04]) sind vielfältig und übersteigen die im Koordinatensystem eingezeichneten Interaktionstechniken sogar. Für beide ist meiner Meinung nach auch eine Anwendung im Verkehr denkbar. Mit Hilfe der kooperativen Klassifikation kann z.b. ein Verkehrswissenschafter Modelle entwickeln an Hand von Daten, die ihm Durchfahrts- Messstellen geliefert haben, um damit bestimmte Stausituationen besser vorhersagen zu können. Auch die Modellierung von sinnvollen Verkehrsregulierungsmaßnahmen wäre so möglich, z.b. folgendermaßen: Wenn an einer Messstelle wenige Autos durchfahren und ihre Geschwindigkeit nahe an der auf diesem Streckenabschnitt zugelassenen Maximalgeschwindigkeit liegt, könnte man die Geschwindigkeitsbegrenzung aufheben. Wenn allerdings eine bestimmte Schwelle von durchfahrenden Autos überschritten wird oder auf einem folgenden Abschnitt ein Stau oder ein Unfall registriert ist, sollte dieses Aufheben unterlassen werden. Auch das interaktive temporale Data Mining hat meiner Ansicht nach inter- 20

27 8.5 Zusammenfassung und Ausblick essante Anwendungsgebiete im Verkehr. Neben der Flugzeugwartung, die bei der Vorstellung als Beispiel diente, wäre ein solches System auch bei der Auto-Wartung denkbar, da heutige Fahrzeuge zunehmend komplexer werden und eine Fülle von Elektronik enthalten, was die Fehlerdiagnose komplexer, durch Einsatz von Computern aber auch automatisierbar macht. Wenn z.b. in der Werkstatt bei einem Systemcheck bestimmte Fehler aufgedeckt werden, können diese sogleich in einer Datenbank aufgenommen werden, damit man temporales Data-Mining interaktiv darauf betreiben kann, um z.b. bestimmte Vermutungen bezüglich des Auftretens von Störungen oder Pannen zu verifizieren oder zu falsifizieren. Wenn man etwa den Verdacht hat, dass eine bestimmte produzierte Serie von Fahrzeugen zu Fehlern an der Lenksäule neigt, lässt sich durch das interaktive temporale DM feststellen, ob die Werkstattdaten aller Werkstätten in Deutschland diesen Verdacht erhärten können, indem der Data-Mining-Benutzer geschickt Modell-Reihe, Serie und betrachtetes Zeitintervall eingrenzt und so eine aussagekräftige Visualisierung erhält, die Aufschluss über auffällige Reparaturhäufigkeiten gibt. 8.5 Zusammenfassung und Ausblick In dieser Seminararbeit wurden zunächst Visualisierungstechniken aus dem Straßenverkehrsbereich sowie Kriterien für deren Klassifikation vorgestellt, mit denen die Techniken bewertet wurden. Anschließend wurden die um Imperfektion erweiterten Techniken und deren Bewertung vorgestellt. Das dritte Kapitel umfasst die Einführung in das Visual Data Mining und dessen drei verschiedene Ansätze sowie die Vorstellung zweier konkreter Techniken des Visual Data Mining und gibt eine Klassifikationsmöglichkeit an, die auf alle in dieser Arbeit besprochenen fünf Techniken angewendet wird, nämlich ThemeRiver, Parallele Koordinaten, Table Lens, Kooperative Klassifikation und Interaktives Temporales Data Mining. Ferner wurde gezeigt, dass den beiden letztgenannten, zum kooperativen Data Mining zählenden VDM-Verfahren, ein gewisses Maß an Imperfektion bereits im Verfahren innewohnt, ohne dass die Imperfektion bewusst in die Verfahren integriert worden wäre. Spätestens da, wo klare Grenzen werden müssen, die letztlich willkürlich sind, findet keine perfekte Abbildung der Wirklichkeit mehr statt, sodass man es mit unsicheren, unscharfen oder ungenauen Modellen zu tun hat wie beispielsweise mit der Unschärfe im Falle des Entscheidungsbaumklassifikators oder der Ungenauigkeit bei CalendarView. Allerdings erscheint es wiederum notwendig, dass bei der Abstraktion von den Einzeldaten, wie sie bei der Klassifikation durchgeführt wird, eine Reduktion von Klassen stattfindet, welche fast immer mit einem Informationsverlust einhergeht und damit mit Imperfektion. Diesen Preis ist man aber häufig bereit zu zahlen, um Informationen überhaupt erst beherrschbar und überschaubar zu machen. Den Lerneffekt in diesem Seminarthema sehe ich vor allem darin, dass der Blick darauf geschärft wird, was bei Visualisierungen weggelassen wird und was in den Vordergrund gerückt wird. Letztendlich ist jede Form der Visualisierung nur ein Modell, ein Ausschnitt desssen, was an Informa- 21

28 8 Visualisierung der Imperfektion in multidimensionalen Daten tionen in einem (multidimensionalen) Datensatz vorhanden ist. Die Erweiterung von bestehenden Techniken um Imperfektion ist daher vor allem sinnvoll, um dem Betrachter von Visualisierungen vor Augen zu führen, an welchen Stellen bekanntermaßen unsichere, unscharfe oder ungenaue Daten visualisiert werden, damit er sich ein fundierteres Bild über den Informationsgehalt der visualisierten Daten machen kann. Lässt man die Imperfektion bei der Darstellung nämlich außer Acht, so kann es den Anschein machen, als beruhte die Visualisierung auf sicheren Daten, was zu falschen Erkenntnissen beim Betrachter führen kann. Die Integration von Data-Mining-Algorithmen und Visualisierungstechniken beim interaktiven bzw. kooperativen Data Mining lässt auch in Zukunft noch genug Raum für Forschungen, da für interaktive Anwendungen die bestehenden Data Mining Algorithmen dahingehend umgeformt werden müssen, dass sie in wenigen Sekunden Zwischenergebnisse liefern, damit für den Benutzer die Verzögerungen beim Arbeiten akzeptabel bleiben. Diese Verkürzung der Laufzeiten auf der einen Seite und das Ausloten der Möglichkeiten (und Grenzen) des kooperativen Data Mining auf der anderen Seiten sind zwei interessante Forschungsfelder auf Gebiet der Informationsgewinnung. Das kooperative Data Mining ist heutzutage vor allem deshalb interessant, weil der menschliche Intellekt beim Auffinden von Mustern dem Computer noch einiges voraus hat bzw. weil der Mensch weiß, in welche Richtung er die Suche nach Informationen in einer Unmenge von Daten lenken will. Spannend ist daher auch die Frage, inwieweit dem Computer diese Zielstrebigkeit beigebracht werden kann, damit er selbst Informationen in großen Datenmengen zu erkennen und zu verknüpfen vermag - ganz ohne Benutzerinteraktion. 22

29 Literaturverzeichnis [Ank01] [Ank04] Mihael Ankerst. Visual Data Mining. Dissertation, Ludwig Maximilian Universität München, Mihael Ankerst. Kooperatives data mining: Eine integration von datamining-algorithmen und visualisierungstechniken. Datenbank-Spektrum, 9, [Cod93] S. B.; Salley C. T. Codd, Edgar F.; Codd. Providing olap to useranalysts: An it mandate. Codd & Associates, [Fay96] G.; Smyth P. Fayyad, U. M.; Piatetski-Shapiro. The kdd process for extracting useful knowledge from volumes of data. Comm. of the ACM, 39(11):27 34, [For05] Oliver Forster. Visualisierung imperfekter informationen in einem analyse-werkzeug. Studienarbeit, Universität Karlsruhe (TH), [Hin99] [IS] [Kei01] D.A.; Wawryniuk M. Hinneburg, A.; Keim. Hd-eye: Visual mining of high dimensional data. IEEE Computer Graphics and Applications, 19(5):22 31, Inc. Inxight Software. Inxight table lens - the fastest way to put data into decision. Daniel A. Keim. Visual exploration of large databases. Communications of the ACM, 44(8):38 44, [Kei02] Daniel A. Keim. Datenvisualisierung und data mining. Datenbank- Spektrum, 2, [Koo04] [Shn96] Erik Koop. Datenbankunterstützung für imperfekte Daten im Verkehrsumfeld. Diplomarbeit, Universität Karlsruhe (TH), Ben Shneiderman. The eye have it: A task by date type taxonomy for information visualizations. Visual Languages, [SHW02] L. Nowell S. Havre, B. Hetzler and P. Whitney. Themeriver: Visualizing thematic changes in large document collections [Spe01] Robert Spence. Information Visualization. Addison-Wesley,

30 Literaturverzeichnis [TS03] Ian Davidson Tom Soukup. Visual Data Mining. Wiley,