Visualisierung der Imperfektion in multidimensionalen Daten

Größe: px
Ab Seite anzeigen:

Download "Visualisierung der Imperfektion in multidimensionalen Daten"

Transkript

1 Universität Karlsruhe (TH) Fakultät für Informatik Institut für Programmstrukturen und Datenorganisation (IPD) Hauptseminar Imperfektion und erweiterte Konzepte im Data Warehousing Visualisierung der Imperfektion in multidimensionalen Daten Seminararbeit von Cand.-Inform. Horst Fortner Sommersemester 2005

2

3 Inhaltsverzeichnis Abbildungsverzeichnis iii 8 Visualisierung der Imperfektion in multidimensionalen Daten Einführung Motivation Begriffe Visualisierung imperfekter Informationen im Straßenverkehr Benutzergruppen im Straßenverkehrsbereich Visualisierungstechniken (noch ohne Imperfektion) Erweiterung der drei vorgestellten Verfahren um Imperfektion Skizzierung des Visualisierungswerkzeugs Datenvisualisierung und Visual Data Mining (VDM) Einordnung des VDM Automatisiertes Data Mining und seine Schwächen Visuelle Datenexploration Beispiel-Einsatzgebiet für VDM: Kooperatives Data Mining Klassifizierung visueller Data Mining Techniken Einordnung und Vergleich Zusammenfassung und Ausblick Literaturverzeichnis 23 i

4 Inhaltsverzeichnis ii

5 Abbildungsverzeichnis 8.1 Übersicht der Visualisierungstechniken [For05] Bewertungstabelle Visualisierungstechniken [For05] Beispiel ThemeRiver [SHW02] Prinzip der parallelen Koordinaten [Spe01] Inxight Table Lens [IS] ThemeRiver ohne (li.) und mit (re.) Ergänzung um Ungenauigkeit - auf beiden Seiten ist die Unschärfe durch linguistische Variablen visualisiert. [For05] Parallele Koordinaten, erweitert um Imperfektion. [For05] Table Lens, erweitert um Imperfektion. [For05] Bewertung der um Imperfektion erweiterten Visualisierungstechniken. [For05] Paketstruktur im Visualisierungswerkzeug [For05] Einordnung des VDM zwischen Data Mining und Informationsvisualisierung [Fay96] VDM im KDD-Prozess [Fay96] Ansätze des visuellen Data Mining Exemplarischer Entscheidungsbaum [Ank04] Der interaktive Mining-Prozess mit DataJewel [Ank04] Die Visualisierungstechnik CalendarView [Ank04] Klassifikation visueller DM-Techniken [Kei01] iii

6

7 Horst Fortner 8 Visualisierung der Imperfektion in multidimensionalen Daten 8.1 Einführung Motivation Die Visualisierung multidimensionaler Daten verbessert typische Data Mining Anwendungen sowie OLAP-Anwendungen (Online Analytical Processing) und ermöglicht kooperatives Data Mining, bei dem der Benutzer interaktiv die Datenanalyse steuert. In dieser Seminararbeit werden zunächst bestehende Visualisierungstechniken daraufhin untersucht, wie sie sich um imperfekte Informationen erweitern lassen und anschließend bewertet. Weiterhin wird auf die Bedeutung des Visual Data Mining (VDM) eingegangen und erläutert, welche Rolle die Visualisierung im VDM spielt. Anschließend werden die vorgestellten Visualisierungstechniken sowie die VDM-Techniken mittels eines orthogonalen Klassifikationsschemas eingeordnet. Das letzte Kapitel fasst die Ergebnisse zusammen und gibt einen Ausblick auf interessante zukünftige Forschungszweige Begriffe Imperfekte Informationen: Es lässt sich eine Grobeinteilung imperfekter Informationen in drei Kategorien durchführen [Koo04], nämlich in unsichere, unscharfe und ungenaue Informationen. Unsicher ist eine Information, wenn nicht entschieden werden kann, ob sie wahr oder falsch ist. Unsichere Informationen treten z. B. in Wettervorhersagen auf, da diese Prognosen nur wahrscheinlich sind, nicht aber sicher. 1

8 8 Visualisierung der Imperfektion in multidimensionalen Daten Unscharf ist eine Information, wenn bei Verwendung von Kategorien für gewisse Eigenschaften keine eindeutige Grenze gezogen werden kann (linguistische Variablen), z.b. ist nicht scharf abgrenzbar, ob ein Mensch groß oder ein Produkt teuer ist. Ungenau ist eine Information, wenn sie durch Intervalle angegeben wird, die nicht beliebig genau (bzw. kurz) sein können, z. B. spricht man bei Messungen in der Physik von Messungenauigkeit. Visualisierung: Laut Wikipedia bedeutet Visualisierung, abstrakte Daten in eine angebrachte, verstehbare Form zu bringen. Dabei können Details weggelassen werden, die im Kontext vernachlässigbar sind. Visualisierte Daten müssen daher korrekt interpretiert werden. Diese Definition weist schon darauf hin, dass bei der Visualisierung Imperfektion implizit vorhanden sein kann, da Informationen ( Details ) weggelassen werden können. Im Rahmen dieser Seminararbeit bedeutet Visualisierung insbesondere die grafische Darstellung von multidimensionalen Datenmengen. Multidimensionale Daten: Dies bedeutet, dass es sich um Daten mit vielen Attributwerten handelt, die sich zu orthogonalen Dimensionen zusammenfassen lassen und als Ausgangsbasis für Analyseanwendungen dienen. 8.2 Visualisierung imperfekter Informationen im Straßenverkehr 1 Im Straßenverkehr treten imperfekte Informationen z.b. bei unsicheren Angaben von Staulängen, bei ungenauen Baustellenlängenangaben oder auch bei Berechnungen von Radiosendern, die den erwarteten Zeitverlust angeben. All diesen Beispielen ist gemein, dass sie dem Benutzer aber immerhin das ungefähre Ausmaß der zu erwartenden Verspätung aufzeigen. In diesem Kapitel werden zunächst die Benutzergruppen im Straßenverkehrsbereich identifiziert. Danach werden drei Visualisierungstechniken eingeführt und eine Einschätzung gegeben, wie gut diese für die Benutzergruppen geeignet sind. Anchließend werden diese Verfahren um Imperfektion erweitert und schließlich wird das Visualisierungswerkzeug aus der Studienarbeit [For05] skizziert Benutzergruppen im Straßenverkehrsbereich Verkehrsteilnehmer On-Trip: Für den Verkehrsteilnehmer On-Trip sind seine aktuelle Position und Geschwindigkeit sowie Informationen zum Verkehrsfluss besonders wichtig. Wird z. B. eine Straße gesperrt, benötigt er zwei Nachrichten: Eine beim Inkrafttreten der Sperrung und eine bei deren Aufhebung. Des Weiteren sind das Wetter sowie Baustellen ebenfalls von Interesse für diesen Verkehrsteilnehmer, 1 Die Ausführungen dieses Kapitels basieren auf der Studienarbeit [For05] von Oliver Forster 2

9 8.2 Visualisierung imperfekter Informationen im Straßenverkehr insbesondere wenn sie Einfluss auf den Verkehrsfluss haben (Eis, Nebel, nur einspurig befahrbare Baustellen etc.). Verkehrsteilnehmer Pre-Trip: Dieser Benutzertyp plant seine Route im Vorfeld und braucht dazu Informationen zum Verkehrsnetz. Im Vorfeld bekannte Störgrößen für den Verkehrsfluss, etwa Langzeitbaustellen oder auch gesperrte Straßen, sind für ihn wichtig. Auch das zu erwartende Verkehrsaufkommen (z. B. ein hohes Aufkommen zur Urlaubszeit) ist ein wichtiger Faktor bei seiner Planung. Das Wetter spielt, insbesondere bei früher Routenplanung, eine ungeordnete Rolle, da z.b. über eine Woche hinausgehende Wettervorhersagen zu unsicher sind, als dass sie als Entscheidungskriterium herhalten könnten. Verkehrsingenieur: Der Ingenieur benötigt alle Arten von Informationen zum Verkehrsnetz, damit er einen Überblick hat, wenn z.b. Umleitungen empfohlen werden sollen. Zudem ist der aktuelle Verkehrsfluss auf seinem Zuständigkeitsgebiet (und nicht etwa nur auf einer geplanten Route) von großer Bedeutung, da er auf Störfaktoren z. B. mit Umleitungen und Temporegulierungen reagieren kann und somit möglichst frühzeitig informiert werden sollte. Verkehrswissenschaftler: Für den Wissenschaftler sind vor allem aggregierte und statistisch nutzbare Daten interessant statt Einzeldaten wie ein Unfall. Je nach Art der Untersuchung, die er anstellt, können für ihn bestimmte Daten wichtig und andere irrelevant sein (das gesamte Verkehrsnetz spielt keine Rolle, wenn nur eine Strecke untersucht wird). Zusammenfassend lässt sich feststellen, dass verschiedene Informationen für die besprochenen Benutzergruppen von Bedeutung sind und jede Gruppe daher andere Anforderungen an die Visualisierung stellt Visualisierungstechniken (noch ohne Imperfektion) Nach der Identifikation der beteiligten Benutzergruppen und deren Anforderungen werden in diesem Abschnitt drei Visualisierungstechniken vorgestellt. Bewertungskriterien für Visualisierungstechniken im Hinblick auf die Benutzergruppen Um die drei vorzustellenden Visualisierungstechniken bewerten zu können, werden in diesem Abschnitt zunächst vier Bewertungskriterien eingeführt, welche eine qualitative Einordnung der Techniken ermöglichen und Aufschluss darüber geben, inwieweit sie für die zuvor vorgestellten Benutzergruppen geeignet sind. Übersichtlichkeit Dieses Kriterium bringt zum Ausdruck, wie schnell sich der Betrachter einer visualisierten Datenmenge die für ihn interessanten Informationen herauslesen kann und wie deutlich es erkennbar ist (z. B. auch ohne Exper- 3

10 8 Visualisierung der Imperfektion in multidimensionalen Daten tenwissen, denn deutlich erkennbar ist natürlich subjektiv). Negativ auf die Übersichtlichkeit wirkt sich eine zu große Detailtreue aus - insofern besteht hier Konfliktpotential bezüglich des Kriteriums der Vollständigkeit. Insbesondere für den Verkehrsteilnehmer ist dieses Kriterium hoch zu bewerten, die anderen Gruppen arbeiten beruflich damit, weshalb ihr Blick geschulter ist beim Erkennen wichtiger Informationen. Vollständigkeit Um die Vollständigkeit zu erfüllen, muss eine Visualisierungstechnik alle vorhandenen Daten mit in die Darstellung einbeziehen. Fehlen wichtige Informationen, etwa hohe Windgeschwindigkeiten bei in die Darstellung mit einbezogenem Glatteis, so ist die Darstellung nicht mehr vollständig zu nennen. Vor allem der Verkehrsingenieur und der Verkehrswissenschaftler fordern die Erfüllung dieses Kriteriums. Möglichkeit zur Interaktion Da der Benutzer nur eine begrenzte Zahl von Daten verarbeiten kann, sollte ihm die Möglichkeit gegeben werden, die Darstellung interaktiv zu verändern, z.b. durch das Weglassen von Informationen, deren andere Gewichtung oder auch durch die Navigation in Hierarchien. In [Spe01] wird als Beispiel für sog. Fokus + Kontext-Techniken der Fisheyeview genannt, der das Hauptaugenmerk auf einen Ausschnitt der Informationen lenkt und den Rest unscharf erscheinen lässt. Prinzipiell ist die Interaktionsmöglichkeit für alle Benutzergruppen von Interesse. Anwendbarkeit auf ein Verkehrsszenario Dieses nur auf den Verkehr bezogene Kriterium spielt in der Studienarbeit von Oliver Forster eine besondere Rolle, tritt hier aber in den Hintergrund. Dieses Kriterium bewertet, wie gut eine Technik sich im Verkehr einsetzen lässt unabhängig von den anderen drei Kriterien. Kategorien und Verfahren In Oliver Forsters Studienarbeit werden 18 Verfahren vorgestellt (siehe Abbildung 8.1) und sieben davon um Imperfektion erweitert. An dieser Stelle werde ich drei dieser Verfahren beschreiben, und zwar ThemeRiver aus der Kategorie Dokumente und Table Lens und Parallele Koordinaten aus der Kategorie Hochdimensionale Daten. Die restlichen Visualisierungsarten finden sich in Abbildung 8.2, und zwar jeweils mit Bewertung. Da diese Techniken in [For05] näher vorgestellt werden, verzichte ich hier auf die genaue Beschreibung aller 18 Verfahren. ThemeRiver Der ThemeRiver ist eine Visualisierungstechnik für Dokumente, die Veränderungen des thematischen Schwerpunkts innerhalb einer Menge Dokumente visualisiert. Der Themenfluss wird über die Zeitachse dargestellt, die Themenschwerpunkte werden farblich voneinander abgegrenzt, wobei die Dicke einer 4

11 8.2 Visualisierung imperfekter Informationen im Straßenverkehr Abbildung 8.1: Übersicht der Visualisierungstechniken [For05] Schicht proportional zur Bedeutung des Themas ist. Von einem Fluss spricht man, da zwischen diskreten Zeitpunkten z.b. mittels Splines interpoliert wird. Beim ThemeRiver sind Interaktion und das Zoomen auf der Zeitachse möglich. Diese relativ einfache und leicht verständliche Darstellung ermöglicht auch Laien einen einfachen Zugang. Der Verkehrsteilnehmer On-Trip und Pre-Trip sollte die Schaubilder daher gut verstehen können. In Abbildung 8.3 ist die Häufigkeit von Texten Fidel Castros im Zeitraum von November 1959 bis Juni 1961 dargestellt. Parallele Koordinaten Mittels paralleler Koordinaten lässt sich eine Vielzahl von Dimensionen auf zweidimensionalen Medien wie Papier oder Monitor ausgeben. Dazu werden alle Achsen (bzw. Variablen oder Attribute) des multidimensionalen Raums nebeneinander parallel angeordnet. Die Länge der parallelen Strecken spiegelt dabei den Wertebereich jedes Attributs wider, wobei die eingezeichneten Attributwerte als Punkte eingezeichnet und schließlich mit einer Linie verbunden werden (siehe Abbildung 8.4. Eine solche zur besseren Erkennbarkeit oft eingefärbte Linie stellt bei n Attributen ein einzelnes n-tupel dar. Ein großer Vorteil der parallelen Koordinaten ist, dass die beliebig vielen Attribute alle gleich behandelt werden. Interaktion ist dadurch gegeben, dass der Benutzer die Achsen anders anordnen kann, was dem besseren Verständnis der Beziehung zwischen zwei Attributen dienen kann. Zudem können Attribute (bzw. deren Achsen) auch ausgeblendet werden, was für eine gefilterte Darstellung sorgt und dieses Verfahren flexibel macht. Auch Vollständigkeit wird gewährleistet, da alle Attributwerte durch die Verwendung einer eigenen Achse visualisiert werden. Allerdings wird die Darstellung bei Einbeziehung aller Attribute schnell unübersichtlich, insbesondere wenn viele Tupel vorliegen und sich die Verbindungslinien der Tupel oft überkreuzen oder nah beieinander liegen. Experten der Interpretation von parallelen Koordinaten können dieser Visualisierung viele Informationen entnehmen, gerade auch durch die flexible Anordnung 5

12 8 Visualisierung der Imperfektion in multidimensionalen Daten Abbildung 8.2: Bewertungstabelle Visualisierungstechniken [For05] der Achsen. Während dem Verkehrsingenieur durch die aggregierte Darstellung der Blick auf einzelne Teilstrecken erschwert wird, eignet sich diese Technik sehr gut für den Verkehrswissenschaftler. Für den Pre-Trip Verkehrsteilnehmer erfordert diese Technik zu viel Einarbeitungszeit auf Grund der ungewohnten Darstellung mehrerer Achsen nebeneinander und überfordert den On-Trip Verkehrsteilnehmer völlig. Table Lens Die Table Lens Technik dient der Daten-Analyse durch den Benutzer, der diese interaktiv steuern kann. Wie in Abbildung 8.5 zu sehen ist, ist die Ausgabe tabellarisch aufgebaut. Interessante Bereiche werden mittels der Fokus + Kontext-Technik in den Vordergrund gerückt (ähnlich der Fisheye-Sicht), wodurch man auch in großen Datenmengen gezielt Informationen hervorheben kann. Für On-Trip Verkehrsteilnehmer eignet sich diese Darstellung auf Grund ihrer Komplexität nicht, ebenso wenig für den Pre-Trip. Für die beiden anderen Gruppen, Wissenschaftler und Ingenieur, ist die Technik hingegen gut geeignet eben durch ihre vollständige Darstellung mit Fokussierungsmöglichkeit Erweiterung der Verfahren um Imperfektion 2 Die Visualisierung der drei Aspekte der Imperfektion (Unsicherheit, Unschärfe, Ungenauigkeit) ist unterschiedlich einfach zu realisieren. Zudem lassen sich die drei vorgestellten Techniken nicht immer um alle Aspekte sinnvoll erweitern. Der ThemeRiver eignet sich für eine Erweiterung um Unschärfe, indem Linienstärke proportional zu einer linguistischen Variablen eingezeichnet wird (z.b. 2 Vgl. [For05]. 6

13 8.2 Visualisierung imperfekter Informationen im Straßenverkehr Abbildung 8.3: Beispiel ThemeRiver [SHW02] Abbildung 8.4: Prinzip der parallelen Koordinaten [Spe01] kein, wenig, viel beim Niederschlag in Abbildung 8.6). Unsicherheit lässt sich z.b. durch Musterungen wie im rechten Bild in Abbildung 8.6 darstellen, wobei der schraffierte Bereich ein Ungenauigkeitsintervall darstellt, in dem keine eindeutige Aussage darüber möglich ist, ob die Strecke z.b. frei ist oder ob Staugefahr herrscht. Ich denke, dass man die schraffierten Bereiche auch einfach durch eine weitere Farbe visualisieren könnte und dieser dann eine neue linguistische Variable zuweisen könnte, z.b. könnte man Frei/Staugefahr braun einfärben und Staugefahr/Stau orange, wodurch dann fünf statt drei Variablen vorhanden wären. Die in der Abbildung verwendete Schraffur verdeutlicht aber besser den Zusammenhang zwischen sicherer und unsicherer Information, da die voll ausgefüllten Linien einen sicheren Mindestwert darstellen und die Unsicherheit durch die Schraffur schnell als solche erkennbar ist. Bei den parallelen Koordinaten in Abbildung 8.7 ist die Unsicherheit im linken Bild durch den Graustufenwert visualisiert, wobei eine Linie einem Streckabschnitt der A5 entspricht und die Graustufe der Sicherheit des Datensatzes gemäß gewählt ist. An dieser Stelle möchte ich anmerken, dass man durch diese Darstellung etwas eingeschränkt ist, da man zum Beispiel nicht visualisieren kann, dass auf einem Streckenabschnitt ganz sicher kein Nebel vorhanden ist, man aber gleichzeitig über die Rutschgefahr keine Aussage treffen kann. Um unterschiedlichen Attributen wie Nebel und Rutschgefahr verschiedene Sicherheitsgrade zuzuweisen, würde ich hier eine kleine Erweiterung vorschlagen, und zwar wäre ein Wechsel der Graustufe innerhalb des Streckenzuges sinnvoll, sodass eine Linie beim Übergang von einem Attribut zum anderen in der Graustufe (und damit der Sicherheit der Information) veränderbar ist. Die Ungenauigkeit wird dadurch visualisiert, dass eine Linie vor 7

14 8 Visualisierung der Imperfektion in multidimensionalen Daten Abbildung 8.5: Inxight Table Lens [IS] einem mit Ungenauigkeit behafteten Attribut aufgespaltet und danach wieder zusammengeführt wird. Dies ist im Beispiel beim Attribut Niederschlag in der Mitte von Abbildung 8.7 zu sehen. Unschärfe lässt sich bei dieser Visualisierungstechnik schwieriger visualisieren. Im rechten Bild von Abbildung 8.7 sind die Werte der Zugehörigkeitsfunktion zu den linguistischen Variablen des Niederschlags, nämlich kein, schwach und stark um 90 gedreht zur Zeichenebene angetragen. Die Linie, die den Streckenabschnitt A5/73 repräsentiert, bedeutet nun, dass die Zugehörigkeitsfunktion viele Werte der linguistischen Variable kein zuordnet, wohingegen schwach und stark nur wenige Werte auf sich vereinen können, d.h. insgesamt kann man wohl zu Recht von keinem Niederschlag auf diesem Streckenabschnitt sprechen. Bei der Table Lens Technik lässt sich die Unsicherheit wie in Abbildung 8.8 auf der linken Seite zu sehen mittels Graustufen visualisieren, wobei dunklere Graustufen eine größere Sicherheit darstellen. Die Unschärfe wird durch einen für jede linguistische Variable jeweils anders gefärbten Balken dargestellt, dessen Länge proportional zu den Werten der Terme eingezeichnet wird. Die rechte Seite von Abbildung 8.8 kombiniert schließlich Unsicherheit und Ungenaugikeit, indem zur Graustufen-Färbung der Balken noch ein gepunktetes Segment ans Ende der Balken angehängt wird, welches das Ungenauigkeitsintervall darstellt, d.h. der Anfang dieses Segments markiert die untere Intervallgrenze, während das Ende des gesamten Balkens die obere Intervallgrenze markiert. 8

15 8.2 Visualisierung imperfekter Informationen im Straßenverkehr Abbildung 8.6: ThemeRiver ohne (li.) und mit (re.) Ergänzung um Ungenauigkeit - auf beiden Seiten ist die Unschärfe durch linguistische Variablen visualisiert. [For05] Abbildung 8.7: Parallele Koordinaten, erweitert um Imperfektion. [For05] Bewertungskriterien bei der Erweiterung einer Technik um Imperfektion Bei der Erweiterung von Verfahren um Imperfektion sollten nach [For05] folgende vier Punkte beachtet werden: 1. Verhältnismäßigkeit: Die Imperfektion sollte keinen größeren Stellenwert in der Visualisierung bekommen als die eigentliche Information, d.h. die Imperfektion soll die Hauptinformation nur ergänzen. 2. Imperfektionsabgrenzung: Imperfekte Informationen sollten in der Visualsierung klar von perfekten Informationen unterschieden werden können. 3. Unterscheidbarkeit: Mehrere dargestellte Imperfektionsarten sollten innerhalb einer Visualisierung voneinander unterscheidbar sein. 9

16 8 Visualisierung der Imperfektion in multidimensionalen Daten Abbildung 8.8: Table Lens, erweitert um Imperfektion. [For05] 4. Mächtigkeitserhaltung: Die Möglichkeiten einer Visualisierungstechnik sollten durch die Erweiterung um Imperfektion nicht beschnitten werden, insbesondere sollte die erweiterte Technik nicht unübersichtlicher werden. Bewertung der erweiterten Verfahren In der Tabelle in Abbildung 8.9 sind alle in der Studienarbeit [For05] um Imperfektion erweiterten Visualisierungstechniken an Hand der vier eingeführten Kriterien bewertet. Die beiden Techniken für hochdimensionale Daten, Table Lens und Parallele Koordinaten, schneiden in dieser Bewertung in allen Kategorien gut bis sehr gut ab, womit sie sich für die Imperfektionserweiterung sehr gut eignen. Abbildung 8.9: Bewertung der um Imperfektion erweiterten Visualisierungstechniken. [For05] 10

17 8.3 Datenvisualisierung und Visual Data Mining (VDM) Skizzierung des Visualisierungswerkzeugs Das von Oliver Forster mit Java-Swing implementierte Visualisierungswerkzeug Visualizerlässt den Benutzer den Typ der zu visualisierenden Information mit verschiedenen Visualisierungstechniken darstellen. Er implementierte exemplarisch zwei Techniken, nämlich die erweiterten Balkendiagramme (Teil der Table Lens Technik) und ThemeRiver. Das Paket Visualizer enthält vier Hauptklassen Abbildung 8.10: Paketstruktur im Visualisierungswerkzeug [For05] (siehe Abbildung 8.10 und jeweils in einem gesonderten Paket Klassen, die das Laden von Information bzw. das Layout betreffen. Die Kopplung des Werkzeuges mit den Visualisierungstechniken erfolgt über die Pakete fuzzythemeriver und impchart2d, welche jeweils die Erweiterung einer bereits vorhandenen Software und deren Anbindung an den Visualizer übernehmen. Vorhandene Informationen müssen zur Darstellung im Visualizer zunächst über den DataLoader in ein festgelegtes zentrales Format gebracht werden und werden danach vom TechniqueLoader in das technikspezifische Format für eine Visualisierung umgewandelt. Für neue Informationsarten reicht es aus, eine Klasse zur Erzeugung des festgelegten zentralen Formats zu erstellen; es muss also nicht für jede Technik eine neue Klasse zur Umwandlung in deren Format geschrieben werden beim Hinzufügen neuer Informationsarten, wodurch eine einfache Erweiterbarkeit sichergestellt ist. Das Visualisierungswerkzeug eignet sich für den Verkehrsteilnehmer Pre-Trip und für Teilaufgaben des Verkehrsingenieurs/-wissenschaftlers. Nähere Details zum Visualizer finden sich in [For05]. 8.3 Datenvisualisierung und Visual Data Mining (VDM) Nachdem im letzten Kapitel die Erweiterung von Visualisierungstechniken um Imperfektion auf dem Sektor Straßenverkehr behandelt wurden, beschäftigt sich 11

18 8 Visualisierung der Imperfektion in multidimensionalen Daten dieses Kapitel mit dem in der Literatur beim Thema Visualisierung auftauchenden Begriff des Visual Data Mining (VDM), einem mit der Visualisierung von multidimensionalen Daten in Beziehung stehenden Teilbereich des Data Mining. Zunächst gebe ich eine Einführung in verschiedene VDM-Ansätze, danach werden das automatisierte Data Mining und seine Schwächen behandelt, die zum Ansatz der Visuellen Datenexploration geführt haben. Anschließend werden Beispiel- Einsatzgebiete des Kooperativen Data Mining vorgestellt, nämlich die Kooperative Klassifikation und das Interaktive Temporale Data Mining. Bei jeder vorgestellten Technik werde ich darauf eingehen, in wie weit bereits Imperfektion in der Technik bereits vorhanden ist und wie sie dargestellt wird, sofern sie überhaupt berücksichtigt wurde. Schließlich wird noch eine Klassifikationsmöglichkeit vorgestellt, an Hand derer VDM-Techniken entlang orthogonaler Achsen eingeordnet werden können Einordnung des VDM Wie in Abbildung 8.11 zu sehen, befindet sich das Visual Data Mining (VDM) in der Schnittmenge von Data Mining und Information Visualization, d.h. dass im VDM Algorithmen aus dem Mining-Bereich eingesetzt werden und Visualisierungstechniken aus dem Bereich des Informationsvisualisierung. Eine Definition Abbildung 8.11: Einordnung des VDM zwischen Data Mining und Informationsvisualisierung [Fay96] des VDM gibt Mihael Ankerst in seiner Dissertation: Visuelles Data Mining ist ein Teil des KDD-Prozesses, der Visualisierung als Kommunikationsmittel zwischen Mensch und Computer nutzt, um neue und interpretierbare Muster zu erkennen und Wissen zu generieren. [Ank01] Ein Überblick darüber, in welchem Bereich das VDM im KDD-Prozess (Knowledge Discovery in Databases) angesiedelt ist, wird im Schema in Abbildung 8.12 gegeben. Das Schema basiert auf der allgemein anerkannten Definition des KDD- Begriffs von Fayyad: Wissensentdeckung in Datenbanken ist der nichttriviale Prozess der Identifizierung gültiger, neuartiger, potentiell nützlicher und verständlicher Muster in (großen) Datenbeständen. [Fay96] Im Grunde geht es beim VDM darum, den Data Mining Schritt und den Interpretationsschritt im ständigen Wechsel durchzuführen und den Menschen bei der Klassifikation oder Mustersuche zu unterstützen bzw. seine Intuition miteinzubeziehen, um schneller zu Ergebnissen zu kommen und redundante Muster zu entfer- 12

19 8.3 Datenvisualisierung und Visual Data Mining (VDM) nen. Damit kombiniert das VDM die letzten beiden Schritte des KDD-Prozesses zu einer neuen Einheit. Abbildung 8.12: VDM im KDD-Prozess [Fay96] Im VDM lassen sich mehrere Ansätze unterscheiden (siehe Abbildung 8.13). Ansatz a) setzt auf klassischen Data Mining Algorithmen auf, deren Ergebnisse (z.b. erkannte Muster) visualisiert werden. Nachdem die Ergebnisse der Visualisierung vorliegen, entscheidet der Benutzer, ob der Data Mining-Prozess erfolgreich war oder ob der Prozess rekursiv beginnend beim Algorithmus mit geänderten Parametern neu gestartet wird. In der Literatur werden auf diesem Ansatz aufbauende Visualisierungsmethoden auch als Visual Data Mining Tools bezeichnet. Ansatz b) visualisiert die Zwischenergebnisse; dadurch wird der Benutzer stärker in den DM-Prozess einbezogen. Es werden Algorithmen verwendet, die nur präprozessierte Zwischenergebnisse liefern, in denen der Benutzer durch Einsatz von Visualisierungstechniken nach aussagekräftigen Mustern sucht. Der Hauptvorteil dieses Ansatzes ist, dass DM-Algorithmen losgelöst von der Problemstellung verwendet werden (zur Berechnung der Zwischenergebnisse). Allerdings ist hier im Gegensatz zu Ansatz a) keinerlei Rekursion integriert, was für mich die Frage aufwirft, wie mit unzufrieden stellenden Ergebnissen umgegangen wird. Schließlich ist nicht jeder Versuch, Wissen aus Daten zu gewinnen, von Erfolg gekrönt. Ansatz c) schließlich visualisiert Rohdaten und verwendet keine klassischen DM- Algorithmen. Es findet eine Rekursion zwischen den Benutzereingaben und der Visualisierung statt, wodurch die Interaktionsmöglichkeit hier am größten ist, was auch durch die sofortige Aktualisierung der Darstellung (durch interaktive Werkzeuge wie z.b. dynamische Abfragetechniken) unterstrichen wird. Bei diesem Ansatz sprechen Soukup und Davidson in [TS03] auch von Data Visualization - Techniken. Besonders Ansatz c) kommt dem Online Analytical Processing (OLAP) sehr nahe, denn einige der zwölf von Edgar F. Codd in [Cod93] aufgestellten Regeln bzw. Anforderungen an ein OLAP-System werden auch von Ansatz c) erfüllt, darunter vor allem die zehnte Regel (Intuitive Datenanalyse), aber auch die elfte Regel (Flexibles Berichtswesen, Ergebnisse im Report frei anordbar) und die zwölfte (Unbegrenzte Anzahl von Dimensionen und Konsolidierungsebenen) können von Ansatz c) erfüllt werden. Andere Regeln von Codd, wie etwa Regel fünf (Client- Server Archtitektur) oder acht (Mehrbenutzerunterstützung) sind hingegen nicht 13

20 8 Visualisierung der Imperfektion in multidimensionalen Daten Abbildung 8.13: Ansätze des visuellen Data Mining in dem VDM-Ansatz c) festgeschrieben, wodurch aus meiner Sicht auch ein OLAP- System mit diesem Ansatz beschrieben könnte, allerdings mit der Einschränkung, dass in Ansatz c) keine so präzisen Regeln wie die von Codd formuliert sind (d.h. Ansatz c) ist etwas abstrakter gehalten als OLAP) Automatisiertes Data Mining und seine Schwächen Data Mining ist ein iterativer Prozess, dessen Ergebnisse im Rahmen der Datenanalyse die Voraussetzung für eine spätere Evaluierung sind. Beim Data Mining, das auf vorverarbeiteten Daten operiert, soll mittels effizienter Verfahren potentiell nützliches Wissen in großen Datenmengen aufgefunden werden [Ank04] d.h. es sollen Informationen aus Datenmengen gewonnen werden. Heutzutage sind das Data Mining sowie die gesamte Datenanalyse weitgehend automatisiert, was dazu führt, dass einige Probleme auftreten, die durch die Automatisierung nur unzureichend gelöst werden. Erstens fließt vorhandenes Wissen in den Köpfen der Menschen nur schwer oder gar nicht in die Datenanalyse mit ein. Zweitens lassen sich die Erkenntnisse einer Iteration oft nur schwer in eine verbesserte weitere Iteration transferieren, sodass letztlich weiter zurückgegangen wird zum Vorverarbeitungsschritt und eine andere Vorverarbeitung der Daten erfolgt, die bessere Ergebnisse verspricht. Drittens wenden sich heutige Produkte an Experten auf dem Gebiet des Data Mining, weshalb die Fähigkeit dieser Experten, die gewonnenen Ergebnisse zu kommunizieren, von zentraler Bedeutung ist - mit anderen Worten ist es denkbar, dass ein Data Mining Projekt auf Grund der (Un-)Fähigkeit des Experten scheitert, gewonnene Informationen an den oder die Auftraggeber zu vermitteln. 14

Visualisierung der Imperfektion in multidimensionalen Daten

Visualisierung der Imperfektion in multidimensionalen Daten Visualisierung der Imperfektion in multidimensionalen Daten Horst Fortner Imperfektion und erweiterte Konzepte im Data Warehousing Betreuer: Heiko Schepperle 2 Begriffe (1) Visualisierung [Wikipedia] abstrakte

Mehr

Seminar Business Intelligence Teil II. Data Mining & Knowledge Discovery

Seminar Business Intelligence Teil II. Data Mining & Knowledge Discovery Seminar Business Intelligence Teil II Data Mining & Knowledge Discovery Was ist Data Mining? Sabine Queckbörner Was ist Data Mining? Data Mining Was ist Data Mining? Nach welchen Mustern wird gesucht?

Mehr

Datenvisualisierung und Data Mining

Datenvisualisierung und Data Mining B 26 Datenvisualisierung und Data Mining 1 B 26 Datenvisualisierung und Data Mining B 26.1 Einleitung Die rasante technologische Entwicklung der letzten zwei Jahrzehnte ermöglicht heute die persistente

Mehr

Visualisierung vom Zustand des Internets

Visualisierung vom Zustand des Internets Visualisierung vom Zustand des Internets Internet-Fr Frühwarnsystem mit VisiX Visual Internet Sensor Information Sebastian Spooren spooren (at) internet-sicherheit.de Institut für Internet-Sicherheit https://www.internet-sicherheit.de

Mehr

Seminar Visual Analytics and Visual Data Mining

Seminar Visual Analytics and Visual Data Mining Seminar Visual Analytics and Visual Data Mining Dozenten:, AG Visual Computing Steffen Oeltze, AG Visualisierung Organisatorisches Seminar für Diplom und Bachelor-Studenten (max. 18) (leider nicht für

Mehr

EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN

EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN T-SYSTEMS MULTIMEDIA SOLUTIONS GMBH, 16. FEBRUAR 2012 1. Schlüsselworte Semantic Web, Opinion Mining, Sentiment Analysis, Stimmungsanalyse,

Mehr

Data Mining als Arbeitsprozess

Data Mining als Arbeitsprozess Data Mining als Arbeitsprozess Hagen Knaf Studiengang Angewandte Mathematik Hochschule RheinMain 31. Dezember 2015 In Unternehmen werden umfangreichere Aktivitäten oder Projekte im Bereich des Data Mining

Mehr

Data Mining Anwendungen und Techniken

Data Mining Anwendungen und Techniken Data Mining Anwendungen und Techniken Knut Hinkelmann DFKI GmbH Entdecken von Wissen in banken Wissen Unternehmen sammeln ungeheure mengen enthalten wettbewerbsrelevantes Wissen Ziel: Entdecken dieses

Mehr

Neuerungen Analysis Services

Neuerungen Analysis Services Neuerungen Analysis Services Neuerungen Analysis Services Analysis Services ermöglicht Ihnen das Entwerfen, Erstellen und Visualisieren von Data Mining-Modellen. Diese Mining-Modelle können aus anderen

Mehr

Data Mining und Knowledge Discovery in Databases

Data Mining und Knowledge Discovery in Databases Data Mining und Knowledge Discovery in Databases Begriffsabgrenzungen... Phasen der KDD...3 3 Datenvorverarbeitung...4 3. Datenproblematik...4 3. Möglichkeiten der Datenvorverarbeitung...4 4 Data Mining

Mehr

2. Lernen von Entscheidungsbäumen

2. Lernen von Entscheidungsbäumen 2. Lernen von Entscheidungsbäumen Entscheidungsbäume 2. Lernen von Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch Attribut/Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse

Mehr

riskkv Scorenalyse riskkv Scoring Seite 1 von 9

riskkv Scorenalyse riskkv Scoring Seite 1 von 9 riskkv Scorenalyse riskkv Scoring Seite 1 von 9 Das Modul dient der flexiblen Erstellung, Auswertung und Verwendung von Scores. Durch vordefinierte Templates können in einer Einklicklösung bspw. versichertenbezogene

Mehr

Online Analytical Processing

Online Analytical Processing Online Analytical Processing Online Analytical Processing Online Analytical Processing (OLAP) ermöglicht die multidimensionale Betrachtung von Daten zwecks E rmittlung eines entscheidungsunterstützenden

Mehr

Wirtschaftsrechnen. Leseprobe

Wirtschaftsrechnen. Leseprobe Wirtschaftsrechnen Kapitel 1 Darstellung von Größen 1.1 Größen im Koordinatensystem 1.2 Diagramme und Ihre Verwendung 1.2.1 Säulendiagramm 1.2.2 Balkendiagramm 1.2.3 Punktdiagramm (Streudiagramm) 1.2.4

Mehr

Data Mining Standards am Beispiel von PMML. Data Mining Standards am Beispiel von PMML

Data Mining Standards am Beispiel von PMML. Data Mining Standards am Beispiel von PMML Data Mining Standards am Beispiel von PMML Allgemeine Definitionen im Data Mining Data Mining (DM) Ein Prozess, um interessante neue Muster, Korrelationen und Trends in großen Datenbeständen zu entdecken,

Mehr

0 Einführung: Was ist Statistik

0 Einführung: Was ist Statistik 0 Einführung: Was ist Statistik 1 Datenerhebung und Messung 2 Univariate deskriptive Statistik 3 Multivariate Statistik 4 Regression 5 Ergänzungen Explorative Datenanalyse EDA Auffinden von Strukturen

Mehr

Künstliche Intelligenz Maschinelles Lernen

Künstliche Intelligenz Maschinelles Lernen Künstliche Intelligenz Maschinelles Lernen Stephan Schwiebert Sommersemester 2009 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Maschinelles Lernen Überwachtes Lernen

Mehr

Diplomarbeit: Visualisierung konzeptioneller Beschreibungen von Programmieraktivitäten. Arbeitsgruppe: Software-Engineering Nicolas Ngandeu

Diplomarbeit: Visualisierung konzeptioneller Beschreibungen von Programmieraktivitäten. Arbeitsgruppe: Software-Engineering Nicolas Ngandeu Diplomarbeit: Visualisierung konzeptioneller Beschreibungen von Programmieraktivitäten Arbeitsgruppe: Software-Engineering Nicolas Ngandeu Gliederung Einführung Visualisierung Die Akteure Die Inputdaten

Mehr

DISKUSSIONSBEITRÄGE DER FAKULTÄT FÜR BETRIEBSWIRTSCHAFTSLEHRE MERCATOR SCHOOL OF MANAGEMENT UNIVERSITÄT DUISBURG-ESSEN. Nr. 374

DISKUSSIONSBEITRÄGE DER FAKULTÄT FÜR BETRIEBSWIRTSCHAFTSLEHRE MERCATOR SCHOOL OF MANAGEMENT UNIVERSITÄT DUISBURG-ESSEN. Nr. 374 DISKUSSIONSBEITRÄGE DER FAKULTÄT FÜR BETRIEBSWIRTSCHAFTSLEHRE MERCATOR SCHOOL OF MANAGEMENT UNIVERSITÄT DUISBURG-ESSEN Nr. 374 Eignung von Verfahren der Mustererkennung im Process Mining Sabrina Kohne

Mehr

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining.

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining. Personalisierung Personalisierung Thomas Mandl Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung Klassifikation Die Nutzer werden in vorab bestimmte Klassen/Nutzerprofilen

Mehr

Risikomanagement für IT-Projekte: Vergleich von Risiken und Methoden

Risikomanagement für IT-Projekte: Vergleich von Risiken und Methoden Sperrvermerk Risikomanagement für IT-Projekte: Vergleich von Risiken und Methoden Bachelorarbeit Zur Erlangung des akademischen Grades Bachelor of Science (B.Sc.) im Studiengang Wirtschaftswissenschaft

Mehr

Projekt AGB-10 Fremdprojektanalyse

Projekt AGB-10 Fremdprojektanalyse Projekt AGB-10 Fremdprojektanalyse 17. Mai 2010 1 Inhaltsverzeichnis 1 Allgemeines 3 2 Produktübersicht 3 3 Grundsätzliche Struktur und Entwurfsprinzipien für das Gesamtsystem 3 3.1 Die Prefuse Library...............................

Mehr

Visual Business Analytics Visueller Zugang zu Big Data

Visual Business Analytics Visueller Zugang zu Big Data Visual Business Analytics Visueller Zugang zu Big Data Dr.-Ing. Jörn Kohlhammer Fraunhofer-Institut für Graphische Datenverarbeitung (IGD) Fraunhoferstraße 5 64283 Darmstadt Tel.: +49 6151 155-646 Fax:

Mehr

Visual Data Mining im Überblick

Visual Data Mining im Überblick I Visual Data Mining im Überblick Lehrveranstaltung: Seminar Softwaretechnik Dozenten: Stefan Jähnichen, Susanne Jucknath Semester: WS 02 /03 Verfasser: Konrad Kellermann TU Berlin Matrikelnummer: 190213

Mehr

Visualisierung großer Datenbanken

Visualisierung großer Datenbanken Business Intelligence 1 Visualisierung großer Datenbanken Prof. Dr. Hans-Peter Kriegel, Institut für Informatik, Universität München und Prof. Dr. Daniel A. Keim, Institut für Informatik, Universität Halle-Wittenberg

Mehr

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002)

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002) 3. Entscheidungsbäume Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002) (aus Wilhelm 2001) Beispiel: (aus Böhm 2003) Wann sind Entscheidungsbäume

Mehr

WEKA A Machine Learning Interface for Data Mining

WEKA A Machine Learning Interface for Data Mining WEKA A Machine Learning Interface for Data Mining Frank Eibe, Mark Hall, Geoffrey Holmes, Richard Kirkby, Bernhard Pfahringer, Ian H. Witten Reinhard Klaus Losse Künstliche Intelligenz II WS 2009/2010

Mehr

Data Mining (ehem. Entscheidungsunterstützungssysteme)

Data Mining (ehem. Entscheidungsunterstützungssysteme) Data Mining (ehem. Entscheidungsunterstützungssysteme) Melanie Pfoh Anja Tetzner Christian Schieder Übung WS 2014/15 AGENDA TEIL 1 Aufgabe 1 (Wiederholung OPAL / Vorlesungsinhalte) ENTSCHEIDUNG UND ENTSCHEIDUNGSTHEORIE

Mehr

Datenvisualisierung mit JMP

Datenvisualisierung mit JMP Datenvisualisierung mit JMP Patrick René Warnat HMS Analytical Software GmbH Rohrbacherstr. 26 Heidelberg patrick.warnat@analytical-software.de Zusammenfassung Das JMP Paket ist ein Softwareprodukt der

Mehr

Knowledge Discovery. Lösungsblatt 1

Knowledge Discovery. Lösungsblatt 1 Universität Kassel Fachbereich Mathematik/nformatik Fachgebiet Wissensverarbeitung Hertie-Stiftungslehrstuhl Wilhelmshöher Allee 73 34121 Kassel Email: hotho@cs.uni-kassel.de Tel.: ++49 561 804-6252 Dr.

Mehr

Analyse alt- und mittelpaläolithischer Steinartefaktinventare mittels Parallelkoordinatenplots

Analyse alt- und mittelpaläolithischer Steinartefaktinventare mittels Parallelkoordinatenplots Einleitung Analyse alt- und mittelpaläolithischer Steinartefaktinventare mittels Parallelkoordinatenplots von Irmela Herzog Im Rahmen der Herbsttagung der AG DANK (Datenanalyse und Numerische Klassifikation)

Mehr

VisualCockpit. agile business analytics

VisualCockpit. agile business analytics VisualCockpit agile business analytics Agile Business Analytics mit VisualCockpit Für Unternehmen wird es immer wichtiger die gesamte Wertschöpfungskette aus Daten, sowohl für das operative Geschäft als

Mehr

Null-Werte in Relationalen Datenbanken

Null-Werte in Relationalen Datenbanken Seminar: Imperfektion in Datenbanken WS03/04 Null-Werte in Relationalen Datenbanken Thomas Bierhance Einführung Null-Werte in DBen sind notwendiges Übel, da... (1) das Wissen über die tatsächliche Welt

Mehr

Data Cube. Aggregation in SQL. Beispiel: Autoverkäufe. On-line Analytical Processing (OLAP) 1. Einführung. 2. Aggregation in SQL, GROUP BY

Data Cube. Aggregation in SQL. Beispiel: Autoverkäufe. On-line Analytical Processing (OLAP) 1. Einführung. 2. Aggregation in SQL, GROUP BY Data Cube On-line Analytical Processing (OLAP). Einführung Ziel: Auffinden interessanter Muster in großen Datenmengen 2. Aggregation in SQL, GROUP BY 3. Probleme mit GROUP BY 4. Der Cube-Operator! Formulierung

Mehr

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining Gliederung 1. Einführung 2. Grundlagen Data Mining Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining 3. Ausgewählte Methoden des Data

Mehr

Kapiteltests zum Leitprogramm Binäre Suchbäume

Kapiteltests zum Leitprogramm Binäre Suchbäume Kapiteltests zum Leitprogramm Binäre Suchbäume Björn Steffen Timur Erdag überarbeitet von Christina Class Binäre Suchbäume Kapiteltests für das ETH-Leitprogramm Adressaten und Institutionen Das Leitprogramm

Mehr

Matrikelnr: Name: Vorname: Aufgabe 1 2 3 4 Summe Maximal erreichbare 20 30 30 20 100 Punktzahl Erreichte Punktzahl. Note:

Matrikelnr: Name: Vorname: Aufgabe 1 2 3 4 Summe Maximal erreichbare 20 30 30 20 100 Punktzahl Erreichte Punktzahl. Note: Fakultät für Wirtschaftswissenschaft Matrikelnr: Name: Vorname: : Modul 32711 Business Intelligence Termin: 28.03.2014, 9:00 11:00 Uhr Prüfer: Univ.-Prof. Dr. U. Baumöl Aufbau und Bewertung der Aufgabe

Mehr

Data Mining-Modelle und -Algorithmen

Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining ist ein Prozess, bei dem mehrere Komponenten i n- teragieren. Sie greifen auf Datenquellen, um diese zum Training,

Mehr

x 2 x 1 x 3 5.1 Lernen mit Entscheidungsbäumen

x 2 x 1 x 3 5.1 Lernen mit Entscheidungsbäumen 5.1 Lernen mit Entscheidungsbäumen Falls zum Beispiel A = {gelb, rot, blau} R 2 und B = {0, 1}, so definiert der folgende Entscheidungsbaum eine Hypothese H : A B (wobei der Attributvektor aus A mit x

Mehr

Quellen: Towards a Human Computer InteractionPerspective. Übersicht. Warum visuelle Sprachen? Begriffsdefinitionen: Hinderungsgründe bisher:

Quellen: Towards a Human Computer InteractionPerspective. Übersicht. Warum visuelle Sprachen? Begriffsdefinitionen: Hinderungsgründe bisher: Quellen: Towards a Human Computer InteractionPerspective von B.K. & B.K. LV: Visuelle Sprachen (03-763) Universität Bremen WS 2001/02 Visual Language Theory: Towards a Human- Computer Perspective; N. Hari

Mehr

Ein Schlüssel ist eine Menge von Attributen (also eines oder mehrere), die eine Datenzeile (Tupel) einer Tabelle eindeutig identifiziert

Ein Schlüssel ist eine Menge von Attributen (also eines oder mehrere), die eine Datenzeile (Tupel) einer Tabelle eindeutig identifiziert Maika Büschenfeldt Datenbanken: Skript 1 1. Was ist eine relationale Datenbank? In Datenbanken können umfangreiche Datenbestände strukturiert abgelegt werden. Das Konzept relationaler Datenbanken soll

Mehr

4. Lernen von Entscheidungsbäumen. Klassifikation mit Entscheidungsbäumen. Entscheidungsbaum

4. Lernen von Entscheidungsbäumen. Klassifikation mit Entscheidungsbäumen. Entscheidungsbaum 4. Lernen von Entscheidungsbäumen Klassifikation mit Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch /Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse zugeordnet werden.

Mehr

Data Mining-Projekte

Data Mining-Projekte Data Mining-Projekte Data Mining-Projekte Data Mining stellt normalerweise kein ei nmaliges Projekt dar, welches Erkenntnisse liefert, die dann nur einmal verwendet werden, sondern es soll gewöhnlich ein

Mehr

Dominik Pretzsch TU Chemnitz 2011

Dominik Pretzsch TU Chemnitz 2011 Dominik Pretzsch TU Chemnitz 2011 Wir leben im Informationszeitalter und merken es daran, dass wir uns vor Information nicht mehr retten können. Nicht der überwältigende Nutzen der Information, sondern

Mehr

Visualisierung hochdimensionaler Daten. Hauptseminar SS11 Michael Kircher

Visualisierung hochdimensionaler Daten. Hauptseminar SS11 Michael Kircher Hauptseminar SS11 Inhalt Einführung zu hochdimensionalen Daten Visualisierungsmöglichkeiten dimensionale Teilmengen dimensionale Schachtelung Achsenumgestaltung Algorithmen zur Dimensionsreduktion Zusammenfassung

Mehr

Einführung in die Informatik I

Einführung in die Informatik I Einführung in die Informatik I Algorithmen und deren Programmierung Prof. Dr. Nikolaus Wulff Definition Algorithmus Ein Algorithmus ist eine präzise formulierte Handlungsanweisung zur Lösung einer gleichartigen

Mehr

Visuelle Exploration und semantikbasierte Fusion multivariater Datenbestände

Visuelle Exploration und semantikbasierte Fusion multivariater Datenbestände Visuelle Exploration und semantikbasierte Fusion multivariater Datenbestände Stefan Audersch, Guntram Flach, Tom Klipps Zentrum für Graphische Datenverarbeitung e.v., Rostock Joachim-Jungius-Str. 11, 18059

Mehr

Conversion Attribution

Conversion Attribution Conversion Attribution Eines der Trendthemen über das zurzeit jeder spricht ist Attribution. Das heißt allerdings nicht, dass auch jeder weiß was genau Attribution ist, was man damit machen kann und für

Mehr

Moderne Methoden der KI: Maschinelles Lernen

Moderne Methoden der KI: Maschinelles Lernen Moderne Methoden der KI: Maschinelles Lernen Prof. Dr.Hans-Dieter Burkhard Vorlesung Entscheidungsbäume Darstellung durch Regeln ID3 / C4.5 Bevorzugung kleiner Hypothesen Overfitting Entscheidungsbäume

Mehr

Ermittlung von Assoziationsregeln aus großen Datenmengen. Zielsetzung

Ermittlung von Assoziationsregeln aus großen Datenmengen. Zielsetzung Ermittlung von Assoziationsregeln aus großen Datenmengen Zielsetzung Entscheidungsträger verwenden heutzutage immer häufiger moderne Technologien zur Lösung betriebswirtschaftlicher Problemstellungen.

Mehr

Einsatz von Scalable Vector Graphics (SVG) zur Modellrepräsentation und -manipulation in Web-Anwendungen mit J2EE

Einsatz von Scalable Vector Graphics (SVG) zur Modellrepräsentation und -manipulation in Web-Anwendungen mit J2EE Einsatz von Scalable Vector Graphics (SVG) zur Modellrepräsentation und -manipulation in Web-Anwendungen mit J2EE www.arsnova.de ARS NOVA Technical Workshop, 24. Juni 2004 1 Agenda Motivation und Zielsetzung

Mehr

Ziele und Herausforderungen für die visuell gestützte Analyse großer Datenmengen. Präsentation der Modellergebnisse auf KlimafolgenOnline.

Ziele und Herausforderungen für die visuell gestützte Analyse großer Datenmengen. Präsentation der Modellergebnisse auf KlimafolgenOnline. Ziele und Herausforderungen für die visuell gestützte Analyse großer Datenmengen Präsentation der Modellergebnisse auf KlimafolgenOnline.com Thomas Nocke Potsdam Institut für Klimafolgenforschung Der Visualisierungsprozess

Mehr

Fuzzy-Systeme zur Unterstützung von Entscheidungen in land- und forstwirtschaftlichen Logistik-Prozessen

Fuzzy-Systeme zur Unterstützung von Entscheidungen in land- und forstwirtschaftlichen Logistik-Prozessen Fuzzy-Systeme zur Unterstützung von Entscheidungen in land- und forstwirtschaftlichen Logistik-Prozessen Steve Schneider Logistik- und Fabriksysteme Fraunhofer Institut für Fabrikbetrieb und -automatisierung

Mehr

Betragsgleichungen und die Methode der Fallunterscheidungen

Betragsgleichungen und die Methode der Fallunterscheidungen mathe online Skripten http://www.mathe-online.at/skripten/ Betragsgleichungen und die Methode der Fallunterscheidungen Franz Embacher Fakultät für Mathematik der Universität Wien E-mail: franz.embacher@univie.ac.at

Mehr

Integration Services - Dienstarchitektur

Integration Services - Dienstarchitektur Integration Services - Dienstarchitektur Integration Services - Dienstarchitektur Dieser Artikel solle dabei unterstützen, Integration Services in Microsoft SQL Server be sser zu verstehen und damit die

Mehr

6 Zusammenfassende Bewertung und Ausblick

6 Zusammenfassende Bewertung und Ausblick 437 6 Zusammenfassende Bewertung und Ausblick Immer wieder scheitern Projekte zur Software-Gestaltung im Öffentlichen Dienst bzw. sie laufen nicht wie geplant ab. Dies ist für sich genommen nicht weiter

Mehr

The integration of business intelligence and knowledge management

The integration of business intelligence and knowledge management The integration of business intelligence and knowledge management Seminar: Business Intelligence Ketevan Karbelashvili Master IE, 3. Semester Universität Konstanz Inhalt Knowledge Management Business intelligence

Mehr

Datumsangaben, enthält mindestens Jahr, Monat, Tag

Datumsangaben, enthält mindestens Jahr, Monat, Tag Datenbanken mit SQL Informatik - Sprenger Häufig wird mit Tabellenkalkulationen gearbeitet, obwohl der Einsatz von Datenbanken sinnvoller ist. Tabellenkalkulationen wie Microsoft Excel oder LibreOffice

Mehr

Anwendung der Predictive Analytics

Anwendung der Predictive Analytics TDWI Konferenz mit BARC@TDWI Track 2014 München, 23. 25. Juni 2014 Anwendung der Predictive Analytics Prof. Dr. Carsten Felden Dipl. Wirt. Inf. Claudia Koschtial Technische Universität Bergakademie Freiberg

Mehr

Befragung und empirische Einschätzung der Praxisrelevanz

Befragung und empirische Einschätzung der Praxisrelevanz Befragung und empirische Einschätzung der Praxisrelevanz eines Vorgehensmodells zur Auswahl von CRM-Systemen D I P L O M A R B E I T zur Erlangung des Grades eines Diplom-Ökonomen der Wirtschaftswissenschaftlichen

Mehr

Motivation. Themenblock: Data Preprocessing. Einsatzgebiete für Data Mining I. Modell von Gianotti und Pedreschi

Motivation. Themenblock: Data Preprocessing. Einsatzgebiete für Data Mining I. Modell von Gianotti und Pedreschi Motivation Themenblock: Data Preprocessing We are drowning in information, but starving for knowledge! (John Naisbett) Was genau ist Datenanalyse? Praktikum: Data Warehousing und Data Mining Was ist Data

Mehr

1 Einleitung. 1.1 Motivation

1 Einleitung. 1.1 Motivation 1 Einleitung 1.1 Motivation Eine zunehmende Globalisierung in Verbindung mit der Verbreitung des elektronischen Handels, stets kürzer werdende Produktlebenszyklen und eine hohe Variantenvielfalt konstituieren

Mehr

Anforderungen und Auswahlkriterien für Projektmanagement-Software

Anforderungen und Auswahlkriterien für Projektmanagement-Software Anforderungen und Auswahlkriterien für Projektmanagement-Software Anika Gobert 1,Patrick Keil 2,Veronika Langlotz 1 1 Projektmanagement Payment Giesecke &Devrient GmbH Prinzregentenstr. 159, Postfach 800729,

Mehr

Suche schlecht beschriftete Bilder mit Eigenen Abfragen

Suche schlecht beschriftete Bilder mit Eigenen Abfragen Suche schlecht beschriftete Bilder mit Eigenen Abfragen Ist die Bilderdatenbank über einen längeren Zeitraum in Benutzung, so steigt die Wahrscheinlichkeit für schlecht beschriftete Bilder 1. Insbesondere

Mehr

Data Mining mit der SEMMA Methodik. Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG

Data Mining mit der SEMMA Methodik. Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG Data Mining mit der SEMMA Methodik Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG Data Mining Data Mining: Prozeß der Selektion, Exploration und Modellierung großer Datenmengen, um Information

Mehr

5 Eigenwerte und die Jordansche Normalform

5 Eigenwerte und die Jordansche Normalform Mathematik für Physiker II, SS Mittwoch 8.6 $Id: jordan.tex,v.6 /6/7 8:5:3 hk Exp hk $ 5 Eigenwerte und die Jordansche Normalform 5.4 Die Jordansche Normalform Wir hatten bereits erwähnt, dass eine n n

Mehr

Datenanalysen in Excel - Diagramme

Datenanalysen in Excel - Diagramme 1. Was ist ein Diagramm? Datenanalysen in Excel - Diagramme Diagramme stellen Daten und Informationen grafisch dar. Mit Diagrammen können umfangreiche Datenbestände einfach und aussagekräftig aufbereitet

Mehr

Grundlagen der Computer-Tomographie

Grundlagen der Computer-Tomographie Grundlagen der Computer-Tomographie Quellenangabe Die folgenden Folien sind zum Teil dem Übersichtsvortrag: imbie.meb.uni-bonn.de/epileptologie/staff/lehnertz/ct1.pdf entnommen. Als Quelle für die mathematischen

Mehr

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining.

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining. Motivation Themenblock: Klassifikation Praktikum: Data Warehousing und Data Mining Ziel Item hat mehrere Attribute Anhand von n Attributen wird (n+)-tes vorhergesagt. Zusätzliches Attribut erst später

Mehr

Semantik-Visualisierung

Semantik-Visualisierung Semantik-Visualisierung Wibaklidama-Herbstworkshop Kawa Nazemi Fraunhofer IGD 3D-Wissenswelten und Semantik-Visualisierung Semantic Visualization semavis: Pipelines Visualization Semantics Layout Presentation

Mehr

Kontextdiagramm Erstellen von Kontextdiagrammen mit TopEase

Kontextdiagramm Erstellen von Kontextdiagrammen mit TopEase Kontextdiagramm Erstellen von Kontextdiagrammen mit TopEase Version Control: Version Status Datum / Kurzzeichen 1.0 Begründung Copyright: This document is the property of Business-DNA Solutions GmbH, Switzerland.

Mehr

CARL HANSER VERLAG. Karsten Oehler. OLAP Grundlagen, Modellierung und betriebswirtschaftliche Lösungen 3-446-21309-0. www.hanser.

CARL HANSER VERLAG. Karsten Oehler. OLAP Grundlagen, Modellierung und betriebswirtschaftliche Lösungen 3-446-21309-0. www.hanser. CARL HANSER VERLAG Karsten Oehler OLAP Grundlagen, Modellierung und betriebswirtschaftliche Lösungen 3-446-21309-0 www.hanser.de 1 Einleitung Die Entwicklung der Bereitstellung von Informationen zur Entscheidungsunterstützung

Mehr

Einführung in die Wissensverarbeitung und Data Mining

Einführung in die Wissensverarbeitung und Data Mining Einführung in die Wissensverarbeitung und Data Mining Peter Becker FH Bonn-Rhein-Sieg Fachbereich Angewandte Informatik!" $# Vorlesung Wintersemester 2001/02 1. Einführung Vorbemerkungen 1 Einführung Vorbemerkungen

Mehr

9 Resümee. Resümee 216

9 Resümee. Resümee 216 Resümee 216 9 Resümee In der vorliegenden Arbeit werden verschiedene Methoden der Datenreduktion auf ihre Leistungsfähigkeit im sozialwissenschaftlichstatistischen Umfeld anhand eines konkreten Anwendungsfalls

Mehr

Software Engineering Analyse und Analysemuster

Software Engineering Analyse und Analysemuster Software Engineering Analyse und Analysemuster Prof. Adrian A. Müller, PMP, PSM 1, CSM Fachbereich Informatik und Mikrosystemtechnik 1 Klassendiagramme in der Analyse Im Rahmen der Anforderungsanalyse

Mehr

Event-basierte Visualisierung zeitabhängiger Datensätze

Event-basierte Visualisierung zeitabhängiger Datensätze Fakultät Informatik, Institut für Software- und Multimediatechnik, Professur für Computergrafik zeitabhängiger Datensätze Florian Weidner Dresden, 3. Jun 2013 (Betreut von Dr. Sebastian Grottel) Gliederung

Mehr

WS 2009/10. Diskrete Strukturen

WS 2009/10. Diskrete Strukturen WS 2009/10 Diskrete Strukturen Prof. Dr. J. Esparza Lehrstuhl für Grundlagen der Softwarezuverlässigkeit und theoretische Informatik Fakultät für Informatik Technische Universität München http://www7.in.tum.de/um/courses/ds/ws0910

Mehr

Graphenalgorithmen und lineare Algebra Hand in Hand Vorlesung für den Bereich Diplom/Master Informatik

Graphenalgorithmen und lineare Algebra Hand in Hand Vorlesung für den Bereich Diplom/Master Informatik Vorlesung für den Bereich Diplom/Master Informatik Dozent: Juniorprof. Dr. Henning Meyerhenke PARALLELES RECHNEN INSTITUT FÜR THEORETISCHE INFORMATIK, FAKULTÄT FÜR INFORMATIK KIT Universität des Landes

Mehr

Pfinder: Real-Time Tracking of the Human Body

Pfinder: Real-Time Tracking of the Human Body Pfinder: Real-Time Tracking of the Human Body Christopher Wren, Ali Azarbayejani, Trevor Darrell, Alex Pentland aus: IEEE Transactions on Pattern Analysis and Machine Intelligence (pp. 780-785) 12. April

Mehr

Wie schreibt man eine Ausarbeitung?

Wie schreibt man eine Ausarbeitung? Wie schreibt man eine Ausarbeitung? Holger Karl Holger.karl@upb.de Computer Networks Group Universität Paderborn Übersicht Ziel einer Ausarbeitung Struktur Sprache Korrektes Zitieren Weitere Informationen

Mehr

SiteAudit Knowledge Base. Move Add Change Tracking. Vorteile Übersicht. In diesem Artikel: Vorteile Übersicht Funktionsübersicht Berichte anpassen

SiteAudit Knowledge Base. Move Add Change Tracking. Vorteile Übersicht. In diesem Artikel: Vorteile Übersicht Funktionsübersicht Berichte anpassen SiteAudit Knowledge Base Move Add Change Tracking Dezember 2010 In diesem Artikel: Vorteile Übersicht Funktionsübersicht Berichte anpassen MAC Benachrichtigungen Vorteile Übersicht Heutzutage ändern sich

Mehr

Softwareentwicklung Allgemeines und prozedurale Konstrukte

Softwareentwicklung Allgemeines und prozedurale Konstrukte Mag. iur. Dr. techn. Michael Sonntag Softwareentwicklung Allgemeines und prozedurale Konstrukte E-Mail: sonntag@fim.uni-linz.ac.at http://www.fim.uni-linz.ac.at/staff/sonntag.htm Institut für Informationsverarbeitung

Mehr

Thesaurusvisualisierung mit ICE-Map und SEMTINEL

Thesaurusvisualisierung mit ICE-Map und SEMTINEL Thesaurusvisualisierung mit ICE-Map und SEMTINEL Universitätsbibliothek Universität Mannheim PETRUS-Workshop Deutsche Nationalbibliothek 21. März 2011 Frankfurt Forschungsschwerpunkte Effizienzsteigerung

Mehr

Lineare Gleichungssysteme

Lineare Gleichungssysteme Brückenkurs Mathematik TU Dresden 2015 Lineare Gleichungssysteme Schwerpunkte: Modellbildung geometrische Interpretation Lösungsmethoden Prof. Dr. F. Schuricht TU Dresden, Fachbereich Mathematik auf der

Mehr

Jan Ehmke Doktorandenworkshop 2008 St. Andreasberg, 10.03.2008

Jan Ehmke Doktorandenworkshop 2008 St. Andreasberg, 10.03.2008 Ermittlung dynamischer Fahrzeiten für die City-Logistik Jan Ehmke Doktorandenworkshop 2008 St. Andreasberg, 10.03.2008 Inhalt Einführung Planung in der City-Logistik Erhebung dynamischer Fahrzeiten Konzeption

Mehr

Schlüssel bei temporalen Daten im relationalen Modell

Schlüssel bei temporalen Daten im relationalen Modell Schlüssel bei temporalen Daten im relationalen Modell Gesine Mühle > Präsentation > Bilder zum Inhalt zurück weiter 322 Schlüssel im relationalen Modell Schlüssel bei temporalen Daten im relationalen Modell

Mehr

Exploration und Klassifikation von BigData

Exploration und Klassifikation von BigData Exploration und Klassifikation von BigData Inhalt Einführung Daten Data Mining: Vorbereitungen Clustering Konvexe Hülle Fragen Google: Riesige Datenmengen (2009: Prozessieren von 24 Petabytes pro Tag)

Mehr

Data Lineage goes Traceability - oder was Requirements Engineering von Business Intelligence lernen kann

Data Lineage goes Traceability - oder was Requirements Engineering von Business Intelligence lernen kann Data Lineage goes Traceability - oder was Requirements Engineering von Business Intelligence lernen kann Andreas Ditze MID GmbH Kressengartenstraße 10 90402 Nürnberg a.ditze@mid.de Abstract: Data Lineage

Mehr

Data-Mining: Ausgewählte Verfahren und Werkzeuge

Data-Mining: Ausgewählte Verfahren und Werkzeuge Fakultät Informatik Institut für Angewandte Informatik Lehrstuhl Technische Informationssysteme Data-Mining: Ausgewählte Verfahren und Vortragender: Jia Mu Betreuer: Dipl.-Inf. Denis Stein Dresden, den

Mehr

2.5.2 Primärschlüssel

2.5.2 Primärschlüssel Relationale Datenbanken 0110 01101110 01110 0110 0110 0110 01101 011 01110 0110 010 011011011 0110 01111010 01101 011011 0110 01 01110 011011101 01101 0110 010 010 0110 011011101 0101 0110 010 010 01 01101110

Mehr

4. Datenabfrage mit QBE 11

4. Datenabfrage mit QBE 11 Informationsbestände analysieren Datenabfrage mit QBE 4. Datenabfrage mit QBE 11 4.1. QBE vs. SQL Relationale Datenbanken haben schon früh den Anspruch gestellt, auch für Nicht- Informatiker nutzbar zu

Mehr

2. Microsoft Innovationstag Nord Integrierte Lösungen in der Öffentlichen Verwaltung

2. Microsoft Innovationstag Nord Integrierte Lösungen in der Öffentlichen Verwaltung 2. Microsoft Innovationstag Nord Integrierte Lösungen in der Öffentlichen Verwaltung Reporting, Analyse und Data Mining André Henkel, initions AG 22. und 23. Oktober 2013 in Hamburg

Mehr

Data Mining für die industrielle Praxis

Data Mining für die industrielle Praxis Data Mining für die industrielle Praxis von Ralf Otte, Viktor Otte, Volker Kaiser 1. Auflage Hanser München 2004 Verlag C.H. Beck im Internet: www.beck.de ISBN 978 3 446 22465 0 Zu Leseprobe schnell und

Mehr

1.1 Das Ziel: Basisdaten strukturiert darzustellen

1.1 Das Ziel: Basisdaten strukturiert darzustellen MS Excel 203 Kompakt PivotTabellen. Das Ziel: Basisdaten strukturiert darzustellen Jeden Tag erhalten wir umfangreiche Informationen. Aber trotzdem haben wir oft das Gefühl, Entscheidungen noch nicht treffen

Mehr

Server-Eye. Stand 30.07.2013 WWW.REDDOXX.COM

Server-Eye. Stand 30.07.2013 WWW.REDDOXX.COM Server-Eye Stand 30.07.2013 Copyright 2012 by REDDOXX GmbH REDDOXX GmbH Neue Weilheimer Str. 14 D-73230 Kirchheim Fon: +49 (0)7021 92846-0 Fax: +49 (0)7021 92846-99 E-Mail: info@reddoxx.com Internet: http://www.reddoxx.com

Mehr

Hinweise zur Anwendung der Bewertungsmatrix für Ausschreibungen von LED-Straßenleuchtpunkten

Hinweise zur Anwendung der Bewertungsmatrix für Ausschreibungen von LED-Straßenleuchtpunkten Hinweise zur Anwendung der Bewertungsmatrix für Ausschreibungen von LED-Straßenleuchtpunkten Die LED-Technologie stellt eine vergleichsweise junge Technologie dar und verfügt aktuell über ein sehr dynamisches

Mehr

3. Das Relationale Datenmodell

3. Das Relationale Datenmodell 3. Das Relationale Datenmodell Das Relationale Datenmodell geht zurück auf Codd (1970): E. F. Codd: A Relational Model of Data for Large Shared Data Banks. Comm. of the ACM 13(6): 377-387(1970) DBMS wie

Mehr

Softwaretechnik (WS 11/12)

Softwaretechnik (WS 11/12) Universität Augsburg, LSt. Softwaretechnik, K. Stenzel, H. Seebach, G. Anders Softwaretechnik (WS 11/12) Lösungsvorschlag 5 Aufgabe 1 (System Behavior: System Sequence Diagrams) (10/5 Punkte) a) Was sind

Mehr

Zeichnen von Graphen. graph drawing

Zeichnen von Graphen. graph drawing Zeichnen von Graphen graph drawing WS 2006 / 2007 Gruppe: D_rot_Ala0607 Christian Becker 11042315 Eugen Plischke 11042351 Vadim Filippov 11042026 Gegeben sei ein Graph G = (V; E) Problemstellung V E =

Mehr

Online-Ansichten und Export Statistik

Online-Ansichten und Export Statistik ACS Data Systems AG Online-Ansichten und Export Statistik (Version 10.08.2009) Buchhaltung für Schulen ACS Data Systems AG Bozen / Brixen / Trient Tel +39 0472 27 27 27 obu@acs.it 2 Inhaltsverzeichnis

Mehr