Data Mining-Projekte

Data Mining-Projekte Data Mining stellt normalerweise kein ei nmaliges Projekt dar, welches Erkenntnisse liefert, die dann nur einmal verwendet werden, sondern es soll gewöhnlich ein Data-Mining-System konstruiert werden, welches kontinuierlich aktuelle Daten und Strukturen sowie deren Änderungen auf der Basis zeitnaher Daten liefert. Daher verbindet ein solches Entwicklungsprojekt stets auch Konzepte der Datenbank-Entwicklung und Software-Entwicklung.

Struktur in einem Data Mining-Projekt Nutzwertanalyse Zu Beginn der Entwicklung eines Data- Mining-Systems steht immer eine Nutzwertanalyse. Sie soll die einzelnen Untersuchungsziele an benutzerdefinierten Kriterien und typischen Fragestellungen beschreiben. Dies bedingt auch eine Analyse der späteren Anwendungsbereiche und der technischen Anforderungen an die Implementierung. Die sind allerdings gleichzeitig Fragestellungen der DB-Entwicklung und der Software- Entwicklung. In dieser ersten Phase müssen also die typischen Abfragestrukturen und Analysen, welche im gesamten Unternehmen anfallen und anfallen werden, gefunden werden. Aus ihnen setzt sich dann das Data- Mining-System zusammen. Datenintegration In einer weiteren Phase werden dann die vorhandenen Daten gesammelt und über Schnittstellen erstmals in das Data-Mining- System übertragen. Aus diesen Schnittstellen werden dann automatisch arbeitenden Datenschleusen, welche aus den benannten Datenquellen stets aktuelle Information in das System einbringen. Systemaufbau In einer letzten Phase werden dann die gesamte Software und die Datenbank erstellt, wobei ein Analyse- und Ergebniswerkzeug mit hierarchischen und - je nach Komplexität und Anforderungen - auch vernetzten Abhängigkeiten zwischen einzelnen Dimensionen und Kriterien besteht. Für die Implementierung lassen sich dann mit Blick auf die Software-Entwicklung des Systems bzw. die Konstruktion des unterliegenden Regelsystems anhand der unterschiedlichen Wissenstypen ebenfalls unterschiedliche Modellierungsweisen einsetzen.

Herausforderungen in einem Data Mining-Projekt Als Problemfelder und Herausforderungen des Data Mining gelten folgende Punkte: Autonomie Eine grundlegende Problematik im Rahmen von Analysen lässt sich in der Verwendung von Hypothesen sehen, die a priori vorhanden sind und die Analyse beeinflussen. Nicht immer müssen diese Hypothesen zu Fehlschlüssen und damit zur Wirkungslosigkeit eines Data-Mining-Projekts werden, doch besteht grundsätzlich die Möglichkeit, dass man durch die fehlgeleitete Annahmen nur die Annahmen bestätigt. Mit Autonomie ist damit vor diesem Hintergrund die Forderung verbunden, dass die Daten für sich selbst und aus sich heraus analysiert werden sollen. Allgemeine Verwendbarkeit Die Analysen und Ergebnisse sollten möglichst einen breiten Wirkungsraum entfalten. Hierbei besteht ein Konflikt mit der Autonomie, da nach gewissen Strukturen gesucht werden sollen, sodass bereits automatisch Hypothesen in die Analyse einfließen. Je genauer die Verwendbarkeit der Datenanalyse sein soll, desto stärker ist der Benutzereingriff. Datenproblematik Neben den Analysewerkzeugen des Data- Mining kommt notwendigerweise den Rohdaten selbst die Eigenschaft eines kritischen Erfolgsfaktors zu. Nicht immer sind Daten vollständig. Teilweise fehlen Daten oder Datenbezüge, die für eine Analyse notwendig sind. Datenbanken wachsen, sofern sie Transaktionen oder Messdaten erfassen, unaufhörlich und oft mit großer Geschwindigkeit, sodass die Dynamik der Daten zu Veränderungen der Analyseergebnisse oder zu neuen Strukturen führt. Diese können dann wieder im Zeitverlauf korreliert sein. Daten können durch Falscheinträge oder Datenmigrationen verschmutzt sein, wobei grundsätzlich ein Erkennungsproblem zwischen Ausreißern und Verschmutzungen besteht. Redundanzen können fälschlicherweise zu neuem Wissen interpretiert werden. Irrelevante Felder stellen solche Felder dar, die für die Datenmusterkennung unnötig sind, wobei die Irrelevanz nicht ad hoc klar ist und evtl. durch eine entsprechende Auswahl gegen das Autonomieprinzip verstoßen werden kann. Verständlichkeit

Die Ergebnisse des Data-Mining-Prozesses müssen in einer guten Verständlichkeit und Aufbereitung einem Leser oder Betrachter klar werden. Dies kann grafisch oder mit Hilfe von Texten erfolgen. Dabei sollte eine weitere Verarbeitung der Ergebnisse stets berücksichtigt werden. Interessantheit Die gefundenen Ebenen müssen interessant sein, sodass solche Mängel an Interessantheit wie redundante Ergebnisse, bedeutungslose Ergebnisse oder bekannte Strukturen sowie triviale Erkenntnisse oder irrelevante Sachverhalte vermieden werden müssen. Stattdessen soll ein Data-Mining-Prozess neue Zusammenhänge und bisher in dieser Form noch nicht bekannte Strukturen und Abhängigkeiten aufdecken. Komponenten Steuerung: Sie übernimmt die Befehle des Anwenders und überwacht die Abläufe und die Ablaufkonfiguration der einzelnen Komponenten. Datenbankschnittstelle: Sie versorgt das System mit den benötigten Daten oder Datenextrakten. Wissensbasis: In dieser Komponenten ist das Domänenwissen gespeichert, wie es für andere Komponenten benötigt wird. Fokussierung: Hier wird entschieden, welche Teile der Daten analysiert werden sollen. Analysealgorithmen: Die eigentliche Extraktion der Strukturen und interessanten Zusammenhänge erfolgt durch dieses Subsystem. Bewertung: Von den Analysealgorithmen gefundene Daten und Strukturen werden in diesem Subsystem bewertet, auf Interessantheit und Nützlichkeit überprüft und von der in der Wissensbasis gespeicherten Kriterien überprüft. Präsentation: Dieses Modul gibt die gefundenen Ergebnisse in unterschiedlichen Formen wie Texte, Grafiken und Tabellen für den Endbenutzer und zur beliebigen Weiterverarbeitung aus.