Data Mining-Projekte

Ähnliche Dokumente
SDD System Design Document

Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken


-Versand an Galileo Kundenstamm. Galileo / Outlook

Mitarbeiterbefragung als PE- und OE-Instrument

IDV Assessment- und Migration Factory für Banken und Versicherungen

Beschreibung des MAP-Tools

Bei der Focus Methode handelt es sich um eine Analyse-Methode die der Erkennung und Abstellung von Fehlerzuständen dient.

Arbeiten mit dem Outlook Add-In

Updatehinweise für die Version forma 5.5.5

ARCO Software - Anleitung zur Umstellung der MWSt

Sicher auf Erfolgskurs. Mit Ihrem Treuhand-Betriebsvergleich

How to do? Projekte - Zeiterfassung

Handbuch ECDL 2003 Basic Modul 5: Datenbank Access starten und neue Datenbank anlegen

Einbindung einer ACT!12-16 Datenbank als Datenquelle für den Bulkmailer 2012

Windows 7: Neue Funktionen im praktischen Einsatz - Die neue Taskleiste nutzen

Anforderungen an die HIS

Fehler und Probleme bei Auswahl und Installation eines Dokumentenmanagement Systems

Kostenstellen verwalten. Tipps & Tricks

Warum sich das Management nicht für agile Softwareentwicklung interessieren sollte - aber für Agilität

1. Einschränkung für Mac-User ohne Office Dokumente hochladen, teilen und bearbeiten

Wichtige Hinweise zu den neuen Orientierungshilfen der Architekten-/Objektplanerverträge

Abamsoft Finos im Zusammenspiel mit shop to date von DATA BECKER

Installationsbeschreibung Import / ATLAS / PV Zollsystem für die EDV-Abteilung

Professionelle Seminare im Bereich MS-Office

TREND SEARCH VISUALISIERUNG. von Ricardo Gantschew btk Berlin Dozent / Till Nagel

Hilfe zur Urlaubsplanung und Zeiterfassung

Mandant in den einzelnen Anwendungen löschen

Mediumwechsel - VR-NetWorld Software

Internet Explorer Version 6

Speicher in der Cloud

Fallbeispiel. Auswahl und Evaluierung eines Software- Lokalisierungstools. Tekom Herbsttagung 2004 Angelika Zerfaß

Wann ist eine Software in Medizinprodukte- Aufbereitungsabteilungen ein Medizinprodukt?

Leitfaden zur Durchführung eines Jahreswechsels in BüroWARE 5.x

Fachbericht zum Thema: Anforderungen an ein Datenbanksystem

Suche schlecht beschriftete Bilder mit Eigenen Abfragen

Erfahrungen mit Hartz IV- Empfängern

Anleitung zur Daten zur Datensicherung und Datenrücksicherung. Datensicherung

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Dokumentation für die software für zahnärzte der procedia GmbH Onlinedokumentation

SJ OFFICE - Update 3.0

Auswahl alter Klausuraufgaben aus einer ähnlichen Vorlesung Maßgeblich für die Prüfung sind die Vorlesungsinhalte!

Word 2010 Schnellbausteine

Internet online Update (Internet Explorer)

Handbuch ECDL 2003 Modul 2: Computermanagement und Dateiverwaltung Dateien löschen und wiederherstellen

Waimea Phone Monitor. Handbuch. Anzeige von eingehenden Anrufen auf Telefonanlagen mit TAPI-Interface

SEPA Lastschriften. Ergänzung zur Dokumentation vom Workshop Software GmbH Siemensstr Kleve / /

IBIS Professional. z Dokumentation zur Dublettenprüfung

Das Handwerkszeug. Teil I

Anleitung - Archivierung

Datenaustausch mit Datenbanken

Über den Link auf der Homepage des HVW unter Phönix den Link anklicken oder über den Internetbrowser

Individuelle Formulare

Handbuch ECDL 2003 Basic Modul 2: Computermanagement und Dateiverwaltung Dateien löschen und wiederherstellen

Data Mining: Einige Grundlagen aus der Stochastik

PQ Explorer. Netzübergreifende Power Quality Analyse. Copyright by Enetech Alle Rechte vorbehalten.

Sichere Anleitung Zertifikate / Schlüssel für Kunden der Sparkasse Germersheim-Kandel. Sichere . der

30 Jahre cobra freuen Sie sich mit uns!

Professionelle Seminare im Bereich MS-Office

Internet online Update (Mozilla Firefox)

Auslesen der Fahrtdaten wiederholen Schritt für Schritt erklärt (Funktion Abfrage zur Datensicherung erstellen )

ITT WEB-Service DEMO. Kurzbedienungsanleitung

Anwendungsbeispiele Buchhaltung

FIS: Projektdaten auf den Internetseiten ausgeben

Mind Mapping am PC. für Präsentationen, Vorträge, Selbstmanagement. von Isolde Kommer, Helmut Reinke. 1. Auflage. Hanser München 1999

Was ist clevere Altersvorsorge?

Serviceanweisung Austausch Globalsign Ausstellerzertifikate

Handbuch ECDL 2003 Professional Modul 3: Kommunikation Postfach aufräumen und archivieren

Ihre Interessentendatensätze bei inobroker. 1. Interessentendatensätze

Datenbank-Verschlüsselung mit DbDefence und Webanwendungen.

Die Verfügbarkeit und Sicherung benutzerdefinierter Einstellungen für Symbolleisten, Menüsysteme und Makros in Office 97/2000/2002/2003

OPERATIONEN AUF EINER DATENBANK

teischl.com Software Design & Services e.u. office@teischl.com

OP-LOG

eduvote Ein Umfragesystem für Lehrveranstaltungen - PowerPoint Add-In -

«Eine Person ist funktional gesund, wenn sie möglichst kompetent mit einem möglichst gesunden Körper an möglichst normalisierten Lebensbereichen

Lehrer: Einschreibemethoden

yarnmaster Klassierung von Garnfehlern

GSM: Airgap Update. Inhalt. Einleitung

Anleitung: Passwort-Self-Service-Portal

impact ordering Info Produktkonfigurator

ANYWHERE Zugriff von externen Arbeitsplätzen

Um die Rücklagen ordnungsgemäß zu verbuchen, ist es wichtig, Schritt-für-Schritt vorzugehen:

Verifizierung neuer bzw. geänderter -adressen in den Anwender- und/oder Benutzerstammdaten

Agile Vorgehensmodelle in der Softwareentwicklung: Scrum

Virtueller Seminarordner Anleitung für die Dozentinnen und Dozenten

Mediumwechsel - VR-NetWorld Software

Leitfaden zur Durchführung eines Jahreswechsels in BüroWARE 5.x

1. Einführung Erstellung einer Teillieferung Erstellung einer Teilrechnung 6

AGROPLUS Buchhaltung. Daten-Server und Sicherheitskopie. Version vom b

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

CVR Seniorentreff vom 04. und Serienbriefe/Seriendruck. Serienbriefe / Seriendruck

- Zweimal Wöchentlich - Windows Update ausführen - Live Update im Norton Antivirusprogramm ausführen

Bauteilattribute als Sachdaten anzeigen

Dokumentenverwaltung. Copyright 2012 cobra computer s brainware GmbH

Einstellungen für SEPA-Lastschriften oder SEPA Dauerlastschriften in der VR-NetWorld Software 5.0

Aufgaben zur Flächenberechnung mit der Integralrechung

Zusatzmodul Belegerfassung

Artikel Schnittstelle über CSV

Transkript:

Data Mining-Projekte

Data Mining-Projekte Data Mining stellt normalerweise kein ei nmaliges Projekt dar, welches Erkenntnisse liefert, die dann nur einmal verwendet werden, sondern es soll gewöhnlich ein Data-Mining-System konstruiert werden, welches kontinuierlich aktuelle Daten und Strukturen sowie deren Änderungen auf der Basis zeitnaher Daten liefert. Daher verbindet ein solches Entwicklungsprojekt stets auch Konzepte der Datenbank-Entwicklung und Software-Entwicklung.

Struktur in einem Data Mining-Projekt Nutzwertanalyse Zu Beginn der Entwicklung eines Data- Mining-Systems steht immer eine Nutzwertanalyse. Sie soll die einzelnen Untersuchungsziele an benutzerdefinierten Kriterien und typischen Fragestellungen beschreiben. Dies bedingt auch eine Analyse der späteren Anwendungsbereiche und der technischen Anforderungen an die Implementierung. Die sind allerdings gleichzeitig Fragestellungen der DB-Entwicklung und der Software- Entwicklung. In dieser ersten Phase müssen also die typischen Abfragestrukturen und Analysen, welche im gesamten Unternehmen anfallen und anfallen werden, gefunden werden. Aus ihnen setzt sich dann das Data- Mining-System zusammen. Datenintegration In einer weiteren Phase werden dann die vorhandenen Daten gesammelt und über Schnittstellen erstmals in das Data-Mining- System übertragen. Aus diesen Schnittstellen werden dann automatisch arbeitenden Datenschleusen, welche aus den benannten Datenquellen stets aktuelle Information in das System einbringen. Systemaufbau In einer letzten Phase werden dann die gesamte Software und die Datenbank erstellt, wobei ein Analyse- und Ergebniswerkzeug mit hierarchischen und - je nach Komplexität und Anforderungen - auch vernetzten Abhängigkeiten zwischen einzelnen Dimensionen und Kriterien besteht. Für die Implementierung lassen sich dann mit Blick auf die Software-Entwicklung des Systems bzw. die Konstruktion des unterliegenden Regelsystems anhand der unterschiedlichen Wissenstypen ebenfalls unterschiedliche Modellierungsweisen einsetzen.

Herausforderungen in einem Data Mining-Projekt Als Problemfelder und Herausforderungen des Data Mining gelten folgende Punkte: Autonomie Eine grundlegende Problematik im Rahmen von Analysen lässt sich in der Verwendung von Hypothesen sehen, die a priori vorhanden sind und die Analyse beeinflussen. Nicht immer müssen diese Hypothesen zu Fehlschlüssen und damit zur Wirkungslosigkeit eines Data-Mining-Projekts werden, doch besteht grundsätzlich die Möglichkeit, dass man durch die fehlgeleitete Annahmen nur die Annahmen bestätigt. Mit Autonomie ist damit vor diesem Hintergrund die Forderung verbunden, dass die Daten für sich selbst und aus sich heraus analysiert werden sollen. Allgemeine Verwendbarkeit Die Analysen und Ergebnisse sollten möglichst einen breiten Wirkungsraum entfalten. Hierbei besteht ein Konflikt mit der Autonomie, da nach gewissen Strukturen gesucht werden sollen, sodass bereits automatisch Hypothesen in die Analyse einfließen. Je genauer die Verwendbarkeit der Datenanalyse sein soll, desto stärker ist der Benutzereingriff. Datenproblematik Neben den Analysewerkzeugen des Data- Mining kommt notwendigerweise den Rohdaten selbst die Eigenschaft eines kritischen Erfolgsfaktors zu. Nicht immer sind Daten vollständig. Teilweise fehlen Daten oder Datenbezüge, die für eine Analyse notwendig sind. Datenbanken wachsen, sofern sie Transaktionen oder Messdaten erfassen, unaufhörlich und oft mit großer Geschwindigkeit, sodass die Dynamik der Daten zu Veränderungen der Analyseergebnisse oder zu neuen Strukturen führt. Diese können dann wieder im Zeitverlauf korreliert sein. Daten können durch Falscheinträge oder Datenmigrationen verschmutzt sein, wobei grundsätzlich ein Erkennungsproblem zwischen Ausreißern und Verschmutzungen besteht. Redundanzen können fälschlicherweise zu neuem Wissen interpretiert werden. Irrelevante Felder stellen solche Felder dar, die für die Datenmusterkennung unnötig sind, wobei die Irrelevanz nicht ad hoc klar ist und evtl. durch eine entsprechende Auswahl gegen das Autonomieprinzip verstoßen werden kann. Verständlichkeit

Die Ergebnisse des Data-Mining-Prozesses müssen in einer guten Verständlichkeit und Aufbereitung einem Leser oder Betrachter klar werden. Dies kann grafisch oder mit Hilfe von Texten erfolgen. Dabei sollte eine weitere Verarbeitung der Ergebnisse stets berücksichtigt werden. Interessantheit Die gefundenen Ebenen müssen interessant sein, sodass solche Mängel an Interessantheit wie redundante Ergebnisse, bedeutungslose Ergebnisse oder bekannte Strukturen sowie triviale Erkenntnisse oder irrelevante Sachverhalte vermieden werden müssen. Stattdessen soll ein Data-Mining-Prozess neue Zusammenhänge und bisher in dieser Form noch nicht bekannte Strukturen und Abhängigkeiten aufdecken. Komponenten Steuerung: Sie übernimmt die Befehle des Anwenders und überwacht die Abläufe und die Ablaufkonfiguration der einzelnen Komponenten. Datenbankschnittstelle: Sie versorgt das System mit den benötigten Daten oder Datenextrakten. Wissensbasis: In dieser Komponenten ist das Domänenwissen gespeichert, wie es für andere Komponenten benötigt wird. Fokussierung: Hier wird entschieden, welche Teile der Daten analysiert werden sollen. Analysealgorithmen: Die eigentliche Extraktion der Strukturen und interessanten Zusammenhänge erfolgt durch dieses Subsystem. Bewertung: Von den Analysealgorithmen gefundene Daten und Strukturen werden in diesem Subsystem bewertet, auf Interessantheit und Nützlichkeit überprüft und von der in der Wissensbasis gespeicherten Kriterien überprüft. Präsentation: Dieses Modul gibt die gefundenen Ergebnisse in unterschiedlichen Formen wie Texte, Grafiken und Tabellen für den Endbenutzer und zur beliebigen Weiterverarbeitung aus.