Data Mining als Arbeitsprozess



Ähnliche Dokumente
Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Seminar Business Intelligence Teil II. Data Mining & Knowledge Discovery

Data Mining: Einige Grundlagen aus der Stochastik

Zeichen bei Zahlen entschlüsseln

Erstellen einer Collage. Zuerst ein leeres Dokument erzeugen, auf dem alle anderen Bilder zusammengefügt werden sollen (über [Datei] > [Neu])

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Informatik Kurs Simulation. Hilfe für den Consideo Modeler

Primzahlen und RSA-Verschlüsselung

Mean Time Between Failures (MTBF)

Meinungen zur Altersvorsorge

WERKZEUG KUNDENGRUPPEN BILDEN

Professionelle Seminare im Bereich MS-Office

Statuten in leichter Sprache

Erfahrungen mit Hartz IV- Empfängern

1. DAS PRAKTIKUM IM UNTERNEHMEN: ein Leitfaden.

Internet- und -Überwachung in Unternehmen und Organisationen

4. BEZIEHUNGEN ZWISCHEN TABELLEN

AGROPLUS Buchhaltung. Daten-Server und Sicherheitskopie. Version vom b

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50, ,5 51,7 48,8

OECD Programme for International Student Assessment PISA Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland

Bedingungen. Bedingungen. Bedingungen

Behörde für Bildung und Sport Abitur 2008 Lehrermaterialien zum Leistungskurs Mathematik

Downloadfehler in DEHSt-VPSMail. Workaround zum Umgang mit einem Downloadfehler

Wärmebildkamera. Arbeitszeit: 15 Minuten

Anwendungshinweise zur Anwendung der Soziometrie

Technical Note Nr. 101

Lineare Gleichungssysteme

Die Größe von Flächen vergleichen

Finanzierung: Übungsserie III Innenfinanzierung

FRAGE 39. Gründe, aus denen die Rechte von Patentinhabern beschränkt werden können

Die Bedeutung der Kinder für ihre alkoholabhängigen Mütter

Einführung in. Logische Schaltungen

Lichtbrechung an Linsen

Die Gleichung A x = a hat für A 0 die eindeutig bestimmte Lösung. Für A=0 und a 0 existiert keine Lösung.

Mathematischer Vorbereitungskurs für Ökonomen

Die vorliegende Arbeitshilfe befasst sich mit den Anforderungen an qualitätsrelevante

Arbeitsmarkteffekte von Umschulungen im Bereich der Altenpflege

QM: Prüfen -1- KN

SCHRITT 1: Öffnen des Bildes und Auswahl der Option»Drucken«im Menü»Datei«...2. SCHRITT 2: Angeben des Papierformat im Dialog»Drucklayout«...

Anleitung über den Umgang mit Schildern

Erstellen von x-y-diagrammen in OpenOffice.calc

LEITFADEN ZUR SCHÄTZUNG DER BEITRAGSNACHWEISE

Plotten von Linien ( nach Jack Bresenham, 1962 )

Bei der Focus Methode handelt es sich um eine Analyse-Methode die der Erkennung und Abstellung von Fehlerzuständen dient.

Umfrage. Didaktischer Kommentar. Lernplattform

Kulturelle Evolution 12

Psychologie im Arbeitsschutz

1 Mathematische Grundlagen

2.1 Präsentieren wozu eigentlich?

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Quadratische Gleichungen

MuP-Arbeitshilfen. Kreativität organisieren Der innovative Prozess. Problem-Phase

Mobile Intranet in Unternehmen

Bereich METIS (Texte im Internet) Zählmarkenrecherche

Allensbach: Das Elterngeld im Urteil der jungen Eltern

Was ist das Budget für Arbeit?

R ist freie Software und kann von der Website.

Bundesverband Flachglas Großhandel Isolierglasherstellung Veredlung e.v. U g -Werte-Tabellen nach DIN EN 673. Flachglasbranche.

1. Einführung Erstellung einer Teillieferung Erstellung einer Teilrechnung 6

Projektmanagement in der Spieleentwicklung

Nutzung von GiS BasePac 8 im Netzwerk

Feiertage in Marvin hinterlegen

Lernaufgabe Industriekauffrau/Industriekaufmann Angebot und Auftrag: Arbeitsblatt I Auftragsbeschreibung

MORE Profile. Pass- und Lizenzverwaltungssystem. Stand: MORE Projects GmbH

Aufgabenheft. Fakultät für Wirtschaftswissenschaft. Modul Business/IT-Alignment , 09:00 11:00 Uhr. Univ.-Prof. Dr. U.

Tutorium zur Mikroökonomie II WS 02/03 Universität Mannheim Tri Vi Dang. Aufgabenblatt 3 (KW 44) ( )

Animationen erstellen

Speicher in der Cloud

Media Teil III. Begriffe, Definitionen, Übungen

Volkswirtschaftslehre

Umgang mit Schaubildern am Beispiel Deutschland surft

Frauen und ihr Verständnis von Schönheit

Wie man Registrationen und Styles von Style/Registration Floppy Disketten auf die TYROS-Festplatte kopieren kann.

Drei Fragen zum Datenschutz im. Nico Reiners

Änderung des IFRS 2 Anteilsbasierte Vergütung

Zahlenwinkel: Forscherkarte 1. alleine. Zahlenwinkel: Forschertipp 1

Installation von Druckern auf dem ZOVAS-Notebook. 1. Der Drucker ist direkt mit dem Notebook verbunden

Statistik mit Excel. für Praktiker: Statistiken aufbereiten und präsentieren HORST-DIETER RADKE. Markt+Technik

Ein neues System für die Allokation von Spenderlungen. LAS Information für Patienten in Deutschland

Software Engineering. Sommersemester 2012, Dr. Andreas Metzger

Statistik mit Excel. für Praktiker: Statistiken aufbereiten und präsentieren HORST-DIETER RADKE

Kapitel 4 Die Datenbank Kuchenbestellung Seite 1

1. EINLEITUNG 2. GLOBALE GRUPPEN Globale Gruppen anlegen

Mit dem Tool Stundenverwaltung von Hanno Kniebel erhalten Sie die Möglichkeit zur effizienten Verwaltung von Montagezeiten Ihrer Mitarbeiter.

Zahlen auf einen Blick

Grundlagen der höheren Mathematik Einige Hinweise zum Lösen von Gleichungen

Private Altersvorsorge

Sonderrundschreiben. Arbeitshilfe zu den Pflichtangaben in Immobilienanzeigen bei alten Energieausweisen

Kreativ visualisieren

Alle Schlüssel-Karten (blaue Rückseite) werden den Schlüssel-Farben nach sortiert und in vier getrennte Stapel mit der Bildseite nach oben gelegt.

Wie ist das Wissen von Jugendlichen über Verhütungsmethoden?

MdtTax Programm. Programm Dokumentation. Datenbank Schnittstelle. Das Hauptmenü. Die Bedienung des Programms geht über das Hauptmenü.

Adobe Encore Einfaches Erstellen einer DVD

Schule Sins - Anleitung LehrerOffice

1. Die Maße für ihren Vorbaurollladen müssen von außen genommen werden.

Patienteninformation: Gentestung bei familiärem Brust- und Eierstockkrebs (Basis-Information):

Programmentwicklungen, Webseitenerstellung, Zeiterfassung, Zutrittskontrolle

Stammdatenanlage über den Einrichtungsassistenten

Die. gute Idee. Erfindungen und Geschäftsideen entwickeln und zu Geld machen

LDAP Konfiguration nach einem Update auf Version 6.3 Version 1.2 Stand: 23. Januar 2012 Copyright MATESO GmbH

Transkript:

Data Mining als Arbeitsprozess Hagen Knaf Studiengang Angewandte Mathematik Hochschule RheinMain 31. Dezember 2015 In Unternehmen werden umfangreichere Aktivitäten oder Projekte im Bereich des Data Mining häufig nach einem bestimmten Schema bearbeitet, das heißt der Arbeitsprozess, nach dem ein Data-Mining-Projekt durchgeführt wird, erfolgt in mehr oder weniger standardisierten Schritten. Ein standardisiertes Vorgehen hat verschiedene Vorteile: Verankern von Erfahrungen im standardisierten Prozess (Wissenstradition im Unternehmen), Vermeidung von (groben) Verfahrensfehlern, gute Dokumentierbarkeit eines Projekts, Ermöglichen einer Qualitätssicherung, um nur einige zu nennen. Die für den Data-Mining-Arbeitsprozess verwendeten Standards variieren natürlich von Unternehmen zu Unternehmen, sind aber in aller Regel an allgemeine Vorgehensweisen, wie sie zum Beispiel in dem so genannten Fayyad-Modell widergespiegelt sind, angelehnt. Die folgenden Ausführungen beziehen sich auf dieses Modell siehe hierzu den grundlegenden Artikel [F-PS-S], insbesondere Figure 1. In diesem wird der Prozess des knowledge discovery in databases (KDD) beschrieben. Data Mining ist ein Teilschritt dieses Prozesses. Angesichts der Tatsache, dass anspruchsvolle mathematische Methoden auch in anderen Teilschritten des KDD-Prozesses vorkommen, wird im vorliegenden Text nicht zwischen KDD und Data Mining unterschieden. 1

Um einen Arbeitsprozess zu definieren, muss klar sein welches Ziel mit diesem Prozess erreicht werden soll. Eine allgemein anerkannte Beschreibung des Ziels ist folgende: Aus vorliegenden Daten sollen valide, bislang unbekannte, potentiell nützliche und im jeweiligen Anwendungskontext interpretierbare Muster/Strukturen extrahiert werden. Unter Mustern oder Strukturen versteht man dabei jede Beschreibung der Daten auf einem höheren Niveau als dem der Angabe von Werten und deren Häufigkeiten. Muster sind also zum Beispiel Wahrscheinlichkeitsverteilungen, die aus den Daten geschätzt wurden, oder Regressionsfunktionen durch eine Datenmenge. Valide bedeutet, dass die ermittelten Muster mit hinreichend hoher Wahrscheinlichkeit auch in neuen Daten beobachtbar sind, das heißt die Muster spiegeln eine reale Gesetzmäßigkeit wider und sind keine Artefakte. Die ermittelten Muster liefern nach Bewertung und Interpretation durch Menschen möglicherweise Wissen über den Bereich, aus dem die betrachteten Daten stammen. Nach dem Modell von Fayyad, Piatetsky-Shapiro und Smyth ist der Arbeitsprozess, mit dessen Hilfe man Wissen aus Daten gewinnt, in sechs Teilschritte gegliedert. Diese werden im Folgenden beschrieben. Man beachte dabei, dass der Prozess interaktiv und iterativ ist: Die nach jedem Schritt erhaltenen Ergebnisse müssen bewertet werden; das Bewertungsergebnis kann dazu führen, dass man einen oder mehrere Schritte zurückgehen muss. 1. Verständnis des Kontexts: Jedes Data-Mining-Projekt findet in einem konkreten Anwendungsrahmen statt und verfolgt anwendungsspezifische Ziele. Letztere müssen zusammen mit dem nötigen Kontextwissen von den Durchführenden des Projekts verstanden werden. Beispiel: Daten einer Anlage zur Produktion von Kunststoffspritzgussteilen sollen analysiert werden. Allgemeines Ziel ist die Verbesserung der Qualität der produzierten Teile. Anwendungsspezifisches Ziel: Es kommt besonders auf die farbliche Homogenität der Teile an, da sie im Innendesign von Wohnräumen zum Einsatz kommen. Kontextwissen: Wie und wie genau wird Farbhomogenität ermittelt? Durch welche Einstellungen an der Spritzgussanlage kann sie beeinflusst werden? Was kosten geänderte Einstellungen? 2. Datenauswahl: Es wird entschieden welche Daten und welche Merkmale dieser Daten in der Analyse verwendet werden. Je nach Kontext liegen die Daten bereits vor oder werden kontinuierlich ermittelt. Falls 2

dies nicht der Fall ist, wird eine Methode zur Erhebung dieser Daten festgelegt und die Datenerhebung wird durchgeführt. In diesem Arbeitsschritt werden oft statistische Überlegungen und Tests genutzt, um die Entscheidung zu erleichtern. Beispiel: Es wird entschieden alle über die Zeit protollierten Einstellungen der Spritzgussanlage zu verwenden, da man nicht genau weiß, welche Einstellungen die Farbhomogenität beeinflussen. Letztere wird bislang vom Maschinenführer optisch regelmäßig geprüft und handschriftlich protokolliert. Es wird entschieden eine Kamera zu installieren, die in einem bestimmten Zeittakt Nahaufnahmen der produzierten Teile aufnimmt. Diese werden in die Analyse eingeschlossen. 3. Datenvorverarbeitung: Die zu analysierenden Daten werden allgemein gesprochen in eine analysefähige Form gebracht. Hierzu sind kontextabhängig zum Beispiel folgende Operationen notwendig: Entrauschen der Daten, das heißt Entfernen oder wenigstens Reduzieren von Artefakten und Störungen in den Daten, die durch den Erhebungsvorgang verursacht werden. Festlegen einer Methode mit fehlenden Daten umzugehen, etwa bei temporärem Ausfall der Datenerfassung oder bei Fehlen einzelner Merkmalsausprägungen in Datensätzen. Festlegen einer Methode der Zusammenführung von Daten aus verschiedenen Datenquellen, etwa bei zeitabhängigen Daten, die mit unterschiedlicher Frequenz ermittelt werden. Beispiel: Die Temperatur der Kunststoffmasse wird nach dem Füllen der Form an verschiedenen Stellen im Spritzgusswerkzeug mit Sensoren ermittelt. Es kommt vor, dass die Form nicht vollständig gefüllt wird, die Temperaturwerte an entsprechenden Stellen als nicht valide sind. Die in einem solchen Fall produzierten Teile sind Ausschuss, obwohl ihre Farbhomogenität gut sein kann. Prinzipiell sind die Daten zu solchen Ausschussteilen also interessant. Es wird aber entschieden wegen des teilweisen Fehlens valider Temperaturwerte jeden Datensatz zu einem Ausschussteil nicht in die Analyse aufzunehmen. 4. Datentransformation: Es ist häufig zweckmäßig oder notwendig die Datensätze vor der Analyse in für das angestrebte Ziel geeignetere Datensätze zu transformieren. Häufige Ziele der Datentransformation sind: 3

Erzeugen vergleichbarer Wertebereiche bei numerischen Merkmalen durch Normalisieren oder Standardisieren. Umwandeln eines Merkmals vom vorliegenden Typ in einen anderen: Die Diskretisierung eines numerischen Merkmals in ein nominales ist ein Beispiel dieser Operation. Vereinfachen von komplexen Merkmalen: Besitzt ein Merkmal beispielsweise Zeitreihen als Ausprägungen, so verwendet man von diesen nach der Transformation nur ihren Mittelwert und die Varianz. Reduktion der Anzahl zu betrachtender Merkmale durch Kombination mehrerer Merkmale zu einem neuen (so genannte Dimensionsreduktion ). Beispiel: Der während eines einzelnen Spritzgussvorgangs (Produktion eines Teils) gemessene Druckverlauf im Werkzeug wird durch den mittleren Druck während des Gussvorgangs ersetzt. Das regelmäßig von der Kamera aufgezeichnete Bild wird durch die Anzahl der signifikanten Farbinhomogenitäten, sowie durch den Wert der größten vorkommenden Farbinhomogenität ersetzt (beachte: Bilder sind eine Matrix von Farbwerten z.b. in der Menge {0,..., 255} (RGB-Kode)). Im letzten Fall werden aus einem komplexen Merkmal zwei numerische erzeugt. 5. Data Mining: Die nun vorliegenden analysefähigen und geeignet transformierten Daten werden in diesem Schritt analysiert. Die Analyse zerfällt in mehrere Teilschritte, die alle ein erhebliches Fachwissen in den Bereichen Statistik, Data Mining und automatisches Lernen erfordern: Wahl einer passenden Data-Mining-Methode, Wahl eines geeigneten Algorithmus, der die Methode realisiert, Bestimmung eines Modells der Daten, das heißt Suche nach und Beschreibung von Mustern/Strukturen in den Daten, Validierung des Modells. Beispiel: Mit Hilfe von nichtlinearer Regression (Data-Mining-Methode) wird unter Verwendung eines neuronalen Netzes (Algorithmus) ein näherungsweiser Zusammenhang zwischen der Kunststofftemperatur und 4

dem mittleren Druckverlauf während des Gussvorgangs einerseits und der Farbhomogenität andererseits ermittelt. 6. Bewertung und Interpretation: Die aus den Daten ermittelten Modelle werden im Anwendungskontext interpretiert und es wird untersucht, inwieweit sie etwas zu den spezifischen Zielen des Projekts beitragen. Bei Data-Mining-Projekten besteht generell das Risiko, dass die Ergebnisse im Anwendungskontext irrelevant oder nicht umsetzbar sind. Dieses Risiko führt oft dazu, dass kleine und mittelständische Unternehmen Data-Mining-Projekte erst gar nicht ins Auge fassen. Beispiel: Das Regressionsmodell für die Farbhomogenität kann genutzt werden, um Einstellungen der Spritzgussanlage zu ermitteln, bei denen die Farbhomogenität (näherungsweise) optimal ist. Es ist dann zu diskutieren, ob diese Einstellungen andere Qualitätsgrößen negativ beeinflussen oder ob die Betriebskosten der Anlage zum Beispiel durch erhöhten Energiebedarf steigen. Es ist zu entscheiden, ob Negativeffekte sich in einem akzeptablen Rahmen halten oder nicht. Literatur [F-PS-S] U. Fayyad, G. Piatetsky-Shapiro, P. Smyth, From Data Mining to Knowledge Discovery in Databases, AI Magazine 17 (3) (1996). 5