Qualitätssicherung industrieller Prozesse mit dem SAS Enterprise Miner

Ähnliche Dokumente
INFORMATION WORKS Dienstleistungsprofil im Überblick

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Das große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining

Analyse zum Thema: Laufzeit von Support-Leistungen für ausgewählte Server OS

RÜSTZEITEN SENKEN, PRODUKTION BESCHLEUNIGEN DER SMED-PRAXIS-WORKSHOP IN IHREM HAUS

Zahlenwinkel: Forscherkarte 1. alleine. Zahlenwinkel: Forschertipp 1

Agile Enterprise Development. Sind Sie bereit für den nächsten Schritt?

L10N-Manager 3. Netzwerktreffen der Hochschulübersetzer/i nnen Mannheim 10. Mai 2016

Integration mit. Wie AristaFlow Sie in Ihrem Unternehmen unterstützen kann, zeigen wir Ihnen am nachfolgenden Beispiel einer Support-Anfrage.

Mean Time Between Failures (MTBF)

Beschreibung des MAP-Tools

4. Jeder Knoten hat höchstens zwei Kinder, ein linkes und ein rechtes.

Ihre PLM-Prozessexperten für Entwicklung und Konstruktion

Research Note zum Thema: Laufzeit von Support-Leistungen für Server OS

Inhalt. 1 Einleitung AUTOMATISCHE DATENSICHERUNG AUF EINEN CLOUDSPEICHER

Mobile Intranet in Unternehmen

Data Mining: Einige Grundlagen aus der Stochastik

6 Schulungsmodul: Probenahme im Betrieb

Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken

Ishikawa-Diagramm. 1 Fallbeispiel 2. 2 Was ist ein Ishikawa-Diagramm 2. 3 Vorgehen bei der Erstellung eines Ishikawa-Diagramms 2.

Anleitung: Einrichtung der Fritz!Box 7272 mit VoIP Telefonanschluss

Grundlagen der Theoretischen Informatik, SoSe 2008

Dieser Ablauf soll eine Hilfe für die tägliche Arbeit mit der SMS Bestätigung im Millennium darstellen.

DISKUSSIONSBEITRÄGE DER FAKULTÄT FÜR BETRIEBSWIRTSCHAFTSLEHRE MERCATOR SCHOOL OF MANAGEMENT UNIVERSITÄT DUISBURG-ESSEN. Nr. 374

infach Geld FBV Ihr Weg zum finanzellen Erfolg Florian Mock

Mitarbeiterbefragung als PE- und OE-Instrument

Presseinformation. Ihre Maschine spricht! Mai GLAESS Software & Automation Wir machen industrielle Optimierung möglich.

DynaTraffic Einstiegsaufgaben

Professionelle Seminare im Bereich MS-Office

Einfache Varianzanalyse für abhängige

ONLINE-AKADEMIE. "Diplomierter NLP Anwender für Schule und Unterricht" Ziele

TREND SEARCH VISUALISIERUNG. von Ricardo Gantschew btk Berlin Dozent / Till Nagel

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Zeichen bei Zahlen entschlüsseln

Leitfaden zur ersten Nutzung der R FOM Portable-Version für Windows (Version 1.0)

Analyse und Maintenance als Grundlage zur Konversionserhöhung.

1. Einführung Erstellung einer Teillieferung Erstellung einer Teilrechnung 6

IT-Governance und Social, Mobile und Cloud Computing: Ein Management Framework... Bachelorarbeit

Anleitung zum Computercheck Windows Firewall aktivieren oder eine kostenlose Firewall installieren

Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining

Meine Lernplanung Wie lerne ich?

Viele Bilder auf der FA-Homepage

... hab ich gegoogelt. webfinder. Suchmaschinenmarketing !!!!!!

Lichtbrechung an Linsen

Papierverbrauch im Jahr 2000

Kundenorientierte Produktentwicklung

Informationsblatt Induktionsbeweis

Anleitung BFV-Widget-Generator

Anleitung über den Umgang mit Schildern

DAS TEAM MANAGEMENT PROFIL IM ÜBERBLICK. Sie arbeiten im Team und wollen besser werden. Das erreichen Sie nur gemeinsam.

Techem Monitoring. Ihr Online-Service für Energie- und Wasserverbrauch in Immobilien.

Spezifikation für Coaching Funktion in OpenOLAT

Kurzanleitung. MEYTON Aufbau einer Internetverbindung. 1 Von 11

Begeisterung und Leidenschaft im Vertrieb machen erfolgreich. Kurzdarstellung des Dienstleistungsangebots

Energieaudits. VerbesserungÊ derê EnergieeffizienzÊ

ÜBERGABE DER OPERATIVEN GESCHÄFTSFÜHRUNG VON MARC BRUNNER AN DOMINIK NYFFENEGGER

Content Management System mit INTREXX 2002.

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Abi-Retter-Strategien: Texterörterung. Das komplette Material finden Sie hier:

Diese Ansicht erhalten Sie nach der erfolgreichen Anmeldung bei Wordpress.

V 2 B, C, D Drinks. Möglicher Lösungsweg a) Gleichungssystem: 300x y = x + 500y = 597,5 2x3 Matrix: Energydrink 0,7 Mineralwasser 0,775,

Ein Spiel für 2-3 goldhungrige Spieler ab 8 Jahren.

Lineare Gleichungssysteme

Partitionieren in Vista und Windows 7/8

Von zufriedenen zu treuen Kunden

Handbuch Fischertechnik-Einzelteiltabelle V3.7.3

mobilepoi 0.91 Demo Version Anleitung Das Software Studio Christian Efinger Erstellt am 21. Oktober 2005

Unternehmenssteuerung mit der Balanced Scorecard

Simulation (vormals Feldversuch) Cico im Gelenkbus

Projektmanagement in der Spieleentwicklung

Konzepte der Informatik

Insiderwissen Hintergrund

Fotostammtisch-Schaumburg

50. Mathematik-Olympiade 2. Stufe (Regionalrunde) Klasse Lösung 10 Punkte

Task: Nmap Skripte ausführen

ARCHIV- & DOKUMENTEN- MANAGEMENT-SERVER PAPIER ARCHIVIEREN

Ist Excel das richtige Tool für FMEA? Steve Murphy, Marc Schaeffers

Suche schlecht beschriftete Bilder mit Eigenen Abfragen

Leseprobe. Thomas Konert, Achim Schmidt. Design for Six Sigma umsetzen ISBN: Weitere Informationen oder Bestellungen unter

Kaufkräftige Zielgruppen gewinnen

Agentur für Werbung & Internet. Schritt für Schritt: Newsletter mit WebEdition versenden

Data Warehouse Definition (1)

Gesetzliche Aufbewahrungspflicht für s

Einen Wiederherstellungspunktes erstellen & Rechner mit Hilfe eines Wiederherstellungspunktes zu einem früheren Zeitpunkt wieder herstellen

Nicht über uns ohne uns

Lineare Funktionen. 1 Proportionale Funktionen Definition Eigenschaften Steigungsdreieck 3

Umgang mit Schaubildern am Beispiel Deutschland surft

Anleitung zum ebanking KOMPLETT - Computercheck So aktualisieren Sie Ihr Microsoft-Betriebssystem

Installationsanleitung für CashPro im Mehrbenutzerzugriff/Netzwerkbetrieb

INDEX. Öffentliche Ordner erstellen Seite 2. Offline verfügbar einrichten Seite 3. Berechtigungen setzen Seite 7. Öffentliche Ordner Offline

WinVetpro im Betriebsmodus Laptop

Prozessmanagement Modeerscheinung oder Notwendigkeit

Erstellen einer PostScript-Datei unter Windows XP

Einsatz von xalerator. bei den. Ergo Direkt Versicherungen. Bereich Versicherungstechnik/Leben

1 topologisches Sortieren

Checkliste zur qualitativen Nutzenbewertung

Stellen Sie bitte den Cursor in die Spalte B2 und rufen die Funktion Sverweis auf. Es öffnet sich folgendes Dialogfenster

Mediator 9 - Lernprogramm

Konfiguration VLAN's. Konfiguration VLAN's IACBOX.COM. Version Deutsch

Transkript:

Qualitätssicherung industrieller Prozesse mit dem SAS Enterprise Miner Claudia Tückmantel INFORMATION WORKS Rolshover Str. 45 51105 Köln c.tueckmantel@information-works.de Zusammenfassung Bei der Durchführung industrieller Prozesse werden durch den Einsatz moderner Sensortechnik und durch die Prozessautomatisierung große Datenmengen gesammelt, die wertvolle Informationen über den aktuellen Zustand des Prozesses beinhalten. D.h. schon zur Laufzeit des Prozesses lassen sich durch multivariate statistische Auswertungsverfahren Informationen darüber gewinnen, ob die Qualität des Endproduktes den Anforderungen entsprechen wird, oder ob Stellgrößen des Prozesses angepasst werden müssen. Dabei kann es sich z.b. um Parameter zur Regelung der Temperatur, des Druckes oder der chemischen Mischverhältnisse handeln. Insbesondere in kritischen Situationen ist es wichtig, schnell und richtig zu handeln. Dazu werden zuverlässige Analysesysteme benötigt, die eine auf den vorhandenen Informationen basierende Entscheidung ermöglichen. Keywords: Data Mining, Industrielle Prozesse, Qualitätssicherung, Prozesskontrolle, SAS Enterprise Miner. 1 Einleitung Bei der Durchführung industrieller Prozesse fallen große Datenmengen an, die entweder schon jetzt automatisiert gesammelt und gespeichert werden, oder deren Erhebung mit wenig Aufwand möglich wäre. Grundlage für die einfache Datensammlung sind u.a. Sensortechniken und computergesteuerte Prozessautomatisierungen, durch die wichtige Einflussgrößen des Prozesses online ermittelt werden und direkt in elektronischer Form zur Verfügung stehen. In diesen Daten stecken wichtige Informationen über den Prozessablauf, die es nutzbar zu machen gilt. Problematisch dabei ist jedoch zum einen die große Datenmasse. Häufig liegen mehrere hundert Einflussvariablen vor, die in kurzen Zeitabständen gemessen werden. Zum anderen bestehen zwischen den einzelnen Variablen zahlreiche Zusammenhänge und Abhängigkeiten, die bei der Analyse berücksichtigt werden müssen. Aus diesen Gründen erfolgt häufig nur eine stichprobenartige Kontrolle einzelner Werte. Bei diesem Vorgehen wird jedoch 1

nur ein geringer Teil der vorhandenen Informationen genutzt. Wichtige Erkenntnisse, die aus den Daten gewonnen werden könnten, bleiben unerkannt. Data Mining Verfahren stellen eine Möglichkeit dar, die gesammelten Daten umfassend zu analysieren und so neue Erkenntnisse über den Produktionsprozess zu gewinnen, wodurch wiederum Wettbewerbsvorteile realisiert werden könne. 2 Möglichkeiten durch Data Mining Das Ziel dieses Ansatzes ist es, durch die Ausschöpfung der gesamten zur Verfügung stehenden Information eine Verbesserung der Prozessabläufe zu erreichen. Data Mining wird dabei als grundlegende Methodik zur Entwicklung intelligenter Systeme für Prozess-Monitoring, -Kontrolle und -Diagnose verwendet. Der Einsatz von Data Mining zur Analyse industrieller Prozesse kann grob hinsichtlich zweier Zielrichtungen untergliedert werden, die unmittelbare Überprüfung des Prozesses sowie eine langfristige Steigerung der Prozesseffizienz. Auf der einen Seite steht also die Analyse des Zustandes, in dem sich der Prozess momentan befindet. Data Mining dient hier somit der Online-Kontrolle, d.h. der Überprüfung des laufenden Prozesses auf Sicherheit und Fehlerfreiheit. Ziel ist es, ein Alarmsystem zu entwickeln, um frühzeitig Probleme zu erkennen und rechtzeitig eingreifen zu können. Zum anderen lassen sich durch Data Mining Verfahren historische Daten analysieren. Dadurch soll langfristig eine gleichbleibend hohe Performanz garantiert werden und nach Möglichkeiten der Effizienzsteigerung gesucht werden. Ein Ziel könnte hier z.b. die Identifikation von Fehlerursachen sein. Data Mining sucht dabei in den Daten nach Mustern, die fehlerhaften Prozessläufen zugrunde liegen. Es werden Einflussfaktoren identifiziert, die bestimmte Fehler zur Folge haben. Im Anschluss daran können die so gewonnenen Erkenntnisse genutzt werden, um die Fehlerursachen zu eliminieren und um laufende Prozesse dahingehend zu kontrollieren, um gegebenenfalls korrigierend eingreifen zu können. Auf ähnliche Weise können Gründe für Qualitätsabnahmen der hergestellten Produkte ermittelt werden. Ferner werden durch die Analyse historischer Daten die unterschiedlichen Zustände herausgefiltert, in denen sich der untersuchte Prozess befinden kann. Dabei ist ein solcher Zustand durch bestimmte Eigenschaften charakterisiert und kann weitergehend qualifiziert werden. Handelt es ich also um einen optimalen Prozesszustand mit hoher Qualität des Ausgangsproduktes, wenig produziertem Ausschuss und keinen Auffälligkeiten? Eine andere Möglichkeit wäre ein kritischer Zustand, entweder im Hinblick auf die einzuhaltenden Sicherheitsbestimmungen oder die Weiterverwendbarkeit des Endproduktes. Weiter lassen sich bedenkliche, normale, ineffiziente oder auch unbekannte Zustände unterscheiden. Die im Vorfeld identifizierten Zustände bilden dann wiederum die Grundlage für weitergehende Analysen und 2

Interpretationen. Außerdem fließen die hier gewonnenen Erkenntnisse natürlich in die Online-Analysen ein und können dort z.b. als Zielvariablen dienen. Ein weiteres Ziel könnte die leichtere und schnellere Herleitung optimaler Stellgrößen für den Prozess sein. Insgesamt lassen sich durch Data Mining folgende übergeordneten Ziele verwirklichen: Online Qualitätskontrolle, basierend auf allen relevanten Einflussgrößen. Langfristige Qualitätsverbesserungen Verkürzung von Entwicklungszeiten Produktivitätsverbesserungen Kostenreduzierungen, z.b. durch Reduzierung der Ausschussmenge Vermeidung von Störungen Überwachung der Prozesssicherheit Einhaltung von Umweltschutzbestimmungen Diese Ziele lassen sich auf eine Reihe von Punkten herunterbrechen, die sich direkt aus den Data Mining Verfahren ableiten lassen, natürlich nach entsprechender fachlicher Interpretation und Bewertung der Umsetzbarkeit. Zu diesen Punkten gehören z.b. die folgenden: Ableitung von Steuergrößen und optimalen Betriebsparametern Rechtzeitige Ausgabe von Warnmeldungen Schätzung schwierig messbarer Parameter Identifikation unterschiedlicherer Prozesszustände Entdeckung von Regeln und Zusammenhängen in den Daten Die Einbettung von Data Mining in den Fertigungsprozess gestaltet sich dabei folgendermaßen. Grundlage ist die automatische Sammlung aller relevanten Daten. Daran schließt sich als erstes die strukturierte Ablage der Daten an. Im Idealfall geschieht dies in einem Data Warehouse. Dies ist die Voraussetzung für die nachfolgende Anwendung performanter Abfragetechniken bzw. effizienter Analyseverfahren. Nächster Schritt ist die angemessene Datenaufbereitung. Hier kommen z.b. Verfahren zur Dimensionsreduktion, zur Datenbereinigung, zur Überprüfung der Modellvoraussetzungen sowie zur Variablenselektion oder auch Hauptkomponentenanalysen zum Einsatz. Anschließend werden geeignete Modelle ausgewählt und auf die Daten angewandt. Je nach Zielrichtung sind dies z.b. Clusterverfahren, Regressionsmodelle, Entscheidungsbäume oder Neuronale Netze. Die entwickelten Modelle werden daraufhin in die operativen Prozesse integriert und zur Online-Analyse der multivariaten Datenstrukturen genutzt. Parallel hierzu werden die vorhandenen Datenbestände tiefergehend analysiert, um Optimierungspotentiale aufzudecken und so die Prozesseffizienz weiter zu steigern und die Qualität der Endprodukte zu erhöhen. Abbildung 1 zeigt noch einmal den Ablauf. Die Verwertung und Umsetzung der Ergebnisse im Prozess erfolgt dabei entweder unmittelbar, z.b. in Form von 3

Anpassungen an Maschinenparametern, oder strategisch in Form von tiefergehenden Prozessanpassungen zur Performancesteigerung o.ä. Prozess D A T E N Prozessdatenbank / Data Warehouse Data Mining Bestand Ergebnisse Interpretation Datenaufbereitung Anwendung der Data Mining Methoden Abbildung 1: Data Mining im Fertigungsprozess 3 Spezialfall Komplexe Prozessketten Produktionsprozesse bestehen meist nicht nur aus einem Fertigungsschritt, sondern aus einer ganzen Reihe aufeinanderfolgender Produktionsabschnitte. In solchen komplexen Fertigungssystemen ist die Anzahl der zu berücksichtigenden Eingangsparameter, Steuerinformationen und Störgrößen extrem groß. Ein Teilabschnitt wird nicht nur durch die eigenen Eingangsgrößen beeinflusst, sondern auch durch die aller vorhergegangener Prozessschritte. Dies führt dazu, dass ein aufgetretener Fehler seine Ursache nicht zwangsläufig in dem Prozessschritt haben muss, in dem das Problem aufgefallen ist. Die grundlegende Ursache kann viel weiter zurückliegen und ist wegen der Komplexität des Prozesses nur noch schwierig aufzudecken. Solche nicht reproduzierbaren Fehler lassen sich nicht durch herkömmliche statistische Methoden untersuchen, da die Anzahl der zu berücksichtigenden Variablen zu groß ist und die Abhängigkeiten zwischen diesen Variablen viel zu komplex sind. Die Verwendung von Stichprobenverfahren, Ansätzen der Versuchsplanung oder der statistischen Prozesskontrolle führt hier meist nicht zum Ziel, so dass es im Einzelfall zu hohen Fehlerquoten oder hohem Prüfaufwand kommt. Abhilfe schaffen kann hier die datenbasierte Suche nach Ursache-Wirkungszusammenhängen mit Hilfe von Data Mining Verfahren. Abbildung 2 veranschaulicht den multiplikativen Effekt der Stör- und Einflussgrößen in der Herstellungskette. In der Regel wird es sich nicht um eine einfache Kette handeln, nachfolgende Prozessschritte können auch durch mehrere Vorgänger beeinflusst sein. 4

Steuerinformationen Eingangsparameter Störgrößen 1. Schritt im Fertigungsprozess 2. Schritt im Fertigungsprozess Steuerinformationen Störgrößen Steuerinformationen Störgrößen 3. Schritt im Fertigungsprozess Steuerinformationen Störgrößen Auswirkungen der Vorprozesse, z.b. Eigenschaften weiterverarbeiteter Produkte (n-1)-ter Schritt im Fertigungsprozess n-ter Schritt im Fertigungsprozess Eingangsparameter Eingangsparameter Eingangsparameter Eingangsparameter Steuerinformationen Störgrößen Endprodukt Abbildung 2: Fehlerfortpflanzung in einer Prozesskette Wegen der Menge der anfallenden Daten und um eine homogene Datenstruktur zu garantieren, auf die zu Analysezwecken zugegriffen werden kann, bietet sich eine Verwaltung der Daten in Data Warehouse Systemen an. Sind die zugehörigen ETL-Prozesse (Extraktion, Transformation, Laden) und Metadatenstrukturen eingerichtet, kann mit dem Aufbau speziell ausgerichteter Teilbestände begonnen werden, sogenannter Data Marts. Die hier zur Verfügung gestellten Daten können meist unmittelbar in die Data Mining Analysetools einfließen. Bei Online-Analysen müssen dementsprechende Aufbereitungsprozesse etabliert sein, wobei die Performanz dieser Prozesse von entscheidender Bedeutung ist, um den Prozessverlauf ohne zeitliche Verzögerung bewerten zu können. 4 Veranschaulichung anhand einer beispielhaften Data Mining Analyse In unterschiedlichen Bereichen des Marketing werden Data Mining Methoden heute vermehrt eingesetzt. Sie dienen zur Ermittlung von Abwanderungswahrscheinlichkeiten und damit der Stornoanalyse. Mit ihrer Hilfe werden Responseanalysen durchgeführt und Zielgruppen für bestimmte Kampagnen ermittelt, es werden Cross- und Up-Selling-Potentiale bestimmt und Kundenprofile untergliedert. In anderen Bereichen ist der Einsatz von Data Mining Verfahren noch weniger stark verbreitet, obwohl auch hier die dem Data Mining zugrundeliegende Idee, 5

nämlich die Extraktion von Informationen aus unüberschaubaren Datenmengen, ein hohes Potential bietet. Zu diesen Bereichen zählt unter anderem die Kontrolle und Qualitätssicherung industrieller Prozesse. Um einen Eindruck zu vermitteln, wie eine Data Mining Analyse konkret aussehen könnte, werden nachfolgend die wichtigsten Punkte am Beispiel eines Falles aus der Druckindustrie kurz beschrieben. Dabei wurde ein zu Testzwecken generierter Datenbestand zugrunde gelegt und mit Hilfe des Enterprise Miners von SAS analysiert. Das Beispiel beschränkt sich auf einen einzelnen Prozessschritt und ist angelehnt an ein Fallbeispiel aus Berry,Linoff [1]. Andere Beispiele, die in der Literatur zu finden sind, beschäftigen sich mit den Themen einer verbesserten Einstellung der Automobilindustrie auf Produkte unterschiedlicher Zulieferer, Auswertung von Motoren- und Reifentests, Erkennung von Grenzwertüberschreitungen bei Kläranlagen und Kernkraftwerken, der Untersuchung von Lacken bzgl. Viskosität und Farbbeständigkeit, der Aufdeckung von Ursachen für Qualitätsmängel bei der Weißblechherstellung sowie der Qualitätssteigerung in der Chip-Produktion. In der Druckindustrie hat man mit verschiedenen Problemen zu kämpfen. Es kommt vor, dass Papierbahnen während des Druckprozesses reißen, es können sich Falten bilden, Tintenstreifen oder kleckse können auftreten, wodurch das Druckbild entweder völlig beschädigt oder zumindest stark gestört ist. Diese direkten Fehler ziehen eine Reihe an Problemen nach sich. Es kommt zu Betriebsunterbrechungen, um z.b. Papierrollen zu tauschen und Reste der gerissenen Bahn zu entfernen, womit wiederum Wartungskosten und evtl. eine verspätete Auslieferung verbunden sind. Außerdem führen diese Fehler zu einer vermehrten Produktion von Ausschuss und somit zu erhöhten Materialkosten. Das Ziel der Data Mining Analyse ist es also, die Unterbrechungen durch aufgetretene Probleme zu vermeiden oder zu reduzieren. Das bedeutet, dass die Problemursachen identifiziert werden müssen und die Bedingungen, unter denen Unterbrechungen auftreten, aufgedeckt werden müssen. Ist dies geschehen, können zukünftige Prozesse auf diese Bedingungen hin kontrolliert werden, um so rechtzeitig vor Auftreten des Problems korrigierend eingreifen zu können. Ein solcher Eingriff könnte z.b. in der rechtzeitigen Reinigung eines Druckzylinders bestehen. Die konkreten Fragestellungen sind also: Welche Parameter haben Einfluss auf die Ausschussmenge? Welche Regeln zur Verbesserung des Produktionsablaufes im Hinblick auf die Ausschussmenge können aus den Daten abgeleitet werden? Bei der nachfolgenden Beschreibung der Durchführung der Analyse im Enterprise Miner wird davon ausgegangen, dass die Daten schon in einer entsprechend aufbereiteten Form zur Verfügung stehen. Die Aufbereitung der Daten für die unterschiedlichen Verfahren nimmt einen großen Teil der gesamten Arbeit für eine Data Mining Analyse in Anspruch. Die Erfahrung zeigt, dass meist zwei Drittel des Gesamtaufwandes für die Datenaufbereitung 6

verwendet werden, ein Drittel wird für die Durchführung der Analysen und Anpassung der Modelle benötigt. Zur Analyse der Daten im Enterprise Miner wird ein Ablaufdiagramm erstellt, wie in Abbildung 3 dargestellt. Der Enterprise Miner von SAS arbeitet dabei nach der sogenannten SEMMA Methode: Sample, Explore, Modify, Model and Assess. Er bietet die Möglichkeit, die Daten in gewissem Umfang weiter für die nachfolgenden Modelle aufzubereiten. Es können z.b. fehlende Werte ersetzt und Transformationen durchgeführt werden, um die Modellvoraussetzungen zu erfüllen. Die einzelnen Teilabschnitte der Analyse sind im Enterprise Miner in sogenannten Knoten implementiert. Ein Wizard unterstützt jeweils bei der richtigen Anwendung eines solchen Knoten, fragt also die benötigten Parameter und Input-Informationen ab. Die verwendete Datenmenge wird, nach evtl. vorheriger Beschränkung auf eine Stichprobe, in einen Trainings-, einen Validierungs- und einen Testbestand aufgeteilt und fließt so in die zur Verfügung stehenden Modell-Knoten ein. In diesem Beispiel-Ablauf werden Entscheidungsbäume, Neuronale Netze und Regressionen verwendet. Über den Assessment-Knoten kann das Modell, welches die Daten am besten beschreibt, auf einfache Weise ermittelt werden. Abbildung 3: Ablaufdiagramm im SAS Enterprise Miner In die Analyse fließen Variablen wie z.b. die Papiersorte, die verwendete Druckmaschine, das Herstellungs- sowie das Verwendungsdatum der Papierrollen, die Dicke des Papiers, das Gewicht der Rolle, die Anzahl der 7

verwendeten Farben, die Viskosität sowie die Temperatur der Tinte, die Zeit seit der letzten Zylinderreinigung sowie unterschiedlichste Maschinenparameter ein. Zielgröße ist die Menge des entstandenen Ausschusses, wobei eine binäre Zielvariable gebildet wurde, indem eine Ausschussmenge oberhalb eines bestimmten Grenzwertes als auffallend hoch definiert wurde. Beispielhaft werden nachfolgend die Ergebnisse aus der Regression und der Entscheidungsbaumanalyse gezeigt. Abbildung 4: Teilergebnis der Regressionsanalyse im Enterprise Miner Die gefundenen Einflussfaktoren werden nach der Stärke des Einflusses geordnet. Die Farbe der dargestellten Säulen gibt an, ob es sich um einen positiven oder einen negativen Einfluss handelt. Es zeigt sich z.b., dass bei Beimischungen zur Tinte die Ausschussmenge erhöht ist. Entscheidungsbäume haben den Vorteil, dass sie sehr leicht interpretierbar sind. Die gesamte Beobachtungsmenge wird im ersten Schritt bzgl. derjenigen Variablen, die die Gesamtmenge am besten im Hinblick auf die Zielvariable trennt, in zwei oder mehrere Folgemengen unterteilt. Man spricht von einzelnen Knoten, die gebildet werden. Die trennende Variable wird mit Hilfe statistischer Verfahren so ermittelt, dass die Folgeknoten die größte mögliche Homogenität aufweisen. Untereinander sind die Knoten möglichst heterogen. Bezogen auf das Beispiel bedeutet dies, dass ein Folgeknoten entweder besonders viele erfolgreich beendete Druckprozesse beinhalten sollte, oder besonders viele 8

Prozesse mit auffallend hoher Ausschussmenge. Bei der Ermittlung der 2 χ trennenden Variable werden z.b. -Tests oder Heterogenitätsmaße eingesetzt. Anschließend werden die Folgeknoten auf analoge Weise aufgeteilt, so dass eine Baumstruktur entsteht, wie in Abbildung 5 gezeigt. Abbildung 5: Ausschnitt aus dem generierten Entscheidungsbaum Im Gegensatz zur Regressionsanalyse wurde hier einer der Maschinenparameter als Einflussvariable mit der größten Auswirkung auf die Zielvariable Ausschussmenge identifiziert. Zur nächsten Aufteilung wird jedoch die Variable Beimischung zur Tinte herangezogen, die auch bei der Regression als einflussreich ermittelt wurde. Kann keine Variable mehr gefunden werden, die einen Knoten mit einer vorgegebenen Mindestgüte bzgl. der Verminderung der Heterogenität aufteilt, oder befinden sich in einem Knoten nur noch wenige Beobachtungen, so wird dieser Knoten zu einem Endknoten. In verschiedenen Endknoten werden sich zum überwiegenden Teil Beobachtungssätze wiederfinden, bei denen die Ausschussmenge sehr hoch ist. Verfolgt man nun den Weg vom Ursprungsknoten zu einem dieser Endknoten, so lassen sich zum einen die Eigenschaften der Prozesse ablesen, die zur vermehrten Ausschussproduktion geführt haben. Zum anderen erhält man auf diese Weise unmittelbar eine Kombination von Regeln, die sich in Form einfacher If-Then- Abfragen auf die online gesammelten Daten eines neuen Prozesses anwenden lassen. 9

6 Zusammenfassung Industrielle Prozesse liefern gute Voraussetzungen für den Einsatz von Data Mining Methoden, da in der Regel sehr umfangreiche Datenbestände zur Verfügung stehen. Oft werden bisher nur einzelne Werte stichprobenhaft kontrolliert, was bei Problemen wegen der verspäteten Eingriffsmöglichkeit und der prozessbedingten Totzeit zu hohen Ausschussmengen führt. Meist sind die Prozesse so komplex, dass aufgetretene Fehler nicht reproduzierbar und daher auch nur schwer analysierbar sind. In diesen Fällen bietet sich der Einsatz von Data Mining Methoden an, da sie in der Lage sind, eine sehr große Anzahl an Einflussvariablen samt komplexer Abhängigkeitsstrukturen zu berücksichtigen. Literaturhinweise: 1. Berry, M.J.A. und Linoff, G. (1999). Mastering Data Mining: The Art and Science of Customer Relationship Management, Wiley, New York. 2. Berry, M.J.A. und Linoff, G. (1997). Data Mining Techniques for Marketing, Sales and Customer Support, Wiley, New York. 3. Wang, X.W. (1999). Data Mining and Knowledge Discovery for Process Monitoring and Control, Springer, Heidelberg. 4. Jenke, K., Schäfer, L., Schmitz, D. und Thran, D. (2001). Rätselhaften Fehlern auf der Spur, in QZ Jahrg. 46 (2001), Carl Hanser Verlag, München. 10