Prozessoptimierung durch Datenanalyse und -prognose mit R in der Praxis

Ähnliche Dokumente
Robotron Datenbank-Software GmbH

Big Data als neuer Partner von Six Sigma Optimierung der diskreten Produktion

Übungsblatt 1. f(n) = f(n) = O(g(n)) g(n) = O(f(n)) Zeigen oder widerlegen Sie: 3 n = Θ(2 n ) Aufgabe 1.2 Gegeben sei die folgende Funktion:

LCD-Verwaltungssoftware LCD-VSW

TEIL 13: DIE EINFACHE LINEARE REGRESSION

Kinderschutzsoftware (KSS) für

TEIL 13: DIE LINEARE REGRESSION

Elemente der Stochastik (SoSe 2016) 9. Übungsblatt

Die Korrelation von Merkmalen

Einrichtung Exchange 2010 mit Outlook 2007:

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Binomialverteilung und Bernoulli- Experiment

Benutzerhandbuch EMAS-LogoGenerator

Klassifikation im Bereich Musik

Ü b u n g s b l a t t 15

MBT RAT Risk Assessment Tool Maschinenrichtlinie 2006/42/EG kostenlose Risi

1.003 Befragte im Alter von 18 bis

PC-Kaufmann 2014 Endgültiger Jahresabschluss im Komplettpaket/-Pro

Das Simplexverfahren

Prognose von Kostenschwankungen mit Predictive Analytics DOAG 2016

Hinweise für das Anlegen von Stammdaten Gesteinskörnungen

Verteilungsfunktionen (in Excel) (1)

Statistikmodul. Programmbeschreibung

Wir sollen erarbeiten, wie man mit Hilfe der Mondentfernung die Entfernung zur Sonne bestimmen kann.

Diskrete und Kontinuierliche Modellierung

Optimierung von Komponenten durch Parametervariation - die neuen Features von T*SOL Expert

Inhalt OpenOffice Writer: Grafik und Tabelle

Access für Windows. Andrea Weikert 1. Ausgabe, Oktober Grundlagen für Anwender

Methodik der multiplen linearen Regression

DB Hackday Datenqualität von ausgewählten Open Data Quellen und Möglichkeiten zur Verbesserung

Applikationsbeschreibung Step Test anhand einer Anwendung in Watford, England

a) Nennen Sie die verschiedenen Ebenen der amtlichen Statistik in Deutschland und die dafür zuständigen Behörden.

APEX & SQL The Reporting Solution. Tobias Arnhold Tobias Arnhold IT Consulting Heppenheim

Nutzung der Oracle Database InMemory Option für SAP BW

Messung der Wärmekapazität von Nieten

Polte, Galina; Rennert, Klaus-Jürgen; Linß, Gerhard: Korrektur von Abbildungsfehlern für optische Messverfahren

Arbeitshilfe für die Hinterlegung von Unterlagen der Rechnungslegung Eingabeformular

Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion

Was gibt s Neues? SimPlaPro und mehr. SimPlaPro - eine runde Sache

Räume buchen mit Outlook Bedienungsanleitung

Elektronisches Grundbuch Baden-Württemberg

Prozessmanagement nach dem Prinzip von Angebot und Nachfrage

Mittelwertvergleiche, Teil I: Zwei Gruppen

Nutzung maschinellen Lernens zur Extraktion von Paragraphen aus PDF-Dokumenten

econn Lieferantenportal der MANN+HUMMEL Gruppe

Ausgabe von Word-Serienbriefen mit SchILD-NRW

POCKET POWER. Qualitätssicherung Produktionsprozess

Wäge- und Dosiersysteme. FAQs SIWAREX WP251

-Abwesenheitsnachricht einrichten

MindSphere Siemens Cloud for Industry siemens.de/mindsphere

Anleitung. Mooy Logistics Servicedesk. Version: 1.2 Date:

Gegeben sei folgende zweidimensionale Wahrscheinlichkeitsdichtefunktion zweier Zufallsvariablen. 0 sonst.

Performance-Vergleich zwischen InterSystems Caché und Oracle in einer Data-Mart-Applikation

Mathematische Funktionen

Oft gestellte Fragen. Fragen zum Informationswerkzeug Identify Wie kann ich gespeicherte Merkmale abfragen? Wie exportiere ich Tabellen in Excel?

4 Gestalten von Abschnitten

!!!! !!!!!! Blutdruckwerte

Kurzanleitung. leicht gemacht! Haufe Mediengruppe. Haufe. Business Software. Optimale Vorbereitung für Bankgespräche nach Basel II

Auswertung P2-10 Auflösungsvermögen

Brainloop Secure Courier - Kurzanleitung

lobodms.com loboreb Rechnungseingangsbuch

Erstellen von 3D-Videos in VideoWave Leicht gemacht einfach

Anwenderleitfaden zum elektronischen Formular ebiomeld

Dynamische Temperaturmessung Teil 1

2.4 - Das Verwaltungsmodul moveon installieren - MS Access Version

Upgrade G Data AntiVirus Business v6 auf v11

Praktikum Ingenieurinformatik. Termin 5. Felder (Vektoren, Arrays), verschachtelte Schleifen

Testprotokoll. Index: SWP12-6. Protokollführer: Thilo Lippold Experimentator: Steve Loth, Thilo Lippold

Wahrscheinlichkeitsverteilungen

Deskriptive Statistik Kapitel IX - Kontingenzkoeffizient

1. Windows XP. Technische Einstellungen für die Katalogisierung mit Originalschriften

Synchronisation eines HTC Smartphones mit Android

Kapitel 1: Deskriptive Statistik

Wir danken Ihnen, dass Sie einen GYMBOSS minimax Interval Timer gekauft haben.

Künstliche Neuronale Netze (KNN)

Relationen / Lineare Funktionen

TimeSafe Leistungserfassung. Version 3.8 (März 2010)

Version 6.1 Personalization Guide

Simulation eines radioaktiven Zerfalls, Zerfallsfunktionen

BENUTZERHANDBUCH CIRCLES UND VERFÜGBARKEITEN

Projekt Systementwicklung

Fähigkeitsnachweis bei Spritzgießmaschinen VDMA Teil 2: Nachweis der Kurzzeitfähigkeit. Bedienungsanleitung zum Excel-Programm

PHP 5.6. Grundlagen zur Erstellung dynamischer Webseiten. Stephan Heller. 1. Ausgabe, März 2015 ISBN: GPHP56

1 Aufgabenstellung Messbedingungen Messgeräte und Hilfsmittel Messobjekt Durchführung der Messung...4

Übungsaufgabe Parameter und Verteilungsschätzung

Lösung Aufgabe 1 (Regression) Es wurden in einer Befragung zwei metrische Merkmale X und Y erhoben. Betrachten Sie dazu die

Eine Zusammenfassung zum Einlesen von Garmin-Geräten

Praktikum Computational Intelligence 2 Ulrich Lehmann, Johannes Brenig, Michael Schneider

ONLINE - WUNSCHLISTE

Tutorial für Lehrpersonen In Motion - Technisches Museum Wien

Migration eines Instmail Kontos zu Exchange. Schritt 1 - Einrichtung des Exchange Kontos in Outlook

Gemischt-ganzzahlige und Kombinatorische Optimierung

Anbindung eines ZyXEL Speedlink 5501

1. Dialogerklärung. Neuer Aufbau des und zusätzlich die Paketübersicht im neuen Kundenportal. 1.1 Allgemeiner Aufbau

Der WPA-Monitor D O K U M E N T A T I O N P C - T O P P. N E T

Definition der Entropie unter Verwendung von supp(p XY )

Suchmaschinen- optimierung (SEO)

Supervised & Unsupervised Machine Learning

Transkript:

Prozessoptimierung durch Datenanalyse und -prognose mit R in der Praxis Simon Hofinger Robotron Datenbank-Software GmbH Berlin Schlüsselworte Business Intelligence, Datenanalyse, Prozessdatenanalyse, Prozessoptimierung, R, ROracle Einleitung Dieser Vortrag erläutert und demonstriert anhand eines Beispiels aus der Automobilzulieferindustrie, wie mithilfe der Analyse von Prozessdaten eine Prozessoptimierung in der Herstellung von Sensoren erreicht werden konnte. Für die Datenanalyse wurde die Open-Source-Statistiksoftware R und ROracle eingesetzt. Ausgangslage Das Ziel des Projektes war es die Anzahl an Messpunkten zu reduzieren die dazu notwendig sind, die hergestellten Sensoren zu kalibrieren und damit voll funktionstüchtig zu machen. Bei einem Messpunkt handelt es sich hierbei um eine vorgegebene Position der Kalibrierungseinrichtung. Diese Positionen werden für jeden Sensor durchlaufen und dabei jeweils die dortigen Messwerte aufgezeichnet. Insgesamt gab es über fünfhundert verschiedene Messpunkte an denen jeweils Daten zum dortigen magnetischen Fluss erhoben wurden. Diese wurden anschließend an eine Software übergeben, welche mit Hilfe eines komplizierten Rechenverfahrens die Werte zur korrekten Programmierung der Mikrochips auf den Sensoren ermittelte. Vorgehen Der Weg um eine Reduzierung der Messpunkte zu erreichen verlief über die Analyse historischer Messdaten und den daraus errechneten Werten zur Programmierung der Mikrochips. Eine vorangestellte Analyse der Daten ergab, dass man die Anzahl der betrachteten Werte, welche für jeden Sensor variabel und folglich von den Messungen abhängig waren, auf 10 beschränken konnte. Das konkrete Ziel war damit, diese zehn Werte auf Basis der Messdaten mit Hilfe von Data Mining prognostizieren zu können. Vom Unternehmen wurden dafür Datensätze zu mehreren zehntausend bereits produzierten und kalibrierten Sensoren zur Verfügung gestellt. Diese enthielten jeweils die Messungen an allen Messpunkten und einige aus der Produktion der Sensoren stammenden Werte. Insgesamt waren somit über 50 Millionen Messung vorhanden. Über die Eingabe aller Daten in die bisher verwendete Software wurden die Sollwerte für die zehn Zielvariablen pro Sensor ermittelt. Letztlich sollten für die Prognosen dieser Werte die Daten aus möglichst wenigen Messpunkten ausreichen. Zur Bewältigung dieser Aufgabe wurde in der Modellierungsphase des Data-Mining-Prozesses anhand der statistischen Programmiersprache R ein Algorithmus implementiert, welcher diese Daten selbstständig auswertet. Er soll zuerst den aussagekräftigsten Messpunkt zur Prognose der Zielwerte bestimmen und anschließend den Messpunkt finden der, in Kombination mit dem ersten Messpunkt, nun am meisten Aussagekraft mit sich bringt. So sollen iterativ Messpunkte hinzugefügt werden, bis mit Hilfe der daraus stammenden Messungen die Zielwerte ausreichend gut prognostiziert werden können. Im Folgenden wird die Funktionsweise des Algorithmus im Detail erläutert.

Messpunkt validieren Messpunktidentifikation Prozessdaten bereitstellen Messpunkt Zielvariable weitere Zielvariable vorhanden Regressionsmodell erstellen und anwenden weiterer Messpunkt vorhanden Abweichung ermitteln Besten Messpunkt Prognosegüte prüfen Hinzufügen des Messpunktes zur optimalen Kombination Abb. 1: Prozessdiagramm zur Messpunktidentifikation Zuerst erhält der Evaluierungsalgorithmus Zugriff auf die vorbereiteten Prozessdaten. Dazu wird das ROracle-Paket geladen und eine Verbindung zur Datenbank hergestellt. Nach einer Synchronisierung können die Tabellen referenziert oder, wie im folgenden Beispiel, in R kopiert werden. library(ore) ore.connect(user="user1",sid="sid1",host="localhost", password="***", port=1521) ore.sync() messpunkte_ore <- ore.get("messpunkte") messungen_ore <- ore.get("messungen") zielwerte_ore <- ore.get("zielwerte") Daraufhin wird ein Messpunkt mitsamt den daraus stammenden Messwerten zur Evaluierung ausgewählt. Da insgesamt zehn Zielwerte zu prognostizieren sind, wird die Analyse vorerst auf den Ersten eingeschränkt. Im nächsten Schritt wird auf Grundlage der Messungen und der zugehörigen Ausprägungen des gewählten Zielwertes ein Regressionsmodell geschätzt. Dieses Modell hat das Ziel anhand der hier übergebenen Messungen die gewählten Zielwerte möglichst genau prognostizieren zu können. Der folgende R-Codeausschnitt verdeutlicht die Verschachtelung der verschiedenen Schleifen. for(durchlauf in 1:anzahl_durchlaeufe){ for(messpunkt in 1:anzahl_messpunkte){ for(zielwert in 1:zielwerte){ for(i in 1:10){ glm_modell <- glm(formel, family=gaussian(link="identity"), data=trainingsdaten)

Um die vorhandenen Daten optimal zu nutzen und die Ergebnisse zuverlässig validieren zu können wird dieser Vorgang im Rahmen einer 10-fachen Kreuzvalidierung zehnmal wiederholt. Dabei werden jeweils 90% der Daten als Trainingsdaten dafür verwendet das Modell zu schätzen. Auf die restlichen 10% der Daten, welche sich bei keinem der zehn Durchgänge überschneiden, wird das Modell angewendet und die dabei prognostizierten Zielwerte mit den Sollwerten verglichen. Abb. 2: 10-fache Kreuzvalidierung Über dieses Validierungsverfahren werden die Abweichungen der Prognosen von den Sollwerten und damit anschließend die Güte des Modells berechnet. Im Detail werden hierbei die Quadratfehlersummen durch die Standardabweichung und die Anzahl der Sensoren geteilt. Danach werden alle übrigen Zielwerte auf die gleiche Art und Weise behandelt und abschließend daraus mit folgender Formel ein für den Messpunkt aggregiertes Gütemaß berechnet. Abb. 3: Formel zum Gütemaß An dieser Stelle ist der aktuelle Messpunkt vollständig evaluiert und es kann zum Nächsten übergegangen werden. Nachdem für alle Messpunkte die aggregierten Gütemaße berechnet wurden kann aus Ihnen derjenige mit dem niedrigsten Gütemaß und somit der Beste bestimmt werden. Dieser Messpunkt gehört nun zur optimalen Kombination von Messpunkten und die daraus stammenden Messungen werden bei den folgenden Durchläufen des Prozesses jedem zu evaluierenden Messpunkt hinzugefügt. Im Rahmen dieser Forward-Selection wird nun nacheinander der jeweils beste Messpunkt gewählt bis das aggregierte Gütemaß die gewünschte Prognosegüte erreicht hat. Während

anfangs der Informationsbeitrag jedes neuen Messpunkts die Prognosequalität stark verbessert ist schon beim fünften Messpunkt kaum noch eine Verbesserung zu beobachten. Das Ergebnis des Analyseverfahrens ist folglich die zuletzt verwendete optimale Kombination von Messpunkten. Abb. 4: Verbesserung des Gütemaßes Zur Modellbildung wurden unter anderem folgende statistische Verfahren getestet: Generalisierte Lineare Modelle, Neuronale Netze, Support Vector Machine und Random Forest. In diesem Projekt haben sich, je nach Zielvariable, verschiedene Variationen und Kombinationen der generalisierten linearen Modelle und Random Forest als optimal erwiesen. Einen wichtigen Beitrag hierbei lieferte die Erzeugung von zusätzlichen Merkmalen durch die Quadrierung der Messwerte und das Bilden von Verhältnissen der Messwerte zueinander. Um ein Overfitting durch die große Anzahl an erzeugten Merkmalen zu verhindern wurden anschließend durch eine Variablenselektion diejenigen ohne Einfluss herausgefiltert. Um die Anfälligkeit der Prognosemodelle für Fehler durch Änderungen im Produktionsprozess zu reduzieren, wurden die Daten von drei verschiedenen Losen verwendet. Die Modelle wurden mit den beiden älteren Losen erstellt und anschließend mit den beiden neueren evaluiert. Trotz dieser Erschwerung der Aufgabe konnten mit nur sieben der ursprünglich über fünfhundert Messpunkte in 98,7% der Fälle die Sensoren genauso programmiert werden wie es das bisher verwendete Computerprogramm vorgab. Nach abgeschlossener Evaluierung konnte ein für den praktischen Einsatz bestimmtes Prognosemodell erstellt werden, welches alle verfügbaren Daten zum Training verwendete. Ergebnis Der Datenanalyse-Prozess bringt schlussendlich zwei evaluierte Ergebnisse hervor. Einerseits konnte ein Erklärungsmodell für den Prozessschritt der Sensorkalibrierung unter Verwendung von nur sieben der einst 500 Messpunkte erzeugt werden. Andererseits entstand ein vollständig anwendbares Prognosemodell zur direkten Integration in die Prozesssteuerung. Das erzeugte Erklärungsmodell

beinhaltet alle relevanten Einflussgrößen (sieben Messpunkte) und deren Wirkungsbeziehungen (Prognosemodell) zur qualitätsgerechten Bestimmung der zehn Zielvariablen. Kontaktadresse: Simon Hofinger Robotron Datenbank-Software GmbH Albert-Einstein-Straße 16 D-12489 Berlin Telefon: +49 (30) 26-39292 437 Fax: +49 (30) 26-39292 955 E-Mail simon.hofinger@robotron.de Internet: www.robotron.de