Industrie 4.0 und Smart Data

Größe: px
Ab Seite anzeigen:

Download "Industrie 4.0 und Smart Data"

Transkript

1 LEITFADEN Industrie 4.0 und Smart Data Die Welt der großen Datenmengen in Unternehmen Neue Möglichkeiten zur Erfassung und Auswertung großer Datenmengen am Beispiel der Qualitätssicherung von Konsumgütern

2 Inhaltsverzeichnis 1 Einführung 3 2 Anwendungsbeispiele 4 3 Grundlagen 7 4 Werkzeuge für die Datenanalyse 14 5 Verwaltung von Daten in Datenbanken 19 6 Informationsvisualisierung 25 7 Akzeptanz und Vertrauen: Mensch Maschine Smart Data 27 8 Implementierung der Technologien im betrieblichen Umfeld 28 9 Quellen und Anmerkungen 30 2

3 1 Einführung In den letzten Jahren werden zunehmend Technologien eingesetzt, die eine automatische Akquisition von Daten ermöglichen. Diese Technologien unterstützen die Erhebung und Auswertung nahezu beliebig großer Datenmengen, im Unterschied zur klassischen manuellen Erfassung. Dies betrifft beispielsweise alle relevanten Informationen zur Bewertung komplexer Situationen, indem mithilfe geeigneter Indikatoren derlei Situationen nicht nur in Echtzeit bewertet, sondern auch Prognosen erstellt werden können. Wesentlich für diese Technologien ist dabei die Verarbeitung großer Datenmengen in kurzen Zeiträumen, um die Aktualität der daraus folgenden Ergebnisse sicherstellen zu können. Die wichtigste Herausforderung ist dabei der Umgang mit unstrukturierten Daten, die bisher durch manuelle Erfassung in eine geeignete strukturierte Form gebracht wurden, um sie auszuwerten und weiterzuverarbeiten (siehe Abschnitt Grundlagen, S. 7). Die besonderen Herausforderungen, die sich beim Erfassen, Verwalten und Auswerten großer Datenmengen ergeben, werden unter dem Begriff Smart Data zusammengefasst. Folgende Kriterien sind unter anderem dafür charakteristisch (3V-Definition): Volume Es fallen sehr große Datenmengen an. Velocity Die Daten müssen unter engen zeitlichen Rahmenbedingungen ausgewertet werden. Variety Sehr unterschiedliche Typen von Daten müssen ausgewertet werden. Neben klassischen strukturierten Daten sind eventuell auch unstrukturierte Daten zu berücksichtigen. Als viertes Kriterium wird in einigen Fällen mit Veracity noch der Umgang mit unzuverlässigen oder ungenauen Daten benannt. Insbesondere die Ableitung strukturierter aus unstrukturierten Daten kann zu falschen oder ungenauen Informationen führen. Dieser Leitfaden gibt einen Überblick über die neuen Möglichkeiten zur Erfassung und Auswertung großer Datenmengen. Zielgruppen sind mittelgroße und große Unternehmen, deren IT-Leiter und -Abteilungen sich zunehmend mit diesem Thema auseinandersetzen. Ähnliches gilt für Geschäftsführer, Entwickler und Mitarbeiter von IT-Dienstleistern, die ihren Kunden diese neue Technologie näherbringen. Gerne können Sie uns in dem Zusammenhang auch direkt ansprechen. Zunächst stellen wir die Möglichkeiten von Smart Data anhand einiger Anwendungsbeispiele dar. Danach folgt ein Überblick über die besonderen Herausforderungen an die IT-Infrastruktur. Zum besseren Verständnis dieser Herausforderungen präsentieren wir Grundlagen bezüglich der Verwaltung und Analyse von Daten. Danach folgen Abschnitte, die sich mit der Erfassung, Verwaltung, Analyse und Visualisierung sehr großer Datenmengen beschäftigen. 3

4 2 Anwendungsbeispiele Smart Data-Technologien wurden ursprünglich für Suchmaschinen, soziale Netzwerke sowie große Online-Shops entwickelt. Durch das schnelle Wachstum des Internets und der stetig steigenden Zahl an Servern und Anwendern galt es, sehr große Datenmengen zu bewältigen. Zu den damit verbundenen Herausforderungen zählten: Die Suche in sehr großen Datenbeständen Die Aufnahme von Daten einer Vielzahl parallel arbeitender Anwender Die Analyse großer Datenmengen, zum Beispiel zur Ableitung von Nutzerprofilen Zu diesem Zweck wurden existierende Technologien weiterentwickelt und durch neue Konzepte ergänzt. Dazu gehören beispielsweise neue Datenbankkonzepte (NoSQL, NewSQL), die parallele Verarbeitung von Daten in Clusterrechnern sowie neue Methoden des maschinellen Lernens, um automatisiert Zusammenhänge in Daten erkennen zu können. In den letzten Jahren haben diese Technologien und Konzepte auch zunehmend Anwendung im betrieblichen oder öffentlichen Umfeld gefunden: Verbesserte Absatzprognosen durch eine möglichst vollständige Erfassung aller Einflussfaktoren. Dazu gehören Faktoren wie Eigenschaften oder Bewerbungsgrad der Artikel sowie Informationen aus dem Umfeld (beispielsweise Eigenschaften von Konkurrenzprodukten, Wetterdaten oder auch die Jahreszeit). Eine solche Lösung der Otto Gruppe wurde mit dem Deutschen Innovationspreis 2014 ausgezeichnet. 1 4

5 Für das Verkehrsmanagement werden in verschiedenen Regionen Wetterdaten und Verkehrsdaten erfasst, auf deren Basis Prognosen für die Verkehrslenkung erstellt werden. Die Verkehrsdaten werden etwa von spezialisierten Sensoren geliefert (z. B. mittels Induktionsschleifen, Radarmelder, etc.), sowie von GPS-Modulen (wie sie auch in Smartphones enthalten sind), von Unfall- und Staumeldungen sowie von Videokameras. Ein integriertes System dieser Art wurde unter Beteiligung der KTH Royal Institute of Technology sowie der International Business Machines Corporation (IBM) in Stockholm aufgebaut. Dieses wertet neben anderen Daten aktuell auch anonymisierte GPS-Positionen pro Sekunde von Handybesitzern aus. 2 Zur Untersuchung der Nebenwirkungen von Medikamenten sowie der Patientenzufriedenheit mit Behandlungsmethoden können Daten aus Internet-Foren, sozialen Netzwerken sowie aus Blogs genutzt werden. Entsprechende Dienstleistungen bietet zum Beispiel das Unternehmen Treato Ltd an. 3 Erkennen von Betrugsversuchen bei finanziellen Transaktionen. Dazu werden Informationen in Datenbanken anhand von Parametern wie Art, Höhe, Ziel und Ort sowie Frequenz der Transaktionen hinsichtlich typischer Muster analysiert, die auf Betrugsversuche hinweisen. Entsprechende Software und Dienstleistungen werden unter anderem von der Paymint AG für Kreditkartentransaktionen angeboten. 4 Betrachten wir nun etwas ausführlicher ein Beispiel im Zusammenhang mit der Qualitätssicherung von Konsumgütern und den damit verbundenen Herausforderungen: Konsumgüter werden in einem Unternehmen auf unterschiedlichen Anlagen produziert. Aufgrund großer Stückzahlen ist die betriebsinterne Qualitätssicherung nur über Stichproben möglich. So kommt es immer wieder vor, dass fehlerhafte oder defekte Produkte an Kunden ausgeliefert werden. Diese können per , bei Nennung der Auftragsnummer sowie einer kurzen Fehlerbeschreibung Ersatz anfordern. Zur Verbesserung wird ein System aufgebaut, das möglichst vollständig relevante Daten erfasst, die einerseits die Qualität der Produkte beeinflussen und andererseits Informationen über die Produktqualität liefern: 1. Die Produktionsanlagen werden mit Sensoren ausgestattet, die verschiedene Daten erfassen: Beispielsweise Stromverbrauch, Temperatur oder den Betriebsmodus. Diese Daten dienen dazu, den Verschleiß der Anlagen sowie dessen Auswirkungen auf die Qualität der Produkte zu analysieren. Da in unserem Beispiel eventuell auch kurze Verbrauchsspitzen relevant sein können, werden diese Daten im Millisekundentakt erfasst. 5

6 2. Zur Unterstützung der Auswertung dieser Daten stellt das Unternehmen zusätzlich Informationen aus betrieblichen Datenbanken zur Verfügung. Dazu gehören zum Beispiel die Zuordnung von produzierten Gütern zu Anlagen im zeitlichen Verlauf sowie Informationen zur Wartung dieser Anlagen. 3. Die Ergebnisse der untersuchten Stichproben werden mit den erfassten Betriebsdaten verglichen und daraus Beziehungen zwischen Verschleiß, Wartung und Qualität der Produkte abgeleitet. 4. Aus den Kunden- s werden mit Hilfe der Bestellnummer die zugehörigen Produkte bestimmt und Probleme im Zusammenhang damit ebenfalls mit den Betriebsdaten in Beziehung gesetzt. Neue Konzepte und IT-Strukturen Für die Auswertung dieser Daten existieren verschiedene Herausforderungen, die sich mit einer klassischen IT-Infrastruktur in der Regel nicht lösen lassen. So werden beispielsweise pro Tag Verbrauchswerte erfasst, die nicht nur gemeinsam mit anderen Werten gespeichert, sondern zusammen mit Temperaturen und Betriebsmodi zur Ableitung des Verschleißes aggregiert werden müssen. Dies gilt insbesondere für größere Intervalle. So könnte etwa der Verschleiß mit Hilfe der Summe von gewichteten Verbrauchswerten berechnet werden, wobei die Gewichtung aus der zugehörigen Temperatur und dem entsprechenden Betriebsmodus abgeleitet wird. Sollen für diese Berechnung alle Daten der vergangenen 100 Tage berücksichtigt werden, dann müsste das System 25,92 Milliarden Werte in diese Rechnung mit einbeziehen. Eine konventionelle Datenbank wäre mit der Bereitstellung dieser großen Datenmenge für eine interaktive Anwendung mit Antwortzeiten im Sekundenbereich überfordert. Entsprechend werden für solche Aufgabenstellung neue Datenbankkonzepte genutzt (NoSQL, NewSQL). Eine weitere Herausforderung in diesem Kontext ist die Nutzung von s: Bereits deren automatisierte Zuordnung ist mit klassischen Ansätzen nicht unmittelbar möglich. Noch schwieriger gestaltet sich die Ableitung des tatsächlichen Problems aus einer . Zu den wesentlichen Ansätzen zählt es daher, strukturierte Daten aus unstrukturierten Texten abzuleiten, um diese beispielsweise mit Betriebsdaten zu verknüpfen. Wesentlich für die Analyse der Beziehungen zwischen Produktqualität sowie Betrieb und Wartung der Anlagen ist das Erkennen von Abhängigkeiten zwischen verschiedenen Parametern. Diese Abhängigkeiten stellen in der Regel keine feste Beziehung dar, sondern sind eher statistischer Natur. Sie lassen sich durch eine Wahrscheinlichkeitsverteilung repräsentieren. So kann eventuell eine Wahrscheinlichkeit für ein defektes Produkt bestimmt werden, abhängig von der Temperatur in einer Anlage, ohne tatsächlich einen zwingenden Zusammenhang herzustellen (also nicht: Bei einer Temperatur unter 50 Grad treten keine Defekte auf ). Eine klassische manuelle Analyse solcher Abhängigkeiten ist durch die große Anzahl unterschiedlicher Parameter in einem betrieblichen Umfeld in der Regel zu aufwändig. Daher kommen zunehmend moderne Methoden des statistischen Lernens zum Einsatz, mit denen das Auffinden solcher Abhängigkeiten automatisiert werden kann. 6

7 3 Grundlagen 3.1 Automatisierte Erfassung von Daten Die automatisierte Erfassung von Daten vermeidet den Flaschenhals bei manueller Dateneingabe. Damit lassen sich mehr Daten für mehr Details sowie für eine höhere zeitliche Auflösung erfassen. Ein wesentlicher Vorteil ist außerdem die Aktualität der automatisch erfassten Daten. Bei entsprechender Organisation ist damit sogar die Bereitstellung von Daten in Echtzeit möglich. Eine typische Datenquelle in diesem Zusammenhang sind Sensoren in Anlagen, mit denen sich automatisch Daten erfassen lassen. Ein anderes Beispiel sind RFID-Tags oder NFC-Tags, die automatisch Objekte erkennen. Grundsätzlich lässt sich dies auch über Barcodes erreichen. Allerdings ist hier in der Regel ein manueller Eingriff nötig, um den Leser oder das Objekt in eine entsprechende Position zu bringen. Für die Positions-Erkennung sind GPS-Module heute weit verbreitet. Die Positionsdaten lassen sich auch über drahtlose Netzwerke übertragen, sodass zum Beispiel die Position von Fahrzeugen erfasst werden kann. Die Erfassung von Objektpositionen in Gebäuden ist etwas aufwändiger, da häufig GPS-Signale durch die Gebäudestruktur abgeschirmt werden. Eine Alternative sind zum einen WLAN-basierte Ortungssysteme. Eine andere Option wären RFID-Tags mit großer Reichweite. 7

8 Dabei erfassen Ortungssensoren diese Objekte und können damit zumindest grob deren Position abschätzen. Die bisher dargestellten Möglichkeiten liefern direkt strukturierte Daten, die unmittelbar weiter verarbeitet werden können. Deutlich häufiger sind allerdings unstrukturierte Daten wie Texte, Bilder, Video- oder Audiodaten. Aus diesen müssen zunächst strukturierte Daten abgeleitet werden, um sie mit anderen Daten verknüpfen zu können. Im folgenden Abschnitt wird das Thema strukturierte und unstrukturierte Daten genauer erläutert. Wesentlich für die automatische Erfassung von Daten sind zuverlässige drahtgebundene oder drahtlose Computernetzwerke mit ausreichender Bandbreite. Erst die flächendeckende Verfügbarkeit solcher Netzwerke ermöglicht eine automatisierte Erfassung. Tatsächlich ist das Internet nicht nur die Basisinfrastruktur für die Vernetzung, sondern auch eine immer wichtigere Datenquelle. Dazu gehören zum Beispiel Kundenbewertungen oder Produktankündigungen von Konkurrenten, einschließlich deren Beschreibungen. Interessant, etwa für Einkauf oder Vertrieb, sind auch unterschiedliche Nachrichtenquellen, die Kontextinformationen über Märkte liefern. In Zukunft wird das Internet noch stärker für die Kommunikation zwischen Geschäftspartnern genutzt werden. So ließe sich bereits heute die gesamte Korrespondenz darüber abwickeln. Mit der Verwendung sogenannter digitaler Signaturen wäre die Zuordnung von Briefen oder Dokumenten zu Personen und Organisationen sogar deutlich zuverlässiger möglich als mit einer klassischen Unterschrift. Ein weiterer großer Vorteil: Die erhaltenen Briefe oder Dokumente liegen sofort in digitaler Form vor, ohne manuellen Scanvorgang. 3.2 Strukturierte versus unstrukturierte Daten Die zentrale Herausforderung für die automatisierte Erfassung von Daten ist die Nutzung sogenannter unstrukturierter Daten. Zum besseren Verständnis dieser Herausforderung zunächst eine Erläuterung, was strukturierte Daten eigentlich sind: Strukturierte Daten sind wichtig für die Konstruktion von Programmen, da sie dem Software-Entwickler helfen, aus gespeicherten Daten relevante Angaben zu identifizieren und in seinem Programm zu verknüpfen. Betrachten wir dazu das einfache Beispiel einer Datenbank, bei der Angestellte über Personalnummer, Personenname, Alter und Monatsgehalt sowie Produkte über Produktnummer, Produktname und Preis beschrieben werden. Der Entwickler soll nun ein Programm realisieren, das die Namen aller Angestellten zusammen mit dem Monatsgehalt ausgibt. Dabei soll die ausgegebene Liste aufsteigend nach dem Gehalt sortiert sein (kleinstes Gehalt zuerst). Die Datenbank enthält jetzt viele Namen und Zahlen, die allerdings sehr unterschiedliche Bedeutungen haben. So sind für diese Anfrage nicht die Produktnamen von Interesse. Bei den Zahlen haben wir noch mehr Möglichkeiten. Hier müssen wir sicherstellen, dass das Programm zum Beispiel 8

9 nicht den Preis von Produkten berücksichtigt, sondern nur das Gehalt von Personen. Allerdings werden auch Personen durch unterschiedliche Zahlen beschrieben, wie zum Beispiel durch das Alter oder das Monatsgehalt. Auch hier ist es wichtig, die richtige Zahl für eine Person zu berücksichtigen. Insgesamt brauchen wir für jeden gespeicherten Wert also folgende Zusatzinformation: Auf welches Objekt bezieht sich ein Wert? In unserem Beispiel kann dies entweder eine Person oder ein Produkt sein. Im Allgemeinen spricht man in der Informatik von einer Entität. Mit diesem Begriff können auch abstrakte Objekte, wie zum Beispiel eine Rechnung erfasst werden. Für eine Entität existieren eventuell Werte mit einem identischen Datentyp, die jedoch eine unterschiedliche Rolle spielen. So kann in unserem Beispiel eine Zahl entweder das Alter oder das Gehalt einer Person darstellen. Entsprechend muss bei einer Zuordnung eines Wertes noch die Art der Beziehung zur Entität geklärt werden. Entsprechend können für eine Person Attribute wie Alter und Gehalt existieren, wie beispielsweise die Werte 35 und Grundsätzlich besteht auch die Möglichkeit, zwei Entitäten über eine Relation in Beziehung zueinander zu setzen. So kann eine Person zum Beispiel in der Beziehung Eigentümer zu einem Kraftfahrzeug stehen. Die klassische Welt der Informationsverarbeitung verwaltet grundsätzlich atomare Informationseinheiten, die jeweils aus drei Komponenten bestehen (Tripel). Dieses Tripel besteht aus einer Entität (z. B. eine Person), die über eine Beziehung (z. B. Gehalt oder Eigentümer) mit einem Wert (z. B. Zahl) oder einer anderen Entität (z. B. Kraftfahrzeug) verknüpft ist. Die nebenstehende Abbildung zeigt solche atomaren Informationen in grafischer Form. Diese Art der Informationsverwaltung ermöglicht die einfache Verarbeitung und Verknüpfung von Daten auch aus sehr unterschiedlichen Quellen. Wesentliche Voraussetzung dafür ist allerdings häufig eine manuelle Vorverarbeitung, da die verfügbaren Daten in der Regel noch nicht die dafür notwendige Form aufweisen. Person Person Gehalt Eigentümer Zahl Kraftfahrzeug Beispiele für atomare Informationen (Quelle: Eigene Darstellung). Wesentliche Daten zu einer Person können ursprünglich in Textform vorliegen, etwa bei einem Arbeitsvertrag. Dieser enthält den Namen einer Person, dessen Geburtsdatum sowie das Gehalt. Allerdings tauchen diese Daten nicht an definierten Stellen im Vertrag auf. Entsprechend hat der Vertragstext keine ausreichende Struktur, um diese Daten unmittelbar extrahieren, verarbeiten und mit anderen Daten verknüpfen zu können. 9

10 Grundsätzlich existieren natürlich schon seit geraumer Zeit Systeme, die auch solche Dokumente effizient verwalten können. Ein typischer Zugriff darauf ist über eine Volltextsuche möglich, bei der Anwender einen oder mehrere Begriffe eingeben. Ein Anwender könnte beispielsweise Vor- und Nachname einer Person angeben, um deren Arbeitsvertrag zu finden. Allerdings liefert die Suche dann nur jene Verträge, die den eingegebenen Namen an beliebiger Stelle enthalten. Der in dem Text gefundene Name könnte sich allerdings auch auf einen Mitarbeiter der Personalabteilung beziehen, der diesen Vertrag ausgestellt hat oder auf den Vorgesetzten des Angestellten. Damit ist die Rolle des gefundenen Namens zu dem Vertrag relativ unklar. Noch schwieriger gestaltet sich die Suche nach Verträgen mit einem Gehalt, das eine vorgegebene Untergrenze aufweist. Grundsätzlich ließen sich zwar ohne Probleme alle Zahlen aus einem Vertrag extrahieren. Aber auch hier ist deren Rolle in Bezug auf den Vertrag unklar. So könnte dieser zum Beispiel Vergütungsgruppen von 1 16 enthalten. Da es sich dabei, gemessen an einem Gehalt, um kleine Zahlen handelt, würde bei dem Vergleich dieser Zahlen mit der Gehaltsuntergrenze das System (fast) keine Verträge liefern. Wesentlich für die weitere Verarbeitung solch unstrukturierter Texte ist die Extraktion strukturierter Daten in dem beschriebenen Format. Dazu muss der Kontext eines Namens oder einer Zahl im Vertrag analysiert werden, um die Rolle dieser Werte zu identifizieren. Hierzu lassen sich zum Beispiel Methoden des sogenannten Text Mining einsetzen, die später in diesem Leitfaden genauer beschrieben werden. Grundsätzlich ist dabei zu berücksichtigen, dass diese Methoden nicht perfekt funktionieren. Daher muss der Anwendungskontext passen, sodass auch kleinere Ungenauigkeiten akzeptabel sind. Alternativ dazu sind geeignete Maßnahmen zu treffen, die eine Auflösung unklarer Situationen durch einen Eingriff von Seiten des Menschen ermöglichen. In ähnlicher Weise lassen sich auch strukturierte Informationen aus Bildern, Audio- und Videodaten mit geeigneten Verfahren ableiten. Aber auch hier führen diese Verfahren nicht in allen Fällen zu ausreichend genauen Ergebnissen. 3.3 Lernverfahren Eine wichtige Motivation für die Akquisition großer Datenmengen ist das frühzeitige Erkennen besonderer Situationen und Probleme sowie die Möglichkeit, Prognosen zu erstellen. Dazu müssen geeignete Parameter als Indikatoren in den Daten identifiziert werden, aus denen Situationen oder zukünftige Verläufe anderer Parameter abgeschätzt werden können. In unserem Beispiel könnten diese Indikatoren die Parameter Stromverbrauch, Temperatur und Betriebsmodus der Anlagen sein. Mit Hilfe dieser Indikatoren können dann eventuell Parameter wie der Verschleiß einer Anlage und damit zusammenhängend der Prozentsatz der defekten Produkte abgeleitet werden. Die Identifikation geeigneter Indikatoren sowie deren Zusammenhang mit besonderen Situationen oder zukünftigen Ereignissen ist eine anspruchsvolle Aufgabe, die gerade bei sehr großen Datenmengen manuell nur mit unverhältnismäßig großem Aufwand erfüllt werden kann. Mit modernen Verfahren des sogenannten maschinellen Lernens lässt sich das Erkennen des Zusammenhangs mit bestimmten Situationen oder zukünftigen Ereignissen automatisieren. 10

11 Grundsätzlich arbeiten diese Verfahren so, dass Indikatoren als Werte von Eingangsvariablen X = {x 1, x 2, x 3, } interpretiert werden. Aus den Werten dieser Eingabevariablen lassen sich dann Situationen oder zukünftige Ereignisse als Werte der Ausgabevariablen Y = {y 1, y 2, y 3, } ableiten. In unserem Beispiel lassen sich als Eingabevariablen Stromverbrauch, Temperatur und Betriebsmodus als Zeitreihen im zeitlichen Verlauf darstellen: Stromverbrauch: I 1, I 2, I 3, I 4, I 5, Temperatur: T 1, T 2, T 3, T 4, T 5, Betriebsmodus: M 1, M 2, M 3, M 4, M 5, Die Ausgaben in diesem Beispiel werden durch Variablen repräsentiert, die angeben, ob ein Produkt den Qualitätsanforderungen entspricht oder nicht: Qualität: Q 1, Q 2, Q 3, Q 4, Q 5, In unserem Beispiel sollen die Variablen lediglich die Werte defekt oder nicht defekt liefern (binäre Variablen). Ein Lernverfahren wird zunächst mit vorhandenen Daten trainiert, bei denen die Werte der Ausgabevariablen für verschiedene Kombinationen von Eingabevariablen bekannt sind. Für ein effektives Training muss dazu eine ausreichende Anzahl an Datensätzen mit bekannten Ausgaben existieren. Grundsätzlich gilt dabei, dass mit einer größer werdenden Menge von Variablen auch die Menge der Trainingsdaten deutlich wachsen muss. Sind die Werte der Eingabevariablen untereinander unabhängig, dann kann die Menge der benötigten Trainingsdaten im ungünstigsten Fall sehr schnell wachsen (exponentielles Wachstum). In unserem Beispiel könnten wir die Anzahl der Variablen dadurch reduzieren, dass wir jeweils einen Stresswert" für den Stromverbrauch und die Temperatur berechnen. Dazu könnten wir etwa verschiedenen Verbrauchswerten unterschiedliche Stresswerte zuordnen, sodass sehr hohe Verbrauchswerte mit überproportional hohen Stresswerten bestraft werden. Entsprechend werden Stresswerte für Temperaturen abgeleitet, die sehr niedrige oder sehr hohe Temperaturen bestrafen. Die Stresswerte seit der letzten Wartung einer Anlage können nun getrennt nach Temperatur und Stromverbrauch bis zum Zeitpunkt einer betrachteten Ausgabevariable (also des produzierten Produkts) aufsummiert werden. Zur Vereinfachung der Analyse betrachten wir nur noch einen Betriebsmodus, sodass wir die Werte der Ausgabevariablen in einem zweidimensionalen Koordinatensystem mit jeweils einer Achse für den Stresswert Temperatur und den Stresswert Stromverbrauch darstellen können (siehe Abbildung). Die defekten Produkte werden hier mit einem Kreuz und die anderen Produkte mit einem Kreis dargestellt. Summierter Stresswert Stromverbrauch Summierter Stresswert Temperatur Zusammenhang Temperatur, Stromverbrauch und Produktqualität (Quelle: Eigene Darstellung). 11

12 Für eine Aufgabenstellung dieser Art kann eine sogenannte Support Vector Machine als Lernverfahren eingesetzt werden. In einem zweidimensionalen Fall wird hier eine Trennlinie bestimmt, die mit einem möglichst breiten Pfad die beiden unterschiedlichen Punktemengen voneinander trennt. In einem dreidimensionalen Fall wird eine entsprechende Ebene und in höherdimensionalen Anwendungen eine Hyperebene bestimmt. Lassen sich die Ergebnismengen mit diesem Ansatz trennen, dann wird von linear separierbaren Daten gesprochen. Im Allgemeinen lassen sich die Daten allerdings nicht linear voneinander trennen. In unserem Beispiel könnte der Bereich der vollständig funktionierenden Produkte ein Oval im Bereich des zweidimensionalen Koordinatensystems bilden. Zur Behandlung dieser Fälle existieren Erweiterungen des Konzepts, bei der die Punkte in ein höherdimensionales Koordinatensystem eingebettet werden, sodass sie hier wieder linear trennbar sind ( Kernel Trick ). In unserem Beispiel haben wir eventuell ein weiteres Problem: Der Stress für eine Anlage hängt wahrscheinlich nicht nur vom aktuellen Wert für Stromverbrauch und Temperatur ab, sondern auch von den vorigen Werten. Grundsätzlich existiert auch eine Abhängigkeit der Werte untereinander, da zum Beispiel das Ausmaß der Veränderung von Temperatur und Stromverbrauch im Millisekundenbereich begrenzt sein dürfte. Existieren solche Abhängigkeiten von Variablen untereinander, so sind andere Formen des maschinellen Lernens günstig. Mit einem sogenannten Hidden Markov Modell lassen sich Sequenzen von (Zufalls-)Variablen untersuchen, bei denen die Wahrscheinlichkeit für das Auftreten eines Wertes für eine Variable von den Werten der vorigen Variablen in dieser Sequenz abhängig ist. Dies ist etwa bei Zeitreihen häufig der Fall. Gestaltet sich der Zusammenhang zwischen den Variablen komplexer, so lassen sich sogenannte Conditional Random Fields einsetzen beispielsweise bei Variablen, die nicht nur von Vorgängern, sondern auch von Nachfolgern abhängig sind. Nehmen wir etwa das Finden von Namen in Texten: Hier ist die Wahrscheinlichkeit, dass ein Wort einen Namen darstellt, von Begriffen vor und nach dem untersuchten Wort abhängig. Bei der Wortkombination Herr Bauer erhöht zum Beispiel das Wort Herr deutlich die Wahrscheinlichkeit, dass das folgende Wort Bauer ein Name ist. Hingegen signalisiert in der Bauer erntet das Wort erntet..., dass in diesem Fall der Begriff Bauer eher keinen Namen darstellt. Die Anforderungen an Lernverfahren Eine besondere Herausforderung bei der Anwendung von Lernverfahren ist die Zuverlässigkeit eines entdeckten Zusammenhangs. Grundsätzlich ist es möglich, dass ein Zusammenhang für die Trainingsdaten entdeckt wird, dieser aber bei Anwendung des Verfahrens nur noch gering oder sogar nicht mehr vorhanden ist. Daher wird ein Lernverfahren in der Regel nur auf einen Teil der Trainingsdaten angewendet (z. B. 80%) und das trainierte Verfahren dann nochmal mit den verbleibenden Trainingsdaten getestet. Leider kann es trotz solcher Tests passieren, dass ein trainiertes Verfahren bei der späteren Anwendung unbefrie- 12

13 digende oder gar völlig unbrauchbare Ergebnisse liefert, obwohl es für Trainingsdaten fast perfekt funktioniert. Damit lässt sich zunächst die Qualität des Verfahrens nicht ausschließlich auf der Basis der verwendeten Trainingsdaten bewerten. Betrachten wir dazu wieder unser Beispiel von Produktionsanlagen. Hier könnten Anlagen existieren, bei denen sich Temperatur und Stromverbrauch während der Produktion nur geringfügig ändern und damit praktisch keinen Einfluss auf die Produktqualität haben. In diesem Fall wären die entsprechenden Werte in dem Diagramm aus der Abbildung von Seite 11 willkürlich verteilt. Ein mögliches Lernverfahren könnte jetzt lediglich alle Punkte der Trainingsdaten zusammen mit ihren summierten Stresswerten und dem Ergebnis abspeichern ( defekt oder nicht defekt ). Bei der Anwendung des Verfahrens würde der Abstand eines neuen Punkts von den vorhandenen Punkten bestimmt und als Ergebnis der Wert des nächsten Punktes ausgegeben. Dieses Verfahren würde für die Trainingsdaten zwar perfekte Ergebnisse liefern. Für weitere Daten kann das Verfahren aber keine sinnvollen Ergebnisse mehr liefern, da hier zwischen den betrachteten Stresswerten und der Produktqualität kein Zusammenhang besteht. Das dargestellte Problem ist direkt mit der sogenannten Kapazität eines Lernverfahrens verbunden. Die Kapazität leitet sich aus der Anzahl der Trainingsfälle ab. Hierzu wird analysiert, für welche Menge an Trainingsdaten das Verfahren noch ein perfektes Ergebnis liefern kann genauer gesagt beim Einsetzen beliebiger Ergebniskombinationen (Werte der Ergebnisvariablen). Die Kapazität des Lernverfahrens wächst dann mit dieser Anzahl an Trainingsfällen. Das vorgestellte Lernverfahren mit der direkten Speicherung aller Daten verfügt über unendliche Lernkapazität. Damit wird deutlich, dass ein Lernverfahren dann gut geeignet ist für eine Aufgabenstellung, wenn es eine kleine Kapazität hat und trotzdem gute Ergebnisse für eine große Menge an Trainingsdaten liefert. Wobei diese Ergebnisse nicht zwingend perfekt sein müssen. Erst dann kann mit einer gewissen Zuverlässigkeit erwartet werden, dass das trainierte Verfahren auch für andere Daten sinnvolle Ergebnisse erzielt. Intuitiv lässt sich dieser Zusammenhang so erklären, dass für die Trainingsdaten ein möglichst einfacher Zusammenhang zwischen Eingabe- und Ausgabevariablen erkannt werden muss. Wenn dieser einfache Zusammenhang für eine große Menge an Trainingsdaten gilt, dann ist es plausibel, diesen Zusammenhang auch auf andere Daten zu übertragen. Wird dagegen ein komplexer Zusammenhang abgeleitet, der sich durch weitere Trainingsdaten auch noch ändern kann, dann gilt ein solcher Zusammenhang eventuell nicht mehr für weitere Daten. 13

14 4 Werkzeuge für die Datenanalyse 4.1 Standardanalysen Die Analyse von Daten ist ein Anwendungsgebiet, das bereits klassische Datenbankmanagement-Systeme mit ausgewählten Standardoperationen unterstützten. Betrachten wir dazu wieder unser Beispiel einer Betriebsdatenerfassung mit Sensoren für Stromund Temperaturverbrauch sowie für den Betriebsmodus der Anlagen in einem Unternehmen. Zur Analyse dieser Daten stehen mindestens die folgenden Operationen zur Verfügung: Zunächst ist es interessant, die gesamte Anzahl aller Einträge der Tabelle zu bestimmen Der Gesamtverbrauch einer Anlage kann durch die Summe aller Verbrauchswerte bestimmt werden In ähnlicher Weise lässt sich der Durchschnitt aller Verbrauchswerte einer Anlage berechnen Für die erfassten Betriebstemperaturen können das Minimum und das Maximum bestimmt werden Obwohl praktisch alle Datenbankmanagement-Systeme mindestens die oben im Kasten genannten fünf Aggregatfunktionen unterstützen, können derlei Operationen bei einer sehr großen Menge an Einträgen zu Rechenzeiten führen, die nicht mehr akzeptabel sind. Ein weiterer wesentlicher Ansatz für die Analyse von Daten ist deren Gruppierung. So können zum Beispiel Verbrauchsdaten monatsweise summiert werden, um einzelne Monate zu vergleichen. Grundsätzlich können diese Gruppierungskriterien nahezu frei gewählt werden, um beispielsweise die summierten Verbräuche von Anlagen an verschiedenen Standorten zu vergleichen. Neben der Effizienz zählt die Entwicklung einer geeigneten Benutzeroberfläche zur wesentlichen Herausforderung, sodass auch gelegentliche Anwender ohne Programmierkenntnisse nahezu beliebige Auswertungen ohne Einschränkungen durchführen können. Solche Benutzeroberflächen werden von einschlägigen Business Intelligence Tools zur Verfügung gestellt. Im Idealfall können diese Tools sogar die kompletten Daten im Hauptspeicher halten, sodass die meisten Operationen ohne spürbare Verzögerung ausgeführt werden können. 14

15 4.2 Statistische Analysen und Data Mining Die im vorigen Abschnitt vorgestellten Operationen beschränken sich auf die Aggregation von Daten. Für die Analyse von Beziehungen zwischen unterschiedlichen Daten sind diese Operationen in der Regel noch nicht ausreichend. Betrachten wir dazu die Nutzung von Anlagen im saisonalen Verlauf. Dazu können mit den bisherigen Operationen zwar die Verbrauchsdaten getrennt nach den vier Jahreszeiten summiert werden. Allerdings kann ein geringerer Verbrauch im Frühling als im Sommer bei stetigen Schwankungen Zufall sein. Erst durch eine längere Zeitreihe ließen sich entsprechende, auch für Prognosen geeignete Zusammenhänge aufdecken. Von zentraler Bedeutung für die Analyse ist dabei die bedingte Wahrscheinlichkeit eines Ereignisses (z. B. der summierte Verbrauch), in Abhängigkeit von einem anderen Ereignis (z. B. die Jahreszeit). Für die Abschätzung einer solchen Wahrscheinlichkeitsverteilung existieren geeignete statistische Verfahren. Mit deren Hilfe können auch Fehler im Zuge einer solchen Schätzung analysiert werden, abhängig von den zur Verfügung stehenden Daten. Eine einzelne Zufallsvariable, wie zum Beispiel der summierte Verbrauch in einer Jahreszeit, kann durchaus auch von mehr als einer anderen Variable abhängen. In unserem Beispiel könnte der summierte Verbrauch nicht nur von der Jahreszeit, sondern auch von der Konjunktur (messbar zum Beispiel über das Wirtschaftswachstum) sowie von Wetterdaten (Durchschnittstemperatur und Regentage) der betrachteten Jahreszeit abhängig sein. Solche Zusammenhänge lassen sich mit Hilfe sogenannter multivariater Verfahren analysieren. Verfahren für die Schätzung von Wahrscheinlichkeitsverteilungen sowie der Abhängigkeiten unterschiedlicher Zufallsvariablen stehen in einschlägigen Softwarepaketen zur Verfügung. Ein bekanntes kommerzielles Produkt ist SPSS von IBM. Die Sprache R stellt im Rahmen einer Open Source Implementierung eine ähnliche Funktionalität zur Verfügung. Grundsätzlich benötigt der Anwender ein Grundwissen im Bereich der Statistik, um die entsprechende Software sinnvoll einsetzen zu können. Etwas selbsttätiger funktionieren automatisierte Verfahren des Data Mining, die mithilfe von Methoden des statistischen Lernens (siehe Abschnitt Lernverfahren, S. 12) solche Verknüpfungen herstellen. Allerdings müssen auch diese Methoden zunächst von einem Experten eingerichtet werden. Innerhalb des vorgegeben Rahmens lassen sich dann weitgehend automatisch Abhängigkeiten auffinden. 4.3 Text Mining Dokumentenmanagement-Systeme zur Erfassung und Verwaltung von Texten werden in größeren Unternehmen bereits heute flächendeckend eingesetzt. Auch in mittleren und kleineren Unternehmen finden diese Systeme immer mehr Verbreitung. Sie bieten verschiedene zusätzliche Dienstleistungen, wie zum Beispiel das schnelle Auffinden von Dokumenten (auch von unterschiedlichen Standorten aus) sowie die Verwaltung und Nachverfolgung von Änderungen. Dokumentenmanagement-Systeme verbreitern grundsätzlich die Basis der in Informationssystemen verwalteten Daten und versprechen damit einen genaueren, vollständigeren und auf Knopfdruck abrufbaren Blick auf ein Unternehmen. Leider zeigt sich in der betrieblichen 15

16 Realität, dass viele Informationen, die in Dokumenten enthalten sind, nicht abgerufen werden können. Hintergrund ist die fehlende Struktur (siehe Abschnitt Strukturierte versus unstrukturierte Daten, S. 8) textueller Daten, die eine gezielte Extraktion von Informationen und ihre Verknüpfung mit anderen Informationen schwer macht. Grundsätzlich existieren noch keine universellen Verfahren, die vollständig die Bedeutung eines beliebigen Textes erfassen und für die weitere Verarbeitung nutzbar machen können. Seit einigen Jahren finden allerdings zunehmend Methoden des Text Mining Anwendung, die zumindest einzelne Informationen mit ausreichender Genauigkeit extrahieren. Beispiele hierzu sind: Mit Verfahren des Topic Detection lassen sich Texte einem Thema zuordnen. Dies kann für eine fokussierte Suche nützlich sein, sodass nur innerhalb von Dokumenten zu einem vorgegebenen Thema gesucht wird. Die Zuordnung von Themen zu Dokumenten kann auch bereits für die Analyse von Textdaten nützlich sein. So ließe sich mit Hilfe solcher Verfahren die Anzahl der Fehlerreports im Verlauf der Zeit darstellen. Ein häufig eingesetztes Verfahren extrahiert Namen aus Texten. Mithilfe von Methoden der Named Entity Recognition lassen sich zum Beispiel Personennamen, Namen von Organisationen, Namen von Orten oder auch Zahlen extrahieren. Zusammen mit den Verfahren des Topic Detection ließen sich den Fehlerberichten damit auch die betroffenen Produkte zuordnen. Interessant aber auch aufwändig sind Verfahren der Relation Detection. Damit lassen sich Beziehungen zwischen zwei Entitäten oder zwischen Werten und Entitäten auffinden. So liefern diese Verfahren exakt die Art an strukturierten Daten, die für die weitere Verarbeitung und Kombination mit anderen Daten benötigt werden. Damit ließen sich zum Beispiel numerische Qualitätsparameter für unterschiedliche Produkte aus textuellen Fehlerberichten ableiten. Die Analyse von negativen oder positiven Stimmungen eines Texts ist mit Methoden der Sentiment Detection möglich. Mit diesen Methoden können zum Beispiel besonders negative Fehlerberichte für eine manuelle Analyse identifiziert werden. Grundsätzlich analysieren diese Methoden das Auftreten und die Häufigkeit bestimmter Begriffe gerade auch im Kontext der unmittelbaren Umgebung eines Begriffs. So existieren zum Beispiel Verfahren für Topic Detection, die für verschiedene Themen auch ein unterschiedliches Vokabular annehmen. Da sich ein Text in der Regel auch unterschiedlichen Themen zuordnen lässt, besteht dieser dann aus einer Mischung verschiedener Vokabulare, die durch diese Methoden detektiert werden können. Die Erkennung von Namen lässt sich in vielen Fällen durch eine Namensliste unterstützen. Existiert zum Beispiel eine Liste von Ortsnamen und eine weitere Liste von Personennamen, dann lassen sich in einem Text relativ leicht Kandidaten für solche Orts- und Personennamen erkennen. Allerdings kann es gerade bei umfangreichen Listen vorkommen, dass die enthaltenen Namen nicht eindeutig sind. Betrachten wir dazu das folgende Beispiel: Am vergangenen Sonntag besuchte Frau Paris Hilton das Musical CATS in London. Aufgrund des starken Regens in London, fuhr ihre Limousine in eine Fußgängerzone ein, um Frau Hilton direkt vor dem Musical-Theater abzusetzen. 16

17 In den genannten Listen wäre das Wort Paris ein Kandidat für einen Ortsnamen. Auch ein weiblicher Vorname wäre hier möglich. Eventuell existiert auch in der Liste der Namen das Wort London. Durch eine Analyse des Kontexts lässt sich aber hier diese Mehrdeutigkeit auflösen, da dem Namen Paris Hilton das Wort Frau und dem Namen London das Wort in vorangeht. Für das Erkennen von Relationen existieren sehr unterschiedliche Möglichkeiten, die auch ohne eine vorangegangene Identifikation benannter Identitäten Ergebnisse liefern. Trotzdem kann die Identifikation von Entitäten die Erkennung von Relationen erleichtern, auch wenn es eventuell nicht mehr möglich ist, alle Relationen zu erkennen. Entdeckt ein Verfahren zum Beispiel zwei Entitäten mit einem Abstand von wenigen Worten, dann könnte das Verfahren anhand der dazwischenliegenden Worte entscheiden, ob die beiden Entitäten in der analysierten Beziehung stehen. Für das Erkennen positiver und negativer Stimmungen werden häufig meinungstragende Adjektive und Substantive sowie entsprechende Phrasen analysiert. So sind mit Begriffen wie schlecht und Problem eher negative sowie mit Begriffen wie gut oder Erfolg eher positive Stimmungen verbunden. Natürlich müssen auch diese Begriffe in ihrem Kontext analysiert werden ( kein Problem, nicht gut ). Vor Anwendung dieser Verfahren wird häufig noch die Struktur der Texte genauer analysiert. Dazu werden zum Beispiel Satzgrenzen erkannt, wobei auch diese Aufgabe durch die mehrdeutige Verwendung des Punkts nicht trivial ist. Als weiterer Schritt kann die Rolle der Wörter in einem Satz zum Beispiel mit einem Part of Speech Tagger abgeleitet werden (Nominalphrase, Verbalphrase, etc.). Ein weiteres wichtiges Hilfsmittel sind Ontologien, die Begriffe mit anderen Begriffen in Beziehung setzen. Damit lassen sich zum Beispiel Begriffe mit ähnlicher oder sogar fast identischer Bedeutung auffinden. Verfahren des Text Mining lassen sich mithilfe zweier sehr unterschiedlicher Ansätze realisieren: Mithilfe von regelbasierten Ansätzen kann das Wissen über den Aufbau von typischen Sätzen in dem betrachteten Anwendungsbereich modelliert werden, insbesondere im Kontext der untersuchten Begriffe. Solche Regeln können zum Beispiel fordern, dass gewisse Worte wie Herr und Frau nicht vor einem Ort und Worte wie geht und läuft nicht hinter einem Ort vorkommen dürfen. Lernverfahren ermöglichen das Erkennen von Namen, Relationen, Themen oder auch von Stimmungen (siehe Abschnitt Lernverfahren, S. 12). Auf den ersten Blick scheinen Lernverfahren nur die zweitbeste Lösung zu sein. Grundsätzlich würde man vermuten, dass ein menschlicher Experte mit einer genauen Kenntnis der Sprache sowie des Aufbaus typischer Dokumente eine (fast) perfekte regelbasierte Lösung realisieren kann. Überraschenderweise liefern Lernverfahren in vielen Anwendungsbereichen bessere Ergebnisse. Der Hintergrund mag sein, dass insgesamt noch zu wenig über Aufbau und Verwendung natürlicher Sprache in unterschiedlichen Anwendungsbereichen bekannt ist. Ein offensichtlicher Vorteil von Lernverfahren ist aber die Möglichkeit, Wahrscheinlichkeitsverteilungen mithilfe einer großen Menge an Trainingsdaten präziser zu analysieren. Gerade bei Indikatoren, die bei gleichen Werten zu unterschiedlichen Ergebnissen kommen können, ist ein menschlicher Experte bei der Definition einer Wahrscheinlichkeit in der Regel überfordert. 17

18 Ein Nachteil von klassischen Lernverfahren ist die große Menge an benötigten Trainingsdaten. Gerade bei der Analyse einer größeren Menge von Indikatoren müssen die Trainingsdaten möglichst viele Wertekombinationen dieser Indikatoren abdecken. Die Bereitstellung eines entsprechend großen Trainingsdatensatzes kann allerdings für verschiedene Anwendungsbereiche nicht mit akzeptablem Aufwand geleistet werden. Entsprechend wurden in der Forschung Verfahren des Semi-Supervised Learning sowie des Un-Supervised Learning entwickelt. Das Un-Supervised Learning kommt ohne Trainingsdaten aus. Bei diesem Verfahren wird versucht, vollautomatisch eine Struktur zu erkennen. Ein Beispiel dafür ist die automatisierte Entdeckung von Themen anhand des in verschiedenen Texten enthaltenen Vokabulars. Entsprechend der Unterschiede im Vokabular werden Texte verschiedenen Gruppen zugeordnet und typische Begriffe aus dem Vokabular als Themen extrahiert. Beim Semi-Supervised Learning wird mit einer relativ kleinen Menge an Trainingsdaten begonnen. Das Verfahren versucht nun mithilfe dieser Saat aus noch unbekannten Daten weitere Trainingsfälle zu identifizieren, für die aufgrund ihres Aufbau und der Struktur ohne aufwändige Analyse die korrekten Ergebnisse abgeleitet werden können. Mit den so erzeugten Trainingsdaten läuft dann ein klassisches Lernverfahren. Insgesamt existieren aber aktuell nur wenige Anwendungen, für die Verfahren des Semi-Supervised und des Un-Supervised Learning akzeptable Ergebnisse liefern. Entsprechend häufig werden bereits trainierte Lernverfahren eingesetzt. Eine wesentliche Voraussetzung für den Einsatz trainierter Verfahren ist allerdings eine ausreichende Übereinstimmung der Trainingsdaten mit den Daten in einer Anwendung. Generische und trainierte Lernverfahren finden sich in verschiedenen Arten von Software. Kommerzielle und freie Statistikprogramme verfügen bereits heute über unterschiedliche Methoden des statistischen Lernens, die aber in praktisch allen Fällen noch auf den konkreten Anwendungsbereich trainiert werden müssen. Verschiedene Softwarepakete im Bereich der Business-Intelligence bieten ebenfalls solche Lernverfahren an. Interessant sind hier insbesondere trainierte Verfahren, die ohne großen Aufwand für eine Anpassung direkt eingesetzt werden können. Problematisch ist dieser Ansatz allerdings, wenn die Trainingsdaten eine deutlich andere Struktur als die Daten aus einer Anwendung haben. Dies gilt insbesondere dann, wenn die Verfahren mit einer anderen Sprache trainiert worden sind. Eine Übertragung dieser trainierten Verfahren auf eine andere Sprache führt fast immer zu nicht mehr zufriedenstellenden Ergebnissen. Interessant ist hier auch die Verfügbarkeit einer größeren Anzahl von freier Software für das Thema Text Mining. Beispiele hierzu sind OpenNLP (opennlp. apache.org) von der Apache Foundation oder KH Coder (khc.sourceforge.net/ de). Verschiedene Forschungsgruppen in diesem Bereich bieten ihre Software in vielen Fällen kostenlos im Internet an. Eine der bekanntesten Gruppen dürfte hier die NLP-Gruppe in Stanford sein (nlp.stanford.edu). Grundsätzlich ist diese freie Software aber nicht für Endanwender geeignet. Sie bietet jedoch eine geeignete Plattform für IT-Dienstleister, um auch anspruchsvolle Anwendungen mit angemessenem Aufwand realisieren zu können. 18

19 5 Verwaltung von Daten in Datenbanken Für die zuverlässige und dauerhafte Speicherung von Daten werden aktuell in fast allen Unternehmen noch immer klassische relationale Datenbanken eingesetzt. Die Daten werden dabei in Form von Tabellen gespeichert, wobei die Spalten der Tabellen in der Regel nur einfache Werte enthalten, die atomare Informationen repräsentieren. Ein wichtiges Kriterium für die Güte eines relationalen Datenmodells ist die redundanzfreie Speicherung von Daten zur Vermeidung von Inkonsistenzen. Insgesamt sollen die Daten so gespeichert und normalisiert werden, dass sie in einheitlicher Form für unterschiedliche Anwendungen zur Verfügung stehen. Für die zuverlässige und dauerhafte Speicherung der Daten (Persistenz) ist es wichtig, dass Inkonsistenzen sowohl durch den gleichzeitigen Zugriff unterschiedlicher Anwender als auch durch Systemabstürze vermieden werden. Eine wichtige Technologie in diesem Zusammenhang ist das Transaktionskonzept, mit dem eine Sequenz von zusammengehörigen Aktionen gruppiert werden kann. Die Datenbank ist dann so ausgelegt, dass die Aktionen einer Transaktion entweder vollständig oder gar nicht ausgeführt werden. Dabei wird von kurzen Aktionen ausgegangen, wie zum Beispiel dem Einfügen von Daten oder dem Finden ausgewählter Einträge nach unterschiedlichen Suchkriterien. Sehr aufwändige Analysen, die auf fast alle Daten lesend zugreifen, lassen sich dabei mit typischen Transaktionskonzepten nicht optimal unterstützen. Ein möglicher Grund dafür: Die betroffenen Daten werden bezüglich Änderungen mit klassischen Mechanismen eines Transaktionskonzepts gesperrt. 19

20 Eine herkömmliche relationale Datenbank verwaltet ihre Daten auf dem Sekundärspeicher. Die Algorithmen sind auf diesen Speicher entsprechend optimiert. Zugriffsstrukturen ermöglichen die direkte Navigation zu relevanten Daten, ohne alle Daten sequentiell durchsuchen zu müssen ( Telefonbuchprinzip ). Natürlich unterstützen auch diese Datenbanken bereits die Nutzung von Cache-Speichern zur dynamischen Bereitstellung wichtiger Daten im Hauptspeicher. Damit können Zugriff und Analyse von Daten bereits deutlich beschleunigt werden. Klassische relationale Datenbanken verfügen auch über Aggregatfunktionen, mit denen sich einfache Analysen auf den Daten durchführen lassen. Dazu gehört die Summenbildung, die Berechnung des Durchschnitts sowie des minimalen und maximalen Werts. Auch die Gruppierung von Einträgen mithilfe von Werten ausgewählter Spalten ist möglich (zum Beispiel Summe der Verbräuche für Anlagen getrennt nach Anlagentypen). Bereits die Nutzung solcher Aggregatfunktionen kann bei sehr großen Datenbanken zu nicht mehr akzeptablen Antwortzeiten für interaktive Anwendungen führen. Betrachten wir dazu das Beispiel der Produktionsanlagen aus Abschnitt 2. In diesem Beispiel werden Messwerte der Anlagen mit einer zeitlichen Auflösung von einer Millisekunde erfasst. Eine mögliche Struktur für die Speicherung dieser Daten zeigt die Tabelle: Nummer Anlage Zeit Strom Temperatur Modus ,43 33,4 XC ,89 31,7 K ,50 25, ,33 45, ,01 50,7 K/ ,99 42,0 K/6 Beispiel einer Datenbanktabelle (Quelle: Eigene Darstellung). Eine typische relationale Datenbank speichert diese Tabelle jetzt zeilenweise auf der Festplatte ab. Für den Zugriff auf eine Festplatte ist die kleinstmögliche Einheit ein Block, da der wahlfreie Zugriff auf die Daten relativ viel Zeit benötigt (ca. 10 ms). Hintergrund dafür ist die Festplatten-Speicherung der Daten auf konzentrischen Spuren. Für den Zugriff muss der Schreib- und Lesekopf auf eine Spur positioniert und danach noch die Rotation der Festplatte bis zu den gewünschten Daten abgewartet werden. Da das sequentielle Lesen der Daten ab der gewünschten Position erheblich schneller erfolgt (um mehrere Größenordnungen), werden nicht nur einzelne Bytes sondern größere Datenmengen in Form von Blöcken gelesen. Gängige Blockgrößen sind zwischen 512 und Byte und können in einzelnen Spezialfällen noch deutlich größer sein. Wenn wir für unser Beispiel eine Blockgröße von 8 kb und für jeden Eintrag eine Größe von ca. 80 Byte annehmen, dann lassen sich in einem Block etwa 100 Einträge unterbringen. Nehmen wir zusätzlich an, dass 10 Messwerte von 100 Anlagen erfasst werden, dann ergeben sich Messwerte pro Sekunde sowie 31,536 Billionen Messwerte pro Jahr. Diese Datenmenge ließe sich auf 315,36 Milliarden Blöcken unterbringen. 20

Analyse und Auswertung großer heterogener Datenmengen

Analyse und Auswertung großer heterogener Datenmengen Analyse und Auswertung großer heterogener Datenmengen Herausforderungen für die IT-Infrastruktur Richard Göbel Inhalt Big Data Was ist das eigentlich? Was nützt mir das? Wie lassen sich solche großen Datenmengen

Mehr

Industrie 4.0 und Smart Data

Industrie 4.0 und Smart Data Industrie 4.0 und Smart Data Herausforderungen für die IT-Infrastruktur bei der Auswertung großer heterogener Datenmengen Richard Göbel Inhalt Industrie 4.0 - Was ist das? Was ist neu? Herausforderungen

Mehr

Relationale Datenbanken Datenbankgrundlagen

Relationale Datenbanken Datenbankgrundlagen Datenbanksystem Ein Datenbanksystem (DBS) 1 ist ein System zur elektronischen Datenverwaltung. Die wesentliche Aufgabe eines DBS ist es, große Datenmengen effizient, widerspruchsfrei und dauerhaft zu speichern

Mehr

Integration Services - Dienstarchitektur

Integration Services - Dienstarchitektur Integration Services - Dienstarchitektur Integration Services - Dienstarchitektur Dieser Artikel solle dabei unterstützen, Integration Services in Microsoft SQL Server be sser zu verstehen und damit die

Mehr

Data Mining-Modelle und -Algorithmen

Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining ist ein Prozess, bei dem mehrere Komponenten i n- teragieren. Sie greifen auf Datenquellen, um diese zum Training,

Mehr

7.4 Analyse anhand der SQL-Trace. 7.3.5 Vorabanalyse mit dem Code Inspector

7.4 Analyse anhand der SQL-Trace. 7.3.5 Vorabanalyse mit dem Code Inspector 7.4 Analyse anhand der SQL-Trace 337 7.3.5 Vorabanalyse mit dem Code Inspector Der Code Inspector (SCI) wurde in den vorangegangenen Kapiteln immer wieder erwähnt. Er stellt ein paar nützliche Prüfungen

Mehr

Analyse alt- und mittelpaläolithischer Steinartefaktinventare mittels Parallelkoordinatenplots

Analyse alt- und mittelpaläolithischer Steinartefaktinventare mittels Parallelkoordinatenplots Einleitung Analyse alt- und mittelpaläolithischer Steinartefaktinventare mittels Parallelkoordinatenplots von Irmela Herzog Im Rahmen der Herbsttagung der AG DANK (Datenanalyse und Numerische Klassifikation)

Mehr

The integration of business intelligence and knowledge management

The integration of business intelligence and knowledge management The integration of business intelligence and knowledge management Seminar: Business Intelligence Ketevan Karbelashvili Master IE, 3. Semester Universität Konstanz Inhalt Knowledge Management Business intelligence

Mehr

Data Mining-Projekte

Data Mining-Projekte Data Mining-Projekte Data Mining-Projekte Data Mining stellt normalerweise kein ei nmaliges Projekt dar, welches Erkenntnisse liefert, die dann nur einmal verwendet werden, sondern es soll gewöhnlich ein

Mehr

Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken

Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken Dateiname: ecdl5_01_00_documentation_standard.doc Speicherdatum: 14.02.2005 ECDL 2003 Basic Modul 5 Datenbank - Grundlagen

Mehr

Ontologie Sinn, Zweck und Mehrwert für Ihr Unternehmen

Ontologie Sinn, Zweck und Mehrwert für Ihr Unternehmen NOW YOU KNOW [ SERIES] Ontologie Sinn, Zweck und Mehrwert für Ihr Unternehmen [YVES BRENNWALD, ONTOS INTERNATIONAL AG] 002 Ontologie und deren Bedeutung für die Unternehmen von heute Der Begriff der Ontologie

Mehr

Data Lineage goes Traceability - oder was Requirements Engineering von Business Intelligence lernen kann

Data Lineage goes Traceability - oder was Requirements Engineering von Business Intelligence lernen kann Data Lineage goes Traceability - oder was Requirements Engineering von Business Intelligence lernen kann Andreas Ditze MID GmbH Kressengartenstraße 10 90402 Nürnberg a.ditze@mid.de Abstract: Data Lineage

Mehr

Data Cube. Aggregation in SQL. Beispiel: Autoverkäufe. On-line Analytical Processing (OLAP) 1. Einführung. 2. Aggregation in SQL, GROUP BY

Data Cube. Aggregation in SQL. Beispiel: Autoverkäufe. On-line Analytical Processing (OLAP) 1. Einführung. 2. Aggregation in SQL, GROUP BY Data Cube On-line Analytical Processing (OLAP). Einführung Ziel: Auffinden interessanter Muster in großen Datenmengen 2. Aggregation in SQL, GROUP BY 3. Probleme mit GROUP BY 4. Der Cube-Operator! Formulierung

Mehr

whitepaper CLOUD-ENTWICKLUNG: BESTE METHODEN UND SUPPORT-ANWENDUNGEN

whitepaper CLOUD-ENTWICKLUNG: BESTE METHODEN UND SUPPORT-ANWENDUNGEN whitepaper CLOUD-ENTWICKLUNG: BESTE METHODEN UND SUPPORT-ANWENDUNGEN CLOUD-ENTWICKLUNG: BESTE METHODEN 1 Cloud-basierte Lösungen sind auf dem IT-Markt immer weiter verbreitet und werden von immer mehr

Mehr

Die folgenden Features gelten für alle isquare Spider Versionen:

Die folgenden Features gelten für alle isquare Spider Versionen: isquare Spider Die folgenden s gelten für alle isquare Spider Versionen: webbasiertes Management (Administratoren) Monitoring Sichten aller gefundenen Beiträge eines Forums Statusüberprüfung Informationen

Mehr

Explosionsartige Zunahme an Informationen. 200 Mrd. Mehr als 200 Mrd. E-Mails werden jeden Tag versendet. 30 Mrd.

Explosionsartige Zunahme an Informationen. 200 Mrd. Mehr als 200 Mrd. E-Mails werden jeden Tag versendet. 30 Mrd. Warum viele Daten für ein smartes Unternehmen wichtig sind Gerald AUFMUTH IBM Client Technical Specialst Data Warehouse Professional Explosionsartige Zunahme an Informationen Volumen. 15 Petabyte Menge

Mehr

In die Zeilen würden die Daten einer Adresse geschrieben werden. Das Ganze könnte in etwa folgendermaßen aussehen:

In die Zeilen würden die Daten einer Adresse geschrieben werden. Das Ganze könnte in etwa folgendermaßen aussehen: 1 Einführung in Datenbanksysteme Fast jeder kennt Excel und hat damit in seinem Leben schon einmal gearbeitet. In Excel gibt es Arbeitsblätter, die aus vielen Zellen bestehen, in die man verschiedene Werte

Mehr

Verfahren zur Berechnung von Routen zur Gewährleistung von Ende-zu-Ende QoS

Verfahren zur Berechnung von Routen zur Gewährleistung von Ende-zu-Ende QoS Verfahren zur Berechnung von Routen zur Gewährleistung von Ende-zu-Ende QoS Dezember 007 Dipl.-Ing. Stefan Abu Salah Dipl.-Ing. Achim Marikar QoS (Quality of Service): Sicherstellung der Qualität Zeitkritische

Mehr

Analyse von unstrukturierten Daten. Peter Jeitschko, Nikolaus Schemel Oracle Austria

Analyse von unstrukturierten Daten. Peter Jeitschko, Nikolaus Schemel Oracle Austria Analyse von unstrukturierten Daten Peter Jeitschko, Nikolaus Schemel Oracle Austria Evolution von Business Intelligence Manuelle Analyse Berichte Datenbanken (strukturiert) Manuelle Analyse Dashboards

Mehr

Business Intelligence und Geovisualisierung in der Gesundheitswirtschaft

Business Intelligence und Geovisualisierung in der Gesundheitswirtschaft Business Intelligence und Geovisualisierung in der Gesundheitswirtschaft Prof. Dr. Anett Mehler-Bicher Fachhochschule Mainz, Fachbereich Wirtschaft Prof. Dr. Klaus Böhm health&media GmbH 2011 health&media

Mehr

Unlimited Controlling

Unlimited Controlling smcolap Unlimited Controlling Heute müssen beliebige Bereiche eines Unternehmens schnell und effizient analysiert werden. Dabei darf es keine Rolle spielen, wo die Daten liegen und in welcher Relation

Mehr

Seminar Business Intelligence Teil II. Data Mining & Knowledge Discovery

Seminar Business Intelligence Teil II. Data Mining & Knowledge Discovery Seminar Business Intelligence Teil II Data Mining & Knowledge Discovery Was ist Data Mining? Sabine Queckbörner Was ist Data Mining? Data Mining Was ist Data Mining? Nach welchen Mustern wird gesucht?

Mehr

DATEN - Das Gold des 21. Jahrhunderts? Dr. Oliver Riedel, AUDI AG

DATEN - Das Gold des 21. Jahrhunderts? Dr. Oliver Riedel, AUDI AG DATEN - Das Gold des 21. Jahrhunderts? Dr. Oliver Riedel, AUDI AG Inhalt Globale und unternehmensspezifische Herausforderungen Von Big Data zu Smart Data Herausforderungen und Mehrwert von Smart Data 2

Mehr

Sentiment Analysis (SA) Robert Bärhold & Mario Sänger Text Analytics WS 2012/13 Prof. Leser

Sentiment Analysis (SA) Robert Bärhold & Mario Sänger Text Analytics WS 2012/13 Prof. Leser Sentiment Analysis (SA) Robert Bärhold & Mario Sänger Text Analytics WS 2012/13 Prof. Leser Gliederung Einleitung Problemstellungen Ansätze & Herangehensweisen Anwendungsbeispiele Zusammenfassung 2 Gliederung

Mehr

Integration Services Übersicht

Integration Services Übersicht Integration Services Übersicht Integration Services Übersicht Integration Services stellt umfangreiche integrierte Tasks, Container, Transformationen und Datenadapter für die En t- wicklung von Geschäftsanwendungen

Mehr

GoVault Data Protection-Software Überblick

GoVault Data Protection-Software Überblick 1226-GoVaultSoftware-GermanTranslation-A4 13/3/08 09:16 Page 1 Das GoVault-System enthält die Windows-basierte Software GoVault Data Protection und bildet damit eine komplette Backup- und Restore-Lösung

Mehr

Social Media Monitoring Den Kunden zuhören. Teil I

Social Media Monitoring Den Kunden zuhören. Teil I Social Media Monitoring Den Kunden zuhören Teil I DVR: 0438804 Juli 2015 Social Media Monitoring bezeichnet die systematische, kontinuierliche und themenspezifische Suche, Erhebung, Aufbereitung, Analyse,

Mehr

RAID. Name: Artur Neumann

RAID. Name: Artur Neumann Name: Inhaltsverzeichnis 1 Was ist RAID 3 1.1 RAID-Level... 3 2 Wozu RAID 3 3 Wie werden RAID Gruppen verwaltet 3 3.1 Software RAID... 3 3.2 Hardware RAID... 4 4 Die Verschiedenen RAID-Level 4 4.1 RAID

Mehr

Prognosen via Datenanalyse Predictive Analytics: Darauf müssen Unternehmen achten

Prognosen via Datenanalyse Predictive Analytics: Darauf müssen Unternehmen achten Prognosen via Datenanalyse Predictive Analytics: Darauf müssen Unternehmen achten von Jürgen Mauerer Foto: Avantum Consult AG Seite 1 von 21 Inhalt Mehrwert aufzeigen nach Analyse des Geschäftsmodells...

Mehr

Neuerungen Analysis Services

Neuerungen Analysis Services Neuerungen Analysis Services Neuerungen Analysis Services Analysis Services ermöglicht Ihnen das Entwerfen, Erstellen und Visualisieren von Data Mining-Modellen. Diese Mining-Modelle können aus anderen

Mehr

Big Data: Nutzen und Anwendungsszenarien. CeBIT 2014 Dr. Carsten Bange, Gründer und Geschäftsführer BARC

Big Data: Nutzen und Anwendungsszenarien. CeBIT 2014 Dr. Carsten Bange, Gründer und Geschäftsführer BARC Big Data: Nutzen und Anwendungsszenarien CeBIT 2014 Dr. Carsten Bange, Gründer und Geschäftsführer BARC Big Data steht für den unaufhaltsamen Trend, dass immer mehr Daten in Unternehmen anfallen und von

Mehr

Text Mining Praktikum. Durchführung: Andreas Niekler Email: aniekler@informatik.uni-leipzig.de Zimmer: Paulinum (P) 818

Text Mining Praktikum. Durchführung: Andreas Niekler Email: aniekler@informatik.uni-leipzig.de Zimmer: Paulinum (P) 818 Text Mining Praktikum Durchführung: Andreas Niekler Email: aniekler@informatik.uni-leipzig.de Zimmer: Paulinum (P) 818 Rahmenbedingungen Gruppen von 2- (max)4 Personen Jede Gruppe erhält eine Aufgabe Die

Mehr

Die intelligente Sicht auf Ihre Kundendaten

Die intelligente Sicht auf Ihre Kundendaten Die intelligente Sicht auf Ihre Kundendaten Business Case Ein tiefgehendes Verständnis der Kunden, ihrer Bedürfnisse und Kaufgewohnheiten ist im heutigen wirtschaftlichen Umfeld - das durch intensive Anbieter-Konkurrenz,

Mehr

Dokumentenmanagement. DMS Middleware für optimale Systemintegration

Dokumentenmanagement. DMS Middleware für optimale Systemintegration Dokumentenmanagement DMS Middleware für optimale Systemintegration Ausgangssituation Systemlandschaft heute - eine Bestandsaufnahme Heterogene Systeme, eine Vielzahl von Applikationen unterschiedlicher

Mehr

Einführung in OLAP und Business Analysis. Gunther Popp dc soft GmbH

Einführung in OLAP und Business Analysis. Gunther Popp dc soft GmbH Einführung in OLAP und Business Analysis Gunther Popp dc soft GmbH Überblick Wozu Business Analysis mit OLAP? OLAP Grundlagen Endlich... Technischer Background Microsoft SQL 7 & OLAP Services Folie 2 -

Mehr

Formaler Entwurf mit Event-B Die Eventbank

Formaler Entwurf mit Event-B Die Eventbank Institut für Theoretische Informatik Anwendungsorientierte Formale Verifikation Vorlesung Anwendung Formaler Verifikation SS 2015, 9.6.15 Dr. V. Klebanov, Dr. M. Ulbrich Formaler Entwurf mit Event-B Die

Mehr

Logistikinformationssystem (LIS)

Logistikinformationssystem (LIS) und steuerung Das Logistikinformationssystem umfasst die folgenden Informationssysteme: Vertriebsinformationssystem Einkaufsinformationssystem Bestandscontrolling Fertigungsinformationssystem Instandhaltungsinformationssystem

Mehr

1 Einleitung. Betriebswirtschaftlich administrative Systeme

1 Einleitung. Betriebswirtschaftlich administrative Systeme 1 1 Einleitung Data Warehousing hat sich in den letzten Jahren zu einem der zentralen Themen der Informationstechnologie entwickelt. Es wird als strategisches Werkzeug zur Bereitstellung von Informationen

Mehr

Umsetzung der Anforderungen - analytisch

Umsetzung der Anforderungen - analytisch Umsetzung der Anforderungen - analytisch Titel des Lernmoduls: Umsetzung der Anforderungen - analytisch Themengebiet: New Economy Gliederungspunkt im Curriculum: 4.2.5.5 Zum Inhalt: In diesem Modul wird

Mehr

Collaborative Virtual Environments

Collaborative Virtual Environments Collaborative Virtual Environments Stefan Lücking Projektgruppe Kreativität und Technik AG Domik WS 02/03 09.01.2003 1/35 Was sind CVE? Versuch einer Definition : Ein CVE ist ein Programm, das eine virtuelle

Mehr

Ohne Mathematik undenkbar!

Ohne Mathematik undenkbar! Die tägliche - Suche: Ohne Mathematik undenkbar! Dipl.-Wirt.Math. Jan Maruhn FB IV - Mathematik Universität Trier 29. März 2006 29. März 2006 Seite 1 Gliederung Einleitung und Motivation Das Internet als

Mehr

TU München, Fakultät für Informatik Lehrstuhl III: Datenbanksysteme Prof. Dr. Thomas Neumann

TU München, Fakultät für Informatik Lehrstuhl III: Datenbanksysteme Prof. Dr. Thomas Neumann TU München, Fakultät für Informatik Lehrstuhl III: Datenbanksysteme Prof. Dr. Thomas Neumann Blatt Nr. 11 Übung zur Vorlesung Einsatz und Realisierung von Datenbanksystemen im SoSe15 Moritz Kaufmann (moritz.kaufmann@tum.de)

Mehr

Big Data: Definition, Einführung und Live Democase [C1] Arne Weitzel Uetliberg, 16.09.2014 www.boak.ch

Big Data: Definition, Einführung und Live Democase [C1] Arne Weitzel Uetliberg, 16.09.2014 www.boak.ch Big Data: Definition, Einführung und Live Democase [C1] Arne Weitzel Uetliberg, 16.09.2014 www.boak.ch Unstrukturierte Daten spielen eine immer bedeutender Rolle in Big Data-Projekten. Zunächst gilt es

Mehr

SharePoint und InfoPath von Microsoft ein Erklärungsversuch für Anwender

SharePoint und InfoPath von Microsoft ein Erklärungsversuch für Anwender SharePoint und InfoPath von Microsoft ein Erklärungsversuch für Anwender Was ist SharePoint? Dies ist eine berechtigte Frage, die zunehmend von Anwendern gestellt, aber selten zufriedenstellend beantwortet

Mehr

2. DFG- Workshop 3.1. Erfassung/Bewertung/Transfer. Beitrag von Peter Küsters. Spiegelung. Archiv. Bild 1: Unterschied zwischen FTP und Spiegelung

2. DFG- Workshop 3.1. Erfassung/Bewertung/Transfer. Beitrag von Peter Küsters. Spiegelung. Archiv. Bild 1: Unterschied zwischen FTP und Spiegelung 2. DFG- Workshop 3.1. Erfassung/Bewertung/Transfer Beitrag von Peter Küsters Formen des Datentransfers bei der Erfassung von Websites Im folgenden werden Methoden und Software zur Erfassung vorgestellt.

Mehr

Relationale Datenbanken in der Praxis

Relationale Datenbanken in der Praxis Seite 1 Relationale Datenbanken in der Praxis Inhaltsverzeichnis 1 Datenbank-Design...2 1.1 Entwurf...2 1.2 Beschreibung der Realität...2 1.3 Enitiy-Relationship-Modell (ERM)...3 1.4 Schlüssel...4 1.5

Mehr

Fachbereich Informatik Praktikum 1

Fachbereich Informatik Praktikum 1 Hochschule Darmstadt DATA WAREHOUSE SS2015 Fachbereich Informatik Praktikum 1 Prof. Dr. S. Karczewski Dipl. Inf. Dipl. Math. Y. Orkunoglu Datum: 14.April.2015 1. Kurzbeschreibung In diesem Praktikum geht

Mehr

Data Mining Anwendungen und Techniken

Data Mining Anwendungen und Techniken Data Mining Anwendungen und Techniken Knut Hinkelmann DFKI GmbH Entdecken von Wissen in banken Wissen Unternehmen sammeln ungeheure mengen enthalten wettbewerbsrelevantes Wissen Ziel: Entdecken dieses

Mehr

Histogramme in der Datenbankoptimierung. Marian Marx 26.06.2008

Histogramme in der Datenbankoptimierung. Marian Marx 26.06.2008 Histogramme in der Datenbankoptimierung Marian Marx 26.06.2008 Inhaltsverzeichnis 1. Histogramme im Allgemeinen 1.1 Definition Histogramm 1.2 Beispiel Histogramm 2. Histogramme in der Datenbankoptimierung

Mehr

Industrie 4.0 erfolgreich umsetzen mit präzisen Prognosen und automatisierten Entscheidungen

Industrie 4.0 erfolgreich umsetzen mit präzisen Prognosen und automatisierten Entscheidungen Blue Yonder in der Praxis Industrie 4.0 erfolgreich umsetzen mit präzisen Prognosen und automatisierten Entscheidungen Anwendungsbeispiele für Blue Yonder Predictive Analytics in der Industrie Heute werden

Mehr

Einführungsveranstaltung: Data Warehouse

Einführungsveranstaltung: Data Warehouse Einführungsveranstaltung: 1 Anwendungsbeispiele Berichtswesen Analyse Planung Forecasting/Prognose Darstellung/Analyse von Zeitreihen Performancevergleiche (z.b. zwischen Organisationseinheiten) Monitoring

Mehr

Einführung Datenbank

Einführung Datenbank Einführung Datenbank Einführung Datenbank Seite 2 Einführung in die Arbeit mit einer Datenbank Grundbegriffe: Datenbank - Datenbankmanagementsystem Eine Datenbank ist eine systematische strukturierte Sammlung

Mehr

paluno Software & CPS Matthias Book Innovationsworkshop Horizon 2020 ICT 23.01.2014

paluno Software & CPS Matthias Book Innovationsworkshop Horizon 2020 ICT 23.01.2014 Impulse aus dem CPS-Netzwerk NRW Software & CPS Matthias Book Innovationsworkshop Horizon 2020 ICT 23.01.2014 Cyber Physical NRW Überblick: Software-technische Herausforderungen Cyber Physical Systems

Mehr

SQL- & NoSQL-Datenbanken - Speichern und Analysen von großen Datenmengen

SQL- & NoSQL-Datenbanken - Speichern und Analysen von großen Datenmengen SQL- & NoSQL-Datenbanken - Speichern und Analysen von großen Datenmengen Lennart Leist Inhaltsverzeichnis 1 Einführung 2 1.1 Aufgaben einer Datenbank...................... 2 1.2 Geschichtliche Entwicklung

Mehr

Folge 19 - Bäume. 19.1 Binärbäume - Allgemeines. Grundlagen: Ulrich Helmich: Informatik 2 mit BlueJ - Ein Kurs für die Stufe 12

Folge 19 - Bäume. 19.1 Binärbäume - Allgemeines. Grundlagen: Ulrich Helmich: Informatik 2 mit BlueJ - Ein Kurs für die Stufe 12 Grundlagen: Folge 19 - Bäume 19.1 Binärbäume - Allgemeines Unter Bäumen versteht man in der Informatik Datenstrukturen, bei denen jedes Element mindestens zwei Nachfolger hat. Bereits in der Folge 17 haben

Mehr

Business Intelligence. Data Warehouse / Analyse Sven Elvers 2005-07-06

Business Intelligence. Data Warehouse / Analyse Sven Elvers 2005-07-06 Business Intelligence Data Warehouse / Analyse Sven Elvers 2005-07-06 Einleitung Dieses Dokument beschreibt einen für das Verständnis relevanten Teil der Präsentation. Business Intelligence Motivation

Mehr

Reaktive Systeme und synchrones Paradigma

Reaktive Systeme und synchrones Paradigma Sascha Kretzschmann Freie Universität Berlin Reaktive Systeme und synchrones Paradigma Einführung in das Seminar über synchrone Programmiersprachen Worum geht es? INHALT 2 Inhalt 1. Einleitung - Wo befinden

Mehr

3. Spezielle ER-Modelle und Tabellenableitung. Transformation von ER-Diagrammen in Relationen

3. Spezielle ER-Modelle und Tabellenableitung. Transformation von ER-Diagrammen in Relationen 3. Spezielle ER-Modelle und Tabellenableitung Spezialfälle von ER-Modellen Grundlage, was sind Relationen Transformation von ER-Diagrammen in Relationen 56 Lesebeispiel Access (Realisierungmodell!) 57

Mehr

PRODAS Professionelles Daten Analyse System. Daten. Wissen. Vorsprung.

PRODAS Professionelles Daten Analyse System. Daten. Wissen. Vorsprung. PRODAS Professionelles Daten Analyse System Daten. Wissen. Vorsprung. PRODAS überzeugt durch Funktionalität Synergie für Sie PRODAS ist das professionelle Daten Analyse System für Ihre Qualitätssicherung

Mehr

Softwaretool Data Delivery Designer

Softwaretool Data Delivery Designer Softwaretool Data Delivery Designer 1. Einführung 1.1 Ausgangslage In Unternehmen existieren verschiedene und häufig sehr heterogene Informationssysteme die durch unterschiedliche Softwarelösungen verwaltet

Mehr

Zero Effort Backup (ZEB) automatische Datensicherung über das Internet

Zero Effort Backup (ZEB) automatische Datensicherung über das Internet Ralph Lehmann. Computerservice und IT-Beratung. Kochstraße 34. 04275 Leipzig Ralph Lehmann Computerservice und IT-Beratung Kochstraße 34 04275 Leipzig Ralph Lehmann Computerservice und IT-Beratung Tel.:

Mehr

Musteraufbau eines Anforderungsprofils zur Einführung neuer Software

Musteraufbau eines Anforderungsprofils zur Einführung neuer Software Musteraufbau eines Anforderungsprofils zur Einführung neuer Software Ottostr. 15 96047 Bamberg Tel. +49/951/98046200 Fax +49/951/98046150 email: info@softcondev.de www: softcondev.de INHALT Vorwort Diese

Mehr

imc SEARCH gezielt suchen intelligent filtern schnell auswerten Zentrale Messdatenverwaltung und -organisation imc produktiv messen

imc SEARCH gezielt suchen intelligent filtern schnell auswerten Zentrale Messdatenverwaltung und -organisation imc produktiv messen imc SEARCH gezielt suchen intelligent filtern schnell auswerten Zentrale Messdatenverwaltung und -organisation imc produktiv messen imc SEARCH auf einen Blick Zentrale Ablage und Verwaltung von Mess- und

Mehr

SAP BW + Microsoft Excel Viel genutzt, oft unterschätzt

SAP BW + Microsoft Excel Viel genutzt, oft unterschätzt Corporate Performance Management SAP BW + Microsoft Excel Viel genutzt, oft unterschätzt Martin Krejci, Manager CPM Matthias Schmidt, BI Consultant Kristian Rümmelin, Senior BI Consultant Braincourt GmbH

Mehr

Text Mining und CRM. Hans Hermann Weber Univ. Erlangen IMMD 8, den 12.09.03

Text Mining und CRM. Hans Hermann Weber Univ. Erlangen IMMD 8, den 12.09.03 Text Mining und CRM Hans Hermann Weber Univ. Erlangen IMMD 8, den 12.09.03 Was ist Textmining Unstrukturierte Daten (Text) anreichern mit Strukturinformation: Metadaten hinzufügen Struktur (Segmentinformation)

Mehr

imc SEARCH gezielt suchen intelligent filtern schnell auswerten Zentrale Messdatenverwaltung und -organisation imc produktiv messen

imc SEARCH gezielt suchen intelligent filtern schnell auswerten Zentrale Messdatenverwaltung und -organisation imc produktiv messen imc SEARCH gezielt suchen intelligent filtern schnell auswerten Zentrale Messdatenverwaltung und -organisation imc produktiv messen www.imc-berlin.de/search imc SEARCH auf einen Blick Zentrale Ablage und

Mehr

PHP Kurs Online Kurs Analysten Programmierer Web PHP

PHP Kurs Online Kurs Analysten Programmierer Web PHP PHP Kurs Online Kurs Analysten Programmierer Web PHP Akademie Domani info@akademiedomani.de Allgemeines Programm des Kurses PHP Modul 1 - Einführung und Installation PHP-Umgebung Erste Lerneinheit Introduzione

Mehr

Big, Bigger, CRM: Warum Sie auch im Kundenmanagement eine Big-Data-Strategie brauchen

Big, Bigger, CRM: Warum Sie auch im Kundenmanagement eine Big-Data-Strategie brauchen Big, Bigger, CRM: Warum Sie auch im Kundenmanagement eine Big-Data-Strategie brauchen 01000111101001110111001100110110011001 Volumen 10 x Steigerung des Datenvolumens alle fünf Jahre Big Data Entstehung

Mehr

Messsystemanalyse (MSA)

Messsystemanalyse (MSA) Messsystemanalyse (MSA) Inhaltsverzeichnis Ursachen & Auswirkungen von Messabweichungen Qualifikations- und Fähigkeitsnachweise Vorteile einer Fähigkeitsuntersuchung Anforderungen an das Messsystem Genauigkeit

Mehr

ARIS II - Modellierungsmethoden, Metamodelle und Anwendungen

ARIS II - Modellierungsmethoden, Metamodelle und Anwendungen ARIS II - Modellierungsmethoden, Metamodelle und Anwendungen C3: Structured Query Language Lernziele: Nach der Bearbeitung dieser Lektion haben Sie folgende Kenntnisse erworben: Sie können elementaren

Mehr

Lastenheft. Auftraggeber IBR Abteilung ALG

Lastenheft. Auftraggeber IBR Abteilung ALG Lastenheft Auftraggeber IBR Abteilung ALG Versionsübersicht Version Datum Autor Status Kommentar 1.0 9. 2. 2011 Auftraggeber 1.1 1. 4. 2011 Auftraggeber Ergänzung Miniflur, Personenerkennung 1.1.1 6. 4.

Mehr

Data Quality Management: Abgleich großer, redundanter Datenmengen

Data Quality Management: Abgleich großer, redundanter Datenmengen Data Quality Management: Abgleich großer, redundanter Datenmengen Westendstr. 14 809 München Tel 089-5100 907 Fax 089-5100 9087 E-Mail Datras@Datras.de Redundanz und relationales Datenbankmodell Redundanz:

Mehr

Änderungen mit Version 4.6 SP1 Stand: 30.10.2013

Änderungen mit Version 4.6 SP1 Stand: 30.10.2013 Inhaltsverzeichnis Inhaltsverzeichnis... 1 Dienstplananwendung... 2 Performanzverbesserungen... 2 3 verschiedene Farbschemata für neuere Dialogfenster... 2 Neue Suchmöglichkeiten im Personalfilter... 3

Mehr

Business Intelligence

Business Intelligence Business Intelligence Anwendung 1 MInf1 HAW Hamburg Betreuender Professor: Prof. Dr. Zukunft by Jason Hung Vuong [12] Gliederung 1. Hamburg Energie Kooperation 2. Motivation 3. Business Intelligence 4.

Mehr

Ermittlung von Assoziationsregeln aus großen Datenmengen. Zielsetzung

Ermittlung von Assoziationsregeln aus großen Datenmengen. Zielsetzung Ermittlung von Assoziationsregeln aus großen Datenmengen Zielsetzung Entscheidungsträger verwenden heutzutage immer häufiger moderne Technologien zur Lösung betriebswirtschaftlicher Problemstellungen.

Mehr

ZUR BEDEUTUNG VON TRENDS IM INNOVATIONSMANAGEMENT

ZUR BEDEUTUNG VON TRENDS IM INNOVATIONSMANAGEMENT April 2013 ZUR BEDEUTUNG VON TRENDS IM INNOVATIONSMANAGEMENT von Maren Weiß & Prof. Dr. Michael Durst Welche Rolle spielen Trends in den Frühen Phasen im Innovationsmanagement? Wie setzen Unternehmen Trends

Mehr

Motivation. Themenblock: Data Preprocessing. Einsatzgebiete für Data Mining I. Modell von Gianotti und Pedreschi

Motivation. Themenblock: Data Preprocessing. Einsatzgebiete für Data Mining I. Modell von Gianotti und Pedreschi Motivation Themenblock: Data Preprocessing We are drowning in information, but starving for knowledge! (John Naisbett) Was genau ist Datenanalyse? Praktikum: Data Warehousing und Data Mining Was ist Data

Mehr

UI-Testing mit Microsoft Test Manager (MTM) Philip Gossweiler / 2013-04-18

UI-Testing mit Microsoft Test Manager (MTM) Philip Gossweiler / 2013-04-18 UI-Testing mit Microsoft Test Manager (MTM) Philip Gossweiler / 2013-04-18 Software Testing Automatisiert Manuell 100% 70% 1 Überwiegender Teil der Testing Tools fokusiert auf automatisiertes Testen Microsoft

Mehr

Verteilungsmodelle. Verteilungsfunktion und Dichte von T

Verteilungsmodelle. Verteilungsfunktion und Dichte von T Verteilungsmodelle Verteilungsfunktion und Dichte von T Survivalfunktion von T Hazardrate von T Beziehungen zwischen F(t), S(t), f(t) und h(t) Vorüberlegung zu Lebensdauerverteilungen Die Exponentialverteilung

Mehr

PharmaResearch. Analyse des Pressvorgangs. Mehr als Forschung und Entwicklung

PharmaResearch. Analyse des Pressvorgangs. Mehr als Forschung und Entwicklung PharmaResearch Analyse des Pressvorgangs Mehr als Forschung und Entwicklung Unterstützung für die Entwicklung PharmaResearch erfasst und wertet sämtliche Prozessdaten von instrumentierten Tablettenpressen

Mehr

So lebt B&R Industrie 4.0

So lebt B&R Industrie 4.0 Smart Factory So lebt B&R Industrie 4.0 Was heute unter dem Begriff Industrie 4.0 zusammengefasst wird, lebt der Automatisierungsspezialist B&R seit Jahren in der eigenen Produktion. Die durchgehend vernetzte

Mehr

Manueller Import von Dateien

Manueller Import von Dateien PhPepperShop Enterprise Datum: 22. Mai 2015 Version: 1.2 Manueller Import von Dateien Importe/Exporte Business Connector Glarotech GmbH Inhaltsverzeichnis 1. Manueller Import von Dateien im Caller...3

Mehr

Programmiertechnik II

Programmiertechnik II Analyse von Algorithmen Algorithmenentwurf Algorithmen sind oft Teil einer größeren Anwendung operieren auf Daten der Anwendung, sollen aber unabhängig von konkreten Typen sein Darstellung der Algorithmen

Mehr

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining.

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining. Personalisierung Personalisierung Thomas Mandl Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung Klassifikation Die Nutzer werden in vorab bestimmte Klassen/Nutzerprofilen

Mehr

Drei Strategien, die First-Call-Resolution zu verbessern

Drei Strategien, die First-Call-Resolution zu verbessern Drei Strategien, die First-Call-Resolution zu verbessern Das Messen von Kennzahlen ist allen Managern im Kunden-Service- Bereich ein Begriff. Die meisten von ihnen messen weit mehr als die branchenüblichen

Mehr

Messdaten auswerten und visualisieren 5 Tipps, die passende Darstellungstechnik für ein Messsystem zu finden

Messdaten auswerten und visualisieren 5 Tipps, die passende Darstellungstechnik für ein Messsystem zu finden Messdaten auswerten und visualisieren 5 Tipps, die passende Darstellungstechnik für ein Messsystem zu finden 27.05.13 Autor / Redakteur: Nach Unterlagen von National Instruments / Hendrik Härter Messdaten

Mehr

VIPAC Kamerabasierte Identifikationstechnologie

VIPAC Kamerabasierte Identifikationstechnologie INDUSTRIE LOGISTIK Technische Information VERKEHRSTECHNIK FORSCHUNG Logistik VIPAC Kamerabasierte Identifikationstechnologie VIPAC im Überblick Barcode-Lese-Software höchste Leseraten bei Fördergeschwindigkeiten

Mehr

Semantic Wiki Eine Erweiterung des Wiki-Konzepts von Harald Cichos

Semantic Wiki Eine Erweiterung des Wiki-Konzepts von Harald Cichos Semantic Wiki Eine Erweiterung des Wiki-Konzepts von Harald Cichos Seminar: Semantic Web Wintersemester 2005/2006 Universität Jena Seminarleiter: Prof. Dr. C. Beckstein, Dr. H. Sack, Dipl.-Inform. H. Peter

Mehr

Leseprobe. Holger Schrödl. Business Intelligence mit Microsoft SQL Server 2008. BI-Projekte erfolgreich umsetzen ISBN: 978-3-446-41210-1

Leseprobe. Holger Schrödl. Business Intelligence mit Microsoft SQL Server 2008. BI-Projekte erfolgreich umsetzen ISBN: 978-3-446-41210-1 Leseprobe Holger Schrödl Business Intelligence mit Microsoft SQL Server 2008 BI-Projekte erfolgreich umsetzen ISBN: 978-3-446-41210-1 Weitere Informationen oder Bestellungen unter http://www.hanser.de/978-3-446-41210-1

Mehr

Thementisch Anwendungsgebiete und

Thementisch Anwendungsgebiete und Thementisch Anwendungsgebiete und b Erfolgsgeschichten KMUs und Big Data Wien 08. Juni 2015 Hermann b Stern, Know-Center www.know-center.at Know-Center GmbH Know-Center Research Center for Data-driven

Mehr

E-Mail-Inhalte an cobra übergeben

E-Mail-Inhalte an cobra übergeben E-Mail-Inhalte an cobra übergeben Sie bieten ihren potentiellen oder schon bestehenden Kunden über ihre Website die Möglichkeit, per Bestellformular verschiedene Infomaterialien in Papierform abzurufen?

Mehr

Graphing - SNMP DATA - MRTG II

Graphing - SNMP DATA - MRTG II Graphing - SNMP DATA - MRTG II Netzwerkmanagement Software hat sich in den letzten Jahren vom hilfreichen Produkt zur integralen Grundlage für den professionellen IT Betrieb gewandelt. Grosse und leistungsfähige

Mehr

Standardisierte kompetenzorientierte schriftliche Reifeprüfung. Mathematik. Probeklausur März 2014. Teil-1-Aufgaben

Standardisierte kompetenzorientierte schriftliche Reifeprüfung. Mathematik. Probeklausur März 2014. Teil-1-Aufgaben Standardisierte kompetenzorientierte schriftliche Reifeprüfung Mathematik Probeklausur März 2014 Teil-1-Aufgaben Beurteilung Jede Aufgabe in Teil 1 wird mit 0 oder 1 Punkt bewertet, jede Teilaufgabe in

Mehr

Executive Summary BIG DATA Future Chancen und Herausforderungen für die deutsche Industrie

Executive Summary BIG DATA Future Chancen und Herausforderungen für die deutsche Industrie Executive Summary BIG DATA Future Chancen und Herausforderungen für die deutsche Industrie BIG DATA Future Opportunities and Challanges in the German Industry Zusammenfassung Die Menge der verfügbaren

Mehr

Carl-Engler-Schule Karlsruhe Datenbank 1 (5)

Carl-Engler-Schule Karlsruhe Datenbank 1 (5) Carl-Engler-Schule Karlsruhe Datenbank 1 (5) Informationen zur Datenbank 1. Definition 1.1 Datenbank-Basis Eine Datenbank-Basis ist eine Sammlung von Informationen über Objekte (z.b Musikstücke, Einwohner,

Mehr

Matrikelnr: Name: Vorname: Aufgabe 1 2 3 4 Summe Maximal erreichbare 20 30 30 20 100 Punktzahl Erreichte Punktzahl. Note:

Matrikelnr: Name: Vorname: Aufgabe 1 2 3 4 Summe Maximal erreichbare 20 30 30 20 100 Punktzahl Erreichte Punktzahl. Note: Fakultät für Wirtschaftswissenschaft Matrikelnr: Name: Vorname: : Modul 32711 Business Intelligence Termin: 27.09.2013, 9:00 11:00 Uhr Prüfer: Univ.-Prof. Dr. U. Baumöl Aufbau und Bewertung der Aufgabe

Mehr

Auswertung für Warenwirtschaft/ERP, Interbase und ODBC... 2

Auswertung für Warenwirtschaft/ERP, Interbase und ODBC... 2 Cubix O.L.A.P... 2 Auswertung für Warenwirtschaft/ERP, Interbase und ODBC... 2 Datenverbindung über ODBC... 4 Datenbereitstellung über SQL... 5 Festlegung der Dimensionen... 6 Festlegung der Summen...

Mehr

Multi Channel Invoice Processing - der Weg nach vorne - ein Guide

Multi Channel Invoice Processing - der Weg nach vorne - ein Guide Multi Channel Invoice Processing - der Weg nach vorne - ein Guide Eine Einführung zum Multi Channel Invoice Processing Tausende von Rechnungen werden jeden Monat in Unternehmen verarbeitet. Papier ist

Mehr

Business Intelligence mit Microsoft SQL Server 2005

Business Intelligence mit Microsoft SQL Server 2005 Business Intelligence mit Microsoft SQL Server 2005 Holger Schrödl ISBN 3-446-40463-5 Leseprobe Weitere Informationen oder Bestellungen unter http://www.hanser.de/3-446-40463-5 sowie im Buchhandel 4.6

Mehr