Industrie 4.0 und Smart Data

Größe: px
Ab Seite anzeigen:

Download "Industrie 4.0 und Smart Data"

Transkript

1 LEITFADEN Industrie 4.0 und Smart Data Die Welt der großen Datenmengen in Unternehmen Neue Möglichkeiten zur Erfassung und Auswertung großer Datenmengen am Beispiel der Qualitätssicherung von Konsumgütern

2 Inhaltsverzeichnis 1 Einführung 3 2 Anwendungsbeispiele 4 3 Grundlagen 7 4 Werkzeuge für die Datenanalyse 14 5 Verwaltung von Daten in Datenbanken 19 6 Informationsvisualisierung 25 7 Akzeptanz und Vertrauen: Mensch Maschine Smart Data 27 8 Implementierung der Technologien im betrieblichen Umfeld 28 9 Quellen und Anmerkungen 30 2

3 1 Einführung In den letzten Jahren werden zunehmend Technologien eingesetzt, die eine automatische Akquisition von Daten ermöglichen. Diese Technologien unterstützen die Erhebung und Auswertung nahezu beliebig großer Datenmengen, im Unterschied zur klassischen manuellen Erfassung. Dies betrifft beispielsweise alle relevanten Informationen zur Bewertung komplexer Situationen, indem mithilfe geeigneter Indikatoren derlei Situationen nicht nur in Echtzeit bewertet, sondern auch Prognosen erstellt werden können. Wesentlich für diese Technologien ist dabei die Verarbeitung großer Datenmengen in kurzen Zeiträumen, um die Aktualität der daraus folgenden Ergebnisse sicherstellen zu können. Die wichtigste Herausforderung ist dabei der Umgang mit unstrukturierten Daten, die bisher durch manuelle Erfassung in eine geeignete strukturierte Form gebracht wurden, um sie auszuwerten und weiterzuverarbeiten (siehe Abschnitt Grundlagen, S. 7). Die besonderen Herausforderungen, die sich beim Erfassen, Verwalten und Auswerten großer Datenmengen ergeben, werden unter dem Begriff Smart Data zusammengefasst. Folgende Kriterien sind unter anderem dafür charakteristisch (3V-Definition): Volume Es fallen sehr große Datenmengen an. Velocity Die Daten müssen unter engen zeitlichen Rahmenbedingungen ausgewertet werden. Variety Sehr unterschiedliche Typen von Daten müssen ausgewertet werden. Neben klassischen strukturierten Daten sind eventuell auch unstrukturierte Daten zu berücksichtigen. Als viertes Kriterium wird in einigen Fällen mit Veracity noch der Umgang mit unzuverlässigen oder ungenauen Daten benannt. Insbesondere die Ableitung strukturierter aus unstrukturierten Daten kann zu falschen oder ungenauen Informationen führen. Dieser Leitfaden gibt einen Überblick über die neuen Möglichkeiten zur Erfassung und Auswertung großer Datenmengen. Zielgruppen sind mittelgroße und große Unternehmen, deren IT-Leiter und -Abteilungen sich zunehmend mit diesem Thema auseinandersetzen. Ähnliches gilt für Geschäftsführer, Entwickler und Mitarbeiter von IT-Dienstleistern, die ihren Kunden diese neue Technologie näherbringen. Gerne können Sie uns in dem Zusammenhang auch direkt ansprechen. Zunächst stellen wir die Möglichkeiten von Smart Data anhand einiger Anwendungsbeispiele dar. Danach folgt ein Überblick über die besonderen Herausforderungen an die IT-Infrastruktur. Zum besseren Verständnis dieser Herausforderungen präsentieren wir Grundlagen bezüglich der Verwaltung und Analyse von Daten. Danach folgen Abschnitte, die sich mit der Erfassung, Verwaltung, Analyse und Visualisierung sehr großer Datenmengen beschäftigen. 3

4 2 Anwendungsbeispiele Smart Data-Technologien wurden ursprünglich für Suchmaschinen, soziale Netzwerke sowie große Online-Shops entwickelt. Durch das schnelle Wachstum des Internets und der stetig steigenden Zahl an Servern und Anwendern galt es, sehr große Datenmengen zu bewältigen. Zu den damit verbundenen Herausforderungen zählten: Die Suche in sehr großen Datenbeständen Die Aufnahme von Daten einer Vielzahl parallel arbeitender Anwender Die Analyse großer Datenmengen, zum Beispiel zur Ableitung von Nutzerprofilen Zu diesem Zweck wurden existierende Technologien weiterentwickelt und durch neue Konzepte ergänzt. Dazu gehören beispielsweise neue Datenbankkonzepte (NoSQL, NewSQL), die parallele Verarbeitung von Daten in Clusterrechnern sowie neue Methoden des maschinellen Lernens, um automatisiert Zusammenhänge in Daten erkennen zu können. In den letzten Jahren haben diese Technologien und Konzepte auch zunehmend Anwendung im betrieblichen oder öffentlichen Umfeld gefunden: Verbesserte Absatzprognosen durch eine möglichst vollständige Erfassung aller Einflussfaktoren. Dazu gehören Faktoren wie Eigenschaften oder Bewerbungsgrad der Artikel sowie Informationen aus dem Umfeld (beispielsweise Eigenschaften von Konkurrenzprodukten, Wetterdaten oder auch die Jahreszeit). Eine solche Lösung der Otto Gruppe wurde mit dem Deutschen Innovationspreis 2014 ausgezeichnet. 1 4

5 Für das Verkehrsmanagement werden in verschiedenen Regionen Wetterdaten und Verkehrsdaten erfasst, auf deren Basis Prognosen für die Verkehrslenkung erstellt werden. Die Verkehrsdaten werden etwa von spezialisierten Sensoren geliefert (z. B. mittels Induktionsschleifen, Radarmelder, etc.), sowie von GPS-Modulen (wie sie auch in Smartphones enthalten sind), von Unfall- und Staumeldungen sowie von Videokameras. Ein integriertes System dieser Art wurde unter Beteiligung der KTH Royal Institute of Technology sowie der International Business Machines Corporation (IBM) in Stockholm aufgebaut. Dieses wertet neben anderen Daten aktuell auch anonymisierte GPS-Positionen pro Sekunde von Handybesitzern aus. 2 Zur Untersuchung der Nebenwirkungen von Medikamenten sowie der Patientenzufriedenheit mit Behandlungsmethoden können Daten aus Internet-Foren, sozialen Netzwerken sowie aus Blogs genutzt werden. Entsprechende Dienstleistungen bietet zum Beispiel das Unternehmen Treato Ltd an. 3 Erkennen von Betrugsversuchen bei finanziellen Transaktionen. Dazu werden Informationen in Datenbanken anhand von Parametern wie Art, Höhe, Ziel und Ort sowie Frequenz der Transaktionen hinsichtlich typischer Muster analysiert, die auf Betrugsversuche hinweisen. Entsprechende Software und Dienstleistungen werden unter anderem von der Paymint AG für Kreditkartentransaktionen angeboten. 4 Betrachten wir nun etwas ausführlicher ein Beispiel im Zusammenhang mit der Qualitätssicherung von Konsumgütern und den damit verbundenen Herausforderungen: Konsumgüter werden in einem Unternehmen auf unterschiedlichen Anlagen produziert. Aufgrund großer Stückzahlen ist die betriebsinterne Qualitätssicherung nur über Stichproben möglich. So kommt es immer wieder vor, dass fehlerhafte oder defekte Produkte an Kunden ausgeliefert werden. Diese können per , bei Nennung der Auftragsnummer sowie einer kurzen Fehlerbeschreibung Ersatz anfordern. Zur Verbesserung wird ein System aufgebaut, das möglichst vollständig relevante Daten erfasst, die einerseits die Qualität der Produkte beeinflussen und andererseits Informationen über die Produktqualität liefern: 1. Die Produktionsanlagen werden mit Sensoren ausgestattet, die verschiedene Daten erfassen: Beispielsweise Stromverbrauch, Temperatur oder den Betriebsmodus. Diese Daten dienen dazu, den Verschleiß der Anlagen sowie dessen Auswirkungen auf die Qualität der Produkte zu analysieren. Da in unserem Beispiel eventuell auch kurze Verbrauchsspitzen relevant sein können, werden diese Daten im Millisekundentakt erfasst. 5

6 2. Zur Unterstützung der Auswertung dieser Daten stellt das Unternehmen zusätzlich Informationen aus betrieblichen Datenbanken zur Verfügung. Dazu gehören zum Beispiel die Zuordnung von produzierten Gütern zu Anlagen im zeitlichen Verlauf sowie Informationen zur Wartung dieser Anlagen. 3. Die Ergebnisse der untersuchten Stichproben werden mit den erfassten Betriebsdaten verglichen und daraus Beziehungen zwischen Verschleiß, Wartung und Qualität der Produkte abgeleitet. 4. Aus den Kunden- s werden mit Hilfe der Bestellnummer die zugehörigen Produkte bestimmt und Probleme im Zusammenhang damit ebenfalls mit den Betriebsdaten in Beziehung gesetzt. Neue Konzepte und IT-Strukturen Für die Auswertung dieser Daten existieren verschiedene Herausforderungen, die sich mit einer klassischen IT-Infrastruktur in der Regel nicht lösen lassen. So werden beispielsweise pro Tag Verbrauchswerte erfasst, die nicht nur gemeinsam mit anderen Werten gespeichert, sondern zusammen mit Temperaturen und Betriebsmodi zur Ableitung des Verschleißes aggregiert werden müssen. Dies gilt insbesondere für größere Intervalle. So könnte etwa der Verschleiß mit Hilfe der Summe von gewichteten Verbrauchswerten berechnet werden, wobei die Gewichtung aus der zugehörigen Temperatur und dem entsprechenden Betriebsmodus abgeleitet wird. Sollen für diese Berechnung alle Daten der vergangenen 100 Tage berücksichtigt werden, dann müsste das System 25,92 Milliarden Werte in diese Rechnung mit einbeziehen. Eine konventionelle Datenbank wäre mit der Bereitstellung dieser großen Datenmenge für eine interaktive Anwendung mit Antwortzeiten im Sekundenbereich überfordert. Entsprechend werden für solche Aufgabenstellung neue Datenbankkonzepte genutzt (NoSQL, NewSQL). Eine weitere Herausforderung in diesem Kontext ist die Nutzung von s: Bereits deren automatisierte Zuordnung ist mit klassischen Ansätzen nicht unmittelbar möglich. Noch schwieriger gestaltet sich die Ableitung des tatsächlichen Problems aus einer . Zu den wesentlichen Ansätzen zählt es daher, strukturierte Daten aus unstrukturierten Texten abzuleiten, um diese beispielsweise mit Betriebsdaten zu verknüpfen. Wesentlich für die Analyse der Beziehungen zwischen Produktqualität sowie Betrieb und Wartung der Anlagen ist das Erkennen von Abhängigkeiten zwischen verschiedenen Parametern. Diese Abhängigkeiten stellen in der Regel keine feste Beziehung dar, sondern sind eher statistischer Natur. Sie lassen sich durch eine Wahrscheinlichkeitsverteilung repräsentieren. So kann eventuell eine Wahrscheinlichkeit für ein defektes Produkt bestimmt werden, abhängig von der Temperatur in einer Anlage, ohne tatsächlich einen zwingenden Zusammenhang herzustellen (also nicht: Bei einer Temperatur unter 50 Grad treten keine Defekte auf ). Eine klassische manuelle Analyse solcher Abhängigkeiten ist durch die große Anzahl unterschiedlicher Parameter in einem betrieblichen Umfeld in der Regel zu aufwändig. Daher kommen zunehmend moderne Methoden des statistischen Lernens zum Einsatz, mit denen das Auffinden solcher Abhängigkeiten automatisiert werden kann. 6

7 3 Grundlagen 3.1 Automatisierte Erfassung von Daten Die automatisierte Erfassung von Daten vermeidet den Flaschenhals bei manueller Dateneingabe. Damit lassen sich mehr Daten für mehr Details sowie für eine höhere zeitliche Auflösung erfassen. Ein wesentlicher Vorteil ist außerdem die Aktualität der automatisch erfassten Daten. Bei entsprechender Organisation ist damit sogar die Bereitstellung von Daten in Echtzeit möglich. Eine typische Datenquelle in diesem Zusammenhang sind Sensoren in Anlagen, mit denen sich automatisch Daten erfassen lassen. Ein anderes Beispiel sind RFID-Tags oder NFC-Tags, die automatisch Objekte erkennen. Grundsätzlich lässt sich dies auch über Barcodes erreichen. Allerdings ist hier in der Regel ein manueller Eingriff nötig, um den Leser oder das Objekt in eine entsprechende Position zu bringen. Für die Positions-Erkennung sind GPS-Module heute weit verbreitet. Die Positionsdaten lassen sich auch über drahtlose Netzwerke übertragen, sodass zum Beispiel die Position von Fahrzeugen erfasst werden kann. Die Erfassung von Objektpositionen in Gebäuden ist etwas aufwändiger, da häufig GPS-Signale durch die Gebäudestruktur abgeschirmt werden. Eine Alternative sind zum einen WLAN-basierte Ortungssysteme. Eine andere Option wären RFID-Tags mit großer Reichweite. 7

8 Dabei erfassen Ortungssensoren diese Objekte und können damit zumindest grob deren Position abschätzen. Die bisher dargestellten Möglichkeiten liefern direkt strukturierte Daten, die unmittelbar weiter verarbeitet werden können. Deutlich häufiger sind allerdings unstrukturierte Daten wie Texte, Bilder, Video- oder Audiodaten. Aus diesen müssen zunächst strukturierte Daten abgeleitet werden, um sie mit anderen Daten verknüpfen zu können. Im folgenden Abschnitt wird das Thema strukturierte und unstrukturierte Daten genauer erläutert. Wesentlich für die automatische Erfassung von Daten sind zuverlässige drahtgebundene oder drahtlose Computernetzwerke mit ausreichender Bandbreite. Erst die flächendeckende Verfügbarkeit solcher Netzwerke ermöglicht eine automatisierte Erfassung. Tatsächlich ist das Internet nicht nur die Basisinfrastruktur für die Vernetzung, sondern auch eine immer wichtigere Datenquelle. Dazu gehören zum Beispiel Kundenbewertungen oder Produktankündigungen von Konkurrenten, einschließlich deren Beschreibungen. Interessant, etwa für Einkauf oder Vertrieb, sind auch unterschiedliche Nachrichtenquellen, die Kontextinformationen über Märkte liefern. In Zukunft wird das Internet noch stärker für die Kommunikation zwischen Geschäftspartnern genutzt werden. So ließe sich bereits heute die gesamte Korrespondenz darüber abwickeln. Mit der Verwendung sogenannter digitaler Signaturen wäre die Zuordnung von Briefen oder Dokumenten zu Personen und Organisationen sogar deutlich zuverlässiger möglich als mit einer klassischen Unterschrift. Ein weiterer großer Vorteil: Die erhaltenen Briefe oder Dokumente liegen sofort in digitaler Form vor, ohne manuellen Scanvorgang. 3.2 Strukturierte versus unstrukturierte Daten Die zentrale Herausforderung für die automatisierte Erfassung von Daten ist die Nutzung sogenannter unstrukturierter Daten. Zum besseren Verständnis dieser Herausforderung zunächst eine Erläuterung, was strukturierte Daten eigentlich sind: Strukturierte Daten sind wichtig für die Konstruktion von Programmen, da sie dem Software-Entwickler helfen, aus gespeicherten Daten relevante Angaben zu identifizieren und in seinem Programm zu verknüpfen. Betrachten wir dazu das einfache Beispiel einer Datenbank, bei der Angestellte über Personalnummer, Personenname, Alter und Monatsgehalt sowie Produkte über Produktnummer, Produktname und Preis beschrieben werden. Der Entwickler soll nun ein Programm realisieren, das die Namen aller Angestellten zusammen mit dem Monatsgehalt ausgibt. Dabei soll die ausgegebene Liste aufsteigend nach dem Gehalt sortiert sein (kleinstes Gehalt zuerst). Die Datenbank enthält jetzt viele Namen und Zahlen, die allerdings sehr unterschiedliche Bedeutungen haben. So sind für diese Anfrage nicht die Produktnamen von Interesse. Bei den Zahlen haben wir noch mehr Möglichkeiten. Hier müssen wir sicherstellen, dass das Programm zum Beispiel 8

9 nicht den Preis von Produkten berücksichtigt, sondern nur das Gehalt von Personen. Allerdings werden auch Personen durch unterschiedliche Zahlen beschrieben, wie zum Beispiel durch das Alter oder das Monatsgehalt. Auch hier ist es wichtig, die richtige Zahl für eine Person zu berücksichtigen. Insgesamt brauchen wir für jeden gespeicherten Wert also folgende Zusatzinformation: Auf welches Objekt bezieht sich ein Wert? In unserem Beispiel kann dies entweder eine Person oder ein Produkt sein. Im Allgemeinen spricht man in der Informatik von einer Entität. Mit diesem Begriff können auch abstrakte Objekte, wie zum Beispiel eine Rechnung erfasst werden. Für eine Entität existieren eventuell Werte mit einem identischen Datentyp, die jedoch eine unterschiedliche Rolle spielen. So kann in unserem Beispiel eine Zahl entweder das Alter oder das Gehalt einer Person darstellen. Entsprechend muss bei einer Zuordnung eines Wertes noch die Art der Beziehung zur Entität geklärt werden. Entsprechend können für eine Person Attribute wie Alter und Gehalt existieren, wie beispielsweise die Werte 35 und Grundsätzlich besteht auch die Möglichkeit, zwei Entitäten über eine Relation in Beziehung zueinander zu setzen. So kann eine Person zum Beispiel in der Beziehung Eigentümer zu einem Kraftfahrzeug stehen. Die klassische Welt der Informationsverarbeitung verwaltet grundsätzlich atomare Informationseinheiten, die jeweils aus drei Komponenten bestehen (Tripel). Dieses Tripel besteht aus einer Entität (z. B. eine Person), die über eine Beziehung (z. B. Gehalt oder Eigentümer) mit einem Wert (z. B. Zahl) oder einer anderen Entität (z. B. Kraftfahrzeug) verknüpft ist. Die nebenstehende Abbildung zeigt solche atomaren Informationen in grafischer Form. Diese Art der Informationsverwaltung ermöglicht die einfache Verarbeitung und Verknüpfung von Daten auch aus sehr unterschiedlichen Quellen. Wesentliche Voraussetzung dafür ist allerdings häufig eine manuelle Vorverarbeitung, da die verfügbaren Daten in der Regel noch nicht die dafür notwendige Form aufweisen. Person Person Gehalt Eigentümer Zahl Kraftfahrzeug Beispiele für atomare Informationen (Quelle: Eigene Darstellung). Wesentliche Daten zu einer Person können ursprünglich in Textform vorliegen, etwa bei einem Arbeitsvertrag. Dieser enthält den Namen einer Person, dessen Geburtsdatum sowie das Gehalt. Allerdings tauchen diese Daten nicht an definierten Stellen im Vertrag auf. Entsprechend hat der Vertragstext keine ausreichende Struktur, um diese Daten unmittelbar extrahieren, verarbeiten und mit anderen Daten verknüpfen zu können. 9

10 Grundsätzlich existieren natürlich schon seit geraumer Zeit Systeme, die auch solche Dokumente effizient verwalten können. Ein typischer Zugriff darauf ist über eine Volltextsuche möglich, bei der Anwender einen oder mehrere Begriffe eingeben. Ein Anwender könnte beispielsweise Vor- und Nachname einer Person angeben, um deren Arbeitsvertrag zu finden. Allerdings liefert die Suche dann nur jene Verträge, die den eingegebenen Namen an beliebiger Stelle enthalten. Der in dem Text gefundene Name könnte sich allerdings auch auf einen Mitarbeiter der Personalabteilung beziehen, der diesen Vertrag ausgestellt hat oder auf den Vorgesetzten des Angestellten. Damit ist die Rolle des gefundenen Namens zu dem Vertrag relativ unklar. Noch schwieriger gestaltet sich die Suche nach Verträgen mit einem Gehalt, das eine vorgegebene Untergrenze aufweist. Grundsätzlich ließen sich zwar ohne Probleme alle Zahlen aus einem Vertrag extrahieren. Aber auch hier ist deren Rolle in Bezug auf den Vertrag unklar. So könnte dieser zum Beispiel Vergütungsgruppen von 1 16 enthalten. Da es sich dabei, gemessen an einem Gehalt, um kleine Zahlen handelt, würde bei dem Vergleich dieser Zahlen mit der Gehaltsuntergrenze das System (fast) keine Verträge liefern. Wesentlich für die weitere Verarbeitung solch unstrukturierter Texte ist die Extraktion strukturierter Daten in dem beschriebenen Format. Dazu muss der Kontext eines Namens oder einer Zahl im Vertrag analysiert werden, um die Rolle dieser Werte zu identifizieren. Hierzu lassen sich zum Beispiel Methoden des sogenannten Text Mining einsetzen, die später in diesem Leitfaden genauer beschrieben werden. Grundsätzlich ist dabei zu berücksichtigen, dass diese Methoden nicht perfekt funktionieren. Daher muss der Anwendungskontext passen, sodass auch kleinere Ungenauigkeiten akzeptabel sind. Alternativ dazu sind geeignete Maßnahmen zu treffen, die eine Auflösung unklarer Situationen durch einen Eingriff von Seiten des Menschen ermöglichen. In ähnlicher Weise lassen sich auch strukturierte Informationen aus Bildern, Audio- und Videodaten mit geeigneten Verfahren ableiten. Aber auch hier führen diese Verfahren nicht in allen Fällen zu ausreichend genauen Ergebnissen. 3.3 Lernverfahren Eine wichtige Motivation für die Akquisition großer Datenmengen ist das frühzeitige Erkennen besonderer Situationen und Probleme sowie die Möglichkeit, Prognosen zu erstellen. Dazu müssen geeignete Parameter als Indikatoren in den Daten identifiziert werden, aus denen Situationen oder zukünftige Verläufe anderer Parameter abgeschätzt werden können. In unserem Beispiel könnten diese Indikatoren die Parameter Stromverbrauch, Temperatur und Betriebsmodus der Anlagen sein. Mit Hilfe dieser Indikatoren können dann eventuell Parameter wie der Verschleiß einer Anlage und damit zusammenhängend der Prozentsatz der defekten Produkte abgeleitet werden. Die Identifikation geeigneter Indikatoren sowie deren Zusammenhang mit besonderen Situationen oder zukünftigen Ereignissen ist eine anspruchsvolle Aufgabe, die gerade bei sehr großen Datenmengen manuell nur mit unverhältnismäßig großem Aufwand erfüllt werden kann. Mit modernen Verfahren des sogenannten maschinellen Lernens lässt sich das Erkennen des Zusammenhangs mit bestimmten Situationen oder zukünftigen Ereignissen automatisieren. 10

11 Grundsätzlich arbeiten diese Verfahren so, dass Indikatoren als Werte von Eingangsvariablen X = {x 1, x 2, x 3, } interpretiert werden. Aus den Werten dieser Eingabevariablen lassen sich dann Situationen oder zukünftige Ereignisse als Werte der Ausgabevariablen Y = {y 1, y 2, y 3, } ableiten. In unserem Beispiel lassen sich als Eingabevariablen Stromverbrauch, Temperatur und Betriebsmodus als Zeitreihen im zeitlichen Verlauf darstellen: Stromverbrauch: I 1, I 2, I 3, I 4, I 5, Temperatur: T 1, T 2, T 3, T 4, T 5, Betriebsmodus: M 1, M 2, M 3, M 4, M 5, Die Ausgaben in diesem Beispiel werden durch Variablen repräsentiert, die angeben, ob ein Produkt den Qualitätsanforderungen entspricht oder nicht: Qualität: Q 1, Q 2, Q 3, Q 4, Q 5, In unserem Beispiel sollen die Variablen lediglich die Werte defekt oder nicht defekt liefern (binäre Variablen). Ein Lernverfahren wird zunächst mit vorhandenen Daten trainiert, bei denen die Werte der Ausgabevariablen für verschiedene Kombinationen von Eingabevariablen bekannt sind. Für ein effektives Training muss dazu eine ausreichende Anzahl an Datensätzen mit bekannten Ausgaben existieren. Grundsätzlich gilt dabei, dass mit einer größer werdenden Menge von Variablen auch die Menge der Trainingsdaten deutlich wachsen muss. Sind die Werte der Eingabevariablen untereinander unabhängig, dann kann die Menge der benötigten Trainingsdaten im ungünstigsten Fall sehr schnell wachsen (exponentielles Wachstum). In unserem Beispiel könnten wir die Anzahl der Variablen dadurch reduzieren, dass wir jeweils einen Stresswert" für den Stromverbrauch und die Temperatur berechnen. Dazu könnten wir etwa verschiedenen Verbrauchswerten unterschiedliche Stresswerte zuordnen, sodass sehr hohe Verbrauchswerte mit überproportional hohen Stresswerten bestraft werden. Entsprechend werden Stresswerte für Temperaturen abgeleitet, die sehr niedrige oder sehr hohe Temperaturen bestrafen. Die Stresswerte seit der letzten Wartung einer Anlage können nun getrennt nach Temperatur und Stromverbrauch bis zum Zeitpunkt einer betrachteten Ausgabevariable (also des produzierten Produkts) aufsummiert werden. Zur Vereinfachung der Analyse betrachten wir nur noch einen Betriebsmodus, sodass wir die Werte der Ausgabevariablen in einem zweidimensionalen Koordinatensystem mit jeweils einer Achse für den Stresswert Temperatur und den Stresswert Stromverbrauch darstellen können (siehe Abbildung). Die defekten Produkte werden hier mit einem Kreuz und die anderen Produkte mit einem Kreis dargestellt. Summierter Stresswert Stromverbrauch Summierter Stresswert Temperatur Zusammenhang Temperatur, Stromverbrauch und Produktqualität (Quelle: Eigene Darstellung). 11

12 Für eine Aufgabenstellung dieser Art kann eine sogenannte Support Vector Machine als Lernverfahren eingesetzt werden. In einem zweidimensionalen Fall wird hier eine Trennlinie bestimmt, die mit einem möglichst breiten Pfad die beiden unterschiedlichen Punktemengen voneinander trennt. In einem dreidimensionalen Fall wird eine entsprechende Ebene und in höherdimensionalen Anwendungen eine Hyperebene bestimmt. Lassen sich die Ergebnismengen mit diesem Ansatz trennen, dann wird von linear separierbaren Daten gesprochen. Im Allgemeinen lassen sich die Daten allerdings nicht linear voneinander trennen. In unserem Beispiel könnte der Bereich der vollständig funktionierenden Produkte ein Oval im Bereich des zweidimensionalen Koordinatensystems bilden. Zur Behandlung dieser Fälle existieren Erweiterungen des Konzepts, bei der die Punkte in ein höherdimensionales Koordinatensystem eingebettet werden, sodass sie hier wieder linear trennbar sind ( Kernel Trick ). In unserem Beispiel haben wir eventuell ein weiteres Problem: Der Stress für eine Anlage hängt wahrscheinlich nicht nur vom aktuellen Wert für Stromverbrauch und Temperatur ab, sondern auch von den vorigen Werten. Grundsätzlich existiert auch eine Abhängigkeit der Werte untereinander, da zum Beispiel das Ausmaß der Veränderung von Temperatur und Stromverbrauch im Millisekundenbereich begrenzt sein dürfte. Existieren solche Abhängigkeiten von Variablen untereinander, so sind andere Formen des maschinellen Lernens günstig. Mit einem sogenannten Hidden Markov Modell lassen sich Sequenzen von (Zufalls-)Variablen untersuchen, bei denen die Wahrscheinlichkeit für das Auftreten eines Wertes für eine Variable von den Werten der vorigen Variablen in dieser Sequenz abhängig ist. Dies ist etwa bei Zeitreihen häufig der Fall. Gestaltet sich der Zusammenhang zwischen den Variablen komplexer, so lassen sich sogenannte Conditional Random Fields einsetzen beispielsweise bei Variablen, die nicht nur von Vorgängern, sondern auch von Nachfolgern abhängig sind. Nehmen wir etwa das Finden von Namen in Texten: Hier ist die Wahrscheinlichkeit, dass ein Wort einen Namen darstellt, von Begriffen vor und nach dem untersuchten Wort abhängig. Bei der Wortkombination Herr Bauer erhöht zum Beispiel das Wort Herr deutlich die Wahrscheinlichkeit, dass das folgende Wort Bauer ein Name ist. Hingegen signalisiert in der Bauer erntet das Wort erntet..., dass in diesem Fall der Begriff Bauer eher keinen Namen darstellt. Die Anforderungen an Lernverfahren Eine besondere Herausforderung bei der Anwendung von Lernverfahren ist die Zuverlässigkeit eines entdeckten Zusammenhangs. Grundsätzlich ist es möglich, dass ein Zusammenhang für die Trainingsdaten entdeckt wird, dieser aber bei Anwendung des Verfahrens nur noch gering oder sogar nicht mehr vorhanden ist. Daher wird ein Lernverfahren in der Regel nur auf einen Teil der Trainingsdaten angewendet (z. B. 80%) und das trainierte Verfahren dann nochmal mit den verbleibenden Trainingsdaten getestet. Leider kann es trotz solcher Tests passieren, dass ein trainiertes Verfahren bei der späteren Anwendung unbefrie- 12

13 digende oder gar völlig unbrauchbare Ergebnisse liefert, obwohl es für Trainingsdaten fast perfekt funktioniert. Damit lässt sich zunächst die Qualität des Verfahrens nicht ausschließlich auf der Basis der verwendeten Trainingsdaten bewerten. Betrachten wir dazu wieder unser Beispiel von Produktionsanlagen. Hier könnten Anlagen existieren, bei denen sich Temperatur und Stromverbrauch während der Produktion nur geringfügig ändern und damit praktisch keinen Einfluss auf die Produktqualität haben. In diesem Fall wären die entsprechenden Werte in dem Diagramm aus der Abbildung von Seite 11 willkürlich verteilt. Ein mögliches Lernverfahren könnte jetzt lediglich alle Punkte der Trainingsdaten zusammen mit ihren summierten Stresswerten und dem Ergebnis abspeichern ( defekt oder nicht defekt ). Bei der Anwendung des Verfahrens würde der Abstand eines neuen Punkts von den vorhandenen Punkten bestimmt und als Ergebnis der Wert des nächsten Punktes ausgegeben. Dieses Verfahren würde für die Trainingsdaten zwar perfekte Ergebnisse liefern. Für weitere Daten kann das Verfahren aber keine sinnvollen Ergebnisse mehr liefern, da hier zwischen den betrachteten Stresswerten und der Produktqualität kein Zusammenhang besteht. Das dargestellte Problem ist direkt mit der sogenannten Kapazität eines Lernverfahrens verbunden. Die Kapazität leitet sich aus der Anzahl der Trainingsfälle ab. Hierzu wird analysiert, für welche Menge an Trainingsdaten das Verfahren noch ein perfektes Ergebnis liefern kann genauer gesagt beim Einsetzen beliebiger Ergebniskombinationen (Werte der Ergebnisvariablen). Die Kapazität des Lernverfahrens wächst dann mit dieser Anzahl an Trainingsfällen. Das vorgestellte Lernverfahren mit der direkten Speicherung aller Daten verfügt über unendliche Lernkapazität. Damit wird deutlich, dass ein Lernverfahren dann gut geeignet ist für eine Aufgabenstellung, wenn es eine kleine Kapazität hat und trotzdem gute Ergebnisse für eine große Menge an Trainingsdaten liefert. Wobei diese Ergebnisse nicht zwingend perfekt sein müssen. Erst dann kann mit einer gewissen Zuverlässigkeit erwartet werden, dass das trainierte Verfahren auch für andere Daten sinnvolle Ergebnisse erzielt. Intuitiv lässt sich dieser Zusammenhang so erklären, dass für die Trainingsdaten ein möglichst einfacher Zusammenhang zwischen Eingabe- und Ausgabevariablen erkannt werden muss. Wenn dieser einfache Zusammenhang für eine große Menge an Trainingsdaten gilt, dann ist es plausibel, diesen Zusammenhang auch auf andere Daten zu übertragen. Wird dagegen ein komplexer Zusammenhang abgeleitet, der sich durch weitere Trainingsdaten auch noch ändern kann, dann gilt ein solcher Zusammenhang eventuell nicht mehr für weitere Daten. 13

14 4 Werkzeuge für die Datenanalyse 4.1 Standardanalysen Die Analyse von Daten ist ein Anwendungsgebiet, das bereits klassische Datenbankmanagement-Systeme mit ausgewählten Standardoperationen unterstützten. Betrachten wir dazu wieder unser Beispiel einer Betriebsdatenerfassung mit Sensoren für Stromund Temperaturverbrauch sowie für den Betriebsmodus der Anlagen in einem Unternehmen. Zur Analyse dieser Daten stehen mindestens die folgenden Operationen zur Verfügung: Zunächst ist es interessant, die gesamte Anzahl aller Einträge der Tabelle zu bestimmen Der Gesamtverbrauch einer Anlage kann durch die Summe aller Verbrauchswerte bestimmt werden In ähnlicher Weise lässt sich der Durchschnitt aller Verbrauchswerte einer Anlage berechnen Für die erfassten Betriebstemperaturen können das Minimum und das Maximum bestimmt werden Obwohl praktisch alle Datenbankmanagement-Systeme mindestens die oben im Kasten genannten fünf Aggregatfunktionen unterstützen, können derlei Operationen bei einer sehr großen Menge an Einträgen zu Rechenzeiten führen, die nicht mehr akzeptabel sind. Ein weiterer wesentlicher Ansatz für die Analyse von Daten ist deren Gruppierung. So können zum Beispiel Verbrauchsdaten monatsweise summiert werden, um einzelne Monate zu vergleichen. Grundsätzlich können diese Gruppierungskriterien nahezu frei gewählt werden, um beispielsweise die summierten Verbräuche von Anlagen an verschiedenen Standorten zu vergleichen. Neben der Effizienz zählt die Entwicklung einer geeigneten Benutzeroberfläche zur wesentlichen Herausforderung, sodass auch gelegentliche Anwender ohne Programmierkenntnisse nahezu beliebige Auswertungen ohne Einschränkungen durchführen können. Solche Benutzeroberflächen werden von einschlägigen Business Intelligence Tools zur Verfügung gestellt. Im Idealfall können diese Tools sogar die kompletten Daten im Hauptspeicher halten, sodass die meisten Operationen ohne spürbare Verzögerung ausgeführt werden können. 14

15 4.2 Statistische Analysen und Data Mining Die im vorigen Abschnitt vorgestellten Operationen beschränken sich auf die Aggregation von Daten. Für die Analyse von Beziehungen zwischen unterschiedlichen Daten sind diese Operationen in der Regel noch nicht ausreichend. Betrachten wir dazu die Nutzung von Anlagen im saisonalen Verlauf. Dazu können mit den bisherigen Operationen zwar die Verbrauchsdaten getrennt nach den vier Jahreszeiten summiert werden. Allerdings kann ein geringerer Verbrauch im Frühling als im Sommer bei stetigen Schwankungen Zufall sein. Erst durch eine längere Zeitreihe ließen sich entsprechende, auch für Prognosen geeignete Zusammenhänge aufdecken. Von zentraler Bedeutung für die Analyse ist dabei die bedingte Wahrscheinlichkeit eines Ereignisses (z. B. der summierte Verbrauch), in Abhängigkeit von einem anderen Ereignis (z. B. die Jahreszeit). Für die Abschätzung einer solchen Wahrscheinlichkeitsverteilung existieren geeignete statistische Verfahren. Mit deren Hilfe können auch Fehler im Zuge einer solchen Schätzung analysiert werden, abhängig von den zur Verfügung stehenden Daten. Eine einzelne Zufallsvariable, wie zum Beispiel der summierte Verbrauch in einer Jahreszeit, kann durchaus auch von mehr als einer anderen Variable abhängen. In unserem Beispiel könnte der summierte Verbrauch nicht nur von der Jahreszeit, sondern auch von der Konjunktur (messbar zum Beispiel über das Wirtschaftswachstum) sowie von Wetterdaten (Durchschnittstemperatur und Regentage) der betrachteten Jahreszeit abhängig sein. Solche Zusammenhänge lassen sich mit Hilfe sogenannter multivariater Verfahren analysieren. Verfahren für die Schätzung von Wahrscheinlichkeitsverteilungen sowie der Abhängigkeiten unterschiedlicher Zufallsvariablen stehen in einschlägigen Softwarepaketen zur Verfügung. Ein bekanntes kommerzielles Produkt ist SPSS von IBM. Die Sprache R stellt im Rahmen einer Open Source Implementierung eine ähnliche Funktionalität zur Verfügung. Grundsätzlich benötigt der Anwender ein Grundwissen im Bereich der Statistik, um die entsprechende Software sinnvoll einsetzen zu können. Etwas selbsttätiger funktionieren automatisierte Verfahren des Data Mining, die mithilfe von Methoden des statistischen Lernens (siehe Abschnitt Lernverfahren, S. 12) solche Verknüpfungen herstellen. Allerdings müssen auch diese Methoden zunächst von einem Experten eingerichtet werden. Innerhalb des vorgegeben Rahmens lassen sich dann weitgehend automatisch Abhängigkeiten auffinden. 4.3 Text Mining Dokumentenmanagement-Systeme zur Erfassung und Verwaltung von Texten werden in größeren Unternehmen bereits heute flächendeckend eingesetzt. Auch in mittleren und kleineren Unternehmen finden diese Systeme immer mehr Verbreitung. Sie bieten verschiedene zusätzliche Dienstleistungen, wie zum Beispiel das schnelle Auffinden von Dokumenten (auch von unterschiedlichen Standorten aus) sowie die Verwaltung und Nachverfolgung von Änderungen. Dokumentenmanagement-Systeme verbreitern grundsätzlich die Basis der in Informationssystemen verwalteten Daten und versprechen damit einen genaueren, vollständigeren und auf Knopfdruck abrufbaren Blick auf ein Unternehmen. Leider zeigt sich in der betrieblichen 15

16 Realität, dass viele Informationen, die in Dokumenten enthalten sind, nicht abgerufen werden können. Hintergrund ist die fehlende Struktur (siehe Abschnitt Strukturierte versus unstrukturierte Daten, S. 8) textueller Daten, die eine gezielte Extraktion von Informationen und ihre Verknüpfung mit anderen Informationen schwer macht. Grundsätzlich existieren noch keine universellen Verfahren, die vollständig die Bedeutung eines beliebigen Textes erfassen und für die weitere Verarbeitung nutzbar machen können. Seit einigen Jahren finden allerdings zunehmend Methoden des Text Mining Anwendung, die zumindest einzelne Informationen mit ausreichender Genauigkeit extrahieren. Beispiele hierzu sind: Mit Verfahren des Topic Detection lassen sich Texte einem Thema zuordnen. Dies kann für eine fokussierte Suche nützlich sein, sodass nur innerhalb von Dokumenten zu einem vorgegebenen Thema gesucht wird. Die Zuordnung von Themen zu Dokumenten kann auch bereits für die Analyse von Textdaten nützlich sein. So ließe sich mit Hilfe solcher Verfahren die Anzahl der Fehlerreports im Verlauf der Zeit darstellen. Ein häufig eingesetztes Verfahren extrahiert Namen aus Texten. Mithilfe von Methoden der Named Entity Recognition lassen sich zum Beispiel Personennamen, Namen von Organisationen, Namen von Orten oder auch Zahlen extrahieren. Zusammen mit den Verfahren des Topic Detection ließen sich den Fehlerberichten damit auch die betroffenen Produkte zuordnen. Interessant aber auch aufwändig sind Verfahren der Relation Detection. Damit lassen sich Beziehungen zwischen zwei Entitäten oder zwischen Werten und Entitäten auffinden. So liefern diese Verfahren exakt die Art an strukturierten Daten, die für die weitere Verarbeitung und Kombination mit anderen Daten benötigt werden. Damit ließen sich zum Beispiel numerische Qualitätsparameter für unterschiedliche Produkte aus textuellen Fehlerberichten ableiten. Die Analyse von negativen oder positiven Stimmungen eines Texts ist mit Methoden der Sentiment Detection möglich. Mit diesen Methoden können zum Beispiel besonders negative Fehlerberichte für eine manuelle Analyse identifiziert werden. Grundsätzlich analysieren diese Methoden das Auftreten und die Häufigkeit bestimmter Begriffe gerade auch im Kontext der unmittelbaren Umgebung eines Begriffs. So existieren zum Beispiel Verfahren für Topic Detection, die für verschiedene Themen auch ein unterschiedliches Vokabular annehmen. Da sich ein Text in der Regel auch unterschiedlichen Themen zuordnen lässt, besteht dieser dann aus einer Mischung verschiedener Vokabulare, die durch diese Methoden detektiert werden können. Die Erkennung von Namen lässt sich in vielen Fällen durch eine Namensliste unterstützen. Existiert zum Beispiel eine Liste von Ortsnamen und eine weitere Liste von Personennamen, dann lassen sich in einem Text relativ leicht Kandidaten für solche Orts- und Personennamen erkennen. Allerdings kann es gerade bei umfangreichen Listen vorkommen, dass die enthaltenen Namen nicht eindeutig sind. Betrachten wir dazu das folgende Beispiel: Am vergangenen Sonntag besuchte Frau Paris Hilton das Musical CATS in London. Aufgrund des starken Regens in London, fuhr ihre Limousine in eine Fußgängerzone ein, um Frau Hilton direkt vor dem Musical-Theater abzusetzen. 16

17 In den genannten Listen wäre das Wort Paris ein Kandidat für einen Ortsnamen. Auch ein weiblicher Vorname wäre hier möglich. Eventuell existiert auch in der Liste der Namen das Wort London. Durch eine Analyse des Kontexts lässt sich aber hier diese Mehrdeutigkeit auflösen, da dem Namen Paris Hilton das Wort Frau und dem Namen London das Wort in vorangeht. Für das Erkennen von Relationen existieren sehr unterschiedliche Möglichkeiten, die auch ohne eine vorangegangene Identifikation benannter Identitäten Ergebnisse liefern. Trotzdem kann die Identifikation von Entitäten die Erkennung von Relationen erleichtern, auch wenn es eventuell nicht mehr möglich ist, alle Relationen zu erkennen. Entdeckt ein Verfahren zum Beispiel zwei Entitäten mit einem Abstand von wenigen Worten, dann könnte das Verfahren anhand der dazwischenliegenden Worte entscheiden, ob die beiden Entitäten in der analysierten Beziehung stehen. Für das Erkennen positiver und negativer Stimmungen werden häufig meinungstragende Adjektive und Substantive sowie entsprechende Phrasen analysiert. So sind mit Begriffen wie schlecht und Problem eher negative sowie mit Begriffen wie gut oder Erfolg eher positive Stimmungen verbunden. Natürlich müssen auch diese Begriffe in ihrem Kontext analysiert werden ( kein Problem, nicht gut ). Vor Anwendung dieser Verfahren wird häufig noch die Struktur der Texte genauer analysiert. Dazu werden zum Beispiel Satzgrenzen erkannt, wobei auch diese Aufgabe durch die mehrdeutige Verwendung des Punkts nicht trivial ist. Als weiterer Schritt kann die Rolle der Wörter in einem Satz zum Beispiel mit einem Part of Speech Tagger abgeleitet werden (Nominalphrase, Verbalphrase, etc.). Ein weiteres wichtiges Hilfsmittel sind Ontologien, die Begriffe mit anderen Begriffen in Beziehung setzen. Damit lassen sich zum Beispiel Begriffe mit ähnlicher oder sogar fast identischer Bedeutung auffinden. Verfahren des Text Mining lassen sich mithilfe zweier sehr unterschiedlicher Ansätze realisieren: Mithilfe von regelbasierten Ansätzen kann das Wissen über den Aufbau von typischen Sätzen in dem betrachteten Anwendungsbereich modelliert werden, insbesondere im Kontext der untersuchten Begriffe. Solche Regeln können zum Beispiel fordern, dass gewisse Worte wie Herr und Frau nicht vor einem Ort und Worte wie geht und läuft nicht hinter einem Ort vorkommen dürfen. Lernverfahren ermöglichen das Erkennen von Namen, Relationen, Themen oder auch von Stimmungen (siehe Abschnitt Lernverfahren, S. 12). Auf den ersten Blick scheinen Lernverfahren nur die zweitbeste Lösung zu sein. Grundsätzlich würde man vermuten, dass ein menschlicher Experte mit einer genauen Kenntnis der Sprache sowie des Aufbaus typischer Dokumente eine (fast) perfekte regelbasierte Lösung realisieren kann. Überraschenderweise liefern Lernverfahren in vielen Anwendungsbereichen bessere Ergebnisse. Der Hintergrund mag sein, dass insgesamt noch zu wenig über Aufbau und Verwendung natürlicher Sprache in unterschiedlichen Anwendungsbereichen bekannt ist. Ein offensichtlicher Vorteil von Lernverfahren ist aber die Möglichkeit, Wahrscheinlichkeitsverteilungen mithilfe einer großen Menge an Trainingsdaten präziser zu analysieren. Gerade bei Indikatoren, die bei gleichen Werten zu unterschiedlichen Ergebnissen kommen können, ist ein menschlicher Experte bei der Definition einer Wahrscheinlichkeit in der Regel überfordert. 17

18 Ein Nachteil von klassischen Lernverfahren ist die große Menge an benötigten Trainingsdaten. Gerade bei der Analyse einer größeren Menge von Indikatoren müssen die Trainingsdaten möglichst viele Wertekombinationen dieser Indikatoren abdecken. Die Bereitstellung eines entsprechend großen Trainingsdatensatzes kann allerdings für verschiedene Anwendungsbereiche nicht mit akzeptablem Aufwand geleistet werden. Entsprechend wurden in der Forschung Verfahren des Semi-Supervised Learning sowie des Un-Supervised Learning entwickelt. Das Un-Supervised Learning kommt ohne Trainingsdaten aus. Bei diesem Verfahren wird versucht, vollautomatisch eine Struktur zu erkennen. Ein Beispiel dafür ist die automatisierte Entdeckung von Themen anhand des in verschiedenen Texten enthaltenen Vokabulars. Entsprechend der Unterschiede im Vokabular werden Texte verschiedenen Gruppen zugeordnet und typische Begriffe aus dem Vokabular als Themen extrahiert. Beim Semi-Supervised Learning wird mit einer relativ kleinen Menge an Trainingsdaten begonnen. Das Verfahren versucht nun mithilfe dieser Saat aus noch unbekannten Daten weitere Trainingsfälle zu identifizieren, für die aufgrund ihres Aufbau und der Struktur ohne aufwändige Analyse die korrekten Ergebnisse abgeleitet werden können. Mit den so erzeugten Trainingsdaten läuft dann ein klassisches Lernverfahren. Insgesamt existieren aber aktuell nur wenige Anwendungen, für die Verfahren des Semi-Supervised und des Un-Supervised Learning akzeptable Ergebnisse liefern. Entsprechend häufig werden bereits trainierte Lernverfahren eingesetzt. Eine wesentliche Voraussetzung für den Einsatz trainierter Verfahren ist allerdings eine ausreichende Übereinstimmung der Trainingsdaten mit den Daten in einer Anwendung. Generische und trainierte Lernverfahren finden sich in verschiedenen Arten von Software. Kommerzielle und freie Statistikprogramme verfügen bereits heute über unterschiedliche Methoden des statistischen Lernens, die aber in praktisch allen Fällen noch auf den konkreten Anwendungsbereich trainiert werden müssen. Verschiedene Softwarepakete im Bereich der Business-Intelligence bieten ebenfalls solche Lernverfahren an. Interessant sind hier insbesondere trainierte Verfahren, die ohne großen Aufwand für eine Anpassung direkt eingesetzt werden können. Problematisch ist dieser Ansatz allerdings, wenn die Trainingsdaten eine deutlich andere Struktur als die Daten aus einer Anwendung haben. Dies gilt insbesondere dann, wenn die Verfahren mit einer anderen Sprache trainiert worden sind. Eine Übertragung dieser trainierten Verfahren auf eine andere Sprache führt fast immer zu nicht mehr zufriedenstellenden Ergebnissen. Interessant ist hier auch die Verfügbarkeit einer größeren Anzahl von freier Software für das Thema Text Mining. Beispiele hierzu sind OpenNLP (opennlp. apache.org) von der Apache Foundation oder KH Coder (khc.sourceforge.net/ de). Verschiedene Forschungsgruppen in diesem Bereich bieten ihre Software in vielen Fällen kostenlos im Internet an. Eine der bekanntesten Gruppen dürfte hier die NLP-Gruppe in Stanford sein (nlp.stanford.edu). Grundsätzlich ist diese freie Software aber nicht für Endanwender geeignet. Sie bietet jedoch eine geeignete Plattform für IT-Dienstleister, um auch anspruchsvolle Anwendungen mit angemessenem Aufwand realisieren zu können. 18

19 5 Verwaltung von Daten in Datenbanken Für die zuverlässige und dauerhafte Speicherung von Daten werden aktuell in fast allen Unternehmen noch immer klassische relationale Datenbanken eingesetzt. Die Daten werden dabei in Form von Tabellen gespeichert, wobei die Spalten der Tabellen in der Regel nur einfache Werte enthalten, die atomare Informationen repräsentieren. Ein wichtiges Kriterium für die Güte eines relationalen Datenmodells ist die redundanzfreie Speicherung von Daten zur Vermeidung von Inkonsistenzen. Insgesamt sollen die Daten so gespeichert und normalisiert werden, dass sie in einheitlicher Form für unterschiedliche Anwendungen zur Verfügung stehen. Für die zuverlässige und dauerhafte Speicherung der Daten (Persistenz) ist es wichtig, dass Inkonsistenzen sowohl durch den gleichzeitigen Zugriff unterschiedlicher Anwender als auch durch Systemabstürze vermieden werden. Eine wichtige Technologie in diesem Zusammenhang ist das Transaktionskonzept, mit dem eine Sequenz von zusammengehörigen Aktionen gruppiert werden kann. Die Datenbank ist dann so ausgelegt, dass die Aktionen einer Transaktion entweder vollständig oder gar nicht ausgeführt werden. Dabei wird von kurzen Aktionen ausgegangen, wie zum Beispiel dem Einfügen von Daten oder dem Finden ausgewählter Einträge nach unterschiedlichen Suchkriterien. Sehr aufwändige Analysen, die auf fast alle Daten lesend zugreifen, lassen sich dabei mit typischen Transaktionskonzepten nicht optimal unterstützen. Ein möglicher Grund dafür: Die betroffenen Daten werden bezüglich Änderungen mit klassischen Mechanismen eines Transaktionskonzepts gesperrt. 19

20 Eine herkömmliche relationale Datenbank verwaltet ihre Daten auf dem Sekundärspeicher. Die Algorithmen sind auf diesen Speicher entsprechend optimiert. Zugriffsstrukturen ermöglichen die direkte Navigation zu relevanten Daten, ohne alle Daten sequentiell durchsuchen zu müssen ( Telefonbuchprinzip ). Natürlich unterstützen auch diese Datenbanken bereits die Nutzung von Cache-Speichern zur dynamischen Bereitstellung wichtiger Daten im Hauptspeicher. Damit können Zugriff und Analyse von Daten bereits deutlich beschleunigt werden. Klassische relationale Datenbanken verfügen auch über Aggregatfunktionen, mit denen sich einfache Analysen auf den Daten durchführen lassen. Dazu gehört die Summenbildung, die Berechnung des Durchschnitts sowie des minimalen und maximalen Werts. Auch die Gruppierung von Einträgen mithilfe von Werten ausgewählter Spalten ist möglich (zum Beispiel Summe der Verbräuche für Anlagen getrennt nach Anlagentypen). Bereits die Nutzung solcher Aggregatfunktionen kann bei sehr großen Datenbanken zu nicht mehr akzeptablen Antwortzeiten für interaktive Anwendungen führen. Betrachten wir dazu das Beispiel der Produktionsanlagen aus Abschnitt 2. In diesem Beispiel werden Messwerte der Anlagen mit einer zeitlichen Auflösung von einer Millisekunde erfasst. Eine mögliche Struktur für die Speicherung dieser Daten zeigt die Tabelle: Nummer Anlage Zeit Strom Temperatur Modus ,43 33,4 XC ,89 31,7 K ,50 25, ,33 45, ,01 50,7 K/ ,99 42,0 K/6 Beispiel einer Datenbanktabelle (Quelle: Eigene Darstellung). Eine typische relationale Datenbank speichert diese Tabelle jetzt zeilenweise auf der Festplatte ab. Für den Zugriff auf eine Festplatte ist die kleinstmögliche Einheit ein Block, da der wahlfreie Zugriff auf die Daten relativ viel Zeit benötigt (ca. 10 ms). Hintergrund dafür ist die Festplatten-Speicherung der Daten auf konzentrischen Spuren. Für den Zugriff muss der Schreib- und Lesekopf auf eine Spur positioniert und danach noch die Rotation der Festplatte bis zu den gewünschten Daten abgewartet werden. Da das sequentielle Lesen der Daten ab der gewünschten Position erheblich schneller erfolgt (um mehrere Größenordnungen), werden nicht nur einzelne Bytes sondern größere Datenmengen in Form von Blöcken gelesen. Gängige Blockgrößen sind zwischen 512 und Byte und können in einzelnen Spezialfällen noch deutlich größer sein. Wenn wir für unser Beispiel eine Blockgröße von 8 kb und für jeden Eintrag eine Größe von ca. 80 Byte annehmen, dann lassen sich in einem Block etwa 100 Einträge unterbringen. Nehmen wir zusätzlich an, dass 10 Messwerte von 100 Anlagen erfasst werden, dann ergeben sich Messwerte pro Sekunde sowie 31,536 Billionen Messwerte pro Jahr. Diese Datenmenge ließe sich auf 315,36 Milliarden Blöcken unterbringen. 20

Analyse und Auswertung großer heterogener Datenmengen

Analyse und Auswertung großer heterogener Datenmengen Analyse und Auswertung großer heterogener Datenmengen Herausforderungen für die IT-Infrastruktur Richard Göbel Inhalt Big Data Was ist das eigentlich? Was nützt mir das? Wie lassen sich solche großen Datenmengen

Mehr

Industrie 4.0 und Smart Data

Industrie 4.0 und Smart Data Industrie 4.0 und Smart Data Herausforderungen für die IT-Infrastruktur bei der Auswertung großer heterogener Datenmengen Richard Göbel Inhalt Industrie 4.0 - Was ist das? Was ist neu? Herausforderungen

Mehr

Industrie 4.0 und Smart Data

Industrie 4.0 und Smart Data Industrie 4.0 und Smart Data Herausforderungen für die IT-Infrastruktur bei der Auswertung großer heterogener Datenmengen Richard Göbel Inhalt Industrie 4.0 - Was ist das? Was ist neu? Herausforderungen

Mehr

Integration Services - Dienstarchitektur

Integration Services - Dienstarchitektur Integration Services - Dienstarchitektur Integration Services - Dienstarchitektur Dieser Artikel solle dabei unterstützen, Integration Services in Microsoft SQL Server be sser zu verstehen und damit die

Mehr

Data Mining-Modelle und -Algorithmen

Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining ist ein Prozess, bei dem mehrere Komponenten i n- teragieren. Sie greifen auf Datenquellen, um diese zum Training,

Mehr

Positionspapier Big Data

Positionspapier Big Data TeleTrusT-interner Workshop Berlin, 05.06.2014 Positionspapier Big Data Oliver Dehning, antispameurope GmbH Leiter der AG Cloud Security Definition Big Data Big Data bezeichnet große Datenmengen (Volume)

Mehr

Data Mining-Projekte

Data Mining-Projekte Data Mining-Projekte Data Mining-Projekte Data Mining stellt normalerweise kein ei nmaliges Projekt dar, welches Erkenntnisse liefert, die dann nur einmal verwendet werden, sondern es soll gewöhnlich ein

Mehr

Data Lineage goes Traceability - oder was Requirements Engineering von Business Intelligence lernen kann

Data Lineage goes Traceability - oder was Requirements Engineering von Business Intelligence lernen kann Data Lineage goes Traceability - oder was Requirements Engineering von Business Intelligence lernen kann Andreas Ditze MID GmbH Kressengartenstraße 10 90402 Nürnberg a.ditze@mid.de Abstract: Data Lineage

Mehr

Ein Schlüssel ist eine Menge von Attributen (also eines oder mehrere), die eine Datenzeile (Tupel) einer Tabelle eindeutig identifiziert

Ein Schlüssel ist eine Menge von Attributen (also eines oder mehrere), die eine Datenzeile (Tupel) einer Tabelle eindeutig identifiziert Maika Büschenfeldt Datenbanken: Skript 1 1. Was ist eine relationale Datenbank? In Datenbanken können umfangreiche Datenbestände strukturiert abgelegt werden. Das Konzept relationaler Datenbanken soll

Mehr

Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken

Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken Dateiname: ecdl5_01_00_documentation_standard.doc Speicherdatum: 14.02.2005 ECDL 2003 Basic Modul 5 Datenbank - Grundlagen

Mehr

Relationale Datenbanken Datenbankgrundlagen

Relationale Datenbanken Datenbankgrundlagen Datenbanksystem Ein Datenbanksystem (DBS) 1 ist ein System zur elektronischen Datenverwaltung. Die wesentliche Aufgabe eines DBS ist es, große Datenmengen effizient, widerspruchsfrei und dauerhaft zu speichern

Mehr

Fachbericht zum Thema: Anforderungen an ein Datenbanksystem

Fachbericht zum Thema: Anforderungen an ein Datenbanksystem Fachbericht zum Thema: Anforderungen an ein Datenbanksystem von André Franken 1 Inhaltsverzeichnis 1 Inhaltsverzeichnis 1 2 Einführung 2 2.1 Gründe für den Einsatz von DB-Systemen 2 2.2 Definition: Datenbank

Mehr

7.4 Analyse anhand der SQL-Trace. 7.3.5 Vorabanalyse mit dem Code Inspector

7.4 Analyse anhand der SQL-Trace. 7.3.5 Vorabanalyse mit dem Code Inspector 7.4 Analyse anhand der SQL-Trace 337 7.3.5 Vorabanalyse mit dem Code Inspector Der Code Inspector (SCI) wurde in den vorangegangenen Kapiteln immer wieder erwähnt. Er stellt ein paar nützliche Prüfungen

Mehr

PHP Kurs Online Kurs Analysten Programmierer Web PHP

PHP Kurs Online Kurs Analysten Programmierer Web PHP PHP Kurs Online Kurs Analysten Programmierer Web PHP Akademie Domani info@akademiedomani.de Allgemeines Programm des Kurses PHP Modul 1 - Einführung und Installation PHP-Umgebung Erste Lerneinheit Introduzione

Mehr

Neuerungen Analysis Services

Neuerungen Analysis Services Neuerungen Analysis Services Neuerungen Analysis Services Analysis Services ermöglicht Ihnen das Entwerfen, Erstellen und Visualisieren von Data Mining-Modellen. Diese Mining-Modelle können aus anderen

Mehr

Artikel eindeutig mit Barcodes identifizieren und verfolgen

Artikel eindeutig mit Barcodes identifizieren und verfolgen Artikel eindeutig mit Barcodes identifizieren und verfolgen Einführung Um die Vielfalt an Anforderungen zu erfüllen haben wir drei verschiedene Varianten zur Erfassung von Barcodes implementiert. Die drei

Mehr

Business Intelligence und Geovisualisierung in der Gesundheitswirtschaft

Business Intelligence und Geovisualisierung in der Gesundheitswirtschaft Business Intelligence und Geovisualisierung in der Gesundheitswirtschaft Prof. Dr. Anett Mehler-Bicher Fachhochschule Mainz, Fachbereich Wirtschaft Prof. Dr. Klaus Böhm health&media GmbH 2011 health&media

Mehr

Online Analytical Processing

Online Analytical Processing Online Analytical Processing Online Analytical Processing Online Analytical Processing (OLAP) ermöglicht die multidimensionale Betrachtung von Daten zwecks E rmittlung eines entscheidungsunterstützenden

Mehr

Einführung in Datenbanksysteme. H. Wünsch 01.2001

Einführung in Datenbanksysteme. H. Wünsch 01.2001 Einführung in Datenbanksysteme H. Wünsch 01.2001 H. Wünsch 01/2001 Einführung Datenbanken 2 Was sind Datenbanken? Datenbanken sind Systeme zur Beschreibung, Speicherung und Wiedergewinnung von Datenmengen.

Mehr

Explosionsartige Zunahme an Informationen. 200 Mrd. Mehr als 200 Mrd. E-Mails werden jeden Tag versendet. 30 Mrd.

Explosionsartige Zunahme an Informationen. 200 Mrd. Mehr als 200 Mrd. E-Mails werden jeden Tag versendet. 30 Mrd. Warum viele Daten für ein smartes Unternehmen wichtig sind Gerald AUFMUTH IBM Client Technical Specialst Data Warehouse Professional Explosionsartige Zunahme an Informationen Volumen. 15 Petabyte Menge

Mehr

Collaborative Virtual Environments

Collaborative Virtual Environments Collaborative Virtual Environments Stefan Lücking Projektgruppe Kreativität und Technik AG Domik WS 02/03 09.01.2003 1/35 Was sind CVE? Versuch einer Definition : Ein CVE ist ein Programm, das eine virtuelle

Mehr

Data Cube. Aggregation in SQL. Beispiel: Autoverkäufe. On-line Analytical Processing (OLAP) 1. Einführung. 2. Aggregation in SQL, GROUP BY

Data Cube. Aggregation in SQL. Beispiel: Autoverkäufe. On-line Analytical Processing (OLAP) 1. Einführung. 2. Aggregation in SQL, GROUP BY Data Cube On-line Analytical Processing (OLAP). Einführung Ziel: Auffinden interessanter Muster in großen Datenmengen 2. Aggregation in SQL, GROUP BY 3. Probleme mit GROUP BY 4. Der Cube-Operator! Formulierung

Mehr

VisualCockpit. agile business analytics

VisualCockpit. agile business analytics VisualCockpit agile business analytics Agile Business Analytics mit VisualCockpit Für Unternehmen wird es immer wichtiger die gesamte Wertschöpfungskette aus Daten, sowohl für das operative Geschäft als

Mehr

Software-Engineering und Datenbanken

Software-Engineering und Datenbanken Software-Engineering und Datenbanken Prof. Dr. Bernhard Schiefer bernhard.schiefer@fh-kl.de http://www.fh-kl.de/~schiefer Prof. Dr. Bernhard Schiefer 1-1 Wesentliche Inhalte Begriff DBS Datenbankmodelle

Mehr

Text Mining Praktikum. Durchführung: Andreas Niekler Email: aniekler@informatik.uni-leipzig.de Zimmer: Paulinum (P) 818

Text Mining Praktikum. Durchführung: Andreas Niekler Email: aniekler@informatik.uni-leipzig.de Zimmer: Paulinum (P) 818 Text Mining Praktikum Durchführung: Andreas Niekler Email: aniekler@informatik.uni-leipzig.de Zimmer: Paulinum (P) 818 Rahmenbedingungen Gruppen von 2- (max)4 Personen Jede Gruppe erhält eine Aufgabe Die

Mehr

2.5.2 Primärschlüssel

2.5.2 Primärschlüssel Relationale Datenbanken 0110 01101110 01110 0110 0110 0110 01101 011 01110 0110 010 011011011 0110 01111010 01101 011011 0110 01 01110 011011101 01101 0110 010 010 0110 011011101 0101 0110 010 010 01 01101110

Mehr

Online-Ansichten und Export Statistik

Online-Ansichten und Export Statistik ACS Data Systems AG Online-Ansichten und Export Statistik (Version 10.08.2009) Buchhaltung für Schulen ACS Data Systems AG Bozen / Brixen / Trient Tel +39 0472 27 27 27 obu@acs.it 2 Inhaltsverzeichnis

Mehr

Ontologie Sinn, Zweck und Mehrwert für Ihr Unternehmen

Ontologie Sinn, Zweck und Mehrwert für Ihr Unternehmen NOW YOU KNOW [ SERIES] Ontologie Sinn, Zweck und Mehrwert für Ihr Unternehmen [YVES BRENNWALD, ONTOS INTERNATIONAL AG] 002 Ontologie und deren Bedeutung für die Unternehmen von heute Der Begriff der Ontologie

Mehr

1 Lieferantenbewertung

1 Lieferantenbewertung 1 Lieferantenbewertung Mit Hilfe der Lieferantenbewertung können alle aktiven Lieferanten nach ISO Kriterien bewertet werden. Die zur Bewertung hinterlegten Faktoren können individuell vorgegeben werden.

Mehr

EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN

EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN T-SYSTEMS MULTIMEDIA SOLUTIONS GMBH, 16. FEBRUAR 2012 1. Schlüsselworte Semantic Web, Opinion Mining, Sentiment Analysis, Stimmungsanalyse,

Mehr

ANTARES Informations-Systeme GmbH Stuttgarter Strasse 99 D-73312 Geislingen Tel. +49 73 31 / 30 76-0 Fax +49 73 31 / 30 76-76 www.antares-is.

ANTARES Informations-Systeme GmbH Stuttgarter Strasse 99 D-73312 Geislingen Tel. +49 73 31 / 30 76-0 Fax +49 73 31 / 30 76-76 www.antares-is. ANTARES Informations-Systeme GmbH Stuttgarter Strasse 99 D-73312 Geislingen Tel. +49 73 31 / 30 76-0 Fax +49 73 31 / 30 76-76 www.antares-is.de insight und dynasight sind eingetragene Markenzeichen der

Mehr

Folge 19 - Bäume. 19.1 Binärbäume - Allgemeines. Grundlagen: Ulrich Helmich: Informatik 2 mit BlueJ - Ein Kurs für die Stufe 12

Folge 19 - Bäume. 19.1 Binärbäume - Allgemeines. Grundlagen: Ulrich Helmich: Informatik 2 mit BlueJ - Ein Kurs für die Stufe 12 Grundlagen: Folge 19 - Bäume 19.1 Binärbäume - Allgemeines Unter Bäumen versteht man in der Informatik Datenstrukturen, bei denen jedes Element mindestens zwei Nachfolger hat. Bereits in der Folge 17 haben

Mehr

4 Grundlagen der Datenbankentwicklung

4 Grundlagen der Datenbankentwicklung 4 Grundlagen der Datenbankentwicklung In diesem Kapitel werden wir die Grundlagen der Konzeption von relationalen Datenbanken beschreiben. Dazu werden Sie die einzelnen Entwicklungsschritte von der Problemanalyse

Mehr

1 Die Active Directory

1 Die Active Directory 1 Die Active Directory Infrastruktur Prüfungsanforderungen von Microsoft: Configuring the Active Directory Infrastructure o Configure a forest or a domain o Configure trusts o Configure sites o Configure

Mehr

Best Practice. Organisation und Ablage von Kundenaufträgen im DMS von UpToNet

Best Practice. Organisation und Ablage von Kundenaufträgen im DMS von UpToNet Best Practice Organisation und Ablage von Kundenaufträgen im DMS von UpToNet Lösung Nummer 1: DMS Lösung Nummer 1: DMS Organisation und Ablage von Kundenaufträgen im DMS UpToNet unterstützt den Anwender

Mehr

Adressetiketten mit Hilfe der freien Namenslisten in BS und der Seriendruckfunktion von Microsoft Word erstellen

Adressetiketten mit Hilfe der freien Namenslisten in BS und der Seriendruckfunktion von Microsoft Word erstellen Adressetiketten mit Hilfe der freien Namenslisten in BS und der Seriendruckfunktion von Microsoft Word erstellen Mit dem Programmpunkt freie Namenslisten können Sie in Verbindung mit Microsoft Word Adressetiketten,

Mehr

Eine völlig andere Form Abfragen zu erstellen ist, sie mit Hilfe der Datenbankabfragesprache SQL zu gestalten.

Eine völlig andere Form Abfragen zu erstellen ist, sie mit Hilfe der Datenbankabfragesprache SQL zu gestalten. Einführung SQL 2010 Niko Becker Mit unseren Übungen zu ACCESS können Sie Aufbau und Struktur einer relationalen Datenbank kennenlernen. Wir zeigen Ihnen wie Sie Tabellen, Formulare und Berichte erstellen

Mehr

Definition Informationssystem

Definition Informationssystem Definition Informationssystem Informationssysteme (IS) sind soziotechnische Systeme, die menschliche und maschinelle Komponenten umfassen. Sie unterstützen die Sammlung, Verarbeitung, Bereitstellung, Kommunikation

Mehr

OPERATIONEN AUF EINER DATENBANK

OPERATIONEN AUF EINER DATENBANK Einführung 1 OPERATIONEN AUF EINER DATENBANK Ein Benutzer stellt eine Anfrage: Die Benutzer einer Datenbank können meist sowohl interaktiv als auch über Anwendungen Anfragen an eine Datenbank stellen:

Mehr

Datenauswertung mit Hilfe von Pivot-Tabellen in Excel

Datenauswertung mit Hilfe von Pivot-Tabellen in Excel Datenauswertung mit Hilfe von Pivot-Tabellen in Excel Begleitendes Manual zu den Workshops zur Datenerfassung und verarbeitung im Juni / Juli 2004 Datenauswertung mit Hilfe von Pivot-Tabellen in Excel...3

Mehr

Analyse von unstrukturierten Daten. Peter Jeitschko, Nikolaus Schemel Oracle Austria

Analyse von unstrukturierten Daten. Peter Jeitschko, Nikolaus Schemel Oracle Austria Analyse von unstrukturierten Daten Peter Jeitschko, Nikolaus Schemel Oracle Austria Evolution von Business Intelligence Manuelle Analyse Berichte Datenbanken (strukturiert) Manuelle Analyse Dashboards

Mehr

Excel 2010. für Windows ISBN 978-3-86249-060-8. Peter Wies 1. Ausgabe, 11. Aktualisierung, November 2013. Grundlagen

Excel 2010. für Windows ISBN 978-3-86249-060-8. Peter Wies 1. Ausgabe, 11. Aktualisierung, November 2013. Grundlagen Peter Wies 1. Ausgabe, 11. Aktualisierung, November 2013 Excel 2010 für Windows Grundlagen ISBN 978-3-86249-060-8 EX2010 10 Excel 2010 - Grundlagen 10 Diagramme erstellen und schnell gestalten In diesem

Mehr

SOLISYON GMBH CHRISTIAN WOLF, BENJAMIN WEISSMAN. Optimierung von Abfragen in MS SQL Server DWH-Umgebungen

SOLISYON GMBH CHRISTIAN WOLF, BENJAMIN WEISSMAN. Optimierung von Abfragen in MS SQL Server DWH-Umgebungen WEITER BLICKEN. MEHR ERKENNEN. BESSER ENTSCHEIDEN. Optimierung von Abfragen in MS SQL Server DWH-Umgebungen SOLISYON GMBH CHRISTIAN WOLF, BENJAMIN WEISSMAN VERSION 1.0 OPTIMIERUNG VON ABFRAGEN IN MS SQL

Mehr

Mitarbeiterbefragung

Mitarbeiterbefragung Arbeitspsychologie CoPAMed Arbeitspsychologie Mitarbeiterbefragung Zusatzmodul zur Verwaltung von arbeitspsychologischen Leistungen und zur Durchführung von anonymen Mitarbeiterbefragungen. CoPAMed Arbeitspsychologie

Mehr

IBM SPSS Data Access Pack Installationsanweisung für Windows

IBM SPSS Data Access Pack Installationsanweisung für Windows IBM SPSS Data Access Pack Installationsanweisung für Windows Inhaltsverzeichnis Kapitel 1. Übersicht.......... 1 Einführung............... 1 Bereitstellen einer Datenzugriffstechnologie.... 1 ODBC-Datenquellen...........

Mehr

Einladung zu den IBM SPSS Data und Text Mining Tagen. Auch in Ihrer Nähe! Gewinnen Sie entscheidungsrelevantes Wissen mit Data und Text Mining

Einladung zu den IBM SPSS Data und Text Mining Tagen. Auch in Ihrer Nähe! Gewinnen Sie entscheidungsrelevantes Wissen mit Data und Text Mining Einladung zu den IBM SPSS Data und Text Mining Tagen Auch in Ihrer Nähe! Gewinnen Sie entscheidungsrelevantes Wissen mit Data und Text Mining Lassen Sie Daten und Texte für sich arbeiten mit Smarter Analytics

Mehr

Codierungstheorie Rudolf Scharlau, SoSe 2006 9

Codierungstheorie Rudolf Scharlau, SoSe 2006 9 Codierungstheorie Rudolf Scharlau, SoSe 2006 9 2 Optimale Codes Optimalität bezieht sich auf eine gegebene Quelle, d.h. eine Wahrscheinlichkeitsverteilung auf den Symbolen s 1,..., s q des Quellalphabets

Mehr

Without knowledge management our services would be unthinkable. Arthur D. Little

Without knowledge management our services would be unthinkable. Arthur D. Little Without knowledge management our services would be unthinkable. Arthur D. Little Weshalb Wissensmanagement? Wissen ist die Gesamtheit der Informationen, Kenntnisse und Fähigkeiten einer Person, die zur

Mehr

Microsoft SharePoint 2013 Designer

Microsoft SharePoint 2013 Designer Microsoft SharePoint 2013 Designer Was ist SharePoint? SharePoint Designer 2013 Vorteile SharePoint Designer Funktionen.Net 4.0 Workflow Infrastruktur Integration von Stages Visuelle Designer Copy & Paste

Mehr

SiteAudit Knowledge Base. Move Add Change Tracking. Vorteile Übersicht. In diesem Artikel: Vorteile Übersicht Funktionsübersicht Berichte anpassen

SiteAudit Knowledge Base. Move Add Change Tracking. Vorteile Übersicht. In diesem Artikel: Vorteile Übersicht Funktionsübersicht Berichte anpassen SiteAudit Knowledge Base Move Add Change Tracking Dezember 2010 In diesem Artikel: Vorteile Übersicht Funktionsübersicht Berichte anpassen MAC Benachrichtigungen Vorteile Übersicht Heutzutage ändern sich

Mehr

Lagerverwaltung. Nur in den folgenden Lokalisierungen verfügbar: Tschechische Republik, Ungarn, Polen, Russland und Slowakei

Lagerverwaltung. Nur in den folgenden Lokalisierungen verfügbar: Tschechische Republik, Ungarn, Polen, Russland und Slowakei Funktion Lagerplätze Mit SAP Business One können Sie Lagerplätze für Ihre Lager verwalten. Sie können die Lagerplatzfunktion für einzelne Lager aktivieren. Lagerplatzbezogene Belege Nachdem Sie die Lagerplatzfunktion

Mehr

Tutorial Excel Übung 8 Datenbanken II -1- Die Aufgabenstellung ist der folgenden URL zu entnehmen: Übung 8.

Tutorial Excel Übung 8 Datenbanken II -1- Die Aufgabenstellung ist der folgenden URL zu entnehmen: Übung 8. Tutorial Excel Übung 8 Datenbanken II -1-1 Aufgabenstellung Die Aufgabenstellung ist der folgenden URL zu entnehmen: Übung 8. 2 Abfragen auf Muster und nach Listenelementen Zur Formulierung von Abfragen

Mehr

KREDITVERZEICHNIS Konfiguration Ausgabe: 20.02.13 1/13. Dokumentation KREDITVERZEICHNIS. Teil 2. Konfiguration

KREDITVERZEICHNIS Konfiguration Ausgabe: 20.02.13 1/13. Dokumentation KREDITVERZEICHNIS. Teil 2. Konfiguration KREDITVERZEICHNIS Konfiguration Ausgabe: 20.02.13 1/13 Dokumentation KREDITVERZEICHNIS Teil 2 Konfiguration Stand 20.02.2013 KREDITVERZEICHNIS Konfiguration Ausgabe: 20.02.13 2/13 Inhalt 1. KONFIGURATION...

Mehr

riskkv Scorenalyse riskkv Scoring Seite 1 von 9

riskkv Scorenalyse riskkv Scoring Seite 1 von 9 riskkv Scorenalyse riskkv Scoring Seite 1 von 9 Das Modul dient der flexiblen Erstellung, Auswertung und Verwendung von Scores. Durch vordefinierte Templates können in einer Einklicklösung bspw. versichertenbezogene

Mehr

Data Mining als Arbeitsprozess

Data Mining als Arbeitsprozess Data Mining als Arbeitsprozess Hagen Knaf Studiengang Angewandte Mathematik Hochschule RheinMain 31. Dezember 2015 In Unternehmen werden umfangreichere Aktivitäten oder Projekte im Bereich des Data Mining

Mehr

Datenbanken. Prof. Dr. Bernhard Schiefer. bernhard.schiefer@fh-kl.de http://www.fh-kl.de/~schiefer

Datenbanken. Prof. Dr. Bernhard Schiefer. bernhard.schiefer@fh-kl.de http://www.fh-kl.de/~schiefer Datenbanken Prof. Dr. Bernhard Schiefer bernhard.schiefer@fh-kl.de http://www.fh-kl.de/~schiefer Wesentliche Inhalte Begriff DBS Datenbankmodelle Datenbankentwurf konzeptionell, logisch und relational

Mehr

Verteilungsmodelle. Verteilungsfunktion und Dichte von T

Verteilungsmodelle. Verteilungsfunktion und Dichte von T Verteilungsmodelle Verteilungsfunktion und Dichte von T Survivalfunktion von T Hazardrate von T Beziehungen zwischen F(t), S(t), f(t) und h(t) Vorüberlegung zu Lebensdauerverteilungen Die Exponentialverteilung

Mehr

Einführung Datenbank

Einführung Datenbank Einführung Datenbank Einführung Datenbank Seite 2 Einführung in die Arbeit mit einer Datenbank Grundbegriffe: Datenbank - Datenbankmanagementsystem Eine Datenbank ist eine systematische strukturierte Sammlung

Mehr

Produktinformation eevolution OLAP

Produktinformation eevolution OLAP Produktinformation eevolution OLAP Was ist OLAP? Der Begriff OLAP steht für Kurz gesagt: eevolution -OLAP ist die Data Warehouse Lösung für eevolution. Auf Basis verschiedener

Mehr

Beschreibung und Bedienungsanleitung. Inhaltsverzeichnis: Abbildungsverzeichnis: Werkzeug für verschlüsselte bpks. Dipl.-Ing.

Beschreibung und Bedienungsanleitung. Inhaltsverzeichnis: Abbildungsverzeichnis: Werkzeug für verschlüsselte bpks. Dipl.-Ing. www.egiz.gv.at E-Mail: post@egiz.gv.at Telefon: ++43 (316) 873 5514 Fax: ++43 (316) 873 5520 Inffeldgasse 16a / 8010 Graz / Austria Beschreibung und Bedienungsanleitung Werkzeug für verschlüsselte bpks

Mehr

Industrial Data Intelligence. Datenbasierte Produktionsoptimierung

Industrial Data Intelligence. Datenbasierte Produktionsoptimierung !DI Industrial Data Intelligence Datenbasierte Produktionsoptimierung Industrial Data Intelligence Sammeln Analysieren Mit dem Industrial Data Intelligence-Angebot ermöglicht Softing Industrial die datenbasierte

Mehr

TOP. wird ein wichtiges Jahr für BIG (Business Intelligence Growth) DER BUSINESS INTELLIGENCE TRENDS FÜR DAS JAHR 2013

TOP. wird ein wichtiges Jahr für BIG (Business Intelligence Growth) DER BUSINESS INTELLIGENCE TRENDS FÜR DAS JAHR 2013 0 Es TOP 10 DER BUSINESS INTELLIGENCE TRENDS FÜR DAS JAHR 2013 wird ein wichtiges Jahr für BIG (Business Intelligence Growth) 2012 war ein fantastisches Jahr für Business Intelligence! Die biedere alte

Mehr

Software Engineering Analyse und Analysemuster

Software Engineering Analyse und Analysemuster Software Engineering Analyse und Analysemuster Prof. Adrian A. Müller, PMP, PSM 1, CSM Fachbereich Informatik und Mikrosystemtechnik 1 Klassendiagramme in der Analyse Im Rahmen der Anforderungsanalyse

Mehr

Analyse alt- und mittelpaläolithischer Steinartefaktinventare mittels Parallelkoordinatenplots

Analyse alt- und mittelpaläolithischer Steinartefaktinventare mittels Parallelkoordinatenplots Einleitung Analyse alt- und mittelpaläolithischer Steinartefaktinventare mittels Parallelkoordinatenplots von Irmela Herzog Im Rahmen der Herbsttagung der AG DANK (Datenanalyse und Numerische Klassifikation)

Mehr

Muster-Angebotsinformation

Muster-Angebotsinformation Muster-Angebotsinformation Einsatzanalyse SAP Berechtigungs-Management & Compliance 3-Tages Proof-of-Concept Seite 1 Inhalt 1 Management Summary... 3 1.1 Technische Rahmenbedingungen... 3 1.2 Ziele der

Mehr

DOKUMENTATION PASY. Patientendaten verwalten

DOKUMENTATION PASY. Patientendaten verwalten DOKUMENTATION PASY Patientendaten verwalten PASY ist ein Programm zur einfachen und zuverlässigen Verwaltung von Patientendaten. Sämtliche elektronisch gespeicherten Dokumente sind sofort verfügbar. Neue

Mehr

Information-Design-Tool

Information-Design-Tool Zusatzkapitel Information-Design-Tool zum Buch»HR-Reporting mit SAP «von Richard Haßmann, Anja Marxsen, Sven-Olaf Möller, Victor Gabriel Saiz Castillo Galileo Press, Bonn 2013 ISBN 978-3-8362-1986-0 Bonn

Mehr

GIN WEAVER. Kontextsensitive Bereitstellung von Informationen: Relevante Inhalte zur richtigen Zeit

GIN WEAVER. Kontextsensitive Bereitstellung von Informationen: Relevante Inhalte zur richtigen Zeit GIN WEAVER Kontextsensitive Bereitstellung von Informationen: Relevante Inhalte zur richtigen Zeit GIN WEAVER Paradigmenwechsel von Suche, zur Bereitstellung von Informationen für Ihren Arbeitskontext

Mehr

CodeSnap Inventur 3.3 für HIS FSV-GX. Benutzerhandbuch

CodeSnap Inventur 3.3 für HIS FSV-GX. Benutzerhandbuch CodeSnap Inventur 3.3 für HIS FSV-GX Benutzerhandbuch COPYRIGHT Copyright 2012 Flexicom GmbH Alle Rechte vorbehalten. Kurzanleitung für die Software CodeSnap Inventur 3.3 Erste Ausgabe: August 2012 CodeSnap

Mehr

Profilbezogene informatische Bildung in den Klassenstufen 9 und 10. Schwerpunktthema Daten und Datenbanken

Profilbezogene informatische Bildung in den Klassenstufen 9 und 10. Schwerpunktthema Daten und Datenbanken Profilbezogene informatische Bildung in den Klassenstufen 9 und 10 Schwerpunktthema Robby Buttke Fachberater für Informatik RSA Chemnitz Fachliche Einordnung Phasen relationaler Modellierung Fachlichkeit

Mehr

Dialekte der Klimaforschung

Dialekte der Klimaforschung Dialekte der Klimaforschung Vom Fortran-Programm zum parallelen Programm Thomas Ludwig Inhalt Welche Dialekte werden transformiert? Welche Anforderungen stellen wir? Wozu diese Transformation? Wie ist

Mehr

Data Warehousing und Data Mining

Data Warehousing und Data Mining Data Warehousing und Data Mining 2 Cognos Report Net (CRN) Ermöglicht Erstellen von Ad-hoc-Anfragen (Query Studio) Berichten (Report Studio) Backend Data Cube Relationale Daten Übung: Cognos Report Net

Mehr

Leitfaden Datensicherung und Datenrücksicherung

Leitfaden Datensicherung und Datenrücksicherung Leitfaden Datensicherung und Datenrücksicherung Inhaltsverzeichnis 1. Einführung - Das Datenbankverzeichnis von Advolux... 2 2. Die Datensicherung... 2 2.1 Advolux im lokalen Modus... 2 2.1.1 Manuelles

Mehr

Aufgaben zur fachwissenschaftlichen Prüfung Modul 3 Daten erfassen, ordnen, verarbeiten und austauschen: Schwerpunkt Datenbanken

Aufgaben zur fachwissenschaftlichen Prüfung Modul 3 Daten erfassen, ordnen, verarbeiten und austauschen: Schwerpunkt Datenbanken Aufgaben zur fachwissenschaftlichen Prüfung Modul 3 Daten erfassen, ordnen, verarbeiten und austauschen: Schwerpunkt Datenbanken 30 Wozu dient ein Primärschlüssel? Mit dem Primärschlüssel wird ein Datenfeld

Mehr

Musteraufbau eines Anforderungsprofils zur Einführung neuer Software

Musteraufbau eines Anforderungsprofils zur Einführung neuer Software Musteraufbau eines Anforderungsprofils zur Einführung neuer Software Ottostr. 15 96047 Bamberg Tel. +49/951/98046200 Fax +49/951/98046150 email: info@softcondev.de www: softcondev.de INHALT Vorwort Diese

Mehr

Teil VI. Datenbanken

Teil VI. Datenbanken Teil VI Datenbanken Überblick 1 Grundlegende Begriffe Motivation 2 Relationale Datenbanksysteme Das Relationale Datenmodell SQL 3 Entwurf von Datenbanken Das Enity Relationship (ER) Modell Abbildung von

Mehr

Seminar Business Intelligence Teil II. Data Mining & Knowledge Discovery

Seminar Business Intelligence Teil II. Data Mining & Knowledge Discovery Seminar Business Intelligence Teil II Data Mining & Knowledge Discovery Was ist Data Mining? Sabine Queckbörner Was ist Data Mining? Data Mining Was ist Data Mining? Nach welchen Mustern wird gesucht?

Mehr

Zuschauer beim Berlin-Marathon

Zuschauer beim Berlin-Marathon Zuschauer beim Berlin-Marathon Stefan Hougardy, Stefan Kirchner und Mariano Zelke Jedes Computerprogramm, sei es ein Betriebssystem, eine Textverarbeitung oder ein Computerspiel, ist aus einer Vielzahl

Mehr

lohmeyer White Paper Use Cases II UX+Prozessanalyse

lohmeyer White Paper Use Cases II UX+Prozessanalyse White Paper Use Cases II Use Cases begleiten uns in der IT seit mehr als 15 Jahren. Nichtsdestotrotz ist es nicht so einfach, Use Cases einfach und verständlich zu schreiben. Dieses White Paper spricht

Mehr

Programmiertechnik II

Programmiertechnik II Analyse von Algorithmen Algorithmenentwurf Algorithmen sind oft Teil einer größeren Anwendung operieren auf Daten der Anwendung, sollen aber unabhängig von konkreten Typen sein Darstellung der Algorithmen

Mehr

Wir machen das Komplizierte einfach

Wir machen das Komplizierte einfach Unser Konzept beruht darauf, dass der Käufer seine Kaufentscheidung umso bewusster trifft, je mehr zuverlässige und umfassende Informationen er über einen Artikel hat. Folglich wird er auch mit seinem

Mehr

Energiemanagement als unternehmerische Herausforderung

Energiemanagement als unternehmerische Herausforderung Energiemanagement als unternehmerische Herausforderung Die Energiepreise steigen zunehmend, ebenso wie die gesetzlichen Rahmenbedingungen für Unternehmen. Damit kommt auf die Unternehmen gleich in doppelter

Mehr

Performance by Design Wie werden performante ETL-Prozesse erstellt?

Performance by Design Wie werden performante ETL-Prozesse erstellt? Performance by Design Wie werden performante ETL-Prozesse erstellt? Reinhard Mense ARETO Consulting Bergisch Gladbach Schlüsselworte: DWH, Data Warehouse, ETL-Prozesse, Performance, Laufzeiten, Partitionierung,

Mehr

Trendlinien in Diagrammen (Excel 2010)

Trendlinien in Diagrammen (Excel 2010) Trendlinien in Diagrammen (Excel 2010) Trendlinien in Diagrammen (Excel 2010)... 1 Allgemeines... 2 Informationen über Prognosen und das Anzeigen von Trends in Diagrammen... 3 AUSWÄHLEN DES PASSENDEN TRENDLINIETYPS

Mehr

Das Kompetenzmodell digi.comp8 (NMS, AHS Unterstufe)

Das Kompetenzmodell digi.comp8 (NMS, AHS Unterstufe) Das Kompetenzmodell digi.comp8 (NMS, AHS Unterstufe) Quelle: http://digikomp.at/praxis/portale/digitale-kompetenzen/digikomp8nms-ahs-unterstufe/kompetenzmodell.html Kompetenzmodell (Übersicht) "Digitale

Mehr

Basis Community und Übersicht der verfügbaren Whitepapers

Basis Community und Übersicht der verfügbaren Whitepapers Business Community Basis Community und Übersicht der verfügbaren Whitepapers Zusammenfassung Dieses Dokument erklärt, wozu die Basis Community notwendig ist und welche Whitepapers verfügbar sind. Die Whitepapers

Mehr

McAfee Security-as-a-Service -

McAfee Security-as-a-Service - Handbuch mit Lösungen zur Fehlerbehebung McAfee Security-as-a-Service - Zur Verwendung mit der epolicy Orchestrator 4.6.0-Software Dieses Handbuch bietet zusätzliche Informationen zur Installation und

Mehr

Conversion Attribution

Conversion Attribution Conversion Attribution Eines der Trendthemen über das zurzeit jeder spricht ist Attribution. Das heißt allerdings nicht, dass auch jeder weiß was genau Attribution ist, was man damit machen kann und für

Mehr

Executive Summary BIG DATA Future Chancen und Herausforderungen für die deutsche Industrie

Executive Summary BIG DATA Future Chancen und Herausforderungen für die deutsche Industrie Executive Summary BIG DATA Future Chancen und Herausforderungen für die deutsche Industrie BIG DATA Future Opportunities and Challanges in the German Industry Zusammenfassung Die Menge der verfügbaren

Mehr

DYNAMICS NAV LIFT360 CONNECT

DYNAMICS NAV LIFT360 CONNECT Seite 1 Speziallösung Dynamics NAV Lift360 Connect Auf einen Blick: DYNAMICS NAV LIFT360 CONNECT für Microsoft Dynamics NAV Bonitätsprüfungen leicht gemacht. Der 360 -Rundumblick über Ihre Geschäftspartner

Mehr

Python ist leicht zu erlernen, unterstützt mehrere Programmierparadigmen und ist klar strukturiert.

Python ist leicht zu erlernen, unterstützt mehrere Programmierparadigmen und ist klar strukturiert. 1 Einführung In diesem Kapitel wird die moderne Programmiersprache Python vorgestellt. Nach einigen Bemerkungen zur Installation dieser Sprache wird gezeigt, wie Python interaktiv ausgeführt werden kann.

Mehr

OLAP und der MS SQL Server

OLAP und der MS SQL Server OLAP und der MS SQL Server OLAP und der MS SQL Server OLAP-Systeme werden wie umfangreiche Berichtssysteme heute nicht mehr von Grund auf neu entwickelt. Stattdessen konzentriert man sich auf die individuellen

Mehr

NÜTZLICHE TIPPS FÜR OPTIMALE SCANS

NÜTZLICHE TIPPS FÜR OPTIMALE SCANS Bedingungen, um gute Scans zu erhalten Die Faktoren, von denen das Ergebnis eines Scans abhängt, sind einerseits die Umgebung sowie die Konfiguration und Kalibrierung des Scanners, aber auch das zu scannende

Mehr

Relationale Datenbanken in der Praxis

Relationale Datenbanken in der Praxis Seite 1 Relationale Datenbanken in der Praxis Inhaltsverzeichnis 1 Datenbank-Design...2 1.1 Entwurf...2 1.2 Beschreibung der Realität...2 1.3 Enitiy-Relationship-Modell (ERM)...3 1.4 Schlüssel...4 1.5

Mehr

White Paper: Der Leitfaden zur Erweiterung Ihres ERP-Systems ERP ersetzen oder in die Cloud erweitern? www.eazystock.de.

White Paper: Der Leitfaden zur Erweiterung Ihres ERP-Systems ERP ersetzen oder in die Cloud erweitern? www.eazystock.de. White Paper: Der Leitfaden zur Erweiterung Ihres ERP-Systems ERP ersetzen oder in die Cloud erweitern? 2014 EazyStock Das Aktuelle ERP-Dilemma Hersteller und Distributoren sind kontinuierlich auf der Suche

Mehr

INFORMATIONSLOGISTIK VERSUS SUCHE. Wie die aktive Bereitstellung von Informationen hilft, Zeit zu sparen und Ziele zu erreichen

INFORMATIONSLOGISTIK VERSUS SUCHE. Wie die aktive Bereitstellung von Informationen hilft, Zeit zu sparen und Ziele zu erreichen INFORMATIONSLOGISTIK VERSUS SUCHE Wie die aktive Bereitstellung von Informationen hilft, Zeit zu sparen und Ziele zu erreichen 2 Informationslogistik versus Suche Inhalt Seite Thema 3 Suchen 3 Grundlegende

Mehr

D1: Relationale Datenstrukturen (14)

D1: Relationale Datenstrukturen (14) D1: Relationale Datenstrukturen (14) Die Schüler entwickeln ein Verständnis dafür, dass zum Verwalten größerer Datenmengen die bisherigen Werkzeuge nicht ausreichen. Dabei erlernen sie die Grundbegriffe

Mehr

Data Warehouse Definition (1) http://de.wikipedia.org/wiki/data-warehouse

Data Warehouse Definition (1) http://de.wikipedia.org/wiki/data-warehouse Data Warehouse Definition (1) http://de.wikipedia.org/wiki/data-warehouse Ein Data-Warehouse bzw. Datenlager ist eine zentrale Datensammlung (meist eine Datenbank), deren Inhalt sich aus Daten unterschiedlicher

Mehr

Datumsangaben, enthält mindestens Jahr, Monat, Tag

Datumsangaben, enthält mindestens Jahr, Monat, Tag Datenbanken mit SQL Informatik - Sprenger Häufig wird mit Tabellenkalkulationen gearbeitet, obwohl der Einsatz von Datenbanken sinnvoller ist. Tabellenkalkulationen wie Microsoft Excel oder LibreOffice

Mehr