Industrie 4.0 und Smart Data

Größe: px
Ab Seite anzeigen:

Download "Industrie 4.0 und Smart Data"

Transkript

1 LEITFADEN Industrie 4.0 und Smart Data Die Welt der großen Datenmengen in Unternehmen Neue Möglichkeiten zur Erfassung und Auswertung großer Datenmengen am Beispiel der Qualitätssicherung von Konsumgütern

2 Inhaltsverzeichnis 1 Einführung 3 2 Anwendungsbeispiele 4 3 Grundlagen 7 4 Werkzeuge für die Datenanalyse 14 5 Verwaltung von Daten in Datenbanken 19 6 Informationsvisualisierung 25 7 Akzeptanz und Vertrauen: Mensch Maschine Smart Data 27 8 Implementierung der Technologien im betrieblichen Umfeld 28 9 Quellen und Anmerkungen 30 2

3 1 Einführung In den letzten Jahren werden zunehmend Technologien eingesetzt, die eine automatische Akquisition von Daten ermöglichen. Diese Technologien unterstützen die Erhebung und Auswertung nahezu beliebig großer Datenmengen, im Unterschied zur klassischen manuellen Erfassung. Dies betrifft beispielsweise alle relevanten Informationen zur Bewertung komplexer Situationen, indem mithilfe geeigneter Indikatoren derlei Situationen nicht nur in Echtzeit bewertet, sondern auch Prognosen erstellt werden können. Wesentlich für diese Technologien ist dabei die Verarbeitung großer Datenmengen in kurzen Zeiträumen, um die Aktualität der daraus folgenden Ergebnisse sicherstellen zu können. Die wichtigste Herausforderung ist dabei der Umgang mit unstrukturierten Daten, die bisher durch manuelle Erfassung in eine geeignete strukturierte Form gebracht wurden, um sie auszuwerten und weiterzuverarbeiten (siehe Abschnitt Grundlagen, S. 7). Die besonderen Herausforderungen, die sich beim Erfassen, Verwalten und Auswerten großer Datenmengen ergeben, werden unter dem Begriff Smart Data zusammengefasst. Folgende Kriterien sind unter anderem dafür charakteristisch (3V-Definition): Volume Es fallen sehr große Datenmengen an. Velocity Die Daten müssen unter engen zeitlichen Rahmenbedingungen ausgewertet werden. Variety Sehr unterschiedliche Typen von Daten müssen ausgewertet werden. Neben klassischen strukturierten Daten sind eventuell auch unstrukturierte Daten zu berücksichtigen. Als viertes Kriterium wird in einigen Fällen mit Veracity noch der Umgang mit unzuverlässigen oder ungenauen Daten benannt. Insbesondere die Ableitung strukturierter aus unstrukturierten Daten kann zu falschen oder ungenauen Informationen führen. Dieser Leitfaden gibt einen Überblick über die neuen Möglichkeiten zur Erfassung und Auswertung großer Datenmengen. Zielgruppen sind mittelgroße und große Unternehmen, deren IT-Leiter und -Abteilungen sich zunehmend mit diesem Thema auseinandersetzen. Ähnliches gilt für Geschäftsführer, Entwickler und Mitarbeiter von IT-Dienstleistern, die ihren Kunden diese neue Technologie näherbringen. Gerne können Sie uns in dem Zusammenhang auch direkt ansprechen. Zunächst stellen wir die Möglichkeiten von Smart Data anhand einiger Anwendungsbeispiele dar. Danach folgt ein Überblick über die besonderen Herausforderungen an die IT-Infrastruktur. Zum besseren Verständnis dieser Herausforderungen präsentieren wir Grundlagen bezüglich der Verwaltung und Analyse von Daten. Danach folgen Abschnitte, die sich mit der Erfassung, Verwaltung, Analyse und Visualisierung sehr großer Datenmengen beschäftigen. 3

4 2 Anwendungsbeispiele Smart Data-Technologien wurden ursprünglich für Suchmaschinen, soziale Netzwerke sowie große Online-Shops entwickelt. Durch das schnelle Wachstum des Internets und der stetig steigenden Zahl an Servern und Anwendern galt es, sehr große Datenmengen zu bewältigen. Zu den damit verbundenen Herausforderungen zählten: Die Suche in sehr großen Datenbeständen Die Aufnahme von Daten einer Vielzahl parallel arbeitender Anwender Die Analyse großer Datenmengen, zum Beispiel zur Ableitung von Nutzerprofilen Zu diesem Zweck wurden existierende Technologien weiterentwickelt und durch neue Konzepte ergänzt. Dazu gehören beispielsweise neue Datenbankkonzepte (NoSQL, NewSQL), die parallele Verarbeitung von Daten in Clusterrechnern sowie neue Methoden des maschinellen Lernens, um automatisiert Zusammenhänge in Daten erkennen zu können. In den letzten Jahren haben diese Technologien und Konzepte auch zunehmend Anwendung im betrieblichen oder öffentlichen Umfeld gefunden: Verbesserte Absatzprognosen durch eine möglichst vollständige Erfassung aller Einflussfaktoren. Dazu gehören Faktoren wie Eigenschaften oder Bewerbungsgrad der Artikel sowie Informationen aus dem Umfeld (beispielsweise Eigenschaften von Konkurrenzprodukten, Wetterdaten oder auch die Jahreszeit). Eine solche Lösung der Otto Gruppe wurde mit dem Deutschen Innovationspreis 2014 ausgezeichnet. 1 4

5 Für das Verkehrsmanagement werden in verschiedenen Regionen Wetterdaten und Verkehrsdaten erfasst, auf deren Basis Prognosen für die Verkehrslenkung erstellt werden. Die Verkehrsdaten werden etwa von spezialisierten Sensoren geliefert (z. B. mittels Induktionsschleifen, Radarmelder, etc.), sowie von GPS-Modulen (wie sie auch in Smartphones enthalten sind), von Unfall- und Staumeldungen sowie von Videokameras. Ein integriertes System dieser Art wurde unter Beteiligung der KTH Royal Institute of Technology sowie der International Business Machines Corporation (IBM) in Stockholm aufgebaut. Dieses wertet neben anderen Daten aktuell auch anonymisierte GPS-Positionen pro Sekunde von Handybesitzern aus. 2 Zur Untersuchung der Nebenwirkungen von Medikamenten sowie der Patientenzufriedenheit mit Behandlungsmethoden können Daten aus Internet-Foren, sozialen Netzwerken sowie aus Blogs genutzt werden. Entsprechende Dienstleistungen bietet zum Beispiel das Unternehmen Treato Ltd an. 3 Erkennen von Betrugsversuchen bei finanziellen Transaktionen. Dazu werden Informationen in Datenbanken anhand von Parametern wie Art, Höhe, Ziel und Ort sowie Frequenz der Transaktionen hinsichtlich typischer Muster analysiert, die auf Betrugsversuche hinweisen. Entsprechende Software und Dienstleistungen werden unter anderem von der Paymint AG für Kreditkartentransaktionen angeboten. 4 Betrachten wir nun etwas ausführlicher ein Beispiel im Zusammenhang mit der Qualitätssicherung von Konsumgütern und den damit verbundenen Herausforderungen: Konsumgüter werden in einem Unternehmen auf unterschiedlichen Anlagen produziert. Aufgrund großer Stückzahlen ist die betriebsinterne Qualitätssicherung nur über Stichproben möglich. So kommt es immer wieder vor, dass fehlerhafte oder defekte Produkte an Kunden ausgeliefert werden. Diese können per , bei Nennung der Auftragsnummer sowie einer kurzen Fehlerbeschreibung Ersatz anfordern. Zur Verbesserung wird ein System aufgebaut, das möglichst vollständig relevante Daten erfasst, die einerseits die Qualität der Produkte beeinflussen und andererseits Informationen über die Produktqualität liefern: 1. Die Produktionsanlagen werden mit Sensoren ausgestattet, die verschiedene Daten erfassen: Beispielsweise Stromverbrauch, Temperatur oder den Betriebsmodus. Diese Daten dienen dazu, den Verschleiß der Anlagen sowie dessen Auswirkungen auf die Qualität der Produkte zu analysieren. Da in unserem Beispiel eventuell auch kurze Verbrauchsspitzen relevant sein können, werden diese Daten im Millisekundentakt erfasst. 5

6 2. Zur Unterstützung der Auswertung dieser Daten stellt das Unternehmen zusätzlich Informationen aus betrieblichen Datenbanken zur Verfügung. Dazu gehören zum Beispiel die Zuordnung von produzierten Gütern zu Anlagen im zeitlichen Verlauf sowie Informationen zur Wartung dieser Anlagen. 3. Die Ergebnisse der untersuchten Stichproben werden mit den erfassten Betriebsdaten verglichen und daraus Beziehungen zwischen Verschleiß, Wartung und Qualität der Produkte abgeleitet. 4. Aus den Kunden- s werden mit Hilfe der Bestellnummer die zugehörigen Produkte bestimmt und Probleme im Zusammenhang damit ebenfalls mit den Betriebsdaten in Beziehung gesetzt. Neue Konzepte und IT-Strukturen Für die Auswertung dieser Daten existieren verschiedene Herausforderungen, die sich mit einer klassischen IT-Infrastruktur in der Regel nicht lösen lassen. So werden beispielsweise pro Tag Verbrauchswerte erfasst, die nicht nur gemeinsam mit anderen Werten gespeichert, sondern zusammen mit Temperaturen und Betriebsmodi zur Ableitung des Verschleißes aggregiert werden müssen. Dies gilt insbesondere für größere Intervalle. So könnte etwa der Verschleiß mit Hilfe der Summe von gewichteten Verbrauchswerten berechnet werden, wobei die Gewichtung aus der zugehörigen Temperatur und dem entsprechenden Betriebsmodus abgeleitet wird. Sollen für diese Berechnung alle Daten der vergangenen 100 Tage berücksichtigt werden, dann müsste das System 25,92 Milliarden Werte in diese Rechnung mit einbeziehen. Eine konventionelle Datenbank wäre mit der Bereitstellung dieser großen Datenmenge für eine interaktive Anwendung mit Antwortzeiten im Sekundenbereich überfordert. Entsprechend werden für solche Aufgabenstellung neue Datenbankkonzepte genutzt (NoSQL, NewSQL). Eine weitere Herausforderung in diesem Kontext ist die Nutzung von s: Bereits deren automatisierte Zuordnung ist mit klassischen Ansätzen nicht unmittelbar möglich. Noch schwieriger gestaltet sich die Ableitung des tatsächlichen Problems aus einer . Zu den wesentlichen Ansätzen zählt es daher, strukturierte Daten aus unstrukturierten Texten abzuleiten, um diese beispielsweise mit Betriebsdaten zu verknüpfen. Wesentlich für die Analyse der Beziehungen zwischen Produktqualität sowie Betrieb und Wartung der Anlagen ist das Erkennen von Abhängigkeiten zwischen verschiedenen Parametern. Diese Abhängigkeiten stellen in der Regel keine feste Beziehung dar, sondern sind eher statistischer Natur. Sie lassen sich durch eine Wahrscheinlichkeitsverteilung repräsentieren. So kann eventuell eine Wahrscheinlichkeit für ein defektes Produkt bestimmt werden, abhängig von der Temperatur in einer Anlage, ohne tatsächlich einen zwingenden Zusammenhang herzustellen (also nicht: Bei einer Temperatur unter 50 Grad treten keine Defekte auf ). Eine klassische manuelle Analyse solcher Abhängigkeiten ist durch die große Anzahl unterschiedlicher Parameter in einem betrieblichen Umfeld in der Regel zu aufwändig. Daher kommen zunehmend moderne Methoden des statistischen Lernens zum Einsatz, mit denen das Auffinden solcher Abhängigkeiten automatisiert werden kann. 6

7 3 Grundlagen 3.1 Automatisierte Erfassung von Daten Die automatisierte Erfassung von Daten vermeidet den Flaschenhals bei manueller Dateneingabe. Damit lassen sich mehr Daten für mehr Details sowie für eine höhere zeitliche Auflösung erfassen. Ein wesentlicher Vorteil ist außerdem die Aktualität der automatisch erfassten Daten. Bei entsprechender Organisation ist damit sogar die Bereitstellung von Daten in Echtzeit möglich. Eine typische Datenquelle in diesem Zusammenhang sind Sensoren in Anlagen, mit denen sich automatisch Daten erfassen lassen. Ein anderes Beispiel sind RFID-Tags oder NFC-Tags, die automatisch Objekte erkennen. Grundsätzlich lässt sich dies auch über Barcodes erreichen. Allerdings ist hier in der Regel ein manueller Eingriff nötig, um den Leser oder das Objekt in eine entsprechende Position zu bringen. Für die Positions-Erkennung sind GPS-Module heute weit verbreitet. Die Positionsdaten lassen sich auch über drahtlose Netzwerke übertragen, sodass zum Beispiel die Position von Fahrzeugen erfasst werden kann. Die Erfassung von Objektpositionen in Gebäuden ist etwas aufwändiger, da häufig GPS-Signale durch die Gebäudestruktur abgeschirmt werden. Eine Alternative sind zum einen WLAN-basierte Ortungssysteme. Eine andere Option wären RFID-Tags mit großer Reichweite. 7

8 Dabei erfassen Ortungssensoren diese Objekte und können damit zumindest grob deren Position abschätzen. Die bisher dargestellten Möglichkeiten liefern direkt strukturierte Daten, die unmittelbar weiter verarbeitet werden können. Deutlich häufiger sind allerdings unstrukturierte Daten wie Texte, Bilder, Video- oder Audiodaten. Aus diesen müssen zunächst strukturierte Daten abgeleitet werden, um sie mit anderen Daten verknüpfen zu können. Im folgenden Abschnitt wird das Thema strukturierte und unstrukturierte Daten genauer erläutert. Wesentlich für die automatische Erfassung von Daten sind zuverlässige drahtgebundene oder drahtlose Computernetzwerke mit ausreichender Bandbreite. Erst die flächendeckende Verfügbarkeit solcher Netzwerke ermöglicht eine automatisierte Erfassung. Tatsächlich ist das Internet nicht nur die Basisinfrastruktur für die Vernetzung, sondern auch eine immer wichtigere Datenquelle. Dazu gehören zum Beispiel Kundenbewertungen oder Produktankündigungen von Konkurrenten, einschließlich deren Beschreibungen. Interessant, etwa für Einkauf oder Vertrieb, sind auch unterschiedliche Nachrichtenquellen, die Kontextinformationen über Märkte liefern. In Zukunft wird das Internet noch stärker für die Kommunikation zwischen Geschäftspartnern genutzt werden. So ließe sich bereits heute die gesamte Korrespondenz darüber abwickeln. Mit der Verwendung sogenannter digitaler Signaturen wäre die Zuordnung von Briefen oder Dokumenten zu Personen und Organisationen sogar deutlich zuverlässiger möglich als mit einer klassischen Unterschrift. Ein weiterer großer Vorteil: Die erhaltenen Briefe oder Dokumente liegen sofort in digitaler Form vor, ohne manuellen Scanvorgang. 3.2 Strukturierte versus unstrukturierte Daten Die zentrale Herausforderung für die automatisierte Erfassung von Daten ist die Nutzung sogenannter unstrukturierter Daten. Zum besseren Verständnis dieser Herausforderung zunächst eine Erläuterung, was strukturierte Daten eigentlich sind: Strukturierte Daten sind wichtig für die Konstruktion von Programmen, da sie dem Software-Entwickler helfen, aus gespeicherten Daten relevante Angaben zu identifizieren und in seinem Programm zu verknüpfen. Betrachten wir dazu das einfache Beispiel einer Datenbank, bei der Angestellte über Personalnummer, Personenname, Alter und Monatsgehalt sowie Produkte über Produktnummer, Produktname und Preis beschrieben werden. Der Entwickler soll nun ein Programm realisieren, das die Namen aller Angestellten zusammen mit dem Monatsgehalt ausgibt. Dabei soll die ausgegebene Liste aufsteigend nach dem Gehalt sortiert sein (kleinstes Gehalt zuerst). Die Datenbank enthält jetzt viele Namen und Zahlen, die allerdings sehr unterschiedliche Bedeutungen haben. So sind für diese Anfrage nicht die Produktnamen von Interesse. Bei den Zahlen haben wir noch mehr Möglichkeiten. Hier müssen wir sicherstellen, dass das Programm zum Beispiel 8

9 nicht den Preis von Produkten berücksichtigt, sondern nur das Gehalt von Personen. Allerdings werden auch Personen durch unterschiedliche Zahlen beschrieben, wie zum Beispiel durch das Alter oder das Monatsgehalt. Auch hier ist es wichtig, die richtige Zahl für eine Person zu berücksichtigen. Insgesamt brauchen wir für jeden gespeicherten Wert also folgende Zusatzinformation: Auf welches Objekt bezieht sich ein Wert? In unserem Beispiel kann dies entweder eine Person oder ein Produkt sein. Im Allgemeinen spricht man in der Informatik von einer Entität. Mit diesem Begriff können auch abstrakte Objekte, wie zum Beispiel eine Rechnung erfasst werden. Für eine Entität existieren eventuell Werte mit einem identischen Datentyp, die jedoch eine unterschiedliche Rolle spielen. So kann in unserem Beispiel eine Zahl entweder das Alter oder das Gehalt einer Person darstellen. Entsprechend muss bei einer Zuordnung eines Wertes noch die Art der Beziehung zur Entität geklärt werden. Entsprechend können für eine Person Attribute wie Alter und Gehalt existieren, wie beispielsweise die Werte 35 und Grundsätzlich besteht auch die Möglichkeit, zwei Entitäten über eine Relation in Beziehung zueinander zu setzen. So kann eine Person zum Beispiel in der Beziehung Eigentümer zu einem Kraftfahrzeug stehen. Die klassische Welt der Informationsverarbeitung verwaltet grundsätzlich atomare Informationseinheiten, die jeweils aus drei Komponenten bestehen (Tripel). Dieses Tripel besteht aus einer Entität (z. B. eine Person), die über eine Beziehung (z. B. Gehalt oder Eigentümer) mit einem Wert (z. B. Zahl) oder einer anderen Entität (z. B. Kraftfahrzeug) verknüpft ist. Die nebenstehende Abbildung zeigt solche atomaren Informationen in grafischer Form. Diese Art der Informationsverwaltung ermöglicht die einfache Verarbeitung und Verknüpfung von Daten auch aus sehr unterschiedlichen Quellen. Wesentliche Voraussetzung dafür ist allerdings häufig eine manuelle Vorverarbeitung, da die verfügbaren Daten in der Regel noch nicht die dafür notwendige Form aufweisen. Person Person Gehalt Eigentümer Zahl Kraftfahrzeug Beispiele für atomare Informationen (Quelle: Eigene Darstellung). Wesentliche Daten zu einer Person können ursprünglich in Textform vorliegen, etwa bei einem Arbeitsvertrag. Dieser enthält den Namen einer Person, dessen Geburtsdatum sowie das Gehalt. Allerdings tauchen diese Daten nicht an definierten Stellen im Vertrag auf. Entsprechend hat der Vertragstext keine ausreichende Struktur, um diese Daten unmittelbar extrahieren, verarbeiten und mit anderen Daten verknüpfen zu können. 9

10 Grundsätzlich existieren natürlich schon seit geraumer Zeit Systeme, die auch solche Dokumente effizient verwalten können. Ein typischer Zugriff darauf ist über eine Volltextsuche möglich, bei der Anwender einen oder mehrere Begriffe eingeben. Ein Anwender könnte beispielsweise Vor- und Nachname einer Person angeben, um deren Arbeitsvertrag zu finden. Allerdings liefert die Suche dann nur jene Verträge, die den eingegebenen Namen an beliebiger Stelle enthalten. Der in dem Text gefundene Name könnte sich allerdings auch auf einen Mitarbeiter der Personalabteilung beziehen, der diesen Vertrag ausgestellt hat oder auf den Vorgesetzten des Angestellten. Damit ist die Rolle des gefundenen Namens zu dem Vertrag relativ unklar. Noch schwieriger gestaltet sich die Suche nach Verträgen mit einem Gehalt, das eine vorgegebene Untergrenze aufweist. Grundsätzlich ließen sich zwar ohne Probleme alle Zahlen aus einem Vertrag extrahieren. Aber auch hier ist deren Rolle in Bezug auf den Vertrag unklar. So könnte dieser zum Beispiel Vergütungsgruppen von 1 16 enthalten. Da es sich dabei, gemessen an einem Gehalt, um kleine Zahlen handelt, würde bei dem Vergleich dieser Zahlen mit der Gehaltsuntergrenze das System (fast) keine Verträge liefern. Wesentlich für die weitere Verarbeitung solch unstrukturierter Texte ist die Extraktion strukturierter Daten in dem beschriebenen Format. Dazu muss der Kontext eines Namens oder einer Zahl im Vertrag analysiert werden, um die Rolle dieser Werte zu identifizieren. Hierzu lassen sich zum Beispiel Methoden des sogenannten Text Mining einsetzen, die später in diesem Leitfaden genauer beschrieben werden. Grundsätzlich ist dabei zu berücksichtigen, dass diese Methoden nicht perfekt funktionieren. Daher muss der Anwendungskontext passen, sodass auch kleinere Ungenauigkeiten akzeptabel sind. Alternativ dazu sind geeignete Maßnahmen zu treffen, die eine Auflösung unklarer Situationen durch einen Eingriff von Seiten des Menschen ermöglichen. In ähnlicher Weise lassen sich auch strukturierte Informationen aus Bildern, Audio- und Videodaten mit geeigneten Verfahren ableiten. Aber auch hier führen diese Verfahren nicht in allen Fällen zu ausreichend genauen Ergebnissen. 3.3 Lernverfahren Eine wichtige Motivation für die Akquisition großer Datenmengen ist das frühzeitige Erkennen besonderer Situationen und Probleme sowie die Möglichkeit, Prognosen zu erstellen. Dazu müssen geeignete Parameter als Indikatoren in den Daten identifiziert werden, aus denen Situationen oder zukünftige Verläufe anderer Parameter abgeschätzt werden können. In unserem Beispiel könnten diese Indikatoren die Parameter Stromverbrauch, Temperatur und Betriebsmodus der Anlagen sein. Mit Hilfe dieser Indikatoren können dann eventuell Parameter wie der Verschleiß einer Anlage und damit zusammenhängend der Prozentsatz der defekten Produkte abgeleitet werden. Die Identifikation geeigneter Indikatoren sowie deren Zusammenhang mit besonderen Situationen oder zukünftigen Ereignissen ist eine anspruchsvolle Aufgabe, die gerade bei sehr großen Datenmengen manuell nur mit unverhältnismäßig großem Aufwand erfüllt werden kann. Mit modernen Verfahren des sogenannten maschinellen Lernens lässt sich das Erkennen des Zusammenhangs mit bestimmten Situationen oder zukünftigen Ereignissen automatisieren. 10

11 Grundsätzlich arbeiten diese Verfahren so, dass Indikatoren als Werte von Eingangsvariablen X = {x 1, x 2, x 3, } interpretiert werden. Aus den Werten dieser Eingabevariablen lassen sich dann Situationen oder zukünftige Ereignisse als Werte der Ausgabevariablen Y = {y 1, y 2, y 3, } ableiten. In unserem Beispiel lassen sich als Eingabevariablen Stromverbrauch, Temperatur und Betriebsmodus als Zeitreihen im zeitlichen Verlauf darstellen: Stromverbrauch: I 1, I 2, I 3, I 4, I 5, Temperatur: T 1, T 2, T 3, T 4, T 5, Betriebsmodus: M 1, M 2, M 3, M 4, M 5, Die Ausgaben in diesem Beispiel werden durch Variablen repräsentiert, die angeben, ob ein Produkt den Qualitätsanforderungen entspricht oder nicht: Qualität: Q 1, Q 2, Q 3, Q 4, Q 5, In unserem Beispiel sollen die Variablen lediglich die Werte defekt oder nicht defekt liefern (binäre Variablen). Ein Lernverfahren wird zunächst mit vorhandenen Daten trainiert, bei denen die Werte der Ausgabevariablen für verschiedene Kombinationen von Eingabevariablen bekannt sind. Für ein effektives Training muss dazu eine ausreichende Anzahl an Datensätzen mit bekannten Ausgaben existieren. Grundsätzlich gilt dabei, dass mit einer größer werdenden Menge von Variablen auch die Menge der Trainingsdaten deutlich wachsen muss. Sind die Werte der Eingabevariablen untereinander unabhängig, dann kann die Menge der benötigten Trainingsdaten im ungünstigsten Fall sehr schnell wachsen (exponentielles Wachstum). In unserem Beispiel könnten wir die Anzahl der Variablen dadurch reduzieren, dass wir jeweils einen Stresswert" für den Stromverbrauch und die Temperatur berechnen. Dazu könnten wir etwa verschiedenen Verbrauchswerten unterschiedliche Stresswerte zuordnen, sodass sehr hohe Verbrauchswerte mit überproportional hohen Stresswerten bestraft werden. Entsprechend werden Stresswerte für Temperaturen abgeleitet, die sehr niedrige oder sehr hohe Temperaturen bestrafen. Die Stresswerte seit der letzten Wartung einer Anlage können nun getrennt nach Temperatur und Stromverbrauch bis zum Zeitpunkt einer betrachteten Ausgabevariable (also des produzierten Produkts) aufsummiert werden. Zur Vereinfachung der Analyse betrachten wir nur noch einen Betriebsmodus, sodass wir die Werte der Ausgabevariablen in einem zweidimensionalen Koordinatensystem mit jeweils einer Achse für den Stresswert Temperatur und den Stresswert Stromverbrauch darstellen können (siehe Abbildung). Die defekten Produkte werden hier mit einem Kreuz und die anderen Produkte mit einem Kreis dargestellt. Summierter Stresswert Stromverbrauch Summierter Stresswert Temperatur Zusammenhang Temperatur, Stromverbrauch und Produktqualität (Quelle: Eigene Darstellung). 11

12 Für eine Aufgabenstellung dieser Art kann eine sogenannte Support Vector Machine als Lernverfahren eingesetzt werden. In einem zweidimensionalen Fall wird hier eine Trennlinie bestimmt, die mit einem möglichst breiten Pfad die beiden unterschiedlichen Punktemengen voneinander trennt. In einem dreidimensionalen Fall wird eine entsprechende Ebene und in höherdimensionalen Anwendungen eine Hyperebene bestimmt. Lassen sich die Ergebnismengen mit diesem Ansatz trennen, dann wird von linear separierbaren Daten gesprochen. Im Allgemeinen lassen sich die Daten allerdings nicht linear voneinander trennen. In unserem Beispiel könnte der Bereich der vollständig funktionierenden Produkte ein Oval im Bereich des zweidimensionalen Koordinatensystems bilden. Zur Behandlung dieser Fälle existieren Erweiterungen des Konzepts, bei der die Punkte in ein höherdimensionales Koordinatensystem eingebettet werden, sodass sie hier wieder linear trennbar sind ( Kernel Trick ). In unserem Beispiel haben wir eventuell ein weiteres Problem: Der Stress für eine Anlage hängt wahrscheinlich nicht nur vom aktuellen Wert für Stromverbrauch und Temperatur ab, sondern auch von den vorigen Werten. Grundsätzlich existiert auch eine Abhängigkeit der Werte untereinander, da zum Beispiel das Ausmaß der Veränderung von Temperatur und Stromverbrauch im Millisekundenbereich begrenzt sein dürfte. Existieren solche Abhängigkeiten von Variablen untereinander, so sind andere Formen des maschinellen Lernens günstig. Mit einem sogenannten Hidden Markov Modell lassen sich Sequenzen von (Zufalls-)Variablen untersuchen, bei denen die Wahrscheinlichkeit für das Auftreten eines Wertes für eine Variable von den Werten der vorigen Variablen in dieser Sequenz abhängig ist. Dies ist etwa bei Zeitreihen häufig der Fall. Gestaltet sich der Zusammenhang zwischen den Variablen komplexer, so lassen sich sogenannte Conditional Random Fields einsetzen beispielsweise bei Variablen, die nicht nur von Vorgängern, sondern auch von Nachfolgern abhängig sind. Nehmen wir etwa das Finden von Namen in Texten: Hier ist die Wahrscheinlichkeit, dass ein Wort einen Namen darstellt, von Begriffen vor und nach dem untersuchten Wort abhängig. Bei der Wortkombination Herr Bauer erhöht zum Beispiel das Wort Herr deutlich die Wahrscheinlichkeit, dass das folgende Wort Bauer ein Name ist. Hingegen signalisiert in der Bauer erntet das Wort erntet..., dass in diesem Fall der Begriff Bauer eher keinen Namen darstellt. Die Anforderungen an Lernverfahren Eine besondere Herausforderung bei der Anwendung von Lernverfahren ist die Zuverlässigkeit eines entdeckten Zusammenhangs. Grundsätzlich ist es möglich, dass ein Zusammenhang für die Trainingsdaten entdeckt wird, dieser aber bei Anwendung des Verfahrens nur noch gering oder sogar nicht mehr vorhanden ist. Daher wird ein Lernverfahren in der Regel nur auf einen Teil der Trainingsdaten angewendet (z. B. 80%) und das trainierte Verfahren dann nochmal mit den verbleibenden Trainingsdaten getestet. Leider kann es trotz solcher Tests passieren, dass ein trainiertes Verfahren bei der späteren Anwendung unbefrie- 12

13 digende oder gar völlig unbrauchbare Ergebnisse liefert, obwohl es für Trainingsdaten fast perfekt funktioniert. Damit lässt sich zunächst die Qualität des Verfahrens nicht ausschließlich auf der Basis der verwendeten Trainingsdaten bewerten. Betrachten wir dazu wieder unser Beispiel von Produktionsanlagen. Hier könnten Anlagen existieren, bei denen sich Temperatur und Stromverbrauch während der Produktion nur geringfügig ändern und damit praktisch keinen Einfluss auf die Produktqualität haben. In diesem Fall wären die entsprechenden Werte in dem Diagramm aus der Abbildung von Seite 11 willkürlich verteilt. Ein mögliches Lernverfahren könnte jetzt lediglich alle Punkte der Trainingsdaten zusammen mit ihren summierten Stresswerten und dem Ergebnis abspeichern ( defekt oder nicht defekt ). Bei der Anwendung des Verfahrens würde der Abstand eines neuen Punkts von den vorhandenen Punkten bestimmt und als Ergebnis der Wert des nächsten Punktes ausgegeben. Dieses Verfahren würde für die Trainingsdaten zwar perfekte Ergebnisse liefern. Für weitere Daten kann das Verfahren aber keine sinnvollen Ergebnisse mehr liefern, da hier zwischen den betrachteten Stresswerten und der Produktqualität kein Zusammenhang besteht. Das dargestellte Problem ist direkt mit der sogenannten Kapazität eines Lernverfahrens verbunden. Die Kapazität leitet sich aus der Anzahl der Trainingsfälle ab. Hierzu wird analysiert, für welche Menge an Trainingsdaten das Verfahren noch ein perfektes Ergebnis liefern kann genauer gesagt beim Einsetzen beliebiger Ergebniskombinationen (Werte der Ergebnisvariablen). Die Kapazität des Lernverfahrens wächst dann mit dieser Anzahl an Trainingsfällen. Das vorgestellte Lernverfahren mit der direkten Speicherung aller Daten verfügt über unendliche Lernkapazität. Damit wird deutlich, dass ein Lernverfahren dann gut geeignet ist für eine Aufgabenstellung, wenn es eine kleine Kapazität hat und trotzdem gute Ergebnisse für eine große Menge an Trainingsdaten liefert. Wobei diese Ergebnisse nicht zwingend perfekt sein müssen. Erst dann kann mit einer gewissen Zuverlässigkeit erwartet werden, dass das trainierte Verfahren auch für andere Daten sinnvolle Ergebnisse erzielt. Intuitiv lässt sich dieser Zusammenhang so erklären, dass für die Trainingsdaten ein möglichst einfacher Zusammenhang zwischen Eingabe- und Ausgabevariablen erkannt werden muss. Wenn dieser einfache Zusammenhang für eine große Menge an Trainingsdaten gilt, dann ist es plausibel, diesen Zusammenhang auch auf andere Daten zu übertragen. Wird dagegen ein komplexer Zusammenhang abgeleitet, der sich durch weitere Trainingsdaten auch noch ändern kann, dann gilt ein solcher Zusammenhang eventuell nicht mehr für weitere Daten. 13

14 4 Werkzeuge für die Datenanalyse 4.1 Standardanalysen Die Analyse von Daten ist ein Anwendungsgebiet, das bereits klassische Datenbankmanagement-Systeme mit ausgewählten Standardoperationen unterstützten. Betrachten wir dazu wieder unser Beispiel einer Betriebsdatenerfassung mit Sensoren für Stromund Temperaturverbrauch sowie für den Betriebsmodus der Anlagen in einem Unternehmen. Zur Analyse dieser Daten stehen mindestens die folgenden Operationen zur Verfügung: Zunächst ist es interessant, die gesamte Anzahl aller Einträge der Tabelle zu bestimmen Der Gesamtverbrauch einer Anlage kann durch die Summe aller Verbrauchswerte bestimmt werden In ähnlicher Weise lässt sich der Durchschnitt aller Verbrauchswerte einer Anlage berechnen Für die erfassten Betriebstemperaturen können das Minimum und das Maximum bestimmt werden Obwohl praktisch alle Datenbankmanagement-Systeme mindestens die oben im Kasten genannten fünf Aggregatfunktionen unterstützen, können derlei Operationen bei einer sehr großen Menge an Einträgen zu Rechenzeiten führen, die nicht mehr akzeptabel sind. Ein weiterer wesentlicher Ansatz für die Analyse von Daten ist deren Gruppierung. So können zum Beispiel Verbrauchsdaten monatsweise summiert werden, um einzelne Monate zu vergleichen. Grundsätzlich können diese Gruppierungskriterien nahezu frei gewählt werden, um beispielsweise die summierten Verbräuche von Anlagen an verschiedenen Standorten zu vergleichen. Neben der Effizienz zählt die Entwicklung einer geeigneten Benutzeroberfläche zur wesentlichen Herausforderung, sodass auch gelegentliche Anwender ohne Programmierkenntnisse nahezu beliebige Auswertungen ohne Einschränkungen durchführen können. Solche Benutzeroberflächen werden von einschlägigen Business Intelligence Tools zur Verfügung gestellt. Im Idealfall können diese Tools sogar die kompletten Daten im Hauptspeicher halten, sodass die meisten Operationen ohne spürbare Verzögerung ausgeführt werden können. 14

15 4.2 Statistische Analysen und Data Mining Die im vorigen Abschnitt vorgestellten Operationen beschränken sich auf die Aggregation von Daten. Für die Analyse von Beziehungen zwischen unterschiedlichen Daten sind diese Operationen in der Regel noch nicht ausreichend. Betrachten wir dazu die Nutzung von Anlagen im saisonalen Verlauf. Dazu können mit den bisherigen Operationen zwar die Verbrauchsdaten getrennt nach den vier Jahreszeiten summiert werden. Allerdings kann ein geringerer Verbrauch im Frühling als im Sommer bei stetigen Schwankungen Zufall sein. Erst durch eine längere Zeitreihe ließen sich entsprechende, auch für Prognosen geeignete Zusammenhänge aufdecken. Von zentraler Bedeutung für die Analyse ist dabei die bedingte Wahrscheinlichkeit eines Ereignisses (z. B. der summierte Verbrauch), in Abhängigkeit von einem anderen Ereignis (z. B. die Jahreszeit). Für die Abschätzung einer solchen Wahrscheinlichkeitsverteilung existieren geeignete statistische Verfahren. Mit deren Hilfe können auch Fehler im Zuge einer solchen Schätzung analysiert werden, abhängig von den zur Verfügung stehenden Daten. Eine einzelne Zufallsvariable, wie zum Beispiel der summierte Verbrauch in einer Jahreszeit, kann durchaus auch von mehr als einer anderen Variable abhängen. In unserem Beispiel könnte der summierte Verbrauch nicht nur von der Jahreszeit, sondern auch von der Konjunktur (messbar zum Beispiel über das Wirtschaftswachstum) sowie von Wetterdaten (Durchschnittstemperatur und Regentage) der betrachteten Jahreszeit abhängig sein. Solche Zusammenhänge lassen sich mit Hilfe sogenannter multivariater Verfahren analysieren. Verfahren für die Schätzung von Wahrscheinlichkeitsverteilungen sowie der Abhängigkeiten unterschiedlicher Zufallsvariablen stehen in einschlägigen Softwarepaketen zur Verfügung. Ein bekanntes kommerzielles Produkt ist SPSS von IBM. Die Sprache R stellt im Rahmen einer Open Source Implementierung eine ähnliche Funktionalität zur Verfügung. Grundsätzlich benötigt der Anwender ein Grundwissen im Bereich der Statistik, um die entsprechende Software sinnvoll einsetzen zu können. Etwas selbsttätiger funktionieren automatisierte Verfahren des Data Mining, die mithilfe von Methoden des statistischen Lernens (siehe Abschnitt Lernverfahren, S. 12) solche Verknüpfungen herstellen. Allerdings müssen auch diese Methoden zunächst von einem Experten eingerichtet werden. Innerhalb des vorgegeben Rahmens lassen sich dann weitgehend automatisch Abhängigkeiten auffinden. 4.3 Text Mining Dokumentenmanagement-Systeme zur Erfassung und Verwaltung von Texten werden in größeren Unternehmen bereits heute flächendeckend eingesetzt. Auch in mittleren und kleineren Unternehmen finden diese Systeme immer mehr Verbreitung. Sie bieten verschiedene zusätzliche Dienstleistungen, wie zum Beispiel das schnelle Auffinden von Dokumenten (auch von unterschiedlichen Standorten aus) sowie die Verwaltung und Nachverfolgung von Änderungen. Dokumentenmanagement-Systeme verbreitern grundsätzlich die Basis der in Informationssystemen verwalteten Daten und versprechen damit einen genaueren, vollständigeren und auf Knopfdruck abrufbaren Blick auf ein Unternehmen. Leider zeigt sich in der betrieblichen 15

16 Realität, dass viele Informationen, die in Dokumenten enthalten sind, nicht abgerufen werden können. Hintergrund ist die fehlende Struktur (siehe Abschnitt Strukturierte versus unstrukturierte Daten, S. 8) textueller Daten, die eine gezielte Extraktion von Informationen und ihre Verknüpfung mit anderen Informationen schwer macht. Grundsätzlich existieren noch keine universellen Verfahren, die vollständig die Bedeutung eines beliebigen Textes erfassen und für die weitere Verarbeitung nutzbar machen können. Seit einigen Jahren finden allerdings zunehmend Methoden des Text Mining Anwendung, die zumindest einzelne Informationen mit ausreichender Genauigkeit extrahieren. Beispiele hierzu sind: Mit Verfahren des Topic Detection lassen sich Texte einem Thema zuordnen. Dies kann für eine fokussierte Suche nützlich sein, sodass nur innerhalb von Dokumenten zu einem vorgegebenen Thema gesucht wird. Die Zuordnung von Themen zu Dokumenten kann auch bereits für die Analyse von Textdaten nützlich sein. So ließe sich mit Hilfe solcher Verfahren die Anzahl der Fehlerreports im Verlauf der Zeit darstellen. Ein häufig eingesetztes Verfahren extrahiert Namen aus Texten. Mithilfe von Methoden der Named Entity Recognition lassen sich zum Beispiel Personennamen, Namen von Organisationen, Namen von Orten oder auch Zahlen extrahieren. Zusammen mit den Verfahren des Topic Detection ließen sich den Fehlerberichten damit auch die betroffenen Produkte zuordnen. Interessant aber auch aufwändig sind Verfahren der Relation Detection. Damit lassen sich Beziehungen zwischen zwei Entitäten oder zwischen Werten und Entitäten auffinden. So liefern diese Verfahren exakt die Art an strukturierten Daten, die für die weitere Verarbeitung und Kombination mit anderen Daten benötigt werden. Damit ließen sich zum Beispiel numerische Qualitätsparameter für unterschiedliche Produkte aus textuellen Fehlerberichten ableiten. Die Analyse von negativen oder positiven Stimmungen eines Texts ist mit Methoden der Sentiment Detection möglich. Mit diesen Methoden können zum Beispiel besonders negative Fehlerberichte für eine manuelle Analyse identifiziert werden. Grundsätzlich analysieren diese Methoden das Auftreten und die Häufigkeit bestimmter Begriffe gerade auch im Kontext der unmittelbaren Umgebung eines Begriffs. So existieren zum Beispiel Verfahren für Topic Detection, die für verschiedene Themen auch ein unterschiedliches Vokabular annehmen. Da sich ein Text in der Regel auch unterschiedlichen Themen zuordnen lässt, besteht dieser dann aus einer Mischung verschiedener Vokabulare, die durch diese Methoden detektiert werden können. Die Erkennung von Namen lässt sich in vielen Fällen durch eine Namensliste unterstützen. Existiert zum Beispiel eine Liste von Ortsnamen und eine weitere Liste von Personennamen, dann lassen sich in einem Text relativ leicht Kandidaten für solche Orts- und Personennamen erkennen. Allerdings kann es gerade bei umfangreichen Listen vorkommen, dass die enthaltenen Namen nicht eindeutig sind. Betrachten wir dazu das folgende Beispiel: Am vergangenen Sonntag besuchte Frau Paris Hilton das Musical CATS in London. Aufgrund des starken Regens in London, fuhr ihre Limousine in eine Fußgängerzone ein, um Frau Hilton direkt vor dem Musical-Theater abzusetzen. 16

17 In den genannten Listen wäre das Wort Paris ein Kandidat für einen Ortsnamen. Auch ein weiblicher Vorname wäre hier möglich. Eventuell existiert auch in der Liste der Namen das Wort London. Durch eine Analyse des Kontexts lässt sich aber hier diese Mehrdeutigkeit auflösen, da dem Namen Paris Hilton das Wort Frau und dem Namen London das Wort in vorangeht. Für das Erkennen von Relationen existieren sehr unterschiedliche Möglichkeiten, die auch ohne eine vorangegangene Identifikation benannter Identitäten Ergebnisse liefern. Trotzdem kann die Identifikation von Entitäten die Erkennung von Relationen erleichtern, auch wenn es eventuell nicht mehr möglich ist, alle Relationen zu erkennen. Entdeckt ein Verfahren zum Beispiel zwei Entitäten mit einem Abstand von wenigen Worten, dann könnte das Verfahren anhand der dazwischenliegenden Worte entscheiden, ob die beiden Entitäten in der analysierten Beziehung stehen. Für das Erkennen positiver und negativer Stimmungen werden häufig meinungstragende Adjektive und Substantive sowie entsprechende Phrasen analysiert. So sind mit Begriffen wie schlecht und Problem eher negative sowie mit Begriffen wie gut oder Erfolg eher positive Stimmungen verbunden. Natürlich müssen auch diese Begriffe in ihrem Kontext analysiert werden ( kein Problem, nicht gut ). Vor Anwendung dieser Verfahren wird häufig noch die Struktur der Texte genauer analysiert. Dazu werden zum Beispiel Satzgrenzen erkannt, wobei auch diese Aufgabe durch die mehrdeutige Verwendung des Punkts nicht trivial ist. Als weiterer Schritt kann die Rolle der Wörter in einem Satz zum Beispiel mit einem Part of Speech Tagger abgeleitet werden (Nominalphrase, Verbalphrase, etc.). Ein weiteres wichtiges Hilfsmittel sind Ontologien, die Begriffe mit anderen Begriffen in Beziehung setzen. Damit lassen sich zum Beispiel Begriffe mit ähnlicher oder sogar fast identischer Bedeutung auffinden. Verfahren des Text Mining lassen sich mithilfe zweier sehr unterschiedlicher Ansätze realisieren: Mithilfe von regelbasierten Ansätzen kann das Wissen über den Aufbau von typischen Sätzen in dem betrachteten Anwendungsbereich modelliert werden, insbesondere im Kontext der untersuchten Begriffe. Solche Regeln können zum Beispiel fordern, dass gewisse Worte wie Herr und Frau nicht vor einem Ort und Worte wie geht und läuft nicht hinter einem Ort vorkommen dürfen. Lernverfahren ermöglichen das Erkennen von Namen, Relationen, Themen oder auch von Stimmungen (siehe Abschnitt Lernverfahren, S. 12). Auf den ersten Blick scheinen Lernverfahren nur die zweitbeste Lösung zu sein. Grundsätzlich würde man vermuten, dass ein menschlicher Experte mit einer genauen Kenntnis der Sprache sowie des Aufbaus typischer Dokumente eine (fast) perfekte regelbasierte Lösung realisieren kann. Überraschenderweise liefern Lernverfahren in vielen Anwendungsbereichen bessere Ergebnisse. Der Hintergrund mag sein, dass insgesamt noch zu wenig über Aufbau und Verwendung natürlicher Sprache in unterschiedlichen Anwendungsbereichen bekannt ist. Ein offensichtlicher Vorteil von Lernverfahren ist aber die Möglichkeit, Wahrscheinlichkeitsverteilungen mithilfe einer großen Menge an Trainingsdaten präziser zu analysieren. Gerade bei Indikatoren, die bei gleichen Werten zu unterschiedlichen Ergebnissen kommen können, ist ein menschlicher Experte bei der Definition einer Wahrscheinlichkeit in der Regel überfordert. 17

18 Ein Nachteil von klassischen Lernverfahren ist die große Menge an benötigten Trainingsdaten. Gerade bei der Analyse einer größeren Menge von Indikatoren müssen die Trainingsdaten möglichst viele Wertekombinationen dieser Indikatoren abdecken. Die Bereitstellung eines entsprechend großen Trainingsdatensatzes kann allerdings für verschiedene Anwendungsbereiche nicht mit akzeptablem Aufwand geleistet werden. Entsprechend wurden in der Forschung Verfahren des Semi-Supervised Learning sowie des Un-Supervised Learning entwickelt. Das Un-Supervised Learning kommt ohne Trainingsdaten aus. Bei diesem Verfahren wird versucht, vollautomatisch eine Struktur zu erkennen. Ein Beispiel dafür ist die automatisierte Entdeckung von Themen anhand des in verschiedenen Texten enthaltenen Vokabulars. Entsprechend der Unterschiede im Vokabular werden Texte verschiedenen Gruppen zugeordnet und typische Begriffe aus dem Vokabular als Themen extrahiert. Beim Semi-Supervised Learning wird mit einer relativ kleinen Menge an Trainingsdaten begonnen. Das Verfahren versucht nun mithilfe dieser Saat aus noch unbekannten Daten weitere Trainingsfälle zu identifizieren, für die aufgrund ihres Aufbau und der Struktur ohne aufwändige Analyse die korrekten Ergebnisse abgeleitet werden können. Mit den so erzeugten Trainingsdaten läuft dann ein klassisches Lernverfahren. Insgesamt existieren aber aktuell nur wenige Anwendungen, für die Verfahren des Semi-Supervised und des Un-Supervised Learning akzeptable Ergebnisse liefern. Entsprechend häufig werden bereits trainierte Lernverfahren eingesetzt. Eine wesentliche Voraussetzung für den Einsatz trainierter Verfahren ist allerdings eine ausreichende Übereinstimmung der Trainingsdaten mit den Daten in einer Anwendung. Generische und trainierte Lernverfahren finden sich in verschiedenen Arten von Software. Kommerzielle und freie Statistikprogramme verfügen bereits heute über unterschiedliche Methoden des statistischen Lernens, die aber in praktisch allen Fällen noch auf den konkreten Anwendungsbereich trainiert werden müssen. Verschiedene Softwarepakete im Bereich der Business-Intelligence bieten ebenfalls solche Lernverfahren an. Interessant sind hier insbesondere trainierte Verfahren, die ohne großen Aufwand für eine Anpassung direkt eingesetzt werden können. Problematisch ist dieser Ansatz allerdings, wenn die Trainingsdaten eine deutlich andere Struktur als die Daten aus einer Anwendung haben. Dies gilt insbesondere dann, wenn die Verfahren mit einer anderen Sprache trainiert worden sind. Eine Übertragung dieser trainierten Verfahren auf eine andere Sprache führt fast immer zu nicht mehr zufriedenstellenden Ergebnissen. Interessant ist hier auch die Verfügbarkeit einer größeren Anzahl von freier Software für das Thema Text Mining. Beispiele hierzu sind OpenNLP (opennlp. apache.org) von der Apache Foundation oder KH Coder (khc.sourceforge.net/ de). Verschiedene Forschungsgruppen in diesem Bereich bieten ihre Software in vielen Fällen kostenlos im Internet an. Eine der bekanntesten Gruppen dürfte hier die NLP-Gruppe in Stanford sein (nlp.stanford.edu). Grundsätzlich ist diese freie Software aber nicht für Endanwender geeignet. Sie bietet jedoch eine geeignete Plattform für IT-Dienstleister, um auch anspruchsvolle Anwendungen mit angemessenem Aufwand realisieren zu können. 18

19 5 Verwaltung von Daten in Datenbanken Für die zuverlässige und dauerhafte Speicherung von Daten werden aktuell in fast allen Unternehmen noch immer klassische relationale Datenbanken eingesetzt. Die Daten werden dabei in Form von Tabellen gespeichert, wobei die Spalten der Tabellen in der Regel nur einfache Werte enthalten, die atomare Informationen repräsentieren. Ein wichtiges Kriterium für die Güte eines relationalen Datenmodells ist die redundanzfreie Speicherung von Daten zur Vermeidung von Inkonsistenzen. Insgesamt sollen die Daten so gespeichert und normalisiert werden, dass sie in einheitlicher Form für unterschiedliche Anwendungen zur Verfügung stehen. Für die zuverlässige und dauerhafte Speicherung der Daten (Persistenz) ist es wichtig, dass Inkonsistenzen sowohl durch den gleichzeitigen Zugriff unterschiedlicher Anwender als auch durch Systemabstürze vermieden werden. Eine wichtige Technologie in diesem Zusammenhang ist das Transaktionskonzept, mit dem eine Sequenz von zusammengehörigen Aktionen gruppiert werden kann. Die Datenbank ist dann so ausgelegt, dass die Aktionen einer Transaktion entweder vollständig oder gar nicht ausgeführt werden. Dabei wird von kurzen Aktionen ausgegangen, wie zum Beispiel dem Einfügen von Daten oder dem Finden ausgewählter Einträge nach unterschiedlichen Suchkriterien. Sehr aufwändige Analysen, die auf fast alle Daten lesend zugreifen, lassen sich dabei mit typischen Transaktionskonzepten nicht optimal unterstützen. Ein möglicher Grund dafür: Die betroffenen Daten werden bezüglich Änderungen mit klassischen Mechanismen eines Transaktionskonzepts gesperrt. 19

20 Eine herkömmliche relationale Datenbank verwaltet ihre Daten auf dem Sekundärspeicher. Die Algorithmen sind auf diesen Speicher entsprechend optimiert. Zugriffsstrukturen ermöglichen die direkte Navigation zu relevanten Daten, ohne alle Daten sequentiell durchsuchen zu müssen ( Telefonbuchprinzip ). Natürlich unterstützen auch diese Datenbanken bereits die Nutzung von Cache-Speichern zur dynamischen Bereitstellung wichtiger Daten im Hauptspeicher. Damit können Zugriff und Analyse von Daten bereits deutlich beschleunigt werden. Klassische relationale Datenbanken verfügen auch über Aggregatfunktionen, mit denen sich einfache Analysen auf den Daten durchführen lassen. Dazu gehört die Summenbildung, die Berechnung des Durchschnitts sowie des minimalen und maximalen Werts. Auch die Gruppierung von Einträgen mithilfe von Werten ausgewählter Spalten ist möglich (zum Beispiel Summe der Verbräuche für Anlagen getrennt nach Anlagentypen). Bereits die Nutzung solcher Aggregatfunktionen kann bei sehr großen Datenbanken zu nicht mehr akzeptablen Antwortzeiten für interaktive Anwendungen führen. Betrachten wir dazu das Beispiel der Produktionsanlagen aus Abschnitt 2. In diesem Beispiel werden Messwerte der Anlagen mit einer zeitlichen Auflösung von einer Millisekunde erfasst. Eine mögliche Struktur für die Speicherung dieser Daten zeigt die Tabelle: Nummer Anlage Zeit Strom Temperatur Modus ,43 33,4 XC ,89 31,7 K ,50 25, ,33 45, ,01 50,7 K/ ,99 42,0 K/6 Beispiel einer Datenbanktabelle (Quelle: Eigene Darstellung). Eine typische relationale Datenbank speichert diese Tabelle jetzt zeilenweise auf der Festplatte ab. Für den Zugriff auf eine Festplatte ist die kleinstmögliche Einheit ein Block, da der wahlfreie Zugriff auf die Daten relativ viel Zeit benötigt (ca. 10 ms). Hintergrund dafür ist die Festplatten-Speicherung der Daten auf konzentrischen Spuren. Für den Zugriff muss der Schreib- und Lesekopf auf eine Spur positioniert und danach noch die Rotation der Festplatte bis zu den gewünschten Daten abgewartet werden. Da das sequentielle Lesen der Daten ab der gewünschten Position erheblich schneller erfolgt (um mehrere Größenordnungen), werden nicht nur einzelne Bytes sondern größere Datenmengen in Form von Blöcken gelesen. Gängige Blockgrößen sind zwischen 512 und Byte und können in einzelnen Spezialfällen noch deutlich größer sein. Wenn wir für unser Beispiel eine Blockgröße von 8 kb und für jeden Eintrag eine Größe von ca. 80 Byte annehmen, dann lassen sich in einem Block etwa 100 Einträge unterbringen. Nehmen wir zusätzlich an, dass 10 Messwerte von 100 Anlagen erfasst werden, dann ergeben sich Messwerte pro Sekunde sowie 31,536 Billionen Messwerte pro Jahr. Diese Datenmenge ließe sich auf 315,36 Milliarden Blöcken unterbringen. 20

Analyse und Auswertung großer heterogener Datenmengen

Analyse und Auswertung großer heterogener Datenmengen Analyse und Auswertung großer heterogener Datenmengen Herausforderungen für die IT-Infrastruktur Richard Göbel Inhalt Big Data Was ist das eigentlich? Was nützt mir das? Wie lassen sich solche großen Datenmengen

Mehr

Industrie 4.0 und Smart Data

Industrie 4.0 und Smart Data Industrie 4.0 und Smart Data Herausforderungen für die IT-Infrastruktur bei der Auswertung großer heterogener Datenmengen Richard Göbel Inhalt Industrie 4.0 - Was ist das? Was ist neu? Herausforderungen

Mehr

Industrie 4.0 und Smart Data

Industrie 4.0 und Smart Data Industrie 4.0 und Smart Data Herausforderungen für die IT-Infrastruktur bei der Auswertung großer heterogener Datenmengen Richard Göbel Inhalt Industrie 4.0 - Was ist das? Was ist neu? Herausforderungen

Mehr

Integration Services - Dienstarchitektur

Integration Services - Dienstarchitektur Integration Services - Dienstarchitektur Integration Services - Dienstarchitektur Dieser Artikel solle dabei unterstützen, Integration Services in Microsoft SQL Server be sser zu verstehen und damit die

Mehr

Data Mining-Modelle und -Algorithmen

Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining ist ein Prozess, bei dem mehrere Komponenten i n- teragieren. Sie greifen auf Datenquellen, um diese zum Training,

Mehr

Positionspapier Big Data

Positionspapier Big Data TeleTrusT-interner Workshop Berlin, 05.06.2014 Positionspapier Big Data Oliver Dehning, antispameurope GmbH Leiter der AG Cloud Security Definition Big Data Big Data bezeichnet große Datenmengen (Volume)

Mehr

7.4 Analyse anhand der SQL-Trace. 7.3.5 Vorabanalyse mit dem Code Inspector

7.4 Analyse anhand der SQL-Trace. 7.3.5 Vorabanalyse mit dem Code Inspector 7.4 Analyse anhand der SQL-Trace 337 7.3.5 Vorabanalyse mit dem Code Inspector Der Code Inspector (SCI) wurde in den vorangegangenen Kapiteln immer wieder erwähnt. Er stellt ein paar nützliche Prüfungen

Mehr

Data Mining-Projekte

Data Mining-Projekte Data Mining-Projekte Data Mining-Projekte Data Mining stellt normalerweise kein ei nmaliges Projekt dar, welches Erkenntnisse liefert, die dann nur einmal verwendet werden, sondern es soll gewöhnlich ein

Mehr

Online Analytical Processing

Online Analytical Processing Online Analytical Processing Online Analytical Processing Online Analytical Processing (OLAP) ermöglicht die multidimensionale Betrachtung von Daten zwecks E rmittlung eines entscheidungsunterstützenden

Mehr

Relationale Datenbanken Datenbankgrundlagen

Relationale Datenbanken Datenbankgrundlagen Datenbanksystem Ein Datenbanksystem (DBS) 1 ist ein System zur elektronischen Datenverwaltung. Die wesentliche Aufgabe eines DBS ist es, große Datenmengen effizient, widerspruchsfrei und dauerhaft zu speichern

Mehr

Ein Schlüssel ist eine Menge von Attributen (also eines oder mehrere), die eine Datenzeile (Tupel) einer Tabelle eindeutig identifiziert

Ein Schlüssel ist eine Menge von Attributen (also eines oder mehrere), die eine Datenzeile (Tupel) einer Tabelle eindeutig identifiziert Maika Büschenfeldt Datenbanken: Skript 1 1. Was ist eine relationale Datenbank? In Datenbanken können umfangreiche Datenbestände strukturiert abgelegt werden. Das Konzept relationaler Datenbanken soll

Mehr

Data Lineage goes Traceability - oder was Requirements Engineering von Business Intelligence lernen kann

Data Lineage goes Traceability - oder was Requirements Engineering von Business Intelligence lernen kann Data Lineage goes Traceability - oder was Requirements Engineering von Business Intelligence lernen kann Andreas Ditze MID GmbH Kressengartenstraße 10 90402 Nürnberg a.ditze@mid.de Abstract: Data Lineage

Mehr

Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken

Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken Dateiname: ecdl5_01_00_documentation_standard.doc Speicherdatum: 14.02.2005 ECDL 2003 Basic Modul 5 Datenbank - Grundlagen

Mehr

VisualCockpit. agile business analytics

VisualCockpit. agile business analytics VisualCockpit agile business analytics Agile Business Analytics mit VisualCockpit Für Unternehmen wird es immer wichtiger die gesamte Wertschöpfungskette aus Daten, sowohl für das operative Geschäft als

Mehr

PHP Kurs Online Kurs Analysten Programmierer Web PHP

PHP Kurs Online Kurs Analysten Programmierer Web PHP PHP Kurs Online Kurs Analysten Programmierer Web PHP Akademie Domani info@akademiedomani.de Allgemeines Programm des Kurses PHP Modul 1 - Einführung und Installation PHP-Umgebung Erste Lerneinheit Introduzione

Mehr

Neuerungen Analysis Services

Neuerungen Analysis Services Neuerungen Analysis Services Neuerungen Analysis Services Analysis Services ermöglicht Ihnen das Entwerfen, Erstellen und Visualisieren von Data Mining-Modellen. Diese Mining-Modelle können aus anderen

Mehr

ANTARES Informations-Systeme GmbH Stuttgarter Strasse 99 D-73312 Geislingen Tel. +49 73 31 / 30 76-0 Fax +49 73 31 / 30 76-76 www.antares-is.

ANTARES Informations-Systeme GmbH Stuttgarter Strasse 99 D-73312 Geislingen Tel. +49 73 31 / 30 76-0 Fax +49 73 31 / 30 76-76 www.antares-is. ANTARES Informations-Systeme GmbH Stuttgarter Strasse 99 D-73312 Geislingen Tel. +49 73 31 / 30 76-0 Fax +49 73 31 / 30 76-76 www.antares-is.de insight und dynasight sind eingetragene Markenzeichen der

Mehr

Musteraufbau eines Anforderungsprofils zur Einführung neuer Software

Musteraufbau eines Anforderungsprofils zur Einführung neuer Software Musteraufbau eines Anforderungsprofils zur Einführung neuer Software Ottostr. 15 96047 Bamberg Tel. +49/951/98046200 Fax +49/951/98046150 email: info@softcondev.de www: softcondev.de INHALT Vorwort Diese

Mehr

Tutorial Excel Übung 8 Datenbanken II -1- Die Aufgabenstellung ist der folgenden URL zu entnehmen: Übung 8.

Tutorial Excel Übung 8 Datenbanken II -1- Die Aufgabenstellung ist der folgenden URL zu entnehmen: Übung 8. Tutorial Excel Übung 8 Datenbanken II -1-1 Aufgabenstellung Die Aufgabenstellung ist der folgenden URL zu entnehmen: Übung 8. 2 Abfragen auf Muster und nach Listenelementen Zur Formulierung von Abfragen

Mehr

Data Mining als Arbeitsprozess

Data Mining als Arbeitsprozess Data Mining als Arbeitsprozess Hagen Knaf Studiengang Angewandte Mathematik Hochschule RheinMain 31. Dezember 2015 In Unternehmen werden umfangreichere Aktivitäten oder Projekte im Bereich des Data Mining

Mehr

Einführung in Datenbanksysteme. H. Wünsch 01.2001

Einführung in Datenbanksysteme. H. Wünsch 01.2001 Einführung in Datenbanksysteme H. Wünsch 01.2001 H. Wünsch 01/2001 Einführung Datenbanken 2 Was sind Datenbanken? Datenbanken sind Systeme zur Beschreibung, Speicherung und Wiedergewinnung von Datenmengen.

Mehr

SOLISYON GMBH CHRISTIAN WOLF, BENJAMIN WEISSMAN. Optimierung von Abfragen in MS SQL Server DWH-Umgebungen

SOLISYON GMBH CHRISTIAN WOLF, BENJAMIN WEISSMAN. Optimierung von Abfragen in MS SQL Server DWH-Umgebungen WEITER BLICKEN. MEHR ERKENNEN. BESSER ENTSCHEIDEN. Optimierung von Abfragen in MS SQL Server DWH-Umgebungen SOLISYON GMBH CHRISTIAN WOLF, BENJAMIN WEISSMAN VERSION 1.0 OPTIMIERUNG VON ABFRAGEN IN MS SQL

Mehr

INFORMATIONSLOGISTIK VERSUS SUCHE. Wie die aktive Bereitstellung von Informationen hilft, Zeit zu sparen und Ziele zu erreichen

INFORMATIONSLOGISTIK VERSUS SUCHE. Wie die aktive Bereitstellung von Informationen hilft, Zeit zu sparen und Ziele zu erreichen INFORMATIONSLOGISTIK VERSUS SUCHE Wie die aktive Bereitstellung von Informationen hilft, Zeit zu sparen und Ziele zu erreichen 2 Informationslogistik versus Suche Inhalt Seite Thema 3 Suchen 3 Grundlegende

Mehr

Softwaretool Data Delivery Designer

Softwaretool Data Delivery Designer Softwaretool Data Delivery Designer 1. Einführung 1.1 Ausgangslage In Unternehmen existieren verschiedene und häufig sehr heterogene Informationssysteme die durch unterschiedliche Softwarelösungen verwaltet

Mehr

Text Mining Praktikum. Durchführung: Andreas Niekler Email: aniekler@informatik.uni-leipzig.de Zimmer: Paulinum (P) 818

Text Mining Praktikum. Durchführung: Andreas Niekler Email: aniekler@informatik.uni-leipzig.de Zimmer: Paulinum (P) 818 Text Mining Praktikum Durchführung: Andreas Niekler Email: aniekler@informatik.uni-leipzig.de Zimmer: Paulinum (P) 818 Rahmenbedingungen Gruppen von 2- (max)4 Personen Jede Gruppe erhält eine Aufgabe Die

Mehr

Industrial Data Intelligence. Datenbasierte Produktionsoptimierung

Industrial Data Intelligence. Datenbasierte Produktionsoptimierung !DI Industrial Data Intelligence Datenbasierte Produktionsoptimierung Industrial Data Intelligence Sammeln Analysieren Mit dem Industrial Data Intelligence-Angebot ermöglicht Softing Industrial die datenbasierte

Mehr

Ontologie Sinn, Zweck und Mehrwert für Ihr Unternehmen

Ontologie Sinn, Zweck und Mehrwert für Ihr Unternehmen NOW YOU KNOW [ SERIES] Ontologie Sinn, Zweck und Mehrwert für Ihr Unternehmen [YVES BRENNWALD, ONTOS INTERNATIONAL AG] 002 Ontologie und deren Bedeutung für die Unternehmen von heute Der Begriff der Ontologie

Mehr

Produktinformation eevolution OLAP

Produktinformation eevolution OLAP Produktinformation eevolution OLAP Was ist OLAP? Der Begriff OLAP steht für Kurz gesagt: eevolution -OLAP ist die Data Warehouse Lösung für eevolution. Auf Basis verschiedener

Mehr

Artikel eindeutig mit Barcodes identifizieren und verfolgen

Artikel eindeutig mit Barcodes identifizieren und verfolgen Artikel eindeutig mit Barcodes identifizieren und verfolgen Einführung Um die Vielfalt an Anforderungen zu erfüllen haben wir drei verschiedene Varianten zur Erfassung von Barcodes implementiert. Die drei

Mehr

Programmiertechnik II

Programmiertechnik II Analyse von Algorithmen Algorithmenentwurf Algorithmen sind oft Teil einer größeren Anwendung operieren auf Daten der Anwendung, sollen aber unabhängig von konkreten Typen sein Darstellung der Algorithmen

Mehr

Analyse von unstrukturierten Daten. Peter Jeitschko, Nikolaus Schemel Oracle Austria

Analyse von unstrukturierten Daten. Peter Jeitschko, Nikolaus Schemel Oracle Austria Analyse von unstrukturierten Daten Peter Jeitschko, Nikolaus Schemel Oracle Austria Evolution von Business Intelligence Manuelle Analyse Berichte Datenbanken (strukturiert) Manuelle Analyse Dashboards

Mehr

Fachbericht zum Thema: Anforderungen an ein Datenbanksystem

Fachbericht zum Thema: Anforderungen an ein Datenbanksystem Fachbericht zum Thema: Anforderungen an ein Datenbanksystem von André Franken 1 Inhaltsverzeichnis 1 Inhaltsverzeichnis 1 2 Einführung 2 2.1 Gründe für den Einsatz von DB-Systemen 2 2.2 Definition: Datenbank

Mehr

Explosionsartige Zunahme an Informationen. 200 Mrd. Mehr als 200 Mrd. E-Mails werden jeden Tag versendet. 30 Mrd.

Explosionsartige Zunahme an Informationen. 200 Mrd. Mehr als 200 Mrd. E-Mails werden jeden Tag versendet. 30 Mrd. Warum viele Daten für ein smartes Unternehmen wichtig sind Gerald AUFMUTH IBM Client Technical Specialst Data Warehouse Professional Explosionsartige Zunahme an Informationen Volumen. 15 Petabyte Menge

Mehr

1 Lieferantenbewertung

1 Lieferantenbewertung 1 Lieferantenbewertung Mit Hilfe der Lieferantenbewertung können alle aktiven Lieferanten nach ISO Kriterien bewertet werden. Die zur Bewertung hinterlegten Faktoren können individuell vorgegeben werden.

Mehr

Data Cube. Aggregation in SQL. Beispiel: Autoverkäufe. On-line Analytical Processing (OLAP) 1. Einführung. 2. Aggregation in SQL, GROUP BY

Data Cube. Aggregation in SQL. Beispiel: Autoverkäufe. On-line Analytical Processing (OLAP) 1. Einführung. 2. Aggregation in SQL, GROUP BY Data Cube On-line Analytical Processing (OLAP). Einführung Ziel: Auffinden interessanter Muster in großen Datenmengen 2. Aggregation in SQL, GROUP BY 3. Probleme mit GROUP BY 4. Der Cube-Operator! Formulierung

Mehr

Excel 2010. für Windows ISBN 978-3-86249-060-8. Peter Wies 1. Ausgabe, 11. Aktualisierung, November 2013. Grundlagen

Excel 2010. für Windows ISBN 978-3-86249-060-8. Peter Wies 1. Ausgabe, 11. Aktualisierung, November 2013. Grundlagen Peter Wies 1. Ausgabe, 11. Aktualisierung, November 2013 Excel 2010 für Windows Grundlagen ISBN 978-3-86249-060-8 EX2010 10 Excel 2010 - Grundlagen 10 Diagramme erstellen und schnell gestalten In diesem

Mehr

VARONIS DATADVANTAGE. für Exchange

VARONIS DATADVANTAGE. für Exchange VARONIS DATADVANTAGE für Exchange VARONIS DATADVANTAGE für Exchange Funktionen und Vorteile TRANSPARENZ Bidirektionale Smart Views aller Berechtigungen für Postfächer und öffentliche Ordner sowie Überwachung

Mehr

Folge 19 - Bäume. 19.1 Binärbäume - Allgemeines. Grundlagen: Ulrich Helmich: Informatik 2 mit BlueJ - Ein Kurs für die Stufe 12

Folge 19 - Bäume. 19.1 Binärbäume - Allgemeines. Grundlagen: Ulrich Helmich: Informatik 2 mit BlueJ - Ein Kurs für die Stufe 12 Grundlagen: Folge 19 - Bäume 19.1 Binärbäume - Allgemeines Unter Bäumen versteht man in der Informatik Datenstrukturen, bei denen jedes Element mindestens zwei Nachfolger hat. Bereits in der Folge 17 haben

Mehr

Business Intelligence und Geovisualisierung in der Gesundheitswirtschaft

Business Intelligence und Geovisualisierung in der Gesundheitswirtschaft Business Intelligence und Geovisualisierung in der Gesundheitswirtschaft Prof. Dr. Anett Mehler-Bicher Fachhochschule Mainz, Fachbereich Wirtschaft Prof. Dr. Klaus Böhm health&media GmbH 2011 health&media

Mehr

4. Datenabfrage mit QBE 11

4. Datenabfrage mit QBE 11 Informationsbestände analysieren Datenabfrage mit QBE 4. Datenabfrage mit QBE 11 4.1. QBE vs. SQL Relationale Datenbanken haben schon früh den Anspruch gestellt, auch für Nicht- Informatiker nutzbar zu

Mehr

OPERATIONEN AUF EINER DATENBANK

OPERATIONEN AUF EINER DATENBANK Einführung 1 OPERATIONEN AUF EINER DATENBANK Ein Benutzer stellt eine Anfrage: Die Benutzer einer Datenbank können meist sowohl interaktiv als auch über Anwendungen Anfragen an eine Datenbank stellen:

Mehr

Analyse alt- und mittelpaläolithischer Steinartefaktinventare mittels Parallelkoordinatenplots

Analyse alt- und mittelpaläolithischer Steinartefaktinventare mittels Parallelkoordinatenplots Einleitung Analyse alt- und mittelpaläolithischer Steinartefaktinventare mittels Parallelkoordinatenplots von Irmela Herzog Im Rahmen der Herbsttagung der AG DANK (Datenanalyse und Numerische Klassifikation)

Mehr

Performance by Design Wie werden performante ETL-Prozesse erstellt?

Performance by Design Wie werden performante ETL-Prozesse erstellt? Performance by Design Wie werden performante ETL-Prozesse erstellt? Reinhard Mense ARETO Consulting Bergisch Gladbach Schlüsselworte: DWH, Data Warehouse, ETL-Prozesse, Performance, Laufzeiten, Partitionierung,

Mehr

Verfahren zur Berechnung von Routen zur Gewährleistung von Ende-zu-Ende QoS

Verfahren zur Berechnung von Routen zur Gewährleistung von Ende-zu-Ende QoS Verfahren zur Berechnung von Routen zur Gewährleistung von Ende-zu-Ende QoS Dezember 007 Dipl.-Ing. Stefan Abu Salah Dipl.-Ing. Achim Marikar QoS (Quality of Service): Sicherstellung der Qualität Zeitkritische

Mehr

Einführung Datenbank

Einführung Datenbank Einführung Datenbank Einführung Datenbank Seite 2 Einführung in die Arbeit mit einer Datenbank Grundbegriffe: Datenbank - Datenbankmanagementsystem Eine Datenbank ist eine systematische strukturierte Sammlung

Mehr

Collaborative Virtual Environments

Collaborative Virtual Environments Collaborative Virtual Environments Stefan Lücking Projektgruppe Kreativität und Technik AG Domik WS 02/03 09.01.2003 1/35 Was sind CVE? Versuch einer Definition : Ein CVE ist ein Programm, das eine virtuelle

Mehr

Definition Informationssystem

Definition Informationssystem Definition Informationssystem Informationssysteme (IS) sind soziotechnische Systeme, die menschliche und maschinelle Komponenten umfassen. Sie unterstützen die Sammlung, Verarbeitung, Bereitstellung, Kommunikation

Mehr

Best Practice. Organisation und Ablage von Kundenaufträgen im DMS von UpToNet

Best Practice. Organisation und Ablage von Kundenaufträgen im DMS von UpToNet Best Practice Organisation und Ablage von Kundenaufträgen im DMS von UpToNet Lösung Nummer 1: DMS Lösung Nummer 1: DMS Organisation und Ablage von Kundenaufträgen im DMS UpToNet unterstützt den Anwender

Mehr

DYNAMICS NAV LIFT360 CONNECT

DYNAMICS NAV LIFT360 CONNECT Seite 1 Speziallösung Dynamics NAV Lift360 Connect Auf einen Blick: DYNAMICS NAV LIFT360 CONNECT für Microsoft Dynamics NAV Bonitätsprüfungen leicht gemacht. Der 360 -Rundumblick über Ihre Geschäftspartner

Mehr

Access Grundlagen. David Singh

Access Grundlagen. David Singh Access Grundlagen David Singh Inhalt Access... 2 Access Datenbank erstellen... 2 Tabellenelemente... 2 Tabellen verbinden... 2 Bericht gestalten... 3 Abfragen... 3 Tabellen aktualisieren... 4 Allgemein...

Mehr

Arbeiten mit Excel. 1. Allgemeine Hinweise

Arbeiten mit Excel. 1. Allgemeine Hinweise 1. Allgemeine Hinweise Man sollte eine Excel Tabelle immer so übersichtlich wie möglich halten. Dazu empfiehlt es sich, alle benötigten Daten, Konstanten und Messwerte inklusive aller dazugehörigen Einheiten

Mehr

Abfragen in Access. Die einfache Auswahlabfrage aus einer einzigen Tabelle

Abfragen in Access. Die einfache Auswahlabfrage aus einer einzigen Tabelle Um gezielte Informationen - auch aus verschiedenen Tabellen einer Datenbank - zu erhalten, benutzt man Abfragen. Man kann dort die Tabellen einer Datenbank miteinander verknüpfen und erhält somit die gewünschten

Mehr

Trendlinien in Diagrammen (Excel 2010)

Trendlinien in Diagrammen (Excel 2010) Trendlinien in Diagrammen (Excel 2010) Trendlinien in Diagrammen (Excel 2010)... 1 Allgemeines... 2 Informationen über Prognosen und das Anzeigen von Trends in Diagrammen... 3 AUSWÄHLEN DES PASSENDEN TRENDLINIETYPS

Mehr

Data Warehousing und Data Mining

Data Warehousing und Data Mining Data Warehousing und Data Mining 2 Cognos Report Net (CRN) Ermöglicht Erstellen von Ad-hoc-Anfragen (Query Studio) Berichten (Report Studio) Backend Data Cube Relationale Daten Übung: Cognos Report Net

Mehr

Big Data: Nutzen und Anwendungsszenarien. CeBIT 2014 Dr. Carsten Bange, Gründer und Geschäftsführer BARC

Big Data: Nutzen und Anwendungsszenarien. CeBIT 2014 Dr. Carsten Bange, Gründer und Geschäftsführer BARC Big Data: Nutzen und Anwendungsszenarien CeBIT 2014 Dr. Carsten Bange, Gründer und Geschäftsführer BARC Big Data steht für den unaufhaltsamen Trend, dass immer mehr Daten in Unternehmen anfallen und von

Mehr

Das Kompetenzmodell digi.comp8 (NMS, AHS Unterstufe)

Das Kompetenzmodell digi.comp8 (NMS, AHS Unterstufe) Das Kompetenzmodell digi.comp8 (NMS, AHS Unterstufe) Quelle: http://digikomp.at/praxis/portale/digitale-kompetenzen/digikomp8nms-ahs-unterstufe/kompetenzmodell.html Kompetenzmodell (Übersicht) "Digitale

Mehr

Datumsangaben, enthält mindestens Jahr, Monat, Tag

Datumsangaben, enthält mindestens Jahr, Monat, Tag Datenbanken mit SQL Informatik - Sprenger Häufig wird mit Tabellenkalkulationen gearbeitet, obwohl der Einsatz von Datenbanken sinnvoller ist. Tabellenkalkulationen wie Microsoft Excel oder LibreOffice

Mehr

NÜTZLICHE TIPPS FÜR OPTIMALE SCANS

NÜTZLICHE TIPPS FÜR OPTIMALE SCANS Bedingungen, um gute Scans zu erhalten Die Faktoren, von denen das Ergebnis eines Scans abhängt, sind einerseits die Umgebung sowie die Konfiguration und Kalibrierung des Scanners, aber auch das zu scannende

Mehr

The integration of business intelligence and knowledge management

The integration of business intelligence and knowledge management The integration of business intelligence and knowledge management Seminar: Business Intelligence Ketevan Karbelashvili Master IE, 3. Semester Universität Konstanz Inhalt Knowledge Management Business intelligence

Mehr

Datenauswertung mit Hilfe von Pivot-Tabellen in Excel

Datenauswertung mit Hilfe von Pivot-Tabellen in Excel Datenauswertung mit Hilfe von Pivot-Tabellen in Excel Begleitendes Manual zu den Workshops zur Datenerfassung und verarbeitung im Juni / Juli 2004 Datenauswertung mit Hilfe von Pivot-Tabellen in Excel...3

Mehr

4 Grundlagen der Datenbankentwicklung

4 Grundlagen der Datenbankentwicklung 4 Grundlagen der Datenbankentwicklung In diesem Kapitel werden wir die Grundlagen der Konzeption von relationalen Datenbanken beschreiben. Dazu werden Sie die einzelnen Entwicklungsschritte von der Problemanalyse

Mehr

Datenbanken 16.1.2008. Die Entwicklung der Datenbanksysteme ist eng an die der Hardware gekoppelt und wird wie jene in Generationen eingeteilt:

Datenbanken 16.1.2008. Die Entwicklung der Datenbanksysteme ist eng an die der Hardware gekoppelt und wird wie jene in Generationen eingeteilt: Datenbanksysteme Entwicklung der Datenbanksysteme Die Entwicklung der Datenbanksysteme ist eng an die der Hardware gekoppelt und wird wie jene in Generationen eingeteilt: 1. Generation: In den fünfziger

Mehr

EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN

EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN T-SYSTEMS MULTIMEDIA SOLUTIONS GMBH, 16. FEBRUAR 2012 1. Schlüsselworte Semantic Web, Opinion Mining, Sentiment Analysis, Stimmungsanalyse,

Mehr

Microsoft SharePoint 2013 Designer

Microsoft SharePoint 2013 Designer Microsoft SharePoint 2013 Designer Was ist SharePoint? SharePoint Designer 2013 Vorteile SharePoint Designer Funktionen.Net 4.0 Workflow Infrastruktur Integration von Stages Visuelle Designer Copy & Paste

Mehr

Textmining Klassifikation von Texten Teil 1: Naive Bayes

Textmining Klassifikation von Texten Teil 1: Naive Bayes Textmining Klassifikation von Texten Teil 1: Naive Bayes Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten 1: Naive

Mehr

Seminar Business Intelligence Teil II. Data Mining & Knowledge Discovery

Seminar Business Intelligence Teil II. Data Mining & Knowledge Discovery Seminar Business Intelligence Teil II Data Mining & Knowledge Discovery Was ist Data Mining? Sabine Queckbörner Was ist Data Mining? Data Mining Was ist Data Mining? Nach welchen Mustern wird gesucht?

Mehr

Big, Bigger, CRM: Warum Sie auch im Kundenmanagement eine Big-Data-Strategie brauchen

Big, Bigger, CRM: Warum Sie auch im Kundenmanagement eine Big-Data-Strategie brauchen Big, Bigger, CRM: Warum Sie auch im Kundenmanagement eine Big-Data-Strategie brauchen 01000111101001110111001100110110011001 Volumen 10 x Steigerung des Datenvolumens alle fünf Jahre Big Data Entstehung

Mehr

Profilbezogene informatische Bildung in den Klassenstufen 9 und 10. Schwerpunktthema Daten und Datenbanken

Profilbezogene informatische Bildung in den Klassenstufen 9 und 10. Schwerpunktthema Daten und Datenbanken Profilbezogene informatische Bildung in den Klassenstufen 9 und 10 Schwerpunktthema Robby Buttke Fachberater für Informatik RSA Chemnitz Fachliche Einordnung Phasen relationaler Modellierung Fachlichkeit

Mehr

ULDA-BH11E. Excel-Anwendung-Buchhaltung

ULDA-BH11E. Excel-Anwendung-Buchhaltung Excel-Anwendung-Buchhaltung ULDA-BH11E 1. Eigenschaften 2. Installation 3. Makros in Excel 2010 aktivieren 4. Hinweise zur Eingabe der Daten 5. Dateneingabe im Blatt Eingabe 6. das Blatt Kunden 7. das

Mehr

Datenvisualisierung mit JMP

Datenvisualisierung mit JMP Datenvisualisierung mit JMP Patrick René Warnat HMS Analytical Software GmbH Rohrbacherstr. 26 Heidelberg patrick.warnat@analytical-software.de Zusammenfassung Das JMP Paket ist ein Softwareprodukt der

Mehr

Mitarbeiterbefragung

Mitarbeiterbefragung Arbeitspsychologie CoPAMed Arbeitspsychologie Mitarbeiterbefragung Zusatzmodul zur Verwaltung von arbeitspsychologischen Leistungen und zur Durchführung von anonymen Mitarbeiterbefragungen. CoPAMed Arbeitspsychologie

Mehr

Teil VI. Datenbanken

Teil VI. Datenbanken Teil VI Datenbanken Überblick 1 Grundlegende Begriffe Motivation 2 Relationale Datenbanksysteme Das Relationale Datenmodell SQL 3 Entwurf von Datenbanken Das Enity Relationship (ER) Modell Abbildung von

Mehr

1 Die Active Directory

1 Die Active Directory 1 Die Active Directory Infrastruktur Prüfungsanforderungen von Microsoft: Configuring the Active Directory Infrastructure o Configure a forest or a domain o Configure trusts o Configure sites o Configure

Mehr

Conversion Attribution

Conversion Attribution Conversion Attribution Eines der Trendthemen über das zurzeit jeder spricht ist Attribution. Das heißt allerdings nicht, dass auch jeder weiß was genau Attribution ist, was man damit machen kann und für

Mehr

Unlimited Controlling

Unlimited Controlling smcolap Unlimited Controlling Heute müssen beliebige Bereiche eines Unternehmens schnell und effizient analysiert werden. Dabei darf es keine Rolle spielen, wo die Daten liegen und in welcher Relation

Mehr

Without knowledge management our services would be unthinkable. Arthur D. Little

Without knowledge management our services would be unthinkable. Arthur D. Little Without knowledge management our services would be unthinkable. Arthur D. Little Weshalb Wissensmanagement? Wissen ist die Gesamtheit der Informationen, Kenntnisse und Fähigkeiten einer Person, die zur

Mehr

Inhalt Software-Metriken Software-Metriken mit Together FindBugs. Software-Metriken. Raimar Lill Matthias Meitner David Föhrweiser Marc Spisländer

Inhalt Software-Metriken Software-Metriken mit Together FindBugs. Software-Metriken. Raimar Lill Matthias Meitner David Föhrweiser Marc Spisländer Lill, Meitner, Föhrweiser, Spisländer FAU Erlangen-Nürnberg Software-Metriken 1 / 24 Software-Metriken Raimar Lill Matthias Meitner David Föhrweiser Marc Spisländer Lehrstuhl für Software Engineering Friedrich-Alexander-Universität

Mehr

imc SEARCH gezielt suchen intelligent filtern schnell auswerten Zentrale Messdatenverwaltung und -organisation imc produktiv messen

imc SEARCH gezielt suchen intelligent filtern schnell auswerten Zentrale Messdatenverwaltung und -organisation imc produktiv messen imc SEARCH gezielt suchen intelligent filtern schnell auswerten Zentrale Messdatenverwaltung und -organisation imc produktiv messen imc SEARCH auf einen Blick Zentrale Ablage und Verwaltung von Mess- und

Mehr

mywms Vorlage Seite 1/5 mywms Datenhaltung von Haug Bürger

mywms Vorlage Seite 1/5 mywms Datenhaltung von Haug Bürger mywms Vorlage Seite 1/5 mywms Datenhaltung von Haug Bürger Grundlegendes Oracle9i PostgreSQL Prevayler Memory mywms bietet umfangreiche Konfigurationsmöglichkeiten um die Daten dauerhaft zu speichern.

Mehr

QUICK-START EVALUIERUNG

QUICK-START EVALUIERUNG Pentaho 30 für 30 Webinar QUICK-START EVALUIERUNG Ressourcen & Tipps Leo Cardinaals Sales Engineer 1 Mit Pentaho Business Analytics haben Sie eine moderne und umfassende Plattform für Datenintegration

Mehr

Bestandsabgleich mit einem Onlineshop einrichten

Bestandsabgleich mit einem Onlineshop einrichten Bestandsabgleich mit einem Onlineshop einrichten Mit unserem Tool rlonlineshopabgleich können die Warenbestände zwischen unserem Programm raum level und einem Onlineshop abgeglichen werden. Einleitend

Mehr

Software Engineering Analyse und Analysemuster

Software Engineering Analyse und Analysemuster Software Engineering Analyse und Analysemuster Prof. Adrian A. Müller, PMP, PSM 1, CSM Fachbereich Informatik und Mikrosystemtechnik 1 Klassendiagramme in der Analyse Im Rahmen der Anforderungsanalyse

Mehr

Pflichtenheft. 1 Zielbestimmungen 2 1.1 Musskriterien... 2 1.2 Wunschkriterien... 2 1.3 Abgrenzungskriterien... 2

Pflichtenheft. 1 Zielbestimmungen 2 1.1 Musskriterien... 2 1.2 Wunschkriterien... 2 1.3 Abgrenzungskriterien... 2 Pflichtenheft Inhaltsverzeichnis 1 Zielbestimmungen 2 1.1 Musskriterien........................................ 2 1.2 Wunschkriterien....................................... 2 1.3 Abgrenzungskriterien...................................

Mehr

Information-Design-Tool

Information-Design-Tool Zusatzkapitel Information-Design-Tool zum Buch»HR-Reporting mit SAP «von Richard Haßmann, Anja Marxsen, Sven-Olaf Möller, Victor Gabriel Saiz Castillo Galileo Press, Bonn 2013 ISBN 978-3-8362-1986-0 Bonn

Mehr

Mengenvergleiche: Alle Konten außer das, mit dem größten Saldo.

Mengenvergleiche: Alle Konten außer das, mit dem größten Saldo. Mengenvergleiche: Mehr Möglichkeiten als der in-operator bietet der θany und der θall-operator, also der Vergleich mit irgendeinem oder jedem Tupel der Unteranfrage. Alle Konten außer das, mit dem größten

Mehr

ESA SECURITY MANAGER. Whitepaper zur Dokumentation der Funktionsweise

ESA SECURITY MANAGER. Whitepaper zur Dokumentation der Funktionsweise ESA SECURITY MANAGER Whitepaper zur Dokumentation der Funktionsweise INHALTSVERZEICHNIS 1 Einführung... 3 1.1 Motivation für den ESA Security Manager... 3 1.2 Voraussetzungen... 3 1.3 Zielgruppe... 3 2

Mehr

Einladung zu den IBM SPSS Data und Text Mining Tagen. Auch in Ihrer Nähe! Gewinnen Sie entscheidungsrelevantes Wissen mit Data und Text Mining

Einladung zu den IBM SPSS Data und Text Mining Tagen. Auch in Ihrer Nähe! Gewinnen Sie entscheidungsrelevantes Wissen mit Data und Text Mining Einladung zu den IBM SPSS Data und Text Mining Tagen Auch in Ihrer Nähe! Gewinnen Sie entscheidungsrelevantes Wissen mit Data und Text Mining Lassen Sie Daten und Texte für sich arbeiten mit Smarter Analytics

Mehr

Die folgenden Features gelten für alle isquare Spider Versionen:

Die folgenden Features gelten für alle isquare Spider Versionen: isquare Spider Die folgenden s gelten für alle isquare Spider Versionen: webbasiertes Management (Administratoren) Monitoring Sichten aller gefundenen Beiträge eines Forums Statusüberprüfung Informationen

Mehr

Leitfaden Datensicherung und Datenrücksicherung

Leitfaden Datensicherung und Datenrücksicherung Leitfaden Datensicherung und Datenrücksicherung Inhaltsverzeichnis 1. Einführung - Das Datenbankverzeichnis von Advolux... 2 2. Die Datensicherung... 2 2.1 Advolux im lokalen Modus... 2 2.1.1 Manuelles

Mehr

Relationale Datenbanken in der Praxis

Relationale Datenbanken in der Praxis Seite 1 Relationale Datenbanken in der Praxis Inhaltsverzeichnis 1 Datenbank-Design...2 1.1 Entwurf...2 1.2 Beschreibung der Realität...2 1.3 Enitiy-Relationship-Modell (ERM)...3 1.4 Schlüssel...4 1.5

Mehr

Vielen Dank an Dennis Riehle für die Bereitstellung dieser Folien

Vielen Dank an Dennis Riehle für die Bereitstellung dieser Folien Vielen Dank an Dennis Riehle für die Bereitstellung dieser Folien 1.1 Definition Datenbank Ein Datenbanksystem (DBS) ist ein System zur elektronischen Datenverwaltung. Die wesentliche Aufgabe eines DBS

Mehr

Einsatz der open-source XML-Datenbank exist zur Verarbeitung von grossen XML Datenmengen 2009-10-06, Siemens, Braunschweig

Einsatz der open-source XML-Datenbank exist zur Verarbeitung von grossen XML Datenmengen 2009-10-06, Siemens, Braunschweig Einsatz der open-source XML-Datenbank exist zur Verarbeitung von grossen XML Datenmengen 2009-10-06, Siemens, Braunschweig Peter K. Brandt Senior Software Engineer Ergon Informatik AG Inhalt Hintergrund

Mehr

NI-TDM-Datenformat. Komfortables Arbeiten mit TDM-Dateien in LabVIEW

NI-TDM-Datenformat. Komfortables Arbeiten mit TDM-Dateien in LabVIEW NI-TDM-Dateiformat NI-TDM-Datenformat Im Verlauf des gesamten Entwicklungsprozesses für ein neues Produkt werden große Mengen technischer Daten erzeugt sei es bei der Simulation bestimmter Vorgänge oder

Mehr

Diplomarbeit: Visualisierung konzeptioneller Beschreibungen von Programmieraktivitäten. Arbeitsgruppe: Software-Engineering Nicolas Ngandeu

Diplomarbeit: Visualisierung konzeptioneller Beschreibungen von Programmieraktivitäten. Arbeitsgruppe: Software-Engineering Nicolas Ngandeu Diplomarbeit: Visualisierung konzeptioneller Beschreibungen von Programmieraktivitäten Arbeitsgruppe: Software-Engineering Nicolas Ngandeu Gliederung Einführung Visualisierung Die Akteure Die Inputdaten

Mehr

2. DFG- Workshop 3.1. Erfassung/Bewertung/Transfer. Beitrag von Peter Küsters. Spiegelung. Archiv. Bild 1: Unterschied zwischen FTP und Spiegelung

2. DFG- Workshop 3.1. Erfassung/Bewertung/Transfer. Beitrag von Peter Küsters. Spiegelung. Archiv. Bild 1: Unterschied zwischen FTP und Spiegelung 2. DFG- Workshop 3.1. Erfassung/Bewertung/Transfer Beitrag von Peter Küsters Formen des Datentransfers bei der Erfassung von Websites Im folgenden werden Methoden und Software zur Erfassung vorgestellt.

Mehr

Python ist leicht zu erlernen, unterstützt mehrere Programmierparadigmen und ist klar strukturiert.

Python ist leicht zu erlernen, unterstützt mehrere Programmierparadigmen und ist klar strukturiert. 1 Einführung In diesem Kapitel wird die moderne Programmiersprache Python vorgestellt. Nach einigen Bemerkungen zur Installation dieser Sprache wird gezeigt, wie Python interaktiv ausgeführt werden kann.

Mehr

Muster-Angebotsinformation

Muster-Angebotsinformation Muster-Angebotsinformation Einsatzanalyse SAP Berechtigungs-Management & Compliance 3-Tages Proof-of-Concept Seite 1 Inhalt 1 Management Summary... 3 1.1 Technische Rahmenbedingungen... 3 1.2 Ziele der

Mehr

Data Mining Anwendungen und Techniken

Data Mining Anwendungen und Techniken Data Mining Anwendungen und Techniken Knut Hinkelmann DFKI GmbH Entdecken von Wissen in banken Wissen Unternehmen sammeln ungeheure mengen enthalten wettbewerbsrelevantes Wissen Ziel: Entdecken dieses

Mehr

Form Designer. Leitfaden

Form Designer. Leitfaden Leitfaden Copyright Die hier enthaltenen Angaben und Daten können ohne vorherige Ankündigung geändert werden. Die in den Beispielen verwendeten Namen und Daten sind frei erfunden, soweit nichts anderes

Mehr