Ausarbeitung im Rahmen des Oberseminars Datenbanken: Sebastian Schneemann

Größe: px
Ab Seite anzeigen:

Download "Ausarbeitung im Rahmen des Oberseminars Datenbanken: Sebastian Schneemann"

Transkript

1 Ausarbeitung im Rahmen des Oberseminars Datenbanken: Datenqualität Übersicht Sebastian Schneemann Januar 2008

2 Inhaltsverzeichnis 1 Einleitung und einführendes Beispiel 2 2 Problematik Ursachen und Auswirkungen Klassifikationssysteme am Beispiel Rahm und Do Dimensionen Genauigkeit Vollständigkeit Weitere Dimensionen Programme Grundlagen Anforderungen Klassifikation Duplikatbehandlung mit IntelliClean Messgrößen Durchführungsphasen

3 Kapitel 1 Einleitung und einführendes Beispiel Dank ständig sinkender Hardwarepreise ist bei der Anlage von Datensammlungen die Anschaffung von Massenspeichern zum untergeordneter Kostenpunkt geworden. Datenbanken und Informationssysteme speichern heute häufig Millionen von Informationen in gigabytegroßen Systemen, die größten DataWarehouses übertreffen bereits leicht die Terrabytegrenze - Tendenz steigend. Die fast schon leidenschaftliche Art mit der private und öffentliche Unternehmen und Institutionen diese Datensammelwut vorantreiben hat verschiedene Gründe. Unter anderem streben die Unternehmungen danach, nicht nur eine Historie ihrer Aktivitäten zur Verfügung zu haben, sondern auf dieser Grundlage auch nächste Schritte zu bestimmen, zu erwartende Tendenzen und Trends zu erkennen und sogar weitreichende Entscheidungen zu fällen. Dies alles um den Markterfolg zu verbessern und die eigene Position zu stärken. Die Qualität der Daten ist aus diesen Gründen von herausragender Wichtigkeit. Sind Daten nicht genau genug, oder beinhalten sie Inkonsistenzen, sind ebenso die auf der Grundlage dieser mangelhaften Daten getätigten Entscheidungen von minderer Qualität. Die Konsequenzen von schlechter Datenqualität reichen für Unternehmen von peinlich bis existenzgefährdend. Im Kapitel 1 wird ein kleines Beispiel zur Illustration von Facetten der Datenqualität gegeben. Im Kapitel 2 wird auf die Probleme mangelnder Datenqualität und deren Klassifikation eingegangen. Das Kapitel 3 beschreibt die unterschiedlichen Dimensionen von denen Daten betrachten werden können und im Kapitel 4 wird schließlich beleuchtet, welche Eigenschaften Programme und Werkzeuge zur Erkennung und Verbesserung der Datenqualität haben können und sollten. Im Kapitel 5 wird abschließend die Funktionalität eines konkreten Tools zur Duplikaterkennung und -behandlung am Beispiel von IntelliClean behandelt. 2

4 Einführendes Beispiel Datenqualität ist mehrdimensional. Zu dieser Aussage kommen (Scannapieco et al., 2005) und demonstieren einige dieser Dimensionen anhand eines Beispiels, das auch hier Verwendung finden soll. Trotz der geringen Anzahl an ID Title Director Year #Remakes LastRemakeYear 1 Casablanca Weir Dead Poets Society Curtiz NULL 3 Rman Holiday Wylder NULL 4 Sabrina NULL Tabelle 1.1: Auszug aus einer Filmdatenbank mit Datenqualitätsproblemen nach (Scannapieco et al., 2005) Tupeln, lassen sich anhand der Beipiele aus Tabelle 1.1 verschiedene Probleme beschreiben: Die Regisseure der Filme mit der ID 1 und ID 2 sind vertauscht (Genauigkeit). Das Jahr des letzten Remakes vom Film mit der ID 1 ist kleiner als das Jahr der ersten Produktion (Konsistenz). Im Titel vom Film mit der ID 3 befindet sich ein Rechtschreibfehler. Korrigiert lautet der Titel Roman Holiday (Genauigkeit). Die Spalte Regisseur im Film mit der ID 4 darf nicht leer sein (Vollständigkeit). Der Film mit der ID 4 hat ein Datum in der Spalte mit der letzten Neuverfilmung, die Anzahl der Neuverfilmungen ist jedoch 0 (Vollständigkeit, Aktualität, Konsistenz). Auf die in runden Klammern genannten Problem-Dimensionen, wird im Kapitel 3 näher eingegangen. 3

5 Kapitel 2 Problematik In diesem Kapitel werden zunächst die Ursachen und deren Auswirkugen besprochen. Im zweiten Teil wird gezeigt, dass sich Probleme mit der Datenqualität in verschiedenen Klassifikationen darstellen lassen. 2.1 Ursachen und Auswirkungen (Sattler, 2005) nennt verschiedene Ursachen für Datenqualitätsprobleme. Die Ursachen sind direkt vom jeweiligen Lebenszyklus des Datums abhängig und entstehen demnach direkt bei der Datenproduktion, der Datenspeicherung, und der Datennutzung. Probleme bei der Datenproduktion Eine der häufigsten Ursachen für Probleme der Datenqualität entsteht bereits während der Produktion der Daten. Mehrere unterschiedliche Quellen, die erst später zu einem DataWarehouse oder einem Web-Integrationssystem zusammengeführt werden, bilden die gleichen Real-Welt-Objekte unterschiedlich ab. Durch die Vereinigung dieser Quellen können miteinander unvereinbare Kopien der gleichen Objekte entstehen. Diese Problemart ist nicht nur auf die Instanzen von Relationen beschränkt, sondern kann bereits auf Schemaebene vorkommen. Ein Beispiel könnte die Zusammenführung von mehreren Personendatenbanken sein, in denen einige Ausprägungen widersprüchliche Angaben zum jeweiligen Geburtsdatum haben (Instanz) oder Attribute aus einer Quelle als eigene Relationen in einer anderen Quelle gespeichert werden (Schema). Ein weiterer wichtiger Punkt bei der Identifikation von Datenqualitätsproblemen ist die Datenerfassung mit subjektiven Eingaben. Wo Raum für Individualität 4

6 besteht, ist die Gefahr von nicht vereinbaren oder sogar widersprüchlichen Angaben allgegenwärtig. Als Beipiel soll hier die Erfassung von Charaktereigenschaften in einem Angestelltenverzeichnis eines Unternehmens dienen. Als dritten Punkt nennt (Sattler, 2005) die systematischen Probleme bei der Datenerfassung, zum Beispiel durch verschiedene Codes o. ä. In Zeiten von stetig zunehmender internationalen Ausrichtung spielen Codes zur Darstellung nationaler oder regionaler Zeichen eine zunehmende Rolle. Soll beispielsweise ein DataWarehouse für ein Unternehmen das auf verschiedenen Märkten tätig ist erstellt werden, müssen Produktbezeichnungen zusammengefasst werden. Dabei muss das entstehende System mit allen lokalen Zeichen umzugehen wissen, was wahrscheinlich nur durch eine Umwandlung in ein allgemein gültiges Format (z. B. Unicode) möglich ist. Probleme bei der Datenspeicherung Probleme bzgl. der Datenqualität entstehen durch die Speichung von Informationen in ungeeigneten Formaten und unterschiedlichen Formaten. Als ungeeignet könnte man die Speicherung von speziellen Daten, für deren Organisation eine Standardisierung existiert, jedoch im konkreten Fall nicht Verwendung findet, bezeichnen. Somit wird eine große Vereinfachung beim Handling und Austausch dieser Daten verschenkt. Als ein Beispiel für unterschiedliche Daten kann ebenso eine Standardisierung herhalten. So ist es durchaus denkbar, dass in zwei unterschiedlichen Datenquellen immer ein Standard zu Speicherung verwendet wird - jedoch jeweils ein anderer. Dieses Phänomen tritt typischerweise dann auf, wenn der offizielle Standardisierungsvorgang eines Fachbereiches sehr lange dauert und sich zwischenzeitlich defacto-standards in der Praxis durchgesetzt haben. Doch selbst die inkonsequente Speicherung von typgleichen Daten innerhalb einer Datenquelle ist denkbar. Probleme bei der Datennutzung Auch beim eigentlichen Zweck der Datensammlungen, ihrer Nutzung, können Probleme auftreten. So nennt (Sattler, 2005) Veränderung der Nutzerbedürfnisse als einen der Gründe. Daten sollten sowohl in ihrer Struktur als auch in ihrem Inhalt erweiterbar sein, soweit dies sinnvoll erscheint. Dennoch kann sich zum Beispiel durch einen Wechsel der Geschäftsausrichtung eine unvorhersehbare Änderung der Anforderungen an die Daten ergeben, die zu Problemen führen kann. Weiter werden unzureichende Analyse- und Verarbeitungsmöglichkeiten aufgezählt. Zuletzt werden die hauptsächlich im Schema zu suchenden Sicherheits- und Zugriffsprobleme genannt. Berechtigungen werden in aller Regel auf Relationenebene vergeben. Sind jedoch einzelne Objektattribute sicherheitskritisch und steht eine Abstraktionstechnologie wie Views nicht zur Verfügung, muss bereits im Schema der Zugriffsschutz durch Objektzerlegung vereinbart werden. Auswirkungen Die Auswirkungen von Datenqualitätsproblemen sind breit gefächert und reichen von peinlich bis exsitenzbedrohend. Auszugsweise für eine Vielzahl von möglichen Beispielen für Auswirkungen mangelnder Datenqualität sollen hier genannt werden: 5

7 Imageverlust gegenüber Kunden durch Rechtschreibfehler in der Anschrift Fehlkalkulationen bei Produktpreisgestaltung durch Nichtbeachtung verschiedener Währungen in den zugrundeliegenden Daten Fehleinschätzung bei Enscheidungen durch falsche Daten Gefahr für Leib und Leben durch unzureichend genaue Messwerte bei Sicherheitsprüfungen im Flugverkehr 2.2 Klassifikationssysteme am Beispiel Rahm und Do Datenqualitätsprobleme lassen sich klassifizieren. Dazu wurden in der Vergangenheit verschiedene Ansätze definiert. In diesem Anschnitt soll am Beispiel von Rahm und Do eine Herangehensweise gegezeigt werden. Klassifikation nach Rahm und Do Rahm und Do ordnen das Auftreten von Fehlern bezüglich der Datenqualität in eine ersten Rahmen der aus der Anzahl der beteiligten Datenquellen besteht. Sie unterschieden nach einzelner Datenquelle und integrierten Datenquellen. Unterhalb der jeweiligen Ebene findet eine erneute Aufteilung in Probleme die auf dem Schema der Quelle beziehungsweise auf deren Ausprägungen bestehen. Abbildung 2.1 zeigt diese Einordnung auszugsweise. Kritisiert wird in dieser Art der Einordnung, dass übergeordnete Eigenschaften von Datenquellen nicht hinreichend darstellbar sind. Dazu zählen beispielsweise die Reputation einer Quelle, deren Vollständigkeit, die Verständlichkeit einer Datenmenge oder die Nutzungskosten (Naumann, 2006). Abbildung 2.1: Ausschnitt aus der Klassifikation nach (Rahm and Do, 2000) 6

8 Kapitel 3 Dimensionen Wie das einführende Beispiel aus Kapitel 1 zeigt, können Datenqualitätsprobleme von verschiedener Komplexität und Herkunft existieren. Auch die Verbindung von unterschiedlichen Dimensionen zu einem zusammengesetzten Problem ist möglich. In diesem Kapitel sollen einige wichtige und häufig auftretende Dimensionen genauer besprochen werden. Dabei wird auch auf die Beseitigung der daraus resultierenden Probleme eingegangen. 3.1 Genauigkeit Die Genauigkeit (Accuracy) beschreibt die Entfernung zwischen einem korrekten Wert λ und seinem gespeicherten Wert λ. Die Genauigkeit läßt sich nach (Scannapieco et al., 2005) in Syntaktische Genauigkeit und Semantische Genauigkeit unterteilen. Syntaktische Genauigkeit Die syntaktische Genauigkeit beschreibt die Kosten, die nötig sind, die gespeicherte Syntax λ in die korrekte Syntax λ zu überführen. Dabei können Kosten für das Einfügen, das Vertauschen oder das Entfernen von Zeichen entstehen. Die Tabelle 1.1 aus dem Einführungsbeispiel enthält in der Zeile mit der ID 3 einen syntaktischen Genauigkeitsfehler. Die Gesamtkosten für die Korrektur sind hier auf die Kosten für das Einfügen eines o s in Roman Hollydays beschränkt. 7

9 Semantische Genauigkeit Als semantische Genauigkeit bezeichnet man die Entfernung von λ zu λ unter der Annahme das λ syntaktisch korrekt ist. Die Tabelle 1.1 liefert auch hierfür ein Beispiel. Die Spalte Regisseur in den Zeilen mit der ID 1 und 2 sind syntaktisch völlig korrekt. Der Fehler besteht darin, dass die Namen der Regisseure in den betroffenen Zeilen vertauscht sind. Das Beispiel illustriert, dass die Aufdeckung von semantischen Genauigkeitsfehlern in der Regel schwieriger ist, als die von syntaktischen. Weiterhin sind die Kosten für die Beseitigung schwerer abzuschätzen. Häufig wird eine zweite vertrauenswürdige Quelle zur Identifikation von Semantikfehlern herangezogen. Doch selbst diese Lösung benötigt die Fähigkeit, zu erkennen, dass es sich bei zwei verschiedenen Objekten in den Quellen um das gleiche Real-Welt-Objekt handelt. Dies wird als object identification problem (auch als record matching oder record linkage) bezeichnet und in Kapitel 5 näher behandelt. 3.2 Vollständigkeit Kategorien von Vollständigkeit Die Vollständigkeit ist ein Maß, welches den aktuellen Füllstand von Objekten auf verschiedenen Ebenen im Bezug auf den maximal möglichen Füllstand anzeigt. Dieser Wert kann zwischen 0 und 1 liegen, wobei 0 die vollständige Leere, 1 die komplette Gefülltheit wiederspiegelt. Die Objekte auf den verschiedenen Ebenen könnten Werte, Tupel, Attribute und Relationen sein. Aus dieser Definition folgt eine Unterteilung von Vollständigkeit nach (Scannapieco et al., 2005) in die Kategorien Wert-Vollständigkeit: repräsentiert Null-Werte in einzelnen Feldern einer Relation, Tupel-Vollständigkeit: repräsentiert Null-Werte innerhalb von Zeilen einer Relation, Attribut-Vollständigkeit: repräsentiert Null-Werte innerhalb von Spalten einer Relation und Relationen-Vollständigkeit: repräsentiert Null-Werte innerhalb der gesamten Relation. ANR Name Vorname -Adresse 1 Ahnung Anton 2 Besserwisser Bea NULL 3 Motzer Maik NULL 4 Stümper Stefan NULL Tabelle 3.1: Auszug aus einer Angestelltenrelation zur Illustration von verschiedenen Bedeutungen von NULL-Werten in Anlehnung an (Scannapieco et al., 2005) Für die Relation in Tabelle 3.1 lassen sich für die Vollständigkeitskategorien die folgenden Werte bestimmen: 8

10 Tupel-Vollständigkeit: für den Angestellten mit der ANR 1 ist die Vollständigkeit 1, für die anderen jeweils 3 4, da immer die -Adresse den Wert Null aufweist. Attribut-Vollständigkeit: für die Attribute ANR, Name und Vorname liegt die Vollständigkeit bei 1, die der -Adresse bei nur 1 4. Relationen-Vollständigkeit: für die gesamte Relation ergibt sich eine Vollständigkeit von 4 Tupel 4 Attribute 3 Null-Werte = Unterschiedliche Bedeutung von Null-Werten Aus dem Angestelltenbeispiel in Tabelle 3.1 geht neben den Messwerten der Vollständigkeiten auch eine zweite Problematik hervor. Null-Werte können unterschiedliche Bedeutungen transportieren: nicht existent: bedeutet, dass bekannt ist, dass ein Wert nicht existiert (Beispiel: die Person, die zur Pflege der Angestelltenrelation bemüht wurde, weiß, dass die -Adresse des Angestellten mit der ANR 2 nicht existiert). existent und unbekannt: bedeutet, dass bekannt ist, dass ein Wert existiert, dieser selbst jedoch unbekannt ist (Beispiel: es existiert eine E- Mail-Adresse für den Angestellten mit der ANR 3; diese ist jedoch unbekannt). Existenz unbekannt: bedeutet, dass nicht bekannt ist, ob ein Wert existiert (Beispiel: Es ist nicht bekannt, ob eine -Adresse zum Angestellten mit der ANR 4 existiert). 3.3 Weitere Dimensionen Daten haben weit mehr Dimensionen. Einige weitere sind: Konsistenz: Ein Wert, der die Verstöße gegen Integritäts-Regeln misst. In modernen Datenbanksystemen wird die Einhaltung von Integritätsregeln mithilfe von Constraints sichergestellt. Um auch in Altsystemen oder in Quellen ohne Verwaltungsschicht (z. B. Text-Dateien) Konsistenz zu gewährleisten, bieten sich Anwendungen zur Bearbeitung der Quellen an, die diese Regel-Logik modellieren und überwachen können. Weiterhin bieten moderne Cleaning-Tools die Möglichkeit, Konsistenz-Regeln anzulegen und automatisch zu überprüfen (vgl. Kapitel 5). Zeit: Der zeitliche Aspekt von Datenqualität läßt sich laut (Scannapieco et al., 2005) dreiteilen: a) Zeitnähe (currency) beschreibt die Häufigkeit der Datenaktualisierung, b) Aktualität (timeliness) bestimmt den Wert der Daten in direktem Bezug auf eine jetzt zu erledigende Aufgabe und c) Flüchtigkeit (volatility) nennt die Dauer, für welche ein Datum seinen 9

11 Wert behält. Ein Geburtsdatum einer Person hat die Flüchtigkeit 0, ein Aktienkurz hingegen eine sehr hohe Flüchtigkeit nahe 1. Kosten Glaubwürdigkeit Verfügbarkeit Relevanz 10

12 Kapitel 4 Programme 4.1 Grundlagen Eines haben alle Datenqualitätsprobleme (dirty data) gemeinsam - sie sollten aufgespürt und beseitig werden. Dazu bieten Softwarehäuser und Hochschulen kostenpflichtige wie unentgeldlich nutzbare Programme an. Das Ziel aller ist es, Daten von eingeschränkter Qualität in hochwertigere, vollständigere oder integere Zustände zu überführen. Dabei ist die spätere Verwendung der Daten (DataWarehouse, Web-Integration) diesem Ziel untergeordnet, wenngleich die Wahl eines geeigneten Tools zur Unterstützung dieser Aufbereitunsprozesse von großer Wichtigkeit ist. Mit (Barateiro and Galhardas, 2005) existiert eine umfangreiche Analyse und Ausarbeitung zu 37 verschiedenen Tools. Es ist jedoch darauf hinzuweisen, dass für die Existenz oder Funktionalität der in diesem gut zwei Jahre alten Artikel genannten Programme keine Notwendigkeit mehr besteht, weil sie, wie alle anderen Produkte der Softwareindustrie, auch einem beständigen Wandel unterliegen. Grundsätzlich bezeichnet man die Beseitigung von dirty data als data cleaning (auch data scubbing). Je nach Zielsystem können jedoch weitere Unterteilungen sinnvoll sein. Bei einem Ein-Quellen-System zum Beispiel sind häufig Integritätsprobleme, fehlende Werte oder doppelte Tupel vorhanden, während bei der Erstellung eines DataWarehouses der wichtigste Schritt der ETL-Prozess (Extraction - Transform - Load) ist. So unterschiedlich wie die zu erreichenden Ziele sind, können auch die Anforderungen an das Tool sein, das den entsprechenden Prozess unterstützen muss. Dazu werden im nächsten Absatz diese Anforderungen näher erläutert. 4.2 Anforderungen Da die Tools das Erreichen unterschiedlicher Ziele unterstützen sollen, stellen sich auch unterschiedliche Grundanforderungen. Die folgende Auflistung ent- 11

13 stammt der Arbeit von (Barateiro and Galhardas, 2005). In Ermangelung von deutschen Übersetzungen für einige Begriffe, werden alle in ihrer englischsprachigen Bezeichnung eingeführt. Data sources Es existiert eine Vielzahl von denkbaren Quellen, mit denen ein Programm umzugehen wissen sollte. Einige dieser Quellen sind Datenbanken, Textdateien oder XML-Files, aber auch internetbasierte Quellen (z. B. RSS- Feeds, Webservices) oder propritäre Formate. Extraction capabilities Die Extraktion von Daten aus Quellen sollte drei Funkionalitäten unterstützen: Extraktion nach Zeit, Intervall oder Ereignis Regeln zur Erhöhung der Selektivität Unterstützung mehrerer Quellen bei gleichzeitigem merge ihrer Inhalte Loading capabilities An die Einarbeitung von Daten in das Zielsystem sind ebenso Anforderungen formuliert: Daten sollten in unterschiedliche Typen von Zielsystemen eingefügt werden können Daten sollten in unterschiedliche Typen von Zielsystemen parallel eingefügt werden können die einzufügenden Daten sollten eventuell bereits vorhandene ersetzen oder ergänzen können dabei sollten automatisch benötigte Relationen erstellt werden Incremental updates Die Fähigkeit inkrementelle Updates durchzuführen kann zu enormen Zeiteinsparungen führen. Man unterscheidet zwischen den beiden Möglichkeiten: bereits beim Extraktionsprozess nur veränderte und neu hinzugekommene Daten zu extrahieren und in das Zielsystem einzuspielen eine vollständige Extraktion durchzuführen und bei der Einspielung der Werte in das Zielsysteme jene zu verwerfen, die bereits vorhanden sind Wird das inkrementelle Update nicht unterstützt, ist die einzige Alternative die Daten vollständig neu einzuspielen. Ist eine häufige Aktualisierung des Zielsystems vorgesehen, sollte bei der Entscheidung für ein bestimmtes Tool diese Funktionalität berücksichtigt werden. 12

14 Interface Nahezu alle, der von (Barateiro and Galhardas, 2005) untersuchten Programme, verfügen über eine grafische Benutzerschnittstelle (GUI - graphical user interface). Diese ermöglicht, die komfortable Bedienung einerseits und unterstützt den Anwender bei der Modellierung von Cleaning programs, die sich in der Regel als Prozesse darstellen, mit point-and-click -Funktionalität. Puristen hingegen werden auch die kommandozeilenartige Bedienung von einigen Programmen zu schätzen wissen. Metadata repository Metadaten-Repositories speichern intern für die Programmausführung Informationen ab und liefern mithilfe derer die Grundlage für Schema- oder Mapping-Operationen. Diese Informationen sind bei großen Integrationsprojekten mit mit mehreren Quellsystemen unabdingbar. Performance techniques Für große Systeme ist die Unterstützung von performancesteigernden Techniken wie load balancing, Parallelausführung oder Partitionierung von Bedeutung. Zum einen können die Maßnahmen den Data- Cleaning-Prozeß beschleunigen und auf der anderen Seite auch das Projekt skalierbarer machen. Versioning Eine Versionsverwaltung bietet Entwicklern die Möglichkeit, die modellierten Prozesse zur Datenbearbeitung langfristig zu speichern, um so bei Bedarf auf ältere Versionen zurückgreifen zu können oder auch paralleles Arbeiten an umfangreichen Prozessen zu ermöglichen. Function library Eine Funkionsbibliothek bietet alle möglichen vom Software-Hersteller bereitgestellten Funktionen, die zur Manipulation und Verwaltung der Nutzdaten notwendig sind. Die Qualität und der Umfang der Bibliothek, und damit die dem Anwender direkt zur Verfügung stehenden Möglichkeiten, sollten ein wichtiger Aspekt bei der Auswahl jedes Tools sein. Wünschenswert ist ebenso die Erweiterbarkeit der Standardbibliothek durch den Nutzer (Entwickler). Language binding Die Erweiterung der mitgelieferten Funktionalität durch Anwender der Software ist wünschenswert. Besonders vorteilhaft kann sich hierbei die Möglichkeit herausstellen, diese Neuerungen in populären Sprachen (zum Beipiel C, Perl o. ä.) formulieren zu können. So entfällt der Aufwand des Erlernens einer propritären Sprache des Software-Herstellers. Debugging/tracing Die rasche Abarbeitung der Cleaning-Prozesse im Echt- Betrieb der Anwendung ist ein langfristiges Ziel. Während der Einführungs- bzw. Entwicklungszeit aber auch später zu Kontrollzwecken ist es fast unumgänglich, um detailierte Daten des Prozesses zu analysieren. Dazu zählen wertvolle Informationen wie die Ausführungsdauer (pro Datensatz, absolut) aber natürlich auch die Phasen der Veränderung der Nutzdaten (welche Werte gehen rein, 13

15 welche kommen (wie) raus?). Die Minimalanforderung ist hier ein detailiertes Log-File. Komfortabler läßt es sich jedoch mit einer grafischen Aufbereitung der Prozessergebnisse arbeiten. Die Ausnahmebehandlung unterteilt zwei Möglichkei- Exception handling ten: Reporting im Fehlerfall in eine Log-Datei oder Tabelle Bearbeitung der betroffenen Sätze mit Hilfe von Ausnahme-Regel (zum Beipiel löschen) Eine der dargestellten Varianten sollte ein Datenqualitäts-Tool mitbringen, idealerweise wird beides unterstützt und dem Anwender die Entscheidung überlassen. Data lineage Häufig einstehen durch die Zusammenführung von unterschiedlichen Quellen nicht nur Datensammlung, die prinzipiell neue Tupel enthalten (aus horizontaler Sicht), sondern vorhandene Daten werden durch bestimmte Attribute angereichert (vertikale Sicht). Um auch noch nach der Zusammenführung von Attributeigenschaften erkennen zu können, welche Teile aus welcher Quelle stammen, ist es sinnvoll die Datenherkunft zu sichern. Die Aufbewahrung dieser Informationen erlaubt die Bewertung der einzelnen Quellen. 4.3 Klassifikation Die Erhöhung der Datenqualtität in Sammlungen bedeutet konkrete Ziele zu verfolgen. Programme können durch Funktionalität den Weg zu diesen Zielen ebnen und lassen sich nach (Barateiro and Galhardas, 2005) diesen zugeordnen. Hinweis: Zu jeder Kategorie werden mehrere Beispiele genannt. Das jeweils letzte ist ein Vertreter aus der Kategorie Programme für Forschungszwecke, die restlichen Programme sind kommerziellen Ursprungs. Data analysis Unter dem Begriff der Daten-Analyse bezeichnet man alle Aktivitäten (zum Beispiel DataMining oder statistische Bewertung) mit dem Ziel Muster und Regeln zu erkennen, die sicherstellen, dass die Daten nicht im Konflikt zu ihrer gewollten Verwendung stehen. Programme die den Nutzer bei der Daten-Analyse unterstützen, sind auszugsweise der Migration Architect und Potter s Wheel. Data profiling Als Daten-Profiling bezeichnet man Analysen mit dem Ziel Datenqualtitätsprobleme aufzudecken. So entstehen Protokolle, in denen die in einer Datenmenge vorhandenen Probleme aufgelistet, ggf. nach verschiedenen 14

16 Kriterien (Priorität, Kontext) sortiert sind. Tools, die als Daten-Profiler arbeiten, sind unter anderem dfpower, Trillium und Ken State University Tool. Data transformation Programme aus der Kategorie Daten-Transformation benötigen ein Meta-Repository in dem Angaben über das Schema gespeichert sind (z. B. data schema, data mapping). Mithilfe dieser Informationen sind O- perationen wie Schema/data translation, Filterung und Aggregation möglich. Programme dieser Kategorie sind unter anderem Data Integration, SQL-Server 2005 und FraQL. Data cleaning Data cleaning umfasst alle nötigen Aktivitäten um dirty data (schmutzige Daten: inkorrekt, nicht aktuell, redundant,...) zu säubern. In der Vergangenheit musste diese Arbeit durch (erneut fehlerträchtige) manuelle Aktivitäten durchgeführt werden. Heute unterstützen unter anderem die Programme DataBlade, ETLQ und Ajax diese Arbeit durch die Bereitstellung von Regeln, Funktionen und Referenzwerten. Duplication elemination Duplikate aufzusprüren und in ein Abbild eines Real-Welt-Objekts zu überführen, ist ein zeitintensiver Prozess, der in die folgenden Phasen zerlegt werden kann: Formatdiskrepanzen vereinheitlichen, Abkürzungen und Zahlencodes vereinheitlichen, die Regeln exakt oder annährend auf den Daten auszuführen und schließlich die doppelten Einträge zu vereinen. Programme aus dieser Klasse sind unter anderem DoubleTake, Identity Search Server und IntelliClean. Data enrichment Datenanreicherung (auch data enhancement) bezeichnet den Prozess, der vorhandene Daten mit Daten anderer Quellen (auch zeitweise) erweitert. Typische Anreicherungswerte sind demographische oder Adressinformationen. Programme dieser Kategorie sind unter anderem DataStage, FirstLogic oder Ajax. 15

17 Kapitel 5 Duplikatbehandlung mit IntelliClean Das letzte Kapitel beschreibt die Erkennung und Beseitigung von Duplikaten unter Verwendung des Programms IntelliClean (Lup, 2000). Zunächst werden benötigte spezielle Voraussetzungen besprochen, anschließend wird praxisnah die Arbeit von IntelliClean beschrieben. Die hierbei gemachten Ausführungen, beruhen auf einer Ausarbeitung von (Julius and Lohmann, 2004). IntelliClean liegt ein sogenanntes knowlegde-based Framework zugrunde. Ein knowledge-based Framework ist ein Programmteil, der auf einem Expertensystem beruht. Dieses Expertensystem ist ein Entscheidungsapparat, dessen Wurzeln im Bereich der Künstlichen Intelligenz zu suchen sind. Es verarbeitet eingegebene Regeln, sogenanntes domänen-spezifisches Wissen. Programme, die domänen-spezifisches Wissen verarbeiten können, stehen solchen Ansätzen gegenüber, die versuchen, ohne (die unter Umständen sehr zeitaufwendige) Eingabe von Expertenwissen Datenbestände zu reinigen. Auf diese Art von Programmen bzw. die dahinter stehenden Algorithmen wird an dieser Stelle nicht weiter eingegangen. 5.1 Messgrößen Ziel eines jeden Reinigungsalgorithmus ist es, die Qualität und damit den Wert der Daten zu erhöhen. Um den Erfolg eines DataCleanings messen zu können, werden häufig drei Werte betrachtet: Recall Positive-False-Errors Precision 16

18 Recall Als Recall bezeichnet man das Verhältnis von zurecht gefundenen Duplikaten im Verhältnis zu der Anzahl tatsächlich existierender Duplikate: Anzahl korrekt identifizierter Duplikate 100% (5.1) Anzahl tatsächlich existierender Duplikate Die Anzahl der tatsächlich existierenden Duplikate wird manuell ermittelt. Positive-False-Error Der Prozentsatz von falsch als Duplikate identifizierten Tupeln wird als Positive-False-Error bezeichnet. Anzahl falsch identifizierter Duplikate Anzahl aller identifizierter Duplikate 100% (5.2) Precision Als Precision schließlich bezeichnet man die Differenz zwischen dem fehlerfreien Aufspüren aller Duplikate und den tatsächlich gefundenen. 100% False-Positive-Error (5.3) Ein Algorithmus mit einem hohem Präzisionswert ist ebenso wünschenswert wie die Reinigung möglichst aller Duplikate (hoher Recall-Wert). Beispiel 1 Die eingeführten Größen sollen anhand eines Beispiels illustriert werden: Gegeben sei eine Datenbank mit den Tupeln {A 1, A 2, A 3, A 4, B 1, B 2, C 1 }, wobei gleiche Buchstaben mit unterschiedlichem Index Duplikate sind. Identifiziert ein Algorithmus α die Tupelmenge {A 1, A 4, C 1 } und {B 1, B 2 } jeweils als Duplikate, ergeben sich für die oben eingeführten Größen die folgenden Werte: Der Recall liegt bei 4 6 = 66.67%, da von den als Duplikate identifizierten Tupeln vier richtig sind {A 1, A 4 } und {B 1, B 2 } und sechs ingesamt zu identifizieren gewesen wären (nämlich {A 1, A 2, A 3, A 4, B 1, B 2 }). Der Positive-False-Error liegt bei 1 5 = 20%, da nur das Tupel C 1 fälschlicherweise als Duplikat identifizert wurden ist und fünf Tupel überhaupt als Duplikate gefunden wurden {A 1, A 4, C 1 } und {B 1, B 2 }. Somit ergibt sich eine Precision von 100% 20% = 80%. Beispiel 2 Betrachtet wird ein weiteres Beispiel bei dem die folgenden Tupel in einer Datenbank vorhanden sind {A 1,...A 100, B 1 }. Wie im Beispiel 1 bedeuten gleiche Buchstaben mit unterschiedlichem Index Duplikate. Unter der Annahme der Algorithmus würde die Tupel {A 1,...A 50, B 1 } als Duplikate identifizieren, berechnen sich die oben eingeführten Werte wie folgt: Der Recall-Wert liegt bei = 50%. Der Positive-False-Error ergibt 1 50 = 2%. 17

19 Und die Präzision des Algorithmus ergibt somit 100% 2% = 98%. Diese auch als Recall-Precision-Dilemma bezeichnete entgegengesetzte Abhängigkeit der Werte für Recall und Präzision entsteht rechnerisch unter bestimmten Bedingungen. Wie das Beispiel 2 zeigt, reicht es nicht aus eine hohe Präzision im Algorithmus zu erreichen. Denn, obwohl fast alle der identifizerten Tupel tatsächlich Duplikate waren, sind absolut betrachtet nur die Hälfte der vorhandenen Probleme bereinigt wurden. 5.2 Durchführungsphasen Ein Cleaning-Prozess mit IntelliClean teilt sich in drei Phasen: Pre-Processing Processing Post-Processing In jeder Phase werden die Daten von unterschiedlichen Sichtpunkten betrachtet und bearbeitet. Dabei unterscheiden sich auch die verwendeten Hilfsmittel. Phase 1: Pre-Processing In der ersten Phase der Datenreinigung mit IntelliClean werden die Tupel standardisiert. Das bedeutet, dass zum Beispiel Abkürzungen und Genauigkeiten vereinheitlicht oder zeitliche Werte in das gleiche Format gebracht werden. In dieser Phase kann das domänen-spezifische Wissen besonders von Vorteil sein, denn innerhalb einer Domäne kommt häufig spezielles Vokabular zum Einsatz, das bei der Vereinheitlichung von Abkürzungen helfen kann oder Rechtschreibfehler mit Hilfe von Lookup-Tabellen korrigiert. Phase 2: Processing Auch die Ergebnisse der zweiten Phase sind bei der Arbeit mit IntelliClean stark vom hinterlegten Expertenwissen abhängig. Hier beruht die Entscheidung, ob zwei Tupel Duplikate voneinander sind oder nicht, auf einem regelbasiertem Expertensystem. Diese Regeln werden von Fachleuten erstellt und gepflegt. Eine Regel besteht zunächst aus einer Prämisse und einer Konklusion. Nur wenn die Prämisse erfüllt ist, wird die Regel greifen und den Inhalt der Konklusion ausführen. IntelliClean untescheidet vier Arten von Regeln: Duplikat-Identifikation: In dieser Regelart wird eine Voraussetzung genannt, unter der zwei Tupel Duplikate sind. Diese Art von Regeln kann zusätzlich mit einem Sicherheitsfaktor certainty facor, (kurz: cf) ergänzt 18

20 werden, der Auskunft darüber gibt, mit welcher Sicherheit diese Regel als korrekt anzusehen ist. Der cf kann zwischen 0 und 1 liegen. Vereinigung: Wenn durch eine Duplikat-Identifikation zwei Tupel gefunden wurden, die das gleiche Real-Welt-Objekt abbilden, entscheidet eine Vereinigungsregel, wie die Entfernung eines Duplikats vollzogen werden muss. Beispielsweise könnte das Tupel mit den meisten Null-Werten entfernt werden. Oder es wird eine Vereinigung aller Felder durchgeführt und im Konfliktfall immer das erste Tupel bevorzugt. Aktualisierung: Während des DataCleaning-Prozesses trifft der Algorithmus nicht nur auf Duplikate, die bearbeitet werden sollen. Denkbar ist zum Beispiel, dass fehlende Werte eines einzelnen Objektes mit bestimmten Default-Werten zu aktualisieren sind. Diese Tätigkeit kann über eine Update-Regel durchgeführt werden. Benachrichtigung: Schließlich kann das Tool während seiner Cleaning- Tätigkeit auch auf Fälle stoßen, die eine Benutzerinteraktion erfordern. Ein Beispiel wäre ein einzelnes Tupel (ohne Duplikate) in einer Führerscheindatenbank, in dem das Feld für Geburtstag nicht gefüllt ist. Es kann kein richtiger Wert erschaffen werden. Hier ist ohne Alternative (zum Beispiel hinzuziehen einer externen Personendatenbank) kein automatisches Beheben des Fehlers möglich. Der Algorithmus wird dieses Vorkommen in einem Log-File speichern und zur späteren manuellen Abarbeitung vorlegen. Phase 3: Post-Processing In der letzten Phase des Cleaning-Prozesses mit dem Programm IntelliClean muss der Prozess-Verantwortliche die Log-Files der Regelanwendung überprüfen und ggf. reagieren. Sollten keine automatisch ausgeführten Vereinigungsregeln zum Einsatz gekommen sein, muss jetzt die Duplikate-Entfernung manuell vorgenommen werden. Alle vom Progamm durchgeführten Schritte sind hier validierbar und - dank der domänen-spezifischen Regeldefinition - nachvollziehbar. Sollten Regelanwendungen nicht dem gewünschten Ergebnis entsprechen, kann ihre Aktion auch nachträglich zurückgezogen werden. 19

Datenqualität: allgemeiner Überblick Waldemar Braun. Seminar Datenqualität OvGU Magdeburg 03.12.2009

Datenqualität: allgemeiner Überblick Waldemar Braun. Seminar Datenqualität OvGU Magdeburg 03.12.2009 Datenqualität: allgemeiner Überblick Waldemar Braun Seminar Datenqualität OvGU Magdeburg Gliederung 1. Einleitung 2. Motivation 3. Definition 4. DQ-Probleme 5. DQ-Dimensionen 6. DQ-Modelle 7. Messen der

Mehr

Quality Point München Datenqualität

Quality Point München Datenqualität Quality Point München Datenqualität Paul, wie ist denn Eure Datenqualität? Nachdem ich bei der letzten Gehaltszahlung mit Frau... angeredet wurde, bin ich mir nicht mehr so sicher. Autor: W. Ulbrich IT&More

Mehr

Contents. Ebenen. Data Warehouse - ETL Prozess Version: July 10, 2007. 1 Ebenen. Andreas Geyer-Schulz und Anke Thede. 2 Problemquelle Quellsysteme 4

Contents. Ebenen. Data Warehouse - ETL Prozess Version: July 10, 2007. 1 Ebenen. Andreas Geyer-Schulz und Anke Thede. 2 Problemquelle Quellsysteme 4 Contents Data Warehouse - ETL Prozess Version: July 10, 2007 Andreas Geyer-Schulz und Anke Thede Schroff-Stiftungslehrstuhl Informationsdienste und Elektronische Märkte Fakultät für Wirtschaftswissenschaften

Mehr

Data Warehouse Definition (1) http://de.wikipedia.org/wiki/data-warehouse

Data Warehouse Definition (1) http://de.wikipedia.org/wiki/data-warehouse Data Warehouse Definition (1) http://de.wikipedia.org/wiki/data-warehouse Ein Data-Warehouse bzw. Datenlager ist eine zentrale Datensammlung (meist eine Datenbank), deren Inhalt sich aus Daten unterschiedlicher

Mehr

Fachbericht zum Thema: Anforderungen an ein Datenbanksystem

Fachbericht zum Thema: Anforderungen an ein Datenbanksystem Fachbericht zum Thema: Anforderungen an ein Datenbanksystem von André Franken 1 Inhaltsverzeichnis 1 Inhaltsverzeichnis 1 2 Einführung 2 2.1 Gründe für den Einsatz von DB-Systemen 2 2.2 Definition: Datenbank

Mehr

Motivation: Datenqualitätsprobleme in der Praxis (1/2) Mars Climate Orbiter. Chinesische Botschaft in Belgrad

Motivation: Datenqualitätsprobleme in der Praxis (1/2) Mars Climate Orbiter. Chinesische Botschaft in Belgrad Datenqualität mit dem DataFlux dfpower Studio 8.1 Tobias Jansen Zaferna-Hütte, 4. Januar 2009 Motivation: Datenqualitätsprobleme in der Praxis (1/2) Mars Climate Orbiter Nasa Marssonde Mars Climate Orbiter

Mehr

Frühjahrsemester 2013. CS243 Datenbanken Kapitel 4: Datenqualität* H. Schuldt. Datenqualität

Frühjahrsemester 2013. CS243 Datenbanken Kapitel 4: Datenqualität* H. Schuldt. Datenqualität Frühjahrsemester 2013 CS243 Datenbanken Kapitel 4: Datenqualität* H. Schuldt * Folien basieren zum Teil auf Unterlagen von Dr. Diego Milano Datenqualität Datenqualität (DQ) beschreibt allgemein die (anwendungsspezifische)

Mehr

Performance by Design Wie werden performante ETL-Prozesse erstellt?

Performance by Design Wie werden performante ETL-Prozesse erstellt? Performance by Design Wie werden performante ETL-Prozesse erstellt? Reinhard Mense ARETO Consulting Bergisch Gladbach Schlüsselworte: DWH, Data Warehouse, ETL-Prozesse, Performance, Laufzeiten, Partitionierung,

Mehr

Datenqualität in medizinisch-betriebswirtschaftlichen Informationssystemen MedConf 2013

Datenqualität in medizinisch-betriebswirtschaftlichen Informationssystemen MedConf 2013 Datenqualität in medizinisch-betriebswirtschaftlichen Informationssystemen MedConf 2013 Endler Gregor, Warum Datenqualität? 2002, USA: 600.000.000 $ Y2k weltweit: 1.500.000.000 $ Kosten 44.000 98.000 Todesfälle

Mehr

10. Vorlesung: Datenorganisation SS 2007

10. Vorlesung: Datenorganisation SS 2007 10. Vorlesung: Datenorganisation SS 2007 8 Parallele Transaktionen 9 9.1 Drei-Ebenen Ebenen-Architektur 9.2 Verteilte Datenbanken 9.3 Client-Server Server-Datenbanken 9.4 Föderierte Datenbanken 9.5 Das

Mehr

Das Listen Abgleich Interface wird einfach über Doppelklick auf die Datei Listen-Abgleich-Interface.accde gestartet.

Das Listen Abgleich Interface wird einfach über Doppelklick auf die Datei Listen-Abgleich-Interface.accde gestartet. Anleitung Listen Abgleich Interface Was macht das Listen Abgleich Interface? Das Listen Abgleich Interface importiert und gleicht Excel Listen, welche beispielsweise aus Web Kontaktformularen, Adresszukäufen

Mehr

Smart-Grid-Tools Beschleunigen Sie die Erstellung von Bauteilen ZUSAMMENFASSUNG. IM WORKSHOP Tip #14. Die Herausforderung, große Bauteile zu erstellen

Smart-Grid-Tools Beschleunigen Sie die Erstellung von Bauteilen ZUSAMMENFASSUNG. IM WORKSHOP Tip #14. Die Herausforderung, große Bauteile zu erstellen IM WORKSHOP Tip #14 Smart-Grid-Tools Beschleunigen Sie die Erstellung von Bauteilen ZUSAMMENFASSUNG Mai 2007 Autor: Phil Loughhead Die Erstellung von Bauteilen ist ein fundamentaler Bestandteil des Design-

Mehr

Einführung in Datenbanksysteme. H. Wünsch 01.2001

Einführung in Datenbanksysteme. H. Wünsch 01.2001 Einführung in Datenbanksysteme H. Wünsch 01.2001 H. Wünsch 01/2001 Einführung Datenbanken 2 Was sind Datenbanken? Datenbanken sind Systeme zur Beschreibung, Speicherung und Wiedergewinnung von Datenmengen.

Mehr

Präsentation zum Thema XML Datenaustausch und Integration

Präsentation zum Thema XML Datenaustausch und Integration Sebastian Land Präsentation zum Thema XML Datenaustausch und Integration oder Warum eigentlich XML? Gliederung der Präsentation 1. Erläuterung des Themas 2. Anwendungsbeispiel 3. Situation 1: Homogene

Mehr

Mengenvergleiche: Alle Konten außer das, mit dem größten Saldo.

Mengenvergleiche: Alle Konten außer das, mit dem größten Saldo. Mengenvergleiche: Mehr Möglichkeiten als der in-operator bietet der θany und der θall-operator, also der Vergleich mit irgendeinem oder jedem Tupel der Unteranfrage. Alle Konten außer das, mit dem größten

Mehr

7.4 Analyse anhand der SQL-Trace. 7.3.5 Vorabanalyse mit dem Code Inspector

7.4 Analyse anhand der SQL-Trace. 7.3.5 Vorabanalyse mit dem Code Inspector 7.4 Analyse anhand der SQL-Trace 337 7.3.5 Vorabanalyse mit dem Code Inspector Der Code Inspector (SCI) wurde in den vorangegangenen Kapiteln immer wieder erwähnt. Er stellt ein paar nützliche Prüfungen

Mehr

Ersatzteile der Extraklasse Magento-Module der Shopwerft

Ersatzteile der Extraklasse Magento-Module der Shopwerft Ersatzteile der Extraklasse Magento-Module der Shopwerft MicroStudio - Fotolia.com Werden von Kunden oder Suchmaschinen Elemente des Shops aufgerufen, die nicht vorhanden sind, wird statt des gewünschten

Mehr

Semantische Integrität (auch: Konsistenz) der in einer Datenbank gespeicherten Daten als wichtige Anforderung

Semantische Integrität (auch: Konsistenz) der in einer Datenbank gespeicherten Daten als wichtige Anforderung 6. Datenintegrität Motivation Semantische Integrität (auch: Konsistenz) der in einer Datenbank gespeicherten Daten als wichtige Anforderung nur sinnvolle Attributwerte (z.b. keine negativen Semester) Abhängigkeiten

Mehr

Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken

Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken Dateiname: ecdl5_01_00_documentation_standard.doc Speicherdatum: 14.02.2005 ECDL 2003 Basic Modul 5 Datenbank - Grundlagen

Mehr

CSV Import WP-Meldung.doc

CSV Import WP-Meldung.doc Weiterbildungsdatenbank Version: 1.0 Status: freigegeben Datum: 06.08.2013 Dateiname: Dokumentvorlage: CSV Import WP-Meldung.doc Dokumentvorlage_5.1_Standarddokument Inhaltsverzeichnis 1 Einleitung...

Mehr

DATENBANKEN SQL UND SQLITE VON MELANIE SCHLIEBENER

DATENBANKEN SQL UND SQLITE VON MELANIE SCHLIEBENER DATENBANKEN SQL UND SQLITE VON MELANIE SCHLIEBENER INHALTSVERZEICHNIS 1. Datenbanken 2. SQL 1.1 Sinn und Zweck 1.2 Definition 1.3 Modelle 1.4 Relationales Datenbankmodell 2.1 Definition 2.2 Befehle 3.

Mehr

1 FORMULARE. 1.1 Felder im Formular

1 FORMULARE. 1.1 Felder im Formular MS Word 00 Kompakt Formulare FORMULARE Formulare sind Dokumente, in denen spezielle Bereiche dafür vorgesehen sind, mit bestimmten Informationen ausgefüllt zu werden. Formulare werden z.b. für Fragebögen,

Mehr

Datenbanken SQL Einführung Datenbank in MySQL einrichten mit PhpMyAdmin

Datenbanken SQL Einführung Datenbank in MySQL einrichten mit PhpMyAdmin Datenbanken SQL Einführung Datenbank in MySQL einrichten mit PhpMyAdmin PhpMyAdmin = grafsches Tool zur Verwaltung von MySQL-Datenbanken Datenbanken erzeugen und löschen Tabellen und Spalten einfügen,

Mehr

Carl-Engler-Schule Karlsruhe Datenbank 1 (5)

Carl-Engler-Schule Karlsruhe Datenbank 1 (5) Carl-Engler-Schule Karlsruhe Datenbank 1 (5) Informationen zur Datenbank 1. Definition 1.1 Datenbank-Basis Eine Datenbank-Basis ist eine Sammlung von Informationen über Objekte (z.b Musikstücke, Einwohner,

Mehr

Kapitel 33. Der xml-datentyp. In diesem Kapitel: Der xml-datentyp 996 Abfragen aus xml-datentypen 1001 XML-Indizierung 1017 Zusammenfassung 1023

Kapitel 33. Der xml-datentyp. In diesem Kapitel: Der xml-datentyp 996 Abfragen aus xml-datentypen 1001 XML-Indizierung 1017 Zusammenfassung 1023 Kapitel 33 Der xml-datentyp In diesem Kapitel: Der xml-datentyp 996 Abfragen aus xml-datentypen 1001 XML-Indizierung 1017 Zusammenfassung 1023 995 996 Kapitel 33: Der xml-datentyp Eine der wichtigsten

Mehr

Datenübernahme easyjob 3.0 zu easyjob 4.0

Datenübernahme easyjob 3.0 zu easyjob 4.0 Datenübernahme easyjob 3.0 zu easyjob 4.0 Einführung...3 Systemanforderung easyjob 4.0...3 Vorgehensweise zur Umstellung zu easyjob 4.0...4 Installation easyjob 4.0 auf dem Server und Arbeitsstationen...4

Mehr

Empfehlung für die technische Kommunikation von Produktänderungen im GDSN

Empfehlung für die technische Kommunikation von Produktänderungen im GDSN 1 Germany Empfehlung für die technische Kommunikation von Produktänderungen im GDSN Version 1.0 Stand Mai 2014 I I I Global Standards. Make Business Efficient. Zielsetzung des Dokuments Ziel der vorliegenden

Mehr

Datumsangaben, enthält mindestens Jahr, Monat, Tag

Datumsangaben, enthält mindestens Jahr, Monat, Tag Datenbanken mit SQL Informatik - Sprenger Häufig wird mit Tabellenkalkulationen gearbeitet, obwohl der Einsatz von Datenbanken sinnvoller ist. Tabellenkalkulationen wie Microsoft Excel oder LibreOffice

Mehr

Finaler Testbericht. Finaler Testbericht. 1 Einführung 2. 1.1 Warum Softwaretests?... 2

Finaler Testbericht. Finaler Testbericht. 1 Einführung 2. 1.1 Warum Softwaretests?... 2 Inhaltsverzeichnis 1 Einführung 2 1.1 Warum Softwaretests?.................................... 2 2 Durchgeführte Tests 2 2.1 Test: allgemeine Funktionalität............................... 2 2.1.1 Beschreibung.....................................

Mehr

Integration Services - Dienstarchitektur

Integration Services - Dienstarchitektur Integration Services - Dienstarchitektur Integration Services - Dienstarchitektur Dieser Artikel solle dabei unterstützen, Integration Services in Microsoft SQL Server be sser zu verstehen und damit die

Mehr

SOLISYON GMBH TOBIAS GRUBER BEN WEISSMAN. Analyse von Dimensions-Schlüsselfehlern bei der Aufbereitung von SSAS Datenbanken

SOLISYON GMBH TOBIAS GRUBER BEN WEISSMAN. Analyse von Dimensions-Schlüsselfehlern bei der Aufbereitung von SSAS Datenbanken WEITER BLICKEN. MEHR ERKENNEN. BESSER ENTSCHEIDEN. Analyse von Dimensions-Schlüsselfehlern bei der Aufbereitung von SSAS Datenbanken SOLISYON GMBH TOBIAS GRUBER BEN WEISSMAN ANALYSE VON OLAP-AUFBEREITUNGSFEHLERN

Mehr

Bestandsabgleich mit einem Onlineshop einrichten

Bestandsabgleich mit einem Onlineshop einrichten Bestandsabgleich mit einem Onlineshop einrichten Mit unserem Tool rlonlineshopabgleich können die Warenbestände zwischen unserem Programm raum level und einem Onlineshop abgeglichen werden. Einleitend

Mehr

Dokumentation Eigenwartung

Dokumentation Eigenwartung Inhaltsverzeichnis 1 Allgemeines... 3 1.1 Copyright... 3 1.2 Einstieg... 3 2 Ordner Navigation... 4 3 Menüleiste... 5 3.1 Alle/Keine Elemente auswählen... 5 3.2 Kopieren... 5 3.3 Ausschneiden... 5 3.4

Mehr

1.1 Das Ziel: Basisdaten strukturiert darzustellen

1.1 Das Ziel: Basisdaten strukturiert darzustellen MS Excel 203 Kompakt PivotTabellen. Das Ziel: Basisdaten strukturiert darzustellen Jeden Tag erhalten wir umfangreiche Informationen. Aber trotzdem haben wir oft das Gefühl, Entscheidungen noch nicht treffen

Mehr

TYPO3 Redaktoren-Handbuch

TYPO3 Redaktoren-Handbuch TYPO3 Redaktoren-Handbuch Kontakt & Support: rdv interactive ag Arbonerstrasse 6 9300 Wittenbach Tel. 071 / 577 55 55 www.rdvi.ch Seite 1 von 38 Login http://213.196.148.40/typo3 Username: siehe Liste

Mehr

Typo3 - Inhalte. 1. Gestaltung des Inhaltsbereichs. 2. Seitenunterteilung einfügen

Typo3 - Inhalte. 1. Gestaltung des Inhaltsbereichs. 2. Seitenunterteilung einfügen Typo3 - Inhalte 1. Gestaltung des Inhaltsbereichs Das Layout der neuen TVA Website sieht neben dem grafischen Rahmen und den Navigations-Elementen oben und links einen grossen Inhaltsbereich (graue Fläche)

Mehr

eevolution Business Intelligence Oliver Rzeniecki COMPRA GmbH Programmierer & Datenbankadministrator

eevolution Business Intelligence Oliver Rzeniecki COMPRA GmbH Programmierer & Datenbankadministrator eevolution Business Intelligence Oliver Rzeniecki COMPRA GmbH Programmierer & Datenbankadministrator Agenda Was ist Business Intelligence? Was ist OLAP? Unterschied zwischen OLAP und OLTP? Bestandteile

Mehr

6 InfoCubes erstellen und konfigurieren

6 InfoCubes erstellen und konfigurieren InfoCubes bilden die Reportingschicht in der LSA; sie sind für die Performance des Reportings entscheidend. In diesem Kapitel stellen wir Ihnen vor, welche InfoCubes es gibt und wie Sie damit arbeiten.

Mehr

4 ANALYSE VON TABELLEN

4 ANALYSE VON TABELLEN MS Excel 2010 Aufbau Analyse von Tabellen 4 ANALYSE VON TABELLEN Lernen Sie in diesem Kapitel die Möglichkeiten kennen, Tabelleninhalte optimal auszuwerten und mit was wäre wenn die Daten zu analysieren.

Mehr

Oracle Warehouse Builder 3i

Oracle Warehouse Builder 3i Betrifft Autoren Art der Info Oracle Warehouse Builder 3i Dani Schnider (daniel.schnider@trivadis.com) Thomas Kriemler (thomas.kriemler@trivadis.com) Technische Info Quelle Aus dem Trivadis Technologie

Mehr

Data Lineage goes Traceability - oder was Requirements Engineering von Business Intelligence lernen kann

Data Lineage goes Traceability - oder was Requirements Engineering von Business Intelligence lernen kann Data Lineage goes Traceability - oder was Requirements Engineering von Business Intelligence lernen kann Andreas Ditze MID GmbH Kressengartenstraße 10 90402 Nürnberg a.ditze@mid.de Abstract: Data Lineage

Mehr

Relationale Datenbanken Datenbankgrundlagen

Relationale Datenbanken Datenbankgrundlagen Datenbanksystem Ein Datenbanksystem (DBS) 1 ist ein System zur elektronischen Datenverwaltung. Die wesentliche Aufgabe eines DBS ist es, große Datenmengen effizient, widerspruchsfrei und dauerhaft zu speichern

Mehr

d e S I G n & d e v e L O P M e n T TYPO3 AdvAnced

d e S I G n & d e v e L O P M e n T TYPO3 AdvAnced DESIGN & DEVELOPMENT TYPO3 Advanced 1 Einleitung / Inhalt 2 / 13 Einleitung Dieses Dokument weist Sie durch die Funktion des Open Source CMS TYPO3. In wenigen, einfachen Schritten wird Ihnen bebildert

Mehr

Data Quality Management: Abgleich großer, redundanter Datenmengen

Data Quality Management: Abgleich großer, redundanter Datenmengen Data Quality Management: Abgleich großer, redundanter Datenmengen Westendstr. 14 809 München Tel 089-5100 907 Fax 089-5100 9087 E-Mail Datras@Datras.de Redundanz und relationales Datenbankmodell Redundanz:

Mehr

7. Übung - Datenbanken

7. Übung - Datenbanken 7. Übung - Datenbanken Informatik I für Verkehrsingenieure Aufgaben inkl. Beispiellösungen 1. Aufgabe: DBS a Was ist die Kernaufgabe von Datenbanksystemen? b Beschreiben Sie kurz die Abstraktionsebenen

Mehr

Preisaktualisierungen via BC Pro-Catalogue

Preisaktualisierungen via BC Pro-Catalogue Preisaktualisierungen via BC Pro-Catalogue 1. Allgemein Seite 1 2. Anwendungsfall : Lieferant mit im System bereits vorhandenen Katalog Seite 2-3 3. Anwendungsfall : Neuer Lieferant Seite 4-8 1. Allgemein

Mehr

Effizientes Änderungsmanagement in Outsourcing- Projekten

Effizientes Änderungsmanagement in Outsourcing- Projekten Effizientes Änderungsmanagement in Outsourcing- Projekten Dr. Henning Sternkicker Rational Software IBM Deutschland GmbH Sittarder Straße 31 52078 Aachen henning.sternkicker@de.ibm.com Abstract: Es werden

Mehr

Data Mining-Projekte

Data Mining-Projekte Data Mining-Projekte Data Mining-Projekte Data Mining stellt normalerweise kein ei nmaliges Projekt dar, welches Erkenntnisse liefert, die dann nur einmal verwendet werden, sondern es soll gewöhnlich ein

Mehr

Konzeption eines Master-Data-Management-Systems. Sven Schilling

Konzeption eines Master-Data-Management-Systems. Sven Schilling Konzeption eines Master-Data-Management-Systems Sven Schilling Gliederung Teil I Vorstellung des Unternehmens Thema der Diplomarbeit Teil II Master Data Management Seite 2 Teil I Das Unternehmen Vorstellung

Mehr

Datenbanken: Relationales Datenbankmodell RDM

Datenbanken: Relationales Datenbankmodell RDM Das RDM wurde in den 70'er Jahren von Codd entwickelt und ist seit Mitte der 80'er Jahre definierter Standard für Datenbanksysteme! Der Name kommt vom mathematischen Konzept einer Relation: (Sind A, B

Mehr

Klassifikation von Integrationskonflikten

Klassifikation von Integrationskonflikten Klassifikation von Integrationskonflikten Christiane Telöken 1 Inhaltsverzeichnis 1. Was bedeutet Integration? 2. Strukturelle Heterogenitätskonflikte 2.1 Konflikte bei bilateralen Korrespondenzen 2.2

Mehr

Oracle-Statistiken im Data Warehouse effizient nutzen

Oracle-Statistiken im Data Warehouse effizient nutzen Oracle-Statistiken im Data Warehouse effizient nutzen Reinhard Mense ARETO Consulting Köln Schlüsselworte: DWH, Data Warehouse, Statistiken, Optimizer, Performance, Laufzeiten Einleitung Für die performante

Mehr

Oracle 10g und SQL Server 2005 ein Vergleich. Thomas Wächtler 39221

Oracle 10g und SQL Server 2005 ein Vergleich. Thomas Wächtler 39221 Oracle 10g und SQL Server 2005 ein Vergleich Thomas Wächtler 39221 Inhalt 1. Einführung 2. Architektur SQL Server 2005 1. SQLOS 2. Relational Engine 3. Protocol Layer 3. Services 1. Replication 2. Reporting

Mehr

3. Das Relationale Datenmodell

3. Das Relationale Datenmodell 3. Das Relationale Datenmodell Das Relationale Datenmodell geht zurück auf Codd (1970): E. F. Codd: A Relational Model of Data for Large Shared Data Banks. Comm. of the ACM 13(6): 377-387(1970) DBMS wie

Mehr

7 Die Reorganisation von DB2

7 Die Reorganisation von DB2 Ab und an sollte eine Tabelle reorganisiert werden. Besonders, nachdem größere Datenmengen eingefügt oder gelöscht wurden, muß über eine Reorganisation nachgedacht werden. Eine optimale Performance ist

Mehr

Suche schlecht beschriftete Bilder mit Eigenen Abfragen

Suche schlecht beschriftete Bilder mit Eigenen Abfragen Suche schlecht beschriftete Bilder mit Eigenen Abfragen Ist die Bilderdatenbank über einen längeren Zeitraum in Benutzung, so steigt die Wahrscheinlichkeit für schlecht beschriftete Bilder 1. Insbesondere

Mehr

A) Durchsuchen von Datenbanken im Internet durch Endnote

A) Durchsuchen von Datenbanken im Internet durch Endnote EINLEITUNG/ANWEISUNGEN ZU DIESEM TEXT Wir werden die obere Liste (File/ Edit usw.) benutzen, obwohl die meisten Funktionen auch möglich mit rechtem Mausklick, mit Kombinationen der Tastatur oder mit den

Mehr

Data Mining-Modelle und -Algorithmen

Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining ist ein Prozess, bei dem mehrere Komponenten i n- teragieren. Sie greifen auf Datenquellen, um diese zum Training,

Mehr

eadmin Manual Universitätsstraße 3 56070 Koblenz Deutschland

eadmin Manual Universitätsstraße 3 56070 Koblenz Deutschland DOKUMENT: TYP: ERSTELLT VON: Manual nova ratio AG Universitätsstraße 3 56070 Koblenz Deutschland VERSION: STAND: 9.x 23. September 2015 Inhaltsverzeichnis 1 2 2.1 2.2 2.3 3 3.1 3.2 3.3 4 4.1 4.2 4.3 4.4

Mehr

Erfolgreiches Zusammenarbeiten von IT und Marketing am Beispiel von Meta Daten Management

Erfolgreiches Zusammenarbeiten von IT und Marketing am Beispiel von Meta Daten Management Erfolgreiches Zusammenarbeiten von IT und Marketing am Beispiel von Meta Daten Management Sprecher: Uwe Nadler, Senior Managing Consultant 1 Marketing braucht unterschiedliche Informationen, um entsprechende

Mehr

1 Die Active Directory

1 Die Active Directory 1 Die Active Directory Infrastruktur Prüfungsanforderungen von Microsoft: Configuring the Active Directory Infrastructure o Configure a forest or a domain o Configure trusts o Configure sites o Configure

Mehr

Datenqualität. Werner Nutt. In Zusammenarbeit mit Simon Razniewski. Freie Universität Bozen

Datenqualität. Werner Nutt. In Zusammenarbeit mit Simon Razniewski. Freie Universität Bozen Datenqualität Werner Nutt In Zusammenarbeit mit Simon Razniewski Freie Universität Bozen Vorstellung Werner Nutt Professor für Informatik and der Freien Univ. Bozen Schwerpunkte in Lehre und Forschung:

Mehr

Duplikaterkennung - Motivation Masterseminar. Felix Naumann Hasso-Plattner-Institut

Duplikaterkennung - Motivation Masterseminar. Felix Naumann Hasso-Plattner-Institut Duplikaterkennung - Motivation Masterseminar 16.4.2008 Felix Naumann Hasso-Plattner-Institut Fachgebiet Informationssysteme Überblick 2 Datenqualität Datenfehler und ihre Ursachen Datenreinigung i Duplikaterkennung

Mehr

Ein Schlüssel ist eine Menge von Attributen (also eines oder mehrere), die eine Datenzeile (Tupel) einer Tabelle eindeutig identifiziert

Ein Schlüssel ist eine Menge von Attributen (also eines oder mehrere), die eine Datenzeile (Tupel) einer Tabelle eindeutig identifiziert Maika Büschenfeldt Datenbanken: Skript 1 1. Was ist eine relationale Datenbank? In Datenbanken können umfangreiche Datenbestände strukturiert abgelegt werden. Das Konzept relationaler Datenbanken soll

Mehr

Einführung in die Informatik I

Einführung in die Informatik I Einführung in die Informatik I Algorithmen und deren Programmierung Prof. Dr. Nikolaus Wulff Definition Algorithmus Ein Algorithmus ist eine präzise formulierte Handlungsanweisung zur Lösung einer gleichartigen

Mehr

Datenbanken: Datenintegrität. www.informatikzentrale.de

Datenbanken: Datenintegrität. www.informatikzentrale.de Datenbanken: Datenintegrität Definition "Datenkonsistenz" "in der Datenbankorganisation (...) die Korrektheit der gespeicherten Daten im Sinn einer widerspruchsfreien und vollständigen Abbildung der relevanten

Mehr

1 Übersicht 1 2 Pflege der Funktionenliste 1 3 Erfassung der Personaldaten (TabBlatt Datenerfassung) 2. 3.1 Das Feld Hierarchiecode 2

1 Übersicht 1 2 Pflege der Funktionenliste 1 3 Erfassung der Personaldaten (TabBlatt Datenerfassung) 2. 3.1 Das Feld Hierarchiecode 2 Inhalte 1 Übersicht 1 2 Pflege der Funktionenliste 1 3 Erfassung der Personaldaten (TabBlatt Datenerfassung) 2 3.1 Das Feld Hierarchiecode 2 4 (Mikro-)Lohnvergleiche 2 5 Pflege der Personendaten 3 6 Import

Mehr

Marketing Intelligence Architektur und Konzepte. Josef Kolbitsch Manuela Reinisch

Marketing Intelligence Architektur und Konzepte. Josef Kolbitsch Manuela Reinisch Marketing Intelligence Architektur und Konzepte Josef Kolbitsch Manuela Reinisch Übersicht Mehrstufiges BI-System Architektur eines Data Warehouses Architektur eines Reporting-Systems Benutzerrollen in

Mehr

How-To : Nachtragen von Tagesdiagrammen auf der Solarlog Homepage

How-To : Nachtragen von Tagesdiagrammen auf der Solarlog Homepage How-To : Nachtragen von Tagesdiagrammen auf der Solarlog Homepage Von Zeit zu Zeit erweitern neue Funktionen die Ausstattungsmerkmale des SolarLog. Wenn ein neues Firmewareupdate heraus kommt, werden plötzlich

Mehr

Tag 4 Inhaltsverzeichnis

Tag 4 Inhaltsverzeichnis Tag 4 Inhaltsverzeichnis Normalformen Problem Formen (1-4) Weitere Formen Transaktionen Synchronisationsprobleme Überblick Autocommit Locking Savepoints Isolation levels Übungen RDB 4-1 Normalformen Problematik

Mehr

Software Engineering Analyse und Analysemuster

Software Engineering Analyse und Analysemuster Software Engineering Analyse und Analysemuster Prof. Adrian A. Müller, PMP, PSM 1, CSM Fachbereich Informatik und Mikrosystemtechnik 1 Klassendiagramme in der Analyse Im Rahmen der Anforderungsanalyse

Mehr

SOFiSTiK Online. Anwendungsbeschreibung. Stand 14. April 2010

SOFiSTiK Online. Anwendungsbeschreibung. Stand 14. April 2010 Anwendungsbeschreibung Stand 14. April 2010 SOFiSTiK AG 2008 Inhaltsverzeichnis 1 Möglichkeiten und Ziele... 1 2 User-Administrator... 2 3 Anmeldung... 2 4 Meine Daten... 3 5 Ticket Tracker... 4 6 Support/Sales

Mehr

Vergleich von Open-Source und kommerziellen Programmen zur Durchführung eines ETL-Prozesses

Vergleich von Open-Source und kommerziellen Programmen zur Durchführung eines ETL-Prozesses Vergleich von Open-Source und kommerziellen Programmen zur Durchführung eines ETL-Prozesses Exposé zur Diplomarbeit Humboldt-Universität zu Berlin Mathematisch-Naturwissenschaftliche Fakultät II Institut

Mehr

System Landscape Optimization. Karl Nagel, Patrick Müller

System Landscape Optimization. Karl Nagel, Patrick Müller System Landscape Optimization Karl Nagel, by CaRD / CaRD PLM 2008 Schritte > Voraussetzung: Prozessharmonisierung und Systemintegration > 1. Erstellung eines neuen Meta-Datenmodells/Vereinbarung der gültigen

Mehr

CVR Seniorentreff vom 04. und 05.02.03 Serienbriefe/Seriendruck. Serienbriefe / Seriendruck

CVR Seniorentreff vom 04. und 05.02.03 Serienbriefe/Seriendruck. Serienbriefe / Seriendruck Serienbriefe / Seriendruck Mit Hilfe des Seriendruck-Managers lassen sich Serienbriefe, Adressetiketten, oder Briefumschläge relativ einfach erstellen. Der Seriendruck-Manager hilft dabei, die Adressdaten

Mehr

Mit unserer Webshop-Schnittstelle können Sie Ihre Webshop-Bestellungen direkt in orgamax einlesen und weiter verarbeiten.

Mit unserer Webshop-Schnittstelle können Sie Ihre Webshop-Bestellungen direkt in orgamax einlesen und weiter verarbeiten. 1. Einführung Mit unserer Webshop-Schnittstelle können Sie Ihre Webshop-Bestellungen direkt in orgamax einlesen und weiter verarbeiten. orgamax stellt Ihnen eine interaktive Kommunikations-Schnittstelle

Mehr

ELWIS 3.0. Dokumentation E-Mail-Verteilerlisten

ELWIS 3.0. Dokumentation E-Mail-Verteilerlisten ELWIS 3.0 Dokumentation E-Mail-Verteilerlisten Dienstleistungszentrum Informationstechnik im Geschäftsbereich des BMVBS (DLZ-IT BMVBS) Bundesanstalt für Wasserbau Am Ehrenberg 8, 98693 Ilmenau Stand, 10.02.2011

Mehr

Anwender- Dokumentation. REP Datenbank Wartungsprogramme. Version 320-23.00 Version 280-23.00

Anwender- Dokumentation. REP Datenbank Wartungsprogramme. Version 320-23.00 Version 280-23.00 Anwender- Dokumentation REP Datenbank Wartungsprogramme Version 320-23.00 Version 280-23.00 Allgemein Die Abkürzung REP steht in der Renault Informatik für den Begriff Référentiel Entretiens Programmés,

Mehr

Das Kleine 1x1 des Rektors

Das Kleine 1x1 des Rektors Das Kleine 1x1 des Rektors Kurzanleitung Stand: 20. Juli 2001 Inhaltsverzeichnis 1 Einführung... 1 1.1 Was ist Das Kleine 1x1 des Rektors?... 1 1.2 Programmvarianten... 1 1.3 Dimensionen... 1 2 Programmstart...

Mehr

Alle alltäglichen Aufgaben können auch über das Frontend durchgeführt werden, das in den anderen Anleitungen erläutert wird.

Alle alltäglichen Aufgaben können auch über das Frontend durchgeführt werden, das in den anderen Anleitungen erläutert wird. Der Admin-Bereich im Backend Achtung: Diese Anleitung gibt nur einen groben Überblick über die häufigsten Aufgaben im Backend-Bereich. Sollten Sie sich nicht sicher sein, was genau Sie gerade tun, dann

Mehr

1. Einführung 2. 2. Systemvoraussetzungen... 2. 3. Installation und Konfiguration 2. 4. Hinzufügen einer weiteren Sprache... 3

1. Einführung 2. 2. Systemvoraussetzungen... 2. 3. Installation und Konfiguration 2. 4. Hinzufügen einer weiteren Sprache... 3 Inhalt 1. Einführung 2 2. Systemvoraussetzungen... 2 3. Installation und Konfiguration 2 4. Hinzufügen einer weiteren Sprache... 3 5. Aktivierung / Deaktivierung von Funktionen... 4 6. Konfiguration der

Mehr

BEST PRACTICES MARKTKOMMUNIKATION

BEST PRACTICES MARKTKOMMUNIKATION BUSINESS IN THE FAST LANE BEST PRACTICES MARKTKOMMUNIKATION für Bestandskunden Kontakt: bestpractice@next-level-integration.com Best Practices Marktkommunikation für Bestandskunden Next Level Integration

Mehr

Recommender Systems. Stefan Beckers Praxisprojekt ASDL SS 2006 Universität Duisburg-Essen April 2006

Recommender Systems. Stefan Beckers Praxisprojekt ASDL SS 2006 Universität Duisburg-Essen April 2006 Recommender Systems Stefan Beckers Praxisprojekt ASDL SS 2006 Universität Duisburg-Essen April 2006 Inhalt 1 - Einführung 2 Arten von Recommender-Systemen 3 Beispiele für RCs 4 - Recommender-Systeme und

Mehr

Serienbriefe erstellen mit Word 2013. Themen-Special. Tina Wegener. 1. Ausgabe, September 2013 WW2013SB

Serienbriefe erstellen mit Word 2013. Themen-Special. Tina Wegener. 1. Ausgabe, September 2013 WW2013SB Serienbriefe erstellen mit Word 2013 Tina Wegener 1. Ausgabe, September 2013 Themen-Special WW2013SB 2 Serienbriefe erstellen mit Word 2013 2 Anwendungsbeispiele für Serienbriefe In diesem Kapitel erfahren

Mehr

Dokumentation zur Verwendung eines SOAP-Webservices in SAP PI

Dokumentation zur Verwendung eines SOAP-Webservices in SAP PI Betriebswirtschaftliche Anwendungen 2: Serviceorientierte Anwendungsintegration Dokumentation zur Verwendung eines SOAP-Webservices in SAP PI Umrechnung von Währungen Steffen Dorn, Sebastian Peilicke,

Mehr

9. Einführung in Datenbanken

9. Einführung in Datenbanken 9. Einführung in Datenbanken 9.1 Motivation und einführendes Beispiel 9.2 Modellierungskonzepte der realen Welt 9.3 Anfragesprachen (Query Languages) 9.1 Motivation und einführendes Beispiel Datenbanken

Mehr

Content Management System (CMS) Manual

Content Management System (CMS) Manual Content Management System (CMS) Manual Thema Seite Aufrufen des Content Management Systems (CMS) 2 Funktionen des CMS 3 Die Seitenverwaltung 4 Seite ändern/ Seite löschen Seiten hinzufügen 5 Seiten-Editor

Mehr

30. Juni 2006 - Technische Universität Kaiserslautern. Paul R. Schilling

30. Juni 2006 - Technische Universität Kaiserslautern. Paul R. Schilling 30. Juni 2006 - Technische Universität Kaiserslautern Paul R. Schilling ! " #$% & '( ( ) *+, - '. / 0 1 2("$ DATEN SIND ALLGEGENWÄRTIG Bill Inmon, father of data warehousing Unternehmen In einer vollkommenen

Mehr

Dokumentation...Datenbank Außenlager

Dokumentation...Datenbank Außenlager Einführung Das DynWebSite Administrations-Tool dient dem editieren von Online-Datensätzen. Es wurde entwickelt, um eine Orts- und Systemunabhängige dezentrale Pflege der Außenlager-Datenbank zu ermöglichen.

Mehr

ERP Cloud Tutorial. E-Commerce ECM ERP SFA EDI. Backup. Klassifikationen erfassen und importieren. www.comarch-cloud.de

ERP Cloud Tutorial. E-Commerce ECM ERP SFA EDI. Backup. Klassifikationen erfassen und importieren. www.comarch-cloud.de ERP Cloud SFA ECM Backup E-Commerce ERP EDI Klassifikationen erfassen und importieren www.comarch-cloud.de Inhaltsverzeichnis 1 Ziel des s 3 2 Kurze Einführung: Was sind Klassifikationen? 3 3 Klassifikationen

Mehr

Ontologiebasierte domänenspezifische Datenbereinigung in Data Warehouse Systemen

Ontologiebasierte domänenspezifische Datenbereinigung in Data Warehouse Systemen Ontologiebasierte domänenspezifische Datenbereinigung in Data Warehouse Systemen Stefan Brüggemann Institut OFFIS, 26121 Oldenburg, Germany, email: brueggemann@offis.de, WWW home page: http://www.offis.de

Mehr

Aufgaben zur fachwissenschaftlichen Prüfung Modul 3 Daten erfassen, ordnen, verarbeiten und austauschen: Schwerpunkt Datenbanken

Aufgaben zur fachwissenschaftlichen Prüfung Modul 3 Daten erfassen, ordnen, verarbeiten und austauschen: Schwerpunkt Datenbanken Aufgaben zur fachwissenschaftlichen Prüfung Modul 3 Daten erfassen, ordnen, verarbeiten und austauschen: Schwerpunkt Datenbanken 30 Wozu dient ein Primärschlüssel? Mit dem Primärschlüssel wird ein Datenfeld

Mehr

Ein Ausflug zu ACCESS

Ein Ausflug zu ACCESS Ein Ausflug zu ACCESS Die folgenden Folien zeigen beispielhaft, wie man sein DB- Wissen auf ACCESS übertragen kann betrachtet wird ACCESS 2002, da gerade im Bereich der Nutzung von SQL hier einiges nachgearbeitet

Mehr

Informationssystem Versorgungsdaten (Datentransparenz): Nutzungsordnung

Informationssystem Versorgungsdaten (Datentransparenz): Nutzungsordnung Informationssystem Versorgungsdaten (Datentransparenz): Nutzungsordnung Nutzungsordnung Version 01-01-000 Inhalt 1 Gegenstand... 2 2 Glossar... 2 3 Nutzungsvarianten... 2 4 Gewährleistung... 2 5 Verbot

Mehr

MS Access 2013 Kompakt

MS Access 2013 Kompakt 2 ABFRAGEN Eine Abfrage ist im Wesentlichen der Filterung eines Datenbestandes sehr ähnlich. Auch hier werden aus einer Menge von Informationen nur jene Datensätze ausgewählt, die einem vorher definierten

Mehr

EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN

EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN T-SYSTEMS MULTIMEDIA SOLUTIONS GMBH, 16. FEBRUAR 2012 1. Schlüsselworte Semantic Web, Opinion Mining, Sentiment Analysis, Stimmungsanalyse,

Mehr

Agenda. Portfolioübersicht. Business-Case. Zusammenfassung. Das Ziel. SAP EIM Produktportfolio. Datenreorganisation mit SAP EIM

Agenda. Portfolioübersicht. Business-Case. Zusammenfassung. Das Ziel. SAP EIM Produktportfolio. Datenreorganisation mit SAP EIM Datenreorganisation > Effiziente und performante Stammdatenreorganisation mit SAP Data Services < Simon Hartstein / T-Systems Data Migration Consulting AG / Harmonization & Consolidation Mai 21, 2014 Agenda

Mehr

Funktionsübersicht. Beschreibung der zentralen Funktionen von PLOX

Funktionsübersicht. Beschreibung der zentralen Funktionen von PLOX Funktionsübersicht Beschreibung der zentralen Funktionen von PLOX Seite 2 Inhaltsverzeichnis 1. Überblick Architektur... 2 2. PLOX-Menüleiste: Eine Toolbox voll nützlicher Werkzeuge... 3 2.1 Login... 3

Mehr

OLAP und Data Warehouses

OLAP und Data Warehouses OLP und Data Warehouses Überblick Monitoring & dministration Externe Quellen Operative Datenbanken Extraktion Transformation Laden Metadaten- Repository Data Warehouse OLP-Server nalyse Query/Reporting

Mehr