Ausarbeitung im Rahmen des Oberseminars Datenbanken: Sebastian Schneemann

Größe: px
Ab Seite anzeigen:

Download "Ausarbeitung im Rahmen des Oberseminars Datenbanken: Sebastian Schneemann"

Transkript

1 Ausarbeitung im Rahmen des Oberseminars Datenbanken: Datenqualität Übersicht Sebastian Schneemann Januar 2008

2 Inhaltsverzeichnis 1 Einleitung und einführendes Beispiel 2 2 Problematik Ursachen und Auswirkungen Klassifikationssysteme am Beispiel Rahm und Do Dimensionen Genauigkeit Vollständigkeit Weitere Dimensionen Programme Grundlagen Anforderungen Klassifikation Duplikatbehandlung mit IntelliClean Messgrößen Durchführungsphasen

3 Kapitel 1 Einleitung und einführendes Beispiel Dank ständig sinkender Hardwarepreise ist bei der Anlage von Datensammlungen die Anschaffung von Massenspeichern zum untergeordneter Kostenpunkt geworden. Datenbanken und Informationssysteme speichern heute häufig Millionen von Informationen in gigabytegroßen Systemen, die größten DataWarehouses übertreffen bereits leicht die Terrabytegrenze - Tendenz steigend. Die fast schon leidenschaftliche Art mit der private und öffentliche Unternehmen und Institutionen diese Datensammelwut vorantreiben hat verschiedene Gründe. Unter anderem streben die Unternehmungen danach, nicht nur eine Historie ihrer Aktivitäten zur Verfügung zu haben, sondern auf dieser Grundlage auch nächste Schritte zu bestimmen, zu erwartende Tendenzen und Trends zu erkennen und sogar weitreichende Entscheidungen zu fällen. Dies alles um den Markterfolg zu verbessern und die eigene Position zu stärken. Die Qualität der Daten ist aus diesen Gründen von herausragender Wichtigkeit. Sind Daten nicht genau genug, oder beinhalten sie Inkonsistenzen, sind ebenso die auf der Grundlage dieser mangelhaften Daten getätigten Entscheidungen von minderer Qualität. Die Konsequenzen von schlechter Datenqualität reichen für Unternehmen von peinlich bis existenzgefährdend. Im Kapitel 1 wird ein kleines Beispiel zur Illustration von Facetten der Datenqualität gegeben. Im Kapitel 2 wird auf die Probleme mangelnder Datenqualität und deren Klassifikation eingegangen. Das Kapitel 3 beschreibt die unterschiedlichen Dimensionen von denen Daten betrachten werden können und im Kapitel 4 wird schließlich beleuchtet, welche Eigenschaften Programme und Werkzeuge zur Erkennung und Verbesserung der Datenqualität haben können und sollten. Im Kapitel 5 wird abschließend die Funktionalität eines konkreten Tools zur Duplikaterkennung und -behandlung am Beispiel von IntelliClean behandelt. 2

4 Einführendes Beispiel Datenqualität ist mehrdimensional. Zu dieser Aussage kommen (Scannapieco et al., 2005) und demonstieren einige dieser Dimensionen anhand eines Beispiels, das auch hier Verwendung finden soll. Trotz der geringen Anzahl an ID Title Director Year #Remakes LastRemakeYear 1 Casablanca Weir Dead Poets Society Curtiz NULL 3 Rman Holiday Wylder NULL 4 Sabrina NULL Tabelle 1.1: Auszug aus einer Filmdatenbank mit Datenqualitätsproblemen nach (Scannapieco et al., 2005) Tupeln, lassen sich anhand der Beipiele aus Tabelle 1.1 verschiedene Probleme beschreiben: Die Regisseure der Filme mit der ID 1 und ID 2 sind vertauscht (Genauigkeit). Das Jahr des letzten Remakes vom Film mit der ID 1 ist kleiner als das Jahr der ersten Produktion (Konsistenz). Im Titel vom Film mit der ID 3 befindet sich ein Rechtschreibfehler. Korrigiert lautet der Titel Roman Holiday (Genauigkeit). Die Spalte Regisseur im Film mit der ID 4 darf nicht leer sein (Vollständigkeit). Der Film mit der ID 4 hat ein Datum in der Spalte mit der letzten Neuverfilmung, die Anzahl der Neuverfilmungen ist jedoch 0 (Vollständigkeit, Aktualität, Konsistenz). Auf die in runden Klammern genannten Problem-Dimensionen, wird im Kapitel 3 näher eingegangen. 3

5 Kapitel 2 Problematik In diesem Kapitel werden zunächst die Ursachen und deren Auswirkugen besprochen. Im zweiten Teil wird gezeigt, dass sich Probleme mit der Datenqualität in verschiedenen Klassifikationen darstellen lassen. 2.1 Ursachen und Auswirkungen (Sattler, 2005) nennt verschiedene Ursachen für Datenqualitätsprobleme. Die Ursachen sind direkt vom jeweiligen Lebenszyklus des Datums abhängig und entstehen demnach direkt bei der Datenproduktion, der Datenspeicherung, und der Datennutzung. Probleme bei der Datenproduktion Eine der häufigsten Ursachen für Probleme der Datenqualität entsteht bereits während der Produktion der Daten. Mehrere unterschiedliche Quellen, die erst später zu einem DataWarehouse oder einem Web-Integrationssystem zusammengeführt werden, bilden die gleichen Real-Welt-Objekte unterschiedlich ab. Durch die Vereinigung dieser Quellen können miteinander unvereinbare Kopien der gleichen Objekte entstehen. Diese Problemart ist nicht nur auf die Instanzen von Relationen beschränkt, sondern kann bereits auf Schemaebene vorkommen. Ein Beispiel könnte die Zusammenführung von mehreren Personendatenbanken sein, in denen einige Ausprägungen widersprüchliche Angaben zum jeweiligen Geburtsdatum haben (Instanz) oder Attribute aus einer Quelle als eigene Relationen in einer anderen Quelle gespeichert werden (Schema). Ein weiterer wichtiger Punkt bei der Identifikation von Datenqualitätsproblemen ist die Datenerfassung mit subjektiven Eingaben. Wo Raum für Individualität 4

6 besteht, ist die Gefahr von nicht vereinbaren oder sogar widersprüchlichen Angaben allgegenwärtig. Als Beipiel soll hier die Erfassung von Charaktereigenschaften in einem Angestelltenverzeichnis eines Unternehmens dienen. Als dritten Punkt nennt (Sattler, 2005) die systematischen Probleme bei der Datenerfassung, zum Beispiel durch verschiedene Codes o. ä. In Zeiten von stetig zunehmender internationalen Ausrichtung spielen Codes zur Darstellung nationaler oder regionaler Zeichen eine zunehmende Rolle. Soll beispielsweise ein DataWarehouse für ein Unternehmen das auf verschiedenen Märkten tätig ist erstellt werden, müssen Produktbezeichnungen zusammengefasst werden. Dabei muss das entstehende System mit allen lokalen Zeichen umzugehen wissen, was wahrscheinlich nur durch eine Umwandlung in ein allgemein gültiges Format (z. B. Unicode) möglich ist. Probleme bei der Datenspeicherung Probleme bzgl. der Datenqualität entstehen durch die Speichung von Informationen in ungeeigneten Formaten und unterschiedlichen Formaten. Als ungeeignet könnte man die Speicherung von speziellen Daten, für deren Organisation eine Standardisierung existiert, jedoch im konkreten Fall nicht Verwendung findet, bezeichnen. Somit wird eine große Vereinfachung beim Handling und Austausch dieser Daten verschenkt. Als ein Beispiel für unterschiedliche Daten kann ebenso eine Standardisierung herhalten. So ist es durchaus denkbar, dass in zwei unterschiedlichen Datenquellen immer ein Standard zu Speicherung verwendet wird - jedoch jeweils ein anderer. Dieses Phänomen tritt typischerweise dann auf, wenn der offizielle Standardisierungsvorgang eines Fachbereiches sehr lange dauert und sich zwischenzeitlich defacto-standards in der Praxis durchgesetzt haben. Doch selbst die inkonsequente Speicherung von typgleichen Daten innerhalb einer Datenquelle ist denkbar. Probleme bei der Datennutzung Auch beim eigentlichen Zweck der Datensammlungen, ihrer Nutzung, können Probleme auftreten. So nennt (Sattler, 2005) Veränderung der Nutzerbedürfnisse als einen der Gründe. Daten sollten sowohl in ihrer Struktur als auch in ihrem Inhalt erweiterbar sein, soweit dies sinnvoll erscheint. Dennoch kann sich zum Beispiel durch einen Wechsel der Geschäftsausrichtung eine unvorhersehbare Änderung der Anforderungen an die Daten ergeben, die zu Problemen führen kann. Weiter werden unzureichende Analyse- und Verarbeitungsmöglichkeiten aufgezählt. Zuletzt werden die hauptsächlich im Schema zu suchenden Sicherheits- und Zugriffsprobleme genannt. Berechtigungen werden in aller Regel auf Relationenebene vergeben. Sind jedoch einzelne Objektattribute sicherheitskritisch und steht eine Abstraktionstechnologie wie Views nicht zur Verfügung, muss bereits im Schema der Zugriffsschutz durch Objektzerlegung vereinbart werden. Auswirkungen Die Auswirkungen von Datenqualitätsproblemen sind breit gefächert und reichen von peinlich bis exsitenzbedrohend. Auszugsweise für eine Vielzahl von möglichen Beispielen für Auswirkungen mangelnder Datenqualität sollen hier genannt werden: 5

7 Imageverlust gegenüber Kunden durch Rechtschreibfehler in der Anschrift Fehlkalkulationen bei Produktpreisgestaltung durch Nichtbeachtung verschiedener Währungen in den zugrundeliegenden Daten Fehleinschätzung bei Enscheidungen durch falsche Daten Gefahr für Leib und Leben durch unzureichend genaue Messwerte bei Sicherheitsprüfungen im Flugverkehr 2.2 Klassifikationssysteme am Beispiel Rahm und Do Datenqualitätsprobleme lassen sich klassifizieren. Dazu wurden in der Vergangenheit verschiedene Ansätze definiert. In diesem Anschnitt soll am Beispiel von Rahm und Do eine Herangehensweise gegezeigt werden. Klassifikation nach Rahm und Do Rahm und Do ordnen das Auftreten von Fehlern bezüglich der Datenqualität in eine ersten Rahmen der aus der Anzahl der beteiligten Datenquellen besteht. Sie unterschieden nach einzelner Datenquelle und integrierten Datenquellen. Unterhalb der jeweiligen Ebene findet eine erneute Aufteilung in Probleme die auf dem Schema der Quelle beziehungsweise auf deren Ausprägungen bestehen. Abbildung 2.1 zeigt diese Einordnung auszugsweise. Kritisiert wird in dieser Art der Einordnung, dass übergeordnete Eigenschaften von Datenquellen nicht hinreichend darstellbar sind. Dazu zählen beispielsweise die Reputation einer Quelle, deren Vollständigkeit, die Verständlichkeit einer Datenmenge oder die Nutzungskosten (Naumann, 2006). Abbildung 2.1: Ausschnitt aus der Klassifikation nach (Rahm and Do, 2000) 6

8 Kapitel 3 Dimensionen Wie das einführende Beispiel aus Kapitel 1 zeigt, können Datenqualitätsprobleme von verschiedener Komplexität und Herkunft existieren. Auch die Verbindung von unterschiedlichen Dimensionen zu einem zusammengesetzten Problem ist möglich. In diesem Kapitel sollen einige wichtige und häufig auftretende Dimensionen genauer besprochen werden. Dabei wird auch auf die Beseitigung der daraus resultierenden Probleme eingegangen. 3.1 Genauigkeit Die Genauigkeit (Accuracy) beschreibt die Entfernung zwischen einem korrekten Wert λ und seinem gespeicherten Wert λ. Die Genauigkeit läßt sich nach (Scannapieco et al., 2005) in Syntaktische Genauigkeit und Semantische Genauigkeit unterteilen. Syntaktische Genauigkeit Die syntaktische Genauigkeit beschreibt die Kosten, die nötig sind, die gespeicherte Syntax λ in die korrekte Syntax λ zu überführen. Dabei können Kosten für das Einfügen, das Vertauschen oder das Entfernen von Zeichen entstehen. Die Tabelle 1.1 aus dem Einführungsbeispiel enthält in der Zeile mit der ID 3 einen syntaktischen Genauigkeitsfehler. Die Gesamtkosten für die Korrektur sind hier auf die Kosten für das Einfügen eines o s in Roman Hollydays beschränkt. 7

9 Semantische Genauigkeit Als semantische Genauigkeit bezeichnet man die Entfernung von λ zu λ unter der Annahme das λ syntaktisch korrekt ist. Die Tabelle 1.1 liefert auch hierfür ein Beispiel. Die Spalte Regisseur in den Zeilen mit der ID 1 und 2 sind syntaktisch völlig korrekt. Der Fehler besteht darin, dass die Namen der Regisseure in den betroffenen Zeilen vertauscht sind. Das Beispiel illustriert, dass die Aufdeckung von semantischen Genauigkeitsfehlern in der Regel schwieriger ist, als die von syntaktischen. Weiterhin sind die Kosten für die Beseitigung schwerer abzuschätzen. Häufig wird eine zweite vertrauenswürdige Quelle zur Identifikation von Semantikfehlern herangezogen. Doch selbst diese Lösung benötigt die Fähigkeit, zu erkennen, dass es sich bei zwei verschiedenen Objekten in den Quellen um das gleiche Real-Welt-Objekt handelt. Dies wird als object identification problem (auch als record matching oder record linkage) bezeichnet und in Kapitel 5 näher behandelt. 3.2 Vollständigkeit Kategorien von Vollständigkeit Die Vollständigkeit ist ein Maß, welches den aktuellen Füllstand von Objekten auf verschiedenen Ebenen im Bezug auf den maximal möglichen Füllstand anzeigt. Dieser Wert kann zwischen 0 und 1 liegen, wobei 0 die vollständige Leere, 1 die komplette Gefülltheit wiederspiegelt. Die Objekte auf den verschiedenen Ebenen könnten Werte, Tupel, Attribute und Relationen sein. Aus dieser Definition folgt eine Unterteilung von Vollständigkeit nach (Scannapieco et al., 2005) in die Kategorien Wert-Vollständigkeit: repräsentiert Null-Werte in einzelnen Feldern einer Relation, Tupel-Vollständigkeit: repräsentiert Null-Werte innerhalb von Zeilen einer Relation, Attribut-Vollständigkeit: repräsentiert Null-Werte innerhalb von Spalten einer Relation und Relationen-Vollständigkeit: repräsentiert Null-Werte innerhalb der gesamten Relation. ANR Name Vorname -Adresse 1 Ahnung Anton 2 Besserwisser Bea NULL 3 Motzer Maik NULL 4 Stümper Stefan NULL Tabelle 3.1: Auszug aus einer Angestelltenrelation zur Illustration von verschiedenen Bedeutungen von NULL-Werten in Anlehnung an (Scannapieco et al., 2005) Für die Relation in Tabelle 3.1 lassen sich für die Vollständigkeitskategorien die folgenden Werte bestimmen: 8

10 Tupel-Vollständigkeit: für den Angestellten mit der ANR 1 ist die Vollständigkeit 1, für die anderen jeweils 3 4, da immer die -Adresse den Wert Null aufweist. Attribut-Vollständigkeit: für die Attribute ANR, Name und Vorname liegt die Vollständigkeit bei 1, die der -Adresse bei nur 1 4. Relationen-Vollständigkeit: für die gesamte Relation ergibt sich eine Vollständigkeit von 4 Tupel 4 Attribute 3 Null-Werte = Unterschiedliche Bedeutung von Null-Werten Aus dem Angestelltenbeispiel in Tabelle 3.1 geht neben den Messwerten der Vollständigkeiten auch eine zweite Problematik hervor. Null-Werte können unterschiedliche Bedeutungen transportieren: nicht existent: bedeutet, dass bekannt ist, dass ein Wert nicht existiert (Beispiel: die Person, die zur Pflege der Angestelltenrelation bemüht wurde, weiß, dass die -Adresse des Angestellten mit der ANR 2 nicht existiert). existent und unbekannt: bedeutet, dass bekannt ist, dass ein Wert existiert, dieser selbst jedoch unbekannt ist (Beispiel: es existiert eine E- Mail-Adresse für den Angestellten mit der ANR 3; diese ist jedoch unbekannt). Existenz unbekannt: bedeutet, dass nicht bekannt ist, ob ein Wert existiert (Beispiel: Es ist nicht bekannt, ob eine -Adresse zum Angestellten mit der ANR 4 existiert). 3.3 Weitere Dimensionen Daten haben weit mehr Dimensionen. Einige weitere sind: Konsistenz: Ein Wert, der die Verstöße gegen Integritäts-Regeln misst. In modernen Datenbanksystemen wird die Einhaltung von Integritätsregeln mithilfe von Constraints sichergestellt. Um auch in Altsystemen oder in Quellen ohne Verwaltungsschicht (z. B. Text-Dateien) Konsistenz zu gewährleisten, bieten sich Anwendungen zur Bearbeitung der Quellen an, die diese Regel-Logik modellieren und überwachen können. Weiterhin bieten moderne Cleaning-Tools die Möglichkeit, Konsistenz-Regeln anzulegen und automatisch zu überprüfen (vgl. Kapitel 5). Zeit: Der zeitliche Aspekt von Datenqualität läßt sich laut (Scannapieco et al., 2005) dreiteilen: a) Zeitnähe (currency) beschreibt die Häufigkeit der Datenaktualisierung, b) Aktualität (timeliness) bestimmt den Wert der Daten in direktem Bezug auf eine jetzt zu erledigende Aufgabe und c) Flüchtigkeit (volatility) nennt die Dauer, für welche ein Datum seinen 9

11 Wert behält. Ein Geburtsdatum einer Person hat die Flüchtigkeit 0, ein Aktienkurz hingegen eine sehr hohe Flüchtigkeit nahe 1. Kosten Glaubwürdigkeit Verfügbarkeit Relevanz 10

12 Kapitel 4 Programme 4.1 Grundlagen Eines haben alle Datenqualitätsprobleme (dirty data) gemeinsam - sie sollten aufgespürt und beseitig werden. Dazu bieten Softwarehäuser und Hochschulen kostenpflichtige wie unentgeldlich nutzbare Programme an. Das Ziel aller ist es, Daten von eingeschränkter Qualität in hochwertigere, vollständigere oder integere Zustände zu überführen. Dabei ist die spätere Verwendung der Daten (DataWarehouse, Web-Integration) diesem Ziel untergeordnet, wenngleich die Wahl eines geeigneten Tools zur Unterstützung dieser Aufbereitunsprozesse von großer Wichtigkeit ist. Mit (Barateiro and Galhardas, 2005) existiert eine umfangreiche Analyse und Ausarbeitung zu 37 verschiedenen Tools. Es ist jedoch darauf hinzuweisen, dass für die Existenz oder Funktionalität der in diesem gut zwei Jahre alten Artikel genannten Programme keine Notwendigkeit mehr besteht, weil sie, wie alle anderen Produkte der Softwareindustrie, auch einem beständigen Wandel unterliegen. Grundsätzlich bezeichnet man die Beseitigung von dirty data als data cleaning (auch data scubbing). Je nach Zielsystem können jedoch weitere Unterteilungen sinnvoll sein. Bei einem Ein-Quellen-System zum Beispiel sind häufig Integritätsprobleme, fehlende Werte oder doppelte Tupel vorhanden, während bei der Erstellung eines DataWarehouses der wichtigste Schritt der ETL-Prozess (Extraction - Transform - Load) ist. So unterschiedlich wie die zu erreichenden Ziele sind, können auch die Anforderungen an das Tool sein, das den entsprechenden Prozess unterstützen muss. Dazu werden im nächsten Absatz diese Anforderungen näher erläutert. 4.2 Anforderungen Da die Tools das Erreichen unterschiedlicher Ziele unterstützen sollen, stellen sich auch unterschiedliche Grundanforderungen. Die folgende Auflistung ent- 11

13 stammt der Arbeit von (Barateiro and Galhardas, 2005). In Ermangelung von deutschen Übersetzungen für einige Begriffe, werden alle in ihrer englischsprachigen Bezeichnung eingeführt. Data sources Es existiert eine Vielzahl von denkbaren Quellen, mit denen ein Programm umzugehen wissen sollte. Einige dieser Quellen sind Datenbanken, Textdateien oder XML-Files, aber auch internetbasierte Quellen (z. B. RSS- Feeds, Webservices) oder propritäre Formate. Extraction capabilities Die Extraktion von Daten aus Quellen sollte drei Funkionalitäten unterstützen: Extraktion nach Zeit, Intervall oder Ereignis Regeln zur Erhöhung der Selektivität Unterstützung mehrerer Quellen bei gleichzeitigem merge ihrer Inhalte Loading capabilities An die Einarbeitung von Daten in das Zielsystem sind ebenso Anforderungen formuliert: Daten sollten in unterschiedliche Typen von Zielsystemen eingefügt werden können Daten sollten in unterschiedliche Typen von Zielsystemen parallel eingefügt werden können die einzufügenden Daten sollten eventuell bereits vorhandene ersetzen oder ergänzen können dabei sollten automatisch benötigte Relationen erstellt werden Incremental updates Die Fähigkeit inkrementelle Updates durchzuführen kann zu enormen Zeiteinsparungen führen. Man unterscheidet zwischen den beiden Möglichkeiten: bereits beim Extraktionsprozess nur veränderte und neu hinzugekommene Daten zu extrahieren und in das Zielsystem einzuspielen eine vollständige Extraktion durchzuführen und bei der Einspielung der Werte in das Zielsysteme jene zu verwerfen, die bereits vorhanden sind Wird das inkrementelle Update nicht unterstützt, ist die einzige Alternative die Daten vollständig neu einzuspielen. Ist eine häufige Aktualisierung des Zielsystems vorgesehen, sollte bei der Entscheidung für ein bestimmtes Tool diese Funktionalität berücksichtigt werden. 12

14 Interface Nahezu alle, der von (Barateiro and Galhardas, 2005) untersuchten Programme, verfügen über eine grafische Benutzerschnittstelle (GUI - graphical user interface). Diese ermöglicht, die komfortable Bedienung einerseits und unterstützt den Anwender bei der Modellierung von Cleaning programs, die sich in der Regel als Prozesse darstellen, mit point-and-click -Funktionalität. Puristen hingegen werden auch die kommandozeilenartige Bedienung von einigen Programmen zu schätzen wissen. Metadata repository Metadaten-Repositories speichern intern für die Programmausführung Informationen ab und liefern mithilfe derer die Grundlage für Schema- oder Mapping-Operationen. Diese Informationen sind bei großen Integrationsprojekten mit mit mehreren Quellsystemen unabdingbar. Performance techniques Für große Systeme ist die Unterstützung von performancesteigernden Techniken wie load balancing, Parallelausführung oder Partitionierung von Bedeutung. Zum einen können die Maßnahmen den Data- Cleaning-Prozeß beschleunigen und auf der anderen Seite auch das Projekt skalierbarer machen. Versioning Eine Versionsverwaltung bietet Entwicklern die Möglichkeit, die modellierten Prozesse zur Datenbearbeitung langfristig zu speichern, um so bei Bedarf auf ältere Versionen zurückgreifen zu können oder auch paralleles Arbeiten an umfangreichen Prozessen zu ermöglichen. Function library Eine Funkionsbibliothek bietet alle möglichen vom Software-Hersteller bereitgestellten Funktionen, die zur Manipulation und Verwaltung der Nutzdaten notwendig sind. Die Qualität und der Umfang der Bibliothek, und damit die dem Anwender direkt zur Verfügung stehenden Möglichkeiten, sollten ein wichtiger Aspekt bei der Auswahl jedes Tools sein. Wünschenswert ist ebenso die Erweiterbarkeit der Standardbibliothek durch den Nutzer (Entwickler). Language binding Die Erweiterung der mitgelieferten Funktionalität durch Anwender der Software ist wünschenswert. Besonders vorteilhaft kann sich hierbei die Möglichkeit herausstellen, diese Neuerungen in populären Sprachen (zum Beipiel C, Perl o. ä.) formulieren zu können. So entfällt der Aufwand des Erlernens einer propritären Sprache des Software-Herstellers. Debugging/tracing Die rasche Abarbeitung der Cleaning-Prozesse im Echt- Betrieb der Anwendung ist ein langfristiges Ziel. Während der Einführungs- bzw. Entwicklungszeit aber auch später zu Kontrollzwecken ist es fast unumgänglich, um detailierte Daten des Prozesses zu analysieren. Dazu zählen wertvolle Informationen wie die Ausführungsdauer (pro Datensatz, absolut) aber natürlich auch die Phasen der Veränderung der Nutzdaten (welche Werte gehen rein, 13

15 welche kommen (wie) raus?). Die Minimalanforderung ist hier ein detailiertes Log-File. Komfortabler läßt es sich jedoch mit einer grafischen Aufbereitung der Prozessergebnisse arbeiten. Die Ausnahmebehandlung unterteilt zwei Möglichkei- Exception handling ten: Reporting im Fehlerfall in eine Log-Datei oder Tabelle Bearbeitung der betroffenen Sätze mit Hilfe von Ausnahme-Regel (zum Beipiel löschen) Eine der dargestellten Varianten sollte ein Datenqualitäts-Tool mitbringen, idealerweise wird beides unterstützt und dem Anwender die Entscheidung überlassen. Data lineage Häufig einstehen durch die Zusammenführung von unterschiedlichen Quellen nicht nur Datensammlung, die prinzipiell neue Tupel enthalten (aus horizontaler Sicht), sondern vorhandene Daten werden durch bestimmte Attribute angereichert (vertikale Sicht). Um auch noch nach der Zusammenführung von Attributeigenschaften erkennen zu können, welche Teile aus welcher Quelle stammen, ist es sinnvoll die Datenherkunft zu sichern. Die Aufbewahrung dieser Informationen erlaubt die Bewertung der einzelnen Quellen. 4.3 Klassifikation Die Erhöhung der Datenqualtität in Sammlungen bedeutet konkrete Ziele zu verfolgen. Programme können durch Funktionalität den Weg zu diesen Zielen ebnen und lassen sich nach (Barateiro and Galhardas, 2005) diesen zugeordnen. Hinweis: Zu jeder Kategorie werden mehrere Beispiele genannt. Das jeweils letzte ist ein Vertreter aus der Kategorie Programme für Forschungszwecke, die restlichen Programme sind kommerziellen Ursprungs. Data analysis Unter dem Begriff der Daten-Analyse bezeichnet man alle Aktivitäten (zum Beispiel DataMining oder statistische Bewertung) mit dem Ziel Muster und Regeln zu erkennen, die sicherstellen, dass die Daten nicht im Konflikt zu ihrer gewollten Verwendung stehen. Programme die den Nutzer bei der Daten-Analyse unterstützen, sind auszugsweise der Migration Architect und Potter s Wheel. Data profiling Als Daten-Profiling bezeichnet man Analysen mit dem Ziel Datenqualtitätsprobleme aufzudecken. So entstehen Protokolle, in denen die in einer Datenmenge vorhandenen Probleme aufgelistet, ggf. nach verschiedenen 14

16 Kriterien (Priorität, Kontext) sortiert sind. Tools, die als Daten-Profiler arbeiten, sind unter anderem dfpower, Trillium und Ken State University Tool. Data transformation Programme aus der Kategorie Daten-Transformation benötigen ein Meta-Repository in dem Angaben über das Schema gespeichert sind (z. B. data schema, data mapping). Mithilfe dieser Informationen sind O- perationen wie Schema/data translation, Filterung und Aggregation möglich. Programme dieser Kategorie sind unter anderem Data Integration, SQL-Server 2005 und FraQL. Data cleaning Data cleaning umfasst alle nötigen Aktivitäten um dirty data (schmutzige Daten: inkorrekt, nicht aktuell, redundant,...) zu säubern. In der Vergangenheit musste diese Arbeit durch (erneut fehlerträchtige) manuelle Aktivitäten durchgeführt werden. Heute unterstützen unter anderem die Programme DataBlade, ETLQ und Ajax diese Arbeit durch die Bereitstellung von Regeln, Funktionen und Referenzwerten. Duplication elemination Duplikate aufzusprüren und in ein Abbild eines Real-Welt-Objekts zu überführen, ist ein zeitintensiver Prozess, der in die folgenden Phasen zerlegt werden kann: Formatdiskrepanzen vereinheitlichen, Abkürzungen und Zahlencodes vereinheitlichen, die Regeln exakt oder annährend auf den Daten auszuführen und schließlich die doppelten Einträge zu vereinen. Programme aus dieser Klasse sind unter anderem DoubleTake, Identity Search Server und IntelliClean. Data enrichment Datenanreicherung (auch data enhancement) bezeichnet den Prozess, der vorhandene Daten mit Daten anderer Quellen (auch zeitweise) erweitert. Typische Anreicherungswerte sind demographische oder Adressinformationen. Programme dieser Kategorie sind unter anderem DataStage, FirstLogic oder Ajax. 15

17 Kapitel 5 Duplikatbehandlung mit IntelliClean Das letzte Kapitel beschreibt die Erkennung und Beseitigung von Duplikaten unter Verwendung des Programms IntelliClean (Lup, 2000). Zunächst werden benötigte spezielle Voraussetzungen besprochen, anschließend wird praxisnah die Arbeit von IntelliClean beschrieben. Die hierbei gemachten Ausführungen, beruhen auf einer Ausarbeitung von (Julius and Lohmann, 2004). IntelliClean liegt ein sogenanntes knowlegde-based Framework zugrunde. Ein knowledge-based Framework ist ein Programmteil, der auf einem Expertensystem beruht. Dieses Expertensystem ist ein Entscheidungsapparat, dessen Wurzeln im Bereich der Künstlichen Intelligenz zu suchen sind. Es verarbeitet eingegebene Regeln, sogenanntes domänen-spezifisches Wissen. Programme, die domänen-spezifisches Wissen verarbeiten können, stehen solchen Ansätzen gegenüber, die versuchen, ohne (die unter Umständen sehr zeitaufwendige) Eingabe von Expertenwissen Datenbestände zu reinigen. Auf diese Art von Programmen bzw. die dahinter stehenden Algorithmen wird an dieser Stelle nicht weiter eingegangen. 5.1 Messgrößen Ziel eines jeden Reinigungsalgorithmus ist es, die Qualität und damit den Wert der Daten zu erhöhen. Um den Erfolg eines DataCleanings messen zu können, werden häufig drei Werte betrachtet: Recall Positive-False-Errors Precision 16

18 Recall Als Recall bezeichnet man das Verhältnis von zurecht gefundenen Duplikaten im Verhältnis zu der Anzahl tatsächlich existierender Duplikate: Anzahl korrekt identifizierter Duplikate 100% (5.1) Anzahl tatsächlich existierender Duplikate Die Anzahl der tatsächlich existierenden Duplikate wird manuell ermittelt. Positive-False-Error Der Prozentsatz von falsch als Duplikate identifizierten Tupeln wird als Positive-False-Error bezeichnet. Anzahl falsch identifizierter Duplikate Anzahl aller identifizierter Duplikate 100% (5.2) Precision Als Precision schließlich bezeichnet man die Differenz zwischen dem fehlerfreien Aufspüren aller Duplikate und den tatsächlich gefundenen. 100% False-Positive-Error (5.3) Ein Algorithmus mit einem hohem Präzisionswert ist ebenso wünschenswert wie die Reinigung möglichst aller Duplikate (hoher Recall-Wert). Beispiel 1 Die eingeführten Größen sollen anhand eines Beispiels illustriert werden: Gegeben sei eine Datenbank mit den Tupeln {A 1, A 2, A 3, A 4, B 1, B 2, C 1 }, wobei gleiche Buchstaben mit unterschiedlichem Index Duplikate sind. Identifiziert ein Algorithmus α die Tupelmenge {A 1, A 4, C 1 } und {B 1, B 2 } jeweils als Duplikate, ergeben sich für die oben eingeführten Größen die folgenden Werte: Der Recall liegt bei 4 6 = 66.67%, da von den als Duplikate identifizierten Tupeln vier richtig sind {A 1, A 4 } und {B 1, B 2 } und sechs ingesamt zu identifizieren gewesen wären (nämlich {A 1, A 2, A 3, A 4, B 1, B 2 }). Der Positive-False-Error liegt bei 1 5 = 20%, da nur das Tupel C 1 fälschlicherweise als Duplikat identifizert wurden ist und fünf Tupel überhaupt als Duplikate gefunden wurden {A 1, A 4, C 1 } und {B 1, B 2 }. Somit ergibt sich eine Precision von 100% 20% = 80%. Beispiel 2 Betrachtet wird ein weiteres Beispiel bei dem die folgenden Tupel in einer Datenbank vorhanden sind {A 1,...A 100, B 1 }. Wie im Beispiel 1 bedeuten gleiche Buchstaben mit unterschiedlichem Index Duplikate. Unter der Annahme der Algorithmus würde die Tupel {A 1,...A 50, B 1 } als Duplikate identifizieren, berechnen sich die oben eingeführten Werte wie folgt: Der Recall-Wert liegt bei = 50%. Der Positive-False-Error ergibt 1 50 = 2%. 17

19 Und die Präzision des Algorithmus ergibt somit 100% 2% = 98%. Diese auch als Recall-Precision-Dilemma bezeichnete entgegengesetzte Abhängigkeit der Werte für Recall und Präzision entsteht rechnerisch unter bestimmten Bedingungen. Wie das Beispiel 2 zeigt, reicht es nicht aus eine hohe Präzision im Algorithmus zu erreichen. Denn, obwohl fast alle der identifizerten Tupel tatsächlich Duplikate waren, sind absolut betrachtet nur die Hälfte der vorhandenen Probleme bereinigt wurden. 5.2 Durchführungsphasen Ein Cleaning-Prozess mit IntelliClean teilt sich in drei Phasen: Pre-Processing Processing Post-Processing In jeder Phase werden die Daten von unterschiedlichen Sichtpunkten betrachtet und bearbeitet. Dabei unterscheiden sich auch die verwendeten Hilfsmittel. Phase 1: Pre-Processing In der ersten Phase der Datenreinigung mit IntelliClean werden die Tupel standardisiert. Das bedeutet, dass zum Beispiel Abkürzungen und Genauigkeiten vereinheitlicht oder zeitliche Werte in das gleiche Format gebracht werden. In dieser Phase kann das domänen-spezifische Wissen besonders von Vorteil sein, denn innerhalb einer Domäne kommt häufig spezielles Vokabular zum Einsatz, das bei der Vereinheitlichung von Abkürzungen helfen kann oder Rechtschreibfehler mit Hilfe von Lookup-Tabellen korrigiert. Phase 2: Processing Auch die Ergebnisse der zweiten Phase sind bei der Arbeit mit IntelliClean stark vom hinterlegten Expertenwissen abhängig. Hier beruht die Entscheidung, ob zwei Tupel Duplikate voneinander sind oder nicht, auf einem regelbasiertem Expertensystem. Diese Regeln werden von Fachleuten erstellt und gepflegt. Eine Regel besteht zunächst aus einer Prämisse und einer Konklusion. Nur wenn die Prämisse erfüllt ist, wird die Regel greifen und den Inhalt der Konklusion ausführen. IntelliClean untescheidet vier Arten von Regeln: Duplikat-Identifikation: In dieser Regelart wird eine Voraussetzung genannt, unter der zwei Tupel Duplikate sind. Diese Art von Regeln kann zusätzlich mit einem Sicherheitsfaktor certainty facor, (kurz: cf) ergänzt 18

20 werden, der Auskunft darüber gibt, mit welcher Sicherheit diese Regel als korrekt anzusehen ist. Der cf kann zwischen 0 und 1 liegen. Vereinigung: Wenn durch eine Duplikat-Identifikation zwei Tupel gefunden wurden, die das gleiche Real-Welt-Objekt abbilden, entscheidet eine Vereinigungsregel, wie die Entfernung eines Duplikats vollzogen werden muss. Beispielsweise könnte das Tupel mit den meisten Null-Werten entfernt werden. Oder es wird eine Vereinigung aller Felder durchgeführt und im Konfliktfall immer das erste Tupel bevorzugt. Aktualisierung: Während des DataCleaning-Prozesses trifft der Algorithmus nicht nur auf Duplikate, die bearbeitet werden sollen. Denkbar ist zum Beispiel, dass fehlende Werte eines einzelnen Objektes mit bestimmten Default-Werten zu aktualisieren sind. Diese Tätigkeit kann über eine Update-Regel durchgeführt werden. Benachrichtigung: Schließlich kann das Tool während seiner Cleaning- Tätigkeit auch auf Fälle stoßen, die eine Benutzerinteraktion erfordern. Ein Beispiel wäre ein einzelnes Tupel (ohne Duplikate) in einer Führerscheindatenbank, in dem das Feld für Geburtstag nicht gefüllt ist. Es kann kein richtiger Wert erschaffen werden. Hier ist ohne Alternative (zum Beispiel hinzuziehen einer externen Personendatenbank) kein automatisches Beheben des Fehlers möglich. Der Algorithmus wird dieses Vorkommen in einem Log-File speichern und zur späteren manuellen Abarbeitung vorlegen. Phase 3: Post-Processing In der letzten Phase des Cleaning-Prozesses mit dem Programm IntelliClean muss der Prozess-Verantwortliche die Log-Files der Regelanwendung überprüfen und ggf. reagieren. Sollten keine automatisch ausgeführten Vereinigungsregeln zum Einsatz gekommen sein, muss jetzt die Duplikate-Entfernung manuell vorgenommen werden. Alle vom Progamm durchgeführten Schritte sind hier validierbar und - dank der domänen-spezifischen Regeldefinition - nachvollziehbar. Sollten Regelanwendungen nicht dem gewünschten Ergebnis entsprechen, kann ihre Aktion auch nachträglich zurückgezogen werden. 19

Datenqualität: allgemeiner Überblick Waldemar Braun. Seminar Datenqualität OvGU Magdeburg 03.12.2009

Datenqualität: allgemeiner Überblick Waldemar Braun. Seminar Datenqualität OvGU Magdeburg 03.12.2009 Datenqualität: allgemeiner Überblick Waldemar Braun Seminar Datenqualität OvGU Magdeburg Gliederung 1. Einleitung 2. Motivation 3. Definition 4. DQ-Probleme 5. DQ-Dimensionen 6. DQ-Modelle 7. Messen der

Mehr

Motivation: Datenqualitätsprobleme in der Praxis (1/2) Mars Climate Orbiter. Chinesische Botschaft in Belgrad

Motivation: Datenqualitätsprobleme in der Praxis (1/2) Mars Climate Orbiter. Chinesische Botschaft in Belgrad Datenqualität mit dem DataFlux dfpower Studio 8.1 Tobias Jansen Zaferna-Hütte, 4. Januar 2009 Motivation: Datenqualitätsprobleme in der Praxis (1/2) Mars Climate Orbiter Nasa Marssonde Mars Climate Orbiter

Mehr

Frühjahrsemester 2013. CS243 Datenbanken Kapitel 4: Datenqualität* H. Schuldt. Datenqualität

Frühjahrsemester 2013. CS243 Datenbanken Kapitel 4: Datenqualität* H. Schuldt. Datenqualität Frühjahrsemester 2013 CS243 Datenbanken Kapitel 4: Datenqualität* H. Schuldt * Folien basieren zum Teil auf Unterlagen von Dr. Diego Milano Datenqualität Datenqualität (DQ) beschreibt allgemein die (anwendungsspezifische)

Mehr

Quality Point München Datenqualität

Quality Point München Datenqualität Quality Point München Datenqualität Paul, wie ist denn Eure Datenqualität? Nachdem ich bei der letzten Gehaltszahlung mit Frau... angeredet wurde, bin ich mir nicht mehr so sicher. Autor: W. Ulbrich IT&More

Mehr

Datenqualität in medizinisch-betriebswirtschaftlichen Informationssystemen MedConf 2013

Datenqualität in medizinisch-betriebswirtschaftlichen Informationssystemen MedConf 2013 Datenqualität in medizinisch-betriebswirtschaftlichen Informationssystemen MedConf 2013 Endler Gregor, Warum Datenqualität? 2002, USA: 600.000.000 $ Y2k weltweit: 1.500.000.000 $ Kosten 44.000 98.000 Todesfälle

Mehr

Data Warehouse Definition (1) http://de.wikipedia.org/wiki/data-warehouse

Data Warehouse Definition (1) http://de.wikipedia.org/wiki/data-warehouse Data Warehouse Definition (1) http://de.wikipedia.org/wiki/data-warehouse Ein Data-Warehouse bzw. Datenlager ist eine zentrale Datensammlung (meist eine Datenbank), deren Inhalt sich aus Daten unterschiedlicher

Mehr

Das Listen Abgleich Interface wird einfach über Doppelklick auf die Datei Listen-Abgleich-Interface.accde gestartet.

Das Listen Abgleich Interface wird einfach über Doppelklick auf die Datei Listen-Abgleich-Interface.accde gestartet. Anleitung Listen Abgleich Interface Was macht das Listen Abgleich Interface? Das Listen Abgleich Interface importiert und gleicht Excel Listen, welche beispielsweise aus Web Kontaktformularen, Adresszukäufen

Mehr

Steuerungsverfahren und ihre Datenstrukturen 02 - Datenmanagement

Steuerungsverfahren und ihre Datenstrukturen 02 - Datenmanagement Steuerungsverfahren und ihre Datenstrukturen 02 - Datenmanagement 1 Übersicht - Datenmanagement 1 Übersicht - Datenmanagement...1 2 Übersicht: Datenbanken - Datawarehouse...2 3 Übersicht: Data Mining...11

Mehr

6 InfoCubes erstellen und konfigurieren

6 InfoCubes erstellen und konfigurieren InfoCubes bilden die Reportingschicht in der LSA; sie sind für die Performance des Reportings entscheidend. In diesem Kapitel stellen wir Ihnen vor, welche InfoCubes es gibt und wie Sie damit arbeiten.

Mehr

Ontologiebasierte domänenspezifische Datenbereinigung in Data Warehouse Systemen

Ontologiebasierte domänenspezifische Datenbereinigung in Data Warehouse Systemen Ontologiebasierte domänenspezifische Datenbereinigung in Data Warehouse Systemen Stefan Brüggemann Institut OFFIS, 26121 Oldenburg, Germany, email: brueggemann@offis.de, WWW home page: http://www.offis.de

Mehr

7 Die Reorganisation von DB2

7 Die Reorganisation von DB2 Ab und an sollte eine Tabelle reorganisiert werden. Besonders, nachdem größere Datenmengen eingefügt oder gelöscht wurden, muß über eine Reorganisation nachgedacht werden. Eine optimale Performance ist

Mehr

Integration Services - Dienstarchitektur

Integration Services - Dienstarchitektur Integration Services - Dienstarchitektur Integration Services - Dienstarchitektur Dieser Artikel solle dabei unterstützen, Integration Services in Microsoft SQL Server be sser zu verstehen und damit die

Mehr

Typo3 - Inhalte. 1. Gestaltung des Inhaltsbereichs. 2. Seitenunterteilung einfügen

Typo3 - Inhalte. 1. Gestaltung des Inhaltsbereichs. 2. Seitenunterteilung einfügen Typo3 - Inhalte 1. Gestaltung des Inhaltsbereichs Das Layout der neuen TVA Website sieht neben dem grafischen Rahmen und den Navigations-Elementen oben und links einen grossen Inhaltsbereich (graue Fläche)

Mehr

Oracle 10g und SQL Server 2005 ein Vergleich. Thomas Wächtler 39221

Oracle 10g und SQL Server 2005 ein Vergleich. Thomas Wächtler 39221 Oracle 10g und SQL Server 2005 ein Vergleich Thomas Wächtler 39221 Inhalt 1. Einführung 2. Architektur SQL Server 2005 1. SQLOS 2. Relational Engine 3. Protocol Layer 3. Services 1. Replication 2. Reporting

Mehr

Vergleich von Open-Source und kommerziellen Programmen zur Durchführung eines ETL-Prozesses

Vergleich von Open-Source und kommerziellen Programmen zur Durchführung eines ETL-Prozesses Vergleich von Open-Source und kommerziellen Programmen zur Durchführung eines ETL-Prozesses Exposé zur Diplomarbeit Humboldt-Universität zu Berlin Mathematisch-Naturwissenschaftliche Fakultät II Institut

Mehr

eevolution Business Intelligence Oliver Rzeniecki COMPRA GmbH Programmierer & Datenbankadministrator

eevolution Business Intelligence Oliver Rzeniecki COMPRA GmbH Programmierer & Datenbankadministrator eevolution Business Intelligence Oliver Rzeniecki COMPRA GmbH Programmierer & Datenbankadministrator Agenda Was ist Business Intelligence? Was ist OLAP? Unterschied zwischen OLAP und OLTP? Bestandteile

Mehr

Carl-Engler-Schule Karlsruhe Datenbank 1 (5)

Carl-Engler-Schule Karlsruhe Datenbank 1 (5) Carl-Engler-Schule Karlsruhe Datenbank 1 (5) Informationen zur Datenbank 1. Definition 1.1 Datenbank-Basis Eine Datenbank-Basis ist eine Sammlung von Informationen über Objekte (z.b Musikstücke, Einwohner,

Mehr

Uni Duisburg-Essen Fachgebiet Informationssysteme Prof. Dr. N. Fuhr

Uni Duisburg-Essen Fachgebiet Informationssysteme Prof. Dr. N. Fuhr Raum: LF 230 Bearbeitung: 9.-11. Mai 2005 Datum Gruppe Vorbereitung Präsenz Aktuelle Informationen unter: http://www.is.informatik.uni-duisburg.de/courses/dbp_ss03/ Tabellen in IBM DB2 Tabellen Eine relationale

Mehr

Effizientes Änderungsmanagement in Outsourcing- Projekten

Effizientes Änderungsmanagement in Outsourcing- Projekten Effizientes Änderungsmanagement in Outsourcing- Projekten Dr. Henning Sternkicker Rational Software IBM Deutschland GmbH Sittarder Straße 31 52078 Aachen henning.sternkicker@de.ibm.com Abstract: Es werden

Mehr

A) Durchsuchen von Datenbanken im Internet durch Endnote

A) Durchsuchen von Datenbanken im Internet durch Endnote EINLEITUNG/ANWEISUNGEN ZU DIESEM TEXT Wir werden die obere Liste (File/ Edit usw.) benutzen, obwohl die meisten Funktionen auch möglich mit rechtem Mausklick, mit Kombinationen der Tastatur oder mit den

Mehr

7.4 Analyse anhand der SQL-Trace. 7.3.5 Vorabanalyse mit dem Code Inspector

7.4 Analyse anhand der SQL-Trace. 7.3.5 Vorabanalyse mit dem Code Inspector 7.4 Analyse anhand der SQL-Trace 337 7.3.5 Vorabanalyse mit dem Code Inspector Der Code Inspector (SCI) wurde in den vorangegangenen Kapiteln immer wieder erwähnt. Er stellt ein paar nützliche Prüfungen

Mehr

Data Lineage goes Traceability - oder was Requirements Engineering von Business Intelligence lernen kann

Data Lineage goes Traceability - oder was Requirements Engineering von Business Intelligence lernen kann Data Lineage goes Traceability - oder was Requirements Engineering von Business Intelligence lernen kann Andreas Ditze MID GmbH Kressengartenstraße 10 90402 Nürnberg a.ditze@mid.de Abstract: Data Lineage

Mehr

Präsentation zum Thema XML Datenaustausch und Integration

Präsentation zum Thema XML Datenaustausch und Integration Sebastian Land Präsentation zum Thema XML Datenaustausch und Integration oder Warum eigentlich XML? Gliederung der Präsentation 1. Erläuterung des Themas 2. Anwendungsbeispiel 3. Situation 1: Homogene

Mehr

Relationale Datenbanken Datenbankgrundlagen

Relationale Datenbanken Datenbankgrundlagen Datenbanksystem Ein Datenbanksystem (DBS) 1 ist ein System zur elektronischen Datenverwaltung. Die wesentliche Aufgabe eines DBS ist es, große Datenmengen effizient, widerspruchsfrei und dauerhaft zu speichern

Mehr

Data Quality Management: Abgleich großer, redundanter Datenmengen

Data Quality Management: Abgleich großer, redundanter Datenmengen Data Quality Management: Abgleich großer, redundanter Datenmengen Westendstr. 14 809 München Tel 089-5100 907 Fax 089-5100 9087 E-Mail Datras@Datras.de Redundanz und relationales Datenbankmodell Redundanz:

Mehr

Suche schlecht beschriftete Bilder mit Eigenen Abfragen

Suche schlecht beschriftete Bilder mit Eigenen Abfragen Suche schlecht beschriftete Bilder mit Eigenen Abfragen Ist die Bilderdatenbank über einen längeren Zeitraum in Benutzung, so steigt die Wahrscheinlichkeit für schlecht beschriftete Bilder 1. Insbesondere

Mehr

Data Mining-Modelle und -Algorithmen

Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining ist ein Prozess, bei dem mehrere Komponenten i n- teragieren. Sie greifen auf Datenquellen, um diese zum Training,

Mehr

Integration Services Übersicht

Integration Services Übersicht Integration Services Übersicht Integration Services Übersicht Integration Services stellt umfangreiche integrierte Tasks, Container, Transformationen und Datenadapter für die En t- wicklung von Geschäftsanwendungen

Mehr

1 Einleitung. Betriebswirtschaftlich administrative Systeme

1 Einleitung. Betriebswirtschaftlich administrative Systeme 1 1 Einleitung Data Warehousing hat sich in den letzten Jahren zu einem der zentralen Themen der Informationstechnologie entwickelt. Es wird als strategisches Werkzeug zur Bereitstellung von Informationen

Mehr

Marketing Intelligence Architektur und Konzepte. Josef Kolbitsch Manuela Reinisch

Marketing Intelligence Architektur und Konzepte. Josef Kolbitsch Manuela Reinisch Marketing Intelligence Architektur und Konzepte Josef Kolbitsch Manuela Reinisch Übersicht Mehrstufiges BI-System Architektur eines Data Warehouses Architektur eines Reporting-Systems Benutzerrollen in

Mehr

capaneo MailRefiner TECHNOLOGIEN

capaneo MailRefiner TECHNOLOGIEN capaneo MailRefiner Ihr Weg zum wertvollen E-Mail-Verteiler Effiziente Prüfung und Empfehlungen in Echtzeit Automatisierte Validierung von Adressbeständen Bereitstellung von zusätzlichen Informationen

Mehr

Motivation. Themenblock: Data Preprocessing. Einsatzgebiete für Data Mining I. Modell von Gianotti und Pedreschi

Motivation. Themenblock: Data Preprocessing. Einsatzgebiete für Data Mining I. Modell von Gianotti und Pedreschi Motivation Themenblock: Data Preprocessing We are drowning in information, but starving for knowledge! (John Naisbett) Was genau ist Datenanalyse? Praktikum: Data Warehousing und Data Mining Was ist Data

Mehr

17.2 MS-Access Projekte

17.2 MS-Access Projekte 964 Von MS-Access 2000 zum SQL-Server 17.2 MS-Access Projekte MS-Access-Projekte, die die Dateiendung adp besitzen, werden als Front-End-Anwendung verwendet. Für die Back-End-Seite gibt es mehrere Möglichkeiten.

Mehr

OLAP und Data Warehouses

OLAP und Data Warehouses OLP und Data Warehouses Überblick Monitoring & dministration Externe Quellen Operative Datenbanken Extraktion Transformation Laden Metadaten- Repository Data Warehouse OLP-Server nalyse Query/Reporting

Mehr

eadmin Manual Universitätsstraße 3 56070 Koblenz Deutschland

eadmin Manual Universitätsstraße 3 56070 Koblenz Deutschland DOKUMENT: TYP: ERSTELLT VON: Manual nova ratio AG Universitätsstraße 3 56070 Koblenz Deutschland VERSION: STAND: 9.x 23. September 2015 Inhaltsverzeichnis 1 2 2.1 2.2 2.3 3 3.1 3.2 3.3 4 4.1 4.2 4.3 4.4

Mehr

UI-Testing mit Microsoft Test Manager (MTM) Philip Gossweiler / 2013-04-18

UI-Testing mit Microsoft Test Manager (MTM) Philip Gossweiler / 2013-04-18 UI-Testing mit Microsoft Test Manager (MTM) Philip Gossweiler / 2013-04-18 Software Testing Automatisiert Manuell 100% 70% 1 Überwiegender Teil der Testing Tools fokusiert auf automatisiertes Testen Microsoft

Mehr

Wie Fusion CRM die Datenqualität im Marketingprozess erhöhen kann (Fusion CRM@ec4u)

Wie Fusion CRM die Datenqualität im Marketingprozess erhöhen kann (Fusion CRM@ec4u) Wie Fusion CRM die Datenqualität im Marketingprozess erhöhen kann (Fusion CRM@ec4u) Jeder kennt folgende Sätze aus seinem eigenen Unternehmen: Wieso sind so viele doppelte Einträge im System? Kann man

Mehr

Abstrakt zum Vortrag im Oberseminar. Graphdatenbanken. Gero Kraus HTWK Leipzig 14. Juli 2015

Abstrakt zum Vortrag im Oberseminar. Graphdatenbanken. Gero Kraus HTWK Leipzig 14. Juli 2015 Abstrakt zum Vortrag im Oberseminar Graphdatenbanken Gero Kraus HTWK Leipzig 14. Juli 2015 1 Motivation Zur Darstellung komplexer Beziehungen bzw. Graphen sind sowohl relationale als auch NoSQL-Datenbanken

Mehr

Einführung in die Software-Umgebung

Einführung in die Software-Umgebung Ortsbezogene Anwendungen und Dienste WS2011/2012 Einführung in die Software-Umgebung Die Software-Umgebung Zentrale Postgres-Datenbank mit Geodaten von OpenStreetMap: Deutschland: 13 mio. Datensätze Topologie-Informationen

Mehr

Analysen sind nur so gut wie die Datenbasis

Analysen sind nur so gut wie die Datenbasis Analysen sind nur so gut wie die Datenbasis Datenaufbereitung und Sicherung der Datenqualität durch den kontextbasierten MIOsoft Ansatz. Daten gelten längst als wichtiger Produktionsfaktor in allen Industriebereichen.

Mehr

Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken

Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken Dateiname: ecdl5_01_00_documentation_standard.doc Speicherdatum: 14.02.2005 ECDL 2003 Basic Modul 5 Datenbank - Grundlagen

Mehr

Konzeption eines Master-Data-Management-Systems. Sven Schilling

Konzeption eines Master-Data-Management-Systems. Sven Schilling Konzeption eines Master-Data-Management-Systems Sven Schilling Gliederung Teil I Vorstellung des Unternehmens Thema der Diplomarbeit Teil II Master Data Management Seite 2 Teil I Das Unternehmen Vorstellung

Mehr

Probabilistische Datenbanken

Probabilistische Datenbanken Probabilistische Datenbanken Seminar Intelligente Datenbanken AG Intelligente Datenbanken Prof. Dr. Rainer Manthey 26.04.05 Maarten van Hoek - 1 - Inhaltsverzeichnis 1.0 Einleitung...3 2.0 Modell probabilistischer

Mehr

DATENBANKEN SQL UND SQLITE VON MELANIE SCHLIEBENER

DATENBANKEN SQL UND SQLITE VON MELANIE SCHLIEBENER DATENBANKEN SQL UND SQLITE VON MELANIE SCHLIEBENER INHALTSVERZEICHNIS 1. Datenbanken 2. SQL 1.1 Sinn und Zweck 1.2 Definition 1.3 Modelle 1.4 Relationales Datenbankmodell 2.1 Definition 2.2 Befehle 3.

Mehr

Finaler Testbericht. Finaler Testbericht. 1 Einführung 2. 1.1 Warum Softwaretests?... 2

Finaler Testbericht. Finaler Testbericht. 1 Einführung 2. 1.1 Warum Softwaretests?... 2 Inhaltsverzeichnis 1 Einführung 2 1.1 Warum Softwaretests?.................................... 2 2 Durchgeführte Tests 2 2.1 Test: allgemeine Funktionalität............................... 2 2.1.1 Beschreibung.....................................

Mehr

Daten, die Sie uns geben (Geschäftsbeziehung, Anfragen, Nutzung eine unsere Dienstleistungen)

Daten, die Sie uns geben (Geschäftsbeziehung, Anfragen, Nutzung eine unsere Dienstleistungen) Datenschutzerklärung der Etacs GmbH Die Etacs GmbH wird den Anforderungen des Bundesdatenschutzgesetzes (BDSG) gerecht.personenbezogene Daten, d.h Angaben, mittels derer eine natürliche Person unmittelbar

Mehr

Einführungsveranstaltung: Data Warehouse

Einführungsveranstaltung: Data Warehouse Einführungsveranstaltung: 1 Anwendungsbeispiele Berichtswesen Analyse Planung Forecasting/Prognose Darstellung/Analyse von Zeitreihen Performancevergleiche (z.b. zwischen Organisationseinheiten) Monitoring

Mehr

Grundlagen der Informatik. Prof. Dr. Stefan Enderle NTA Isny

Grundlagen der Informatik. Prof. Dr. Stefan Enderle NTA Isny Grundlagen der Informatik Prof. Dr. Stefan Enderle NTA Isny 2 Datenstrukturen 2.1 Einführung Syntax: Definition einer formalen Grammatik, um Regeln einer formalen Sprache (Programmiersprache) festzulegen.

Mehr

DIE DATEN IM ZENTRUM: SAS DATA MANAGEMENT

DIE DATEN IM ZENTRUM: SAS DATA MANAGEMENT DIE DATEN IM ZENTRUM: SAS DATA RAINER STERNECKER SOLUTIONS ARCHITECT SAS INSTITUTE SOFTWARE GMBH Copyr i g ht 2013, SAS Ins titut e Inc. All rights res er ve d. NEUE WEGE GEHEN SAS DATA GOVERNANCE & QUALITY

Mehr

Datenqualität. Werner Nutt. In Zusammenarbeit mit Simon Razniewski. Freie Universität Bozen

Datenqualität. Werner Nutt. In Zusammenarbeit mit Simon Razniewski. Freie Universität Bozen Datenqualität Werner Nutt In Zusammenarbeit mit Simon Razniewski Freie Universität Bozen Vorstellung Werner Nutt Professor für Informatik and der Freien Univ. Bozen Schwerpunkte in Lehre und Forschung:

Mehr

Informatica Day 2010 Deutschland Best Practice: Data-Consolidation im SAP Umfeld bei Siemens. Frank Hincke, DIMQ, Köln 03/2010

Informatica Day 2010 Deutschland Best Practice: Data-Consolidation im SAP Umfeld bei Siemens. Frank Hincke, DIMQ, Köln 03/2010 Informatica Day 2010 Deutschland Best Practice: Data-Consolidation im Umfeld bei Siemens Frank Hincke, DIMQ, Köln 03/2010 Agenda Vorstellung Sprecher Programm ATLAS im Bereich Siemens Bereich Energie,

Mehr

DB2 SQL, der Systemkatalog & Aktive Datenbanken

DB2 SQL, der Systemkatalog & Aktive Datenbanken DB2 SQL, der Systemkatalog & Aktive Datenbanken Lehr- und Forschungseinheit Datenbanken und Informationssysteme 1 Ziele Auf DB2 Datenbanken zugreifen DB2 Datenbanken benutzen Abfragen ausführen Den Systemkatalog

Mehr

Verschiedene Arten des Datenbankeinsatzes

Verschiedene Arten des Datenbankeinsatzes 1 Beispiele kommerzieller DBMS: Kapitelinhalt Was charakterisiert und unterscheidet verschiedene Einsatzbereiche für. Welche prinzipiell unterschiedlichen Anforderungen ergeben sich für das DBMS bei Ein-

Mehr

tfacet: Hierarchisch-facettierte Exploration semantischer Daten mit Hilfe bekannter Interaktionskonzepte

tfacet: Hierarchisch-facettierte Exploration semantischer Daten mit Hilfe bekannter Interaktionskonzepte IVDW-Workshop 2011, Berlin (6. Oktober) Institut für Visualisierung und Interaktive Systeme tfacet: Hierarchisch-facettierte Exploration semantischer Daten mit Hilfe bekannter Interaktionskonzepte Philipp

Mehr

Skript zum Kurs Literaturverwaltung mit EndNote - Aufbaukurs Literatur in EndNote organisieren und finden

Skript zum Kurs Literaturverwaltung mit EndNote - Aufbaukurs Literatur in EndNote organisieren und finden Skript zum Kurs Literaturverwaltung mit EndNote - Aufbaukurs Literatur in EndNote organisieren und finden Dieses Werk ist lizenziert unter einer Creative Commons Namensnennung - Weitergabe unter gleichen

Mehr

Grundlagen der Verwendung von make

Grundlagen der Verwendung von make Kurzskript zum Thema: Grundlagen der Verwendung von make Stefan Junghans Gregor Gilka 16. November 2012 1 Einleitung In diesem Teilskript sollen die Grundlagen der Verwendung des Programmes make und der

Mehr

David gegen Goliath Excel 2010 in Verbindung mit Datawarehouse und im Vergleich zu Business Objects

David gegen Goliath Excel 2010 in Verbindung mit Datawarehouse und im Vergleich zu Business Objects Thema: David gegen Goliath Excel 2010 in Verbindung mit Datawarehouse und im Vergleich zu Business Objects Autor: Dipl. Wirtsch.-Inf. Torsten Kühn PRAXIS-Consultant PRAXIS EDV- Betriebswirtschaft- und

Mehr

Adress-Reiniger. Office Produkte F E L D S O F T

Adress-Reiniger. Office Produkte F E L D S O F T F E L D S O F T Office Produkte Adress-Reiniger Dubletten - Suche mit dem Adress-Reiniger Mit dem Adress-Reiniger können Sie auf einfachste Weise Ihre in Excel vorliegenden Adressen nach Dubletten durchsuchen.

Mehr

Fundamentals of Software Engineering 1

Fundamentals of Software Engineering 1 Folie a: Name Fundamentals of Software Engineering 1 Grundlagen der Programmentwurfstechnik 1 Sommersemester 2012 Dr.-Ing. Stefan Werner Fakultät für Ingenieurwissenschaften Folie 1 Inhaltsverzeichnis

Mehr

Lösungsvorschlag für das Übungsblatt 1. Aufgabe 1.

Lösungsvorschlag für das Übungsblatt 1. Aufgabe 1. Lösungsvorschlag für das Übungsblatt 1. Aufgabe 1. Zusammengefasst aus Ihren Beiträgen Wie bewerten sie das System ingesamt? Das Watson System verdeutlicht den Fortschritt der Künstlichen Intelligenz Forschung/Computerlinguistik/Informatik

Mehr

Agenda. Portfolioübersicht. Business-Case. Zusammenfassung. Das Ziel. SAP EIM Produktportfolio. Datenreorganisation mit SAP EIM

Agenda. Portfolioübersicht. Business-Case. Zusammenfassung. Das Ziel. SAP EIM Produktportfolio. Datenreorganisation mit SAP EIM Datenreorganisation > Effiziente und performante Stammdatenreorganisation mit SAP Data Services < Simon Hartstein / T-Systems Data Migration Consulting AG / Harmonization & Consolidation Mai 21, 2014 Agenda

Mehr

3. Spezielle ER-Modelle und Tabellenableitung. Transformation von ER-Diagrammen in Relationen

3. Spezielle ER-Modelle und Tabellenableitung. Transformation von ER-Diagrammen in Relationen 3. Spezielle ER-Modelle und Tabellenableitung Spezialfälle von ER-Modellen Grundlage, was sind Relationen Transformation von ER-Diagrammen in Relationen 56 Lesebeispiel Access (Realisierungmodell!) 57

Mehr

whitepaper CLOUD-ENTWICKLUNG: BESTE METHODEN UND SUPPORT-ANWENDUNGEN

whitepaper CLOUD-ENTWICKLUNG: BESTE METHODEN UND SUPPORT-ANWENDUNGEN whitepaper CLOUD-ENTWICKLUNG: BESTE METHODEN UND SUPPORT-ANWENDUNGEN CLOUD-ENTWICKLUNG: BESTE METHODEN 1 Cloud-basierte Lösungen sind auf dem IT-Markt immer weiter verbreitet und werden von immer mehr

Mehr

Mai 2011. Deutsche Übersetzung von Marion Göbel verfaßt mit epsilonwriter

Mai 2011. Deutsche Übersetzung von Marion Göbel verfaßt mit epsilonwriter Aplusix 3 - Installationshandbuch Mai 2011 Deutsche Übersetzung von Marion Göbel verfaßt mit epsilonwriter 1. Arten der Installation Eine Server-Installation wird mit einem Kauf-Code durchgeführt. Ein

Mehr

Data Mining-Projekte

Data Mining-Projekte Data Mining-Projekte Data Mining-Projekte Data Mining stellt normalerweise kein ei nmaliges Projekt dar, welches Erkenntnisse liefert, die dann nur einmal verwendet werden, sondern es soll gewöhnlich ein

Mehr

Dominik Pretzsch TU Chemnitz 2011

Dominik Pretzsch TU Chemnitz 2011 Dominik Pretzsch TU Chemnitz 2011 Wir leben im Informationszeitalter und merken es daran, dass wir uns vor Information nicht mehr retten können. Nicht der überwältigende Nutzen der Information, sondern

Mehr

Einführung in OLAP und Business Analysis. Gunther Popp dc soft GmbH

Einführung in OLAP und Business Analysis. Gunther Popp dc soft GmbH Einführung in OLAP und Business Analysis Gunther Popp dc soft GmbH Überblick Wozu Business Analysis mit OLAP? OLAP Grundlagen Endlich... Technischer Background Microsoft SQL 7 & OLAP Services Folie 2 -

Mehr

Mit Transbase Hypercube Data Warehouse Anwendungen effizient betreiben. Die Hypercube-Technologie

Mit Transbase Hypercube Data Warehouse Anwendungen effizient betreiben. Die Hypercube-Technologie Mit Transbase Hypercube Data Warehouse Anwendungen effizient betreiben Transbase Hypercube ist eine Transbase -Option, die die innovative Hypercube-Technologie für komplexe analytische Anwendungen (OLAP)

Mehr

In die Zeilen würden die Daten einer Adresse geschrieben werden. Das Ganze könnte in etwa folgendermaßen aussehen:

In die Zeilen würden die Daten einer Adresse geschrieben werden. Das Ganze könnte in etwa folgendermaßen aussehen: 1 Einführung in Datenbanksysteme Fast jeder kennt Excel und hat damit in seinem Leben schon einmal gearbeitet. In Excel gibt es Arbeitsblätter, die aus vielen Zellen bestehen, in die man verschiedene Werte

Mehr

Agenda. Einführung MS SQL Server Integration Services (SSIS) Oracle Data Warehouse Builder (OWB) Zusammenfassung Quellen. Einführung SSIS OWB

Agenda. Einführung MS SQL Server Integration Services (SSIS) Oracle Data Warehouse Builder (OWB) Zusammenfassung Quellen. Einführung SSIS OWB Agenda Einführung MS SQL Server Integration Services () Oracle Data Warehouse Builder () Quellen 10.12.2009 Martin Tobies - DQ Tools 2 Agenda Einführung MS SQL Server Integration Services () Oracle Data

Mehr

Business Intelligence und Geovisualisierung in der Gesundheitswirtschaft

Business Intelligence und Geovisualisierung in der Gesundheitswirtschaft Business Intelligence und Geovisualisierung in der Gesundheitswirtschaft Prof. Dr. Anett Mehler-Bicher Fachhochschule Mainz, Fachbereich Wirtschaft Prof. Dr. Klaus Böhm health&media GmbH 2011 health&media

Mehr

ETL in den Zeiten von Big Data

ETL in den Zeiten von Big Data ETL in den Zeiten von Big Data Dr Oliver Adamczak, IBM Analytics 1 1 Review ETL im Datawarehouse 2 Aktuelle Herausforderungen 3 Future of ETL 4 Zusammenfassung 2 2015 IBM Corporation ETL im Datawarehouse

Mehr

System Landscape Optimization. Karl Nagel, Patrick Müller

System Landscape Optimization. Karl Nagel, Patrick Müller System Landscape Optimization Karl Nagel, by CaRD / CaRD PLM 2008 Schritte > Voraussetzung: Prozessharmonisierung und Systemintegration > 1. Erstellung eines neuen Meta-Datenmodells/Vereinbarung der gültigen

Mehr

Themenblock: Erstellung eines Cube

Themenblock: Erstellung eines Cube Themenblock: Erstellung eines Cube Praktikum: Data Warehousing und Data Mining Einführung relationale Datenbanken Problem Verwaltung großer Mengen von Daten Idee Speicherung der Daten in Form von Tabellen

Mehr

Die folgenden Features gelten für alle isquare Spider Versionen:

Die folgenden Features gelten für alle isquare Spider Versionen: isquare Spider Die folgenden s gelten für alle isquare Spider Versionen: webbasiertes Management (Administratoren) Monitoring Sichten aller gefundenen Beiträge eines Forums Statusüberprüfung Informationen

Mehr

Version 1.0 Erstellt am 12.12.2014 Zuletzt geändert am 17.12.2014. Gültig für Release 1.0.0.0

Version 1.0 Erstellt am 12.12.2014 Zuletzt geändert am 17.12.2014. Gültig für Release 1.0.0.0 Version 1.0 Erstellt am 12.12.2014 Zuletzt geändert am 17.12.2014 Gültig für Release 1.0.0.0 Inhalt 1 WebPart Site Informationen 3 1.1 Funktionalität 3 1.2 Bereitstellung und Konfiguration 4 2 WebPart

Mehr

EXZELLENTES MASTERDATENMANAGEMENT. Creactives-TAM. (Technical Attribute Management)

EXZELLENTES MASTERDATENMANAGEMENT. Creactives-TAM. (Technical Attribute Management) EXZELLENTES MASTERDATENMANAGEMENT Creactives-TAM (Technical Attribute Management) Datenqualität durch Stammdatenmanagement Stammdaten sind eine wichtige Grundlage für Unternehmen. Oft können diese, gerade

Mehr

Die Oracle BI Trilogie von Trivadis

Die Oracle BI Trilogie von Trivadis Die Oracle BI Trilogie von Trivadis Teil 2 - Aufbau einer DWH- und BI-Landschaft Zürich, 25. November 2009 Basel Baden Bern Lausanne Zürich Düsseldorf Frankfurt/M. Freiburg i. Br. Hamburg München Stuttgart

Mehr

Webmail. Anleitung für Ihr online E-Mail-Postfach. http://webmail.willytel.de

Webmail. Anleitung für Ihr online E-Mail-Postfach. http://webmail.willytel.de Webmail Anleitung für Ihr online E-Mail-Postfach http://webmail.willytel.de Inhalt: Inhalt:... 2 Übersicht:... 3 Menü:... 4 E-Mail:... 4 Funktionen:... 5 Auf neue Nachrichten überprüfen... 5 Neue Nachricht

Mehr

CVS-Einführung. Sebastian Mancke, mancke@mancke-software.de

CVS-Einführung. Sebastian Mancke, mancke@mancke-software.de CVS-Einführung Sebastian Mancke, mancke@mancke-software.de Grundlagen Motivation und Anforderung Sobald ein Softwaresystem anwächst, ergeben sich Probleme im Umgang mit dem Quell Code. CVS (Concurrent

Mehr

Kapitel 2 Terminologie und Definition

Kapitel 2 Terminologie und Definition Kapitel 2 Terminologie und Definition In zahlreichen Publikationen und Fachzeitschriften tauchen die Begriffe Data Warehouse, Data Warehousing, Data-Warehouse-System, Metadaten, Dimension, multidimensionale

Mehr

Lerox DB/2 Datenbankreferenz in QlikView für IBM System AS/400, iseries i5, System i

Lerox DB/2 Datenbankreferenz in QlikView für IBM System AS/400, iseries i5, System i Lerox DB/2 Datenbankreferenz in QlikView für IBM System AS/400, iseries i5, System i Inhaltsverzeichnis Überblick... 3 Die QlikView Applikation im Kontext... 4 Technische Rahmenbedinungen... 5 Funktionelle

Mehr

VR-NetWorld-Software 4.4 (und folgende Versionen)

VR-NetWorld-Software 4.4 (und folgende Versionen) VR-NetWorld-Software 4.4 (und folgende Versionen) Mit der folgenden Anleitung erhalten Sie eine Beschreibung der wesentlichen SEPA-Funktionen in der VR-NetWorld Software. Insbesondere wird auf die Voraussetzungen

Mehr

1 Welcher Service Operation Prozesse fehlen? Incident Management, Problem

1 Welcher Service Operation Prozesse fehlen? Incident Management, Problem 1 Welcher Service Operation Prozesse fehlen? Incident Management, Problem Management, Access Management a. Event Management b. Service Desk c. Facilities Management d. Change Management e. Request Fulfilment

Mehr

Foundations of uncertain data integration

Foundations of uncertain data integration Foundations of uncertain data integration Seminar Informationsintegration Stephan Barnert IT Management & Consulting 11.09.2015 Agenda Problemstellung Einleitung Beispiel zur Integration Wiederholung LAV

Mehr

SQL structured query language

SQL structured query language Umfangreiche Datenmengen werden üblicherweise in relationalen Datenbank-Systemen (RDBMS) gespeichert Logische Struktur der Datenbank wird mittels Entity/Realtionship-Diagrammen dargestellt structured query

Mehr

SOFiSTiK Online. Anwendungsbeschreibung. Stand 14. April 2010

SOFiSTiK Online. Anwendungsbeschreibung. Stand 14. April 2010 Anwendungsbeschreibung Stand 14. April 2010 SOFiSTiK AG 2008 Inhaltsverzeichnis 1 Möglichkeiten und Ziele... 1 2 User-Administrator... 2 3 Anmeldung... 2 4 Meine Daten... 3 5 Ticket Tracker... 4 6 Support/Sales

Mehr

SAP HANA ist schnell erklärt. TOBA Trainerwochenende vom 09. - 12. Mai 2013 in Prag

SAP HANA ist schnell erklärt. TOBA Trainerwochenende vom 09. - 12. Mai 2013 in Prag SAP HANA ist schnell erklärt TOBA Trainerwochenende vom 09. - 12. Mai 2013 in Prag Ihr Referent Steckbrief Name: Miroslav Antolovic Jahrgang: 1975 Stationen: SAP, Walldorf 1999-2004 Realtech, Walldorf

Mehr

Data Mining und der MS SQL Server

Data Mining und der MS SQL Server Data Mining und der MS SQL Server Data Mining und der MS SQL Server Data Mining ist der Prozess der Ermittlung aussagefähiger I n- formationen aus großen Datensätzen. Data Mining nutzt die m a- thematische

Mehr

SQL-DDL und SQL-Anfragen. CREATE TABLE Kategorie (Bezeichnung VARCHAR(15) NOT NULL PRIMARY KEY, Klassifikationskriterium VARCHAR(100) NOT NULL )

SQL-DDL und SQL-Anfragen. CREATE TABLE Kategorie (Bezeichnung VARCHAR(15) NOT NULL PRIMARY KEY, Klassifikationskriterium VARCHAR(100) NOT NULL ) Technische Universität München WS 2003/04, Fakultät für Informatik Datenbanksysteme I Prof. R. Bayer, Ph.D. Lösungsblatt 6 Dipl.-Inform. Michael Bauer Dr. Gabi Höfling 1.12.2003 SQL-DDL und SQL-Anfragen

Mehr

Nutzer verwenden außerbibliothekarische Recherchesysteme zur Vorbereitung von Literatursuchen in Bibliotheksangeboten (Akselbo et al. 2006, S.

Nutzer verwenden außerbibliothekarische Recherchesysteme zur Vorbereitung von Literatursuchen in Bibliotheksangeboten (Akselbo et al. 2006, S. VuFind seit 2007 Produktiver Betrieb und Entwicklung seit 2008: Suchkiste für DFG Nationallizenzen: http://finden.nationallizenzen.de/ Ergebnis aus positiven Erfahrungen: GBV Discovery Index: Solr Index

Mehr

Unternehmensweites DQ Controlling auf Basis von BI-Werkzeugen. Doreen Hartung, TIQ Solutions GmbH 6. GIQMC, Bad Soden, 26.-28.

Unternehmensweites DQ Controlling auf Basis von BI-Werkzeugen. Doreen Hartung, TIQ Solutions GmbH 6. GIQMC, Bad Soden, 26.-28. Unternehmensweites DQ Controlling auf Basis von BI-Werkzeugen Doreen Hartung, TIQ Solutions GmbH 6. GIQMC, Bad Soden, 26.-28. November 2008 2007 TIQ Solutions GmbH All Rights Reserved. GIQMC Bad Soden,

Mehr

Administration Gruppen (Institution)

Administration Gruppen (Institution) Administration Gruppen (Institution) Kurzanleitung für den Moderator (mit Administrationsrechten) (1) Loggen Sie sich ein und klicken Sie auf den Reiter Institution. (2) Wählen Sie rechts oben über die

Mehr

Remedy-Day 2013. Innovative ITSM Lösungen von NTT Data. Machen wir es uns besser, schöner und leichter. Thomas Rupp Alexander Lyer Lukas Máté

Remedy-Day 2013. Innovative ITSM Lösungen von NTT Data. Machen wir es uns besser, schöner und leichter. Thomas Rupp Alexander Lyer Lukas Máté Remedy-Day 2013 Innovative ITSM Lösungen von NTT Data Machen wir es uns besser, schöner und leichter Thomas Rupp Alexander Lyer Lukas Máté Copyright 2012 NTT DATA Corporation GTW Generischer Ticket Workflow

Mehr

ENTERBRAIN Reporting & Business Intelligence

ENTERBRAIN Reporting & Business Intelligence Überblick Vorhandene Listen/Analysen in ENTERBRAIN Die Daten in ENTERBRAIN Das Fundament des BI - Hauses Details zur ENTERBRAIN Staging Area Reports und Cubes auf Basis der Staging Area Data Mining mit

Mehr

SQL für Trolle. mag.e. Dienstag, 10.2.2009. Qt-Seminar

SQL für Trolle. mag.e. Dienstag, 10.2.2009. Qt-Seminar Qt-Seminar Dienstag, 10.2.2009 SQL ist......die Abkürzung für Structured Query Language (früher sequel für Structured English Query Language )...ein ISO und ANSI Standard (aktuell SQL:2008)...eine Befehls-

Mehr

OSM Control Tool. Benutzerdokumentation

OSM Control Tool. Benutzerdokumentation OSM Control Tool Benutzerdokumentation Bildquellen Titelbild: Openstreetmap.de und Dieter Schütz / pixelio Seite 1 von 14 Inhaltsverzeichnis 1Übersicht... 3 2Die einzelnen Elemente der Anwendung... 4 2.1Übersicht

Mehr

Configuration Management mit Verbosy 17.04.2013 OSDC 2013. Eric Lippmann www.netways.de

Configuration Management mit Verbosy 17.04.2013 OSDC 2013. Eric Lippmann www.netways.de Configuration Management mit Verbosy 17.04.2013 OSDC 2013 Eric Lippmann Kurzvorstellung NETWAYS Expertise OPEN SOURCE SYSTEMS MANAGEMENT OPEN SOURCE DATA CENTER Monitoring & Reporting Configuration Management

Mehr

Strategie & Kommunikation. Trainingsunterlagen TYPO3 Grundlagenschulung

Strategie & Kommunikation. Trainingsunterlagen TYPO3 Grundlagenschulung Trainingsunterlagen TYPO3 Grundlagenschulung Seite 1 / Maud Mergard / 08.03.2010 TYPO3-Schulung für Redakteure Stand: 08.03.2010 Um sich in TYPO3 einzuloggen, rufen Sie bitte im Internet die Seite http://www.vdi.de/typo3

Mehr

Content Management Systeme

Content Management Systeme Content Management Systeme Im Rahmen der Lehrveranstaltung PTI991 - Wissensmanagementsysteme Sebastian Thiele Überblick 1. Begriffsdefinition 2. Aufbau von CM-Systemen 3. Die Komponenten im Überblick 4.

Mehr