Datenintegration Datenreinigung Duplikate Fusion Qualität

Transkript

1 Datenintegration Datenreinigung Duplikate Fusion Qualität Ein Vortrag von Janett Niendorf im Rahmen der integrierten Lehrveranstaltung: Integration Heterogener Informationssysteme (HIS) / SS 2009 /Dr. Ralf-D. Kutsche Gehalten am / Datenbanksysteme und Informationsmanagement Technische Universität Berlin

2 Verwendete Quellen Q1-Q6 Q1 Naumann, Leser: Informationsintegration - Architekturen und Methoden zur Integration verteilter und heterogener Datenquellen. dpunkt Verlag, Kap.8, 2006 Q2 Naumann: Vorlesung Informationsintegration. Wintersemester 2005/2006, gebiete/wbi/ii/folien Q3 Naumann: Halbkurs Informationsintegration. Wintersemester 2006/2007, gebiete/wbi/teaching/ archive/ws0607/hk_informationsintegration/ Q4 Neiling, Lenz (FU Berlin): Data Integration by Means of Object Identification in Information Systems. ECIS 2000 Proceedings, Paper 69, 2000 Q5 Neiling, Lenz (FU Berlin): Data fusion and object identification. In Int. Conf. on Advances in Infrastructure for Electronic Business, Science, and Education on the Internet. (SSGRR), 2000 Q6 Naumann, Bilke: Automatic Data Fusion with HumMer. In Proc. of the 31 st VLDB Conference, Trondheim, Norway, / 61

3 Verwendete Quellen Q7-Q12 Q7 Naumann: Beyond Information Integration - Content Merging. Forschungskolloquium CIS/ISST. HU Berlin publications/cis- Kolloquium.pdf Q8 Naumann, Bleiholder: Conflict Handling Strategies in an Integrated Information System. Technical Report HUB-IB-197. Informatik-Berichte, Berlin. Februar Q9 Batini, Scannapieco: Data Quality - Concepts, Methodologies and Techniques. Springer, 2006 Q10 Hinrichs: Datenqualitätsmanagement in Data Warehouse-Systemen. Dissertation, Universität Oldenburg, Kap.4, 2002 Q11 Wang, Strong: Beyond accuracy: What data quality means to data consumers. In Journal of Management Information Systems, 12(4), S. 5-33, 1996 Q12 Bauer, Günzel: Data Warehouse Systeme - Architektur, Entwicklung, Anwendung. 2 Aufl., dpunkt verlag, / 61

4 Weiterführende Literatur 8-14 Naumann, Bilke. Schema matching using duplicates. In Proc. of the International Conference on Data Engineering (ICDE), S , 2005 Wang, Ziad, Lee: Data Quality. Kluwer Academic Publishers, / 61

5 Daten(be)reinigung =Data Scrubbing: einfache Daten =Data Cleaning/ Data Cleansing: Tupel-übergreifend Normalisierung Konvertierung Referenztabellen Duplikat-Beseitigung Datenreinigung 5 / 61

6 Normalisierung Umwandlung in Großbuchstaben» JanEtt -> JANETT Autom. Rechtschreibprüfung Entfernung von Stopp-Wörtern» Der Brockhaus -> Brockhaus Stemming (Wortstamm bilden)» Filiale & Filialen -> Filial Abkürzungen ausschreiben» TUB -> Technische Universität Berlin Personennamen zerlegen Anrede, Titel, Vorname(n), Nachname Adressen zerlegen Strasse, Hausnr., Postfach, Plz, Land Standardformate angeben für Telefonnummern, Datum» 030/ > » 08/12/24 -> Datenreinigung 6 / 61

7 Konvertierung, Referenztabellen Konvertierung Bsp: Umrechnung von Einheiten» Lägenangaben: Kilometer -> Meile» Temperaturen: Grad Celsius-> Kelvin» Währungen: Aktuellen Wechselkurs für Währungen (ursprüngl. Wert abspeichern!) Referenztabellen Für exakte Wertabbildung von...» Städten, Ländern oder Produktnamen Datenreinigung 7 / 61

8 Daten(be)reinigung =Data Scrubbing: einfache Daten =Data Cleaning/ Data Cleansing: Tupel-übergreifend Normalisierung Konvertierung Referenztabellen Duplikat-Beseitigung Datenreinigung 8 / 61

9 Duplikate - Gliederung Terminologie der Duplikaterkennung Duplikaterkennung-Matrix Ähnlichkeitsmaße Edit-Distanz (ausführlich) Einführung Schwellwert Tastatur-Distanz Weitere Ähnlichkeitsmaße (String-basiert) Sorted Neighborhood Methode Effizienz: Laufzeitbetrachtung/ Partitionierung Weitere Ähnlichkeitsmaße (Tokenisierung,Tupel-basiert, Hybride) Tool für die Duplettenerkennung: HumMer Erweiterung der Mediator-Wrapper-Architektur um eine Komponente für die Objekt-Identifizierung Duplikate 9 / 61

10 Terminologie - Duplikaterkennung Duplikat (Duplette, Doppel): Eine Kopie eines Realwelt-Objektes. Duplikaterkennung: Auffinden der Kopien, die dasselbe (das Gleiche) Realwelt-Objekt repräsentieren. Synonyme der Duplikatenerkennung: Record Linkage (simpel strukturierte Daten) Object Identification (komplex-strukturierte Daten bspw. XML) Deduplication/ duplicate identification...record Matching, Entity Resolution file/record/field (50er, 60er) relation/tuple/attribute Duplikate 10 / 61

11 2x2 Möglichkeiten der Duplikaterkennung REALITÄT Tatsächlich Duplikat: ja nein Als Duplikat erkannt: ja S O F T W A R E nein true-positive false-negative false-positive true-negative Vgl. Quelle 1 Duplikate 11 / 61

12 Edit-Distanz (von Levensthein) Nach Vladimir Levensthein von 1965 Geeignet für einzelne Zeichenketten/ buchstabenweiser Vergleich Rekursiv berechenbar Minimale Anzahl an Edit-Operationen um einen String in einen anderen zu überführen. J U L I A K U L I O EditDistanz Edit-Operatoren: insert (i) delete (d) replace (r) match (m) Transkript: r-m-m-m-r Kosten jeweils mit 1 angesetzt im Bsp Duplikate 12 / 61

13 Ähnlichkeit berechnen J U L I A Ähnlichkeitsmaß / Similarity K String S 1 =JULIA, String S 2 =KULIO U Länge der Strings hier gleich : S 1 = S 2 =5 L I O EditDistanz bereits berechnet Similarity S 1, S 2 =1 EditDistanz S 1, S 2 Maximum S 1, S 2 2 Similarity JULIA, KULIO =1 Maximum 5,5 = => JULIA & KULIO ähneln sich zu 60%! Duplikate 13 / 61

14 Wie ähnlich sind die Wörter zu "JULIA"? Edit-Distanz Ähnlichkeit JULIA JULIAN JULIa JULI JULIUS KULIO JUSTIN JUSTUS GÜNTHER Duplikate Schwellwert Nicht-Duplikate Duplikate 14 / 61

15 Tastaturdistanz Edit-Distanz Ähnlichkeit JULIA KULIA Tippfehler (Duplikat) JULIO Jungsname (Kein Duplikat) Idee: Wahrscheinlichkeit eines Tippfehlers als Kostenmaß nutzen Wahrscheinlichkeit ist abhängig von dem Abstand der Buchstaben auf der Tastatur Duplikate / 61

16 String-basierte Ähnlichkeitsmaße Edit-Distanz Definiert als die minimale Anzahl an Edit-Operationen: ersetzen, löschen & einfügen, um einen String in einen anderen zu überführen Reihenfolgeabhängig und daher geeignet für Attribute und weniger für Tupel (Tupel als zs.gesetzter String möglich) SOUNDEX (Edit-basiert) Beachtet die Aussprache von Wörtern bei der Ähnlichkeitsbewertung Jaro-Winkler-Ähnlichkeit (Edit-basiert) Berücksichtigt Transpositionen einzelner Buchstaben» Reihenfolgevertauschung JULIA oder JULAI Geeignet für kurze Wörter Hamming-Distanz Zählt nicht-übereinstimmenden Bereiche in Strings oder numerischen Werten fester Länge» Plz <-> 10244, Distanz=1 Duplikate 16 / 61

17 Partitionierung\ Effizienz Prinzipielle Aufgabe der Duplikatenerkennung (Zsf.): Anwendung von Ähnlichkeitsmaßen auf Paare von Datensätzen Einteilung in die Gruppe der Duplikate gemäß Schwellwert Laufzeitbetrachtung: n²/2-n Vergleiche sind notwendig um n Datensätze mit jeden anderen Datensatz zu vergleichen Für eine Relation mit Tupeln sind 50 Mio. Vergleiche erforderlich Komplexitätsklasse O(n²) Für die meisten Anwendungen ist das zu hoch! Vermeidung von Tupelvergleichen! Unterteilung in Partitionen (auch überlappend) geschicktes Auswählen zu vergleichender Tupelpaare Duplikate 17 / 61

18 Exkurs: Komplexitätsklassen Ordnung O(1) O(log n) O(n) O(n*log n) O(n²) O(n³)... O(n c ), c>1 O(c n ), c>1 O(n!) Komplexitätsklasse Konstant Logarithmisch Linear Linear-Logarithmisch Quadratisch Kubisch Polynomial Exponentiell Faktoriell Duplikate 18 / 61

19 Sorted Neighborhood Methode Nach Stolfo und Hernandez 1995 Übersetzt sortierte Nachbarschaft, Tupel-basiert Auch bezeichnet als merge-purge Methode Phase I - Schlüsselbildung Domänenexperte wählt Schlüssel Schlüssel wird dargestellt als Sequenz der abgeleiteten Attribute Bsp: JULIA ROBERTS, Erste 3 Buchstaben des Vornames: JUL /Tokenisierung Erster Buchstabe des Nachnames: R Geburtsdatum vollständig: /Tokenisierung (Nachnamen häufiger falsch geschrieben als Vornamen) Phase II Sortierung Schlüssel alphabetisch sortieren Durch geeignete Schlüsselwahl liegen ähnliche Datensätze nah beieinander Duplikate Vgl. Quelle 1 19 / 61

20 Sorted Neighborhood Methode Phase III - Vergleich Fenstergröße w über n Datensätze wählen (1<w<=n) Fenster definiert die Nachbarschaft/ Partition Innerhalb des Fensters paarweiser Vergleich Fensterverschiebung nach Duplikateinordnung jeweils 1 Phase I Schlüsselbildung O(n)² Phase II Sortierung O(n*log n) Phase III Vergleich O(w*n) Insgesamt Laufzeit von O(w*n*log n) schneller! Ohne Partitionierung O(n²) Vgl. Quelle 1 Duplikate 20 / 61

21 Weitere (beim Namen gennant)... n-,bi-,q-gramme Smith-Waterman Jaccard-Ähnlichkeit für Token TFIDF Term Frequency/Inverse Document Frequency Hybride: Nutzung eines Primär- und Sekundär- Vergleichsmaßes Fragestellung bei der Auswahl des Vergleichmaßes:? Datenstruktur (komplex, semi-strukturiert, simpel)?? Attribut oder Tupel?? Zerlegbarkeit der Wörter sinnvol (Tokensisierung)?? Menge der Datensätze -(Partitionierung nötig)?? Gewünschte Genauigkeit (Ausblick: Datenqualität)? Duplikate 21 / 61

22 HumMer Humboldt Merger Vgl. Quelle 6 Duplikate 22 / 61

23 Erweiterung der Mediator-Wrapper-Architektur Objekt-Identifizierung (Identificator) als zusätzliche Komponente Duplikate Vgl. Quelle 4, 5 23 / 61

24 Wiederholung Mediator Ein Mediator ist eine Softwarekomponente, die Wissen über bestimmte Daten benutzt, um Informationen für höherwertige Anwendungen zu erzeugen Zwei Komponententypen Wrapper Zugriff auf Datenquellen Überwinden von technischer und struktureller Heterogenität Mediator Mehrwert erzeugen Überwindung von semantischer Heterogenität Lesender Zugriff Duplikate 24 / 61

25 Identificator-Komponente INPUT: gesammelte Records des Mediators aus Datenquellen A, B,.. OUTPUT: Verglichene Records, welche dasselbe Realwelt-Objekt repräsentieren Conversion: Ableitung (gemeinsamer) identifizierender Attribute aus den Datenquellen Comparison: Vergleich dieser Attribute für Paare von Elementen Classification: Klassifikation der Paare basierend auf den Vergleichswerten/ Duplikate oder Nicht-Duplikat? Duplikate Vgl. Quelle 4, 5 25 / 61

26 Beispiel Conversion Duplikate Vgl. Quelle 4, 5 26 / 61

27 Fusion In welchem Schritt wird die Fusion eingeleitet? Datenquellen Schritt 1: Schritt 2: Schritt 3: Schritt 4: Schema Matching Duplikaterkennung Datenfusion Visualisierung/Export Anwendung Vgl. Quelle 2 Fusion 27 / 61

28 Fusion Gleichheit (a,b,c) (a,b,c) (a,b,c) Subsumption (a,b,c) (a,b, ) (a,b,c) Komplementierung (a,,c) (a,b, ) (a,b,c) Quelle 1= (A,B,C) Quelle 2= (A,B,C) Schemagleichheit Konflikt (a,b,c) (a,b,d) (a,b,f(c,d)) Vgl. Quelle 7 Fusion 28 / 61

29 Beispiel Welche Tupel sind gleich?» Tupel 2 und 4 sind gleich Welche Tupel subsumieren sich?» Tupel 2 und 4 subsumieren Tupel 1» Tupel 2 und 4 subsumieren auch Tupel 3 Welche Tupel komlementieren sich gegenseitig?» Tupel 1 und 3 komplementieren sich Welche Tupel stehen in Konflikt zueinander?» Tupel 5 steht eindeutig in Konflikt mit jedem anderen» Anhängig von der Bedeutung der Null-Werte Film ID* Schauspieler Titel Jahr Sprache Tupel 1: 88 Julia Roberts Ocean's Eleven - Englisch Tupel 2: 88 Julia Roberts Ocean's Eleven 2001 Englisch Tupel 3: 88 Julia Roberts Englisch Tupel 4: 88 Julia Roberts Ocean's Eleven 2001 Englisch Tupel 5: 88 Julia Roberts Ocean's Eleven 2001 Deutsch *ID: Ergebnis der Duplikaterkennung Fusion 29 / 61

30 Exkurs: Bedeutung von Nullwerten 1 Unbekannt /Unknown 2 Nicht zulässig, Nicht anwendbar 3 Zurückgehalten (aus Sicherheitsgründen) 4 Unsicher 5 Unendlich 6 Fehlerhaft 7 Undefiniert 8 Nicht existent 9 Ignoriert Chris Date:» "Into the Unknown" » "NOT Is Not Not!"» "Oh No Not Nulls Again"» "Much Ado About Nothing" Fusion 30 / 61

31 Vereinigungsoperatoren Relationale Objekterkennung mit... Union Outer-Union Minimum-Outer-Union Join Full-Outer-Join Merge-Methode Aggregatsfunktionen Selbstdefinierte Aggregatsfunktionen Gruppierung Fusion 31 / 61

32 UNION - Beispiel Alle identischen Zeilen ausblenden... In SQL:» Select DISTINCT *» (oder UNION für mehrere Anfragen) Fusion 32 / 61

33 UNION Vereinigung zweier Relationen mit gleichem Schema Schemagleichheit ist gefordert! Gleiche Attribute, gleiche Attributtypen (bzw. kompatibel) Gleiche Tupel werden entfernt Problemlösung für unterschiedl. Schema: SchemaSQL (SQL-Erweiterung) Schema Mapping (1 Schritt davor) Fusion 33 / 61

34 Outer Union Codd 1979 Union für heterogene Schemata (Schema unterscheiden sich daher einfacher Union nicht anwendbar) Fehlende Attributwerte werden durch Null ersetzt In SQL Kann durch geeignete SQL-Anfragen simuliert werden (sofern beide Schemata bekannt) Quelle 1 A B C a b c a b - Quelle 2 A B D a b - a b d a e d Quelle 1= (A,B,C) Quelle 2= (A,B,D) Schemata ungleich Fusion 34 / 61

35 Outer Union Codd 1979 Union für heterogene Schemata (Schema unterscheiden sich daher einfacher Union nicht anwendbar) Fehlende Attributwerte werden durch Null ersetzt In SQL Kann durch geeignete SQL-Anfragen simuliert werden (sofern beide Schemata bekannt) Quelle 1 A B C a b c a b - Quelle 2 A B D a b - a b d a e d Quelle 1 Quelle 2 A B C D 1 a b c - 1 a b a b a b - d 2 a e - d Fusion 35 / 61

36 Minimum Union Ullmann 1989, Galindo-Legaria 1994 Nutzt Outer Union als Zwischenergebnis Entfernt subsumierte Tupel In SQL Umsetzung nicht trivial, da Entfernung von subsumierten Tupeln nicht mit einfachen SQL-Anfragen umsetzbar Quelle 1 Quelle 2 A B C D 1 a b c - 1 a b a b a b - d 2 a e - d Quelle 1 Quelle 2 A B C D 1 a b c - 1 a b a b a b - d 2 a e - d Subsumierte Tupel Fusion 36 / 61

37 Union-Operatoren im Vergleich Schema: Eliminierung identischer Tupel Eliminierung subsumierter Tupel Integration komplement. Tupel Konfliktlösung Union gleiches Schema Outer Union unterschiedl. Schemata Minimum Union unterschiedl. Schemata Merge Union unterschiedl. Schemata X X X X - - X X X X Ideal Fusion 37 / 61

38 Vereinigungsoperatoren Relationale Objekterkennung mit... Union Outer-Union Minimum-Outer-Union Join Full-Outer-Join Merge-Methode Vereinigen ist nicht gleich Fusion! Aggregatsfunktionen Selbstdefinierte Aggregatsfunktionen Gruppierung Fusion 38 / 61

39 Join Jedes Realweltobjekt wird durch ein Tupel repräsentiert (insofern kein Duplikat in Ausgangsrelation, sonst Vervielfachung) Keine Fusion von Widersprüchen sondern separate Spalten Leere Felder bleiben leer Fehlende Quelldaten Quelle 1 - Film Quelle 2 - Spielfilm In SQL:» Select *» From Film F, Spielfilm S» Where F.ID_Duplikat = S.ID_Duplikat? Fusion 39 / 61

40 Full Outer Join Ergebnis liefert alle Tupel der Ausgangsrelationen, unabhängig davon ob ein Join-Partner vorhanden war Fehlende Attribut-Werte werden mit Null aufgefüllt (vgl. Outer-Union) Gezielte Auswahl der Ergebnisse im Select -> es wird gewählt welche Datenquelle das Ergebnis liefern soll / Konflikte werden nicht gelöst Kann dazu führen das Werte Null bleiben obwohl Wert in anderer Datenquelle bekannt ist In SQL:» Select F.ID_Duplikat, F.Titel, S.Jahr, F.Genre, S.Studio» From Film F FULL OUTER JOIN Spielfilm S» ON F.ID_Duplikat = S.ID_Duplikat Auch möglich: Left Outer- und Right Outer Join mit Union verbinden Fusion 40 / 61

41 Merge Operator Greco et. Al schlagen Merge- Operator vor In SQL: SELECT F.ID_Duplikat, COALESCE(F.Titel,S.Titel), COALESCE(F.Jahr, S.Jahr), F.Genre, S.Studio FROM Film F LEFT OUTER JOIN Spielfilm S ON F.ID_Duplikat = S.ID_Duplikat UNION SELECT S.ID_Duplikat, COALESCE(S.Titel,F.Titel), COALESCE(S.Jahr, F.Jahr), F.Genre, S.Studio FROM Film F RIGHT OUTER JOIN Spielfilm S ON F.ID_Duplikat = S.ID_Duplikat COALESCE: wählt ersten Nicht-Nullwert aus den Eingabedaten Kann komplementierende Tupel ersetzen Duplikte mit Konflikten bleiben erhalten Fusion 41 / 61

42 Outer Join - Merge Quelle 1 - Film Quelle 2 - Spielfilm Ergebnis des Full Outer Joins Ergebnis des Merge Operators Fusion 42 / 61

43 Fusion Gleichheit (a,b,c) (a,b,c) (a,b,c) Subsumption (a,b,c) (a,b, ) (a,b,c) Komplementierung (a,,c) (a,b, ) (a,b,c) Konfliktlösung bisher unbefriedigend! Strategien? Quelle 1= (A,B,C) Quelle 2= (A,B,C) Schemagleichheit Konflikt (a,b,c) (a,b,d) (a,b,f(c,d)) Vgl. Quelle 7 Fusion 43 / 61

44 Strategien der Konfliktlösung Wie können Konflikte behandelt werden? Vgl. Quelle 8 Fusion 44 / 61

45 Conflict Ignorance Konflikte werden ignoriert, es findet keine Entscheidung statt Pass it on Alle Konfliktwerte in den Daten werden an den User oder die Applikation weitergegeben Consider all possibilities Alle Kombinationen für Werte (auch erzeugte, die in der Ausgangsquelle nicht vorlagen) beibehalten und aufzählen User entscheidet über possible worlds Vgl. Quelle 8 Fusion 45 / 61

46 Conflict avoidance Konflikte werden identifiziert und bewußt behandelt, nämlich indem sie vermieden werden Instanced-based: Take the information Existierende Informationen werden benutzt Nicht präsente Daten (Null-Werte) werden weggelassen Somit werden Unsicherheiten beseitigt (jedoch keine Konfliktbehandlung)» Benutzt Minimum Union» Benutzt Merger Operator Instanced-based: No Gossiping nur sichere Fakten verwenden und Unsicheres Wissen vermeiden zu benutzen Metadata-based: Trust your friends Quellen des Vertrauens verwenden Vgl. Quelle 8 Fusion 46 / 61

47 Conflict resolution Konkrete Werte und Quellen aus denen diese Werte stammen werden vorab betrachtet bevor eine Entscheidung für die Konfliktlösung getroffen wird, erhöhter Aufwand, aber Annährung an optimale Konfliktlösung Instanced-based, deciding: Cry with the wolves Korrekte Daten werden sich durchsetzen! Oft genutzte Werte nehmen, der Mehrheit wird gefolgt» Bsp.: Google Instanced-based, deciding: Roll the dice zufällig Werte auswählen aus der Gesamtheit aller Werte leicht umsetzbar, kein Aufwand Vgl. Quelle 8 Fusion 47 / 61

48 Conflict resolution Instanced-based, mediating: Meet in the middle Ein neuer Wert wird erzeugt als Mittel der in Konflikt stehenden Werte» Bsp.: Durschnitt numerischer Werte Metadata-based, deciding: Keep up to date Benutzt die aktuellesten Werte, Neuheiten Braucht Zeitstempel (evtl. seperates Attribut) In einem Datenstrom kann die Reihenfolge der einkommenden Tupel genutzt werden Vgl. Quelle 8 Fusion 48 / 61

49 Konfliktlösungsfunktionen Min, Max, Sum, Count, Avg, StdDev Random First, Last Longest, Shortest Choose(source) ChooseDepending(col, val) Vote Coalesce Group, Concat MostRecent MostAbstract, MostSpecific. Standard Aggregationsfunktionen Zufallswahl Nimmt ersten/letzten Wert, reihenfolgeabhängig Nimmt längsten/kürzesten Wert Quellenauswahl Wahl abhängig von val in col Mehrheitsentscheid Nimmt ersten nicht-null Wert Gruppiert, fügt zusammen Nimmt aktuellsten Wert Benutzt eine Taxonomie Vgl. Quelle 8 Fusion 49 / 61

50 FuSem Fusion Semantics erweitertes SQL FuseBy - Statement ConQuer, MatchJoin, und Merge Visialisierung mit Venn-Diagrammen Fusion 50 / 61

51 Offenes Problem: XML-Fusion Herausforderung I: Identifizieren der Objekte Vgl. Quelle 9 Fusion 51 / 61

52 Offenes Problem: XML-Fusion Herausforderung II: Flexibilität des Datenmodells Quelle 1 2 unterschiedliche DTDs (Document Type Definition) gegeben: <ELEMENT person1(nachname,vorname) (Nachname,Geburtstag)> Quelle 2 <ELEMENT person2(nachname,vorname,geburtstag)> Fusion 52 / 61

53 Tool DogmatiX DogmatiX - Tracks down Duplicates in XML Vergleicht Werte von XML-Elementen sowie deren Eltern, Kinder und Geschwister in der Baumstruktur Heuristiken werden benutzt um in Frage kommende Elemente bei der Duplikaterkennung einzuteilen Benutzt spezielles Ähnlichkeitsmaß, welches angepaßt ist an XML- Datenmodelle Projekt an der Uni Potsdam: Objektidentifikation in XML Fusion 53 / 61

54 Fehlerklassen Vgl. Quelle 1 Qualität 54 / 61

55 Datenqualität Auch: Informationsqualität = Fitness for use / Eignung für einen Zweck (Bsp: s versenden - Posteinwürfe) = User satisfaction / Kundenzufriedenheit Untersuchung nach Wang & Strong: Auswahl von 179 Kriterien Mitwirkung von 112 Studenten und 25 Industriepartnern Ergebnis: 15 Qualitäts-Kriterien in 4 Klassen zusammengefaßt Hinrichs: Datenqualitätsmanagement in Data Warehouse-Systemen. Dissertation Qualität 55 / 61

56 Qualität im DWH Def. Data Warehouse: Ein Data Warehouse ist eine physische Datenbank, die eine integrierte Sicht auf beliebige Daten zu Analysezwecken ermöglicht Vgl. Quelle 1, Seite 7 Qualität 56 / 61

57 Qualitätsmerkmale nach Hinrichs Vgl. Quelle 10 Qualität 57 / 61

58 Befragungsbeispiel Vgl. Quelle 11 Qualität 58 / 61

59 Qualitätsmerkmale nach Wang & Strong ' Vgl. Quelle 10 Qualität 59 / 61

60 Wer bewertet Qualität? S u b j e k t P r o z e s s O b j e k t A n f r a g e Datenquelle... Relevanz Glaubwürdigkeit... Verfügbarkeit Antwortzeit... Vollständigkeit Zeitnähe Vgl. Quelle 1 Qualität 60 / 61

61 Qualitätsmodelle Erweiterung von Datenmodellen für die Speicherung von Bewertungen attributbasiertes Modell nach Wang Für relationale Daten Jedes Attribut wird durch einen Qualitätsschlüssel erweitert Jeder Qualitätsschlüssel zeigt auf Bewertungen für den jeweiligen Attributwert Bewertungen können unterschiedliche Dimensionen haben (Genaugkeit, Relevanz,...) D²Q Modell nach Scannapieco et al. Graphbasiertes Datenmodell XML wird um Qualitätsdimensionen erweitert Anfragen zur Qualität eines Datenelements werden möglich Qualität 61 / 61