Kapitel 6: Data Preprocessing

Kapitel 6: Data Preprocessing Preprocessing (1) Data Cleaning, Data Integration, Data Transformation, Data Reduction, Data Cleaning Daten sind i. Allg.: unvollständig Daten fehlen ganz, oder nur Aggregate sind vorhanden, noisy unkorrekte Attributwerte, inkonsistent unterschiedliche Bezeichnungen im Umlauf; Unser Thema im folgenden: liminierung. Data Warehousing und Mining: Data Preprocessing 1 Data Warehousing und Mining: Data Preprocessing 2 Preprocessing (1) Preprocessing (2) Data Integration unterschiedliche Bezeichnungen auf der Schemaebene ( customer-id vs. cust-id ) und auf der Instanzebene ( Steffi vs. Stephanie ), Unterschiede auf der semantischen Ebene, z. B. Übernachtungspreis mit/ohne Frühstück. Data Transformation hier: Normalisierung, Aggregierung, Data Reduction Ziel: Deutlich geringeres Datenvolumen mit möglichst geringem Informationsverlust: Aggregation und Verallgemeinerungen entlang der Konzepthierarchie, Dimensionalitätsreduktion, Komprimierung, Numerosity Reduction parametrisierte Modelle, Cluster. Z. T. gleiche Techniken, die später als Data Mining-Techniken verkauft werden. Data Warehousing und Mining: Data Preprocessing 3 Data Warehousing und Mining: Data Preprocessing 4

Gliederung, limination zwei Ansätze, Data Reduction. Motivation für liminierung Real-World Data is Dirty. Doppelte Post im Briefkasten, wer kennt das nicht. Wie kann das Data Cleaning effizient durchgeführt werden? Auch Problem für Data Warehousing. Warum? Data Warehousing und Mining: Data Preprocessing 5 Data Warehousing und Mining: Data Preprocessing 6 Beispiele aus realem Datensatz liminierung Beispiele (1) SSN Name (First, Initial, Last) Address 334600443 Lisa Boardman 144 Wars St. 334600443 Lisa Brown 144 Ward St. 525520001 Ramon Bonilla 38 Ward St. 525250001 Raymond Bonilla 38 Ward St. 0 Diana D. Ambrosion 40 Brik Church Av. 0 Diana A. Dambrosion 40 Brick Church Av. 0 Colette Johnen 600 113th St. apt. 5a5 0 John Colette 600 113th St. ap. 585 850982319 Ivette A Keegan 23 Florida Av. 950982319 Yvette A Kegan 23 Florida St. Deduplication,, die CiteSeer nicht erkannt hat: L. Breiman, L. Friedman, and P. Stone, (1984). Classification and Regression. Wadsworth, Belmont, CA. Leo Breiman, Jerome H. Friedman, Richard A. Olshen, and Charles J. Stone. Classification and Regression Trees. Wadsworth and Brooks/Cole, 1984. Data Warehousing und Mining: Data Preprocessing 7 Data Warehousing und Mining: Data Preprocessing 8

liminierung Beispiele (2) Ansätze Vergleich (1) Zählen der gemeinsamen Worte reicht nicht dies sind keine : H. Balakrishnan, S. Seshan, and R. H. Katz, Improving Reliable Transport and Handoff Performance in Cellular Wireless Networks, ACM Wireless Networks, 1(4), December 1995. H. Balakrishnan, S. Seshan, E. Amir, R. H. Katz, Improving TCP/IP Performance over Wireless Networks, Proc. 1st ACM Conf. on Mobile Computing and Networking, November 1995. Zwei Ansätze, der erste von Hernandez und Stolfo (HS), der zweite von Sarawagi und Bhamidipaty (SB). Verschiedene Zielsetzungen: HS minimiert Kosten der Berechnungen, SB minimiert intellektuellen Aufwand. Data Warehousing und Mining: Data Preprocessing 9 Data Warehousing und Mining: Data Preprocessing 10 Ansätze Vergleich (2) Ansätze Vergleich (3) Unterschiedliche Ziele bezüglich Ergebnisqualität: Unterschiedliche Ziele bezüglich Ergebnisqualität (Forts.): HS: Knowledge Base gegeben (Äquivalenztheorie). Optimalität des Ergebnisses bezieht sich auf diese Knowledge Base. Ansatz tauscht Optimalität des Ergebnisses der liminierung, basierend auf Knowledge Base, gegen Beschleunigung. SB: Erweitert die Knowledge Base, gegeben ein gewisses Maß an intellektueller Anstrengung, die man bereit ist zu investieren, wie sollte Knowledge Base am besten erweitert werden? Data Warehousing und Mining: Data Preprocessing 11 Data Warehousing und Mining: Data Preprocessing 12

HS Ansatz Übersicht liminierung - lim. liminierung Implementierungsaspekte, Problem Statement, Äquivalenz, Ermitteln von Repräsentanten, Sorted Neigborhood Methode, Verfeinerungen von Sorted Neigborhood, Experimente und Ergebnisse. - lim. Zunächst, zum Aufwärmen : Wir wollen auf der physischen Ebene eliminieren, d. h. identische Records sollen aus Datenbeständen entfernt werden, select distinct * from big_table Wie implementiert man es effizient? Verbesserung, die im folgenden vorgestellt wird, ist recht einfach und klein. Ziel: Gegenüberstellung liminierung auf physischer Ebene liminierung auf logischer Ebene. Data Warehousing und Mining: Data Preprocessing 13 Data Warehousing und Mining: Data Preprocessing 14 Naheliegender Ansatz Modifizierter Merge-Sort Algo. (1) - lim. liminierung ist im wesentlichen Sortieren. 1. Sortieren, 2. linearer Scan mit Vergleich benachbarter Records, 3. Schreiben der Records ohne. I/O Kosten: N logn + N + N/f N = Anzahl Pages, f = mittlere Anzahl Recordduplikate pro File. Strikte Trennung von Sortieren sowie limination ist nicht zwangsläufig, wird im folgenden aufgebrochen. - lim. Ziel: Eliminierung der möglichst früh stattfinden lassen, liminierung ins Sortieren hineindrücken. Merge-Sort: Aufteilen der Daten in Hälften, Jede Hälfte sortieren, mit Merge-Sort (d. h. Verfahren ist rekursiv), sortierte Hälften mergen, d. h. zu einer sortierten Liste zusammenfügen, mit gleichzeitiger liminierung. Data Warehousing und Mining: Data Preprocessing 15 Data Warehousing und Mining: Data Preprocessing 16

Beispiel: Modified Merge-Sort Modifizierter Merge-Sort Algo. (2) 8,5,6,3,1 0,4,3,6,5 3,7,7,6,8 1,4,9,6,7 Minimierung von I/O Operationen Aufteilen der Daten in n Runs, - lim. 1,3,5,6,8 0,3,4,5,6 3,6,7,8, 1,4,6,7,9 0,1,3,4,56,8,,, 1,3,4,6,7 8,9,,, - lim. Runs im Hauptspeicher sortieren, log n Mergephasen mit gleichzeitiger liminierung. 0,1,3,4,5,6,7,9,,,,,,,,,,, Merge-sort & Purge N logn + N + N/f Modified Merge-Sort N logn + N + N/f Data Warehousing und Mining: Data Preprocessing 17 Data Warehousing und Mining: Data Preprocessing 18 - lim. Modifizierter Merge-Sort Algo. (3) Bemerkungen: Einsparung verglichen mit naiver Methode ist abhängig vom Duplikatshäufigkeit f. I/O Reduktion von 7% bei f=2 (uniform verteilte ). - lim. Data-Cleaning Merge/Purge Problem (1) Jetzt limierung auf logischer Ebene. Teilaspekte des Problems: Finde äquivalente Datensätze, d. h. und ähnliche Records, die die gleiche Instanz beschreiben. Alternative Lösungsansätze existieren (z. B. Hash-basierte). Wähle Repräsentanten aus. Vorgehen: Ähnlichkeit wird durch eine Äquivalenz-Theorie definiert. (Theorie: Menge von Formeln, die gemäß Folgerbarkeit abgeschlossen ist.) Data Warehousing und Mining: Data Preprocessing 19 Data Warehousing und Mining: Data Preprocessing 20

- lim. Data-Cleaning Merge/Purge Problem (2) Eigenschaft des im folgenden vorgestellten Ansatzes: Effizienz kann mit Genauigkeit erkauft werden und umgekehrt. Hier vorgestellter Ansatz war Grundlage des DataCleanser DataBlades von Informix. - lim. Äquivalenz-Theorie Regeln zur Beschreibung von Äquivalenz. Wahl der Regeln ist problembezogen, Anwendungswissen wird benötigt. Regeln reflektieren Aufbau der Datensätze, Bedeutung der Felder. Welche der folgenden Regeln fällt in die erste, welche in die zweite Kategorie? Data Warehousing und Mining: Data Preprocessing 21 Data Warehousing und Mining: Data Preprocessing 22 Äquivalenz-Theorie Beispiel Ähnlichkeit von Feldinhalten - lim. equiv_record(r1,r2): similar_first(r1,r2), equal_last(r1,r2), similar_id(r1,r2). equiv_record(r1,r2): similar_address(r1,r2), similar_id(r1,r2). - lim. Ähnlichkeit von Feldinhalten kann durch verschiedene Metriken oder Transformationen definiert werden, z. B. phonetische Distanz (Schmidt, Schmitt) similar_address(r1,r2): similar_street(r1,r2), similar_street_num(r1,r2). similar_id(r1,r2): missing_id(r1,r2). similar_id(r1,r2): equal_id(r1,r2). D. h. Definition der Äquivalenz basiert i. Allg. u. a. auf String-Ähnlichkeit. Rechtschreibdistanz (Küssnacht, Küsnacht) Typewriter Distanz (Feller, Geller) Kanonisierungen (Bahnhf-Str., Bahnhofstr., Bahnhofstrasse) Data Warehousing und Mining: Data Preprocessing 23 Data Warehousing und Mining: Data Preprocessing 24

Fehlerarten (1) Fehlerarten (2) - lim. Beim Zusammenfassen äquivalenter Records kann zuviel zusammengefaßt werden (= False Positive), zuwenig zusammengefaßt werden (= Miss), Beispiel: der Realität entsprechende Clusterung: {R1;R2;R3} {R4;R5} {R6;R7;R8} {R9;R10} Ergebnis des Algorithmus: {R1;R2;R3} {R4} {R5} {R6;R7;R8;R9;R10} - lim. Fehlerarten: False Positive, Miss, Je nach Verwendungszweck müssen diese Fehler unterschiedlich gewichtet werden. Beispiel: Cleaning von Adreßdaten für Werbeversand. a) Adressaten stört es nicht, wenn sie gleiche Werbung mehrmals erhalten. b) Adressaten sind sauer und kaufen unser Produkt definitiv nicht. In welchem der Fälle sind Misses stoßender? Data Warehousing und Mining: Data Preprocessing 25 Data Warehousing und Mining: Data Preprocessing 26 Sorted Neighborhood Methode (1) Algorithmus - lim. Gegeben Äquivalenztheorie, wie findet man äquivalente Datensätze? Mögliches, aber teures Vorgehen: Similarity Join, Nested-Loop. Sorted-Neighborhood Methode löst das Problem auch weitgehend, ist aber billiger: Durch Sortieren ähnliche Datensätze zusammenbringen, Vergleichsoperation nur in der Umgebung des Datensatzes nach Sortierung, Berechnung der transitiven Hülle. - lim. Konkateniere die Datensätze, erzeuge Schlüssel aus (Teilen der) relevanten Felder, sortiere die Daten anhand dieses Schlüssels (Sort), schiebe ein Fenster der Größe w über die sortierte Liste und vergleiche ersten Record mit den folgenden w-1 Records (Merge) (w ist Parameter des Algorithmus), berechne transitive Hülle, wähle Klassen-Repräsentanten (Purge, vgl. mit einer der folgenden Folien). Data Warehousing und Mining: Data Preprocessing 27 Data Warehousing und Mining: Data Preprocessing 28

Merge Illustration Merge Illustration - lim. Relation, deren erkannt werden sollen (sortiert) - lim. Relation, deren erkannt werden sollen (sortiert) Data Warehousing und Mining: Data Preprocessing 29 Data Warehousing und Mining: Data Preprocessing 30 Merge Illustration Merge Illustration - lim. Relation, deren erkannt werden sollen (sortiert) - lim. Relation, deren erkannt werden sollen (sortiert) Data Warehousing und Mining: Data Preprocessing 31 Data Warehousing und Mining: Data Preprocessing 32

Frage zum Algorithmus Window Scan Warum reicht Sortieren allein nicht, warum ist das Fenster vorteilhaft? Fenstergröße w beeinflußt Genauigkeit und Rechenaufwand. - lim. - lim. Aktuelles Fenster w w Fenster im nächsten Schritt Data Warehousing und Mining: Data Preprocessing 33 Data Warehousing und Mining: Data Preprocessing 34 Anzusprechende Punkte Data-Cleaning: Schlüsselwahl (1) - lim. Welches Sortierkriterium? Tradeoff zwischen Effizienz und Akkuratheit. - lim. Schlüsselwahl: Definition des Schlüssels ist anwendungsspezifisch Faustregeln : String aus möglichst viel relevanter Info. bilden. Übereinstimmung in signifikanten Stellen bringt Ähnliches zusammen. Data Warehousing und Mining: Data Preprocessing 35 Data Warehousing und Mining: Data Preprocessing 36

Data-Cleaning: Schlüsselwahl (2) Transitive Hülle - lim. Vorsicht mit Nummern: Transpositionen haben großen Einfluß. Manchmal erste drei Buchstaben, manchmal erste drei Konsonanten. Beispiel: First Last Address ID Key Sal Stolfo 123 First Street 45678987 STLSAL123FRST456 Sal Stolfo 123 First Street 45678987 STLSAL123FRST456 Sal Stolpho 123 First Street 45678987 STLSAL123FRST456 Sal Stiles 123 Forest Street 45654321 STLSAL123FRST456 - lim. Transitivität (a = b und b = c a = c) hilft, um äquivalente Datensätze zu erkennen. Berechnung der transitiven Hülle: Diverse Rechenmethoden sind in der Literatur bekannt, z. B. direkte Matrix-Methoden. Verbesserungen der Trefferquote, aber auch Erhöhung der Anzahl der False Positive Fehler. Warum mehr False Positives? Data Warehousing und Mining: Data Preprocessing 37 Data Warehousing und Mining: Data Preprocessing 38 Sorted Neighborhood Methode - Verfeinerungen Sorted Neighborhood Methode Multi-Pass Ansatz (1) - lim. Multipass-Variante, inkrementelle sorted neighborhood Methode. - lim. Motivation Beispiel: VORNAME MIDDLE-INITIAL NAME Diana D Ambrosian Diana Böhm Diana Dambrosian Diana W Böhm Fenstergröße 2. Sortierung nach MI-NAME findet ein Duplikat nicht. Sortierung nach NAME-MI findet anderes Duplikat nicht. Data Warehousing und Mining: Data Preprocessing 39 Data Warehousing und Mining: Data Preprocessing 40

Sorted Neighborhood Methode Multi-Pass Ansatz (2) Sorted Neighborhood Methode Multi-Pass Ansatz (3) - lim. Prinzip: Mehrfache Durchführung des Sorted Neighborhood Verfahrens mit unterschiedlichem Sortierschlüssel, Berechnung der transitiven Hülle liefert das Gesamtergebnis. - lim. Vorteile: Gleiche Genauigkeit (Miss-Rate) kann mit geringerer Fensterbreite erreicht werden. (Offensichtlich. Wieso?) Bei gleicher Duplikat-Erkennungsrate, d. h. gleicher Anzahl von Misses, ergeben sich weniger False Positives als mit der Single Pass Methode. (Experimentelles Ergebnis) Data Warehousing und Mining: Data Preprocessing 41 Data Warehousing und Mining: Data Preprocessing 42 Inkrementelle Methode (1) Inkrementelle Methode (2) - lim. Anstelle der vollständigen Menge der Datensätze kann man (im Data Warehouse) mit prime representatives jedes Clusters arbeiten. Löschen von Datensätzen kann Cluster auseinanderreißen (Illustration auf folgender Folie), Algorithmus (Menge von Deletes): 1. Alle Löschungen durchführen und IDs der betroffenen Cluster merken, 2. Neu-Berechnung der betroffenen Cluster. - lim. Beispiel: Ralf Duckstein, Rolf Duckstein, Rolf Dachstein Weitere Vornamen: Rene, Rembert, Robert, Roland Weitere Nachnamen: Dickel, Dormann Data Warehousing und Mining: Data Preprocessing 43 Data Warehousing und Mining: Data Preprocessing 44

Auswahl von Repräsentanten Experimentelle Ergebnisse (1) Auswahlkriterien sind fallabhängig, z. B. zufälliges Sample, Hier Ergebnisse mit synthethischen Daten. 1 Last Name, 2 First Name, 3 Street Address - lim. n-letzte Werte, z. B. bei Wohnadressen, Generalisierung, z. B. Mittelbildung, syntaktisch (längster oder vollständigster Rekord), Benutzer-Interface. - lim. Multi-Pass 1,2,3 Multi-Pass 1 2 3 Rechenzeit für Single und MP [s] Detektierte [%] z Datenbasis: 13751 Rekords (7500 Originale, davon 50% mit 1-5 n) Data Warehousing und Mining: Data Preprocessing 45 Data Warehousing und Mining: Data Preprocessing 46 Experimentelle Ergebnisse (2) Datenbasis: 1M Records + 423644 Detektierte % 1 Last Name, 2 First Name, 3 Street Address 1 Multi-Pass 2 3 0.2 False-Positive 0 Ist das erwartet? Multi-Pass 3 1,2 - lim. Fallbeispiel: Analyse der OCAR Daten Datensatz des Office of Children Administrative Research, U.S.A., Datenbank über staatliche Zahlungen an Familien und Firmen für Hilfeleistungen an bedürftige Kinder, Schiefe Verteilung der Daten: Mehrere Records pro Individuum. Auswertungen der Records soll eindeutigen Schlüssel zur Identifizierung der einzelnen Kinder liefern. Ziel des Data Cleaning Datenanalyse, z. B. durchschnittlicher Zeitraum finanzieller Unterstützung. Data Warehousing und Mining: Data Preprocessing 47 Data Warehousing und Mining: Data Preprocessing 48

Fallbeispiel: Analyse der OCAR Daten (Forts.) Fallbeispiel: Analyse der OCAR Daten (Forts.) - lim. OCAR-Behörde hat ein eigenes Kriterium für Äquivalenz: erste vier Buchstaben des Nachnamens und erste drei Buchstaben des Vornamens und Geburtsmonat und -jahr und interne Nummer müssen übereinstimmen. - lim. Multi-Pass Methode mit folgenden Schlüsseln: Nachname, Vorname, Social Sec. Nummer, interne Nummer, Vorname, Nachname, Social Sec. Nummer, interne Nummer, Interne Nummer, Vorname, Nachname, Social Sec. Nummer. Ziel: Vergleich der Ansätze. Im folgenden: Vergleich mit OCAR-Kriterium. Data Warehousing und Mining: Data Preprocessing 49 Data Warehousing und Mining: Data Preprocessing 50 Ergebnisse mit realen Daten (1) 1 Last Name, 2 First Name, 3 Street Address Possible Misses 2 3 1 Multi-Pass Possible False-Positives Beobachtung: Fenstergröße von untergeordneter Bedeutung. Multi-Pass 1,3 2 - lim. Ergebnisse mit realen Daten (2) Wie aussagekräftig sind Kurven auf vorangegangener Folie? Data Warehousing und Mining: Data Preprocessing 51 Data Warehousing und Mining: Data Preprocessing 52

- lim. Fallbeispiel: Analyse der OCAR Daten (Forts.) Fehler kann entweder durch das OCAR-Kriterium oder durch die Multi-Pass Methode zustandekommen. Vergleich zufällig ausgewählter Datensätze von Hand, z. B. 45,8% der Potential Misses sind Fehler des OCAR-Kriteriums, 27,1% sind Fehler der Multi-Pass Methode. z Was ist Klassifizierung? Beispiel: Einschätzen des Risikos 23 Familie Hoch 17 Sportwagen Hoch 20 Familie Hoch 65 Sportwagen???? Anwendungen: Medizinische Diagnose Kreditwürdigkeit Wettervorhersage Schrifterkennung Ziel: Neue Tupel richtig klassifizieren. Annahme: zukünftige Daten ähneln den vergangenen. Data Warehousing und Mining: Data Preprocessing 53 Data Warehousing und Mining: Data Preprocessing 54 Binäre Entscheidungsbäume (1) Binäre Entscheidungsbäume (2) Klassifikation Ansätze: Neuronale Netze, genetische Algorithmen, Case-Based Reasoning,... und Entscheidungsbäume (hier: Binäre Entscheidungsbäume) 23 Familie Hoch 17 Sportwagen Hoch 20 Familie Hoch Baum wird aufgebaut basierend auf Training Set. hoch hoch Alter < 25 Typ = Sportwagen niedrig Unterschiedliche Entscheidungsbäume für das gleiche Training Set möglich Beispiel: hoch hoch Alter < 25 Typ = Sportwagen niedrig Typ = Familie Was ist Zusammenhang zu rkennung? Data Warehousing und Mining: Data Preprocessing 55 Data Warehousing und Mining: Data Preprocessing 56

Entropie eines Splits Entropie eines Splits: n1 n2 E ( S1, S2) = E( S1) + E( S2) n n Ziel: Split finden, der Entropie minimiert. Definition von Entropie Erinnerung: E( S) = p j log p j j p j relative Häufigkeit von Klasse j in S. Entropie ist minimal, wenn p 1 =1; maximal, wenn p i =p j. Auswahl der Split-Attribute Beispiel (1) Beispiel für geringe Entropie: Gute Wahl der Attribute und Schwellwerte 17 Sportwagen High 20 Familie High 23 Familie High 17 Sportwagen Hoch 20 Familie Hoch 23 Familie Hoch Alter < 27 Entropie: 0.459 (unter Verwendung von log 2 ) Data Warehousing und Mining: Data Preprocessing 57 Data Warehousing und Mining: Data Preprocessing 58 Auswahl der Split-Attribute Beispiel (2) Beispiel für hohen Entropie-Wert: Weniger gute Wahl der Attribute und Schwellwerte. 20 Familie Hoch 23 Familie Hoch 17 Sportwagen Hoch 20 Familie Hoch 23 Familie Hoch Typ = Familie Entropie: 0.918 Alter Typ Risk 17 Sportwagen Hoch liminierung (1) liminierung ist Spezialfall der Klassifikation. VORNAME MI NAME Diana D Ambrosian Diana Böhm Diana Dambrosian Diana W Böhm VORNAME MI NAME VORNAME MI NAME DUP Diana D Ambrosian Diana Böhm N Diana D Ambrosian Diana Dambrosian J Diana D Ambrosian Diana W Böhm N Diana Böhm Diana Dambrosian N Diana Böhm Diana W Böhm J Diana Dambrosian Diana W Böhm N Data Warehousing und Mining: Data Preprocessing 59 Data Warehousing und Mining: Data Preprocessing 60

liminierung (2) Active Learning Motivation (1) Algorithmen für maschinelles Lernen z. B. Classifier, Training Set Menge von n und Nicht-n, zusätzlicher Input: Diverse einfache anwendungsspezifische Funktionen für das Matching für die unterschiedlichen Attribute Beispiele: Editierdistanz Text-Felder abbreviation match Zahlenfelder: absolute Differenz. Im Versicherungsbeispiel sind Trainingsdaten verfügbar (Menge der Kunden aus der Vergangenheit). Bei rkennung, z. B. CiteSeer, ist das nicht so! Naiver, für Benutzer anstrengender Ansatz: System generiert zufällig Paare von Datenobjekten. Benutzer muß für jedes Paar sagen, ob oder nicht. Ablauf endet, sobald wir gutes Training Set beisammen haben. z Data Warehousing und Mining: Data Preprocessing 61 Data Warehousing und Mining: Data Preprocessing 62 Active Learning Motivation (2) Active Learning Motivation (2) Problem mit (2): Ermitteln eines Training Set, das den Datenbestand gut abdeckt. Problem mit (2): Ermitteln eines Training Set, das den Datenbestand gut abdeckt. Idee: System entdeckt schwierige Datenobjekte, d. h. solche, für die erwarteter Informationsgewinn groß. Benutzer markiert nur diese von Hand. Vorteil: Er muß nur ein paar Paare markieren, im Gegensatz zur o. g. Vorgehensweise. Idee: System entdeckt schwierige Datenobjekte, d. h. solche, für die erwarteter Informationsgewinn groß. Benutzer markiert nur diese von Hand. Vorteil: Er muß nur ein paar Paare markieren, im Gegensatz zur o. g. Vorgehensweise. 17 Sportwagen Hoch 23 Familie Hoch 20 Familie Hoch 17 Sportwagen Hoch 23 Familie Hoch 20 Familie Hoch Data Warehousing und Mining: Data Preprocessing 63 Data Warehousing und Mining: Data Preprocessing 64

Active Learning Motivation (3) Beispiel: Ich bin Psychologe und möchte herausfinden, wie mutig Sie sind. Hierzu habe ich Fragebogen entworfen: Würden Sie vom Stuhl springen? Würden Sie vom Tisch springen? Würden Sie aus dem Fenster (1. OG) springen? Würden Sie aus dem Fenster (2. OG) springen? Wie arbeitet Active Learner? (1) Objekt ermitteln, für das Classifier am wenigsten sicher ist. Beispiel: Zwei Klassen: Positiv (P) und negativ (N) Sicher negativ r x d 0 1 region of uncertainty r hat Koordinate 0, b hat Koordinate 1. r ist negativ, b ist positiv. b Sicher positiv Data Warehousing und Mining: Data Preprocessing 65 Data Warehousing und Mining: Data Preprocessing 66 Wie arbeitet Active Learner? (2) Beispiel (Fortsetzung): Wir wollen wissen: Wo ist Schwellenwert zwischen N und P? Wir dürfen für einen Punkt nachschauen. Welchen? Annahme: prob(n) (WS, daß Punkt negativ) umgekehrt proportional zum Abstand von r, d. h., prob(n x)=1-d, prob(p x)=d Information ist d prob(n). Wie arbeitet Active Learner? (3) Beispiel (Forts.): region of uncertainty (Bereich zwischen r und b) muß verkleinert werden. Erwartete Reduktion ist Pr(N x) d+pr(p x) (1-d) =(1-d) d+d (1-d)=2d (1-d) Maximal für d=0.5. Data Warehousing und Mining: Data Preprocessing 67 Data Warehousing und Mining: Data Preprocessing 68

Wie arbeitet Active Learner? (4) Beispiel (Forts.): Im Beispiel kann Classifier Klassen vollständig separieren. Weiteres Kriterium neben Unsicherheit: Repräsentativität. Wie bestimmt man Unsicherheit der Vorhersage für ein Datenobjekt? (1) Kommittee (Menge) von N Classifiern, alle unterscheiden sich geringfügig voneinander. z Data Warehousing und Mining: Data Preprocessing 69 Data Warehousing und Mining: Data Preprocessing 70 Wie bestimmt man Unsicherheit der Vorhersage für ein Datenobjekt? (2) Wie bestimmt man Unsicherheit der Vorhersage für ein Datenobjekt? (3) Eindeutiges Duplikat/Nicht-Duplikat wird von allen Mitgliedern (des Kommittees) gleich vorhergesagt. Schwierigere Paare bekommen unterschiedliche Vorhersagen ins Training Set einfügen. Idee funktioniert im Prinzip für alle Arten von Classifiern (regressionsbasiert, Bayes, Entscheidungsbaum). Experte markiert ein paar zufällig ausgewählte Trainingsdaten von Hand. Erstellung des Kommittees. Experte kann jetzt die k schwierigsten Elemente von Hand markieren. Erstellung eines neuen Kommittees, Ablauf wiederholt sich. Wie wählt man k? Data Warehousing und Mining: Data Preprocessing 71 Data Warehousing und Mining: Data Preprocessing 72

Wie erstellt man Kommittees (1) Wie erstellt man Kommittees (2) von Classifiern, die sich geringfügig unterscheiden? Parameter des Modells (innerhalb gewisser Grenzen) zufällig wählen Beispiel: Entscheidungsbäume, Split Attribute zufällig auswählen, solange Information Gain nahe beim Optimum. (Alternativ oder zusätzlich:) Nicht mehr Mitte des Bereichs als Schwellenwert wählen, sondern zufälligen Punkt aus dem Bereich. Illustration: 23 Familie Hoch 17 Sportwagen Hoch 20 Familie Hoch Raute 2: hoch Alter < 30 Typ = Sportwagen hoch Raute 1: hoch Alter < 25 Typ = Sportwagen niedrig Typ = Sportwagen hoch niedrig... Data Warehousing und Mining: Data Preprocessing 73 Data Warehousing und Mining: Data Preprocessing 74 Wie erstellt man Kommittees (3) Wie erstellt man Kommittees (3) von Classifiern, die sich geringfügig unterscheiden? (Forts.) Partitioniere Training Set. Partitioniere Training Set D in N Partitionen D 1, D 2,, D N. Trainiere i-tes Mitglied des Kommittees mit Menge D-D i. Illustration: 23 Familie Hoch 17 Sportwagen Hoch 20 Familie Hoch hoch hoch Alter < 25 Typ = Sportwagen niedrig von Classifiern, die sich geringfügig unterscheiden? (Forts.) Partitioniere Training Set. Partitioniere Training Set D in N Partitionen D 1, D 2,, D N. Trainiere i-tes Mitglied des Kommittees mit Menge D-D i. Illustration: 23 Familie Hoch 17 Sportwagen Hoch 20 Familie Hoch Data Warehousing und Mining: Data Preprocessing 75 Data Warehousing und Mining: Data Preprocessing 76

Wie erstellt man Kommittees (3) Wie erstellt man Kommittees (3) von Classifiern, die sich geringfügig unterscheiden? (Forts.) Partitioniere Training Set. Partitioniere Training Set D in N Partitionen D 1, D 2,, D N. Trainiere i-tes Mitglied des Kommittees mit Menge D-D i. Illustration: 23 Familie Hoch 17 Sportwagen Hoch 20 Familie Hoch von Classifiern, die sich geringfügig unterscheiden? (Forts.) Partitioniere Training Set. Partitioniere Training Set D in N Partitionen D 1, D 2,, D N. Trainiere i-tes Mitglied des Kommittees mit Menge D-D i. Illustration: 23 Familie Hoch 17 Sportwagen Hoch 20 Familie Hoch Data Warehousing und Mining: Data Preprocessing 77 Data Warehousing und Mining: Data Preprocessing 78 Wie erstellt man Kommittees (3) von Classifiern, die sich geringfügig unterscheiden? (Forts.) Partitionieren der Menge der Attribute. Sieht erfolgversprechend aus, wenn Training-Daten sparse sind, aber viele Attribute haben. Beschreibung für Entscheidungsbaum: Baue Entscheidungsbaum auf, lösche das beste Attribut aus Attributmenge (d. h. Split-Attribut der Wurzel), wiederhole dies, bis keine Attribute mehr vorhanden, oder bis Qualität der Vorhersage deutlich zurückgeht. Wie erstellt man Kommittees? Experimentelle Ergebnisse Randomisierung der Parameter des Modells und Partitionierung der Attributmenge führen tendenziell zu hoher Akkuratheit, Kommittees können recht klein sein (< 5), ohne daß man bezüglich Akkuratheit verliert. Data Warehousing und Mining: Data Preprocessing 79 Data Warehousing und Mining: Data Preprocessing 80

Representativität Motivation Realwelt-Daten sind noisy. Wie stellen wir sicher, daß wir keinen Outlier wählen? Representativität von Datenobjekten (1) Wie kombiniert man Repräsentativität mit Unsicherheit? Zwei Ansätze: Erster Ansatz basiert auf Clustering. Repräsentativität eines Datenobjekts geschätzte Dichte. Dimensionen: Beobachtbare Attribute, z. B. Alter. Illustration: x x x x x x x x x x Linker Punkt hat höhere Dichte als rechter. x x Data Warehousing und Mining: Data Preprocessing 81 Data Warehousing und Mining: Data Preprocessing 82 Representativität von Datenobjekten (2) Wie kombiniert man Repräsentativität mit Unsicherheit? Zwei Ansätze: Erster Ansatz (Forts.). Jedem Punkt einen Score zuordnen: Gewichtete Summe von Dichte und Unsicherheit; n Punkte mit höchstem Score. Diverse Parameter. Representativität von Datenobjekten (3) Wie kombiniert man Repräsentativität mit Unsicherheit? Zwei Ansätze (Forts.): Zweiter Ansatz basiert auf Sampling. Kandidaten mit ihrem Unsicherheitswert gewichten. n Objekte auswählen (Auswahl-WS = Gewicht). x x x x x x x x x x x x Data Warehousing und Mining: Data Preprocessing 83 Data Warehousing und Mining: Data Preprocessing 84

Wichtigkeit des Themas Vergleich HS SB Die einzige Ressource, die uns wirklich wichtig ist, ist unsere Zeit und Energie. Alle anderen Ressourcen werden immer billiger; Optimierung diesbezüglich dieser Ressourcen tendenziell weniger bedeutsam. Betrachtungsebene HS: Reduzierung des Rechenaufwands, bzw. Tausch maßvolle Abstriche bei Ergebnisqualität vs. Beschleunigung, SB: Minimierung des intellektuellen Aufwands, Ergebnisqualität ist fest. Was ist gemeint? z Kriterium, ob oder nicht HS: Distanz, SB: Regeln (Entscheidungsbaum), Datenvolumen HS: Sehr große Datenbestände, für die Join zu teuer ist, SB: Kosten des Joins (Aufwand der Mitglieder des Kommittees) werden vernachlässigt. z Data Warehousing und Mining: Data Preprocessing 85 Data Warehousing und Mining: Data Preprocessing 86 Data Reduction: Sampling Data Reduction Sample-Techniken Alternativen: Einfaches Ziehen mit/ohne Zurücklegen, Ziel von Data Reduction: Weniger relevante Attribute weglassen. - Sampling - Choice of Attributes Cluster Sample Beispiel: Datenbank-Tupel von Disk seitenweise einlesen. Stratified Sample Stratum Partition der Datenbank gemäß irgendeines Attributs, z. B. Bundesland. Sampling nach Bundesländern separat. Effekt: Auch kleine Bundesländer werden mit gewünschter Genauigkeit berücksichtigt. - Sampling - Choice of Attributes Beispiel: Starke Korrelation der Attribute Jahreseinkommen und Kontostand. Kosten abhängig von der Größe des Samples, nicht des Datenbestands. z Data Warehousing und Mining: Data Preprocessing 87 Data Warehousing und Mining: Data Preprocessing 88

- Sampling - Choice of Attributes Data Reduction: Auswahl von Attributen (1) Ziel: Analyse einer Klasse, z. B. Tupel mit Nationalität= Schweiz oder Geschlecht= männlich. (D. h. Klassenzugehörigkeit ist bestimmter Wert eines ausgezeichneten Attributs.) Problem: I.Allg. viele Attribute, welche erlauben recht genaue Aussage bezüglich Klassenzugehörigkeit? Attribut ist relevant bezüglich einer Klasse. := Werte dieser Attribute erlauben mit hoher Wahrscheinlichkeit Differenzierung zwischen Elementen dieser Klasse und anderer Klassen. - Sampling - Choice of Attributes Data Reduction: Auswahl von Attributen (2) Beispiele: Kennzeichen wenig relevant, ob KFZ billig oder teuer (d. h. Klasse = Preis-Auto=hoch ), Automarke dagegen schon. Geburtsmonat wenig relevant bezüglich Besserverdiener, Geburtsjahr dagegen schon. Attribute auswählen, die bezüglich Klasse relevant sind. Data Warehousing und Mining: Data Preprocessing 89 Data Warehousing und Mining: Data Preprocessing 90 - Sampling - Choice of Attributes Information Gain (1) S Stichprobe, Menge von Tupeln; ein Attribut bestimmt Klassenzugehörigkeit. s Anzahl der Samples (Sample = Element der Stichprobe). m Anzahl der Klassen C 1,..., C m. s j Anzahl der Samples in Klasse C j. s = s j j Wie überraschend ist Klassenzugehörigkeit eines Samples? Information Gain: m s j s j I( s1, K, sm) = log2 s s j= 1 - Sampling - Choice of Attributes Information Gain (2) Beispiel: s 1 =20, s 2 =...=s m =0 Weitere Stichprobe nicht überraschend. s 1 =5, s 2 =5,..., s m =5 maximale Überraschung (analog zum Spiel aus Kapitel 2). Data Warehousing und Mining: Data Preprocessing 91 Data Warehousing und Mining: Data Preprocessing 92

- Sampling - Choice of Attributes Information Gain (3) We wollen Klasse vorhersagen. C 1 =reich, C 2 =normal, C 3 =arm. Außerdem beobachtbare Attribute. a 1 =Rolls Royce, a 2 =Mercedes, a 3 =VW, a 4 =Kia R.R. M. VW Kia gesamt reich 3 5 2 0 10 normal 0 5 3 2 10 arm 0 1 4 5 10 Ohne Kenntnis des Autos ist Kenntnis des Wohlstands überraschend. Auto-Information konkret verfügbar Grad an Wohlstand weniger überraschend. Analog zur Folie von eben können wir Grad der Überraschung quantifizieren. Data Warehousing und Mining: Data Preprocessing 93 - Sampling - Choice of Attributes Information Gain (4) Attribut A mit Werten {a 1,..., a v } ({RR, M, VW, Kia}) S {S 1,..., S v } s ij Anzahl der Samples mit Attributwert a i in Klasse C j. (C j {reich, normal, arm}) Wie überraschend ist Klasse eines Samples mit Attributwert a i? m sij sij I( si 1, K, sim ) = log2 s s j= 1 Beispiel: Wie überraschend ist Klassenzugehörigkeit der RR-Fahrer? i i Z. B. Alle reichen/ normalen/armen RR-Fahrer geteilt durch alle RR-Fahrer. Data Warehousing und Mining: Data Preprocessing 94 - Sampling - Choice of Attributes Information Gain (5) Wie überraschend ist Klassenzugehörigkeit, wenn ich Attribut A kenne? (Durchschnitt bilden.) E(A) Durchschnitt der I(s i1,, s im ) m ij I( si 1, K, sim ) = log2 j= 1 si s Durchschnittliches Maß an Überraschung, wenn wir das Auto bereits kennen In der Realität wollen wir natürlich möglichst geringe Überraschung. Wir sind an Attributen interessiert, die uns helfen, die Klasse vorherzusagen. s s ij i - Sampling - Choice of Attributes Information Gain (6) Information gain: gain(a) = I(s 1, s 2,..., s m ) E(A). Hoher Information Gain heißt: Attribut diskriminiert gut. Wann ist I(s 1, s 2,..., s m ) groß? Wann ist E(A) groß? z Data Warehousing und Mining: Data Preprocessing 95 Data Warehousing und Mining: Data Preprocessing 96

Mögliche Prüfungsfragen (1) Erläutern Sie die Begriffe Data Cleaning, Data Integration, Data Transformation, Data Reduction. Welche Techniken zur liminierung kennen Sie? Was sind die Zielsetzungen der jeweiligen Techniken? Wieso braucht man für die rkennung eine Äquivalenztheorie? Konstruieren Sie ein Beispiel aus dem Anwendungsbereich Medizin, in dem (a) False-Positives (b) Misses sehr störend sind. Erläutern Sie die Sorted-Neighborhood Methode. Welche Verfeinerungen kennen Sie? Wie wirkt sich die Multi-Pass Verfeinerung aus auf die Zahl der Misses und der False-Positives? Mögliche Prüfungsfragen (2) Was sind Repräsentanten im Kontext von liminierung? Erklären Sie die folgenden Begriffe: Klassifikation, Active Learning, Unsicherheit und Repräsentativität (im Kontext von Active Learning), Cluster Sample, Stratified Sample, Information Gain. Wie baut man einen Entscheidungsbaum auf? Erklären Sie die Arbeitsweise eines Active Learners. Data Warehousing und Mining: Data Preprocessing 97 Data Warehousing und Mining: Data Preprocessing 98 Literatur M. Hernandez and S. Stolfo. Real-world Data is Dirty: Data Cleansing and The Merge/Purge Problem. Data Mining and Knowledge Discovery 2(1): 9-37 (1998) M. Hernandez and S. Stolfo. The Merge/Purge Problem for Large Databases. Proceedings of the 1995 ACM SIGMOD Conference, May 1995. D. Bitton and D.J.DeWitt. Duplicate Record Elimination in Large Data Files. ACM Transactions on Database Systems, 8(2):255-265, June 1983. S. Sarawagi and A. Bhamidipaty. Interactive deduplication using active learning. Proceedings of the Eighth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2002. Data Warehousing und Mining: Data Preprocessing 99