Kapitel 6: Data Preprocessing

Größe: px
Ab Seite anzeigen:

Download "Kapitel 6: Data Preprocessing"

Transkript

1 Kapitel 6: Data Preprocessing Preprocessing (1) Data Cleaning, Data Integration, Data Transformation, Data Reduction, Data Cleaning Daten sind i. Allg.: unvollständig Daten fehlen ganz, oder nur Aggregate sind vorhanden, noisy unkorrekte Attributwerte, inkonsistent unterschiedliche Bezeichnungen im Umlauf; Unser Thema im folgenden: liminierung. Data Warehousing und Mining: Data Preprocessing 1 Data Warehousing und Mining: Data Preprocessing 2 Preprocessing (1) Preprocessing (2) Data Integration unterschiedliche Bezeichnungen auf der Schemaebene ( customer-id vs. cust-id ) und auf der Instanzebene ( Steffi vs. Stephanie ), Unterschiede auf der semantischen Ebene, z. B. Übernachtungspreis mit/ohne Frühstück. Data Transformation hier: Normalisierung, Aggregierung, Data Reduction Ziel: Deutlich geringeres Datenvolumen mit möglichst geringem Informationsverlust: Aggregation und Verallgemeinerungen entlang der Konzepthierarchie, Dimensionalitätsreduktion, Komprimierung, Numerosity Reduction parametrisierte Modelle, Cluster. Z. T. gleiche Techniken, die später als Data Mining-Techniken verkauft werden. Data Warehousing und Mining: Data Preprocessing 3 Data Warehousing und Mining: Data Preprocessing 4

2 Gliederung, limination zwei Ansätze, Data Reduction. Motivation für liminierung Real-World Data is Dirty. Doppelte Post im Briefkasten, wer kennt das nicht. Wie kann das Data Cleaning effizient durchgeführt werden? Auch Problem für Data Warehousing. Warum? Data Warehousing und Mining: Data Preprocessing 5 Data Warehousing und Mining: Data Preprocessing 6 Beispiele aus realem Datensatz liminierung Beispiele (1) SSN Name (First, Initial, Last) Address Lisa Boardman 144 Wars St Lisa Brown 144 Ward St Ramon Bonilla 38 Ward St Raymond Bonilla 38 Ward St. 0 Diana D. Ambrosion 40 Brik Church Av. 0 Diana A. Dambrosion 40 Brick Church Av. 0 Colette Johnen th St. apt. 5a5 0 John Colette th St. ap Ivette A Keegan 23 Florida Av Yvette A Kegan 23 Florida St. Deduplication,, die CiteSeer nicht erkannt hat: L. Breiman, L. Friedman, and P. Stone, (1984). Classification and Regression. Wadsworth, Belmont, CA. Leo Breiman, Jerome H. Friedman, Richard A. Olshen, and Charles J. Stone. Classification and Regression Trees. Wadsworth and Brooks/Cole, Data Warehousing und Mining: Data Preprocessing 7 Data Warehousing und Mining: Data Preprocessing 8

3 liminierung Beispiele (2) Ansätze Vergleich (1) Zählen der gemeinsamen Worte reicht nicht dies sind keine : H. Balakrishnan, S. Seshan, and R. H. Katz, Improving Reliable Transport and Handoff Performance in Cellular Wireless Networks, ACM Wireless Networks, 1(4), December H. Balakrishnan, S. Seshan, E. Amir, R. H. Katz, Improving TCP/IP Performance over Wireless Networks, Proc. 1st ACM Conf. on Mobile Computing and Networking, November Zwei Ansätze, der erste von Hernandez und Stolfo (HS), der zweite von Sarawagi und Bhamidipaty (SB). Verschiedene Zielsetzungen: HS minimiert Kosten der Berechnungen, SB minimiert intellektuellen Aufwand. Data Warehousing und Mining: Data Preprocessing 9 Data Warehousing und Mining: Data Preprocessing 10 Ansätze Vergleich (2) Ansätze Vergleich (3) Unterschiedliche Ziele bezüglich Ergebnisqualität: Unterschiedliche Ziele bezüglich Ergebnisqualität (Forts.): HS: Knowledge Base gegeben (Äquivalenztheorie). Optimalität des Ergebnisses bezieht sich auf diese Knowledge Base. Ansatz tauscht Optimalität des Ergebnisses der liminierung, basierend auf Knowledge Base, gegen Beschleunigung. SB: Erweitert die Knowledge Base, gegeben ein gewisses Maß an intellektueller Anstrengung, die man bereit ist zu investieren, wie sollte Knowledge Base am besten erweitert werden? Data Warehousing und Mining: Data Preprocessing 11 Data Warehousing und Mining: Data Preprocessing 12

4 HS Ansatz Übersicht liminierung - lim. liminierung Implementierungsaspekte, Problem Statement, Äquivalenz, Ermitteln von Repräsentanten, Sorted Neigborhood Methode, Verfeinerungen von Sorted Neigborhood, Experimente und Ergebnisse. - lim. Zunächst, zum Aufwärmen : Wir wollen auf der physischen Ebene eliminieren, d. h. identische Records sollen aus Datenbeständen entfernt werden, select distinct * from big_table Wie implementiert man es effizient? Verbesserung, die im folgenden vorgestellt wird, ist recht einfach und klein. Ziel: Gegenüberstellung liminierung auf physischer Ebene liminierung auf logischer Ebene. Data Warehousing und Mining: Data Preprocessing 13 Data Warehousing und Mining: Data Preprocessing 14 Naheliegender Ansatz Modifizierter Merge-Sort Algo. (1) - lim. liminierung ist im wesentlichen Sortieren. 1. Sortieren, 2. linearer Scan mit Vergleich benachbarter Records, 3. Schreiben der Records ohne. I/O Kosten: N logn + N + N/f N = Anzahl Pages, f = mittlere Anzahl Recordduplikate pro File. Strikte Trennung von Sortieren sowie limination ist nicht zwangsläufig, wird im folgenden aufgebrochen. - lim. Ziel: Eliminierung der möglichst früh stattfinden lassen, liminierung ins Sortieren hineindrücken. Merge-Sort: Aufteilen der Daten in Hälften, Jede Hälfte sortieren, mit Merge-Sort (d. h. Verfahren ist rekursiv), sortierte Hälften mergen, d. h. zu einer sortierten Liste zusammenfügen, mit gleichzeitiger liminierung. Data Warehousing und Mining: Data Preprocessing 15 Data Warehousing und Mining: Data Preprocessing 16

5 Beispiel: Modified Merge-Sort Modifizierter Merge-Sort Algo. (2) 8,5,6,3,1 0,4,3,6,5 3,7,7,6,8 1,4,9,6,7 Minimierung von I/O Operationen Aufteilen der Daten in n Runs, - lim. 1,3,5,6,8 0,3,4,5,6 3,6,7,8, 1,4,6,7,9 0,1,3,4,56,8,,, 1,3,4,6,7 8,9,,, - lim. Runs im Hauptspeicher sortieren, log n Mergephasen mit gleichzeitiger liminierung. 0,1,3,4,5,6,7,9,,,,,,,,,,, Merge-sort & Purge N logn + N + N/f Modified Merge-Sort N logn + N + N/f Data Warehousing und Mining: Data Preprocessing 17 Data Warehousing und Mining: Data Preprocessing 18 - lim. Modifizierter Merge-Sort Algo. (3) Bemerkungen: Einsparung verglichen mit naiver Methode ist abhängig vom Duplikatshäufigkeit f. I/O Reduktion von 7% bei f=2 (uniform verteilte ). - lim. Data-Cleaning Merge/Purge Problem (1) Jetzt limierung auf logischer Ebene. Teilaspekte des Problems: Finde äquivalente Datensätze, d. h. und ähnliche Records, die die gleiche Instanz beschreiben. Alternative Lösungsansätze existieren (z. B. Hash-basierte). Wähle Repräsentanten aus. Vorgehen: Ähnlichkeit wird durch eine Äquivalenz-Theorie definiert. (Theorie: Menge von Formeln, die gemäß Folgerbarkeit abgeschlossen ist.) Data Warehousing und Mining: Data Preprocessing 19 Data Warehousing und Mining: Data Preprocessing 20

6 - lim. Data-Cleaning Merge/Purge Problem (2) Eigenschaft des im folgenden vorgestellten Ansatzes: Effizienz kann mit Genauigkeit erkauft werden und umgekehrt. Hier vorgestellter Ansatz war Grundlage des DataCleanser DataBlades von Informix. - lim. Äquivalenz-Theorie Regeln zur Beschreibung von Äquivalenz. Wahl der Regeln ist problembezogen, Anwendungswissen wird benötigt. Regeln reflektieren Aufbau der Datensätze, Bedeutung der Felder. Welche der folgenden Regeln fällt in die erste, welche in die zweite Kategorie? Data Warehousing und Mining: Data Preprocessing 21 Data Warehousing und Mining: Data Preprocessing 22 Äquivalenz-Theorie Beispiel Ähnlichkeit von Feldinhalten - lim. equiv_record(r1,r2): similar_first(r1,r2), equal_last(r1,r2), similar_id(r1,r2). equiv_record(r1,r2): similar_address(r1,r2), similar_id(r1,r2). - lim. Ähnlichkeit von Feldinhalten kann durch verschiedene Metriken oder Transformationen definiert werden, z. B. phonetische Distanz (Schmidt, Schmitt) similar_address(r1,r2): similar_street(r1,r2), similar_street_num(r1,r2). similar_id(r1,r2): missing_id(r1,r2). similar_id(r1,r2): equal_id(r1,r2). D. h. Definition der Äquivalenz basiert i. Allg. u. a. auf String-Ähnlichkeit. Rechtschreibdistanz (Küssnacht, Küsnacht) Typewriter Distanz (Feller, Geller) Kanonisierungen (Bahnhf-Str., Bahnhofstr., Bahnhofstrasse) Data Warehousing und Mining: Data Preprocessing 23 Data Warehousing und Mining: Data Preprocessing 24

7 Fehlerarten (1) Fehlerarten (2) - lim. Beim Zusammenfassen äquivalenter Records kann zuviel zusammengefaßt werden (= False Positive), zuwenig zusammengefaßt werden (= Miss), Beispiel: der Realität entsprechende Clusterung: {R1;R2;R3} {R4;R5} {R6;R7;R8} {R9;R10} Ergebnis des Algorithmus: {R1;R2;R3} {R4} {R5} {R6;R7;R8;R9;R10} - lim. Fehlerarten: False Positive, Miss, Je nach Verwendungszweck müssen diese Fehler unterschiedlich gewichtet werden. Beispiel: Cleaning von Adreßdaten für Werbeversand. a) Adressaten stört es nicht, wenn sie gleiche Werbung mehrmals erhalten. b) Adressaten sind sauer und kaufen unser Produkt definitiv nicht. In welchem der Fälle sind Misses stoßender? Data Warehousing und Mining: Data Preprocessing 25 Data Warehousing und Mining: Data Preprocessing 26 Sorted Neighborhood Methode (1) Algorithmus - lim. Gegeben Äquivalenztheorie, wie findet man äquivalente Datensätze? Mögliches, aber teures Vorgehen: Similarity Join, Nested-Loop. Sorted-Neighborhood Methode löst das Problem auch weitgehend, ist aber billiger: Durch Sortieren ähnliche Datensätze zusammenbringen, Vergleichsoperation nur in der Umgebung des Datensatzes nach Sortierung, Berechnung der transitiven Hülle. - lim. Konkateniere die Datensätze, erzeuge Schlüssel aus (Teilen der) relevanten Felder, sortiere die Daten anhand dieses Schlüssels (Sort), schiebe ein Fenster der Größe w über die sortierte Liste und vergleiche ersten Record mit den folgenden w-1 Records (Merge) (w ist Parameter des Algorithmus), berechne transitive Hülle, wähle Klassen-Repräsentanten (Purge, vgl. mit einer der folgenden Folien). Data Warehousing und Mining: Data Preprocessing 27 Data Warehousing und Mining: Data Preprocessing 28

8 Merge Illustration Merge Illustration - lim. Relation, deren erkannt werden sollen (sortiert) - lim. Relation, deren erkannt werden sollen (sortiert) Data Warehousing und Mining: Data Preprocessing 29 Data Warehousing und Mining: Data Preprocessing 30 Merge Illustration Merge Illustration - lim. Relation, deren erkannt werden sollen (sortiert) - lim. Relation, deren erkannt werden sollen (sortiert) Data Warehousing und Mining: Data Preprocessing 31 Data Warehousing und Mining: Data Preprocessing 32

9 Frage zum Algorithmus Window Scan Warum reicht Sortieren allein nicht, warum ist das Fenster vorteilhaft? Fenstergröße w beeinflußt Genauigkeit und Rechenaufwand. - lim. - lim. Aktuelles Fenster w w Fenster im nächsten Schritt Data Warehousing und Mining: Data Preprocessing 33 Data Warehousing und Mining: Data Preprocessing 34 Anzusprechende Punkte Data-Cleaning: Schlüsselwahl (1) - lim. Welches Sortierkriterium? Tradeoff zwischen Effizienz und Akkuratheit. - lim. Schlüsselwahl: Definition des Schlüssels ist anwendungsspezifisch Faustregeln : String aus möglichst viel relevanter Info. bilden. Übereinstimmung in signifikanten Stellen bringt Ähnliches zusammen. Data Warehousing und Mining: Data Preprocessing 35 Data Warehousing und Mining: Data Preprocessing 36

10 Data-Cleaning: Schlüsselwahl (2) Transitive Hülle - lim. Vorsicht mit Nummern: Transpositionen haben großen Einfluß. Manchmal erste drei Buchstaben, manchmal erste drei Konsonanten. Beispiel: First Last Address ID Key Sal Stolfo 123 First Street STLSAL123FRST456 Sal Stolfo 123 First Street STLSAL123FRST456 Sal Stolpho 123 First Street STLSAL123FRST456 Sal Stiles 123 Forest Street STLSAL123FRST456 - lim. Transitivität (a = b und b = c a = c) hilft, um äquivalente Datensätze zu erkennen. Berechnung der transitiven Hülle: Diverse Rechenmethoden sind in der Literatur bekannt, z. B. direkte Matrix-Methoden. Verbesserungen der Trefferquote, aber auch Erhöhung der Anzahl der False Positive Fehler. Warum mehr False Positives? Data Warehousing und Mining: Data Preprocessing 37 Data Warehousing und Mining: Data Preprocessing 38 Sorted Neighborhood Methode - Verfeinerungen Sorted Neighborhood Methode Multi-Pass Ansatz (1) - lim. Multipass-Variante, inkrementelle sorted neighborhood Methode. - lim. Motivation Beispiel: VORNAME MIDDLE-INITIAL NAME Diana D Ambrosian Diana Böhm Diana Dambrosian Diana W Böhm Fenstergröße 2. Sortierung nach MI-NAME findet ein Duplikat nicht. Sortierung nach NAME-MI findet anderes Duplikat nicht. Data Warehousing und Mining: Data Preprocessing 39 Data Warehousing und Mining: Data Preprocessing 40

11 Sorted Neighborhood Methode Multi-Pass Ansatz (2) Sorted Neighborhood Methode Multi-Pass Ansatz (3) - lim. Prinzip: Mehrfache Durchführung des Sorted Neighborhood Verfahrens mit unterschiedlichem Sortierschlüssel, Berechnung der transitiven Hülle liefert das Gesamtergebnis. - lim. Vorteile: Gleiche Genauigkeit (Miss-Rate) kann mit geringerer Fensterbreite erreicht werden. (Offensichtlich. Wieso?) Bei gleicher Duplikat-Erkennungsrate, d. h. gleicher Anzahl von Misses, ergeben sich weniger False Positives als mit der Single Pass Methode. (Experimentelles Ergebnis) Data Warehousing und Mining: Data Preprocessing 41 Data Warehousing und Mining: Data Preprocessing 42 Inkrementelle Methode (1) Inkrementelle Methode (2) - lim. Anstelle der vollständigen Menge der Datensätze kann man (im Data Warehouse) mit prime representatives jedes Clusters arbeiten. Löschen von Datensätzen kann Cluster auseinanderreißen (Illustration auf folgender Folie), Algorithmus (Menge von Deletes): 1. Alle Löschungen durchführen und IDs der betroffenen Cluster merken, 2. Neu-Berechnung der betroffenen Cluster. - lim. Beispiel: Ralf Duckstein, Rolf Duckstein, Rolf Dachstein Weitere Vornamen: Rene, Rembert, Robert, Roland Weitere Nachnamen: Dickel, Dormann Data Warehousing und Mining: Data Preprocessing 43 Data Warehousing und Mining: Data Preprocessing 44

12 Auswahl von Repräsentanten Experimentelle Ergebnisse (1) Auswahlkriterien sind fallabhängig, z. B. zufälliges Sample, Hier Ergebnisse mit synthethischen Daten. 1 Last Name, 2 First Name, 3 Street Address - lim. n-letzte Werte, z. B. bei Wohnadressen, Generalisierung, z. B. Mittelbildung, syntaktisch (längster oder vollständigster Rekord), Benutzer-Interface. - lim. Multi-Pass 1,2,3 Multi-Pass Rechenzeit für Single und MP [s] Detektierte [%] z Datenbasis: Rekords (7500 Originale, davon 50% mit 1-5 n) Data Warehousing und Mining: Data Preprocessing 45 Data Warehousing und Mining: Data Preprocessing 46 Experimentelle Ergebnisse (2) Datenbasis: 1M Records Detektierte % 1 Last Name, 2 First Name, 3 Street Address 1 Multi-Pass False-Positive 0 Ist das erwartet? Multi-Pass 3 1,2 - lim. Fallbeispiel: Analyse der OCAR Daten Datensatz des Office of Children Administrative Research, U.S.A., Datenbank über staatliche Zahlungen an Familien und Firmen für Hilfeleistungen an bedürftige Kinder, Schiefe Verteilung der Daten: Mehrere Records pro Individuum. Auswertungen der Records soll eindeutigen Schlüssel zur Identifizierung der einzelnen Kinder liefern. Ziel des Data Cleaning Datenanalyse, z. B. durchschnittlicher Zeitraum finanzieller Unterstützung. Data Warehousing und Mining: Data Preprocessing 47 Data Warehousing und Mining: Data Preprocessing 48

13 Fallbeispiel: Analyse der OCAR Daten (Forts.) Fallbeispiel: Analyse der OCAR Daten (Forts.) - lim. OCAR-Behörde hat ein eigenes Kriterium für Äquivalenz: erste vier Buchstaben des Nachnamens und erste drei Buchstaben des Vornamens und Geburtsmonat und -jahr und interne Nummer müssen übereinstimmen. - lim. Multi-Pass Methode mit folgenden Schlüsseln: Nachname, Vorname, Social Sec. Nummer, interne Nummer, Vorname, Nachname, Social Sec. Nummer, interne Nummer, Interne Nummer, Vorname, Nachname, Social Sec. Nummer. Ziel: Vergleich der Ansätze. Im folgenden: Vergleich mit OCAR-Kriterium. Data Warehousing und Mining: Data Preprocessing 49 Data Warehousing und Mining: Data Preprocessing 50 Ergebnisse mit realen Daten (1) 1 Last Name, 2 First Name, 3 Street Address Possible Misses Multi-Pass Possible False-Positives Beobachtung: Fenstergröße von untergeordneter Bedeutung. Multi-Pass 1,3 2 - lim. Ergebnisse mit realen Daten (2) Wie aussagekräftig sind Kurven auf vorangegangener Folie? Data Warehousing und Mining: Data Preprocessing 51 Data Warehousing und Mining: Data Preprocessing 52

14 - lim. Fallbeispiel: Analyse der OCAR Daten (Forts.) Fehler kann entweder durch das OCAR-Kriterium oder durch die Multi-Pass Methode zustandekommen. Vergleich zufällig ausgewählter Datensätze von Hand, z. B. 45,8% der Potential Misses sind Fehler des OCAR-Kriteriums, 27,1% sind Fehler der Multi-Pass Methode. z Was ist Klassifizierung? Beispiel: Einschätzen des Risikos 23 Familie Hoch 17 Sportwagen Hoch 20 Familie Hoch 65 Sportwagen???? Anwendungen: Medizinische Diagnose Kreditwürdigkeit Wettervorhersage Schrifterkennung Ziel: Neue Tupel richtig klassifizieren. Annahme: zukünftige Daten ähneln den vergangenen. Data Warehousing und Mining: Data Preprocessing 53 Data Warehousing und Mining: Data Preprocessing 54 Binäre Entscheidungsbäume (1) Binäre Entscheidungsbäume (2) Klassifikation Ansätze: Neuronale Netze, genetische Algorithmen, Case-Based Reasoning,... und Entscheidungsbäume (hier: Binäre Entscheidungsbäume) 23 Familie Hoch 17 Sportwagen Hoch 20 Familie Hoch Baum wird aufgebaut basierend auf Training Set. hoch hoch Alter < 25 Typ = Sportwagen niedrig Unterschiedliche Entscheidungsbäume für das gleiche Training Set möglich Beispiel: hoch hoch Alter < 25 Typ = Sportwagen niedrig Typ = Familie Was ist Zusammenhang zu rkennung? Data Warehousing und Mining: Data Preprocessing 55 Data Warehousing und Mining: Data Preprocessing 56

15 Entropie eines Splits Entropie eines Splits: n1 n2 E ( S1, S2) = E( S1) + E( S2) n n Ziel: Split finden, der Entropie minimiert. Definition von Entropie Erinnerung: E( S) = p j log p j j p j relative Häufigkeit von Klasse j in S. Entropie ist minimal, wenn p 1 =1; maximal, wenn p i =p j. Auswahl der Split-Attribute Beispiel (1) Beispiel für geringe Entropie: Gute Wahl der Attribute und Schwellwerte 17 Sportwagen High 20 Familie High 23 Familie High 17 Sportwagen Hoch 20 Familie Hoch 23 Familie Hoch Alter < 27 Entropie: (unter Verwendung von log 2 ) Data Warehousing und Mining: Data Preprocessing 57 Data Warehousing und Mining: Data Preprocessing 58 Auswahl der Split-Attribute Beispiel (2) Beispiel für hohen Entropie-Wert: Weniger gute Wahl der Attribute und Schwellwerte. 20 Familie Hoch 23 Familie Hoch 17 Sportwagen Hoch 20 Familie Hoch 23 Familie Hoch Typ = Familie Entropie: Alter Typ Risk 17 Sportwagen Hoch liminierung (1) liminierung ist Spezialfall der Klassifikation. VORNAME MI NAME Diana D Ambrosian Diana Böhm Diana Dambrosian Diana W Böhm VORNAME MI NAME VORNAME MI NAME DUP Diana D Ambrosian Diana Böhm N Diana D Ambrosian Diana Dambrosian J Diana D Ambrosian Diana W Böhm N Diana Böhm Diana Dambrosian N Diana Böhm Diana W Böhm J Diana Dambrosian Diana W Böhm N Data Warehousing und Mining: Data Preprocessing 59 Data Warehousing und Mining: Data Preprocessing 60

16 liminierung (2) Active Learning Motivation (1) Algorithmen für maschinelles Lernen z. B. Classifier, Training Set Menge von n und Nicht-n, zusätzlicher Input: Diverse einfache anwendungsspezifische Funktionen für das Matching für die unterschiedlichen Attribute Beispiele: Editierdistanz Text-Felder abbreviation match Zahlenfelder: absolute Differenz. Im Versicherungsbeispiel sind Trainingsdaten verfügbar (Menge der Kunden aus der Vergangenheit). Bei rkennung, z. B. CiteSeer, ist das nicht so! Naiver, für Benutzer anstrengender Ansatz: System generiert zufällig Paare von Datenobjekten. Benutzer muß für jedes Paar sagen, ob oder nicht. Ablauf endet, sobald wir gutes Training Set beisammen haben. z Data Warehousing und Mining: Data Preprocessing 61 Data Warehousing und Mining: Data Preprocessing 62 Active Learning Motivation (2) Active Learning Motivation (2) Problem mit (2): Ermitteln eines Training Set, das den Datenbestand gut abdeckt. Problem mit (2): Ermitteln eines Training Set, das den Datenbestand gut abdeckt. Idee: System entdeckt schwierige Datenobjekte, d. h. solche, für die erwarteter Informationsgewinn groß. Benutzer markiert nur diese von Hand. Vorteil: Er muß nur ein paar Paare markieren, im Gegensatz zur o. g. Vorgehensweise. Idee: System entdeckt schwierige Datenobjekte, d. h. solche, für die erwarteter Informationsgewinn groß. Benutzer markiert nur diese von Hand. Vorteil: Er muß nur ein paar Paare markieren, im Gegensatz zur o. g. Vorgehensweise. 17 Sportwagen Hoch 23 Familie Hoch 20 Familie Hoch 17 Sportwagen Hoch 23 Familie Hoch 20 Familie Hoch Data Warehousing und Mining: Data Preprocessing 63 Data Warehousing und Mining: Data Preprocessing 64

17 Active Learning Motivation (3) Beispiel: Ich bin Psychologe und möchte herausfinden, wie mutig Sie sind. Hierzu habe ich Fragebogen entworfen: Würden Sie vom Stuhl springen? Würden Sie vom Tisch springen? Würden Sie aus dem Fenster (1. OG) springen? Würden Sie aus dem Fenster (2. OG) springen? Wie arbeitet Active Learner? (1) Objekt ermitteln, für das Classifier am wenigsten sicher ist. Beispiel: Zwei Klassen: Positiv (P) und negativ (N) Sicher negativ r x d 0 1 region of uncertainty r hat Koordinate 0, b hat Koordinate 1. r ist negativ, b ist positiv. b Sicher positiv Data Warehousing und Mining: Data Preprocessing 65 Data Warehousing und Mining: Data Preprocessing 66 Wie arbeitet Active Learner? (2) Beispiel (Fortsetzung): Wir wollen wissen: Wo ist Schwellenwert zwischen N und P? Wir dürfen für einen Punkt nachschauen. Welchen? Annahme: prob(n) (WS, daß Punkt negativ) umgekehrt proportional zum Abstand von r, d. h., prob(n x)=1-d, prob(p x)=d Information ist d prob(n). Wie arbeitet Active Learner? (3) Beispiel (Forts.): region of uncertainty (Bereich zwischen r und b) muß verkleinert werden. Erwartete Reduktion ist Pr(N x) d+pr(p x) (1-d) =(1-d) d+d (1-d)=2d (1-d) Maximal für d=0.5. Data Warehousing und Mining: Data Preprocessing 67 Data Warehousing und Mining: Data Preprocessing 68

18 Wie arbeitet Active Learner? (4) Beispiel (Forts.): Im Beispiel kann Classifier Klassen vollständig separieren. Weiteres Kriterium neben Unsicherheit: Repräsentativität. Wie bestimmt man Unsicherheit der Vorhersage für ein Datenobjekt? (1) Kommittee (Menge) von N Classifiern, alle unterscheiden sich geringfügig voneinander. z Data Warehousing und Mining: Data Preprocessing 69 Data Warehousing und Mining: Data Preprocessing 70 Wie bestimmt man Unsicherheit der Vorhersage für ein Datenobjekt? (2) Wie bestimmt man Unsicherheit der Vorhersage für ein Datenobjekt? (3) Eindeutiges Duplikat/Nicht-Duplikat wird von allen Mitgliedern (des Kommittees) gleich vorhergesagt. Schwierigere Paare bekommen unterschiedliche Vorhersagen ins Training Set einfügen. Idee funktioniert im Prinzip für alle Arten von Classifiern (regressionsbasiert, Bayes, Entscheidungsbaum). Experte markiert ein paar zufällig ausgewählte Trainingsdaten von Hand. Erstellung des Kommittees. Experte kann jetzt die k schwierigsten Elemente von Hand markieren. Erstellung eines neuen Kommittees, Ablauf wiederholt sich. Wie wählt man k? Data Warehousing und Mining: Data Preprocessing 71 Data Warehousing und Mining: Data Preprocessing 72

19 Wie erstellt man Kommittees (1) Wie erstellt man Kommittees (2) von Classifiern, die sich geringfügig unterscheiden? Parameter des Modells (innerhalb gewisser Grenzen) zufällig wählen Beispiel: Entscheidungsbäume, Split Attribute zufällig auswählen, solange Information Gain nahe beim Optimum. (Alternativ oder zusätzlich:) Nicht mehr Mitte des Bereichs als Schwellenwert wählen, sondern zufälligen Punkt aus dem Bereich. Illustration: 23 Familie Hoch 17 Sportwagen Hoch 20 Familie Hoch Raute 2: hoch Alter < 30 Typ = Sportwagen hoch Raute 1: hoch Alter < 25 Typ = Sportwagen niedrig Typ = Sportwagen hoch niedrig... Data Warehousing und Mining: Data Preprocessing 73 Data Warehousing und Mining: Data Preprocessing 74 Wie erstellt man Kommittees (3) Wie erstellt man Kommittees (3) von Classifiern, die sich geringfügig unterscheiden? (Forts.) Partitioniere Training Set. Partitioniere Training Set D in N Partitionen D 1, D 2,, D N. Trainiere i-tes Mitglied des Kommittees mit Menge D-D i. Illustration: 23 Familie Hoch 17 Sportwagen Hoch 20 Familie Hoch hoch hoch Alter < 25 Typ = Sportwagen niedrig von Classifiern, die sich geringfügig unterscheiden? (Forts.) Partitioniere Training Set. Partitioniere Training Set D in N Partitionen D 1, D 2,, D N. Trainiere i-tes Mitglied des Kommittees mit Menge D-D i. Illustration: 23 Familie Hoch 17 Sportwagen Hoch 20 Familie Hoch Data Warehousing und Mining: Data Preprocessing 75 Data Warehousing und Mining: Data Preprocessing 76

20 Wie erstellt man Kommittees (3) Wie erstellt man Kommittees (3) von Classifiern, die sich geringfügig unterscheiden? (Forts.) Partitioniere Training Set. Partitioniere Training Set D in N Partitionen D 1, D 2,, D N. Trainiere i-tes Mitglied des Kommittees mit Menge D-D i. Illustration: 23 Familie Hoch 17 Sportwagen Hoch 20 Familie Hoch von Classifiern, die sich geringfügig unterscheiden? (Forts.) Partitioniere Training Set. Partitioniere Training Set D in N Partitionen D 1, D 2,, D N. Trainiere i-tes Mitglied des Kommittees mit Menge D-D i. Illustration: 23 Familie Hoch 17 Sportwagen Hoch 20 Familie Hoch Data Warehousing und Mining: Data Preprocessing 77 Data Warehousing und Mining: Data Preprocessing 78 Wie erstellt man Kommittees (3) von Classifiern, die sich geringfügig unterscheiden? (Forts.) Partitionieren der Menge der Attribute. Sieht erfolgversprechend aus, wenn Training-Daten sparse sind, aber viele Attribute haben. Beschreibung für Entscheidungsbaum: Baue Entscheidungsbaum auf, lösche das beste Attribut aus Attributmenge (d. h. Split-Attribut der Wurzel), wiederhole dies, bis keine Attribute mehr vorhanden, oder bis Qualität der Vorhersage deutlich zurückgeht. Wie erstellt man Kommittees? Experimentelle Ergebnisse Randomisierung der Parameter des Modells und Partitionierung der Attributmenge führen tendenziell zu hoher Akkuratheit, Kommittees können recht klein sein (< 5), ohne daß man bezüglich Akkuratheit verliert. Data Warehousing und Mining: Data Preprocessing 79 Data Warehousing und Mining: Data Preprocessing 80

21 Representativität Motivation Realwelt-Daten sind noisy. Wie stellen wir sicher, daß wir keinen Outlier wählen? Representativität von Datenobjekten (1) Wie kombiniert man Repräsentativität mit Unsicherheit? Zwei Ansätze: Erster Ansatz basiert auf Clustering. Repräsentativität eines Datenobjekts geschätzte Dichte. Dimensionen: Beobachtbare Attribute, z. B. Alter. Illustration: x x x x x x x x x x Linker Punkt hat höhere Dichte als rechter. x x Data Warehousing und Mining: Data Preprocessing 81 Data Warehousing und Mining: Data Preprocessing 82 Representativität von Datenobjekten (2) Wie kombiniert man Repräsentativität mit Unsicherheit? Zwei Ansätze: Erster Ansatz (Forts.). Jedem Punkt einen Score zuordnen: Gewichtete Summe von Dichte und Unsicherheit; n Punkte mit höchstem Score. Diverse Parameter. Representativität von Datenobjekten (3) Wie kombiniert man Repräsentativität mit Unsicherheit? Zwei Ansätze (Forts.): Zweiter Ansatz basiert auf Sampling. Kandidaten mit ihrem Unsicherheitswert gewichten. n Objekte auswählen (Auswahl-WS = Gewicht). x x x x x x x x x x x x Data Warehousing und Mining: Data Preprocessing 83 Data Warehousing und Mining: Data Preprocessing 84

22 Wichtigkeit des Themas Vergleich HS SB Die einzige Ressource, die uns wirklich wichtig ist, ist unsere Zeit und Energie. Alle anderen Ressourcen werden immer billiger; Optimierung diesbezüglich dieser Ressourcen tendenziell weniger bedeutsam. Betrachtungsebene HS: Reduzierung des Rechenaufwands, bzw. Tausch maßvolle Abstriche bei Ergebnisqualität vs. Beschleunigung, SB: Minimierung des intellektuellen Aufwands, Ergebnisqualität ist fest. Was ist gemeint? z Kriterium, ob oder nicht HS: Distanz, SB: Regeln (Entscheidungsbaum), Datenvolumen HS: Sehr große Datenbestände, für die Join zu teuer ist, SB: Kosten des Joins (Aufwand der Mitglieder des Kommittees) werden vernachlässigt. z Data Warehousing und Mining: Data Preprocessing 85 Data Warehousing und Mining: Data Preprocessing 86 Data Reduction: Sampling Data Reduction Sample-Techniken Alternativen: Einfaches Ziehen mit/ohne Zurücklegen, Ziel von Data Reduction: Weniger relevante Attribute weglassen. - Sampling - Choice of Attributes Cluster Sample Beispiel: Datenbank-Tupel von Disk seitenweise einlesen. Stratified Sample Stratum Partition der Datenbank gemäß irgendeines Attributs, z. B. Bundesland. Sampling nach Bundesländern separat. Effekt: Auch kleine Bundesländer werden mit gewünschter Genauigkeit berücksichtigt. - Sampling - Choice of Attributes Beispiel: Starke Korrelation der Attribute Jahreseinkommen und Kontostand. Kosten abhängig von der Größe des Samples, nicht des Datenbestands. z Data Warehousing und Mining: Data Preprocessing 87 Data Warehousing und Mining: Data Preprocessing 88

23 - Sampling - Choice of Attributes Data Reduction: Auswahl von Attributen (1) Ziel: Analyse einer Klasse, z. B. Tupel mit Nationalität= Schweiz oder Geschlecht= männlich. (D. h. Klassenzugehörigkeit ist bestimmter Wert eines ausgezeichneten Attributs.) Problem: I.Allg. viele Attribute, welche erlauben recht genaue Aussage bezüglich Klassenzugehörigkeit? Attribut ist relevant bezüglich einer Klasse. := Werte dieser Attribute erlauben mit hoher Wahrscheinlichkeit Differenzierung zwischen Elementen dieser Klasse und anderer Klassen. - Sampling - Choice of Attributes Data Reduction: Auswahl von Attributen (2) Beispiele: Kennzeichen wenig relevant, ob KFZ billig oder teuer (d. h. Klasse = Preis-Auto=hoch ), Automarke dagegen schon. Geburtsmonat wenig relevant bezüglich Besserverdiener, Geburtsjahr dagegen schon. Attribute auswählen, die bezüglich Klasse relevant sind. Data Warehousing und Mining: Data Preprocessing 89 Data Warehousing und Mining: Data Preprocessing 90 - Sampling - Choice of Attributes Information Gain (1) S Stichprobe, Menge von Tupeln; ein Attribut bestimmt Klassenzugehörigkeit. s Anzahl der Samples (Sample = Element der Stichprobe). m Anzahl der Klassen C 1,..., C m. s j Anzahl der Samples in Klasse C j. s = s j j Wie überraschend ist Klassenzugehörigkeit eines Samples? Information Gain: m s j s j I( s1, K, sm) = log2 s s j= 1 - Sampling - Choice of Attributes Information Gain (2) Beispiel: s 1 =20, s 2 =...=s m =0 Weitere Stichprobe nicht überraschend. s 1 =5, s 2 =5,..., s m =5 maximale Überraschung (analog zum Spiel aus Kapitel 2). Data Warehousing und Mining: Data Preprocessing 91 Data Warehousing und Mining: Data Preprocessing 92

24 - Sampling - Choice of Attributes Information Gain (3) We wollen Klasse vorhersagen. C 1 =reich, C 2 =normal, C 3 =arm. Außerdem beobachtbare Attribute. a 1 =Rolls Royce, a 2 =Mercedes, a 3 =VW, a 4 =Kia R.R. M. VW Kia gesamt reich normal arm Ohne Kenntnis des Autos ist Kenntnis des Wohlstands überraschend. Auto-Information konkret verfügbar Grad an Wohlstand weniger überraschend. Analog zur Folie von eben können wir Grad der Überraschung quantifizieren. Data Warehousing und Mining: Data Preprocessing 93 - Sampling - Choice of Attributes Information Gain (4) Attribut A mit Werten {a 1,..., a v } ({RR, M, VW, Kia}) S {S 1,..., S v } s ij Anzahl der Samples mit Attributwert a i in Klasse C j. (C j {reich, normal, arm}) Wie überraschend ist Klasse eines Samples mit Attributwert a i? m sij sij I( si 1, K, sim ) = log2 s s j= 1 Beispiel: Wie überraschend ist Klassenzugehörigkeit der RR-Fahrer? i i Z. B. Alle reichen/ normalen/armen RR-Fahrer geteilt durch alle RR-Fahrer. Data Warehousing und Mining: Data Preprocessing 94 - Sampling - Choice of Attributes Information Gain (5) Wie überraschend ist Klassenzugehörigkeit, wenn ich Attribut A kenne? (Durchschnitt bilden.) E(A) Durchschnitt der I(s i1,, s im ) m ij I( si 1, K, sim ) = log2 j= 1 si s Durchschnittliches Maß an Überraschung, wenn wir das Auto bereits kennen In der Realität wollen wir natürlich möglichst geringe Überraschung. Wir sind an Attributen interessiert, die uns helfen, die Klasse vorherzusagen. s s ij i - Sampling - Choice of Attributes Information Gain (6) Information gain: gain(a) = I(s 1, s 2,..., s m ) E(A). Hoher Information Gain heißt: Attribut diskriminiert gut. Wann ist I(s 1, s 2,..., s m ) groß? Wann ist E(A) groß? z Data Warehousing und Mining: Data Preprocessing 95 Data Warehousing und Mining: Data Preprocessing 96

25 Mögliche Prüfungsfragen (1) Erläutern Sie die Begriffe Data Cleaning, Data Integration, Data Transformation, Data Reduction. Welche Techniken zur liminierung kennen Sie? Was sind die Zielsetzungen der jeweiligen Techniken? Wieso braucht man für die rkennung eine Äquivalenztheorie? Konstruieren Sie ein Beispiel aus dem Anwendungsbereich Medizin, in dem (a) False-Positives (b) Misses sehr störend sind. Erläutern Sie die Sorted-Neighborhood Methode. Welche Verfeinerungen kennen Sie? Wie wirkt sich die Multi-Pass Verfeinerung aus auf die Zahl der Misses und der False-Positives? Mögliche Prüfungsfragen (2) Was sind Repräsentanten im Kontext von liminierung? Erklären Sie die folgenden Begriffe: Klassifikation, Active Learning, Unsicherheit und Repräsentativität (im Kontext von Active Learning), Cluster Sample, Stratified Sample, Information Gain. Wie baut man einen Entscheidungsbaum auf? Erklären Sie die Arbeitsweise eines Active Learners. Data Warehousing und Mining: Data Preprocessing 97 Data Warehousing und Mining: Data Preprocessing 98 Literatur M. Hernandez and S. Stolfo. Real-world Data is Dirty: Data Cleansing and The Merge/Purge Problem. Data Mining and Knowledge Discovery 2(1): 9-37 (1998) M. Hernandez and S. Stolfo. The Merge/Purge Problem for Large Databases. Proceedings of the 1995 ACM SIGMOD Conference, May D. Bitton and D.J.DeWitt. Duplicate Record Elimination in Large Data Files. ACM Transactions on Database Systems, 8(2): , June S. Sarawagi and A. Bhamidipaty. Interactive deduplication using active learning. Proceedings of the Eighth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, Data Warehousing und Mining: Data Preprocessing 99

Kapitel 6: Data Preprocessing

Kapitel 6: Data Preprocessing Kapitel 6: Data Preprocessing Preprocessing (1) Data Cleaning, Data Integration, Data Transformation, Data Reduction, Data Cleaning Daten sind i. a.: unvollständig Daten fehlen ganz, oder nur Aggregate

Mehr

Domain-independent. independent Duplicate Detection. Vortrag von Marko Pilop & Jens Kleine. SE Data Cleansing

Domain-independent. independent Duplicate Detection. Vortrag von Marko Pilop & Jens Kleine. SE Data Cleansing SE Data Cleansing Domain-independent independent Duplicate Detection Vortrag von Marko Pilop & Jens Kleine http://www.informatik.hu-berlin.de/~pilop/didd.pdf {pilop jkleine}@informatik.hu-berlin.de 1.0

Mehr

Kapitel 2: Mathematik- und Informatik-Grundlagen

Kapitel 2: Mathematik- und Informatik-Grundlagen Kapitel 2: Mathematik- und Informatik-Grundlagen Data Warehousing und Mining - 1 einer Menge gibt an, wie zufällig die Daten in einer Menge verteilt sind (bzw. wie zufällig die Ausprägung eines Attributs

Mehr

Kapitel 12: Schnelles Bestimmen der Frequent Itemsets

Kapitel 12: Schnelles Bestimmen der Frequent Itemsets Einleitung In welchen Situationen ist Apriori teuer, und warum? Kapitel 12: Schnelles Bestimmen der Frequent Itemsets Data Warehousing und Mining 1 Data Warehousing und Mining 2 Schnelles Identifizieren

Mehr

Informationstheorethisches Theorem nach Shannon

Informationstheorethisches Theorem nach Shannon Informationstheorethisches Theorem nach Shannon Beispiel zum Codierungsaufwand - Wiederholung: Informationstheorethisches Modell (Shannon) Sei x eine Aussage. Sei M ein Modell Wieviele Bits sind aussreichend,

Mehr

Splitting. Impurity. c 1. c 2. c 3. c 4

Splitting. Impurity. c 1. c 2. c 3. c 4 Splitting Impurity Sei D(t) eine Menge von Lernbeispielen, in der X(t) auf die Klassen C = {c 1, c 2, c 3, c 4 } verteilt ist. Illustration von zwei möglichen Splits: c 1 c 2 c 3 c 4 ML: III-29 Decision

Mehr

Duplikaterkennung. Dr. Armin Roth arminroth.de. Dr. Armin Roth (arminroth.de) II Duplikaterkennung / 17

Duplikaterkennung. Dr. Armin Roth arminroth.de. Dr. Armin Roth (arminroth.de) II Duplikaterkennung / 17 Dr. Armin Roth arminroth.de 27.04.2013 Dr. Armin Roth (arminroth.de) II Duplikaterkennung 27.04.2013 1 / 17 Agenda 1 Wiederholung: Datenwertintegration 2 Duplikaterkennung Dr. Armin Roth (arminroth.de)

Mehr

Entscheidungsbäume. Minh-Khanh Do Erlangen,

Entscheidungsbäume. Minh-Khanh Do Erlangen, Entscheidungsbäume Minh-Khanh Do Erlangen, 11.07.2013 Übersicht Allgemeines Konzept Konstruktion Attributwahl Probleme Random forest E-Mail Filter Erlangen, 11.07.2013 Minh-Khanh Do Entscheidungsbäume

Mehr

Data Mining und Maschinelles Lernen Wintersemester 2015/2016 Lösungsvorschlag für das 12. Übungsblatt

Data Mining und Maschinelles Lernen Wintersemester 2015/2016 Lösungsvorschlag für das 12. Übungsblatt Data Mining und Maschinelles Lernen Wintersemester 2015/2016 Lösungsvorschlag für das 12. Übungsblatt 9. Februar 2016 1 Aufgabe 1: RelieF (1) Gegeben sind folgende 12 Beispiele der Wetter-Daten: ID outlook

Mehr

6.6 Vorlesung: Von OLAP zu Mining

6.6 Vorlesung: Von OLAP zu Mining 6.6 Vorlesung: Von OLAP zu Mining Definition des Begriffs Data Mining. Wichtige Data Mining-Problemstellungen, Zusammenhang zu Data Warehousing,. OHO - 1 Definition Data Mining Menge von Techniken zum

Mehr

Entscheidungsbäume aus großen Datenbanken: SLIQ

Entscheidungsbäume aus großen Datenbanken: SLIQ Entscheidungsbäume aus großen Datenbanken: SLIQ C4.5 iteriert häufig über die Trainingsmenge Wie häufig? Wenn die Trainingsmenge nicht in den Hauptspeicher passt, wird das Swapping unpraktikabel! SLIQ:

Mehr

Maschinelles Lernen: Symbolische Ansätze

Maschinelles Lernen: Symbolische Ansätze Semestralklausur zur Vorlesung Maschinelles Lernen: Symbolische Ansätze Prof. J. Fürnkranz / Dr. G. Grieser Technische Universität Darmstadt Wintersemester 2005/06 Termin: 23. 2. 2006 Name: Vorname: Matrikelnummer:

Mehr

Data Mining - Wiederholung

Data Mining - Wiederholung Data Mining - Wiederholung Norbert Fuhr 18. Januar 2006 Problemstellungen Problemstellungen Daten vs. Information Def. Data Mining Arten von strukturellen Beschreibungen Regeln (Klassifikation, Assoziations-)

Mehr

Seminar Duplikaterkennung

Seminar Duplikaterkennung Seminar Duplikaterkennung Themenvorstellung Sascha Szott (FG Informationssysteme, HPI) 16. April 2008 Themenvorstellung 1 Yan et al.: Adaptive Sorted Neighborhood Methods for Efficient Record Linkage (dazu:

Mehr

4. Lernen von Entscheidungsbäumen

4. Lernen von Entscheidungsbäumen 4. Lernen von Entscheidungsbäumen Entscheidungsbäume 4. Lernen von Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch Attribut/Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse

Mehr

Einleitung. Komplexe Anfragen. Suche ist teuer. VA-File Verfeinerungen. A0-Algo. GeVAS. Schluß. Folie 2. Einleitung. Suche ist teuer.

Einleitung. Komplexe Anfragen. Suche ist teuer. VA-File Verfeinerungen. A0-Algo. GeVAS. Schluß. Folie 2. Einleitung. Suche ist teuer. Anwendung Input: Query-Bild, Ergebnis: Menge ähnlicher Bilder. Kapitel 8: Ähnlichkeitsanfragen und ihre effiziente Evaluierung Wie zu finden? Corbis, NASA: EOS Bilddatenbank Folie Folie 2 Ähnlichkeitssuche

Mehr

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining.

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining. Motivation Themenblock: Klassifikation Praktikum: Data Warehousing und Data Mining Ziel Item hat mehrere Attribute Anhand von n Attributen wird (n+)-tes vorhergesagt. Zusätzliches Attribut erst später

Mehr

Vergleich von SVM und Regel- und Entscheidungsbaum-Lernern

Vergleich von SVM und Regel- und Entscheidungsbaum-Lernern Vergleich von SVM und Regel- und Entscheidungsbaum-Lernern Chahine Abid Bachelor Arbeit Betreuer: Prof. Johannes Fürnkranz Frederik Janssen 28. November 2013 Fachbereich Informatik Fachgebiet Knowledge

Mehr

Maschinelles Lernen: Symbolische Ansätze

Maschinelles Lernen: Symbolische Ansätze Maschinelles Lernen: Symbolische Ansätze Musterlösung für das 7. Übungsblatt Aufgabe 1 Gegeben sei folgende Beispielmenge: Day Outlook Temperature Humidity Wind PlayTennis D1? Hot High Weak No D2 Sunny

Mehr

Dateiorganisation und Zugriffsstrukturen. Prof. Dr. T. Kudraß 1

Dateiorganisation und Zugriffsstrukturen. Prof. Dr. T. Kudraß 1 Dateiorganisation und Zugriffsstrukturen Prof. Dr. T. Kudraß 1 Mögliche Dateiorganisationen Viele Alternativen existieren, jede geeignet für bestimmte Situation (oder auch nicht) Heap-Dateien: Geeignet

Mehr

fuzzy-entscheidungsbäume

fuzzy-entscheidungsbäume fuzzy-entscheidungsbäume klassische Entscheidungsbaumverfahren fuzzy Entscheidungsbaumverfahren Entscheidungsbäume Was ist ein guter Mietwagen für einen Familienurlaub auf Kreta? 27. März 23 Sebastian

Mehr

Data Mining auf Datenströmen Andreas M. Weiner

Data Mining auf Datenströmen Andreas M. Weiner Technische Universität Kaiserslautern Fachbereich Informatik Lehrgebiet Datenverwaltungssysteme Integriertes Seminar Datenbanken und Informationssysteme Sommersemester 2005 Thema: Data Streams Andreas

Mehr

Maschinelles Lernen und Data Mining

Maschinelles Lernen und Data Mining Semestralklausur zur Vorlesung Maschinelles Lernen und Data Mining Prof. J. Fürnkranz / Dr. G. Grieser Technische Universität Darmstadt Wintersemester 2004/05 Termin: 14. 2. 2005 Name: Vorname: Matrikelnummer:

Mehr

Mathematische Grundlagen III

Mathematische Grundlagen III Mathematische Grundlagen III Maschinelles Lernen III: Clustering Vera Demberg Universität des Saarlandes 7. Juli 202 Vera Demberg (UdS) Mathe III 7. Juli 202 / 35 Clustering vs. Klassifikation In den letzten

Mehr

Projektgruppe. Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten

Projektgruppe. Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten Projektgruppe Jennifer Post Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten 2. Juni 2010 Motivation Immer mehr Internet-Seiten Immer mehr digitale Texte Viele Inhalte ähnlich oder gleich

Mehr

Pareto optimale lineare Klassifikation

Pareto optimale lineare Klassifikation Seminar aus Maschinellem Lernen Pareto optimale lineare Klassifikation Vesselina Poulkova Betreuer: Eneldo Loza Mencía Gliederung 1. Einleitung 2. Pareto optimale lineare Klassifizierer 3. Generelle Voraussetzung

Mehr

5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften 5. Clusteranalyse Vorbemerkungen 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer

Mehr

Folien zu Data Mining von I. H. Witten und E. Frank. übersetzt von N. Fuhr

Folien zu Data Mining von I. H. Witten und E. Frank. übersetzt von N. Fuhr Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr Von Naivem Bayes zu Bayes'schen Netzwerken Naiver Bayes Annahme: Attribute bedingt unabhängig bei gegebener Klasse Stimmt in der

Mehr

Data Mining und Maschinelles Lernen Lösungsvorschlag für das 7. Übungsblatt

Data Mining und Maschinelles Lernen Lösungsvorschlag für das 7. Übungsblatt Data Mining und Maschinelles Lernen Lösungsvorschlag für das 7. Übungsblatt Knowledge Engineering Group Data Mining und Maschinelles Lernen Lösungsvorschlag 7. Übungsblatt 1 Aufgabe 1a) Auffüllen von Attributen

Mehr

Seminar. Algorithmische Geometrie

Seminar. Algorithmische Geometrie Seminar Algorithmische Geometrie WS 2000/2001 Thema: Konvexe Hülle Mirko Dennler 21439 Inhaltsverzeichnis Konvexe Hülle 1. Problemstellung 3 2. GRAHAMS SCAN 4-5 3. JARVIS' MARCH 5-6 4. QUICK HULL 6-7 5.

Mehr

Algorithmen und Datenstrukturen 1

Algorithmen und Datenstrukturen 1 Algorithmen und Datenstrukturen 1 6. Vorlesung Martin Middendorf / Universität Leipzig Institut für Informatik middendorf@informatik.uni-leipzig.de studla@bioinf.uni-leipzig.de Merge-Sort Anwendbar für

Mehr

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer Clusterstruktur kennen, verschiedene

Mehr

Algorithmen und Datenstrukturen 1

Algorithmen und Datenstrukturen 1 Algorithmen und Datenstrukturen 1 4. Vorlesung Peter F. Stadler Universität Leipzig Institut für Informatik studla@bioinf.uni-leipzig.de 4. Sortierverfahren Elementare Sortierverfahren - Sortieren durch

Mehr

Physischer DB-Entwurf

Physischer DB-Entwurf Physischer DB-Entwurf Prof. Dr. T. Kudraß 1 Überblick Ausgangslage: Konzeptuelles und externes Schema sind erstellt: ER Modell, Schemaverfeinerung und Definition von Sichten Nächster Schritt: Physischer

Mehr

Pairwise Naive Bayes Classifier

Pairwise Naive Bayes Classifier Pairwise Naive Bayes Classifier Jan-Nikolas Sulzmann 1 1 nik.sulzmann@gmx.de Fachbereich Knowledge Engineering Technische Universität Darmstadt Gliederung 1 Ziel dieser Arbeit 2 Naive Bayes Klassifizierer

Mehr

3.3 Nächste-Nachbarn-Klassifikatoren

3.3 Nächste-Nachbarn-Klassifikatoren 3.3 Nächste-Nachbarn-Klassifikatoren Schrauben Nägel Klammern Neues Objekt Instanzbasiertes Lernen (instance based learning) Einfachster Nächste-Nachbar-Klassifikator: Zuordnung zu der Klasse des nächsten

Mehr

Seminar Duplikaterkennung Organisatorisches und Themen. Sascha Szott, Felix Naumann

Seminar Duplikaterkennung Organisatorisches und Themen. Sascha Szott, Felix Naumann Seminar Duplikaterkennung Organisatorisches und Themen Sascha Szott, Felix Naumann Ziele des Seminars 2 Duplikaterkennung Verstehen in allen Facetten Konsolidierung von Algorithmen Benchmarking / Testing

Mehr

Algorithmen zur Berechnung der Transitiven Hülle einer Datenbankrelation

Algorithmen zur Berechnung der Transitiven Hülle einer Datenbankrelation Algorithmen zur Berechnung der Transitiven Hülle einer Datenbankrelation Daniel Reinhold Shenja Leiser 6. Februar 2006 2/28 Gliederung Einführung Transitive Hülle Definition Iterative Algorithmen 1. Naive

Mehr

OPT Optimierende Clusteranalyse

OPT Optimierende Clusteranalyse Universität Augsburg Fakultät für angewandte Informatik Lehrstuhl für Physische Geographie und Quantitative Methoden Übung zum Projektseminar: Wetterlagen und Feinstaub Leitung: Dr. Christoph Beck Referentin:

Mehr

Hash-Join Algorithmen

Hash-Join Algorithmen Hash-Join lgorithmen dvanced Topics in Databases Ws08/09 atthias ichly Einleitung 2 Grundlage ist das Paper: Join Processing in Database Systems With Large ain emories Quelle: C Transactions on Database

Mehr

Klausur Datenbanken Wintersemester 2009/2010 Prof. Dr. Wolfgang May 2. Februar 2010, Uhr Bearbeitungszeit: 90 Minuten

Klausur Datenbanken Wintersemester 2009/2010 Prof. Dr. Wolfgang May 2. Februar 2010, Uhr Bearbeitungszeit: 90 Minuten Klausur Datenbanken Wintersemester 2009/2010 Prof. Dr. Wolfgang May 2. Februar 2010, 14-16 Uhr Bearbeitungszeit: 90 Minuten Vorname: Nachname: Matrikelnummer: Studiengang: Bei der Klausur sind keine Hilfsmittel

Mehr

3.2. Divide-and-Conquer-Methoden

3.2. Divide-and-Conquer-Methoden LUDWIG- MAXIMILIANS- UNIVERSITY MUNICH DEPARTMENT INSTITUTE FOR INFORMATICS DATABASE 3.2. Divide-and-Conquer-Methoden Divide-and-Conquer-Methoden Einfache Sortieralgorithmen reduzieren die Größe des noch

Mehr

Algorithms & Data Structures 2

Algorithms & Data Structures 2 Algorithms & Data Structures Digital Sorting WS B. Anzengruber-Tanase (Institute for Pervasive Computing, JKU Linz) (Institute for Pervasive Computing, JKU Linz) WIEDERHOLUNG :: UNTERE SCHRANKE FÜR SORTIEREN

Mehr

Maschinelles Lernen: Symbolische Ansätze

Maschinelles Lernen: Symbolische Ansätze Maschinelles Lernen: Symbolische Ansätze Wintersemester 2009/2010 Musterlösung für das 9. Übungsblatt Aufgabe 1: Decision Trees Gegeben sei folgende Beispielmenge: Age Education Married Income Credit?

Mehr

Mehrwegbäume Motivation

Mehrwegbäume Motivation Mehrwegbäume Motivation Wir haben gute Strukturen (AVL-Bäume) kennen gelernt, die die Anzahl der Operationen begrenzen Was ist, wenn der Baum zu groß für den Hauptspeicher ist? Externe Datenspeicherung

Mehr

Decision Tree Learning

Decision Tree Learning Decision Tree Learning Computational Linguistics Universität des Saarlandes Sommersemester 2011 28.04.2011 Entscheidungsbäume Repräsentation von Regeln als Entscheidungsbaum (1) Wann spielt Max Tennis?

Mehr

Data Mining Cup Dokumentation

Data Mining Cup Dokumentation Data Mining Cup 2012 - Dokumentation Martin Dreissig, Michael Flau May 14, 2012 1 Beschreibung der zu analysierenden Daten Die zu analysierenden Daten für den diesjährigen Data Mining Cup bestehen aus

Mehr

Wiederholung. Divide & Conquer Strategie

Wiederholung. Divide & Conquer Strategie Wiederholung Divide & Conquer Strategie Binäre Suche O(log n) Rekursives Suchen im linken oder rechten Teilintervall Insertion-Sort O(n 2 ) Rekursives Sortieren von a[1..n-1], a[n] Einfügen von a[n] in

Mehr

Clustering. Clustering:

Clustering. Clustering: Clustering Clustering: Gruppierung und Einteilung einer Datenmenge nach ähnlichen Merkmalen Unüberwachte Klassifizierung (Neuronale Netze- Terminologie) Distanzkriterium: Ein Datenvektor ist zu anderen

Mehr

Data Mining und Maschinelles Lernen

Data Mining und Maschinelles Lernen Data Mining und Maschinelles Lernen Wintersemester 2015/16 Musterlösung für das 7. Übungsblatt Aufgabe 1 Evaluierungsmethoden Ein Datenset enthält 2 n Beispiele, wobei genau n Beispiele positiv sind und

Mehr

Kapitel 1 Einleitung. Definition: Algorithmus nach M. Broy: aus: Informatik: Eine grundlegende Einführung, Band 1, Springer-Verlag, Berlin

Kapitel 1 Einleitung. Definition: Algorithmus nach M. Broy: aus: Informatik: Eine grundlegende Einführung, Band 1, Springer-Verlag, Berlin Kapitel 1 Einleitung 1.1. Begriff des Algorithmus Eine der ältesten Beschreibungstechniken für Abläufe: Benannt nach dem Mathematiker Al-Khwarizmi (ca. 780...840), der am Hof der Kalifen von Bagdad wirkte.

Mehr

Informatik II Sortieren

Informatik II Sortieren lausthal Sortieralgorithmen Informatik II Sortieren Preprocessing fürs Suchen sind für kommerzielle Anwendungen häufig die Programmteile, die die meiste Rechenzeit verbrauchen viele raffinierte Methoden

Mehr

Informatik II Sortieren

Informatik II Sortieren lausthal Informatik II Sortieren. Zachmann lausthal University, ermany zach@in.tu-clausthal.de Sortieralgorithmen Preprocessing fürs Suchen sind für kommerzielle Anwendungen häufig die Programmteile, die

Mehr

Maschinelles Lernen: Symbolische Ansätze. Wintersemester 2013/2014 Musterlösung für das 7. Übungsblatt

Maschinelles Lernen: Symbolische Ansätze. Wintersemester 2013/2014 Musterlösung für das 7. Übungsblatt Maschinelles Lernen: Symbolische Ansätze Wintersemester 2013/2014 Musterlösung für das 7. Übungsblatt 1 Aufgabe 1 Nearest Neighbour Gegeben sei folgende Beispielmenge: Day Outlook Temperature Humidity

Mehr

6. Anfragebearbeitung

6. Anfragebearbeitung 6. Anfragebearbeitung 6.1 Einleitung 6.2 Indexstrukturen 6.3 Grundlagen der Anfrageoptimierung 6.4 Logische Anfrageoptimierung 6.5 Kostenmodellbasierte Anfrageoptimierung 55 Fokus: Effiziente Berecnung

Mehr

Definition 77 Sei n N. Der Median (das mittlere Element) einer total geordneten Menge von n Elementen ist deren i-kleinstes Element, wobei n i =.

Definition 77 Sei n N. Der Median (das mittlere Element) einer total geordneten Menge von n Elementen ist deren i-kleinstes Element, wobei n i =. 2. Der Blum-Floyd-Pratt-Rivest-Tarjan Selektions-Algorithmus Definition 77 Sei n N. Der Median (das mittlere Element) einer total geordneten Menge von n Elementen ist deren i-kleinstes Element, wobei n

Mehr

Beweis: Annahme: T (n) c n, wobei c = c(m) konstant ist. Die Annahme ist ok, falls T (n)

Beweis: Annahme: T (n) c n, wobei c = c(m) konstant ist. Die Annahme ist ok, falls T (n) Beweis: Annahme: T (n) c n, wobei c = c(m) konstant ist. Die Annahme ist ok, falls T (n) ( ( ) n 3 T + T m ) 4 n n 3 c + m 4 n c + n n + C m + cn; dies gilt, falls m 2 n m C m + n 2 (bis auf, ) c m + 3

Mehr

Bayes sches Lernen: Übersicht

Bayes sches Lernen: Übersicht Bayes sches Lernen: Übersicht Bayes sches Theorem MAP, ML Hypothesen MAP Lernen Minimum Description Length Principle Bayes sche Klassifikation Naive Bayes Lernalgorithmus Teil 10: Naive Bayes (V. 1.0)

Mehr

Privacy-Maße k-anonymity, l-diversity, t-closeness

Privacy-Maße k-anonymity, l-diversity, t-closeness Fakultät Informatik Proseminar Datenschutz in der Anwendungsentwicklung Privacy-Maße k-anonymity, l-diversity, t-closeness Dresden, 02.05.2013 D 01 Einführung: Beispiel Geburtstag Geschlecht PLZ Krankheit

Mehr

Hash-Verfahren. Prof. Dr. T. Kudraß 1

Hash-Verfahren. Prof. Dr. T. Kudraß 1 Hash-Verfahren Prof. Dr. T. Kudraß 1 Einführung Drei Alternativen, wie Dateneinträge k* im Index aussehen können: 1. Datensatz mit Schlüsselwert k.

Mehr

Data Mining und Maschinelles Lernen Lösungsvorschlag für das 1. Übungsblatt

Data Mining und Maschinelles Lernen Lösungsvorschlag für das 1. Übungsblatt Data Mining und Maschinelles Lernen Lösungsvorschlag für das 1. Übungsblatt Knowledge Engineering Group Data Mining und Maschinelles Lernen Lösungsvorschlag 1. Übungsblatt 1 1. Anwendungsszenario Überlegen

Mehr

Seminarvortrag zum Thema maschinelles Lernen I - Entscheidungsbäume. von Lars-Peter Meyer. im Seminar Methoden wissensbasierter Systeme

Seminarvortrag zum Thema maschinelles Lernen I - Entscheidungsbäume. von Lars-Peter Meyer. im Seminar Methoden wissensbasierter Systeme Seminarvortrag zum Thema maschinelles Lernen I - Entscheidungsbäume von Lars-Peter Meyer im Seminar Methoden wissensbasierter Systeme bei Prof. Brewka im WS 2007/08 Übersicht Überblick maschinelles Lernen

Mehr

Kapitel 2. Weitere Beispiele Effizienter Algorithmen

Kapitel 2. Weitere Beispiele Effizienter Algorithmen Kapitel 2 Weitere Beispiele Effizienter Algorithmen Sequentielle Suche Gegeben: Array a[1..n] Suche in a nach Element x Ohne weitere Zusatzinformationen: Sequentielle Suche a[1] a[2] a[3] Laufzeit: n Schritte

Mehr

Physische Anfrageoptimierung

Physische Anfrageoptimierung Web Science & Technologies University of Koblenz Landau, Germany Grundlagen der Datenbanken Dr. Jérôme Kunegis Wintersemester 201/14 Ziel der physischen Optimierung π[titel] Konkrete Implementation der

Mehr

Bayes sches Lernen: Übersicht

Bayes sches Lernen: Übersicht Bayes sches Lernen: Übersicht Bayes sches Theorem MAP, ML Hypothesen MAP Lernen Minimum Description Length Principle Bayes sche Klassifikation Naive Bayes Lernalgorithmus Teil 5: Naive Bayes + IBL (V.

Mehr

Kapitel 3: Sortierverfahren Gliederung

Kapitel 3: Sortierverfahren Gliederung Gliederung 1. Grundlagen 2. Zahlentheoretische Algorithmen 3. Sortierverfahren 4. Ausgewählte Datenstrukturen 5. Dynamisches Programmieren 6. Graphalgorithmen 7. String-Matching 8. Kombinatorische Algorithmen

Mehr

(a, b)-bäume / 1. Datenmenge ist so groß, dass sie auf der Festplatte abgespeichert werden muss.

(a, b)-bäume / 1. Datenmenge ist so groß, dass sie auf der Festplatte abgespeichert werden muss. (a, b)-bäume / 1. Szenario: Datenmenge ist so groß, dass sie auf der Festplatte abgespeichert werden muss. Konsequenz: Kommunikation zwischen Hauptspeicher und Festplatte - geschieht nicht Byte für Byte,

Mehr

Distributed Algorithms. Image and Video Processing

Distributed Algorithms. Image and Video Processing Chapter 6 Optical Character Recognition Distributed Algorithms for Übersicht Motivation Texterkennung in Bildern und Videos 1. Erkennung von Textregionen/Textzeilen 2. Segmentierung einzelner Buchstaben

Mehr

2. Datenvorverarbeitung

2. Datenvorverarbeitung Kurzreferat Das Ziel beim Clustering ist es möglichst gleich Datensätze zu finden und diese in Gruppen, sogenannte Cluster zu untergliedern. In dieser Dokumentation werden die Methoden k-means und Fuzzy

Mehr

Linkage Flooding: Ein Algorithmus zur dateninhaltsorientierten Fusion in vernetzten Informationsbeständen

Linkage Flooding: Ein Algorithmus zur dateninhaltsorientierten Fusion in vernetzten Informationsbeständen Linkage Flooding: Ein Algorithmus zur dateninhaltsorientierten Fusion in vernetzten Informationsbeständen Vanda Lehel, Florian Matthes, Sebastian Riedel Lehrstuhl Software Engineering betrieblicher Informationssysteme

Mehr

Inhalt. 6.1 Motivation. 6.2 Klassifikation. 6.3 Clusteranalyse. 6.4 Asszoziationsanalyse. Datenbanken & Informationssysteme / Kapitel 6: Data Mining

Inhalt. 6.1 Motivation. 6.2 Klassifikation. 6.3 Clusteranalyse. 6.4 Asszoziationsanalyse. Datenbanken & Informationssysteme / Kapitel 6: Data Mining 6. Data Mining Inhalt 6.1 Motivation 6.2 Klassifikation 6.3 Clusteranalyse 6.4 Asszoziationsanalyse 2 6.1 Motivation Data Mining and Knowledge Discovery zielt darauf ab, verwertbare Erkenntnisse (actionable

Mehr

Lernmodul 7 Algorithmus von Dijkstra

Lernmodul 7 Algorithmus von Dijkstra Folie 1 von 30 Lernmodul 7 Algorithmus von Dijkstra Quelle: http://www.map24.de Folie 2 von 30 Algorithmus von Dijkstra Übersicht Kürzester Weg von A nach B in einem Graphen Problemstellung: Suche einer

Mehr

Hash-Verfahren. Einführung

Hash-Verfahren. Einführung Hash-Verfahren Prof. Dr. T. Kudraß 1 Einführung Drei Alternativen, wie Dateneinträge k* im Index aussehen können: 1. Datensatz mit Schlüsselwert k.

Mehr

Abschnitt 19: Sortierverfahren

Abschnitt 19: Sortierverfahren Abschnitt 19: Sortierverfahren 19. Sortierverfahren 19.1 Allgemeines 19.2 Einfache Sortierverfahren 19.3 Effizientes Sortieren: Quicksort 19.4 Zusammenfassung 19 Sortierverfahren Informatik 2 (SS 07) 758

Mehr

Vorlesung Datenbanktheorie. Church-Rosser-Eigenschaft der Verfolgungsjagd. Berechnung von chase(t, t, Σ) Vorlesung vom Mittwoch, 05.

Vorlesung Datenbanktheorie. Church-Rosser-Eigenschaft der Verfolgungsjagd. Berechnung von chase(t, t, Σ) Vorlesung vom Mittwoch, 05. Vorlesung Datenbanktheorie Nicole Schweikardt Humboldt-Universität zu Berlin Sommersemester 2006 Vorlesung vom Mittwoch, 05. Juli 2006 Letzte Vorlesung: Kurze Bemerkungen zum Armstrong-Kalkül The Chase:

Mehr

G. Zachmann Clausthal University, Germany Die wichtigsten Entwurfsverfahren für Algorithmen:

G. Zachmann Clausthal University, Germany Die wichtigsten Entwurfsverfahren für Algorithmen: lausthal Informatik II Divide & onquer. Zachmann lausthal University, ermany zach@in.tu-clausthal.de Algorithmen-Design-Techniken Die wichtigsten Entwurfsverfahren für Algorithmen: 1. Divide and onquer

Mehr

Mathematische Grundlagen III

Mathematische Grundlagen III Mathematische Grundlagen III Maschinelles Lernen II: Klassifikation mit Entscheidungsbäumen Vera Demberg Universität des Saarlandes 12. Juli 2012 Vera Demberg (UdS) Mathe III 12. Juli 2012 1 / 38 Einleitung

Mehr

Anfrageoptimierung Physische Optimierung

Anfrageoptimierung Physische Optimierung Institute for Web Science & Technologies WeST Grundlagen der Datenbanken Physische Optimierung Dr. Thomas Gottron Wintersemester 01/1 Ziel der phyischen Optimierung Konkrete Implementation der Operatoren

Mehr

Optimierung von Datenbanken

Optimierung von Datenbanken Optimierung von Datenbanken Vortrag in Datenbanken II Bettina Keil 19. Juni 2008 Optimierung von Datenbanken 1/17 Gliederung Motivation Optimierung von Datenbanken 2/17 Motivation Performancesteigerung:

Mehr

Kapitel III Selektieren und Sortieren

Kapitel III Selektieren und Sortieren Kapitel III Selektieren und Sortieren 1. Einleitung Gegeben: Menge S von n Elementen aus einem total geordneten Universum U, i N, 1 i n. Gesucht: i-kleinstes Element in S. Die Fälle i = 1 bzw. i = n entsprechen

Mehr

Algorithmen und Datenstrukturen 12

Algorithmen und Datenstrukturen 12 12. Juli 2012 1 Besprechung Blatt 11 Fragen 2 Binary Search Binäre Suche in Arrays Binäre Suchbäume (Binary Search Tree) 3 Sortierverfahren Allgemein Heapsort Bubblesort Insertionsort Mergesort Quicksort

Mehr

2.1. Konvexe Hülle in 2D

2.1. Konvexe Hülle in 2D Wir wollen die konvexe Hülle einer Menge von Punkten P = {p 1,..., p n } in der Ebene R 2 bestimmen. y y x x Def. 21: Eine Teilmenge S der Ebene ist konvex gdw für jedes Paar das Liniensegment pq in S

Mehr

Literatur: Jeffrey D. Ullman: Principles of Database Systems, 2 nd Edition 1982, Kapitel 2.2

Literatur: Jeffrey D. Ullman: Principles of Database Systems, 2 nd Edition 1982, Kapitel 2.2 Hashorganisation HASHORGANISATION Literatur: Jeffrey D. Ullman: Principles of Database Systems, 2 nd Edition 982, Kapitel 2.2 Die Sätze der Datei werden auf eine Menge von Buckets aufgeteilt. Jedes Bucket

Mehr

7. Sortieren Lernziele. 7. Sortieren

7. Sortieren Lernziele. 7. Sortieren 7. Sortieren Lernziele 7. Sortieren Lernziele: Die wichtigsten Sortierverfahren kennen und einsetzen können, Aufwand und weitere Eigenschaften der Sortierverfahren kennen, das Problemlösungsparadigma Teile-und-herrsche

Mehr

Item-based Collaborative Filtering

Item-based Collaborative Filtering Item-based Collaborative Filtering Paper presentation Martin Krüger, Sebastian Kölle 28.04.2011 Seminar Collaborative Filtering KDD Cup 2011: Aufgabenbeschreibung Track 1 Item-based Collaborative Filtering

Mehr

4. OBDDs und Modellüberprüfung

4. OBDDs und Modellüberprüfung 4. OBDDs und Modellüberprüfung OBDD Ordered Binary Decision Diagrams Geordnete binäre Entscheidungsdiagramme Binäres Entscheidungsdiagramm: in der einfachsten Form ein binärer Entscheidungsbaum, in dem

Mehr

Das Suchproblem 4. Suchen Das Auswahlproblem Suche in Array

Das Suchproblem 4. Suchen Das Auswahlproblem Suche in Array Das Suchproblem Gegeben. Suchen Lineare Suche, Binäre Suche, Interpolationssuche, Untere Schranken [Ottman/Widmayer, Kap. 3.2, Cormen et al, Kap. 2: Problems 2.-3,2.2-3,2.3-] Menge von Datensätzen. Beispiele

Mehr

GRUNDLAGEN VON INFORMATIONSSYSTEMEN INDEXSTRUKTUREN I: B-BÄUME UND IHRE VARIANTEN

GRUNDLAGEN VON INFORMATIONSSYSTEMEN INDEXSTRUKTUREN I: B-BÄUME UND IHRE VARIANTEN Informationssysteme - Indexstrukturen I: B-Bäume und ihre Varianten Seite 1 GRUNDLAGEN VON INFORMATIONSSYSTEMEN INDEXSTRUKTUREN I: B-BÄUME UND IHRE VARIANTEN Leiter des Proseminars: Dr.Thomas Bode Verfasser

Mehr

ADS: Algorithmen und Datenstrukturen 2

ADS: Algorithmen und Datenstrukturen 2 ADS: Algorithmen und Datenstrukturen 2 Teil 6 Prof. Dr. Gerhard Heyer Institut für Informatik Abteilung Automatische Sprachverarbeitung Universität Leipzig 16. Mai 2018 [Letzte Aktualisierung: 18/05/2018,

Mehr

k-nächste-nachbarn-schätzung

k-nächste-nachbarn-schätzung k-nächste-nachbarn-schätzung Mustererkennung und Klassifikation, Vorlesung No. 7 1 M. O. Franz 29.11.2007 1 falls nicht anders vermerkt, sind die Abbildungen entnommen aus Duda et al., 2001. Übersicht

Mehr

Algorithmen und Datenstrukturen

Algorithmen und Datenstrukturen Algorithmen und Datenstrukturen B7. Balancierte Bäume 1 Marcel Lüthi and Gabriele Röger Universität Basel 13. April 2018 1 Folien basieren auf Vorlesungsfolien von Sedgewick & Wayne https://algs4.cs.princeton.edu/lectures/33balancedsearchtrees-2x2.pdf

Mehr

a) Fügen Sie die Zahlen 39, 38, 37 und 36 in folgenden (2, 3)-Baum ein:

a) Fügen Sie die Zahlen 39, 38, 37 und 36 in folgenden (2, 3)-Baum ein: 1 Aufgabe 8.1 (P) (2, 3)-Baum a) Fügen Sie die Zahlen 39, 38, 37 und 36 in folgenden (2, 3)-Baum ein: Zeichnen Sie, was in jedem Schritt passiert. b) Löschen Sie die Zahlen 65, 70 und 100 aus folgendem

Mehr

Das Suchproblem. Gegeben Menge von Datensätzen. Beispiele Telefonverzeichnis, Wörterbuch, Symboltabelle

Das Suchproblem. Gegeben Menge von Datensätzen. Beispiele Telefonverzeichnis, Wörterbuch, Symboltabelle 119 4. Suchen Lineare Suche, Binäre Suche, Interpolationssuche, Exponentielle Suche, Untere Schranken [Ottman/Widmayer, Kap. 3.2, Cormen et al, Kap. 2: Problems 2.1-3,2.2-3,2.3-5] 120 Das Suchproblem Gegeben

Mehr

Das Suchproblem 4. Suchen Das Auswahlproblem Suche in Array

Das Suchproblem 4. Suchen Das Auswahlproblem Suche in Array Das Suchproblem Gegeben. Suchen Lineare Suche, Binäre Suche, Interpolationssuche, Exponentielle Suche, Untere Schranken [Ottman/Widmayer, Kap. 3.2, Cormen et al, Kap. 2: Problems 2.-3,2.2-3,2.3-] Menge

Mehr

Das Suchproblem. Gegeben Menge von Datensätzen. Beispiele Telefonverzeichnis, Wörterbuch, Symboltabelle

Das Suchproblem. Gegeben Menge von Datensätzen. Beispiele Telefonverzeichnis, Wörterbuch, Symboltabelle 122 4. Suchen Lineare Suche, Binäre Suche, Interpolationssuche, Untere Schranken [Ottman/Widmayer, Kap. 3.2, Cormen et al, Kap. 2: Problems 2.1-3,2.2-3,2.3-5] 123 Das Suchproblem Gegeben Menge von Datensätzen.

Mehr

Inhalt. 4.1 Motivation. 4.2 Evaluation. 4.3 Logistische Regression. 4.4 k-nächste Nachbarn. 4.5 Naïve Bayes. 4.6 Entscheidungsbäume

Inhalt. 4.1 Motivation. 4.2 Evaluation. 4.3 Logistische Regression. 4.4 k-nächste Nachbarn. 4.5 Naïve Bayes. 4.6 Entscheidungsbäume 4. Klassifikation Inhalt 4.1 Motivation 4.2 Evaluation 4.3 Logistische Regression 4.4 k-nächste Nachbarn 4.5 Naïve Bayes 4.6 Entscheidungsbäume 4.7 Support Vector Machines 4.8 Neuronale Netze 4.9 Ensemble-Methoden

Mehr