Kapitel 16: Identifikation von Outliern

Transkript

1 Kapitel 16: Identifikation von Gliederung Motivation allgemeine Bemerkungen Übersicht über die Ansätze Abstand-basierte Ermittlung von Dichte-basierte Ermittlung von Evolutionärer Ansatz: Anwendung genetischer Algorithmen Data Mining Technology: Outlier Detection 1 Data Mining Technology: Outlier Detection Illustration Was ist ein Outlier? Attribut Intuitiv: Outlier ist definiert als Element des Datenbestands, daß in bestimmter Hinsicht vom restlichen Datenbestand erheblich abweicht. Unterschiedliche Techniken zum Ermitteln von eistieren. Attribut 1 Data Mining Technology: Outlier Detection 3 Data Mining Technology: Outlier Detection 4

2 Anwendungsszenarien Beispiele Vielfalt der Ansätze Erkennen von Kreditkartenbetrug (fraud detection), Videoüberwachung, Erkennen von Netzwerkfehlern, E-Commerce, Finanzen, Marketing. 1. Basierend auf Verteilung,. basierend auf Clustering; 3., 4. Dichte-basiert. Data Cleaning. Data Mining Technology: Outlier Detection 5 Data Mining Technology: Outlier Detection 6 es Ermitteln der Outlier Illustration - Indebasiert Objekt O, das in Datenbestand T enthalten ist, ist ein DB(p,D)-Outlier, wenn der Abstand von O zu mindestens p Prozent der Objekte in T größer ist als D. - Indebasiert D O O ist Outlier, wenn p=0.6. O ist kein Outlier, wenn p=0.99. Data Mining Technology: Outlier Detection 7 Data Mining Technology: Outlier Detection 8

3 es Ermitteln der Outlier Algorithmen kdb-baum Inde-basiert, y (, y) (6, --) nested-loop, Zellen-basiert. 6 4 query (--, 6) (--, 4) (4, --) (3, --) - Indebasiert - Indebasiert 0 0 data space 6 (--, ) kdb-tree Data Mining Technology: Outlier Detection 9 Data Mining Technology: Outlier Detection 10 R-Baum es Ermitteln der Outlier Inde-Basierter Algo. k-nn Query für jeden Punkt, root Stop, sobald mehr Punkte als erforderlich in der Nachbarschaft. - Indebasiert - Indebasiert Ansatz insbesondere dann teuer, wenn Inde noch nicht eistiert und erst aufgebaut werden muß. query data space R-tree Data Mining Technology: Outlier Detection 11 Data Mining Technology: Outlier Detection 1

4 es Ermitteln der Outlier Nested- Algorithmus Illustration Nested- Algorithmus (1) Zähler für jeden Tupel der äußeren Relation, Stop, sobald Relation Relation - Indebasiert Kosten: Quadratisch in der Anzahl der Datenobjekte. - Indebasiert Join Attribute Data Mining Technology: Outlier Detection 13 Data Mining Technology: Outlier Detection 14 - Indebasiert Illustration Nested- Algorithmus () Relation A Join Attribute Relation B Data Mining Technology: Outlier Detection 15 von eben - Indebasiert es Ermitteln der Outlier Objekt O, das in Datenbestand T enthalten ist, ist ein DB(p,D)-Outlier, wenn der Abstand von O zu mindestens p Prozent der Objekte in T größer ist als D. Beispiel: 1000 Objekte, p=99. D. h. höchstens neun Objekte mit Abstand D oder weniger. Data Mining Technology: Outlier Detection 16

5 Zellen-basierter Algorithmus (1) Zellen-basierter Algorithmus () - Indebasiert k-dimensionaler Raum partitioniert in Zellen der Länge D (k Dimensionalität), k Jeden Tupel seiner Zelle zuordnen. D D D - Indebasiert Zellen mit weniger als m Tupeln in L-Nachbarschaft enthalten nur Outlier. Zellen mit mehr als m = 1 p Tupeln in L1-Nachbarschaft (rosafarbene Zellen) enthalten keine Outlier, brauchen nicht weiter betrachtet zu werden. Restliche Zellen: Outlier ermitteln, indem man Tupel einzeln inspiziert. Vorteil: Datenbestand wird maimal dreimal durchlaufen. L 1 L Data Mining Technology: Outlier Detection 17 Data Mining Technology: Outlier Detection 18 Zellen-basierter Algorithmus (3) Alternative (1) - Indebasiert Berechnung der Outlier durch Inspektion einzelner Tupel typischerweise IO-intensiv nur Seiten mit Tupeln mit unklarem Status im Hauptspeicher. - Indebasiert Andere von Outlier. Ansatz basiert auf Abstand D zwischen Punkt P und seinem k-nn D k (P) Ranking der Punkte basiert auf D k (P). Top-n Punkte sind per Outlier. Data Mining Technology: Outlier Detection 19 Data Mining Technology: Outlier Detection 0

6 - Indebasiert Beispiel für k=: P P 1 P 4 P3 Alternative () P 5 P ist -NN von P 1, P 3 ist -NN von P 4, usw. Sortierte Liste der Punkte: P 6, P 5, P 4, P, P 3, P 1 Data Mining Technology: Outlier Detection 1 P 6 Folie zum Thema Clustering Ermitteln der Dimensionen zu einem Medoid () L 1 δ 1 L m 1 m m 3 m 4 Unterschiede zur folgenden Folie: Nicht nur Medoide, sondern alle Datenpunkte. Nicht unbedingt nächster Nachbar, sondern k-nn. Data Mining Technology: Outlier Detection Dichte-basierte Outlier-Ermittlung Konzepte (1) k-abstand von p Abstand des k-nn, k-nachbarschaft N k (p) Punkte innerhalb dieses Abstands um p (inklusive k-nn). Illustration: P P 1 P 4 P3 P 6 Dichte-basierte Outlier-Ermittlung Konzepte () local reachability density von p Kehrwert des Durchschnittsabstands zwischen p und den Punkten in der k-nachbarschaft. Abschätzung der Dichte bei p. Dichte allein nicht aussagekräftig genug. Illustration. P 5 Warum sollte man k > 1 wählen? Data Mining Technology: Outlier Detection 3 Data Mining Technology: Outlier Detection 4

7 Dichte-basierte Outlier-Ermittlung Konzepte (3) local outlier factor von p Durchschnitt der Verhältnisse der local reachability density von p und der der k nächsten Nachbarn von p. Local outlier factor von p ist hoch, wenn seine local reachability density niedriger als die seiner Nachbarn ist. Data Mining Technology: Outlier Detection 5 Local Outlier Factor Illustration Beispiel für k=: P 4 P 3.5 P 5 -Abstand(P 1 )=10, -Abstand(P 5 )=4 1 lrd 1 = ( P ) = ( ) ( P ) 1 lrd( P 4 ) = = ( 4 + ) lof P1 = = ( ).887 Data Mining Technology: Outlier Detection 6 P 1 1 lrd 5 = = ( 4 +.5) Algorithmus (1) Micro-Cluster (1) Local outlier factor als Indikator für Outlier macht Sinn. Aber: Berechnung des local outlier factors für alle Datenpunkte ist teuer. Idee: Verwende Clustering, um Großteil der Datenpunkte zu prunen. Ideen ähnlich zu BIRCH (hierarchisches Clustering). Daten werden zu kleinen Clustern komprimiert. Jeder Cluster repräsentiert durch wenige aggregierte Werte, nämlich Anzahl der Datenobjekte, Mittelpunkt c, Radius r=ma(d(p i, c)) Data Mining Technology: Outlier Detection 7 Data Mining Technology: Outlier Detection 8

8 Micro-Cluster () Algorithmus () Micro-Cluster Blatt-Cluster, wie bei BIRCH. Größe der Micro-Cluster durch maradius begrenzt. Split, indem man Datenobjekte mit maimalem Abstand als Seeds nimmt. Annahme: Micro-Cluster passen in Hauptspeicher. Gegeben Micro-Clustering, können wir obere und untere Schranke für local outlier factors für jeden Datenpunkt berechnen. Wenn obere Schranke des local outlier factors von P kleiner ist als untere Schranke des local outlier factors vieler Datenpunkte, können wir P prunen. Data Mining Technology: Outlier Detection 9 Data Mining Technology: Outlier Detection 30 Illustration Outlier Detection in hochdimensionalen Datenbeständen root Wenn Datenbestand hochdimensional ist, enthalten üblicherweise nur Teilräume Outlier. Konventionelle Techniken sind nicht effektiv. - Indebasiert data space R-tree Data Mining Technology: Outlier Detection 31 Data Mining Technology: Outlier Detection 3

9 Anomalien in Hochdimensionalen Datenräumen 1. Sparsity,. hierarchische Datenstrukturen sind nicht effektiv. Sparsity Diskretisierung, nur zwei Partitionen pro Dimension. Illustration: Sehr viele Datenobjekte, z. B. N=1,000,000,000. Hochdimensionaler Raum, z. B. d=100. Wie viele Datenpunkte pro Zelle? N/ d = 0, Eine zufällige Zelle ist höchstwahrscheinlich leer. Data Mining Technology: Outlier Detection 33 Data Mining Technology: Outlier Detection 34 Illustration für k=: P P 1 P 4 P3 k-nn P 5 Gegenstand der Betrachtung im Folgenden: E[k-NN Abstand] P 6 Hierarchische Datenstrukturen sind nicht effektiv (1) Annahmen: Datenpunkte gleichverteilt. Datenraum Ω=[0,1] d. D. h. Kantenlänge 1. Formel für E[NN-Abstand] herleitbar. Erwarteter NN-Abstand Dimensionalität d Data Mining Technology: Outlier Detection 35 Data Mining Technology: Outlier Detection 36

10 kdb-baum (1) y (, y) (6, --) kdb-baum () Illustration Aufbau des kdb-baums 6 4 query (--, 6) (--, 4) (4, --) (3, --) 0 0 data space 6 (--, ) kdb-tree Data Mining Technology: Outlier Detection 37 Data Mining Technology: Outlier Detection 38 Hierarchische Datenstrukturen sind nicht effektiv () Beispiel kdb-baum: Splits nur entlang d Dimensionen. l ma Ω = [0,1] 3 Maimalabstand zum Block zufälliger Punkt, wenn d <d: 1 lma = d Hierarchische Datenstrukturen sind nicht effektiv (3) l ma < E[NN-Abstand] für große d. D. h. jede NN-Kugel schneidet jeden Block. D. h. alle Blätter müssen betrachtet werden. Bäume helfen nicht. Curse of dimensionality. Läßt sich verallgemeinern für Objekte (fast) beliebiger Form, gleichverteilte Daten, aber gleicher Effekt mit Realwelt-Daten. z Data Mining Technology: Outlier Detection 39 Data Mining Technology: Outlier Detection 40

11 Hier verwendete von Outlier Punkt ist Outlier wenn er in irgendeinem niedrigdimensionalen Teilraum in Region mit ungewöhnlich niedriger Dichte liegt. Ungewöhnlich niedrige Dichte (1) Wertebereich jedes Attributs in φ Partitionen gleicher Tiefe zerlegen. f=1/φ φ=3 Wären Dimensionen statistisch unabhängig, wäre die Zahl der Datenobjekte pro Zelle N f d. Das wären im Beispiel 6/9. Data Mining Technology: Outlier Detection 41 Data Mining Technology: Outlier Detection 4 Ungewöhnlich niedrige Dichte () Ungewöhnlich niedrige Dichte (3) n(d) tatsächliche Anzahl Objekte in einer gegebenen Zelle. Dichte auf den ersten Blick ungewöhnlich niedrig, wenn n(d) << N f d. Aber: Absolute Zahlen wenig aussagekräftig, abhängig von Dimensionalität des Teilraums. ( ) d d Standardabweichung: N f 1 f (Vorhandensein/Nichtvorhandensein eines Punkts in einer Zelle ist Bernoulli-Zufallsvariable mit Wahrscheinlichkeit f d.) n(d) tatsächliche Anzahl Objekte in einer gegebenen Zelle. sparsity coefficient n( D) N f S( D) = d N f (1 f S(D) negativ Zellen, in denen Anzahl der Objekte kleiner ist als erwartet. Koeffizient berücksichtigt Unterschiede in den Dimensionalitäten der Teilräume. d d ) Data Mining Technology: Outlier Detection 43 Data Mining Technology: Outlier Detection 44

12 Brute- Technik Evolutionärer Algorithmus (GA) sparsity coefficient für alle Zellen in allen Teilräumen berechnen. Etrem teuer. Praktisch nicht durchführbar. Imitation der organischen Evolution. Geeignetere (fittere) Individuen pflanzen sich tendenziell eher fort. Hier: Fitte Individuen sind Zellen mit niedrigem sparsity coefficient. Mutation aufgrund äußerer Einflüsse kommt hinzu. GA berücksichtigen die gesamte Population, im Gegensatz zu beispielsweise Hill Climbing. Data Mining Technology: Outlier Detection 45 Data Mining Technology: Outlier Detection 46 Evolutionärer Algorithmus (GA) Repräsentation der Individuen; Fitness Was müssen wir tun? Beispiel: 1 * Bestimmung der Individuen und ihrer Repräsentation, Selektion (d. h. wer darf sich wie oft fortpflanzen), Mutation/Crossover, Fitness Function. relativ einfach d= 1 y Fitness: sparsity coefficient. Data Mining Technology: Outlier Detection 47 Data Mining Technology: Outlier Detection 48

13 Selektion (1) Selektion () D. h. welche Individuen dürfen sich (wie oft) fortpflanzen? Elementare Alternativen: Selektion basierend auf Rang, Selektion basierend auf Fitness. Selektion basierend auf Fitness Auswahl in Abhängigkeit von Fitness gewichten. Beispiel: Individuen 1,, 3 mit Fitness 0.9, 0.8, 0.1, mit Fitness 0.9, 0., 0.1 Data Mining Technology: Outlier Detection 49 Data Mining Technology: Outlier Detection 50 Selektion (3) Crossover Selektion basierend auf Rang: Übliches Vorgehen: two-point crossover Individuen nach Fitness sortieren, Auswahl abhängig vom Rang gewichten, z. B. ist Sampling Wahrscheinlichkeit proportional zu p r(i) (p Gesamtanzahl der Individuen, r(i) Rang des i-ten Individuums) Im Beispiel von eben in beiden Fällen gleiche Wahrscheinlichkeiten. Selektion basierend auf Rang üblicherweise stabiler. Crossover point zufällig bestimmen, d. h. Position im String, Substring rechts vom crossover point austauschen. Beispiel: Gegeben: 3 * * 1; 1 * 3 3 * Crossover nach der dritten Position Ergebnis: 3*3*, 1*3*1 Crossover nach der vierten Position Ergebnis: 3***, 1*331 Dimensionalität des Ergebnisses ist i. Allg. anders. Erfordert Anpassung des Verfahrens. Data Mining Technology: Outlier Detection 51 Data Mining Technology: Outlier Detection 5

14 Mutation Bestimmung der Projektionsparameter Zwei (offensichtliche) Varianten Zufällige Position, die nicht Wert * hat, nach * verändern; gleichzeitig Wert * an anderer Position durch Zufallszahl ersetzen. Beispiel: 3 * * * * Position, die nicht Wert * hat, durch anderen Wert ersetzen. Beispiel: 3 * * 1 3 * * 3 Größe der Zellen so wählen, daß Dichte der Zellen in etwa Dichte um Datenpunkte herum entspricht. Ermittlung von φ: Wenn φ zu groß ist, sind die meisten Zellen leer, ein Punkt alleine in seiner Zelle ist kein Outlier. φ zu klein Zellen entsprechen nicht wirklich unseren Vorstellungen von Lokalität. z Data Mining Technology: Outlier Detection 53 Data Mining Technology: Outlier Detection 54 Erklärungen für Outlier (1) Erklärungen für Outlier () Gametying Goals Beispiel: Player Name Powerplay Goals Shorthanded Goals Gamewinning Goals Games Played Jaromir Jagr Gametying Goals Player Name Powerplay Goals Shorthanded Goals Gamewinning Goals Games Played Mario Lemieu Jaromir Jagr John Leclair Rob Brind Amour Welche Spieler sind außergewöhnlich? Suche nach. Wir können nach in einer Dimension suchen, in zwei Dimensionen, usw. viele mögliche Kombinationen. Umgekehrte Sichtweise möglich, verglichen mit Erläuterung zu vorangegangener Folie: Nicht: Was sind die Outlier in bestimmter Kombination von Dimensionen? Sondern: In welchen Dimensionen ist ein bestimmter Tupel ein Outlier? Data Mining Technology: Outlier Detection 55 Data Mining Technology: Outlier Detection 56

15 Erklärungen für Outlier (3) Erklärungen für Outlier (4) Mario Lemieu: Outlier im 1-D Raum der power-play goals. Outlier im -D Raum der short-handed goals and game-winning goals. (Kein Spieler ist Ausnahme hinsichtlich short-handed goals alleine oder hinsichtlich game-winning goals alleine.) Rob Brind Amour: Outlier im 1-D Raum der game-tying goals. John Leclair: Outlier im -D Raum der game-winning goals und game-tying goals. (Bezüglich game-tying goals isoliert betrachtet, wird Leclair von anderem Spieler dominiert.) Data Mining Technology: Outlier Detection 57 Data Mining Technology: Outlier Detection 58 Unterschiedliche Arten von (1) Unterschiedliche Arten von () P ist nicht-trivialer Outlier in Attribut-Raum A P, wenn P nicht Outlier in einem Teilraum B A P ist. P ist strong outlier in A P, wenn kein Outlier in irgendeinem B A P eistiert. D. h. die kleinste Menge von Attributen, die erforderlich ist, um zu erklären, warum P besonders ist. Beispiel: Brind Amour ist trivialer Outlier bezüglich {game-winning goals, game-tying goals}. Brind Amour ist Outlier bezüglich game-tying goals. Weak outlier nicht-trivialer, aber kein strong outlier. Beispiele: Mario Lemieu ist strong outlier im -D Raum der short-handed goals und game-winning goals. John Leclair ist weak outlier im -D Raum der game-winning goals und der game-tying goals. Warum nicht strong outlier? Data Mining Technology: Outlier Detection 59 Data Mining Technology: Outlier Detection 60

16 Unterschiedliche Arten von (3) Unterschiedliche Arten von (3) Kann es einen strong outlier geben, der nicht nicht-trivial ist? Kann es einen strong outlier geben, der nicht nicht-trivial ist? Nein. Trivialer Outlier bedeutet, daß man den Outlier mit weniger Attributen erklären kann. D. h. Outlier ist definitiv nicht strong. Data Mining Technology: Outlier Detection 61 Data Mining Technology: Outlier Detection 6 A power-play D game-tying B short-handed C game-winning E games played Nicht alle Kanten sichtbar. Unterschiedliche Arten von (4) ABCDE ABCD ABCE ABCE ABCE ABCE ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE Jagr Lemieu, Jagr Lemieu Leclair Jagr AB AC AD AE BC BD BE CD CE DE Lemieu Brind Amour A B C D E Algorithmen (1) Naiver Algorithmus: Hinsichtlich Struktur Ähnlichkeit mit Apriori. Erst Outlier in den 1-D Räumen finden. Dann Outlier in den -D Räumen finden, usw. Wenn wir nur nach strong outliers suchen, können wir Kombinationen von Attributen prunen. Beispiel: Wenn wir Outlier bezüglich Attribut A gefunden haben, brauchen wir nicht nach strong outliers zu suchen in Mengen von Attributen, die A enthalten. Wie erkennt man in diesem Diagramm trivialen Outlier? Data Mining Technology: Outlier Detection 63 Data Mining Technology: Outlier Detection 64

17 Algorithmen () Ausgefeilterer Algorithmus: Mehrere benachbarte Knoten gleichzeitig abarbeiten. D. h. mehrere Ebenen des Verbands gleichzeitig abarbeiten. Prüfungsfragen, beispielhaft (1) Welche en für Outlier kennen Sie? Gegeben die abstandsbasierte von Outlier, welche Techniken zur Ermittlung der Outlier kennen Sie? Warum kann man beim Dichte-basierten Clustering nicht einfach die Dichte um die Punkte herum vergleichen und die mit der geringsten Dichte zurückgeben? Sehen Sie einen Zusammenhang zwischen Clustering und Outlier Detection? Welche Anomalien hochdimensionaler Merkmalsräume kennen Sie? Data Mining Technology: Outlier Detection 65 Data Mining Technology: Outlier Detection 66 Prüfungsfragen, beispielhaft () Wieso funktionieren hierarchische Indestrukturen in hochdimensionalen Merkmalsräumen nicht? Was ist der Zusammenhang zwischen der Zelldichte und Outlier Detection in hochdimensionalen Merkmalsräumen? Wie groß sollten die Zellen sein? Geben Sie die Klassifizierung aus der LV in 'interessante'und 'weniger interessante'outlier wieder. Literatur E.M.Knorr, R.T.Ng: Algorithms for Mining Distance- Based Outliers in Large Datasets. E.M.Knorr, R.T.Ng: Finding Intensional Knowledge of Abstand-Based Outliers S.Ramaswamy, R.Rastogi, K.Shim: Efficient Algorithms for Mining Outliers from Large Datasets W.Jin, A.K.H. Tung, J.Han: Mining Top-n Local Outliers in Large Databases C.C.Aggarwal, P.S.Yu: Outlier Detection for High Dimensional Data Data Mining Technology: Outlier Detection 67 Data Mining Technology: Outlier Detection 68