Kapitel 16: Identifikation von Outliern

Größe: px
Ab Seite anzeigen:

Download "Kapitel 16: Identifikation von Outliern"

Transkript

1 Kapitel 16: Identifikation von Gliederung Motivation allgemeine Bemerkungen Übersicht über die Ansätze Abstand-basierte Ermittlung von Dichte-basierte Ermittlung von Evolutionärer Ansatz: Anwendung genetischer Algorithmen Data Mining Technology: Outlier Detection 1 Data Mining Technology: Outlier Detection Illustration Was ist ein Outlier? Attribut Intuitiv: Outlier ist definiert als Element des Datenbestands, daß in bestimmter Hinsicht vom restlichen Datenbestand erheblich abweicht. Unterschiedliche Techniken zum Ermitteln von eistieren. Attribut 1 Data Mining Technology: Outlier Detection 3 Data Mining Technology: Outlier Detection 4

2 Anwendungsszenarien Beispiele Vielfalt der Ansätze Erkennen von Kreditkartenbetrug (fraud detection), Videoüberwachung, Erkennen von Netzwerkfehlern, E-Commerce, Finanzen, Marketing. 1. Basierend auf Verteilung,. basierend auf Clustering; 3., 4. Dichte-basiert. Data Cleaning. Data Mining Technology: Outlier Detection 5 Data Mining Technology: Outlier Detection 6 es Ermitteln der Outlier Illustration - Indebasiert Objekt O, das in Datenbestand T enthalten ist, ist ein DB(p,D)-Outlier, wenn der Abstand von O zu mindestens p Prozent der Objekte in T größer ist als D. - Indebasiert D O O ist Outlier, wenn p=0.6. O ist kein Outlier, wenn p=0.99. Data Mining Technology: Outlier Detection 7 Data Mining Technology: Outlier Detection 8

3 es Ermitteln der Outlier Algorithmen kdb-baum Inde-basiert, y (, y) (6, --) nested-loop, Zellen-basiert. 6 4 query (--, 6) (--, 4) (4, --) (3, --) - Indebasiert - Indebasiert 0 0 data space 6 (--, ) kdb-tree Data Mining Technology: Outlier Detection 9 Data Mining Technology: Outlier Detection 10 R-Baum es Ermitteln der Outlier Inde-Basierter Algo. k-nn Query für jeden Punkt, root Stop, sobald mehr Punkte als erforderlich in der Nachbarschaft. - Indebasiert - Indebasiert Ansatz insbesondere dann teuer, wenn Inde noch nicht eistiert und erst aufgebaut werden muß. query data space R-tree Data Mining Technology: Outlier Detection 11 Data Mining Technology: Outlier Detection 1

4 es Ermitteln der Outlier Nested- Algorithmus Illustration Nested- Algorithmus (1) Zähler für jeden Tupel der äußeren Relation, Stop, sobald Relation Relation - Indebasiert Kosten: Quadratisch in der Anzahl der Datenobjekte. - Indebasiert Join Attribute Data Mining Technology: Outlier Detection 13 Data Mining Technology: Outlier Detection 14 - Indebasiert Illustration Nested- Algorithmus () Relation A Join Attribute Relation B Data Mining Technology: Outlier Detection 15 von eben - Indebasiert es Ermitteln der Outlier Objekt O, das in Datenbestand T enthalten ist, ist ein DB(p,D)-Outlier, wenn der Abstand von O zu mindestens p Prozent der Objekte in T größer ist als D. Beispiel: 1000 Objekte, p=99. D. h. höchstens neun Objekte mit Abstand D oder weniger. Data Mining Technology: Outlier Detection 16

5 Zellen-basierter Algorithmus (1) Zellen-basierter Algorithmus () - Indebasiert k-dimensionaler Raum partitioniert in Zellen der Länge D (k Dimensionalität), k Jeden Tupel seiner Zelle zuordnen. D D D - Indebasiert Zellen mit weniger als m Tupeln in L-Nachbarschaft enthalten nur Outlier. Zellen mit mehr als m = 1 p Tupeln in L1-Nachbarschaft (rosafarbene Zellen) enthalten keine Outlier, brauchen nicht weiter betrachtet zu werden. Restliche Zellen: Outlier ermitteln, indem man Tupel einzeln inspiziert. Vorteil: Datenbestand wird maimal dreimal durchlaufen. L 1 L Data Mining Technology: Outlier Detection 17 Data Mining Technology: Outlier Detection 18 Zellen-basierter Algorithmus (3) Alternative (1) - Indebasiert Berechnung der Outlier durch Inspektion einzelner Tupel typischerweise IO-intensiv nur Seiten mit Tupeln mit unklarem Status im Hauptspeicher. - Indebasiert Andere von Outlier. Ansatz basiert auf Abstand D zwischen Punkt P und seinem k-nn D k (P) Ranking der Punkte basiert auf D k (P). Top-n Punkte sind per Outlier. Data Mining Technology: Outlier Detection 19 Data Mining Technology: Outlier Detection 0

6 - Indebasiert Beispiel für k=: P P 1 P 4 P3 Alternative () P 5 P ist -NN von P 1, P 3 ist -NN von P 4, usw. Sortierte Liste der Punkte: P 6, P 5, P 4, P, P 3, P 1 Data Mining Technology: Outlier Detection 1 P 6 Folie zum Thema Clustering Ermitteln der Dimensionen zu einem Medoid () L 1 δ 1 L m 1 m m 3 m 4 Unterschiede zur folgenden Folie: Nicht nur Medoide, sondern alle Datenpunkte. Nicht unbedingt nächster Nachbar, sondern k-nn. Data Mining Technology: Outlier Detection Dichte-basierte Outlier-Ermittlung Konzepte (1) k-abstand von p Abstand des k-nn, k-nachbarschaft N k (p) Punkte innerhalb dieses Abstands um p (inklusive k-nn). Illustration: P P 1 P 4 P3 P 6 Dichte-basierte Outlier-Ermittlung Konzepte () local reachability density von p Kehrwert des Durchschnittsabstands zwischen p und den Punkten in der k-nachbarschaft. Abschätzung der Dichte bei p. Dichte allein nicht aussagekräftig genug. Illustration. P 5 Warum sollte man k > 1 wählen? Data Mining Technology: Outlier Detection 3 Data Mining Technology: Outlier Detection 4

7 Dichte-basierte Outlier-Ermittlung Konzepte (3) local outlier factor von p Durchschnitt der Verhältnisse der local reachability density von p und der der k nächsten Nachbarn von p. Local outlier factor von p ist hoch, wenn seine local reachability density niedriger als die seiner Nachbarn ist. Data Mining Technology: Outlier Detection 5 Local Outlier Factor Illustration Beispiel für k=: P 4 P 3.5 P 5 -Abstand(P 1 )=10, -Abstand(P 5 )=4 1 lrd 1 = ( P ) = ( ) ( P ) 1 lrd( P 4 ) = = ( 4 + ) lof P1 = = ( ).887 Data Mining Technology: Outlier Detection 6 P 1 1 lrd 5 = = ( 4 +.5) Algorithmus (1) Micro-Cluster (1) Local outlier factor als Indikator für Outlier macht Sinn. Aber: Berechnung des local outlier factors für alle Datenpunkte ist teuer. Idee: Verwende Clustering, um Großteil der Datenpunkte zu prunen. Ideen ähnlich zu BIRCH (hierarchisches Clustering). Daten werden zu kleinen Clustern komprimiert. Jeder Cluster repräsentiert durch wenige aggregierte Werte, nämlich Anzahl der Datenobjekte, Mittelpunkt c, Radius r=ma(d(p i, c)) Data Mining Technology: Outlier Detection 7 Data Mining Technology: Outlier Detection 8

8 Micro-Cluster () Algorithmus () Micro-Cluster Blatt-Cluster, wie bei BIRCH. Größe der Micro-Cluster durch maradius begrenzt. Split, indem man Datenobjekte mit maimalem Abstand als Seeds nimmt. Annahme: Micro-Cluster passen in Hauptspeicher. Gegeben Micro-Clustering, können wir obere und untere Schranke für local outlier factors für jeden Datenpunkt berechnen. Wenn obere Schranke des local outlier factors von P kleiner ist als untere Schranke des local outlier factors vieler Datenpunkte, können wir P prunen. Data Mining Technology: Outlier Detection 9 Data Mining Technology: Outlier Detection 30 Illustration Outlier Detection in hochdimensionalen Datenbeständen root Wenn Datenbestand hochdimensional ist, enthalten üblicherweise nur Teilräume Outlier. Konventionelle Techniken sind nicht effektiv. - Indebasiert data space R-tree Data Mining Technology: Outlier Detection 31 Data Mining Technology: Outlier Detection 3

9 Anomalien in Hochdimensionalen Datenräumen 1. Sparsity,. hierarchische Datenstrukturen sind nicht effektiv. Sparsity Diskretisierung, nur zwei Partitionen pro Dimension. Illustration: Sehr viele Datenobjekte, z. B. N=1,000,000,000. Hochdimensionaler Raum, z. B. d=100. Wie viele Datenpunkte pro Zelle? N/ d = 0, Eine zufällige Zelle ist höchstwahrscheinlich leer. Data Mining Technology: Outlier Detection 33 Data Mining Technology: Outlier Detection 34 Illustration für k=: P P 1 P 4 P3 k-nn P 5 Gegenstand der Betrachtung im Folgenden: E[k-NN Abstand] P 6 Hierarchische Datenstrukturen sind nicht effektiv (1) Annahmen: Datenpunkte gleichverteilt. Datenraum Ω=[0,1] d. D. h. Kantenlänge 1. Formel für E[NN-Abstand] herleitbar. Erwarteter NN-Abstand Dimensionalität d Data Mining Technology: Outlier Detection 35 Data Mining Technology: Outlier Detection 36

10 kdb-baum (1) y (, y) (6, --) kdb-baum () Illustration Aufbau des kdb-baums 6 4 query (--, 6) (--, 4) (4, --) (3, --) 0 0 data space 6 (--, ) kdb-tree Data Mining Technology: Outlier Detection 37 Data Mining Technology: Outlier Detection 38 Hierarchische Datenstrukturen sind nicht effektiv () Beispiel kdb-baum: Splits nur entlang d Dimensionen. l ma Ω = [0,1] 3 Maimalabstand zum Block zufälliger Punkt, wenn d <d: 1 lma = d Hierarchische Datenstrukturen sind nicht effektiv (3) l ma < E[NN-Abstand] für große d. D. h. jede NN-Kugel schneidet jeden Block. D. h. alle Blätter müssen betrachtet werden. Bäume helfen nicht. Curse of dimensionality. Läßt sich verallgemeinern für Objekte (fast) beliebiger Form, gleichverteilte Daten, aber gleicher Effekt mit Realwelt-Daten. z Data Mining Technology: Outlier Detection 39 Data Mining Technology: Outlier Detection 40

11 Hier verwendete von Outlier Punkt ist Outlier wenn er in irgendeinem niedrigdimensionalen Teilraum in Region mit ungewöhnlich niedriger Dichte liegt. Ungewöhnlich niedrige Dichte (1) Wertebereich jedes Attributs in φ Partitionen gleicher Tiefe zerlegen. f=1/φ φ=3 Wären Dimensionen statistisch unabhängig, wäre die Zahl der Datenobjekte pro Zelle N f d. Das wären im Beispiel 6/9. Data Mining Technology: Outlier Detection 41 Data Mining Technology: Outlier Detection 4 Ungewöhnlich niedrige Dichte () Ungewöhnlich niedrige Dichte (3) n(d) tatsächliche Anzahl Objekte in einer gegebenen Zelle. Dichte auf den ersten Blick ungewöhnlich niedrig, wenn n(d) << N f d. Aber: Absolute Zahlen wenig aussagekräftig, abhängig von Dimensionalität des Teilraums. ( ) d d Standardabweichung: N f 1 f (Vorhandensein/Nichtvorhandensein eines Punkts in einer Zelle ist Bernoulli-Zufallsvariable mit Wahrscheinlichkeit f d.) n(d) tatsächliche Anzahl Objekte in einer gegebenen Zelle. sparsity coefficient n( D) N f S( D) = d N f (1 f S(D) negativ Zellen, in denen Anzahl der Objekte kleiner ist als erwartet. Koeffizient berücksichtigt Unterschiede in den Dimensionalitäten der Teilräume. d d ) Data Mining Technology: Outlier Detection 43 Data Mining Technology: Outlier Detection 44

12 Brute- Technik Evolutionärer Algorithmus (GA) sparsity coefficient für alle Zellen in allen Teilräumen berechnen. Etrem teuer. Praktisch nicht durchführbar. Imitation der organischen Evolution. Geeignetere (fittere) Individuen pflanzen sich tendenziell eher fort. Hier: Fitte Individuen sind Zellen mit niedrigem sparsity coefficient. Mutation aufgrund äußerer Einflüsse kommt hinzu. GA berücksichtigen die gesamte Population, im Gegensatz zu beispielsweise Hill Climbing. Data Mining Technology: Outlier Detection 45 Data Mining Technology: Outlier Detection 46 Evolutionärer Algorithmus (GA) Repräsentation der Individuen; Fitness Was müssen wir tun? Beispiel: 1 * Bestimmung der Individuen und ihrer Repräsentation, Selektion (d. h. wer darf sich wie oft fortpflanzen), Mutation/Crossover, Fitness Function. relativ einfach d= 1 y Fitness: sparsity coefficient. Data Mining Technology: Outlier Detection 47 Data Mining Technology: Outlier Detection 48

13 Selektion (1) Selektion () D. h. welche Individuen dürfen sich (wie oft) fortpflanzen? Elementare Alternativen: Selektion basierend auf Rang, Selektion basierend auf Fitness. Selektion basierend auf Fitness Auswahl in Abhängigkeit von Fitness gewichten. Beispiel: Individuen 1,, 3 mit Fitness 0.9, 0.8, 0.1, mit Fitness 0.9, 0., 0.1 Data Mining Technology: Outlier Detection 49 Data Mining Technology: Outlier Detection 50 Selektion (3) Crossover Selektion basierend auf Rang: Übliches Vorgehen: two-point crossover Individuen nach Fitness sortieren, Auswahl abhängig vom Rang gewichten, z. B. ist Sampling Wahrscheinlichkeit proportional zu p r(i) (p Gesamtanzahl der Individuen, r(i) Rang des i-ten Individuums) Im Beispiel von eben in beiden Fällen gleiche Wahrscheinlichkeiten. Selektion basierend auf Rang üblicherweise stabiler. Crossover point zufällig bestimmen, d. h. Position im String, Substring rechts vom crossover point austauschen. Beispiel: Gegeben: 3 * * 1; 1 * 3 3 * Crossover nach der dritten Position Ergebnis: 3*3*, 1*3*1 Crossover nach der vierten Position Ergebnis: 3***, 1*331 Dimensionalität des Ergebnisses ist i. Allg. anders. Erfordert Anpassung des Verfahrens. Data Mining Technology: Outlier Detection 51 Data Mining Technology: Outlier Detection 5

14 Mutation Bestimmung der Projektionsparameter Zwei (offensichtliche) Varianten Zufällige Position, die nicht Wert * hat, nach * verändern; gleichzeitig Wert * an anderer Position durch Zufallszahl ersetzen. Beispiel: 3 * * * * Position, die nicht Wert * hat, durch anderen Wert ersetzen. Beispiel: 3 * * 1 3 * * 3 Größe der Zellen so wählen, daß Dichte der Zellen in etwa Dichte um Datenpunkte herum entspricht. Ermittlung von φ: Wenn φ zu groß ist, sind die meisten Zellen leer, ein Punkt alleine in seiner Zelle ist kein Outlier. φ zu klein Zellen entsprechen nicht wirklich unseren Vorstellungen von Lokalität. z Data Mining Technology: Outlier Detection 53 Data Mining Technology: Outlier Detection 54 Erklärungen für Outlier (1) Erklärungen für Outlier () Gametying Goals Beispiel: Player Name Powerplay Goals Shorthanded Goals Gamewinning Goals Games Played Jaromir Jagr Gametying Goals Player Name Powerplay Goals Shorthanded Goals Gamewinning Goals Games Played Mario Lemieu Jaromir Jagr John Leclair Rob Brind Amour Welche Spieler sind außergewöhnlich? Suche nach. Wir können nach in einer Dimension suchen, in zwei Dimensionen, usw. viele mögliche Kombinationen. Umgekehrte Sichtweise möglich, verglichen mit Erläuterung zu vorangegangener Folie: Nicht: Was sind die Outlier in bestimmter Kombination von Dimensionen? Sondern: In welchen Dimensionen ist ein bestimmter Tupel ein Outlier? Data Mining Technology: Outlier Detection 55 Data Mining Technology: Outlier Detection 56

15 Erklärungen für Outlier (3) Erklärungen für Outlier (4) Mario Lemieu: Outlier im 1-D Raum der power-play goals. Outlier im -D Raum der short-handed goals and game-winning goals. (Kein Spieler ist Ausnahme hinsichtlich short-handed goals alleine oder hinsichtlich game-winning goals alleine.) Rob Brind Amour: Outlier im 1-D Raum der game-tying goals. John Leclair: Outlier im -D Raum der game-winning goals und game-tying goals. (Bezüglich game-tying goals isoliert betrachtet, wird Leclair von anderem Spieler dominiert.) Data Mining Technology: Outlier Detection 57 Data Mining Technology: Outlier Detection 58 Unterschiedliche Arten von (1) Unterschiedliche Arten von () P ist nicht-trivialer Outlier in Attribut-Raum A P, wenn P nicht Outlier in einem Teilraum B A P ist. P ist strong outlier in A P, wenn kein Outlier in irgendeinem B A P eistiert. D. h. die kleinste Menge von Attributen, die erforderlich ist, um zu erklären, warum P besonders ist. Beispiel: Brind Amour ist trivialer Outlier bezüglich {game-winning goals, game-tying goals}. Brind Amour ist Outlier bezüglich game-tying goals. Weak outlier nicht-trivialer, aber kein strong outlier. Beispiele: Mario Lemieu ist strong outlier im -D Raum der short-handed goals und game-winning goals. John Leclair ist weak outlier im -D Raum der game-winning goals und der game-tying goals. Warum nicht strong outlier? Data Mining Technology: Outlier Detection 59 Data Mining Technology: Outlier Detection 60

16 Unterschiedliche Arten von (3) Unterschiedliche Arten von (3) Kann es einen strong outlier geben, der nicht nicht-trivial ist? Kann es einen strong outlier geben, der nicht nicht-trivial ist? Nein. Trivialer Outlier bedeutet, daß man den Outlier mit weniger Attributen erklären kann. D. h. Outlier ist definitiv nicht strong. Data Mining Technology: Outlier Detection 61 Data Mining Technology: Outlier Detection 6 A power-play D game-tying B short-handed C game-winning E games played Nicht alle Kanten sichtbar. Unterschiedliche Arten von (4) ABCDE ABCD ABCE ABCE ABCE ABCE ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE Jagr Lemieu, Jagr Lemieu Leclair Jagr AB AC AD AE BC BD BE CD CE DE Lemieu Brind Amour A B C D E Algorithmen (1) Naiver Algorithmus: Hinsichtlich Struktur Ähnlichkeit mit Apriori. Erst Outlier in den 1-D Räumen finden. Dann Outlier in den -D Räumen finden, usw. Wenn wir nur nach strong outliers suchen, können wir Kombinationen von Attributen prunen. Beispiel: Wenn wir Outlier bezüglich Attribut A gefunden haben, brauchen wir nicht nach strong outliers zu suchen in Mengen von Attributen, die A enthalten. Wie erkennt man in diesem Diagramm trivialen Outlier? Data Mining Technology: Outlier Detection 63 Data Mining Technology: Outlier Detection 64

17 Algorithmen () Ausgefeilterer Algorithmus: Mehrere benachbarte Knoten gleichzeitig abarbeiten. D. h. mehrere Ebenen des Verbands gleichzeitig abarbeiten. Prüfungsfragen, beispielhaft (1) Welche en für Outlier kennen Sie? Gegeben die abstandsbasierte von Outlier, welche Techniken zur Ermittlung der Outlier kennen Sie? Warum kann man beim Dichte-basierten Clustering nicht einfach die Dichte um die Punkte herum vergleichen und die mit der geringsten Dichte zurückgeben? Sehen Sie einen Zusammenhang zwischen Clustering und Outlier Detection? Welche Anomalien hochdimensionaler Merkmalsräume kennen Sie? Data Mining Technology: Outlier Detection 65 Data Mining Technology: Outlier Detection 66 Prüfungsfragen, beispielhaft () Wieso funktionieren hierarchische Indestrukturen in hochdimensionalen Merkmalsräumen nicht? Was ist der Zusammenhang zwischen der Zelldichte und Outlier Detection in hochdimensionalen Merkmalsräumen? Wie groß sollten die Zellen sein? Geben Sie die Klassifizierung aus der LV in 'interessante'und 'weniger interessante'outlier wieder. Literatur E.M.Knorr, R.T.Ng: Algorithms for Mining Distance- Based Outliers in Large Datasets. E.M.Knorr, R.T.Ng: Finding Intensional Knowledge of Abstand-Based Outliers S.Ramaswamy, R.Rastogi, K.Shim: Efficient Algorithms for Mining Outliers from Large Datasets W.Jin, A.K.H. Tung, J.Han: Mining Top-n Local Outliers in Large Databases C.C.Aggarwal, P.S.Yu: Outlier Detection for High Dimensional Data Data Mining Technology: Outlier Detection 67 Data Mining Technology: Outlier Detection 68

6.6 Vorlesung: Von OLAP zu Mining

6.6 Vorlesung: Von OLAP zu Mining 6.6 Vorlesung: Von OLAP zu Mining Definition des Begriffs Data Mining. Wichtige Data Mining-Problemstellungen, Zusammenhang zu Data Warehousing,. OHO - 1 Definition Data Mining Menge von Techniken zum

Mehr

Motivation. Themenblock: Data Preprocessing. Einsatzgebiete für Data Mining I. Modell von Gianotti und Pedreschi

Motivation. Themenblock: Data Preprocessing. Einsatzgebiete für Data Mining I. Modell von Gianotti und Pedreschi Motivation Themenblock: Data Preprocessing We are drowning in information, but starving for knowledge! (John Naisbett) Was genau ist Datenanalyse? Praktikum: Data Warehousing und Data Mining Was ist Data

Mehr

Optimale Produktliniengestaltung mit Genetischen Algorithmen

Optimale Produktliniengestaltung mit Genetischen Algorithmen Optimale Produktliniengestaltung mit Genetischen Algorithmen 1 Einleitung 2 Produktlinienoptimierung 3 Genetische Algorithmen 4 Anwendung 5 Fazit Seite 1 Optimale Produktliniengestaltung mit Genetischen

Mehr

Domain-independent. independent Duplicate Detection. Vortrag von Marko Pilop & Jens Kleine. SE Data Cleansing

Domain-independent. independent Duplicate Detection. Vortrag von Marko Pilop & Jens Kleine. SE Data Cleansing SE Data Cleansing Domain-independent independent Duplicate Detection Vortrag von Marko Pilop & Jens Kleine http://www.informatik.hu-berlin.de/~pilop/didd.pdf {pilop jkleine}@informatik.hu-berlin.de 1.0

Mehr

Data Warehousing und Data Mining

Data Warehousing und Data Mining Data Warehousing und Data Mining Clustering Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Einführung Clustergüte Ähnlichkeiten Clustermitte Hierarchisches Clustering Partitionierendes

Mehr

2. Datenvorverarbeitung

2. Datenvorverarbeitung Kurzreferat Das Ziel beim Clustering ist es möglichst gleich Datensätze zu finden und diese in Gruppen, sogenannte Cluster zu untergliedern. In dieser Dokumentation werden die Methoden k-means und Fuzzy

Mehr

IMPLEMENTIERUNG VON OPERATIONEN AUF RELATIONEN

IMPLEMENTIERUNG VON OPERATIONEN AUF RELATIONEN Joins 1 IMPLEMENTIERUNG VON OPERATIONEN AUF RELATIONEN Literatur Priti Mishara, Maragaret H. Eich, Join Processing in Relational Databases, ACM Computing Surveys, Vol. 24, No. 1, March 1992 Goetz Graefe,

Mehr

Kapitel 2: Analyse der Laufzeit von Algorithmen Gliederung

Kapitel 2: Analyse der Laufzeit von Algorithmen Gliederung Gliederung 1. Motivation / Einordnung / Grundlagen 2. Analyse der Laufzeit von Algorithmen 3. Untere Schranken für algorithmische Probleme 4. Sortier- und Selektionsverfahren 5. Paradigmen des Algorithmenentwurfs

Mehr

R-Baum R + -Baum X-Baum M-Baum

R-Baum R + -Baum X-Baum M-Baum R-Baum und Varianten R-Baum R + -Baum X-Baum M-Baum staab@uni-koblenz.de 1 R-Baum R-Baum: Guttman 1984 Erweiterung B-Baum um mehrere Dimensionen Standardbaum zur Indexierung im niedrigdimensionalen Raum

Mehr

Streaming Data: Das Modell

Streaming Data: Das Modell Streaming Data: Das Modell Berechnungen, bei fortlaufend einströmenden Daten (x t t 0), sind in Echtzeit zu erbringen. Beispiele sind: - Verkehrsmessungen im Internet, - Datenanalyse in der Abwehr einer

Mehr

Seminar Komplexe Objekte in Datenbanken

Seminar Komplexe Objekte in Datenbanken Seminar Komplexe Objekte in Datenbanken OPTICS: Ordering Points To Identify the Clustering Structure Lehrstuhl für Informatik IX - Univ.-Prof. Dr. Thomas Seidl, RWTH-Aachen http://www-i9.informatik.rwth-aachen.de

Mehr

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen 7. Clusteranalyse (= Häufungsanalyse; Clustering-Verfahren) wird der multivariaten Statistik zugeordnet Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut,

Mehr

WS 2010/ Januar Mathematisches Institut der Universität München Prof. Dr. Rudolf Fritsch

WS 2010/ Januar Mathematisches Institut der Universität München Prof. Dr. Rudolf Fritsch Mathematisches Institut der Universität München Prof. Dr. Rudolf Fritsch WS 2010/2011 14. Januar 2011 Geometrie mit Übungen Übungsblatt 9, Musterlösungen Aufgabe 33. Es werden Kreise in der Euklidischen

Mehr

Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion

Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion Vortrag Seminararbeit David Pogorzelski Aachen, 22.01.2015 Agenda 1 2 3 4 5 Ziel der

Mehr

Implementierung der SQL Operatoren GROUP BY und CUBE

Implementierung der SQL Operatoren GROUP BY und CUBE Implementierung der SQL Operatoren GROUP BY und CUBE Seminararbeit von Christian Brandt Seminar Advanced Data Warehousing WS 2003/2004 Einführung Ein zentrales Element von OLAP - Anwendungen ist die Aggregation

Mehr

Exploration und Klassifikation von BigData

Exploration und Klassifikation von BigData Exploration und Klassifikation von BigData Inhalt Einführung Daten Data Mining: Vorbereitungen Clustering Konvexe Hülle Fragen Google: Riesige Datenmengen (2009: Prozessieren von 24 Petabytes pro Tag)

Mehr

5.3 Sampling-Algorithmen

5.3 Sampling-Algorithmen 5.3 Sampling-Algorithmen Vorgehensweise in der Statistik: Gesamtheit von Werten durch kleine, möglichst repräsentative Stichprobe darstellen. (Vgl. z. B. Hochrechnungen für Wahlergebnisse.) Genauer: Gegeben

Mehr

Data-Mining: Ausgewählte Verfahren und Werkzeuge

Data-Mining: Ausgewählte Verfahren und Werkzeuge Fakultät Informatik Institut für Angewandte Informatik Lehrstuhl Technische Informationssysteme Data-Mining: Ausgewählte Verfahren und Vortragender: Jia Mu Betreuer: Dipl.-Inf. Denis Stein Dresden, den

Mehr

Häufige Item-Mengen: die Schlüssel-Idee. Vorlesungsplan. Apriori Algorithmus. Methoden zur Verbessung der Effizienz von Apriori

Häufige Item-Mengen: die Schlüssel-Idee. Vorlesungsplan. Apriori Algorithmus. Methoden zur Verbessung der Effizienz von Apriori Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,

Mehr

Bayes Klassifikatoren M E T H O D E N D E S D A T A M I N I N G F A B I A N G R E U E L

Bayes Klassifikatoren M E T H O D E N D E S D A T A M I N I N G F A B I A N G R E U E L Bayes Klassifikatoren M E T H O D E N D E S D A T A M I N I N G F A B I A N G R E U E L Inhalt Grundlagen aus der Wahrscheinlichkeitsrechnung Hypothesenwahl Optimale Bayes Klassifikator Naiver Bayes Klassifikator

Mehr

2. Übungsblatt 3.0 VU Datenmodellierung

2. Übungsblatt 3.0 VU Datenmodellierung 2. Übungsblatt 3.0 VU Datenmodellierung 15. Mai 2012 Allgemeines In diesem Übungsteil sollten Sie Aufgabenstellungen aus den Bereich SQL und Normalformentheorie bearbeiten. Lösen Sie die Beispiele eigenständig,

Mehr

Prof. Dr. Christoph Kleinn Institut für Waldinventur und Waldwachstum Arbeitsbereich Waldinventur und Fernerkundung

Prof. Dr. Christoph Kleinn Institut für Waldinventur und Waldwachstum Arbeitsbereich Waldinventur und Fernerkundung Systematische Stichprobe Rel. große Gruppe von Stichprobenverfahren. Allgemeines Merkmal: es existiert ein festes, systematisches Muster bei der Auswahl. Wie passt das zur allgemeinen Forderung nach Randomisierung

Mehr

Informationstheorethisches Theorem nach Shannon

Informationstheorethisches Theorem nach Shannon Informationstheorethisches Theorem nach Shannon Beispiel zum Codierungsaufwand - Wiederholung: Informationstheorethisches Modell (Shannon) Sei x eine Aussage. Sei M ein Modell Wieviele Bits sind aussreichend,

Mehr

9.2 Invertierbare Matrizen

9.2 Invertierbare Matrizen 34 9.2 Invertierbare Matrizen Die Division ist als Umkehroperation der Multiplikation definiert. Das heisst, für reelle Zahlen a 0 und b gilt b = a genau dann, wenn a b =. Übertragen wir dies von den reellen

Mehr

Algorithmische Geometrie 1. Einführung

Algorithmische Geometrie 1. Einführung Algorithmische Geometrie 1. Einführung JProf. Dr. Heike Leitte Computergraphik und Visualisierung Algorithmische Geometrie Veranstaltung: 2 SWS Vorlesung: Mi, 9:15 10:45 1 SWS Übung: Do 14:00 16:00 Übungen:

Mehr

2. Übungsblatt 3.0 VU Datenmodellierung

2. Übungsblatt 3.0 VU Datenmodellierung 2. Übungsblatt 3.0 VU Datenmodellierung 2. Dezember 2015 Allgemeines In diesem Übungsteil sollten Sie Aufgabenstellungen aus den Bereich SQL und Normalformentheorie bearbeiten. Lösen Sie die Beispiele

Mehr

Vektorgeometrie - Teil 1

Vektorgeometrie - Teil 1 Vektorgeometrie - Teil 1 MNprofil - Mittelstufe KZN Ronald Balestra CH - 8046 Zürich www.ronaldbalestra.ch Name: Vorname: 14. März 2016 Inhaltsverzeichnis 1 Einführung & die analytische Darstellung der

Mehr

1. Motivation / Grundlagen 2. Sortierverfahren 3. Elementare Datenstrukturen / Anwendungen 4. Bäume / Graphen 5. Hashing 6. Algorithmische Geometrie

1. Motivation / Grundlagen 2. Sortierverfahren 3. Elementare Datenstrukturen / Anwendungen 4. Bäume / Graphen 5. Hashing 6. Algorithmische Geometrie Gliederung 1. Motivation / Grundlagen 2. Sortierverfahren 3. Elementare Datenstrukturen / Anwendungen 4. äume / Graphen 5. Hashing 6. Algorithmische Geometrie 4/5, olie 1 2014 Prof. Steffen Lange - HDa/bI

Mehr

Grundlegende Eigenschaften von Punktschätzern

Grundlegende Eigenschaften von Punktschätzern Grundlegende Eigenschaften von Punktschätzern Worum geht es in diesem Modul? Schätzer als Zufallsvariablen Vorbereitung einer Simulation Verteilung von P-Dach Empirische Lage- und Streuungsparameter zur

Mehr

Folge 19 - Bäume. 19.1 Binärbäume - Allgemeines. Grundlagen: Ulrich Helmich: Informatik 2 mit BlueJ - Ein Kurs für die Stufe 12

Folge 19 - Bäume. 19.1 Binärbäume - Allgemeines. Grundlagen: Ulrich Helmich: Informatik 2 mit BlueJ - Ein Kurs für die Stufe 12 Grundlagen: Folge 19 - Bäume 19.1 Binärbäume - Allgemeines Unter Bäumen versteht man in der Informatik Datenstrukturen, bei denen jedes Element mindestens zwei Nachfolger hat. Bereits in der Folge 17 haben

Mehr

Vorlesung 4 BETWEENNESS CENTRALITY

Vorlesung 4 BETWEENNESS CENTRALITY Vorlesung 4 BETWEENNESS CENTRALITY 101 Aufgabe! Szenario: Sie arbeiten bei einem sozialen Online-Netzwerk. Aus der Netzwerk-Struktur Ihrer Benutzer sollen Sie wichtige Eigenschaften extrahieren. [http://www.fahrschule-vatterodt.de/

Mehr

Serie 10: Inverse Matrix und Determinante

Serie 10: Inverse Matrix und Determinante D-ERDW, D-HEST, D-USYS Mathematik I HS 5 Dr Ana Cannas Serie 0: Inverse Matrix und Determinante Bemerkung: Die Aufgaben dieser Serie bilden den Fokus der Übungsgruppen vom und 5 November Gegeben sind die

Mehr

Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07

Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07 Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07 Ziel der Clusteranalyse: Bilde Gruppen (cluster) aus einer Menge multivariater Datenobjekte (stat

Mehr

Erkennung Sequenzieller Muster Algorithmen und Anwendungen

Erkennung Sequenzieller Muster Algorithmen und Anwendungen Achim Eisele, Thema 1.4.3: Sequenzielle Muster 1 FernUniversität in Hagen Seminar 01912 im Sommersemester 2008 Erkennung Sequenzieller Muster Algorithmen und Anwendungen Thema 1.4.3: Sequenzielle Muster

Mehr

14. Rot-Schwarz-Bäume

14. Rot-Schwarz-Bäume Bislang: Wörterbuchoperationen bei binären Suchbäume effizient durchführbar, falls Höhe des Baums klein. Rot-Schwarz-Bäume spezielle Suchbäume. Rot-Schwarz-Baum mit n Knoten hat Höhe höchstens 2 log(n+1).

Mehr

Algorithmen & Datenstrukturen 1. Klausur

Algorithmen & Datenstrukturen 1. Klausur Algorithmen & Datenstrukturen 1. Klausur 7. Juli 2010 Name Matrikelnummer Aufgabe mögliche Punkte erreichte Punkte 1 35 2 30 3 30 4 15 5 40 6 30 Gesamt 180 1 Seite 2 von 14 Aufgabe 1) Programm Analyse

Mehr

5 Zwei spieltheoretische Aspekte

5 Zwei spieltheoretische Aspekte 5 Zwei spieltheoretische Aspekte In diesem Kapitel wollen wir uns mit dem algorithmischen Problem beschäftigen, sogenannte Und-Oder-Bäume (kurz UOB) auszuwerten. Sie sind ein Spezialfall von Spielbäumen,

Mehr

Institut für Mathematik Geometrie und Lineare Algebra J. Schönenberger-Deuel. Aufgabe 1. Wir geben nur zwei von sehr vielen möglichen Strategien.

Institut für Mathematik Geometrie und Lineare Algebra J. Schönenberger-Deuel. Aufgabe 1. Wir geben nur zwei von sehr vielen möglichen Strategien. Lösungen Übung 13 Aufgabe 1. Wir geben nur zwei von sehr vielen möglichen Strategien. a) Strategie 1 (nächster Nachbar): Jedes Mal reist der Reisende vom Punkt, wo er gerade ist, zur nächstgelegenen Stadt,

Mehr

Algorithmen und Datenstrukturen

Algorithmen und Datenstrukturen Algorithmen und Datenstrukturen Dipl. Inform. Andreas Wilkens aw@awilkens.com Überblick Grundlagen Definitionen Elementare Datenstrukturen Rekursionen Bäume 2 1 Datenstruktur Baum Definition eines Baumes

Mehr

SYN Grundlagen Algorithmen Anwendung FIN. Anomalieerkennung. UnFUG WS2011/2012. Alexander Passfall <alex@passfall.de> Hochschule Furtwangen

SYN Grundlagen Algorithmen Anwendung FIN. Anomalieerkennung. UnFUG WS2011/2012. Alexander Passfall <alex@passfall.de> Hochschule Furtwangen 1/23 UnFUG WS2011/2012 Alexander Passfall Hochschule Furtwangen 3. November 2011 2/23 Inhalt 1 Grundlagen Typen Funktionsweise 2 Algorithmen Outlier Detection Machine Learning 3 Anwendung

Mehr

Bayes sches Lernen: Übersicht

Bayes sches Lernen: Übersicht Bayes sches Lernen: Übersicht Bayes sches Theorem MAP, ML Hypothesen MAP Lernen Minimum Description Length Principle Bayes sche Klassifikation Naive Bayes Lernalgorithmus Teil 5: Naive Bayes + IBL (V.

Mehr

J. W. Goethe-Universität Frankfurt Seminar Data Mining WS98/99

J. W. Goethe-Universität Frankfurt Seminar Data Mining WS98/99 J. W. Goethe-Universität Frankfurt Seminar Data Mining WS98/99 Thema: Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications von Stefan Steinhaus (7 November 1999) Inhaltsverzeichnis

Mehr

Proseminarvortrag. Markov-Ketten in der Biologie (Anwendungen)

Proseminarvortrag. Markov-Ketten in der Biologie (Anwendungen) Proseminarvortrag Markov-Ketten in der Biologie (Anwendungen) von Peter Drössler 20.01.2010 2 Markov-Ketten in der Biologie (Peter Drössler, KIT 2010) Inhalt 1. Das Wright-Fisher Modell... 3 1.1. Notwendige

Mehr

Vorlesung. Datenschutz und Privatheit in vernetzten Informationssystemen

Vorlesung. Datenschutz und Privatheit in vernetzten Informationssystemen Vorlesung Datenschutz und Privatheit in vernetzten Informationssystemen Kapitel 7: Privacy Preserving Data Mining Thorben Burghardt, Erik Buchmann buchmann@ipd.uka.de Thanks to Chris Clifton & Group IPD,

Mehr

Lernziele: Ausgleichstechniken für binäre Bäume verstehen und einsetzen können.

Lernziele: Ausgleichstechniken für binäre Bäume verstehen und einsetzen können. 6. Bäume Lernziele 6. Bäume Lernziele: Definition und Eigenschaften binärer Bäume kennen, Traversierungsalgorithmen für binäre Bäume implementieren können, die Bedeutung von Suchbäumen für die effiziente

Mehr

Raumgeometrie - gerade Pyramide

Raumgeometrie - gerade Pyramide 1.0 Das Quadrat ABCD mit der Seitenlänge 7 cm ist Grundfläche einer geraden Pyramide ABCDS mit der Höhe h = 8 cm. S ist die Pyramidenspitze. 1.1 Fertige ein Schrägbild der Pyramide ABCDS an. 1.2 Berechne

Mehr

Maximizing the Spread of Influence through a Social Network

Maximizing the Spread of Influence through a Social Network 1 / 26 Maximizing the Spread of Influence through a Social Network 19.06.2007 / Thomas Wener TU-Darmstadt Seminar aus Data und Web Mining bei Prof. Fürnkranz 2 / 26 Gliederung Einleitung 1 Einleitung 2

Mehr

B-Bäume I. Algorithmen und Datenstrukturen 220 DATABASE SYSTEMS GROUP

B-Bäume I. Algorithmen und Datenstrukturen 220 DATABASE SYSTEMS GROUP B-Bäume I Annahme: Sei die Anzahl der Objekte und damit der Datensätze. Das Datenvolumen ist zu groß, um im Hauptspeicher gehalten zu werden, z.b. 10. Datensätze auf externen Speicher auslagern, z.b. Festplatte

Mehr

Vorlesung Algorithmische Geometrie. Streckenschnitte. Martin Nöllenburg 19.04.2011

Vorlesung Algorithmische Geometrie. Streckenschnitte. Martin Nöllenburg 19.04.2011 Vorlesung Algorithmische Geometrie LEHRSTUHL FÜR ALGORITHMIK I INSTITUT FÜR THEORETISCHE INFORMATIK FAKULTÄT FÜR INFORMATIK Martin Nöllenburg 19.04.2011 Überlagern von Kartenebenen Beispiel: Gegeben zwei

Mehr

Beispiellösungen zur Klausur Lineare Algebra bei Prof. Habegger

Beispiellösungen zur Klausur Lineare Algebra bei Prof. Habegger Beispiellösungen zur Klausur Lineare Algebra bei Prof. Habegger Stefan Lell 2. Juli 2 Aufgabe. Sei t Q und A t = t 4t + 2 2t + 2 t t 2t 2t Mat 3Q a Bestimmen Sie die Eigenwerte von A t in Abhängigkeit

Mehr

Nichtlineare Gleichungssysteme

Nichtlineare Gleichungssysteme Kapitel 2 Nichtlineare Gleichungssysteme Problem: Für vorgegebene Abbildung f : D R n R n finde R n mit oder ausführlicher f() = 0 (21) f 1 ( 1,, n ) = 0, f n ( 1,, n ) = 0 Einerseits führt die mathematische

Mehr

Zahlen und metrische Räume

Zahlen und metrische Räume Zahlen und metrische Räume Natürliche Zahlen : Die natürlichen Zahlen sind die grundlegendste Zahlenmenge, da man diese Menge für das einfache Zählen verwendet. N = {1, 2, 3, 4,...} Ganze Zahlen : Aus

Mehr

Grundlegende Algorithmen

Grundlegende Algorithmen 3D Spieleprogrammierung Grundlegende Algorithmen Übersicht Game Loop Spielarchitektur Aufäumen von Strukturen Vorbereiten für spätere Aufgaben Bewegungen Zeitmessung Zeitunabhängigkeit GameLoop Game Engine

Mehr

Kapitel ML:XII. XII. Other Unsupervised Learning. Nearest Neighbor Strategies. Self Organizing Maps Neural Gas. Association Analysis Rule Mining

Kapitel ML:XII. XII. Other Unsupervised Learning. Nearest Neighbor Strategies. Self Organizing Maps Neural Gas. Association Analysis Rule Mining Kapitel ML:XII XII. Other Unsupervised Learning Nearest Neighbor Strategies Self Organizing Maps Neural Gas Association Analysis Rule Mining Reinforcement Learning ML:XII-1 Unsupervised Others LETTMANN

Mehr

Vorlesung 3 MINIMALE SPANNBÄUME

Vorlesung 3 MINIMALE SPANNBÄUME Vorlesung 3 MINIMALE SPANNBÄUME 72 Aufgabe! Szenario: Sie arbeiten für eine Firma, die ein Neubaugebiet ans Netz (Wasser, Strom oder Kabel oder...) anschließt! Ziel: Alle Haushalte ans Netz bringen, dabei

Mehr

Algorithmen und Datenstrukturen Kapitel 10

Algorithmen und Datenstrukturen Kapitel 10 Algorithmen und Datenstrukturen Kapitel 10 Flüsse Frank Heitmann heitmann@informatik.uni-hamburg.de 6. Januar 2016 Frank Heitmann heitmann@informatik.uni-hamburg.de 1/8 Flüsse Graphen Grundlagen Definition

Mehr

Erzeugung zufälliger Graphen und Bayes-Netze

Erzeugung zufälliger Graphen und Bayes-Netze Erzeugung zufälliger Graphen und Bayes-Netze Proseminar Algorithmen auf Graphen Georg Lukas, IF2000 2002-07-09 E-Mail: georg@op-co.de Folien: http://op-co.de/bayes/ Gliederung 1. Einleitung 2. einfache

Mehr

3.1 Konstruktion von minimalen Spannbäumen Es gibt zwei Prinzipien für die Konstruktion von minimalen Spannbäumen (Tarjan): blaue Regel rote Regel

3.1 Konstruktion von minimalen Spannbäumen Es gibt zwei Prinzipien für die Konstruktion von minimalen Spannbäumen (Tarjan): blaue Regel rote Regel 3.1 Konstruktion von minimalen Spannbäumen Es gibt zwei Prinzipien für die Konstruktion von minimalen Spannbäumen (Tarjan): blaue Regel rote Regel EADS 3.1 Konstruktion von minimalen Spannbäumen 16/36

Mehr

Prof. Dr. Christoph Karg Hochschule Aalen. Klausur zur Vorlesung Wahrscheinlichkeitstheorie und Statistik. Sommersemester 2016

Prof. Dr. Christoph Karg Hochschule Aalen. Klausur zur Vorlesung Wahrscheinlichkeitstheorie und Statistik. Sommersemester 2016 Prof. Dr. Christoph Karg 5.7.2016 Hochschule Aalen Klausur zur Vorlesung Wahrscheinlichkeitstheorie und Statistik Sommersemester 2016 Name: Unterschrift: Klausurergebnis Aufgabe 1 (15 Punkte) Aufgabe 3

Mehr

Literatur. Dominating Set (DS) Dominating Sets in Sensornetzen. Problem Minimum Dominating Set (MDS)

Literatur. Dominating Set (DS) Dominating Sets in Sensornetzen. Problem Minimum Dominating Set (MDS) Dominating Set 59 Literatur Dominating Set Grundlagen 60 Dominating Set (DS) M. V. Marathe, H. Breu, H.B. Hunt III, S. S. Ravi, and D. J. Rosenkrantz: Simple Heuristics for Unit Disk Graphs. Networks 25,

Mehr

DIE WELT Multimedia-Reichweite

DIE WELT Multimedia-Reichweite DIE WELT Multimedia-Reichweite 1) Hintergrundinformationen Die Methode zur Quantifizierung der durchschnittlichen, täglichen Leser- bzw. Nutzerschaft der WELT-Angebote (auch als Multimedia-Reichweite,

Mehr

Einleitung Projektion Selektion Join Mengenop. Vollst.keit. Einleitung Projektion. Selektion Join. Vollst.keit. Einleitung Projektion Selektion Join

Einleitung Projektion Selektion Join Mengenop. Vollst.keit. Einleitung Projektion. Selektion Join. Vollst.keit. Einleitung Projektion Selektion Join Parsen der Anfrage (SQL) Transformation in eine Standardform (Relationenalgebra) Logische Optimierung Transformation in alternative Zugriffspläne, Physische Optimierung Ausführung des gewählten Zugriffsplans

Mehr

Abschluss Einblick und Ausblick

Abschluss Einblick und Ausblick Abschluss Einblick und Ausblick Prof. Dr. T. Kudraß 1 Benutzer Komponenten eines DBMS (Überblick) I/O-Prozessor Output-Generierung Parser für selbst. oder eingebettete Kommandos Precompiler Autorisierungs-Kontrolle

Mehr

Abgabe: (vor der Vorlesung) Aufgabe 2.1 (P) O-Notation Beweisen Sie die folgenden Aussagen für positive Funktionen f und g:

Abgabe: (vor der Vorlesung) Aufgabe 2.1 (P) O-Notation Beweisen Sie die folgenden Aussagen für positive Funktionen f und g: TECHNISCHE UNIVERSITÄT MÜNCHEN FAKULTÄT FÜR INFORMATIK Lehrstuhl für Sprachen und Beschreibungsstrukturen SS 2009 Grundlagen: Algorithmen und Datenstrukturen Übungsblatt 2 Prof. Dr. Helmut Seidl, S. Pott,

Mehr

Kapitel 4: Dynamische Datenstrukturen. Algorithmen und Datenstrukturen WS 2012/13. Prof. Dr. Sándor Fekete

Kapitel 4: Dynamische Datenstrukturen. Algorithmen und Datenstrukturen WS 2012/13. Prof. Dr. Sándor Fekete Kapitel 4: Dynamische Datenstrukturen Algorithmen und Datenstrukturen WS 2012/13 Prof. Dr. Sándor Fekete 4.4 Binäre Suche Aufgabenstellung: Rate eine Zahl zwischen 100 und 114! Algorithmus 4.1 INPUT: OUTPUT:

Mehr

Moderne Clusteralgorithmen eine vergleichende Analyse auf zweidimensionalen Daten

Moderne Clusteralgorithmen eine vergleichende Analyse auf zweidimensionalen Daten Moderne Clusteralgorithmen eine vergleichende Analyse auf zweidimensionalen Daten Marcus Josiger, Kathrin Kirchner Friedrich Schiller Universität Jena 07743 Jena m.josiger@gmx.de, k.kirchner@wiwi.uni-jena.de

Mehr

P2P - Projekt. 1. Die gleiche Aufgabe zwei Herangehensweisen 2. Voraussetzungen. 3. Automatische Semantische Konvergenz

P2P - Projekt. 1. Die gleiche Aufgabe zwei Herangehensweisen 2. Voraussetzungen. 3. Automatische Semantische Konvergenz P2P - Projekt 1. Die gleiche Aufgabe zwei Herangehensweisen 2. Voraussetzungen 1. Natürlicher Suchalgorithmus 2. Small Worlds 3. Automatische Semantische Konvergenz 1. Netzwerkerstellung 2. Suche 1. Die

Mehr

Klassenstufen 7, 8. Aufgabe 1 (6+6+8 Punkte). Magischer Stern:

Klassenstufen 7, 8. Aufgabe 1 (6+6+8 Punkte). Magischer Stern: Department Mathematik Tag der Mathematik 31. Oktober 2009 Klassenstufen 7, 8 Aufgabe 1 (6+6+8 Punkte). Magischer Stern: e a 11 9 13 12 10 b c d Die Summe S der natürlichen Zahlen entlang jeder der fünf

Mehr

3 Quellencodierung. 3.1 Einleitung

3 Quellencodierung. 3.1 Einleitung Source coding is what Alice uses to save money on her telephone bills. It is usually used for data compression, in other words, to make messages shorter. John Gordon 3 Quellencodierung 3. Einleitung Im

Mehr

Grundlagen der Programmierung

Grundlagen der Programmierung Grundlagen der Programmierung Dr. Tom Kamphans 1. Vorlesung 12.10.2016 1 Organisatorisches Vorlesung: Mittwochs 14:00 15:30, Raum F 201 Übung: Mittwochs 15:45 19:00, Raum F 225 Übung: alle zwei Wochen

Mehr

Kapitel 19: Datenbank-Unterstützung für Datenanalyse

Kapitel 19: Datenbank-Unterstützung für Datenanalyse Kapitel 19: Datenbank-Unterstützung für Datenanalyse Datenbank-Unterstützung für Data Mining Unterschiedliche Ebenen: Erweiterung des Datenbank-Kerns ( Datenbank-Primitive ), Erweiterungen der Anfragesprache,

Mehr

Tree-Mining. Warum Tree-Mining? Baumtypen. Anwendungsgebiete. Philipp Große

Tree-Mining. Warum Tree-Mining? Baumtypen. Anwendungsgebiete. Philipp Große Tree Mining 2 Warum Tree-Mining? Tree-Mining Philipp Große Theoretische Probleme des Graphminings: Kein effektiver Algorithmus zur systematischen Nummerierung von Subgraphen bekannt Kein effizienter Algorithmus

Mehr

13. Binäre Suchbäume

13. Binäre Suchbäume 1. Binäre Suchbäume Binäre Suchbäume realiesieren Wörterbücher. Sie unterstützen die Operationen 1. Einfügen (Insert) 2. Entfernen (Delete). Suchen (Search) 4. Maximum/Minimum-Suche 5. Vorgänger (Predecessor),

Mehr

Vorlesung 1: Einleitung

Vorlesung 1: Einleitung Vorlesung 1: Einleitung Georg Nöldeke Wirtschaftswissenschaftliche Fakultät, Universität Basel Entscheidung VL 1, FS 12 Einleitung 1/17 1.1 Motivation In der Vorlesung Intermediate Microecoomics haben

Mehr

1 Grundlagen. 1.1 Erste Grundbegriffe 1.2 Kryptographische Systeme 1.3 Informationstheoretische Grundlagen

1 Grundlagen. 1.1 Erste Grundbegriffe 1.2 Kryptographische Systeme 1.3 Informationstheoretische Grundlagen 1 Grundlagen 1.1 Erste Grundbegriffe 1.2 Kryptographische Systeme 1.3 Informationstheoretische Grundlagen Die Überlegungen dieses Kapitels basieren auf der Informationstheorie von Shannon. Er beschäftigte

Mehr

Dieses Quiz soll Ihnen helfen, Kapitel besser zu verstehen.

Dieses Quiz soll Ihnen helfen, Kapitel besser zu verstehen. Dieses Quiz soll Ihnen helfen, Kapitel 2.5-2. besser zu verstehen. Frage Wir betrachten ein Würfelspiel. Man wirft einen fairen, sechsseitigen Würfel. Wenn eine oder eine 2 oben liegt, muss man 2 SFr zahlen.

Mehr

Clustering Seminar für Statistik

Clustering Seminar für Statistik Clustering Markus Kalisch 03.12.2014 1 Ziel von Clustering Finde Gruppen, sodas Elemente innerhalb der gleichen Gruppe möglichst ähnlich sind und Elemente von verschiedenen Gruppen möglichst verschieden

Mehr

Datenbankanwendung. Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern. Wintersemester 2014/15. smichel@cs.uni-kl.de

Datenbankanwendung. Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern. Wintersemester 2014/15. smichel@cs.uni-kl.de Datenbankanwendung Wintersemester 2014/15 Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern smichel@cs.uni-kl.de Wiederholung: Anfragegraph Anfragen dieses Typs können als Graph dargestellt werden: Der

Mehr

Design Theorie für relationale Datenbanken

Design Theorie für relationale Datenbanken Design Theorie für relationale Datenbanken Design von relationalen Datenbanken alternativen Datenabhängigkeiten Normalisierung Ziel: automatisches Datenbankdesign IX-1 Schlechtes Datenbank Design Frage:

Mehr

Gliederung. Algorithmen und Datenstrukturen II. Problem: Längste gemeinsame Teilsequenz. Problem: Längste gemeinsame Teilsequenz

Gliederung. Algorithmen und Datenstrukturen II. Problem: Längste gemeinsame Teilsequenz. Problem: Längste gemeinsame Teilsequenz Gliederung Algorithmen und Datenstrukturen II Algorithmen zur Textverarbeitung II D. Rösner Institut für Wissens- und Sprachverarbeitung Fakultät für Informatik Otto-von-Guericke Universität Magdeburg

Mehr

1 Zahlentheorie. 1.1 Kongruenzen

1 Zahlentheorie. 1.1 Kongruenzen 3 Zahlentheorie. Kongruenzen Der letzte Abschnitt zeigte, daß es sinnvoll ist, mit großen Zahlen möglichst einfach rechnen zu können. Oft kommt es nicht darauf, an eine Zahl im Detail zu kennen, sondern

Mehr

Clustering (hierarchische Algorithmen)

Clustering (hierarchische Algorithmen) Clustering (hierarchische Algorithmen) Hauptseminar Kommunikation in drahtlosen Sensornetzen WS 2006/07 Benjamin Mies 1 Übersicht Clustering Allgemein Clustering in Sensornetzen Clusterheads Cluster basiertes

Mehr

Density-Based Clustering in large Databases using Projections and Visualizations

Density-Based Clustering in large Databases using Projections and Visualizations Density-Based Clustering in large Databases using Projections and Visualizations Alexander Hinneburg Institut für Informatik Martin-Luther-Universität Halle-Wittenberg hinneburg@informatik.uni-halle.de

Mehr

2 und d > 1 Punkt im Kreis

2 und d > 1 Punkt im Kreis Beispiel 4 (Die Bestimmung der Kreisumfangszahl π) 1 Die Bedeutung der Zahl π, die jeder gebildete Zeitungsleser, so auch Ökonomen, Historiker und Politikwissenschaftler, aus der Oberschule kennt, ist

Mehr

B+-Baum mit Z-Ordnung. B+-Baum mit Z-Ordnung. Anforderungen. 7.3 Räumliche Zugriffsstrukturen

B+-Baum mit Z-Ordnung. B+-Baum mit Z-Ordnung. Anforderungen. 7.3 Räumliche Zugriffsstrukturen B+-Baum mit Z-Ordnung Window Query: 1. Ansatz Benutze den gewöhnlichen Algorithmus für Bereichsanfragen im B + -Baum: Suche mit dem kleinsten Z-Wert des Suchrechtecks (entspricht dem linken unteren Eckpunkt)

Mehr

2.4A. Reguläre Polyeder (Platonische Körper)

2.4A. Reguläre Polyeder (Platonische Körper) .A. Reguläre Polyeder (Platonische Körper) Wie schon in der Antike bekannt war, gibt es genau fünf konvexe reguläre Polyeder, d.h. solche, die von lauter kongruenten regelmäßigen Vielecken begrenzt sind:

Mehr

Aufgabensammlung aus Mathematik 2 UMIT, SS 2010, Version vom 7. Mai 2010

Aufgabensammlung aus Mathematik 2 UMIT, SS 2010, Version vom 7. Mai 2010 Aufgabensammlung aus Mathematik 2 UMIT, SS 2, Version vom 7. Mai 2 I Aufgabe I Teschl / K 3 Zerlegen Sie die Zahl 8 N in ihre Primfaktoren. Aufgabe II Teschl / K 3 Gegeben sind die natürliche Zahl 7 und

Mehr

Graphentheorie. Maximale Flüsse. Maximale Flüsse. Maximale Flüsse. Rainer Schrader. 31. Oktober Gliederung. sei G = (V, A) ein gerichteter Graph

Graphentheorie. Maximale Flüsse. Maximale Flüsse. Maximale Flüsse. Rainer Schrader. 31. Oktober Gliederung. sei G = (V, A) ein gerichteter Graph Graphentheorie Rainer Schrader Zentrum ür Angewandte Inormatik Köln 31. Oktober 2007 1 / 30 2 / 30 Gliederung maximale Flüsse Schnitte Edmonds-Karp-Variante sei G = (V, A) ein gerichteter Graph sei c eine

Mehr

Kapitel 2: Formale Sprachen Kontextfreie Sprachen. reguläre Grammatiken/Sprachen. kontextfreie Grammatiken/Sprachen

Kapitel 2: Formale Sprachen Kontextfreie Sprachen. reguläre Grammatiken/Sprachen. kontextfreie Grammatiken/Sprachen reguläre Grammatiken/prachen Beschreibung für Bezeichner in Programmiersprachen Beschreibung für wild cards in kriptsprachen (/* reguläre Ausdrücke */)?; [a-z]; * kontextfreie Grammatiken/prachen Beschreibung

Mehr

Informatik II, SS 2014

Informatik II, SS 2014 Informatik II SS 2014 (Algorithmen & Datenstrukturen) Vorlesung 13 (18.6.2014) Binäre Suchbäume IV (Rot Schwarz Bäume) Algorithmen und Komplexität Rot Schwarz Bäume Ziel: Binäre Suchbäume, welche immer

Mehr

Statistik. Jan Müller

Statistik. Jan Müller Statistik Jan Müller Skalenniveau Nominalskala: Diese Skala basiert auf einem Satz von qualitativen Attributen. Es existiert kein Kriterium, nach dem die Punkte einer nominal skalierten Variablen anzuordnen

Mehr

Visualisierung hochdimensionaler Daten. Hauptseminar SS11 Michael Kircher

Visualisierung hochdimensionaler Daten. Hauptseminar SS11 Michael Kircher Hauptseminar SS11 Inhalt Einführung zu hochdimensionalen Daten Visualisierungsmöglichkeiten dimensionale Teilmengen dimensionale Schachtelung Achsenumgestaltung Algorithmen zur Dimensionsreduktion Zusammenfassung

Mehr

Evolutionäre Algorithmen in der Spracherkennung

Evolutionäre Algorithmen in der Spracherkennung Informatik Alexander Eslava Evolutionäre Algorithmen in der Spracherkennung Studienarbeit Evolutionäre Algorithmen in der Spracherkennung Hauptseminar Einsatz Evolutionärer Strategien in Eingebetteten

Mehr

Institut für Mathematik Geometrie und Lineare Algebra J. Schönenberger-Deuel

Institut für Mathematik Geometrie und Lineare Algebra J. Schönenberger-Deuel Lösungen Übung 7 Aufgabe 1. Skizze (mit zusätzlichen Punkten): Die Figur F wird begrenzt durch die Strecken AB und BC und den Kreisbogen CA auf l. Wir werden die Bilder von AB, BC und CA unter der Inversion

Mehr

Detecting Near Duplicates for Web Crawling

Detecting Near Duplicates for Web Crawling Detecting Near Duplicates for Web Crawling Gurmeet Singh Manku et al., WWW 2007* * 16th international conference on World Wide Web Detecting Near Duplicates for Web Crawling Finde near duplicates in großen

Mehr

Effiziente Algorithmen und Datenstrukturen I. Kapitel 9: Minimale Spannbäume

Effiziente Algorithmen und Datenstrukturen I. Kapitel 9: Minimale Spannbäume Effiziente Algorithmen und Datenstrukturen I Kapitel 9: Minimale Spannbäume Christian Scheideler WS 008 19.0.009 Kapitel 9 1 Minimaler Spannbaum Zentrale Frage: Welche Kanten muss ich nehmen, um mit minimalen

Mehr

13 Java 4 - Entwurfsmuster am Beispiel des Rucksackproblems

13 Java 4 - Entwurfsmuster am Beispiel des Rucksackproblems 13 Java 4 - Entwurfsmuster am Beispiel des Rucksackproblems 13.1 Modellierung des Rucksackproblems 13.2 Lösung mit Greedy-Algorithmus 13.3 Lösung mit Backtracking 13.4 Lösung mit Dynamischer Programmierung

Mehr

Principal Component Analysis (PCA)

Principal Component Analysis (PCA) Principal Component Analysis (PCA) Motivation: Klassifikation mit der PCA Berechnung der Hauptkomponenten Theoretische Hintergründe Anwendungsbeispiel: Klassifikation von Gesichtern Weiterführende Bemerkungen

Mehr

Abschlussprüfung 2011 an den Realschulen in Bayern

Abschlussprüfung 2011 an den Realschulen in Bayern Prüfungsdauer: 50 Minuten Abschlussprüfung 0 an den Realschulen in Bayern Mathematik II Name: Vorname: Klasse: Platzziffer: Punkte: Aufgabe A Nachtermin A Eierbecher S Die nebenstehende Skizze zeigt den

Mehr