Kapitel 16: Identifikation von Outliern
|
|
- Mathias Hummel
- vor 6 Jahren
- Abrufe
Transkript
1 Kapitel 16: Identifikation von Gliederung Motivation allgemeine Bemerkungen Übersicht über die Ansätze Abstand-basierte Ermittlung von Dichte-basierte Ermittlung von Evolutionärer Ansatz: Anwendung genetischer Algorithmen Data Mining Technology: Outlier Detection 1 Data Mining Technology: Outlier Detection Illustration Was ist ein Outlier? Attribut Intuitiv: Outlier ist definiert als Element des Datenbestands, daß in bestimmter Hinsicht vom restlichen Datenbestand erheblich abweicht. Unterschiedliche Techniken zum Ermitteln von eistieren. Attribut 1 Data Mining Technology: Outlier Detection 3 Data Mining Technology: Outlier Detection 4
2 Anwendungsszenarien Beispiele Vielfalt der Ansätze Erkennen von Kreditkartenbetrug (fraud detection), Videoüberwachung, Erkennen von Netzwerkfehlern, E-Commerce, Finanzen, Marketing. 1. Basierend auf Verteilung,. basierend auf Clustering; 3., 4. Dichte-basiert. Data Cleaning. Data Mining Technology: Outlier Detection 5 Data Mining Technology: Outlier Detection 6 es Ermitteln der Outlier Illustration - Indebasiert Objekt O, das in Datenbestand T enthalten ist, ist ein DB(p,D)-Outlier, wenn der Abstand von O zu mindestens p Prozent der Objekte in T größer ist als D. - Indebasiert D O O ist Outlier, wenn p=0.6. O ist kein Outlier, wenn p=0.99. Data Mining Technology: Outlier Detection 7 Data Mining Technology: Outlier Detection 8
3 es Ermitteln der Outlier Algorithmen kdb-baum Inde-basiert, y (, y) (6, --) nested-loop, Zellen-basiert. 6 4 query (--, 6) (--, 4) (4, --) (3, --) - Indebasiert - Indebasiert 0 0 data space 6 (--, ) kdb-tree Data Mining Technology: Outlier Detection 9 Data Mining Technology: Outlier Detection 10 R-Baum es Ermitteln der Outlier Inde-Basierter Algo. k-nn Query für jeden Punkt, root Stop, sobald mehr Punkte als erforderlich in der Nachbarschaft. - Indebasiert - Indebasiert Ansatz insbesondere dann teuer, wenn Inde noch nicht eistiert und erst aufgebaut werden muß. query data space R-tree Data Mining Technology: Outlier Detection 11 Data Mining Technology: Outlier Detection 1
4 es Ermitteln der Outlier Nested- Algorithmus Illustration Nested- Algorithmus (1) Zähler für jeden Tupel der äußeren Relation, Stop, sobald Relation Relation - Indebasiert Kosten: Quadratisch in der Anzahl der Datenobjekte. - Indebasiert Join Attribute Data Mining Technology: Outlier Detection 13 Data Mining Technology: Outlier Detection 14 - Indebasiert Illustration Nested- Algorithmus () Relation A Join Attribute Relation B Data Mining Technology: Outlier Detection 15 von eben - Indebasiert es Ermitteln der Outlier Objekt O, das in Datenbestand T enthalten ist, ist ein DB(p,D)-Outlier, wenn der Abstand von O zu mindestens p Prozent der Objekte in T größer ist als D. Beispiel: 1000 Objekte, p=99. D. h. höchstens neun Objekte mit Abstand D oder weniger. Data Mining Technology: Outlier Detection 16
5 Zellen-basierter Algorithmus (1) Zellen-basierter Algorithmus () - Indebasiert k-dimensionaler Raum partitioniert in Zellen der Länge D (k Dimensionalität), k Jeden Tupel seiner Zelle zuordnen. D D D - Indebasiert Zellen mit weniger als m Tupeln in L-Nachbarschaft enthalten nur Outlier. Zellen mit mehr als m = 1 p Tupeln in L1-Nachbarschaft (rosafarbene Zellen) enthalten keine Outlier, brauchen nicht weiter betrachtet zu werden. Restliche Zellen: Outlier ermitteln, indem man Tupel einzeln inspiziert. Vorteil: Datenbestand wird maimal dreimal durchlaufen. L 1 L Data Mining Technology: Outlier Detection 17 Data Mining Technology: Outlier Detection 18 Zellen-basierter Algorithmus (3) Alternative (1) - Indebasiert Berechnung der Outlier durch Inspektion einzelner Tupel typischerweise IO-intensiv nur Seiten mit Tupeln mit unklarem Status im Hauptspeicher. - Indebasiert Andere von Outlier. Ansatz basiert auf Abstand D zwischen Punkt P und seinem k-nn D k (P) Ranking der Punkte basiert auf D k (P). Top-n Punkte sind per Outlier. Data Mining Technology: Outlier Detection 19 Data Mining Technology: Outlier Detection 0
6 - Indebasiert Beispiel für k=: P P 1 P 4 P3 Alternative () P 5 P ist -NN von P 1, P 3 ist -NN von P 4, usw. Sortierte Liste der Punkte: P 6, P 5, P 4, P, P 3, P 1 Data Mining Technology: Outlier Detection 1 P 6 Folie zum Thema Clustering Ermitteln der Dimensionen zu einem Medoid () L 1 δ 1 L m 1 m m 3 m 4 Unterschiede zur folgenden Folie: Nicht nur Medoide, sondern alle Datenpunkte. Nicht unbedingt nächster Nachbar, sondern k-nn. Data Mining Technology: Outlier Detection Dichte-basierte Outlier-Ermittlung Konzepte (1) k-abstand von p Abstand des k-nn, k-nachbarschaft N k (p) Punkte innerhalb dieses Abstands um p (inklusive k-nn). Illustration: P P 1 P 4 P3 P 6 Dichte-basierte Outlier-Ermittlung Konzepte () local reachability density von p Kehrwert des Durchschnittsabstands zwischen p und den Punkten in der k-nachbarschaft. Abschätzung der Dichte bei p. Dichte allein nicht aussagekräftig genug. Illustration. P 5 Warum sollte man k > 1 wählen? Data Mining Technology: Outlier Detection 3 Data Mining Technology: Outlier Detection 4
7 Dichte-basierte Outlier-Ermittlung Konzepte (3) local outlier factor von p Durchschnitt der Verhältnisse der local reachability density von p und der der k nächsten Nachbarn von p. Local outlier factor von p ist hoch, wenn seine local reachability density niedriger als die seiner Nachbarn ist. Data Mining Technology: Outlier Detection 5 Local Outlier Factor Illustration Beispiel für k=: P 4 P 3.5 P 5 -Abstand(P 1 )=10, -Abstand(P 5 )=4 1 lrd 1 = ( P ) = ( ) ( P ) 1 lrd( P 4 ) = = ( 4 + ) lof P1 = = ( ).887 Data Mining Technology: Outlier Detection 6 P 1 1 lrd 5 = = ( 4 +.5) Algorithmus (1) Micro-Cluster (1) Local outlier factor als Indikator für Outlier macht Sinn. Aber: Berechnung des local outlier factors für alle Datenpunkte ist teuer. Idee: Verwende Clustering, um Großteil der Datenpunkte zu prunen. Ideen ähnlich zu BIRCH (hierarchisches Clustering). Daten werden zu kleinen Clustern komprimiert. Jeder Cluster repräsentiert durch wenige aggregierte Werte, nämlich Anzahl der Datenobjekte, Mittelpunkt c, Radius r=ma(d(p i, c)) Data Mining Technology: Outlier Detection 7 Data Mining Technology: Outlier Detection 8
8 Micro-Cluster () Algorithmus () Micro-Cluster Blatt-Cluster, wie bei BIRCH. Größe der Micro-Cluster durch maradius begrenzt. Split, indem man Datenobjekte mit maimalem Abstand als Seeds nimmt. Annahme: Micro-Cluster passen in Hauptspeicher. Gegeben Micro-Clustering, können wir obere und untere Schranke für local outlier factors für jeden Datenpunkt berechnen. Wenn obere Schranke des local outlier factors von P kleiner ist als untere Schranke des local outlier factors vieler Datenpunkte, können wir P prunen. Data Mining Technology: Outlier Detection 9 Data Mining Technology: Outlier Detection 30 Illustration Outlier Detection in hochdimensionalen Datenbeständen root Wenn Datenbestand hochdimensional ist, enthalten üblicherweise nur Teilräume Outlier. Konventionelle Techniken sind nicht effektiv. - Indebasiert data space R-tree Data Mining Technology: Outlier Detection 31 Data Mining Technology: Outlier Detection 3
9 Anomalien in Hochdimensionalen Datenräumen 1. Sparsity,. hierarchische Datenstrukturen sind nicht effektiv. Sparsity Diskretisierung, nur zwei Partitionen pro Dimension. Illustration: Sehr viele Datenobjekte, z. B. N=1,000,000,000. Hochdimensionaler Raum, z. B. d=100. Wie viele Datenpunkte pro Zelle? N/ d = 0, Eine zufällige Zelle ist höchstwahrscheinlich leer. Data Mining Technology: Outlier Detection 33 Data Mining Technology: Outlier Detection 34 Illustration für k=: P P 1 P 4 P3 k-nn P 5 Gegenstand der Betrachtung im Folgenden: E[k-NN Abstand] P 6 Hierarchische Datenstrukturen sind nicht effektiv (1) Annahmen: Datenpunkte gleichverteilt. Datenraum Ω=[0,1] d. D. h. Kantenlänge 1. Formel für E[NN-Abstand] herleitbar. Erwarteter NN-Abstand Dimensionalität d Data Mining Technology: Outlier Detection 35 Data Mining Technology: Outlier Detection 36
10 kdb-baum (1) y (, y) (6, --) kdb-baum () Illustration Aufbau des kdb-baums 6 4 query (--, 6) (--, 4) (4, --) (3, --) 0 0 data space 6 (--, ) kdb-tree Data Mining Technology: Outlier Detection 37 Data Mining Technology: Outlier Detection 38 Hierarchische Datenstrukturen sind nicht effektiv () Beispiel kdb-baum: Splits nur entlang d Dimensionen. l ma Ω = [0,1] 3 Maimalabstand zum Block zufälliger Punkt, wenn d <d: 1 lma = d Hierarchische Datenstrukturen sind nicht effektiv (3) l ma < E[NN-Abstand] für große d. D. h. jede NN-Kugel schneidet jeden Block. D. h. alle Blätter müssen betrachtet werden. Bäume helfen nicht. Curse of dimensionality. Läßt sich verallgemeinern für Objekte (fast) beliebiger Form, gleichverteilte Daten, aber gleicher Effekt mit Realwelt-Daten. z Data Mining Technology: Outlier Detection 39 Data Mining Technology: Outlier Detection 40
11 Hier verwendete von Outlier Punkt ist Outlier wenn er in irgendeinem niedrigdimensionalen Teilraum in Region mit ungewöhnlich niedriger Dichte liegt. Ungewöhnlich niedrige Dichte (1) Wertebereich jedes Attributs in φ Partitionen gleicher Tiefe zerlegen. f=1/φ φ=3 Wären Dimensionen statistisch unabhängig, wäre die Zahl der Datenobjekte pro Zelle N f d. Das wären im Beispiel 6/9. Data Mining Technology: Outlier Detection 41 Data Mining Technology: Outlier Detection 4 Ungewöhnlich niedrige Dichte () Ungewöhnlich niedrige Dichte (3) n(d) tatsächliche Anzahl Objekte in einer gegebenen Zelle. Dichte auf den ersten Blick ungewöhnlich niedrig, wenn n(d) << N f d. Aber: Absolute Zahlen wenig aussagekräftig, abhängig von Dimensionalität des Teilraums. ( ) d d Standardabweichung: N f 1 f (Vorhandensein/Nichtvorhandensein eines Punkts in einer Zelle ist Bernoulli-Zufallsvariable mit Wahrscheinlichkeit f d.) n(d) tatsächliche Anzahl Objekte in einer gegebenen Zelle. sparsity coefficient n( D) N f S( D) = d N f (1 f S(D) negativ Zellen, in denen Anzahl der Objekte kleiner ist als erwartet. Koeffizient berücksichtigt Unterschiede in den Dimensionalitäten der Teilräume. d d ) Data Mining Technology: Outlier Detection 43 Data Mining Technology: Outlier Detection 44
12 Brute- Technik Evolutionärer Algorithmus (GA) sparsity coefficient für alle Zellen in allen Teilräumen berechnen. Etrem teuer. Praktisch nicht durchführbar. Imitation der organischen Evolution. Geeignetere (fittere) Individuen pflanzen sich tendenziell eher fort. Hier: Fitte Individuen sind Zellen mit niedrigem sparsity coefficient. Mutation aufgrund äußerer Einflüsse kommt hinzu. GA berücksichtigen die gesamte Population, im Gegensatz zu beispielsweise Hill Climbing. Data Mining Technology: Outlier Detection 45 Data Mining Technology: Outlier Detection 46 Evolutionärer Algorithmus (GA) Repräsentation der Individuen; Fitness Was müssen wir tun? Beispiel: 1 * Bestimmung der Individuen und ihrer Repräsentation, Selektion (d. h. wer darf sich wie oft fortpflanzen), Mutation/Crossover, Fitness Function. relativ einfach d= 1 y Fitness: sparsity coefficient. Data Mining Technology: Outlier Detection 47 Data Mining Technology: Outlier Detection 48
13 Selektion (1) Selektion () D. h. welche Individuen dürfen sich (wie oft) fortpflanzen? Elementare Alternativen: Selektion basierend auf Rang, Selektion basierend auf Fitness. Selektion basierend auf Fitness Auswahl in Abhängigkeit von Fitness gewichten. Beispiel: Individuen 1,, 3 mit Fitness 0.9, 0.8, 0.1, mit Fitness 0.9, 0., 0.1 Data Mining Technology: Outlier Detection 49 Data Mining Technology: Outlier Detection 50 Selektion (3) Crossover Selektion basierend auf Rang: Übliches Vorgehen: two-point crossover Individuen nach Fitness sortieren, Auswahl abhängig vom Rang gewichten, z. B. ist Sampling Wahrscheinlichkeit proportional zu p r(i) (p Gesamtanzahl der Individuen, r(i) Rang des i-ten Individuums) Im Beispiel von eben in beiden Fällen gleiche Wahrscheinlichkeiten. Selektion basierend auf Rang üblicherweise stabiler. Crossover point zufällig bestimmen, d. h. Position im String, Substring rechts vom crossover point austauschen. Beispiel: Gegeben: 3 * * 1; 1 * 3 3 * Crossover nach der dritten Position Ergebnis: 3*3*, 1*3*1 Crossover nach der vierten Position Ergebnis: 3***, 1*331 Dimensionalität des Ergebnisses ist i. Allg. anders. Erfordert Anpassung des Verfahrens. Data Mining Technology: Outlier Detection 51 Data Mining Technology: Outlier Detection 5
14 Mutation Bestimmung der Projektionsparameter Zwei (offensichtliche) Varianten Zufällige Position, die nicht Wert * hat, nach * verändern; gleichzeitig Wert * an anderer Position durch Zufallszahl ersetzen. Beispiel: 3 * * * * Position, die nicht Wert * hat, durch anderen Wert ersetzen. Beispiel: 3 * * 1 3 * * 3 Größe der Zellen so wählen, daß Dichte der Zellen in etwa Dichte um Datenpunkte herum entspricht. Ermittlung von φ: Wenn φ zu groß ist, sind die meisten Zellen leer, ein Punkt alleine in seiner Zelle ist kein Outlier. φ zu klein Zellen entsprechen nicht wirklich unseren Vorstellungen von Lokalität. z Data Mining Technology: Outlier Detection 53 Data Mining Technology: Outlier Detection 54 Erklärungen für Outlier (1) Erklärungen für Outlier () Gametying Goals Beispiel: Player Name Powerplay Goals Shorthanded Goals Gamewinning Goals Games Played Jaromir Jagr Gametying Goals Player Name Powerplay Goals Shorthanded Goals Gamewinning Goals Games Played Mario Lemieu Jaromir Jagr John Leclair Rob Brind Amour Welche Spieler sind außergewöhnlich? Suche nach. Wir können nach in einer Dimension suchen, in zwei Dimensionen, usw. viele mögliche Kombinationen. Umgekehrte Sichtweise möglich, verglichen mit Erläuterung zu vorangegangener Folie: Nicht: Was sind die Outlier in bestimmter Kombination von Dimensionen? Sondern: In welchen Dimensionen ist ein bestimmter Tupel ein Outlier? Data Mining Technology: Outlier Detection 55 Data Mining Technology: Outlier Detection 56
15 Erklärungen für Outlier (3) Erklärungen für Outlier (4) Mario Lemieu: Outlier im 1-D Raum der power-play goals. Outlier im -D Raum der short-handed goals and game-winning goals. (Kein Spieler ist Ausnahme hinsichtlich short-handed goals alleine oder hinsichtlich game-winning goals alleine.) Rob Brind Amour: Outlier im 1-D Raum der game-tying goals. John Leclair: Outlier im -D Raum der game-winning goals und game-tying goals. (Bezüglich game-tying goals isoliert betrachtet, wird Leclair von anderem Spieler dominiert.) Data Mining Technology: Outlier Detection 57 Data Mining Technology: Outlier Detection 58 Unterschiedliche Arten von (1) Unterschiedliche Arten von () P ist nicht-trivialer Outlier in Attribut-Raum A P, wenn P nicht Outlier in einem Teilraum B A P ist. P ist strong outlier in A P, wenn kein Outlier in irgendeinem B A P eistiert. D. h. die kleinste Menge von Attributen, die erforderlich ist, um zu erklären, warum P besonders ist. Beispiel: Brind Amour ist trivialer Outlier bezüglich {game-winning goals, game-tying goals}. Brind Amour ist Outlier bezüglich game-tying goals. Weak outlier nicht-trivialer, aber kein strong outlier. Beispiele: Mario Lemieu ist strong outlier im -D Raum der short-handed goals und game-winning goals. John Leclair ist weak outlier im -D Raum der game-winning goals und der game-tying goals. Warum nicht strong outlier? Data Mining Technology: Outlier Detection 59 Data Mining Technology: Outlier Detection 60
16 Unterschiedliche Arten von (3) Unterschiedliche Arten von (3) Kann es einen strong outlier geben, der nicht nicht-trivial ist? Kann es einen strong outlier geben, der nicht nicht-trivial ist? Nein. Trivialer Outlier bedeutet, daß man den Outlier mit weniger Attributen erklären kann. D. h. Outlier ist definitiv nicht strong. Data Mining Technology: Outlier Detection 61 Data Mining Technology: Outlier Detection 6 A power-play D game-tying B short-handed C game-winning E games played Nicht alle Kanten sichtbar. Unterschiedliche Arten von (4) ABCDE ABCD ABCE ABCE ABCE ABCE ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE Jagr Lemieu, Jagr Lemieu Leclair Jagr AB AC AD AE BC BD BE CD CE DE Lemieu Brind Amour A B C D E Algorithmen (1) Naiver Algorithmus: Hinsichtlich Struktur Ähnlichkeit mit Apriori. Erst Outlier in den 1-D Räumen finden. Dann Outlier in den -D Räumen finden, usw. Wenn wir nur nach strong outliers suchen, können wir Kombinationen von Attributen prunen. Beispiel: Wenn wir Outlier bezüglich Attribut A gefunden haben, brauchen wir nicht nach strong outliers zu suchen in Mengen von Attributen, die A enthalten. Wie erkennt man in diesem Diagramm trivialen Outlier? Data Mining Technology: Outlier Detection 63 Data Mining Technology: Outlier Detection 64
17 Algorithmen () Ausgefeilterer Algorithmus: Mehrere benachbarte Knoten gleichzeitig abarbeiten. D. h. mehrere Ebenen des Verbands gleichzeitig abarbeiten. Prüfungsfragen, beispielhaft (1) Welche en für Outlier kennen Sie? Gegeben die abstandsbasierte von Outlier, welche Techniken zur Ermittlung der Outlier kennen Sie? Warum kann man beim Dichte-basierten Clustering nicht einfach die Dichte um die Punkte herum vergleichen und die mit der geringsten Dichte zurückgeben? Sehen Sie einen Zusammenhang zwischen Clustering und Outlier Detection? Welche Anomalien hochdimensionaler Merkmalsräume kennen Sie? Data Mining Technology: Outlier Detection 65 Data Mining Technology: Outlier Detection 66 Prüfungsfragen, beispielhaft () Wieso funktionieren hierarchische Indestrukturen in hochdimensionalen Merkmalsräumen nicht? Was ist der Zusammenhang zwischen der Zelldichte und Outlier Detection in hochdimensionalen Merkmalsräumen? Wie groß sollten die Zellen sein? Geben Sie die Klassifizierung aus der LV in 'interessante'und 'weniger interessante'outlier wieder. Literatur E.M.Knorr, R.T.Ng: Algorithms for Mining Distance- Based Outliers in Large Datasets. E.M.Knorr, R.T.Ng: Finding Intensional Knowledge of Abstand-Based Outliers S.Ramaswamy, R.Rastogi, K.Shim: Efficient Algorithms for Mining Outliers from Large Datasets W.Jin, A.K.H. Tung, J.Han: Mining Top-n Local Outliers in Large Databases C.C.Aggarwal, P.S.Yu: Outlier Detection for High Dimensional Data Data Mining Technology: Outlier Detection 67 Data Mining Technology: Outlier Detection 68
6.6 Vorlesung: Von OLAP zu Mining
6.6 Vorlesung: Von OLAP zu Mining Definition des Begriffs Data Mining. Wichtige Data Mining-Problemstellungen, Zusammenhang zu Data Warehousing,. OHO - 1 Definition Data Mining Menge von Techniken zum
MehrMotivation. Themenblock: Data Preprocessing. Einsatzgebiete für Data Mining I. Modell von Gianotti und Pedreschi
Motivation Themenblock: Data Preprocessing We are drowning in information, but starving for knowledge! (John Naisbett) Was genau ist Datenanalyse? Praktikum: Data Warehousing und Data Mining Was ist Data
MehrOptimale Produktliniengestaltung mit Genetischen Algorithmen
Optimale Produktliniengestaltung mit Genetischen Algorithmen 1 Einleitung 2 Produktlinienoptimierung 3 Genetische Algorithmen 4 Anwendung 5 Fazit Seite 1 Optimale Produktliniengestaltung mit Genetischen
MehrDomain-independent. independent Duplicate Detection. Vortrag von Marko Pilop & Jens Kleine. SE Data Cleansing
SE Data Cleansing Domain-independent independent Duplicate Detection Vortrag von Marko Pilop & Jens Kleine http://www.informatik.hu-berlin.de/~pilop/didd.pdf {pilop jkleine}@informatik.hu-berlin.de 1.0
MehrData Warehousing und Data Mining
Data Warehousing und Data Mining Clustering Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Einführung Clustergüte Ähnlichkeiten Clustermitte Hierarchisches Clustering Partitionierendes
Mehr2. Datenvorverarbeitung
Kurzreferat Das Ziel beim Clustering ist es möglichst gleich Datensätze zu finden und diese in Gruppen, sogenannte Cluster zu untergliedern. In dieser Dokumentation werden die Methoden k-means und Fuzzy
MehrIMPLEMENTIERUNG VON OPERATIONEN AUF RELATIONEN
Joins 1 IMPLEMENTIERUNG VON OPERATIONEN AUF RELATIONEN Literatur Priti Mishara, Maragaret H. Eich, Join Processing in Relational Databases, ACM Computing Surveys, Vol. 24, No. 1, March 1992 Goetz Graefe,
MehrKapitel 2: Analyse der Laufzeit von Algorithmen Gliederung
Gliederung 1. Motivation / Einordnung / Grundlagen 2. Analyse der Laufzeit von Algorithmen 3. Untere Schranken für algorithmische Probleme 4. Sortier- und Selektionsverfahren 5. Paradigmen des Algorithmenentwurfs
MehrR-Baum R + -Baum X-Baum M-Baum
R-Baum und Varianten R-Baum R + -Baum X-Baum M-Baum staab@uni-koblenz.de 1 R-Baum R-Baum: Guttman 1984 Erweiterung B-Baum um mehrere Dimensionen Standardbaum zur Indexierung im niedrigdimensionalen Raum
MehrStreaming Data: Das Modell
Streaming Data: Das Modell Berechnungen, bei fortlaufend einströmenden Daten (x t t 0), sind in Echtzeit zu erbringen. Beispiele sind: - Verkehrsmessungen im Internet, - Datenanalyse in der Abwehr einer
MehrSeminar Komplexe Objekte in Datenbanken
Seminar Komplexe Objekte in Datenbanken OPTICS: Ordering Points To Identify the Clustering Structure Lehrstuhl für Informatik IX - Univ.-Prof. Dr. Thomas Seidl, RWTH-Aachen http://www-i9.informatik.rwth-aachen.de
MehrVoraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen
7. Clusteranalyse (= Häufungsanalyse; Clustering-Verfahren) wird der multivariaten Statistik zugeordnet Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut,
MehrWS 2010/ Januar Mathematisches Institut der Universität München Prof. Dr. Rudolf Fritsch
Mathematisches Institut der Universität München Prof. Dr. Rudolf Fritsch WS 2010/2011 14. Januar 2011 Geometrie mit Übungen Übungsblatt 9, Musterlösungen Aufgabe 33. Es werden Kreise in der Euklidischen
MehrEntwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion
Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion Vortrag Seminararbeit David Pogorzelski Aachen, 22.01.2015 Agenda 1 2 3 4 5 Ziel der
MehrImplementierung der SQL Operatoren GROUP BY und CUBE
Implementierung der SQL Operatoren GROUP BY und CUBE Seminararbeit von Christian Brandt Seminar Advanced Data Warehousing WS 2003/2004 Einführung Ein zentrales Element von OLAP - Anwendungen ist die Aggregation
MehrExploration und Klassifikation von BigData
Exploration und Klassifikation von BigData Inhalt Einführung Daten Data Mining: Vorbereitungen Clustering Konvexe Hülle Fragen Google: Riesige Datenmengen (2009: Prozessieren von 24 Petabytes pro Tag)
Mehr5.3 Sampling-Algorithmen
5.3 Sampling-Algorithmen Vorgehensweise in der Statistik: Gesamtheit von Werten durch kleine, möglichst repräsentative Stichprobe darstellen. (Vgl. z. B. Hochrechnungen für Wahlergebnisse.) Genauer: Gegeben
MehrData-Mining: Ausgewählte Verfahren und Werkzeuge
Fakultät Informatik Institut für Angewandte Informatik Lehrstuhl Technische Informationssysteme Data-Mining: Ausgewählte Verfahren und Vortragender: Jia Mu Betreuer: Dipl.-Inf. Denis Stein Dresden, den
MehrHäufige Item-Mengen: die Schlüssel-Idee. Vorlesungsplan. Apriori Algorithmus. Methoden zur Verbessung der Effizienz von Apriori
Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,
MehrBayes Klassifikatoren M E T H O D E N D E S D A T A M I N I N G F A B I A N G R E U E L
Bayes Klassifikatoren M E T H O D E N D E S D A T A M I N I N G F A B I A N G R E U E L Inhalt Grundlagen aus der Wahrscheinlichkeitsrechnung Hypothesenwahl Optimale Bayes Klassifikator Naiver Bayes Klassifikator
Mehr2. Übungsblatt 3.0 VU Datenmodellierung
2. Übungsblatt 3.0 VU Datenmodellierung 15. Mai 2012 Allgemeines In diesem Übungsteil sollten Sie Aufgabenstellungen aus den Bereich SQL und Normalformentheorie bearbeiten. Lösen Sie die Beispiele eigenständig,
MehrProf. Dr. Christoph Kleinn Institut für Waldinventur und Waldwachstum Arbeitsbereich Waldinventur und Fernerkundung
Systematische Stichprobe Rel. große Gruppe von Stichprobenverfahren. Allgemeines Merkmal: es existiert ein festes, systematisches Muster bei der Auswahl. Wie passt das zur allgemeinen Forderung nach Randomisierung
MehrInformationstheorethisches Theorem nach Shannon
Informationstheorethisches Theorem nach Shannon Beispiel zum Codierungsaufwand - Wiederholung: Informationstheorethisches Modell (Shannon) Sei x eine Aussage. Sei M ein Modell Wieviele Bits sind aussreichend,
Mehr9.2 Invertierbare Matrizen
34 9.2 Invertierbare Matrizen Die Division ist als Umkehroperation der Multiplikation definiert. Das heisst, für reelle Zahlen a 0 und b gilt b = a genau dann, wenn a b =. Übertragen wir dies von den reellen
MehrAlgorithmische Geometrie 1. Einführung
Algorithmische Geometrie 1. Einführung JProf. Dr. Heike Leitte Computergraphik und Visualisierung Algorithmische Geometrie Veranstaltung: 2 SWS Vorlesung: Mi, 9:15 10:45 1 SWS Übung: Do 14:00 16:00 Übungen:
Mehr2. Übungsblatt 3.0 VU Datenmodellierung
2. Übungsblatt 3.0 VU Datenmodellierung 2. Dezember 2015 Allgemeines In diesem Übungsteil sollten Sie Aufgabenstellungen aus den Bereich SQL und Normalformentheorie bearbeiten. Lösen Sie die Beispiele
MehrVektorgeometrie - Teil 1
Vektorgeometrie - Teil 1 MNprofil - Mittelstufe KZN Ronald Balestra CH - 8046 Zürich www.ronaldbalestra.ch Name: Vorname: 14. März 2016 Inhaltsverzeichnis 1 Einführung & die analytische Darstellung der
Mehr1. Motivation / Grundlagen 2. Sortierverfahren 3. Elementare Datenstrukturen / Anwendungen 4. Bäume / Graphen 5. Hashing 6. Algorithmische Geometrie
Gliederung 1. Motivation / Grundlagen 2. Sortierverfahren 3. Elementare Datenstrukturen / Anwendungen 4. äume / Graphen 5. Hashing 6. Algorithmische Geometrie 4/5, olie 1 2014 Prof. Steffen Lange - HDa/bI
MehrGrundlegende Eigenschaften von Punktschätzern
Grundlegende Eigenschaften von Punktschätzern Worum geht es in diesem Modul? Schätzer als Zufallsvariablen Vorbereitung einer Simulation Verteilung von P-Dach Empirische Lage- und Streuungsparameter zur
MehrFolge 19 - Bäume. 19.1 Binärbäume - Allgemeines. Grundlagen: Ulrich Helmich: Informatik 2 mit BlueJ - Ein Kurs für die Stufe 12
Grundlagen: Folge 19 - Bäume 19.1 Binärbäume - Allgemeines Unter Bäumen versteht man in der Informatik Datenstrukturen, bei denen jedes Element mindestens zwei Nachfolger hat. Bereits in der Folge 17 haben
MehrVorlesung 4 BETWEENNESS CENTRALITY
Vorlesung 4 BETWEENNESS CENTRALITY 101 Aufgabe! Szenario: Sie arbeiten bei einem sozialen Online-Netzwerk. Aus der Netzwerk-Struktur Ihrer Benutzer sollen Sie wichtige Eigenschaften extrahieren. [http://www.fahrschule-vatterodt.de/
MehrSerie 10: Inverse Matrix und Determinante
D-ERDW, D-HEST, D-USYS Mathematik I HS 5 Dr Ana Cannas Serie 0: Inverse Matrix und Determinante Bemerkung: Die Aufgaben dieser Serie bilden den Fokus der Übungsgruppen vom und 5 November Gegeben sind die
MehrStatistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07
Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07 Ziel der Clusteranalyse: Bilde Gruppen (cluster) aus einer Menge multivariater Datenobjekte (stat
MehrErkennung Sequenzieller Muster Algorithmen und Anwendungen
Achim Eisele, Thema 1.4.3: Sequenzielle Muster 1 FernUniversität in Hagen Seminar 01912 im Sommersemester 2008 Erkennung Sequenzieller Muster Algorithmen und Anwendungen Thema 1.4.3: Sequenzielle Muster
Mehr14. Rot-Schwarz-Bäume
Bislang: Wörterbuchoperationen bei binären Suchbäume effizient durchführbar, falls Höhe des Baums klein. Rot-Schwarz-Bäume spezielle Suchbäume. Rot-Schwarz-Baum mit n Knoten hat Höhe höchstens 2 log(n+1).
MehrAlgorithmen & Datenstrukturen 1. Klausur
Algorithmen & Datenstrukturen 1. Klausur 7. Juli 2010 Name Matrikelnummer Aufgabe mögliche Punkte erreichte Punkte 1 35 2 30 3 30 4 15 5 40 6 30 Gesamt 180 1 Seite 2 von 14 Aufgabe 1) Programm Analyse
Mehr5 Zwei spieltheoretische Aspekte
5 Zwei spieltheoretische Aspekte In diesem Kapitel wollen wir uns mit dem algorithmischen Problem beschäftigen, sogenannte Und-Oder-Bäume (kurz UOB) auszuwerten. Sie sind ein Spezialfall von Spielbäumen,
MehrInstitut für Mathematik Geometrie und Lineare Algebra J. Schönenberger-Deuel. Aufgabe 1. Wir geben nur zwei von sehr vielen möglichen Strategien.
Lösungen Übung 13 Aufgabe 1. Wir geben nur zwei von sehr vielen möglichen Strategien. a) Strategie 1 (nächster Nachbar): Jedes Mal reist der Reisende vom Punkt, wo er gerade ist, zur nächstgelegenen Stadt,
MehrAlgorithmen und Datenstrukturen
Algorithmen und Datenstrukturen Dipl. Inform. Andreas Wilkens aw@awilkens.com Überblick Grundlagen Definitionen Elementare Datenstrukturen Rekursionen Bäume 2 1 Datenstruktur Baum Definition eines Baumes
MehrSYN Grundlagen Algorithmen Anwendung FIN. Anomalieerkennung. UnFUG WS2011/2012. Alexander Passfall <alex@passfall.de> Hochschule Furtwangen
1/23 UnFUG WS2011/2012 Alexander Passfall Hochschule Furtwangen 3. November 2011 2/23 Inhalt 1 Grundlagen Typen Funktionsweise 2 Algorithmen Outlier Detection Machine Learning 3 Anwendung
MehrBayes sches Lernen: Übersicht
Bayes sches Lernen: Übersicht Bayes sches Theorem MAP, ML Hypothesen MAP Lernen Minimum Description Length Principle Bayes sche Klassifikation Naive Bayes Lernalgorithmus Teil 5: Naive Bayes + IBL (V.
MehrJ. W. Goethe-Universität Frankfurt Seminar Data Mining WS98/99
J. W. Goethe-Universität Frankfurt Seminar Data Mining WS98/99 Thema: Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications von Stefan Steinhaus (7 November 1999) Inhaltsverzeichnis
MehrProseminarvortrag. Markov-Ketten in der Biologie (Anwendungen)
Proseminarvortrag Markov-Ketten in der Biologie (Anwendungen) von Peter Drössler 20.01.2010 2 Markov-Ketten in der Biologie (Peter Drössler, KIT 2010) Inhalt 1. Das Wright-Fisher Modell... 3 1.1. Notwendige
MehrVorlesung. Datenschutz und Privatheit in vernetzten Informationssystemen
Vorlesung Datenschutz und Privatheit in vernetzten Informationssystemen Kapitel 7: Privacy Preserving Data Mining Thorben Burghardt, Erik Buchmann buchmann@ipd.uka.de Thanks to Chris Clifton & Group IPD,
MehrLernziele: Ausgleichstechniken für binäre Bäume verstehen und einsetzen können.
6. Bäume Lernziele 6. Bäume Lernziele: Definition und Eigenschaften binärer Bäume kennen, Traversierungsalgorithmen für binäre Bäume implementieren können, die Bedeutung von Suchbäumen für die effiziente
MehrRaumgeometrie - gerade Pyramide
1.0 Das Quadrat ABCD mit der Seitenlänge 7 cm ist Grundfläche einer geraden Pyramide ABCDS mit der Höhe h = 8 cm. S ist die Pyramidenspitze. 1.1 Fertige ein Schrägbild der Pyramide ABCDS an. 1.2 Berechne
MehrMaximizing the Spread of Influence through a Social Network
1 / 26 Maximizing the Spread of Influence through a Social Network 19.06.2007 / Thomas Wener TU-Darmstadt Seminar aus Data und Web Mining bei Prof. Fürnkranz 2 / 26 Gliederung Einleitung 1 Einleitung 2
MehrB-Bäume I. Algorithmen und Datenstrukturen 220 DATABASE SYSTEMS GROUP
B-Bäume I Annahme: Sei die Anzahl der Objekte und damit der Datensätze. Das Datenvolumen ist zu groß, um im Hauptspeicher gehalten zu werden, z.b. 10. Datensätze auf externen Speicher auslagern, z.b. Festplatte
MehrVorlesung Algorithmische Geometrie. Streckenschnitte. Martin Nöllenburg 19.04.2011
Vorlesung Algorithmische Geometrie LEHRSTUHL FÜR ALGORITHMIK I INSTITUT FÜR THEORETISCHE INFORMATIK FAKULTÄT FÜR INFORMATIK Martin Nöllenburg 19.04.2011 Überlagern von Kartenebenen Beispiel: Gegeben zwei
MehrBeispiellösungen zur Klausur Lineare Algebra bei Prof. Habegger
Beispiellösungen zur Klausur Lineare Algebra bei Prof. Habegger Stefan Lell 2. Juli 2 Aufgabe. Sei t Q und A t = t 4t + 2 2t + 2 t t 2t 2t Mat 3Q a Bestimmen Sie die Eigenwerte von A t in Abhängigkeit
MehrNichtlineare Gleichungssysteme
Kapitel 2 Nichtlineare Gleichungssysteme Problem: Für vorgegebene Abbildung f : D R n R n finde R n mit oder ausführlicher f() = 0 (21) f 1 ( 1,, n ) = 0, f n ( 1,, n ) = 0 Einerseits führt die mathematische
MehrZahlen und metrische Räume
Zahlen und metrische Räume Natürliche Zahlen : Die natürlichen Zahlen sind die grundlegendste Zahlenmenge, da man diese Menge für das einfache Zählen verwendet. N = {1, 2, 3, 4,...} Ganze Zahlen : Aus
MehrGrundlegende Algorithmen
3D Spieleprogrammierung Grundlegende Algorithmen Übersicht Game Loop Spielarchitektur Aufäumen von Strukturen Vorbereiten für spätere Aufgaben Bewegungen Zeitmessung Zeitunabhängigkeit GameLoop Game Engine
MehrKapitel ML:XII. XII. Other Unsupervised Learning. Nearest Neighbor Strategies. Self Organizing Maps Neural Gas. Association Analysis Rule Mining
Kapitel ML:XII XII. Other Unsupervised Learning Nearest Neighbor Strategies Self Organizing Maps Neural Gas Association Analysis Rule Mining Reinforcement Learning ML:XII-1 Unsupervised Others LETTMANN
MehrVorlesung 3 MINIMALE SPANNBÄUME
Vorlesung 3 MINIMALE SPANNBÄUME 72 Aufgabe! Szenario: Sie arbeiten für eine Firma, die ein Neubaugebiet ans Netz (Wasser, Strom oder Kabel oder...) anschließt! Ziel: Alle Haushalte ans Netz bringen, dabei
MehrAlgorithmen und Datenstrukturen Kapitel 10
Algorithmen und Datenstrukturen Kapitel 10 Flüsse Frank Heitmann heitmann@informatik.uni-hamburg.de 6. Januar 2016 Frank Heitmann heitmann@informatik.uni-hamburg.de 1/8 Flüsse Graphen Grundlagen Definition
MehrErzeugung zufälliger Graphen und Bayes-Netze
Erzeugung zufälliger Graphen und Bayes-Netze Proseminar Algorithmen auf Graphen Georg Lukas, IF2000 2002-07-09 E-Mail: georg@op-co.de Folien: http://op-co.de/bayes/ Gliederung 1. Einleitung 2. einfache
Mehr3.1 Konstruktion von minimalen Spannbäumen Es gibt zwei Prinzipien für die Konstruktion von minimalen Spannbäumen (Tarjan): blaue Regel rote Regel
3.1 Konstruktion von minimalen Spannbäumen Es gibt zwei Prinzipien für die Konstruktion von minimalen Spannbäumen (Tarjan): blaue Regel rote Regel EADS 3.1 Konstruktion von minimalen Spannbäumen 16/36
MehrProf. Dr. Christoph Karg Hochschule Aalen. Klausur zur Vorlesung Wahrscheinlichkeitstheorie und Statistik. Sommersemester 2016
Prof. Dr. Christoph Karg 5.7.2016 Hochschule Aalen Klausur zur Vorlesung Wahrscheinlichkeitstheorie und Statistik Sommersemester 2016 Name: Unterschrift: Klausurergebnis Aufgabe 1 (15 Punkte) Aufgabe 3
MehrLiteratur. Dominating Set (DS) Dominating Sets in Sensornetzen. Problem Minimum Dominating Set (MDS)
Dominating Set 59 Literatur Dominating Set Grundlagen 60 Dominating Set (DS) M. V. Marathe, H. Breu, H.B. Hunt III, S. S. Ravi, and D. J. Rosenkrantz: Simple Heuristics for Unit Disk Graphs. Networks 25,
MehrDIE WELT Multimedia-Reichweite
DIE WELT Multimedia-Reichweite 1) Hintergrundinformationen Die Methode zur Quantifizierung der durchschnittlichen, täglichen Leser- bzw. Nutzerschaft der WELT-Angebote (auch als Multimedia-Reichweite,
MehrEinleitung Projektion Selektion Join Mengenop. Vollst.keit. Einleitung Projektion. Selektion Join. Vollst.keit. Einleitung Projektion Selektion Join
Parsen der Anfrage (SQL) Transformation in eine Standardform (Relationenalgebra) Logische Optimierung Transformation in alternative Zugriffspläne, Physische Optimierung Ausführung des gewählten Zugriffsplans
MehrAbschluss Einblick und Ausblick
Abschluss Einblick und Ausblick Prof. Dr. T. Kudraß 1 Benutzer Komponenten eines DBMS (Überblick) I/O-Prozessor Output-Generierung Parser für selbst. oder eingebettete Kommandos Precompiler Autorisierungs-Kontrolle
MehrAbgabe: (vor der Vorlesung) Aufgabe 2.1 (P) O-Notation Beweisen Sie die folgenden Aussagen für positive Funktionen f und g:
TECHNISCHE UNIVERSITÄT MÜNCHEN FAKULTÄT FÜR INFORMATIK Lehrstuhl für Sprachen und Beschreibungsstrukturen SS 2009 Grundlagen: Algorithmen und Datenstrukturen Übungsblatt 2 Prof. Dr. Helmut Seidl, S. Pott,
MehrKapitel 4: Dynamische Datenstrukturen. Algorithmen und Datenstrukturen WS 2012/13. Prof. Dr. Sándor Fekete
Kapitel 4: Dynamische Datenstrukturen Algorithmen und Datenstrukturen WS 2012/13 Prof. Dr. Sándor Fekete 4.4 Binäre Suche Aufgabenstellung: Rate eine Zahl zwischen 100 und 114! Algorithmus 4.1 INPUT: OUTPUT:
MehrModerne Clusteralgorithmen eine vergleichende Analyse auf zweidimensionalen Daten
Moderne Clusteralgorithmen eine vergleichende Analyse auf zweidimensionalen Daten Marcus Josiger, Kathrin Kirchner Friedrich Schiller Universität Jena 07743 Jena m.josiger@gmx.de, k.kirchner@wiwi.uni-jena.de
MehrP2P - Projekt. 1. Die gleiche Aufgabe zwei Herangehensweisen 2. Voraussetzungen. 3. Automatische Semantische Konvergenz
P2P - Projekt 1. Die gleiche Aufgabe zwei Herangehensweisen 2. Voraussetzungen 1. Natürlicher Suchalgorithmus 2. Small Worlds 3. Automatische Semantische Konvergenz 1. Netzwerkerstellung 2. Suche 1. Die
MehrKlassenstufen 7, 8. Aufgabe 1 (6+6+8 Punkte). Magischer Stern:
Department Mathematik Tag der Mathematik 31. Oktober 2009 Klassenstufen 7, 8 Aufgabe 1 (6+6+8 Punkte). Magischer Stern: e a 11 9 13 12 10 b c d Die Summe S der natürlichen Zahlen entlang jeder der fünf
Mehr3 Quellencodierung. 3.1 Einleitung
Source coding is what Alice uses to save money on her telephone bills. It is usually used for data compression, in other words, to make messages shorter. John Gordon 3 Quellencodierung 3. Einleitung Im
MehrGrundlagen der Programmierung
Grundlagen der Programmierung Dr. Tom Kamphans 1. Vorlesung 12.10.2016 1 Organisatorisches Vorlesung: Mittwochs 14:00 15:30, Raum F 201 Übung: Mittwochs 15:45 19:00, Raum F 225 Übung: alle zwei Wochen
MehrKapitel 19: Datenbank-Unterstützung für Datenanalyse
Kapitel 19: Datenbank-Unterstützung für Datenanalyse Datenbank-Unterstützung für Data Mining Unterschiedliche Ebenen: Erweiterung des Datenbank-Kerns ( Datenbank-Primitive ), Erweiterungen der Anfragesprache,
MehrTree-Mining. Warum Tree-Mining? Baumtypen. Anwendungsgebiete. Philipp Große
Tree Mining 2 Warum Tree-Mining? Tree-Mining Philipp Große Theoretische Probleme des Graphminings: Kein effektiver Algorithmus zur systematischen Nummerierung von Subgraphen bekannt Kein effizienter Algorithmus
Mehr13. Binäre Suchbäume
1. Binäre Suchbäume Binäre Suchbäume realiesieren Wörterbücher. Sie unterstützen die Operationen 1. Einfügen (Insert) 2. Entfernen (Delete). Suchen (Search) 4. Maximum/Minimum-Suche 5. Vorgänger (Predecessor),
MehrVorlesung 1: Einleitung
Vorlesung 1: Einleitung Georg Nöldeke Wirtschaftswissenschaftliche Fakultät, Universität Basel Entscheidung VL 1, FS 12 Einleitung 1/17 1.1 Motivation In der Vorlesung Intermediate Microecoomics haben
Mehr1 Grundlagen. 1.1 Erste Grundbegriffe 1.2 Kryptographische Systeme 1.3 Informationstheoretische Grundlagen
1 Grundlagen 1.1 Erste Grundbegriffe 1.2 Kryptographische Systeme 1.3 Informationstheoretische Grundlagen Die Überlegungen dieses Kapitels basieren auf der Informationstheorie von Shannon. Er beschäftigte
MehrDieses Quiz soll Ihnen helfen, Kapitel besser zu verstehen.
Dieses Quiz soll Ihnen helfen, Kapitel 2.5-2. besser zu verstehen. Frage Wir betrachten ein Würfelspiel. Man wirft einen fairen, sechsseitigen Würfel. Wenn eine oder eine 2 oben liegt, muss man 2 SFr zahlen.
MehrClustering Seminar für Statistik
Clustering Markus Kalisch 03.12.2014 1 Ziel von Clustering Finde Gruppen, sodas Elemente innerhalb der gleichen Gruppe möglichst ähnlich sind und Elemente von verschiedenen Gruppen möglichst verschieden
MehrDatenbankanwendung. Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern. Wintersemester 2014/15. smichel@cs.uni-kl.de
Datenbankanwendung Wintersemester 2014/15 Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern smichel@cs.uni-kl.de Wiederholung: Anfragegraph Anfragen dieses Typs können als Graph dargestellt werden: Der
MehrDesign Theorie für relationale Datenbanken
Design Theorie für relationale Datenbanken Design von relationalen Datenbanken alternativen Datenabhängigkeiten Normalisierung Ziel: automatisches Datenbankdesign IX-1 Schlechtes Datenbank Design Frage:
MehrGliederung. Algorithmen und Datenstrukturen II. Problem: Längste gemeinsame Teilsequenz. Problem: Längste gemeinsame Teilsequenz
Gliederung Algorithmen und Datenstrukturen II Algorithmen zur Textverarbeitung II D. Rösner Institut für Wissens- und Sprachverarbeitung Fakultät für Informatik Otto-von-Guericke Universität Magdeburg
Mehr1 Zahlentheorie. 1.1 Kongruenzen
3 Zahlentheorie. Kongruenzen Der letzte Abschnitt zeigte, daß es sinnvoll ist, mit großen Zahlen möglichst einfach rechnen zu können. Oft kommt es nicht darauf, an eine Zahl im Detail zu kennen, sondern
MehrClustering (hierarchische Algorithmen)
Clustering (hierarchische Algorithmen) Hauptseminar Kommunikation in drahtlosen Sensornetzen WS 2006/07 Benjamin Mies 1 Übersicht Clustering Allgemein Clustering in Sensornetzen Clusterheads Cluster basiertes
MehrDensity-Based Clustering in large Databases using Projections and Visualizations
Density-Based Clustering in large Databases using Projections and Visualizations Alexander Hinneburg Institut für Informatik Martin-Luther-Universität Halle-Wittenberg hinneburg@informatik.uni-halle.de
Mehr2 und d > 1 Punkt im Kreis
Beispiel 4 (Die Bestimmung der Kreisumfangszahl π) 1 Die Bedeutung der Zahl π, die jeder gebildete Zeitungsleser, so auch Ökonomen, Historiker und Politikwissenschaftler, aus der Oberschule kennt, ist
MehrB+-Baum mit Z-Ordnung. B+-Baum mit Z-Ordnung. Anforderungen. 7.3 Räumliche Zugriffsstrukturen
B+-Baum mit Z-Ordnung Window Query: 1. Ansatz Benutze den gewöhnlichen Algorithmus für Bereichsanfragen im B + -Baum: Suche mit dem kleinsten Z-Wert des Suchrechtecks (entspricht dem linken unteren Eckpunkt)
Mehr2.4A. Reguläre Polyeder (Platonische Körper)
.A. Reguläre Polyeder (Platonische Körper) Wie schon in der Antike bekannt war, gibt es genau fünf konvexe reguläre Polyeder, d.h. solche, die von lauter kongruenten regelmäßigen Vielecken begrenzt sind:
MehrAufgabensammlung aus Mathematik 2 UMIT, SS 2010, Version vom 7. Mai 2010
Aufgabensammlung aus Mathematik 2 UMIT, SS 2, Version vom 7. Mai 2 I Aufgabe I Teschl / K 3 Zerlegen Sie die Zahl 8 N in ihre Primfaktoren. Aufgabe II Teschl / K 3 Gegeben sind die natürliche Zahl 7 und
MehrGraphentheorie. Maximale Flüsse. Maximale Flüsse. Maximale Flüsse. Rainer Schrader. 31. Oktober Gliederung. sei G = (V, A) ein gerichteter Graph
Graphentheorie Rainer Schrader Zentrum ür Angewandte Inormatik Köln 31. Oktober 2007 1 / 30 2 / 30 Gliederung maximale Flüsse Schnitte Edmonds-Karp-Variante sei G = (V, A) ein gerichteter Graph sei c eine
MehrKapitel 2: Formale Sprachen Kontextfreie Sprachen. reguläre Grammatiken/Sprachen. kontextfreie Grammatiken/Sprachen
reguläre Grammatiken/prachen Beschreibung für Bezeichner in Programmiersprachen Beschreibung für wild cards in kriptsprachen (/* reguläre Ausdrücke */)?; [a-z]; * kontextfreie Grammatiken/prachen Beschreibung
MehrInformatik II, SS 2014
Informatik II SS 2014 (Algorithmen & Datenstrukturen) Vorlesung 13 (18.6.2014) Binäre Suchbäume IV (Rot Schwarz Bäume) Algorithmen und Komplexität Rot Schwarz Bäume Ziel: Binäre Suchbäume, welche immer
MehrStatistik. Jan Müller
Statistik Jan Müller Skalenniveau Nominalskala: Diese Skala basiert auf einem Satz von qualitativen Attributen. Es existiert kein Kriterium, nach dem die Punkte einer nominal skalierten Variablen anzuordnen
MehrVisualisierung hochdimensionaler Daten. Hauptseminar SS11 Michael Kircher
Hauptseminar SS11 Inhalt Einführung zu hochdimensionalen Daten Visualisierungsmöglichkeiten dimensionale Teilmengen dimensionale Schachtelung Achsenumgestaltung Algorithmen zur Dimensionsreduktion Zusammenfassung
MehrEvolutionäre Algorithmen in der Spracherkennung
Informatik Alexander Eslava Evolutionäre Algorithmen in der Spracherkennung Studienarbeit Evolutionäre Algorithmen in der Spracherkennung Hauptseminar Einsatz Evolutionärer Strategien in Eingebetteten
MehrInstitut für Mathematik Geometrie und Lineare Algebra J. Schönenberger-Deuel
Lösungen Übung 7 Aufgabe 1. Skizze (mit zusätzlichen Punkten): Die Figur F wird begrenzt durch die Strecken AB und BC und den Kreisbogen CA auf l. Wir werden die Bilder von AB, BC und CA unter der Inversion
MehrDetecting Near Duplicates for Web Crawling
Detecting Near Duplicates for Web Crawling Gurmeet Singh Manku et al., WWW 2007* * 16th international conference on World Wide Web Detecting Near Duplicates for Web Crawling Finde near duplicates in großen
MehrEffiziente Algorithmen und Datenstrukturen I. Kapitel 9: Minimale Spannbäume
Effiziente Algorithmen und Datenstrukturen I Kapitel 9: Minimale Spannbäume Christian Scheideler WS 008 19.0.009 Kapitel 9 1 Minimaler Spannbaum Zentrale Frage: Welche Kanten muss ich nehmen, um mit minimalen
Mehr13 Java 4 - Entwurfsmuster am Beispiel des Rucksackproblems
13 Java 4 - Entwurfsmuster am Beispiel des Rucksackproblems 13.1 Modellierung des Rucksackproblems 13.2 Lösung mit Greedy-Algorithmus 13.3 Lösung mit Backtracking 13.4 Lösung mit Dynamischer Programmierung
MehrPrincipal Component Analysis (PCA)
Principal Component Analysis (PCA) Motivation: Klassifikation mit der PCA Berechnung der Hauptkomponenten Theoretische Hintergründe Anwendungsbeispiel: Klassifikation von Gesichtern Weiterführende Bemerkungen
MehrAbschlussprüfung 2011 an den Realschulen in Bayern
Prüfungsdauer: 50 Minuten Abschlussprüfung 0 an den Realschulen in Bayern Mathematik II Name: Vorname: Klasse: Platzziffer: Punkte: Aufgabe A Nachtermin A Eierbecher S Die nebenstehende Skizze zeigt den
Mehr