Cluster-Analyse Ziel: Anwendungsbereiche: Nutzen: Bezug zur Statistik: Bezug zu maschinellem Lernen:

Größe: px
Ab Seite anzeigen:

Download "Cluster-Analyse Ziel: Anwendungsbereiche: Nutzen: Bezug zur Statistik: Bezug zu maschinellem Lernen:"

Transkript

1 Cluster-Analyse Ziel: Analyse von Daten ohne Klassenzugehörigkeit (mit Klassen siehe Klassifikation). Objekte werden so zu Clustern zusammengefasst, dass innerhalb eines Clusters die Objekte möglichst ähnlich und zwischen Clustern möglichst unähnlich sind. Anwendungsbereiche: Mustererkennung, z.b. Erdbeobachtungs-Satellitenauswertung für ähnliche Landnutzung; Datenanalyse, z.b. Autoversicherungen für Schadensfallanalyse oder Webanalysten bei Klassifikation von Dokumenten, Marktforschung, z.b. Makler bei Analyse von Haustypen, Wert und geografischer Verteilung; Bildverarbeitung; usw. Nutzen: Menschen bilden seit frühester Kindheit Cluster, ohne bestimmte Ziele zu verfolgen. Wenn ein Cluster entdeckt ist, kann man es genauer untersuchen (z.b. auf gemeinsame Ursachen, wie alle grünen Pflanzen photosynthetisieren; auf gemeinsame Nutzung von Chancen wie Flugtiere (Vögel und Insekten) mit langem Rüssel ernähren sich vom Nektar von tiefen Blütenpflanzen; oder auf gemeinsame Ziele wie alle roten Pilze sind giftig). Weiterhin dienen Cluster zur Vereinfachung von Informationsspeicher und Kommunikation, z.b. braucht man nur die Besonderheiten einer individuellen Katze beschreiben, wenn das Cluster "Katze" bekannt ist. Bezug zur Statistik: Insbesondere distanzbasierte Clusterverfahren (z.b. k-means); integriert in statistische Softwarepakete wie SPSS oder SAS. Bezug zu maschinellem Lernen: Unbeaufsichtigtes Lernen (unsupervised learning), z.b. konzeptuelles Clustering mit Generierung von Beschreibungen der Cluster. 1

2 Anforderungen an Cluster-Verfahren Skalierbarkeit Fähigkeit zum Umgang mit verschiedenen Attributtypen (d.h. nicht nur numerischen Attributen) Entdecken von Clustern mit beliebiger Gestalt Minimaler Gebrauch von Parametern (zur Konfiguration des Verfahren) Fähigkeit zum Umgang mit verrauschten Daten Unabhängigkeit von Reihenfolge der Eingabe-Daten Umgang mit Daten hoher Dimensionalität Constraint-basiertes Clustering Interpretierbarkeit und Nützlichkeit 2

3 Datenstrukturen Die Rohdaten werden für die Clusteranaylse häufig in eine Matrixform transformiert: a) Datenmatrix (Objekt-Attribut-Struktur) b) Unähnlichkeitsmatrix (Objekt-Objekt-Struktur) 3

4 Unähnlichkeitsmaße und Datentypen Intervallbasierte (numerische) Variablen: Standardisierung (um verschiedene Attribute vergleichbar zu machen) Unähnlichkeitsmaße (zwischen 2 Objekten mit p Dimens.): - Euklidische Distanz: - Manhattan Distanz: Binäre Variablen (zwischen 2 Objekten mit p Dimens.): symmetrische Variablen (beide Werte haben gleiche Bedeutung, z.b. Geschlecht): d(i,j) = Anzahl ungleicher Attribute / Anzahl aller Attribute asymmetrische Variablen (ein Wert ist wichtiger als der andere, z.b. HIV-positiv im Vergleich zu HIV-negativ): d(i,j) = Anzahl ungleicher Attribute / Anzahl aller Attribute ohne negative Matches Nominale Variablen: Verallgemeinerung binärer Variablen mit multiplen Werten; Behandlung analog zu binären Variablen. Ordinale Variablen: Wie nominale Variablen, aber mit einer Ordnung, z.b. gut, mittel, schlecht. Daher lassen sich alle Techniken der intervallbasierten Variablen übertragen. Die Techniken sind (nach Normalisierung) kombinierbar. Zusätzlich können die Variablen in allen Unähnlichkeitsmaßen gewichtet werden, um unterschiedlicher Bedeutung der Variablen Rechnung zu tragen, z.b. bei gewichteter Euklidischer Distanz: 4

5 Beispiel für binäre asymmetrische Unähnlicheit ( gender ist symmetrisch und deshalb nicht berücksichtigt.) 5

6 Übersicht über Cluster-Verfahren Partitionierungs-Methoden: Die Anzahl (k) der Cluster (Partitionen) ist vorgegeben. In mehreren Runden werden die Objekte jeweils dem nächsten Cluster zugeordnet, das durch seinen Mittelwert (k-means) bzw. einem mittleren Objekt (kmedoids) repräsentiert ist. Hierarchische Methoden: Schrittweise Aggregation (bottom-up) oder Aufteilung (top-down) der Objekte in Gruppen. Dichte-basierte Methoden: Cluster wachsen, solange die Dichte von Objekten in ihrer Nachbarschaft einen Schwellwert überschreitet. Gitter-basierte Methoden: Aufteilung der Objekte in ein vorgegebenes Raster mit Zellen, auf denen alle Operationen basieren. Modell-basierte Methoden: Basierend auf vorgegebenen Modellannahmen wird die beste Clusterzerlegung gesucht, die dem Modell entspricht. 6

7 Partitionierungsmethoden: k-means Die Anzahl (k) der Cluster (Partitionen) ist vorgegeben. In mehreren Runden werden die Objekte jeweils dem nächsten Cluster zugeordnet, das durch seinen Mittelwert (k-means) bzw. einem mittleren Objekt (k-medoids) repräsentiert ist. Algorithmus k-means Input: Anzahl der Cluster, k, und Datenbank mit n Objekten Output: Menge von k Clustern, die ein Fehlerkriterium minimieren (Quadrat-Fehler zu Cluster-Mittelwerten) Methode: (1) wähle zufällig k Objekte als initiale Cluster-Zentren (2) wiederhole bis Gesamtfehler nicht mehr sinkt: (3) ordne jedes Objekt dem nächsten Cluster zu, (gemäß Ähnlichkeitsfunktion) (4) aktualisiere die Cluster-Mittelwerte als Mittelwert aller Objekte des Clusters. Als Gesamtfehler wird häufig das Quadrat-Fehler-Kriterium über alle Cluster genommen (p = ein Objekt, m i = Mittelwert des Cluster C i ). Komplexität: O(n*k*t) mit n= #Objekte, k= #Cluster, t = #Iterationen Verbesserung: Kombination mit hierarchischen Verfahren zur Berechnung der Zahl der Cluster sowie einer guten Anfangsbelegung. Beispiel mit 3 Clustern und 3 Iterationen: ( + markiert jeweils Mittelwert des Cluster) 7

8 Varianten zur k-means-methode Bestimmung des k (Anzahl Cluster): Mit hierarchischem Clustering das k bestimmen, dann k-means-methode verwenden. K-modes: Übertragung der Technik auf nicht-numerische (kategoriale) Daten; Kombination von k-means und k- modes zu k-prototypes Expected Maximization (EM) Algorithmus: Statt Objekte zu Clustern zuzuordnen, wird nur eine Wahrscheinlichkeit der Clusterzugehörigkeit berechnet, d.h. es gibt keine klare Grenzen zwischen Clustern (wie bei Fuzzy-Logik). Dadurch ändert sich die Berechnung der Mittelwerte von Clustern. Effizienzsteigerung: Zusammenfassung (Kompression) sehr ähnlicher Objekte zu Subcluster. 8

9 Partionierung: k-mediods-methode Problem: Das k-means-verahren reagiert recht empfindlich auf Ausreißer, die den Mittelwert verzerren können. Lösung: Im Unterschied zum k-means Verfahren wird beim k- Mediods Verfahren ein Cluster durch sein zentralstes Objekt repräsentiert. Algorithmus k-mediods Input: Anzahl der Cluster, k, und Datenbank mit n Objekten Output: Menge von k Clustern, die die Summe der Unähnlichkeiten aller Objekte zum nächsten Mediod minimieren. Methode: (1) wähle zufällig k Objekte als initiale Mediode (2) wiederhole bis keine Änderung (3) ordne jedem Objekt den Cluster mit dem nächsten Mediod zu (4) wähle zufällig ein nicht-mediodes Objekt o random (5) berechne die Gesamtkosten S, um den bisherigen Mediod o j mit o random zu vertauschen (6) wenn S < 0 dann vertausche o j mit o random zu, das den neuen Mediod darstellt. Komplexität: O(n 2 *k*t); mit repräsentativen Beispielmengen s, die statt aller Objekte n in jeder Iteration überprüft werden: O(s 2 *k*t) 9

10 Fallunterscheidungen bei k-mediods Beim Berechnen der Gesamtkosten gibt es 4 Fallunterscheidungen: Fall 1: Das Objekt p gehört noch zum Mediod o j (= o(j). Wenn o(j) durch den Mediod o(random) ersetzt wird und p liegt näher an einem anderen Mediod, o(i), als an o(random), dann wird wechselt die Zugehörigkeit von p von o(j) zu o(i). Fall 2: p gehört noch zu Mediod o(j). Wenn o(j) durch o(random) ersetzt wird und p am nächsten zu o(random) liegt, dann wird p zu o(random) zugeordnet. Fall 3: p gehört noch zu Mediod o(i). Wenn O(j) durch o(random) ersetzt wird, und p ist immer noch am nächsten zu o(i), dann ändert sich nichts. Fall 4: p gehört noch zu Mediod o(i). Wenn O(j) durch o(random) ersetzt wird, und p ist immer näher zu o(random) als zu o(i), dann wechselt p zu o(random). Die Gesamtkosten ergeben sich aus der Summe der Kosten für die Zuordnung von jedem Objekt zu seinem Mediod. 10

11 Hierarchische Clusterverfahren Schrittweise Aggregation (bottom-up) oder Aufteilung (top-down) der Objekte in Gruppen. Aggregierendes hierarchisches Clustering: Zunächst repräsentiert jedes Objekt sein eigenes Cluster, dann werden jeweils die zwei benachbarsten Cluster zusammengefasst, bis nur ein Cluster übrigbleibt (oder ein Terminierungskriterium zutrifft). Aufteilendes hierarchisches Clustering: Zunächst befinden sich alle Objekte in einem Cluster, das solange aufgespalten wird, bis die Anzahl der gewünschten Cluster erreicht ist oder jedes Cluster nur ein Objekt umfasst. Hierarchische Verfahren sind sehr sensitiv gegenüber den Kriterien, wie Cluster zusammengefasst bzw. aufgeteilt werden, da solche Entscheidungen starke Folgewirkungen haben und nicht rückgängig gemacht werden können. Typische Maße sind: Beispiel für hierarchisches und aufteilendes Clustering: Verbesserungsidee zur Effizienzsteigerung: Statt mit allen nur mit zufällig ausgewählten (repräsentativen) Objekten arbeiten. 11

12 Dichte-basierte Clusterverfahren Cluster wachsen, solange die Dichte von Objekten in ihrer Nachbarschaft einen Schwellwert überschreitet. Definitionen: ε-nachbarschaft eines Objektes o: Alle Objekte im Radius ε um o Kernobjekte: Objekte, in deren ε-nachbarschaft eine minimale Anzahl von anderen Objekten ist. Direkte Dichte-Erreichbarkeit des Objektes p vom Kernobjekt q, falls p in ε-nachbarschaft von q (asymmetrische Relation). Dichte-Erreichbarkeit zwischen zwei Objekten p und q, falls es eine Folge von Zwischenobjekten gibt, die über die direkte Dichte- Erreichbarkeit gekoppelt sind (transitive Hülle zur direkten Dichte- Erreichbarkeit; asymmetrische Relation). Dichte-Verbundenheit zwischen zwei Objekten p und q, falls es ein Objekt o gibt, das mit p und q durch Dichte-Erreichbarkeit verbunden ist (symmetrische Relation). Beispiel: M, P, O, R sind Kernobjekte, S und Q nicht. Q ist direkt Dichte-erreichbar von M, M von P und P von M. Q ist Dichte-erreichbar von P, R und S von O, O von R. O, R, S sind alle Dichte-verbunden. Verfahren zum finden von Dichte-basierten Clustern: 1. Überprüfen aller Objekte, ob sie Kernobjekte sind. 2. Wachsen der Kernobjekte zu Clustern über Dichte-Erreichbarkeit 12

13 Gitterbasierte Clusterverfahren Aufteilung der Objekte in ein vorgegebenes Raster mit Zellen, auf denen alle Operationen basieren. Beispiel: Ausgehend von der detailliertesten Ebene werden für alle Zellen statistische Maße (z.b. Anzahl, Mittelwert, Standardabweichung, Min, Max, Verteilungstyp) berechnet, die nach oben aggegriert werden. Cluster können durch Zusammenfassung einzelner Zellen wachsen. Vorteil: Effizienz (nur abhängig von #Zellen, nicht von #Objekten) Nachteil: Clustergrenzen können nur horizontal oder vertikal sein. 13

14 Kombination von Gitter-basierten mit Dichte-basierten Verfahren Problem: Entdecken von Clustern in hochdimensionalen Räumen, da Dichte pro Zelle sehr gering. Lösung: Berechnung der Dichte pro Dimension und sukzessive Kombination der dichten Abschnitte verschiedener Dimensionen. Beispiel: 14

15 Konzeptuelles Clustering Konzeptuelles Clustering versucht nicht nur, ähnliche Objekte zu gruppieren, sondern in einem zweiten Schritt auch charakteristische Beschreibungen für jede Gruppe zu finden. Die Qualität der Cluster wird auch aufgrund der Allgemeinheit und Einfachheit der resultierenden Cluster-Beschreibungen beurteilt. Grundalgorithmus: Für jeden neuen Fall tue: Falls hinreichend ähnlich zu dem Repräsentanten eines Cluster, dann ordne ihn diesem Cluster zu und verändere ggf. den Repräsentanten des Clusters entsprechend und wende ggf. die Prozedur rekursiv auf Cluster-Nachfolger an (Bilden hierarchischer Cluster) ansonsten definiert der Fall ein neues Cluster. Varianten: 1. Repräsentation eines Cluster durch repräsentativen Fall: durch ersten Fall durch typischsten Fall durch konstruierten Durchschnittsfall ("Otto Normalverbraucher") 2. Repräsentation des Clusters als Konzept: Das Konzept wird durch eine Menge von notwendigen und hinreichenden Bedingungen beschrieben. Das Konzept wird durch eine charakteristische Menge von Attributwerten mit einer Nützlichkeitsbewertung beschrieben (Beispiel: UNIMEM). Das Konzept besteht aus einer Wahrscheinlichkeitsverteilung aller Attributwerte des Clusters (Beispiel: COBWEB). 3. Repräsentation des Clusters als Knoten eines Neuronales Netzes z.b. Wettbewerbslernen, Kohonen-Netze 15

16 Beispiel COBWEB Repräsentation: In COBWEB werden die Cluster hierarchisch angeordnet und mit Wahrscheinlichkeitsangaben beschrieben, wie häufig ein Wert bei dem Konzept vorkommt: P (A i = V ij C k ) beim Cluster C k hat das i-te Attribut A i den Wert V ij Dazu werden bei jedem Cluster alle zugehörigen Objekte gespeichert, aus denen die Häufigkeit der Attribut-Werte gezählt und daraus die Wahrscheinlichkeiten berechnet werden. Operationen beim Aufbau der Konzepthierarchie: ein Fall bei einem vorhandenen Cluster einfügen ein neues Cluster mit einem Fall einrichten zwei Fälle zu einem Cluster zu vereinigen ein Cluster in seine Nachfolger aufzuteilen Die letzten beiden Operationen dienen dazu, die Reihenfolgesensitivität gegenüber den Eingabeobjekten zu verringern. Algorithmus: Input: AKT: aktuelles Wurzelkonzept, NF: Neuer Fall Output: Einordnung von NF in AKT Wenn AKT ein Blatt-Cluster ist, dann erzeuge-neue-cluster (AKT, NF) und aktualisiere-zähler sonst aktualisiere-zähler und berechne für jeden Nachfolger von AKT den Score, wenn NF dort platziert wird. Es sei: P = Cluster mit höchsten Score W R = Cluster mit zweithöchsten Score X = Score, wenn NF in ein neues Cluster Q eingefügt wird Y = Score, um P und R zu einem Cluster zu vereinigen Z = Score, um P in seine Nachfolger aufzuteilen Wenn W der beste Score ist, dann (COBWEB P, NF) sonst wenn X der beste Score ist, dann initialisiere Q mit NF sonst wenn Y der beste Score ist, dann mische (P, R, AKT) zu O und COBWEB (O, NF) sonst wenn Z der bester Score ist, dann spalte (P, AKT) und und COBWEB (AKT, NF) 16

17 Berechnung der Cluster-Nützlichkeit Die Nützlichkeit eines Cluster (Category utility, CU) ergibt sich aus der Anzahl von Attributwerten, die mit dem neuen Cluster richtig vorhergesagt werden können (1. Doppelsummenterm) im Vergleich zu denen, die ohne das neue Cluster vorhergesagt werden können (2. Doppelsummenterm). 17

18 Ausgangsdaten: Beispiel COBWEB body heart body fertilisation cover chamber temperature amphibian moist skin 3 unregulated external fish scales 2 unregulated external bird feathers 4 regulated internal mammal hair 4 regulated internal Ergebnis: 0,25 0,25 18

19 Interne Datenstrukturen Hierarchy level 1 = all 2=A 2=F 2=MB 3=M 3=B Object list A,F,B,M A F M,B M B Object count body cover hair feathers moist skin scales heart chamber body temp. regulated unregulated fertilisation internal external

20 Grenzen von COBWEB Annahme der Unabhängigkeit der Attribute untereinander Bei großen Datenmengen hoher Aufwand, die Wahrscheinlichkeitsverteilungen der Attribut-Werte zu speichern und zu aktualisieren Cluster-Hierarchie kann schlecht balanciert sein. Kommerziell verfügbares Cluster-System auf der Basis von Wahrscheinlichkeitsverteilungen: AutoClass 20

Exploration und Klassifikation von BigData

Exploration und Klassifikation von BigData Exploration und Klassifikation von BigData Inhalt Einführung Daten Data Mining: Vorbereitungen Clustering Konvexe Hülle Fragen Google: Riesige Datenmengen (2009: Prozessieren von 24 Petabytes pro Tag)

Mehr

Künstliche Intelligenz Dirk Krechel SS 2009

Künstliche Intelligenz Dirk Krechel SS 2009 Künstliche Intelligenz Dirk Krechel SS 2009 Überblick über das Modul 1. Einführung 2. Symbolische Verfahren Logik Aussagenlogik Prädikatenlogik Horn Logik Prolog 3. Suchen und Bewerten Problemlösen durch

Mehr

Einführung in das Data Mining Clustering / Clusteranalyse

Einführung in das Data Mining Clustering / Clusteranalyse Einführung in das Data Mining Clustering / Clusteranalyse Sascha Szott Fachgebiet Informationssysteme HPI Potsdam 21. Mai 2008 Teil I Einführung Clustering / Clusteranalyse Ausgangspunkt: Menge O von Objekten

Mehr

3.5 Datenbanktechniken zur Leistungssteigerung. 3. Clustering. 3.5 Datenbanktechniken zur Leistungssteigerung. 3. Clustering. Inhalt dieses Kapitels

3.5 Datenbanktechniken zur Leistungssteigerung. 3. Clustering. 3.5 Datenbanktechniken zur Leistungssteigerung. 3. Clustering. Inhalt dieses Kapitels 3.1 Einleitung 3. Clustering Inhalt dieses Kapitels Ziel des Clustering, Distanzfunktionen, Anwendungen, Typen von Algorithmen 3.2 Partitionierende Verfahren k-means, k-medoid, Expectation Maximization,

Mehr

Data-Mining: Ausgewählte Verfahren und Werkzeuge

Data-Mining: Ausgewählte Verfahren und Werkzeuge Fakultät Informatik Institut für Angewandte Informatik Lehrstuhl Technische Informationssysteme Data-Mining: Ausgewählte Verfahren und Vortragender: Jia Mu Betreuer: Dipl.-Inf. Denis Stein Dresden, den

Mehr

Multivariate Statistik

Multivariate Statistik Hermann Singer Multivariate Statistik 1 Auflage 15 Oktober 2012 Seite: 12 KAPITEL 1 FALLSTUDIEN Abbildung 12: Logistische Regression: Geschätzte Wahrscheinlichkeit für schlechte und gute Kredite (rot/blau)

Mehr

Vorlesung 3 MINIMALE SPANNBÄUME

Vorlesung 3 MINIMALE SPANNBÄUME Vorlesung 3 MINIMALE SPANNBÄUME 72 Aufgabe! Szenario: Sie arbeiten für eine Firma, die ein Neubaugebiet ans Netz (Wasser, Strom oder Kabel oder...) anschließt! Ziel: Alle Haushalte ans Netz bringen, dabei

Mehr

Data Cube. Aggregation in SQL. Beispiel: Autoverkäufe. On-line Analytical Processing (OLAP) 1. Einführung. 2. Aggregation in SQL, GROUP BY

Data Cube. Aggregation in SQL. Beispiel: Autoverkäufe. On-line Analytical Processing (OLAP) 1. Einführung. 2. Aggregation in SQL, GROUP BY Data Cube On-line Analytical Processing (OLAP). Einführung Ziel: Auffinden interessanter Muster in großen Datenmengen 2. Aggregation in SQL, GROUP BY 3. Probleme mit GROUP BY 4. Der Cube-Operator! Formulierung

Mehr

Kapitel 5: Dynamisches Programmieren Gliederung

Kapitel 5: Dynamisches Programmieren Gliederung Gliederung 1. Grundlagen 2. Zahlentheoretische Algorithmen 3. Sortierverfahren 4. Ausgewählte Datenstrukturen 5. Dynamisches Programmieren 6. Graphalgorithmen 7. String-Matching 8. Kombinatorische Algorithmen

Mehr

Data Mining und Knowledge Discovery in Databases

Data Mining und Knowledge Discovery in Databases Data Mining und Knowledge Discovery in Databases Begriffsabgrenzungen... Phasen der KDD...3 3 Datenvorverarbeitung...4 3. Datenproblematik...4 3. Möglichkeiten der Datenvorverarbeitung...4 4 Data Mining

Mehr

Data Mining - Wiederholung

Data Mining - Wiederholung Data Mining - Wiederholung Norbert Fuhr 9. Juni 2008 Problemstellungen Problemstellungen Daten vs. Information Def. Data Mining Arten von strukturellen Beschreibungen Regeln (Klassifikation, Assoziations-)

Mehr

Kürzeste Wege in Graphen. Maurice Duvigneau Otto-von-Guericke Universität Fakultät für Informatik

Kürzeste Wege in Graphen. Maurice Duvigneau Otto-von-Guericke Universität Fakultät für Informatik Kürzeste Wege in Graphen Maurice Duvigneau Otto-von-Guericke Universität Fakultät für Informatik Gliederung Einleitung Definitionen Algorithmus von Dijkstra Bellmann-Ford Algorithmus Floyd-Warshall Algorithmus

Mehr

Motivation. Themenblock: Data Preprocessing. Einsatzgebiete für Data Mining I. Modell von Gianotti und Pedreschi

Motivation. Themenblock: Data Preprocessing. Einsatzgebiete für Data Mining I. Modell von Gianotti und Pedreschi Motivation Themenblock: Data Preprocessing We are drowning in information, but starving for knowledge! (John Naisbett) Was genau ist Datenanalyse? Praktikum: Data Warehousing und Data Mining Was ist Data

Mehr

Data Mining Anwendungen und Techniken

Data Mining Anwendungen und Techniken Data Mining Anwendungen und Techniken Knut Hinkelmann DFKI GmbH Entdecken von Wissen in banken Wissen Unternehmen sammeln ungeheure mengen enthalten wettbewerbsrelevantes Wissen Ziel: Entdecken dieses

Mehr

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining.

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining. Motivation Themenblock: Klassifikation Praktikum: Data Warehousing und Data Mining Ziel Item hat mehrere Attribute Anhand von n Attributen wird (n+)-tes vorhergesagt. Zusätzliches Attribut erst später

Mehr

Data Mining - Clustering. Sven Elvers

Data Mining - Clustering. Sven Elvers Agenda Data Mining Clustering Aktuelle Arbeiten Thesis Outline 2 Agenda Data Mining Clustering Aktuelle Arbeiten Thesis Outline 3 Data Mining Entdecken versteckter Informationen, Muster und Zusammenhänge

Mehr

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining Gliederung 1. Einführung 2. Grundlagen Data Mining Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining 3. Ausgewählte Methoden des Data

Mehr

Histogramme in der Datenbankoptimierung. Marian Marx 26.06.2008

Histogramme in der Datenbankoptimierung. Marian Marx 26.06.2008 Histogramme in der Datenbankoptimierung Marian Marx 26.06.2008 Inhaltsverzeichnis 1. Histogramme im Allgemeinen 1.1 Definition Histogramm 1.2 Beispiel Histogramm 2. Histogramme in der Datenbankoptimierung

Mehr

Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07

Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07 Regression Trees Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07 Ao.Univ.Prof. Dr. Marcus Hudec marcus.hudec@univie.ac.at Institut für Scientific Computing, Universität Wien 2

Mehr

Seminar Komplexe Objekte in Datenbanken

Seminar Komplexe Objekte in Datenbanken Seminar Komplexe Objekte in Datenbanken OPTICS: Ordering Points To Identify the Clustering Structure Lehrstuhl für Informatik IX - Univ.-Prof. Dr. Thomas Seidl, RWTH-Aachen http://www-i9.informatik.rwth-aachen.de

Mehr

Data Mining und maschinelles Lernen

Data Mining und maschinelles Lernen Data Mining und maschinelles Lernen Einführung und Anwendung mit WEKA Caren Brinckmann 16. August 2000 http://www.coli.uni-sb.de/~cabr/vortraege/ml.pdf http://www.cs.waikato.ac.nz/ml/weka/ Inhalt Einführung:

Mehr

Vorlesung 04.12.2006: Binäre Entscheidungsdiagramme (BDDs) Dr. Carsten Sinz

Vorlesung 04.12.2006: Binäre Entscheidungsdiagramme (BDDs) Dr. Carsten Sinz Vorlesung 04.12.2006: Binäre Entscheidungsdiagramme (BDDs) Dr. Carsten Sinz Datenstruktur BDD 1986 von R. Bryant vorgeschlagen zur Darstellung von aussagenlogischen Formeln (genauer: Booleschen Funktionen)

Mehr

4 Greedy-Algorithmen (gierige Algorithmen)

4 Greedy-Algorithmen (gierige Algorithmen) Greedy-Algorithmen (gierige Algorithmen) Greedy-Algorithmen werden oft für die exakte oder approximative Lösung von Optimierungsproblemen verwendet. Typischerweise konstruiert ein Greedy-Algorithmus eine

Mehr

Neuerungen Analysis Services

Neuerungen Analysis Services Neuerungen Analysis Services Neuerungen Analysis Services Analysis Services ermöglicht Ihnen das Entwerfen, Erstellen und Visualisieren von Data Mining-Modellen. Diese Mining-Modelle können aus anderen

Mehr

t r Lineare Codierung von Binärbbäumen (Wörter über dem Alphabet {, }) Beispiel code( ) = code(, t l, t r ) = code(t l ) code(t r )

t r Lineare Codierung von Binärbbäumen (Wörter über dem Alphabet {, }) Beispiel code( ) = code(, t l, t r ) = code(t l ) code(t r ) Definition B : Menge der binären Bäume, rekursiv definiert durch die Regeln: ist ein binärer Baum sind t l, t r binäre Bäume, so ist auch t =, t l, t r ein binärer Baum nur das, was durch die beiden vorigen

Mehr

Statistische Verfahren für das Data Mining in einem Industrieprojekt

Statistische Verfahren für das Data Mining in einem Industrieprojekt Statistische Verfahren für das Data Mining in einem Industrieprojekt Thorsten Dickhaus Forschungszentrum Jülich GmbH Zentralinstitut für Angewandte Mathematik Telefon: 02461/61-4193 E-Mail: th.dickhaus@fz-juelich.de

Mehr

Data Mining-Modelle und -Algorithmen

Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining ist ein Prozess, bei dem mehrere Komponenten i n- teragieren. Sie greifen auf Datenquellen, um diese zum Training,

Mehr

Wiederholung ADT Menge Ziel: Verwaltung (Finden, Einfügen, Entfernen) einer Menge von Elementen

Wiederholung ADT Menge Ziel: Verwaltung (Finden, Einfügen, Entfernen) einer Menge von Elementen Was bisher geschah abstrakter Datentyp : Signatur Σ und Axiome Φ z.b. ADT Menge zur Verwaltung (Finden, Einfügen, Entfernen) mehrerer Elemente desselben Typs Spezifikation einer Schnittstelle Konkreter

Mehr

Binäre lineare Optimierung mit K*BMDs p.1/42

Binäre lineare Optimierung mit K*BMDs p.1/42 Binäre lineare Optimierung mit K*BMDs Ralf Wimmer wimmer@informatik.uni-freiburg.de Institut für Informatik Albert-Ludwigs-Universität Freiburg Binäre lineare Optimierung mit K*BMDs p.1/42 Grundlagen Binäre

Mehr

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002) 6. Bayes-Klassifikation (Schukat-Talamazzini 2002) (Böhm 2003) (Klawonn 2004) Der Satz von Bayes: Beweis: Klassifikation mittels des Satzes von Bayes (Klawonn 2004) Allgemeine Definition: Davon zu unterscheiden

Mehr

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002)

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002) 3. Entscheidungsbäume Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002) (aus Wilhelm 2001) Beispiel: (aus Böhm 2003) Wann sind Entscheidungsbäume

Mehr

Erweiterung für Premium Auszeichnung

Erweiterung für Premium Auszeichnung Anforderungen Beliebige Inhalte sollen im System als Premium Inhalt gekennzeichnet werden können Premium Inhalte sollen weiterhin für unberechtigte Benutzer sichtbar sein, allerdings nur ein bestimmter

Mehr

Kodierungsalgorithmen

Kodierungsalgorithmen Kodierungsalgorithmen Komprimierung Verschlüsselung Komprimierung Zielsetzung: Reduktion der Speicherkapazität Schnellere Übertragung Prinzipien: Wiederholungen in den Eingabedaten kompakter speichern

Mehr

368 4 Algorithmen und Datenstrukturen

368 4 Algorithmen und Datenstrukturen Kap04.fm Seite 368 Dienstag, 7. September 2010 1:51 13 368 4 Algorithmen und Datenstrukturen Java-Klassen Die ist die Klasse Object, ein Pfeil von Klasse A nach Klasse B bedeutet Bextends A, d.h. B ist

Mehr

Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining

Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining Ausgangssituation Kaizen Data Mining ISO 9001 Wenn andere Methoden an ihre Grenzen stoßen Es gibt unzählige Methoden, die Abläufe

Mehr

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen 4. Datenanalyse und Modellbildung Deskriptive Statistik 2-1 2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen Für die Auswertung einer Messreihe, die in Form

Mehr

Ohne Mathematik undenkbar!

Ohne Mathematik undenkbar! Die tägliche - Suche: Ohne Mathematik undenkbar! Dipl.-Wirt.Math. Jan Maruhn FB IV - Mathematik Universität Trier 29. März 2006 29. März 2006 Seite 1 Gliederung Einleitung und Motivation Das Internet als

Mehr

Maschinelles Lernen Entscheidungsbäume

Maschinelles Lernen Entscheidungsbäume Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen Entscheidungsbäume Paul Prasse Entscheidungsbäume Eine von vielen Anwendungen: Kreditrisiken Kredit - Sicherheiten

Mehr

Einführung in die Cluster-Analyse mit SAS

Einführung in die Cluster-Analyse mit SAS Einführung in die Cluster-Analyse mit SAS Benutzertreffen am URZ Carina Ortseifen 4. Juli 2003 Inhalt 1. Clusteranalyse im allgemeinen Definition, Distanzmaße, Gruppierung, Kriterien 2. Clusteranalyse

Mehr

Hauptseminar am Fachgebiet für Quantitative Methoden der Wirtschaftswissenschaften

Hauptseminar am Fachgebiet für Quantitative Methoden der Wirtschaftswissenschaften Hauptseminar am Fachgebiet für Quantitative Methoden der Wirtschaftswissenschaften Fehlende Daten in der Multivariaten Statistik SS 2011 Allgemeines Das Seminar richtet sich in erster Linie an Studierende

Mehr

Algorithmische Modelle als neues Paradigma

Algorithmische Modelle als neues Paradigma Algorithmische Modelle als neues Paradigma Axel Schwer Seminar über Philosophische Grundlagen der Statistik, WS 2010/11 Betreuer: Prof. Dr. Thomas Augustin München, den 28. Januar 2011 1 / 29 LEO BREIMAN

Mehr

Unsupervised Kernel Regression

Unsupervised Kernel Regression 9. Mai 26 Inhalt Nichtlineare Dimensionsreduktion mittels UKR (Unüberwachte KernRegression, 25) Anknüpfungspunkte Datamining I: PCA + Hauptkurven Benötigte Zutaten Klassische Kernregression Kerndichteschätzung

Mehr

Kapitel DB:III. III. Konzeptueller Datenbankentwurf

Kapitel DB:III. III. Konzeptueller Datenbankentwurf Kapitel DB:III III. Konzeptueller Datenbankentwurf Einführung in das Entity-Relationship-Modell ER-Konzepte und ihre Semantik Charakterisierung von Beziehungstypen Existenzabhängige Entity-Typen Abstraktionskonzepte

Mehr

Kapitel 4: Data Mining

Kapitel 4: Data Mining LUDWIG- MAXIMILIANS- UNIVERSITY MUNICH DEPARTMENT INSTITUTE FOR INFORMATICS Skript zur Vorlesung: Einführung in die Informatik: Systeme und Anwendungen Sommersemester 2013 Kapitel 4: Data Mining i Vorlesung:

Mehr

Integration Services Übersicht

Integration Services Übersicht Integration Services Übersicht Integration Services Übersicht Integration Services stellt umfangreiche integrierte Tasks, Container, Transformationen und Datenadapter für die En t- wicklung von Geschäftsanwendungen

Mehr

Data Mining: Klassifikations- und Clusteringverfahren

Data Mining: Klassifikations- und Clusteringverfahren Westfälische Wilhelms-Universität Münster Data Mining: Klassifikations- und Clusteringverfahren Ausarbeitung im Rahmen des Projektseminars CRM für Finanzdienstleister im Fachgebiet Wirtschaftsinformatik

Mehr

Inhaltsverzeichnis. Fragestellungen und Methoden 11. Vorwort 15. Kapitel 1 Einführung 17. Kapitel 2 Statistische Grundbegriffe 23

Inhaltsverzeichnis. Fragestellungen und Methoden 11. Vorwort 15. Kapitel 1 Einführung 17. Kapitel 2 Statistische Grundbegriffe 23 Fragestellungen und Methoden 11 Vorwort 15 Kapitel 1 Einführung 17 1.1 KonzeptiondesBuchs... 18 1.2 AufbaudesBuchs... 19 1.3 Programmversionen von PASW bzw. SPSS..... 20 1.4 WiekanndiesesBuchverwendetwerden?...

Mehr

Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014

Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014 Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014 Aufgabe 1. Data Mining a) Mit welchen Aufgabenstellungen befasst sich Data Mining? b) Was versteht man unter Transparenz einer Wissensrepräsentation?

Mehr

16. All Pairs Shortest Path (ASPS)

16. All Pairs Shortest Path (ASPS) . All Pairs Shortest Path (ASPS) All Pairs Shortest Path (APSP): Eingabe: Gewichteter Graph G=(V,E) Ausgabe: Für jedes Paar von Knoten u,v V die Distanz von u nach v sowie einen kürzesten Weg a b c d e

Mehr

Data Mining Bericht. Analyse der Lebenssituation der Studenten. der Hochschule Wismar. Zur Veranstaltung. Business Intelligence

Data Mining Bericht. Analyse der Lebenssituation der Studenten. der Hochschule Wismar. Zur Veranstaltung. Business Intelligence Data Mining Bericht Analyse der Lebenssituation der Studenten der Hochschule Wismar Zur Veranstaltung Business Intelligence Eingereicht von: Mohamed Oukettou 108 208 Maxim Beifert 118 231 Vorgelegt von:

Mehr

Clustering und Klassifikation

Clustering und Klassifikation Clustering und Klassifikation Matthias Pretzer matthias.pretzer@informatik.uni-oldenburg.de Ferdinand-von-Schill-Str. 3 26131 Oldenburg 5. Februar 2003 Im heutigen Informationszeitalter fallen immer schneller

Mehr

Ideen der Informatik. Maschinelles Lernen. Kurt Mehlhorn Adrian Neumann Max-Planck-Institut für Informatik

Ideen der Informatik. Maschinelles Lernen. Kurt Mehlhorn Adrian Neumann Max-Planck-Institut für Informatik Ideen der Informatik Maschinelles Lernen Kurt Mehlhorn Adrian Neumann Max-Planck-Institut für Informatik Übersicht Lernen: Begriff Beispiele für den Stand der Kunst Spamerkennung Handschriftenerkennung

Mehr

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18 3. Deskriptive Statistik Ziel der deskriptiven (beschreibenden) Statistik (explorativen Datenanalyse) ist die übersichtliche Darstellung der wesentlichen in den erhobenen Daten enthaltene Informationen

Mehr

Data Mining für die industrielle Praxis

Data Mining für die industrielle Praxis Data Mining für die industrielle Praxis von Ralf Otte, Viktor Otte, Volker Kaiser 1. Auflage Hanser München 2004 Verlag C.H. Beck im Internet: www.beck.de ISBN 978 3 446 22465 0 Zu Leseprobe schnell und

Mehr

Mitarbeitereinsatzplanung. easysolution GmbH 1

Mitarbeitereinsatzplanung. easysolution GmbH 1 Mitarbeitereinsatzplanung easysolution GmbH 1 Mitarbeitereinsatzplanung Vorwort Eines der wichtigsten, aber auch teuersten Ressourcen eines Unternehmens sind die Mitarbeiter. Daher sollten die Mitarbeiterarbeitszeiten

Mehr

Codierung, Codes (variabler Länge)

Codierung, Codes (variabler Länge) Codierung, Codes (variabler Länge) A = {a, b, c,...} eine endliche Menge von Nachrichten (Quellalphabet) B = {0, 1} das Kanalalphabet Eine (binäre) Codierung ist eine injektive Abbildung Φ : A B +, falls

Mehr

Codierungstheorie Rudolf Scharlau, SoSe 2006 9

Codierungstheorie Rudolf Scharlau, SoSe 2006 9 Codierungstheorie Rudolf Scharlau, SoSe 2006 9 2 Optimale Codes Optimalität bezieht sich auf eine gegebene Quelle, d.h. eine Wahrscheinlichkeitsverteilung auf den Symbolen s 1,..., s q des Quellalphabets

Mehr

Integration geometrischer und fotogrammetrischer Information zum Wiederfinden von Bildern

Integration geometrischer und fotogrammetrischer Information zum Wiederfinden von Bildern Integration geometrischer und fotogrammetrischer Information zum Wiederfinden von Bildern Björn Burow SE Mustererkennung in Bildern und 3D-Daten Lehrstuhl Graphische Systeme BTU Cottbus Inhaltsübersicht

Mehr

Wiederholung: Informationssicherheit Ziele

Wiederholung: Informationssicherheit Ziele Wiederholung: Informationssicherheit Ziele Vertraulichkeit: Schutz der Information vor unberechtigtem Zugriff bei Speicherung, Verarbeitung und Übertragung Integrität: Garantie der Korrektheit (unverändert,

Mehr

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining.

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining. Personalisierung Personalisierung Thomas Mandl Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung Klassifikation Die Nutzer werden in vorab bestimmte Klassen/Nutzerprofilen

Mehr

Der linke Teilbaum von v enthält nur Schlüssel < key(v) und der rechte Teilbaum enthält nur Schlüssel > key(v)

Der linke Teilbaum von v enthält nur Schlüssel < key(v) und der rechte Teilbaum enthält nur Schlüssel > key(v) Ein Baum T mit Knotengraden 2, dessen Knoten Schlüssel aus einer total geordneten Menge speichern, ist ein binärer Suchbaum (BST), wenn für jeden inneren Knoten v von T die Suchbaumeigenschaft gilt: Der

Mehr

Was bisher geschah Wissensrepräsentation und -verarbeitung in Zustandsübergangssystemen Constraint-Systemen Logiken Repräsentation von Mengen

Was bisher geschah Wissensrepräsentation und -verarbeitung in Zustandsübergangssystemen Constraint-Systemen Logiken Repräsentation von Mengen Was bisher geschah Wissensrepräsentation und -verarbeitung in Zustandsübergangssystemen Constraint-Systemen Logiken Repräsentation von Mengen aussagenlogischer Regeln: Wissensbasis (Kontextwissen): Formelmenge,

Mehr

Allgemeine Regressionsanalyse. Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl. deterministisch

Allgemeine Regressionsanalyse. Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl. deterministisch Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 9.1 Allgemeine Regressionsanalyse Daten (X j, Y j ), j = 1,..., N unabhängig Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl.

Mehr

Datenbanken-Themen im OS "Data Mining" SS 2010

Datenbanken-Themen im OS Data Mining SS 2010 Prof. Dr.-Ing. Thomas Kudraß HTWK Leipzig, FIMN Datenbanken-Themen im OS "Data Mining" SS 2010 Die Vorträge sollten eine Dauer von 60 Minuten (Einzelvortrag) bzw. 45 Minuten (Doppelvortrag) haben. Nachfolgend

Mehr

4. Relationen. Beschreibung einer binären Relation

4. Relationen. Beschreibung einer binären Relation 4. Relationen Relationen spielen bei Datenbanken eine wichtige Rolle. Die meisten Datenbanksysteme sind relational. 4.1 Binäre Relationen Eine binäre Relation (Beziehung) R zwischen zwei Mengen A und B

Mehr

Web Data Mining. Alexander Hinneburg Sommersemester 2007

Web Data Mining. Alexander Hinneburg Sommersemester 2007 Web Data Mining Alexander Hinneburg Sommersemester 2007 Termine Vorlesung Mi. 10:00-11:30 Raum?? Übung Mi. 11:45-13:15 Raum?? Klausuren Mittwoch, 23. Mai Donnerstag, 12. Juli Buch Bing Liu: Web Data Mining

Mehr

Grundlagen der Informatik. Prof. Dr. Stefan Enderle NTA Isny

Grundlagen der Informatik. Prof. Dr. Stefan Enderle NTA Isny Grundlagen der Informatik Prof. Dr. Stefan Enderle NTA Isny 2 Datenstrukturen 2.1 Einführung Syntax: Definition einer formalen Grammatik, um Regeln einer formalen Sprache (Programmiersprache) festzulegen.

Mehr

Large-Scale Image Search

Large-Scale Image Search Large-Scale Image Search Visuelle Bildsuche in sehr großen Bildsammlungen Media Mining I Multimedia Computing, Universität Augsburg Rainer.Lienhart@informatik.uni-augsburg.de www.multimedia-computing.{de,org}

Mehr

Künstliche Neuronale Netze und Data Mining

Künstliche Neuronale Netze und Data Mining Künstliche Neuronale Netze und Data Mining Catherine Janson, icasus GmbH Heidelberg Abstract Der Begriff "künstliche Neuronale Netze" fasst Methoden der Informationstechnik zusammen, deren Entwicklung

Mehr

Informationstheorethisches Theorem nach Shannon

Informationstheorethisches Theorem nach Shannon Informationstheorethisches Theorem nach Shannon Beispiel zum Codierungsaufwand - Wiederholung: Informationstheorethisches Modell (Shannon) Sei x eine Aussage. Sei M ein Modell Wieviele Bits sind aussreichend,

Mehr

9.4 Binäre Suchbäume. Xiaoyi Jiang Informatik II Datenstrukturen und Algorithmen

9.4 Binäre Suchbäume. Xiaoyi Jiang Informatik II Datenstrukturen und Algorithmen 9.4 Binäre Suchbäume Erweiterung: Einfügen an der Wurzel Standardimplementierung: Der neue Schlüssel wird am Ende des Suchpfades angefügt (natürlich, weil zuerst festgestellt werden muss, ob der Schlüssel

Mehr

Abschnitt: Algorithmendesign und Laufzeitanalyse

Abschnitt: Algorithmendesign und Laufzeitanalyse Abschnitt: Algorithmendesign und Laufzeitanalyse Definition Divide-and-Conquer Paradigma Divide-and-Conquer Algorithmen verwenden die Strategien 1 Divide: Teile das Problem rekursiv in Subproblem gleicher

Mehr

Data Mining-Projekte

Data Mining-Projekte Data Mining-Projekte Data Mining-Projekte Data Mining stellt normalerweise kein ei nmaliges Projekt dar, welches Erkenntnisse liefert, die dann nur einmal verwendet werden, sondern es soll gewöhnlich ein

Mehr

Vorlesung Algorithmische Geometrie. Streckenschnitte. Martin Nöllenburg 19.04.2011

Vorlesung Algorithmische Geometrie. Streckenschnitte. Martin Nöllenburg 19.04.2011 Vorlesung Algorithmische Geometrie LEHRSTUHL FÜR ALGORITHMIK I INSTITUT FÜR THEORETISCHE INFORMATIK FAKULTÄT FÜR INFORMATIK Martin Nöllenburg 19.04.2011 Überlagern von Kartenebenen Beispiel: Gegeben zwei

Mehr

Lernziele: Ausgleichstechniken für binäre Bäume verstehen und einsetzen können.

Lernziele: Ausgleichstechniken für binäre Bäume verstehen und einsetzen können. 6. Bäume Lernziele 6. Bäume Lernziele: Definition und Eigenschaften binärer Bäume kennen, Traversierungsalgorithmen für binäre Bäume implementieren können, die Bedeutung von Suchbäumen für die effiziente

Mehr

DES der vergangene Standard für Bitblock-Chiffren

DES der vergangene Standard für Bitblock-Chiffren DES der vergangene Standard für Bitblock-Chiffren Klaus Pommerening Fachbereich Mathematik der Johannes-Gutenberg-Universität Saarstraße 1 D-55099 Mainz Vorlesung Kryptologie 1. März 1991, letzte Änderung:

Mehr

Kommentierter SPSS-Ausdruck zur logistischen Regression

Kommentierter SPSS-Ausdruck zur logistischen Regression Daten: POK V AG 3 (POKV_AG3_V07.SAV) Kommentierter SPSS-Ausdruck zur logistischen Regression Fragestellung: Welchen Einfluss hat die Fachnähe und das Geschlecht auf die interpersonale Attraktion einer

Mehr

Suche schlecht beschriftete Bilder mit Eigenen Abfragen

Suche schlecht beschriftete Bilder mit Eigenen Abfragen Suche schlecht beschriftete Bilder mit Eigenen Abfragen Ist die Bilderdatenbank über einen längeren Zeitraum in Benutzung, so steigt die Wahrscheinlichkeit für schlecht beschriftete Bilder 1. Insbesondere

Mehr

1. Einfach verkettete Liste unsortiert 2. Einfach verkettete Liste sortiert 3. Doppelt verkettete Liste sortiert

1. Einfach verkettete Liste unsortiert 2. Einfach verkettete Liste sortiert 3. Doppelt verkettete Liste sortiert Inhalt Einführung 1. Arrays 1. Array unsortiert 2. Array sortiert 3. Heap 2. Listen 1. Einfach verkettete Liste unsortiert 2. Einfach verkettete Liste sortiert 3. Doppelt verkettete Liste sortiert 3. Bäume

Mehr

Einführung in die Informatik: Programmierung und Software-Entwicklung, WS 11/12. Kapitel 13. Bäume. Bäume

Einführung in die Informatik: Programmierung und Software-Entwicklung, WS 11/12. Kapitel 13. Bäume. Bäume 1 Kapitel 13 Ziele 2 Den Begriff des Baums in der Informatik kennenlernen als verkettete Datenstruktur repräsentieren können Rekursive Funktionen auf n verstehen und schreiben können Verschiedene Möglichkeiten

Mehr

Masterarbeit. im Studiengang Informatik. Kombinationen von Data Mining-Verfahren: Analyse und Automatisierung. Ulf Mewe Matrikel.-Nr.

Masterarbeit. im Studiengang Informatik. Kombinationen von Data Mining-Verfahren: Analyse und Automatisierung. Ulf Mewe Matrikel.-Nr. LEIBNIZ UNIVERSITÄT HANNOVER FAKULTÄT FÜR ELEKTROTECHNIK UND INFORMATIK INSTITUT FÜR PRAKTISCHE INFORMATIK FACHGEBIET DATENBANKEN UND INFORMATIONSSYSTEME Masterarbeit im Studiengang Informatik Kombinationen

Mehr

Kapitel 27 Distanz- und Ähnlichkeitsmaße

Kapitel 27 Distanz- und Ähnlichkeitsmaße Kapitel 7 Distanz- und Ähnlichkeitsmaße 7.1 Einführung Sowohl Distanz- als auch Ähnlichkeitsmaße dienen dazu, die Ähnlichkeit verschiedener Fälle oder Variablen zu quantifizieren. Beide Maße untersuchen,

Mehr

Algorithmen und Datenstrukturen Balancierte Suchbäume

Algorithmen und Datenstrukturen Balancierte Suchbäume Algorithmen und Datenstrukturen Balancierte Suchbäume Matthias Teschner Graphische Datenverarbeitung Institut für Informatik Universität Freiburg SS 12 Überblick Einführung Einfügen und Löschen Einfügen

Mehr

Zahlensysteme. Digitale Rechner speichern Daten im Dualsystem 435 dez = 1100110011 binär

Zahlensysteme. Digitale Rechner speichern Daten im Dualsystem 435 dez = 1100110011 binär Zahlensysteme Menschen nutzen zur Angabe von Werten und zum Rechnen vorzugsweise das Dezimalsystem Beispiel 435 Fische aus dem Teich gefischt, d.h. 4 10 2 + 3 10 1 +5 10 0 Digitale Rechner speichern Daten

Mehr

Fundamentals of Software Engineering 1

Fundamentals of Software Engineering 1 Folie a: Name Fundamentals of Software Engineering 1 Grundlagen der Programmentwurfstechnik 1 Sommersemester 2012 Dr.-Ing. Stefan Werner Fakultät für Ingenieurwissenschaften Folie 1 Inhaltsverzeichnis

Mehr

Data Mining mit RapidMiner

Data Mining mit RapidMiner Motivation Data Mining mit RapidMiner CRISP: DM-Prozess besteht aus unterschiedlichen Teilaufgaben Datenvorverarbeitung spielt wichtige Rolle im DM-Prozess Systematische Evaluationen erfordern flexible

Mehr

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren)

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Multiple Regression 1 Was ist multiple lineare Regression? Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Annahme: Der Zusammenhang

Mehr

Analyse bivariater Kontingenztafeln

Analyse bivariater Kontingenztafeln Analyse bivariater Kontingenztafeln Werden zwei kategoriale Merkmale mit nicht zu vielen möglichen Ausprägungen gemeinsam analysiert, so kommen zur Beschreibung der gemeinsamen Verteilung im allgemeinen

Mehr

Datenstrukturen & Algorithmen

Datenstrukturen & Algorithmen Datenstrukturen & Algorithmen Matthias Zwicker Universität Bern Frühling 2010 Übersicht Binäre Suchbäume Einführung und Begriffe Binäre Suchbäume 2 Binäre Suchbäume Datenstruktur für dynamische Mengen

Mehr

Datenbankmodelle 1. Das Entity-Relationship-Modell. Prof. Dr. Bernhard Schiefer 2-1

Datenbankmodelle 1. Das Entity-Relationship-Modell. Prof. Dr. Bernhard Schiefer 2-1 Datenbankmodelle 1 Das Entity-Relationship-Modell Prof. Dr. Bernhard Schiefer 2-1 Datenbankmodelle ER-Modell hierarchisches Modell Netzwerkmodell relationales Modell objektorientierte Modelle Prof. Dr.

Mehr

Technische Beschreibung: EPOD Server

Technische Beschreibung: EPOD Server EPOD Encrypted Private Online Disc Technische Beschreibung: EPOD Server Fördergeber Förderprogramm Fördernehmer Projektleitung Projekt Metadaten Internet Foundation Austria netidee JKU Linz Institut für

Mehr

Machine Learning - Maschinen besser als das menschliche Gehirn?

Machine Learning - Maschinen besser als das menschliche Gehirn? Machine Learning - Maschinen besser als das menschliche Gehirn? Seminar Big Data Science Tobias Stähle 23. Mai 2014 KIT Universität des Landes Baden-Württemberg und nationales Forschungszentrum in der

Mehr

Entscheidungsbaumverfahren

Entscheidungsbaumverfahren Entscheidungsbaumverfahren Allgemeine Beschreibung Der Entscheidungsbaum ist die Darstellung einer Entscheidungsregel, anhand derer Objekte in Klassen eingeteilt werden. Die Klassifizierung erfolgt durch

Mehr

Folge 19 - Bäume. 19.1 Binärbäume - Allgemeines. Grundlagen: Ulrich Helmich: Informatik 2 mit BlueJ - Ein Kurs für die Stufe 12

Folge 19 - Bäume. 19.1 Binärbäume - Allgemeines. Grundlagen: Ulrich Helmich: Informatik 2 mit BlueJ - Ein Kurs für die Stufe 12 Grundlagen: Folge 19 - Bäume 19.1 Binärbäume - Allgemeines Unter Bäumen versteht man in der Informatik Datenstrukturen, bei denen jedes Element mindestens zwei Nachfolger hat. Bereits in der Folge 17 haben

Mehr

Programmiertechnik II

Programmiertechnik II Bäume Symboltabellen Suche nach Werten (items), die unter einem Schlüssel (key) gefunden werden können Bankkonten: Schlüssel ist Kontonummer Flugreservierung: Schlüssel ist Flugnummer, Reservierungsnummer,...

Mehr

Clustering algorithms (Overview)

Clustering algorithms (Overview) Seminar Algorithmen zum Wirkstoffdesign Clustering algorithms (Overview) Matthias Zschunke 14. Dezember 2003 Zusammenfassung Aufgaben wie Genomics, Proteomics oder auch die Suche nach neuen pharmakophoren

Mehr

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft Prof. Dr. Helmut Küchenhoff SS08 90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft am 22.7.2008 Anmerkungen Überprüfen Sie bitte sofort, ob Ihre Angabe vollständig ist. Sie sollte

Mehr

Versuchsauswertung mit Polynom-Regression in Excel

Versuchsauswertung mit Polynom-Regression in Excel Versuchsauswertung mit Polynom-Regression in Excel Aufgabenstellung: Gegeben sei die in Bild 1 gezeigte Excel-Tabelle mit Messwertepaaren y i und x i. Aufgrund bekannter physikalischer Zusammenhänge wird

Mehr

Nachtrag zu binären Suchbäumen

Nachtrag zu binären Suchbäumen Nachtrag zu binären Suchbäumen (nicht notwendigerweise zu AVL Bäumen) Löschen 1 3 2 10 4 12 1. Fall: Der zu löschende Knoten ist ein Blatt: einfach löschen 2. Fall: Der zu löschende Knoten hat ein Nachfolgeelement

Mehr

Teil II. Nichtlineare Optimierung

Teil II. Nichtlineare Optimierung Teil II Nichtlineare Optimierung 60 Kapitel 1 Einleitung In diesem Abschnitt wird die Optimierung von Funktionen min {f(x)} x Ω betrachtet, wobei Ω R n eine abgeschlossene Menge und f : Ω R eine gegebene

Mehr