Cluster-Analyse Ziel: Anwendungsbereiche: Nutzen: Bezug zur Statistik: Bezug zu maschinellem Lernen:

Größe: px
Ab Seite anzeigen:

Download "Cluster-Analyse Ziel: Anwendungsbereiche: Nutzen: Bezug zur Statistik: Bezug zu maschinellem Lernen:"

Transkript

1 Cluster-Analyse Ziel: Analyse von Daten ohne Klassenzugehörigkeit (mit Klassen siehe Klassifikation). Objekte werden so zu Clustern zusammengefasst, dass innerhalb eines Clusters die Objekte möglichst ähnlich und zwischen Clustern möglichst unähnlich sind. Anwendungsbereiche: Mustererkennung, z.b. Erdbeobachtungs-Satellitenauswertung für ähnliche Landnutzung; Datenanalyse, z.b. Autoversicherungen für Schadensfallanalyse oder Webanalysten bei Klassifikation von Dokumenten, Marktforschung, z.b. Makler bei Analyse von Haustypen, Wert und geografischer Verteilung; Bildverarbeitung; usw. Nutzen: Menschen bilden seit frühester Kindheit Cluster, ohne bestimmte Ziele zu verfolgen. Wenn ein Cluster entdeckt ist, kann man es genauer untersuchen (z.b. auf gemeinsame Ursachen, wie alle grünen Pflanzen photosynthetisieren; auf gemeinsame Nutzung von Chancen wie Flugtiere (Vögel und Insekten) mit langem Rüssel ernähren sich vom Nektar von tiefen Blütenpflanzen; oder auf gemeinsame Ziele wie alle roten Pilze sind giftig). Weiterhin dienen Cluster zur Vereinfachung von Informationsspeicher und Kommunikation, z.b. braucht man nur die Besonderheiten einer individuellen Katze beschreiben, wenn das Cluster "Katze" bekannt ist. Bezug zur Statistik: Insbesondere distanzbasierte Clusterverfahren (z.b. k-means); integriert in statistische Softwarepakete wie SPSS oder SAS. Bezug zu maschinellem Lernen: Unbeaufsichtigtes Lernen (unsupervised learning), z.b. konzeptuelles Clustering mit Generierung von Beschreibungen der Cluster. 1

2 Anforderungen an Cluster-Verfahren Skalierbarkeit Fähigkeit zum Umgang mit verschiedenen Attributtypen (d.h. nicht nur numerischen Attributen) Entdecken von Clustern mit beliebiger Gestalt Minimaler Gebrauch von Parametern (zur Konfiguration des Verfahren) Fähigkeit zum Umgang mit verrauschten Daten Unabhängigkeit von Reihenfolge der Eingabe-Daten Umgang mit Daten hoher Dimensionalität Constraint-basiertes Clustering Interpretierbarkeit und Nützlichkeit 2

3 Datenstrukturen Die Rohdaten werden für die Clusteranaylse häufig in eine Matrixform transformiert: a) Datenmatrix (Objekt-Attribut-Struktur) b) Unähnlichkeitsmatrix (Objekt-Objekt-Struktur) 3

4 Unähnlichkeitsmaße und Datentypen Intervallbasierte (numerische) Variablen: Standardisierung (um verschiedene Attribute vergleichbar zu machen) Unähnlichkeitsmaße (zwischen 2 Objekten mit p Dimens.): - Euklidische Distanz: - Manhattan Distanz: Binäre Variablen (zwischen 2 Objekten mit p Dimens.): symmetrische Variablen (beide Werte haben gleiche Bedeutung, z.b. Geschlecht): d(i,j) = Anzahl ungleicher Attribute / Anzahl aller Attribute asymmetrische Variablen (ein Wert ist wichtiger als der andere, z.b. HIV-positiv im Vergleich zu HIV-negativ): d(i,j) = Anzahl ungleicher Attribute / Anzahl aller Attribute ohne negative Matches Nominale Variablen: Verallgemeinerung binärer Variablen mit multiplen Werten; Behandlung analog zu binären Variablen. Ordinale Variablen: Wie nominale Variablen, aber mit einer Ordnung, z.b. gut, mittel, schlecht. Daher lassen sich alle Techniken der intervallbasierten Variablen übertragen. Die Techniken sind (nach Normalisierung) kombinierbar. Zusätzlich können die Variablen in allen Unähnlichkeitsmaßen gewichtet werden, um unterschiedlicher Bedeutung der Variablen Rechnung zu tragen, z.b. bei gewichteter Euklidischer Distanz: 4

5 Beispiel für binäre asymmetrische Unähnlicheit ( gender ist symmetrisch und deshalb nicht berücksichtigt.) 5

6 Übersicht über Cluster-Verfahren Partitionierungs-Methoden: Die Anzahl (k) der Cluster (Partitionen) ist vorgegeben. In mehreren Runden werden die Objekte jeweils dem nächsten Cluster zugeordnet, das durch seinen Mittelwert (k-means) bzw. einem mittleren Objekt (kmedoids) repräsentiert ist. Hierarchische Methoden: Schrittweise Aggregation (bottom-up) oder Aufteilung (top-down) der Objekte in Gruppen. Dichte-basierte Methoden: Cluster wachsen, solange die Dichte von Objekten in ihrer Nachbarschaft einen Schwellwert überschreitet. Gitter-basierte Methoden: Aufteilung der Objekte in ein vorgegebenes Raster mit Zellen, auf denen alle Operationen basieren. Modell-basierte Methoden: Basierend auf vorgegebenen Modellannahmen wird die beste Clusterzerlegung gesucht, die dem Modell entspricht. 6

7 Partitionierungsmethoden: k-means Die Anzahl (k) der Cluster (Partitionen) ist vorgegeben. In mehreren Runden werden die Objekte jeweils dem nächsten Cluster zugeordnet, das durch seinen Mittelwert (k-means) bzw. einem mittleren Objekt (k-medoids) repräsentiert ist. Algorithmus k-means Input: Anzahl der Cluster, k, und Datenbank mit n Objekten Output: Menge von k Clustern, die ein Fehlerkriterium minimieren (Quadrat-Fehler zu Cluster-Mittelwerten) Methode: (1) wähle zufällig k Objekte als initiale Cluster-Zentren (2) wiederhole bis Gesamtfehler nicht mehr sinkt: (3) ordne jedes Objekt dem nächsten Cluster zu, (gemäß Ähnlichkeitsfunktion) (4) aktualisiere die Cluster-Mittelwerte als Mittelwert aller Objekte des Clusters. Als Gesamtfehler wird häufig das Quadrat-Fehler-Kriterium über alle Cluster genommen (p = ein Objekt, m i = Mittelwert des Cluster C i ). Komplexität: O(n*k*t) mit n= #Objekte, k= #Cluster, t = #Iterationen Verbesserung: Kombination mit hierarchischen Verfahren zur Berechnung der Zahl der Cluster sowie einer guten Anfangsbelegung. Beispiel mit 3 Clustern und 3 Iterationen: ( + markiert jeweils Mittelwert des Cluster) 7

8 Varianten zur k-means-methode Bestimmung des k (Anzahl Cluster): Mit hierarchischem Clustering das k bestimmen, dann k-means-methode verwenden. K-modes: Übertragung der Technik auf nicht-numerische (kategoriale) Daten; Kombination von k-means und k- modes zu k-prototypes Expected Maximization (EM) Algorithmus: Statt Objekte zu Clustern zuzuordnen, wird nur eine Wahrscheinlichkeit der Clusterzugehörigkeit berechnet, d.h. es gibt keine klare Grenzen zwischen Clustern (wie bei Fuzzy-Logik). Dadurch ändert sich die Berechnung der Mittelwerte von Clustern. Effizienzsteigerung: Zusammenfassung (Kompression) sehr ähnlicher Objekte zu Subcluster. 8

9 Partionierung: k-mediods-methode Problem: Das k-means-verahren reagiert recht empfindlich auf Ausreißer, die den Mittelwert verzerren können. Lösung: Im Unterschied zum k-means Verfahren wird beim k- Mediods Verfahren ein Cluster durch sein zentralstes Objekt repräsentiert. Algorithmus k-mediods Input: Anzahl der Cluster, k, und Datenbank mit n Objekten Output: Menge von k Clustern, die die Summe der Unähnlichkeiten aller Objekte zum nächsten Mediod minimieren. Methode: (1) wähle zufällig k Objekte als initiale Mediode (2) wiederhole bis keine Änderung (3) ordne jedem Objekt den Cluster mit dem nächsten Mediod zu (4) wähle zufällig ein nicht-mediodes Objekt o random (5) berechne die Gesamtkosten S, um den bisherigen Mediod o j mit o random zu vertauschen (6) wenn S < 0 dann vertausche o j mit o random zu, das den neuen Mediod darstellt. Komplexität: O(n 2 *k*t); mit repräsentativen Beispielmengen s, die statt aller Objekte n in jeder Iteration überprüft werden: O(s 2 *k*t) 9

10 Fallunterscheidungen bei k-mediods Beim Berechnen der Gesamtkosten gibt es 4 Fallunterscheidungen: Fall 1: Das Objekt p gehört noch zum Mediod o j (= o(j). Wenn o(j) durch den Mediod o(random) ersetzt wird und p liegt näher an einem anderen Mediod, o(i), als an o(random), dann wird wechselt die Zugehörigkeit von p von o(j) zu o(i). Fall 2: p gehört noch zu Mediod o(j). Wenn o(j) durch o(random) ersetzt wird und p am nächsten zu o(random) liegt, dann wird p zu o(random) zugeordnet. Fall 3: p gehört noch zu Mediod o(i). Wenn O(j) durch o(random) ersetzt wird, und p ist immer noch am nächsten zu o(i), dann ändert sich nichts. Fall 4: p gehört noch zu Mediod o(i). Wenn O(j) durch o(random) ersetzt wird, und p ist immer näher zu o(random) als zu o(i), dann wechselt p zu o(random). Die Gesamtkosten ergeben sich aus der Summe der Kosten für die Zuordnung von jedem Objekt zu seinem Mediod. 10

11 Hierarchische Clusterverfahren Schrittweise Aggregation (bottom-up) oder Aufteilung (top-down) der Objekte in Gruppen. Aggregierendes hierarchisches Clustering: Zunächst repräsentiert jedes Objekt sein eigenes Cluster, dann werden jeweils die zwei benachbarsten Cluster zusammengefasst, bis nur ein Cluster übrigbleibt (oder ein Terminierungskriterium zutrifft). Aufteilendes hierarchisches Clustering: Zunächst befinden sich alle Objekte in einem Cluster, das solange aufgespalten wird, bis die Anzahl der gewünschten Cluster erreicht ist oder jedes Cluster nur ein Objekt umfasst. Hierarchische Verfahren sind sehr sensitiv gegenüber den Kriterien, wie Cluster zusammengefasst bzw. aufgeteilt werden, da solche Entscheidungen starke Folgewirkungen haben und nicht rückgängig gemacht werden können. Typische Maße sind: Beispiel für hierarchisches und aufteilendes Clustering: Verbesserungsidee zur Effizienzsteigerung: Statt mit allen nur mit zufällig ausgewählten (repräsentativen) Objekten arbeiten. 11

12 Dichte-basierte Clusterverfahren Cluster wachsen, solange die Dichte von Objekten in ihrer Nachbarschaft einen Schwellwert überschreitet. Definitionen: ε-nachbarschaft eines Objektes o: Alle Objekte im Radius ε um o Kernobjekte: Objekte, in deren ε-nachbarschaft eine minimale Anzahl von anderen Objekten ist. Direkte Dichte-Erreichbarkeit des Objektes p vom Kernobjekt q, falls p in ε-nachbarschaft von q (asymmetrische Relation). Dichte-Erreichbarkeit zwischen zwei Objekten p und q, falls es eine Folge von Zwischenobjekten gibt, die über die direkte Dichte- Erreichbarkeit gekoppelt sind (transitive Hülle zur direkten Dichte- Erreichbarkeit; asymmetrische Relation). Dichte-Verbundenheit zwischen zwei Objekten p und q, falls es ein Objekt o gibt, das mit p und q durch Dichte-Erreichbarkeit verbunden ist (symmetrische Relation). Beispiel: M, P, O, R sind Kernobjekte, S und Q nicht. Q ist direkt Dichte-erreichbar von M, M von P und P von M. Q ist Dichte-erreichbar von P, R und S von O, O von R. O, R, S sind alle Dichte-verbunden. Verfahren zum finden von Dichte-basierten Clustern: 1. Überprüfen aller Objekte, ob sie Kernobjekte sind. 2. Wachsen der Kernobjekte zu Clustern über Dichte-Erreichbarkeit 12

13 Gitterbasierte Clusterverfahren Aufteilung der Objekte in ein vorgegebenes Raster mit Zellen, auf denen alle Operationen basieren. Beispiel: Ausgehend von der detailliertesten Ebene werden für alle Zellen statistische Maße (z.b. Anzahl, Mittelwert, Standardabweichung, Min, Max, Verteilungstyp) berechnet, die nach oben aggegriert werden. Cluster können durch Zusammenfassung einzelner Zellen wachsen. Vorteil: Effizienz (nur abhängig von #Zellen, nicht von #Objekten) Nachteil: Clustergrenzen können nur horizontal oder vertikal sein. 13

14 Kombination von Gitter-basierten mit Dichte-basierten Verfahren Problem: Entdecken von Clustern in hochdimensionalen Räumen, da Dichte pro Zelle sehr gering. Lösung: Berechnung der Dichte pro Dimension und sukzessive Kombination der dichten Abschnitte verschiedener Dimensionen. Beispiel: 14

15 Konzeptuelles Clustering Konzeptuelles Clustering versucht nicht nur, ähnliche Objekte zu gruppieren, sondern in einem zweiten Schritt auch charakteristische Beschreibungen für jede Gruppe zu finden. Die Qualität der Cluster wird auch aufgrund der Allgemeinheit und Einfachheit der resultierenden Cluster-Beschreibungen beurteilt. Grundalgorithmus: Für jeden neuen Fall tue: Falls hinreichend ähnlich zu dem Repräsentanten eines Cluster, dann ordne ihn diesem Cluster zu und verändere ggf. den Repräsentanten des Clusters entsprechend und wende ggf. die Prozedur rekursiv auf Cluster-Nachfolger an (Bilden hierarchischer Cluster) ansonsten definiert der Fall ein neues Cluster. Varianten: 1. Repräsentation eines Cluster durch repräsentativen Fall: durch ersten Fall durch typischsten Fall durch konstruierten Durchschnittsfall ("Otto Normalverbraucher") 2. Repräsentation des Clusters als Konzept: Das Konzept wird durch eine Menge von notwendigen und hinreichenden Bedingungen beschrieben. Das Konzept wird durch eine charakteristische Menge von Attributwerten mit einer Nützlichkeitsbewertung beschrieben (Beispiel: UNIMEM). Das Konzept besteht aus einer Wahrscheinlichkeitsverteilung aller Attributwerte des Clusters (Beispiel: COBWEB). 3. Repräsentation des Clusters als Knoten eines Neuronales Netzes z.b. Wettbewerbslernen, Kohonen-Netze 15

16 Beispiel COBWEB Repräsentation: In COBWEB werden die Cluster hierarchisch angeordnet und mit Wahrscheinlichkeitsangaben beschrieben, wie häufig ein Wert bei dem Konzept vorkommt: P (A i = V ij C k ) beim Cluster C k hat das i-te Attribut A i den Wert V ij Dazu werden bei jedem Cluster alle zugehörigen Objekte gespeichert, aus denen die Häufigkeit der Attribut-Werte gezählt und daraus die Wahrscheinlichkeiten berechnet werden. Operationen beim Aufbau der Konzepthierarchie: ein Fall bei einem vorhandenen Cluster einfügen ein neues Cluster mit einem Fall einrichten zwei Fälle zu einem Cluster zu vereinigen ein Cluster in seine Nachfolger aufzuteilen Die letzten beiden Operationen dienen dazu, die Reihenfolgesensitivität gegenüber den Eingabeobjekten zu verringern. Algorithmus: Input: AKT: aktuelles Wurzelkonzept, NF: Neuer Fall Output: Einordnung von NF in AKT Wenn AKT ein Blatt-Cluster ist, dann erzeuge-neue-cluster (AKT, NF) und aktualisiere-zähler sonst aktualisiere-zähler und berechne für jeden Nachfolger von AKT den Score, wenn NF dort platziert wird. Es sei: P = Cluster mit höchsten Score W R = Cluster mit zweithöchsten Score X = Score, wenn NF in ein neues Cluster Q eingefügt wird Y = Score, um P und R zu einem Cluster zu vereinigen Z = Score, um P in seine Nachfolger aufzuteilen Wenn W der beste Score ist, dann (COBWEB P, NF) sonst wenn X der beste Score ist, dann initialisiere Q mit NF sonst wenn Y der beste Score ist, dann mische (P, R, AKT) zu O und COBWEB (O, NF) sonst wenn Z der bester Score ist, dann spalte (P, AKT) und und COBWEB (AKT, NF) 16

17 Berechnung der Cluster-Nützlichkeit Die Nützlichkeit eines Cluster (Category utility, CU) ergibt sich aus der Anzahl von Attributwerten, die mit dem neuen Cluster richtig vorhergesagt werden können (1. Doppelsummenterm) im Vergleich zu denen, die ohne das neue Cluster vorhergesagt werden können (2. Doppelsummenterm). 17

18 Ausgangsdaten: Beispiel COBWEB body heart body fertilisation cover chamber temperature amphibian moist skin 3 unregulated external fish scales 2 unregulated external bird feathers 4 regulated internal mammal hair 4 regulated internal Ergebnis: 0,25 0,25 18

19 Interne Datenstrukturen Hierarchy level 1 = all 2=A 2=F 2=MB 3=M 3=B Object list A,F,B,M A F M,B M B Object count body cover hair feathers moist skin scales heart chamber body temp. regulated unregulated fertilisation internal external

20 Grenzen von COBWEB Annahme der Unabhängigkeit der Attribute untereinander Bei großen Datenmengen hoher Aufwand, die Wahrscheinlichkeitsverteilungen der Attribut-Werte zu speichern und zu aktualisieren Cluster-Hierarchie kann schlecht balanciert sein. Kommerziell verfügbares Cluster-System auf der Basis von Wahrscheinlichkeitsverteilungen: AutoClass 20

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen 7. Clusteranalyse (= Häufungsanalyse; Clustering-Verfahren) wird der multivariaten Statistik zugeordnet Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut,

Mehr

Clustern. Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so dass:

Clustern. Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so dass: Text-Clustern 1 Clustern Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so dass: Beispiele innerhalb eines Clusters sich sehr ähnlich Beispiele in verschiedenen

Mehr

Exploration und Klassifikation von BigData

Exploration und Klassifikation von BigData Exploration und Klassifikation von BigData Inhalt Einführung Daten Data Mining: Vorbereitungen Clustering Konvexe Hülle Fragen Google: Riesige Datenmengen (2009: Prozessieren von 24 Petabytes pro Tag)

Mehr

Seminar zum Thema Künstliche Intelligenz:

Seminar zum Thema Künstliche Intelligenz: Wolfgang Ginolas Seminar zum Thema Künstliche Intelligenz: Clusteranalyse Wolfgang Ginolas 11.5.2005 Wolfgang Ginolas 1 Beispiel Was ist eine Clusteranalyse Ein einfacher Algorithmus 2 bei verschieden

Mehr

2. Lernen von Entscheidungsbäumen

2. Lernen von Entscheidungsbäumen 2. Lernen von Entscheidungsbäumen Entscheidungsbäume 2. Lernen von Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch Attribut/Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse

Mehr

Dokumenten-Clustering. Norbert Fuhr

Dokumenten-Clustering. Norbert Fuhr Dokumenten-Clustering Norbert Fuhr Dokumenten-Clustering (Dokumenten-)Cluster: Menge von ähnlichen Dokumenten Ausgangspunkt Cluster-Hypothese : die Ähnlichkeit der relevanten Dokumente untereinander und

Mehr

Clusteranalyse. Multivariate Datenanalyse. Prof. Dr. Dietmar Maringer. Abteilung für Quantitative Methoden, WWZ der Universität Basel

Clusteranalyse. Multivariate Datenanalyse. Prof. Dr. Dietmar Maringer. Abteilung für Quantitative Methoden, WWZ der Universität Basel Clusteranalyse Multivariate Datenanalyse Prof. Dr. Dietmar Maringer Abteilung für Quantitative Methoden, WWZ der Universität Basel Herbstsemester 2013 D Maringer: Datenanalyse Clusteranalyse (1) Ausgangssituation

Mehr

Einführung in das Data Mining Clustering / Clusteranalyse

Einführung in das Data Mining Clustering / Clusteranalyse Einführung in das Data Mining Clustering / Clusteranalyse Sascha Szott Fachgebiet Informationssysteme HPI Potsdam 21. Mai 2008 Teil I Einführung Clustering / Clusteranalyse Ausgangspunkt: Menge O von Objekten

Mehr

Data Mining Anwendungen und Techniken

Data Mining Anwendungen und Techniken Data Mining Anwendungen und Techniken Knut Hinkelmann DFKI GmbH Entdecken von Wissen in banken Wissen Unternehmen sammeln ungeheure mengen enthalten wettbewerbsrelevantes Wissen Ziel: Entdecken dieses

Mehr

Vorlesung 3 MINIMALE SPANNBÄUME

Vorlesung 3 MINIMALE SPANNBÄUME Vorlesung 3 MINIMALE SPANNBÄUME 72 Aufgabe! Szenario: Sie arbeiten für eine Firma, die ein Neubaugebiet ans Netz (Wasser, Strom oder Kabel oder...) anschließt! Ziel: Alle Haushalte ans Netz bringen, dabei

Mehr

3.5 Datenbanktechniken zur Leistungssteigerung. 3. Clustering. 3.5 Datenbanktechniken zur Leistungssteigerung. 3. Clustering. Inhalt dieses Kapitels

3.5 Datenbanktechniken zur Leistungssteigerung. 3. Clustering. 3.5 Datenbanktechniken zur Leistungssteigerung. 3. Clustering. Inhalt dieses Kapitels 3.1 Einleitung 3. Clustering Inhalt dieses Kapitels Ziel des Clustering, Distanzfunktionen, Anwendungen, Typen von Algorithmen 3.2 Partitionierende Verfahren k-means, k-medoid, Expectation Maximization,

Mehr

Universität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme

Universität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme Universität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme Studienprojekt Invisible Web (Dipl.-Inform. Gudrun Fischer - WS 2003/04) Blockseminar

Mehr

Data Cube. Aggregation in SQL. Beispiel: Autoverkäufe. On-line Analytical Processing (OLAP) 1. Einführung. 2. Aggregation in SQL, GROUP BY

Data Cube. Aggregation in SQL. Beispiel: Autoverkäufe. On-line Analytical Processing (OLAP) 1. Einführung. 2. Aggregation in SQL, GROUP BY Data Cube On-line Analytical Processing (OLAP). Einführung Ziel: Auffinden interessanter Muster in großen Datenmengen 2. Aggregation in SQL, GROUP BY 3. Probleme mit GROUP BY 4. Der Cube-Operator! Formulierung

Mehr

Data-Mining: Ausgewählte Verfahren und Werkzeuge

Data-Mining: Ausgewählte Verfahren und Werkzeuge Fakultät Informatik Institut für Angewandte Informatik Lehrstuhl Technische Informationssysteme Data-Mining: Ausgewählte Verfahren und Vortragender: Jia Mu Betreuer: Dipl.-Inf. Denis Stein Dresden, den

Mehr

Inhalt dieses Kapitels. Ziel des Clustering, Anwendungen, Typen von Clustering-Algorithmen

Inhalt dieses Kapitels. Ziel des Clustering, Anwendungen, Typen von Clustering-Algorithmen 2. Clustering Inhalt dieses Kapitels 3. Einleitung Ziel des Clustering, Anwendungen, Typen von Clustering-Algorithmen 3.2 Partitionierende Verfahren k-means, k-medoid, Expectation Maximization, Initialisierung

Mehr

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining Gliederung 1. Einführung 2. Grundlagen Data Mining Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining 3. Ausgewählte Methoden des Data

Mehr

Neuerungen Analysis Services

Neuerungen Analysis Services Neuerungen Analysis Services Neuerungen Analysis Services Analysis Services ermöglicht Ihnen das Entwerfen, Erstellen und Visualisieren von Data Mining-Modellen. Diese Mining-Modelle können aus anderen

Mehr

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining.

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining. Motivation Themenblock: Klassifikation Praktikum: Data Warehousing und Data Mining Ziel Item hat mehrere Attribute Anhand von n Attributen wird (n+)-tes vorhergesagt. Zusätzliches Attribut erst später

Mehr

Clustering Seminar für Statistik

Clustering Seminar für Statistik Clustering Markus Kalisch 03.12.2014 1 Ziel von Clustering Finde Gruppen, sodas Elemente innerhalb der gleichen Gruppe möglichst ähnlich sind und Elemente von verschiedenen Gruppen möglichst verschieden

Mehr

Sortierverfahren für Felder (Listen)

Sortierverfahren für Felder (Listen) Sortierverfahren für Felder (Listen) Generell geht es um die Sortierung von Daten nach einem bestimmten Sortierschlüssel. Es ist auch möglich, daß verschiedene Daten denselben Sortierschlüssel haben. Es

Mehr

Data Mining - Wiederholung

Data Mining - Wiederholung Data Mining - Wiederholung Norbert Fuhr 9. Juni 2008 Problemstellungen Problemstellungen Daten vs. Information Def. Data Mining Arten von strukturellen Beschreibungen Regeln (Klassifikation, Assoziations-)

Mehr

Kodierungsalgorithmen

Kodierungsalgorithmen Kodierungsalgorithmen Komprimierung Verschlüsselung Komprimierung Zielsetzung: Reduktion der Speicherkapazität Schnellere Übertragung Prinzipien: Wiederholungen in den Eingabedaten kompakter speichern

Mehr

Multivariate Statistik

Multivariate Statistik Hermann Singer Multivariate Statistik 1 Auflage 15 Oktober 2012 Seite: 12 KAPITEL 1 FALLSTUDIEN Abbildung 12: Logistische Regression: Geschätzte Wahrscheinlichkeit für schlechte und gute Kredite (rot/blau)

Mehr

Vorlesung 04.12.2006: Binäre Entscheidungsdiagramme (BDDs) Dr. Carsten Sinz

Vorlesung 04.12.2006: Binäre Entscheidungsdiagramme (BDDs) Dr. Carsten Sinz Vorlesung 04.12.2006: Binäre Entscheidungsdiagramme (BDDs) Dr. Carsten Sinz Datenstruktur BDD 1986 von R. Bryant vorgeschlagen zur Darstellung von aussagenlogischen Formeln (genauer: Booleschen Funktionen)

Mehr

Eine Einführung in R: Hochdimensionale Daten: n << p Teil II

Eine Einführung in R: Hochdimensionale Daten: n << p Teil II Eine Einführung in R: Hochdimensionale Daten: n

Mehr

Kapitel 5: Clustering

Kapitel 5: Clustering Ludwig Maximilians Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Wintersemester 2006/2007 Kapitel

Mehr

Data Mining und Knowledge Discovery in Databases

Data Mining und Knowledge Discovery in Databases Data Mining und Knowledge Discovery in Databases Begriffsabgrenzungen... Phasen der KDD...3 3 Datenvorverarbeitung...4 3. Datenproblematik...4 3. Möglichkeiten der Datenvorverarbeitung...4 4 Data Mining

Mehr

Statistische Verfahren für das Data Mining in einem Industrieprojekt

Statistische Verfahren für das Data Mining in einem Industrieprojekt Statistische Verfahren für das Data Mining in einem Industrieprojekt Thorsten Dickhaus Forschungszentrum Jülich GmbH Zentralinstitut für Angewandte Mathematik Telefon: 02461/61-4193 E-Mail: th.dickhaus@fz-juelich.de

Mehr

Data Mining - Clustering. Sven Elvers

Data Mining - Clustering. Sven Elvers Agenda Data Mining Clustering Aktuelle Arbeiten Thesis Outline 2 Agenda Data Mining Clustering Aktuelle Arbeiten Thesis Outline 3 Data Mining Entdecken versteckter Informationen, Muster und Zusammenhänge

Mehr

Kürzeste Wege in Graphen. Maurice Duvigneau Otto-von-Guericke Universität Fakultät für Informatik

Kürzeste Wege in Graphen. Maurice Duvigneau Otto-von-Guericke Universität Fakultät für Informatik Kürzeste Wege in Graphen Maurice Duvigneau Otto-von-Guericke Universität Fakultät für Informatik Gliederung Einleitung Definitionen Algorithmus von Dijkstra Bellmann-Ford Algorithmus Floyd-Warshall Algorithmus

Mehr

Inhaltsverzeichnis. Fragestellungen und Methoden 11. Vorwort 15. Kapitel 1 Einführung 17. Kapitel 2 Statistische Grundbegriffe 23

Inhaltsverzeichnis. Fragestellungen und Methoden 11. Vorwort 15. Kapitel 1 Einführung 17. Kapitel 2 Statistische Grundbegriffe 23 Fragestellungen und Methoden 11 Vorwort 15 Kapitel 1 Einführung 17 1.1 KonzeptiondesBuchs... 18 1.2 AufbaudesBuchs... 19 1.3 Programmversionen von PASW bzw. SPSS..... 20 1.4 WiekanndiesesBuchverwendetwerden?...

Mehr

Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07

Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07 Regression Trees Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07 Ao.Univ.Prof. Dr. Marcus Hudec marcus.hudec@univie.ac.at Institut für Scientific Computing, Universität Wien 2

Mehr

Maschinelles Lernen: Neuronale Netze. Ideen der Informatik Kurt Mehlhorn

Maschinelles Lernen: Neuronale Netze. Ideen der Informatik Kurt Mehlhorn Maschinelles Lernen: Neuronale Netze Ideen der Informatik Kurt Mehlhorn 16. Januar 2014 Übersicht Stand der Kunst im Bilderverstehen: Klassifizieren und Suchen Was ist ein Bild in Rohform? Biologische

Mehr

Vorlesung Maschinelles Lernen

Vorlesung Maschinelles Lernen Vorlesung Maschinelles Lernen Additive Modelle Katharina Morik Informatik LS 8 Technische Universität Dortmund 7.1.2014 1 von 34 Gliederung 1 Merkmalsauswahl Gütemaße und Fehlerabschätzung 2 von 34 Ausgangspunkt:

Mehr

8. Clusterbildung, Klassifikation und Mustererkennung

8. Clusterbildung, Klassifikation und Mustererkennung 8. Clusterbildung, Klassifikation und Mustererkennung Begriffsklärung (nach Voss & Süße 1991): Objekt: wird in diesem Kapitel mit einem zugeordneten Merkmalstupel (x 1,..., x M ) identifiziert (Merkmalsextraktion

Mehr

Data Warehousing und Data Mining

Data Warehousing und Data Mining Data Warehousing und Data Mining Clustering Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Einführung Clustergüte Ähnlichkeiten Clustermitte Hierarchisches Clustering Partitionierendes

Mehr

Kapitel 5: Dynamisches Programmieren Gliederung

Kapitel 5: Dynamisches Programmieren Gliederung Gliederung 1. Grundlagen 2. Zahlentheoretische Algorithmen 3. Sortierverfahren 4. Ausgewählte Datenstrukturen 5. Dynamisches Programmieren 6. Graphalgorithmen 7. String-Matching 8. Kombinatorische Algorithmen

Mehr

Algorithmen und Datenstrukturen Bereichsbäume

Algorithmen und Datenstrukturen Bereichsbäume Algorithmen und Datenstrukturen Bereichsbäume Matthias Teschner Graphische Datenverarbeitung Institut für Informatik Universität Freiburg SS 12 Überblick Einführung k-d Baum BSP Baum R Baum Motivation

Mehr

Histogramme in der Datenbankoptimierung. Marian Marx 26.06.2008

Histogramme in der Datenbankoptimierung. Marian Marx 26.06.2008 Histogramme in der Datenbankoptimierung Marian Marx 26.06.2008 Inhaltsverzeichnis 1. Histogramme im Allgemeinen 1.1 Definition Histogramm 1.2 Beispiel Histogramm 2. Histogramme in der Datenbankoptimierung

Mehr

Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining

Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining Ausgangssituation Kaizen Data Mining ISO 9001 Wenn andere Methoden an ihre Grenzen stoßen Es gibt unzählige Methoden, die Abläufe

Mehr

Data Mining-Modelle und -Algorithmen

Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining ist ein Prozess, bei dem mehrere Komponenten i n- teragieren. Sie greifen auf Datenquellen, um diese zum Training,

Mehr

Mengenvergleiche: Alle Konten außer das, mit dem größten Saldo.

Mengenvergleiche: Alle Konten außer das, mit dem größten Saldo. Mengenvergleiche: Mehr Möglichkeiten als der in-operator bietet der θany und der θall-operator, also der Vergleich mit irgendeinem oder jedem Tupel der Unteranfrage. Alle Konten außer das, mit dem größten

Mehr

Babeș-Bolyai Universität Cluj Napoca Fakultät für Mathematik und Informatik Grundlagen der Programmierung MLG5005. Paradigmen im Algorithmenentwurf

Babeș-Bolyai Universität Cluj Napoca Fakultät für Mathematik und Informatik Grundlagen der Programmierung MLG5005. Paradigmen im Algorithmenentwurf Babeș-Bolyai Universität Cluj Napoca Fakultät für Mathematik und Informatik Grundlagen der Programmierung MLG5005 Paradigmen im Algorithmenentwurf Problemlösen Problem definieren Algorithmus entwerfen

Mehr

Binäre lineare Optimierung mit K*BMDs p.1/42

Binäre lineare Optimierung mit K*BMDs p.1/42 Binäre lineare Optimierung mit K*BMDs Ralf Wimmer wimmer@informatik.uni-freiburg.de Institut für Informatik Albert-Ludwigs-Universität Freiburg Binäre lineare Optimierung mit K*BMDs p.1/42 Grundlagen Binäre

Mehr

Clusteranalyse. Clusteranalyse. Fragestellung und Aufgaben. Abgrenzung Clusteranalyse - Diskriminanzanalyse. Rohdatenmatrix und Distanzmatrix

Clusteranalyse. Clusteranalyse. Fragestellung und Aufgaben. Abgrenzung Clusteranalyse - Diskriminanzanalyse. Rohdatenmatrix und Distanzmatrix TECHNISCHE UNIVERSITÄT MÜNCHEN-WEIHENSTEPHAN MATHEMATIK UND STATISTIK INFORMATIONS- UND DOKUMENTATIONSZENTRUM R. Biometrische und Ökonometrische Methoden II SS 00 Fragestellung und Aufgaben Abgrenzung

Mehr

Eine vorprozessierte Variante von Scatter/Gather

Eine vorprozessierte Variante von Scatter/Gather Universität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme Ausarbeitung zum Blockseminar Invisible Web Eine vorprozessierte Variante von

Mehr

Seminar Komplexe Objekte in Datenbanken

Seminar Komplexe Objekte in Datenbanken Seminar Komplexe Objekte in Datenbanken OPTICS: Ordering Points To Identify the Clustering Structure Lehrstuhl für Informatik IX - Univ.-Prof. Dr. Thomas Seidl, RWTH-Aachen http://www-i9.informatik.rwth-aachen.de

Mehr

t r Lineare Codierung von Binärbbäumen (Wörter über dem Alphabet {, }) Beispiel code( ) = code(, t l, t r ) = code(t l ) code(t r )

t r Lineare Codierung von Binärbbäumen (Wörter über dem Alphabet {, }) Beispiel code( ) = code(, t l, t r ) = code(t l ) code(t r ) Definition B : Menge der binären Bäume, rekursiv definiert durch die Regeln: ist ein binärer Baum sind t l, t r binäre Bäume, so ist auch t =, t l, t r ein binärer Baum nur das, was durch die beiden vorigen

Mehr

Florian Frötscher und Demet Özçetin

Florian Frötscher und Demet Özçetin Statistische Tests in der Mehrsprachigkeitsforschung Aufgaben, Anforderungen, Probleme. Florian Frötscher und Demet Özçetin florian.froetscher@uni-hamburg.de SFB 538 Mehrsprachigkeit Max-Brauer-Allee 60

Mehr

Algorithmische Modelle als neues Paradigma

Algorithmische Modelle als neues Paradigma Algorithmische Modelle als neues Paradigma Axel Schwer Seminar über Philosophische Grundlagen der Statistik, WS 2010/11 Betreuer: Prof. Dr. Thomas Augustin München, den 28. Januar 2011 1 / 29 LEO BREIMAN

Mehr

Künstliche Intelligenz Maschinelles Lernen

Künstliche Intelligenz Maschinelles Lernen Künstliche Intelligenz Maschinelles Lernen Stephan Schwiebert Sommersemester 2009 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Maschinelles Lernen Überwachtes Lernen

Mehr

4 Greedy-Algorithmen (gierige Algorithmen)

4 Greedy-Algorithmen (gierige Algorithmen) Greedy-Algorithmen (gierige Algorithmen) Greedy-Algorithmen werden oft für die exakte oder approximative Lösung von Optimierungsproblemen verwendet. Typischerweise konstruiert ein Greedy-Algorithmus eine

Mehr

Data Mining und maschinelles Lernen

Data Mining und maschinelles Lernen Data Mining und maschinelles Lernen Einführung und Anwendung mit WEKA Caren Brinckmann 16. August 2000 http://www.coli.uni-sb.de/~cabr/vortraege/ml.pdf http://www.cs.waikato.ac.nz/ml/weka/ Inhalt Einführung:

Mehr

26. GIL Jahrestagung

26. GIL Jahrestagung GeorgAugustUniversität Göttingen 26. GIL Jahrestagung Einsatz von künstlichen Neuronalen Netzen im Informationsmanagement der Land und Ernährungswirtschaft: Ein empirischer Methodenvergleich Holger Schulze,

Mehr

Kommentierter SPSS-Ausdruck zur logistischen Regression

Kommentierter SPSS-Ausdruck zur logistischen Regression Daten: POK V AG 3 (POKV_AG3_V07.SAV) Kommentierter SPSS-Ausdruck zur logistischen Regression Fragestellung: Welchen Einfluss hat die Fachnähe und das Geschlecht auf die interpersonale Attraktion einer

Mehr

Motivation. Themenblock: Data Preprocessing. Einsatzgebiete für Data Mining I. Modell von Gianotti und Pedreschi

Motivation. Themenblock: Data Preprocessing. Einsatzgebiete für Data Mining I. Modell von Gianotti und Pedreschi Motivation Themenblock: Data Preprocessing We are drowning in information, but starving for knowledge! (John Naisbett) Was genau ist Datenanalyse? Praktikum: Data Warehousing und Data Mining Was ist Data

Mehr

Lernen von Entscheidungsbäumen. Volker Tresp Summer 2014

Lernen von Entscheidungsbäumen. Volker Tresp Summer 2014 Lernen von Entscheidungsbäumen Volker Tresp Summer 2014 1 Anforderungen an Methoden zum Datamining Schnelle Verarbeitung großer Datenmengen Leichter Umgang mit hochdimensionalen Daten Das Lernergebnis

Mehr

Programmieren I. Kapitel 7. Sortieren und Suchen

Programmieren I. Kapitel 7. Sortieren und Suchen Programmieren I Kapitel 7. Sortieren und Suchen Kapitel 7: Sortieren und Suchen Ziel: Varianten der häufigsten Anwendung kennenlernen Ordnung Suchen lineares Suchen Binärsuche oder Bisektionssuche Sortieren

Mehr

368 4 Algorithmen und Datenstrukturen

368 4 Algorithmen und Datenstrukturen Kap04.fm Seite 368 Dienstag, 7. September 2010 1:51 13 368 4 Algorithmen und Datenstrukturen Java-Klassen Die ist die Klasse Object, ein Pfeil von Klasse A nach Klasse B bedeutet Bextends A, d.h. B ist

Mehr

Maschinelles Lernen. Kapitel 5

Maschinelles Lernen. Kapitel 5 Kapitel 5 Maschinelles Lernen Im täglichen Leben begegnet uns das Lernen meist in einer Mischung aus den Aspekten der Vergrößerung von Wissen und der Verbesserung von Fähigkeiten. Beim Erlernen einer Fremdsprache

Mehr

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002) 6. Bayes-Klassifikation (Schukat-Talamazzini 2002) (Böhm 2003) (Klawonn 2004) Der Satz von Bayes: Beweis: Klassifikation mittels des Satzes von Bayes (Klawonn 2004) Allgemeine Definition: Davon zu unterscheiden

Mehr

Algorithmen und Datenstrukturen 2

Algorithmen und Datenstrukturen 2 Algorithmen und Datenstrukturen 2 Sommersemester 2007 4. Vorlesung Peter F. Stadler Universität Leipzig Institut für Informatik studla@bioinf.uni-leipzig.de Traversierung Durchlaufen eines Graphen, bei

Mehr

Codierungstheorie Rudolf Scharlau, SoSe 2006 9

Codierungstheorie Rudolf Scharlau, SoSe 2006 9 Codierungstheorie Rudolf Scharlau, SoSe 2006 9 2 Optimale Codes Optimalität bezieht sich auf eine gegebene Quelle, d.h. eine Wahrscheinlichkeitsverteilung auf den Symbolen s 1,..., s q des Quellalphabets

Mehr

Visualisierung hochdimensionaler Daten. Hauptseminar SS11 Michael Kircher

Visualisierung hochdimensionaler Daten. Hauptseminar SS11 Michael Kircher Hauptseminar SS11 Inhalt Einführung zu hochdimensionalen Daten Visualisierungsmöglichkeiten dimensionale Teilmengen dimensionale Schachtelung Achsenumgestaltung Algorithmen zur Dimensionsreduktion Zusammenfassung

Mehr

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen 4. Datenanalyse und Modellbildung Deskriptive Statistik 2-1 2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen Für die Auswertung einer Messreihe, die in Form

Mehr

B-Bäume I. Algorithmen und Datenstrukturen 220 DATABASE SYSTEMS GROUP

B-Bäume I. Algorithmen und Datenstrukturen 220 DATABASE SYSTEMS GROUP B-Bäume I Annahme: Sei die Anzahl der Objekte und damit der Datensätze. Das Datenvolumen ist zu groß, um im Hauptspeicher gehalten zu werden, z.b. 10. Datensätze auf externen Speicher auslagern, z.b. Festplatte

Mehr

Erweiterung für Premium Auszeichnung

Erweiterung für Premium Auszeichnung Anforderungen Beliebige Inhalte sollen im System als Premium Inhalt gekennzeichnet werden können Premium Inhalte sollen weiterhin für unberechtigte Benutzer sichtbar sein, allerdings nur ein bestimmter

Mehr

Softwaretechnik (Allgemeine Informatik) Überblick

Softwaretechnik (Allgemeine Informatik) Überblick Softwaretechnik (Allgemeine Informatik) Überblick 1 Einführung und Überblick 2 Abstraktion 3 Objektorientiertes Vorgehensmodell 4 Methoden der Anforderungs- und Problembereichsanalyse 5 UML-Diagramme 6

Mehr

Ohne Mathematik undenkbar!

Ohne Mathematik undenkbar! Die tägliche - Suche: Ohne Mathematik undenkbar! Dipl.-Wirt.Math. Jan Maruhn FB IV - Mathematik Universität Trier 29. März 2006 29. März 2006 Seite 1 Gliederung Einleitung und Motivation Das Internet als

Mehr

Reihungen. Martin Wirsing. in Zusammenarbeit mit Matthias Hölzl und Nora Koch 11/03

Reihungen. Martin Wirsing. in Zusammenarbeit mit Matthias Hölzl und Nora Koch 11/03 Reihungen Martin Wirsing in Zusammenarbeit mit Matthias Hölzl und Nora Koch 11/03 2 Ziele Die Datenstruktur der Reihungen verstehen: mathematisch und im Speicher Grundlegende Algorithmen auf Reihungen

Mehr

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002)

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002) 3. Entscheidungsbäume Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002) (aus Wilhelm 2001) Beispiel: (aus Böhm 2003) Wann sind Entscheidungsbäume

Mehr

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,

Mehr

Auswerten mit Excel. Viele Video-Tutorials auf Youtube z.b. http://www.youtube.com/watch?v=vuuky6xxjro

Auswerten mit Excel. Viele Video-Tutorials auf Youtube z.b. http://www.youtube.com/watch?v=vuuky6xxjro Auswerten mit Excel Viele Video-Tutorials auf Youtube z.b. http://www.youtube.com/watch?v=vuuky6xxjro 1. Pivot-Tabellen erstellen: In der Datenmaske in eine beliebige Zelle klicken Registerkarte Einfügen

Mehr

Erzeugung zufälliger Graphen und Bayes-Netze

Erzeugung zufälliger Graphen und Bayes-Netze Erzeugung zufälliger Graphen und Bayes-Netze Proseminar Algorithmen auf Graphen Georg Lukas, IF2000 2002-07-09 E-Mail: georg@op-co.de Folien: http://op-co.de/bayes/ Gliederung 1. Einleitung 2. einfache

Mehr

Price ƒ(x) Release 'Long Island Iced Tea'

Price ƒ(x) Release 'Long Island Iced Tea' Price ƒ(x) Release 'Long Island Iced Tea' Release Notes Go-live Datum: Release 'Long Island Iced Tea' - Page 1 of 5 1. Neue Funktionen Neu in den PlatformServices: Prozess Wizard:

Mehr

Recommender Systems. Stefan Beckers Praxisprojekt ASDL SS 2006 Universität Duisburg-Essen April 2006

Recommender Systems. Stefan Beckers Praxisprojekt ASDL SS 2006 Universität Duisburg-Essen April 2006 Recommender Systems Stefan Beckers Praxisprojekt ASDL SS 2006 Universität Duisburg-Essen April 2006 Inhalt 1 - Einführung 2 Arten von Recommender-Systemen 3 Beispiele für RCs 4 - Recommender-Systeme und

Mehr

Nichtlineare Optimierung ohne Nebenbedingungen

Nichtlineare Optimierung ohne Nebenbedingungen Kapitel 2 Nichtlineare Optimierung ohne Nebenbedingungen In diesem Abschnitt sollen im wesentlichen Verfahren zur Bestimmung des Minimums von nichtglatten Funktionen in einer Variablen im Detail vorgestellt

Mehr

Kapitel 8: Physischer Datenbankentwurf

Kapitel 8: Physischer Datenbankentwurf 8. Physischer Datenbankentwurf Seite 1 Kapitel 8: Physischer Datenbankentwurf Speicherung und Verwaltung der Relationen einer relationalen Datenbank so, dass eine möglichst große Effizienz der einzelnen

Mehr

Wiederholung: Informationssicherheit Ziele

Wiederholung: Informationssicherheit Ziele Wiederholung: Informationssicherheit Ziele Vertraulichkeit: Schutz der Information vor unberechtigtem Zugriff bei Speicherung, Verarbeitung und Übertragung Integrität: Garantie der Korrektheit (unverändert,

Mehr

Künstliche Intelligenz Unsicherheit. Stephan Schwiebert WS 2009/2010 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln

Künstliche Intelligenz Unsicherheit. Stephan Schwiebert WS 2009/2010 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Künstliche Intelligenz Unsicherheit Stephan Schwiebert WS 2009/2010 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Rückblick Agent in der Wumpuswelt konnte Entscheidungen

Mehr

4. Lernen von Entscheidungsbäumen. Klassifikation mit Entscheidungsbäumen. Entscheidungsbaum

4. Lernen von Entscheidungsbäumen. Klassifikation mit Entscheidungsbäumen. Entscheidungsbaum 4. Lernen von Entscheidungsbäumen Klassifikation mit Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch /Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse zugeordnet werden.

Mehr

Fortgeschrittene Statistik SPSS Einführung

Fortgeschrittene Statistik SPSS Einführung Fortgeschrittene Statistik SPSS Einführung Q U A N T I T A T I V E M E R K M A L E, Q U A L I T A T I V E M E R K M A L E, A U S P R Ä G U N G E N, C O D I E R U N G E N, S K A L E N N I V E A U, D A T

Mehr

Ideen der Informatik. Maschinelles Lernen. Kurt Mehlhorn Adrian Neumann Max-Planck-Institut für Informatik

Ideen der Informatik. Maschinelles Lernen. Kurt Mehlhorn Adrian Neumann Max-Planck-Institut für Informatik Ideen der Informatik Maschinelles Lernen Kurt Mehlhorn Adrian Neumann Max-Planck-Institut für Informatik Übersicht Lernen: Begriff Beispiele für den Stand der Kunst Spamerkennung Handschriftenerkennung

Mehr

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining.

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining. Personalisierung Personalisierung Thomas Mandl Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung Klassifikation Die Nutzer werden in vorab bestimmte Klassen/Nutzerprofilen

Mehr

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten.

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten. Statistik für Kommunikationswissenschaftler Wintersemester 2009/200 Vorlesung Prof. Dr. Helmut Küchenhoff Übung Cornelia Oberhauser, Monia Mahling, Juliane Manitz Thema 4 Homepage zur Veranstaltung: http://www.statistik.lmu.de/~helmut/kw09.html

Mehr

Softcomputing Biologische Prinzipien in der Informatik. Neuronale Netze. Dipl. Math. Maria Oelinger Dipl. Inform. Gabriele Vierhuff IF TIF 08 2003

Softcomputing Biologische Prinzipien in der Informatik. Neuronale Netze. Dipl. Math. Maria Oelinger Dipl. Inform. Gabriele Vierhuff IF TIF 08 2003 Softcomputing Biologische Prinzipien in der Informatik Neuronale Netze Dipl. Math. Maria Oelinger Dipl. Inform. Gabriele Vierhuff IF TIF 08 2003 Überblick Motivation Biologische Grundlagen und ihre Umsetzung

Mehr

Kapitel 7: Formaler Datenbankentwurf

Kapitel 7: Formaler Datenbankentwurf 7. Formaler Datenbankentwurf Seite 1 Kapitel 7: Formaler Datenbankentwurf Die Schwierigkeiten der konzeptuellen Modellierung sind zu einem großen Teil dadurch begründet, dass sich die relevanten Strukturen

Mehr

Algorithms for Regression and Classification

Algorithms for Regression and Classification Fakultät für Informatik Effiziente Algorithmen und Komplexitätstheorie Algorithms for Regression and Classification Robust Regression and Genetic Association Studies Robin Nunkesser Fakultät für Informatik

Mehr

Datenstrukturen & Algorithmen

Datenstrukturen & Algorithmen Datenstrukturen & Algorithmen Matthias Zwicker Universität Bern Frühling 2010 Übersicht Binäre Suchbäume Einführung und Begriffe Binäre Suchbäume 2 Binäre Suchbäume Datenstruktur für dynamische Mengen

Mehr

Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion

Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion Vortrag Seminararbeit David Pogorzelski Aachen, 22.01.2015 Agenda 1 2 3 4 5 Ziel der

Mehr

Datenerfassung und Datenmanagement

Datenerfassung und Datenmanagement Datenerfassung und Datenmanagement Statistische Auswertungssysteme sind heute eine aus der angewandten Statistik nicht mehr wegzudenkende Hilfe. Dies gilt insbesondere für folgende Aufgabenbereiche: -

Mehr

1. Einfach verkettete Liste unsortiert 2. Einfach verkettete Liste sortiert 3. Doppelt verkettete Liste sortiert

1. Einfach verkettete Liste unsortiert 2. Einfach verkettete Liste sortiert 3. Doppelt verkettete Liste sortiert Inhalt Einführung 1. Arrays 1. Array unsortiert 2. Array sortiert 3. Heap 2. Listen 1. Einfach verkettete Liste unsortiert 2. Einfach verkettete Liste sortiert 3. Doppelt verkettete Liste sortiert 3. Bäume

Mehr

Dokumentation Datamining

Dokumentation Datamining Hochschule Wismar University of Applied Sciences Technology, Business and Design Fakultät für Ingenieurwissenschaften, Bereich EuI Dokumentation Datamining Eingereicht am: 13. Mai 2012 von: Karsten Diepelt

Mehr

Planen mit mathematischen Modellen 00844: Computergestützte Optimierung. Autor: Dr. Heinz Peter Reidmacher

Planen mit mathematischen Modellen 00844: Computergestützte Optimierung. Autor: Dr. Heinz Peter Reidmacher Planen mit mathematischen Modellen 00844: Computergestützte Optimierung Leseprobe Autor: Dr. Heinz Peter Reidmacher 11 - Portefeuilleanalyse 61 11 Portefeuilleanalyse 11.1 Das Markowitz Modell Die Portefeuilleanalyse

Mehr

Unsupervised Kernel Regression

Unsupervised Kernel Regression 9. Mai 26 Inhalt Nichtlineare Dimensionsreduktion mittels UKR (Unüberwachte KernRegression, 25) Anknüpfungspunkte Datamining I: PCA + Hauptkurven Benötigte Zutaten Klassische Kernregression Kerndichteschätzung

Mehr

TEXTKLASSIFIKATION. WS 2011/12 Computerlinguistik I Deasy Sukarya & Tania Bellini

TEXTKLASSIFIKATION. WS 2011/12 Computerlinguistik I Deasy Sukarya & Tania Bellini TEXTKLASSIFIKATION WS 2011/12 Computerlinguistik I Deasy Sukarya & Tania Bellini GLIEDERUNG 1. Allgemeines Was ist Textklassifikation? 2. Aufbau eines Textklassifikationssystems 3. Arten von Textklassifikationssystemen

Mehr

Die Clusteranalyse 24.06.2009. Clusteranalyse. Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele. methodenlehre ll Clusteranalyse

Die Clusteranalyse 24.06.2009. Clusteranalyse. Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele. methodenlehre ll Clusteranalyse Clusteranalyse Thomas Schäfer SS 2009 1 Die Clusteranalyse Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele Thomas Schäfer SS 2009 2 1 Die Clusteranalyse Grundidee: Eine heterogene Gesamtheit

Mehr

Algorithmen und Datenstrukturen Balancierte Suchbäume

Algorithmen und Datenstrukturen Balancierte Suchbäume Algorithmen und Datenstrukturen Balancierte Suchbäume Matthias Teschner Graphische Datenverarbeitung Institut für Informatik Universität Freiburg SS 12 Überblick Einführung Einfügen und Löschen Einfügen

Mehr

Vektormodelle. Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig

Vektormodelle. Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig Vektormodelle Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig Gliederung Vektormodelle Vector-Space-Model Suffix Tree Document Model

Mehr