3. Informationsgewinnung 3.1. Informationsextraktion

Größe: px
Ab Seite anzeigen:

Download "3. Informationsgewinnung 3.1. Informationsextraktion"

Transkript

1 3. sgewinnung 3.1. sextraktion Vorlesung Intelligente ssysteme Wintersemester 2004/2005 Prof. Dr. Bernhard Thalheim Systems Engineering Group Computer Science Institute Kiel University, Germany

2 Vorlesungprogramm Aufbereitung zum intelligenten Ausspiel Knowledge discovery als Prozeß Pragmatismus der sextraktion basierend auf Ähnlichkeitsmaßen, Datensäuberung, Vorverarbeitung, Datenintegration, -transformation, Bewertung, Visualisierung von dirty statistics zur Kunst Clustering Outlier detection Klassifikation Regression Programmbibliotheken zur Unterstützung des Extraktion z.b. WEKA, DaMiT

3 Knowledge Discovery anerkannte Definition Fayyad, Piatetsky-Shapiro & Smyth 1996 Knowledge Discovery in bases () ist der Prozeß der (semi-) automatischen Extraktion von Wissen aus Datenbanken, das gültig bisher unbekannt und potentiell nützlich ist. Bemerkungen: (semi-) automatisch: im Unterschied zu manueller Analyse. Häufig ist trotzdem Interaktion mit dem Benutzer nötig. gültig: im statistischen Sinn. bisher unbekannt: bisher nicht explizit, kein Allgemeinwissen. potentiell nützlich: für eine gegebene Anwendung. Teilbereiche: Statistik: modellbasierte Inferenzen Schwerpunkt auf numerischen Daten : Suchverfahren Schwerpunkt auf symbolischen Daten Intelligente ssysteme: Skalierbarkeit für große Datenmengen Neue Datentypen (Webdaten, Micro-Arrays,...) Integration mit kommerziellen Datenbanksystemen

4 Das Prozeßmodell des Knowledge Discovery Fokussieren: Beschaffung der Daten; Säuberung von Inkonsistenzen und Rauschen; Verwaltung (File/DB); Selektion relevanter Daten Vorverarbeitung: Integration von Daten aus unterschiedlichen Quellen; Vervollständigung; Konsistenzprüfung Transformation: Diskretisierung numerischer Merkmale; Ableitung neuer Merkmale; Selektion relevanter Merkmale : Generierung der Muster bzw. Modelle Evaluation: Bewertung der Interessantheit durch den Benutzer; Validierung: Statistische Prüfung der Modelle svisualisierung in unterschiedlichen Präsentationsformaten je nach Rezeptionsmuster

5 Bestandteile des Knowledge Discovery Features: (Merkmale ( Features ) von Objekten) Oft sind die betrachteten Objekte komplex Eine Aufgabe des -Experten ist dann, geeignete Merkmale (Features) zu definieren bzw. auszuwählen, die für die Unterscheidung (Klassifikation, Ähnlichkeit) der Objekte relevant sind. Bilddatenbanken: Farbhistogramme; Gen-Datenbanken: Expressionslevel; Text-Datenbanken: Begriffshäufigkeiten Der Feature-Ansatz ermöglicht einheitliche Behandlung von Objekten verschiedenster Anwendungsklassen Merkmalsvektoren: Im Kontext von statistischen Betrachtungen werden die Merkmale häufig auch als Variablen bezeichnet Die ausgewählten Merkmale werden zu Merkmalsvektoren (Feature Vector) zusammengefaßt Der Merkmalsraum ist häufig hochdimensional Ähnlichkeit von Objekten: mit Maßen Anwendung: Spezifiziere Anfrage-Objekt und......suche ähnliche Objekte Range-Query (Radius e) suche die k ähnlichsten Objekte Nearest Neighbor

6 Ähnlichkeit von Objekten Euklidische Maße: sim k ( p, q) = ( n i=1 p i q i k ) 1 k k = 1: Manhattan-Norm (Die Unähnlichkeiten der einzelnen Merkmale werden direkt addiert) k = 2: klassische Euklidische Norm (natürlichstes Distanzmaß) Maximumsnormen: sim 0 ( p, q) = (max n i=1 p i q i ) Die Unähnlichkeit des am wenigsten ähnlichen Merkmals zählt Anpaßbare Ähnlichkeitsmaße Gewichtetes Euklidisches Maß: sim k ( p, q) = ( n i=1 w i p i q i k ) 1 k Häufig sind die Wertebereiche der Merkmale deutlich unterschiedlich. Quadratische Form: d = (( p q)m( p q) T ) 1 2 Bei den bisherigen Ähnlichkeitsmaßen wird jedes Merkmal nur mit sich selbst verglichen. Besonders bei (Farb-)Histogrammen müssen auch verschiedene Merkmale verglichen werden. Statt mit Distanzmaßen, die die Unähnlichkeit zweier Objekte messen, arbeitet man manchmal auch mit positiven Ähnlichkeitsmaßen.

7 Skalierung von Merkmalen Nominal (kategorisch) Charakteristik: Wert gleich oder verschieden Keine Richtung (besser, schlechter) und kein Abstand. Merkmale mit nur zwei Werten: dichotom Beispiele: Geschlecht (dichotom), Augenfarbe Gesund/krank (dichotom) Ordinal Charakteristik: basiert auf Ordnungsrelation (besser/schlechter) zwischen den Kategorien, aber kein einheitlicher Abstand Beispiele: Schulnote (metrisch?), Güteklasse, Altersklasse Metrisch Charakteristik: Differenzen und Verhältnisse zwischen den Werten Werte diskret oder stetig Beispiele: Gewicht (stetig), Verkaufszahl (diskret), Alter (stetig oder diskret)

8 Datensäuberung Aufgaben Umgangsmöglichkeiten mit fehlenden Werten: Ignorieren des Tupel Manuelles Auffüllen Einsetzen einer globalen Konstante (z.b. unbekannt) Mittelwert aller Attribut-Tupel einsetzen Mittelwert aller Attribut-Tupel der gleichen Klasse einsetzen Den wahrscheinlichsten Wert einsetzen (z.b. mit Entscheidungsbäumen, Bayes schen Inferenzen oder Regression ermittelt) Umgangsmöglichkeiten mit verrauschten Daten: Binning: Glätten der Werte durch Berücksichtung von Nachbarwerten. Bsp.: Originalfolge sei 4, 8, 15, 21, 21, 24, 25, 28, 34 Aufteilung in bins : (4, 8, 15) (21, 21, 24) (25, 28, 34) Glätten durch Mittelwerte: (9, 9, 9) (22, 22, 22) (29, 29, 29) Glätten durch Bin-Grenzen: (4, 4, 15) (21, 21, 24) (25, 25, 34) Clustering: Ausreißer können durch Clustering entdeckt und dann ggf. entfernt werden Manuelle Überprüfung von Ausreißer-Kandidaten Regression: (Multiple) lineare Regression ermittelt lineare Zusammenhänge zwischen zwischen zweien bzw. mehreren Variablen. Falls solche Zusammenhänge existieren, können Ausreißer leicht festgestellt werden. Erkennen von inkonsistenten Daten: Vergleich der Daten mit externen Referenzen (z.b. Papierbelege) Berücksichtigung von Constraints Inkonsistenzen durch fehlerhafte Datenintegration

9 Datenintegration Aufgaben Schema-Integration (z.b. Identifikation unterschiedlicher Attributnamen im Datenbankschema wie cust number versus customer id ). Erkennen von Redundanz (z.b. wenn ein Attributwert aus einem anderen hergeleitet werden kann; kann z.b. mit Korrelationsanalyse festgestellt werden) Erkennung von Duplikaten (z.b. identische Tupel) record matching, entity resolution Erkennen von Datenwertkonflikten (können z.b. durch unterschiedliche Maßeinheiten verursacht werden, z.b. Entfernung in km oder Meilen, oder durch verschiedene Kontexte, z.b. Preise mit/ohne Mwst).

10 Datentransformation Typische Transformationsoperationen für Glättung verrauschter Daten Aggregation bzw. Verallgemeinerung (Zusammenfassung von Daten ähnlich wie bei Konstruktion der Cubes und Konzepthierarchien) Normalisierung (Skalierung der Attributdaten, so dass sie in ein bestimmtes Intervall passen, z.b. zwischen 0 und 1) Attributkonstruktion (Konstruktion neuer Attribute aus alten, z.b. um Redundanzen zu verringern oder aussagekräftigere Attribute zu erzeugen). Transformationen mit dem Ziel der Datenreduktion (z.b. Entfernen irrelevanter oder redundanter Dimensionen, Datenkompression, Wechsel der Repräsentation).

11 Aufgaben Wichtigste --Verfahren auf Merkmals-Vektoren: (1) Clustering Unsupervised learning (2) Outlier Detection Unsupervised learning (3) Klassifikation Supervised learning (4) Regression Supervised learning Supervised: Ein Ergebnis-Merkmal soll gelernt/geschätzt werden Unsupervised: Die Datenmenge soll lediglich in Gruppen unterteilt werden Darüber hinaus gibt es zahlreiche Verfahren, die nicht auf Merkmalsvektoren, sondern z.b. auf Texten, Mengen, Graphen arbeiten.

12 Clustering Clustering: Zerlegung einer Menge von Objekten (bzw. Feature- Vektoren) so in Teilmengen (Cluster), daß die Ähnlichkeit der Objekte innerhalb eines Clusters maximiert die Ähnlichkeit der Objekte verschiedener Cluster minimiert wird Idee: Die verschiedenen Cluster repräsentieren meist unterschiedliche Klassen von Objekten; bei unbekannten Anzahl und Bedeutung der Klassen Thematische Karten: Aufnahme der Erdoberfläche in 5 verschiedenen Spektren; Cluster-Analyse; Rücktransformation in xy-koordinaten und Farbcodierung nach Cluster- Zugehörigkeit Gewebeklassifikation: mit Farbkodierung (Schwarz: Ventrikel + Hintergrund; Blau: Gewebe 1; Grün: Gewebe 2; Rot: Gewebe 3; Dunkelrot: Große Gefäße) Ergebnis: Klassifikation cerebralen Gewebes anhand funktioneller Parameter mittels dynamic CT möglich.

13 Ziele des Clustering Identifikation einer endlichen Menge von Kategorien, Klassen oder Gruppen (Cluster) in den Daten Objekte im gleichen Cluster sollen möglichst ähnlich sein Objekte aus verschiedenen Clustern sollen möglichst unähnlich zueinander sein Cluster unterschiedlicher Größe, Form und Dichte hierarchische Cluster unterschiedliche Clustering-Algorithmen Typische Anwendungen: Kundensegmentierung (Clustering der Kundentransaktionen), Bestimmung von Benutzergruppen auf dem Web (Clustering der Web-Logs), Strukturierung von großen Mengen von Textdokumenten (Hierarchisches Clustering der Textdokumente), Erstellung von thematischen Karten aus Satellitenbildern (Clustering der aus den Rasterbildern gewonnenen Featurevektoren)

14 Clustering-Verfahren Typen Partitionierende Verfahren: Parameter: Anzahl k der Cluster, Distanzfunktion sucht ein flaches Clustering in k Cluster mit minimalen Kosten Hierarchische Verfahren: Parameter: Distanzfunktion für Punkte und für Cluster bestimmt Hierarchie von Clustern, mischt jeweils die ähnlichsten Cluster Dichtebasierte Verfahren: Parameter: minimale Dichte in einem Cluster, Distanzfunktion erweitert Punkte um ihre Nachbarn solange Dichte groß genug Andere Clustering-Verfahren: Fuzzy Clustering, graphentheoretische Verfahren, neuronale Netze

15 Partitionierende Verfahren Grundlagen Ziel: Partitionierung in k Cluster so daß eine Kostenfunktion miniert wird (Gütekriterium) Lokal optimierendes Verfahren: wähle k initiale Cluster- Repräsentanten möglichst gut separierbare Cluster mit q class( p)(sim( p, class( p)) sim( p, q)) optimiere diese Repräsentanten iterativ ordne jedes Objekt seinem ähnlichsten Repräsentanten zu Typen von Cluster-Repräsentanten: Mittelwert des Clusters (Konstruktion zentraler Punkte) Element des Clusters (Auswahl repräsentativer Punkte) Wahrscheinlichkeitsverteilung des Clusters (Erwartungsmaximierung)

16 Konstruktion zentraler Punkte Beispiel: Euklidischer Vektorraum mit Euklidischer Distanz Zentroid µ C : Mittelwert aller Punkte im Cluster C Maß für die Kosten (Kompaktheit) eines Clusters C T D 2 (C) = pinc sim( p, µ C) Maß für die Kosten (Kompaktheit) eines Clustering T D 2 = C T D2 (C) Brute-Force-Algorithmus 1. Start mit zufällig gewählten Punkten als Cluster- Repräsentanten Repeat until no change: 2A. Zuordnung jedes Datenpunktes zum räumlich nächsten Repräsentanten 2B. Neuberechnung der Repräsentanten (Zentroid der zugeordneten Punkte) ClusteringDurchVarianzMinimierung(Punktmenge D, Integer k) Erzeuge eine initiale Zerlegung der Punktmenge D in k Klassen; Berechne die Menge C=C1,..., Ck der Zentroide für die k Klassen; C = {}; repeat C = C; k Klassen durch Zuordnung jedes Punktes zum nächstliegenden Zentroid aus C; Menge C := {C 1,..., C k } der Zentroide für die neu bestimmten Klassen; until C = C; return C;

17 Varianten zur Konstruktion zentraler Punkte k-means: die betroffenen Zentroide werden direkt aktualisiert, wenn ein Punkt seine Clusterzugehörigkeit ändert K-means hat im wesentlichen die Eigenschaften des Basis-Algorithmus K-means ist aber reihenfolgeabhängig Aufwand: O(n) für eine Iteration, Anzahl der Iterationen ist im allgemeinen klein ( 5-10) einfache Implementierung Anfälligkeit gegenüber Rauschen und Ausreißern (alle Objekte gehen ein in die Berechnung des Zentroids) Cluster müssen konvexe Form haben die Anzahl k der Cluster ist oft schwer zu bestimmen starke Abhängigkeit von der initialen Zerlegung sowohl Ergebnis als auch Laufzeit ISODATA: basiert auf k-means Verbesserung des Ergebnisses durch Operationen wie Elimination sehr kleiner Cluster Verschmelzung und Aufspalten von Clustern Benutzer muß viele zusätzliche Parameter angeben

18 Auswahl repräsentativer Punkte nur Distanzfunktion für Paare von Objekten vorausgesetzt Medoid: ein zentrales Element des Clusters (repräsentativer Punkt) Maß für die Kosten (Kompaktheit) eines Clusters C T D(C) = pinc sim( p, µ C) Maß für die Kosten (Kompaktheit) eines Clustering T D = C T D2 (C) Laufzeitkomplexität der erschöpfenden Suche ist O(n k ) k-medoid Algorithmen PAM O(n 3 + k(n k) 2 AnzIterationen) Greedy-Algorithmus: in jedem Schritt wird nur ein Medoid mit einem Nicht-Medoid vertauscht vertauscht in jedem Schritt das Paar (Medoid, Nicht-Medoid), das die größte Reduktion der Kosten TD bewirkt CLARANS O(numlocal maxneighbor AnzErsetzungen n) zwei zusätzliche Parameter: maxneighbor und numlocal höchstens maxneighbor viele von zufällig ausgewählten Paaren (Medoid, Nicht-Medoid) werden betrachtet die erste Ersetzung, die überhaupt eine Reduzierung des TD-Wertes bewirkt, wird auch durchgeführt die Suche nach k optimalen Medoiden wird numlocal mal wiederholt

19 Auswahlalgorithmen für repräs. Punkte PAM i.a. höhere Qualität für kleine Nester PAM(Objektmenge D, Integer k, Float dist) Initialisiere die k Medoide; TD Änderung := ; while TD Änderung < 0 do Berechne für jedes Paar (Medoid M, Nicht-Medoid N) den Wert T D N M ; Wähle das Paar (M, N), für das der Wert TD Änderung := T D N M T D minimal ist; if TD Änderung < 0 then ersetze den Medoid M durch den Nicht-Medoid N; Speichere die aktuellen Medoide als die bisher beste Partitionierung; return Medoide; CLARANS praktisch O(n 2 ) CLARANS(Objektmenge D, Integer k, Real dist, Integer numlocal, Integer maxneighbor) for r from 1 to numlocal do wähle zufällig k Objekte als Medoide; i := 0; while i < maxneighbor do Wähle zufällig (Medoid M, Nicht-Medoid N); Berechne TD Änderung := T D N M - TD; if TD Änderung < 0 then ersetze M durch N; TD := T D N M ; i := 0; else i:= i + 1; if TD < TD best then TD best := TD; Speichere aktuelle Medoide; return Medoide;

20 Erwartungsmaximierung (EM) Punkte p = (x p 1,..., xp d ) in euklidischenm Vektorraum ein Cluster wird durch eine Wahrscheinlichkeitsverteilung beschrieben typisch: Modell für einen Cluster ist eine multivariate Normalverteilung Repräsentation eines Clusters C Mittelwert µ C aller Punkte des Clusters d x d Kovarianzmatrix Σ C für die Punkte im Cluster C Wahrscheinlichkeitsdichte eines Clusters C 1 P (x C) = e 1 2 (x µ c) T Σ 1 C (x µ c) (2π)d Σ C Idee: Jeder Punkt gehört zu mehreren (eigentlich allen) Clustern, jeweils mit unterschiedlicher Wahrscheinlichkeit, abh. von P (x C) Algorithmus besteht wieder aus zwei alternierenden Schritten: Zuordnung von Punkten zu Clustern (hier nicht absolut, sondern relativ/nach Wahrscheinlichkeit) Neuberechnung der Cluster-Repräsentanten (Gauß-Kurven) Auf stochastischer Grundlage: Bei Berechnung der Clusterzentren (µ i ) muß berücksichtigt werden, daß Punkte Clustern nicht absolut sondern nur relativ zugeordnet sind Wie groß ist die Wahrscheinlichkeit der Clusterzugehörigkeit?

21 Erwartungsmaximierung (EM) Cluster Ci durch eine Wahrscheinlichkeitsdichte-Funktion (Normalverteilung): 1 P (x C) = e 1 (2π) d 2 (x µ c) T Σ 1 C (x µ c) Σ C Dichtefunktion: Integral über den Gesamtraum ergibt 1 Integral über Region R ergibt Wahrscheinlichkeit, daß in der Region ein beliebiger Punkt des Clusters liegt, bzw. den relativen Anteil (z.b. 30%) der Punkte des Clusters, die in R liegen Bedingte Wahrscheinlichkeit: Unter der Voraussetzung, daß der Punkt x ausschließlich dem Cluster C i zugeordnet wäre (was nicht stimmt) Deshalb Notation als bedingte Wahrscheinlichkeit k Gaußverteilungen (durch k Cluster): P (x) = k i=1 W ip (x C i ) W i - relativer Anteil der Datenpunkte ist, der zum Cluster C i gehört (z.b. 5%), (Gesamt-Wahrscheinlichkeit des Clusters P (C i )) Satz von Bayes: P (C i x) (Wahrscheinlichkeit, daß ein gegebener Punkt x zum Cluster C i gehört) P (x C P (C i x) = W i ) i P (x) = P (C i) P (x C i ) P (x) (a-priori-wahrscheinlichkeit: P (A i ) a-posteriori-wahrscheinlichkeit: P (A i B) )

22 Erwartungsmaximierung (EM) Maß für die Güte eines Clustering M E(M) = x D log(p (x)) E(M) maximieren Anteil des Clusters an der Datenmenge: W i = P (C i ) = 1 n n i=1 P (C i x) Mittelwert und Kovarianzmatrix der Gaußverteilung: µ i = x D xp (C i x) σ i = Algorithmus x D P (C i x) x D (x µ i)(x µ i ) T P (C i x) x D P (C i x) O(n M Iterationen) ClusteringDurchErwartungsmaximierung (Punktmenge D, Integer k) Erzeuge ein initiales Modell M = (C 1,..., C k ); repeat // Neuzuordnung Berechne P (x C i ), P (x) und P (C i x) für jedes Objekt aus D und jede Gaußverteilung/jeden Cluster C i ; // Neuberechnung des Modells Berechne ein neues Modell M = {C 1,..., C k } durch Neuberechnung von W i, µ C und σ C für jedes i; M := M; until E(M) - E(M) < e; return M; Ergebnis und Laufzeit (wie beim k-means und k-medoid) stark abhängig von der initialen Zuordnung und von der richtigen Wahl des Parameters k Modifikation für Partitionierung der Daten in k disjunkte Cluster: jedes Objekt nur demjenigen Cluster zuordnen, zu dem es am wahrscheinlichsten gehört.

23 Silhouetten-Koeffizient Wahl des initialen Clustering Idee Clustering einer kleinen Stichprobe liefert im allgemeinen gute initiale Cluster einz. Stichproben sind ggf. deutlich anders verteilt als die Grundgesamtheit Methode ziehe unabhängig voneinander m verschiedene Stichproben clustere jede der Stichproben m verschiedene Schätzungen für k Clusterzentren A = (A 1, A 2,..., A k ), B = (B 1,..., B k ), C = (C 1,..., C k ),... Clustere nun die Menge DB = A B C... mit m verschiedenen Stichproben A, B, C,... als Startkonfiguration Wähle von den m Clusterings dasjenige mit dem besten Wert bzgl. des zugehörigen Maßes für die Güte eines Clustering Wahl des Parameters k: Methode Bestimme für k = 2,..., n-1 jeweils ein Clustering Wähle aus der Menge der Ergebnisse das beste Clustering aus Maß für die Güte eines Clusterings muß unabhängig von der Anzahl k sein bei k-means und k-medoid: T D 2 und T D sinken monoton mit steigendem k bei EM: E steigt monoton mit steigendem k Brauche ein von k unabhängiges Gütemaß für die k-means- und k-medoid- Verfahren

24 Dichtebasiertes Clustering Idee Cluster als Gebiete im d-dimensionalen Raum, in denen die Objekte dicht beieinander liegen getrennt durch Gebiete, in denen die Objekte weniger dicht liegen Anforderungen an dichtebasierte Cluster für jedes Objekt eines Clusters überschreitet die lokale Punktdichte einen gegebenen Grenzwert die Menge von Objekten, die den Cluster ausmacht, ist räumlich zusammenhängend o O Kernobjekt: N ɛ (o) > MinP ts mit N ɛ (o) = {o O dist(o, o) ɛ} p O direkt dichte-erreichbar von q O bzgl. ɛ und MinP ts: p N ɛ (q) und q ist ein Kernobjekt in O p dichte-erreichbar von q: eine Kette von direkt erreichbaren Objekten zwischen q und p p, q dichte-verbunden: beide von einem dritten Objekt o aus dichte-erreichbar Cluster C bzgl. ɛ und MinP ts: nicht-leere Teilmenge von O Maximalität: p, q O (p C q dichte-erreichbar von p q C) Verbundenheit: p, q C: p dichte-verbunden mit q

25 Dichtebasiertes Clustering Definition Clustering Ein dichte-basiertes Clustering CL der Menge O bzgl. ɛ und MinP ts: vollständige Menge von dichte-basierten Clustern bzgl. ɛ und MinP ts in O Noise CL ( Rauschen ): Menge aller Objekte aus O, die nicht zu einem der dichte-basierten Cluster C i gehören Grundlegende Eigenschaft Sei C ein dichte-basierter Cluster und sei p C ein Kernobjekt. Dann gilt: C = {o O odichte erreichbar von p bzgl.ɛminp ts} Algorithmus DBSCAN DBSCAN(Objektmenge D, Real e, Integer MinPts) // Zu Beginn sind alle Objekte unklassifiziert, // o.clid = UNKLASSIFIZIERT für alle o Objektmenge ClusterId := nextid(noise); for i from 1 to D do Objekt := D.get(i); if Objekt.ClId = UNKLASSIFIZIERT then if ExpandiereCluster(D, Objekt, ClusterId, ɛ, MinPts) then ClusterId:=nextId(ClusterId); Heuristik zur Parameterbestimmung: k-distanzen aller Objekte absteigend sortiert

26 Hierarchische Verfahren Hierarchische Untergliederung ist einfach überschaubar Konstruktion einer Hierarchie von Clustern (Dendrogramm), so daß immer die Cluster mit minimaler Distanz verschmolzen werden Dendrogramm: ein Baum, dessen Knoten jeweils ein Cluster repräsentieren, mit folgenden Eigenschaften: die Wurzel repräsentiert die ganze DB die Blätter repräsentieren einzelne Objekte ein innerer Knoten repräsentiert einen Cluster bestehend aus allen Objekten des darunter liegenden Teilbaums Typen von hierarchischen Verfahren Bottom-Up Konstruktion des Dendrogramms (agglomerative) Top-Down Konstruktion des Dendrogramms (divisive)

27 Hierarchische Verfahren Algorithmus Single-Link: Agglomeratives hierarchisches Clustering (1) Bilde initiale Cluster, die jeweils aus einem Objekt bestehen, und bestimme die Distanzen zwischen allen Paaren dieser Cluster. (2) Bilde einen neuen Cluster aus den zwei Clustern, die die geringste Distanz zueinander haben. (3) Bestimme die Distanz zwischen dem neuen Cluster und allen anderen Clustern. (4) Wenn alle Objekte in einem einzigen Cluster befinden: Fertig, andernfalls wiederhole ab Schritt 2. Distanzfunktionen für Cluster auf der Grundlage des Distanzmaßes Single-Link: distsl(x, Y ) = min x X,y Y dist(x, y) Complete-Link: distcl(x, Y ) = max x X,y Y dist(x, y) Average-Link distal(x, Y ) = 1 X Y x X,y Y dist(x, y) Vor- und Nachteile: + erfordert keine Kenntnis der Anzahl k der Cluster + findet nicht nur ein flaches Clustering, sondern eine ganze Hierarchie + ein einzelnes Clustering kann aus dem Dendrogramm gewonnen werden, z.b. mit Hilfe eines horizontalen Schnitts durch das Dendrogramm (erfordert aber wieder Anwendungswissen) - Entscheidungen können nicht zurückgenommen werden - Anfälligkeit gegenüber Rauschen (Single-Link) eine Linie von Objekten kann zwei Cluster verbinden - Ineffizienz: Laufzeitkomplexität von mindestens O(n 2 ) für n Objekte

28 Dichte-basiertes hierarchisches Clustering für einen konstanten M inp ts-wert sind dichte-basierte Cluster bzgl. eines kleineren ɛ vollständig in Clustern bzgl. eines größeren ɛ enthalten in einem DBSCAN-ähnlichen Durchlauf gleichzeitig das Clustering für verschiedene Dichte-Parameter bestimmen zuerst die dichteren Teil-Cluster, dann den dünneren Rest-Cluster kein Dendrogramm, sondern eine auch noch bei sehr großen Datenmengen übersichtliche Darstellung der Cluster-Hierarchie Kerndistanz eines Objekts p bzgl. ɛ und MinP ts undef fallsn ɛ (n) < MinP ts, Kerndist ɛ,minp ts (o) = M inp tsdistanz(o) sonst. Erreichbarkeitsdistanz eines Objekts p relativ zu einem Objekt o Erreichdist ɛ,minp ts (o, p) = undef fallsn ɛ (n) < MinP ts, max(kerndist ɛ,minp ts (o), MinP tsdistanz(o)) sonst.

29 Outlier Detection Ermittlung von untypischen Daten Finde Ausreißer in den Daten An Outlier is an observation that deviates so much from other observations as to arouse suspicion that it was generated by a different mechanism Outlier sind alle Punkte, die nicht in einem Cluster liegen Anwendungen: Entdeckung von Mißbrauch etwa bei Kreditkarten Telekommunikation Datenfehler Beim Clustering: Rauschen (alle Punkte, die zu keinem Cluster gehören) Generell : keine allgemein gültige und akzeptierte Definition One person s noise could be another persons signal.

30 Depth-based: Identifikation von Outlier Jedes Objekt wird als ein Punk in einem d-dimensionalen Raum betrachtet. Die Tiefe der Objekte wird berechnet. Outlier haben eine kleinere Tiefe als die anderen Objekte. Theoretisch: gut auch für hochdimensionale Daten Praktisch: ineffizient für d 4, da die konvexe Hülle berechnet werden muß. Distance-based: Ein Objekt p in einem Datensatz D ist ein DB(pct,dmin)-Outlier (DB = distance-based), falls mindestens pct - Prozent von Objekten aus D eine größere Distanz als dmin zu p haben. Wahl von pct und dmin wird einem Experten überlassen. Theoretisch und praktisch: harte Separation

31 Klassifikation Lerne aus den bereits klassifizierten Trainingsdaten Regeln, um neue Objekte nur aufgrund der Merkmale zu klassifizieren Ergebnismerkmal (Klassenvariable) ist nominal (kategorisch) Anwendung: Neugeborenen-Screening Blutprobe des Neugeborenen; Massenspektrometrie; Metabolitenspektrum 14 analysierte Aminosäuren: alanine, arginine, argininosuccinate, citrulline, glutamate (als neuer unbekannter Marker), glycine, leuzine+isoleuzine, methionine, ornitine, phenylalanine, pyroglutamate, serine, tyrosine, valine Gegeben: Menge O von Objekten des Formats (o 1,..., o d ) mit Attributen A i, 1 i d und Klassenzugehörigkeit c i, c i C = {c 1,..., c k } Gesucht: Klassenzugehörigkeit für Objekte aus D \ O mit Klassifikator K : D C Abgrenzung zum Clustering: Klassifikation: Klassen a priori bekannt Clustering: Klassen werden erst gesucht Verwandtes Problem: Vorhersage (Prediction) (gesucht ist der Wert für ein numerisches Attribut, Methode z.b. Regression)

32 Bewertung von Klassifikatoren Sei K ein Klassifikator und sei T R O die Trainingsmenge. O D ist die Menge der Objekte, bei denen die Klassenzugehörigkeit bereits bekannt ist Problem der Bewertung: gewünscht ist gute Performanz auf ganz D. Klassifikator ist für T R optimiert. Test auf T R erzeugt in der Regel viel bessere Ergebnisse, als auf D \ T R. Daher kein realistisches Bild der Performanz auf D. Overfitting Train-and-Test Bewertung ohne Overfitting durch Aufteilen von O in : Trainingsmenge T R zum Lernen des Klassifikators (Konstruktion des Modells) Testmenge T E zum Bewerten des Klassifikators Train-and-Test nicht anwendbar, wenn nur wenige Objekte mit bekannter Klassenzugehörigkeit Stattdessen: m-fache Überkreuz-Validierung (m-fold Cross-Validation) m-fache Überkreuz-Validierung - teile die Menge O in m gleich große Teilmengen - verwende jeweils m-1 Teilmengen zum Training und die verbleibende Teilmenge zur Bewertung - kombiniere die erhaltenen m Klassifikationsfehler (und die m gefundenen Modelle!)

33 Klassifikatoren K - Klassifikator, T R O - Trainingsmenge, T E O - Testmenge. C(o) - Klasse eines Objekts o T i := {o T E C(o) = i} C i = {o T E K(o) = i} Klassifikationsgenauigkeit (classification accuracy) von K auf T E G T E (K) = {o T E K(o)=C(o)} T E Tatsächlicher Klassifikationsfehler (true classification error) F T E (K) = {o T E K(o) C(o)} T E Beobachteter Klassifikationsfehler (apparent classification error) F T R (K) = {o T R K(o) C(o)} T R Precision: Anzahl der Objekte aus einer Klasse, die richtig erkannt wurden P recision T E (K, i) = {o T i K(o)=C(o)} T i Recall: Anzahl der C i -Objekte, die richtig erkannt wurden Recall T E (K, i) = {o C i K(o)=C(o)} C i Kompaktheit des Modells z.b. Größe eines Entscheidungsbaums Interpretierbarkeit des Modells z.b. wieviel Einsichten vermittelt das Modell dem Benutzer Effizienz der Konstruktion des Modells bzw. der Anwendung des Modells Skalierbarkeit für große Datenmengen, für sekundärspeicherresidente Daten Robustheit gegenüber Rauschen und fehlenden Werten

34 Bayes-Klassifikatoren Statistische Klassifikatoren: Vorhersage der Class-Membership- Probability für verschiedene Klassen Verschiedene Verfahren: Naiver Bayes-Klassifikator: Relativ einfach zu implementierendes Verfahren; beruht auf Annahme der Unabhängigkeit zwischen den einzelnen Merkmalen (naiv) Bayes-Netzwerk (Bayesian Belief Network): Mögliche Abhängigkeiten zwischen Merkmalen werden in Form eines Graphen modelliert, der entweder durch den Benutzer vorgegeben wird oder durch das System selbst gelernt wird. Regeln und Fakten als bedingte Wahrscheinlichkeiten A-Priori-Wahrscheinlichkeiten modellieren Faktenwissen über die Häufigkeit einer Klasse und das Auftreten von Merkmalen A-Priori Wahrsch. f. Klassenzugehörigk: 20% - Äpfel; 30% - Orangen A-Priori Merkmalshäufigkeit: 50% rund; 40% orange Bedingte Wahrscheinlichkeiten ( A-Posteriori ) modellieren Zusammenhänge zwischen Klassen und Merkmalen: 100% der Orangen sind rund: P (rund Orange) = 100% 100% der Äpfel sind rund: P (rund Apfel) = 100% 90% der Orangen sind orange: P (orange Orange) = 90%

35 Bayes-Klassifikatoren Kontinuierliche metrische Merkmale können diskret approximiert werden oder als Wahrscheinlichkeits-Dichtefunktion definiert werden Bayes-Klassifikator schätzt die Wahrscheinlichkeit der Klassenzugehörigkeit eines Merkmalsvektors Zur eindeutigen Zuordnung eines Klassen-Labels geht man meist nach dem Prinzip Maximum Likelihood vor Annahme der bedingten Unabhängigkeit beim naiven Bayes-Klassifikator P (M 1 M 2 C) = P (M 1 C) P (M 2 C) Bayes-Netzwerke: Graph mit Knoten = Zufallsvariable (Tabelle der bedingten Wahrscheinlichkeiten); Kante = bedingte Abhängigkeit mit Trainieren des Netzwerkes (geg. Netzwerk-Struktur und bekannten Zufallsvariablen; geg. Netzwerk-Struktur und teilweise unbekannten Zufallsvariablen; a priori unbekannter Netzwerk-Struktur) Streichen der Kanten, die keinen sgewinn bringen + hohe Klassifikationsgenauigkeit in vielen Anwendungen + Inkrementalität: Klassifikator einfach an neue Trainingsobjekte adaptierbar + Einbezug von Anwendungswissen - Anwendbarkeit: erforderliche bedingten Wahrscheinlichkeiten oft unbekannt - Ineffizienz bei sehr vielen Attributen (insbesondere Bayes-Netzwerke)

36 Nächste-Nachbarn-Klassifikatoren Instanzbasiertes Lernen (instance based learning) Interpretiere Häufigkeit einer Klasse in der Entscheidungsmenge als Wahrscheinlichkeit der Klassenzugehörigkeit Einfachster Nächste-Nachbar-Klassifikator: Zuordnung zu der Klasse des nächsten Nachbarpunkts Verbesserung: k-nächste-nachbarn-klassifikator (Suche von k zur Optimierung) Regionen der Klassenzuordnung können als Voronoi-Diagramme dargestellt werden Entscheidungsregel: wähle die Mehrheitsklasse der Entscheidungsmenge Gewichte die Klassen der Entscheidungsmenge Anwendungsbeispiel: Hipparcos-Katalog ( Sterne mit 78 Attributen, Klassenattribut: Spektraltyp (Attribut H76))

37 Entscheidungsbaum-Klassifikatoren einfach, deshalb oft im Vordergrund, overfitting-sensitiv Entscheidungsbaum: Baum mit innerer Knoten repräsentiert ein Attribut Kante repräsentiert einen Test auf dem Attribut des Vaterknotens Blatt (mit Pfad) repräsentiert eine der Klassen Top-Down Konstruktion eines Entscheidungsbaums anhand der Trainingsmenge Attribut wird ausgewählt (Splitstrategie) und genutzt zur Partitionierung Anwendung eines Entscheidungsbaums Durchlauf des Entscheidungsbaum von der Wurzel zu einem der Blätter in eindeutigem Pfad Zuordnung des Objekts zur Klasse des erreichten Blatts lokal optimierender Algorithmus sgewinn des Attributs A für T mit Partitionierung T 1, T 2,..., T m : InfoGewinn(T, A) = entropie(t ) m T i i=1 entropie(t T i)

Kapitel 4: Data Mining

Kapitel 4: Data Mining LUDWIG- MAXIMILIANS- UNIVERSITY MUNICH DEPARTMENT INSTITUTE FOR INFORMATICS Skript zur Vorlesung: Einführung in die Informatik: Systeme und Anwendungen Sommersemester 2011 Kapitel 4: Data Mining Vorlesung:

Mehr

Kapitel 4: Data Mining

Kapitel 4: Data Mining LUDWIG- MAXIMILIANS- UNIVERSITY MUNICH DEPARTMENT INSTITUTE FOR INFORMATICS Skript zur Vorlesung: Einführung in die Informatik: Systeme und Anwendungen Sommersemester 2013 Kapitel 4: Data Mining i Vorlesung:

Mehr

Einführung in das Data Mining Clustering / Clusteranalyse

Einführung in das Data Mining Clustering / Clusteranalyse Einführung in das Data Mining Clustering / Clusteranalyse Sascha Szott Fachgebiet Informationssysteme HPI Potsdam 21. Mai 2008 Teil I Einführung Clustering / Clusteranalyse Ausgangspunkt: Menge O von Objekten

Mehr

Clustering und Klassifikation

Clustering und Klassifikation Clustering und Klassifikation Matthias Pretzer matthias.pretzer@informatik.uni-oldenburg.de Ferdinand-von-Schill-Str. 3 26131 Oldenburg 5. Februar 2003 Im heutigen Informationszeitalter fallen immer schneller

Mehr

Kapitel 1: Einleitung

Kapitel 1: Einleitung Ludwig-Maximilians-Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Sommersemester 2013 Kapitel 1: Einleitung

Mehr

Relevante Fachgebiete für Data Mining

Relevante Fachgebiete für Data Mining Relevante Fachgebiete für Data Mining 1 Prozesse beim Data Mining 1. Data cleaning: Datensäuberung von Rauschen & Inkonsistenz 2. Data integration: Datenintegration aus multiplen Quellen 3. Data selection:

Mehr

Exploration und Klassifikation von BigData

Exploration und Klassifikation von BigData Exploration und Klassifikation von BigData Inhalt Einführung Daten Data Mining: Vorbereitungen Clustering Konvexe Hülle Fragen Google: Riesige Datenmengen (2009: Prozessieren von 24 Petabytes pro Tag)

Mehr

Data Mining und Knowledge Discovery in Databases

Data Mining und Knowledge Discovery in Databases Data Mining und Knowledge Discovery in Databases Begriffsabgrenzungen... Phasen der KDD...3 3 Datenvorverarbeitung...4 3. Datenproblematik...4 3. Möglichkeiten der Datenvorverarbeitung...4 4 Data Mining

Mehr

3.5 Datenbanktechniken zur Leistungssteigerung. 3. Clustering. 3.5 Datenbanktechniken zur Leistungssteigerung. 3. Clustering. Inhalt dieses Kapitels

3.5 Datenbanktechniken zur Leistungssteigerung. 3. Clustering. 3.5 Datenbanktechniken zur Leistungssteigerung. 3. Clustering. Inhalt dieses Kapitels 3.1 Einleitung 3. Clustering Inhalt dieses Kapitels Ziel des Clustering, Distanzfunktionen, Anwendungen, Typen von Algorithmen 3.2 Partitionierende Verfahren k-means, k-medoid, Expectation Maximization,

Mehr

Data Mining - Wiederholung

Data Mining - Wiederholung Data Mining - Wiederholung Norbert Fuhr 9. Juni 2008 Problemstellungen Problemstellungen Daten vs. Information Def. Data Mining Arten von strukturellen Beschreibungen Regeln (Klassifikation, Assoziations-)

Mehr

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002) 6. Bayes-Klassifikation (Schukat-Talamazzini 2002) (Böhm 2003) (Klawonn 2004) Der Satz von Bayes: Beweis: Klassifikation mittels des Satzes von Bayes (Klawonn 2004) Allgemeine Definition: Davon zu unterscheiden

Mehr

Motivation. Themenblock: Data Preprocessing. Einsatzgebiete für Data Mining I. Modell von Gianotti und Pedreschi

Motivation. Themenblock: Data Preprocessing. Einsatzgebiete für Data Mining I. Modell von Gianotti und Pedreschi Motivation Themenblock: Data Preprocessing We are drowning in information, but starving for knowledge! (John Naisbett) Was genau ist Datenanalyse? Praktikum: Data Warehousing und Data Mining Was ist Data

Mehr

Data-Mining: Ausgewählte Verfahren und Werkzeuge

Data-Mining: Ausgewählte Verfahren und Werkzeuge Fakultät Informatik Institut für Angewandte Informatik Lehrstuhl Technische Informationssysteme Data-Mining: Ausgewählte Verfahren und Vortragender: Jia Mu Betreuer: Dipl.-Inf. Denis Stein Dresden, den

Mehr

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002)

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002) 3. Entscheidungsbäume Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002) (aus Wilhelm 2001) Beispiel: (aus Böhm 2003) Wann sind Entscheidungsbäume

Mehr

Data Mining Anwendungen und Techniken

Data Mining Anwendungen und Techniken Data Mining Anwendungen und Techniken Knut Hinkelmann DFKI GmbH Entdecken von Wissen in banken Wissen Unternehmen sammeln ungeheure mengen enthalten wettbewerbsrelevantes Wissen Ziel: Entdecken dieses

Mehr

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining.

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining. Personalisierung Personalisierung Thomas Mandl Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung Klassifikation Die Nutzer werden in vorab bestimmte Klassen/Nutzerprofilen

Mehr

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining Gliederung 1. Einführung 2. Grundlagen Data Mining Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining 3. Ausgewählte Methoden des Data

Mehr

Seminar Komplexe Objekte in Datenbanken

Seminar Komplexe Objekte in Datenbanken Seminar Komplexe Objekte in Datenbanken OPTICS: Ordering Points To Identify the Clustering Structure Lehrstuhl für Informatik IX - Univ.-Prof. Dr. Thomas Seidl, RWTH-Aachen http://www-i9.informatik.rwth-aachen.de

Mehr

Seminar Text- und Datamining Datamining-Grundlagen

Seminar Text- und Datamining Datamining-Grundlagen Seminar Text- und Datamining Datamining-Grundlagen Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 23.05.2013 Gliederung 1 Klassifikationsprobleme 2 Evaluation

Mehr

Data Mining und maschinelles Lernen

Data Mining und maschinelles Lernen Data Mining und maschinelles Lernen Einführung und Anwendung mit WEKA Caren Brinckmann 16. August 2000 http://www.coli.uni-sb.de/~cabr/vortraege/ml.pdf http://www.cs.waikato.ac.nz/ml/weka/ Inhalt Einführung:

Mehr

Maschinelles Lernen Entscheidungsbäume

Maschinelles Lernen Entscheidungsbäume Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen Entscheidungsbäume Paul Prasse Entscheidungsbäume Eine von vielen Anwendungen: Kreditrisiken Kredit - Sicherheiten

Mehr

Cluster-Analyse Ziel: Anwendungsbereiche: Nutzen: Bezug zur Statistik: Bezug zu maschinellem Lernen:

Cluster-Analyse Ziel: Anwendungsbereiche: Nutzen: Bezug zur Statistik: Bezug zu maschinellem Lernen: Cluster-Analyse Ziel: Analyse von Daten ohne Klassenzugehörigkeit (mit Klassen siehe Klassifikation). Objekte werden so zu Clustern zusammengefasst, dass innerhalb eines Clusters die Objekte möglichst

Mehr

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining.

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining. Motivation Themenblock: Klassifikation Praktikum: Data Warehousing und Data Mining Ziel Item hat mehrere Attribute Anhand von n Attributen wird (n+)-tes vorhergesagt. Zusätzliches Attribut erst später

Mehr

Data Mining mit Rapidminer im Direktmarketing ein erster Versuch. Hasan Tercan und Hans-Peter Weih

Data Mining mit Rapidminer im Direktmarketing ein erster Versuch. Hasan Tercan und Hans-Peter Weih Data Mining mit Rapidminer im Direktmarketing ein erster Versuch Hasan Tercan und Hans-Peter Weih Motivation und Ziele des Projekts Anwendung von Data Mining im Versicherungssektor Unternehmen: Standard

Mehr

6. Überblick zu Data Mining-Verfahren

6. Überblick zu Data Mining-Verfahren 6. Überblick zu Data Mining-Verfahren Einführung Clusteranalse k-means-algorithmus Klassifikation Klassifikationsprozess Konstruktion eines Entscheidungsbaums Assoziationsregeln / Warenkorbanalse Support

Mehr

Data Mining-Modelle und -Algorithmen

Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining ist ein Prozess, bei dem mehrere Komponenten i n- teragieren. Sie greifen auf Datenquellen, um diese zum Training,

Mehr

Seminar Business Intelligence Teil II. Data Mining & Knowledge Discovery

Seminar Business Intelligence Teil II. Data Mining & Knowledge Discovery Seminar Business Intelligence Teil II Data Mining & Knowledge Discovery Was ist Data Mining? Sabine Queckbörner Was ist Data Mining? Data Mining Was ist Data Mining? Nach welchen Mustern wird gesucht?

Mehr

Vorlesung 3 MINIMALE SPANNBÄUME

Vorlesung 3 MINIMALE SPANNBÄUME Vorlesung 3 MINIMALE SPANNBÄUME 72 Aufgabe! Szenario: Sie arbeiten für eine Firma, die ein Neubaugebiet ans Netz (Wasser, Strom oder Kabel oder...) anschließt! Ziel: Alle Haushalte ans Netz bringen, dabei

Mehr

4 Greedy-Algorithmen (gierige Algorithmen)

4 Greedy-Algorithmen (gierige Algorithmen) Greedy-Algorithmen (gierige Algorithmen) Greedy-Algorithmen werden oft für die exakte oder approximative Lösung von Optimierungsproblemen verwendet. Typischerweise konstruiert ein Greedy-Algorithmus eine

Mehr

Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014

Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014 Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014 Aufgabe 1. Data Mining a) Mit welchen Aufgabenstellungen befasst sich Data Mining? b) Was versteht man unter Transparenz einer Wissensrepräsentation?

Mehr

6. Überblick zu Data Mining-Verfahren

6. Überblick zu Data Mining-Verfahren 6. Überblick zu Data Mining-Verfahren Einführung Clusteranalyse k-means-algorithmus Canopy Clustering Klassifikation Klassifikationsprozess Konstruktion eines Entscheidungsbaums Assoziationsregeln / Warenkorbanalyse

Mehr

zur Erlangung des akademischen Grades Mag.rer.soc.oec. eingereicht von

zur Erlangung des akademischen Grades Mag.rer.soc.oec. eingereicht von KOMBINIERTES DATA MINING KLASSIFIKATION UNTER VERWENDUNG VON DURCH CLUSTERING GEWONNENEN HILFSINFORMATIONEN DIPLOMARBEIT zur Erlangung des akademischen Grades Mag.rer.soc.oec. eingereicht von MARKUS HUMER

Mehr

Data Mining und Text Mining Einführung. S2 Einfache Regellerner

Data Mining und Text Mining Einführung. S2 Einfache Regellerner Data Mining und Text Mining Einführung S2 Einfache Regellerner Hans Hermann Weber Univ. Erlangen, Informatik 8 Wintersemester 2003 hans.hermann.weber@gmx.de Inhalt Einiges über Regeln und Bäume R1 ein

Mehr

The integration of business intelligence and knowledge management

The integration of business intelligence and knowledge management The integration of business intelligence and knowledge management Seminar: Business Intelligence Ketevan Karbelashvili Master IE, 3. Semester Universität Konstanz Inhalt Knowledge Management Business intelligence

Mehr

Machine Learning: Der KDD-Prozess

Machine Learning: Der KDD-Prozess : Der KDD-Prozess Data-Mining Aufgaben Aufgabe Wissensextraktion durch automatisches Erkennen von Mustern in Daten Keine spezifische Hypothese darüber, welche Muster vorliegen sollten Gesucht werden Muster,

Mehr

Proseminar - Data Mining

Proseminar - Data Mining Proseminar - Data Mining SCCS, Fakultät für Informatik Technische Universität München SS 2012, SS 2012 1 Data Mining Pipeline Planung Aufbereitung Modellbildung Auswertung Wir wollen nützliches Wissen

Mehr

Künstliche Intelligenz Dirk Krechel SS 2009

Künstliche Intelligenz Dirk Krechel SS 2009 Künstliche Intelligenz Dirk Krechel SS 2009 Überblick über das Modul 1. Einführung 2. Symbolische Verfahren Logik Aussagenlogik Prädikatenlogik Horn Logik Prolog 3. Suchen und Bewerten Problemlösen durch

Mehr

Data Warehousing und Data Mining

Data Warehousing und Data Mining Data Warehousing und Data Mining Einführung in Data Mining Ulf Leser Wissensmanagement in der Bioinformatik Wo sind wir? Einleitung & Motivation Architektur Modellierung von Daten im DWH Umsetzung des

Mehr

Termin3 Klassifikation multispektraler Daten unüberwachte Verfahren

Termin3 Klassifikation multispektraler Daten unüberwachte Verfahren Ziel Termin3 Klassifikation multispektraler Daten unüberwachte Verfahren Einteilung (=Klassifikation) der Pixel eines multispektralen Datensatzes in eine endliche Anzahl von Klassen. Es sollen dabei versucht

Mehr

Ideen der Informatik. Maschinelles Lernen. Kurt Mehlhorn Adrian Neumann Max-Planck-Institut für Informatik

Ideen der Informatik. Maschinelles Lernen. Kurt Mehlhorn Adrian Neumann Max-Planck-Institut für Informatik Ideen der Informatik Maschinelles Lernen Kurt Mehlhorn Adrian Neumann Max-Planck-Institut für Informatik Übersicht Lernen: Begriff Beispiele für den Stand der Kunst Spamerkennung Handschriftenerkennung

Mehr

Dominik Pretzsch TU Chemnitz 2011

Dominik Pretzsch TU Chemnitz 2011 Dominik Pretzsch TU Chemnitz 2011 Wir leben im Informationszeitalter und merken es daran, dass wir uns vor Information nicht mehr retten können. Nicht der überwältigende Nutzen der Information, sondern

Mehr

Multivariate Statistik

Multivariate Statistik Hermann Singer Multivariate Statistik 1 Auflage 15 Oktober 2012 Seite: 12 KAPITEL 1 FALLSTUDIEN Abbildung 12: Logistische Regression: Geschätzte Wahrscheinlichkeit für schlechte und gute Kredite (rot/blau)

Mehr

Unsupervised Kernel Regression

Unsupervised Kernel Regression 9. Mai 26 Inhalt Nichtlineare Dimensionsreduktion mittels UKR (Unüberwachte KernRegression, 25) Anknüpfungspunkte Datamining I: PCA + Hauptkurven Benötigte Zutaten Klassische Kernregression Kerndichteschätzung

Mehr

Masterarbeit. im Studiengang Informatik. Kombinationen von Data Mining-Verfahren: Analyse und Automatisierung. Ulf Mewe Matrikel.-Nr.

Masterarbeit. im Studiengang Informatik. Kombinationen von Data Mining-Verfahren: Analyse und Automatisierung. Ulf Mewe Matrikel.-Nr. LEIBNIZ UNIVERSITÄT HANNOVER FAKULTÄT FÜR ELEKTROTECHNIK UND INFORMATIK INSTITUT FÜR PRAKTISCHE INFORMATIK FACHGEBIET DATENBANKEN UND INFORMATIONSSYSTEME Masterarbeit im Studiengang Informatik Kombinationen

Mehr

Projektaufgaben Block 2

Projektaufgaben Block 2 Kurs BZQ III - Stochastikpraktikum WS 2013/14 Humboldt-Universität zu Berlin Randolf Altmeyer Philip-Moritz Eckert Projektaufgaben Block 2 Abgabe: bis 10.12.2013 Zur Einstimmung (freiwillig, ohne Abgabe)

Mehr

SYN Grundlagen Algorithmen Anwendung FIN. Anomalieerkennung. UnFUG WS2011/2012. Alexander Passfall Hochschule Furtwangen

SYN Grundlagen Algorithmen Anwendung FIN. Anomalieerkennung. UnFUG WS2011/2012. Alexander Passfall <alex@passfall.de> Hochschule Furtwangen 1/23 UnFUG WS2011/2012 Alexander Passfall Hochschule Furtwangen 3. November 2011 2/23 Inhalt 1 Grundlagen Typen Funktionsweise 2 Algorithmen Outlier Detection Machine Learning 3 Anwendung

Mehr

Abschnitt: Algorithmendesign und Laufzeitanalyse

Abschnitt: Algorithmendesign und Laufzeitanalyse Abschnitt: Algorithmendesign und Laufzeitanalyse Definition Divide-and-Conquer Paradigma Divide-and-Conquer Algorithmen verwenden die Strategien 1 Divide: Teile das Problem rekursiv in Subproblem gleicher

Mehr

Data Cube. Aggregation in SQL. Beispiel: Autoverkäufe. On-line Analytical Processing (OLAP) 1. Einführung. 2. Aggregation in SQL, GROUP BY

Data Cube. Aggregation in SQL. Beispiel: Autoverkäufe. On-line Analytical Processing (OLAP) 1. Einführung. 2. Aggregation in SQL, GROUP BY Data Cube On-line Analytical Processing (OLAP). Einführung Ziel: Auffinden interessanter Muster in großen Datenmengen 2. Aggregation in SQL, GROUP BY 3. Probleme mit GROUP BY 4. Der Cube-Operator! Formulierung

Mehr

Kostenmaße. F3 03/04 p.188/395

Kostenmaße. F3 03/04 p.188/395 Kostenmaße Bei der TM nur ein Kostenmaß: Ein Schritt (Konfigurationsübergang) kostet eine Zeiteinheit; eine Bandzelle kostet eine Platzeinheit. Bei der RAM zwei Kostenmaße: uniformes Kostenmaß: (wie oben);

Mehr

SLAM. Simultaneous Localization and Mapping. KogSys-Sem-M2: Reading Club - SLAM - Andreas Habermann

SLAM. Simultaneous Localization and Mapping. KogSys-Sem-M2: Reading Club - SLAM - Andreas Habermann SLAM Simultaneous Localization and Mapping KogSys-Sem-M2: Reading Club - SLAM - Andreas Habermann Simultaneous Localization And Mapping SLAM Problematik SLAM Arten SLAM Methoden: (E)KF SLAM GraphSLAM Fast

Mehr

Der linke Teilbaum von v enthält nur Schlüssel < key(v) und der rechte Teilbaum enthält nur Schlüssel > key(v)

Der linke Teilbaum von v enthält nur Schlüssel < key(v) und der rechte Teilbaum enthält nur Schlüssel > key(v) Ein Baum T mit Knotengraden 2, dessen Knoten Schlüssel aus einer total geordneten Menge speichern, ist ein binärer Suchbaum (BST), wenn für jeden inneren Knoten v von T die Suchbaumeigenschaft gilt: Der

Mehr

13. Binäre Suchbäume

13. Binäre Suchbäume 1. Binäre Suchbäume Binäre Suchbäume realiesieren Wörterbücher. Sie unterstützen die Operationen 1. Einfügen (Insert) 2. Entfernen (Delete). Suchen (Search) 4. Maximum/Minimum-Suche 5. Vorgänger (Predecessor),

Mehr

generiere aus Textdokumenten zunächst Metadaten, wende Data Mining - Techniken dann nur auf diese an

generiere aus Textdokumenten zunächst Metadaten, wende Data Mining - Techniken dann nur auf diese an 9. Text- und Web-Mining Text Mining: Anwendung von Data Mining - Verfahren auf große Mengen von Online-Textdokumenten Web Mining: Anwendung von Data Mining - Verfahren auf Dokumente aus dem WWW oder auf

Mehr

Vorlesung 04.12.2006: Binäre Entscheidungsdiagramme (BDDs) Dr. Carsten Sinz

Vorlesung 04.12.2006: Binäre Entscheidungsdiagramme (BDDs) Dr. Carsten Sinz Vorlesung 04.12.2006: Binäre Entscheidungsdiagramme (BDDs) Dr. Carsten Sinz Datenstruktur BDD 1986 von R. Bryant vorgeschlagen zur Darstellung von aussagenlogischen Formeln (genauer: Booleschen Funktionen)

Mehr

3.1 Konstruktion von minimalen Spannbäumen Es gibt zwei Prinzipien für die Konstruktion von minimalen Spannbäumen (Tarjan): blaue Regel rote Regel

3.1 Konstruktion von minimalen Spannbäumen Es gibt zwei Prinzipien für die Konstruktion von minimalen Spannbäumen (Tarjan): blaue Regel rote Regel 3.1 Konstruktion von minimalen Spannbäumen Es gibt zwei Prinzipien für die Konstruktion von minimalen Spannbäumen (Tarjan): blaue Regel rote Regel EADS 3.1 Konstruktion von minimalen Spannbäumen 16/36

Mehr

Management Support Systeme

Management Support Systeme Management Support Systeme WS 24-25 4.-6. Uhr PD Dr. Peter Gluchowski Folie Gliederung MSS WS 4/5. Einführung Management Support Systeme: Informationssysteme zur Unterstützung betrieblicher Fach- und Führungskräfte

Mehr

Data Mining Bericht. Analyse der Lebenssituation der Studenten. der Hochschule Wismar. Zur Veranstaltung. Business Intelligence

Data Mining Bericht. Analyse der Lebenssituation der Studenten. der Hochschule Wismar. Zur Veranstaltung. Business Intelligence Data Mining Bericht Analyse der Lebenssituation der Studenten der Hochschule Wismar Zur Veranstaltung Business Intelligence Eingereicht von: Mohamed Oukettou 108 208 Maxim Beifert 118 231 Vorgelegt von:

Mehr

Automatisierte Dossier- Erstellung mittels Text-Mining

Automatisierte Dossier- Erstellung mittels Text-Mining Automatisierte Dossier- Erstellung mittels Text-Mining Paul Assendorp Grundseminar 11.12.2014 Paul Assendorp Automatisierte Dossier-Erstellung 1 Gliederung Motivation Textmining Tools Aktueller Stand Ausblick

Mehr

Datenbanken-Themen im OS "Data Mining" SS 2010

Datenbanken-Themen im OS Data Mining SS 2010 Prof. Dr.-Ing. Thomas Kudraß HTWK Leipzig, FIMN Datenbanken-Themen im OS "Data Mining" SS 2010 Die Vorträge sollten eine Dauer von 60 Minuten (Einzelvortrag) bzw. 45 Minuten (Doppelvortrag) haben. Nachfolgend

Mehr

Large-Scale Image Search

Large-Scale Image Search Large-Scale Image Search Visuelle Bildsuche in sehr großen Bildsammlungen Media Mining I Multimedia Computing, Universität Augsburg Rainer.Lienhart@informatik.uni-augsburg.de www.multimedia-computing.{de,org}

Mehr

TEXTKLASSIFIKATION. WS 2011/12 Computerlinguistik I Deasy Sukarya & Tania Bellini

TEXTKLASSIFIKATION. WS 2011/12 Computerlinguistik I Deasy Sukarya & Tania Bellini TEXTKLASSIFIKATION WS 2011/12 Computerlinguistik I Deasy Sukarya & Tania Bellini GLIEDERUNG 1. Allgemeines Was ist Textklassifikation? 2. Aufbau eines Textklassifikationssystems 3. Arten von Textklassifikationssystemen

Mehr

Seminar Business Intelligence (2) Data Mining & Knowledge Discovery

Seminar Business Intelligence (2) Data Mining & Knowledge Discovery Seminar Business Intelligence () Data Mining & Knowledge Discovery Thema: Klassifikation und Prädiktion Ausarbeitung von Philipp Breitbach AG DBIS Betreuung: Jernej Kovse Inhaltsverzeichnis INHALTSVERZEICHNIS...

Mehr

Data-Mining und Knowledge Discovery in Databases (KDD) Ein Überblick

Data-Mining und Knowledge Discovery in Databases (KDD) Ein Überblick Institut für Angewandte Informatik Professur für Technische Informationssysteme Fakultätsname XYZ Fachrichtung XYZ Institutsname XYZ, Professur XYZ Data-Mining und Knowledge Discovery in Databases (KDD)

Mehr

Proseminar - Data Mining

Proseminar - Data Mining Proseminar - Data Mining SCCS, Fakultät für Informatik Technische Universität München SS 2014, SS 2014 1 Data Mining: Beispiele (1) Hausnummererkennung (Klassifikation) Source: http://arxiv.org/abs/1312.6082,

Mehr

Kapitel 7: Formaler Datenbankentwurf

Kapitel 7: Formaler Datenbankentwurf 7. Formaler Datenbankentwurf Seite 1 Kapitel 7: Formaler Datenbankentwurf Die Schwierigkeiten der konzeptuellen Modellierung sind zu einem großen Teil dadurch begründet, dass sich die relevanten Strukturen

Mehr

MythMiner. Ein Empfehlungssystem für Fernsehprogramme auf Basis von RapidMiner. Balázs Bárány. Linuxwochen Wien, 7. 5. 2011

MythMiner. Ein Empfehlungssystem für Fernsehprogramme auf Basis von RapidMiner. Balázs Bárány. Linuxwochen Wien, 7. 5. 2011 Voraussetzungen für Data Mining und Text Mining Schluÿ Ein Empfehlungssystem für Fernsehprogramme auf Basis von RapidMiner Linuxwochen Wien, 7. 5. 2011 Voraussetzungen für Data Mining und Text Mining Schluÿ

Mehr

Seminar Business Intelligence Teil II: Data-Mining und Knowledge-Discovery

Seminar Business Intelligence Teil II: Data-Mining und Knowledge-Discovery Seminar usiness Intelligence Teil II: Data-Mining und Knowledge-Discovery Thema : Vortrag von Philipp reitbach. Motivation Übersicht. rundlagen. Entscheidungsbauminduktion. ayes sche Klassifikation. Regression.

Mehr

Teil II. Nichtlineare Optimierung

Teil II. Nichtlineare Optimierung Teil II Nichtlineare Optimierung 60 Kapitel 1 Einleitung In diesem Abschnitt wird die Optimierung von Funktionen min {f(x)} x Ω betrachtet, wobei Ω R n eine abgeschlossene Menge und f : Ω R eine gegebene

Mehr

Data Mining: Klassifikations- und Clusteringverfahren

Data Mining: Klassifikations- und Clusteringverfahren Westfälische Wilhelms-Universität Münster Data Mining: Klassifikations- und Clusteringverfahren Ausarbeitung im Rahmen des Projektseminars CRM für Finanzdienstleister im Fachgebiet Wirtschaftsinformatik

Mehr

Einführung in die Wissensverarbeitung und Data Mining

Einführung in die Wissensverarbeitung und Data Mining Einführung in die Wissensverarbeitung und Data Mining Peter Becker FH Bonn-Rhein-Sieg Fachbereich Angewandte Informatik!" $# Vorlesung Wintersemester 2001/02 1. Einführung Vorbemerkungen 1 Einführung Vorbemerkungen

Mehr

Kapitel 4: Dynamische Datenstrukturen. Algorithmen und Datenstrukturen WS 2012/13. Prof. Dr. Sándor Fekete

Kapitel 4: Dynamische Datenstrukturen. Algorithmen und Datenstrukturen WS 2012/13. Prof. Dr. Sándor Fekete Kapitel 4: Dynamische Datenstrukturen Algorithmen und Datenstrukturen WS 2012/13 Prof. Dr. Sándor Fekete 4.4 Binäre Suche Aufgabenstellung: Rate eine Zahl zwischen 100 und 114! Algorithmus 4.1 INPUT: OUTPUT:

Mehr

Informationstheorethisches Theorem nach Shannon

Informationstheorethisches Theorem nach Shannon Informationstheorethisches Theorem nach Shannon Beispiel zum Codierungsaufwand - Wiederholung: Informationstheorethisches Modell (Shannon) Sei x eine Aussage. Sei M ein Modell Wieviele Bits sind aussreichend,

Mehr

Künstliche Neuronale Netze und Data Mining

Künstliche Neuronale Netze und Data Mining Künstliche Neuronale Netze und Data Mining Catherine Janson, icasus GmbH Heidelberg Abstract Der Begriff "künstliche Neuronale Netze" fasst Methoden der Informationstechnik zusammen, deren Entwicklung

Mehr

Data Mining mit der SEMMA Methodik. Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG

Data Mining mit der SEMMA Methodik. Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG Data Mining mit der SEMMA Methodik Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG Data Mining Data Mining: Prozeß der Selektion, Exploration und Modellierung großer Datenmengen, um Information

Mehr

Data Mining (ehem. Entscheidungsunterstützungssysteme)

Data Mining (ehem. Entscheidungsunterstützungssysteme) Data Mining (ehem. Entscheidungsunterstützungssysteme) Melanie Pfoh Anja Tetzner Christian Schieder Übung WS 2014/15 AGENDA TEIL 1 Aufgabe 1 (Wiederholung OPAL / Vorlesungsinhalte) ENTSCHEIDUNG UND ENTSCHEIDUNGSTHEORIE

Mehr

Knowledge Discovery in Databases II Winter Semester 2013/2014. Kapitel 1: Einleitung und Überblick

Knowledge Discovery in Databases II Winter Semester 2013/2014. Kapitel 1: Einleitung und Überblick Ludwig Maximilians Universität München Institut für Informatik Lehr und Forschungseinheit für Datenbanksysteme Skript Knowledge Discovery in Databases II Winter Semester 2013/2014 Kapitel 1: Einleitung

Mehr

SAP Predictive Challenge - Lösung. DI Walter Müllner, Dr. Ingo Peter, Markus Tempel 22. April 2015

SAP Predictive Challenge - Lösung. DI Walter Müllner, Dr. Ingo Peter, Markus Tempel 22. April 2015 SAP Predictive Challenge - Lösung DI Walter Müllner, Dr. Ingo Peter, Markus Tempel 22. April 2015 Teil II - Lösung Teil II-1: Fachbereich (automated mode) Teil II-2: Experte (PAL HANA) Teil II-3: Vergleich

Mehr

Web Data Mining. Alexander Hinneburg Sommersemester 2007

Web Data Mining. Alexander Hinneburg Sommersemester 2007 Web Data Mining Alexander Hinneburg Sommersemester 2007 Termine Vorlesung Mi. 10:00-11:30 Raum?? Übung Mi. 11:45-13:15 Raum?? Klausuren Mittwoch, 23. Mai Donnerstag, 12. Juli Buch Bing Liu: Web Data Mining

Mehr

Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07

Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07 Regression Trees Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07 Ao.Univ.Prof. Dr. Marcus Hudec marcus.hudec@univie.ac.at Institut für Scientific Computing, Universität Wien 2

Mehr

Kapitel 9. Kombination von Vektor- und Rasterdaten. Rasterdaten. 3. Transformationen des Formats. 4. Kombinierte Auswertungen

Kapitel 9. Kombination von Vektor- und Rasterdaten. Rasterdaten. 3. Transformationen des Formats. 4. Kombinierte Auswertungen LUDWIG- MAXIMILIANS- UNIVERSITY MUNICH DEPARTMENT INSTITUTE FOR INFORMATICS Kapitel 9 Kombination von Vektor- und Rasterdaten Skript zur Vorlesung Geo-Informationssysteme Wintersemester 2011/12 Ludwig-Maximilians-Universität

Mehr

Eine Baumstruktur sei folgendermaßen definiert. Eine Baumstruktur mit Grundtyp Element ist entweder

Eine Baumstruktur sei folgendermaßen definiert. Eine Baumstruktur mit Grundtyp Element ist entweder Programmieren in PASCAL Bäume 1 1. Baumstrukturen Eine Baumstruktur sei folgendermaßen definiert. Eine Baumstruktur mit Grundtyp Element ist entweder 1. die leere Struktur oder 2. ein Knoten vom Typ Element

Mehr

Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining

Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining Ausgangssituation Kaizen Data Mining ISO 9001 Wenn andere Methoden an ihre Grenzen stoßen Es gibt unzählige Methoden, die Abläufe

Mehr

Statistische Verfahren für das Data Mining in einem Industrieprojekt

Statistische Verfahren für das Data Mining in einem Industrieprojekt Statistische Verfahren für das Data Mining in einem Industrieprojekt Thorsten Dickhaus Forschungszentrum Jülich GmbH Zentralinstitut für Angewandte Mathematik Telefon: 02461/61-4193 E-Mail: th.dickhaus@fz-juelich.de

Mehr

Programmiertechnik II

Programmiertechnik II Bäume Symboltabellen Suche nach Werten (items), die unter einem Schlüssel (key) gefunden werden können Bankkonten: Schlüssel ist Kontonummer Flugreservierung: Schlüssel ist Flugnummer, Reservierungsnummer,...

Mehr

6. Künstliche Intelligenz

6. Künstliche Intelligenz 6.1. Turing-Test 6.2. Lernen In diesem Abschnitt besprechen wir wie man an Hand von Beispielen lernt, Objekte zu erkennen und verschiedene Dinge voneinander zu unterscheiden. Diese sogenannte Mustererkennung

Mehr

Textmining Klassifikation von Texten Teil 1: Naive Bayes

Textmining Klassifikation von Texten Teil 1: Naive Bayes Textmining Klassifikation von Texten Teil 1: Naive Bayes Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten 1: Naive

Mehr

Business Intelligence. Business Intelligence Seminar, WS 2007/08

Business Intelligence. Business Intelligence Seminar, WS 2007/08 Business Intelligence Seminar, WS 2007/08 Prof. Dr. Knut Hinkelmann Fachhochschule Nordwestschweiz knut.hinkelmann@fhnw.ch Business Intelligence Entscheidungsorientierte Sammlung, Aufbereitung und Darstellung

Mehr

2. Microsoft Innovationstag Nord Integrierte Lösungen in der Öffentlichen Verwaltung

2. Microsoft Innovationstag Nord Integrierte Lösungen in der Öffentlichen Verwaltung 2. Microsoft Innovationstag Nord Integrierte Lösungen in der Öffentlichen Verwaltung Reporting, Analyse und Data Mining André Henkel, initions AG 22. und 23. Oktober 2013 in Hamburg

Mehr

Algorithmische Modelle als neues Paradigma

Algorithmische Modelle als neues Paradigma Algorithmische Modelle als neues Paradigma Axel Schwer Seminar über Philosophische Grundlagen der Statistik, WS 2010/11 Betreuer: Prof. Dr. Thomas Augustin München, den 28. Januar 2011 1 / 29 LEO BREIMAN

Mehr

Neuerungen Analysis Services

Neuerungen Analysis Services Neuerungen Analysis Services Neuerungen Analysis Services Analysis Services ermöglicht Ihnen das Entwerfen, Erstellen und Visualisieren von Data Mining-Modellen. Diese Mining-Modelle können aus anderen

Mehr

Informationsflut bewältigen - Textmining in der Praxis

Informationsflut bewältigen - Textmining in der Praxis Informationsflut bewältigen - Textmining in der Praxis Christiane Theusinger Business Unit Data Mining & CRM Solutions SAS Deutschland Ulrich Reincke Manager Business Data Mining Solutions SAS Deutschland

Mehr

Data Warehousing und Data Mining

Data Warehousing und Data Mining Data Warehousing und Data Mining Klassifikation Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Einführung Problemstellung Evaluation Overfitting knn Klassifikator Naive-Bayes

Mehr

Maschinelles Lernen und Data Mining: Methoden und Anwendungen

Maschinelles Lernen und Data Mining: Methoden und Anwendungen Maschinelles Lernen und Data Mining: Methoden und Anwendungen Eyke Hüllermeier Knowledge Engineering & Bioinformatics Fachbereich Mathematik und Informatik GFFT-Jahrestagung, Wesel, 17. Januar 2008 Knowledge

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Entscheidungsbäume

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Entscheidungsbäume Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Entscheidungsbäume Christoph Sawade/Niels Landwehr Jules Rasetaharison, Tobias Scheffer Entscheidungsbäume Eine von vielen Anwendungen:

Mehr

Evaluation. Caroline Sporleder. Computational Linguistics Universität des Saarlandes. Sommersemester 2011 26.05.2011

Evaluation. Caroline Sporleder. Computational Linguistics Universität des Saarlandes. Sommersemester 2011 26.05.2011 Evaluation Caroline Sporleder Computational Linguistics Universität des Saarlandes Sommersemester 2011 26.05.2011 Caroline Sporleder Evaluation (1) Datensets Caroline Sporleder Evaluation (2) Warum evaluieren?

Mehr

Grundlagen der Programmierung 2. Bäume

Grundlagen der Programmierung 2. Bäume Grundlagen der Programmierung 2 Bäume Prof. Dr. Manfred Schmidt-Schauÿ Künstliche Intelligenz und Softwaretechnologie 24. Mai 2006 Graphen Graph: Menge von Knoten undzugehörige (gerichtete oder ungerichtete)

Mehr

Histogramme in der Datenbankoptimierung. Marian Marx 26.06.2008

Histogramme in der Datenbankoptimierung. Marian Marx 26.06.2008 Histogramme in der Datenbankoptimierung Marian Marx 26.06.2008 Inhaltsverzeichnis 1. Histogramme im Allgemeinen 1.1 Definition Histogramm 1.2 Beispiel Histogramm 2. Histogramme in der Datenbankoptimierung

Mehr

Binäre lineare Optimierung mit K*BMDs p.1/42

Binäre lineare Optimierung mit K*BMDs p.1/42 Binäre lineare Optimierung mit K*BMDs Ralf Wimmer wimmer@informatik.uni-freiburg.de Institut für Informatik Albert-Ludwigs-Universität Freiburg Binäre lineare Optimierung mit K*BMDs p.1/42 Grundlagen Binäre

Mehr

Mit KI gegen SPAM. Proseminar Künstliche Intelligenz

Mit KI gegen SPAM. Proseminar Künstliche Intelligenz Mit KI gegen SPAM Proseminar Künstliche Intelligenz SS 2006 Florian Laib Ausblick Was ist SPAM? Warum SPAM-Filter? Naive Bayes-Verfahren Fallbasiertes Schließen Fallbasierte Filter TiMBL Vergleich der

Mehr

Data Mining - Clustering. Sven Elvers

Data Mining - Clustering. Sven Elvers Agenda Data Mining Clustering Aktuelle Arbeiten Thesis Outline 2 Agenda Data Mining Clustering Aktuelle Arbeiten Thesis Outline 3 Data Mining Entdecken versteckter Informationen, Muster und Zusammenhänge

Mehr