3. Informationsgewinnung 3.1. Informationsextraktion

Größe: px
Ab Seite anzeigen:

Download "3. Informationsgewinnung 3.1. Informationsextraktion"

Transkript

1 3. sgewinnung 3.1. sextraktion Vorlesung Intelligente ssysteme Wintersemester 2004/2005 Prof. Dr. Bernhard Thalheim Systems Engineering Group Computer Science Institute Kiel University, Germany

2 Vorlesungprogramm Aufbereitung zum intelligenten Ausspiel Knowledge discovery als Prozeß Pragmatismus der sextraktion basierend auf Ähnlichkeitsmaßen, Datensäuberung, Vorverarbeitung, Datenintegration, -transformation, Bewertung, Visualisierung von dirty statistics zur Kunst Clustering Outlier detection Klassifikation Regression Programmbibliotheken zur Unterstützung des Extraktion z.b. WEKA, DaMiT

3 Knowledge Discovery anerkannte Definition Fayyad, Piatetsky-Shapiro & Smyth 1996 Knowledge Discovery in bases () ist der Prozeß der (semi-) automatischen Extraktion von Wissen aus Datenbanken, das gültig bisher unbekannt und potentiell nützlich ist. Bemerkungen: (semi-) automatisch: im Unterschied zu manueller Analyse. Häufig ist trotzdem Interaktion mit dem Benutzer nötig. gültig: im statistischen Sinn. bisher unbekannt: bisher nicht explizit, kein Allgemeinwissen. potentiell nützlich: für eine gegebene Anwendung. Teilbereiche: Statistik: modellbasierte Inferenzen Schwerpunkt auf numerischen Daten : Suchverfahren Schwerpunkt auf symbolischen Daten Intelligente ssysteme: Skalierbarkeit für große Datenmengen Neue Datentypen (Webdaten, Micro-Arrays,...) Integration mit kommerziellen Datenbanksystemen

4 Das Prozeßmodell des Knowledge Discovery Fokussieren: Beschaffung der Daten; Säuberung von Inkonsistenzen und Rauschen; Verwaltung (File/DB); Selektion relevanter Daten Vorverarbeitung: Integration von Daten aus unterschiedlichen Quellen; Vervollständigung; Konsistenzprüfung Transformation: Diskretisierung numerischer Merkmale; Ableitung neuer Merkmale; Selektion relevanter Merkmale : Generierung der Muster bzw. Modelle Evaluation: Bewertung der Interessantheit durch den Benutzer; Validierung: Statistische Prüfung der Modelle svisualisierung in unterschiedlichen Präsentationsformaten je nach Rezeptionsmuster

5 Bestandteile des Knowledge Discovery Features: (Merkmale ( Features ) von Objekten) Oft sind die betrachteten Objekte komplex Eine Aufgabe des -Experten ist dann, geeignete Merkmale (Features) zu definieren bzw. auszuwählen, die für die Unterscheidung (Klassifikation, Ähnlichkeit) der Objekte relevant sind. Bilddatenbanken: Farbhistogramme; Gen-Datenbanken: Expressionslevel; Text-Datenbanken: Begriffshäufigkeiten Der Feature-Ansatz ermöglicht einheitliche Behandlung von Objekten verschiedenster Anwendungsklassen Merkmalsvektoren: Im Kontext von statistischen Betrachtungen werden die Merkmale häufig auch als Variablen bezeichnet Die ausgewählten Merkmale werden zu Merkmalsvektoren (Feature Vector) zusammengefaßt Der Merkmalsraum ist häufig hochdimensional Ähnlichkeit von Objekten: mit Maßen Anwendung: Spezifiziere Anfrage-Objekt und......suche ähnliche Objekte Range-Query (Radius e) suche die k ähnlichsten Objekte Nearest Neighbor

6 Ähnlichkeit von Objekten Euklidische Maße: sim k ( p, q) = ( n i=1 p i q i k ) 1 k k = 1: Manhattan-Norm (Die Unähnlichkeiten der einzelnen Merkmale werden direkt addiert) k = 2: klassische Euklidische Norm (natürlichstes Distanzmaß) Maximumsnormen: sim 0 ( p, q) = (max n i=1 p i q i ) Die Unähnlichkeit des am wenigsten ähnlichen Merkmals zählt Anpaßbare Ähnlichkeitsmaße Gewichtetes Euklidisches Maß: sim k ( p, q) = ( n i=1 w i p i q i k ) 1 k Häufig sind die Wertebereiche der Merkmale deutlich unterschiedlich. Quadratische Form: d = (( p q)m( p q) T ) 1 2 Bei den bisherigen Ähnlichkeitsmaßen wird jedes Merkmal nur mit sich selbst verglichen. Besonders bei (Farb-)Histogrammen müssen auch verschiedene Merkmale verglichen werden. Statt mit Distanzmaßen, die die Unähnlichkeit zweier Objekte messen, arbeitet man manchmal auch mit positiven Ähnlichkeitsmaßen.

7 Skalierung von Merkmalen Nominal (kategorisch) Charakteristik: Wert gleich oder verschieden Keine Richtung (besser, schlechter) und kein Abstand. Merkmale mit nur zwei Werten: dichotom Beispiele: Geschlecht (dichotom), Augenfarbe Gesund/krank (dichotom) Ordinal Charakteristik: basiert auf Ordnungsrelation (besser/schlechter) zwischen den Kategorien, aber kein einheitlicher Abstand Beispiele: Schulnote (metrisch?), Güteklasse, Altersklasse Metrisch Charakteristik: Differenzen und Verhältnisse zwischen den Werten Werte diskret oder stetig Beispiele: Gewicht (stetig), Verkaufszahl (diskret), Alter (stetig oder diskret)

8 Datensäuberung Aufgaben Umgangsmöglichkeiten mit fehlenden Werten: Ignorieren des Tupel Manuelles Auffüllen Einsetzen einer globalen Konstante (z.b. unbekannt) Mittelwert aller Attribut-Tupel einsetzen Mittelwert aller Attribut-Tupel der gleichen Klasse einsetzen Den wahrscheinlichsten Wert einsetzen (z.b. mit Entscheidungsbäumen, Bayes schen Inferenzen oder Regression ermittelt) Umgangsmöglichkeiten mit verrauschten Daten: Binning: Glätten der Werte durch Berücksichtung von Nachbarwerten. Bsp.: Originalfolge sei 4, 8, 15, 21, 21, 24, 25, 28, 34 Aufteilung in bins : (4, 8, 15) (21, 21, 24) (25, 28, 34) Glätten durch Mittelwerte: (9, 9, 9) (22, 22, 22) (29, 29, 29) Glätten durch Bin-Grenzen: (4, 4, 15) (21, 21, 24) (25, 25, 34) Clustering: Ausreißer können durch Clustering entdeckt und dann ggf. entfernt werden Manuelle Überprüfung von Ausreißer-Kandidaten Regression: (Multiple) lineare Regression ermittelt lineare Zusammenhänge zwischen zwischen zweien bzw. mehreren Variablen. Falls solche Zusammenhänge existieren, können Ausreißer leicht festgestellt werden. Erkennen von inkonsistenten Daten: Vergleich der Daten mit externen Referenzen (z.b. Papierbelege) Berücksichtigung von Constraints Inkonsistenzen durch fehlerhafte Datenintegration

9 Datenintegration Aufgaben Schema-Integration (z.b. Identifikation unterschiedlicher Attributnamen im Datenbankschema wie cust number versus customer id ). Erkennen von Redundanz (z.b. wenn ein Attributwert aus einem anderen hergeleitet werden kann; kann z.b. mit Korrelationsanalyse festgestellt werden) Erkennung von Duplikaten (z.b. identische Tupel) record matching, entity resolution Erkennen von Datenwertkonflikten (können z.b. durch unterschiedliche Maßeinheiten verursacht werden, z.b. Entfernung in km oder Meilen, oder durch verschiedene Kontexte, z.b. Preise mit/ohne Mwst).

10 Datentransformation Typische Transformationsoperationen für Glättung verrauschter Daten Aggregation bzw. Verallgemeinerung (Zusammenfassung von Daten ähnlich wie bei Konstruktion der Cubes und Konzepthierarchien) Normalisierung (Skalierung der Attributdaten, so dass sie in ein bestimmtes Intervall passen, z.b. zwischen 0 und 1) Attributkonstruktion (Konstruktion neuer Attribute aus alten, z.b. um Redundanzen zu verringern oder aussagekräftigere Attribute zu erzeugen). Transformationen mit dem Ziel der Datenreduktion (z.b. Entfernen irrelevanter oder redundanter Dimensionen, Datenkompression, Wechsel der Repräsentation).

11 Aufgaben Wichtigste --Verfahren auf Merkmals-Vektoren: (1) Clustering Unsupervised learning (2) Outlier Detection Unsupervised learning (3) Klassifikation Supervised learning (4) Regression Supervised learning Supervised: Ein Ergebnis-Merkmal soll gelernt/geschätzt werden Unsupervised: Die Datenmenge soll lediglich in Gruppen unterteilt werden Darüber hinaus gibt es zahlreiche Verfahren, die nicht auf Merkmalsvektoren, sondern z.b. auf Texten, Mengen, Graphen arbeiten.

12 Clustering Clustering: Zerlegung einer Menge von Objekten (bzw. Feature- Vektoren) so in Teilmengen (Cluster), daß die Ähnlichkeit der Objekte innerhalb eines Clusters maximiert die Ähnlichkeit der Objekte verschiedener Cluster minimiert wird Idee: Die verschiedenen Cluster repräsentieren meist unterschiedliche Klassen von Objekten; bei unbekannten Anzahl und Bedeutung der Klassen Thematische Karten: Aufnahme der Erdoberfläche in 5 verschiedenen Spektren; Cluster-Analyse; Rücktransformation in xy-koordinaten und Farbcodierung nach Cluster- Zugehörigkeit Gewebeklassifikation: mit Farbkodierung (Schwarz: Ventrikel + Hintergrund; Blau: Gewebe 1; Grün: Gewebe 2; Rot: Gewebe 3; Dunkelrot: Große Gefäße) Ergebnis: Klassifikation cerebralen Gewebes anhand funktioneller Parameter mittels dynamic CT möglich.

13 Ziele des Clustering Identifikation einer endlichen Menge von Kategorien, Klassen oder Gruppen (Cluster) in den Daten Objekte im gleichen Cluster sollen möglichst ähnlich sein Objekte aus verschiedenen Clustern sollen möglichst unähnlich zueinander sein Cluster unterschiedlicher Größe, Form und Dichte hierarchische Cluster unterschiedliche Clustering-Algorithmen Typische Anwendungen: Kundensegmentierung (Clustering der Kundentransaktionen), Bestimmung von Benutzergruppen auf dem Web (Clustering der Web-Logs), Strukturierung von großen Mengen von Textdokumenten (Hierarchisches Clustering der Textdokumente), Erstellung von thematischen Karten aus Satellitenbildern (Clustering der aus den Rasterbildern gewonnenen Featurevektoren)

14 Clustering-Verfahren Typen Partitionierende Verfahren: Parameter: Anzahl k der Cluster, Distanzfunktion sucht ein flaches Clustering in k Cluster mit minimalen Kosten Hierarchische Verfahren: Parameter: Distanzfunktion für Punkte und für Cluster bestimmt Hierarchie von Clustern, mischt jeweils die ähnlichsten Cluster Dichtebasierte Verfahren: Parameter: minimale Dichte in einem Cluster, Distanzfunktion erweitert Punkte um ihre Nachbarn solange Dichte groß genug Andere Clustering-Verfahren: Fuzzy Clustering, graphentheoretische Verfahren, neuronale Netze

15 Partitionierende Verfahren Grundlagen Ziel: Partitionierung in k Cluster so daß eine Kostenfunktion miniert wird (Gütekriterium) Lokal optimierendes Verfahren: wähle k initiale Cluster- Repräsentanten möglichst gut separierbare Cluster mit q class( p)(sim( p, class( p)) sim( p, q)) optimiere diese Repräsentanten iterativ ordne jedes Objekt seinem ähnlichsten Repräsentanten zu Typen von Cluster-Repräsentanten: Mittelwert des Clusters (Konstruktion zentraler Punkte) Element des Clusters (Auswahl repräsentativer Punkte) Wahrscheinlichkeitsverteilung des Clusters (Erwartungsmaximierung)

16 Konstruktion zentraler Punkte Beispiel: Euklidischer Vektorraum mit Euklidischer Distanz Zentroid µ C : Mittelwert aller Punkte im Cluster C Maß für die Kosten (Kompaktheit) eines Clusters C T D 2 (C) = pinc sim( p, µ C) Maß für die Kosten (Kompaktheit) eines Clustering T D 2 = C T D2 (C) Brute-Force-Algorithmus 1. Start mit zufällig gewählten Punkten als Cluster- Repräsentanten Repeat until no change: 2A. Zuordnung jedes Datenpunktes zum räumlich nächsten Repräsentanten 2B. Neuberechnung der Repräsentanten (Zentroid der zugeordneten Punkte) ClusteringDurchVarianzMinimierung(Punktmenge D, Integer k) Erzeuge eine initiale Zerlegung der Punktmenge D in k Klassen; Berechne die Menge C=C1,..., Ck der Zentroide für die k Klassen; C = {}; repeat C = C; k Klassen durch Zuordnung jedes Punktes zum nächstliegenden Zentroid aus C; Menge C := {C 1,..., C k } der Zentroide für die neu bestimmten Klassen; until C = C; return C;

17 Varianten zur Konstruktion zentraler Punkte k-means: die betroffenen Zentroide werden direkt aktualisiert, wenn ein Punkt seine Clusterzugehörigkeit ändert K-means hat im wesentlichen die Eigenschaften des Basis-Algorithmus K-means ist aber reihenfolgeabhängig Aufwand: O(n) für eine Iteration, Anzahl der Iterationen ist im allgemeinen klein ( 5-10) einfache Implementierung Anfälligkeit gegenüber Rauschen und Ausreißern (alle Objekte gehen ein in die Berechnung des Zentroids) Cluster müssen konvexe Form haben die Anzahl k der Cluster ist oft schwer zu bestimmen starke Abhängigkeit von der initialen Zerlegung sowohl Ergebnis als auch Laufzeit ISODATA: basiert auf k-means Verbesserung des Ergebnisses durch Operationen wie Elimination sehr kleiner Cluster Verschmelzung und Aufspalten von Clustern Benutzer muß viele zusätzliche Parameter angeben

18 Auswahl repräsentativer Punkte nur Distanzfunktion für Paare von Objekten vorausgesetzt Medoid: ein zentrales Element des Clusters (repräsentativer Punkt) Maß für die Kosten (Kompaktheit) eines Clusters C T D(C) = pinc sim( p, µ C) Maß für die Kosten (Kompaktheit) eines Clustering T D = C T D2 (C) Laufzeitkomplexität der erschöpfenden Suche ist O(n k ) k-medoid Algorithmen PAM O(n 3 + k(n k) 2 AnzIterationen) Greedy-Algorithmus: in jedem Schritt wird nur ein Medoid mit einem Nicht-Medoid vertauscht vertauscht in jedem Schritt das Paar (Medoid, Nicht-Medoid), das die größte Reduktion der Kosten TD bewirkt CLARANS O(numlocal maxneighbor AnzErsetzungen n) zwei zusätzliche Parameter: maxneighbor und numlocal höchstens maxneighbor viele von zufällig ausgewählten Paaren (Medoid, Nicht-Medoid) werden betrachtet die erste Ersetzung, die überhaupt eine Reduzierung des TD-Wertes bewirkt, wird auch durchgeführt die Suche nach k optimalen Medoiden wird numlocal mal wiederholt

19 Auswahlalgorithmen für repräs. Punkte PAM i.a. höhere Qualität für kleine Nester PAM(Objektmenge D, Integer k, Float dist) Initialisiere die k Medoide; TD Änderung := ; while TD Änderung < 0 do Berechne für jedes Paar (Medoid M, Nicht-Medoid N) den Wert T D N M ; Wähle das Paar (M, N), für das der Wert TD Änderung := T D N M T D minimal ist; if TD Änderung < 0 then ersetze den Medoid M durch den Nicht-Medoid N; Speichere die aktuellen Medoide als die bisher beste Partitionierung; return Medoide; CLARANS praktisch O(n 2 ) CLARANS(Objektmenge D, Integer k, Real dist, Integer numlocal, Integer maxneighbor) for r from 1 to numlocal do wähle zufällig k Objekte als Medoide; i := 0; while i < maxneighbor do Wähle zufällig (Medoid M, Nicht-Medoid N); Berechne TD Änderung := T D N M - TD; if TD Änderung < 0 then ersetze M durch N; TD := T D N M ; i := 0; else i:= i + 1; if TD < TD best then TD best := TD; Speichere aktuelle Medoide; return Medoide;

20 Erwartungsmaximierung (EM) Punkte p = (x p 1,..., xp d ) in euklidischenm Vektorraum ein Cluster wird durch eine Wahrscheinlichkeitsverteilung beschrieben typisch: Modell für einen Cluster ist eine multivariate Normalverteilung Repräsentation eines Clusters C Mittelwert µ C aller Punkte des Clusters d x d Kovarianzmatrix Σ C für die Punkte im Cluster C Wahrscheinlichkeitsdichte eines Clusters C 1 P (x C) = e 1 2 (x µ c) T Σ 1 C (x µ c) (2π)d Σ C Idee: Jeder Punkt gehört zu mehreren (eigentlich allen) Clustern, jeweils mit unterschiedlicher Wahrscheinlichkeit, abh. von P (x C) Algorithmus besteht wieder aus zwei alternierenden Schritten: Zuordnung von Punkten zu Clustern (hier nicht absolut, sondern relativ/nach Wahrscheinlichkeit) Neuberechnung der Cluster-Repräsentanten (Gauß-Kurven) Auf stochastischer Grundlage: Bei Berechnung der Clusterzentren (µ i ) muß berücksichtigt werden, daß Punkte Clustern nicht absolut sondern nur relativ zugeordnet sind Wie groß ist die Wahrscheinlichkeit der Clusterzugehörigkeit?

21 Erwartungsmaximierung (EM) Cluster Ci durch eine Wahrscheinlichkeitsdichte-Funktion (Normalverteilung): 1 P (x C) = e 1 (2π) d 2 (x µ c) T Σ 1 C (x µ c) Σ C Dichtefunktion: Integral über den Gesamtraum ergibt 1 Integral über Region R ergibt Wahrscheinlichkeit, daß in der Region ein beliebiger Punkt des Clusters liegt, bzw. den relativen Anteil (z.b. 30%) der Punkte des Clusters, die in R liegen Bedingte Wahrscheinlichkeit: Unter der Voraussetzung, daß der Punkt x ausschließlich dem Cluster C i zugeordnet wäre (was nicht stimmt) Deshalb Notation als bedingte Wahrscheinlichkeit k Gaußverteilungen (durch k Cluster): P (x) = k i=1 W ip (x C i ) W i - relativer Anteil der Datenpunkte ist, der zum Cluster C i gehört (z.b. 5%), (Gesamt-Wahrscheinlichkeit des Clusters P (C i )) Satz von Bayes: P (C i x) (Wahrscheinlichkeit, daß ein gegebener Punkt x zum Cluster C i gehört) P (x C P (C i x) = W i ) i P (x) = P (C i) P (x C i ) P (x) (a-priori-wahrscheinlichkeit: P (A i ) a-posteriori-wahrscheinlichkeit: P (A i B) )

22 Erwartungsmaximierung (EM) Maß für die Güte eines Clustering M E(M) = x D log(p (x)) E(M) maximieren Anteil des Clusters an der Datenmenge: W i = P (C i ) = 1 n n i=1 P (C i x) Mittelwert und Kovarianzmatrix der Gaußverteilung: µ i = x D xp (C i x) σ i = Algorithmus x D P (C i x) x D (x µ i)(x µ i ) T P (C i x) x D P (C i x) O(n M Iterationen) ClusteringDurchErwartungsmaximierung (Punktmenge D, Integer k) Erzeuge ein initiales Modell M = (C 1,..., C k ); repeat // Neuzuordnung Berechne P (x C i ), P (x) und P (C i x) für jedes Objekt aus D und jede Gaußverteilung/jeden Cluster C i ; // Neuberechnung des Modells Berechne ein neues Modell M = {C 1,..., C k } durch Neuberechnung von W i, µ C und σ C für jedes i; M := M; until E(M) - E(M) < e; return M; Ergebnis und Laufzeit (wie beim k-means und k-medoid) stark abhängig von der initialen Zuordnung und von der richtigen Wahl des Parameters k Modifikation für Partitionierung der Daten in k disjunkte Cluster: jedes Objekt nur demjenigen Cluster zuordnen, zu dem es am wahrscheinlichsten gehört.

23 Silhouetten-Koeffizient Wahl des initialen Clustering Idee Clustering einer kleinen Stichprobe liefert im allgemeinen gute initiale Cluster einz. Stichproben sind ggf. deutlich anders verteilt als die Grundgesamtheit Methode ziehe unabhängig voneinander m verschiedene Stichproben clustere jede der Stichproben m verschiedene Schätzungen für k Clusterzentren A = (A 1, A 2,..., A k ), B = (B 1,..., B k ), C = (C 1,..., C k ),... Clustere nun die Menge DB = A B C... mit m verschiedenen Stichproben A, B, C,... als Startkonfiguration Wähle von den m Clusterings dasjenige mit dem besten Wert bzgl. des zugehörigen Maßes für die Güte eines Clustering Wahl des Parameters k: Methode Bestimme für k = 2,..., n-1 jeweils ein Clustering Wähle aus der Menge der Ergebnisse das beste Clustering aus Maß für die Güte eines Clusterings muß unabhängig von der Anzahl k sein bei k-means und k-medoid: T D 2 und T D sinken monoton mit steigendem k bei EM: E steigt monoton mit steigendem k Brauche ein von k unabhängiges Gütemaß für die k-means- und k-medoid- Verfahren

24 Dichtebasiertes Clustering Idee Cluster als Gebiete im d-dimensionalen Raum, in denen die Objekte dicht beieinander liegen getrennt durch Gebiete, in denen die Objekte weniger dicht liegen Anforderungen an dichtebasierte Cluster für jedes Objekt eines Clusters überschreitet die lokale Punktdichte einen gegebenen Grenzwert die Menge von Objekten, die den Cluster ausmacht, ist räumlich zusammenhängend o O Kernobjekt: N ɛ (o) > MinP ts mit N ɛ (o) = {o O dist(o, o) ɛ} p O direkt dichte-erreichbar von q O bzgl. ɛ und MinP ts: p N ɛ (q) und q ist ein Kernobjekt in O p dichte-erreichbar von q: eine Kette von direkt erreichbaren Objekten zwischen q und p p, q dichte-verbunden: beide von einem dritten Objekt o aus dichte-erreichbar Cluster C bzgl. ɛ und MinP ts: nicht-leere Teilmenge von O Maximalität: p, q O (p C q dichte-erreichbar von p q C) Verbundenheit: p, q C: p dichte-verbunden mit q

25 Dichtebasiertes Clustering Definition Clustering Ein dichte-basiertes Clustering CL der Menge O bzgl. ɛ und MinP ts: vollständige Menge von dichte-basierten Clustern bzgl. ɛ und MinP ts in O Noise CL ( Rauschen ): Menge aller Objekte aus O, die nicht zu einem der dichte-basierten Cluster C i gehören Grundlegende Eigenschaft Sei C ein dichte-basierter Cluster und sei p C ein Kernobjekt. Dann gilt: C = {o O odichte erreichbar von p bzgl.ɛminp ts} Algorithmus DBSCAN DBSCAN(Objektmenge D, Real e, Integer MinPts) // Zu Beginn sind alle Objekte unklassifiziert, // o.clid = UNKLASSIFIZIERT für alle o Objektmenge ClusterId := nextid(noise); for i from 1 to D do Objekt := D.get(i); if Objekt.ClId = UNKLASSIFIZIERT then if ExpandiereCluster(D, Objekt, ClusterId, ɛ, MinPts) then ClusterId:=nextId(ClusterId); Heuristik zur Parameterbestimmung: k-distanzen aller Objekte absteigend sortiert

26 Hierarchische Verfahren Hierarchische Untergliederung ist einfach überschaubar Konstruktion einer Hierarchie von Clustern (Dendrogramm), so daß immer die Cluster mit minimaler Distanz verschmolzen werden Dendrogramm: ein Baum, dessen Knoten jeweils ein Cluster repräsentieren, mit folgenden Eigenschaften: die Wurzel repräsentiert die ganze DB die Blätter repräsentieren einzelne Objekte ein innerer Knoten repräsentiert einen Cluster bestehend aus allen Objekten des darunter liegenden Teilbaums Typen von hierarchischen Verfahren Bottom-Up Konstruktion des Dendrogramms (agglomerative) Top-Down Konstruktion des Dendrogramms (divisive)

27 Hierarchische Verfahren Algorithmus Single-Link: Agglomeratives hierarchisches Clustering (1) Bilde initiale Cluster, die jeweils aus einem Objekt bestehen, und bestimme die Distanzen zwischen allen Paaren dieser Cluster. (2) Bilde einen neuen Cluster aus den zwei Clustern, die die geringste Distanz zueinander haben. (3) Bestimme die Distanz zwischen dem neuen Cluster und allen anderen Clustern. (4) Wenn alle Objekte in einem einzigen Cluster befinden: Fertig, andernfalls wiederhole ab Schritt 2. Distanzfunktionen für Cluster auf der Grundlage des Distanzmaßes Single-Link: distsl(x, Y ) = min x X,y Y dist(x, y) Complete-Link: distcl(x, Y ) = max x X,y Y dist(x, y) Average-Link distal(x, Y ) = 1 X Y x X,y Y dist(x, y) Vor- und Nachteile: + erfordert keine Kenntnis der Anzahl k der Cluster + findet nicht nur ein flaches Clustering, sondern eine ganze Hierarchie + ein einzelnes Clustering kann aus dem Dendrogramm gewonnen werden, z.b. mit Hilfe eines horizontalen Schnitts durch das Dendrogramm (erfordert aber wieder Anwendungswissen) - Entscheidungen können nicht zurückgenommen werden - Anfälligkeit gegenüber Rauschen (Single-Link) eine Linie von Objekten kann zwei Cluster verbinden - Ineffizienz: Laufzeitkomplexität von mindestens O(n 2 ) für n Objekte

28 Dichte-basiertes hierarchisches Clustering für einen konstanten M inp ts-wert sind dichte-basierte Cluster bzgl. eines kleineren ɛ vollständig in Clustern bzgl. eines größeren ɛ enthalten in einem DBSCAN-ähnlichen Durchlauf gleichzeitig das Clustering für verschiedene Dichte-Parameter bestimmen zuerst die dichteren Teil-Cluster, dann den dünneren Rest-Cluster kein Dendrogramm, sondern eine auch noch bei sehr großen Datenmengen übersichtliche Darstellung der Cluster-Hierarchie Kerndistanz eines Objekts p bzgl. ɛ und MinP ts undef fallsn ɛ (n) < MinP ts, Kerndist ɛ,minp ts (o) = M inp tsdistanz(o) sonst. Erreichbarkeitsdistanz eines Objekts p relativ zu einem Objekt o Erreichdist ɛ,minp ts (o, p) = undef fallsn ɛ (n) < MinP ts, max(kerndist ɛ,minp ts (o), MinP tsdistanz(o)) sonst.

29 Outlier Detection Ermittlung von untypischen Daten Finde Ausreißer in den Daten An Outlier is an observation that deviates so much from other observations as to arouse suspicion that it was generated by a different mechanism Outlier sind alle Punkte, die nicht in einem Cluster liegen Anwendungen: Entdeckung von Mißbrauch etwa bei Kreditkarten Telekommunikation Datenfehler Beim Clustering: Rauschen (alle Punkte, die zu keinem Cluster gehören) Generell : keine allgemein gültige und akzeptierte Definition One person s noise could be another persons signal.

30 Depth-based: Identifikation von Outlier Jedes Objekt wird als ein Punk in einem d-dimensionalen Raum betrachtet. Die Tiefe der Objekte wird berechnet. Outlier haben eine kleinere Tiefe als die anderen Objekte. Theoretisch: gut auch für hochdimensionale Daten Praktisch: ineffizient für d 4, da die konvexe Hülle berechnet werden muß. Distance-based: Ein Objekt p in einem Datensatz D ist ein DB(pct,dmin)-Outlier (DB = distance-based), falls mindestens pct - Prozent von Objekten aus D eine größere Distanz als dmin zu p haben. Wahl von pct und dmin wird einem Experten überlassen. Theoretisch und praktisch: harte Separation

31 Klassifikation Lerne aus den bereits klassifizierten Trainingsdaten Regeln, um neue Objekte nur aufgrund der Merkmale zu klassifizieren Ergebnismerkmal (Klassenvariable) ist nominal (kategorisch) Anwendung: Neugeborenen-Screening Blutprobe des Neugeborenen; Massenspektrometrie; Metabolitenspektrum 14 analysierte Aminosäuren: alanine, arginine, argininosuccinate, citrulline, glutamate (als neuer unbekannter Marker), glycine, leuzine+isoleuzine, methionine, ornitine, phenylalanine, pyroglutamate, serine, tyrosine, valine Gegeben: Menge O von Objekten des Formats (o 1,..., o d ) mit Attributen A i, 1 i d und Klassenzugehörigkeit c i, c i C = {c 1,..., c k } Gesucht: Klassenzugehörigkeit für Objekte aus D \ O mit Klassifikator K : D C Abgrenzung zum Clustering: Klassifikation: Klassen a priori bekannt Clustering: Klassen werden erst gesucht Verwandtes Problem: Vorhersage (Prediction) (gesucht ist der Wert für ein numerisches Attribut, Methode z.b. Regression)

32 Bewertung von Klassifikatoren Sei K ein Klassifikator und sei T R O die Trainingsmenge. O D ist die Menge der Objekte, bei denen die Klassenzugehörigkeit bereits bekannt ist Problem der Bewertung: gewünscht ist gute Performanz auf ganz D. Klassifikator ist für T R optimiert. Test auf T R erzeugt in der Regel viel bessere Ergebnisse, als auf D \ T R. Daher kein realistisches Bild der Performanz auf D. Overfitting Train-and-Test Bewertung ohne Overfitting durch Aufteilen von O in : Trainingsmenge T R zum Lernen des Klassifikators (Konstruktion des Modells) Testmenge T E zum Bewerten des Klassifikators Train-and-Test nicht anwendbar, wenn nur wenige Objekte mit bekannter Klassenzugehörigkeit Stattdessen: m-fache Überkreuz-Validierung (m-fold Cross-Validation) m-fache Überkreuz-Validierung - teile die Menge O in m gleich große Teilmengen - verwende jeweils m-1 Teilmengen zum Training und die verbleibende Teilmenge zur Bewertung - kombiniere die erhaltenen m Klassifikationsfehler (und die m gefundenen Modelle!)

33 Klassifikatoren K - Klassifikator, T R O - Trainingsmenge, T E O - Testmenge. C(o) - Klasse eines Objekts o T i := {o T E C(o) = i} C i = {o T E K(o) = i} Klassifikationsgenauigkeit (classification accuracy) von K auf T E G T E (K) = {o T E K(o)=C(o)} T E Tatsächlicher Klassifikationsfehler (true classification error) F T E (K) = {o T E K(o) C(o)} T E Beobachteter Klassifikationsfehler (apparent classification error) F T R (K) = {o T R K(o) C(o)} T R Precision: Anzahl der Objekte aus einer Klasse, die richtig erkannt wurden P recision T E (K, i) = {o T i K(o)=C(o)} T i Recall: Anzahl der C i -Objekte, die richtig erkannt wurden Recall T E (K, i) = {o C i K(o)=C(o)} C i Kompaktheit des Modells z.b. Größe eines Entscheidungsbaums Interpretierbarkeit des Modells z.b. wieviel Einsichten vermittelt das Modell dem Benutzer Effizienz der Konstruktion des Modells bzw. der Anwendung des Modells Skalierbarkeit für große Datenmengen, für sekundärspeicherresidente Daten Robustheit gegenüber Rauschen und fehlenden Werten

34 Bayes-Klassifikatoren Statistische Klassifikatoren: Vorhersage der Class-Membership- Probability für verschiedene Klassen Verschiedene Verfahren: Naiver Bayes-Klassifikator: Relativ einfach zu implementierendes Verfahren; beruht auf Annahme der Unabhängigkeit zwischen den einzelnen Merkmalen (naiv) Bayes-Netzwerk (Bayesian Belief Network): Mögliche Abhängigkeiten zwischen Merkmalen werden in Form eines Graphen modelliert, der entweder durch den Benutzer vorgegeben wird oder durch das System selbst gelernt wird. Regeln und Fakten als bedingte Wahrscheinlichkeiten A-Priori-Wahrscheinlichkeiten modellieren Faktenwissen über die Häufigkeit einer Klasse und das Auftreten von Merkmalen A-Priori Wahrsch. f. Klassenzugehörigk: 20% - Äpfel; 30% - Orangen A-Priori Merkmalshäufigkeit: 50% rund; 40% orange Bedingte Wahrscheinlichkeiten ( A-Posteriori ) modellieren Zusammenhänge zwischen Klassen und Merkmalen: 100% der Orangen sind rund: P (rund Orange) = 100% 100% der Äpfel sind rund: P (rund Apfel) = 100% 90% der Orangen sind orange: P (orange Orange) = 90%

35 Bayes-Klassifikatoren Kontinuierliche metrische Merkmale können diskret approximiert werden oder als Wahrscheinlichkeits-Dichtefunktion definiert werden Bayes-Klassifikator schätzt die Wahrscheinlichkeit der Klassenzugehörigkeit eines Merkmalsvektors Zur eindeutigen Zuordnung eines Klassen-Labels geht man meist nach dem Prinzip Maximum Likelihood vor Annahme der bedingten Unabhängigkeit beim naiven Bayes-Klassifikator P (M 1 M 2 C) = P (M 1 C) P (M 2 C) Bayes-Netzwerke: Graph mit Knoten = Zufallsvariable (Tabelle der bedingten Wahrscheinlichkeiten); Kante = bedingte Abhängigkeit mit Trainieren des Netzwerkes (geg. Netzwerk-Struktur und bekannten Zufallsvariablen; geg. Netzwerk-Struktur und teilweise unbekannten Zufallsvariablen; a priori unbekannter Netzwerk-Struktur) Streichen der Kanten, die keinen sgewinn bringen + hohe Klassifikationsgenauigkeit in vielen Anwendungen + Inkrementalität: Klassifikator einfach an neue Trainingsobjekte adaptierbar + Einbezug von Anwendungswissen - Anwendbarkeit: erforderliche bedingten Wahrscheinlichkeiten oft unbekannt - Ineffizienz bei sehr vielen Attributen (insbesondere Bayes-Netzwerke)

36 Nächste-Nachbarn-Klassifikatoren Instanzbasiertes Lernen (instance based learning) Interpretiere Häufigkeit einer Klasse in der Entscheidungsmenge als Wahrscheinlichkeit der Klassenzugehörigkeit Einfachster Nächste-Nachbar-Klassifikator: Zuordnung zu der Klasse des nächsten Nachbarpunkts Verbesserung: k-nächste-nachbarn-klassifikator (Suche von k zur Optimierung) Regionen der Klassenzuordnung können als Voronoi-Diagramme dargestellt werden Entscheidungsregel: wähle die Mehrheitsklasse der Entscheidungsmenge Gewichte die Klassen der Entscheidungsmenge Anwendungsbeispiel: Hipparcos-Katalog ( Sterne mit 78 Attributen, Klassenattribut: Spektraltyp (Attribut H76))

37 Entscheidungsbaum-Klassifikatoren einfach, deshalb oft im Vordergrund, overfitting-sensitiv Entscheidungsbaum: Baum mit innerer Knoten repräsentiert ein Attribut Kante repräsentiert einen Test auf dem Attribut des Vaterknotens Blatt (mit Pfad) repräsentiert eine der Klassen Top-Down Konstruktion eines Entscheidungsbaums anhand der Trainingsmenge Attribut wird ausgewählt (Splitstrategie) und genutzt zur Partitionierung Anwendung eines Entscheidungsbaums Durchlauf des Entscheidungsbaum von der Wurzel zu einem der Blätter in eindeutigem Pfad Zuordnung des Objekts zur Klasse des erreichten Blatts lokal optimierender Algorithmus sgewinn des Attributs A für T mit Partitionierung T 1, T 2,..., T m : InfoGewinn(T, A) = entropie(t ) m T i i=1 entropie(t T i)

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen 7. Clusteranalyse (= Häufungsanalyse; Clustering-Verfahren) wird der multivariaten Statistik zugeordnet Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut,

Mehr

Inhalt dieses Kapitels. Ziel des Clustering, Anwendungen, Typen von Clustering-Algorithmen

Inhalt dieses Kapitels. Ziel des Clustering, Anwendungen, Typen von Clustering-Algorithmen 2. Clustering Inhalt dieses Kapitels 3. Einleitung Ziel des Clustering, Anwendungen, Typen von Clustering-Algorithmen 3.2 Partitionierende Verfahren k-means, k-medoid, Expectation Maximization, Initialisierung

Mehr

Kapitel 5: Clustering

Kapitel 5: Clustering Ludwig Maximilians Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Wintersemester 2006/2007 Kapitel

Mehr

Kapitel 4: Data Mining

Kapitel 4: Data Mining LUDWIG- MAXIMILIANS- UNIVERSITY MUNICH DEPARTMENT INSTITUTE FOR INFORMATICS Skript zur Vorlesung: Einführung in die Informatik: Systeme und Anwendungen Sommersemester 2017 Kapitel 4: Data Mining Vorlesung:

Mehr

Hauptseminar KDD SS 2002

Hauptseminar KDD SS 2002 Hauptseminar KDD SS 2002 Prof. Dr. Hans-Peter Kriegel Eshref Januzaj Karin Kailing Peer Kröger Matthias Schubert Session: Clustering HS KDD, Ludwig-Maximilians-Universität München, SS 2002 1 Inhalt Einleitung

Mehr

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002) 6. Bayes-Klassifikation (Schukat-Talamazzini 2002) (Böhm 2003) (Klawonn 2004) Der Satz von Bayes: Beweis: Klassifikation mittels des Satzes von Bayes (Klawonn 2004) Allgemeine Definition: Davon zu unterscheiden

Mehr

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,

Mehr

Kapitel 4: Data Mining

Kapitel 4: Data Mining LUDWIG- MAXIMILIANS- UNIVERSITY MUNICH DEPARTMENT INSTITUTE FOR INFORMATICS Skript zur Vorlesung: Einführung in die Informatik: Systeme und Anwendungen Sommersemester 2011 Kapitel 4: Data Mining Vorlesung:

Mehr

Exploration und Klassifikation von BigData

Exploration und Klassifikation von BigData Exploration und Klassifikation von BigData Inhalt Einführung Daten Data Mining: Vorbereitungen Clustering Konvexe Hülle Fragen Google: Riesige Datenmengen (2009: Prozessieren von 24 Petabytes pro Tag)

Mehr

Kapitel 1: Einleitung

Kapitel 1: Einleitung Ludwig Maximilians Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Wintersemester 2003/2004 Kapitel

Mehr

Künstliche Intelligenz Maschinelles Lernen

Künstliche Intelligenz Maschinelles Lernen Künstliche Intelligenz Maschinelles Lernen Stephan Schwiebert Sommersemester 2009 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Maschinelles Lernen Überwachtes Lernen

Mehr

4. Lernen von Entscheidungsbäumen. Klassifikation mit Entscheidungsbäumen. Entscheidungsbaum

4. Lernen von Entscheidungsbäumen. Klassifikation mit Entscheidungsbäumen. Entscheidungsbaum 4. Lernen von Entscheidungsbäumen Klassifikation mit Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch /Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse zugeordnet werden.

Mehr

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining Gliederung 1. Einführung 2. Grundlagen Data Mining Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining 3. Ausgewählte Methoden des Data

Mehr

Clustering Seminar für Statistik

Clustering Seminar für Statistik Clustering Markus Kalisch 03.12.2014 1 Ziel von Clustering Finde Gruppen, sodas Elemente innerhalb der gleichen Gruppe möglichst ähnlich sind und Elemente von verschiedenen Gruppen möglichst verschieden

Mehr

Data Mining: Einige Grundlagen aus der Stochastik

Data Mining: Einige Grundlagen aus der Stochastik Data Mining: Einige Grundlagen aus der Stochastik Hagen Knaf Studiengang Angewandte Mathematik Hochschule RheinMain 21. Oktober 2015 Vorwort Das vorliegende Skript enthält eine Zusammenfassung verschiedener

Mehr

Kapitel 4: Data Mining DATABASE SYSTEMS GROUP. Überblick. 4.1 Einleitung. 4.2 Clustering. 4.3 Klassifikation

Kapitel 4: Data Mining DATABASE SYSTEMS GROUP. Überblick. 4.1 Einleitung. 4.2 Clustering. 4.3 Klassifikation Überblick 4.1 Einleitung 4.2 Clustering 4.3 Klassifikation 1 Klassifikationsproblem Gegeben: eine Menge O D von Objekten o = (o 1,..., o d ) O mit Attributen A i, 1 i d eine Menge von Klassen C = {c 1,...,c

Mehr

WEKA A Machine Learning Interface for Data Mining

WEKA A Machine Learning Interface for Data Mining WEKA A Machine Learning Interface for Data Mining Frank Eibe, Mark Hall, Geoffrey Holmes, Richard Kirkby, Bernhard Pfahringer, Ian H. Witten Reinhard Klaus Losse Künstliche Intelligenz II WS 2009/2010

Mehr

Primzahlen und RSA-Verschlüsselung

Primzahlen und RSA-Verschlüsselung Primzahlen und RSA-Verschlüsselung Michael Fütterer und Jonathan Zachhuber 1 Einiges zu Primzahlen Ein paar Definitionen: Wir bezeichnen mit Z die Menge der positiven und negativen ganzen Zahlen, also

Mehr

Data Mining-Modelle und -Algorithmen

Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining ist ein Prozess, bei dem mehrere Komponenten i n- teragieren. Sie greifen auf Datenquellen, um diese zum Training,

Mehr

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002)

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002) 3. Entscheidungsbäume Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002) (aus Wilhelm 2001) Beispiel: (aus Böhm 2003) Wann sind Entscheidungsbäume

Mehr

Entscheidungsbäume. Definition Entscheidungsbaum. Frage: Gibt es einen Sortieralgorithmus mit o(n log n) Vergleichen?

Entscheidungsbäume. Definition Entscheidungsbaum. Frage: Gibt es einen Sortieralgorithmus mit o(n log n) Vergleichen? Entscheidungsbäume Frage: Gibt es einen Sortieralgorithmus mit o(n log n) Vergleichen? Definition Entscheidungsbaum Sei T ein Binärbaum und A = {a 1,..., a n } eine zu sortierenden Menge. T ist ein Entscheidungsbaum

Mehr

Seminar Business Intelligence Teil II. Data Mining & Knowledge Discovery

Seminar Business Intelligence Teil II. Data Mining & Knowledge Discovery Seminar Business Intelligence Teil II Data Mining & Knowledge Discovery Was ist Data Mining? Sabine Queckbörner Was ist Data Mining? Data Mining Was ist Data Mining? Nach welchen Mustern wird gesucht?

Mehr

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7.

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7. Semestralklausur zur Vorlesung Web Mining Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7. 2004 Name: Vorname: Matrikelnummer: Fachrichtung: Punkte: (1).... (2)....

Mehr

Kapitel 4: Data Mining

Kapitel 4: Data Mining LUDWIG- MAXIMILIANS- UNIVERSITY MUNICH DEPARTMENT INSTITUTE FOR INFORMATICS Skript zur Vorlesung: Einführung in die Informatik: Systeme und Anwendungen Sommersemester 2013 Kapitel 4: Data Mining i Vorlesung:

Mehr

Data Mining und maschinelles Lernen

Data Mining und maschinelles Lernen Data Mining und maschinelles Lernen Einführung und Anwendung mit WEKA Caren Brinckmann 16. August 2000 http://www.coli.uni-sb.de/~cabr/vortraege/ml.pdf http://www.cs.waikato.ac.nz/ml/weka/ Inhalt Einführung:

Mehr

3.1 Konstruktion von minimalen Spannbäumen Es gibt zwei Prinzipien für die Konstruktion von minimalen Spannbäumen (Tarjan): blaue Regel rote Regel

3.1 Konstruktion von minimalen Spannbäumen Es gibt zwei Prinzipien für die Konstruktion von minimalen Spannbäumen (Tarjan): blaue Regel rote Regel 3.1 Konstruktion von minimalen Spannbäumen Es gibt zwei Prinzipien für die Konstruktion von minimalen Spannbäumen (Tarjan): blaue Regel rote Regel EADS 3.1 Konstruktion von minimalen Spannbäumen 16/36

Mehr

Objektorientierte Programmierung

Objektorientierte Programmierung Objektorientierte Programmierung 1 Geschichte Dahl, Nygaard: Simula 67 (Algol 60 + Objektorientierung) Kay et al.: Smalltalk (erste rein-objektorientierte Sprache) Object Pascal, Objective C, C++ (wiederum

Mehr

Theoretische Grundlagen der Informatik

Theoretische Grundlagen der Informatik Theoretische Grundlagen der Informatik Vorlesung am 12.01.2012 INSTITUT FÜR THEORETISCHE 0 KIT 12.01.2012 Universität des Dorothea Landes Baden-Württemberg Wagner - Theoretische und Grundlagen der Informatik

Mehr

15 Optimales Kodieren

15 Optimales Kodieren 15 Optimales Kodieren Es soll ein optimaler Kodierer C(T ) entworfen werden, welcher eine Information (z.b. Text T ) mit möglichst geringer Bitanzahl eindeutig überträgt. Die Anforderungen an den optimalen

Mehr

4. Jeder Knoten hat höchstens zwei Kinder, ein linkes und ein rechtes.

4. Jeder Knoten hat höchstens zwei Kinder, ein linkes und ein rechtes. Binäre Bäume Definition: Ein binärer Baum T besteht aus einer Menge von Knoten, die durch eine Vater-Kind-Beziehung wie folgt strukturiert ist: 1. Es gibt genau einen hervorgehobenen Knoten r T, die Wurzel

Mehr

2. Lernen von Entscheidungsbäumen

2. Lernen von Entscheidungsbäumen 2. Lernen von Entscheidungsbäumen Entscheidungsbäume 2. Lernen von Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch Attribut/Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse

Mehr

Grundbegriffe der Informatik

Grundbegriffe der Informatik Grundbegriffe der Informatik Einheit 15: Reguläre Ausdrücke und rechtslineare Grammatiken Thomas Worsch Universität Karlsruhe, Fakultät für Informatik Wintersemester 2008/2009 1/25 Was kann man mit endlichen

Mehr

Data Cube. Aggregation in SQL. Beispiel: Autoverkäufe. On-line Analytical Processing (OLAP) 1. Einführung. 2. Aggregation in SQL, GROUP BY

Data Cube. Aggregation in SQL. Beispiel: Autoverkäufe. On-line Analytical Processing (OLAP) 1. Einführung. 2. Aggregation in SQL, GROUP BY Data Cube On-line Analytical Processing (OLAP). Einführung Ziel: Auffinden interessanter Muster in großen Datenmengen 2. Aggregation in SQL, GROUP BY 3. Probleme mit GROUP BY 4. Der Cube-Operator! Formulierung

Mehr

Mining High-Speed Data Streams

Mining High-Speed Data Streams Mining High-Speed Data Streams Pedro Domingos & Geoff Hulten Departement of Computer Science & Engineering University of Washington Datum : 212006 Seminar: Maschinelles Lernen und symbolische Ansätze Vortragender:

Mehr

Lineare Gleichungssysteme

Lineare Gleichungssysteme Lineare Gleichungssysteme 1 Zwei Gleichungen mit zwei Unbekannten Es kommt häufig vor, dass man nicht mit einer Variablen alleine auskommt, um ein Problem zu lösen. Das folgende Beispiel soll dies verdeutlichen

Mehr

Suche schlecht beschriftete Bilder mit Eigenen Abfragen

Suche schlecht beschriftete Bilder mit Eigenen Abfragen Suche schlecht beschriftete Bilder mit Eigenen Abfragen Ist die Bilderdatenbank über einen längeren Zeitraum in Benutzung, so steigt die Wahrscheinlichkeit für schlecht beschriftete Bilder 1. Insbesondere

Mehr

11.3 Komplexe Potenzreihen und weitere komplexe Funktionen

11.3 Komplexe Potenzreihen und weitere komplexe Funktionen .3 Komplexe Potenzreihen und weitere komplexe Funktionen Definition.) komplexe Folgen: z n = x n + j. y n mit zwei reellen Folgen x n und y n.) Konvergenz: Eine komplexe Folge z n = x n + j. y n heißt

Mehr

Constraint-Algorithmen in Kürze - Mit der Lösung zur Path-Consistency-Aufgabe 9

Constraint-Algorithmen in Kürze - Mit der Lösung zur Path-Consistency-Aufgabe 9 Constraint-Algorithmen in Kürze - Mit der Lösung zur Path-Consistency-Aufgabe 9 Prof. Dr. W. Conen Version 1.0c Januar 2009 Genereller Ablauf der Suche Gegeben: Variablen X, Domains D, Constraints R (explizit

Mehr

WS 2009/10. Diskrete Strukturen

WS 2009/10. Diskrete Strukturen WS 2009/10 Diskrete Strukturen Prof. Dr. J. Esparza Lehrstuhl für Grundlagen der Softwarezuverlässigkeit und theoretische Informatik Fakultät für Informatik Technische Universität München http://www7.in.tum.de/um/courses/ds/ws0910

Mehr

Verhindert, dass eine Methode überschrieben wird. public final int holekontostand() {...} public final class Girokonto extends Konto {...

Verhindert, dass eine Methode überschrieben wird. public final int holekontostand() {...} public final class Girokonto extends Konto {... PIWIN I Kap. 8 Objektorientierte Programmierung - Vererbung 31 Schlüsselwort: final Verhindert, dass eine Methode überschrieben wird public final int holekontostand() {... Erben von einer Klasse verbieten:

Mehr

Kapitel MK:IV. IV. Modellieren mit Constraints

Kapitel MK:IV. IV. Modellieren mit Constraints Kapitel MK:IV IV. Modellieren mit Constraints Einführung und frühe Systeme Konsistenz I Binarization Generate-and-Test Backtracking-basierte Verfahren Konsistenz II Konsistenzanalyse Weitere Analyseverfahren

Mehr

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!. 040304 Übung 9a Analysis, Abschnitt 4, Folie 8 Die Wahrscheinlichkeit, dass bei n - maliger Durchführung eines Zufallexperiments ein Ereignis A ( mit Wahrscheinlichkeit p p ( A ) ) für eine beliebige Anzahl

Mehr

3.3 Nächste-Nachbarn-Klassifikatoren

3.3 Nächste-Nachbarn-Klassifikatoren 3.3 Nächste-Nachbarn-Klassifikatoren Schrauben Nägel Klammern Neues Objekt Instanzbasiertes Lernen (instance based learning) Einfachster Nächste-Nachbar-Klassifikator: Zuordnung zu der Klasse des nächsten

Mehr

Data Mining-Projekte

Data Mining-Projekte Data Mining-Projekte Data Mining-Projekte Data Mining stellt normalerweise kein ei nmaliges Projekt dar, welches Erkenntnisse liefert, die dann nur einmal verwendet werden, sondern es soll gewöhnlich ein

Mehr

Häufige Item-Mengen: die Schlüssel-Idee. Vorlesungsplan. Apriori Algorithmus. Methoden zur Verbessung der Effizienz von Apriori

Häufige Item-Mengen: die Schlüssel-Idee. Vorlesungsplan. Apriori Algorithmus. Methoden zur Verbessung der Effizienz von Apriori Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,

Mehr

Anmerkungen zur Übergangsprüfung

Anmerkungen zur Übergangsprüfung DM11 Slide 1 Anmerkungen zur Übergangsprüfung Aufgabeneingrenzung Aufgaben des folgenden Typs werden wegen ihres Schwierigkeitsgrads oder wegen eines ungeeigneten fachlichen Schwerpunkts in der Übergangsprüfung

Mehr

Seminar Text- und Datamining Datamining-Grundlagen

Seminar Text- und Datamining Datamining-Grundlagen Seminar Text- und Datamining Datamining-Grundlagen Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 23.05.2013 Gliederung 1 Klassifikationsprobleme 2 Evaluation

Mehr

Universität Bonn 28. Juli 2010 Fachbereich Rechts- und Wirtschaftswissenschaften Statistische Abteilung Prof. Dr. A. Kneip. KLAUSUR Statistik B

Universität Bonn 28. Juli 2010 Fachbereich Rechts- und Wirtschaftswissenschaften Statistische Abteilung Prof. Dr. A. Kneip. KLAUSUR Statistik B Universität Bonn 28. Juli 2010 Fachbereich Rechts- und Wirtschaftswissenschaften Statistische Abteilung Prof. Dr. A. Kneip Sommersemester 2010 KLAUSUR Statistik B Hinweise zur Bearbeitung: Bei allen Teilaufgaben

Mehr

Vorlesung Text und Data Mining S9 Text Clustering. Hans Hermann Weber Univ. Erlangen, Informatik

Vorlesung Text und Data Mining S9 Text Clustering. Hans Hermann Weber Univ. Erlangen, Informatik Vorlesung Text und Data Mining S9 Text Clustering Hans Hermann Weber Univ. Erlangen, Informatik Document Clustering Überblick 1 Es gibt (sehr viele) verschiedene Verfahren für das Bilden von Gruppen Bei

Mehr

Maximizing the Spread of Influence through a Social Network

Maximizing the Spread of Influence through a Social Network 1 / 26 Maximizing the Spread of Influence through a Social Network 19.06.2007 / Thomas Wener TU-Darmstadt Seminar aus Data und Web Mining bei Prof. Fürnkranz 2 / 26 Gliederung Einleitung 1 Einleitung 2

Mehr

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren Lineargleichungssysteme: Additions-/ Subtraktionsverfahren W. Kippels 22. Februar 2014 Inhaltsverzeichnis 1 Einleitung 2 2 Lineargleichungssysteme zweiten Grades 2 3 Lineargleichungssysteme höheren als

Mehr

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage:

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage: Zählen und Zahlbereiche Übungsblatt 1 1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage: Für alle m, n N gilt m + n = n + m. in den Satz umschreiben:

Mehr

Das große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten

Das große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten Das große x -4 Alles über das Wer kann beantragen? Generell kann jeder beantragen! Eltern (Mütter UND Väter), die schon während ihrer Elternzeit wieder in Teilzeit arbeiten möchten. Eltern, die während

Mehr

Einführung. Vorlesungen zur Komplexitätstheorie: Reduktion und Vollständigkeit (3) Vorlesungen zur Komplexitätstheorie. K-Vollständigkeit (1/5)

Einführung. Vorlesungen zur Komplexitätstheorie: Reduktion und Vollständigkeit (3) Vorlesungen zur Komplexitätstheorie. K-Vollständigkeit (1/5) Einführung 3 Vorlesungen zur Komplexitätstheorie: Reduktion und Vollständigkeit (3) Univ.-Prof. Dr. Christoph Meinel Hasso-Plattner-Institut Universität Potsdam, Deutschland Hatten den Reduktionsbegriff

Mehr

Alignment-Verfahren zum Vergleich biologischer Sequenzen

Alignment-Verfahren zum Vergleich biologischer Sequenzen zum Vergleich biologischer Sequenzen Hans-Joachim Böckenhauer Dennis Komm Volkshochschule Zürich. April Ein biologisches Problem Fragestellung Finde eine Methode zum Vergleich von DNA-Molekülen oder Proteinen

Mehr

Agile Software Development

Agile Software Development Dipl. Wirtsch. Ing. Alexander Werth Methoden der Softwareentwicklung 6-1 Agile Manifest Individuen und Interaktion statt Prozessen und Tools. Funktionierende Software statt umfangreicher Dokumentation.

Mehr

Whitebox-Tests: Allgemeines

Whitebox-Tests: Allgemeines -Tests: Allgemeines Andere Bezeichnungen Logic driven, Strukturelles Der Tester entwickelt Testfälle aus einer Betrachtung der Ablauflogik des Programms unter Berücksichtigung der Spezifikation Intuitiv

Mehr

DPF Dynamic Partial distance Function

DPF Dynamic Partial distance Function DPF Dynamic Partial distance Function Vorgelegt von Sebastian Loose (MatrikelNR.: 169172), Computervisualistikstudent im 4. Semester. Hausarbeit zum Papier DPF A Perceptual Distance Function for Image

Mehr

Universität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme

Universität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme Universität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme Studienprojekt Invisible Web (Dipl.-Inform. Gudrun Fischer - WS 2003/04) Blockseminar

Mehr

Data Mining Anwendungen und Techniken

Data Mining Anwendungen und Techniken Data Mining Anwendungen und Techniken Knut Hinkelmann DFKI GmbH Entdecken von Wissen in banken Wissen Unternehmen sammeln ungeheure mengen enthalten wettbewerbsrelevantes Wissen Ziel: Entdecken dieses

Mehr

Übungen zu Einführung in die Informatik: Programmierung und Software-Entwicklung: Lösungsvorschlag

Übungen zu Einführung in die Informatik: Programmierung und Software-Entwicklung: Lösungsvorschlag Ludwig-Maximilians-Universität München WS 2015/16 Institut für Informatik Übungsblatt 13 Prof. Dr. R. Hennicker, A. Klarl Übungen zu Einführung in die Informatik: Programmierung und Software-Entwicklung:

Mehr

Statistische Thermodynamik I Lösungen zur Serie 1

Statistische Thermodynamik I Lösungen zur Serie 1 Statistische Thermodynamik I Lösungen zur Serie Zufallsvariablen, Wahrscheinlichkeitsverteilungen 4. März 2. Zwei Lektoren lesen ein Buch. Lektor A findet 2 Druckfehler, Lektor B nur 5. Von den gefundenen

Mehr

Erzeugung zufälliger Graphen und Bayes-Netze

Erzeugung zufälliger Graphen und Bayes-Netze Erzeugung zufälliger Graphen und Bayes-Netze Proseminar Algorithmen auf Graphen Georg Lukas, IF2000 2002-07-09 E-Mail: georg@op-co.de Folien: http://op-co.de/bayes/ Gliederung 1. Einleitung 2. einfache

Mehr

Vorkurs C++ Programmierung

Vorkurs C++ Programmierung Vorkurs C++ Programmierung Klassen Letzte Stunde Speicherverwaltung automatische Speicherverwaltung auf dem Stack dynamische Speicherverwaltung auf dem Heap new/new[] und delete/delete[] Speicherklassen:

Mehr

1 Mathematische Grundlagen

1 Mathematische Grundlagen Mathematische Grundlagen - 1-1 Mathematische Grundlagen Der Begriff der Menge ist einer der grundlegenden Begriffe in der Mathematik. Mengen dienen dazu, Dinge oder Objekte zu einer Einheit zusammenzufassen.

Mehr

Literatur. Dominating Set (DS) Dominating Sets in Sensornetzen. Problem Minimum Dominating Set (MDS)

Literatur. Dominating Set (DS) Dominating Sets in Sensornetzen. Problem Minimum Dominating Set (MDS) Dominating Set 59 Literatur Dominating Set Grundlagen 60 Dominating Set (DS) M. V. Marathe, H. Breu, H.B. Hunt III, S. S. Ravi, and D. J. Rosenkrantz: Simple Heuristics for Unit Disk Graphs. Networks 25,

Mehr

Kapiteltests zum Leitprogramm Binäre Suchbäume

Kapiteltests zum Leitprogramm Binäre Suchbäume Kapiteltests zum Leitprogramm Binäre Suchbäume Björn Steffen Timur Erdag überarbeitet von Christina Class Binäre Suchbäume Kapiteltests für das ETH-Leitprogramm Adressaten und Institutionen Das Leitprogramm

Mehr

Data Mining und Knowledge Discovery in Databases

Data Mining und Knowledge Discovery in Databases Data Mining und Knowledge Discovery in Databases Begriffsabgrenzungen... Phasen der KDD...3 3 Datenvorverarbeitung...4 3. Datenproblematik...4 3. Möglichkeiten der Datenvorverarbeitung...4 4 Data Mining

Mehr

QM: Prüfen -1- KN16.08.2010

QM: Prüfen -1- KN16.08.2010 QM: Prüfen -1- KN16.08.2010 2.4 Prüfen 2.4.1 Begriffe, Definitionen Ein wesentlicher Bestandteil der Qualitätssicherung ist das Prüfen. Sie wird aber nicht wie früher nach der Fertigung durch einen Prüfer,

Mehr

Fachbericht zum Thema: Anforderungen an ein Datenbanksystem

Fachbericht zum Thema: Anforderungen an ein Datenbanksystem Fachbericht zum Thema: Anforderungen an ein Datenbanksystem von André Franken 1 Inhaltsverzeichnis 1 Inhaltsverzeichnis 1 2 Einführung 2 2.1 Gründe für den Einsatz von DB-Systemen 2 2.2 Definition: Datenbank

Mehr

Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken

Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken Dateiname: ecdl5_01_00_documentation_standard.doc Speicherdatum: 14.02.2005 ECDL 2003 Basic Modul 5 Datenbank - Grundlagen

Mehr

Mengensysteme, Wahrscheinlichkeitsmaße

Mengensysteme, Wahrscheinlichkeitsmaße Kapitel 1 Mengensysteme, Wahrscheinlichkeitsmaße Der Großteil der folgenden fundamentalen Begriffe sind schon aus der Vorlesung Stochastische Modellbildung bekannt: Definition 1.1 Eine Familie A von Teilmengen

Mehr

Clusteranalyse. Multivariate Datenanalyse. Prof. Dr. Dietmar Maringer. Abteilung für Quantitative Methoden, WWZ der Universität Basel

Clusteranalyse. Multivariate Datenanalyse. Prof. Dr. Dietmar Maringer. Abteilung für Quantitative Methoden, WWZ der Universität Basel Clusteranalyse Multivariate Datenanalyse Prof. Dr. Dietmar Maringer Abteilung für Quantitative Methoden, WWZ der Universität Basel Herbstsemester 2013 D Maringer: Datenanalyse Clusteranalyse (1) Ausgangssituation

Mehr

Konzepte der Informatik

Konzepte der Informatik Konzepte der Informatik Vorkurs Informatik zum WS 2011/2012 26.09. - 30.09.2011 17.10. - 21.10.2011 Dr. Werner Struckmann / Christoph Peltz Stark angelehnt an Kapitel 1 aus "Abenteuer Informatik" von Jens

Mehr

Anhand des bereits hergeleiteten Models erstellen wir nun mit der Formel

Anhand des bereits hergeleiteten Models erstellen wir nun mit der Formel Ausarbeitung zum Proseminar Finanzmathematische Modelle und Simulationen bei Raphael Kruse und Prof. Dr. Wolf-Jürgen Beyn zum Thema Simulation des Anlagenpreismodels von Simon Uphus im WS 09/10 Zusammenfassung

Mehr

Stichprobenauslegung. für stetige und binäre Datentypen

Stichprobenauslegung. für stetige und binäre Datentypen Stichprobenauslegung für stetige und binäre Datentypen Roadmap zu Stichproben Hypothese über das interessierende Merkmal aufstellen Stichprobe entnehmen Beobachtete Messwerte abbilden Schluss von der Beobachtung

Mehr

Programmierkurs Java

Programmierkurs Java Programmierkurs Java Dr. Dietrich Boles Aufgaben zu UE16-Rekursion (Stand 09.12.2011) Aufgabe 1: Implementieren Sie in Java ein Programm, das solange einzelne Zeichen vom Terminal einliest, bis ein #-Zeichen

Mehr

Jan Parthey, Christin Seifert. 22. Mai 2003

Jan Parthey, Christin Seifert. 22. Mai 2003 Simulation Rekursiver Auto-Assoziativer Speicher (RAAM) durch Erweiterung eines klassischen Backpropagation-Simulators Jan Parthey, Christin Seifert jpar@hrz.tu-chemnitz.de, sech@hrz.tu-chemnitz.de 22.

Mehr

Theoretische Grundlagen der Informatik WS 09/10

Theoretische Grundlagen der Informatik WS 09/10 Theoretische Grundlagen der Informatik WS 09/10 - Tutorium 6 - Michael Kirsten und Kai Wallisch Sitzung 13 02.02.2010 Inhaltsverzeichnis 1 Formeln zur Berechnung Aufgabe 1 2 Hamming-Distanz Aufgabe 2 3

Mehr

Statistik I für Betriebswirte Vorlesung 5

Statistik I für Betriebswirte Vorlesung 5 Statistik I für Betriebswirte Vorlesung 5 PD Dr. Frank Heyde TU Bergakademie Freiberg Institut für Stochastik 07. Mai 2015 PD Dr. Frank Heyde Statistik I für Betriebswirte Vorlesung 5 1 Klassische Wahrscheinlichkeitsdefinition

Mehr

Wasserfall-Ansätze zur Bildsegmentierung

Wasserfall-Ansätze zur Bildsegmentierung Wasserfall-Ansätze zur Bildsegmentierung von Philipp Jester Seminar: Bildsegmentierung und Computer Vision 16.01.2006 Überblick 1. Problemstellung 2. Wiederholung: Wasserscheiden-Ansätze 3. Der Wasserfall-Ansatz

Mehr

Lehrstuhl für Betriebswirtschaftslehre mit Schwerpunkt Finanzierung. Klausur "Finanzmanagement" 14. März 2002

Lehrstuhl für Betriebswirtschaftslehre mit Schwerpunkt Finanzierung. Klausur Finanzmanagement 14. März 2002 1 Lehrstuhl für Betriebswirtschaftslehre mit Schwerpunkt Finanzierung Klausur "Finanzmanagement" 14. März 2002 Bearbeitungshinweise: - Die Gesamtbearbeitungsdauer beträgt 60 Minuten. - Schildern Sie ihren

Mehr

Suche in Spielbäumen Spielbäume Minimax Algorithmus Alpha-Beta Suche. Suche in Spielbäumen. KI SS2011: Suche in Spielbäumen 1/20

Suche in Spielbäumen Spielbäume Minimax Algorithmus Alpha-Beta Suche. Suche in Spielbäumen. KI SS2011: Suche in Spielbäumen 1/20 Suche in Spielbäumen Suche in Spielbäumen KI SS2011: Suche in Spielbäumen 1/20 Spiele in der KI Suche in Spielbäumen Spielbäume Minimax Algorithmus Alpha-Beta Suche Einschränkung von Spielen auf: 2 Spieler:

Mehr

Orderarten im Wertpapierhandel

Orderarten im Wertpapierhandel Orderarten im Wertpapierhandel Varianten bei einer Wertpapierkauforder 1. Billigst Sie möchten Ihre Order so schnell wie möglich durchführen. Damit kaufen Sie das Wertpapier zum nächstmöglichen Kurs. Kurs

Mehr

Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens

Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 17.04.2015 Entscheidungsprobleme beim Textmining

Mehr

Barrierefreie Webseiten erstellen mit TYPO3

Barrierefreie Webseiten erstellen mit TYPO3 Barrierefreie Webseiten erstellen mit TYPO3 Alternativtexte Für jedes Nicht-Text-Element ist ein äquivalenter Text bereitzustellen. Dies gilt insbesondere für Bilder. In der Liste der HTML 4-Attribute

Mehr

Lineare Gleichungssysteme

Lineare Gleichungssysteme Brückenkurs Mathematik TU Dresden 2015 Lineare Gleichungssysteme Schwerpunkte: Modellbildung geometrische Interpretation Lösungsmethoden Prof. Dr. F. Schuricht TU Dresden, Fachbereich Mathematik auf der

Mehr

Das Briefträgerproblem

Das Briefträgerproblem Das Briefträgerproblem Paul Tabatabai 30. Dezember 2011 Inhaltsverzeichnis 1 Problemstellung und Modellierung 2 1.1 Problem................................ 2 1.2 Modellierung.............................

Mehr

Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining

Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining Ausgangssituation Kaizen Data Mining ISO 9001 Wenn andere Methoden an ihre Grenzen stoßen Es gibt unzählige Methoden, die Abläufe

Mehr

2.5. VERBINDUNGSNETZWERKE GESTALTUNGSKRITERIEN DER NETZWERKE TOPOLOGIE ALS GRAPH. Vorlesung 5 TOPOLOGIE: DEFINITIONEN : Sei G = (V, E) ein Graph mit:

2.5. VERBINDUNGSNETZWERKE GESTALTUNGSKRITERIEN DER NETZWERKE TOPOLOGIE ALS GRAPH. Vorlesung 5 TOPOLOGIE: DEFINITIONEN : Sei G = (V, E) ein Graph mit: Vorlesung 5.5. VERBINDUNGSNETZWERKE Kommunikation zwischen den einzelnen Komponenten eines arallelrechners wird i.d.r. über ein Netzwerk organisiert. Dabei unterscheidet man zwei Klassen der Rechner: TOOLOGIE:

Mehr

1 topologisches Sortieren

1 topologisches Sortieren Wolfgang Hönig / Andreas Ecke WS 09/0 topologisches Sortieren. Überblick. Solange noch Knoten vorhanden: a) Suche Knoten v, zu dem keine Kante führt (Falls nicht vorhanden keine topologische Sortierung

Mehr

Im Folgenden wird Ihnen an einem Beispiel erklärt, wie Sie Excel-Anlagen und Excel-Vorlagen erstellen können.

Im Folgenden wird Ihnen an einem Beispiel erklärt, wie Sie Excel-Anlagen und Excel-Vorlagen erstellen können. Excel-Schnittstelle Im Folgenden wird Ihnen an einem Beispiel erklärt, wie Sie Excel-Anlagen und Excel-Vorlagen erstellen können. Voraussetzung: Microsoft Office Excel ab Version 2000 Zum verwendeten Beispiel:

Mehr

Basis und Dimension. Als nächstes wollen wir die wichtigen Begriffe Erzeugendensystem und Basis eines Vektorraums definieren.

Basis und Dimension. Als nächstes wollen wir die wichtigen Begriffe Erzeugendensystem und Basis eines Vektorraums definieren. Basis und Dimension Als nächstes wollen wir die wichtigen Begriffe Erzeugendensystem und Basis eines Vektorraums definieren. Definition. Sei V ein K-Vektorraum und (v i ) i I eine Familie von Vektoren

Mehr

Binäre Bäume. 1. Allgemeines. 2. Funktionsweise. 2.1 Eintragen

Binäre Bäume. 1. Allgemeines. 2. Funktionsweise. 2.1 Eintragen Binäre Bäume 1. Allgemeines Binäre Bäume werden grundsätzlich verwendet, um Zahlen der Größe nach, oder Wörter dem Alphabet nach zu sortieren. Dem einfacheren Verständnis zu Liebe werde ich mich hier besonders

Mehr

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über Güte von s Grundlegendes zum Konzept der Güte Ableitung der Gütefunktion des Gauss im Einstichprobenproblem Grafische Darstellung der Gütefunktionen des Gauss im Einstichprobenproblem Ableitung der Gütefunktion

Mehr

In diesem Thema lernen wir die Grundlagen der Datenbanken kennen und werden diese lernen einzusetzen. Access. Die Grundlagen der Datenbanken.

In diesem Thema lernen wir die Grundlagen der Datenbanken kennen und werden diese lernen einzusetzen. Access. Die Grundlagen der Datenbanken. In diesem Thema lernen wir die Grundlagen der Datenbanken kennen und werden diese lernen einzusetzen. Access Die Grundlagen der Datenbanken kurspc15 Inhaltsverzeichnis Access... Fehler! Textmarke nicht

Mehr

Wie optimiert man die Werbungserkennung von Ad- Detective?

Wie optimiert man die Werbungserkennung von Ad- Detective? Wie optimiert man die Werbungserkennung von Ad- Detective? Die Ad-Detective-Werbe-Erkennung von VideiReDo basiert auf der Erkennung von Schwarzwerten / scharzen Bildern, die die Werbeblöcke abgrenzen.

Mehr