Data Warehousing und Data Mining

Save this PDF as:
 WORD  PNG  TXT  JPG

Größe: px
Ab Seite anzeigen:

Download "Data Warehousing und Data Mining"

Transkript

1 Data Warehousing und Data Mining Clustering Ulf Leser Wissensmanagement in der Bioinformatik

2 Inhalt dieser Vorlesung Einführung Clustergüte Ähnlichkeiten Clustermitte Hierarchisches Clustering Partitionierendes Clustering Dichte-basiertes Clustering Ulf Leser: Data Warehousing und Data Mining 2

3 Clustering Finde Gruppen ähnlicher Objekte Ohne zu wissen wie viele Gruppen es geben soll Unsupervised learning Anwendungen Segmentiere Kunden in Gruppen Clustere Patienten in Verlaufsgruppen Finde Typen von Sternen in astronomischen Karten Welche Ergebnisse einer Websuche kommen aus dem selben Thema(encluster) Ulf Leser: Data Warehousing und Data Mining 3

4 Beispiel 1 Mtl Einkäufe Einkommen (geschlossen aus Wohnort) Ulf Leser: Data Warehousing und Data Mining 4

5 Beispiel 1 Mtl Einkäufe Vier Cluster und ein Ausreißer(-Cluster) Überlappungsfreie, konvexe Cluster Einkommen Ulf Leser: Data Warehousing und Data Mining 5

6 Beispiel 2 Mtl Einkäufe Zwei Cluster Besser? Einkommen Ulf Leser: Data Warehousing und Data Mining 6

7 Güte eines Clusterings Intuitiv ist eine Gruppierung gut, wenn innerhalb jedes Clusters alle Punkte nahe beieinander liegen Definition Sei f:o C mit C =k. Sei m c der Mittelpunkt aller Objekte der Klasse c C, und sei d(o,o ) der Abstand zwischen zwei Punkten. Dann ist die k-güte von f Bemerkung q ( f ) = d( o, k m c c C f ( o) = c Zur Bestimmung von Mittelpunkten kommen wir gleich Auch die Einschränkung auf k-güte erklärt sich gleich ) Ulf Leser: Data Warehousing und Data Mining 7

8 6-Güte Mittelpunkte bestimmen Abstand aller Punkte zu ihrem Mittelpunkt summieren Summe über alle Cluster Ulf Leser: Data Warehousing und Data Mining 8

9 Nachteil Optimales Clustering ohne Einschränkung auf k? Trivial mit k= O Score wird für größere k immer besser Ulf Leser: Data Warehousing und Data Mining 9

10 Güte bei fester Anzahl von Clustern k-güte ist als Maß nur dann sinnvoll, wenn die Anzahl an Clustern vorab feststeht Wenn k feststeht, ist Clustering ein Optimierungsproblem Finde für eine Menge O von Objekten eine Zuordnung f in k Cluster so, dass q k (f) minimal ist Aber: Problem ist NP-hart Praxis: Heuristiken (z.b. k-means) Score bei festem k ist sehr sensitiv bei Ausreißern Bilden sofort eigene Cluster Normale Objekte müssen in weniger Cluster gepackt werden Ausweg: Ausreißer vorab löschen Aber wie findet man die? Clustering! Ulf Leser: Data Warehousing und Data Mining 10

11 Inter/Intra-Cluster Bisher: Intra-Cluster Ähnlichkeit soll hoch sein Geringer mittlerer Abstand Intuitiv soll auch die Inter-Cluster Ähnlichkeit gering sein Großer Abstand jedes Punkt zu anderen Clustern Ein Maß, dass das berücksichtigt: Silhouette Ulf Leser: Data Warehousing und Data Mining 11

12 Silhouette Definition Sei f: O C mit C beliebig. Sei dist(o,c i ) der mittlere Abstand von o zu allen Punkten des Clusters C i. Dann Intra-Score: a(o) = dist(o,f(o)) Inter-Score: b(o) = min( dist(o,c i )), C i f(o) Die Silhouette eines Punktes s(o) ist Die Silhouette von f ist Σs(o) Bemerkung s( o) = s(o) 0: Punkt liegt zwischen zwei Clustern b( o) a( o) max( a( o), b( o)) s(o) 1: Punkt liegt näher am eigenen als am nächsten Cluster s(o) -1: Punkt liegt näher am nächsten Cluster als am eigenen Ulf Leser: Data Warehousing und Data Mining 12

13 Eigenschaften Silhouette verbessert sich nicht automatisch bei mehr Clustern s(o) eher höher s(o) eher niedriger Ulf Leser: Data Warehousing und Data Mining 13

14 Silhouette schlecht Zu welchem Cluster sollen diese Punkte gehören? Ulf Leser: Data Warehousing und Data Mining 14

15 Ähnlichkeit Wahl einer guten Abstandsfunktion ist essentiell Numerische Werte Euklidscher Abstand Betont große Abstände in einzelnen Dimensionen sehr stark Standard für metrische Werte Cosinus-Abstand: Differenz der Winkel der Featurevektoren Ausreißer in einzelnen Dimensionen zählen weniger Standard z.b. beim Text-Mining Kategoriale Werte: Anwendungsabhängig Ulf Leser: Data Warehousing und Data Mining 15

16 Die Mitte eines Clusters Was ist der Mittelpunkt eines Clusters? Numerische Werte Centroid: Mittelwert aller Punkte des Clusters Medoid: Der Median aller Punkte des Clusters Der mittlerste Punkt von C Nachteil: Berechnung eines Medoids ist teuer Vorteil: Weniger sensitiv bei Ausreißern Kategoriale Werte Centroid: i.a. nicht definiert Also muss man Medoid verwenden Ein Abstandsmaß braucht man so oder so Ulf Leser: Data Warehousing und Data Mining 16

17 Übersicht Hierarchisch: Erzeugt hierarchisch geschachtelte Cluster Benötigen kein k, sind aber eher teuer Berechnen eigentlich keine Cluster Partitionierend: Zerlegung der Punktmenge in k Cluster Schnell, nicht deterministisch Benötigen die Anzahl k der Cluster als Parameter Dichte-basierte: Sucht dichte Teilräume Subräumen mit hoher Punktdichte Tendenziell langsam Ulf Leser: Data Warehousing und Data Mining 17

18 Inhalt dieser Vorlesung Einführung Hierarchisches Clustering Partitionierendes Clustering Dichte-basiertes Clustering Ulf Leser: Data Warehousing und Data Mining 18

19 Hierarchisches Clustering Bottom-Up Berechnung eines binären Baums (Dendogramm) Algorithmus Berechne Abstandsmatrix M Alle d(o i, o j ), i j Wähle (o i, o j ) mit d(o i, o j )!= min Berechne x=mittel(o i,o j ) Lösche o i, o j aus M; füge x ein Berechne Abstand von x zu allen verbleibenden Objekten/Clustern in M Mittelwert der Abstände zu o i und o j Iteriere, bis M leer ist Ulf Leser: Data Warehousing und Data Mining 19

20 Beispiel: Ähnlichkeitsmatrix A B C D E F.. A B C D E 95.. F Ulf Leser: Data Warehousing und Data Mining 20

21 Ulf Leser: Data Warehousing und Data Mining 21 Iteration A B C D E F G ABCDEFG A B. C.. D... E... F... G... (B,D) a ACEFGa A C. E.. F... G... a... A B C D E F G ACGab A C. G.. a... b... (E,F) b A B C D E F G (A,b) c CGac C G. a.. c... A B C D E F G (C,G) d acd a c. d.. A B C D E F G (d,c) e A B C D E F G (a,e) f A B C D E F G ae a e.

22 Bespiel Genexpressionsdaten Ulf Leser: Data Warehousing und Data Mining 22

23 Festlegung von Clustern So... Das sind neun Cluster Ulf Leser: Data Warehousing und Data Mining 23

24 Alternative Oder so? Das sind 14 Cluster Ulf Leser: Data Warehousing und Data Mining 24

25 Geschachtelte Cluster Ulf Leser: Data Warehousing und Data Mining 25

26 Eigenschaften Vorteile Konzeptionell einfach, hübsche, irgendwie intuitive Grafiken Keine Festlegung auf Anzahl Cluster notwendig Nachteile Benötigt die Abstandsmatrix als Eingabe O =n: O(n 2 ) Platz und O(n 2 ) Zeit Dazu kommt Clustering selber: O(n 2 *log(n)) Berechnet keine Cluster Kaum anwendbar für viele (>10000) Objekte Ulf Leser: Data Warehousing und Data Mining 26

27 SQL - Distanzmatrix Annahmen Alle Objekte und ihre Attribute a, b, in Tabelle objects (o 1,x 1,y 1,z 1 ), (o 2,x 2,y 2,z 2 ), (o 3,x 3,y 3,z 3 ), Numerische Attribute Euklidischer Abstand Berechnung der Distanzmatrix M? SELECT t1.oid, t2.oid, sqrt(sqr(t1.a-t2.a)+sqr(t1.b-t2.b)+ ) FROM objects t1, objects t2 WHERE t1.oid>t2.oid; Ulf Leser: Data Warehousing und Data Mining 27

28 SQL Iteration Distanzmatrix materialisieren (teuer) Tabelle distance Anlegen Ergebnistabelle cluster(oid1,oid2) Iteratives Berechnung auf distance Geht nicht mit einer Query Tabelle objects benötigen wir nicht mehr PL-SQL Programm mit n= O Durchläufen Finde Paar P=(o 1,o 2 ) in distance mit kleinstem Abstand Schnell mit Index auf Abstandspalte Speichere o 1,o 2 in cluster Füge Abstände von P zu allen restlichen Punkten ein in distance Löschen alle Tupel in distance, die ein Objekt aus P beinhalten Schnell mit Indexen auf OID1, OID2 Ulf Leser: Data Warehousing und Data Mining 28

29 Beispiel Distanzmatrix o1 o2 d 2 1? 3 1? 4 1? 5 1? 6 1? 7 1? 3 2? 4 2? Distanztabelle o1 o2 d 2 1? 3 1? 4 1? 5 1? 6 1? 7 1? 3 2? 4 2? 8 1? 8 4? Sei d(2,3)=min; Neuer Knoten 8 mit Abständen o1 o2 d 4 1? 5 1? 6 1? 7 1? 8 1? 8 4? Einträge mit 2 oder 3 löschen Ulf Leser: Data Warehousing und Data Mining 29

30 Berechnung neuer Abstände Bestimme $newid, $oldo1, $oldo2; Mittelwert der zwei alten Abstände INSERT INTO distance SELECT $newid, o.oid1, sum(d.dist)/2 FROM (SELECT distinct oid1 FROM distance WHERE OID1 not in ($oldo1, $oldo2)) o, distance d WHERE (d.oid1=o.oid1 and (d.oid2 = $oldo1 or $oid2=$oldo2)) or (d.oid2=o.oid1 and (d.oid1 = $oldo1 or $oid1=$oldo2)) GROUP BY o.oid1; Zu diesen Objekten müssen Abstände berechnet werden Abstände zu Objekte gruppieren Alte Abstände Objekte können links oder rechts stehen, selektiert werden immer nur 2 Tupel Ulf Leser: Data Warehousing und Data Mining 30

31 Inhalt dieser Vorlesung Einführung Hierarchisches Clustering Partitionierendes Clustering k-means k-medoid und CLARANS Dichte-basiertes Clustering Ulf Leser: Data Warehousing und Data Mining 31

32 K-Means Wahrscheinlich bekannteste Clusteringmethode Vielen Varianten Anzahl k von Clustern ist Eingabeparameter Berechnet lokales Optimum bezüglich k-güte Algorithmus Wähle zufällig k Clustermittelpunkte Iteriere Für alle Objekte Berechne Abstand jedes Objekts zu jedem Clustermittelpunkt Weise Objekt seinem nächsten Clustermittelpunkt zu Wenn sich keine Objektzuordnung mehr geändert hat, dann STOP Sonst: Berechne neue Clusterzentren Ulf Leser: Data Warehousing und Data Mining 32

33 Beispiel 1 k=3 zufällige Startwerte auswählen Quelle: Stanford, CS 262 Computational Genomics Ulf Leser: Data Warehousing und Data Mining 33

34 Beispiel 2 Objekte dem nächsten Clusterzentrum zuordnen Ulf Leser: Data Warehousing und Data Mining 34

35 Beispiel 3 Clustermittelpunkte neu berechnen Ulf Leser: Data Warehousing und Data Mining 35

36 Beispiel 4 Objekte neu zuordnen Ulf Leser: Data Warehousing und Data Mining 36

37 Beispiel 5 Mittelpunke anpassen Ulf Leser: Data Warehousing und Data Mining 37

38 Beispiel 6 Fertig, keine neuen Zuordnungen mehr Ulf Leser: Data Warehousing und Data Mining 38

39 Eigenschaften Meist konvergiert k-means relativ schnell (5-10 Läufe) Wenn l die Zahl der Durchläufe ist, brauchen wir Neuzuordnung: n*k Vergleiche Objekte-Zentren Clusterbestimmung: n Vektoradditionen, verteilt auf k Cluster Zusammen: O(n*k*l) Insbesondere benötigen wir keine Distanzmatrix Nachteil: Welches k nehmen wir? Alternative: Verschiedene k probieren Silhouette zur Güteabschätzung verwenden Empfindlich gegenüber Ausreißern Ulf Leser: Data Warehousing und Data Mining 39

40 Varianten Wähle initiale Clusterzentren gleichmäßig verteilt im Raum statt beliebige Datenpunkte zu nehmen Schlecht für stark geclusterte Daten, da Mittelpunkte erst einen weiten Weg zurücklegen müssen Stop, wenn nur noch wenige (Schwellwert) Objekte ihre Zugehörigkeit geändert haben Schneller, leichte Ungenauigkeiten Starte k-means mehrmals mit unterschiedlichen Startpunkten und nimm das beste Ergebnis Standardmethode, um zufällig schlechte Startkonstellationen zu verhindern Ulf Leser: Data Warehousing und Data Mining 40

41 k-means und Ausreißer Ulf Leser: Data Warehousing und Data Mining 41

42 K-Medoid K-Medoid: Wahl des mittleren Punktes eines Clusters Problem: Berechnung Medoide ist teuer (O(n 3 )) Average Case aber deutlich schneller Vorteile Weniger sensitiv bzgl. Ausreißern Funktioniert auch mit kategorialen Werten Ulf Leser: Data Warehousing und Data Mining 42

43 k-medoid und Ausreißer Ulf Leser: Data Warehousing und Data Mining 43

44 K-Means in SQL objects mit Objekten und Attributen cluster mit Koordinaten der Zentren Erstes Upd.: Zuweisung neuer Clusterzentren Zweites Upd.: Berechnung neuer Clustermittelpunkte Probleme Update auch ohne Änderungen REPEAT UPDATE objects SET cluster= (SELECT cid FROM (SELECT dist(o.a,a, ) d FROM cluster ORDER BY d) WHERE ROWNUM=1); IF %SQLCOUNT%!= 0 UPDATE cluster SET (a,b, )= (SELECT sum(a)/n,sum(b)/n, FROM objects o WHERE o.cluster=cid); ELSE BREAK; ENDIF; UNTIL FALSE; Ulf Leser: Data Warehousing und Data Mining 44

45 CLARANS [NH94] Idee: Teste nur manche Vertauschungen maxneighbor viele dafür starte öfter (maxtest) TD: Total distance TD_best := maxint; // Bester Gesamtabstand C_best := ; // Beste Medoidmenge O; // Alle Objekte for r = 1 maxtest do C := {wähle zufällig k Objekte als Medoide}; O := O \ C; weise Objekte nächstem Medoid zu; berechne TD; i := 0; for i := 1 maxneighbor do Wähle zufällig m C, n O; if TD N M < TD then // Diese tauschen? O := O m \ n; C := C n \ m; TD := TD N M ; end if; end for; if TD < TD_best then // Neues Optimimum? TD_best := TD; C_best := C; end if; end do; return TD_best, C_best; Ulf Leser: Data Warehousing und Data Mining 45

46 Vergleich [ES00] Qualität Laufzeit TD(CLARANS) TD(PAM) Unwesentlich schlechtere Ergebnisse (1-5%) Viel bessere Laufzeit (nahezu linear) Nicht untypisch: Wenn die Daten gut clustern, dann findet man diese Cluster sehr schnell Zuordnung der wenigen problematischen Objekte benötigt dann viel Zeit, bringt aber nur wenig Verbesserung Quelle: [ES00] Ulf Leser: Data Warehousing und Data Mining 46

47 Inhalt dieser Vorlesung Einführung Hierarchisches Clustering Partitionierendes Clustering Dichte-basiertes Clustering Ulf Leser: Data Warehousing und Data Mining 47

48 Aber Quelle: [FPPS96] K-Means (und CLARANS und k-medoid und viele andere) finden nur konvexe Cluster Das ergibt sich aus der Nähe zu einem Mittelpunkt Anderes Kriterium: Nähe zu genügend vielen anderen Punkten im Cluster Ulf Leser: Data Warehousing und Data Mining 48

49 Dichtebasiertes Clustering [EKSX96] Sucht nach Regionen hoher Dichte Anzahl Cluster ist nicht vorbestimmt Findet auch nicht konvexe Cluster Bekanntester Vertreter: DBSCAN Wie definiert man dichte Bereiche? Jeder Punkt eines Clusters hat viele nahe Nachbarn Alle Punkte eines Clusters sind über nahe Nachbarn voneinander erreichbar Ulf Leser: Data Warehousing und Data Mining 49

50 Literatur Ester, M. and Sander, J. (2000). "Knowledge Discovery in Databases". Berlin, Springer. Han, J. and Kamber, M. (2006). "Data Mining. Concepts and Techniques", Morgan Kaufmann. Ester, M., Kriegel, H. P., Sander, J. and Xu, X. (1996). "A density-based algorithm for discovering clusters in large spatial databases". Conference on Knowledge Discovery in Databases. Ng, R. T. and Han, J. (1994). "Efficient and Effective Clustering Methods for Spatial Data Mining". Int. Conf. on Very Large Databases, Santiago, Chile. Ulf Leser: Data Warehousing und Data Mining 50

Data Warehousing und Data Mining

Data Warehousing und Data Mining Data Warehousing und Data Mining Clustering Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Einführung Clustergüte Ähnlichkeiten Clustermitte Hierarchisches Clustering Partitionierendes

Mehr

Data Warehousing und Data Mining

Data Warehousing und Data Mining Data Warehousing und Data Mining Clustering Ulf Leser Wissensmanagement in der Bioinformatik Mehr Beobachtungen Sunny Hot High False Yes Sunny Hot High False No Sunny Hot High True No.. Ulf Leser: DWH

Mehr

Kapitel 5: Clustering

Kapitel 5: Clustering Ludwig Maximilians Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Wintersemester 2006/2007 Kapitel

Mehr

Inhalt dieses Kapitels. Ziel des Clustering, Anwendungen, Typen von Clustering-Algorithmen

Inhalt dieses Kapitels. Ziel des Clustering, Anwendungen, Typen von Clustering-Algorithmen 2. Clustering Inhalt dieses Kapitels 3. Einleitung Ziel des Clustering, Anwendungen, Typen von Clustering-Algorithmen 3.2 Partitionierende Verfahren k-means, k-medoid, Expectation Maximization, Initialisierung

Mehr

Clustern. Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so dass:

Clustern. Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so dass: Text-Clustern 1 Clustern Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so dass: Beispiele innerhalb eines Clusters sich sehr ähnlich Beispiele in verschiedenen

Mehr

Clustering Seminar für Statistik

Clustering Seminar für Statistik Clustering Markus Kalisch 03.12.2014 1 Ziel von Clustering Finde Gruppen, sodas Elemente innerhalb der gleichen Gruppe möglichst ähnlich sind und Elemente von verschiedenen Gruppen möglichst verschieden

Mehr

Einführung in das Data Mining Clustering / Clusteranalyse

Einführung in das Data Mining Clustering / Clusteranalyse Einführung in das Data Mining Clustering / Clusteranalyse Sascha Szott Fachgebiet Informationssysteme HPI Potsdam 21. Mai 2008 Teil I Einführung Clustering / Clusteranalyse Ausgangspunkt: Menge O von Objekten

Mehr

Exploration und Klassifikation von BigData

Exploration und Klassifikation von BigData Exploration und Klassifikation von BigData Inhalt Einführung Daten Data Mining: Vorbereitungen Clustering Konvexe Hülle Fragen Google: Riesige Datenmengen (2009: Prozessieren von 24 Petabytes pro Tag)

Mehr

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen 7. Clusteranalyse (= Häufungsanalyse; Clustering-Verfahren) wird der multivariaten Statistik zugeordnet Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut,

Mehr

Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion

Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion Vortrag Seminararbeit David Pogorzelski Aachen, 22.01.2015 Agenda 1 2 3 4 5 Ziel der

Mehr

Seminar Komplexe Objekte in Datenbanken

Seminar Komplexe Objekte in Datenbanken Seminar Komplexe Objekte in Datenbanken OPTICS: Ordering Points To Identify the Clustering Structure Lehrstuhl für Informatik IX - Univ.-Prof. Dr. Thomas Seidl, RWTH-Aachen http://www-i9.informatik.rwth-aachen.de

Mehr

Vorlesung Text und Data Mining S9 Text Clustering. Hans Hermann Weber Univ. Erlangen, Informatik

Vorlesung Text und Data Mining S9 Text Clustering. Hans Hermann Weber Univ. Erlangen, Informatik Vorlesung Text und Data Mining S9 Text Clustering Hans Hermann Weber Univ. Erlangen, Informatik Document Clustering Überblick 1 Es gibt (sehr viele) verschiedene Verfahren für das Bilden von Gruppen Bei

Mehr

Effiziente Algorithmen und Datenstrukturen I. Kapitel 9: Minimale Spannbäume

Effiziente Algorithmen und Datenstrukturen I. Kapitel 9: Minimale Spannbäume Effiziente Algorithmen und Datenstrukturen I Kapitel 9: Minimale Spannbäume Christian Scheideler WS 008 19.0.009 Kapitel 9 1 Minimaler Spannbaum Zentrale Frage: Welche Kanten muss ich nehmen, um mit minimalen

Mehr

Datenbankanwendung. Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern. Wintersemester 2014/15. smichel@cs.uni-kl.de

Datenbankanwendung. Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern. Wintersemester 2014/15. smichel@cs.uni-kl.de Datenbankanwendung Wintersemester 2014/15 Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern smichel@cs.uni-kl.de Wiederholung: Anfragegraph Anfragen dieses Typs können als Graph dargestellt werden: Der

Mehr

Universität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme

Universität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme Universität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme Studienprojekt Invisible Web (Dipl.-Inform. Gudrun Fischer - WS 2003/04) Blockseminar

Mehr

5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften 5. Clusteranalyse Vorbemerkungen 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer

Mehr

Abschnitt: Algorithmendesign und Laufzeitanalyse

Abschnitt: Algorithmendesign und Laufzeitanalyse Abschnitt: Algorithmendesign und Laufzeitanalyse Definition Divide-and-Conquer Paradigma Divide-and-Conquer Algorithmen verwenden die Strategien 1 Divide: Teile das Problem rekursiv in Subproblem gleicher

Mehr

Data Mining und Knowledge Discovery in Databases

Data Mining und Knowledge Discovery in Databases Data Mining und Knowledge Discovery in Databases Begriffsabgrenzungen... Phasen der KDD...3 3 Datenvorverarbeitung...4 3. Datenproblematik...4 3. Möglichkeiten der Datenvorverarbeitung...4 4 Data Mining

Mehr

3.5 Datenbanktechniken zur Leistungssteigerung. 3. Clustering. 3.5 Datenbanktechniken zur Leistungssteigerung. 3. Clustering. Inhalt dieses Kapitels

3.5 Datenbanktechniken zur Leistungssteigerung. 3. Clustering. 3.5 Datenbanktechniken zur Leistungssteigerung. 3. Clustering. Inhalt dieses Kapitels 3.1 Einleitung 3. Clustering Inhalt dieses Kapitels Ziel des Clustering, Distanzfunktionen, Anwendungen, Typen von Algorithmen 3.2 Partitionierende Verfahren k-means, k-medoid, Expectation Maximization,

Mehr

Typdeklarationen. Es gibt in Haskell bereits primitive Typen:

Typdeklarationen. Es gibt in Haskell bereits primitive Typen: Typdeklarationen Es gibt in bereits primitive Typen: Integer: ganze Zahlen, z.b. 1289736781236 Int: ganze Zahlen mit Computerarithmetik, z.b. 123 Double: Fließkommazahlen, z.b. 3.14159 String: Zeichenketten,

Mehr

... Text Clustern. Clustern. Einführung Clustern. Einführung Clustern

... Text Clustern. Clustern. Einführung Clustern. Einführung Clustern Clustern Tet Clustern Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so daß: Beispiele innerhalb eines Clusters sich sehr ähnlich Beispiele in verschiedenen Clustern

Mehr

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer Clusterstruktur kennen, verschiedene

Mehr

ISU 1. Ue_08/02_Datenbanken/SQL. 08 Datenbanken. Übung. SQL Einführung. Eckbert Jankowski. www.iit.tu-cottbus.de

ISU 1. Ue_08/02_Datenbanken/SQL. 08 Datenbanken. Übung. SQL Einführung. Eckbert Jankowski. www.iit.tu-cottbus.de 08 Datenbanken Übung SQL Einführung Eckbert Jankowski www.iit.tu-cottbus.de Datenmodell (Wiederholung, Zusammenfassung) Objekte und deren Eigenschaften definieren Beziehungen zwischen den Objekten erkennen/definieren

Mehr

5. Tutorium zu Programmieren

5. Tutorium zu Programmieren 5. Tutorium zu Programmieren Dennis Ewert Gruppe 6 Universität Karlsruhe Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl Programmierparadigmen WS 2008/2009 c 2008 by IPD Snelting

Mehr

Clusteranalyse. Clusteranalyse. Fragestellung und Aufgaben. Abgrenzung Clusteranalyse - Diskriminanzanalyse. Rohdatenmatrix und Distanzmatrix

Clusteranalyse. Clusteranalyse. Fragestellung und Aufgaben. Abgrenzung Clusteranalyse - Diskriminanzanalyse. Rohdatenmatrix und Distanzmatrix TECHNISCHE UNIVERSITÄT MÜNCHEN-WEIHENSTEPHAN MATHEMATIK UND STATISTIK INFORMATIONS- UND DOKUMENTATIONSZENTRUM R. Biometrische und Ökonometrische Methoden II SS 00 Fragestellung und Aufgaben Abgrenzung

Mehr

Übersicht. Datenstrukturen und Algorithmen Vorlesung 5: Rekursionsgleichungen (K4) Übersicht. Binäre Suche. Joost-Pieter Katoen. 20.

Übersicht. Datenstrukturen und Algorithmen Vorlesung 5: Rekursionsgleichungen (K4) Übersicht. Binäre Suche. Joost-Pieter Katoen. 20. Übersicht Datenstrukturen und Algorithmen Vorlesung 5: (K4) Joost-Pieter Katoen Lehrstuhl für Informatik 2 Software Modeling and Verification Group http://www-i2.informatik.rwth-aachen.de/i2/dsal12/ 20.

Mehr

J. W. Goethe-Universität Frankfurt Seminar Data Mining WS98/99

J. W. Goethe-Universität Frankfurt Seminar Data Mining WS98/99 J. W. Goethe-Universität Frankfurt Seminar Data Mining WS98/99 Thema: Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications von Stefan Steinhaus (7 November 1999) Inhaltsverzeichnis

Mehr

Das Briefträgerproblem

Das Briefträgerproblem Das Briefträgerproblem Paul Tabatabai 30. Dezember 2011 Inhaltsverzeichnis 1 Problemstellung und Modellierung 2 1.1 Problem................................ 2 1.2 Modellierung.............................

Mehr

Datenbanken für Online Untersuchungen

Datenbanken für Online Untersuchungen Datenbanken für Online Untersuchungen Im vorliegenden Text wird die Verwendung einer MySQL Datenbank für Online Untersuchungen beschrieben. Es wird davon ausgegangen, dass die Untersuchung aus mehreren

Mehr

Algorithmen II Vorlesung am 15.11.2012

Algorithmen II Vorlesung am 15.11.2012 Algorithmen II Vorlesung am 15.11.2012 Kreisbasen, Matroide & Algorithmen INSTITUT FÜR THEORETISCHE INFORMATIK PROF. DR. DOROTHEA WAGNER KIT Universität des Landes Baden-Württemberg und Algorithmen nationales

Mehr

Grundlagen der Künstlichen Intelligenz

Grundlagen der Künstlichen Intelligenz Grundlagen der Künstlichen Intelligenz 22. Constraint-Satisfaction-Probleme: Kantenkonsistenz Malte Helmert Universität Basel 14. April 2014 Constraint-Satisfaction-Probleme: Überblick Kapitelüberblick

Mehr

Reihungen. Martin Wirsing. in Zusammenarbeit mit Matthias Hölzl und Nora Koch 11/03

Reihungen. Martin Wirsing. in Zusammenarbeit mit Matthias Hölzl und Nora Koch 11/03 Reihungen Martin Wirsing in Zusammenarbeit mit Matthias Hölzl und Nora Koch 11/03 2 Ziele Die Datenstruktur der Reihungen verstehen: mathematisch und im Speicher Grundlegende Algorithmen auf Reihungen

Mehr

Kostenmaße. F3 03/04 p.188/395

Kostenmaße. F3 03/04 p.188/395 Kostenmaße Bei der TM nur ein Kostenmaß: Ein Schritt (Konfigurationsübergang) kostet eine Zeiteinheit; eine Bandzelle kostet eine Platzeinheit. Bei der RAM zwei Kostenmaße: uniformes Kostenmaß: (wie oben);

Mehr

Mathematische Grundlagen III

Mathematische Grundlagen III Mathematische Grundlagen III Maschinelles Lernen III: Clustering Vera Demberg Universität des Saarlandes 7. Juli 202 Vera Demberg (UdS) Mathe III 7. Juli 202 / 35 Clustering vs. Klassifikation In den letzten

Mehr

Übersicht. Datenstrukturen und Algorithmen. Übersicht. Divide-and-Conquer. Vorlesung 9: Quicksort (K7)

Übersicht. Datenstrukturen und Algorithmen. Übersicht. Divide-and-Conquer. Vorlesung 9: Quicksort (K7) Datenstrukturen und Algorithmen Vorlesung 9: (K7) Joost-Pieter Katoen Lehrstuhl für Informatik 2 Software Modeling and Verification Group http://www-i2.rwth-aachen.de/i2/dsal0/ Algorithmus 8. Mai 200 Joost-Pieter

Mehr

2. Lernen von Entscheidungsbäumen

2. Lernen von Entscheidungsbäumen 2. Lernen von Entscheidungsbäumen Entscheidungsbäume 2. Lernen von Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch Attribut/Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse

Mehr

6. Sichten, Integrität und Zugriffskontrolle. Vorlesung "Informa=onssysteme" Sommersemester 2015

6. Sichten, Integrität und Zugriffskontrolle. Vorlesung Informa=onssysteme Sommersemester 2015 6. Sichten, Integrität und Zugriffskontrolle Vorlesung "Informa=onssysteme" Sommersemester 2015 Überblick Sichten Integritätsbedingungen Zugriffsrechte SQL- Schema und SQL- Katalog Das Informa=onsschema

Mehr

1 Vom Problem zum Programm

1 Vom Problem zum Programm Hintergrundinformationen zur Vorlesung GRUNDLAGEN DER INFORMATIK I Studiengang Elektrotechnik WS 02/03 AG Betriebssysteme FB3 Kirsten Berkenkötter 1 Vom Problem zum Programm Aufgabenstellung analysieren

Mehr

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining.

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining. Motivation Themenblock: Klassifikation Praktikum: Data Warehousing und Data Mining Ziel Item hat mehrere Attribute Anhand von n Attributen wird (n+)-tes vorhergesagt. Zusätzliches Attribut erst später

Mehr

Bestimmung einer ersten

Bestimmung einer ersten Kapitel 6 Bestimmung einer ersten zulässigen Basislösung Ein Problem, was man für die Durchführung der Simplexmethode lösen muss, ist die Bestimmung einer ersten zulässigen Basislösung. Wie gut das geht,

Mehr

Kapitel 33. Der xml-datentyp. In diesem Kapitel: Der xml-datentyp 996 Abfragen aus xml-datentypen 1001 XML-Indizierung 1017 Zusammenfassung 1023

Kapitel 33. Der xml-datentyp. In diesem Kapitel: Der xml-datentyp 996 Abfragen aus xml-datentypen 1001 XML-Indizierung 1017 Zusammenfassung 1023 Kapitel 33 Der xml-datentyp In diesem Kapitel: Der xml-datentyp 996 Abfragen aus xml-datentypen 1001 XML-Indizierung 1017 Zusammenfassung 1023 995 996 Kapitel 33: Der xml-datentyp Eine der wichtigsten

Mehr

Data Cube. Aggregation in SQL. Beispiel: Autoverkäufe. On-line Analytical Processing (OLAP) 1. Einführung. 2. Aggregation in SQL, GROUP BY

Data Cube. Aggregation in SQL. Beispiel: Autoverkäufe. On-line Analytical Processing (OLAP) 1. Einführung. 2. Aggregation in SQL, GROUP BY Data Cube On-line Analytical Processing (OLAP). Einführung Ziel: Auffinden interessanter Muster in großen Datenmengen 2. Aggregation in SQL, GROUP BY 3. Probleme mit GROUP BY 4. Der Cube-Operator! Formulierung

Mehr

10.6 Programmier-Exits für Workitems

10.6 Programmier-Exits für Workitems 10.6 Programmier-Exits für Workitems 279 10.6 Programmier-Exits für Workitems 10.6.1 Das Interface IF_SWF_IFS_WORKITEM_EXIT Am Schritt einer Workflow-Definition im Reiter»Programmier-Exits«können verschiedene

Mehr

Seminar zum Thema Künstliche Intelligenz:

Seminar zum Thema Künstliche Intelligenz: Wolfgang Ginolas Seminar zum Thema Künstliche Intelligenz: Clusteranalyse Wolfgang Ginolas 11.5.2005 Wolfgang Ginolas 1 Beispiel Was ist eine Clusteranalyse Ein einfacher Algorithmus 2 bei verschieden

Mehr

Algorithmentheorie. 13 - Maximale Flüsse

Algorithmentheorie. 13 - Maximale Flüsse Algorithmentheorie 3 - Maximale Flüsse Prof. Dr. S. Albers Prof. Dr. Th. Ottmann . Maximale Flüsse in Netzwerken 5 3 4 7 s 0 5 9 5 9 4 3 4 5 0 3 5 5 t 8 8 Netzwerke und Flüsse N = (V,E,c) gerichtetes Netzwerk

Mehr

Datenbanksysteme 2 Frühjahr-/Sommersemester 2014 28. Mai 2014

Datenbanksysteme 2 Frühjahr-/Sommersemester 2014 28. Mai 2014 Lehrstuhl für Praktische Informatik III Prof. Dr. Guido Moerkotte Email: moer@db.informatik.uni-mannheim.de Marius Eich Email: marius.eich@uni-mannheim.de Datenbanksysteme 2 8. Übungsblatt Frühjahr-/Sommersemester

Mehr

PROSEMINAR ONLINE ALGORITHMEN

PROSEMINAR ONLINE ALGORITHMEN PROSEMINAR ONLINE ALGORITHMEN im Wintersemester 2000/2001 Prof. Dr. Rolf Klein, Dr. Elmar Langetepe, Dipl. Inform. Thomas Kamphans (Betreuer) Vortrag vom 15.11.2000 von Jan Schmitt Thema : Finden eines

Mehr

Eine Einführung in R: Hochdimensionale Daten: n << p Teil II

Eine Einführung in R: Hochdimensionale Daten: n << p Teil II Eine Einführung in R: Hochdimensionale Daten: n

Mehr

Über Randeffekte bei der Dichteschätzung räumlich verteilter Daten

Über Randeffekte bei der Dichteschätzung räumlich verteilter Daten Über Randeffekte bei der Dichteschätzung räumlich verteilter Daten Andreas Fröhlich, Thomas Selhorst, Christoph Staubach FLI-Wusterhausen DVG Tagung Graz, September 2008 Institut für Epidemiologie Gliederung

Mehr

Objektrelationale und erweiterbare Datenbanksysteme

Objektrelationale und erweiterbare Datenbanksysteme Objektrelationale und erweiterbare Datenbanksysteme Erweiterbarkeit SQL:1999 (Objekt-relationale Modellierung) In der Vorlesung werden nur die Folien 1-12 behandelt. Kapitel 14 1 Konzepte objekt-relationaler

Mehr

CLARANS. Semesterprojekt im Fach Wissensexktraktion / Data Mining, Hochschule Wismar, Studiengang Multimedia Engineering, Sommersemester 2013

CLARANS. Semesterprojekt im Fach Wissensexktraktion / Data Mining, Hochschule Wismar, Studiengang Multimedia Engineering, Sommersemester 2013 CLARANS Semesterprojekt im Fach Wissensexktraktion / Data Mining, Hochschule Wismar, Studiengang Multimedia Engineering, Sommersemester 2013 Daniel Schmidt Mohamed Ibrahim Sven Lautenschläger Inhaltsverzeichnis

Mehr

3.2 Binäre Suche. Usr/local/www/ifi/fk/menschen/schmid/folien/infovk.ppt 1

3.2 Binäre Suche. Usr/local/www/ifi/fk/menschen/schmid/folien/infovk.ppt 1 3.2 Binäre Suche Beispiel 6.5.1: Intervallschachtelung (oder binäre Suche) (Hier ist n die Anzahl der Elemente im Feld!) Ein Feld A: array (1..n) of Integer sei gegeben. Das Feld sei sortiert, d.h.: A(i)

Mehr

Entwurf von Algorithmen - Kontrollstrukturen

Entwurf von Algorithmen - Kontrollstrukturen Entwurf von Algorithmen - Kontrollstrukturen Eine wichtige Phase in der Entwicklung von Computerprogrammen ist der Entwurf von Algorithmen. Dieser Arbeitsschritt vor dem Schreiben des Programmes in einer

Mehr

Kapitel MK:IV. IV. Modellieren mit Constraints

Kapitel MK:IV. IV. Modellieren mit Constraints Kapitel MK:IV IV. Modellieren mit Constraints Einführung und frühe Systeme Konsistenz I Binarization Generate-and-Test Backtracking-basierte Verfahren Konsistenz II Konsistenzanalyse Weitere Analyseverfahren

Mehr

Pivotieren. Themenblock: Anfragen auf dem Cube. Roll-up und Drill-down. Slicing und Dicing. Praktikum: Data Warehousing und Data Mining. Produkt.

Pivotieren. Themenblock: Anfragen auf dem Cube. Roll-up und Drill-down. Slicing und Dicing. Praktikum: Data Warehousing und Data Mining. Produkt. Zeit Pivotieren Themenblock: Anfragen auf dem Cube Praktikum: Data Warehousing und Data Mining Zeit Zeit 2 Roll-up und Drill-down Slicing und Dicing Drill-down Januar 2 3 33 1. Quartal 11 36 107 Februar

Mehr

GMDS-Tagung 2006 Bioinformatik 1. Assessing the stability of unsupervised learning results in small-sample-size problems

GMDS-Tagung 2006 Bioinformatik 1. Assessing the stability of unsupervised learning results in small-sample-size problems GMDS-Tagung 2006 Bioinformatik 1 Assessing the stability of unsupervised learning results in small-sample-size problems Ulrich Möller Email: Ulrich.Moeller@hki-jena.de Leibniz Institute for Natural Product

Mehr

Wissensentdeckung in Datenbanken

Wissensentdeckung in Datenbanken Wissensentdeckung in Datenbanken SQL, Häufige Mengen Nico Piatkowski und Uwe Ligges 11.05.2017 1 von 16 Überblick Was bisher geschah... Modellklassen Verlustfunktionen Numerische Optimierung Regularisierung

Mehr

Vorlesung 3 MINIMALE SPANNBÄUME

Vorlesung 3 MINIMALE SPANNBÄUME Vorlesung 3 MINIMALE SPANNBÄUME 72 Aufgabe! Szenario: Sie arbeiten für eine Firma, die ein Neubaugebiet ans Netz (Wasser, Strom oder Kabel oder...) anschließt! Ziel: Alle Haushalte ans Netz bringen, dabei

Mehr

Methoden zur Cluster - Analyse

Methoden zur Cluster - Analyse Kapitel 4 Spezialvorlesung Modul 10-202-2206 (Fortgeschrittene Methoden in der Bioinformatik) Jana Hertel Professur für Bioinformatik Institut für Informatik Universität Leipzig Machine learning in bioinformatics

Mehr

Ideen der Informatik. Maschinelles Lernen. Kurt Mehlhorn Adrian Neumann Max-Planck-Institut für Informatik

Ideen der Informatik. Maschinelles Lernen. Kurt Mehlhorn Adrian Neumann Max-Planck-Institut für Informatik Ideen der Informatik Maschinelles Lernen Kurt Mehlhorn Adrian Neumann Max-Planck-Institut für Informatik Übersicht Lernen: Begriff Beispiele für den Stand der Kunst Spamerkennung Handschriftenerkennung

Mehr

Data Warehousing und Data Mining

Data Warehousing und Data Mining Data Warehousing und Data Mining Einführung in Data Mining Ulf Leser Wissensmanagement in der Bioinformatik Wo sind wir? Einleitung & Motivation Architektur Modellierung von Daten im DWH Umsetzung des

Mehr

Erzeugung zufälliger Graphen und Bayes-Netze

Erzeugung zufälliger Graphen und Bayes-Netze Erzeugung zufälliger Graphen und Bayes-Netze Proseminar Algorithmen auf Graphen Georg Lukas, IF2000 2002-07-09 E-Mail: georg@op-co.de Folien: http://op-co.de/bayes/ Gliederung 1. Einleitung 2. einfache

Mehr

WEKA A Machine Learning Interface for Data Mining

WEKA A Machine Learning Interface for Data Mining WEKA A Machine Learning Interface for Data Mining Frank Eibe, Mark Hall, Geoffrey Holmes, Richard Kirkby, Bernhard Pfahringer, Ian H. Witten Reinhard Klaus Losse Künstliche Intelligenz II WS 2009/2010

Mehr

6.2 Scan-Konvertierung (Scan Conversion)

6.2 Scan-Konvertierung (Scan Conversion) 6.2 Scan-Konvertierung (Scan Conversion) Scan-Konvertierung ist die Rasterung von einfachen Objekten (Geraden, Kreisen, Kurven). Als Ausgabemedium dient meist der Bildschirm, der aus einem Pixelraster

Mehr

Fallunterscheidung: if-statement

Fallunterscheidung: if-statement Fallunterscheidung: if-statement A E 1 E 2 V 1 V 2 Syntax: if ( ausdruck ) Semantik: else anweisungsfolge_1 anweisungsfolge_2 1. Der ausdruck wird bewertet 2. Ergibt die Bewertung einen Wert ungleich 0

Mehr

Approximationsalgorithmen

Approximationsalgorithmen Makespan-Scheduling Kapitel 4: Approximationsalgorithmen (dritter Teil) (weitere Beispiele und Illustrationen an der Tafel) Hilfreiche Literatur: Vazarani: Approximation Algorithms, Springer Verlag, 2001.

Mehr

Wirtschaftsinformatik 2. Tutorium im WS 11/12

Wirtschaftsinformatik 2. Tutorium im WS 11/12 Wirtschaftsinformatik 2. Tutorium im WS 11/12 Entity/Relationship-Modell SQL Statements Tutorium Wirtschaftsinformatik WS 11/12 2.1 Datenmodellierung mit ERM (1) Datenmodellierung zur Erarbeitung des konzeptionellen

Mehr

Stackelberg Scheduling Strategien

Stackelberg Scheduling Strategien Stackelberg Scheduling Strategien Von Tim Roughgarden Präsentiert von Matthias Ernst Inhaltsübersicht Einleitung Vorbetrachtungen Stackelberg Strategien Ergebnisse Seminar Algorithmische Spieltheorie:

Mehr

Eine vorprozessierte Variante von Scatter/Gather

Eine vorprozessierte Variante von Scatter/Gather Universität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme Ausarbeitung zum Blockseminar Invisible Web Eine vorprozessierte Variante von

Mehr

Entscheidungsbäume. Definition Entscheidungsbaum. Frage: Gibt es einen Sortieralgorithmus mit o(n log n) Vergleichen?

Entscheidungsbäume. Definition Entscheidungsbaum. Frage: Gibt es einen Sortieralgorithmus mit o(n log n) Vergleichen? Entscheidungsbäume Frage: Gibt es einen Sortieralgorithmus mit o(n log n) Vergleichen? Definition Entscheidungsbaum Sei T ein Binärbaum und A = {a 1,..., a n } eine zu sortierenden Menge. T ist ein Entscheidungsbaum

Mehr

5.2 Das All-Pairs-Shortest-Paths-Problem (APSP-Problem) Kürzeste Wege zwischen allen Knoten. Eingabe: Gerichteter Graph G =(V, E, c)

5.2 Das All-Pairs-Shortest-Paths-Problem (APSP-Problem) Kürzeste Wege zwischen allen Knoten. Eingabe: Gerichteter Graph G =(V, E, c) 5.2 Das All-Pairs-Shortest-Paths-Problem (APSP-Problem) Kürzeste Wege zwischen allen Knoten. Eingabe: Gerichteter Graph G =(V, E, c) mit V = {1,...,n} und E {(v, w) 1 apple v, w apple n, v 6= w}. c : E!

Mehr

Mengenvergleiche: Alle Konten außer das, mit dem größten Saldo.

Mengenvergleiche: Alle Konten außer das, mit dem größten Saldo. Mengenvergleiche: Mehr Möglichkeiten als der in-operator bietet der θany und der θall-operator, also der Vergleich mit irgendeinem oder jedem Tupel der Unteranfrage. Alle Konten außer das, mit dem größten

Mehr

Lenstras Algorithmus für Faktorisierung

Lenstras Algorithmus für Faktorisierung Lenstras Algorithmus für Faktorisierung Bertil Nestorius 9 März 2010 1 Motivation Die schnelle Faktorisierung von Zahlen ist heutzutage ein sehr wichtigen Thema, zb gibt es in der Kryptographie viele weit

Mehr

Klausur zur Veranstaltung Softwareentwicklung 1. Sommersemester 2004. Hessische VWA. Dr. Alexandra Roder, Bernd Ulmann 5.

Klausur zur Veranstaltung Softwareentwicklung 1. Sommersemester 2004. Hessische VWA. Dr. Alexandra Roder, Bernd Ulmann 5. Klausur zur Veranstaltung Softwareentwicklung 1 Sommersemester 2004 Hessische VWA Dr. Alexandra Roder, Bernd Ulmann 5. Juni 2004 Hinweise: Die Klausur besteht aus 24 Teilaufgaben. Insgesamt sind 120 Punkte

Mehr

Clustering (hierarchische Algorithmen)

Clustering (hierarchische Algorithmen) Clustering (hierarchische Algorithmen) Hauptseminar Kommunikation in drahtlosen Sensornetzen WS 2006/07 Benjamin Mies 1 Übersicht Clustering Allgemein Clustering in Sensornetzen Clusterheads Cluster basiertes

Mehr

DATENBANKEN SQL UND SQLITE VON MELANIE SCHLIEBENER

DATENBANKEN SQL UND SQLITE VON MELANIE SCHLIEBENER DATENBANKEN SQL UND SQLITE VON MELANIE SCHLIEBENER INHALTSVERZEICHNIS 1. Datenbanken 2. SQL 1.1 Sinn und Zweck 1.2 Definition 1.3 Modelle 1.4 Relationales Datenbankmodell 2.1 Definition 2.2 Befehle 3.

Mehr

k-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering

k-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering Rückblick k-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering Hierarchisches Clustering bestimmt eine Folge von Clusterings, die als Dendrogramm darstellbar

Mehr

Künstliche Intelligenz Maschinelles Lernen

Künstliche Intelligenz Maschinelles Lernen Künstliche Intelligenz Maschinelles Lernen Stephan Schwiebert Sommersemester 2009 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Maschinelles Lernen Überwachtes Lernen

Mehr

Maximaler Fluß und minimaler Schnitt. Von Sebastian Thurm sebastian.thurm@student.uni-magedburg.de

Maximaler Fluß und minimaler Schnitt. Von Sebastian Thurm sebastian.thurm@student.uni-magedburg.de Maximaler Fluß und minimaler Schnitt Von Sebastian Thurm sebastian.thurm@student.uni-magedburg.de Maximaler Fluß und minimaler Schnitt Wasist das? Maximaler Fluss Minimaler Schnitt Warumtut man das? Logistische

Mehr

Frankfurt am Main. Dortmund. Stuttgart. Düsseldorf

Frankfurt am Main. Dortmund. Stuttgart. Düsseldorf Aufgabenstellung Ein Handlungsreisender will seine Produkte in den zehn größten Städten Deutschlands verkaufen. Er startet in Berlin und will seine Reise dort beenden. Die zehn einwohnerreichsten Städte

Mehr

2.5. VERBINDUNGSNETZWERKE GESTALTUNGSKRITERIEN DER NETZWERKE TOPOLOGIE ALS GRAPH. Vorlesung 5 TOPOLOGIE: DEFINITIONEN : Sei G = (V, E) ein Graph mit:

2.5. VERBINDUNGSNETZWERKE GESTALTUNGSKRITERIEN DER NETZWERKE TOPOLOGIE ALS GRAPH. Vorlesung 5 TOPOLOGIE: DEFINITIONEN : Sei G = (V, E) ein Graph mit: Vorlesung 5.5. VERBINDUNGSNETZWERKE Kommunikation zwischen den einzelnen Komponenten eines arallelrechners wird i.d.r. über ein Netzwerk organisiert. Dabei unterscheidet man zwei Klassen der Rechner: TOOLOGIE:

Mehr

Kombinatorische Optimierung

Kombinatorische Optimierung Juniorprof. Dr. Henning Meyerhenke 1 Henning Meyerhenke: KIT Universität des Landes Baden-Württemberg und nationales Forschungszentrum in der Helmholtz-Gemeinschaft www.kit.edu Vorlesungen 5 und 6 Programm

Mehr

Unterabfragen (Subqueries)

Unterabfragen (Subqueries) Unterabfragen (Subqueries) Die kürzeste Formulierung ist folgende: SELECT Felderliste FROM Tabelle1 WHERE Tabelle1.Feldname Operator (SELECT Feldname FROM Tabelle2 WHERE Bedingung); wobei Tabelle1 und

Mehr

Dichtebasiertes Clustering. Grundlagen. Idee. Zentrale Annahmen

Dichtebasiertes Clustering. Grundlagen. Idee. Zentrale Annahmen Idee Grundlagen Cluster als Gebiete im d-dimensionalen Raum, in denen die Objekte dicht beieinander liegen getrennt durch Gebiete, in denen die Objekte weniger dicht liegen Zentrale Annahmen für jedes

Mehr

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,

Mehr

Nachtrag: Farben. Farbblindheit. (Light und Bartlein 2004)

Nachtrag: Farben. Farbblindheit. (Light und Bartlein 2004) Nachtrag: Farben Farbblindheit (Light und Bartlein 2004) 1 Vorgeschlagene Farbskalen (Light and Bartlein 2004) Farbkodierung metrisch skalierter Daten Unterscheide: 1. Sequential Data (ohne Betonung der

Mehr

Data Cubes PG Wissensmangement Seminarphase

Data Cubes PG Wissensmangement Seminarphase PG 402 - Wissensmangement Seminarphase 23.10.2001-25.10.2001 Hanna Köpcke Lehrstuhl für Künstliche Intelligenz Universität Dortmund Übersicht 1. Einführung 2. Aggregation in SQL, GROUP BY 3. Probleme mit

Mehr

Sortieralgorithmen. Inhalt: InsertionSort BubbleSort QuickSort. Marco Block

Sortieralgorithmen. Inhalt: InsertionSort BubbleSort QuickSort. Marco Block Inhalt: InsertionSort BubbleSort QuickSort Block M.: "Java-Intensivkurs - In 14 Tagen lernen Projekte erfolgreich zu realisieren", Springer-Verlag 2007 InsertionSort I Das Problem unsortierte Daten in

Mehr

ORM & OLAP. Object-oriented Enterprise Application Programming Model for In-Memory Databases. Sebastian Oergel

ORM & OLAP. Object-oriented Enterprise Application Programming Model for In-Memory Databases. Sebastian Oergel ORM & OLAP Object-oriented Enterprise Application Programming Model for In-Memory Databases Sebastian Oergel Probleme 2 Datenbanken sind elementar für Business-Anwendungen Gängiges Datenbankparadigma:

Mehr

Gliederung. Tutorium zur Vorlesung. Gliederung. Gliederung. 1. Gliederung der Informatik. 1. Gliederung der Informatik. 1. Gliederung der Informatik

Gliederung. Tutorium zur Vorlesung. Gliederung. Gliederung. 1. Gliederung der Informatik. 1. Gliederung der Informatik. 1. Gliederung der Informatik Informatik I WS 2012/13 Tutorium zur Vorlesung 1. Alexander Zietlow zietlow@informatik.uni-tuebingen.de Wilhelm-Schickard-Institut für Informatik Eberhard Karls Universität Tübingen 11.02.2013 1. 2. 1.

Mehr

MySQL 101 Wie man einen MySQL-Server am besten absichert

MySQL 101 Wie man einen MySQL-Server am besten absichert MySQL 101 Wie man einen MySQL-Server am besten absichert Simon Bailey simon.bailey@uibk.ac.at Version 1.1 23. Februar 2003 Change History 21. Jänner 2003: Version 1.0 23. Februar 2002: Version 1.1 Diverse

Mehr

TU München, Fakultät für Informatik Lehrstuhl III: Datenbanksysteme Prof. Alfons Kemper, Ph.D.

TU München, Fakultät für Informatik Lehrstuhl III: Datenbanksysteme Prof. Alfons Kemper, Ph.D. TU München, Fakultät für Informatik Lehrstuhl III: Datenbanksysteme Prof. Alfons Kemper, Ph.D. Blatt Nr. 07 Übung zur Vorlesung Einsatz und Realisierung von Datenbanksystemen im SoSe16 Moritz Kaufmann

Mehr

Data Mining im Einzelhandel Methoden und Werkzeuge

Data Mining im Einzelhandel Methoden und Werkzeuge Fakultät Informatik Institut für Angewandte Informatik Professur Technische Informationssysteme Proseminar Technische Informationssysteme Data Mining im Einzelhandel Methoden und Werkzeuge Betreuer: Dipl.-Ing.

Mehr

Well-Balanced. Performance Tuning

Well-Balanced. Performance Tuning Well-Balanced Real Application Cluster Performance Tuning Über mich virtual7 GmbH Jürgen Bouché Zeppelinstraße 2 76185 Karlsruhe Tel.: +49 (721) 6190170 Fax.: +49 (721) 61901729 Email: jbouche@heine.de

Mehr

Übung 1 mit C# 6.0 MATTHIAS RONCORONI

Übung 1 mit C# 6.0 MATTHIAS RONCORONI Übung 1 mit C# 6.0 MATTHIAS RONCORONI Inhalt 2 1. Überblick über C# 2. Lösung der Übung 1 3. Code 4. Demo C# allgemein 3 aktuell: C# 6.0 mit.net-framework 4.6: Multiparadigmatisch (Strukturiert, Objektorientiert,

Mehr

Visualisierung hochdimensionaler Daten. Hauptseminar SS11 Michael Kircher

Visualisierung hochdimensionaler Daten. Hauptseminar SS11 Michael Kircher Hauptseminar SS11 Inhalt Einführung zu hochdimensionalen Daten Visualisierungsmöglichkeiten dimensionale Teilmengen dimensionale Schachtelung Achsenumgestaltung Algorithmen zur Dimensionsreduktion Zusammenfassung

Mehr

SQL für Trolle. mag.e. Dienstag, 10.2.2009. Qt-Seminar

SQL für Trolle. mag.e. Dienstag, 10.2.2009. Qt-Seminar Qt-Seminar Dienstag, 10.2.2009 SQL ist......die Abkürzung für Structured Query Language (früher sequel für Structured English Query Language )...ein ISO und ANSI Standard (aktuell SQL:2008)...eine Befehls-

Mehr

3.17 Zugriffskontrolle

3.17 Zugriffskontrolle 3. Der SQL-Standard 3.17. Zugriffskontrolle Seite 1 3.17 Zugriffskontrolle Datenbanken enthalten häufig vertrauliche Informationen, die nicht jedem Anwender zur Verfügung stehen dürfen. Außerdem wird man

Mehr

Datenstrukturen und Algorithmen. 7. Suchen in linearen Feldern

Datenstrukturen und Algorithmen. 7. Suchen in linearen Feldern Datenstrukturen und Algorithmen 7. Suchen in linearen Feldern VO 708.031 Suchen in linearen Feldern robert.legenstein@igi.tugraz.at 1 Inhalt der Vorlesung 1. Motivation, Einführung, Grundlagen 2. Algorithmische

Mehr

Primzahlen und RSA-Verschlüsselung

Primzahlen und RSA-Verschlüsselung Primzahlen und RSA-Verschlüsselung Michael Fütterer und Jonathan Zachhuber 1 Einiges zu Primzahlen Ein paar Definitionen: Wir bezeichnen mit Z die Menge der positiven und negativen ganzen Zahlen, also

Mehr