Universität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme

Größe: px
Ab Seite anzeigen:

Download "Universität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme"

Transkript

1 Universität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme Studienprojekt Invisible Web (Dipl.-Inform. Gudrun Fischer - WS 2003/04) Blockseminar ( ) Thema 3: Text-Clustering Foliensatz

2 Text-Clustering 1 Was ist Clustering? 2 Arten von Clustering 3 Clustern von Textdokumenten 4 Literatur 2

3 1 Was ist Clustering? Clustering ist ein Retrievalmodell Mengen von ähnlichen Dokumenten (Cluster) werden gebildet Retrieval ohne explizite Fragestellung ein Ähnlichkeitsmaß wird genutzt, um die Cluster zu berechnen Ausgangspunkt ist die sogenannte Cluster-Hypothese : Man kann nämlich zeigen, dass die Ähnlichkeit der relevanten Dokumente untereinander und der irrelevanten Dokumente untereinander größer ist als die zwischen anderen (zufälligen) Teilmengen der Dokumentenkollektion. [2] 3

4 1 Was ist Clustering? Ziel des Clustering: Identifikation einer endlichen Menge von Clustern Dokumente im gleichen Cluster sollen möglichst ähnlich sein Dokumente aus verschiedenen Clustern sollen möglichst unähnlich zueinander sein Die berechneten Cluster können auf drei Arten genutzt werden: Zur Suche (potentiell) relevanter Dokumente zu einem schon bekannten relevanten Dokument. Cluster Retrieval: Wenn kein relevantes Dokument bekannt ist, kann dieses Verfahren benutzt werden, um ein potentielles Cluster zu lokalisieren. Cluster-Browsing 4

5 1 Was ist Clustering? Vorteile von Clustering: Überblick über den Inhalt einer sehr großen Datenmenge Identifikation der verborgenen Ähnlichkeit Erleichterung der Suche nach ähnlichen Dokumenten Beispiel 1 : 1 aus [5] übernommen 5

6 2 Arten von Clustering 2.1 agglomeratives Clustering 2.2 partitionierendes Clustering 2.3 hierarchisches Clustering 6

7 2.1 agglomeratives Clustering Ablauf von agglomerativem Clustering: vorgegebener Schwellenwert für die Ähnlichkeit einmaliger Durchlauf der Dokumente mit dem Ziel, Dokumente zu (schon vorhandenen) Clustern hinzuzufügen existiert noch kein Cluster wird ein neues Cluster gebildet 7

8 2.2 partitionierendes Clustering Ablauf von partitionierendem Clustering: vorzugebene Anzahl k zu bildender Cluster bestimmt werden k seed -Dokumente, die hinreichend unterschiedlich sind jedes dieser Dokumente bildet den Kern eines der k Cluster die übrigen Dokumente werden dann jeweils dem ähnlichsten Cluster hinzugefügt Dadurch werden die Dokumente in disjunkte Cluster eingeteilt, so dass gilt: jedes Cluster besteht aus mindestens einem Dokument jedes Dokument ist höchstens in einem Cluster enthalten 8

9 2.3 hierarchisches Clustering es wird eine Hierarchie von Clustern gebildet Clustertypen: disjunkte Cluster Cluster, die in einem größeren Cluster enthalten sind Cluster, die aus der Vereinigung von bereits bestehenden Clustern gebildet werden Mit beiden Arten von Clustering (agglomeratives und partitionierendes) kann durch iteratives Anwenden ein hierarchisches Clustering realisiert werden und damit ein interaktives Browsen des Nutzers durch die einzelnen Cluster. 9

10 2.3 hierarchisches Clustering flaches Clustering: hiearchisches Clustering: 10

11 3 Clustern von Textdokumenten 3.1 Probleme beim Clustern von Textdokumenten 3.2 prinzipielle Vorgehensweise beim Text Clustering 3.3 bisherige Algorithmen 3.4 Algorithmen zur Lösung der genannten Probleme 11

12 3.1 Probleme beim Clustern von Textdokumenten hohe Dimensionalität der Daten ( Terme / Dimensionen) Verwendung von schwachbesetzten Datenstrukturen oder Methoden zur Verringerung der Dimensionalität sehr große Datenbank (z.b. world wide web) sehr effiziente Algorithmen und skalierbare Datenbanken werden benötigt Finden von verständlichen Beschreibungen der Cluster, da diese den Nutzer durch den Prozess des Browsen leiten 12

13 3.2 prinzipielle Vorgehensweise beim Text Clustering 1. Preprocessing Entfernen von inhaltlich irrelevanten Informationen Elimination von Stoppworten (stopwords) Einteilung der Dokumente in Terme Umwandlung der Terme in Stammform (stemming) 2. Festlegung eines Ähnlichkeitsmaßes z.b. für das VRM (Vektor-Raum-Modell): Ein Dokument wird durch den Vektor d = (tf 1,..., tf m ) repräsentiert (tf i : Häufigkeit des Terms i in diesem Dokument). Ein typisches Ähnlichkeitsmaß für das VRM ist das Kosinusmaß: sim(d 1, d 2 ) = d 1 d 2 d 1 2 d 2 2 Dabei ist d i 2 die euklidische Norm des Vektors d i und repräsentiert das Skalarprodukt. 3. Berechnung der Ähnlichkeitsmatrix für alle möglichen Dokumentenpaare 4. Berechnung der Cluster 13

14 3.3 bisherige Algorithmen Verfahren für agglomeratives Clustering Algorithmen für partitionierendes Clustern Nachteile der Algorithmen 14

15 3.3.1 Verfahren für agglomeratives Clustering Bedingungen für die Aufnahme eines Dokuments d k in ein Cluster C l. Single-Link: Complete-Link: Average-Link: α max d i C l sim(d k, d i ) α min d i C l sim(d k, d i ) α 1 C l d i C l sim(d k, d i ) α entspricht dem vogegebenen Schwellenwert für die Ähnlichkeit. 15

16 3.3.2 Algorithmen für partitionierendes Clustern Die Anzahl k der Cluster ist vorgegeben. k-means In mehreren Schritten werden die Dokumente jeweils dem ähnlichsten Cluster zugeordnet, das durch seinen Mittelwert (Zentroid) repräsentiert ist. bisecting k-means Ausgehend von 2 durch k-means gebildeten Clustern wird k-means iterativ auf den jeweils bisher größten Cluster angewandt, solange bis k Cluster entstanden sind. k-medoid Wie k-means, nur daß die Dokumente dem ähnlichsten Cluster zugeordnet werden, das durch ein mittleres Dokument repräsentiert ist. 16

17 3.3.3 Nachteile der Algorithmen Nachteile der bisherigen Algorithmen: Grundlage ist das VRM die Algorithmen clustern den vollständigen Vektorraum die berechneten (virtuellen) Zentroiden sind nicht dazu geeignet als verständliche Beschreibung der Cluster zu dienen Daraus resultiert die Motivation einen neuen Ansatz für das Text-Clustering zu suchen, der nicht auf dem VRM basiert. 17

18 3.4. Algorithmen zur Lösung der genannten Probleme Idee der Algorithmen Definitionen FTC (Frequent Term-based Clustering) HFTC (Hierarchical Frequent Term-based Clustering) Evaluierung von FTC und HFTC 18

19 3.4.1 Idee der Algorithmen Idee: Es werden Mengen von Termen betrachtet, die in einem festgelegten Anteil aller Dokumente vorkommen (Frequent Term Set [FTS]); dadurch wird die Dimensionalität verringert. Ein Cluster(-Kanididat) besteht aus allen Dokumenten, die alle Terme von einem FTS beinhalten. Die FTS können als Beschreibungen der Cluster genutzt werden. Ablauf der Algorithmen: 1. bilden der FTS 2. solange bis ein Clustering entstanden ist: (a) bilden von Cluster-Kandidaten (b) auswählen der tatsächlichen Cluster durch ein Auswahlkriterium 19

20 3.4.2 Definitionen Datenbank mit Textdokumenten D i Menge aller Terme t j, D i T 0 minsup 1 prozentuale Abdeckung der Dokumente, die ein FTS haben muss cov(s), S T Abdeckung von S, d.h. D = {D 1,..., D m } T = {t 1,..., t n } cov(s) = {D i D S D i } F = {F 1,..., F p } Menge aller FTS bzgl. minsup, d.h. F = {F i T cov(f i ) minsup D } C = {F i F cov(f i ) = D} i I f j = {F i R F i D j } Clustering Anzahl der FTS, die D j abdecken R ist die Menge der noch abzuarbeitenden F i s 20

21 3.4.2 Definitionen Wie wird der beste Cluster-Kandidat ausgewählt? Ziel ist es, ein Clustering mit minimaler Überschneidung der einzelnen Cluster zu finden. 1. Standard-Überschneidung SO(C i ) = D j C i (f j 1) C i einfach zu berechnen Cluster-Kandidaten (FTS) mit wenigen Termen werden bevorzugt, da jede Teilmenge eines FTS wieder ein FTS ist 2. Entropie-Überschneidung EO(C i ) = D j C i 1 f j ln( 1 f j ) steigt mit wachsendem f j monoton an Cluster-Kandidaten (FTS) mit mehr Termen als bei der SO werden bevorzugt, wodurch die Clustering-Qualität steigt 21

22 3.4.3 FTC (Frequent Term-based Clustering) FTC (database D, float minsup) { } //entspricht den Cluster-Beschreibungen SelectedTermSets := {}; n := D ; //effizienter Algorithmus zum Bestimmen der FTS ( apriori ) //jede Teilmenge aus einem FTS ist wieder ein FTS RemainingTermSets := DetermineFrequentTermsets(D, minsup); while ( cov(selectedtermsets n) { for each (set in RemainingTermSets) { calculate overlap for set; } BestCandidate := element of RemainingTermSets with minimum overlap; SelectedTermSets := SelectedTermSets BestCandidate; RemainingTermSets := RemainingTermSets \ BestCandidate; Remove all documents in cov(bestcandiate) from D and from the coverage of all of the RemainingTermSets; } return SelectedTermSets and the cover of the elements of SelectedTermSets; 22

23 3.4.3 FTC (Frequent Term-based Clustering ) - Beispiel Datenbank: [1] [Sonntag, Freizeit, Kino] [4] [Fernseher, Lautsprecher, Freizeit, Kino] [2] [schwimmen, Freizeit, Schwimmbad] [5] [Bademeister, schwimmen, Whirlpool] [3] [Monitor, Computer, Lautsprecher] ########################## Schritt 0 ########################## Frequent term set und Ueberschneidung [schwimmen] [Lautsprecher] [Freizeit] [Freizeit, Kino] [Kino] BestCandidate: [schwimmen] selectedtermsets: [[schwimmen]] remainingtermsets: [[Lautsprecher], [Freizeit], [Freizeit, Kino], [Kino]] Datenbank: [1] [Sonntag, Freizeit, Kino] [4] [Fernseher, Lautsprecher, Freizeit, Kino] [3] [Monitor, Computer, Lautsprecher] 23

24 3.4.3 FTC (Frequent Term-based Clustering ) - Beispiel ########################## Schritt 1 ########################## Frequent term set und Ueberschneidung [Lautsprecher] [Freizeit] [Freizeit, Kino] [Kino] BestCandidate: [Lautsprecher] selectedtermsets: [[schwimmen], [Lautsprecher]] remainingtermsets: [[Freizeit], [Freizeit, Kino], [Kino]] Datenbank: [1] [Sonntag, Freizeit, Kino] ########################## Schritt 2 ########################## Frequent term set und Ueberschneidung [Freizeit] [Freizeit, Kino] [Kino] BestCandidate: [Freizeit] selectedtermsets: [[schwimmen], [Lautsprecher], [Freizeit]] remainingtermsets: [[Freizeit, Kino], [Kino]] Datenbank: Cluster-Beschreibungen: [[schwimmen], [Lautsprecher], [Freizeit]] 24

25 3.4.4 HFTC (Hierarchical Frequent Term-based Clustering) Durch mehrfache Ausführung von FTC kann ein hierarchisches Clustering realisiert werden: 1. Anwenden von FTC auf alle FTS mit Kardinalität k=1 (1-FTS) 2. solange noch neue Cluster gebildet werden können: (a) Die neuen Cluster ebenfalls mit FTC clustern, allerdings nun mit den k+1-fts. Dabei werden nur die k+1-fts genommen, von denen die k-fts Teilmengen sind, d.h. k-fts k+1-fts. Als Ergebnis erhält man einen Baum von Cluster-Beschreibungen, der in der Wurzel mit einer leeren Beschreibung (alle Dokumente) beginnt. 25

26 3.4.4 HFTC (Hierarchical Frequent Term-based Clustering) - Beispiel HFTC Ergebnis: 26

27 3.4.5 Evaluierung von FTC und HFTC FTC (Frequent Term-based Clustering): effizienter als andere Algorithmen automatische Generierung der Cluster-Beschreibungen Vergleichbare Cluster-Qualität HFTC (Hierarchical Frequent Term-based Clustering): kann im Gegensatz zu anderen Algorithmen ein überlappendes hierarchisches Clustering erzeugen die Cluster-Qualität ist etwas schlechter als bei anderen Algorithmen das Clustering ist verständlicher und einfacher zu durchbrowsen 27

28 4 Literatur [1] Florian Beil, Martin Ester, Xiaowei Xu: Frequent Term-Based Text Clustering, [2] Prof. N. Fuhr: Information Retrieval, Skriptum zur Vorlesung im SS 02, index.html [3] Fonny Cendekia Vera: Text Mining : Grundlagen, Verfahren, und Anwendungen, Beitraege/Text%20Mining%20Vortrag.pdf [4] Matthias Pretzer: Clustering und Klassifikation, [5] Prof. Dr.-Ing. Wolfgang Lehner: Grundlagen des Clustering, Clustering-WebVersion.pdf 28

Dokumenten-Clustering. Norbert Fuhr

Dokumenten-Clustering. Norbert Fuhr Dokumenten-Clustering Norbert Fuhr Dokumenten-Clustering (Dokumenten-)Cluster: Menge von ähnlichen Dokumenten Ausgangspunkt Cluster-Hypothese : die Ähnlichkeit der relevanten Dokumente untereinander und

Mehr

Clustern. Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so dass:

Clustern. Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so dass: Text-Clustern 1 Clustern Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so dass: Beispiele innerhalb eines Clusters sich sehr ähnlich Beispiele in verschiedenen

Mehr

Vorlesung Text und Data Mining S9 Text Clustering. Hans Hermann Weber Univ. Erlangen, Informatik

Vorlesung Text und Data Mining S9 Text Clustering. Hans Hermann Weber Univ. Erlangen, Informatik Vorlesung Text und Data Mining S9 Text Clustering Hans Hermann Weber Univ. Erlangen, Informatik Document Clustering Überblick 1 Es gibt (sehr viele) verschiedene Verfahren für das Bilden von Gruppen Bei

Mehr

Eine vorprozessierte Variante von Scatter/Gather

Eine vorprozessierte Variante von Scatter/Gather Universität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme Ausarbeitung zum Blockseminar Invisible Web Eine vorprozessierte Variante von

Mehr

Häufige Item-Mengen: die Schlüssel-Idee. Vorlesungsplan. Apriori Algorithmus. Methoden zur Verbessung der Effizienz von Apriori

Häufige Item-Mengen: die Schlüssel-Idee. Vorlesungsplan. Apriori Algorithmus. Methoden zur Verbessung der Effizienz von Apriori Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,

Mehr

Einführung. Information Retrieval. IR-Aufgaben. IR in Beispielen. Adhoc-Suche: Web. IR in Beispielen. Was ist IR? Norbert Fuhr

Einführung. Information Retrieval. IR-Aufgaben. IR in Beispielen. Adhoc-Suche: Web. IR in Beispielen. Was ist IR? Norbert Fuhr Einführung Information Retrieval Norbert Fuhr 13. Oktober 2011 IR in Beispielen Was ist IR? Daten Information Wissen Dimensionen des IR Rahmenarchitektur für IR-Systeme Adhoc-Suche: Web IR in Beispielen

Mehr

Inhalt dieses Kapitels. Ziel des Clustering, Anwendungen, Typen von Clustering-Algorithmen

Inhalt dieses Kapitels. Ziel des Clustering, Anwendungen, Typen von Clustering-Algorithmen 2. Clustering Inhalt dieses Kapitels 3. Einleitung Ziel des Clustering, Anwendungen, Typen von Clustering-Algorithmen 3.2 Partitionierende Verfahren k-means, k-medoid, Expectation Maximization, Initialisierung

Mehr

Übungsaufgaben. Aufgabe 1 Internetsuchmaschinen. Einführung in das Information Retrieval, 8. Mai 2008 Veranstaltung für die Berufsakademie Karlsruhe

Übungsaufgaben. Aufgabe 1 Internetsuchmaschinen. Einführung in das Information Retrieval, 8. Mai 2008 Veranstaltung für die Berufsakademie Karlsruhe Otto-Friedrich-Universität Bamberg Lehrstuhl für Medieninformatik Prof. Dr. Andreas Henrich Dipl. Wirtsch.Inf. Daniel Blank Einführung in das Information Retrieval, 8. Mai 2008 Veranstaltung für die Berufsakademie

Mehr

Clustering Seminar für Statistik

Clustering Seminar für Statistik Clustering Markus Kalisch 03.12.2014 1 Ziel von Clustering Finde Gruppen, sodas Elemente innerhalb der gleichen Gruppe möglichst ähnlich sind und Elemente von verschiedenen Gruppen möglichst verschieden

Mehr

Vektormodelle. Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig

Vektormodelle. Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig Vektormodelle Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig Gliederung Vektormodelle Vector-Space-Model Suffix Tree Document Model

Mehr

Kapitel 5: Clustering

Kapitel 5: Clustering Ludwig Maximilians Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Wintersemester 2006/2007 Kapitel

Mehr

Übungsaufgaben mit Lösungsvorschlägen

Übungsaufgaben mit Lösungsvorschlägen Otto-Friedrich-Universität Bamberg Lehrstuhl für Medieninformatik Prof. Dr. Andreas Henrich Dipl. Wirtsch.Inf. Daniel Blank Einführung in das Information Retrieval, 8. Mai 2008 Veranstaltung für die Berufsakademie

Mehr

Clusteranalyse. Multivariate Datenanalyse. Prof. Dr. Dietmar Maringer. Abteilung für Quantitative Methoden, WWZ der Universität Basel

Clusteranalyse. Multivariate Datenanalyse. Prof. Dr. Dietmar Maringer. Abteilung für Quantitative Methoden, WWZ der Universität Basel Clusteranalyse Multivariate Datenanalyse Prof. Dr. Dietmar Maringer Abteilung für Quantitative Methoden, WWZ der Universität Basel Herbstsemester 2013 D Maringer: Datenanalyse Clusteranalyse (1) Ausgangssituation

Mehr

T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente.

T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente. Vektorraummodell T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente. Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt. Der Vektorraum wird

Mehr

Einführung in das Data Mining Clustering / Clusteranalyse

Einführung in das Data Mining Clustering / Clusteranalyse Einführung in das Data Mining Clustering / Clusteranalyse Sascha Szott Fachgebiet Informationssysteme HPI Potsdam 21. Mai 2008 Teil I Einführung Clustering / Clusteranalyse Ausgangspunkt: Menge O von Objekten

Mehr

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen 7. Clusteranalyse (= Häufungsanalyse; Clustering-Verfahren) wird der multivariaten Statistik zugeordnet Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut,

Mehr

Datenbankanwendung. Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern. Wintersemester 2014/15. smichel@cs.uni-kl.de

Datenbankanwendung. Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern. Wintersemester 2014/15. smichel@cs.uni-kl.de Datenbankanwendung Wintersemester 2014/15 Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern smichel@cs.uni-kl.de Wiederholung: Anfragegraph Anfragen dieses Typs können als Graph dargestellt werden: Der

Mehr

Exploration und Klassifikation von BigData

Exploration und Klassifikation von BigData Exploration und Klassifikation von BigData Inhalt Einführung Daten Data Mining: Vorbereitungen Clustering Konvexe Hülle Fragen Google: Riesige Datenmengen (2009: Prozessieren von 24 Petabytes pro Tag)

Mehr

2. Lernen von Entscheidungsbäumen

2. Lernen von Entscheidungsbäumen 2. Lernen von Entscheidungsbäumen Entscheidungsbäume 2. Lernen von Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch Attribut/Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse

Mehr

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 16.05.2013 Gliederung 1 Vorverarbeitung

Mehr

Data Mining als Arbeitsprozess

Data Mining als Arbeitsprozess Data Mining als Arbeitsprozess Hagen Knaf Studiengang Angewandte Mathematik Hochschule RheinMain 31. Dezember 2015 In Unternehmen werden umfangreichere Aktivitäten oder Projekte im Bereich des Data Mining

Mehr

Seminar zum Thema Künstliche Intelligenz:

Seminar zum Thema Künstliche Intelligenz: Wolfgang Ginolas Seminar zum Thema Künstliche Intelligenz: Clusteranalyse Wolfgang Ginolas 11.5.2005 Wolfgang Ginolas 1 Beispiel Was ist eine Clusteranalyse Ein einfacher Algorithmus 2 bei verschieden

Mehr

Recommender Systems. Stefan Beckers Praxisprojekt ASDL SS 2006 Universität Duisburg-Essen April 2006

Recommender Systems. Stefan Beckers Praxisprojekt ASDL SS 2006 Universität Duisburg-Essen April 2006 Recommender Systems Stefan Beckers Praxisprojekt ASDL SS 2006 Universität Duisburg-Essen April 2006 Inhalt 1 - Einführung 2 Arten von Recommender-Systemen 3 Beispiele für RCs 4 - Recommender-Systeme und

Mehr

Data Mining: Einige Grundlagen aus der Stochastik

Data Mining: Einige Grundlagen aus der Stochastik Data Mining: Einige Grundlagen aus der Stochastik Hagen Knaf Studiengang Angewandte Mathematik Hochschule RheinMain 21. Oktober 2015 Vorwort Das vorliegende Skript enthält eine Zusammenfassung verschiedener

Mehr

Gesucht und Gefunden: Die Funktionsweise einer Suchmaschine

Gesucht und Gefunden: Die Funktionsweise einer Suchmaschine Gesucht und Gefunden: Die Funktionsweise einer Suchmaschine Prof. Dr. Peter Becker FH Bonn-Rhein-Sieg Fachbereich Informatik peter.becker@fh-bonn-rhein-sieg.de Vortrag im Rahmen des Studieninformationstags

Mehr

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität Datenstrukturen und Algorithmen Christian Sohler FG Algorithmen & Komplexität 1 Clustering: Partitioniere Objektmenge in Gruppen(Cluster), so dass sich Objekte in einer Gruppe ähnlich sind und Objekte

Mehr

Grundlagen der Informatik II. Teil I: Formale Modelle der Informatik

Grundlagen der Informatik II. Teil I: Formale Modelle der Informatik Grundlagen der Informatik II Teil I: Formale Modelle der Informatik 1 Einführung GdInfoII 1-2 Ziele/Fragestellungen der Theoretischen Informatik 1. Einführung abstrakter Modelle für informationsverarbeitende

Mehr

Kapitel 12: Schnelles Bestimmen der Frequent Itemsets

Kapitel 12: Schnelles Bestimmen der Frequent Itemsets Einleitung In welchen Situationen ist Apriori teuer, und warum? Kapitel 12: Schnelles Bestimmen der Frequent Itemsets Data Warehousing und Mining 1 Data Warehousing und Mining 2 Schnelles Identifizieren

Mehr

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer Clusterstruktur kennen, verschiedene

Mehr

Graphenalgorithmen und lineare Algebra Hand in Hand Vorlesung für den Bereich Diplom/Master Informatik

Graphenalgorithmen und lineare Algebra Hand in Hand Vorlesung für den Bereich Diplom/Master Informatik Vorlesung für den Bereich Diplom/Master Informatik Dozent: Juniorprof. Dr. Henning Meyerhenke PARALLELES RECHNEN INSTITUT FÜR THEORETISCHE INFORMATIK, FAKULTÄT FÜR INFORMATIK KIT Universität des Landes

Mehr

Was ist ein Computer?

Was ist ein Computer? Grundlagen 1 Lernziel der Vorlesung: Einblicke und Überblicke zu den Mitteln der Informatik Hardware und Software den Methoden der Informatik Analysieren, Entwerfen, Algorithmieren, Programmieren, Testen,

Mehr

Web Data Mining. Alexander Hinneburg Sommersemester 2007

Web Data Mining. Alexander Hinneburg Sommersemester 2007 Web Data Mining Alexander Hinneburg Sommersemester 2007 Termine Vorlesung Mi. 10:00-11:30 Raum?? Übung Mi. 11:45-13:15 Raum?? Klausuren Mittwoch, 23. Mai Donnerstag, 12. Juli Buch Bing Liu: Web Data Mining

Mehr

22. Algorithmus der Woche Partnerschaftsvermittlung Drum prüfe, wer sich ewig bindet

22. Algorithmus der Woche Partnerschaftsvermittlung Drum prüfe, wer sich ewig bindet 22. Algorithmus der Woche Partnerschaftsvermittlung Drum prüfe, wer sich ewig bindet Autor Volker Claus, Universität Stuttgart Volker Diekert, Universität Stuttgart Holger Petersen, Universität Stuttgart

Mehr

Sortierverfahren für Felder (Listen)

Sortierverfahren für Felder (Listen) Sortierverfahren für Felder (Listen) Generell geht es um die Sortierung von Daten nach einem bestimmten Sortierschlüssel. Es ist auch möglich, daß verschiedene Daten denselben Sortierschlüssel haben. Es

Mehr

Clustering (hierarchische Algorithmen)

Clustering (hierarchische Algorithmen) Clustering (hierarchische Algorithmen) Hauptseminar Kommunikation in drahtlosen Sensornetzen WS 2006/07 Benjamin Mies 1 Übersicht Clustering Allgemein Clustering in Sensornetzen Clusterheads Cluster basiertes

Mehr

Ähnlichkeitssuche auf XML-Daten

Ähnlichkeitssuche auf XML-Daten Ähnlichkeitssuche auf XML-Daten Christine Lehmacher Gabriele Schlipköther Übersicht Information Retrieval Vektorraummodell Gewichtung Ähnlichkeitsfunktionen Ähnlichkeitssuche Definition, Anforderungen

Mehr

Data Mining - Clustering. Sven Elvers

Data Mining - Clustering. Sven Elvers Agenda Data Mining Clustering Aktuelle Arbeiten Thesis Outline 2 Agenda Data Mining Clustering Aktuelle Arbeiten Thesis Outline 3 Data Mining Entdecken versteckter Informationen, Muster und Zusammenhänge

Mehr

Teil 2 - Softwaretechnik. Modul: Programmierung B-PRG Grundlagen der Programmierung 1 Teil 2. Übersicht. Softwaretechnik

Teil 2 - Softwaretechnik. Modul: Programmierung B-PRG Grundlagen der Programmierung 1 Teil 2. Übersicht. Softwaretechnik Grundlagen der Programmierung 1 Modul: Programmierung B-PRG Grundlagen der Programmierung 1 Teil 2 Softwaretechnik Prof. Dr. O. Drobnik Professur Architektur und Betrieb verteilter Systeme Institut für

Mehr

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur Suchmaschinen Anwendung RN Semester 7 Christian Koczur Inhaltsverzeichnis 1. Historischer Hintergrund 2. Information Retrieval 3. Architektur einer Suchmaschine 4. Ranking von Webseiten 5. Quellenangabe

Mehr

Bestimmung einer ersten

Bestimmung einer ersten Kapitel 6 Bestimmung einer ersten zulässigen Basislösung Ein Problem, was man für die Durchführung der Simplexmethode lösen muss, ist die Bestimmung einer ersten zulässigen Basislösung. Wie gut das geht,

Mehr

Künstliche Intelligenz Maschinelles Lernen

Künstliche Intelligenz Maschinelles Lernen Künstliche Intelligenz Maschinelles Lernen Stephan Schwiebert Sommersemester 2009 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Maschinelles Lernen Überwachtes Lernen

Mehr

Data Warehousing und Data Mining

Data Warehousing und Data Mining Data Warehousing und Data Mining Clustering Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Einführung Clustergüte Ähnlichkeiten Clustermitte Hierarchisches Clustering Partitionierendes

Mehr

Suchmaschinenalgorithmen. Vortrag von: Thomas Müller

Suchmaschinenalgorithmen. Vortrag von: Thomas Müller Suchmaschinenalgorithmen Vortrag von: Thomas Müller Kurze Geschichte Erste Suchmaschine für Hypertexte am CERN Erste www-suchmaschine World Wide Web Wanderer 1993 Bis 1996: 2 mal jährlich Durchlauf 1994:

Mehr

Literatur. Dominating Set (DS) Dominating Sets in Sensornetzen. Problem Minimum Dominating Set (MDS)

Literatur. Dominating Set (DS) Dominating Sets in Sensornetzen. Problem Minimum Dominating Set (MDS) Dominating Set 59 Literatur Dominating Set Grundlagen 60 Dominating Set (DS) M. V. Marathe, H. Breu, H.B. Hunt III, S. S. Ravi, and D. J. Rosenkrantz: Simple Heuristics for Unit Disk Graphs. Networks 25,

Mehr

Algorithmen und Datenstrukturen 2

Algorithmen und Datenstrukturen 2 Algorithmen und Datenstrukturen 2 Sommersemester 2006 3. Vorlesung Peter F. Stadler Universität Leipzig Institut für Informatik studla@bioinf.uni-leipzig.de Algorithmen für Graphen Fragestellungen: Suche

Mehr

Clustering von Dokumenten (k-means, HCL)

Clustering von Dokumenten (k-means, HCL) Clustering von Dokumenten (k-means, HCL) Jonas Wolz Universität Ulm Zusammenfassung Ein Überblick über das Clustering von Dokumenten. Außerdem werden zwei dafür verwendete Algorithmen vorgestellt (k-means

Mehr

1 topologisches Sortieren

1 topologisches Sortieren Wolfgang Hönig / Andreas Ecke WS 09/0 topologisches Sortieren. Überblick. Solange noch Knoten vorhanden: a) Suche Knoten v, zu dem keine Kante führt (Falls nicht vorhanden keine topologische Sortierung

Mehr

4 Greedy-Algorithmen (gierige Algorithmen)

4 Greedy-Algorithmen (gierige Algorithmen) Greedy-Algorithmen (gierige Algorithmen) Greedy-Algorithmen werden oft für die exakte oder approximative Lösung von Optimierungsproblemen verwendet. Typischerweise konstruiert ein Greedy-Algorithmus eine

Mehr

Seminar Komplexe Objekte in Datenbanken

Seminar Komplexe Objekte in Datenbanken Seminar Komplexe Objekte in Datenbanken OPTICS: Ordering Points To Identify the Clustering Structure Lehrstuhl für Informatik IX - Univ.-Prof. Dr. Thomas Seidl, RWTH-Aachen http://www-i9.informatik.rwth-aachen.de

Mehr

Textmining Clustering von Dokumenten

Textmining Clustering von Dokumenten Textmining Clustering von Dokumenten Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Clustering 1 / 25 Clustering Definition Clustering ist

Mehr

Kombinatorische Optimierung

Kombinatorische Optimierung Juniorprof. Dr. Henning Meyerhenke 1 Henning Meyerhenke: KIT Universität des Landes Baden-Württemberg und nationales Forschungszentrum in der Helmholtz-Gemeinschaft www.kit.edu Vorlesungen 5 und 6 Programm

Mehr

Datenbanken und Informationssysteme

Datenbanken und Informationssysteme Datenbanken und Informationssysteme Lehrangebot Stefan Conrad Heinrich-Heine-Universität Düsseldorf Institut für Informatik April 2012 Stefan Conrad (HHU) Datenbanken und Informationssysteme April 2012

Mehr

Gliederung. Tutorium zur Vorlesung. Gliederung. Gliederung. 1. Gliederung der Informatik. 1. Gliederung der Informatik. 1. Gliederung der Informatik

Gliederung. Tutorium zur Vorlesung. Gliederung. Gliederung. 1. Gliederung der Informatik. 1. Gliederung der Informatik. 1. Gliederung der Informatik Informatik I WS 2012/13 Tutorium zur Vorlesung 1. Alexander Zietlow zietlow@informatik.uni-tuebingen.de Wilhelm-Schickard-Institut für Informatik Eberhard Karls Universität Tübingen 11.02.2013 1. 2. 1.

Mehr

Algorithmen und Komplexität Teil 1: Grundlegende Algorithmen

Algorithmen und Komplexität Teil 1: Grundlegende Algorithmen Algorithmen und Komplexität Teil 1: Grundlegende Algorithmen WS 08/09 Friedhelm Meyer auf der Heide Vorlesung 8, 4.11.08 Friedhelm Meyer auf der Heide 1 Organisatorisches Am Dienstag, 11.11., fällt die

Mehr

Kap. 4.2: Binäre Suchbäume

Kap. 4.2: Binäre Suchbäume Kap. 4.2: Binäre Suchbäume Professor Dr. Lehrstuhl für Algorithm Engineering, LS11 Fakultät für Informatik, TU Dortmund 11. VO DAP2 SS 2009 26. Mai 2009 1 Zusätzliche Lernraumbetreuung Morteza Monemizadeh:

Mehr

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining.

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining. Personalisierung Personalisierung Thomas Mandl Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung Klassifikation Die Nutzer werden in vorab bestimmte Klassen/Nutzerprofilen

Mehr

generiere aus Textdokumenten zunächst Metadaten, wende Data Mining - Techniken dann nur auf diese an

generiere aus Textdokumenten zunächst Metadaten, wende Data Mining - Techniken dann nur auf diese an 9. Text- und Web-Mining Text Mining: Anwendung von Data Mining - Verfahren auf große Mengen von Online-Textdokumenten Web Mining: Anwendung von Data Mining - Verfahren auf Dokumente aus dem WWW oder auf

Mehr

WMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou

WMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou WMS Block: Management von Wissen in nform PART: Text Mining Myra Spiliopoulou WIE ERFASSEN UND VERWALTEN WIR EXPLIZITES WISSEN? 1. Wie strukturieren wir Wissen in nform? 2. Wie verwalten wir nsammlungen?

Mehr

J. W. Goethe-Universität Frankfurt Seminar Data Mining WS98/99

J. W. Goethe-Universität Frankfurt Seminar Data Mining WS98/99 J. W. Goethe-Universität Frankfurt Seminar Data Mining WS98/99 Thema: Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications von Stefan Steinhaus (7 November 1999) Inhaltsverzeichnis

Mehr

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 08.05.2014 Gliederung 1 Vorverarbeitung

Mehr

3.5 Datenbanktechniken zur Leistungssteigerung. 3. Clustering. 3.5 Datenbanktechniken zur Leistungssteigerung. 3. Clustering. Inhalt dieses Kapitels

3.5 Datenbanktechniken zur Leistungssteigerung. 3. Clustering. 3.5 Datenbanktechniken zur Leistungssteigerung. 3. Clustering. Inhalt dieses Kapitels 3.1 Einleitung 3. Clustering Inhalt dieses Kapitels Ziel des Clustering, Distanzfunktionen, Anwendungen, Typen von Algorithmen 3.2 Partitionierende Verfahren k-means, k-medoid, Expectation Maximization,

Mehr

Ermittlung von Assoziationsregeln aus großen Datenmengen. Zielsetzung

Ermittlung von Assoziationsregeln aus großen Datenmengen. Zielsetzung Ermittlung von Assoziationsregeln aus großen Datenmengen Zielsetzung Entscheidungsträger verwenden heutzutage immer häufiger moderne Technologien zur Lösung betriebswirtschaftlicher Problemstellungen.

Mehr

Social Business Intelligence Text Mining und Hadoop bei DB Fernverkehr AG

Social Business Intelligence Text Mining und Hadoop bei DB Fernverkehr AG Social Business Intelligence Text Mining und Hadoop bei DB Fernverkehr AG DB Fernverkehr AG Dr.-Ing. Axel Schulz, Dr. Matthias Platho P.FMB 2, DB Fernverkehr AG Frankfurt, 22.05.2015 Motivation An meinem

Mehr

Data Mining und Knowledge Discovery in Databases

Data Mining und Knowledge Discovery in Databases Data Mining und Knowledge Discovery in Databases Begriffsabgrenzungen... Phasen der KDD...3 3 Datenvorverarbeitung...4 3. Datenproblematik...4 3. Möglichkeiten der Datenvorverarbeitung...4 4 Data Mining

Mehr

Clusteranalyse. Clusteranalyse. Fragestellung und Aufgaben. Abgrenzung Clusteranalyse - Diskriminanzanalyse. Rohdatenmatrix und Distanzmatrix

Clusteranalyse. Clusteranalyse. Fragestellung und Aufgaben. Abgrenzung Clusteranalyse - Diskriminanzanalyse. Rohdatenmatrix und Distanzmatrix TECHNISCHE UNIVERSITÄT MÜNCHEN-WEIHENSTEPHAN MATHEMATIK UND STATISTIK INFORMATIONS- UND DOKUMENTATIONSZENTRUM R. Biometrische und Ökonometrische Methoden II SS 00 Fragestellung und Aufgaben Abgrenzung

Mehr

4. Lernen von Entscheidungsbäumen. Klassifikation mit Entscheidungsbäumen. Entscheidungsbaum

4. Lernen von Entscheidungsbäumen. Klassifikation mit Entscheidungsbäumen. Entscheidungsbaum 4. Lernen von Entscheidungsbäumen Klassifikation mit Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch /Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse zugeordnet werden.

Mehr

Effiziente Algorithmen und Datenstrukturen I. Kapitel 9: Minimale Spannbäume

Effiziente Algorithmen und Datenstrukturen I. Kapitel 9: Minimale Spannbäume Effiziente Algorithmen und Datenstrukturen I Kapitel 9: Minimale Spannbäume Christian Scheideler WS 008 19.0.009 Kapitel 9 1 Minimaler Spannbaum Zentrale Frage: Welche Kanten muss ich nehmen, um mit minimalen

Mehr

Moderne Methoden der KI: Maschinelles Lernen

Moderne Methoden der KI: Maschinelles Lernen Moderne Methoden der KI: Maschinelles Lernen Prof. Dr.Hans-Dieter Burkhard Vorlesung Entscheidungsbäume Darstellung durch Regeln ID3 / C4.5 Bevorzugung kleiner Hypothesen Overfitting Entscheidungsbäume

Mehr

6.6 Vorlesung: Von OLAP zu Mining

6.6 Vorlesung: Von OLAP zu Mining 6.6 Vorlesung: Von OLAP zu Mining Definition des Begriffs Data Mining. Wichtige Data Mining-Problemstellungen, Zusammenhang zu Data Warehousing,. OHO - 1 Definition Data Mining Menge von Techniken zum

Mehr

Rekursion. Annabelle Klarl. Einführung in die Informatik Programmierung und Softwareentwicklung

Rekursion. Annabelle Klarl. Einführung in die Informatik Programmierung und Softwareentwicklung Rekursion Annabelle Klarl Zentralübung zur Vorlesung Einführung in die Informatik: http://www.pst.ifi.lmu.de/lehre/wise-12-13/infoeinf WS12/13 Aufgabe 1: Potenzfunktion Schreiben Sie eine Methode, die

Mehr

Einführung in die Wissensverarbeitung und Data Mining

Einführung in die Wissensverarbeitung und Data Mining Einführung in die Wissensverarbeitung und Data Mining Peter Becker FH Bonn-Rhein-Sieg Fachbereich Angewandte Informatik!" $# Vorlesung Wintersemester 2001/02 1. Einführung Vorbemerkungen 1 Einführung Vorbemerkungen

Mehr

Datenstrukturen und Algorithmen

Datenstrukturen und Algorithmen Datenstrukturen und Algorithmen VO 708.031 Bäume robert.legenstein@igi.tugraz.at 1 Inhalt der Vorlesung 1. Motivation, Einführung, Grundlagen 2. Algorithmische Grundprinzipien 3. Sortierverfahren 4. Halden

Mehr

Prototypische Komponenten eines Information Retrieval Systems: Vektormodell

Prototypische Komponenten eines Information Retrieval Systems: Vektormodell Prototypische Komponenten eines Information Retrieval Systems: Vektormodell Implementierung & Präsentation: Stefan Schmidt (Uni Mannheim) Kontakt: powder@gmx.de Seminar: Information Retrieval WS2002/2003

Mehr

Algorithmen und Datenstrukturen Bereichsbäume

Algorithmen und Datenstrukturen Bereichsbäume Algorithmen und Datenstrukturen Bereichsbäume Matthias Teschner Graphische Datenverarbeitung Institut für Informatik Universität Freiburg SS 12 Überblick Einführung k-d Baum BSP Baum R Baum Motivation

Mehr

x 2 2x + = 3 + Es gibt genau ein x R mit ax + b = 0, denn es gilt

x 2 2x + = 3 + Es gibt genau ein x R mit ax + b = 0, denn es gilt - 17 - Die Frage ist hier also: Für welche x R gilt x = x + 1? Das ist eine quadratische Gleichung für x. Es gilt x = x + 1 x x 3 = 0, und man kann quadratische Ergänzung machen:... ( ) ( ) x x + = 3 +

Mehr

Reihungen. Martin Wirsing. in Zusammenarbeit mit Matthias Hölzl und Nora Koch 11/03

Reihungen. Martin Wirsing. in Zusammenarbeit mit Matthias Hölzl und Nora Koch 11/03 Reihungen Martin Wirsing in Zusammenarbeit mit Matthias Hölzl und Nora Koch 11/03 2 Ziele Die Datenstruktur der Reihungen verstehen: mathematisch und im Speicher Grundlegende Algorithmen auf Reihungen

Mehr

Standortplanung in logistischen Netzwerken

Standortplanung in logistischen Netzwerken Standortplanung in logistischen Netzwerken Das Steiner-Weber-Problem Ein Unterrichtsprojekt zur angewandten Mathematik für die 11. Jahrgangsstufe Referent: Andreas Eberl Idee Lehrplan Mathematik 11.Klasse

Mehr

DLP. Adolphe Kankeu Tamghe papibobo@informatik.uni-bremen.de ALZAGK SEMINAR. Bremen, den 18. Januar 2011. Fachbereich Mathematik und Informatik 1 / 27

DLP. Adolphe Kankeu Tamghe papibobo@informatik.uni-bremen.de ALZAGK SEMINAR. Bremen, den 18. Januar 2011. Fachbereich Mathematik und Informatik 1 / 27 DLP Adolphe Kankeu Tamghe papibobo@informatik.uni-bremen.de Fachbereich Mathematik und Informatik ALZAGK SEMINAR Bremen, den 18. Januar 2011 1 / 27 Inhaltsverzeichnis 1 Der diskrete Logarithmus Definition

Mehr

Frequent Itemset Mining + Association Rule Mining

Frequent Itemset Mining + Association Rule Mining Frequent Itemset Mining + Association Rule Mining Studiengang Angewandte Mathematik WS 2015/16 Frequent Itemset Mining (FIM) 21.10.2015 2 Einleitung Das Frequent-Itemset-Mining kann als Anfang des modernen,

Mehr

AutoSPARQL. Let Users Query Your Knowledge Base

AutoSPARQL. Let Users Query Your Knowledge Base AutoSPARQL Let Users Query Your Knowledge Base Christian Olczak Seminar aus maschinellem Lernen WS 11/12 Fachgebiet Knowledge Engineering Dr. Heiko Paulheim / Frederik Janssen 07.02.2012 Fachbereich Informatik

Mehr

Vorlesung Information Retrieval Wintersemester 04/05

Vorlesung Information Retrieval Wintersemester 04/05 Vorlesung Information Retrieval Wintersemester 04/05 14. Oktober 2004 Institut für Informatik III Universität Bonn Tel. 02 28 / 73-45 31 Fax 02 28 / 73-43 82 jw@informatik.uni-bonn.de 1 Themenübersicht

Mehr

2 Evaluierung von Retrievalsystemen

2 Evaluierung von Retrievalsystemen 2. Evaluierung von Retrievalsystemen Relevanz 2 Evaluierung von Retrievalsystemen Die Evaluierung von Verfahren und Systemen spielt im IR eine wichtige Rolle. Gemäß der Richtlinien für IR der GI gilt es,...

Mehr

Fachschaft Mathematik und Informatik (FIM) LA I VORKURS. Herbstsemester 2015. gehalten von Harald Baum

Fachschaft Mathematik und Informatik (FIM) LA I VORKURS. Herbstsemester 2015. gehalten von Harald Baum Fachschaft Mathematik und Informatik (FIM) LA I VORKURS Herbstsemester 2015 gehalten von Harald Baum 2. September 2015 Inhaltsverzeichnis 1. Stichpunkte zur Linearen Algebra I 2. Körper 3. Vektorräume

Mehr

Verkettete Datenstrukturen: Bäume

Verkettete Datenstrukturen: Bäume Verkettete Datenstrukturen: Bäume 1 Graphen Gerichteter Graph: Menge von Knoten (= Elementen) + Menge von Kanten. Kante: Verbindung zwischen zwei Knoten k 1 k 2 = Paar von Knoten (k 1, k 2 ). Menge aller

Mehr

Christian Zietzsch / Norman Zänker. Text Mining. und dessen Implementierung. Diplomica Verlag

Christian Zietzsch / Norman Zänker. Text Mining. und dessen Implementierung. Diplomica Verlag Christian Zietzsch / Norman Zänker Text Mining und dessen Implementierung Diplomica Verlag Christian Zietzsch, Norman Zänker Text Mining und dessen Implementierung ISBN: 978-3-8428-0970-3 Herstellung:

Mehr

Idee: Wenn wir beim Kopfknoten zwei Referenzen verfolgen können, sind die Teillisten kürzer. kopf Eine Datenstruktur mit Schlüsselwerten 1 bis 10

Idee: Wenn wir beim Kopfknoten zwei Referenzen verfolgen können, sind die Teillisten kürzer. kopf Eine Datenstruktur mit Schlüsselwerten 1 bis 10 Binäre Bäume Bäume gehören zu den wichtigsten Datenstrukturen in der Informatik. Sie repräsentieren z.b. die Struktur eines arithmetischen Terms oder die Struktur eines Buchs. Bäume beschreiben Organisationshierarchien

Mehr

Projektgruppe Algorithmen für die Cloud-unterstützte 3-D-Darstellung auf mobilen Endgeräten

Projektgruppe Algorithmen für die Cloud-unterstützte 3-D-Darstellung auf mobilen Endgeräten Projektgruppe Algorithmen für die Cloud-unterstützte 3-D-Darstellung auf mobilen Endgeräten WS 2011/2012 bis SS 2012 11. Juli 2011 Benjamin Eikel Matthias Fischer Projektgruppe Algorithmen für die Cloud-unterstützte

Mehr

Information Retrieval - Übersicht. Norbert Fuhr

Information Retrieval - Übersicht. Norbert Fuhr Information Retrieval - Übersicht Norbert Fuhr 1 1. Einführung IR unterscheidet sich wesentlich zur Suche in klassischen Datenbanken IR beschäftigt sich mit Unsicherheit und Vagheit in Informationssystemen

Mehr

Technische Universität Wien Institut für Computergraphik und Algorithmen Arbeitsbereich für Algorithmen und Datenstrukturen

Technische Universität Wien Institut für Computergraphik und Algorithmen Arbeitsbereich für Algorithmen und Datenstrukturen Technische Universität Wien Institut für Computergraphik und Algorithmen Arbeitsbereich für Algorithmen und Datenstrukturen 186.172 Algorithmen und Datenstrukturen 1 VL 4.0 Übungsblatt 4 für die Übung

Mehr

Seminar Map/Reduce Algorithms on Hadoop. Topics. Alex, Christoph

Seminar Map/Reduce Algorithms on Hadoop. Topics. Alex, Christoph Seminar Map/Reduce Algorithms on Hadoop Topics Alex, Christoph Organisatorisches Prioritisierte Liste mit allen vorgestellten Themen bis heute 23:59 an Alexander.Albrecht@hpi.uni-potsdam.de Vergabe der

Mehr

9. Einführung in Datenbanken

9. Einführung in Datenbanken 9. Einführung in Datenbanken 9.1 Motivation und einführendes Beispiel 9.2 Modellierungskonzepte der realen Welt 9.3 Anfragesprachen (Query Languages) 9.1 Motivation und einführendes Beispiel Datenbanken

Mehr

Wie findet das Navi den Weg?

Wie findet das Navi den Weg? 0.05.0 Verwandte Fragestellungen Problemstellungen aus der Praxis Prof. Dr. Paul Rawiel Gliederung des Vortrags Speicherung von Kartendaten zur Navigation Kriterien für die Navigation Finden des kürzesten

Mehr

Data/Information Quality Management

Data/Information Quality Management Data/Information Quality Management Seminar WI/Informationsmanagement im Sommersemester 2002 Markus Berberov, Roman Eder, Peter Gerstbach 11.6.2002 Inhalt! Daten und Datenqualität! Einführung und Definition!

Mehr

Der linke Teilbaum von v enthält nur Schlüssel < key(v) und der rechte Teilbaum enthält nur Schlüssel > key(v)

Der linke Teilbaum von v enthält nur Schlüssel < key(v) und der rechte Teilbaum enthält nur Schlüssel > key(v) Ein Baum T mit Knotengraden 2, dessen Knoten Schlüssel aus einer total geordneten Menge speichern, ist ein binärer Suchbaum (BST), wenn für jeden inneren Knoten v von T die Suchbaumeigenschaft gilt: Der

Mehr

Grundlagen der Monte Carlo Simulation

Grundlagen der Monte Carlo Simulation Grundlagen der Monte Carlo Simulation 10. Dezember 2003 Peter Hofmann Inhaltsverzeichnis 1 Monte Carlo Simulation.................... 2 1.1 Problemstellung.................... 2 1.2 Lösung durch Monte

Mehr

Static-Single-Assignment-Form

Static-Single-Assignment-Form Static-Single-Assignment-Form Compilerbau Static-Single-Assignment-Form 195 Static-Single-Assignment-Form besondere Darstellungsform des Programms (Zwischensprache) vereinfacht Datenflussanalyse und damit

Mehr

Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion

Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion Vortrag Seminararbeit David Pogorzelski Aachen, 22.01.2015 Agenda 1 2 3 4 5 Ziel der

Mehr

Kill Keyword Density. Weshalb die Keyword Density blanker Unsinn ist.

Kill Keyword Density. Weshalb die Keyword Density blanker Unsinn ist. Kill Keyword Density Weshalb die Keyword Density blanker Unsinn ist. Kill Keyword Density» & Karl Kratz Das ist. Jana ist Diplom- Mathematikerin und Controlling-Leiterin bei der Innovation Group AG. Ihr

Mehr

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7.

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7. Semestralklausur zur Vorlesung Web Mining Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7. 2004 Name: Vorname: Matrikelnummer: Fachrichtung: Punkte: (1).... (2)....

Mehr

Algorithmen und Datenstrukturen

Algorithmen und Datenstrukturen Algorithmen und Datenstrukturen Dipl. Inform. Andreas Wilkens 1 Organisatorisches Freitag, 05. Mai 2006: keine Vorlesung! aber Praktikum von 08.00 11.30 Uhr (Gruppen E, F, G, H; Vortestat für Prototyp)

Mehr