Clustering mit dem K-Means-Algorithmus (Ein Experiment)

Größe: px
Ab Seite anzeigen:

Download "Clustering mit dem K-Means-Algorithmus (Ein Experiment)"

Transkript

1 Clustering mit dem K-Means- (Ein Experiment) Andreas Runk 7. März 2013

2 Index Andreas Runk Clustering mit dem K-Means- 2/40

3 Ziele: des K-Means Finde/erstelle geeignetes Testcorpus möglichst gute Clustering-Ergebnisse möglichst effizient und skalierbar Andreas Runk Clustering mit dem K-Means- 3/40

4 K-Means Eigenschaften: Erste Veröffentlichung von [Steinhaus(1956)] und Namensgebung durch [MacQueen(1967)] laut [Bock(2007)] EM- Anzahl Cluster (k) wird vom Benutzer bestimmt [MacQueen(1967)] Terminiert nicht immer (Datenpunkte können zwischen Clustern springen) Ergebnisse zufällig, da zufällige Wahl der Start-Means Abbildung: [Wikipedia(2012b)] Andreas Runk Clustering mit dem K-Means- 4/40

5 K-Means Implementierter K-Means 1 : 1: Setze zufällig k Start-Means 2: d = 3: solange d > Schwellwert / Zuordnungen sich ändern 4: für alle Dokumente Assignment Step 5: Füge Dokument dem nächst-ähnlichen Cluster hinzu 6: für alle Cluster Update Step 7: Setze neue Werte des Means kleinster Abstand zu den Dokumenten in seinem Cluster 8: d = Abstand der alten und neuen Means 1 vgl. [MacKay(2003)] oder siehe auch [Haenelt(2012c)] Andreas Runk Clustering mit dem K-Means- 5/40

6 Eigenschaften der Eigenschaften der Architektur Versionen Programmiersprache: C++ (OO) Lines Of Code: ca (2300 ohne Kommentare) Anzahl Versionen: 4 Benutzte Bibliotheken: Boost Random, OpenMP, Google Sparse Hash Andreas Runk Clustering mit dem K-Means- 6/40

7 Erklärung der folgenden Darstellung Eigenschaften der Architektur Versionen Darstellung der Veränderung zur vorherigen Version in Tabellen Werte die nicht in der jeweiligen Versionstabelle enthalten sind, wurden zur vorherigen Version nicht verändert Durch ein + werden zusätzliche Eigenschaften des jeweiligen Bereiches dargestellt. Sollte eine Auswahl der jeweiligen Eigenschaft eingefügt werden, so bezieht sich diese auf alle bisher implementierten Attribute. Sonstige Eigenschaften zeigen eine Ersetzung an. Der (teilweise) in Klammern angegebene Wert ist die Gesamtersparnis an Wörtern nach dem WordCount-Schritt Andreas Runk Clustering mit dem K-Means- 7/40

8 Aufbau Eigenschaften der Architektur Versionen Modell Worttrenner Wordcount Termgewichtung Distanzfunktion Erste Means Vector Leerzeichen Array einfache Häufigkeit euklidisch zufällige Werte pro Wort zwischen 0 und max{wortzahl} Andreas Runk Clustering mit dem K-Means- 8/40

9 Struktur Eigenschaften der Architektur Versionen WordCount -countofwords -documentname -words FileReader FileWriter Cluster -clustermembers -meanwordcounts -newmeanwordcounts -words +addnewclustermember() Distance -euclideandistance() KMeans -clusters: list<cluster> -compareoldandnewclusters() -setrandommean() +KMeans() ThermWeighting -frequencyweighting() Abbildung: Klassendiagramm Andreas Runk Clustering mit dem K-Means- 9/40

10 Überblick Komplexitäten Eigenschaften der Architektur Versionen Folgende Abkürzungen werden verwendet: k = Anzahl Cluster n = Länge des längsten Dokuments m = Anzahl Dokumente l = Länge des längsten Wortes c = Anzahl Rechenkerne Andreas Runk Clustering mit dem K-Means- 10/40

11 Version 1 Eigenschaften der Architektur Versionen Worttrenner Wordcount Termgewichtung Distanzfunktion Erste Means Leerzeichen Array einfache Häufigkeit euklidisch zufällige Werte pro Wort zwischen 0 und max{worthäufigkeit} Standard K-Means Clustering [MacQueen(1967)] Andreas Runk Clustering mit dem K-Means- 11/40

12 Version 1 Eigenschaften der Architektur Versionen Komplexitäten: WordCount: O(m n 2 ) K-Means Assign: O(k m n 3 ) K-Means Update: O(k m 2 n 3 ) Probleme: Start Means sind weit von den realen Dokumenten entfernt viele Iterationen nötig Schlechte Performance Es sind viele kurze Wörter in den Texten enthalten, die wenig Information liefern ( ist, und usw.) sogenannte Stoppwörter. Andreas Runk Clustering mit dem K-Means- 12/40

13 Version 2 Eigenschaften der Architektur Versionen Worttrenner Wordcount Termgewichtung Distanzfunktion Erste Means + Sonderzeichen ( 3%) Hashmap + Stoppwortentfernung ( 7%) + normalisierte Termfrequenz + tf-idf-gewichtung + Auswahl Cosinus zufällige Dokumente K-Means++ Clustering [Arthur and Vassilvitskii(2007)] Andreas Runk Clustering mit dem K-Means- 13/40

14 Version 2 Eigenschaften der Architektur Versionen Komplexitäten: WordCount: O( m c n2 ) vs. O(m n 2 ) K-Means Assign: O(k m c n) vs. O(k m n3 ) tf-idf: O(k m2 c n) K-Means Update: O( k c m2 n 3 ) vs. O(k m 2 n 3 ) Probleme: Means zufällig Clustering zufällig langsam, bei vielen Daten (zu viel RAM-Verbrauch) Andreas Runk Clustering mit dem K-Means- 14/40

15 Version 3 Eigenschaften der Architektur Versionen Wordcount Distanzfunktion Erste Means + häufigste 10 % aller Wörter bzgl. der Worthäufigkeit werden verwendet + Dice-Koeffizient + Auswahl entfernteste Dokumente Andreas Runk Clustering mit dem K-Means- 15/40

16 Version 3 Eigenschaften der Architektur Versionen Komplexitäten: WordCount: O( m c n2 ) K-Means Assign: O(k m c n) tf-idf: O(k m2 c n) K-Means Update: O( k c m2 n 2 ) vs. O( k c m2 n 3 ) Probleme: Flektierte Formen eines Wortes werden jeweils als eigene Wörter gezählt. Dies kann unerwünscht sein. (bsp. Lied Lieder) Andreas Runk Clustering mit dem K-Means- 16/40

17 Version 4 Eigenschaften der Architektur Versionen Wordcount Distanzfunktion + ähnliche Worte, wie vorher beschrieben werden als eines gewertet (Folie 40) ( 17.5%) + Jaccard-Koeffizient + Overlap-Koeffizient Komplexitäten: WordCount: O( m2 c n2 l 2 ) vs. O( m c n2 ) K-Means Assign: O(k m c n) tf-idf: O(k m2 c n) K-Means Update: O( k c m2 n 2 ) Andreas Runk Clustering mit dem K-Means- 17/40

18 Struktur gemäß Version 4 Eigenschaften der Architektur Versionen WordCount -countofwords -documentname -words -wordswithcounts(v2) FileReader FileWriter Cluster -clustermembers -meanwordcounts -newmeanwordcounts -words +addnewclustermember() Distance KMeans -clusters: list<cluster> -compareoldandnewclusters() -setdocumentmeanwithmostdistance(v3) -setrandomdocumentmean(v2) -setrandommean() +KMeans() -euclideandistance() -cosinedistance(v2) -dicecoefficientdistance(v3) -jaccardcoefficientdistance(v4) -overlapcoefficientdistance(v4) -numberofdocuments ThermWeighting -frequencyweighting() -normalizedtermfrequency(v2) -termfrequencyinversedocumentfrequency(v2) Abbildung: Klassendiagramm Andreas Runk Clustering mit dem K-Means- 18/40

19 Daten Daten Effektivitätstests Performancetests PATENTCORPUS128: 128 Patente nach [Polar(2012)], benutzt für Performance. Sprache: englisch WikiDocs: 32 Artikel aus der Wikipedia [Wikipedia(2012a)] Kategorien (8): Geschichte, Kunst, Mathe, PC, Medizin, Musik, Sport, Essen Sprache: deutsch Andreas Runk Clustering mit dem K-Means- 19/40

20 Daten Effektivitätstests Performancetests Erwünschtes Ergebnis gemäß intellektuellem Clustering Andreas Runk Clustering mit dem K-Means- 20/40

21 Version 1 Daten Effektivitätstests Performancetests Andreas Runk Clustering mit dem K-Means- 21/40

22 Version 1 Daten Effektivitätstests Performancetests Aufgrund der zufälligen Means entstehen zufällige Lösungen. Cluster 0 enthält fast alle Dokumente, da die zufällig gewählte Anzahlt der Wörter nächsten an den Dokumenten lag Erreicht mit (keine Auswahl der Häufigkeitsfunktion und der Distanzfunktion möglich): - Einfacher Häufigkeit - Euklidischer Distanz Distanz- und Häufigkeitsfunktionen führen möglicherweise dazu, dass alle Dokumente nahe beieinander liegen Andreas Runk Clustering mit dem K-Means- 22/40

23 Version 2 Daten Effektivitätstests Performancetests Andreas Runk Clustering mit dem K-Means- 23/40

24 Version 2 Daten Effektivitätstests Performancetests Aufgrund der zufälligen Means entstehen zufällige Lösungen. Erreicht mit (keine Auswahl der Distanzfunktion möglich): - Einfacher Häufigkeit - Kosinus-Distanz Cluster 2 enthält viele Dokumente möglicherweise führt die gewählte Distanzfunktionen dazu, dass alle Dokumente nahe beieinander liegen Andreas Runk Clustering mit dem K-Means- 24/40

25 Version 3 Daten Effektivitätstests Performancetests Andreas Runk Clustering mit dem K-Means- 25/40

26 Version 3 Daten Effektivitätstests Performancetests Ergebnisse dieser Version reproduzierbar, da Startwerte nicht mehr zufällig angenommen werden Getestet wurden alle möglichen Kombinationen der hier implementierten Termfrequenz- und Distanzfunktionen. Dem intellektuellen Clustering ähnlichstes Ergebnis dieser Version wurde erreicht mit: - Einfacher Häufigkeit - Dice-Koeffizient-Distanz Aufgrund der Wahl von Distanz- und Termgewichtungsfunktionen kann die beste Kombination von den Benutzenden gewählt werden. bessere Aufteilung der Cluster Andreas Runk Clustering mit dem K-Means- 26/40

27 Version 4 Daten Effektivitätstests Performancetests Andreas Runk Clustering mit dem K-Means- 27/40

28 Version 4 Daten Effektivitätstests Performancetests Lösung dieser Version, welche der erwünschten Lösung am ähnlichsten ist. Ergebnisse dieser Version reproduzierbar, da Startwerte nicht mehr zufällig angenommen werden Getestet wurden alle möglichen Kombinationen der hier implementierten Termfrequenz- und Distanzfunktionen. Dem intellektuellen Clustering ähnlichstes Ergebnis dieser Version wurde erreicht mit: - Einfacher Häufigkeit - Jaccard-Koeffizient-Distanz - Zusammenfassung von Wörtern und Wortformen auf der Basis der Editierdistanz (Folie 40) Andreas Runk Clustering mit dem K-Means- 28/40

29 Testrechner Daten Effektivitätstests Performancetests System: Ubuntu CPU: Intel Q GHz RAM: 8 GB Andreas Runk Clustering mit dem K-Means- 29/40

30 Laufzeiten Daten Effektivitätstests Performancetests Andreas Runk Clustering mit dem K-Means- 30/40

31 K-Means einfach zu implementieren Wenn Qualität erforderlich erheblicher Mehraufwand Gute Clustering-Ergebnisse möglich Ausblick: Vergleich mit anderen Verfahren könnte mehr Aufschluss über Effektivität und Effizienz geben Ein Stemming könnte bessere Ergebnisse als die Editierdistanz ermöglichen. Andreas Runk Clustering mit dem K-Means- 31/40

32 Bibliography I [Arthur and Vassilvitskii(2007)] David Arthur and Sergei Vassilvitskii. k-means++: The advantages of careful seeding. Proceedings of the eighteenth annual ACM-SIAM symposium on Discrete algorithms, 7: , URL Last visited: [Bock(2007)] Hans-Hermann Bock. Origins and extensions of the k-means algorithm in cluster analysis URL Last visited: [Haenelt(2012a)] Karin Haenelt. Information Retrieval Modelle: Vektor-Modell. Kursfolien URL Modelle_Vektor.pdf. Last visited: Andreas Runk Clustering mit dem K-Means- 32/40

33 Bibliography II [Haenelt(2012b)] Karin Haenelt. Ähnlichkeitsmaße für Vektoren. Kursfolien (erste Fassung ) URL VektorAehnlichkeit.pdf. Last visited: [Haenelt(2012c)] Karin Haenelt. Clustering. Kursfolien URL http: //kontext.fraunhofer.de/haenelt/kurs/folien/haenelt_clustering.pdf. Last visited: Andreas Runk Clustering mit dem K-Means- 33/40

34 Bibliography III [MacKay(2003)] David MacKay. Chapter 20. an example inference task: Clustering. Information Theory, Inference and Learning Algorithms. Cambridge University Press., 2: , URL Last visited: [MacQueen(1967)] J. B. MacQueen. Some methods of classification and analysis of multivariate observations. In Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability, pages , URL Last visited: [Polar(2012)] Andrew Polar. Patentcorpus, URL Last visited: Andreas Runk Clustering mit dem K-Means- 34/40

35 Bibliography IV [Reinelt(2011)] Gerhard Reinelt. Effiziente Algorithmen 2. Universität Heidelberg, (Vorlesungsskript). [Steinhaus(1956)] H. Steinhaus. Sur la division des corp materiels en parties. Bull. Acad. Polon. Sci, 1: , [Wikipedia(2012a)] Wikipedia. Wikipedia, URL Last visited: [Wikipedia(2012b)] Wikipedia. Wikipedia K-Means, URL Last visited: Andreas Runk Clustering mit dem K-Means- 35/40

36 Speicher Termgewichte Distanzmaße Editier-Distanz Vielen Dank für Ihre Aufmerksamkeit Gibt es Fragen? Andreas Runk Clustering mit dem K-Means- 36/40

37 Speicher Speicher Termgewichte Distanzmaße Editier-Distanz Andreas Runk Clustering mit dem K-Means- 37/40

38 Termgewichte [Haenelt(2012a)] Speicher Termgewichte Distanzmaße Editier-Distanz Einfache Häufigkeit: f i,m = freq i,m Normalisierte Termfrequenz: tf i,m = freq i,m max l freq l,m tf-idf-gewichtung: tfidf i,m = tf i,m log N n i freq i,m N n i := Anzahl von Term t i in Dokument m := Gesamtzahl Dokumente := Anzahl Dokumente in denen Term t i vorkommt Andreas Runk Clustering mit dem K-Means- 38/40

39 Distanzmaße [Haenelt(2012b)] Speicher Termgewichte Distanzmaße Editier-Distanz Euklidisch: Cosinus: Dice-Koeffizient: Jaccard-Koeffizient: Overlap-Koeffizient: n k=1 w x,k w y,k n k=1 w x,k w y,k n k=1 w 2 n x,k k=1 w y,k 2 2 n k=1 w n x,k w y,k k=1 w x,k+ n k=1 w y,k n k=1 w n x,k w y,k k=1 w x,k+ n k=1 w y,k n k=1 w x,k w y,k n k=1 min{w x,k,w y,k } min{ n k=1 w x,k, n k=1 w y,k} n = X Y w m,i = Termgewicht von Term t i in Dokument m Andreas Runk Clustering mit dem K-Means- 39/40

40 Editier-Distanz Speicher Termgewichte Distanzmaße Editier-Distanz Berechnung von Wortähnlichkeiten δ = Kosten einer Lücke = Kosten von x i nach y j α xi,y j EditDist (A B) [Reinelt(2011)] 1: Setze A[i, 0] = iδ, für i = 1,..., p und A[0, j] = jδ, für j = 1,..., q 2: für alle j = 1,..., q 3: für alle i = 1,..., p 4: A[i, j] = min{a xi,y j + A[i 1, j 1], δ + A[i 1, j], δ + A[i, j 1]} rückgabe A[m,n] Laufzeit: O(p q) = O(l 2 ) Speicherbedarf: O(p q) = O(l 2 ) In den hier vorgestellten wurde eine Buchstaben Ersetzung und bis zu drei Lücken erlaubt. Also α xi,y j := 3 für x i y j, 0 sonst, δ := 1 und falls EditDist 3 Terme werden als gleich betrachtet. Andreas Runk Clustering mit dem K-Means- 40/40

Automatisierte Dossier- Erstellung mittels Text-Mining

Automatisierte Dossier- Erstellung mittels Text-Mining Automatisierte Dossier- Erstellung mittels Text-Mining Paul Assendorp Grundseminar 11.12.2014 Paul Assendorp Automatisierte Dossier-Erstellung 1 Gliederung Motivation Textmining Tools Aktueller Stand Ausblick

Mehr

Prototypische Komponenten eines Information Retrieval Systems: Vektormodell

Prototypische Komponenten eines Information Retrieval Systems: Vektormodell Prototypische Komponenten eines Information Retrieval Systems: Vektormodell Implementierung & Präsentation: Stefan Schmidt (Uni Mannheim) Kontakt: powder@gmx.de Seminar: Information Retrieval WS2002/2003

Mehr

Vorlesung Text und Data Mining S9 Text Clustering. Hans Hermann Weber Univ. Erlangen, Informatik

Vorlesung Text und Data Mining S9 Text Clustering. Hans Hermann Weber Univ. Erlangen, Informatik Vorlesung Text und Data Mining S9 Text Clustering Hans Hermann Weber Univ. Erlangen, Informatik Document Clustering Überblick 1 Es gibt (sehr viele) verschiedene Verfahren für das Bilden von Gruppen Bei

Mehr

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 16.05.2013 Gliederung 1 Vorverarbeitung

Mehr

Dokumenten-Clustering. Norbert Fuhr

Dokumenten-Clustering. Norbert Fuhr Dokumenten-Clustering Norbert Fuhr Dokumenten-Clustering (Dokumenten-)Cluster: Menge von ähnlichen Dokumenten Ausgangspunkt Cluster-Hypothese : die Ähnlichkeit der relevanten Dokumente untereinander und

Mehr

Clustering Seminar für Statistik

Clustering Seminar für Statistik Clustering Markus Kalisch 03.12.2014 1 Ziel von Clustering Finde Gruppen, sodas Elemente innerhalb der gleichen Gruppe möglichst ähnlich sind und Elemente von verschiedenen Gruppen möglichst verschieden

Mehr

HS Information Retrieval

HS Information Retrieval HS Information Retrieval Vergleichende Implementierung der grundlegenden IR-Modelle für eine Desktop-Suche Inhalt 1. Überblick 2. Recap: Modelle 3. Implementierung 4. Demo 5. Evaluation Überblick Ziele:

Mehr

Clustern. Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so dass:

Clustern. Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so dass: Text-Clustern 1 Clustern Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so dass: Beispiele innerhalb eines Clusters sich sehr ähnlich Beispiele in verschiedenen

Mehr

DPF Dynamic Partial distance Function

DPF Dynamic Partial distance Function DPF Dynamic Partial distance Function Vorgelegt von Sebastian Loose (MatrikelNR.: 169172), Computervisualistikstudent im 4. Semester. Hausarbeit zum Papier DPF A Perceptual Distance Function for Image

Mehr

Map Reduce on Hadoop Seminar SS09. Similarity Join. Tim Felgentreff, Andrina Mascher

Map Reduce on Hadoop Seminar SS09. Similarity Join. Tim Felgentreff, Andrina Mascher Map Reduce on Hadoop Seminar SS09 Similarity Join Tim Felgentreff, Andrina Mascher Gliederung 2!! Aufgabe!! Demo!! Algorithmus!! Performance!! Veränderte Aufgabenstellung:!! Vergleich mit 1 Seite!! Ausblick!!

Mehr

Visualisierung hochdimensionaler Daten. Hauptseminar SS11 Michael Kircher

Visualisierung hochdimensionaler Daten. Hauptseminar SS11 Michael Kircher Hauptseminar SS11 Inhalt Einführung zu hochdimensionalen Daten Visualisierungsmöglichkeiten dimensionale Teilmengen dimensionale Schachtelung Achsenumgestaltung Algorithmen zur Dimensionsreduktion Zusammenfassung

Mehr

Clustering von Dokumenten (k-means, HCL)

Clustering von Dokumenten (k-means, HCL) Clustering von Dokumenten (k-means, HCL) Jonas Wolz Universität Ulm Zusammenfassung Ein Überblick über das Clustering von Dokumenten. Außerdem werden zwei dafür verwendete Algorithmen vorgestellt (k-means

Mehr

Einführung in Hauptspeicherdatenbanken

Einführung in Hauptspeicherdatenbanken Einführung in Hauptspeicherdatenbanken Harald Zankl Probevorlesung 13. 01., 13:15 14:00, HS C Inhaltsverzeichnis Organisation Überblick Konklusion Harald Zankl (LFU) Hauptspeicherdatenbanken 2/16 Organisation

Mehr

Information Retrieval,

Information Retrieval, Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Uwe Dick Peter Haider Paul Prasse Information Retrieval Konstruktion von

Mehr

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 08.05.2014 Gliederung 1 Vorverarbeitung

Mehr

Indexstrukturen in XML

Indexstrukturen in XML Seminar XML und Datenbanken Indexstrukturen in XML Vanessa Schäfer 07.02.2003 Übersicht Einführung Indexstrukturen in XML Ein Vergleich SphinX vs. Lore Zusammenfassung und Ausblick Seminar XML und Datenbanken

Mehr

Part-Of-Speech-Tagging mit Viterbi Algorithmus

Part-Of-Speech-Tagging mit Viterbi Algorithmus Part-Of-Speech-Tagging mit Viterbi Algorithmus HS Endliche Automaten Inna Nickel, Julia Konstantinova 19.07.2010 1 / 21 Gliederung 1 Motivation 2 Theoretische Grundlagen Hidden Markov Model Viterbi Algorithmus

Mehr

Vektormodelle. Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig

Vektormodelle. Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig Vektormodelle Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig Gliederung Vektormodelle Vector-Space-Model Suffix Tree Document Model

Mehr

MATCHING VON PRODUKTDATEN IN DER CLOUD

MATCHING VON PRODUKTDATEN IN DER CLOUD MATCHING VON PRODUKTDATEN IN DER CLOUD Dr. Andreas Thor Universität Leipzig 15.12.2011 Web Data Integration Workshop 2011 Cloud Computing 2 Cloud computing is using the internet to access someone else's

Mehr

Suchmaschinenalgorithmen. Vortrag von: Thomas Müller

Suchmaschinenalgorithmen. Vortrag von: Thomas Müller Suchmaschinenalgorithmen Vortrag von: Thomas Müller Kurze Geschichte Erste Suchmaschine für Hypertexte am CERN Erste www-suchmaschine World Wide Web Wanderer 1993 Bis 1996: 2 mal jährlich Durchlauf 1994:

Mehr

Christian Zietzsch / Norman Zänker. Text Mining. und dessen Implementierung. Diplomica Verlag

Christian Zietzsch / Norman Zänker. Text Mining. und dessen Implementierung. Diplomica Verlag Christian Zietzsch / Norman Zänker Text Mining und dessen Implementierung Diplomica Verlag Christian Zietzsch, Norman Zänker Text Mining und dessen Implementierung ISBN: 978-3-8428-0970-3 Herstellung:

Mehr

Selbstorganisierende Karten

Selbstorganisierende Karten Selbstorganisierende Karten Yacin Bessas yb1@informatik.uni-ulm.de Proseminar Neuronale Netze 1 Einleitung 1.1 Kurzüberblick Die Selbstorganisierenden Karten, auch Self-Organizing (Feature) Maps, Kohonen-

Mehr

Neue Ansätze der Softwarequalitätssicherung

Neue Ansätze der Softwarequalitätssicherung Neue Ansätze der Softwarequalitätssicherung Googles MapReduce-Framework für verteilte Berechnungen am Beispiel von Apache Hadoop Universität Paderborn Fakultät für Elektrotechnik, Informatik und Mathematik

Mehr

Generalisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE

Generalisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE Institut für Kartographie und Geoinformatik Leibniz Universität Hannover Generalisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE Frank Thiemann, Thomas Globig Frank.Thiemann@ikg.uni-hannover.de

Mehr

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen 7. Clusteranalyse (= Häufungsanalyse; Clustering-Verfahren) wird der multivariaten Statistik zugeordnet Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut,

Mehr

Universität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme

Universität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme Universität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme Studienprojekt Invisible Web (Dipl.-Inform. Gudrun Fischer - WS 2003/04) Blockseminar

Mehr

Monte Carlo Methoden

Monte Carlo Methoden Monte Carlo Methoden im Verstärkungslernen [Spink] Bryan Spink 2003 Ketill Gunnarsson [ ketill@inf.fu-berlin.de ], Seminar zum Verstärkungslernen, Freie Universität Berlin [ www.inf.fu-berlin.de ] Einleitung

Mehr

Data-Mining: Ausgewählte Verfahren und Werkzeuge

Data-Mining: Ausgewählte Verfahren und Werkzeuge Fakultät Informatik Institut für Angewandte Informatik Lehrstuhl Technische Informationssysteme Data-Mining: Ausgewählte Verfahren und Vortragender: Jia Mu Betreuer: Dipl.-Inf. Denis Stein Dresden, den

Mehr

MAP CellSs Mapprakt3

MAP CellSs Mapprakt3 MAP CellSs Mapprakt3 Andreas Fall, Matthias Ziegler, Mark Duchon Hardware-Software-Co-Design Universität Erlangen-Nürnberg Andreas Fall, Matthias Ziegler, Mark Duchon 1 CellSs Cell CPU (1x PPU + 6x SPU)

Mehr

Kostenmaße. F3 03/04 p.188/395

Kostenmaße. F3 03/04 p.188/395 Kostenmaße Bei der TM nur ein Kostenmaß: Ein Schritt (Konfigurationsübergang) kostet eine Zeiteinheit; eine Bandzelle kostet eine Platzeinheit. Bei der RAM zwei Kostenmaße: uniformes Kostenmaß: (wie oben);

Mehr

Wiki Dokumentation. Erstellt von:

Wiki Dokumentation. Erstellt von: Wiki Dokumentation Erstellt von: Wiki Dokumentation www.verkaufslexikon.de Allgemeines Wikipedia, ein Enzyklopädie Projekt der Wikimedia Foundation, ist ein Wiki, d. h. eine Website, deren Seiten man direkt

Mehr

Textdokument-Suche auf dem Rechner Implementierungsprojekt

Textdokument-Suche auf dem Rechner Implementierungsprojekt Textdokument-Suche auf dem Rechner Implementierungsprojekt Referent: Oliver Petra Seminar: Information Retrieval Institut für Computerlinguistik Ruprecht-Karls-Universität Heidelberg 19.01.2015 Überblick

Mehr

Algorithmen II Vorlesung am

Algorithmen II Vorlesung am Algorithmen II Vorlesung am 0..0 Minimale Schnitte in Graphen INSTITUT FÜR THEORETISCHE INFORMATIK PROF. DR. DOROTHEA WAGNER KIT Universität des Landes Baden-Württemberg und Algorithmen nationales Forschungszentrum

Mehr

Seminar Komplexe Objekte in Datenbanken

Seminar Komplexe Objekte in Datenbanken Seminar Komplexe Objekte in Datenbanken OPTICS: Ordering Points To Identify the Clustering Structure Lehrstuhl für Informatik IX - Univ.-Prof. Dr. Thomas Seidl, RWTH-Aachen http://www-i9.informatik.rwth-aachen.de

Mehr

Zabbix Performance Tuning

Zabbix Performance Tuning Zabbix Performance Tuning Getting most out of your hardware 1/31 Zabbix Webinar Inhalte des Webinars Übersicht über Zabbix Performance Faktoren Step 1. Identifizieren und Beheben von Problemen Step 2.

Mehr

1 Einleitung. 1.1 Caching von Webanwendungen. 1.1.1 Clientseites Caching

1 Einleitung. 1.1 Caching von Webanwendungen. 1.1.1 Clientseites Caching 1.1 Caching von Webanwendungen In den vergangenen Jahren hat sich das Webumfeld sehr verändert. Nicht nur eine zunehmend größere Zahl an Benutzern sondern auch die Anforderungen in Bezug auf dynamischere

Mehr

Kürzeste Wege in Graphen. Maurice Duvigneau Otto-von-Guericke Universität Fakultät für Informatik

Kürzeste Wege in Graphen. Maurice Duvigneau Otto-von-Guericke Universität Fakultät für Informatik Kürzeste Wege in Graphen Maurice Duvigneau Otto-von-Guericke Universität Fakultät für Informatik Gliederung Einleitung Definitionen Algorithmus von Dijkstra Bellmann-Ford Algorithmus Floyd-Warshall Algorithmus

Mehr

tf/idf computation Florian Thomas, Christian Reß Map/Reduce Algorithms on Hadoop 6. Juli 2009

tf/idf computation Florian Thomas, Christian Reß Map/Reduce Algorithms on Hadoop 6. Juli 2009 tf/idf computation Florian Thomas, Christian Reß Map/Reduce Algorithms on Hadoop 6. Juli 2009 1 tf/idf computation Was ist tf/idf? Verschiedene Implementierungen Map/Reduce-Aufbau Implementierungsbesonderheiten

Mehr

Vorlesung Suchmaschinen Semesterklausur Wintersemester 2013/14

Vorlesung Suchmaschinen Semesterklausur Wintersemester 2013/14 Universität Augsburg, Institut für Informatik Wintersemester 2013/14 Prof. Dr. W. Kießling 10. Oktober 2013 F. Wenzel, D. Köppl Suchmaschinen Vorlesung Suchmaschinen Semesterklausur Wintersemester 2013/14

Mehr

12. Vorlesung. Statistische Sprachmodelle für Information Retrieval

12. Vorlesung. Statistische Sprachmodelle für Information Retrieval 12. Vorlesung Statistische Sprachmodelle für Information Retrieval Allgemeiner Ansatz Unigram Modell Beziehung zum Vektorraummodell mit TF-IDF Gewichten Statistische Spachmodelle zur Glättung Idee von

Mehr

Systemvoraussetzungen

Systemvoraussetzungen Systemvoraussetzungen INDEX Netzwerk Überblick Benötigte n für: Windows Server 2008 Windows Server 2008 R2 Windows Server 2012 Windows SQL Server 2008 (32 Bit & 64 Bit) Windows SQL Server 2012 Client Voraussetzungen

Mehr

INDEX. Netzwerk Überblick. Benötigte Komponenten für: Windows Server 2008. Windows Server 2008 R2. Windows Server 2012

INDEX. Netzwerk Überblick. Benötigte Komponenten für: Windows Server 2008. Windows Server 2008 R2. Windows Server 2012 INDEX Netzwerk Überblick Benötigte Komponenten für: Windows Server 2008 Windows Server 2008 R2 Windows Server 2012 Windows SQL Server 2008 (32 Bit & 64 Bit) Windows SQL Server 2012 Client Voraussetzungen

Mehr

Big Data Anwendungen Chancen und Risiken

Big Data Anwendungen Chancen und Risiken Big Data Anwendungen Chancen und Risiken Dr. Kurt Stockinger Studienleiter Data Science, Dozent für Informatik Zürcher Hochschule für Angewandte Wissenschaften Big Data Workshop Squeezing more out of Data

Mehr

How To Einbinden von Kartendiensten in eine Java Applikation mit Hilfe des JXMapKit

How To Einbinden von Kartendiensten in eine Java Applikation mit Hilfe des JXMapKit How To Einbinden von Kartendiensten in eine Java Applikation mit Hilfe des JXMapKit Einleitung Zunächst sollte man sich mit dem SwingX-WS Projekt von SwingLabs 1 vertraut machen. Dieses bietet viele nützliche

Mehr

WEKA A Machine Learning Interface for Data Mining

WEKA A Machine Learning Interface for Data Mining WEKA A Machine Learning Interface for Data Mining Frank Eibe, Mark Hall, Geoffrey Holmes, Richard Kirkby, Bernhard Pfahringer, Ian H. Witten Reinhard Klaus Losse Künstliche Intelligenz II WS 2009/2010

Mehr

Exploration und Klassifikation von BigData

Exploration und Klassifikation von BigData Exploration und Klassifikation von BigData Inhalt Einführung Daten Data Mining: Vorbereitungen Clustering Konvexe Hülle Fragen Google: Riesige Datenmengen (2009: Prozessieren von 24 Petabytes pro Tag)

Mehr

Clusteranalyse. Multivariate Datenanalyse. Prof. Dr. Dietmar Maringer. Abteilung für Quantitative Methoden, WWZ der Universität Basel

Clusteranalyse. Multivariate Datenanalyse. Prof. Dr. Dietmar Maringer. Abteilung für Quantitative Methoden, WWZ der Universität Basel Clusteranalyse Multivariate Datenanalyse Prof. Dr. Dietmar Maringer Abteilung für Quantitative Methoden, WWZ der Universität Basel Herbstsemester 2013 D Maringer: Datenanalyse Clusteranalyse (1) Ausgangssituation

Mehr

MapReduce und Datenbanken Thema 15: Strom bzw. Onlineverarbeitung mit MapReduce

MapReduce und Datenbanken Thema 15: Strom bzw. Onlineverarbeitung mit MapReduce MapReduce Jan Kristof Nidzwetzki MapReduce 1 / 17 Übersicht 1 Begriffe 2 Verschiedene Arbeiten 3 Ziele 4 DEDUCE: at the intersection of MapReduce and stream processing Beispiel 5 Beyond online aggregation:

Mehr

Workshop Aktuelle Entwicklungen bei der Auswertung von Fernerkundungsdaten für forstliche Aufgabenstellungen

Workshop Aktuelle Entwicklungen bei der Auswertung von Fernerkundungsdaten für forstliche Aufgabenstellungen Workshop Aktuelle Entwicklungen bei der Auswertung von Fernerkundungsdaten für forstliche Aufgabenstellungen Schätzung von Holzvorräten und Baumartenanteilen mittels Wahrscheinlichkeitsmodellen Haruth

Mehr

Kapitel 5: Clustering

Kapitel 5: Clustering Ludwig Maximilians Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Wintersemester 2006/2007 Kapitel

Mehr

3. Stud.IP-Entwickler-Workshop 2. Juni 2006 Workshop 3c: Stud.IP-Enterprise-Edition André Noack, Frank Elsner

3. Stud.IP-Entwickler-Workshop 2. Juni 2006 Workshop 3c: Stud.IP-Enterprise-Edition André Noack, Frank Elsner 3. Stud.IP-Entwickler-Workshop 2. Juni 2006 Workshop 3c: Stud.IP-Enterprise-Edition André Noack, Frank Elsner Gliederung Das Problem: Skalierbarkeit LAMP Tuning Mehr als ein Server Stud.IP und shared nothing

Mehr

Auf dem Weg zu Website-Fingerprinting in der Praxis

Auf dem Weg zu Website-Fingerprinting in der Praxis Auf dem Weg zu Website-Fingerprinting in der Praxis Identifizierung von Webseiten mit dem multinomialen Naïve-Bayes-Klassifizierer Dominik Herrmann Lehrstuhl Management der Informationssicherheit Universität

Mehr

Sicherheit in Netzwerken. Leonard Claus, WS 2012 / 2013

Sicherheit in Netzwerken. Leonard Claus, WS 2012 / 2013 Sicherheit in Netzwerken Leonard Claus, WS 2012 / 2013 Inhalt 1 Definition eines Sicherheitsbegriffs 2 Einführung in die Kryptografie 3 Netzwerksicherheit 3.1 E-Mail-Sicherheit 3.2 Sicherheit im Web 4

Mehr

Architektur verteilter Anwendungen

Architektur verteilter Anwendungen Architektur verteilter Anwendungen Schwerpunkt: verteilte Algorithmen Algorithmus: endliche Folge von Zuständen Verteilt: unabhängige Prozessoren rechnen tauschen Informationen über Nachrichten aus Komplexität:

Mehr

Architektur Verteilter Systeme Teil 2: Prozesse und Threads

Architektur Verteilter Systeme Teil 2: Prozesse und Threads Architektur Verteilter Systeme Teil 2: Prozesse und Threads 21.10.15 1 Übersicht Prozess Thread Scheduler Time Sharing 2 Begriff Prozess und Thread I Prozess = Sequentiell ablaufendes Programm Thread =

Mehr

WMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou

WMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou WMS Block: Management von Wissen in nform PART: Text Mining Myra Spiliopoulou WIE ERFASSEN UND VERWALTEN WIR EXPLIZITES WISSEN? 1. Wie strukturieren wir Wissen in nform? 2. Wie verwalten wir nsammlungen?

Mehr

Inhalt dieses Kapitels. Ziel des Clustering, Anwendungen, Typen von Clustering-Algorithmen

Inhalt dieses Kapitels. Ziel des Clustering, Anwendungen, Typen von Clustering-Algorithmen 2. Clustering Inhalt dieses Kapitels 3. Einleitung Ziel des Clustering, Anwendungen, Typen von Clustering-Algorithmen 3.2 Partitionierende Verfahren k-means, k-medoid, Expectation Maximization, Initialisierung

Mehr

Informatik II Greedy-Algorithmen

Informatik II Greedy-Algorithmen 7/7/06 lausthal Erinnerung: Dynamische Programmierung Informatik II reedy-algorithmen. Zachmann lausthal University, ermany zach@in.tu-clausthal.de Zusammenfassung der grundlegenden Idee: Optimale Sub-Struktur:

Mehr

Scala & Lift. Ferenc Lajko 04.02.2010

Scala & Lift. Ferenc Lajko 04.02.2010 Scala & Lift Ferenc Lajko 04.02.2010 Gliederung 1. Scala 1.1. Allgemein 1.2. Merkmale 1.3. Unterschiede zu Java 1.4. Code-Beispiel 1.5. Vorteile zu anderen Sprachen 2. Lift 2.1. Allgemein 2.2. Idee 2.3.

Mehr

Information Retrieval in P2P-Netzen

Information Retrieval in P2P-Netzen Information Retrieval in P2P-Netzen Vorstellung der Vortragsthemen zum Seminar Henrik Nottelmann 30. Oktober 2003 Henrik Nottelmann 1/21 Grundstruktur A) Filesharing-Systeme (3 Themen) B) Zugriffsstrukturen

Mehr

Ein Vergleich von Methoden für Multi-klassen Support Vector Maschinen

Ein Vergleich von Methoden für Multi-klassen Support Vector Maschinen Ein Vergleich von Methoden für Multi-klassen Support Vector Maschinen Einführung Auf binären Klassifikatoren beruhende Methoden One-Against-All One-Against-One DAGSVM Methoden die alle Daten zugleich betrachten

Mehr

Alignment-Verfahren zum Vergleich biologischer Sequenzen

Alignment-Verfahren zum Vergleich biologischer Sequenzen zum Vergleich biologischer Sequenzen Hans-Joachim Böckenhauer Dennis Komm Volkshochschule Zürich. April Ein biologisches Problem Fragestellung Finde eine Methode zum Vergleich von DNA-Molekülen oder Proteinen

Mehr

Metriken und optimale Einsatzszenarien für Garbage Collectoren der Java HotSpot Virtual Machine

Metriken und optimale Einsatzszenarien für Garbage Collectoren der Java HotSpot Virtual Machine Metriken und optimale Einsatzszenarien für Garbage Collectoren der Java HotSpot Virtual Machine Michael Schmeißer michael@skamandros.de 25. September 2012 25.09.2012 Michael Schmeißer, Auswahl eines Garbage

Mehr

Welche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale?

Welche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale? Text Welche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale? Textklassifikationen Natürliche bzw. unstrukturierte Texte Normale Texte ohne besondere Merkmale und Struktur Semistrukturierte

Mehr

Mit KI gegen SPAM. Proseminar Künstliche Intelligenz

Mit KI gegen SPAM. Proseminar Künstliche Intelligenz Mit KI gegen SPAM Proseminar Künstliche Intelligenz SS 2006 Florian Laib Ausblick Was ist SPAM? Warum SPAM-Filter? Naive Bayes-Verfahren Fallbasiertes Schließen Fallbasierte Filter TiMBL Vergleich der

Mehr

Computerlinguistik im Service Management eine neue Suche für TOPdesk

Computerlinguistik im Service Management eine neue Suche für TOPdesk Computerlinguistik im Service Management eine neue Suche für TOPdesk Anna Hunecke Diplom Computerlinguistin TOPdesk A.Hunecke@topdesk.com Inhalt TOPdesk Suchen in TOPdesk Lucene Lucene in TOPdesk TOPdesk

Mehr

Geometrie und Bedeutung: Kap 5

Geometrie und Bedeutung: Kap 5 : Kap 5 21. November 2011 Übersicht Der Begriff des Vektors Ähnlichkeits Distanzfunktionen für Vektoren Skalarprodukt Eukidische Distanz im R n What are vectors I Domininic: Maryl: Dollar Po Euro Yen 6

Mehr

Information Retrieval Modelle und neue Technologien. Prof. Dr. Wolfgang Riggert FDH Flensburg

Information Retrieval Modelle und neue Technologien. Prof. Dr. Wolfgang Riggert FDH Flensburg Information Retrieval Modelle und neue Technologien Prof. Dr. Wolfgang Riggert FDH Flensburg Gliederung IR-Modelle Suchmaschinen Beispiel: Google Neue Technologien Retrievalmodell - allgemein Ein Retrievalmodell

Mehr

ht://dig WWW Search Engine Software

ht://dig WWW Search Engine Software ht://dig WWW Search Engine Software Ruprecht-Karls-Universität Heidelberg Seminar für Computerlinguistik Kurs: Information Retrieval Leitung: PD Dr. Karin Haenelt 22.01.2007 Erwin Glockner Übersicht Einführung

Mehr

2. Datenvorverarbeitung

2. Datenvorverarbeitung Kurzreferat Das Ziel beim Clustering ist es möglichst gleich Datensätze zu finden und diese in Gruppen, sogenannte Cluster zu untergliedern. In dieser Dokumentation werden die Methoden k-means und Fuzzy

Mehr

Termin3 Klassifikation multispektraler Daten unüberwachte Verfahren

Termin3 Klassifikation multispektraler Daten unüberwachte Verfahren Ziel Termin3 Klassifikation multispektraler Daten unüberwachte Verfahren Einteilung (=Klassifikation) der Pixel eines multispektralen Datensatzes in eine endliche Anzahl von Klassen. Es sollen dabei versucht

Mehr

Peter Dikant mgm technology partners GmbH. Echtzeitsuche mit Hadoop und Solr

Peter Dikant mgm technology partners GmbH. Echtzeitsuche mit Hadoop und Solr Peter Dikant mgm technology partners GmbH Echtzeitsuche mit Hadoop und Solr ECHTZEITSUCHE MIT HADOOP UND SOLR PETER DIKANT MGM TECHNOLOGY PARTNERS GMBH WHOAMI peter.dikant@mgm-tp.com Java Entwickler seit

Mehr

Redundant Array of Inexpensive Disks

Redundant Array of Inexpensive Disks 22.01.2010 1 2 3 4 5 Es war einmal im Jahre 1988... Prozessoren, Speicher besser und günstiger Festplatten: - Speicherplatz bleibt teuer - Zugriff bleibt langsam Moore s Law Amdahl s Law S = 1 (1 f )+(f

Mehr

Detecting Near Duplicates for Web Crawling

Detecting Near Duplicates for Web Crawling Detecting Near Duplicates for Web Crawling Gurmeet Singh Manku et al., WWW 2007* * 16th international conference on World Wide Web Detecting Near Duplicates for Web Crawling Finde near duplicates in großen

Mehr

Prof. Dr. Udo Hahn. Seminar im Modul M-GSW-09 WiSe 2016/17

Prof. Dr. Udo Hahn. Seminar im Modul M-GSW-09 WiSe 2016/17 Seminar im Modul M-GSW-09 WiSe 2016/17 Prof. Dr. Udo Hahn Lehrstuhl für Angewandte Germanistische Sprachwissenschaft / Computerlinguistik Institut für Germanistische Sprachwissenschaft Friedrich-Schiller-Universität

Mehr

Methoden & Tools für die Expressionsdatenanalyse. Vorlesung Einführung in die Bioinformatik - Expressionsdatenanalyse U. Scholz & M.

Methoden & Tools für die Expressionsdatenanalyse. Vorlesung Einführung in die Bioinformatik - Expressionsdatenanalyse U. Scholz & M. Methoden & Tools für die Expressionsdatenanalyse U. Scholz & M. Lange Folie #7-1 Vorgehensmodell Expressionsdatenverarbeitung Bildanalyse Normalisierung/Filterung Datenauswertung U. Scholz & M. Lange Folie

Mehr

Ausarbeitung AW2 SS2012. Jan-Christoph Meier Data Mining in der Cloud

Ausarbeitung AW2 SS2012. Jan-Christoph Meier Data Mining in der Cloud Ausarbeitung AW2 SS2012 Jan-Christoph Meier Data Mining in der Cloud Fakultät Technik und Informatik Department Informatik Faculty of Engineering and Computer Science Department of Computer Science Inhaltsverzeichnis

Mehr

Alinof Key s Benutzerhandbuch

Alinof Key s Benutzerhandbuch Alinof Key s Benutzerhandbuch Version 3.0 Copyright 2010-2014 by Alinof Software GmbH Page 1/ Vorwort... 3 Urheberechte... 3 Änderungen... 3 Systemvoraussetzungen für Mac... 3 Login... 4 Änderung des Passworts...

Mehr

Seminar Web Science. Bitcoins. Nico Merten 16.05.2012. nmerten@uni-koblenz.de. N. Merten Seminar Web Science Folie 1

Seminar Web Science. Bitcoins. Nico Merten 16.05.2012. nmerten@uni-koblenz.de. N. Merten Seminar Web Science Folie 1 N. Merten Seminar Web Science Folie 1 Seminar Web Science Bitcoins Nico Merten nmerten@uni-koblenz.de 16.05.2012 Überblick N. Merten Seminar Web Science Folie 2 Überblick Einführung - Ursprung und Urheber

Mehr

Systemanforderungen Verlage & Akzidenzdruck

Systemanforderungen Verlage & Akzidenzdruck OneVision Software AG Inhalt Asura 10.2, Asura Pro 10.2,Garda 10.2...2 PlugBALANCEin 10.2, PlugCROPin 10.2, PlugFITin 10.2, PlugRECOMPOSEin 10.2, PlugSPOTin 10.2,...2 PlugTEXTin 10.2, PlugINKSAVEin 10.2,

Mehr

Informationstheorethisches Theorem nach Shannon

Informationstheorethisches Theorem nach Shannon Informationstheorethisches Theorem nach Shannon Beispiel zum Codierungsaufwand - Wiederholung: Informationstheorethisches Modell (Shannon) Sei x eine Aussage. Sei M ein Modell Wieviele Bits sind aussreichend,

Mehr

Indexvokabular {Korsika, Sardinien, Strand, Ferienwohnung, Gebirge} Verknüpfung von Enthaltenseinsbedingungen mittels Boole'scher Junktoren.

Indexvokabular {Korsika, Sardinien, Strand, Ferienwohnung, Gebirge} Verknüpfung von Enthaltenseinsbedingungen mittels Boole'scher Junktoren. Boole'sches Modell Boole'sches Modell: Beispiel basiert auf Mengentheorie und Boole'scher Algebra sehr einfaches Modell mit klarer Semantik Dokumente als Mengen von Indextermen Termgewichte sind binär:

Mehr

Systemanforderungen Verlage & Akzidenzdruck

Systemanforderungen Verlage & Akzidenzdruck OneVision Software AG Inhalt Asura 10, Asura Pro 10, Garda 10...2 PlugBALANCEin 10, PlugCROPin 10, PlugFITin 10, PlugRECOMPOSEin10, PlugSPOTin 10,...2 PlugTEXTin 10, PlugINKSAVEin 10, PlugWEBin 10...2

Mehr

Wie Google Webseiten bewertet. François Bry

Wie Google Webseiten bewertet. François Bry Wie Google Webseiten bewertet François Bry Heu6ge Vorlesung 1. Einleitung 2. Graphen und Matrizen 3. Erste Idee: Ranking als Eigenvektor 4. Fragen: Exisi6ert der Eigenvektor? Usw. 5. Zweite Idee: Die Google

Mehr

Übungsaufgaben. Aufgabe 1 Internetsuchmaschinen. Einführung in das Information Retrieval, 8. Mai 2008 Veranstaltung für die Berufsakademie Karlsruhe

Übungsaufgaben. Aufgabe 1 Internetsuchmaschinen. Einführung in das Information Retrieval, 8. Mai 2008 Veranstaltung für die Berufsakademie Karlsruhe Otto-Friedrich-Universität Bamberg Lehrstuhl für Medieninformatik Prof. Dr. Andreas Henrich Dipl. Wirtsch.Inf. Daniel Blank Einführung in das Information Retrieval, 8. Mai 2008 Veranstaltung für die Berufsakademie

Mehr

DATA MINING FÜR BIG DATA. Department Informatik Anwendungen 1 WiSe 2013/14 Anton Romanov

DATA MINING FÜR BIG DATA. Department Informatik Anwendungen 1 WiSe 2013/14 Anton Romanov DATA MINING FÜR BIG DATA Department Informatik Anwendungen 1 WiSe 2013/14 Anton Romanov 29.10.2013 2 Agenda Motivation Data Mining Assoziationsanalyse Clusteranalyse Big Data Map Reduce Apache Hadoop Relevante

Mehr

Prototypvortrag. Exploiting Cloud and Infrastructure as a Service (IaaS) Solutions for Online Game Service Provisioning. Projektseminar WS 2009/10

Prototypvortrag. Exploiting Cloud and Infrastructure as a Service (IaaS) Solutions for Online Game Service Provisioning. Projektseminar WS 2009/10 Prototypvortrag Exploiting Cloud and Infrastructure as a Service (IaaS) Solutions for Online Game Service Provisioning Projektseminar WS 2009/10 Eugen Fot, Sebastian Kenter, Michael Surmann AG Parallele

Mehr

Ressourcenplanung unter Nutzung der Java-Constraint-Bibliothek firstcs

Ressourcenplanung unter Nutzung der Java-Constraint-Bibliothek firstcs Ressourcenplanung unter Nutzung der Java-Constraint-Bibliothek firstcs Saskia Sandow Fraunhofer Institut für Rechnerarchitektur und Softwaretechnik page 1 Überblick Ressourcenplanung auf Basis constraintlogischer

Mehr

5. Vorlesung. Das Ranking Problem PageRank HITS (Hubs & Authorities) Markov Ketten und Random Walks PageRank und HITS Berechnung

5. Vorlesung. Das Ranking Problem PageRank HITS (Hubs & Authorities) Markov Ketten und Random Walks PageRank und HITS Berechnung 5. Vorlesung Das Ranking Problem PageRank HITS (Hubs & Authorities) Markov Ketten und Random Walks PageRank und HITS Berechnung Seite 120 The Ranking Problem Eingabe: D: Dokumentkollektion Q: Anfrageraum

Mehr

Schritt für Schritt Anleitung zum Erstellen einer Android-App zum Ein- und Ausschalten einer LED

Schritt für Schritt Anleitung zum Erstellen einer Android-App zum Ein- und Ausschalten einer LED Schritt für Schritt Anleitung zum Erstellen einer Android-App zum Ein- und Ausschalten einer LED Mit Google Chrome nach MIT App Inventor suchen. In den Suchergebnissen (siehe unten) auf

Mehr

Text Mining. Peter Kolb 25.6.2012

Text Mining. Peter Kolb 25.6.2012 Text Mining Peter Kolb 25.6.2012 Übersicht Big Data Information Retrieval vs. Text Mining Anwendungen Dokumentenähnlichkeit Termähnlichkeit Merkmalsauswahl und -Gewichtung Kategorisierung Clustering Big

Mehr

Data Warehousing und Data Mining

Data Warehousing und Data Mining Data Warehousing und Data Mining Clustering Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Einführung Clustergüte Ähnlichkeiten Clustermitte Hierarchisches Clustering Partitionierendes

Mehr

Bachelorarbeit: Ein diskretes Modell für Finanzmärkte

Bachelorarbeit: Ein diskretes Modell für Finanzmärkte Bachelorarbeit: Ein diskretes Modell für Finanzmärkte Die Finanzmathematik ist momentan eine der wichtigsten Anwendungender. Hier soll ein grundlegendes Modell erörtert werden, das auf der Entwicklung

Mehr

Systemanforderungen Verlage & Akzidenzdruck

Systemanforderungen Verlage & Akzidenzdruck OneVision Software AG Inhalt Asura 9.6, Asura Pro 9.6, Garda 5.6...2 PlugBALANCEin 6.6, PlugCROPin 6.6, PlugFITin 6.6, PlugRECOMPOSEin 6.6, PlugSPOTin 6.6,...2 PlugTEXTin 6.6, PlugINKSAVEin 6.6, PlugWEBin

Mehr

Florian Frötscher und Demet Özçetin

Florian Frötscher und Demet Özçetin Statistische Tests in der Mehrsprachigkeitsforschung Aufgaben, Anforderungen, Probleme. Florian Frötscher und Demet Özçetin florian.froetscher@uni-hamburg.de SFB 538 Mehrsprachigkeit Max-Brauer-Allee 60

Mehr

Performance. is rarely an accident. Martin Klier Lead / Senior Database Administrator. TGW Software Services GmbH Lindenweg 13 92552 Teunz

Performance. is rarely an accident. Martin Klier Lead / Senior Database Administrator. TGW Software Services GmbH Lindenweg 13 92552 Teunz Performance is rarely an accident Martin Klier Lead / Senior Database Administrator TGW Software Services GmbH Lindenweg 13 92552 Teunz Martin Klier Senior Database Administrator TGW Logistics Group /

Mehr

Analysesoftware für Soziale Netzwerke

Analysesoftware für Soziale Netzwerke KIT Karlsruhe Institut of Technology Praxis der Software-Entwicklung WS 2009/10 Gruppe 7»Testdokument«v 1.0 Analysesoftware für Soziale Netzwerke 26.02.2010 Phase Phasenverantwortlich e-mail Pflichtenheft

Mehr

Ohne Mathematik undenkbar!

Ohne Mathematik undenkbar! Die tägliche - Suche: Ohne Mathematik undenkbar! Dipl.-Wirt.Math. Jan Maruhn FB IV - Mathematik Universität Trier 29. März 2006 29. März 2006 Seite 1 Gliederung Einleitung und Motivation Das Internet als

Mehr

Formular»Fragenkatalog BIM-Server«

Formular»Fragenkatalog BIM-Server« Formular»Fragenkatalog BIM-Server«Um Ihnen so schnell wie möglich zu helfen, benötigen wir Ihre Mithilfe. Nur Sie vor Ort kennen Ihr Problem, und Ihre Installationsumgebung. Bitte füllen Sie dieses Dokument

Mehr

Performance Report OXID eshop 5.0 Enterprise Edition

Performance Report OXID eshop 5.0 Enterprise Edition Performance Report OXID eshop 5.0 Enterprise Edition supported by SysEleven September 2013 OXID esales AG www.oxid-esales.com info@oxid-esales.com 1/14 Copyright Kontakt OXID esales AG www.oxid-esales.com

Mehr