Clustering mit dem K-Means-Algorithmus (Ein Experiment)

Größe: px
Ab Seite anzeigen:

Download "Clustering mit dem K-Means-Algorithmus (Ein Experiment)"

Transkript

1 Clustering mit dem K-Means- (Ein Experiment) Andreas Runk 7. März 2013

2 Index Andreas Runk Clustering mit dem K-Means- 2/40

3 Ziele: des K-Means Finde/erstelle geeignetes Testcorpus möglichst gute Clustering-Ergebnisse möglichst effizient und skalierbar Andreas Runk Clustering mit dem K-Means- 3/40

4 K-Means Eigenschaften: Erste Veröffentlichung von [Steinhaus(1956)] und Namensgebung durch [MacQueen(1967)] laut [Bock(2007)] EM- Anzahl Cluster (k) wird vom Benutzer bestimmt [MacQueen(1967)] Terminiert nicht immer (Datenpunkte können zwischen Clustern springen) Ergebnisse zufällig, da zufällige Wahl der Start-Means Abbildung: [Wikipedia(2012b)] Andreas Runk Clustering mit dem K-Means- 4/40

5 K-Means Implementierter K-Means 1 : 1: Setze zufällig k Start-Means 2: d = 3: solange d > Schwellwert / Zuordnungen sich ändern 4: für alle Dokumente Assignment Step 5: Füge Dokument dem nächst-ähnlichen Cluster hinzu 6: für alle Cluster Update Step 7: Setze neue Werte des Means kleinster Abstand zu den Dokumenten in seinem Cluster 8: d = Abstand der alten und neuen Means 1 vgl. [MacKay(2003)] oder siehe auch [Haenelt(2012c)] Andreas Runk Clustering mit dem K-Means- 5/40

6 Eigenschaften der Eigenschaften der Architektur Versionen Programmiersprache: C++ (OO) Lines Of Code: ca (2300 ohne Kommentare) Anzahl Versionen: 4 Benutzte Bibliotheken: Boost Random, OpenMP, Google Sparse Hash Andreas Runk Clustering mit dem K-Means- 6/40

7 Erklärung der folgenden Darstellung Eigenschaften der Architektur Versionen Darstellung der Veränderung zur vorherigen Version in Tabellen Werte die nicht in der jeweiligen Versionstabelle enthalten sind, wurden zur vorherigen Version nicht verändert Durch ein + werden zusätzliche Eigenschaften des jeweiligen Bereiches dargestellt. Sollte eine Auswahl der jeweiligen Eigenschaft eingefügt werden, so bezieht sich diese auf alle bisher implementierten Attribute. Sonstige Eigenschaften zeigen eine Ersetzung an. Der (teilweise) in Klammern angegebene Wert ist die Gesamtersparnis an Wörtern nach dem WordCount-Schritt Andreas Runk Clustering mit dem K-Means- 7/40

8 Aufbau Eigenschaften der Architektur Versionen Modell Worttrenner Wordcount Termgewichtung Distanzfunktion Erste Means Vector Leerzeichen Array einfache Häufigkeit euklidisch zufällige Werte pro Wort zwischen 0 und max{wortzahl} Andreas Runk Clustering mit dem K-Means- 8/40

9 Struktur Eigenschaften der Architektur Versionen WordCount -countofwords -documentname -words FileReader FileWriter Cluster -clustermembers -meanwordcounts -newmeanwordcounts -words +addnewclustermember() Distance -euclideandistance() KMeans -clusters: list<cluster> -compareoldandnewclusters() -setrandommean() +KMeans() ThermWeighting -frequencyweighting() Abbildung: Klassendiagramm Andreas Runk Clustering mit dem K-Means- 9/40

10 Überblick Komplexitäten Eigenschaften der Architektur Versionen Folgende Abkürzungen werden verwendet: k = Anzahl Cluster n = Länge des längsten Dokuments m = Anzahl Dokumente l = Länge des längsten Wortes c = Anzahl Rechenkerne Andreas Runk Clustering mit dem K-Means- 10/40

11 Version 1 Eigenschaften der Architektur Versionen Worttrenner Wordcount Termgewichtung Distanzfunktion Erste Means Leerzeichen Array einfache Häufigkeit euklidisch zufällige Werte pro Wort zwischen 0 und max{worthäufigkeit} Standard K-Means Clustering [MacQueen(1967)] Andreas Runk Clustering mit dem K-Means- 11/40

12 Version 1 Eigenschaften der Architektur Versionen Komplexitäten: WordCount: O(m n 2 ) K-Means Assign: O(k m n 3 ) K-Means Update: O(k m 2 n 3 ) Probleme: Start Means sind weit von den realen Dokumenten entfernt viele Iterationen nötig Schlechte Performance Es sind viele kurze Wörter in den Texten enthalten, die wenig Information liefern ( ist, und usw.) sogenannte Stoppwörter. Andreas Runk Clustering mit dem K-Means- 12/40

13 Version 2 Eigenschaften der Architektur Versionen Worttrenner Wordcount Termgewichtung Distanzfunktion Erste Means + Sonderzeichen ( 3%) Hashmap + Stoppwortentfernung ( 7%) + normalisierte Termfrequenz + tf-idf-gewichtung + Auswahl Cosinus zufällige Dokumente K-Means++ Clustering [Arthur and Vassilvitskii(2007)] Andreas Runk Clustering mit dem K-Means- 13/40

14 Version 2 Eigenschaften der Architektur Versionen Komplexitäten: WordCount: O( m c n2 ) vs. O(m n 2 ) K-Means Assign: O(k m c n) vs. O(k m n3 ) tf-idf: O(k m2 c n) K-Means Update: O( k c m2 n 3 ) vs. O(k m 2 n 3 ) Probleme: Means zufällig Clustering zufällig langsam, bei vielen Daten (zu viel RAM-Verbrauch) Andreas Runk Clustering mit dem K-Means- 14/40

15 Version 3 Eigenschaften der Architektur Versionen Wordcount Distanzfunktion Erste Means + häufigste 10 % aller Wörter bzgl. der Worthäufigkeit werden verwendet + Dice-Koeffizient + Auswahl entfernteste Dokumente Andreas Runk Clustering mit dem K-Means- 15/40

16 Version 3 Eigenschaften der Architektur Versionen Komplexitäten: WordCount: O( m c n2 ) K-Means Assign: O(k m c n) tf-idf: O(k m2 c n) K-Means Update: O( k c m2 n 2 ) vs. O( k c m2 n 3 ) Probleme: Flektierte Formen eines Wortes werden jeweils als eigene Wörter gezählt. Dies kann unerwünscht sein. (bsp. Lied Lieder) Andreas Runk Clustering mit dem K-Means- 16/40

17 Version 4 Eigenschaften der Architektur Versionen Wordcount Distanzfunktion + ähnliche Worte, wie vorher beschrieben werden als eines gewertet (Folie 40) ( 17.5%) + Jaccard-Koeffizient + Overlap-Koeffizient Komplexitäten: WordCount: O( m2 c n2 l 2 ) vs. O( m c n2 ) K-Means Assign: O(k m c n) tf-idf: O(k m2 c n) K-Means Update: O( k c m2 n 2 ) Andreas Runk Clustering mit dem K-Means- 17/40

18 Struktur gemäß Version 4 Eigenschaften der Architektur Versionen WordCount -countofwords -documentname -words -wordswithcounts(v2) FileReader FileWriter Cluster -clustermembers -meanwordcounts -newmeanwordcounts -words +addnewclustermember() Distance KMeans -clusters: list<cluster> -compareoldandnewclusters() -setdocumentmeanwithmostdistance(v3) -setrandomdocumentmean(v2) -setrandommean() +KMeans() -euclideandistance() -cosinedistance(v2) -dicecoefficientdistance(v3) -jaccardcoefficientdistance(v4) -overlapcoefficientdistance(v4) -numberofdocuments ThermWeighting -frequencyweighting() -normalizedtermfrequency(v2) -termfrequencyinversedocumentfrequency(v2) Abbildung: Klassendiagramm Andreas Runk Clustering mit dem K-Means- 18/40

19 Daten Daten Effektivitätstests Performancetests PATENTCORPUS128: 128 Patente nach [Polar(2012)], benutzt für Performance. Sprache: englisch WikiDocs: 32 Artikel aus der Wikipedia [Wikipedia(2012a)] Kategorien (8): Geschichte, Kunst, Mathe, PC, Medizin, Musik, Sport, Essen Sprache: deutsch Andreas Runk Clustering mit dem K-Means- 19/40

20 Daten Effektivitätstests Performancetests Erwünschtes Ergebnis gemäß intellektuellem Clustering Andreas Runk Clustering mit dem K-Means- 20/40

21 Version 1 Daten Effektivitätstests Performancetests Andreas Runk Clustering mit dem K-Means- 21/40

22 Version 1 Daten Effektivitätstests Performancetests Aufgrund der zufälligen Means entstehen zufällige Lösungen. Cluster 0 enthält fast alle Dokumente, da die zufällig gewählte Anzahlt der Wörter nächsten an den Dokumenten lag Erreicht mit (keine Auswahl der Häufigkeitsfunktion und der Distanzfunktion möglich): - Einfacher Häufigkeit - Euklidischer Distanz Distanz- und Häufigkeitsfunktionen führen möglicherweise dazu, dass alle Dokumente nahe beieinander liegen Andreas Runk Clustering mit dem K-Means- 22/40

23 Version 2 Daten Effektivitätstests Performancetests Andreas Runk Clustering mit dem K-Means- 23/40

24 Version 2 Daten Effektivitätstests Performancetests Aufgrund der zufälligen Means entstehen zufällige Lösungen. Erreicht mit (keine Auswahl der Distanzfunktion möglich): - Einfacher Häufigkeit - Kosinus-Distanz Cluster 2 enthält viele Dokumente möglicherweise führt die gewählte Distanzfunktionen dazu, dass alle Dokumente nahe beieinander liegen Andreas Runk Clustering mit dem K-Means- 24/40

25 Version 3 Daten Effektivitätstests Performancetests Andreas Runk Clustering mit dem K-Means- 25/40

26 Version 3 Daten Effektivitätstests Performancetests Ergebnisse dieser Version reproduzierbar, da Startwerte nicht mehr zufällig angenommen werden Getestet wurden alle möglichen Kombinationen der hier implementierten Termfrequenz- und Distanzfunktionen. Dem intellektuellen Clustering ähnlichstes Ergebnis dieser Version wurde erreicht mit: - Einfacher Häufigkeit - Dice-Koeffizient-Distanz Aufgrund der Wahl von Distanz- und Termgewichtungsfunktionen kann die beste Kombination von den Benutzenden gewählt werden. bessere Aufteilung der Cluster Andreas Runk Clustering mit dem K-Means- 26/40

27 Version 4 Daten Effektivitätstests Performancetests Andreas Runk Clustering mit dem K-Means- 27/40

28 Version 4 Daten Effektivitätstests Performancetests Lösung dieser Version, welche der erwünschten Lösung am ähnlichsten ist. Ergebnisse dieser Version reproduzierbar, da Startwerte nicht mehr zufällig angenommen werden Getestet wurden alle möglichen Kombinationen der hier implementierten Termfrequenz- und Distanzfunktionen. Dem intellektuellen Clustering ähnlichstes Ergebnis dieser Version wurde erreicht mit: - Einfacher Häufigkeit - Jaccard-Koeffizient-Distanz - Zusammenfassung von Wörtern und Wortformen auf der Basis der Editierdistanz (Folie 40) Andreas Runk Clustering mit dem K-Means- 28/40

29 Testrechner Daten Effektivitätstests Performancetests System: Ubuntu CPU: Intel Q GHz RAM: 8 GB Andreas Runk Clustering mit dem K-Means- 29/40

30 Laufzeiten Daten Effektivitätstests Performancetests Andreas Runk Clustering mit dem K-Means- 30/40

31 K-Means einfach zu implementieren Wenn Qualität erforderlich erheblicher Mehraufwand Gute Clustering-Ergebnisse möglich Ausblick: Vergleich mit anderen Verfahren könnte mehr Aufschluss über Effektivität und Effizienz geben Ein Stemming könnte bessere Ergebnisse als die Editierdistanz ermöglichen. Andreas Runk Clustering mit dem K-Means- 31/40

32 Bibliography I [Arthur and Vassilvitskii(2007)] David Arthur and Sergei Vassilvitskii. k-means++: The advantages of careful seeding. Proceedings of the eighteenth annual ACM-SIAM symposium on Discrete algorithms, 7: , URL Last visited: [Bock(2007)] Hans-Hermann Bock. Origins and extensions of the k-means algorithm in cluster analysis URL Last visited: [Haenelt(2012a)] Karin Haenelt. Information Retrieval Modelle: Vektor-Modell. Kursfolien URL Modelle_Vektor.pdf. Last visited: Andreas Runk Clustering mit dem K-Means- 32/40

33 Bibliography II [Haenelt(2012b)] Karin Haenelt. Ähnlichkeitsmaße für Vektoren. Kursfolien (erste Fassung ) URL VektorAehnlichkeit.pdf. Last visited: [Haenelt(2012c)] Karin Haenelt. Clustering. Kursfolien URL http: //kontext.fraunhofer.de/haenelt/kurs/folien/haenelt_clustering.pdf. Last visited: Andreas Runk Clustering mit dem K-Means- 33/40

34 Bibliography III [MacKay(2003)] David MacKay. Chapter 20. an example inference task: Clustering. Information Theory, Inference and Learning Algorithms. Cambridge University Press., 2: , URL Last visited: [MacQueen(1967)] J. B. MacQueen. Some methods of classification and analysis of multivariate observations. In Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability, pages , URL Last visited: [Polar(2012)] Andrew Polar. Patentcorpus, URL Last visited: Andreas Runk Clustering mit dem K-Means- 34/40

35 Bibliography IV [Reinelt(2011)] Gerhard Reinelt. Effiziente Algorithmen 2. Universität Heidelberg, (Vorlesungsskript). [Steinhaus(1956)] H. Steinhaus. Sur la division des corp materiels en parties. Bull. Acad. Polon. Sci, 1: , [Wikipedia(2012a)] Wikipedia. Wikipedia, URL Last visited: [Wikipedia(2012b)] Wikipedia. Wikipedia K-Means, URL Last visited: Andreas Runk Clustering mit dem K-Means- 35/40

36 Speicher Termgewichte Distanzmaße Editier-Distanz Vielen Dank für Ihre Aufmerksamkeit Gibt es Fragen? Andreas Runk Clustering mit dem K-Means- 36/40

37 Speicher Speicher Termgewichte Distanzmaße Editier-Distanz Andreas Runk Clustering mit dem K-Means- 37/40

38 Termgewichte [Haenelt(2012a)] Speicher Termgewichte Distanzmaße Editier-Distanz Einfache Häufigkeit: f i,m = freq i,m Normalisierte Termfrequenz: tf i,m = freq i,m max l freq l,m tf-idf-gewichtung: tfidf i,m = tf i,m log N n i freq i,m N n i := Anzahl von Term t i in Dokument m := Gesamtzahl Dokumente := Anzahl Dokumente in denen Term t i vorkommt Andreas Runk Clustering mit dem K-Means- 38/40

39 Distanzmaße [Haenelt(2012b)] Speicher Termgewichte Distanzmaße Editier-Distanz Euklidisch: Cosinus: Dice-Koeffizient: Jaccard-Koeffizient: Overlap-Koeffizient: n k=1 w x,k w y,k n k=1 w x,k w y,k n k=1 w 2 n x,k k=1 w y,k 2 2 n k=1 w n x,k w y,k k=1 w x,k+ n k=1 w y,k n k=1 w n x,k w y,k k=1 w x,k+ n k=1 w y,k n k=1 w x,k w y,k n k=1 min{w x,k,w y,k } min{ n k=1 w x,k, n k=1 w y,k} n = X Y w m,i = Termgewicht von Term t i in Dokument m Andreas Runk Clustering mit dem K-Means- 39/40

40 Editier-Distanz Speicher Termgewichte Distanzmaße Editier-Distanz Berechnung von Wortähnlichkeiten δ = Kosten einer Lücke = Kosten von x i nach y j α xi,y j EditDist (A B) [Reinelt(2011)] 1: Setze A[i, 0] = iδ, für i = 1,..., p und A[0, j] = jδ, für j = 1,..., q 2: für alle j = 1,..., q 3: für alle i = 1,..., p 4: A[i, j] = min{a xi,y j + A[i 1, j 1], δ + A[i 1, j], δ + A[i, j 1]} rückgabe A[m,n] Laufzeit: O(p q) = O(l 2 ) Speicherbedarf: O(p q) = O(l 2 ) In den hier vorgestellten wurde eine Buchstaben Ersetzung und bis zu drei Lücken erlaubt. Also α xi,y j := 3 für x i y j, 0 sonst, δ := 1 und falls EditDist 3 Terme werden als gleich betrachtet. Andreas Runk Clustering mit dem K-Means- 40/40

Automatisierte Dossier- Erstellung mittels Text-Mining

Automatisierte Dossier- Erstellung mittels Text-Mining Automatisierte Dossier- Erstellung mittels Text-Mining Paul Assendorp Grundseminar 11.12.2014 Paul Assendorp Automatisierte Dossier-Erstellung 1 Gliederung Motivation Textmining Tools Aktueller Stand Ausblick

Mehr

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 16.05.2013 Gliederung 1 Vorverarbeitung

Mehr

Prototypische Komponenten eines Information Retrieval Systems: Vektormodell

Prototypische Komponenten eines Information Retrieval Systems: Vektormodell Prototypische Komponenten eines Information Retrieval Systems: Vektormodell Implementierung & Präsentation: Stefan Schmidt (Uni Mannheim) Kontakt: powder@gmx.de Seminar: Information Retrieval WS2002/2003

Mehr

Vorlesung Text und Data Mining S9 Text Clustering. Hans Hermann Weber Univ. Erlangen, Informatik

Vorlesung Text und Data Mining S9 Text Clustering. Hans Hermann Weber Univ. Erlangen, Informatik Vorlesung Text und Data Mining S9 Text Clustering Hans Hermann Weber Univ. Erlangen, Informatik Document Clustering Überblick 1 Es gibt (sehr viele) verschiedene Verfahren für das Bilden von Gruppen Bei

Mehr

Dokumenten-Clustering. Norbert Fuhr

Dokumenten-Clustering. Norbert Fuhr Dokumenten-Clustering Norbert Fuhr Dokumenten-Clustering (Dokumenten-)Cluster: Menge von ähnlichen Dokumenten Ausgangspunkt Cluster-Hypothese : die Ähnlichkeit der relevanten Dokumente untereinander und

Mehr

DPF Dynamic Partial distance Function

DPF Dynamic Partial distance Function DPF Dynamic Partial distance Function Vorgelegt von Sebastian Loose (MatrikelNR.: 169172), Computervisualistikstudent im 4. Semester. Hausarbeit zum Papier DPF A Perceptual Distance Function for Image

Mehr

Clustering Seminar für Statistik

Clustering Seminar für Statistik Clustering Markus Kalisch 03.12.2014 1 Ziel von Clustering Finde Gruppen, sodas Elemente innerhalb der gleichen Gruppe möglichst ähnlich sind und Elemente von verschiedenen Gruppen möglichst verschieden

Mehr

Map Reduce on Hadoop Seminar SS09. Similarity Join. Tim Felgentreff, Andrina Mascher

Map Reduce on Hadoop Seminar SS09. Similarity Join. Tim Felgentreff, Andrina Mascher Map Reduce on Hadoop Seminar SS09 Similarity Join Tim Felgentreff, Andrina Mascher Gliederung 2!! Aufgabe!! Demo!! Algorithmus!! Performance!! Veränderte Aufgabenstellung:!! Vergleich mit 1 Seite!! Ausblick!!

Mehr

Visualisierung hochdimensionaler Daten. Hauptseminar SS11 Michael Kircher

Visualisierung hochdimensionaler Daten. Hauptseminar SS11 Michael Kircher Hauptseminar SS11 Inhalt Einführung zu hochdimensionalen Daten Visualisierungsmöglichkeiten dimensionale Teilmengen dimensionale Schachtelung Achsenumgestaltung Algorithmen zur Dimensionsreduktion Zusammenfassung

Mehr

Clustern. Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so dass:

Clustern. Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so dass: Text-Clustern 1 Clustern Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so dass: Beispiele innerhalb eines Clusters sich sehr ähnlich Beispiele in verschiedenen

Mehr

Clustering von Dokumenten (k-means, HCL)

Clustering von Dokumenten (k-means, HCL) Clustering von Dokumenten (k-means, HCL) Jonas Wolz Universität Ulm Zusammenfassung Ein Überblick über das Clustering von Dokumenten. Außerdem werden zwei dafür verwendete Algorithmen vorgestellt (k-means

Mehr

Christian Zietzsch / Norman Zänker. Text Mining. und dessen Implementierung. Diplomica Verlag

Christian Zietzsch / Norman Zänker. Text Mining. und dessen Implementierung. Diplomica Verlag Christian Zietzsch / Norman Zänker Text Mining und dessen Implementierung Diplomica Verlag Christian Zietzsch, Norman Zänker Text Mining und dessen Implementierung ISBN: 978-3-8428-0970-3 Herstellung:

Mehr

Indexstrukturen in XML

Indexstrukturen in XML Seminar XML und Datenbanken Indexstrukturen in XML Vanessa Schäfer 07.02.2003 Übersicht Einführung Indexstrukturen in XML Ein Vergleich SphinX vs. Lore Zusammenfassung und Ausblick Seminar XML und Datenbanken

Mehr

Vektormodelle. Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig

Vektormodelle. Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig Vektormodelle Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig Gliederung Vektormodelle Vector-Space-Model Suffix Tree Document Model

Mehr

Suchmaschinenalgorithmen. Vortrag von: Thomas Müller

Suchmaschinenalgorithmen. Vortrag von: Thomas Müller Suchmaschinenalgorithmen Vortrag von: Thomas Müller Kurze Geschichte Erste Suchmaschine für Hypertexte am CERN Erste www-suchmaschine World Wide Web Wanderer 1993 Bis 1996: 2 mal jährlich Durchlauf 1994:

Mehr

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen 7. Clusteranalyse (= Häufungsanalyse; Clustering-Verfahren) wird der multivariaten Statistik zugeordnet Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut,

Mehr

Einführung in Hauptspeicherdatenbanken

Einführung in Hauptspeicherdatenbanken Einführung in Hauptspeicherdatenbanken Harald Zankl Probevorlesung 13. 01., 13:15 14:00, HS C Inhaltsverzeichnis Organisation Überblick Konklusion Harald Zankl (LFU) Hauptspeicherdatenbanken 2/16 Organisation

Mehr

Selbstorganisierende Karten

Selbstorganisierende Karten Selbstorganisierende Karten Yacin Bessas yb1@informatik.uni-ulm.de Proseminar Neuronale Netze 1 Einleitung 1.1 Kurzüberblick Die Selbstorganisierenden Karten, auch Self-Organizing (Feature) Maps, Kohonen-

Mehr

Universität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme

Universität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme Universität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme Studienprojekt Invisible Web (Dipl.-Inform. Gudrun Fischer - WS 2003/04) Blockseminar

Mehr

How To Einbinden von Kartendiensten in eine Java Applikation mit Hilfe des JXMapKit

How To Einbinden von Kartendiensten in eine Java Applikation mit Hilfe des JXMapKit How To Einbinden von Kartendiensten in eine Java Applikation mit Hilfe des JXMapKit Einleitung Zunächst sollte man sich mit dem SwingX-WS Projekt von SwingLabs 1 vertraut machen. Dieses bietet viele nützliche

Mehr

Seminar Komplexe Objekte in Datenbanken

Seminar Komplexe Objekte in Datenbanken Seminar Komplexe Objekte in Datenbanken OPTICS: Ordering Points To Identify the Clustering Structure Lehrstuhl für Informatik IX - Univ.-Prof. Dr. Thomas Seidl, RWTH-Aachen http://www-i9.informatik.rwth-aachen.de

Mehr

MATCHING VON PRODUKTDATEN IN DER CLOUD

MATCHING VON PRODUKTDATEN IN DER CLOUD MATCHING VON PRODUKTDATEN IN DER CLOUD Dr. Andreas Thor Universität Leipzig 15.12.2011 Web Data Integration Workshop 2011 Cloud Computing 2 Cloud computing is using the internet to access someone else's

Mehr

Part-Of-Speech-Tagging mit Viterbi Algorithmus

Part-Of-Speech-Tagging mit Viterbi Algorithmus Part-Of-Speech-Tagging mit Viterbi Algorithmus HS Endliche Automaten Inna Nickel, Julia Konstantinova 19.07.2010 1 / 21 Gliederung 1 Motivation 2 Theoretische Grundlagen Hidden Markov Model Viterbi Algorithmus

Mehr

WMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou

WMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou WMS Block: Management von Wissen in nform PART: Text Mining Myra Spiliopoulou WIE ERFASSEN UND VERWALTEN WIR EXPLIZITES WISSEN? 1. Wie strukturieren wir Wissen in nform? 2. Wie verwalten wir nsammlungen?

Mehr

Data-Mining: Ausgewählte Verfahren und Werkzeuge

Data-Mining: Ausgewählte Verfahren und Werkzeuge Fakultät Informatik Institut für Angewandte Informatik Lehrstuhl Technische Informationssysteme Data-Mining: Ausgewählte Verfahren und Vortragender: Jia Mu Betreuer: Dipl.-Inf. Denis Stein Dresden, den

Mehr

Generalisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE

Generalisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE Institut für Kartographie und Geoinformatik Leibniz Universität Hannover Generalisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE Frank Thiemann, Thomas Globig Frank.Thiemann@ikg.uni-hannover.de

Mehr

Geometrie und Bedeutung: Kap 5

Geometrie und Bedeutung: Kap 5 : Kap 5 21. November 2011 Übersicht Der Begriff des Vektors Ähnlichkeits Distanzfunktionen für Vektoren Skalarprodukt Eukidische Distanz im R n What are vectors I Domininic: Maryl: Dollar Po Euro Yen 6

Mehr

Big Data Anwendungen Chancen und Risiken

Big Data Anwendungen Chancen und Risiken Big Data Anwendungen Chancen und Risiken Dr. Kurt Stockinger Studienleiter Data Science, Dozent für Informatik Zürcher Hochschule für Angewandte Wissenschaften Big Data Workshop Squeezing more out of Data

Mehr

Welche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale?

Welche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale? Text Welche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale? Textklassifikationen Natürliche bzw. unstrukturierte Texte Normale Texte ohne besondere Merkmale und Struktur Semistrukturierte

Mehr

Wiki Dokumentation. Erstellt von:

Wiki Dokumentation. Erstellt von: Wiki Dokumentation Erstellt von: Wiki Dokumentation www.verkaufslexikon.de Allgemeines Wikipedia, ein Enzyklopädie Projekt der Wikimedia Foundation, ist ein Wiki, d. h. eine Website, deren Seiten man direkt

Mehr

MAP CellSs Mapprakt3

MAP CellSs Mapprakt3 MAP CellSs Mapprakt3 Andreas Fall, Matthias Ziegler, Mark Duchon Hardware-Software-Co-Design Universität Erlangen-Nürnberg Andreas Fall, Matthias Ziegler, Mark Duchon 1 CellSs Cell CPU (1x PPU + 6x SPU)

Mehr

WEKA A Machine Learning Interface for Data Mining

WEKA A Machine Learning Interface for Data Mining WEKA A Machine Learning Interface for Data Mining Frank Eibe, Mark Hall, Geoffrey Holmes, Richard Kirkby, Bernhard Pfahringer, Ian H. Witten Reinhard Klaus Losse Künstliche Intelligenz II WS 2009/2010

Mehr

Exploration und Klassifikation von BigData

Exploration und Klassifikation von BigData Exploration und Klassifikation von BigData Inhalt Einführung Daten Data Mining: Vorbereitungen Clustering Konvexe Hülle Fragen Google: Riesige Datenmengen (2009: Prozessieren von 24 Petabytes pro Tag)

Mehr

Zabbix Performance Tuning

Zabbix Performance Tuning Zabbix Performance Tuning Getting most out of your hardware 1/31 Zabbix Webinar Inhalte des Webinars Übersicht über Zabbix Performance Faktoren Step 1. Identifizieren und Beheben von Problemen Step 2.

Mehr

Linux Cluster in Theorie und Praxis

Linux Cluster in Theorie und Praxis Foliensatz Center for Information Services and High Performance Computing (ZIH) Linux Cluster in Theorie und Praxis Monitoring 30. November 2009 Verfügbarkeit der Folien Vorlesungswebseite: http://tu-dresden.de/die_tu_dresden/zentrale_einrichtungen/

Mehr

Neue Ansätze der Softwarequalitätssicherung

Neue Ansätze der Softwarequalitätssicherung Neue Ansätze der Softwarequalitätssicherung Googles MapReduce-Framework für verteilte Berechnungen am Beispiel von Apache Hadoop Universität Paderborn Fakultät für Elektrotechnik, Informatik und Mathematik

Mehr

Architektur Verteilter Systeme Teil 2: Prozesse und Threads

Architektur Verteilter Systeme Teil 2: Prozesse und Threads Architektur Verteilter Systeme Teil 2: Prozesse und Threads 21.10.15 1 Übersicht Prozess Thread Scheduler Time Sharing 2 Begriff Prozess und Thread I Prozess = Sequentiell ablaufendes Programm Thread =

Mehr

Workshop Aktuelle Entwicklungen bei der Auswertung von Fernerkundungsdaten für forstliche Aufgabenstellungen

Workshop Aktuelle Entwicklungen bei der Auswertung von Fernerkundungsdaten für forstliche Aufgabenstellungen Workshop Aktuelle Entwicklungen bei der Auswertung von Fernerkundungsdaten für forstliche Aufgabenstellungen Schätzung von Holzvorräten und Baumartenanteilen mittels Wahrscheinlichkeitsmodellen Haruth

Mehr

Approximationsalgorithmen

Approximationsalgorithmen Ausarbeitung zum Thema Approximationsalgorithmen im Rahmen des Fachseminars 24. Juli 2009 Robert Bahmann robert.bahmann@gmail.com FH Wiesbaden Erstellt von: Robert Bahmann Zuletzt berarbeitet von: Robert

Mehr

Detecting Near Duplicates for Web Crawling

Detecting Near Duplicates for Web Crawling Detecting Near Duplicates for Web Crawling Gurmeet Singh Manku et al., WWW 2007* * 16th international conference on World Wide Web Detecting Near Duplicates for Web Crawling Finde near duplicates in großen

Mehr

Florian Frötscher und Demet Özçetin

Florian Frötscher und Demet Özçetin Statistische Tests in der Mehrsprachigkeitsforschung Aufgaben, Anforderungen, Probleme. Florian Frötscher und Demet Özçetin florian.froetscher@uni-hamburg.de SFB 538 Mehrsprachigkeit Max-Brauer-Allee 60

Mehr

Systemanforderungen Verlage & Akzidenzdruck

Systemanforderungen Verlage & Akzidenzdruck OneVision Software AG Inhalt Asura 10.2, Asura Pro 10.2,Garda 10.2...2 PlugBALANCEin 10.2, PlugCROPin 10.2, PlugFITin 10.2, PlugRECOMPOSEin 10.2, PlugSPOTin 10.2,...2 PlugTEXTin 10.2, PlugINKSAVEin 10.2,

Mehr

Monte Carlo Methoden

Monte Carlo Methoden Monte Carlo Methoden im Verstärkungslernen [Spink] Bryan Spink 2003 Ketill Gunnarsson [ ketill@inf.fu-berlin.de ], Seminar zum Verstärkungslernen, Freie Universität Berlin [ www.inf.fu-berlin.de ] Einleitung

Mehr

Mit KI gegen SPAM. Proseminar Künstliche Intelligenz

Mit KI gegen SPAM. Proseminar Künstliche Intelligenz Mit KI gegen SPAM Proseminar Künstliche Intelligenz SS 2006 Florian Laib Ausblick Was ist SPAM? Warum SPAM-Filter? Naive Bayes-Verfahren Fallbasiertes Schließen Fallbasierte Filter TiMBL Vergleich der

Mehr

Systemanforderungen Verlage & Akzidenzdruck

Systemanforderungen Verlage & Akzidenzdruck OneVision Software AG Inhalt Asura 10, Asura Pro 10, Garda 10...2 PlugBALANCEin 10, PlugCROPin 10, PlugFITin 10, PlugRECOMPOSEin10, PlugSPOTin 10,...2 PlugTEXTin 10, PlugINKSAVEin 10, PlugWEBin 10...2

Mehr

Information Retrieval in P2P-Netzen

Information Retrieval in P2P-Netzen Information Retrieval in P2P-Netzen Vorstellung der Vortragsthemen zum Seminar Henrik Nottelmann 30. Oktober 2003 Henrik Nottelmann 1/21 Grundstruktur A) Filesharing-Systeme (3 Themen) B) Zugriffsstrukturen

Mehr

Systemanforderungen Verlage & Akzidenzdruck

Systemanforderungen Verlage & Akzidenzdruck OneVision Software AG Inhalt Asura 9.6, Asura Pro 9.6, Garda 5.6...2 PlugBALANCEin 6.6, PlugCROPin 6.6, PlugFITin 6.6, PlugRECOMPOSEin 6.6, PlugSPOTin 6.6,...2 PlugTEXTin 6.6, PlugINKSAVEin 6.6, PlugWEBin

Mehr

Schritt für Schritt Anleitung zum Erstellen einer Android-App zum Ein- und Ausschalten einer LED

Schritt für Schritt Anleitung zum Erstellen einer Android-App zum Ein- und Ausschalten einer LED Schritt für Schritt Anleitung zum Erstellen einer Android-App zum Ein- und Ausschalten einer LED Mit Google Chrome nach MIT App Inventor suchen. In den Suchergebnissen (siehe unten) auf

Mehr

Bachelorarbeit: Ein diskretes Modell für Finanzmärkte

Bachelorarbeit: Ein diskretes Modell für Finanzmärkte Bachelorarbeit: Ein diskretes Modell für Finanzmärkte Die Finanzmathematik ist momentan eine der wichtigsten Anwendungender. Hier soll ein grundlegendes Modell erörtert werden, das auf der Entwicklung

Mehr

Ein Vergleich von Methoden für Multi-klassen Support Vector Maschinen

Ein Vergleich von Methoden für Multi-klassen Support Vector Maschinen Ein Vergleich von Methoden für Multi-klassen Support Vector Maschinen Einführung Auf binären Klassifikatoren beruhende Methoden One-Against-All One-Against-One DAGSVM Methoden die alle Daten zugleich betrachten

Mehr

tf/idf computation Florian Thomas, Christian Reß Map/Reduce Algorithms on Hadoop 6. Juli 2009

tf/idf computation Florian Thomas, Christian Reß Map/Reduce Algorithms on Hadoop 6. Juli 2009 tf/idf computation Florian Thomas, Christian Reß Map/Reduce Algorithms on Hadoop 6. Juli 2009 1 tf/idf computation Was ist tf/idf? Verschiedene Implementierungen Map/Reduce-Aufbau Implementierungsbesonderheiten

Mehr

Information Retrieval Modelle und neue Technologien. Prof. Dr. Wolfgang Riggert FDH Flensburg

Information Retrieval Modelle und neue Technologien. Prof. Dr. Wolfgang Riggert FDH Flensburg Information Retrieval Modelle und neue Technologien Prof. Dr. Wolfgang Riggert FDH Flensburg Gliederung IR-Modelle Suchmaschinen Beispiel: Google Neue Technologien Retrievalmodell - allgemein Ein Retrievalmodell

Mehr

Metriken und optimale Einsatzszenarien für Garbage Collectoren der Java HotSpot Virtual Machine

Metriken und optimale Einsatzszenarien für Garbage Collectoren der Java HotSpot Virtual Machine Metriken und optimale Einsatzszenarien für Garbage Collectoren der Java HotSpot Virtual Machine Michael Schmeißer michael@skamandros.de 25. September 2012 25.09.2012 Michael Schmeißer, Auswahl eines Garbage

Mehr

Kostenmaße. F3 03/04 p.188/395

Kostenmaße. F3 03/04 p.188/395 Kostenmaße Bei der TM nur ein Kostenmaß: Ein Schritt (Konfigurationsübergang) kostet eine Zeiteinheit; eine Bandzelle kostet eine Platzeinheit. Bei der RAM zwei Kostenmaße: uniformes Kostenmaß: (wie oben);

Mehr

Systemvoraussetzungen

Systemvoraussetzungen Systemvoraussetzungen INDEX Netzwerk Überblick Benötigte n für: Windows Server 2008 Windows Server 2008 R2 Windows Server 2012 Windows SQL Server 2008 (32 Bit & 64 Bit) Windows SQL Server 2012 Client Voraussetzungen

Mehr

Termin3 Klassifikation multispektraler Daten unüberwachte Verfahren

Termin3 Klassifikation multispektraler Daten unüberwachte Verfahren Ziel Termin3 Klassifikation multispektraler Daten unüberwachte Verfahren Einteilung (=Klassifikation) der Pixel eines multispektralen Datensatzes in eine endliche Anzahl von Klassen. Es sollen dabei versucht

Mehr

INDEX. Netzwerk Überblick. Benötigte Komponenten für: Windows Server 2008. Windows Server 2008 R2. Windows Server 2012

INDEX. Netzwerk Überblick. Benötigte Komponenten für: Windows Server 2008. Windows Server 2008 R2. Windows Server 2012 INDEX Netzwerk Überblick Benötigte Komponenten für: Windows Server 2008 Windows Server 2008 R2 Windows Server 2012 Windows SQL Server 2008 (32 Bit & 64 Bit) Windows SQL Server 2012 Client Voraussetzungen

Mehr

Alinof Key s Benutzerhandbuch

Alinof Key s Benutzerhandbuch Alinof Key s Benutzerhandbuch Version 3.0 Copyright 2010-2014 by Alinof Software GmbH Page 1/ Vorwort... 3 Urheberechte... 3 Änderungen... 3 Systemvoraussetzungen für Mac... 3 Login... 4 Änderung des Passworts...

Mehr

Textdokument-Suche auf dem Rechner Implementierungsprojekt

Textdokument-Suche auf dem Rechner Implementierungsprojekt Textdokument-Suche auf dem Rechner Implementierungsprojekt Referent: Oliver Petra Seminar: Information Retrieval Institut für Computerlinguistik Ruprecht-Karls-Universität Heidelberg 19.01.2015 Überblick

Mehr

Clusteranalyse. Multivariate Datenanalyse. Prof. Dr. Dietmar Maringer. Abteilung für Quantitative Methoden, WWZ der Universität Basel

Clusteranalyse. Multivariate Datenanalyse. Prof. Dr. Dietmar Maringer. Abteilung für Quantitative Methoden, WWZ der Universität Basel Clusteranalyse Multivariate Datenanalyse Prof. Dr. Dietmar Maringer Abteilung für Quantitative Methoden, WWZ der Universität Basel Herbstsemester 2013 D Maringer: Datenanalyse Clusteranalyse (1) Ausgangssituation

Mehr

ht://dig WWW Search Engine Software

ht://dig WWW Search Engine Software ht://dig WWW Search Engine Software Ruprecht-Karls-Universität Heidelberg Seminar für Computerlinguistik Kurs: Information Retrieval Leitung: PD Dr. Karin Haenelt 22.01.2007 Erwin Glockner Übersicht Einführung

Mehr

Ausarbeitung AW2 SS2012. Jan-Christoph Meier Data Mining in der Cloud

Ausarbeitung AW2 SS2012. Jan-Christoph Meier Data Mining in der Cloud Ausarbeitung AW2 SS2012 Jan-Christoph Meier Data Mining in der Cloud Fakultät Technik und Informatik Department Informatik Faculty of Engineering and Computer Science Department of Computer Science Inhaltsverzeichnis

Mehr

Proseminar - Data Mining

Proseminar - Data Mining Proseminar - Data Mining SCCS, Fakultät für Informatik Technische Universität München SS 2012, SS 2012 1 Data Mining Pipeline Planung Aufbereitung Modellbildung Auswertung Wir wollen nützliches Wissen

Mehr

Ruby on Rails. Florian Ferrano Ralf Heller Markus Nagel

Ruby on Rails. Florian Ferrano Ralf Heller Markus Nagel Ruby on Rails Florian Ferrano Ralf Heller Markus Nagel Überblick Ruby on Rails Ruby Rails Geschichte MVC allgemein MVC in Rails Scaffolding Webserver Installation Beispiele Wo wird Rails verwendet? Ausblick

Mehr

Kürzeste Wege in Graphen. Maurice Duvigneau Otto-von-Guericke Universität Fakultät für Informatik

Kürzeste Wege in Graphen. Maurice Duvigneau Otto-von-Guericke Universität Fakultät für Informatik Kürzeste Wege in Graphen Maurice Duvigneau Otto-von-Guericke Universität Fakultät für Informatik Gliederung Einleitung Definitionen Algorithmus von Dijkstra Bellmann-Ford Algorithmus Floyd-Warshall Algorithmus

Mehr

Architektur verteilter Anwendungen

Architektur verteilter Anwendungen Architektur verteilter Anwendungen Schwerpunkt: verteilte Algorithmen Algorithmus: endliche Folge von Zuständen Verteilt: unabhängige Prozessoren rechnen tauschen Informationen über Nachrichten aus Komplexität:

Mehr

Auf dem Weg zu Website-Fingerprinting in der Praxis

Auf dem Weg zu Website-Fingerprinting in der Praxis Auf dem Weg zu Website-Fingerprinting in der Praxis Identifizierung von Webseiten mit dem multinomialen Naïve-Bayes-Klassifizierer Dominik Herrmann Lehrstuhl Management der Informationssicherheit Universität

Mehr

Sicherheit in Netzwerken. Leonard Claus, WS 2012 / 2013

Sicherheit in Netzwerken. Leonard Claus, WS 2012 / 2013 Sicherheit in Netzwerken Leonard Claus, WS 2012 / 2013 Inhalt 1 Definition eines Sicherheitsbegriffs 2 Einführung in die Kryptografie 3 Netzwerksicherheit 3.1 E-Mail-Sicherheit 3.2 Sicherheit im Web 4

Mehr

Vorlesung Suchmaschinen Semesterklausur Wintersemester 2013/14

Vorlesung Suchmaschinen Semesterklausur Wintersemester 2013/14 Universität Augsburg, Institut für Informatik Wintersemester 2013/14 Prof. Dr. W. Kießling 10. Oktober 2013 F. Wenzel, D. Köppl Suchmaschinen Vorlesung Suchmaschinen Semesterklausur Wintersemester 2013/14

Mehr

DATA MINING FÜR BIG DATA. Department Informatik Anwendungen 1 WiSe 2013/14 Anton Romanov

DATA MINING FÜR BIG DATA. Department Informatik Anwendungen 1 WiSe 2013/14 Anton Romanov DATA MINING FÜR BIG DATA Department Informatik Anwendungen 1 WiSe 2013/14 Anton Romanov 29.10.2013 2 Agenda Motivation Data Mining Assoziationsanalyse Clusteranalyse Big Data Map Reduce Apache Hadoop Relevante

Mehr

Informationstheorethisches Theorem nach Shannon

Informationstheorethisches Theorem nach Shannon Informationstheorethisches Theorem nach Shannon Beispiel zum Codierungsaufwand - Wiederholung: Informationstheorethisches Modell (Shannon) Sei x eine Aussage. Sei M ein Modell Wieviele Bits sind aussreichend,

Mehr

Text Mining. Peter Kolb 25.6.2012

Text Mining. Peter Kolb 25.6.2012 Text Mining Peter Kolb 25.6.2012 Übersicht Big Data Information Retrieval vs. Text Mining Anwendungen Dokumentenähnlichkeit Termähnlichkeit Merkmalsauswahl und -Gewichtung Kategorisierung Clustering Big

Mehr

Übungsaufgaben. Aufgabe 1 Internetsuchmaschinen. Einführung in das Information Retrieval, 8. Mai 2008 Veranstaltung für die Berufsakademie Karlsruhe

Übungsaufgaben. Aufgabe 1 Internetsuchmaschinen. Einführung in das Information Retrieval, 8. Mai 2008 Veranstaltung für die Berufsakademie Karlsruhe Otto-Friedrich-Universität Bamberg Lehrstuhl für Medieninformatik Prof. Dr. Andreas Henrich Dipl. Wirtsch.Inf. Daniel Blank Einführung in das Information Retrieval, 8. Mai 2008 Veranstaltung für die Berufsakademie

Mehr

Web Information Retrieval. Zwischendiskussion. Überblick. Meta-Suchmaschinen und Fusion (auch Rank Aggregation) Fusion

Web Information Retrieval. Zwischendiskussion. Überblick. Meta-Suchmaschinen und Fusion (auch Rank Aggregation) Fusion Web Information Retrieval Hauptseminar Sommersemester 2003 Thomas Mandl Überblick Mehrsprachigkeit Multimedialität Heterogenität Qualität, semantisch, technisch Struktur Links HTML Struktur Technologische

Mehr

QCfetcher Handbuch. Version 1.0.0.10. Ein Zusatztool zum QuoteCompiler. Diese Software ist nur für private und nicht-kommerzielle Zwecke einzusetzen.

QCfetcher Handbuch. Version 1.0.0.10. Ein Zusatztool zum QuoteCompiler. Diese Software ist nur für private und nicht-kommerzielle Zwecke einzusetzen. Seite 1 QCfetcher Handbuch Ein Zusatztool zum QuoteCompiler Diese Software ist nur für private und nicht-kommerzielle Zwecke einzusetzen. Die neuesten Informationen gibt es auf der Webseite: http://finanzkasper.de/

Mehr

Informatik II Greedy-Algorithmen

Informatik II Greedy-Algorithmen 7/7/06 lausthal Erinnerung: Dynamische Programmierung Informatik II reedy-algorithmen. Zachmann lausthal University, ermany zach@in.tu-clausthal.de Zusammenfassung der grundlegenden Idee: Optimale Sub-Struktur:

Mehr

Information Retrieval in XML- Dokumenten

Information Retrieval in XML- Dokumenten Inhalt Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund fuhr@cs.uni-dortmund.de I. Einführung II. III. IV. IR-Konzepte für XML XIRQL HyREX-Retrievalengine V. Zusammenfassung und

Mehr

Alignment-Verfahren zum Vergleich biologischer Sequenzen

Alignment-Verfahren zum Vergleich biologischer Sequenzen zum Vergleich biologischer Sequenzen Hans-Joachim Böckenhauer Dennis Komm Volkshochschule Zürich. April Ein biologisches Problem Fragestellung Finde eine Methode zum Vergleich von DNA-Molekülen oder Proteinen

Mehr

Suche, Suchmaschinen, Suchmaschinenoptimierung. Workshop TYPO3 17.04.2012 Sybille Peters

Suche, Suchmaschinen, Suchmaschinenoptimierung. Workshop TYPO3 17.04.2012 Sybille Peters Suche, Suchmaschinen, Suchmaschinenoptimierung Workshop TYPO3 17.04.2012 Sybille Peters Sybille Peters Mitarbeiterin TYPO3 Team RRZN seit 4/2011 vorher im Suchmaschinenlabor des RRZN Seite 2 Überblick

Mehr

Handbuch Datenpunktliste - Auswerte - Tools

Handbuch Datenpunktliste - Auswerte - Tools Handbuch Datenpunktliste - Auswerte - Tools zur Bearbeitung von Excel Datenpunktlisten nach VDI Norm 3814 für Saia PCD Systeme alle Rechte bei: SBC Deutschland GmbH Siemensstr. 3, 63263 Neu-Isenburg nachfolgend

Mehr

Computerlinguistik im Service Management eine neue Suche für TOPdesk

Computerlinguistik im Service Management eine neue Suche für TOPdesk Computerlinguistik im Service Management eine neue Suche für TOPdesk Anna Hunecke Diplom Computerlinguistin TOPdesk A.Hunecke@topdesk.com Inhalt TOPdesk Suchen in TOPdesk Lucene Lucene in TOPdesk TOPdesk

Mehr

Performance Report OXID eshop 5.0 Enterprise Edition

Performance Report OXID eshop 5.0 Enterprise Edition Performance Report OXID eshop 5.0 Enterprise Edition supported by SysEleven September 2013 OXID esales AG www.oxid-esales.com info@oxid-esales.com 1/14 Copyright Kontakt OXID esales AG www.oxid-esales.com

Mehr

RUP Analyse und Design: Überblick

RUP Analyse und Design: Überblick Inhaltsverzeichnis Übersicht [, 2, 8] 3. Vorgehensweise............................... 5 2 Planungsmethoden 37 2. Definitionsphase.............................. 6 3 Rational Unified Process [5, 6] und

Mehr

Event-Aggregation in Frühwarnsystemen. Till Dörges. 2009 by PRESENSE Technologies GmbH

Event-Aggregation in Frühwarnsystemen. Till Dörges. 2009 by PRESENSE Technologies GmbH Event-Aggregation in Frühwarnsystemen Till Dörges Gliederung Motivation Definitionen Aggregationsverfahren Implementierung Ergebnisse / Ausblick Folie 2 / Event-Aggregation 18. März 2009 Hamburg Motivation

Mehr

Language Model basierte Suchterm Klassifizierung. Marcus Fabarius Kamila Kedzior Philipp Liepert Rim Sahnoun Enterprise Data Management SoSe 2014

Language Model basierte Suchterm Klassifizierung. Marcus Fabarius Kamila Kedzior Philipp Liepert Rim Sahnoun Enterprise Data Management SoSe 2014 Language Model basierte Suchterm Klassifizierung Marcus Fabarius Kamila Kedzior Philipp Liepert Rim Sahnoun Enterprise Data Management SoSe 2014 Problem Die Intention des Nutzers ist nicht immer eindeutig

Mehr

RSS-Feeds. Zentraler Informatikdienst der Universität Wien. Gerhard Mayer. Stand: April 2014, TYPO3-Version 4.5

RSS-Feeds. Zentraler Informatikdienst der Universität Wien. Gerhard Mayer. Stand: April 2014, TYPO3-Version 4.5 4-2014 RSS-Feeds RSS-Feed RSS-Feeds Zentraler Informatikdienst der Universität Wien Gerhard Mayer Stand: April 2014, TYPO3-Version 4.5 Dieses Skriptum ist eine Begleitunterlage der Schulungen des Zentralen

Mehr

Security of Online Social Networks

Security of Online Social Networks Security of Online Social Networks Social Network Analysis Lehrstuhl IT-Sicherheitsmanagment Universität Siegen May 31, 2012 Lehrstuhl IT-Sicherheitsmanagment 1/25 Overview Lesson 06 Fundamental Graphs

Mehr

1 Einleitung. 1.1 Caching von Webanwendungen. 1.1.1 Clientseites Caching

1 Einleitung. 1.1 Caching von Webanwendungen. 1.1.1 Clientseites Caching 1.1 Caching von Webanwendungen In den vergangenen Jahren hat sich das Webumfeld sehr verändert. Nicht nur eine zunehmend größere Zahl an Benutzern sondern auch die Anforderungen in Bezug auf dynamischere

Mehr

Drei-Schichten-Architektur. Informatik B - Objektorientierte Programmierung in Java. Vorlesung 16: 3-Schichten-Architektur 1 Fachkonzept - GUI

Drei-Schichten-Architektur. Informatik B - Objektorientierte Programmierung in Java. Vorlesung 16: 3-Schichten-Architektur 1 Fachkonzept - GUI Universität Osnabrück Drei-Schichten-Architektur 3 - Objektorientierte Programmierung in Java Vorlesung 6: 3-Schichten-Architektur Fachkonzept - GUI SS 2005 Prof. Dr. F.M. Thiesing, FH Dortmund Ein großer

Mehr

MapReduce und Datenbanken Thema 15: Strom bzw. Onlineverarbeitung mit MapReduce

MapReduce und Datenbanken Thema 15: Strom bzw. Onlineverarbeitung mit MapReduce MapReduce Jan Kristof Nidzwetzki MapReduce 1 / 17 Übersicht 1 Begriffe 2 Verschiedene Arbeiten 3 Ziele 4 DEDUCE: at the intersection of MapReduce and stream processing Beispiel 5 Beyond online aggregation:

Mehr

Software Engineering Übung 4 Architektur, Modulentwurf

Software Engineering Übung 4 Architektur, Modulentwurf software evolution & architecture lab Software Engineering Übung 4 Architektur, Modulentwurf 1 Informationen 1.1 Daten Ausgabe Di 27.10.2009 Abgabe So 08.11.2009 bis 23:59 Uhr Besprechung am Di 17.11.2009

Mehr

Nachklausur Programmieren / Algorithmen und Datenstrukturen 1

Nachklausur Programmieren / Algorithmen und Datenstrukturen 1 Programmieren / Algorithmen und Datenstrukturen Autor: Prof. Dr. Bernhard Humm, FB Informatik, Hochschule Darmstadt Datum: 7. Oktober 200 Nachklausur Programmieren / Algorithmen und Datenstrukturen Spielregeln

Mehr

Peter Dikant mgm technology partners GmbH. Echtzeitsuche mit Hadoop und Solr

Peter Dikant mgm technology partners GmbH. Echtzeitsuche mit Hadoop und Solr Peter Dikant mgm technology partners GmbH Echtzeitsuche mit Hadoop und Solr ECHTZEITSUCHE MIT HADOOP UND SOLR PETER DIKANT MGM TECHNOLOGY PARTNERS GMBH WHOAMI peter.dikant@mgm-tp.com Java Entwickler seit

Mehr

Übungsaufgaben mit Lösungsvorschlägen

Übungsaufgaben mit Lösungsvorschlägen Otto-Friedrich-Universität Bamberg Lehrstuhl für Medieninformatik Prof. Dr. Andreas Henrich Dipl. Wirtsch.Inf. Daniel Blank Einführung in das Information Retrieval, 8. Mai 2008 Veranstaltung für die Berufsakademie

Mehr

Inhalt dieses Kapitels. Ziel des Clustering, Anwendungen, Typen von Clustering-Algorithmen

Inhalt dieses Kapitels. Ziel des Clustering, Anwendungen, Typen von Clustering-Algorithmen 2. Clustering Inhalt dieses Kapitels 3. Einleitung Ziel des Clustering, Anwendungen, Typen von Clustering-Algorithmen 3.2 Partitionierende Verfahren k-means, k-medoid, Expectation Maximization, Initialisierung

Mehr

Methoden & Tools für die Expressionsdatenanalyse. Vorlesung Einführung in die Bioinformatik - Expressionsdatenanalyse U. Scholz & M.

Methoden & Tools für die Expressionsdatenanalyse. Vorlesung Einführung in die Bioinformatik - Expressionsdatenanalyse U. Scholz & M. Methoden & Tools für die Expressionsdatenanalyse U. Scholz & M. Lange Folie #7-1 Vorgehensmodell Expressionsdatenverarbeitung Bildanalyse Normalisierung/Filterung Datenauswertung U. Scholz & M. Lange Folie

Mehr

Textmining Klassifikation von Texten Teil 1: Naive Bayes

Textmining Klassifikation von Texten Teil 1: Naive Bayes Textmining Klassifikation von Texten Teil 1: Naive Bayes Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten 1: Naive

Mehr

Online-Recherche: Web-Recherche WS 2015/2016 4. Veranstaltung 5. November 2015

Online-Recherche: Web-Recherche WS 2015/2016 4. Veranstaltung 5. November 2015 Online-Recherche: Web-Recherche WS 2015/2016 4. Veranstaltung 5. November 2015 Philipp Schaer - philipp.schaer@gesis.org Philipp Mayr - philipp.mayr@gesis.org GESIS Leibniz-InsJtut für SozialwissenschaNen

Mehr

Bedienungsanleitung. Matthias Haasler. Version 0.4. für die Arbeit mit der Gemeinde-Homepage der Paulus-Kirchengemeinde Tempelhof

Bedienungsanleitung. Matthias Haasler. Version 0.4. für die Arbeit mit der Gemeinde-Homepage der Paulus-Kirchengemeinde Tempelhof Bedienungsanleitung für die Arbeit mit der Gemeinde-Homepage der Paulus-Kirchengemeinde Tempelhof Matthias Haasler Version 0.4 Webadministrator, email: webadmin@rundkirche.de Inhaltsverzeichnis 1 Einführung

Mehr

Klasse 1A. Montag Dienstag Mittwoch Donnerstag Freitag P A U S E. Mittagspause. 7:45-8:35 Mathematik Sport Italienisch Kunst Deutsch

Klasse 1A. Montag Dienstag Mittwoch Donnerstag Freitag P A U S E. Mittagspause. 7:45-8:35 Mathematik Sport Italienisch Kunst Deutsch Klasse 1A 7:45-8:35 Mathematik Sport Italienisch Kunst Deutsch 8:35-9:25 Mathematik Sport Italienisch Kunst Geschichte 9:25-10:15 Deutsch Deutsch Musik Deutsch Italienisch 10:30-11:20 Deutsch Naturkunde

Mehr