Clustering mit dem K-Means-Algorithmus (Ein Experiment)

Größe: px
Ab Seite anzeigen:

Download "Clustering mit dem K-Means-Algorithmus (Ein Experiment)"

Transkript

1 Clustering mit dem K-Means- (Ein Experiment) Andreas Runk 7. März 2013

2 Index Andreas Runk Clustering mit dem K-Means- 2/40

3 Ziele: des K-Means Finde/erstelle geeignetes Testcorpus möglichst gute Clustering-Ergebnisse möglichst effizient und skalierbar Andreas Runk Clustering mit dem K-Means- 3/40

4 K-Means Eigenschaften: Erste Veröffentlichung von [Steinhaus(1956)] und Namensgebung durch [MacQueen(1967)] laut [Bock(2007)] EM- Anzahl Cluster (k) wird vom Benutzer bestimmt [MacQueen(1967)] Terminiert nicht immer (Datenpunkte können zwischen Clustern springen) Ergebnisse zufällig, da zufällige Wahl der Start-Means Abbildung: [Wikipedia(2012b)] Andreas Runk Clustering mit dem K-Means- 4/40

5 K-Means Implementierter K-Means 1 : 1: Setze zufällig k Start-Means 2: d = 3: solange d > Schwellwert / Zuordnungen sich ändern 4: für alle Dokumente Assignment Step 5: Füge Dokument dem nächst-ähnlichen Cluster hinzu 6: für alle Cluster Update Step 7: Setze neue Werte des Means kleinster Abstand zu den Dokumenten in seinem Cluster 8: d = Abstand der alten und neuen Means 1 vgl. [MacKay(2003)] oder siehe auch [Haenelt(2012c)] Andreas Runk Clustering mit dem K-Means- 5/40

6 Eigenschaften der Eigenschaften der Architektur Versionen Programmiersprache: C++ (OO) Lines Of Code: ca (2300 ohne Kommentare) Anzahl Versionen: 4 Benutzte Bibliotheken: Boost Random, OpenMP, Google Sparse Hash Andreas Runk Clustering mit dem K-Means- 6/40

7 Erklärung der folgenden Darstellung Eigenschaften der Architektur Versionen Darstellung der Veränderung zur vorherigen Version in Tabellen Werte die nicht in der jeweiligen Versionstabelle enthalten sind, wurden zur vorherigen Version nicht verändert Durch ein + werden zusätzliche Eigenschaften des jeweiligen Bereiches dargestellt. Sollte eine Auswahl der jeweiligen Eigenschaft eingefügt werden, so bezieht sich diese auf alle bisher implementierten Attribute. Sonstige Eigenschaften zeigen eine Ersetzung an. Der (teilweise) in Klammern angegebene Wert ist die Gesamtersparnis an Wörtern nach dem WordCount-Schritt Andreas Runk Clustering mit dem K-Means- 7/40

8 Aufbau Eigenschaften der Architektur Versionen Modell Worttrenner Wordcount Termgewichtung Distanzfunktion Erste Means Vector Leerzeichen Array einfache Häufigkeit euklidisch zufällige Werte pro Wort zwischen 0 und max{wortzahl} Andreas Runk Clustering mit dem K-Means- 8/40

9 Struktur Eigenschaften der Architektur Versionen WordCount -countofwords -documentname -words FileReader FileWriter Cluster -clustermembers -meanwordcounts -newmeanwordcounts -words +addnewclustermember() Distance -euclideandistance() KMeans -clusters: list<cluster> -compareoldandnewclusters() -setrandommean() +KMeans() ThermWeighting -frequencyweighting() Abbildung: Klassendiagramm Andreas Runk Clustering mit dem K-Means- 9/40

10 Überblick Komplexitäten Eigenschaften der Architektur Versionen Folgende Abkürzungen werden verwendet: k = Anzahl Cluster n = Länge des längsten Dokuments m = Anzahl Dokumente l = Länge des längsten Wortes c = Anzahl Rechenkerne Andreas Runk Clustering mit dem K-Means- 10/40

11 Version 1 Eigenschaften der Architektur Versionen Worttrenner Wordcount Termgewichtung Distanzfunktion Erste Means Leerzeichen Array einfache Häufigkeit euklidisch zufällige Werte pro Wort zwischen 0 und max{worthäufigkeit} Standard K-Means Clustering [MacQueen(1967)] Andreas Runk Clustering mit dem K-Means- 11/40

12 Version 1 Eigenschaften der Architektur Versionen Komplexitäten: WordCount: O(m n 2 ) K-Means Assign: O(k m n 3 ) K-Means Update: O(k m 2 n 3 ) Probleme: Start Means sind weit von den realen Dokumenten entfernt viele Iterationen nötig Schlechte Performance Es sind viele kurze Wörter in den Texten enthalten, die wenig Information liefern ( ist, und usw.) sogenannte Stoppwörter. Andreas Runk Clustering mit dem K-Means- 12/40

13 Version 2 Eigenschaften der Architektur Versionen Worttrenner Wordcount Termgewichtung Distanzfunktion Erste Means + Sonderzeichen ( 3%) Hashmap + Stoppwortentfernung ( 7%) + normalisierte Termfrequenz + tf-idf-gewichtung + Auswahl Cosinus zufällige Dokumente K-Means++ Clustering [Arthur and Vassilvitskii(2007)] Andreas Runk Clustering mit dem K-Means- 13/40

14 Version 2 Eigenschaften der Architektur Versionen Komplexitäten: WordCount: O( m c n2 ) vs. O(m n 2 ) K-Means Assign: O(k m c n) vs. O(k m n3 ) tf-idf: O(k m2 c n) K-Means Update: O( k c m2 n 3 ) vs. O(k m 2 n 3 ) Probleme: Means zufällig Clustering zufällig langsam, bei vielen Daten (zu viel RAM-Verbrauch) Andreas Runk Clustering mit dem K-Means- 14/40

15 Version 3 Eigenschaften der Architektur Versionen Wordcount Distanzfunktion Erste Means + häufigste 10 % aller Wörter bzgl. der Worthäufigkeit werden verwendet + Dice-Koeffizient + Auswahl entfernteste Dokumente Andreas Runk Clustering mit dem K-Means- 15/40

16 Version 3 Eigenschaften der Architektur Versionen Komplexitäten: WordCount: O( m c n2 ) K-Means Assign: O(k m c n) tf-idf: O(k m2 c n) K-Means Update: O( k c m2 n 2 ) vs. O( k c m2 n 3 ) Probleme: Flektierte Formen eines Wortes werden jeweils als eigene Wörter gezählt. Dies kann unerwünscht sein. (bsp. Lied Lieder) Andreas Runk Clustering mit dem K-Means- 16/40

17 Version 4 Eigenschaften der Architektur Versionen Wordcount Distanzfunktion + ähnliche Worte, wie vorher beschrieben werden als eines gewertet (Folie 40) ( 17.5%) + Jaccard-Koeffizient + Overlap-Koeffizient Komplexitäten: WordCount: O( m2 c n2 l 2 ) vs. O( m c n2 ) K-Means Assign: O(k m c n) tf-idf: O(k m2 c n) K-Means Update: O( k c m2 n 2 ) Andreas Runk Clustering mit dem K-Means- 17/40

18 Struktur gemäß Version 4 Eigenschaften der Architektur Versionen WordCount -countofwords -documentname -words -wordswithcounts(v2) FileReader FileWriter Cluster -clustermembers -meanwordcounts -newmeanwordcounts -words +addnewclustermember() Distance KMeans -clusters: list<cluster> -compareoldandnewclusters() -setdocumentmeanwithmostdistance(v3) -setrandomdocumentmean(v2) -setrandommean() +KMeans() -euclideandistance() -cosinedistance(v2) -dicecoefficientdistance(v3) -jaccardcoefficientdistance(v4) -overlapcoefficientdistance(v4) -numberofdocuments ThermWeighting -frequencyweighting() -normalizedtermfrequency(v2) -termfrequencyinversedocumentfrequency(v2) Abbildung: Klassendiagramm Andreas Runk Clustering mit dem K-Means- 18/40

19 Daten Daten Effektivitätstests Performancetests PATENTCORPUS128: 128 Patente nach [Polar(2012)], benutzt für Performance. Sprache: englisch WikiDocs: 32 Artikel aus der Wikipedia [Wikipedia(2012a)] Kategorien (8): Geschichte, Kunst, Mathe, PC, Medizin, Musik, Sport, Essen Sprache: deutsch Andreas Runk Clustering mit dem K-Means- 19/40

20 Daten Effektivitätstests Performancetests Erwünschtes Ergebnis gemäß intellektuellem Clustering Andreas Runk Clustering mit dem K-Means- 20/40

21 Version 1 Daten Effektivitätstests Performancetests Andreas Runk Clustering mit dem K-Means- 21/40

22 Version 1 Daten Effektivitätstests Performancetests Aufgrund der zufälligen Means entstehen zufällige Lösungen. Cluster 0 enthält fast alle Dokumente, da die zufällig gewählte Anzahlt der Wörter nächsten an den Dokumenten lag Erreicht mit (keine Auswahl der Häufigkeitsfunktion und der Distanzfunktion möglich): - Einfacher Häufigkeit - Euklidischer Distanz Distanz- und Häufigkeitsfunktionen führen möglicherweise dazu, dass alle Dokumente nahe beieinander liegen Andreas Runk Clustering mit dem K-Means- 22/40

23 Version 2 Daten Effektivitätstests Performancetests Andreas Runk Clustering mit dem K-Means- 23/40

24 Version 2 Daten Effektivitätstests Performancetests Aufgrund der zufälligen Means entstehen zufällige Lösungen. Erreicht mit (keine Auswahl der Distanzfunktion möglich): - Einfacher Häufigkeit - Kosinus-Distanz Cluster 2 enthält viele Dokumente möglicherweise führt die gewählte Distanzfunktionen dazu, dass alle Dokumente nahe beieinander liegen Andreas Runk Clustering mit dem K-Means- 24/40

25 Version 3 Daten Effektivitätstests Performancetests Andreas Runk Clustering mit dem K-Means- 25/40

26 Version 3 Daten Effektivitätstests Performancetests Ergebnisse dieser Version reproduzierbar, da Startwerte nicht mehr zufällig angenommen werden Getestet wurden alle möglichen Kombinationen der hier implementierten Termfrequenz- und Distanzfunktionen. Dem intellektuellen Clustering ähnlichstes Ergebnis dieser Version wurde erreicht mit: - Einfacher Häufigkeit - Dice-Koeffizient-Distanz Aufgrund der Wahl von Distanz- und Termgewichtungsfunktionen kann die beste Kombination von den Benutzenden gewählt werden. bessere Aufteilung der Cluster Andreas Runk Clustering mit dem K-Means- 26/40

27 Version 4 Daten Effektivitätstests Performancetests Andreas Runk Clustering mit dem K-Means- 27/40

28 Version 4 Daten Effektivitätstests Performancetests Lösung dieser Version, welche der erwünschten Lösung am ähnlichsten ist. Ergebnisse dieser Version reproduzierbar, da Startwerte nicht mehr zufällig angenommen werden Getestet wurden alle möglichen Kombinationen der hier implementierten Termfrequenz- und Distanzfunktionen. Dem intellektuellen Clustering ähnlichstes Ergebnis dieser Version wurde erreicht mit: - Einfacher Häufigkeit - Jaccard-Koeffizient-Distanz - Zusammenfassung von Wörtern und Wortformen auf der Basis der Editierdistanz (Folie 40) Andreas Runk Clustering mit dem K-Means- 28/40

29 Testrechner Daten Effektivitätstests Performancetests System: Ubuntu CPU: Intel Q GHz RAM: 8 GB Andreas Runk Clustering mit dem K-Means- 29/40

30 Laufzeiten Daten Effektivitätstests Performancetests Andreas Runk Clustering mit dem K-Means- 30/40

31 K-Means einfach zu implementieren Wenn Qualität erforderlich erheblicher Mehraufwand Gute Clustering-Ergebnisse möglich Ausblick: Vergleich mit anderen Verfahren könnte mehr Aufschluss über Effektivität und Effizienz geben Ein Stemming könnte bessere Ergebnisse als die Editierdistanz ermöglichen. Andreas Runk Clustering mit dem K-Means- 31/40

32 Bibliography I [Arthur and Vassilvitskii(2007)] David Arthur and Sergei Vassilvitskii. k-means++: The advantages of careful seeding. Proceedings of the eighteenth annual ACM-SIAM symposium on Discrete algorithms, 7: , URL Last visited: [Bock(2007)] Hans-Hermann Bock. Origins and extensions of the k-means algorithm in cluster analysis URL Last visited: [Haenelt(2012a)] Karin Haenelt. Information Retrieval Modelle: Vektor-Modell. Kursfolien URL Modelle_Vektor.pdf. Last visited: Andreas Runk Clustering mit dem K-Means- 32/40

33 Bibliography II [Haenelt(2012b)] Karin Haenelt. Ähnlichkeitsmaße für Vektoren. Kursfolien (erste Fassung ) URL VektorAehnlichkeit.pdf. Last visited: [Haenelt(2012c)] Karin Haenelt. Clustering. Kursfolien URL http: //kontext.fraunhofer.de/haenelt/kurs/folien/haenelt_clustering.pdf. Last visited: Andreas Runk Clustering mit dem K-Means- 33/40

34 Bibliography III [MacKay(2003)] David MacKay. Chapter 20. an example inference task: Clustering. Information Theory, Inference and Learning Algorithms. Cambridge University Press., 2: , URL Last visited: [MacQueen(1967)] J. B. MacQueen. Some methods of classification and analysis of multivariate observations. In Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability, pages , URL Last visited: [Polar(2012)] Andrew Polar. Patentcorpus, URL Last visited: Andreas Runk Clustering mit dem K-Means- 34/40

35 Bibliography IV [Reinelt(2011)] Gerhard Reinelt. Effiziente Algorithmen 2. Universität Heidelberg, (Vorlesungsskript). [Steinhaus(1956)] H. Steinhaus. Sur la division des corp materiels en parties. Bull. Acad. Polon. Sci, 1: , [Wikipedia(2012a)] Wikipedia. Wikipedia, URL Last visited: [Wikipedia(2012b)] Wikipedia. Wikipedia K-Means, URL Last visited: Andreas Runk Clustering mit dem K-Means- 35/40

36 Speicher Termgewichte Distanzmaße Editier-Distanz Vielen Dank für Ihre Aufmerksamkeit Gibt es Fragen? Andreas Runk Clustering mit dem K-Means- 36/40

37 Speicher Speicher Termgewichte Distanzmaße Editier-Distanz Andreas Runk Clustering mit dem K-Means- 37/40

38 Termgewichte [Haenelt(2012a)] Speicher Termgewichte Distanzmaße Editier-Distanz Einfache Häufigkeit: f i,m = freq i,m Normalisierte Termfrequenz: tf i,m = freq i,m max l freq l,m tf-idf-gewichtung: tfidf i,m = tf i,m log N n i freq i,m N n i := Anzahl von Term t i in Dokument m := Gesamtzahl Dokumente := Anzahl Dokumente in denen Term t i vorkommt Andreas Runk Clustering mit dem K-Means- 38/40

39 Distanzmaße [Haenelt(2012b)] Speicher Termgewichte Distanzmaße Editier-Distanz Euklidisch: Cosinus: Dice-Koeffizient: Jaccard-Koeffizient: Overlap-Koeffizient: n k=1 w x,k w y,k n k=1 w x,k w y,k n k=1 w 2 n x,k k=1 w y,k 2 2 n k=1 w n x,k w y,k k=1 w x,k+ n k=1 w y,k n k=1 w n x,k w y,k k=1 w x,k+ n k=1 w y,k n k=1 w x,k w y,k n k=1 min{w x,k,w y,k } min{ n k=1 w x,k, n k=1 w y,k} n = X Y w m,i = Termgewicht von Term t i in Dokument m Andreas Runk Clustering mit dem K-Means- 39/40

40 Editier-Distanz Speicher Termgewichte Distanzmaße Editier-Distanz Berechnung von Wortähnlichkeiten δ = Kosten einer Lücke = Kosten von x i nach y j α xi,y j EditDist (A B) [Reinelt(2011)] 1: Setze A[i, 0] = iδ, für i = 1,..., p und A[0, j] = jδ, für j = 1,..., q 2: für alle j = 1,..., q 3: für alle i = 1,..., p 4: A[i, j] = min{a xi,y j + A[i 1, j 1], δ + A[i 1, j], δ + A[i, j 1]} rückgabe A[m,n] Laufzeit: O(p q) = O(l 2 ) Speicherbedarf: O(p q) = O(l 2 ) In den hier vorgestellten wurde eine Buchstaben Ersetzung und bis zu drei Lücken erlaubt. Also α xi,y j := 3 für x i y j, 0 sonst, δ := 1 und falls EditDist 3 Terme werden als gleich betrachtet. Andreas Runk Clustering mit dem K-Means- 40/40

Automatisierte Dossier- Erstellung mittels Text-Mining

Automatisierte Dossier- Erstellung mittels Text-Mining Automatisierte Dossier- Erstellung mittels Text-Mining Paul Assendorp Grundseminar 11.12.2014 Paul Assendorp Automatisierte Dossier-Erstellung 1 Gliederung Motivation Textmining Tools Aktueller Stand Ausblick

Mehr

Vorlesung Text und Data Mining S9 Text Clustering. Hans Hermann Weber Univ. Erlangen, Informatik

Vorlesung Text und Data Mining S9 Text Clustering. Hans Hermann Weber Univ. Erlangen, Informatik Vorlesung Text und Data Mining S9 Text Clustering Hans Hermann Weber Univ. Erlangen, Informatik Document Clustering Überblick 1 Es gibt (sehr viele) verschiedene Verfahren für das Bilden von Gruppen Bei

Mehr

Prototypische Komponenten eines Information Retrieval Systems: Vektormodell

Prototypische Komponenten eines Information Retrieval Systems: Vektormodell Prototypische Komponenten eines Information Retrieval Systems: Vektormodell Implementierung & Präsentation: Stefan Schmidt (Uni Mannheim) Kontakt: powder@gmx.de Seminar: Information Retrieval WS2002/2003

Mehr

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 16.05.2013 Gliederung 1 Vorverarbeitung

Mehr

Dokumenten-Clustering. Norbert Fuhr

Dokumenten-Clustering. Norbert Fuhr Dokumenten-Clustering Norbert Fuhr Dokumenten-Clustering (Dokumenten-)Cluster: Menge von ähnlichen Dokumenten Ausgangspunkt Cluster-Hypothese : die Ähnlichkeit der relevanten Dokumente untereinander und

Mehr

Clustering Seminar für Statistik

Clustering Seminar für Statistik Clustering Markus Kalisch 03.12.2014 1 Ziel von Clustering Finde Gruppen, sodas Elemente innerhalb der gleichen Gruppe möglichst ähnlich sind und Elemente von verschiedenen Gruppen möglichst verschieden

Mehr

Clustern. Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so dass:

Clustern. Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so dass: Text-Clustern 1 Clustern Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so dass: Beispiele innerhalb eines Clusters sich sehr ähnlich Beispiele in verschiedenen

Mehr

DPF Dynamic Partial distance Function

DPF Dynamic Partial distance Function DPF Dynamic Partial distance Function Vorgelegt von Sebastian Loose (MatrikelNR.: 169172), Computervisualistikstudent im 4. Semester. Hausarbeit zum Papier DPF A Perceptual Distance Function for Image

Mehr

Map Reduce on Hadoop Seminar SS09. Similarity Join. Tim Felgentreff, Andrina Mascher

Map Reduce on Hadoop Seminar SS09. Similarity Join. Tim Felgentreff, Andrina Mascher Map Reduce on Hadoop Seminar SS09 Similarity Join Tim Felgentreff, Andrina Mascher Gliederung 2!! Aufgabe!! Demo!! Algorithmus!! Performance!! Veränderte Aufgabenstellung:!! Vergleich mit 1 Seite!! Ausblick!!

Mehr

Visualisierung hochdimensionaler Daten. Hauptseminar SS11 Michael Kircher

Visualisierung hochdimensionaler Daten. Hauptseminar SS11 Michael Kircher Hauptseminar SS11 Inhalt Einführung zu hochdimensionalen Daten Visualisierungsmöglichkeiten dimensionale Teilmengen dimensionale Schachtelung Achsenumgestaltung Algorithmen zur Dimensionsreduktion Zusammenfassung

Mehr

Einführung in Hauptspeicherdatenbanken

Einführung in Hauptspeicherdatenbanken Einführung in Hauptspeicherdatenbanken Harald Zankl Probevorlesung 13. 01., 13:15 14:00, HS C Inhaltsverzeichnis Organisation Überblick Konklusion Harald Zankl (LFU) Hauptspeicherdatenbanken 2/16 Organisation

Mehr

Clustering von Dokumenten (k-means, HCL)

Clustering von Dokumenten (k-means, HCL) Clustering von Dokumenten (k-means, HCL) Jonas Wolz Universität Ulm Zusammenfassung Ein Überblick über das Clustering von Dokumenten. Außerdem werden zwei dafür verwendete Algorithmen vorgestellt (k-means

Mehr

Part-Of-Speech-Tagging mit Viterbi Algorithmus

Part-Of-Speech-Tagging mit Viterbi Algorithmus Part-Of-Speech-Tagging mit Viterbi Algorithmus HS Endliche Automaten Inna Nickel, Julia Konstantinova 19.07.2010 1 / 21 Gliederung 1 Motivation 2 Theoretische Grundlagen Hidden Markov Model Viterbi Algorithmus

Mehr

Indexstrukturen in XML

Indexstrukturen in XML Seminar XML und Datenbanken Indexstrukturen in XML Vanessa Schäfer 07.02.2003 Übersicht Einführung Indexstrukturen in XML Ein Vergleich SphinX vs. Lore Zusammenfassung und Ausblick Seminar XML und Datenbanken

Mehr

MATCHING VON PRODUKTDATEN IN DER CLOUD

MATCHING VON PRODUKTDATEN IN DER CLOUD MATCHING VON PRODUKTDATEN IN DER CLOUD Dr. Andreas Thor Universität Leipzig 15.12.2011 Web Data Integration Workshop 2011 Cloud Computing 2 Cloud computing is using the internet to access someone else's

Mehr

Vektormodelle. Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig

Vektormodelle. Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig Vektormodelle Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig Gliederung Vektormodelle Vector-Space-Model Suffix Tree Document Model

Mehr

Suchmaschinenalgorithmen. Vortrag von: Thomas Müller

Suchmaschinenalgorithmen. Vortrag von: Thomas Müller Suchmaschinenalgorithmen Vortrag von: Thomas Müller Kurze Geschichte Erste Suchmaschine für Hypertexte am CERN Erste www-suchmaschine World Wide Web Wanderer 1993 Bis 1996: 2 mal jährlich Durchlauf 1994:

Mehr

Universität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme

Universität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme Universität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme Studienprojekt Invisible Web (Dipl.-Inform. Gudrun Fischer - WS 2003/04) Blockseminar

Mehr

Christian Zietzsch / Norman Zänker. Text Mining. und dessen Implementierung. Diplomica Verlag

Christian Zietzsch / Norman Zänker. Text Mining. und dessen Implementierung. Diplomica Verlag Christian Zietzsch / Norman Zänker Text Mining und dessen Implementierung Diplomica Verlag Christian Zietzsch, Norman Zänker Text Mining und dessen Implementierung ISBN: 978-3-8428-0970-3 Herstellung:

Mehr

Selbstorganisierende Karten

Selbstorganisierende Karten Selbstorganisierende Karten Yacin Bessas yb1@informatik.uni-ulm.de Proseminar Neuronale Netze 1 Einleitung 1.1 Kurzüberblick Die Selbstorganisierenden Karten, auch Self-Organizing (Feature) Maps, Kohonen-

Mehr

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen 7. Clusteranalyse (= Häufungsanalyse; Clustering-Verfahren) wird der multivariaten Statistik zugeordnet Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut,

Mehr

Neue Ansätze der Softwarequalitätssicherung

Neue Ansätze der Softwarequalitätssicherung Neue Ansätze der Softwarequalitätssicherung Googles MapReduce-Framework für verteilte Berechnungen am Beispiel von Apache Hadoop Universität Paderborn Fakultät für Elektrotechnik, Informatik und Mathematik

Mehr

Generalisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE

Generalisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE Institut für Kartographie und Geoinformatik Leibniz Universität Hannover Generalisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE Frank Thiemann, Thomas Globig Frank.Thiemann@ikg.uni-hannover.de

Mehr

Data-Mining: Ausgewählte Verfahren und Werkzeuge

Data-Mining: Ausgewählte Verfahren und Werkzeuge Fakultät Informatik Institut für Angewandte Informatik Lehrstuhl Technische Informationssysteme Data-Mining: Ausgewählte Verfahren und Vortragender: Jia Mu Betreuer: Dipl.-Inf. Denis Stein Dresden, den

Mehr

MAP CellSs Mapprakt3

MAP CellSs Mapprakt3 MAP CellSs Mapprakt3 Andreas Fall, Matthias Ziegler, Mark Duchon Hardware-Software-Co-Design Universität Erlangen-Nürnberg Andreas Fall, Matthias Ziegler, Mark Duchon 1 CellSs Cell CPU (1x PPU + 6x SPU)

Mehr

Kostenmaße. F3 03/04 p.188/395

Kostenmaße. F3 03/04 p.188/395 Kostenmaße Bei der TM nur ein Kostenmaß: Ein Schritt (Konfigurationsübergang) kostet eine Zeiteinheit; eine Bandzelle kostet eine Platzeinheit. Bei der RAM zwei Kostenmaße: uniformes Kostenmaß: (wie oben);

Mehr

Seminar Komplexe Objekte in Datenbanken

Seminar Komplexe Objekte in Datenbanken Seminar Komplexe Objekte in Datenbanken OPTICS: Ordering Points To Identify the Clustering Structure Lehrstuhl für Informatik IX - Univ.-Prof. Dr. Thomas Seidl, RWTH-Aachen http://www-i9.informatik.rwth-aachen.de

Mehr

Zabbix Performance Tuning

Zabbix Performance Tuning Zabbix Performance Tuning Getting most out of your hardware 1/31 Zabbix Webinar Inhalte des Webinars Übersicht über Zabbix Performance Faktoren Step 1. Identifizieren und Beheben von Problemen Step 2.

Mehr

Kürzeste Wege in Graphen. Maurice Duvigneau Otto-von-Guericke Universität Fakultät für Informatik

Kürzeste Wege in Graphen. Maurice Duvigneau Otto-von-Guericke Universität Fakultät für Informatik Kürzeste Wege in Graphen Maurice Duvigneau Otto-von-Guericke Universität Fakultät für Informatik Gliederung Einleitung Definitionen Algorithmus von Dijkstra Bellmann-Ford Algorithmus Floyd-Warshall Algorithmus

Mehr

tf/idf computation Florian Thomas, Christian Reß Map/Reduce Algorithms on Hadoop 6. Juli 2009

tf/idf computation Florian Thomas, Christian Reß Map/Reduce Algorithms on Hadoop 6. Juli 2009 tf/idf computation Florian Thomas, Christian Reß Map/Reduce Algorithms on Hadoop 6. Juli 2009 1 tf/idf computation Was ist tf/idf? Verschiedene Implementierungen Map/Reduce-Aufbau Implementierungsbesonderheiten

Mehr

Monte Carlo Methoden

Monte Carlo Methoden Monte Carlo Methoden im Verstärkungslernen [Spink] Bryan Spink 2003 Ketill Gunnarsson [ ketill@inf.fu-berlin.de ], Seminar zum Verstärkungslernen, Freie Universität Berlin [ www.inf.fu-berlin.de ] Einleitung

Mehr

Big Data Anwendungen Chancen und Risiken

Big Data Anwendungen Chancen und Risiken Big Data Anwendungen Chancen und Risiken Dr. Kurt Stockinger Studienleiter Data Science, Dozent für Informatik Zürcher Hochschule für Angewandte Wissenschaften Big Data Workshop Squeezing more out of Data

Mehr

Wiki Dokumentation. Erstellt von:

Wiki Dokumentation. Erstellt von: Wiki Dokumentation Erstellt von: Wiki Dokumentation www.verkaufslexikon.de Allgemeines Wikipedia, ein Enzyklopädie Projekt der Wikimedia Foundation, ist ein Wiki, d. h. eine Website, deren Seiten man direkt

Mehr

How To Einbinden von Kartendiensten in eine Java Applikation mit Hilfe des JXMapKit

How To Einbinden von Kartendiensten in eine Java Applikation mit Hilfe des JXMapKit How To Einbinden von Kartendiensten in eine Java Applikation mit Hilfe des JXMapKit Einleitung Zunächst sollte man sich mit dem SwingX-WS Projekt von SwingLabs 1 vertraut machen. Dieses bietet viele nützliche

Mehr

WEKA A Machine Learning Interface for Data Mining

WEKA A Machine Learning Interface for Data Mining WEKA A Machine Learning Interface for Data Mining Frank Eibe, Mark Hall, Geoffrey Holmes, Richard Kirkby, Bernhard Pfahringer, Ian H. Witten Reinhard Klaus Losse Künstliche Intelligenz II WS 2009/2010

Mehr

Textdokument-Suche auf dem Rechner Implementierungsprojekt

Textdokument-Suche auf dem Rechner Implementierungsprojekt Textdokument-Suche auf dem Rechner Implementierungsprojekt Referent: Oliver Petra Seminar: Information Retrieval Institut für Computerlinguistik Ruprecht-Karls-Universität Heidelberg 19.01.2015 Überblick

Mehr

Exploration und Klassifikation von BigData

Exploration und Klassifikation von BigData Exploration und Klassifikation von BigData Inhalt Einführung Daten Data Mining: Vorbereitungen Clustering Konvexe Hülle Fragen Google: Riesige Datenmengen (2009: Prozessieren von 24 Petabytes pro Tag)

Mehr

Clusteranalyse. Multivariate Datenanalyse. Prof. Dr. Dietmar Maringer. Abteilung für Quantitative Methoden, WWZ der Universität Basel

Clusteranalyse. Multivariate Datenanalyse. Prof. Dr. Dietmar Maringer. Abteilung für Quantitative Methoden, WWZ der Universität Basel Clusteranalyse Multivariate Datenanalyse Prof. Dr. Dietmar Maringer Abteilung für Quantitative Methoden, WWZ der Universität Basel Herbstsemester 2013 D Maringer: Datenanalyse Clusteranalyse (1) Ausgangssituation

Mehr

1 Einleitung. 1.1 Caching von Webanwendungen. 1.1.1 Clientseites Caching

1 Einleitung. 1.1 Caching von Webanwendungen. 1.1.1 Clientseites Caching 1.1 Caching von Webanwendungen In den vergangenen Jahren hat sich das Webumfeld sehr verändert. Nicht nur eine zunehmend größere Zahl an Benutzern sondern auch die Anforderungen in Bezug auf dynamischere

Mehr

Linux Cluster in Theorie und Praxis

Linux Cluster in Theorie und Praxis Foliensatz Center for Information Services and High Performance Computing (ZIH) Linux Cluster in Theorie und Praxis Monitoring 30. November 2009 Verfügbarkeit der Folien Vorlesungswebseite: http://tu-dresden.de/die_tu_dresden/zentrale_einrichtungen/

Mehr

Workshop Aktuelle Entwicklungen bei der Auswertung von Fernerkundungsdaten für forstliche Aufgabenstellungen

Workshop Aktuelle Entwicklungen bei der Auswertung von Fernerkundungsdaten für forstliche Aufgabenstellungen Workshop Aktuelle Entwicklungen bei der Auswertung von Fernerkundungsdaten für forstliche Aufgabenstellungen Schätzung von Holzvorräten und Baumartenanteilen mittels Wahrscheinlichkeitsmodellen Haruth

Mehr

Auf dem Weg zu Website-Fingerprinting in der Praxis

Auf dem Weg zu Website-Fingerprinting in der Praxis Auf dem Weg zu Website-Fingerprinting in der Praxis Identifizierung von Webseiten mit dem multinomialen Naïve-Bayes-Klassifizierer Dominik Herrmann Lehrstuhl Management der Informationssicherheit Universität

Mehr

Architektur Verteilter Systeme Teil 2: Prozesse und Threads

Architektur Verteilter Systeme Teil 2: Prozesse und Threads Architektur Verteilter Systeme Teil 2: Prozesse und Threads 21.10.15 1 Übersicht Prozess Thread Scheduler Time Sharing 2 Begriff Prozess und Thread I Prozess = Sequentiell ablaufendes Programm Thread =

Mehr

WMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou

WMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou WMS Block: Management von Wissen in nform PART: Text Mining Myra Spiliopoulou WIE ERFASSEN UND VERWALTEN WIR EXPLIZITES WISSEN? 1. Wie strukturieren wir Wissen in nform? 2. Wie verwalten wir nsammlungen?

Mehr

Vorlesung Suchmaschinen Semesterklausur Wintersemester 2013/14

Vorlesung Suchmaschinen Semesterklausur Wintersemester 2013/14 Universität Augsburg, Institut für Informatik Wintersemester 2013/14 Prof. Dr. W. Kießling 10. Oktober 2013 F. Wenzel, D. Köppl Suchmaschinen Vorlesung Suchmaschinen Semesterklausur Wintersemester 2013/14

Mehr

Mit KI gegen SPAM. Proseminar Künstliche Intelligenz

Mit KI gegen SPAM. Proseminar Künstliche Intelligenz Mit KI gegen SPAM Proseminar Künstliche Intelligenz SS 2006 Florian Laib Ausblick Was ist SPAM? Warum SPAM-Filter? Naive Bayes-Verfahren Fallbasiertes Schließen Fallbasierte Filter TiMBL Vergleich der

Mehr

Informatik II Greedy-Algorithmen

Informatik II Greedy-Algorithmen 7/7/06 lausthal Erinnerung: Dynamische Programmierung Informatik II reedy-algorithmen. Zachmann lausthal University, ermany zach@in.tu-clausthal.de Zusammenfassung der grundlegenden Idee: Optimale Sub-Struktur:

Mehr

Information Retrieval in P2P-Netzen

Information Retrieval in P2P-Netzen Information Retrieval in P2P-Netzen Vorstellung der Vortragsthemen zum Seminar Henrik Nottelmann 30. Oktober 2003 Henrik Nottelmann 1/21 Grundstruktur A) Filesharing-Systeme (3 Themen) B) Zugriffsstrukturen

Mehr

Welche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale?

Welche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale? Text Welche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale? Textklassifikationen Natürliche bzw. unstrukturierte Texte Normale Texte ohne besondere Merkmale und Struktur Semistrukturierte

Mehr

Alignment-Verfahren zum Vergleich biologischer Sequenzen

Alignment-Verfahren zum Vergleich biologischer Sequenzen zum Vergleich biologischer Sequenzen Hans-Joachim Böckenhauer Dennis Komm Volkshochschule Zürich. April Ein biologisches Problem Fragestellung Finde eine Methode zum Vergleich von DNA-Molekülen oder Proteinen

Mehr

Metriken und optimale Einsatzszenarien für Garbage Collectoren der Java HotSpot Virtual Machine

Metriken und optimale Einsatzszenarien für Garbage Collectoren der Java HotSpot Virtual Machine Metriken und optimale Einsatzszenarien für Garbage Collectoren der Java HotSpot Virtual Machine Michael Schmeißer michael@skamandros.de 25. September 2012 25.09.2012 Michael Schmeißer, Auswahl eines Garbage

Mehr

Ein Vergleich von Methoden für Multi-klassen Support Vector Maschinen

Ein Vergleich von Methoden für Multi-klassen Support Vector Maschinen Ein Vergleich von Methoden für Multi-klassen Support Vector Maschinen Einführung Auf binären Klassifikatoren beruhende Methoden One-Against-All One-Against-One DAGSVM Methoden die alle Daten zugleich betrachten

Mehr

Geometrie und Bedeutung: Kap 5

Geometrie und Bedeutung: Kap 5 : Kap 5 21. November 2011 Übersicht Der Begriff des Vektors Ähnlichkeits Distanzfunktionen für Vektoren Skalarprodukt Eukidische Distanz im R n What are vectors I Domininic: Maryl: Dollar Po Euro Yen 6

Mehr

Systemvoraussetzungen

Systemvoraussetzungen Systemvoraussetzungen INDEX Netzwerk Überblick Benötigte n für: Windows Server 2008 Windows Server 2008 R2 Windows Server 2012 Windows SQL Server 2008 (32 Bit & 64 Bit) Windows SQL Server 2012 Client Voraussetzungen

Mehr

INDEX. Netzwerk Überblick. Benötigte Komponenten für: Windows Server 2008. Windows Server 2008 R2. Windows Server 2012

INDEX. Netzwerk Überblick. Benötigte Komponenten für: Windows Server 2008. Windows Server 2008 R2. Windows Server 2012 INDEX Netzwerk Überblick Benötigte Komponenten für: Windows Server 2008 Windows Server 2008 R2 Windows Server 2012 Windows SQL Server 2008 (32 Bit & 64 Bit) Windows SQL Server 2012 Client Voraussetzungen

Mehr

ht://dig WWW Search Engine Software

ht://dig WWW Search Engine Software ht://dig WWW Search Engine Software Ruprecht-Karls-Universität Heidelberg Seminar für Computerlinguistik Kurs: Information Retrieval Leitung: PD Dr. Karin Haenelt 22.01.2007 Erwin Glockner Übersicht Einführung

Mehr

Software Engineering Übung 4 Architektur, Modulentwurf

Software Engineering Übung 4 Architektur, Modulentwurf software evolution & architecture lab Software Engineering Übung 4 Architektur, Modulentwurf 1 Informationen 1.1 Daten Ausgabe Di 27.10.2009 Abgabe So 08.11.2009 bis 23:59 Uhr Besprechung am Di 17.11.2009

Mehr

Termin3 Klassifikation multispektraler Daten unüberwachte Verfahren

Termin3 Klassifikation multispektraler Daten unüberwachte Verfahren Ziel Termin3 Klassifikation multispektraler Daten unüberwachte Verfahren Einteilung (=Klassifikation) der Pixel eines multispektralen Datensatzes in eine endliche Anzahl von Klassen. Es sollen dabei versucht

Mehr

Peter Dikant mgm technology partners GmbH. Echtzeitsuche mit Hadoop und Solr

Peter Dikant mgm technology partners GmbH. Echtzeitsuche mit Hadoop und Solr Peter Dikant mgm technology partners GmbH Echtzeitsuche mit Hadoop und Solr ECHTZEITSUCHE MIT HADOOP UND SOLR PETER DIKANT MGM TECHNOLOGY PARTNERS GMBH WHOAMI peter.dikant@mgm-tp.com Java Entwickler seit

Mehr

MapReduce und Datenbanken Thema 15: Strom bzw. Onlineverarbeitung mit MapReduce

MapReduce und Datenbanken Thema 15: Strom bzw. Onlineverarbeitung mit MapReduce MapReduce Jan Kristof Nidzwetzki MapReduce 1 / 17 Übersicht 1 Begriffe 2 Verschiedene Arbeiten 3 Ziele 4 DEDUCE: at the intersection of MapReduce and stream processing Beispiel 5 Beyond online aggregation:

Mehr

RSS-Feeds. Zentraler Informatikdienst der Universität Wien. Gerhard Mayer. Stand: April 2014, TYPO3-Version 4.5

RSS-Feeds. Zentraler Informatikdienst der Universität Wien. Gerhard Mayer. Stand: April 2014, TYPO3-Version 4.5 4-2014 RSS-Feeds RSS-Feed RSS-Feeds Zentraler Informatikdienst der Universität Wien Gerhard Mayer Stand: April 2014, TYPO3-Version 4.5 Dieses Skriptum ist eine Begleitunterlage der Schulungen des Zentralen

Mehr

Redundant Array of Inexpensive Disks

Redundant Array of Inexpensive Disks 22.01.2010 1 2 3 4 5 Es war einmal im Jahre 1988... Prozessoren, Speicher besser und günstiger Festplatten: - Speicherplatz bleibt teuer - Zugriff bleibt langsam Moore s Law Amdahl s Law S = 1 (1 f )+(f

Mehr

Ausarbeitung AW2 SS2012. Jan-Christoph Meier Data Mining in der Cloud

Ausarbeitung AW2 SS2012. Jan-Christoph Meier Data Mining in der Cloud Ausarbeitung AW2 SS2012 Jan-Christoph Meier Data Mining in der Cloud Fakultät Technik und Informatik Department Informatik Faculty of Engineering and Computer Science Department of Computer Science Inhaltsverzeichnis

Mehr

Methoden & Tools für die Expressionsdatenanalyse. Vorlesung Einführung in die Bioinformatik - Expressionsdatenanalyse U. Scholz & M.

Methoden & Tools für die Expressionsdatenanalyse. Vorlesung Einführung in die Bioinformatik - Expressionsdatenanalyse U. Scholz & M. Methoden & Tools für die Expressionsdatenanalyse U. Scholz & M. Lange Folie #7-1 Vorgehensmodell Expressionsdatenverarbeitung Bildanalyse Normalisierung/Filterung Datenauswertung U. Scholz & M. Lange Folie

Mehr

Detecting Near Duplicates for Web Crawling

Detecting Near Duplicates for Web Crawling Detecting Near Duplicates for Web Crawling Gurmeet Singh Manku et al., WWW 2007* * 16th international conference on World Wide Web Detecting Near Duplicates for Web Crawling Finde near duplicates in großen

Mehr

Ruby on Rails. Florian Ferrano Ralf Heller Markus Nagel

Ruby on Rails. Florian Ferrano Ralf Heller Markus Nagel Ruby on Rails Florian Ferrano Ralf Heller Markus Nagel Überblick Ruby on Rails Ruby Rails Geschichte MVC allgemein MVC in Rails Scaffolding Webserver Installation Beispiele Wo wird Rails verwendet? Ausblick

Mehr

Inhalt dieses Kapitels. Ziel des Clustering, Anwendungen, Typen von Clustering-Algorithmen

Inhalt dieses Kapitels. Ziel des Clustering, Anwendungen, Typen von Clustering-Algorithmen 2. Clustering Inhalt dieses Kapitels 3. Einleitung Ziel des Clustering, Anwendungen, Typen von Clustering-Algorithmen 3.2 Partitionierende Verfahren k-means, k-medoid, Expectation Maximization, Initialisierung

Mehr

Architektur verteilter Anwendungen

Architektur verteilter Anwendungen Architektur verteilter Anwendungen Schwerpunkt: verteilte Algorithmen Algorithmus: endliche Folge von Zuständen Verteilt: unabhängige Prozessoren rechnen tauschen Informationen über Nachrichten aus Komplexität:

Mehr

2. Datenvorverarbeitung

2. Datenvorverarbeitung Kurzreferat Das Ziel beim Clustering ist es möglichst gleich Datensätze zu finden und diese in Gruppen, sogenannte Cluster zu untergliedern. In dieser Dokumentation werden die Methoden k-means und Fuzzy

Mehr

Sicherheit in Netzwerken. Leonard Claus, WS 2012 / 2013

Sicherheit in Netzwerken. Leonard Claus, WS 2012 / 2013 Sicherheit in Netzwerken Leonard Claus, WS 2012 / 2013 Inhalt 1 Definition eines Sicherheitsbegriffs 2 Einführung in die Kryptografie 3 Netzwerksicherheit 3.1 E-Mail-Sicherheit 3.2 Sicherheit im Web 4

Mehr

3. Stud.IP-Entwickler-Workshop 2. Juni 2006 Workshop 3c: Stud.IP-Enterprise-Edition André Noack, Frank Elsner

3. Stud.IP-Entwickler-Workshop 2. Juni 2006 Workshop 3c: Stud.IP-Enterprise-Edition André Noack, Frank Elsner 3. Stud.IP-Entwickler-Workshop 2. Juni 2006 Workshop 3c: Stud.IP-Enterprise-Edition André Noack, Frank Elsner Gliederung Das Problem: Skalierbarkeit LAMP Tuning Mehr als ein Server Stud.IP und shared nothing

Mehr

Systemanforderungen Verlage & Akzidenzdruck

Systemanforderungen Verlage & Akzidenzdruck OneVision Software AG Inhalt Asura 10.2, Asura Pro 10.2,Garda 10.2...2 PlugBALANCEin 10.2, PlugCROPin 10.2, PlugFITin 10.2, PlugRECOMPOSEin 10.2, PlugSPOTin 10.2,...2 PlugTEXTin 10.2, PlugINKSAVEin 10.2,

Mehr

DATA MINING FÜR BIG DATA. Department Informatik Anwendungen 1 WiSe 2013/14 Anton Romanov

DATA MINING FÜR BIG DATA. Department Informatik Anwendungen 1 WiSe 2013/14 Anton Romanov DATA MINING FÜR BIG DATA Department Informatik Anwendungen 1 WiSe 2013/14 Anton Romanov 29.10.2013 2 Agenda Motivation Data Mining Assoziationsanalyse Clusteranalyse Big Data Map Reduce Apache Hadoop Relevante

Mehr

Systemanforderungen Verlage & Akzidenzdruck

Systemanforderungen Verlage & Akzidenzdruck OneVision Software AG Inhalt Asura 10, Asura Pro 10, Garda 10...2 PlugBALANCEin 10, PlugCROPin 10, PlugFITin 10, PlugRECOMPOSEin10, PlugSPOTin 10,...2 PlugTEXTin 10, PlugINKSAVEin 10, PlugWEBin 10...2

Mehr

Schritt für Schritt Anleitung zum Erstellen einer Android-App zum Ein- und Ausschalten einer LED

Schritt für Schritt Anleitung zum Erstellen einer Android-App zum Ein- und Ausschalten einer LED Schritt für Schritt Anleitung zum Erstellen einer Android-App zum Ein- und Ausschalten einer LED Mit Google Chrome nach MIT App Inventor suchen. In den Suchergebnissen (siehe unten) auf

Mehr

Informationstheorethisches Theorem nach Shannon

Informationstheorethisches Theorem nach Shannon Informationstheorethisches Theorem nach Shannon Beispiel zum Codierungsaufwand - Wiederholung: Informationstheorethisches Modell (Shannon) Sei x eine Aussage. Sei M ein Modell Wieviele Bits sind aussreichend,

Mehr

Text Mining. Peter Kolb 25.6.2012

Text Mining. Peter Kolb 25.6.2012 Text Mining Peter Kolb 25.6.2012 Übersicht Big Data Information Retrieval vs. Text Mining Anwendungen Dokumentenähnlichkeit Termähnlichkeit Merkmalsauswahl und -Gewichtung Kategorisierung Clustering Big

Mehr

Wie Google Webseiten bewertet. François Bry

Wie Google Webseiten bewertet. François Bry Wie Google Webseiten bewertet François Bry Heu6ge Vorlesung 1. Einleitung 2. Graphen und Matrizen 3. Erste Idee: Ranking als Eigenvektor 4. Fragen: Exisi6ert der Eigenvektor? Usw. 5. Zweite Idee: Die Google

Mehr

Florian Frötscher und Demet Özçetin

Florian Frötscher und Demet Özçetin Statistische Tests in der Mehrsprachigkeitsforschung Aufgaben, Anforderungen, Probleme. Florian Frötscher und Demet Özçetin florian.froetscher@uni-hamburg.de SFB 538 Mehrsprachigkeit Max-Brauer-Allee 60

Mehr

Übungsaufgaben. Aufgabe 1 Internetsuchmaschinen. Einführung in das Information Retrieval, 8. Mai 2008 Veranstaltung für die Berufsakademie Karlsruhe

Übungsaufgaben. Aufgabe 1 Internetsuchmaschinen. Einführung in das Information Retrieval, 8. Mai 2008 Veranstaltung für die Berufsakademie Karlsruhe Otto-Friedrich-Universität Bamberg Lehrstuhl für Medieninformatik Prof. Dr. Andreas Henrich Dipl. Wirtsch.Inf. Daniel Blank Einführung in das Information Retrieval, 8. Mai 2008 Veranstaltung für die Berufsakademie

Mehr

5. Vorlesung. Das Ranking Problem PageRank HITS (Hubs & Authorities) Markov Ketten und Random Walks PageRank und HITS Berechnung

5. Vorlesung. Das Ranking Problem PageRank HITS (Hubs & Authorities) Markov Ketten und Random Walks PageRank und HITS Berechnung 5. Vorlesung Das Ranking Problem PageRank HITS (Hubs & Authorities) Markov Ketten und Random Walks PageRank und HITS Berechnung Seite 120 The Ranking Problem Eingabe: D: Dokumentkollektion Q: Anfrageraum

Mehr

Information Retrieval Modelle und neue Technologien. Prof. Dr. Wolfgang Riggert FDH Flensburg

Information Retrieval Modelle und neue Technologien. Prof. Dr. Wolfgang Riggert FDH Flensburg Information Retrieval Modelle und neue Technologien Prof. Dr. Wolfgang Riggert FDH Flensburg Gliederung IR-Modelle Suchmaschinen Beispiel: Google Neue Technologien Retrievalmodell - allgemein Ein Retrievalmodell

Mehr

QCfetcher Handbuch. Version 1.0.0.10. Ein Zusatztool zum QuoteCompiler. Diese Software ist nur für private und nicht-kommerzielle Zwecke einzusetzen.

QCfetcher Handbuch. Version 1.0.0.10. Ein Zusatztool zum QuoteCompiler. Diese Software ist nur für private und nicht-kommerzielle Zwecke einzusetzen. Seite 1 QCfetcher Handbuch Ein Zusatztool zum QuoteCompiler Diese Software ist nur für private und nicht-kommerzielle Zwecke einzusetzen. Die neuesten Informationen gibt es auf der Webseite: http://finanzkasper.de/

Mehr

Systemanforderungen Verlage & Akzidenzdruck

Systemanforderungen Verlage & Akzidenzdruck OneVision Software AG Inhalt Asura 9.6, Asura Pro 9.6, Garda 5.6...2 PlugBALANCEin 6.6, PlugCROPin 6.6, PlugFITin 6.6, PlugRECOMPOSEin 6.6, PlugSPOTin 6.6,...2 PlugTEXTin 6.6, PlugINKSAVEin 6.6, PlugWEBin

Mehr

Scala & Lift. Ferenc Lajko 04.02.2010

Scala & Lift. Ferenc Lajko 04.02.2010 Scala & Lift Ferenc Lajko 04.02.2010 Gliederung 1. Scala 1.1. Allgemein 1.2. Merkmale 1.3. Unterschiede zu Java 1.4. Code-Beispiel 1.5. Vorteile zu anderen Sprachen 2. Lift 2.1. Allgemein 2.2. Idee 2.3.

Mehr

Bachelorarbeit: Ein diskretes Modell für Finanzmärkte

Bachelorarbeit: Ein diskretes Modell für Finanzmärkte Bachelorarbeit: Ein diskretes Modell für Finanzmärkte Die Finanzmathematik ist momentan eine der wichtigsten Anwendungender. Hier soll ein grundlegendes Modell erörtert werden, das auf der Entwicklung

Mehr

Performance. is rarely an accident. Martin Klier Lead / Senior Database Administrator. TGW Software Services GmbH Lindenweg 13 92552 Teunz

Performance. is rarely an accident. Martin Klier Lead / Senior Database Administrator. TGW Software Services GmbH Lindenweg 13 92552 Teunz Performance is rarely an accident Martin Klier Lead / Senior Database Administrator TGW Software Services GmbH Lindenweg 13 92552 Teunz Martin Klier Senior Database Administrator TGW Logistics Group /

Mehr

Kapitel 5: Clustering

Kapitel 5: Clustering Ludwig Maximilians Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Wintersemester 2006/2007 Kapitel

Mehr

Computerlinguistik im Service Management eine neue Suche für TOPdesk

Computerlinguistik im Service Management eine neue Suche für TOPdesk Computerlinguistik im Service Management eine neue Suche für TOPdesk Anna Hunecke Diplom Computerlinguistin TOPdesk A.Hunecke@topdesk.com Inhalt TOPdesk Suchen in TOPdesk Lucene Lucene in TOPdesk TOPdesk

Mehr

Analysesoftware für Soziale Netzwerke

Analysesoftware für Soziale Netzwerke KIT Karlsruhe Institut of Technology Praxis der Software-Entwicklung WS 2009/10 Gruppe 7»Testdokument«v 1.0 Analysesoftware für Soziale Netzwerke 26.02.2010 Phase Phasenverantwortlich e-mail Pflichtenheft

Mehr

RUP Analyse und Design: Überblick

RUP Analyse und Design: Überblick Inhaltsverzeichnis Übersicht [, 2, 8] 3. Vorgehensweise............................... 5 2 Planungsmethoden 37 2. Definitionsphase.............................. 6 3 Rational Unified Process [5, 6] und

Mehr

Performance Report OXID eshop 5.0 Enterprise Edition

Performance Report OXID eshop 5.0 Enterprise Edition Performance Report OXID eshop 5.0 Enterprise Edition supported by SysEleven September 2013 OXID esales AG www.oxid-esales.com info@oxid-esales.com 1/14 Copyright Kontakt OXID esales AG www.oxid-esales.com

Mehr

Vorlesung 5: DATENSTRUKTUREN UND ALGORITHMEN

Vorlesung 5: DATENSTRUKTUREN UND ALGORITHMEN Vorlesung 5: DATENSTRUKTUREN UND ALGORITHMEN 125 Motivation! Wahl der Datenstruktur wichtiger Schritt beim Entwurf und der Implementierung von Algorithmen! Dünn besetzte Graphen und Matrizen bilden keine

Mehr

Security of Online Social Networks

Security of Online Social Networks Security of Online Social Networks Social Network Analysis Lehrstuhl IT-Sicherheitsmanagment Universität Siegen May 31, 2012 Lehrstuhl IT-Sicherheitsmanagment 1/25 Overview Lesson 06 Fundamental Graphs

Mehr

Handbuch Datenpunktliste - Auswerte - Tools

Handbuch Datenpunktliste - Auswerte - Tools Handbuch Datenpunktliste - Auswerte - Tools zur Bearbeitung von Excel Datenpunktlisten nach VDI Norm 3814 für Saia PCD Systeme alle Rechte bei: SBC Deutschland GmbH Siemensstr. 3, 63263 Neu-Isenburg nachfolgend

Mehr

ActiveCharts. Verknüpfung von Modellen und Code bei der modellgetriebenen Softwareentwicklung mit UML 2.0

ActiveCharts. Verknüpfung von Modellen und Code bei der modellgetriebenen Softwareentwicklung mit UML 2.0 Jens Kohlmeyer 05. März 2007 Institut für Programmiermethodik und Compilerbau ActiveCharts Verknüpfung von Modellen und Code bei der modellgetriebenen Softwareentwicklung mit UML 2.0 Seite 2 Übersicht

Mehr

Literatur. Dominating Set (DS) Dominating Sets in Sensornetzen. Problem Minimum Dominating Set (MDS)

Literatur. Dominating Set (DS) Dominating Sets in Sensornetzen. Problem Minimum Dominating Set (MDS) Dominating Set 59 Literatur Dominating Set Grundlagen 60 Dominating Set (DS) M. V. Marathe, H. Breu, H.B. Hunt III, S. S. Ravi, and D. J. Rosenkrantz: Simple Heuristics for Unit Disk Graphs. Networks 25,

Mehr

Umsetzung von DEA in Excel

Umsetzung von DEA in Excel Umsetzung von DEA in Excel Thorsten Poddig Armin Varmaz 30. November 2005 1 Vorbemerkungen In diesem Dokument, das als Begleitmaterial zum in der Zeitschrift,,Controlling, Heft 10, 2005 veröffentlichten

Mehr

Suchmaschinen Grundlagen. Thomas Grabowski

Suchmaschinen Grundlagen. Thomas Grabowski Suchmaschinen Grundlagen Thomas Grabowski 1 / 45 Überblick 1. Einleitung 2. Suchmaschinen Architektur 3. Crawling-Prozess 4. Storage 5. Indexing 6. Ranking 2 / 45 1. Einleitung Der Webgraph unterliegt

Mehr

Online-Recherche: Web-Recherche WS 2015/2016 4. Veranstaltung 5. November 2015

Online-Recherche: Web-Recherche WS 2015/2016 4. Veranstaltung 5. November 2015 Online-Recherche: Web-Recherche WS 2015/2016 4. Veranstaltung 5. November 2015 Philipp Schaer - philipp.schaer@gesis.org Philipp Mayr - philipp.mayr@gesis.org GESIS Leibniz-InsJtut für SozialwissenschaNen

Mehr