Clustering mit dem K-Means-Algorithmus (Ein Experiment)

Größe: px
Ab Seite anzeigen:

Download "Clustering mit dem K-Means-Algorithmus (Ein Experiment)"

Transkript

1 Clustering mit dem K-Means- (Ein Experiment) Andreas Runk 7. März 2013

2 Index Andreas Runk Clustering mit dem K-Means- 2/40

3 Ziele: des K-Means Finde/erstelle geeignetes Testcorpus möglichst gute Clustering-Ergebnisse möglichst effizient und skalierbar Andreas Runk Clustering mit dem K-Means- 3/40

4 K-Means Eigenschaften: Erste Veröffentlichung von [Steinhaus(1956)] und Namensgebung durch [MacQueen(1967)] laut [Bock(2007)] EM- Anzahl Cluster (k) wird vom Benutzer bestimmt [MacQueen(1967)] Terminiert nicht immer (Datenpunkte können zwischen Clustern springen) Ergebnisse zufällig, da zufällige Wahl der Start-Means Abbildung: [Wikipedia(2012b)] Andreas Runk Clustering mit dem K-Means- 4/40

5 K-Means Implementierter K-Means 1 : 1: Setze zufällig k Start-Means 2: d = 3: solange d > Schwellwert / Zuordnungen sich ändern 4: für alle Dokumente Assignment Step 5: Füge Dokument dem nächst-ähnlichen Cluster hinzu 6: für alle Cluster Update Step 7: Setze neue Werte des Means kleinster Abstand zu den Dokumenten in seinem Cluster 8: d = Abstand der alten und neuen Means 1 vgl. [MacKay(2003)] oder siehe auch [Haenelt(2012c)] Andreas Runk Clustering mit dem K-Means- 5/40

6 Eigenschaften der Eigenschaften der Architektur Versionen Programmiersprache: C++ (OO) Lines Of Code: ca (2300 ohne Kommentare) Anzahl Versionen: 4 Benutzte Bibliotheken: Boost Random, OpenMP, Google Sparse Hash Andreas Runk Clustering mit dem K-Means- 6/40

7 Erklärung der folgenden Darstellung Eigenschaften der Architektur Versionen Darstellung der Veränderung zur vorherigen Version in Tabellen Werte die nicht in der jeweiligen Versionstabelle enthalten sind, wurden zur vorherigen Version nicht verändert Durch ein + werden zusätzliche Eigenschaften des jeweiligen Bereiches dargestellt. Sollte eine Auswahl der jeweiligen Eigenschaft eingefügt werden, so bezieht sich diese auf alle bisher implementierten Attribute. Sonstige Eigenschaften zeigen eine Ersetzung an. Der (teilweise) in Klammern angegebene Wert ist die Gesamtersparnis an Wörtern nach dem WordCount-Schritt Andreas Runk Clustering mit dem K-Means- 7/40

8 Aufbau Eigenschaften der Architektur Versionen Modell Worttrenner Wordcount Termgewichtung Distanzfunktion Erste Means Vector Leerzeichen Array einfache Häufigkeit euklidisch zufällige Werte pro Wort zwischen 0 und max{wortzahl} Andreas Runk Clustering mit dem K-Means- 8/40

9 Struktur Eigenschaften der Architektur Versionen WordCount -countofwords -documentname -words FileReader FileWriter Cluster -clustermembers -meanwordcounts -newmeanwordcounts -words +addnewclustermember() Distance -euclideandistance() KMeans -clusters: list<cluster> -compareoldandnewclusters() -setrandommean() +KMeans() ThermWeighting -frequencyweighting() Abbildung: Klassendiagramm Andreas Runk Clustering mit dem K-Means- 9/40

10 Überblick Komplexitäten Eigenschaften der Architektur Versionen Folgende Abkürzungen werden verwendet: k = Anzahl Cluster n = Länge des längsten Dokuments m = Anzahl Dokumente l = Länge des längsten Wortes c = Anzahl Rechenkerne Andreas Runk Clustering mit dem K-Means- 10/40

11 Version 1 Eigenschaften der Architektur Versionen Worttrenner Wordcount Termgewichtung Distanzfunktion Erste Means Leerzeichen Array einfache Häufigkeit euklidisch zufällige Werte pro Wort zwischen 0 und max{worthäufigkeit} Standard K-Means Clustering [MacQueen(1967)] Andreas Runk Clustering mit dem K-Means- 11/40

12 Version 1 Eigenschaften der Architektur Versionen Komplexitäten: WordCount: O(m n 2 ) K-Means Assign: O(k m n 3 ) K-Means Update: O(k m 2 n 3 ) Probleme: Start Means sind weit von den realen Dokumenten entfernt viele Iterationen nötig Schlechte Performance Es sind viele kurze Wörter in den Texten enthalten, die wenig Information liefern ( ist, und usw.) sogenannte Stoppwörter. Andreas Runk Clustering mit dem K-Means- 12/40

13 Version 2 Eigenschaften der Architektur Versionen Worttrenner Wordcount Termgewichtung Distanzfunktion Erste Means + Sonderzeichen ( 3%) Hashmap + Stoppwortentfernung ( 7%) + normalisierte Termfrequenz + tf-idf-gewichtung + Auswahl Cosinus zufällige Dokumente K-Means++ Clustering [Arthur and Vassilvitskii(2007)] Andreas Runk Clustering mit dem K-Means- 13/40

14 Version 2 Eigenschaften der Architektur Versionen Komplexitäten: WordCount: O( m c n2 ) vs. O(m n 2 ) K-Means Assign: O(k m c n) vs. O(k m n3 ) tf-idf: O(k m2 c n) K-Means Update: O( k c m2 n 3 ) vs. O(k m 2 n 3 ) Probleme: Means zufällig Clustering zufällig langsam, bei vielen Daten (zu viel RAM-Verbrauch) Andreas Runk Clustering mit dem K-Means- 14/40

15 Version 3 Eigenschaften der Architektur Versionen Wordcount Distanzfunktion Erste Means + häufigste 10 % aller Wörter bzgl. der Worthäufigkeit werden verwendet + Dice-Koeffizient + Auswahl entfernteste Dokumente Andreas Runk Clustering mit dem K-Means- 15/40

16 Version 3 Eigenschaften der Architektur Versionen Komplexitäten: WordCount: O( m c n2 ) K-Means Assign: O(k m c n) tf-idf: O(k m2 c n) K-Means Update: O( k c m2 n 2 ) vs. O( k c m2 n 3 ) Probleme: Flektierte Formen eines Wortes werden jeweils als eigene Wörter gezählt. Dies kann unerwünscht sein. (bsp. Lied Lieder) Andreas Runk Clustering mit dem K-Means- 16/40

17 Version 4 Eigenschaften der Architektur Versionen Wordcount Distanzfunktion + ähnliche Worte, wie vorher beschrieben werden als eines gewertet (Folie 40) ( 17.5%) + Jaccard-Koeffizient + Overlap-Koeffizient Komplexitäten: WordCount: O( m2 c n2 l 2 ) vs. O( m c n2 ) K-Means Assign: O(k m c n) tf-idf: O(k m2 c n) K-Means Update: O( k c m2 n 2 ) Andreas Runk Clustering mit dem K-Means- 17/40

18 Struktur gemäß Version 4 Eigenschaften der Architektur Versionen WordCount -countofwords -documentname -words -wordswithcounts(v2) FileReader FileWriter Cluster -clustermembers -meanwordcounts -newmeanwordcounts -words +addnewclustermember() Distance KMeans -clusters: list<cluster> -compareoldandnewclusters() -setdocumentmeanwithmostdistance(v3) -setrandomdocumentmean(v2) -setrandommean() +KMeans() -euclideandistance() -cosinedistance(v2) -dicecoefficientdistance(v3) -jaccardcoefficientdistance(v4) -overlapcoefficientdistance(v4) -numberofdocuments ThermWeighting -frequencyweighting() -normalizedtermfrequency(v2) -termfrequencyinversedocumentfrequency(v2) Abbildung: Klassendiagramm Andreas Runk Clustering mit dem K-Means- 18/40

19 Daten Daten Effektivitätstests Performancetests PATENTCORPUS128: 128 Patente nach [Polar(2012)], benutzt für Performance. Sprache: englisch WikiDocs: 32 Artikel aus der Wikipedia [Wikipedia(2012a)] Kategorien (8): Geschichte, Kunst, Mathe, PC, Medizin, Musik, Sport, Essen Sprache: deutsch Andreas Runk Clustering mit dem K-Means- 19/40

20 Daten Effektivitätstests Performancetests Erwünschtes Ergebnis gemäß intellektuellem Clustering Andreas Runk Clustering mit dem K-Means- 20/40

21 Version 1 Daten Effektivitätstests Performancetests Andreas Runk Clustering mit dem K-Means- 21/40

22 Version 1 Daten Effektivitätstests Performancetests Aufgrund der zufälligen Means entstehen zufällige Lösungen. Cluster 0 enthält fast alle Dokumente, da die zufällig gewählte Anzahlt der Wörter nächsten an den Dokumenten lag Erreicht mit (keine Auswahl der Häufigkeitsfunktion und der Distanzfunktion möglich): - Einfacher Häufigkeit - Euklidischer Distanz Distanz- und Häufigkeitsfunktionen führen möglicherweise dazu, dass alle Dokumente nahe beieinander liegen Andreas Runk Clustering mit dem K-Means- 22/40

23 Version 2 Daten Effektivitätstests Performancetests Andreas Runk Clustering mit dem K-Means- 23/40

24 Version 2 Daten Effektivitätstests Performancetests Aufgrund der zufälligen Means entstehen zufällige Lösungen. Erreicht mit (keine Auswahl der Distanzfunktion möglich): - Einfacher Häufigkeit - Kosinus-Distanz Cluster 2 enthält viele Dokumente möglicherweise führt die gewählte Distanzfunktionen dazu, dass alle Dokumente nahe beieinander liegen Andreas Runk Clustering mit dem K-Means- 24/40

25 Version 3 Daten Effektivitätstests Performancetests Andreas Runk Clustering mit dem K-Means- 25/40

26 Version 3 Daten Effektivitätstests Performancetests Ergebnisse dieser Version reproduzierbar, da Startwerte nicht mehr zufällig angenommen werden Getestet wurden alle möglichen Kombinationen der hier implementierten Termfrequenz- und Distanzfunktionen. Dem intellektuellen Clustering ähnlichstes Ergebnis dieser Version wurde erreicht mit: - Einfacher Häufigkeit - Dice-Koeffizient-Distanz Aufgrund der Wahl von Distanz- und Termgewichtungsfunktionen kann die beste Kombination von den Benutzenden gewählt werden. bessere Aufteilung der Cluster Andreas Runk Clustering mit dem K-Means- 26/40

27 Version 4 Daten Effektivitätstests Performancetests Andreas Runk Clustering mit dem K-Means- 27/40

28 Version 4 Daten Effektivitätstests Performancetests Lösung dieser Version, welche der erwünschten Lösung am ähnlichsten ist. Ergebnisse dieser Version reproduzierbar, da Startwerte nicht mehr zufällig angenommen werden Getestet wurden alle möglichen Kombinationen der hier implementierten Termfrequenz- und Distanzfunktionen. Dem intellektuellen Clustering ähnlichstes Ergebnis dieser Version wurde erreicht mit: - Einfacher Häufigkeit - Jaccard-Koeffizient-Distanz - Zusammenfassung von Wörtern und Wortformen auf der Basis der Editierdistanz (Folie 40) Andreas Runk Clustering mit dem K-Means- 28/40

29 Testrechner Daten Effektivitätstests Performancetests System: Ubuntu CPU: Intel Q GHz RAM: 8 GB Andreas Runk Clustering mit dem K-Means- 29/40

30 Laufzeiten Daten Effektivitätstests Performancetests Andreas Runk Clustering mit dem K-Means- 30/40

31 K-Means einfach zu implementieren Wenn Qualität erforderlich erheblicher Mehraufwand Gute Clustering-Ergebnisse möglich Ausblick: Vergleich mit anderen Verfahren könnte mehr Aufschluss über Effektivität und Effizienz geben Ein Stemming könnte bessere Ergebnisse als die Editierdistanz ermöglichen. Andreas Runk Clustering mit dem K-Means- 31/40

32 Bibliography I [Arthur and Vassilvitskii(2007)] David Arthur and Sergei Vassilvitskii. k-means++: The advantages of careful seeding. Proceedings of the eighteenth annual ACM-SIAM symposium on Discrete algorithms, 7: , URL Last visited: [Bock(2007)] Hans-Hermann Bock. Origins and extensions of the k-means algorithm in cluster analysis URL Last visited: [Haenelt(2012a)] Karin Haenelt. Information Retrieval Modelle: Vektor-Modell. Kursfolien URL Modelle_Vektor.pdf. Last visited: Andreas Runk Clustering mit dem K-Means- 32/40

33 Bibliography II [Haenelt(2012b)] Karin Haenelt. Ähnlichkeitsmaße für Vektoren. Kursfolien (erste Fassung ) URL VektorAehnlichkeit.pdf. Last visited: [Haenelt(2012c)] Karin Haenelt. Clustering. Kursfolien URL http: //kontext.fraunhofer.de/haenelt/kurs/folien/haenelt_clustering.pdf. Last visited: Andreas Runk Clustering mit dem K-Means- 33/40

34 Bibliography III [MacKay(2003)] David MacKay. Chapter 20. an example inference task: Clustering. Information Theory, Inference and Learning Algorithms. Cambridge University Press., 2: , URL Last visited: [MacQueen(1967)] J. B. MacQueen. Some methods of classification and analysis of multivariate observations. In Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability, pages , URL Last visited: [Polar(2012)] Andrew Polar. Patentcorpus, URL Last visited: Andreas Runk Clustering mit dem K-Means- 34/40

35 Bibliography IV [Reinelt(2011)] Gerhard Reinelt. Effiziente Algorithmen 2. Universität Heidelberg, (Vorlesungsskript). [Steinhaus(1956)] H. Steinhaus. Sur la division des corp materiels en parties. Bull. Acad. Polon. Sci, 1: , [Wikipedia(2012a)] Wikipedia. Wikipedia, URL Last visited: [Wikipedia(2012b)] Wikipedia. Wikipedia K-Means, URL Last visited: Andreas Runk Clustering mit dem K-Means- 35/40

36 Speicher Termgewichte Distanzmaße Editier-Distanz Vielen Dank für Ihre Aufmerksamkeit Gibt es Fragen? Andreas Runk Clustering mit dem K-Means- 36/40

37 Speicher Speicher Termgewichte Distanzmaße Editier-Distanz Andreas Runk Clustering mit dem K-Means- 37/40

38 Termgewichte [Haenelt(2012a)] Speicher Termgewichte Distanzmaße Editier-Distanz Einfache Häufigkeit: f i,m = freq i,m Normalisierte Termfrequenz: tf i,m = freq i,m max l freq l,m tf-idf-gewichtung: tfidf i,m = tf i,m log N n i freq i,m N n i := Anzahl von Term t i in Dokument m := Gesamtzahl Dokumente := Anzahl Dokumente in denen Term t i vorkommt Andreas Runk Clustering mit dem K-Means- 38/40

39 Distanzmaße [Haenelt(2012b)] Speicher Termgewichte Distanzmaße Editier-Distanz Euklidisch: Cosinus: Dice-Koeffizient: Jaccard-Koeffizient: Overlap-Koeffizient: n k=1 w x,k w y,k n k=1 w x,k w y,k n k=1 w 2 n x,k k=1 w y,k 2 2 n k=1 w n x,k w y,k k=1 w x,k+ n k=1 w y,k n k=1 w n x,k w y,k k=1 w x,k+ n k=1 w y,k n k=1 w x,k w y,k n k=1 min{w x,k,w y,k } min{ n k=1 w x,k, n k=1 w y,k} n = X Y w m,i = Termgewicht von Term t i in Dokument m Andreas Runk Clustering mit dem K-Means- 39/40

40 Editier-Distanz Speicher Termgewichte Distanzmaße Editier-Distanz Berechnung von Wortähnlichkeiten δ = Kosten einer Lücke = Kosten von x i nach y j α xi,y j EditDist (A B) [Reinelt(2011)] 1: Setze A[i, 0] = iδ, für i = 1,..., p und A[0, j] = jδ, für j = 1,..., q 2: für alle j = 1,..., q 3: für alle i = 1,..., p 4: A[i, j] = min{a xi,y j + A[i 1, j 1], δ + A[i 1, j], δ + A[i, j 1]} rückgabe A[m,n] Laufzeit: O(p q) = O(l 2 ) Speicherbedarf: O(p q) = O(l 2 ) In den hier vorgestellten wurde eine Buchstaben Ersetzung und bis zu drei Lücken erlaubt. Also α xi,y j := 3 für x i y j, 0 sonst, δ := 1 und falls EditDist 3 Terme werden als gleich betrachtet. Andreas Runk Clustering mit dem K-Means- 40/40

Automatisierte Dossier- Erstellung mittels Text-Mining

Automatisierte Dossier- Erstellung mittels Text-Mining Automatisierte Dossier- Erstellung mittels Text-Mining Paul Assendorp Grundseminar 11.12.2014 Paul Assendorp Automatisierte Dossier-Erstellung 1 Gliederung Motivation Textmining Tools Aktueller Stand Ausblick

Mehr

Map Reduce on Hadoop Seminar SS09. Similarity Join. Tim Felgentreff, Andrina Mascher

Map Reduce on Hadoop Seminar SS09. Similarity Join. Tim Felgentreff, Andrina Mascher Map Reduce on Hadoop Seminar SS09 Similarity Join Tim Felgentreff, Andrina Mascher Gliederung 2!! Aufgabe!! Demo!! Algorithmus!! Performance!! Veränderte Aufgabenstellung:!! Vergleich mit 1 Seite!! Ausblick!!

Mehr

Seminar Komplexe Objekte in Datenbanken

Seminar Komplexe Objekte in Datenbanken Seminar Komplexe Objekte in Datenbanken OPTICS: Ordering Points To Identify the Clustering Structure Lehrstuhl für Informatik IX - Univ.-Prof. Dr. Thomas Seidl, RWTH-Aachen http://www-i9.informatik.rwth-aachen.de

Mehr

MATCHING VON PRODUKTDATEN IN DER CLOUD

MATCHING VON PRODUKTDATEN IN DER CLOUD MATCHING VON PRODUKTDATEN IN DER CLOUD Dr. Andreas Thor Universität Leipzig 15.12.2011 Web Data Integration Workshop 2011 Cloud Computing 2 Cloud computing is using the internet to access someone else's

Mehr

Bachelorarbeit: Ein diskretes Modell für Finanzmärkte

Bachelorarbeit: Ein diskretes Modell für Finanzmärkte Bachelorarbeit: Ein diskretes Modell für Finanzmärkte Die Finanzmathematik ist momentan eine der wichtigsten Anwendungender. Hier soll ein grundlegendes Modell erörtert werden, das auf der Entwicklung

Mehr

Ausarbeitung AW2 SS2012. Jan-Christoph Meier Data Mining in der Cloud

Ausarbeitung AW2 SS2012. Jan-Christoph Meier Data Mining in der Cloud Ausarbeitung AW2 SS2012 Jan-Christoph Meier Data Mining in der Cloud Fakultät Technik und Informatik Department Informatik Faculty of Engineering and Computer Science Department of Computer Science Inhaltsverzeichnis

Mehr

Data-Mining: Ausgewählte Verfahren und Werkzeuge

Data-Mining: Ausgewählte Verfahren und Werkzeuge Fakultät Informatik Institut für Angewandte Informatik Lehrstuhl Technische Informationssysteme Data-Mining: Ausgewählte Verfahren und Vortragender: Jia Mu Betreuer: Dipl.-Inf. Denis Stein Dresden, den

Mehr

Text Mining. Peter Kolb 25.6.2012

Text Mining. Peter Kolb 25.6.2012 Text Mining Peter Kolb 25.6.2012 Übersicht Big Data Information Retrieval vs. Text Mining Anwendungen Dokumentenähnlichkeit Termähnlichkeit Merkmalsauswahl und -Gewichtung Kategorisierung Clustering Big

Mehr

Approximationsalgorithmen

Approximationsalgorithmen Ausarbeitung zum Thema Approximationsalgorithmen im Rahmen des Fachseminars 24. Juli 2009 Robert Bahmann robert.bahmann@gmail.com FH Wiesbaden Erstellt von: Robert Bahmann Zuletzt berarbeitet von: Robert

Mehr

Suchmaschinenalgorithmen. Vortrag von: Thomas Müller

Suchmaschinenalgorithmen. Vortrag von: Thomas Müller Suchmaschinenalgorithmen Vortrag von: Thomas Müller Kurze Geschichte Erste Suchmaschine für Hypertexte am CERN Erste www-suchmaschine World Wide Web Wanderer 1993 Bis 1996: 2 mal jährlich Durchlauf 1994:

Mehr

Einführung in Hauptspeicherdatenbanken

Einführung in Hauptspeicherdatenbanken Einführung in Hauptspeicherdatenbanken Harald Zankl Probevorlesung 13. 01., 13:15 14:00, HS C Inhaltsverzeichnis Organisation Überblick Konklusion Harald Zankl (LFU) Hauptspeicherdatenbanken 2/16 Organisation

Mehr

Wiki Dokumentation. Erstellt von:

Wiki Dokumentation. Erstellt von: Wiki Dokumentation Erstellt von: Wiki Dokumentation www.verkaufslexikon.de Allgemeines Wikipedia, ein Enzyklopädie Projekt der Wikimedia Foundation, ist ein Wiki, d. h. eine Website, deren Seiten man direkt

Mehr

Monte Carlo Methoden

Monte Carlo Methoden Monte Carlo Methoden im Verstärkungslernen [Spink] Bryan Spink 2003 Ketill Gunnarsson [ ketill@inf.fu-berlin.de ], Seminar zum Verstärkungslernen, Freie Universität Berlin [ www.inf.fu-berlin.de ] Einleitung

Mehr

DATA MINING FÜR BIG DATA. Department Informatik Anwendungen 1 WiSe 2013/14 Anton Romanov

DATA MINING FÜR BIG DATA. Department Informatik Anwendungen 1 WiSe 2013/14 Anton Romanov DATA MINING FÜR BIG DATA Department Informatik Anwendungen 1 WiSe 2013/14 Anton Romanov 29.10.2013 2 Agenda Motivation Data Mining Assoziationsanalyse Clusteranalyse Big Data Map Reduce Apache Hadoop Relevante

Mehr

Moderne parallele Rechnerarchitekturen

Moderne parallele Rechnerarchitekturen Seminar im WS0708 Moderne parallele Rechnerarchitekturen Prof. Sergei Gorlatch Dipl.-Inf. Maraike Schellmann schellmann@uni-muenster.de Einsteinstr. 62, Raum 710, Tel. 83-32744 Dipl.-Inf. Philipp Kegel

Mehr

MAP CellSs Mapprakt3

MAP CellSs Mapprakt3 MAP CellSs Mapprakt3 Andreas Fall, Matthias Ziegler, Mark Duchon Hardware-Software-Co-Design Universität Erlangen-Nürnberg Andreas Fall, Matthias Ziegler, Mark Duchon 1 CellSs Cell CPU (1x PPU + 6x SPU)

Mehr

Detecting Near Duplicates for Web Crawling

Detecting Near Duplicates for Web Crawling Detecting Near Duplicates for Web Crawling Gurmeet Singh Manku et al., WWW 2007* * 16th international conference on World Wide Web Detecting Near Duplicates for Web Crawling Finde near duplicates in großen

Mehr

EINIGE VALIDIERUNGSASPEKTE VON SCORING-SYSTEMEN

EINIGE VALIDIERUNGSASPEKTE VON SCORING-SYSTEMEN EINIGE VALIDIERUNGSASPEKTE VON SCORING-SYSTEMEN Dr. Pavel Khomski Im nachfolgenden Beitrag werden zwei gebräuchliche Indizes vorgestellt, die zur Validierung der Scoring-Systeme herangezogen werden, der

Mehr

Inhaltsangabe zu den Systemvoraussetzungen:

Inhaltsangabe zu den Systemvoraussetzungen: Inhaltsangabe zu den Systemvoraussetzungen: Seite 2 bis 1.500 Wohneinheiten und bis 2 Seite 3 bis 1.500 Wohneinheiten und bis 5 Seite 4 bis 5.000 Wohneinheiten und mehr als 10 Seite 5 bis 15.000 Wohneinheiten

Mehr

Redundant Array of Inexpensive Disks

Redundant Array of Inexpensive Disks 22.01.2010 1 2 3 4 5 Es war einmal im Jahre 1988... Prozessoren, Speicher besser und günstiger Festplatten: - Speicherplatz bleibt teuer - Zugriff bleibt langsam Moore s Law Amdahl s Law S = 1 (1 f )+(f

Mehr

Language Model basierte Suchterm Klassifizierung. Marcus Fabarius Kamila Kedzior Philipp Liepert Rim Sahnoun Enterprise Data Management SoSe 2014

Language Model basierte Suchterm Klassifizierung. Marcus Fabarius Kamila Kedzior Philipp Liepert Rim Sahnoun Enterprise Data Management SoSe 2014 Language Model basierte Suchterm Klassifizierung Marcus Fabarius Kamila Kedzior Philipp Liepert Rim Sahnoun Enterprise Data Management SoSe 2014 Problem Die Intention des Nutzers ist nicht immer eindeutig

Mehr

Informationstheorethisches Theorem nach Shannon

Informationstheorethisches Theorem nach Shannon Informationstheorethisches Theorem nach Shannon Beispiel zum Codierungsaufwand - Wiederholung: Informationstheorethisches Modell (Shannon) Sei x eine Aussage. Sei M ein Modell Wieviele Bits sind aussreichend,

Mehr

Termin3 Klassifikation multispektraler Daten unüberwachte Verfahren

Termin3 Klassifikation multispektraler Daten unüberwachte Verfahren Ziel Termin3 Klassifikation multispektraler Daten unüberwachte Verfahren Einteilung (=Klassifikation) der Pixel eines multispektralen Datensatzes in eine endliche Anzahl von Klassen. Es sollen dabei versucht

Mehr

Mit KI gegen SPAM. Proseminar Künstliche Intelligenz

Mit KI gegen SPAM. Proseminar Künstliche Intelligenz Mit KI gegen SPAM Proseminar Künstliche Intelligenz SS 2006 Florian Laib Ausblick Was ist SPAM? Warum SPAM-Filter? Naive Bayes-Verfahren Fallbasiertes Schließen Fallbasierte Filter TiMBL Vergleich der

Mehr

Systemanforderungen Verlage & Akzidenzdruck

Systemanforderungen Verlage & Akzidenzdruck OneVision Software AG Inhalt Asura 10.2, Asura Pro 10.2,Garda 10.2...2 PlugBALANCEin 10.2, PlugCROPin 10.2, PlugFITin 10.2, PlugRECOMPOSEin 10.2, PlugSPOTin 10.2,...2 PlugTEXTin 10.2, PlugINKSAVEin 10.2,

Mehr

Seminar Map/Reduce Algorithms on Hadoop. Topics. Alex, Christoph

Seminar Map/Reduce Algorithms on Hadoop. Topics. Alex, Christoph Seminar Map/Reduce Algorithms on Hadoop Topics Alex, Christoph Organisatorisches Prioritisierte Liste mit allen vorgestellten Themen bis heute 23:59 an Alexander.Albrecht@hpi.uni-potsdam.de Vergabe der

Mehr

INDEX. Netzwerk Überblick. Benötigte Komponenten für: Windows Server 2008. Windows Server 2008 R2. Windows Server 2012

INDEX. Netzwerk Überblick. Benötigte Komponenten für: Windows Server 2008. Windows Server 2008 R2. Windows Server 2012 INDEX Netzwerk Überblick Benötigte Komponenten für: Windows Server 2008 Windows Server 2008 R2 Windows Server 2012 Windows SQL Server 2008 (32 Bit & 64 Bit) Windows SQL Server 2012 Client Voraussetzungen

Mehr

Data Mining in der Landwirtschaft

Data Mining in der Landwirtschaft Vortrag zum Doktorandentag 02. Februar 2010 Gliederung Motivation Grundidee field uniform treatment small scale precision treatment Abbildung: Präzisionslandwirtschaft = datengetriebene Herangehensweise

Mehr

Systemvoraussetzungen

Systemvoraussetzungen Systemvoraussetzungen INDEX Netzwerk Überblick Benötigte n für: Windows Server 2008 Windows Server 2008 R2 Windows Server 2012 Windows SQL Server 2008 (32 Bit & 64 Bit) Windows SQL Server 2012 Client Voraussetzungen

Mehr

Analysesoftware für Soziale Netzwerke

Analysesoftware für Soziale Netzwerke KIT Karlsruhe Institut of Technology Praxis der Software-Entwicklung WS 2009/10 Gruppe 7»Testdokument«v 1.0 Analysesoftware für Soziale Netzwerke 26.02.2010 Phase Phasenverantwortlich e-mail Pflichtenheft

Mehr

Systemanforderungen Verlage & Akzidenzdruck

Systemanforderungen Verlage & Akzidenzdruck OneVision Software AG Inhalt Asura 9.6, Asura Pro 9.6, Garda 5.6...2 PlugBALANCEin 6.6, PlugCROPin 6.6, PlugFITin 6.6, PlugRECOMPOSEin 6.6, PlugSPOTin 6.6,...2 PlugTEXTin 6.6, PlugINKSAVEin 6.6, PlugWEBin

Mehr

Kostenmaße. F3 03/04 p.188/395

Kostenmaße. F3 03/04 p.188/395 Kostenmaße Bei der TM nur ein Kostenmaß: Ein Schritt (Konfigurationsübergang) kostet eine Zeiteinheit; eine Bandzelle kostet eine Platzeinheit. Bei der RAM zwei Kostenmaße: uniformes Kostenmaß: (wie oben);

Mehr

Übungsaufgaben mit Lösungsvorschlägen

Übungsaufgaben mit Lösungsvorschlägen Otto-Friedrich-Universität Bamberg Lehrstuhl für Medieninformatik Prof. Dr. Andreas Henrich Dipl. Wirtsch.Inf. Daniel Blank Einführung in das Information Retrieval, 8. Mai 2008 Veranstaltung für die Berufsakademie

Mehr

Data Mining - Clustering. Sven Elvers

Data Mining - Clustering. Sven Elvers Agenda Data Mining Clustering Aktuelle Arbeiten Thesis Outline 2 Agenda Data Mining Clustering Aktuelle Arbeiten Thesis Outline 3 Data Mining Entdecken versteckter Informationen, Muster und Zusammenhänge

Mehr

Maschinelles Lernen Entscheidungsbäume

Maschinelles Lernen Entscheidungsbäume Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen Entscheidungsbäume Paul Prasse Entscheidungsbäume Eine von vielen Anwendungen: Kreditrisiken Kredit - Sicherheiten

Mehr

Abschnitt: Algorithmendesign und Laufzeitanalyse

Abschnitt: Algorithmendesign und Laufzeitanalyse Abschnitt: Algorithmendesign und Laufzeitanalyse Definition Divide-and-Conquer Paradigma Divide-and-Conquer Algorithmen verwenden die Strategien 1 Divide: Teile das Problem rekursiv in Subproblem gleicher

Mehr

Exploration und Klassifikation von BigData

Exploration und Klassifikation von BigData Exploration und Klassifikation von BigData Inhalt Einführung Daten Data Mining: Vorbereitungen Clustering Konvexe Hülle Fragen Google: Riesige Datenmengen (2009: Prozessieren von 24 Petabytes pro Tag)

Mehr

MapReduce und Datenbanken Thema 15: Strom bzw. Onlineverarbeitung mit MapReduce

MapReduce und Datenbanken Thema 15: Strom bzw. Onlineverarbeitung mit MapReduce MapReduce Jan Kristof Nidzwetzki MapReduce 1 / 17 Übersicht 1 Begriffe 2 Verschiedene Arbeiten 3 Ziele 4 DEDUCE: at the intersection of MapReduce and stream processing Beispiel 5 Beyond online aggregation:

Mehr

Wissensrepräsentation

Wissensrepräsentation Wissensrepräsentation Vorlesung Sommersemester 2008 9. Sitzung Dozent Nino Simunic M.A. Computerlinguistik, Campus DU Statistische Verfahren der KI (II) Klassifizieren von Dokumenten Informationsbeschaffung

Mehr

Anleitung für Autoren

Anleitung für Autoren Verwaltung.modern@Kehl Anleitung für Autoren Im folgenden Text werden Sie/wirst du geduzt. Bitte Sehen Sie/sieh uns diese Vereinfachung nach. Wenn du bei Verwaltung.modern@Kehl mitbloggen willst, legen

Mehr

Computerlinguistik im Service Management eine neue Suche für TOPdesk

Computerlinguistik im Service Management eine neue Suche für TOPdesk Computerlinguistik im Service Management eine neue Suche für TOPdesk Anna Hunecke Diplom Computerlinguistin TOPdesk A.Hunecke@topdesk.com Inhalt TOPdesk Suchen in TOPdesk Lucene Lucene in TOPdesk TOPdesk

Mehr

1. Einfach verkettete Liste unsortiert 2. Einfach verkettete Liste sortiert 3. Doppelt verkettete Liste sortiert

1. Einfach verkettete Liste unsortiert 2. Einfach verkettete Liste sortiert 3. Doppelt verkettete Liste sortiert Inhalt Einführung 1. Arrays 1. Array unsortiert 2. Array sortiert 3. Heap 2. Listen 1. Einfach verkettete Liste unsortiert 2. Einfach verkettete Liste sortiert 3. Doppelt verkettete Liste sortiert 3. Bäume

Mehr

Information Retrieval in XML- Dokumenten

Information Retrieval in XML- Dokumenten Inhalt Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund fuhr@cs.uni-dortmund.de I. Einführung II. III. IV. IR-Konzepte für XML XIRQL HyREX-Retrievalengine V. Zusammenfassung und

Mehr

Ausarbeitung Seminarvortrag High-Performance-Computing WS 2011/2012

Ausarbeitung Seminarvortrag High-Performance-Computing WS 2011/2012 Ausarbeitung Seminarvortrag High-Performance-Computing WS 2011/2012 Matthias Bott 9. Januar 2012 2 VOM PC ZUM HPC 2 1 Movtivation Auf die Frage, wofür Computer in der Kernphysik benötigt werden, gibt es

Mehr

Textmining Klassifikation von Texten Teil 1: Naive Bayes

Textmining Klassifikation von Texten Teil 1: Naive Bayes Textmining Klassifikation von Texten Teil 1: Naive Bayes Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten 1: Naive

Mehr

Performance Report OXID eshop 5.0 Enterprise Edition

Performance Report OXID eshop 5.0 Enterprise Edition Performance Report OXID eshop 5.0 Enterprise Edition supported by SysEleven September 2013 OXID esales AG www.oxid-esales.com info@oxid-esales.com 1/14 Copyright Kontakt OXID esales AG www.oxid-esales.com

Mehr

Neue Ansätze der Softwarequalitätssicherung

Neue Ansätze der Softwarequalitätssicherung Neue Ansätze der Softwarequalitätssicherung Googles MapReduce-Framework für verteilte Berechnungen am Beispiel von Apache Hadoop Universität Paderborn Fakultät für Elektrotechnik, Informatik und Mathematik

Mehr

Die beste Infrastruktur ist nur so schnell, wie der Code der darauf läuft. Fallbeispiel Wettervorhersage

Die beste Infrastruktur ist nur so schnell, wie der Code der darauf läuft. Fallbeispiel Wettervorhersage Die beste Infrastruktur ist nur so schnell, wie der Code der darauf läuft Fallbeispiel Wettervorhersage VPE Swiss Workshop, HSR 24. Januar 2013 David Müller, Tobias Gysi Vision trifft Realität. Supercomputing

Mehr

Systemanforderungen Verlage & Akzidenzdruck

Systemanforderungen Verlage & Akzidenzdruck OneVision Software AG Inhalt Asura 10, Asura Pro 10, Garda 10...2 PlugBALANCEin 10, PlugCROPin 10, PlugFITin 10, PlugRECOMPOSEin10, PlugSPOTin 10,...2 PlugTEXTin 10, PlugINKSAVEin 10, PlugWEBin 10...2

Mehr

Künstliche Intelligenz Dirk Krechel SS 2009

Künstliche Intelligenz Dirk Krechel SS 2009 Künstliche Intelligenz Dirk Krechel SS 2009 Überblick über das Modul 1. Einführung 2. Symbolische Verfahren Logik Aussagenlogik Prädikatenlogik Horn Logik Prolog 3. Suchen und Bewerten Problemlösen durch

Mehr

Systemanforderungen Verlage & Akzidenzdruck

Systemanforderungen Verlage & Akzidenzdruck OneVision Software AG Inhalt Asura 9.5, Asura Pro 9.5, Garda 5.0...2 PlugBALANCEin 6.5, PlugCROPin 6.5, PlugFITin 6.5, PlugRECOMPOSEin 6.5, PlugSPOTin 6.5,...2 PlugTEXTin 6.5, PlugINKSAVEin 6.5, PlugWEBin

Mehr

Informatik-Sommercamp 2012. Mastermind mit dem Android SDK

Informatik-Sommercamp 2012. Mastermind mit dem Android SDK Mastermind mit dem Android SDK Übersicht Einführungen Mastermind und Strategien (Stefan) Eclipse und das ADT Plugin (Jan) GUI-Programmierung (Dominik) Mastermind und Strategien - Übersicht Mastermind Spielregeln

Mehr

Suchmaschinen Grundlagen. Thomas Grabowski

Suchmaschinen Grundlagen. Thomas Grabowski Suchmaschinen Grundlagen Thomas Grabowski 1 / 45 Überblick 1. Einleitung 2. Suchmaschinen Architektur 3. Crawling-Prozess 4. Storage 5. Indexing 6. Ranking 2 / 45 1. Einleitung Der Webgraph unterliegt

Mehr

Fragestellung: Wie viele CPU Kerne sollte eine VM unter Virtualbox zugewiesen bekommen?

Fragestellung: Wie viele CPU Kerne sollte eine VM unter Virtualbox zugewiesen bekommen? Fragestellung: Wie viele CPU Kerne sollte eine VM unter Virtualbox zugewiesen bekommen? Umgebung Getestet wurde auf einem Linux-System mit voller invis-server Installation, auf dem eine virtuelle Maschine

Mehr

Die Vision Landschaft und was sie mit Moore s Gesetz zu tun hat

Die Vision Landschaft und was sie mit Moore s Gesetz zu tun hat Die Vision Landschaft und was sie mit Moore s Gesetz zu tun hat Horst A. Mattfeldt Produkt Manager Matrix Vision GmbH V1.0 10/2010 MATRIX VISION GmbH 1 Inhalt/Content: Vom Vision Sensor über Atom Boxen

Mehr

Linux Cluster in Theorie und Praxis

Linux Cluster in Theorie und Praxis Foliensatz Center for Information Services and High Performance Computing (ZIH) Linux Cluster in Theorie und Praxis Monitoring 30. November 2009 Verfügbarkeit der Folien Vorlesungswebseite: http://tu-dresden.de/die_tu_dresden/zentrale_einrichtungen/

Mehr

Performance. is rarely an accident. Martin Klier Lead / Senior Database Administrator. TGW Software Services GmbH Lindenweg 13 92552 Teunz

Performance. is rarely an accident. Martin Klier Lead / Senior Database Administrator. TGW Software Services GmbH Lindenweg 13 92552 Teunz Performance is rarely an accident Martin Klier Lead / Senior Database Administrator TGW Software Services GmbH Lindenweg 13 92552 Teunz Martin Klier Senior Database Administrator TGW Logistics Group /

Mehr

Transparente Nutzung von Multi-GPU Cluster unter Java/OpenMP

Transparente Nutzung von Multi-GPU Cluster unter Java/OpenMP Transparente Nutzung von Multi-GPU Cluster unter Java/OpenMP Dipl. Inf. Thorsten Blaß Programming Systems Group Martensstraße 3 91058 Erlangen Ausblick Motivation Einführung Java/OpenMP (JaMP) JaMP Sprache

Mehr

Fortgeschrittene Computerintensive Methoden: Text Mining Steffen Unkel Manuel Eugster, Bettina Grün, Friedrich Leisch, Matthias Schmid

Fortgeschrittene Computerintensive Methoden: Text Mining Steffen Unkel Manuel Eugster, Bettina Grün, Friedrich Leisch, Matthias Schmid Fortgeschrittene Computerintensive Methoden: Text Mining Steffen Unkel Manuel Eugster, Bettina Grün, Friedrich Leisch, Matthias Schmid Institut für Statistik LMU München Sommersemester 2013 Text Mining

Mehr

Projekt für Systemprogrammierung WS 06/07

Projekt für Systemprogrammierung WS 06/07 Dienstag 30.01.2007 Projekt für Systemprogrammierung WS 06/07 Von: Hassan Bellamin E-Mail: h_bellamin@web.de Gliederung: 1. Geschichte und Definition 2. Was ist Virtualisierung? 3. Welche Virtualisierungssoftware

Mehr

Felix Großkreuz Philipps-Universität Marburg Fachbereich 12 Seminar IT-Administration SS2011

Felix Großkreuz Philipps-Universität Marburg Fachbereich 12 Seminar IT-Administration SS2011 Felix Großkreuz Philipps-Universität Marburg Fachbereich 12 Seminar IT-Administration SS2011 Griff in die Geschichte Erste Festplatte, SLED, ab 1988 RAID-Level 0, 1 5, 6 Kombinationen Einrichten von RAID

Mehr

Gliederung. Was ist Cloud Computing Charakteristiken Virtualisierung Cloud Service Modelle Sicherheit Amazon EC2 OnLive Vorteile und Kritik

Gliederung. Was ist Cloud Computing Charakteristiken Virtualisierung Cloud Service Modelle Sicherheit Amazon EC2 OnLive Vorteile und Kritik Cloud Computing Gliederung Was ist Cloud Computing Charakteristiken Virtualisierung Cloud Service Modelle Sicherheit Amazon EC2 OnLive Vorteile und Kritik 2 Bisher Programme und Daten sind lokal beim Anwender

Mehr

Proseminar - Data Mining

Proseminar - Data Mining Proseminar - Data Mining SCCS, Fakultät für Informatik Technische Universität München SS 2012, SS 2012 1 Data Mining Pipeline Planung Aufbereitung Modellbildung Auswertung Wir wollen nützliches Wissen

Mehr

Session Storage im Zend Server Cluster Manager

Session Storage im Zend Server Cluster Manager Session Storage im Zend Server Cluster Manager Jan Burkl System Engineer, Zend Technologies Agenda Einführung in Zend Server und ZSCM Überblick über PHP Sessions Zend Session Clustering Session Hochverfügbarkeit

Mehr

Vorlesung Maschinelles Lernen

Vorlesung Maschinelles Lernen Gliederung Vorlesung Maschinelles Lernen SVM Textkategorisierung 1 Web Mining Information Retrieval Katharina Morik, Claus Weihs 24.5.2011 2 Textklassifikation 3 Verwendung des Modells zur Textklassifikation

Mehr

Performance Zertifizierung

Performance Zertifizierung Performance Zertifizierung Alois Schmid alois.schmid@itf-edv.de www.itf-edv.de Copyright 2012 ITF-EDV Fröschl GmbH Inhalt Firma.... Kapitel 1 Gründe für die Zertifizierung der Massendatentauglichkeit.....

Mehr

Cluster, Grid und Cloud High Performance Computing am GFZ

Cluster, Grid und Cloud High Performance Computing am GFZ Cluster, Grid und Cloud High Performance Computing am GFZ Jan Thaler - GFZ Potsdam GeoInformatik-Kolloquium 3.11.2010 Übersicht momentane Situation am GFZ Grid Computing Cloud Computing Anwendungsszenarien

Mehr

Überblick. 2 Bestandsaufnahme 2.1 Beispiele von verteilten Systemen 2.2 Anwendungsszenarien 2.3 Vorteile 2.4 Problembereiche

Überblick. 2 Bestandsaufnahme 2.1 Beispiele von verteilten Systemen 2.2 Anwendungsszenarien 2.3 Vorteile 2.4 Problembereiche Überblick 2 Bestandsaufnahme 2.1 Beispiele von verteilten Systemen 2.2 Anwendungsszenarien 2.3 Vorteile 2.4 Problembereiche c rk,wosch,jk VS (SS 2015) 2 Bestandsaufnahme 2 1 Prozessorfarm @Google c rk,wosch,jk

Mehr

Perzentile mit Hadoop ermitteln

Perzentile mit Hadoop ermitteln Perzentile mit Hadoop ermitteln Ausgangspunkt Ziel dieses Projektes war, einen Hadoop Job zu entwickeln, der mit Hilfe gegebener Parameter Simulationen durchführt und aus den Ergebnissen die Perzentile

Mehr

Prototypvortrag. Exploiting Cloud and Infrastructure as a Service (IaaS) Solutions for Online Game Service Provisioning. Projektseminar WS 2009/10

Prototypvortrag. Exploiting Cloud and Infrastructure as a Service (IaaS) Solutions for Online Game Service Provisioning. Projektseminar WS 2009/10 Prototypvortrag Exploiting Cloud and Infrastructure as a Service (IaaS) Solutions for Online Game Service Provisioning Projektseminar WS 2009/10 Eugen Fot, Sebastian Kenter, Michael Surmann AG Parallele

Mehr

owncloud an der Technischen Universität Berlin Fazit der ersten 6 Monate T.Hildmann tubit owncloud Hochschulworkshop 16.

owncloud an der Technischen Universität Berlin Fazit der ersten 6 Monate T.Hildmann tubit owncloud Hochschulworkshop 16. owncloud an der Technischen Universität Berlin Fazit der ersten 6 Monate T.Hildmann tubit owncloud Hochschulworkshop 16. August 2013 Agenda - Ausgangslage und Historie (Unser Weg zur owncloud.) - Architektur

Mehr

A) Durchsuchen von Datenbanken im Internet durch Endnote

A) Durchsuchen von Datenbanken im Internet durch Endnote EINLEITUNG/ANWEISUNGEN ZU DIESEM TEXT Wir werden die obere Liste (File/ Edit usw.) benutzen, obwohl die meisten Funktionen auch möglich mit rechtem Mausklick, mit Kombinationen der Tastatur oder mit den

Mehr

Vorlesung Suchmaschinen Semesterklausur Wintersemester 2013/14

Vorlesung Suchmaschinen Semesterklausur Wintersemester 2013/14 Universität Augsburg, Institut für Informatik Wintersemester 2013/14 Prof. Dr. W. Kießling 10. Oktober 2013 F. Wenzel, D. Köppl Suchmaschinen Vorlesung Suchmaschinen Semesterklausur Wintersemester 2013/14

Mehr

Webinfolab / CHEVAL: Evaluationslabor für Information Retrieval Systeme mit semantischen und visuellen Komponenten

Webinfolab / CHEVAL: Evaluationslabor für Information Retrieval Systeme mit semantischen und visuellen Komponenten Webinfolab / CHEVAL: Evaluationslabor für Information Retrieval Systeme mit semantischen und visuellen Komponenten Vortrag anlässlich der ODOK 2007 (20. September 2007, Graz) Joachim Pfister Schweizerisches

Mehr

Einführung in das Data Mining Clustering / Clusteranalyse

Einführung in das Data Mining Clustering / Clusteranalyse Einführung in das Data Mining Clustering / Clusteranalyse Sascha Szott Fachgebiet Informationssysteme HPI Potsdam 21. Mai 2008 Teil I Einführung Clustering / Clusteranalyse Ausgangspunkt: Menge O von Objekten

Mehr

Oracle 10g und SQL Server 2005 ein Vergleich. Thomas Wächtler 39221

Oracle 10g und SQL Server 2005 ein Vergleich. Thomas Wächtler 39221 Oracle 10g und SQL Server 2005 ein Vergleich Thomas Wächtler 39221 Inhalt 1. Einführung 2. Architektur SQL Server 2005 1. SQLOS 2. Relational Engine 3. Protocol Layer 3. Services 1. Replication 2. Reporting

Mehr

Installationsanleitung StarBoard Software 9.6

Installationsanleitung StarBoard Software 9.6 Installationsanleitung StarBoard Software 9.6 für Windows 7, 8 und 8.1 (32 oder 64 Bit Version) Ein Service von Als Team von BeInteractive freuen wir uns, Sie bei der Anwendung von unseren interaktiven

Mehr

Alinof Key s Benutzerhandbuch

Alinof Key s Benutzerhandbuch Alinof Key s Benutzerhandbuch Version 3.0 Copyright 2010-2014 by Alinof Software GmbH Page 1/ Vorwort... 3 Urheberechte... 3 Änderungen... 3 Systemvoraussetzungen für Mac... 3 Login... 4 Änderung des Passworts...

Mehr

Virtuelle Desktops. Virtuelle Desktops. an der TU Chemnitz. Andreas Heik. TU-Chemnitz, Universitätsrechenzentrum. 6.

Virtuelle Desktops. Virtuelle Desktops. an der TU Chemnitz. Andreas Heik. TU-Chemnitz, Universitätsrechenzentrum. 6. 1 / 8 an der TU Chemnitz Andreas Heik TU-Chemnitz, Universitätsrechenzentrum 6. März 2014 2 / 8 Umgebung Desktopsysteme öffentliche Ausbildungspools 371 Arbeitsplätze in 17 Pools an 3 Standorten Standard-PCs

Mehr

Code Quality. Steigerung der Codequalität mit Visual Studio & TFS

Code Quality. Steigerung der Codequalität mit Visual Studio & TFS Code Quality Steigerung der Codequalität mit Visual Studio & TFS Tobias Richling 30 Jahre Wohnhaft im Münsterland Softwareentwickler seit Amiga Basic Microsoftie Logisitksoftware Silverlight TFS Trainer,

Mehr

Data Mining - Wiederholung

Data Mining - Wiederholung Data Mining - Wiederholung Norbert Fuhr 9. Juni 2008 Problemstellungen Problemstellungen Daten vs. Information Def. Data Mining Arten von strukturellen Beschreibungen Regeln (Klassifikation, Assoziations-)

Mehr

SYN Grundlagen Algorithmen Anwendung FIN. Anomalieerkennung. UnFUG WS2011/2012. Alexander Passfall Hochschule Furtwangen

SYN Grundlagen Algorithmen Anwendung FIN. Anomalieerkennung. UnFUG WS2011/2012. Alexander Passfall <alex@passfall.de> Hochschule Furtwangen 1/23 UnFUG WS2011/2012 Alexander Passfall Hochschule Furtwangen 3. November 2011 2/23 Inhalt 1 Grundlagen Typen Funktionsweise 2 Algorithmen Outlier Detection Machine Learning 3 Anwendung

Mehr

Suchmaschinen-Optimierung für Webentwickler Grundlagen, Ranking optimieren, Tipps und Tricks

Suchmaschinen-Optimierung für Webentwickler Grundlagen, Ranking optimieren, Tipps und Tricks Sebastian Erlhofer Suchmaschinen-Optimierung für Webentwickler Grundlagen, Ranking optimieren, Tipps und Tricks Galileo Press Vorwort zur zweiten Auflage 13 Vorwort 15 1.1 Webkataloge 19 1.1.1 Auswahl

Mehr

Wissen aus unstrukturierten natürlichsprachlichen

Wissen aus unstrukturierten natürlichsprachlichen ZKI Tagung AK Supercomputing, 19.-20. Okt. 2015 Wissen aus unstrukturierten natürlichsprachlichen Daten Sprachtechnologie und Textanalytik in the large Udo Hahn Jena University Language & Information Engineering

Mehr

Daten am USB Stick mit TrueCrypt schützen

Daten am USB Stick mit TrueCrypt schützen Daten am USB Stick mit TrueCrypt schützen Das Programm installieren und einrichten ACHTUNG: In der nachfolgenden Anleitung wird der USB Stick immer mit USB-STICK (H:) angegeben! Diese Bezeichnung wurde

Mehr

Systemanforderungen ab Version 5.31

Systemanforderungen ab Version 5.31 Systemanforderungen ab Version 5.31 Auszug aus BüroWARE Erste Schritte Version 5.4 Generelle Anforderungen SoftENGINE BüroWARE SQL / Pervasive Das Programm kann sowohl auf 32 Bit- als auch auf 64 Bit-en

Mehr

Kommerzielle Softwareentwicklung mit Haskell

Kommerzielle Softwareentwicklung mit Haskell Kommerzielle Softwareentwicklung mit Haskell Ein Erfahrungsbericht Stefan Wehr factis research GmbH, Freiburg im Breisgau 7. Oktober 2011, Hal6 in Leipzig Viele Fragen Wer sind wir? Wer bin ich? Wie setzen

Mehr

Universität ulm. Seminar Data Mining. Seminararbeit über Text Mining. Matthias Stöckl

Universität ulm. Seminar Data Mining. Seminararbeit über Text Mining. Matthias Stöckl Universität ulm Seminar Data Mining Seminararbeit über Text Mining Matthias Stöckl 1 Inhaltsverzeichnis: 1. Einführung 2. Grundlagen 3. Erschließung des Dokumenteninhaltes 3.1. Schlüsselwortextraktion

Mehr

QCfetcher Handbuch. Version 1.0.0.10. Ein Zusatztool zum QuoteCompiler. Diese Software ist nur für private und nicht-kommerzielle Zwecke einzusetzen.

QCfetcher Handbuch. Version 1.0.0.10. Ein Zusatztool zum QuoteCompiler. Diese Software ist nur für private und nicht-kommerzielle Zwecke einzusetzen. Seite 1 QCfetcher Handbuch Ein Zusatztool zum QuoteCompiler Diese Software ist nur für private und nicht-kommerzielle Zwecke einzusetzen. Die neuesten Informationen gibt es auf der Webseite: http://finanzkasper.de/

Mehr

CHARON-AXP Alpha Hardwarevirtualisierung

CHARON-AXP Alpha Hardwarevirtualisierung Alpha virtualisierung Nutzung von Softwareinvestitionen auf neuer plattform Jörg Streit, Reinhard Galler Inhalt: Alpha überblick Wozu Alpha? Prinzip der Produkte Performance Cluster Support Zusammenfassung

Mehr

FileMaker Pro 11. Ausführen von FileMaker Pro 11 auf Terminaldiensten

FileMaker Pro 11. Ausführen von FileMaker Pro 11 auf Terminaldiensten FileMaker Pro 11 Ausführen von FileMaker Pro 11 auf Terminaldiensten 2007-2010 FileMaker, Inc. Alle Rechte vorbehalten. FileMaker, Inc. 5201 Patrick Henry Drive Santa Clara, California 95054, USA FileMaker

Mehr

Proseminar - Data Mining

Proseminar - Data Mining Proseminar - Data Mining SCCS, Fakultät für Informatik Technische Universität München SS 2014, SS 2014 1 Data Mining: Beispiele (1) Hausnummererkennung (Klassifikation) Source: http://arxiv.org/abs/1312.6082,

Mehr

Private Cloud mit Eucalyptus am SCC

Private Cloud mit Eucalyptus am SCC Private Cloud mit Eucalyptus am SCC Christian Baun 15. Dezember 2009 KIT The cooperation of Forschungszentrum Karlsruhe GmbH und Universität Karlsruhe (TH) http://www.kit.edu Cloud-Comuting = Grid-Computing?!

Mehr

Suchmaschinenoptimierung. für Typo 3

Suchmaschinenoptimierung. für Typo 3 Suchmaschinenoptimierung für Typo 3 Massnahmen für Suchmaschinenfreundlichkeit Real Url bzw. AliasPro Bearbeiten Seitentitel Keywordanpassung Sitemap Brotkrummen-Navigation Interne Verlinkung Externe Verlinkung

Mehr

Bioinformatik I (Einführung)

Bioinformatik I (Einführung) Kay Diederichs, Sommersemester 2015 Bioinformatik I (Einführung) Algorithmen Sequenzen Strukturen PDFs unter http://strucbio.biologie.unikonstanz.de/~dikay/bioinformatik/ Klausur: Fr 17.7. 10:00-11:00

Mehr

VMware. Rainer Sennwitz.

VMware. Rainer Sennwitz. <Rainer.Sennwitz@andariel.informatik.uni-erlangen.de> VMware Rainer Sennwitz Lehrstuhl für Informatik IV Friedrich-Alexander-Universität Erlangen-Nürnberg 4. Juli 2007 Rainer Sennwitz VMware Inhalt Inhalt

Mehr

EXASOL @ Symposium on Scalable Analytics. www.exasol.com. Skalierbare Analysen mit EXASolution

EXASOL @ Symposium on Scalable Analytics. www.exasol.com. Skalierbare Analysen mit EXASolution EXASOL @ Symposium on Scalable Analytics Skalierbare Analysen mit EXASolution EXASOL AG Wer sind wir R&D: + seit 2000 + laufend Forschungsprojekte Produkt: Analytische Datenbank EXASolution Focus auf Komplexität

Mehr

An Introduction to Monetary Theory. Rudolf Peto

An Introduction to Monetary Theory. Rudolf Peto An Introduction to Monetary Theory Rudolf Peto 0 Copyright 2013 by Prof. Rudolf Peto, Bielefeld (Germany), www.peto-online.net 1 2 Preface This book is mainly a translation of the theoretical part of my

Mehr

Phishingerkennung mittels visuellem Ähnlichkeitsvergleich. Felix Hill Ruhr-Universität Bochum felix.hill@rub.de

Phishingerkennung mittels visuellem Ähnlichkeitsvergleich. Felix Hill Ruhr-Universität Bochum felix.hill@rub.de Phishingerkennung mittels visuellem Ähnlichkeitsvergleich Felix Hill Ruhr-Universität Bochum felix.hill@rub.de 1 ÜBERSICHT Entwicklung im Bereich Phishing Ansatz Bilderkennung Evaluation G DATA EINFACH

Mehr

TYPO3 Commerce Extension

TYPO3 Commerce Extension TYPO3 Commerce Extension Einsatzmöglichkeiten am Beispiel von www.hai-end.com Thanks2Developers Ingo Schmitt Volker Graubaum Thomas Hempel (team@typo3-commerce.org) 14.03.08 TYPO3 Commerce 2 Versionsstand

Mehr