Stream Mining: Clustering von Streamdaten
|
|
- Clemens Kohler
- vor 6 Jahren
- Abrufe
Transkript
1 Mining: von daten Betreuer: Prof. Dr. Klemens Böhm Imperfektion und erweiterte Konzepte im Data Warehousing Seminar im Sommersemester Mining: von daten- 1
2 Mining Gold Mining Alaska, USA; um 1900 [12] Mining: von daten- 2
3 Mining Datenstrom Zusammenhänge in Daten Gold Mining Alaska, USA; um 1900 [12] Mining: von daten- 2
4 Anwendungsbeispiel: Network Intrusion Detection source destination duration bytes 20K 99K 37K protocol http ssh http Mining: von daten- 3
5 Anwendungsbeispiel: Network Intrusion Detection source duration DOS destination duration bytes 20K 99K 37K protocol http ssh http Buffer Overflow Normal bytes Mining: von daten- 3
6 Übersicht Eigenschaften von daten Allg. Lösungsansätze für Datenstruktur Mikroclustering Pyramidal Time Frame Makroclustering Zusammenfassung Mining: von daten- 4
7 Übersicht Eigenschaften von daten Allg. Lösungsansätze für Datenstruktur Mikroclustering Pyramidal Time Frame Makroclustering Zusammenfassung Mining: von daten- 5
8 Gruppen in statischen Daten finden y x Mining: von daten- 6
9 Gruppen in statischen Daten finden y x Datenpunkt Mining: von daten- 6
10 Gruppen in statischen Daten finden y x Datenpunkt Dimension Mining: von daten- 6
11 Gruppen in statischen Daten finden y x Datenpunkt Dimension Abstand Mining: von daten- 6
12 Gruppen in statischen Daten finden y x Datenpunkt Dimension Abstand Cluster Mining: von daten- 6
13 Übersicht Eigenschaften von daten Allg. Lösungsansätze für Datenstruktur Mikroclustering Pyramidal Time Frame Makroclustering Zusammenfassung Mining: von daten- 7
14 Gruppen in dynamischen Daten finden Aktuelles zu jedem Zeitpunkt Analyse der historischen Cluster y x Mining: von daten- 8
15 Gruppen in dynamischen Daten finden Aktuelles zu jedem Zeitpunkt Analyse der historischen Cluster y x Mining: von daten- 8
16 Gruppen in dynamischen Daten finden Aktuelles zu jedem Zeitpunkt Analyse der historischen Cluster y x Mining: von daten- 8
17 Gruppen in dynamischen Daten finden Aktuelles zu jedem Zeitpunkt Analyse der historischen Cluster y x Mining: von daten- 8
18 Eigenschaften von daten Zeitliche Komponente Aktuelle Daten Historische Daten Kontinuität Große Datenmengen Hohe Datenraten Eingschränkte Zugriffsmöglichkeit Mining: von daten- 9
19 Eigenschaften von daten Zeitliche Komponente Aktuelle Daten Historische Daten Kontinuität Große Datenmengen Hohe Datenraten y x neu mittel alt Eingschränkte Zugriffsmöglichkeit Mining: von daten- 9
20 Eigenschaften von daten Zeitliche Komponente Aktuelle Daten Historische Daten Kontinuität Große Datenmengen Hohe Datenraten y x neu mittel alt t Eingschränkte Zugriffsmöglichkeit Mining: von daten- 9
21 Eigenschaften von daten Zeitliche Komponente Aktuelle Daten Historische Daten Kontinuität Große Datenmengen Hohe Datenraten y x neu mittel alt t Eingschränkte Zugriffsmöglichkeit Mining: von daten- 9
22 Allgemeine Lösungsansätze Aktuelle Cluster Einfache Operationen Konstanter Speicher: Alte Daten verdrängen Historische Cluster Verlangsamen des Wachstums: Alte Daten eliminieren Approximation eliminierter Daten Mining: von daten- 10
23 Übersicht Eigenschaften von daten Allg. Lösungsansätze für Datenstruktur Mikroclustering Pyramidal Time Frame Makroclustering Zusammenfassung Mining: von daten- 11
24 Architektur eines Systems Mikroclustering Snapshots Online Mining: von daten- 12
25 Architektur eines Systems Mikroclustering Snapshots Online Makroclustering Offline Ergebnis Mining: von daten- 12
26 Architektur eines Systems Mikroclustering Snapshots Online Makroclustering Offline Ergebnis Mining: von daten- 12
27 Mikrocluster Datenstruktur Repräsentiert ein Cluster Fasst Daten über kurze Zeitperiode zusammen Anzahl der Mikrocluster konstant ID Mikrocluster n x i : Datenpunkt n: # Datenpunkte d: Dimension Eigenschaft: Additivität und Subtraktivität Erlaubt inkrementelle Updates Mining: von daten- 13
28 Mikrocluster Datenstruktur Repräsentiert ein Cluster Fasst Daten über kurze Zeitperiode zusammen Anzahl der Mikrocluster konstant ID Mikrocluster n x i : Datenpunkt n: # Datenpunkte d: Dimension Eigenschaft: Additivität und Subtraktivität Erlaubt inkrementelle Updates Mining: von daten- 13
29 Projected y x xx x x x x x x xx x x x xx x Betrachte für jedes Cluster nur eine Teilmenge der Dimensionen 2 Aufgaben: Finden geeignete Dimensionen D Finden von Cluster auf D x z xx xxx xx xx x xx xx x Mining: von daten- 14
30 Mikroclustering (1) y 1. Bestimme Dimensionen für jedes Cluster 2. Finde nächstes Cluster 3. Hinzufügen oder neues Cluster x Mining: von daten- 15
31 Mikroclustering (1) y 1. Bestimme Dimensionen für jedes Cluster 2. Finde nächstes Cluster 3. Hinzufügen oder neues Cluster x Mining: von daten- 15
32 Mikroclustering (1) y 1. Bestimme Dimensionen für jedes Cluster 2. Finde nächstes Cluster 3. Hinzufügen oder neues Cluster x Mining: von daten- 15
33 Mikroclustering (1) y 1. Bestimme Dimensionen für jedes Cluster 2. Finde nächstes Cluster 3. Hinzufügen oder neues Cluster x Mining: von daten- 15
34 Mikroclustering (1) y 1. Bestimme Dimensionen für jedes Cluster 2. Finde nächstes Cluster 3. Hinzufügen oder neues Cluster x Mining: von daten- 15
35 Mikroclustering (1) y x C1 C2 C3 x y Bestimme Dimensionen für jedes Cluster 2. Finde nächstes Cluster 3. Hinzufügen oder neues Cluster Mining: von daten- 15
36 Mikroclustering (2) y Manhattan Segmental Distance  d (x d - m d ) msd = #d 1. Bestimme Dimensionen für jedes Cluster 2. Finde nächstes Cluster 3. Hinzufügen oder neues Cluster x Mining: von daten- 16
37 Mikroclustering (2) Manhattan Segmental Distance y msd = Â d (x d - m d ) #d x C1 C2 C3 x y msd 3,5 1, Bestimme Dimensionen für jedes Cluster 2. Finde nächstes Cluster 3. Hinzufügen oder neues Cluster Mining: von daten- 16
38 Mikroclustering (2) Manhattan Segmental Distance y  d ) d (x d - m msd = #d x C1 C2 C3 x y msd 3,5 1, Bestimme Dimensionen für jedes Cluster 2. Finde nächstes Cluster 3. Hinzufügen oder neues Cluster Mining: von daten- 16
39 Mikroclustering (2) Manhattan Segmental Distance y msd = Â d (x d - m d ) #d x C1 C2 C3 x y msd 3,5 1, Bestimme Dimensionen für jedes Cluster 2. Finde nächstes Cluster 3. Hinzufügen oder neues Cluster Mining: von daten- 16
40 Mikroclustering (2) Manhattan Segmental Distance y msd = Â d (x d - m d ) #d x C1 C2 C3 x y msd 3,5 1, Bestimme Dimensionen für jedes Cluster 2. Finde nächstes Cluster 3. Hinzufügen oder neues Cluster Mining: von daten- 16
41 Mikroclustering (3) y 1. Bestimme Dimensionen für jedes Cluster 2. Finde nächstes Cluster 3. Hinzufügen oder neues Cluster 3 natural limiting radius: Verwende Daten aus Mikrocluster x Mining: von daten- 17
42 Mikroclustering (3) y Bestimme Dimensionen für jedes Cluster 2. Finde nächstes Cluster 3. Hinzufügen oder neues Cluster natural limiting radius: Verwende Daten aus Mikrocluster x Mining: von daten- 17
43 Mikroclustering (3) y 1. Bestimme Dimensionen für jedes Cluster 2. Finde nächstes Cluster 3. Hinzufügen oder neues Cluster x Mining: von daten- 18
44 Architektur eines Systems Mikroclustering Snapshots Online Makroclustering Offline Ergebnis Mining: von daten- 19
45 Speichern der Snapshots Momentaner Zustand aller Mikrocluster Periodisch alte Snapshots filtern Unterschiedliche zeitliche Auflösungen Zeitliche Auflösung abhängig von Neuigkeit bestimmt die Granularität Umgesetzt in Pyramidal Time Frame Mining: von daten- 20
46 Pyramidal Time Frame Mining: von daten- 21
47 Pyramidal Time Frame Mining: von daten- 21
48 Pyramidal Time Frame Mining: von daten- 21
49 Pyramidal Time Frame Anzahl Daten O(log(t)) Mining: von daten- 21
50 Architektur eines Systems Mikroclustering Snapshots Online Makroclustering Offline Ergebnis Mining: von daten- 22
51 Makroclustering Anzahl A der Cluster Zeithorizont H Makroclustering Snapshots 1. Erstelle Menge der Mikrocluster über Zeithorizont H 2. Berechne A Cluster aus Mikroclustern mit herkömmlichem Ergebnis Mining: von daten- 23
52 Übersicht Eigenschaften von daten Allg. Lösungsansätze für Datenstruktur Mikroclustering Pyramidal Time Frame Makroclustering Zusammenfassung Mining: von daten- 24
53 Zusammenfassung Finden von Zusammenhängen in schnellen Datenströmen Veraltete Daten identifizieren und vergessen Datenstruktur: Inkrementelle Updates : Zerlegung in Online-/Offline-Komponenten Umgang mit hochdimensionalen Daten Mining: von daten- 25
54 Literatur (1) [1] C. Aggarwal. An intuitive framework for understanding changes in evolving datastreams, [2] Charu C. Aggarwal. A framework for diagnosing changes in evolving data streams. In ACM SIGMOD [3] Charu C. Aggarwal, Jiawei Han, Jianyong Wang, and Philip S. Yu. A framework for clustering evolving data streams. In VLDB [4] Charu C. Aggarwal, Jiawei Han, Jianyong Wang, and Philip S. Yu. A framework for projected clustering of high dimensional data streams. In VLDB [5] P. Domingos and G. Hulten. Mining high-speed data streams. In Knowledge Discovery and Data Mining, pages 71 80, [6] John A. Hartigan. Algorithms. Wiley, New York, [7] Anil K. Jain and Richard C. Dubes. Algorithms for Data. Prentice Hall,1988. Mining: von daten- 26
55 Literatur (1) [1] C. Aggarwal. An intuitive framework for understanding changes in evolving datastreams, [2] Charu C. Aggarwal. A framework for diagnosing changes in evolving data streams. In ACM SIGMOD [3] Charu C. Aggarwal, Jiawei Han, Jianyong Wang, and Philip S. Yu. A framework for clustering evolving data streams. In VLDB [4] Charu C. Aggarwal, Jiawei Han, Jianyong Wang, and Philip S. Yu. A framework for projected clustering of high dimensional data streams. In VLDB [5] P. Domingos and G. Hulten. Mining high-speed data streams. In Knowledge Discovery and Data Mining, pages 71 80, [6] John A. Hartigan. Algorithms. Wiley, New York, [7] Anil K. Jain and Richard C. Dubes. Algorithms for Data. Prentice Hall,1988. Mining: von daten- 26
56 Literatur (2) [8] L. Kaufman and P.J. Rousseeuw. Finding Groups in Data: An Introduction to Cluster Analysis. Wiley, New York, [9] Rainer Koschke and Thomas Eisenbarth. A framework for experimental evaluation of clustering techniques. In 8th International Workshop on Program Comprehension (IWPC2000), pages , Limerick, Irland, Juni [10] L. O Callaghan, N. Mishra, A. Meyerson, S. Guha, and R. Motwani. ingdata algorithms for high-quality clustering. In Proceedings of IEEE International Conference on Data Engineering, [11] Tian Zhang, Raghu Ramakrishnan, and Miron Livny. Birch: An efficient clustering method for very large databases. In ACM SIGMOD Workshop on Research Issues on Data Mining and Knowledge Discovery, pages , Montreal, Canada, [12] Alaska State Library [13] NYSE Statistical Data Mining: von daten- 27
57 Fragen Mining: von daten- 28
58 Zusatzfolien Mining: von daten- 29
59 Anwendungsbeispiel: Network Intrusion Detection source destination duration bytes 20K 99K 37K protocol http ssh http Mining: von daten- 30
60 Anwendungsbeispiel: Network Intrusion Detection source duration DOS destination duration bytes 20K 99K 37K protocol http ssh http Buffer Overflow Normal bytes Mining: von daten- 30
61 Anwendungsbeispiel: Analyse von Marktdaten Datum Gesellschaft Abweichung Delta Delta , 12: , 14: , 12:00 Lufthansa Royal Dutch BP #Trades +200 K +450 K +300 K Ölpreis Marktwert Mining: von daten- 31
62 Anwendungsbeispiel: Analyse von Marktdaten ur ring sg. Datum , 12: , 14: , 12:00 Delta Marktwert Gesellschaft Abweichung Delta #Trades Ölpreis Lufthansa +200 K +5 Royal Dutch +450 K +6 BP +300 K Delta Marktwert BP Delta Ölpreis Lufthansa Mining: von daten- 31
63 Anwendungen von Data Mining Mining: von daten- 32
64 Einsatz herkömmlicher Algorithmen? Zeitliche Komponente Gesamte Daten werden benötigt Dominanz historischer Daten Kontinuität Speicher- und Laufzeitkomplexität Zugriffsmöglichkeit Random Access benötigt Mining: von daten- 33
65 Einsatz herkömmlicher Algorithmen? Zeitliche Komponente Gesamte Daten werden benötigt Dominanz historischer Daten Kontinuität Speicher- und Laufzeitkomplexität Zugriffsmöglichkeit Random Access benötigt Mining: von daten- 33
66 Einsatz herkömmlicher Algorithmen? Zeitliche Komponente Gesamte Daten werden benötigt Dominanz historischer Daten Kontinuität Speicher- und Laufzeitkomplexität Zugriffsmöglichkeit Random Access benötigt 30 Mining: von daten- 33
67 Einsatz herkömmlicher Algorithmen? Zeitliche Komponente Gesamte Daten werden benötigt Dominanz historischer Daten Kontinuität Speicher- und Laufzeitkomplexität Zugriffsmöglichkeit Random Access benötigt 30 Mining: von daten- 33
68 Zerlegung des Mikroclustering (Online) Schnell, Für große Datenmengen Während Daten ankommen Erzeugt Zwischenergebnisse Makroclustering (Offline) Verarbeitet Nutzereingaben Nutzt Zwischenergebnisse Unabhängig von ankommenden Daten Zwischenergebnis: Menge von Mikroclusters Mining: von daten- 34
69 Mikroclustering # Microcluster Snapshot <= const Mining: von daten- 35
70 Hochdimensionale Daten Wie finden wir interessante Parameterkombinationen? Datum AG Lufthansa Royal Dutch BP Delta Marktwert Varianz #Trades +200 K +450 K +300 K Delta Ölpreis Delta Marktwert Cash 4.89 B 5.3 B 1.52 B #Insider Trades K 3 K #Short Orders M 5.43 M BP Delta Ölpreis Lufthansa Mining: von daten- 36
71 Zeitabhängige Granularität averaged support a b averaged support a b time now time now Mining: von daten- 37
72 Pyramidal Time Frame Momentaner Zeitpunkt: T Modellparameter: a Anzahl Ordnungen: o [0, log a (T) ] Ordnung o(t) := max i (i (t mod a i ) = 0) Daten der letzten a+1 Zeitpunkte pro Ordnung Anzahl Daten: log a (T) *(a+1) O(log(t)) Garantie für Approximierbarkeit Weitere Optimierungen der PTF möglich Mining: von daten- 38
73 Pyramidal Time Frame Momentaner Zeitpunkt: T Modellparameter: a Anzahl Ordnungen: o [0, log a (T) ] Ordnung o(t) := max i (i (t mod a i ) = 0) Daten der letzten a+1 Zeitpunkte pro Ordnung Anzahl Daten: log a (T) *(a+1) O(log(t)) Garantie für Approximierbarkeit Weitere Optimierungen der PTF möglich Mining: von daten- 38
74 Vergleich zu Birch Gemeinsamkeiten Cluster Feature = Mikrocluster zusätzlich Zeit (kann aber als zus. Dimension aufgefasst werden) Birch hat Elefantengedächtnis Ein Durchlauf genügt Unterschiede Evolution in Clu berücksichtigt (PTF) = Vergessen Online/Offline Trennung Snapshots Mining: von daten- 39
75 Bewertung von Algorithmen Qualität: verschiedene Maße Sum of square distances (SSQ) Mining: von daten- 40
76 Bewertung von Algorithmen Qualität: verschiedene Maße Sum of square distances (SSQ) c b a SSQ = a 2 +b 2 +c 2 Mining: von daten- 40
77 Bewertung von Algorithmen Effizienz Verarbeitbare Datenrate Mining: von daten- 41
78 System Mikroclustering Snapshots Mining: von daten- 42
79 System Mikroclustering Snapshots Makroclustering Ergebnis Mining: von daten- 42
80 System Mikroclustering Snapshots Makroclustering Ergebnis Mining: von daten- 42
81 Mikrocluster Datenstruktur Mikrocluster ID n x i : Datenpunkt n: # Datenpunkte d: Dimension Mining: von daten- 43
82 Mikrocluster Datenstruktur Mikrocluster ID n x i : Datenpunkt n: # Datenpunkte d: Dimension Mining: von daten- 43
Stream Clustering. Seminararbeit. Universität Karlsruhe (TH) Fakultät für Informatik Institut für Programmstrukturen und Datenorganisation (IPD)
Universität Karlsruhe (TH) Fakultät für Informatik Institut für Programmstrukturen und Datenorganisation (IPD) Hauptseminar Imperfektion und erweiterte Konzepte im Data Warehousing Stream Clustering Seminararbeit
MehrBig Data bei unstrukturierten Daten. AW1 Vortrag Sebastian Krome
Big Data bei unstrukturierten Daten AW1 Vortrag Sebastian Krome Agenda Wiederholung Aspekte von Big Data Datenverarbeitungsprozess TextMining Aktuelle Paper Identification of Live News Events Using Twitter
MehrMining High-Speed Data Streams
Mining High-Speed Data Streams Pedro Domingos & Geoff Hulten Departement of Computer Science & Engineering University of Washington Datum : 212006 Seminar: Maschinelles Lernen und symbolische Ansätze Vortragender:
MehrKapitel 7: Data Mining in großen Datensammlungen
Ludwig Maximilians Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases II im Wintersemester 2013/2014 Kapitel
MehrSeminar Komplexe Objekte in Datenbanken
Seminar Komplexe Objekte in Datenbanken OPTICS: Ordering Points To Identify the Clustering Structure Lehrstuhl für Informatik IX - Univ.-Prof. Dr. Thomas Seidl, RWTH-Aachen http://www-i9.informatik.rwth-aachen.de
MehrData Mining in der Cloud
Data Mining in der Cloud von Jan-Christoph Meier Hamburg, 21.06.2012 1 Ablauf Einführung Verwandte Arbeiten Fazit / Ausblick Literatur 2 Ablauf Einführung Verwandte Arbeiten Fazit / Ausblick Literatur
MehrVisualisierung hochdimensionaler Daten. Hauptseminar SS11 Michael Kircher
Hauptseminar SS11 Inhalt Einführung zu hochdimensionalen Daten Visualisierungsmöglichkeiten dimensionale Teilmengen dimensionale Schachtelung Achsenumgestaltung Algorithmen zur Dimensionsreduktion Zusammenfassung
MehrSeminar: Advanced Topics in Databases Präsentation der Themen
Seminar: Advanced Topics in Databases Präsentation der Themen Felix Naumann Alexander Albrecht Jens Bleiholder Hasso-Plattner-Institut für Softwaresystemtechnik GmbH FB Informationssysteme Prof.-Dr.-Helmert-Str.
MehrModerne Clusteralgorithmen eine vergleichende Analyse auf zweidimensionalen Daten
Moderne Clusteralgorithmen eine vergleichende Analyse auf zweidimensionalen Daten Marcus Josiger, Kathrin Kirchner Friedrich Schiller Universität Jena 07743 Jena m.josiger@gmx.de, k.kirchner@wiwi.uni-jena.de
MehrAlgorithms for Pattern Mining AprioriTID. Stefan George, Felix Leupold
Algorithms for Pattern Mining AprioriTID Stefan George, Felix Leupold Gliederung 2 Einleitung Support / Confidence Apriori ApriorTID Implementierung Performance Erweiterung Zusammenfassung Einleitung 3
MehrDetecting Near Duplicates for Web Crawling
Detecting Near Duplicates for Web Crawling Gurmeet Singh Manku et al., WWW 2007* * 16th international conference on World Wide Web Detecting Near Duplicates for Web Crawling Finde near duplicates in großen
MehrTCP/UDP. Transport Layer
TCP/UDP Transport Layer Lernziele 1. Wozu dient die Transportschicht? 2. Was passiert in der Transportschicht? 3. Was sind die wichtigsten Protkolle der Transportschicht? 4. Wofür wird TCP eingesetzt?
MehrKonsolidierung von Software-Varianten in Software-Produktlinien ein Forschungsprogramm
Konsolidierung von Software-Varianten in Software-Produktlinien ein Forschungsprogramm Rainer Koschke Universität Bremen Workshop Software-Reengineering Bad Honnef 5. Mai 2005 Bauhaus Forschungskooperation
MehrVektormodelle. Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig
Vektormodelle Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig Gliederung Vektormodelle Vector-Space-Model Suffix Tree Document Model
MehrSeminar über aktuelle Forschungsthemen in der Algorithmik, Dozent Prof. Dr. Alt;
Seminar über aktuelle Forschungsthemen in der Algorithmik, Dozent Prof. Dr. Alt Referent Matthias Rost 1 Einleitung Definitionen Maximaler Dynamischer Fluss Algorithmus von Ford-Fulkerson Techniken zur
MehrEntwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion
Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion Vortrag Seminararbeit David Pogorzelski Aachen, 22.01.2015 Agenda 1 2 3 4 5 Ziel der
MehrUsability Metrics. Related Work. Von Torsten Rauschan (torsten.rauschan@haw-hamburg.de) HAW Hamburg M-Inf2 Anwendungen 2 Betreuer: Prof. Dr.
Usability Metrics Related Work Von Torsten Rauschan (torsten.rauschan@haw-hamburg.de) HAW Hamburg M-Inf2 Anwendungen 2 Betreuer: Prof. Dr. Zukunft Agenda Rückblick AW1 Motivation Related work QUIM SUM
MehrData Mining im Einzelhandel Methoden und Werkzeuge
Fakultät Informatik Institut für Angewandte Informatik Professur Technische Informationssysteme Proseminar Technische Informationssysteme Data Mining im Einzelhandel Methoden und Werkzeuge Betreuer: Dipl.-Ing.
MehrBI für Testmanagementtools am Beispiel von QMetry
BI für Testmanagementtools am Beispiel von QMetry Daniel Geppert Seminar Seminar Business Intelligence und Data Mining www.verifysoft.com 16. Januar 2013 Übersicht 2 22 Einführung Warum Software Testen?
MehrText Mining. Joachim Schole. Fakultät Technik und Informatik Hochschule für angewandte Wissenschaften Hamburg. Grundseminar, WS 2014
Text Mining Joachim Schole Fakultät Technik und Informatik Hochschule für angewandte Wissenschaften Hamburg Grundseminar, WS 2014 Joachim Schole (HAW Hamburg) Text Mining Grundseminar, WS 2014 1 / 26 Agenda
MehrDeclarative Data Cleaning
Declarative Data Cleaning Vortragsgrundlage: Helena Galhardas, Daniela Florescu, Dennis Shasha, Eric Simon, Cristian Augustin Saita: Declarative Data Cleaning: Language, Model, and Algorithms, in VLDB
MehrDensity-Based Clustering in large Databases using Projections and Visualizations
Density-Based Clustering in large Databases using Projections and Visualizations Alexander Hinneburg Institut für Informatik Martin-Luther-Universität Halle-Wittenberg hinneburg@informatik.uni-halle.de
MehrLarge Scale Data Management
Large Scale Data Management Beirat für Informationsgesellschaft / GOING LOCAL Wien, 21. November 2011 Prof. Dr. Wolrad Rommel FTW Forschungszentrum Telekommunikation Wien rommel@ftw.at Gartner's 2011 Hype
MehrWEKA A Machine Learning Interface for Data Mining
WEKA A Machine Learning Interface for Data Mining Frank Eibe, Mark Hall, Geoffrey Holmes, Richard Kirkby, Bernhard Pfahringer, Ian H. Witten Reinhard Klaus Losse Künstliche Intelligenz II WS 2009/2010
MehrGenerierung von sozialen Netzwerken. Steffen Brauer WiSe 2011/12 HAW Hamburg
Generierung von sozialen Netzwerken Steffen Brauer WiSe 2011/12 HAW Hamburg Agenda Motivation Soziale Netzwerke Modelle Metriken Forschungsumfeld Ausblick 2 Motivation Wo gibt es Netzwerke? Computernetzwerke
MehrData Warehousing. Sommersemester 2005. Ulf Leser Wissensmanagement in der Bioinformatik
Data Warehousing Sommersemester 2005 Ulf Leser Wissensmanagement in der Bioinformatik ... Der typische Walmart Kaufagent verwendet täglich mächtige Data Mining Werkzeuge, um die Daten der 300 Terabyte
MehrMining top-k frequent itemsets from data streams
Seminar: Maschinelles Lernen Mining top-k frequent itemsets from data streams R.C.-W. Wong A.W.-C. Fu 1 Gliederung 1. Einleitung 2. Chernoff-basierter Algorithmus 3. top-k lossy counting Algorithmus 4.
MehrEvent-Aggregation in Frühwarnsystemen. Till Dörges. 2009 by PRESENSE Technologies GmbH
Event-Aggregation in Frühwarnsystemen Till Dörges Gliederung Motivation Definitionen Aggregationsverfahren Implementierung Ergebnisse / Ausblick Folie 2 / Event-Aggregation 18. März 2009 Hamburg Motivation
MehrEntfernung von Duplikaten in Data Warehouses
Entfernung von Duplikaten in Data Warehouses Daniel Martens 11.09.2015, Informationsintegration, Seminar 1/41 Gliederung Problem & Motivation Domänen-unabhängige Verfahren Domänen-abhängige Verfahren DELPHI
MehrPrüfungsplan Master of Science in Wirtschaftsinformatik
Prüfungsplan Master of Science in Wirtschaftsinformatik Modul Art Creditpunkte Schwerpunkt Very Large Business Applications Module aus dem Bereich Wirtschaftsinformatik SWS Empfohlenes Semester Prüfungsart
MehrGMDS-Tagung 2006 Bioinformatik 1. Assessing the stability of unsupervised learning results in small-sample-size problems
GMDS-Tagung 2006 Bioinformatik 1 Assessing the stability of unsupervised learning results in small-sample-size problems Ulrich Möller Email: Ulrich.Moeller@hki-jena.de Leibniz Institute for Natural Product
MehrData Warehousing. DWH Projekte. Ulf Leser Wissensmanagement in der Bioinformatik
Data Warehousing DWH Projekte Ulf Leser Wissensmanagement in der Bioinformatik Inhalt DWH Projekte Spezifika Die kritischen Punkte Warum scheitern DWH Projekte? Ulf Leser: Data Warehousing, Vorlesung,
MehrFachgruppe Statistik, Risikoanalyse & Computing. STAT672 Data Mining. Sommersemester 2007. Prof. Dr. R. D. Reiß
Fachgruppe Statistik, Risikoanalyse & Computing STAT672 Data Mining Sommersemester 2007 Prof. Dr. R. D. Reiß Überblick Data Mining Begrifflichkeit Unter Data Mining versteht man die Computergestützte Suche
MehrWissenschaftliches Arbeiten (184.690)
Wissenschaftliches Arbeiten (184.690) Literatursuche Reinhard Pichler und Stefan Woltran Institut für Informationssysteme Arbeitsbereich "Datenbanken und Artificial Intelligence" Sommersemester 2015 Wissenschaftliche
MehrHuston, Geoff: Internet Performance Survival Guide, QoS Strategies for Multiservice Networks, John Wiley & Sons, 2000, 550 Seiten, DM 98.
Proseminar Gunter Bolch Informatik 4 SS 2004 Literatur Huston, Geoff: Survival Guide, QoS Strategies for Multiservice Networks, John Wiley & Sons, 2000, 550 Seiten, DM 98. Armitage, Grenville: Quality
MehrAPI Monitoring mit Predictive Analytics
API Monitoring mit Predictive Analytics von Björn Baltbardis Björn Baltbardis, M-INF, HAW-Hamburg! Grundseminar, Betreuung durch Prof. Dr. Olaf Zukunft! 05.12.2014! Inhalt des Vortrags Einführung! Motivation!
MehrEinführung in Hauptspeicherdatenbanken
Einführung in Hauptspeicherdatenbanken Harald Zankl Probevorlesung 13. 01., 13:15 14:00, HS C Inhaltsverzeichnis Organisation Überblick Konklusion Harald Zankl (LFU) Hauptspeicherdatenbanken 2/16 Organisation
MehrDatenbanken und Informationssysteme. Datenbanken und Informationssysteme
Datenbanken und Informationssysteme Wolfgang Menzel: Natürlichsprachliche Systeme (NATS) Norbert Ritter: Datenbanken und Informationssysteme (IS) NATS Ziele der Vorlesung (1) Vermittlung von Grundlagen-
MehrDatenbanken und Informationssysteme
Datenbanken und Informationssysteme Wolfgang Menzel: Natürlichsprachliche Systeme (NATS) Norbert Ritter: Datenbanken und Informationssysteme (IS) NATS Ziele der Vorlesung (1) Vermittlung von Grundlagen-
MehrLars Priebe Senior Systemberater. ORACLE Deutschland GmbH
Lars Priebe Senior Systemberater ORACLE Deutschland GmbH Data Mining als Anwendung des Data Warehouse Konzepte und Beispiele Agenda Data Warehouse Konzept und Data Mining Data Mining Prozesse Anwendungs-Beispiele
MehrCustomer-specific software for autonomous driving and driver assistance (ADAS)
This press release is approved for publication. Press Release Chemnitz, February 6 th, 2014 Customer-specific software for autonomous driving and driver assistance (ADAS) With the new product line Baselabs
MehrEinführung in das Data Mining Clustering / Clusteranalyse
Einführung in das Data Mining Clustering / Clusteranalyse Sascha Szott Fachgebiet Informationssysteme HPI Potsdam 21. Mai 2008 Teil I Einführung Clustering / Clusteranalyse Ausgangspunkt: Menge O von Objekten
MehrVisual Analytics. Seminar. [Guo, 2006] [Wong, 2006] [Keim, 2006] [Proulx, 2006] [Chang, 2007] [Kosara, 2006]
Seminar Visual Analytics [Guo, 2006] [Keim, 2006] [Wong, 2006] [Proulx, 2006] [Chang, 2007] [Kosara, 2006] Visual Analytics - Definitions Visual analytics is the science of analytical reasoning facilitated
MehrKommerzielle Softwareentwicklung mit Haskell
Kommerzielle Softwareentwicklung mit Haskell Ein Erfahrungsbericht Stefan Wehr factis research GmbH, Freiburg im Breisgau 7. Oktober 2011, Hal6 in Leipzig Viele Fragen Wer sind wir? Wer bin ich? Wie setzen
MehrText-Mining: Einführung
Text-Mining: Einführung Claes Neuefeind Fabian Steeg 22. April 2010 Organisatorisches Was ist Text-Mining? Definitionen Anwendungsbeispiele Textuelle Daten Aufgaben u. Teilbereiche Literatur Kontakt Sprechstunde:
MehrOracle 10g und SQL Server 2005 ein Vergleich. Thomas Wächtler 39221
Oracle 10g und SQL Server 2005 ein Vergleich Thomas Wächtler 39221 Inhalt 1. Einführung 2. Architektur SQL Server 2005 1. SQLOS 2. Relational Engine 3. Protocol Layer 3. Services 1. Replication 2. Reporting
MehrHochverfügbarkeit mit Windows Server vnext. Carsten Rachfahl Microsoft Hyper-V MVP
Hochverfügbarkeit mit Windows Server vnext Carsten Rachfahl Microsoft Hyper-V MVP Carsten Rachfahl www.hyper-v-server.de Roling Cluster Upgrade Herausforderung: Update eines Failover Clusters ohne Downtime
MehrGenerierung von Prozesslogs
Generierung von Prozesslogs Seminar Prozessmodellierungsplattform Sommersemester 2010 Prof. Dr. Mathias Weske, Matthias Kunze Thomas Milde Betreuer: Matthias Weidlich 19.07.2010 Motivation 2 Process Mining:
MehrArchitektur von Cassandra
Seminar: NoSQL Wintersemester 201/2014 Cassandra Zwischenpräsentation 1 Ablauf Replica Partitioners Snitches Besteht aus mehrere Knoten Jeder Knoten kann (Lesen, Schreib. oder Löschen) Verwendet Hash Algorithm
MehrSeminar in der Seminarreihe Business Intelligence 1. OLAP und Datawarehousing
Seminar in der Seminarreihe Business Intelligence 1 OLAP und Datawarehousing OLAP & Warehousing Die wichtigsten Produkte Die Gliederung Produkt Bewertung & Vergleiche Die Marktentwicklung Der aktuelle
MehrMapReduce und Datenbanken Thema 15: Strom bzw. Onlineverarbeitung mit MapReduce
MapReduce Jan Kristof Nidzwetzki MapReduce 1 / 17 Übersicht 1 Begriffe 2 Verschiedene Arbeiten 3 Ziele 4 DEDUCE: at the intersection of MapReduce and stream processing Beispiel 5 Beyond online aggregation:
MehrMCP Managing Conference Proceedings
Projekt Workshop zur Global Info SFM WEP, 19-20. Juli 2000, Braunschweig MCP Managing Conference Proceedings Paper Submission und Review bei der EUROGRAPHICS 2000 Resultate und Ausblick bmb+f Global Info
MehrReal-time Data Mining
Florian Stompe Real-time Data Mining Datenmodellierung und Mustererkennung in Echtzeit Diplomica Verlag Florian Stompe Real-time Data Mining: Datenmodellierung und Mustererkennung in Echtzeit ISBN: 978-3-8366-2879-2
MehrKünstliche Intelligenz
Künstliche Intelligenz Data Mining Approaches for Instrusion Detection Espen Jervidalo WS05/06 KI - WS05/06 - Espen Jervidalo 1 Overview Motivation Ziel IDS (Intrusion Detection System) HIDS NIDS Data
MehrTechniken zur Analyse von Logdaten
Techniken zur Analyse von Logdaten Yevgen Mexin Institut für Informatik, Fakultät EIM Prof. Dr. Kleine Büning, Dr. Anderka Einleitung Logs Protokolle Arbeitsprozess Erfolgreich erfüllte Aufgaben Entstehende
MehrData/Information Quality Management
Data/Information Quality Management Seminar WI/Informationsmanagement im Sommersemester 2002 Markus Berberov, Roman Eder, Peter Gerstbach 11.6.2002 Inhalt! Daten und Datenqualität! Einführung und Definition!
MehrTraffic-Management und Dienstgütesicherung in ATM-Netzwerken. Seminar Rechnernetze 2006 Stefan Marr
Traffic-Management und Dienstgütesicherung in ATM-Netzwerken Seminar Rechnernetze 2006 Stefan Marr Agenda 2 1. Motivation Traffic-Management und Dienstgüte 2. ATM Traffic-Managment Dienstkategorien Dienstgüte-Parameter
MehrInhaltsverzeichnis. 1 Einleitung 1
xi 1 Einleitung 1 2 TCP/IP-Grundlagen 11 2.1 TCP/IP... 11 2.1.1 Geschichtliches zu TCP/IP und zum Internet... 11 2.1.2 Internet-Standards und RFCs... 12 2.1.3 Überblick... 14 2.1.4 ARP... 21 2.1.5 Routing...
MehrMaximizing the Spread of Influence through a Social Network
1 / 26 Maximizing the Spread of Influence through a Social Network 19.06.2007 / Thomas Wener TU-Darmstadt Seminar aus Data und Web Mining bei Prof. Fürnkranz 2 / 26 Gliederung Einleitung 1 Einleitung 2
MehrIntrusion Prevention mit IPTables. Secure Linux Administration Conference, 6. / 7. Dec 2007. Dr. Michael Schwartzkopff. iptables_recent, SLAC 2007 / 1
Intrusion Prevention mit IPTables Secure Linux Administration Conference, 6. / 7. Dec 2007 Dr. Michael Schwartzkopff iptables_recent, SLAC 2007 / 1 Übersicht Grundlagen Linux Firewalls: iptables Das recent
MehrMethoden zur Datenanalyse
Methoden zur Datenanalyse Inhaltsverzeichnis 1 Übersicht 2 1.1 Seite 1................................. 2 2 Statistische Schätz- und Testmethoden 3 2.1 Seite 1................................. 3 3 Methoden
Mehr5. Programmierschnittstellen für XML
5. Programmierschnittstellen für Grundlagen Dr. E. Schön FH Erfurt Sommersemester 2015 Seite 135 Programmierschnittstelle Notwendigkeit: Zugriff auf -Daten durch Applikationen wiederverwendbare Schnittstellen
MehrSports Data Mining. Tools and Systems for Sports Data Analysis
Sports Data Mining Tools and Systems for Sports Data Analysis Inhalt 1. Überblick 2. Tools a. Spezielle b. Allgemeine 3. Anwendungsbeispiel Wieso spezielle Tools? Video Analysen Benutzbarkeit Vorschläge
Mehr3.5 Datenbanktechniken zur Leistungssteigerung. 3. Clustering. 3.5 Datenbanktechniken zur Leistungssteigerung. 3. Clustering. Inhalt dieses Kapitels
3.1 Einleitung 3. Clustering Inhalt dieses Kapitels Ziel des Clustering, Distanzfunktionen, Anwendungen, Typen von Algorithmen 3.2 Partitionierende Verfahren k-means, k-medoid, Expectation Maximization,
MehrVL Algorithmische BioInformatik (19710) WS2013/2014 Woche 16 - Mittwoch. Annkatrin Bressin Freie Universität Berlin
VL Algorithmische BioInformatik (19710) WS2013/2014 Woche 16 - Mittwoch Annkatrin Bressin Freie Universität Berlin Vorlesungsthemen Part 1: Background Basics (4) 1. The Nucleic Acid World 2. Protein Structure
MehrKapitel 8: Fehlervermeidung
Kapitel 8: Fehlervermeidung Inhalt 8.1 Prozesse mit kontinuierlicher Prüfung 8.2 Systematisches Entwerfen und Programmieren 8.3 Dokumentier- und Codierrichtlinien Schlüsselbegriffe Cleanroom, Fehlervermeidung,
MehrREAL-TIME DATA WAREHOUSING
REAL-TIME DATA WAREHOUSING Lisa Wenige Seminarvortrag Data Warehousing und Analytische Datenbanken Friedrich-Schiller-Universität Jena - 19.01.12 Lisa Wenige 19.01.2012 2 Agenda 1. Motivation 2. Begriffsbestimmung
MehrSession Storage im Zend Server Cluster Manager
Session Storage im Zend Server Cluster Manager Jan Burkl System Engineer, Zend Technologies Agenda Einführung in Zend Server und ZSCM Überblick über PHP Sessions Zend Session Clustering Session Hochverfügbarkeit
MehrOpen Source Data Center Virtualisierung mit OpenNebula. 22.05.2013 LinuxTag Berlin. Bernd Erk www.netways.de
Open Source Data Center Virtualisierung mit OpenNebula 22.05.2013 LinuxTag Berlin Bernd Erk VORSTELLUNG NETWAYS NETWAYS! Firmengründung 1995! GmbH seit 2001! Open Source seit 1997! 38 Mitarbeiter! Spezialisierung
MehrOpen Source Data Center Virtualisierung mit OpenNebula. 05.03.2013 CeBIT 2013. Bernd Erk www.netways.de
Open Source Data Center Virtualisierung mit OpenNebula 05.03.2013 CeBIT 2013 Bernd Erk VORSTELLUNG NETWAYS NETWAYS! Firmengründung 1995! GmbH seit 2001! Open Source seit 1997! 35 Mitarbeiter! Spezialisierung
MehrSoftware vergleichen. Andrea Herrmann AndreaHerrmann3@gmx.de. 25.11.2011 Fachgruppentreffen RE
Software vergleichen Andrea Herrmann AndreaHerrmann3@gmx.de 25.11.2011 Fachgruppentreffen RE Übersicht 1. Motivation 2. Stand der Forschung 3. Gap-Analyse versus Delta-Analyse 4. Grafischer Vergleich 5.
MehrE-Services mit der Web-Service-Architektur
E-Services mit der Web-Service-Architektur im Seminar Neue Konzepte anwendungsorientierter Middleware - Stefan Kürten - Literatur A. Tsalgatidou and T. Pilioura, An Overview of Standards and Related Rechnology
MehrNeue Ansätze der Softwarequalitätssicherung
Neue Ansätze der Softwarequalitätssicherung Googles MapReduce-Framework für verteilte Berechnungen am Beispiel von Apache Hadoop Universität Paderborn Fakultät für Elektrotechnik, Informatik und Mathematik
MehrSarmadi@kntu.ac.ir P- hdoroodian@gmail.com. shafaei@kntu.ac.ir BPOKM. 1 Business Process Oriented Knowledge Management
Sarmadi@kntu.ac.ir P- hdoroodian@gmail.com shafaei@kntu.ac.ir -. - 1 Business Process Oriented Knowledge Management 1 -..» «.. 80 2 5 EPC PC C EPC PC C C PC EPC 3 6 ; ; ; ; ; ; 7 6 8 4 Data... 9 10 5 -
MehrDatenbanken und Informationssysteme
Datenbanken und Informationssysteme Lehrangebot Stefan Conrad Heinrich-Heine-Universität Düsseldorf Institut für Informatik April 2012 Stefan Conrad (HHU) Datenbanken und Informationssysteme April 2012
MehrProjektseminar Softwaresysteme
Projektseminar Softwaresysteme Themenvorstellung und Kick-Off Sommersemester 2015 Géza Kulcsár geza.kulcsar@es.tu.darmstadt.de ES Real-Time Systems Lab Prof. Dr. rer. nat. Andy Schürr Dept. of Electrical
MehrCheck Point IPS. Agenda. Check Point & AlgoSec Security-Update 24./25. September 2014. «Eine Firewall ohne IPS ist keine Firewall»
Check Point IPS «Eine Firewall ohne IPS ist keine Firewall» Andreas Leuthold, Security Engineer leuthold@avantec.ch Agenda Warum IPS? Wie funktioniert IPS? Ablauf eines IPS Projekts IPS Warum IPS? Source
MehrArchitektur und Implementierung von Apache Derby
Architektur und Implementierung von Apache Derby Das Zugriffssystem Carsten Kleinmann, Michael Schmidt TH Mittelhessen, MNI, Informatik 16. Januar 2012 Carsten Kleinmann, Michael Schmidt Architektur und
MehrVorlesung. Datenschutz und Privatheit in vernetzten Informationssystemen
Vorlesung Datenschutz und Privatheit in vernetzten Informationssystemen Kapitel 7: Privacy Preserving Data Mining Thorben Burghardt, Erik Buchmann buchmann@ipd.uka.de Thanks to Chris Clifton & Group IPD,
MehrStatStream : Statistical Monitoring of Thousands of Data Streams in Real Time Yunyue Zhu,Dennis Sasha. Vorgetragen von Matthias Altmann
StatStream : Statistical Monitoring of Thousands of Data Streams in Real Time Yunyue Zhu,Dennis Sasha Vorgetragen von Matthias Altmann Mehrfache Datenströme Beispiel Luft und Raumfahrttechnik: Space Shuttle
MehrOracle BI&W Referenz Architektur Big Data und High Performance Analytics
DATA WAREHOUSE Oracle BI&W Referenz Architektur Big Data und High Performance Analytics Alfred Schlaucher, Oracle Scale up Unternehmensdaten zusammenfassen Noch mehr Informationen
MehrEin lernendes System zurverbesserung der Datenqualität und Datenqualitätsmessung
Ein lernendes System zurverbesserung der Datenqualität und Datenqualitätsmessung Jens Lüssem, Peter Tasev, Maren Tiedemann-Muhlack 2 Institut für Informatik III 2 Middle Office Universität Bonn HSH Nordbank
MehrDer Storage Hypervisor
Der Storage Hypervisor Jens Gerlach Regional Manager West m +49 151 41434207 Jens.Gerlach@datacore.com Copyright 2013 DataCore Softw are Corp. All Rights Reserved. Copyright 2013 DataCore Softw are Corp.
MehrComplex Event Processing
[10] Armin Steudte HAW Hamburg Masterstudiengang Informatik - WS 2011/2012 Agenda Motivation Grundlagen Event Processing Networks Ausblick Quellen 2 Agenda Motivation Grundlagen Event Processing Networks
MehrHigh Definition AV Inhaltsschutz für Netzwerkübertragungen
High Definition AV Inhaltsschutz für Netzwerkübertragungen Bildquelle: Tagesanzeiger High Definition Contend Protection (HDCP) HDCP Lizenzierung ist Fluch Hersteller die HDCP verschlüsselte Signale weiterverarbeiten
MehrTechnologie Herbst Workshop 2012 28.11.2012
Technologie Herbst Workshop 2012 Heimon Hinze hhinze@netik.de 03.12.2012 Dr. Netik & Partner GmbH 1 - Netscaler Release V10 ist Major Update - über 100 Erweiterungen - Schauen wir sie uns der Reihe nach
MehrStorage Area Networks im Enterprise Bereich
Storage Area Networks im Enterprise Bereich Technologien, Auswahl & Optimierung Fachhochschule Wiesbaden Agenda 1. Was sind Speichernetze? 2. SAN Protokolle und Topologien 3. SAN Design Kriterien 4. Optimierung
MehrIntrusion Detection and Prevention
Intrusion Detection and Prevention 19-05-2008: Chaos Computer Club Lëtzebuerg 21-05-2008: Chaos Computer Club Trier Vortragender: Kabel Aufbau Einführung - Was ist Intrusion Detection - Unterschiede zwischen
MehrDatenbanksysteme II Architektur und Implementierung von Datenbanksystemen
Datenbanksysteme II Architektur und Implementierung von Datenbanksystemen Winter 2009/10 Melanie Herschel Willhelm-Schickard-Institut für Informatik Kapitel 1 Einführung Vorstellung Überblick Organisatorisches
MehrDomain-independent. independent Duplicate Detection. Vortrag von Marko Pilop & Jens Kleine. SE Data Cleansing
SE Data Cleansing Domain-independent independent Duplicate Detection Vortrag von Marko Pilop & Jens Kleine http://www.informatik.hu-berlin.de/~pilop/didd.pdf {pilop jkleine}@informatik.hu-berlin.de 1.0
MehrINTELLIGENTE DATENANALYSE IN MATLAB
INTELLIGENTE DATENANALYSE IN MATLAB Bildanalyse Literatur David A. Forsyth: Computer Vision i A Modern Approach. Mark S. Nixon und Alberto S. Aguado: Feature Extraction and Image Processing. Ulrich Schwanecke:
MehrNetwork Intrusion Detection mit Snort. (Nachtrag zu 9.2.2, Seite 33)
Network Intrusion Detection mit Snort (Nachtrag zu 9.2.2, Seite 33) www.snort.org www.snort.org/docs/snort_htmanuals/htmanual_280/ ITS-9.2.snort 1 snort ist das Standard-Werkzeug für ID, vielseitig einsetzbar
MehrPPC und Data Mining. Seminar aus Informatik LV-911.039. Michael Brugger. Fachbereich der Angewandten Informatik Universität Salzburg. 28.
PPC und Data Mining Seminar aus Informatik LV-911.039 Michael Brugger Fachbereich der Angewandten Informatik Universität Salzburg 28. Mai 2010 M. Brugger () PPC und Data Mining 28. Mai 2010 1 / 14 Inhalt
MehrKooperativer Speicher: Schwächen und Gegenmaßnahmen
Kooperativer Speicher: Schwächen und Gegenmaßnahmen Cooperative storage: weaknesses and countermeasures Lutz Behnke 2. Dezember 2005 2005 Lutz Behnke 1 /home/sage/texte/haw/master/seminar/coop_storage_failure.sxi
MehrVorlesung Text und Data Mining S9 Text Clustering. Hans Hermann Weber Univ. Erlangen, Informatik
Vorlesung Text und Data Mining S9 Text Clustering Hans Hermann Weber Univ. Erlangen, Informatik Document Clustering Überblick 1 Es gibt (sehr viele) verschiedene Verfahren für das Bilden von Gruppen Bei
MehrBigTable. 11.12.2012 Else
BigTable 11.12.2012 Else Einführung Distributed Storage System im Einsatz bei Google (2006) speichert strukturierte Daten petabyte-scale, > 1000 Nodes nicht relational, NoSQL setzt auf GFS auf 11.12.2012
MehrContinuous Information Quality Assessment in Stream Based Smart City Frameworks
Continuous Information Quality Assessment in Stream Based Smart City Frameworks 19. VDE/ITG Fachtagung Mobilkommunikation Osnabrück, 22.05.2014 Thorben Iggena Tel.: +49 541/969-2723 E-Mail: t.iggena@hs-osnabrueck.de
MehrProseminar - Data Mining
Proseminar - Data Mining SCCS, Fakultät für Informatik Technische Universität München SS 2014, SS 2014 1 Data Mining: Beispiele (1) Hausnummererkennung (Klassifikation) Source: http://arxiv.org/abs/1312.6082,
MehrText Mining in der Wettbewerberanalyse: Konvertierung von Textarchiven in XML-Dokumente
Text Mining in der Wettbewerberanalyse: Konvertierung von Textarchiven in XML-Dokumente Karsten Winkler 1 und Myra Spiliopoulou Handelshochschule Leipzig (HHL) Lehrstuhl für Wirtschaftsinformatik des E-Business
MehrKapitel 19: Datenbank-Unterstützung für Datenanalyse
Kapitel 19: Datenbank-Unterstützung für Datenanalyse Datenbank-Unterstützung für Data Mining Unterschiedliche Ebenen: Erweiterung des Datenbank-Kerns ( Datenbank-Primitive ), Erweiterungen der Anfragesprache,
Mehr