Data Mining in speziellen Daten und Data Mining Anwendungen

Ähnliche Dokumente
Projektgruppe. Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten

Klassifikation von Textabschnitten

(Bamberg)

Clustering 2010/06/11 Sebastian Koch 1

Inhalt. 6.1 Motivation. 6.2 Klassifikation. 6.3 Clusteranalyse. 6.4 Asszoziationsanalyse. Datenbanken & Informationssysteme / Kapitel 6: Data Mining

Kapitel 4: Data Mining DATABASE SYSTEMS GROUP. Überblick. 4.1 Einleitung. 4.2 Clustering. 4.3 Klassifikation

Mustererkennung. Übersicht. Unüberwachtes Lernen. (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren Gaussian-Mixture Modelle

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2008 Termin: 4. 7.

Textmining Matthias Stöckl

Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion

Verkehr Analyse. Inhalt. Was ist Verkehr Analyse? Geschichte der Verkehr Analyse. Iavor Jelev Jintao Ding

Clustern: Voraussetzungen

Einführung in die medizinische Bildverarbeitung WS 12/13

Methoden zur Cluster - Analyse

Sichtbarmachung von Geo-Daten für eine Suchmaschine

Vorlesung 7 GRAPHBASIERTE BILDSEGMENTIERUNG

Selbstständiges Lernen

Was bisher geschah. Definition digitaler Bilder B : pos col Bildanalyse, statistische Merkmale Signale im Orts- und Frequenzraum Bildbearbeitung durch

Kapitel 4: Data Mining

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität

3. Analyse der Kamerabewegung Video - Inhaltsanalyse

... Text Clustern. Clustern. Einführung Clustern. Einführung Clustern

Apriori-Algorithmus zur Entdeckung von Assoziationsregeln

Informationsextraktion. Christoph Wiewiorski Patrick Hommers

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining.

Einführung in die medizinische Bildverarbeitung WS 12/13

Vergleich von SVM und Regel- und Entscheidungsbaum-Lernern

Was bisher geschah. Definition digitaler Bilder B : pos col Bildanalyse, statistische Merkmale Signale im Orts- und Frequenzraum Bildbearbeitung durch

Projektbericht. Evaluation und Ableitung von Ergebnissen anhand eines Fragebogens zur Studentensituation an der Hochschule Wismar

Boole'sches Modell <is web>

Entscheidungsbäume aus großen Datenbanken: SLIQ

Mathematische Grundlagen III

Diskriminatives syntaktisches Reranking für SMT

Nutzung maschinellen Lernens zur Extraktion von Paragraphen aus PDF-Dokumenten

Einführung in die Computerlinguistik

5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

Projekt-INF Folie 1

Echtzeitfähige Algorithmen für markerloses Tracking und Umfelderkennung , Dr.-Ing. Steffen Herbort, A.R.T. GmbH

Datenbanken. Teil 2: Informationen. Kapitel 2: Einführung. Zusammenfassung der Grundbegriffe. Übersicht über wichtige Grundbegriffe:

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig

3.3 Nächste-Nachbarn-Klassifikatoren

Bachelorarbeit Erkennung von Fließtext in PDF-Dokumenten

Kapitel ML: X (Fortsetzung)

Distributed Algorithms. Image and Video Processing

Projektdokumentation Gesichtserkennung per Eigengesichtsanalyse

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig

Automatische Klassifikation: Stand der Technik und Veränderungen im Berufsbild des Dokumentars. Automatische Klassifikation:

Hauptseminar KDD SS 2002

Kurfzassung Deutsch. Poier Lorenz. MMag. Wilhelm Loibl

Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell

6. Texterkennung in Videos Videoanalyse

Information Retrieval

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

Volkswagen Data Lab Connected Car Fahrererkennung mit MATLAB

Data Mining auf Datenströmen Andreas M. Weiner

Kapitel IR:III (Fortsetzung)

SEMINAR KLASSIFIKATION & CLUSTERING STATISTISCHE GRUNDLAGEN. Stefan Langer WINTERSEMESTER 2014/15.

Inhaltliche Planung für die Vorlesung

Anwendungen der Hauptkomponentenanalyse. Volker Tresp vertreten durch Florian Steinke

INFORMATIONSEXTRAKTION Computerlinguistik Referenten: Alice Holka, Sandra Pyka

Assoziationsregeln & Sequenzielle Muster. A. Hinneburg, Web Data Mining MLU Halle-Wittenberg, SS 2007

Data Mining und Maschinelles Lernen Lösungsvorschlag für das 1. Übungsblatt

Klassifikation und Ähnlichkeitssuche

Sprachunabhängige Autorschafts-Verifikation

Web Mining und Farming

Automatisiertes Auffinden von Präfix- und Suffix-Inklusionsabhängigkeiten in relationalen Datenbankmanagementsystemen

INTELLIGENTE DATENANALYSE IN MATLAB. Evaluation & Exploitation von Modellen

Maschinelles Lernen und Data Mining

f h c 7 a 1 b 1 g 2 2 d

Data Mining und Maschinelles Lernen Wintersemester 2015/2016 Lösungsvorschlag für das 3. Übungsblatt

Improving the Accuracy of GPS

T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente.

Vom Zeichen zur Schrift Mit Mustererkennung zur automatisierten Schreiberhanderkennung in mittelalterlichen und frühneuzeitlichen Handschriften

Kapitel 2: Mathematik- und Informatik-Grundlagen

Human Detection Based On Part Models

Graphentheorie. Vorkurs Informatik WS 2016/2017. Dennis Aumiller

Welche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale?

Entwicklung einer robusten Methode zur Berechnung von Stereokorrespondenzen

Indexvokabular {Korsika, Sardinien, Strand, Ferienwohnung, Gebirge} Verknüpfung von Enthaltenseinsbedingungen mittels Boole'scher Junktoren.

Data Mining und Statistik: Gemeinsamkeiten und Unterschiede. Daniel Meschenmoser

Informationsflut bewältigen - Textmining in der Praxis

Maschinelles Lernen: Symbolische Ansätze

Prüfungsklausur Operations Research,

Prüfungsklausur Operations Research,

INTELLIGENTE DATENANALYSE IN MATLAB. Evaluation & Exploitation von Modellen

Klassifikationsverfahren haben viele Anwendungen. Binäres Klassifikationsverfahren auch zur Klassifikation in mehr als zwei Klassen verwendbar

Voronoi-Diagramme. Dr. Martin Nöllenburg Vorlesung Algorithmische Geometrie INSTITUT FÜR THEORETISCHE INFORMATIK FAKULTÄT FÜR INFORMATIK

Was bisher geschah. Klassifikation: Zuordnung Merkmal (Symptom) Lösung (Diagnose)

GIS-Analysen - Analyseverfahren. Prof. Dr.-Ing. Wolfgang Reinhardt. Universität der Bundeswehr München

Multivariate Verfahren

k-nächste-nachbarn-schätzung

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

Wissensentdeckung in Datenbanken

INTELLIGENTE DATENANALYSE IN MATLAB

Jürgen Lesti. Analyse des Anbieterwechsels. mit Hidden-Markov-Modellen. Empirische Untersuchung im Retail Banking. Verlag Dr.

Boolesche- und Vektorraum- Modelle

Transkript:

Data Mining in speziellen Daten und Data Mining Anwendungen Vortrag im Rahmen des Seminars Business Intelligence -Teil II: Data Mining & Knowledge Discovery Holger Klus 30.01.2004

Gliederung Text Mining Image Mining Video Mining Mining in räumlichen Daten Soziale Aspekte Zusammenfassung 2

Text Mining Text-Mining-Anwendungen Klassifizieren von Textdokumenten Erkennen von Trends Generieren von Textzusammenfassungen Halbautomatisches Beantworten von Kundenanfragen 3

Text Mining Klassifizieren von Textdokumenten Preprocessing Entfernen von Formatierungszeichen, HTML- Tags oder Ähnliches Entfernen von Stoppworten Artikel, Präpositionen,... Stammbildung Zusammenfassung von Worten, die in unterschiedlichen syntaktischen Formen im Dokument auftreten, aber vom selben Wort abstammen(suche, suchen, gesucht,...) 4

Text Mining Indexierung Auswahl eines Modells zur Repräsentation von Textdokumenten Vektorraummodell Dokumente sind Vektoren von Wörtern Sammlung von Dokumenten wird durch eine Dokumentmatrix repräsentiert, mit A= a i k 5

Text Mining Gewichtung der Worte nach zwei Regeln Je öfter ein Wort im Dokument enthalten ist, desto höher sein Gewicht Je öfter ein Wort in allen Dokumenten enthalten ist, desto geringer sein Gewicht Berechnung des Gewichtes durch a i k =f i k log N n i W 1 W 2 W 3 W 4 W 5 D 1 D 2 D 3 D 4 3,43 0 6,23 0 1,76 11,76 9,34 0 0 9,23 0 2,98 6,99 0 0.92 1,98 3,78 2,14 0 6,93 6

Text Mining Dimensionsreduktion Problem Sehr große Dokumentmatrix Dokumentmatrix nur dünn besetzt Document Frequency Thresholding Document Frequency: Anzahl Dokumente, in denen ein Wort vorkommt 7

Text Mining Anwendung eines Klassifizierungsalgorithmus knn (k-nearest Neighbour) Eingabe: Dokumentvektor d, Trainingsmenge D (1) Bestimmen der k ähnlichsten Nachbarn von d (2) Gewichtung der Klassen, in denen die k ähnlichsten Nachbarn von d enthalten sind Berechnung der Ähnlichkeit Euklidischer Abstand α=arccos a, b a b 8

Text Mining Klassifizieren von Nachrichten in der Reuters-Textsammlung Enthält über 12.000 Nachrichtenartikel Bis zu 135 Kategorien Einkommen, Gewinn, Rohstoffe,... Aufgabe Automatisches Zuordnen von Dokumenten zu Kategorien anhand einer Trainingsmenge Ziel 7.000 Trainingsdokumente 2.600 Testdokumente Messung der Effektivität des vorgestellten Verfahrens 9

Text Mining Der knn-algorithmus Trainingsphase Rohstoffe Gewinn d Einkommen Getreide 10

Text Mining Der knn-algorithmus Finden der k-ähnlichsten Nachbarn von d Rohstoffe Gewinn 2 d 3 4 1 Einkommen Getreide 5 11

Text Mining Der knn-algorithmus Gewichtung der Klassen Rohstoffe ø2,0 Getreide 2 d 3 4 5 1 Gewinn ø3,5 Einkommen ø3,0 12

Text Mining Der knn-algorithmus Klassenzuordnung Rohstoffe ø2,0 Getreide d Gewinn ø3,5 Einkommen ø3,0 13

Text Mining Maßgrößen zur Effektivitätsmessung Precision (Präzision) : a ab Recall (Ausbeute) : a ac a : Anzahl korrekt zugewiesener Dokumente b: Anzahl der Dokumente, die der Kategorie fälschlicherweise zugewiesen wurden c: Anzahl der Dokumente, die der Kategorie fälschlicherweise nicht zugewiesen wurden Precision und Recall hängen voneinander ab 14

Text Mining Ergebnisse 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 160 191 198 289 349 377 394 460 1.488 2.709 Recall Precision #Trainingsdaten Je mehr Trainingsdaten, desto genauer das Ergebnis 15

Image Mining Ziel Automatische Extraktion von semantisch aussagekräftigen Informationen Anwendungen Medizin Analyse von medizinischen Aufnahmen Image-Retrieval Kategorisieren von Bildern in relevant und irrelevant bzgl. einer Anwendung 16

Image Mining Ein informationsorientierter Image-Mining- Ansatz Pixel-Ebene Extrahieren potentiell relevanter Regionen homogene Farbverteilung Konturen Objekt-Ebene Identifizierung domänenspezifischer Merkmale der Regionen Fläche, Länge, Form,... Semantische Ebene Erkennen von Mustern in der identifizierten Objektmenge durch Anwenden eines Data-Mining-Algorithmus Wissens-Ebene 17

Image Mining Anwendung bei der Erkennung von Tumorzellen auf medizinischen Aufnahmen Aufgabe Zählen von Tumorzellen zur Messung der Aktivität des Tumors Hohe Treffergenauigkeit erforderlich Reine Bildverarbeitungs-Algorithmen ungeeignet Zählen von Tumorzellen durch Menschen zu zeitaufwendig und teuer Ziel Signifikante Steigerung der Genauigkeit durch Kombination von Bildverarbeitungs-Algorithmen und Image-Mining-Algorithmen 18

Image Mining Pixelebene Erkennen potentiell relevanter Regionen Problem bei medizinischen Aufnahmen Kein homogener Hintergrund Reflektionen Überlappende Zellen, dadurch verschiedene Pixelintensitäten Unklare Konturen 19

Image Mining Ansatz zur Extraktion von potentiell relevanten Objekten Festlegen einer Pixelintensität, ab der eine Region als potentiell relevant deklariert wird Problem Tumorzellen können in einem Teil des Bildes dunkler sein, als der Hintergrund in einem anderen Bildbereich Es könnten zu viele oder zu wenige Tumorzellen erkannt werden, je nach Wahl des Schwellwertes 20

Image Mining Festlegen lokaler Schwellwerte Ergebnis nach Entfernen des Hintergrundes Der Water-Immersion-Algorithmus 21

Image Mining Objektebene Berechnung folgender Merkmale für jede erkannte Region Fläche: Anzahl Pixel Rundheit = 4 π Fläche Umfang 2 Dehnung = L Hauptachse L Nebenachse Jede Region wird durch diese drei Merkmale charakterisiert 22

Image Mining Semantische Ebene Anlegen einer Trainingsmenge mit Ausprägungen der drei Merkmale, die auf einen Tumor schließen lassen Anwenden einen Klassifizierungsalgorithmus CBA C4.5 Bayesche Klassifikation Ergebnis Ohne Data Mining: Fehlerrate von 40,1% Mit Data Mining: Fehlerrate von 20% Kombination aller drei Klassifizierungsalgorithmen: Fehlerrate von 18,7% 23

Video Mining Ziel Organisieren von Videodaten derart, dass bisher unbekannte Informationen extrahiert werden können Video-Mining-Anwendungen Verkehr Medizin Biologie 24

Video Mining Video-Mining in der Verkehrsüberwachung Ziele Erkennen von Staus Erkennen von Unfällen Analyse der Verkehrsbelastung Eigenschaften von Überwachungsvideos Meist stationäre Kameras Gleichbleibender Hingergrund Keine oder wenige Schnitte Bekannte Objekte 25

Video Mining Analyse des Verkehrsaufkommens an einer Kreuzung (1) Entfernen des Hintergrundes Wie beim Image-Mining Zu aufwendig, da für jeden Frame durchzuführen Extraktion von sich nicht bewegenden Objekten Erzeugen eines Referenzframes in Form einer Referenzaufnahme der leeren Kreuzung Schnelles Verfahren Probleme bei wechselnden Lichtverhältnissen o.ä. 26

Video Mining (2) Erkennen von Fahrzeugen Repräsentation der Fahrzeuge durch Rechtecke Probleme Verdeckte Fahrzeuge Von oben kommende Fahrzeuge werden als ein langes Fahrzeug erkannt Zunächst als ein Fahrzeug behandeln. Eventuell später den möglichen Fahrzeugweg zurückverfolgen 27

Video Mining (3)Verfolgen von Fahrzeugen Verbinden von zusammengehörigen Objekten zweier aufeinanderfolgender Frames Jeweils zwei Objekte mit geringstem Abstand Größe der Objekte mit einbeziehen Aufteilung jedes Frames in beschriftete Segmente 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 28

Video Mining (4) Ergebnisse Multimedia Input Strings 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 A6 & B2 & C11 A5 & B2 & C12 A5 & B6... Ermöglicht Beantwortung von Fragen wie Wie viele Fahrzeuge sind von links in die Kreuzung eingefahren und haben sie nach oben wieder verlassen? Wie hoch war das Verkehrsaufkommen zwischen 08:00 und 08:30? 29

Mining in räumlichen Daten Eine räumliche Datenbank Räumliche Objekte (Straßen, Häuser, Flüsse,...) Stehen in Relation zu anderen Objekten in der Datenbank Topologie (A berührt B, A liegt in B,...) Distanz Richtung Nicht-räumliche Attribute je Objekt (Hausnummer, Wohnfläche, Bewohnerzahl,...) Repräsentation mittels Nachbarschaftsgraphen Knotenmenge Menge der räumlichen Objekte Kantenmenge Knotenpaare, für die eine der Nachbarschafts-Relationen gilt 30

Mining in räumlichen Daten Ziel Erkennen von Mustern und Beziehungen zwischen Räumlichen Objekten untereinander Parks liegen häufig in der Nähe von Schulen Räumlichen und nicht-räumlichen Daten In der Nähe von Universitäten ist die Anzahl von Wohnungen pro Gebäude relativ hoch Traditionelle statistische Data-Mining- Methoden sind ungeeignet Datensätze sind nicht unabhängig verteilt Objekte beeinflussen sich gegenseitig 31

Mining in räumlichen Daten Finden von Assoziationen in räumlichen Daten Korrelationen zwischen verschiedenen Charakteristiken in bestimmten Regionen Beispiel Clustering Regionen mit einer hohen Anzahl von Rentnern liegen meist in der Nähe von Gebirgen und Flüssen Dichtebasiertes Clustering Jedes Objekt innerhalb eines Clusters muss eine minimale Anzahl von Knoten in seiner Nachbarschaft haben 32

Mining in räumlichen Daten Erkennen von Trends und Trendabweichungen Analysieren von Veränderungen nichträumlicher Attribute bei der Entfernung von einem räumlichen Objekt Festlegen eines Zentrums Zeichnet sich durch besondere Merkmalsausprägung mind. eines nicht-räumlicher Attributes aus Fläche 10 km Einwohner 500 Arbeitslosenquote 1,00% Rentneranteil 7,00%... 33

Mining in räumlichen Daten Berechnung eines theoretischen Trends Annahme: Die Arbeitslosenquote steigt mit wachsender Enfternung vom Zentrum 34

Mining in räumlichen Daten Berechnung eines theoretischen Trends Annahme: Die Arbeitslosenquote steigt mit wachsender Enfternung vom Zentrum Suche nach Trendabweichungen 35

Mining in räumlichen Daten Begründen der Abweichung Flughafen Logistik-Unternehmen Weitere Anwendungen Verbrechensanalyse Suche nach Ursachen für Naturkatastrophen 36

Soziale Auswirkungen Data Mining Generieren von Informationen, die nicht offensichtlich sind Vorteile Vorhersagen von Naturkatastrophen Unterstützung bei der Diagnose von Krankheiten Personalisierte Produkte, personalisiertes Marketing Nachteil Bei der Bekanntgabe von Informationen ist von vornherein nicht bekannt, wieviel Wissen man tatsächlich preisgegeben hat 37

Trends im Data Mining Exponentielles Wachstum von Informationen Vervielfältigung der Anwendungsmöglichkeiten Neue Methoden zum Mining von komplexen Datentypen Skalierbare Data-Mining-Methoden Spezialisierte Mining-Methoden 38

Zusammenfassung Text Mining Klassifizieren von Text-Dokumenten Preprocessing, Indexierung, Dimensionsreduktion, Clustering Image Mining Erkennen von Tumoren Pixelebene, Objektebene, Semantische Ebene, Wissensebene Video Mining Der Video-Mining-Prozess Verkehrsüberwachung: Objektverfolgung, Multimedia Input Strings 39

Zusammenfassung Mining in räumlichen Daten Erkennen von Trends und Trendabweichungen Assoziationen in räumlichen Daten Soziale Auswirkungen und Trends im Data Mining 40