Data Mining und Text Mining Einführung S1 Überblick Data Mining Hans Hermann Weber Univ. Erlangen, Informatik 8 Wintersemester 2003 hans.hermann.weber@gmx.de
Was ist Data Mining / Text Mininig Data Mining Auswertung von großen, strukturierten Datenbeständen Cluster, Assoziationsregeln, Klassifkatoren Text Mining Unstrukturierte Daten (Text) anreichern mit Strukturinformation: Metadaten: Klassen oder Exzerpte Strukturierte + Unstrukturierte = alle Daten! Daten aller Art werden aufgezeichnet und ausgewertet Globale Datenerfassung und Auswertung Ablauschen / Monitoring aller Kommunikationskanäle im Unternehmen (und sonstwo). Page 2, Data Mining & Text Mining Einführung, Abschnitt 0, Inhaltsverzeichnis
Beispiel von Data Mining Anwendungen 1 Marketing und Sales Zielgruppen für Produkte und Dienstleistungen finden Zusammenhänge zwischen Kundeneigenschaften finden Mailings und Werbung zielrichten. Abwanderungskandidaten isolieren. Bankwesen Kreditvergabekriterien finden Regeln für Wertpapierkurse finden Medizin Entdecken von Zusammenhängen zwischen Krankheitsverläufen und anderen Faktoren. Page 3, Data Mining & Text Mining Einführung, Abschnitt 0, Inhaltsverzeichnis
Beispiel von Data Mining Anwendungen 2 Chemische Verfahrenstechnik Datenfusion von Sensordaten Finden von Regeln für das Auftreten von Störfällen Optimieren von Wartungszyklen Energiewirtschaft Planung / Vorhersage von Stromversorgung / Bedarf Versicherungen Risikoeinschätzungen Vertriebssteuerung Page 4, Data Mining & Text Mining Einführung, Abschnitt 0, Inhaltsverzeichnis
Beispielpräsentation Versicherung Was sagt der Vertrieb einem Nutzer von Data Mining Technolgie? Beispielpräsentation aus einer echten Vertriebssituation Fa. Averity, Hamburg, 14 Seiten Page 5, Data Mining & Text Mining Einführung, Abschnitt 0, Inhaltsverzeichnis
'HUJOlVHUQH.XQGH )52QOLQHYRP2NWREHU $XV] JH 7HLO $XFK5HJLHUXQJHQXQWHU GHQHLIULJVWHQ 'DWHQNUDNHQ 'DWHQVFK W]HUZDUQHQGDYRUGDVV+DQGHOVNRQ]HUQH GDV(LQNDXIVYHUKDOWHQLKUHU.XQGHQHUIDVVHQ XQGVLHEHLPQlFKVWHQ(LQNDXIPLWJH]LHOWHQ:HUEHERWVFKDIWHQ PDQLSXOLHUHQ6LH]HLFKQHWHQGDKHU GHQ0HWUR.RQ]HUQGHU GLHGDI UHUIRUGHUOLFKH 7HFKQLNWHVWHWPLWGHP %LJ %LJ%URWKHU$ZDUGJHKW DQGHQ+DQGHOVNRQ]HUQ 0HWUR %URWKHU$ZDUGDXV=X GHQSUHLVJHNU QWHQ 'DWHQNUDNHQ]lKOHQDXFK GLH*(=GLH 3RVWXQGGLYHUVH5HJLHUXQJHQ Bielefeld 26. Oktober Negativ-Preise nimmt niemand gerne entgegen. Das gilt auch für den Big-Brother-Award. Zwar waren Vertreter von vielen Bürgerrechts- und Datenschutz- Organisationen gekommen - die Preisträger glänzten am Freitag in Bielefeld jedoch komplett durch Abwesenheit.... I n der Kategorie Verbraucherschutz bekam die Metro den Preis für ihr Projekt "Future Store". Der Handelskonzern hat einen Supermarkt in Rheinsberg bei Duisburg mit der neusten Technik ausgestattet, um den Kunden das Einkaufserlebnis von morgen zu vermitteln. Doch die vielen "Einkaufshilfen" sind für Datenschützer ein Albtraum. Besonders die RFI D-Technik, die die Strichcodes auf den Verpackungen durch Chips ersetzt, weckt böse Ahnungen: Mit dieser Technik lassen sich I nform at ionen über das Einkaufsverhalt en von Kunden speichern und beim nächsten Besuch gezielt zu Werbezwecken einsetzen. Die Jury fürchtet eine neue Qualität von "Konsumterror". Die Laudatoren Rena Tangens und Frank Rosengart entwarfen eine Vision, die nur wenig mit den Werbeversprechen gemein hat. Wenn sich die Technik einmal durchgesetzt habe, könne sie ebenso gut zur Überwachung von Beschäft igt en dienen oder auch zu höheren Preisen führen. Page 6, Data Mining & Text Mining Einführung, Abschnitt 0, Inhaltsverzeichnis
'HUJOlVHUQH.XQGH )52QOLQHYRP2NWREHU $XV] JH 7HLO Mit der US-Regierung erhielt zum ersten Mal eine ausländische I nstitution den deutschen Big- Brother-Award. Grund ist der erzwungene Datentransfer von europäischen Fluglinien an die US- Behörden. Wenn eine Fluglinie den Zugriff auf Passagierdat en verweigert, bekom m t sie in den USA keine Landeerlaubnis mehr. Die Jury bezeichnet dieses Vorgehen als "Nötigung" und Eingriff in die staatliche Souveränität. Mit den Arbeitsverträgen einer Tochtergesellschaft hat sich die Deutsche Post als Dat enkrake qualifiziert. Geringfügig Beschäft igt e m usst en sich darin verpflicht en, ihren Arzt von der ärztlichen Schweigepflicht zu entbinden. Die Datenschützer halten das für "unverschäm t und unangemessen". Das Ex-Schwesterunternehmen T-Online bekam auch sein Fett weg: Die Jury bemängelte, dass dort entgegen der geltenden Gesetze sämtliche Kundendat en über 80 Tage gespeichert werden. Spontanen Applaus gab es, als die Rundfunkgebühren-Einzugszentrale GEZ für "ihr Lebenswerk" ausgezeichnet wurde: den "unermüdlichen Einsatz bei der bedingungslosen Ermittlung von Schwarzseherinnen und Schwarzhörern", wie Thilo Weichert von der Deut schen Vereinigung für Dat enschut z ausführt e. Die GEZ beziehe Daten von fragwürdigen Quellen und spiegele den Bürgern falsche Tatsachen vor, um an ihre Daten zu kommen. Besonders übel stieß dem Datenschützer auf, dass sich die GEZ über das Medienprivileg einer umfassenden Kontrolle entzieht. Doch das Datensammeln habe rein gar nichts mit freier Berichterstattung zu tun, so Weichert. Page 7, Data Mining & Text Mining Einführung, Abschnitt 0, Inhaltsverzeichnis
Data Mining Methodik (grob) (Jahrelanges / Permanentes) Sammeln von strukturierten Daten Unüberschaubar viele Daten Bereinigen und Normalisieren der strukturierten Daten DM Daten sind immer Real World Data Viele Fehler und Inkonsistenzen Automatisches Finden von Regelmäßigkeiten mit standardisierten Methoden Page 8, Data Mining & Text Mining Einführung, Abschnitt 0, Inhaltsverzeichnis
Eingaben und Ausgaben von DM Aktivitäten Eingaben normalisierte Daten Data Mining Algorithmen Ausgaben - strukturelle Beschreibungen - Erklärungen für die Regularitäten in den Daten - Klassifikatoren / Cluster /... Page 9, Data Mining & Text Mining Einführung, Abschnitt 0, Inhaltsverzeichnis
Kontaktlinsen-Beispiel Daten Page 10, Data Mining & Text Mining Einführung, Abschnitt 0, Inhaltsverzeichnis
Kontaktlinsen-Beispiel Einfache Regeln If then tear procution rate = reduced recommendation = none Otherwise, if then age = young and astigmatic = no recommendation = soft Abdeckung (Coverage)? Korrektheit? Generalisierung? Was fordern wir von einer strukturellen Beschreibung? Page 11, Data Mining & Text Mining Einführung, Abschnitt 0, Inhaltsverzeichnis
Kontaktlinsen-Beispiel Regeln vollständig Page 12, Data Mining & Text Mining Einführung, Abschnitt 0, Inhaltsverzeichnis
Kontaklinsen-Beispiel Entscheidungsbaum unvollständig Page 13, Data Mining & Text Mining Einführung, Abschnitt 0, Inhaltsverzeichnis
Wetter-Sport Beispiel Page 14, Data Mining & Text Mining Einführung, Abschnitt 0, Inhaltsverzeichnis
Wetter-Sport Beispiel Numerisch Page 15, Data Mining & Text Mining Einführung, Abschnitt 0, Inhaltsverzeichnis
Strukturelle Beschreibungen Daten sind Attribute und deren Werte Wertebereiche von Attributen sind nominal oder metrisch Datensammlungen sind vollständig zufällig oder.. haben zugrundeliegende Regularitäten DM sucht strukturelle Beschreibungen der Daten Strukturelle Beschreibungen sollten Regularitäten der Daten explizit machen Vorhersagen über Daten ermöglichen Page 16, Data Mining & Text Mining Einführung, Abschnitt 0, Inhaltsverzeichnis
Vier Grundverfahren des Data Mining Klassifikation Ein Attribut des Datensatzes wird klassifiziert aufgrund aller anderen (oder ausgewählter) Attribute. Numerische Prädiktion Vorhersage eines numerischen Attribut-Wertes aufgrund aller anderen (oder ausgewählter) Attrribute. Assoziationsregeln Finden von Regelhaftigkeiten zwischen allen möglichen Attributen Clustering Gruppierung von Datensätzen Page 17, Data Mining & Text Mining Einführung, Abschnitt 0, Inhaltsverzeichnis
Globale Eigenschaften der Verfahren Klassifikation und Prädiktion sind überprüfbar Clustering und das Finden von Assoziationsregeln sind nicht überprüfbar Für alle vier Verfahren gibt es sowohl Einfache Basisalgorithmen Komplexe und hochspezialisierte algorithmische Lösungen Aber auch immer mehrere Ansätze Symbolisch / Logisch Stochastisch Neuronale Netze Page 18, Data Mining & Text Mining Einführung, Abschnitt 0, Inhaltsverzeichnis