Data Mining und Text Mining Einführung. S1 Überblick Data Mining



Ähnliche Dokumente
Die Post hat eine Umfrage gemacht

Stellen Sie bitte den Cursor in die Spalte B2 und rufen die Funktion Sverweis auf. Es öffnet sich folgendes Dialogfenster

AGROPLUS Buchhaltung. Daten-Server und Sicherheitskopie. Version vom b

Was meinen die Leute eigentlich mit: Grexit?

Fachdidaktik der Informatik Jörg Depner, Kathrin Gaißer

Inhaltsübersicht Produktinformationsblatt zur Jahres-Reiserücktritts-Versicherung der Europäische Reiseversicherung AG

Damit auch Sie den richtigen Weg nehmen können die 8 wichtigsten Punkte, die Sie bei der Beantragung Ihrer Krankenversicherung beachten sollten:

Zeichen bei Zahlen entschlüsseln

DER SELBST-CHECK FÜR IHR PROJEKT

Lehrer: Einschreibemethoden

Online bezahlen mit e-rechnung

Data Mining und maschinelles Lernen

Wenn Sie das T-Online WebBanking das erste Mal nutzen, müssen Sie sich zunächst für den Dienst Mobiles Banking frei schalten lassen.

Die Invaliden-Versicherung ändert sich

40-Tage-Wunder- Kurs. Umarme, was Du nicht ändern kannst.

Ihre Interessentendatensätze bei inobroker. 1. Interessentendatensätze

Ein Vorwort, das Sie lesen müssen!

Bedienungsanleitung. Matthias Haasler. Version 0.4. für die Arbeit mit der Gemeinde-Homepage der Paulus-Kirchengemeinde Tempelhof

PK-Website: Besuche & Seitenaufrufe 2010 und 2011

DISKUSSIONSBEITRÄGE DER FAKULTÄT FÜR BETRIEBSWIRTSCHAFTSLEHRE MERCATOR SCHOOL OF MANAGEMENT UNIVERSITÄT DUISBURG-ESSEN. Nr. 374

Social Media Monitoring Was wird über Sie und Ihre Wettbewerber gesagt?

Fragen und Antworten

Eva Douma: Die Vorteile und Nachteile der Ökonomisierung in der Sozialen Arbeit

Du hast hier die Möglichkeit Adressen zu erfassen, Lieferscheine & Rechnungen zu drucken und Deine Artikel zu verwalten.

Den Durchblick haben. VOLKSBANK BAD MÜNDER eg. Online aber sicher: Unsere Produkt- und Sicherheitshotline hilft und informiert

Kapiteltests zum Leitprogramm Binäre Suchbäume

Traditionelle Suchmaschinenoptimierung (SEO)

Statuten in leichter Sprache

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Portfolio: "Die Ratten" von Gerhart Hauptmann

Anlegen eines SendAs/RecieveAs Benutzer unter Exchange 2003, 2007 und 2010

Ordner Berechtigung vergeben Zugriffsrechte unter Windows einrichten

Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken

Was ich als Bürgermeister für Lübbecke tun möchte

Die Bundes-Zentrale für politische Bildung stellt sich vor

Repetitionsaufgaben Wurzelgleichungen

Was ist das Budget für Arbeit?

BU-Optimierung: Mehr Schutz für ALLE! Berufsunfähigkeit.

Benutzerhandbuch. Leitfaden zur Benutzung der Anwendung für sicheren Dateitransfer.

Kurzanweisung für Google Analytics

4 Ideen zur Verbesserung des -Marketings!

Mathematik. UND/ODER Verknüpfung. Ungleichungen. Betrag. Intervall. Umgebung

Erfahrungen mit Hartz IV- Empfängern

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

1. Weniger Steuern zahlen

Mehr Transparenz für optimalen Durchblick. Mit dem TÜV Rheinland Prüfzeichen.

Moodle-Kurzübersicht Kurse Sichern und Zurücksetzen

Herzlich Willkommen bei der BITel!

Zur Einrichtung der orgamax Cloud auf Ihrem ipad beschreiben wir hier die Vorgehensweise.

Installation und Bedienung von vappx unter Android

Kurzanleitung fu r Clubbeauftragte zur Pflege der Mitgliederdaten im Mitgliederbereich

VibonoCoaching Brief -No. 18

Sterbegeldversicherung. Vorsorge treffen

Professionelle Seminare im Bereich MS-Office

Binärdarstellung von Fliesskommazahlen

Spamfilter einrichten

Entwicklung des Dentalmarktes in 2010 und Papier versus Plastik.

SOZIALVORSCHRIFTEN IM STRAßENVERKEHR Verordnung (EG) Nr. 561/2006, Richtlinie 2006/22/EG, Verordnung (EU) Nr. 165/2014

Tipps und Tricks zu Netop Vision und Vision Pro

Fachbericht zum Thema: Anforderungen an ein Datenbanksystem

Sich einen eigenen Blog anzulegen, ist gar nicht so schwer. Es gibt verschiedene Anbieter. ist einer davon.

Internationales Altkatholisches Laienforum

Deutscher Bürgerpreis. Jetzt bewerben: Deutschland 2016 Integration gemeinsam leben

Informationsblatt Induktionsbeweis

SCHRITT 1: Öffnen des Bildes und Auswahl der Option»Drucken«im Menü»Datei«...2. SCHRITT 2: Angeben des Papierformat im Dialog»Drucklayout«...

Die Lernumgebung des Projekts Informationskompetenz

Leseprobe - Seite 5 - Kapitel 5 Fragetechniken - Einfürung

Daten-Synchronisation zwischen Mozilla Thunderbird (Lightning) / Mozilla Sunbird und dem ZDV Webmailer

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus:

Erste-Hilfe-Schulung für Unternehmen

Eine Bürokratiekostenfolgenabschätzung zum zweiten Gesetz für moderne Dienstleistungen am Arbeitsmarkt im Hinblick auf die Einführung einer Gleitzone

Social Media bei der Kreissparkasse Ludwigsburg

Tutorial Moodle 2 globale Gruppen bzw. Kohorten

Installation und Bedienung von vappx unter ios

Information zum neuen ELBA Zahlungsbeleg ( SEPA Überweisung )

Er musste so eingerichtet werden, dass das D-Laufwerk auf das E-Laufwerk gespiegelt

Transparenz und Datenschutz: Gedanken aus Schweizer Sicht

Neuer Releasestand Finanzbuchhaltung DAM-EDV E Inhaltsverzeichnis. 1. Neuerungen Schnittstelle Telebanking mit IBAN und BIC...

Handbuch Offline-Abgleich

Hinweise in Leichter Sprache zum Vertrag über das Betreute Wohnen

Bedienungsanleitung für die Online Kinderbetreuungsbörse des Landkreises Osnabrück

Welchen Weg nimmt Ihr Vermögen. Unsere Leistung zu Ihrer Privaten Vermögensplanung. Wir machen aus Zahlen Werte

Verwendung des Terminalservers der MUG

robotron*e count robotron*e sales robotron*e collect Anmeldung Webkomponente Anwenderdokumentation Version: 2.0 Stand:

Partnerportal Installateure Registrierung

Pflegende Angehörige Online Ihre Plattform im Internet

ÜBERGABE DER OPERATIVEN GESCHÄFTSFÜHRUNG VON MARC BRUNNER AN DOMINIK NYFFENEGGER

Monatstreff für Menschen ab 50 Temporäre Dateien / Browserverlauf löschen / Cookies

Agentur für Werbung & Internet. Schritt für Schritt: -Konfiguration mit Apple Mail

Was ist Sozial-Raum-Orientierung?

Wie optimiert man die Werbungserkennung von Ad- Detective?

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage:

icloud nicht neu, aber doch irgendwie anders

«Eine Person ist funktional gesund, wenn sie möglichst kompetent mit einem möglichst gesunden Körper an möglichst normalisierten Lebensbereichen

Die neue Aufgabe von der Monitoring-Stelle. Das ist die Monitoring-Stelle:

ProLead. Überlassen Sie das Wertvollste in Ihrem Leben nicht dem Zufall gestalten Sie aktiv die Absicherung Ihrer sorgenfreien Zukunft

YouTube: Video-Untertitel übersetzen

1: 9. Hamburger Gründerpreis - Kategorie Existenzgründer :00 Uhr

Präsentation: Google-Kalender. Walli Ruedi Knupp Urdorf

Briefing-Leitfaden. 1. Hier geht s um Ihr Produkt oder Ihre Dienstleistung: Was soll beworben werden?

Wir machen neue Politik für Baden-Württemberg

Transkript:

Data Mining und Text Mining Einführung S1 Überblick Data Mining Hans Hermann Weber Univ. Erlangen, Informatik 8 Wintersemester 2003 hans.hermann.weber@gmx.de

Was ist Data Mining / Text Mininig Data Mining Auswertung von großen, strukturierten Datenbeständen Cluster, Assoziationsregeln, Klassifkatoren Text Mining Unstrukturierte Daten (Text) anreichern mit Strukturinformation: Metadaten: Klassen oder Exzerpte Strukturierte + Unstrukturierte = alle Daten! Daten aller Art werden aufgezeichnet und ausgewertet Globale Datenerfassung und Auswertung Ablauschen / Monitoring aller Kommunikationskanäle im Unternehmen (und sonstwo). Page 2, Data Mining & Text Mining Einführung, Abschnitt 0, Inhaltsverzeichnis

Beispiel von Data Mining Anwendungen 1 Marketing und Sales Zielgruppen für Produkte und Dienstleistungen finden Zusammenhänge zwischen Kundeneigenschaften finden Mailings und Werbung zielrichten. Abwanderungskandidaten isolieren. Bankwesen Kreditvergabekriterien finden Regeln für Wertpapierkurse finden Medizin Entdecken von Zusammenhängen zwischen Krankheitsverläufen und anderen Faktoren. Page 3, Data Mining & Text Mining Einführung, Abschnitt 0, Inhaltsverzeichnis

Beispiel von Data Mining Anwendungen 2 Chemische Verfahrenstechnik Datenfusion von Sensordaten Finden von Regeln für das Auftreten von Störfällen Optimieren von Wartungszyklen Energiewirtschaft Planung / Vorhersage von Stromversorgung / Bedarf Versicherungen Risikoeinschätzungen Vertriebssteuerung Page 4, Data Mining & Text Mining Einführung, Abschnitt 0, Inhaltsverzeichnis

Beispielpräsentation Versicherung Was sagt der Vertrieb einem Nutzer von Data Mining Technolgie? Beispielpräsentation aus einer echten Vertriebssituation Fa. Averity, Hamburg, 14 Seiten Page 5, Data Mining & Text Mining Einführung, Abschnitt 0, Inhaltsverzeichnis

'HUJOlVHUQH.XQGH )52QOLQHYRP2NWREHU $XV] JH 7HLO $XFK5HJLHUXQJHQXQWHU GHQHLIULJVWHQ 'DWHQNUDNHQ 'DWHQVFK W]HUZDUQHQGDYRUGDVV+DQGHOVNRQ]HUQH GDV(LQNDXIVYHUKDOWHQLKUHU.XQGHQHUIDVVHQ XQGVLHEHLPQlFKVWHQ(LQNDXIPLWJH]LHOWHQ:HUEHERWVFKDIWHQ PDQLSXOLHUHQ6LH]HLFKQHWHQGDKHU GHQ0HWUR.RQ]HUQGHU GLHGDI UHUIRUGHUOLFKH 7HFKQLNWHVWHWPLWGHP %LJ %LJ%URWKHU$ZDUGJHKW DQGHQ+DQGHOVNRQ]HUQ 0HWUR %URWKHU$ZDUGDXV=X GHQSUHLVJHNU QWHQ 'DWHQNUDNHQ]lKOHQDXFK GLH*(=GLH 3RVWXQGGLYHUVH5HJLHUXQJHQ Bielefeld 26. Oktober Negativ-Preise nimmt niemand gerne entgegen. Das gilt auch für den Big-Brother-Award. Zwar waren Vertreter von vielen Bürgerrechts- und Datenschutz- Organisationen gekommen - die Preisträger glänzten am Freitag in Bielefeld jedoch komplett durch Abwesenheit.... I n der Kategorie Verbraucherschutz bekam die Metro den Preis für ihr Projekt "Future Store". Der Handelskonzern hat einen Supermarkt in Rheinsberg bei Duisburg mit der neusten Technik ausgestattet, um den Kunden das Einkaufserlebnis von morgen zu vermitteln. Doch die vielen "Einkaufshilfen" sind für Datenschützer ein Albtraum. Besonders die RFI D-Technik, die die Strichcodes auf den Verpackungen durch Chips ersetzt, weckt böse Ahnungen: Mit dieser Technik lassen sich I nform at ionen über das Einkaufsverhalt en von Kunden speichern und beim nächsten Besuch gezielt zu Werbezwecken einsetzen. Die Jury fürchtet eine neue Qualität von "Konsumterror". Die Laudatoren Rena Tangens und Frank Rosengart entwarfen eine Vision, die nur wenig mit den Werbeversprechen gemein hat. Wenn sich die Technik einmal durchgesetzt habe, könne sie ebenso gut zur Überwachung von Beschäft igt en dienen oder auch zu höheren Preisen führen. Page 6, Data Mining & Text Mining Einführung, Abschnitt 0, Inhaltsverzeichnis

'HUJOlVHUQH.XQGH )52QOLQHYRP2NWREHU $XV] JH 7HLO Mit der US-Regierung erhielt zum ersten Mal eine ausländische I nstitution den deutschen Big- Brother-Award. Grund ist der erzwungene Datentransfer von europäischen Fluglinien an die US- Behörden. Wenn eine Fluglinie den Zugriff auf Passagierdat en verweigert, bekom m t sie in den USA keine Landeerlaubnis mehr. Die Jury bezeichnet dieses Vorgehen als "Nötigung" und Eingriff in die staatliche Souveränität. Mit den Arbeitsverträgen einer Tochtergesellschaft hat sich die Deutsche Post als Dat enkrake qualifiziert. Geringfügig Beschäft igt e m usst en sich darin verpflicht en, ihren Arzt von der ärztlichen Schweigepflicht zu entbinden. Die Datenschützer halten das für "unverschäm t und unangemessen". Das Ex-Schwesterunternehmen T-Online bekam auch sein Fett weg: Die Jury bemängelte, dass dort entgegen der geltenden Gesetze sämtliche Kundendat en über 80 Tage gespeichert werden. Spontanen Applaus gab es, als die Rundfunkgebühren-Einzugszentrale GEZ für "ihr Lebenswerk" ausgezeichnet wurde: den "unermüdlichen Einsatz bei der bedingungslosen Ermittlung von Schwarzseherinnen und Schwarzhörern", wie Thilo Weichert von der Deut schen Vereinigung für Dat enschut z ausführt e. Die GEZ beziehe Daten von fragwürdigen Quellen und spiegele den Bürgern falsche Tatsachen vor, um an ihre Daten zu kommen. Besonders übel stieß dem Datenschützer auf, dass sich die GEZ über das Medienprivileg einer umfassenden Kontrolle entzieht. Doch das Datensammeln habe rein gar nichts mit freier Berichterstattung zu tun, so Weichert. Page 7, Data Mining & Text Mining Einführung, Abschnitt 0, Inhaltsverzeichnis

Data Mining Methodik (grob) (Jahrelanges / Permanentes) Sammeln von strukturierten Daten Unüberschaubar viele Daten Bereinigen und Normalisieren der strukturierten Daten DM Daten sind immer Real World Data Viele Fehler und Inkonsistenzen Automatisches Finden von Regelmäßigkeiten mit standardisierten Methoden Page 8, Data Mining & Text Mining Einführung, Abschnitt 0, Inhaltsverzeichnis

Eingaben und Ausgaben von DM Aktivitäten Eingaben normalisierte Daten Data Mining Algorithmen Ausgaben - strukturelle Beschreibungen - Erklärungen für die Regularitäten in den Daten - Klassifikatoren / Cluster /... Page 9, Data Mining & Text Mining Einführung, Abschnitt 0, Inhaltsverzeichnis

Kontaktlinsen-Beispiel Daten Page 10, Data Mining & Text Mining Einführung, Abschnitt 0, Inhaltsverzeichnis

Kontaktlinsen-Beispiel Einfache Regeln If then tear procution rate = reduced recommendation = none Otherwise, if then age = young and astigmatic = no recommendation = soft Abdeckung (Coverage)? Korrektheit? Generalisierung? Was fordern wir von einer strukturellen Beschreibung? Page 11, Data Mining & Text Mining Einführung, Abschnitt 0, Inhaltsverzeichnis

Kontaktlinsen-Beispiel Regeln vollständig Page 12, Data Mining & Text Mining Einführung, Abschnitt 0, Inhaltsverzeichnis

Kontaklinsen-Beispiel Entscheidungsbaum unvollständig Page 13, Data Mining & Text Mining Einführung, Abschnitt 0, Inhaltsverzeichnis

Wetter-Sport Beispiel Page 14, Data Mining & Text Mining Einführung, Abschnitt 0, Inhaltsverzeichnis

Wetter-Sport Beispiel Numerisch Page 15, Data Mining & Text Mining Einführung, Abschnitt 0, Inhaltsverzeichnis

Strukturelle Beschreibungen Daten sind Attribute und deren Werte Wertebereiche von Attributen sind nominal oder metrisch Datensammlungen sind vollständig zufällig oder.. haben zugrundeliegende Regularitäten DM sucht strukturelle Beschreibungen der Daten Strukturelle Beschreibungen sollten Regularitäten der Daten explizit machen Vorhersagen über Daten ermöglichen Page 16, Data Mining & Text Mining Einführung, Abschnitt 0, Inhaltsverzeichnis

Vier Grundverfahren des Data Mining Klassifikation Ein Attribut des Datensatzes wird klassifiziert aufgrund aller anderen (oder ausgewählter) Attribute. Numerische Prädiktion Vorhersage eines numerischen Attribut-Wertes aufgrund aller anderen (oder ausgewählter) Attrribute. Assoziationsregeln Finden von Regelhaftigkeiten zwischen allen möglichen Attributen Clustering Gruppierung von Datensätzen Page 17, Data Mining & Text Mining Einführung, Abschnitt 0, Inhaltsverzeichnis

Globale Eigenschaften der Verfahren Klassifikation und Prädiktion sind überprüfbar Clustering und das Finden von Assoziationsregeln sind nicht überprüfbar Für alle vier Verfahren gibt es sowohl Einfache Basisalgorithmen Komplexe und hochspezialisierte algorithmische Lösungen Aber auch immer mehrere Ansätze Symbolisch / Logisch Stochastisch Neuronale Netze Page 18, Data Mining & Text Mining Einführung, Abschnitt 0, Inhaltsverzeichnis