Motivation. Themenblock: Data Preprocessing. Einsatzgebiete für Data Mining I. Modell von Gianotti und Pedreschi



Ähnliche Dokumente
Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining.

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

Gründe für fehlende Vorsorgemaßnahmen gegen Krankheit

Professionelle Seminare im Bereich MS-Office

FIS: Projektdaten auf den Internetseiten ausgeben

Erfahrungen mit Hartz IV- Empfängern

Kommunikations-Management

Seite Wo finde ich die Landingpage Auswahl? Seite Wie aktiviere ich eine Landingpage? Seite

Stellvertretenden Genehmiger verwalten. Tipps & Tricks

Pivotieren. Themenblock: Anfragen auf dem Cube. Roll-up und Drill-down. Slicing und Dicing. Praktikum: Data Warehousing und Data Mining. Produkt.

Die richtigen Partner finden, Ressourcen finden und zusammenführen

Anhand des bereits hergeleiteten Models erstellen wir nun mit der Formel

Dokumentation Typo3. tt - news - Nachrichtenmodul

Blumen-bienen-Bären Academy. Kurzanleitung für Google Keyword Planer + Google Trends

EDV-Fortbildung Kombi-Schulung Word-Excel Modul Excel. Informationen zum Programm. Die Programmoberfläche von Excel

Inhaltsverzeichnis. 1. Empfängerübersicht / Empfänger hinzufügen 2. Erstellen eines neuen Newsletters / Mailings 3. Versand eines Newsletters

Diese Funktion steht für den «Kontoübertrag» nicht zur Verfügung, da alle Angaben bezüglich der Konten bereits eingetragen sind.

YouTube: Video-Untertitel übersetzen

Urlaubsregel in David

Kurzeinführung Excel2App. Version 1.0.0

1. Loggen Sie sich mit Ihrem Benutzernamen in den Hosting-Manager (Confixx) auf Ihrer entsprechenden AREA ein.

Anleitung für CleverReach

Ordner Berechtigung vergeben Zugriffsrechte unter Windows einrichten

Kostenstellen verwalten. Tipps & Tricks

Handbuch zur Anlage von Turnieren auf der NÖEV-Homepage

UserManual. Handbuch zur Konfiguration einer FRITZ!Box. Autor: Version: Hansruedi Steiner 2.0, November 2014

Spamfilter einrichten

Anleitung zur Benutzung des jobup.ch Stellensuchendekontos

IM Online help Stand April 2015

Stellen Sie bitte den Cursor in die Spalte B2 und rufen die Funktion Sverweis auf. Es öffnet sich folgendes Dialogfenster

myreport Benutzerhandbuch Active Tracing 3.1 Volle Transparenz Durchgehende Sendungsverfolgung und Status Reporte

Prozentrechnung. Wir können nun eine Formel für die Berechnung des Prozentwertes aufstellen:

Partnerportal Installateure Registrierung

Evaluationen. Inhalt. 1. Aufbau einer Evaluation in Stud.IP

HIER GEHT ES UM IHR GUTES GELD ZINSRECHNUNG IM UNTERNEHMEN

Fachdidaktik der Informatik Jörg Depner, Kathrin Gaißer

Fotostammtisch-Schaumburg

Anleitung zur Erstellung und Bearbeitung von Seiten in Typo3. Typo3. Anleitung. Wenpas Informatik

Erste Schritte. Lavid-F.I.S. Faktura. Erste Schritte

Kurzanleitung. Toolbox. T_xls_Import

Bedienungsanleitung für den Online-Shop

Frankieren in Microsoft Word mit dem E Porto Add in der Deutschen Post

Was ist Sozial-Raum-Orientierung?

1. Einführung. 2. Weitere Konten anlegen

SCHRITT 1: Öffnen des Bildes und Auswahl der Option»Drucken«im Menü»Datei«...2. SCHRITT 2: Angeben des Papierformat im Dialog»Drucklayout«...

Schuljahreswechsel im Schul-Webportal

Eigene Seiten erstellen

Data Mining mit der SEMMA Methodik. Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG

Kapsch Carrier Solutions GmbH Service & Support Helpdesk

online einkaufen Wie Sie im Esko Store

Der große VideoClip- Wettbewerb von Media Markt.

Senioren helfen Junioren

Datenübernahme von HKO 5.9 zur. Advolux Kanzleisoftware

Kapitel 5. 5 Beschriftungsobjekte. AutoCAD 2013 Layout- und Plot-Management

Kulturobjekte der Donau Das ContentManagementSystem (CMS)

Erstellen einer Collage. Zuerst ein leeres Dokument erzeugen, auf dem alle anderen Bilder zusammengefügt werden sollen (über [Datei] > [Neu])

Schritt 1. Anmelden. Klicken Sie auf die Schaltfläche Anmelden

teischl.com Software Design & Services e.u. office@teischl.com

Summenbildung in Bauteiltabellen mit If Then Abfrage

Bedienungsanleitung PC-Konfigurationssoftware des ID Inclinometers

Deskline 3.0. Vermieterinfo ChannelGateway

Diese Ansicht erhalten Sie nach der erfolgreichen Anmeldung bei Wordpress.

EINFACHES HAUSHALT- KASSABUCH

Kurzanleitung Sybit Issue Tracker Version 4

Einrichten eines HBCI- Zugangs mit Bank X 5.1

Technische Analyse der Zukunft

PowerPoint vertonen. by H.Schönbauer 1

Hilfe zur Urlaubsplanung und Zeiterfassung

Tutorial/FAQ für die Benutzung der Webseite

Universität Augsburg, Institut für Informatik WS 2006/2007 Dr. W.-T. Balke 27. Nov M. Endres, A. Huhn, T. Preisinger Lösungsblatt 5

Die Beschreibung bezieht sich auf die Version Dreamweaver 4.0. In der Version MX ist die Sitedefinition leicht geändert worden.

Anwendungsbeispiele Buchhaltung

Planen mit mathematischen Modellen 00844: Computergestützte Optimierung. Autor: Dr. Heinz Peter Reidmacher

Datenbanken Kapitel 2

Anleitung für die Umstellung auf das plus Verfahren mit manueller und optischer Übertragung

Online bezahlen mit e-rechnung

Online-Dienste des EPA

Version 1.0 Datum Anmeldung... 2

Kurzleitfaden für Schüler

Zeichen bei Zahlen entschlüsseln

Avira Security Management Center 2.6

Er musste so eingerichtet werden, dass das D-Laufwerk auf das E-Laufwerk gespiegelt

Task: Nmap Skripte ausführen

Eine der Aktien hat immer einen höheren Gewinn als die andere Aktie. Ihre Aufgabe ist es diese auszuwählen.

MWST. Buchungsgruppen

Quiz mit Google Docs erstellen

Second Steps in eport 2.0 So ordern Sie Credits und Berichte

Persönliches Adressbuch

Wie beschneide ich ein Bild passend für den Ausdruck auf Papier eines bestimmten Formats?

Anleitung zur Erstellung eines PDF/A1b-konformen Dokuments aus einer PDF-Datei

TYPO3 (Facett.Net Backend) 33

ZIMT-Dokumentation Zugang zum myidm-portal für Mitarbeiter Setzen der Sicherheitsfragen und Ändern des Passworts

! " # $ " % & Nicki Wruck worldwidewruck

Handreichung für Lehrer

Kapitalerhöhung - Verbuchung

Webinar-Partnerprogramm

Java: Vererbung. Teil 3: super()

3. Neuen Newsbeitrag erstellen Klicken Sie auf das Datensatzsymbol mit dem +, damit Sie einen neuen Newsbeitrag erstellen können.

Dokumentenverwaltung. Copyright 2012 cobra computer s brainware GmbH

Transkript:

Motivation Themenblock: Data Preprocessing We are drowning in information, but starving for knowledge! (John Naisbett) Was genau ist Datenanalyse? Praktikum: Data Warehousing und Data Mining Was ist Data Mining? Techniken zur Mustererkennung Ziel: unerwartete Muster Beispiele für Muster: Assotiation Rules, Cluster 2 Inspektion Modell von Gianotti und Pedreschi Daten Kundendaten Daten aus den Filialen Demographische Daten Geographische Daten Aggregation (zielgerichtet) Information X lebt in Z S ist Y Jahre alt X und S sind umgezogen W hat Geld in Z Interpretation Wissen Anzahl Y des Produkts A wird in Gebiet Z verwendet Kunden der Klasse Y verwenden x% von C in Zeitraum D Entscheidung Sonderangebot für Produkt A in Gebiet Z Mailings an Familien mit Profil P Cross-Selling von Produkt an Kunden C Einsatzgebiete für Data Mining I Versicherung Welche Kunden sind unzufrieden und neigen zur Vertragskündigung? Wie kann man unzufriedene Kunden halten? In welche Risikoklasse fällt mein neuer Kunde? Medizin Gibt es Indikatoren für eine spezielle Krankheit und wenn ja, wie sehen diese aus? 3 4

Einsatzgebiete für Data Mining II Einsatzgebiete für Data Mining III Banken Lässt sich betrügerisches Verhalten erkennen? Börse Existieren ähnliche Muster in Aktienkursverläufen? Geologie Was sind typische Charakteristika für Erdbeben? Lassen sich diese für Vorhersagen nutzen? Handel Welche Produkte werden häufig zusammen gekauft? Lässt sich das Einkaufverhalten durch günstige Platzierung beeinflussen? Welche Kundengruppen sollen gehalten werden? An wen soll gezielt Werbung geschickt werden? Welche Produkte können einem Kunden empfohlen werden? 5 6 Thema dieses Blocks Data Preprocessing - Motivation Data Preprocessing: Vorbereiten der Daten für das Data Mining Ausfüllen fehlender Datenobjekte Änderung von Attributen Diskret nach Stetig Zusammengesetzte Attribute Unterteilung des Datenbestands in Training, Validation und Test Sets Fehlende Attribute verzerren Ergebnis Fehler im Datensatz verzerren Ergebnis Algorithmen erfordern bestimmte Daten Tool Oracle Data Miner 7 8

Oracle Data Miner - Anmeldung Oracle Data Miner - Übersicht Starten: s:\odminer\bin\odminer Login-Screen: 9 10 Daten Importieren Datentransformation I Data Transformation: Data -> Transform Aggregate: Einfügen eines Aggregats Compute Field: Berechnetes Attribut Discretize: Diskretisierung von Attributen Filter Single-Record: Filtern von Tupeln 11 12

Datentransformation II Datentransformation III Missing Values: Behandlung fehlender Werte Normalize: Normalisierung von Werten Numeric: Modifikation von Werten Outlier Treatment: Behandlung von Outliern Recode: einzelnen Attribut-Werten neue Werte zuweisen Sample: Sample aus den Daten erstellen Stratified Sample: Sample, bei dem einzelne Attribute mit gewünschter Gewichtung eingebracht werden Split: Teilt Daten auf für Modellerstellung und Modelltest 13 14 Aggregatberechnung Berechnete Attribute Aggregate Attributname gewünschte Funktion All oder Distinct Parameter (Attribut, dessen Werte aggregiert werden) Optional group by oder having Compute Field View erstellen mit neuem, berechnetem Attribut Tabelle auswählen, die neues Attribut erhalten soll Ausdruck definieren ggf. validieren 15 16

Diskretisierung von Attributen I Diskretisierung von Attributen II Discretize Naive Bayes, Adaptive Bayes Networks und Clusteralgorithmen in Oracle brauchen categorische Attribute numerische Daten in diskrete Bereiche ( bins ) unterteilen zuerst die Datentypen überprüfen numerische Datentypen werden angezeigt wir wollen exemplarisch das Attribut Age transformieren Equal Width Binning: bins mit gleicher Breite Parameter: Anzahl der bins Quantile Binning: erstellt bins nach komplexeren Kriterien, Breite der bins nicht mehr gleich. 17 18 Behandlung fehlender Werte Normalisierung von Werten Missing Values Stören beim Data Mining Ersetzung durch: min, max, mean, mode, none, custom value oder Elimininierung des Attribute Normalize Wertebereiche unterscheiden sich z.b. Alter und Einkommen manche Algorithmen reagieren darauf z.b. Einkommen wichtiger als Alter Lösung: Normalisierung Vorgehen Auswahl des Attributs Angabe einer Formel Angabe des Wertebereichs 19 20

Transformieren von Werten Behandlung von Ausreißern Numeric Ähnlicher Ansatz wie Normalize Ziel: Werte besser vergleichbar Bsp: Formel ln(x plus a) Outlier Treatment Manche Algorithmen reagieren empfindlich auf Ausreiser Thresholds Vielfaches der Standardabweichung Angabe eines Anteils der ignoriert werden soll Angabe einer Ober- und Untergrenze Ersetzen der Werte mit Null Grenzwert 21 22 Nutzen von Abbildungsfunktionen Unterteilung des Datenbestandes Recode Werte oder Wertebereiche ersetzen Bedingung definieren Value <=,>= oder = Range Null value Other values Für Data Mining werden drei Datensätze benötigt: Training Set: Model Erstellung Test Set: Modell Test (manchmal) Validation Set: Model Tuning Aufbereitete Relation muss unterteilt werden 23 24

Einfache Unterteilung des Datensatzes Split erstellt automatisch zwei Tabellen Festlegung der Tabellengröße aber: keine Möglichkeit, inhaltlich auf die Zerlegung Einfluss zu nehmen Unterteilung der Datenmenge mit geg. Seed Sample Zufällige Auswahl der Tupel Parameter: Größe in Prozent oder absolut Reproduzierbarkeit Über Random Number Seed gleicher Random Number Seed liefert stets gleiches Sample 25 26 Unterteilung der Datenmenge nach Attribut I Stratified Sample gewichtetes Sampling Sampling abhängig von Attributverteilung Beispiel: Anteil Frauen an der Bevölkerung 50% Sample sollte das widerspiegeln Unterteilung der Datenmenge nach Attribut II Vorgehen Sample Distribution je 50 Prozent Ergebnis unten links Sample rechts Stratified Sample 27 28

Bedeutung von Attributen Zur Vorhersage eines Zielattributs sollten die Attribute genutzt werden die großen Einfluss auf dieses Attribut haben Tool hier: Attribute Importance. Parameter Zu analysierender Datensatz Optional: Automatic Preparation Fehlende Werte werden behandelt Diskretisierung wird durchgeführt kategorische Werte werden neu zusammengefasst Aber: Bessere Ergebnisse durch manuelle Bearbeitung Umwandlung von Sichten in Tabellen Für Perfomanz sinnvoll Vorgehen: View angeben Name der Tabelle angeben 29 30