Künstliche Neuronale Netze und Data Mining



Ähnliche Dokumente
Data Mining mit der SEMMA Methodik. Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG

Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining

DISKUSSIONSBEITRÄGE DER FAKULTÄT FÜR BETRIEBSWIRTSCHAFTSLEHRE MERCATOR SCHOOL OF MANAGEMENT UNIVERSITÄT DUISBURG-ESSEN. Nr. 374

Predictive Modeling Markup Language. Thomas Morandell

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining

Allgemeine Regressionsanalyse. Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl. deterministisch

26. GIL Jahrestagung

Institut für Computational Engineering ICE. N ä h e r d ra n a m S ys t e m d e r Te c h n i k d e r Z u ku n f t. w w w. n t b.

Neuronale Netze (I) Biologisches Neuronales Netz

PPC und Data Mining. Seminar aus Informatik LV Michael Brugger. Fachbereich der Angewandten Informatik Universität Salzburg. 28.

Kapitel LF: IV. IV. Neuronale Netze

MS SQL Server 2012 (4)

Einführung in neuronale Netze

Data Mining und maschinelles Lernen

Hauptseminar am Fachgebiet für Quantitative Methoden der Wirtschaftswissenschaften

Exploration und Klassifikation von BigData

Data Mining: Einige Grundlagen aus der Stochastik

Bestandskundenmanagement Wo drückt bei Ihnen der Schuh?

Risiken bei der Analyse sehr großer Datenmengen. Dr. Thomas Hoppe

Data/Information Quality Management

Kapitel LF: IV. Multilayer-Perzeptrons und Backpropagation. Multilayer-Perzeptrons und Backpropagation. LF: IV Machine Learning c STEIN

9 Resümee. Resümee 216

Algorithmische Modelle als neues Paradigma

Talentmanagement in der Praxis

Jan Parthey, Christin Seifert. 22. Mai 2003

Verborgene Schätze heben

Prof. Dr.-Ing. Rainer Schmidt 1

Automatische Mustererkennung zur Klassifikation von Konsumentenverhalten am Beispiel der Kreditwürdigkeitsprüfung

Wichtige Information zur Verwendung von CS-TING Version 9 für Microsoft Word 2000 (und höher)

Keine Disketteneinreichung ab 1. Februar 2014

Naturgewalten & Risikoempfinden

Lineare Gleichungssysteme

TNS EX A MINE BehaviourForecast Predictive Analytics for CRM. TNS Infratest Applied Marketing Science

Die Makler System Club FlowFact Edition

Informationsflut bewältigen - Textmining in der Praxis

white sheep GmbH Unternehmensberatung Schnittstellen Framework

Entwicklung des Dentalmarktes in 2010 und Papier versus Plastik.

Ablaufbeschreibung Einrichtung EBICS in ProfiCash

GeFüGe Instrument I07 Mitarbeiterbefragung Arbeitsfähigkeit Stand:

Ideation-Day Fit für Innovation

Personalentwicklung. Umfrage zur Personalentwicklung. Februar Cisar - consulting and solutions GmbH. In Zusammenarbeit mit

Praktikum Computational Intelligence 2 Ulrich Lehmann, Johannes Brenig, Michael Schneider

Data Mining - Marketing-Schlagwort oder ernstzunehmende Innovation?

Cambridge ESOL BULATS Online FAQs Konfiguration des Internet Explorers

PQ Explorer. Netzübergreifende Power Quality Analyse. Copyright by Enetech Alle Rechte vorbehalten.

Fraud Prevention. Intelligente Bekämpfung von Betrug in Finanzinstituten

Korrelation - Regression. Berghold, IMI

Market Basket Analysis oder: isst man Salat zum Schnitzel?

MEHR ANALYTICS FÜR MEHR ANWENDER DR. GERHARD SVOLBA COE ANALYTICS DACH WIEN, 11. JUNI 2015

pro.s.app document status check Bringen Sie mehr Transparenz in Ihre Dokumente

Inhaltsverzeichnis. Fragestellungen und Methoden 11. Vorwort 15. Kapitel 1 Einführung 17. Kapitel 2 Statistische Grundbegriffe 23

Prozessbewertung und -verbesserung nach ITIL im Kontext des betrieblichen Informationsmanagements. von Stephanie Wilke am

riskkv Scorenalyse riskkv Scoring Seite 1 von 9

Welcome to the Club!

Mitarbeiterbefragung zur Führungsqualität und Mitarbeitermotivation in Ihrem Betrieb

Einrichten des Elektronischen Postfachs

Wenn die Margen Trauer tragen Business Process Outsourcing im Direktgeschäft

Eine Bürokratiekostenfolgenabschätzung zum zweiten Gesetz für moderne Dienstleistungen am Arbeitsmarkt im Hinblick auf die Einführung einer Gleitzone

Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07

Outlook 2010 Daten importieren und exportieren

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen

Survival of the Fittest Wie statistische Modelle an Daten angepasst werden

1. Übers Menü Mandant öffnen Sie die entsprechende Buchhaltung. 2. Die geöffnete Buchhaltung wird Ihnen im oberen linken Bereich angezeigt.

Keine Disketteneinreichung ab 1. Februar 2014

Auszüge eines Vortrags von Axel Braunger im Rahmen der TOPIX Tour 2009

Die Wahlpflichtfächer. Operations Research Statistik/Ökonometrie. Optimierung linearer Modelle Statistische Analyseverfahren

W.WIINM32.11 (Datawarehousing) W.WIMAT03.13 (Statistik)

How-to: Webserver NAT. Securepoint Security System Version 2007nx

Gemischte Modelle. Fabian Scheipl, Sonja Greven. SoSe Institut für Statistik Ludwig-Maximilians-Universität München

Wollen Sie einen mühelosen Direkteinstieg zum Online Shop der ÖAG? Sie sind nur einen Klick davon entfernt!

Inhaltsverzeichnis. I Einführung in STATISTICA 1. 1 Erste Schritte in STATISTICA 3

«Eine Person ist funktional gesund, wenn sie möglichst kompetent mit einem möglichst gesunden Körper an möglichst normalisierten Lebensbereichen

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining.

Educase. Release Notes 1.7: Neue Funktionen und Verbesserungen. Base-Net Informatik AG Wassergrabe 14 CH-6210 Sursee

Jeopardy and andere Quizformate im bilingualen Sachfachunterricht Tipps zur Erstellung mit Powerpoint

Benutzerkonto unter Windows 2000

Cross-Selling bei Versicherungen. Empirische Analyse zu Status quo, Trends und zukünftigen Anforderungen

Self-Service Business Intelligence. Barthel, Björn, Key Account Manager Enterprise Information Management, Stuttgart

Data Mining-Modelle und -Algorithmen

Einrichten einer Verbindung zwischen BlackBerry Endgerät und Exchange Postfach

Summer Workshop Mehr Innovationskraft mit Change Management

Statistische Datenanalyse mit SPSS

Internet Explorer Version 6

Anleitung zum Extranet-Portal des BBZ Solothurn-Grenchen

Schwerpunkt Statistik

Data Mining Anwendungen und Techniken

360 - Der Weg zum gläsernen Unternehmen mit QlikView am Beispiel Einkauf

Wie Projektziele gemessen werden können oder wie man Indikatoren entwickeln kann?

Die nachfolgende Anleitung zeigt die Vorgehensweise unter Microsoft Windows Vista.

Web Mining effektive Analyse des Nutzer- Verhaltens im Internet

Commercial Banking Übung 1 Kreditscoring

Die Orgadata AG ist ein stark expandierendes Software-Unternehmen aus Leer. Mit unserem System LogiKal

Was bisher geschah Künstliche Neuronen: Mathematisches Modell und Funktionen: Eingabe-, Aktivierungs- Ausgabefunktion Boolesche oder reelle Ein-und

Einrichten einer Festplatte mit FDISK unter Windows 95/98/98SE/Me

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

Data Mining SAS Mining Challenge Einführung in SAS Enterprise Miner

In diesem Kurs lernen Sie, wie in EXCEL Diagramme erzeugt werden und was Sie dabei beachten sollten.

Wir nehmen Aufgaben und Ideen wahr. Wir suchen Lösungen zu Ideen.

Data Mining-Projekte

Seminar Business Intelligence Teil II. Data Mining & Knowledge Discovery

Transkript:

Künstliche Neuronale Netze und Data Mining Catherine Janson, icasus GmbH Heidelberg Abstract Der Begriff "künstliche Neuronale Netze" fasst Methoden der Informationstechnik zusammen, deren Entwicklung durch vergleichende Betrachtung der Arbeitsweisen von Computer und menschlichem Gehirn motiviert war. Unter anderem können damit Aufgaben zur Klassifikation und Vorhersage erfüllt werden, die typischerweise im Data Mining auftreten. Im angebotenen Vortrag wird nach einer kurzen Einführung / Auffrischung in das Thema Data Mining zunächst der theoretische Hintergrund vorwärtsgerichteter Neuronaler Netze behandelt (Schlagworte sind: Berechnungselemente, Netzarchitektur, Lernen / Training). Zum Vergleich werden auch kurz weitere Klassifikationsverfahren besprochen. Anschliessend werden die Methoden an einem Klassifikationsbeispiel mit Hilfe des SAS Enterprise Miner demonstriert. c.janson@icasus.de 1

Definition Data Mining DM ist ein Prozeß, aus großen, bislang unübersehbaren Datenmengen nichttriviale Informationen zu gewinnen, die bisher unbekannt waren und die in konkrete Aktionen und Business-Entscheidungen umsetzbar sind. Interdisziplinäres Feld: Techniken aus Visualisierung, machine learning, Mustererkennung, Statistik allgemeine Aufgaben Aufdeckung unbekannter Gesetzmäßigkeiten, Gruppierungen in Beobachtungen oder Variablen - Visualisierung, explorative Datenanalyse, Clusterverfahren, Faktorenanalyse Herausfiltern derjenigen Informationen / Variablen, die für eine Vorhersage / Klassifikation relevant sind - Variablenselektion Prognose auf Basis von Informationen aus der Vergangenheit - überwachte Klassifikation, Funktionsanpassung 2

Ziel / Anwendungsgebiete Database-Marketing: gezieltere Marketing-Maßnahmen auf Basis von Kundendaten Customer Relationship Management: Segmentierung des Kundenbestandes in homogene Gruppen (Eigenschaften / Kaufverhalten) Identifikation profitabler / nicht profitabler Kunden (Scoring) Identifikation absprunggefährdeter Kunden, Bindung / Rückgewinnung weitere Anwendungsgebiete: Produkt-/Angebotsgestaltung / Warenpräsentation Cross-Selling Preis-/Tarifgestaltung Lagerhaltung, Disposition, Nachfrageprognose Aufdecken von Betrug Bonitätsprüfung / Kreditscoring Entwicklungsprognosen (Netzauslastung, Kundenzahl) WEB-Mining personalisierte Seiten, Seitenstruktur / Nutzerführung 3

Branchen: Zugang, elektronische Haltung von (umfangreichen) Kundendaten: Banken, Versicherungen, Versandhandel, Telekommunikation, -Business Datenbasis: Kundeneigenschaften - Alter, Geschlecht, Beruf, Familie, Lifestyle Kundenverhalten - Produktpräferenz, Kauffrequenz, Dauer der Geschäftsbeziehung externe Daten - sozioökonomische Daten DM-Prozess SEMMA : Sample: Stichprobenziehen, Partitionierung Explore: Hypothesengenerierung, (multidimensionale) Visualisierung, Plausibilitäts- Konsistenzprüfung, Assoziations-, Sequenzanalysen Modifikation: Ausreisser, Missings, Transformation, Faktorenanalyse Modellierung: Regression, Entscheidungsbaum, Neuronale Netze, Diskriminanzanalyse, Zeitreihen Auswertung: Modellbewertung, -vergleich 4

Klassifikationsverfahren Unüberwachte Klassifikation: Klassifizieren der Daten nur aufgrund der erfaßten Merkmale, keine a priori Klassen-Variable vorhanden. > Clusterverfahren Überwachte Klassifikation: Erstellen eines Modells (Abbildungsvorschrift) auf Basis vorhandener Klasseninformation. Anwendung des Modells auf neue Daten > (logistische) Regression, Entscheidungsbäume, Neuronale Netze, Diskriminanzanalysen Klassifikation, Scoring: qualitative Zielgröße (kauft / kauft nicht) Vorhersage: quantitative Zielgröße (Absatzprognose) (Künstliche) Neuronale Netze Idee: Verknüpfung von einfachen Berechungseinheiten Neuronale Netze als Sammelbegriff für flexible, nichtlineare Modelle Vielzahl von Architekturen, Trainingsalgorithmen, Aktivierungs- und Schwellwertfunktionen, Fehlerfunktionen hier: vorwärtsgerichtete NN Input: Unabhängige Gewichtung Variablen, Einflußfaktoren Output: abhängige Variablen, Klassifikation, Zielgröße 5

Neuronale Netze: ein Berechnungselement (hier: Multilayer Perceptron) o i W i,j o i+1 o i+2 W i+1,j W i+2,j W i+3,j Σ f() Ausgabe: f(θ j + Σ ni w ij o i ) o i+3 o i+4 W i+4,j +θ j Schwellwertfunktion f Aktivierungsfunktion sigmoid, z.b. tanh,(1+e -x ) -1 Neuronale Netze: Architektur bedingt Modellgleichung logistische Regression, falls f logistisch, multivariate lineare Regression, f linear: out = f(θ i + Σ i w i in i ) multivariate, multiple nichtlineare Regression: out k = f(θ k + Σ nh w jk f(θ j + Σ ni w ij in i ) 6

Lernen = Schätzen der Parameter wiederholte Präsentation der Trainingsdaten und Anpassung der Gewichte w jk mit dem Ziel Minimierung des Klassifikationsfehlers bzw. der Fehlerfunktion, z.b. Quadratsumme (beobachtete erwartete Ausgabe) über alle Ausgabe-Einheiten und alle Trainingsbeobachtungen Fehlerfunktion E = Σ np Σ no (t ik o ik ) 2 Lernen : Trainingsalgorithmus Gradientenabstiegsverfahren (Modifikationen des Backpropagation Algorithmus) wjk = γ E wjk? Lokale Minima Startpunkt 7

Probleme Stichprobengröße N Anzahl zu schätzender Parameter Np Daumenregel: N > 5 bis 25 mal Np Modellkomplexität Überanpassung an Trainingsdaten (Overtraining) -> Daten- Partition und Nutzung von Validierungsdaten Interpretierbarkeit Neural networks are especially useful for prediction problems where: no mathematical formula is known that relates inputs to outputs. prediction is more important than explanation. there is lots of training data. 8

Optimum der Fehlerfunktion 9