1 Predictive Analytics mit Random Forest

Größe: px
Ab Seite anzeigen:

Download "1 Predictive Analytics mit Random Forest"

Transkript

1 Predictive Analytics Demokratie im Wald 1

2 Agenda 1. Predictive Analytics Übersicht 2. Random Forest Grundkonzepte und Anwendungsfelder 3. Entscheidungsbaum Classification and Regression Tree (CART) 4. Bagging die Idee hinter dem Erfolg von Random Forest 5. Random Forest die Klassifikationsmethode im Detail 6. Random Forest Anwendungsbeispiele 7. Zusammenfassung 8. Quellen 9. Geplante nächste Termine 10.Themensammlung und -bewertung 3

3 Predictive Analytics??? Was ist Predictive Analytics? 4

4 Predictive Analytics Zwei Kinder Paradoxon Problem Eine Familie hat zwei Kinder, eins davon ist ein Junge. Wie hoch ist die Wahrscheinlichkeit, dass das zweite Kind auch ein Junge ist? Die meisten antworten: P = 1 2 Richtige Antwort: P = 1 3 Erläuterung Älteres Kind Junge Mädchen Junge Mädchen Jüngeres Kind Mädchen Junge Junge Mädchen 1 3 5

5 Predictive Analytics Geburtstagparadoxon Problem Wie hoch ist die Wahrscheinlichkeit, dass in einem Raum von n=50 Personen mindestens zwei am selben Tag im Jahr Geburtstag feiern? Richtiger Antwort P = 97% Erläuterung Es ist einfacher die Gegenwahrscheinlichkeit zu berechnen, also die Wahrscheinlichkeit, dass 50 Personen alle an unterschiedlichen Tagen Geburtstag haben. 1 - P = Ergebnis für verschiedene Anzahlen von Personen = 0.03 = 3% n P 2.7% 11.7% 41.1% 50.7% 70.6% 89.1% 97% 99.4% 99.9% 6

6 Predictive Analytics Verschiedene Definitionen i Was verstehen wir unter Data Mining ist der Prozess des Entdeckens bedeutsamer neuer Zusammenhänge, Muster und Trends durch die Analyse (großer) Datensätze mittels Mustererkennung sowie statistischer und mathematischer Verfahren (Erick Brethenoux, Gartner Group). An intrinsic feature of time series is that, typically, adjacent observations are dependent. The nature of this dependence among observations of a time series is of considerable practical interest. Time Series Analysis ist concerned with techniques for the analysis of this dependence. (George E.P. Box, PHD, Professor Emeritus of Statistics at the University of Wisconsin-Madison) Predictive Analytics generiert aus Daten operative Aktionen, indem verlässliche Schlüsse zur aktuellen Situation und zukünftigen Ereignissen erkannt bzw. prognostiziert werden. (Gartner Group) 7

7 Predictive Analytics Blickt in die Zukunft! i Predictive Analytics richtet den Blick in die Zukunft! Reporting und OLAP Predictive Analytics Vergangenheit Gegenwart Zukunft Aufgabe Kundenwert Betrugserkennung Kündigeranalysen Cross-Selling Kundenakquisition Umsatzplanung Reporting und OLAP (Vergangenheit und Gegenwart) TOP 10-Kunden des letzten Jahres Erkannte Betrugsfälle des letzten Jahres Kündigungen des letzten Jahres Produkt-Verkaufszahlen des letzten Jahres Wie war die Antwortquote der Mailing- Aktion? Tägliche Verkaufsmenge im Schnitt Predictive Analytics (Zukunft) Zukünftige TOP-Kunden Liste auffälliger Kunden / Vorgänge mit erhöhter Betrugswahrscheinlichkeit Kunden mit erhöhter Kündigungsbereitschaft Kunden mit hoher Kaufwahrscheinlichkeit für ein Produkt Kunden (-profile), bei denen eine erhöhte Response-Rate zu erwarten ist Welche Verkaufsmengen sind zukünftig zu erwarten? 8

8 Predictive Analytics Verfahren i Zahlreiche statistische Verfahren Lineare Regression Logistische Regression Neuronale Netze Diskriminanzanalyse Entscheidungswald Support Vector Machine ARIMA oder GARCH Assoziationsanalyse State Space Modell Smoothing Splines Ungerichteter Markov-Graph 9

9 Agenda 1. Predictive Analytics Übersicht 2. Random Forest Grundkonzepte und Anwendungsfelder 3. Entscheidungsbaum Classification and Regression Tree (CART) 4. Bagging die Idee hinter dem Erfolg von Random Forest 5. Random Forest die Klassifikationsmethode im Detail 6. Random Forest Anwendungsbeispiele 7. Zusammenfassung 8. Quellen 9. Geplante nächste Termine 10.Themensammlung und -bewertung 10

10 Random Forest Grundkonzepte Wird der Kunde seinen Vertrag kündigen? Baum 1 Baum 2 Baum 3 Baum 4 Baum 5 Baum 6 Was ist Random Forest? Ja Nein Ja Ja Nein Ja Random Forest Bagging Ja Entscheidungsbaum 11

11 Random Forest Anwendungsfelder Random Forest kann alle Arten von Inputmerkmalen (stetige und kategoriale) verarbeiten, z.b die Anzahl der Kinder eines Kunden, der jährliche Verdienst des Kunden, usw ist sowohl für Klassifikation (kategoriale Zielvariable z.b. eine 0-1 Variable) als auch für Regression (stetige Zielvariable z.b. die Einkaufsmenge eines Kunden) geeignet Keine Annahme über die Verteilung der Daten Keine Transformation notwendig Random Forest kann in folgenden Feldern angewandt werden Gesichtserkennung Betrugserkennung Krebsfrüherkennung Vorhersage vom Verursacher der Umweltverschmutzung Kreditrisiko und Scoring Churn Analyse Assoziationsanalyse usw 12

12 Agenda 1. Predictive Analytics Übersicht 2. Random Forest Grundkonzepte und Anwendungsfelder 3. Entscheidungsbaum Classification and Regression Tree (CART) 4. Bagging die Idee hinter dem Erfolg von Random Forest 5. Random Forest die Klassifikationsmethode im Detail 6. Random Forest Anwendungsbeispiele 7. Zusammenfassung 8. Quellen 9. Geplante nächste Termine 10.Themensammlung und -bewertung 13

13 Entscheidungsbaum - Terminologie Wurzelknoten oder Wurzel Splitvariable Region Knoten Endknoten oder Blatt 14

14 Entscheidungsbaum für Regression Gegeben N Beobachtungen (x i, y i ) für i = 1,2,, N p Merkmale, sodass x i = (x i1, x i2,, x ip ) eine Zielvariable Y in jede entstandene Region, wir modellieren die Zielvariable mit einer Konstante für jedes Merkmal j und Aufteilungspunkt s definiere und Finde Splitvariable j und Aufteilungspunkt (Splitpunkt) s, sodass folgender Ausdruck gelöst wird Aufteilung der Knote in zwei Tochterknoten und Fortsetzung des Algorithmus 15

15 Entscheidungsbaum für Klassifikation Zwei Unterschiede zur Regression 1. Ordne in jedem Blatt zu der am meisten vertretenden Klasse 2. Quadratische Fehler für einen Split ist nicht mehr geeignet. Stattdessen benutze Fehlklassifikationsrate (Gini-Index, Cross-Entropy, usw. ) Allgemeine Best Practices 1. Setze den Split-Prozess solange fort, bis eine minimale Anzahl von Beobachtungen in Blättern erreicht wird. 2. Benutze ein Kosten-Komplexitätskriterium, um einen Kompromiss zwischen Anpassungsgüte und Tiefe zu finden Dies heißt Pruning 16

16 Agenda 1. Predictive Analytics Übersicht 2. Random Forest Grundkonzepte und Anwendungsfelder 3. Entscheidungsbaum Classification and Regression Tree (CART) 4. Bagging die Idee hinter dem Erfolg von Random Forest 5. Random Forest die Klassifikationsmethode im Detail 6. Random Forest Anwendungsbeispiele 7. Zusammenfassung 8. Quellen 9. Geplante nächste Termine 10.Themensammlung und -bewertung 17

17 Bagging Begriffserklärung Gegeben einen Datensatz mit N Beobachtungen Eine Bootstrap-Stichprobe des Datensatzes bekommt man, indem man eine Stichprobe der gleichen Länge mit Zurücklegen aus dem originalen Datensatz zieht Bagging verwendet das gleiche Modell für B Bootstrap-Versionen des originalen Datensatzes und berechnet den Mittelwert aus den Vorhersagen der B Modelle verringert hierdurch die Variabilität der Vorhersage (siehe nächste Folie) funktioniert besser mit Vorhersagen, die keine Bias (Verzerrung = in der Statistik die Differenz zwischen dem Erwartungswert einer Statistik und dem zu schätzenden Wert) vorweisen aber eine große Varianz besitzen. Z.B. Entscheidungsbäume 18

18 Bagging Warum funktioniert das? Seien θ 1, θ 2,, θ B unabhängigen Vorhersagen von einem Wert θ, jeweils mit Varianz σ 2 Var 1 B B θ i i=1 B = 1 B 2 Var(θ i i=1 ) = σ2 B B 0 Also die Variabilität in der Vorhersage hat sich verbessert und verschwindet mit der Anzahl von Bootstrap-Stichproben Im Falle vom Random Forest müssen die Entscheidungsbäume unkorrelliert sein. Dies geschieht durch Randomisierung, daher das Wort Random in dem Namen 19

19 Agenda 1. Predictive Analytics Übersicht 2. Random Forest Grundkonzepte und Anwendungsfelder 3. Entscheidungsbaum Classification and Regression Tree (CART) 4. Bagging die Idee hinter dem Erfolg von Random Forest 5. Random Forest die Klassifikationsmethode im Detail 6. Random Forest Anwendungsbeispiele 7. Zusammenfassung 8. Quellen 9. Geplante nächste Termine 10.Themensammlung und -bewertung 20

20 Random Forest Definitionen i Random Forest ist... ein statistisches Verfahren in der Kategorie der Ensemble-Techniken, das eine große Menge von unkorrelierten Entscheidungsbäumen durch Randomisierung erzeugt, die auf Bootstrap-Stichproben des originalen Datensatzes trainiert werden und dadurch effizient die Varianz der Vorhersage reduziert. 21

21 Random Forest Randomisierung und Anzahl von Bäumen Die Randomisierung wird dadurch erzielt, dass für jeden Split eine zufällige Menge m aus den p Input-Merkmalen als mögliche Split-Variable gezogen wird Die Zahl m soll vom Anwender gewählt werden. Übliche Werte sind m = p für Klassifikation und m = p 3 für Regression aus den Daten mit Kreuzvalidierung ermittelt werden Die Wahl der Anzahl B von Entscheidungsbäumen soll ebenso durch Kreuzvalidierung erfolgen 22

22 Random Forest K-fache Kreuzvalidierung Kreuzvalidierung ist die häufigste benutzte Methode, um die Anpassungsgüte eines Modells zu beurteilen Algorithmus einer K-fache Kreuzvalidierung 1. Teile den Train-Datensatz in K fast gleich große, nicht überlappende Teilemengen auf 2. Nimm eine Teilmenge zur Seite (Validierungsteilmenge), trainiert das Modell auf die übrigen Daten und benutze die Validierungsteilmenge, um das Modell zu testen 3. Jede Teilmenge muss einmal als Validierungsteilmenge benutzt werden, sodass das Modell insgesamt K-Mal trainiert wird Wenn man N Beobachtungen hat, heißt eine N-fache Kreuzvalidierung auch Leave-oneout Kreuzvalidierung Best Practice empfiehlt eine 10-fache Kreuzvalidierung 5-fache Kreuzvalidierung Train Train Validierung Train Train 23

23 Random Forest Out-of-bag und Einfluss von Merkmalen Die Beobachtungen, die nicht in einer Bootstrap-Stichprobe auftauchen sind out-of-bag Eine Out-of-bag-Fehlerrate kann für jede Beobachtung über den gesamten Wald berechnet werden und kann deshalb als leave-one-out-fehlerrate gesehen werden Fazit : Im Gegensatz zu den meisten Modellen kann eine Kreuzvalidierung schon während der Anpassung von Random Forest durchgeführt werden Für jeden Split kann man für den Split-Merkmal die Verbesserung in dem Split- Kriterium berechnen. Der Einfluss von einem Merkmal wird als die Summe der Verbesserungen in dem Split-Kriterium über den gesamten Wald hinweg berechnet Liste der wichtigsten Merkmale 24

24 Agenda 1. Predictive Analytics Übersicht 2. Random Forest Grundkonzepte und Anwendungsfelder 3. Entscheidungsbaum Classification and Regression Tree (CART) 4. Bagging die Idee hinter dem Erfolg von Random Forest 5. Random Forest die Klassifikationsmethode im Detail 6. Random Forest Anwendungsbeispiele 7. Zusammenfassung 8. Quellen 9. Geplante nächste Termine 10.Themensammlung und -bewertung 25

25 Fall 1: Erkennung echter und gefälschter Schweizer Franken Die 1000-Schweizer Franken Banknoten der zweiten Banknotenserie 1911 wurden erstmals am ausgeben. Diese Banknoten waren ungewöhnlich lange im Umlauf und daher ein begehrtes Objekt für Fälscher Zwei Datensätze: Lern- und Testdatensatz Lerndatensatz : 60 falsche und 60 echte Banknoten zur Entwicklung des Modells Testdatensatz : 40 falsche und 40 echte Banknoten zum Testen unseres entwickelten Modells Zwei Klassen : Echten und falschen Banknoten 26

26 Fall 1: Falsche Banknoten von den echten unterscheiden Merkmale 1. length : Länge der Banknote 2. lheight : Höhe der Banknote, auf der linken Seite gemessen 3. rheight : Höhe der Banknote, auf der rechten Seite gemessen 4. lmargin : Abstand vom inneren Rahmen zur unteren Grenze 5. umargin : Abstand vom inneren Rahmen zur oberen Grenze 6. diagonal : Länge der Diagonale 27

27 Fall 1: Verteilung der Variablen in den zwei Klassen echt falsch Train Test Die Trennfähigkeit der Variablen ist unterschiedlich. lmargin trennt z.b. besser als length Die Verteilung in beiden Klassen in fast gleich 28

28 Fehlerrate (in %) Fall 1: Kreuzvalidierung 1. Eine 10-fache Kreuzvalidierung empfiehlt die Anwendung von 1100 Bäumen für den Wald 2. Eine Kreuzvalidierung mit 1100 Bäumen und m = 2, 3 und 4 suggeriert den Wert m = 2 5-fache und 10-fache Kreuzvalidierung Anzahl der Bäume im Wald 29

29 Fall 1: Banknoten - Ergebnisse der Klassifikation Lerndatensatz Testdatensatz Wahre Klasse Wahre Klasse Echt Falsch Echt Falsch Prognose Echt 58 2 Falsch 2 58 Prognose Echt 39 2 Falsch 1 38 Im Testdatensatz 39 der 40 echten Banknoten wurden als echt erkannt (True Positiv) 1 der 40 echten wurde als falsch erkannt (False Negativ) 2 der 40 falschen Banknoten wurden als echt zugeordnet (False Positiv) 38 der 40 falschen Banknoten wurden als falsch erkannt (True Negativ) 30

30 Fall 2: Big Data Regression mit simulierten Daten 1 Million Beobachtungen von 11 simulierten Variablen 9 ersten Variablen V 1 - V 9 sind uniformverteilt, wobei vari zufällige Werte zwischen 0 und 10i nimmt. Z.B. V 7 liegt zufällig zwischen 0 und 70 V 10 ist auch uniformverteilt zwischen 1 und 100 V 11 ist binomialverteilt mit Wahrscheinlichkeit 0.7, d.h. eine binäre ( Ja-Nein ) Variable mit der Wahrscheinlichkeit von Ja gleich 0.7 Die Zielvariable y ist mit folgender Gleichung simuliert worden y = V V 2V 3 10 V V V ln V V 8 + V 9 6e V I(V 11 = Ja) 8ln (V 10 ) 31

31 Fall 2: Big Data Verteilung der Daten Simulierte Daten werden in zwei Datenmengen geteilt: Beobachtungen zum Lernen und Beobachtungen zum Testen Auszug von Beobachtungen aus dem Traindatensatz y y y y y y y y y y Es scheint keine Struktur in den Daten zu geben 32

32 Häufigkeit Fall 2: Big Data Verteilung der Zielvariable Zielvariable Minimum 1. Quartile Median Mittelwert Standardabweichung Varianz 3. Quartile Maximum

33 Fall 2: Big Data Modellierung Achtung Traindatensatz ist zu groß, um eine hohe Anzahl von Bäumen im Wald zu trainieren Mögliche Lösungen 1. Kleine Bootstrap-Stichproben ziehen 2. Den Algorithmus von Random Forest parallelisieren 3. Beide erste Lösungen implementieren ( ) Unser Ansatz 1. Wir fahren mit Lösung 1. fort 2. Keine Kreuzvalidierung zum Vergleich der Modelle wird durchgeführt 3. Modelle werden mit dem out-of-bag-fehler verglichen 34

34 Fall 2: Big Data Ergebnisse Nr Anzahl Bäume Umfang B- Stichprobe Lernzeit in Sekunden OOB- Fehler Erklärte Varianz PMAE % % % % % % % 2.40 OOB = Out-of-bag PMAE = Predicted Mean Absolute Error = mittlere absolute Fehler der Prognose Die Güte des Modells steigt mit dem Umfang der Bootstrap-Stichprobe Das Modell verbessert sich auch mit wachsender Anzahl der Bäume im Wald Das beste Modell ist Modell 6 35

35 Agenda 1. Predictive Analytics Übersicht 2. Random Forest Grundkonzepte und Anwendungsfelder 3. Entscheidungsbaum Classification and Regression Tree (CART) 4. Bagging die Idee hinter dem Erfolg von Random Forest 5. Random Forest die Klassifikationsmethode im Detail 6. Random Forest Anwendungsbeispiele 7. Zusammenfassung 8. Quellen 9. Geplante nächste Termine 10.Themensammlung und -bewertung 36

36 Zusammenfassung Random Forest ist ein Ensemble-Verfahren, das die Mächtigkeit von Bagging benutzt und mehrere Entscheidungsbäume mittelt Random Forest ist ein sehr populäres statistisches Mittel, weil es sich zu jedem Datentyp und sowohl zu Regression als auch zu Klassifikation eignet Entscheidungsbäume schnell zu trainieren sind es komplexe nicht-lineare Strukturen modellieren kann es sich aufgrund der Unabhängigkeit der Bäume einfach parallelisieren lässt es automatisch Kreuzvalidierung beim Lernen durchführt es auch für unüberwachtes Lernen benutzt werden kann Jeder Parameter von Random Forest lässt sich optimal durch Kreuzvalidierung wählen Es gibt zahlreiche Implementierungen von Random Forest z.b. In R die Funktion randomforest im gleichnamigen Paket In SAS Enterprise Miner proc Forest oder proc HPForest In Weka und Fortran 77 37

37 Quellen 1. Hastie, Trevor et al (2009). The elements of statistical learning. Springer, second edition 2. Berk, Richard A. (2008). Statistical Learning from a Regression Perspective. Springer Series in Statistics. New York: Springer-Verlag 3. URL: 4. URL: 38

38 Vielen Dank für Ihre Aufmerksamkeit Dr. Arsene Ntiwa Foudjo XBI-APS Telefon:

Algorithmische Modelle als neues Paradigma

Algorithmische Modelle als neues Paradigma Algorithmische Modelle als neues Paradigma Axel Schwer Seminar über Philosophische Grundlagen der Statistik, WS 2010/11 Betreuer: Prof. Dr. Thomas Augustin München, den 28. Januar 2011 1 / 29 LEO BREIMAN

Mehr

Proseminar - Data Mining

Proseminar - Data Mining Proseminar - Data Mining SCCS, Fakultät für Informatik Technische Universität München SS 2012, SS 2012 1 Data Mining Pipeline Planung Aufbereitung Modellbildung Auswertung Wir wollen nützliches Wissen

Mehr

Data Mining mit der SEMMA Methodik. Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG

Data Mining mit der SEMMA Methodik. Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG Data Mining mit der SEMMA Methodik Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG Data Mining Data Mining: Prozeß der Selektion, Exploration und Modellierung großer Datenmengen, um Information

Mehr

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining Gliederung 1. Einführung 2. Grundlagen Data Mining Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining 3. Ausgewählte Methoden des Data

Mehr

PPC und Data Mining. Seminar aus Informatik LV-911.039. Michael Brugger. Fachbereich der Angewandten Informatik Universität Salzburg. 28.

PPC und Data Mining. Seminar aus Informatik LV-911.039. Michael Brugger. Fachbereich der Angewandten Informatik Universität Salzburg. 28. PPC und Data Mining Seminar aus Informatik LV-911.039 Michael Brugger Fachbereich der Angewandten Informatik Universität Salzburg 28. Mai 2010 M. Brugger () PPC und Data Mining 28. Mai 2010 1 / 14 Inhalt

Mehr

Data Mining und maschinelles Lernen

Data Mining und maschinelles Lernen Data Mining und maschinelles Lernen Einführung und Anwendung mit WEKA Caren Brinckmann 16. August 2000 http://www.coli.uni-sb.de/~cabr/vortraege/ml.pdf http://www.cs.waikato.ac.nz/ml/weka/ Inhalt Einführung:

Mehr

Häufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln

Häufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln Häufigkeitstabellen Menüpunkt Data PivotTable Report (bzw. entsprechendes Icon): wähle Data Range (Zellen, die die Daten enthalten + Zelle mit Variablenname) wähle kategoriale Variable für Spalten- oder

Mehr

MS SQL Server 2012 (4)

MS SQL Server 2012 (4) MS SQL Server 2012 (4) Data Mining, Analyse und multivariate Verfahren Marco Skulschus Jan Tittel Marcus Wiederstein Webseite zum Buch: http://vvwvv.comelio-medien.com/buch-kataiog/ms sql_server/ms sql

Mehr

Fachgruppe Statistik, Risikoanalyse & Computing. STAT672 Data Mining. Sommersemester 2007. Prof. Dr. R. D. Reiß

Fachgruppe Statistik, Risikoanalyse & Computing. STAT672 Data Mining. Sommersemester 2007. Prof. Dr. R. D. Reiß Fachgruppe Statistik, Risikoanalyse & Computing STAT672 Data Mining Sommersemester 2007 Prof. Dr. R. D. Reiß Überblick Data Mining Begrifflichkeit Unter Data Mining versteht man die Computergestützte Suche

Mehr

Data Mining - Marketing-Schlagwort oder ernstzunehmende Innovation?

Data Mining - Marketing-Schlagwort oder ernstzunehmende Innovation? 1. Konferenz der A Benutzer KFE in Forschung und Entwicklung Data Mining - Marketing-chlagwort oder ernstzunehmende Innovation? Hans-Peter Höschel,, Heidelberg 1. Konferenz der A Benutzer KFE in Forschung

Mehr

Proseminar - Data Mining

Proseminar - Data Mining Proseminar - Data Mining SCCS, Fakultät für Informatik Technische Universität München SS 2014, SS 2014 1 Data Mining: Beispiele (1) Hausnummererkennung (Klassifikation) Source: http://arxiv.org/abs/1312.6082,

Mehr

Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07

Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07 Regression Trees Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07 Ao.Univ.Prof. Dr. Marcus Hudec marcus.hudec@univie.ac.at Institut für Scientific Computing, Universität Wien 2

Mehr

Projektaufgaben Block 2

Projektaufgaben Block 2 Kurs BZQ III - Stochastikpraktikum WS 2013/14 Humboldt-Universität zu Berlin Randolf Altmeyer Philip-Moritz Eckert Projektaufgaben Block 2 Abgabe: bis 10.12.2013 Zur Einstimmung (freiwillig, ohne Abgabe)

Mehr

TNS EX A MINE BehaviourForecast Predictive Analytics for CRM. TNS Infratest Applied Marketing Science

TNS EX A MINE BehaviourForecast Predictive Analytics for CRM. TNS Infratest Applied Marketing Science TNS EX A MINE BehaviourForecast Predictive Analytics for CRM 1 TNS BehaviourForecast Warum BehaviourForecast für Sie interessant ist Das Konzept des Analytischen Customer Relationship Managements (acrm)

Mehr

Data Mining - Wiederholung

Data Mining - Wiederholung Data Mining - Wiederholung Norbert Fuhr 9. Juni 2008 Problemstellungen Problemstellungen Daten vs. Information Def. Data Mining Arten von strukturellen Beschreibungen Regeln (Klassifikation, Assoziations-)

Mehr

Neuerungen in Minitab 16

Neuerungen in Minitab 16 Neuerungen in Minitab 16 minitab@additive-net.de - Telefon: 06172 / 5905-30 Willkommen zu Minitab 16! Die neueste Version der Minitab Statistical Software umfasst mehr als siebzig neue Funktionen und Verbesserungen,

Mehr

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18 3. Deskriptive Statistik Ziel der deskriptiven (beschreibenden) Statistik (explorativen Datenanalyse) ist die übersichtliche Darstellung der wesentlichen in den erhobenen Daten enthaltene Informationen

Mehr

Data-Mining: Ausgewählte Verfahren und Werkzeuge

Data-Mining: Ausgewählte Verfahren und Werkzeuge Fakultät Informatik Institut für Angewandte Informatik Lehrstuhl Technische Informationssysteme Data-Mining: Ausgewählte Verfahren und Vortragender: Jia Mu Betreuer: Dipl.-Inf. Denis Stein Dresden, den

Mehr

Entscheidungsbaumverfahren

Entscheidungsbaumverfahren Entscheidungsbaumverfahren Allgemeine Beschreibung Der Entscheidungsbaum ist die Darstellung einer Entscheidungsregel, anhand derer Objekte in Klassen eingeteilt werden. Die Klassifizierung erfolgt durch

Mehr

MythMiner. Ein Empfehlungssystem für Fernsehprogramme auf Basis von RapidMiner. Balázs Bárány. Linuxwochen Wien, 7. 5. 2011

MythMiner. Ein Empfehlungssystem für Fernsehprogramme auf Basis von RapidMiner. Balázs Bárány. Linuxwochen Wien, 7. 5. 2011 Voraussetzungen für Data Mining und Text Mining Schluÿ Ein Empfehlungssystem für Fernsehprogramme auf Basis von RapidMiner Linuxwochen Wien, 7. 5. 2011 Voraussetzungen für Data Mining und Text Mining Schluÿ

Mehr

Commercial Banking Übung 1 Kreditscoring

Commercial Banking Übung 1 Kreditscoring Commercial Banking Übung Kreditscoring Dr. Peter Raupach raupach@wiwi.uni-frankfurt.de Sprechzeit Dienstag 6-7:00 Uhr Raum 603 B Kreditscoring Gliederung Grundanliegen Das Sample Modellspezifikation Diskriminanzanalyse

Mehr

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining.

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining. Motivation Themenblock: Klassifikation Praktikum: Data Warehousing und Data Mining Ziel Item hat mehrere Attribute Anhand von n Attributen wird (n+)-tes vorhergesagt. Zusätzliches Attribut erst später

Mehr

Seminar Text- und Datamining Datamining-Grundlagen

Seminar Text- und Datamining Datamining-Grundlagen Seminar Text- und Datamining Datamining-Grundlagen Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 23.05.2013 Gliederung 1 Klassifikationsprobleme 2 Evaluation

Mehr

Anwendung von Ensemble Methoden für Klassifikationsaufgaben Marcus Hudec marcus.hudec@univie.ac.at

Anwendung von Ensemble Methoden für Klassifikationsaufgaben Marcus Hudec marcus.hudec@univie.ac.at Anwendung von Ensemble Methoden für Klassifikationsaufgaben Marcus Hudec marcus.hudec@univie.ac.at Österreichische Statistiktage 2011 Graz, 7.- 9. September 2011 Vorbemerkungen Ensemble Methoden für Klassifikationsaufgaben

Mehr

Multivariate Statistik

Multivariate Statistik Hermann Singer Multivariate Statistik 1 Auflage 15 Oktober 2012 Seite: 12 KAPITEL 1 FALLSTUDIEN Abbildung 12: Logistische Regression: Geschätzte Wahrscheinlichkeit für schlechte und gute Kredite (rot/blau)

Mehr

Einfache Statistiken in Excel

Einfache Statistiken in Excel Einfache Statistiken in Excel Dipl.-Volkswirtin Anna Miller Bergische Universität Wuppertal Schumpeter School of Business and Economics Lehrstuhl für Internationale Wirtschaft und Regionalökonomik Raum

Mehr

Künstliche Neuronale Netze und Data Mining

Künstliche Neuronale Netze und Data Mining Künstliche Neuronale Netze und Data Mining Catherine Janson, icasus GmbH Heidelberg Abstract Der Begriff "künstliche Neuronale Netze" fasst Methoden der Informationstechnik zusammen, deren Entwicklung

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Entscheidungsbäume

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Entscheidungsbäume Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Entscheidungsbäume Christoph Sawade/Niels Landwehr Jules Rasetaharison, Tobias Scheffer Entscheidungsbäume Eine von vielen Anwendungen:

Mehr

Education Day 2012. Wissensgold aus Datenminen: wie die Analyse vorhandener Daten Ihre Performance verbessern kann! Education Day 2012 11.10.

Education Day 2012. Wissensgold aus Datenminen: wie die Analyse vorhandener Daten Ihre Performance verbessern kann! Education Day 2012 11.10. Wissensgold aus Datenminen: wie die Analyse vorhandener Daten Ihre Performance verbessern kann! 11.10.2012 1 BI PLUS was wir tun Firma: BI plus GmbH Giefinggasse 6/2/7 A-1210 Wien Mail: office@biplus.at

Mehr

Automatische Mustererkennung zur Klassifikation von Konsumentenverhalten am Beispiel der Kreditwürdigkeitsprüfung

Automatische Mustererkennung zur Klassifikation von Konsumentenverhalten am Beispiel der Kreditwürdigkeitsprüfung Prof. Dr. Gerhard Arminger Dipl.-Ök. Alexandra Schwarz Bergische Universität Wuppertal Fachbereich Wirtschaftswissenschaft Fach Statistik Automatische Mustererkennung zur Klassifikation von Konsumentenverhalten

Mehr

Neuerungen Analysis Services

Neuerungen Analysis Services Neuerungen Analysis Services Neuerungen Analysis Services Analysis Services ermöglicht Ihnen das Entwerfen, Erstellen und Visualisieren von Data Mining-Modellen. Diese Mining-Modelle können aus anderen

Mehr

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen 4. Datenanalyse und Modellbildung Deskriptive Statistik 2-1 2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen Für die Auswertung einer Messreihe, die in Form

Mehr

Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014

Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014 Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014 Aufgabe 1. Data Mining a) Mit welchen Aufgabenstellungen befasst sich Data Mining? b) Was versteht man unter Transparenz einer Wissensrepräsentation?

Mehr

Data Mining mit Rapidminer im Direktmarketing ein erster Versuch. Hasan Tercan und Hans-Peter Weih

Data Mining mit Rapidminer im Direktmarketing ein erster Versuch. Hasan Tercan und Hans-Peter Weih Data Mining mit Rapidminer im Direktmarketing ein erster Versuch Hasan Tercan und Hans-Peter Weih Motivation und Ziele des Projekts Anwendung von Data Mining im Versicherungssektor Unternehmen: Standard

Mehr

Motivation. Themenblock: Data Preprocessing. Einsatzgebiete für Data Mining I. Modell von Gianotti und Pedreschi

Motivation. Themenblock: Data Preprocessing. Einsatzgebiete für Data Mining I. Modell von Gianotti und Pedreschi Motivation Themenblock: Data Preprocessing We are drowning in information, but starving for knowledge! (John Naisbett) Was genau ist Datenanalyse? Praktikum: Data Warehousing und Data Mining Was ist Data

Mehr

Big Data als neuer Partner von Six Sigma Optimierung der diskreten Produktion

Big Data als neuer Partner von Six Sigma Optimierung der diskreten Produktion Big Data als neuer Partner von Six Sigma Optimierung der diskreten Produktion Frank Effenberger, Marco Fischer, 22.06.2015, München Agenda Firmenpräsentation Einführung Anwendungsfall Fazit Zahlen und

Mehr

9 Resümee. Resümee 216

9 Resümee. Resümee 216 Resümee 216 9 Resümee In der vorliegenden Arbeit werden verschiedene Methoden der Datenreduktion auf ihre Leistungsfähigkeit im sozialwissenschaftlichstatistischen Umfeld anhand eines konkreten Anwendungsfalls

Mehr

Kategoriale abhängige Variablen: Logit- und Probit -Modelle. Statistik II

Kategoriale abhängige Variablen: Logit- und Probit -Modelle. Statistik II Kategoriale abhängige Variablen: Logit- und Probit -Modelle Statistik II Wiederholung Literatur Annahmen und Annahmeverletzungen Funktionen Exponenten, Wurzeln usw. Das Problem Das binäre Logit-Modell

Mehr

Data Mining und Statistik: Gemeinsamkeiten und Unterschiede

Data Mining und Statistik: Gemeinsamkeiten und Unterschiede Universität Ulm Seminararbeit zum Thema Data Mining und Statistik: Gemeinsamkeiten und Unterschiede vorgelegt von: Daniel Meschenmoser betreut von: Dr. Tomas Hrycej Dr. Matthias Grabert Ulm, im Februar

Mehr

2. Microsoft Innovationstag Nord Integrierte Lösungen in der Öffentlichen Verwaltung

2. Microsoft Innovationstag Nord Integrierte Lösungen in der Öffentlichen Verwaltung 2. Microsoft Innovationstag Nord Integrierte Lösungen in der Öffentlichen Verwaltung Reporting, Analyse und Data Mining André Henkel, initions AG 22. und 23. Oktober 2013 in Hamburg

Mehr

Einführung in die Statistik mir R

Einführung in die Statistik mir R Einführung in die Statistik mir R ww w. syn t egris.de Überblick GESCHÄFTSFÜHRUNG Andreas Baumgart, Business Processes and Service Gunar Hofmann, IT Solutions Sven-Uwe Weller, Design und Development Jens

Mehr

Predictive Modeling Markup Language. Thomas Morandell

Predictive Modeling Markup Language. Thomas Morandell Predictive Modeling Markup Language Thomas Morandell Index Einführung PMML als Standard für den Austausch von Data Mining Ergebnissen/Prozessen Allgemeine Struktur eines PMML Dokuments Beispiel von PMML

Mehr

Grundlagen der Programmierung 2. Bäume

Grundlagen der Programmierung 2. Bäume Grundlagen der Programmierung 2 Bäume Prof. Dr. Manfred Schmidt-Schauÿ Künstliche Intelligenz und Softwaretechnologie 24. Mai 2006 Graphen Graph: Menge von Knoten undzugehörige (gerichtete oder ungerichtete)

Mehr

Anwendung eines SAS/STAT-Modells ohne SAS/STAT in einem CRM-Projekt

Anwendung eines SAS/STAT-Modells ohne SAS/STAT in einem CRM-Projekt Poster Anwendung eines SAS/STAT-Modells ohne SAS/STAT in einem CRM-Projekt Timm Euler Tobias Otte viadee GmbH viadee GmbH Anton-Bruchausen-Str. 8 Anton-Bruchausen-Str. 8 48147 Münster 48147 Münster Timm.Euler@viadee.de

Mehr

Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining

Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining Ausgangssituation Kaizen Data Mining ISO 9001 Wenn andere Methoden an ihre Grenzen stoßen Es gibt unzählige Methoden, die Abläufe

Mehr

Kapitel 3. Zufallsvariable. Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion. Erwartungswert, Varianz und Standardabweichung

Kapitel 3. Zufallsvariable. Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion. Erwartungswert, Varianz und Standardabweichung Kapitel 3 Zufallsvariable Josef Leydold c 2006 Mathematische Methoden III Zufallsvariable 1 / 43 Lernziele Diskrete und stetige Zufallsvariable Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion

Mehr

SAP Predictive Challenge - Lösung. DI Walter Müllner, Dr. Ingo Peter, Markus Tempel 22. April 2015

SAP Predictive Challenge - Lösung. DI Walter Müllner, Dr. Ingo Peter, Markus Tempel 22. April 2015 SAP Predictive Challenge - Lösung DI Walter Müllner, Dr. Ingo Peter, Markus Tempel 22. April 2015 Teil II - Lösung Teil II-1: Fachbereich (automated mode) Teil II-2: Experte (PAL HANA) Teil II-3: Vergleich

Mehr

WS 2009/10. Diskrete Strukturen

WS 2009/10. Diskrete Strukturen WS 2009/10 Diskrete Strukturen Prof. Dr. J. Esparza Lehrstuhl für Grundlagen der Softwarezuverlässigkeit und theoretische Informatik Fakultät für Informatik Technische Universität München http://www7.in.tum.de/um/courses/ds/ws0910

Mehr

Große Datenmengen knacken mit SAS High-Performance Analytics

Große Datenmengen knacken mit SAS High-Performance Analytics make connections share ideas be inspired Große Datenmengen knacken mit SAS High-Performance Analytics Martin Schütz CC Analytics SAS Institute GmbH Agenda Terminologie: SAS High-Performance Analytics SAS

Mehr

Stichprobenauslegung. für stetige und binäre Datentypen

Stichprobenauslegung. für stetige und binäre Datentypen Stichprobenauslegung für stetige und binäre Datentypen Roadmap zu Stichproben Hypothese über das interessierende Merkmal aufstellen Stichprobe entnehmen Beobachtete Messwerte abbilden Schluss von der Beobachtung

Mehr

Data Mining-Modelle und -Algorithmen

Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining ist ein Prozess, bei dem mehrere Komponenten i n- teragieren. Sie greifen auf Datenquellen, um diese zum Training,

Mehr

Allgemeine Regressionsanalyse. Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl. deterministisch

Allgemeine Regressionsanalyse. Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl. deterministisch Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 9.1 Allgemeine Regressionsanalyse Daten (X j, Y j ), j = 1,..., N unabhängig Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl.

Mehr

Kommentierter SPSS-Ausdruck zur logistischen Regression

Kommentierter SPSS-Ausdruck zur logistischen Regression Daten: POK V AG 3 (POKV_AG3_V07.SAV) Kommentierter SPSS-Ausdruck zur logistischen Regression Fragestellung: Welchen Einfluss hat die Fachnähe und das Geschlecht auf die interpersonale Attraktion einer

Mehr

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002)

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002) 3. Entscheidungsbäume Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002) (aus Wilhelm 2001) Beispiel: (aus Böhm 2003) Wann sind Entscheidungsbäume

Mehr

Seminar Data Mining and Learning from Data. Predictive Modeling. Thorsten Holz

Seminar Data Mining and Learning from Data. Predictive Modeling. Thorsten Holz Seminar Data Mining and Learning from Data Predictive Modeling Thorsten Holz Human Language Technology and Pattern Recognition Lehrstuhl für Informatik VI, Computer Science Department RWTH Aachen University

Mehr

Maschinelles Lernen Entscheidungsbäume

Maschinelles Lernen Entscheidungsbäume Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen Entscheidungsbäume Paul Prasse Entscheidungsbäume Eine von vielen Anwendungen: Kreditrisiken Kredit - Sicherheiten

Mehr

Data Mining im Online Condition Monitoring: Vergleich gängiger statistischer Methoden

Data Mining im Online Condition Monitoring: Vergleich gängiger statistischer Methoden Data Mining im Online Condition Monitoring: Vergleich gängiger statistischer Methoden 1 Data Mining im Online Condition Monitoring: Vergleich gängiger statistischer Methoden Bakk. Peter Holzer peter.holzer@predictive.at

Mehr

Kapitel 4: Binäre Regression

Kapitel 4: Binäre Regression Kapitel 4: Binäre Regression Steffen Unkel (basierend auf Folien von Nora Fenske) Statistik III für Nebenfachstudierende WS 2013/2014 4.1 Motivation Ausgangssituation Gegeben sind Daten (y i, x i1,...,

Mehr

Management Support Systeme

Management Support Systeme Management Support Systeme WS 24-25 4.-6. Uhr PD Dr. Peter Gluchowski Folie Gliederung MSS WS 4/5. Einführung Management Support Systeme: Informationssysteme zur Unterstützung betrieblicher Fach- und Führungskräfte

Mehr

Survival Analysis (Modul: Lebensdaueranalyse)

Survival Analysis (Modul: Lebensdaueranalyse) Survival Analysis (Modul: Lebensdaueranalyse) ROLAND RAU Universität Rostock, Sommersemester 2015 12. Mai 2015 c Roland Rau Survival Analysis 1 / 24 Hausaufgabe 1 Schreiben Sie die Log-Likelihood Gleichung

Mehr

Sequential Pattern Analysis und Markov-Modelle. Christian Weiß Institut für Angewandte Mathematik und Statistitik Universität Würzburg

Sequential Pattern Analysis und Markov-Modelle. Christian Weiß Institut für Angewandte Mathematik und Statistitik Universität Würzburg Sequential Pattern Analysis und Markov-Modelle. Christian Weiß Institut für Angewandte Mathematik und Statistitik Universität Würzburg Sequential Pattern Analysis Historische Aspekte Data Mining als Teildisziplin

Mehr

Anwendung der Predictive Analytics

Anwendung der Predictive Analytics TDWI Konferenz mit BARC@TDWI Track 2014 München, 23. 25. Juni 2014 Anwendung der Predictive Analytics Prof. Dr. Carsten Felden Dipl. Wirt. Inf. Claudia Koschtial Technische Universität Bergakademie Freiberg

Mehr

Simulation und Verfahren des Data Mining

Simulation und Verfahren des Data Mining Simulation und Verfahren des Data Mining Approximation des Verhaltens von Materialflussmodellen durch ein Künstliches Neuronales Netz PPI - Informatik Dr. Prautsch & Partner Curiestr. 4 70563 Stuttgart

Mehr

Quantitative Methoden der Bildungsforschung

Quantitative Methoden der Bildungsforschung Glieung Wieholung Korrelationen Grundlagen lineare Regression Lineare Regression in SPSS Übung Wieholung Korrelationen Standardisiertes Zusammenhangsmaß (unstandardisiert: Kovarianz) linearer Zusammenhang

Mehr

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table("c:\\compaufg\\kredit.

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table(c:\\compaufg\\kredit. Lösung 16.3 Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit

Mehr

Webinar, 28.11.2013. Verborgene Schätze heben. Data Mining mit dem Microsoft SQL Server. Thomas Jahnke Martin Oesterer. HMS Analytical Software GmbH

Webinar, 28.11.2013. Verborgene Schätze heben. Data Mining mit dem Microsoft SQL Server. Thomas Jahnke Martin Oesterer. HMS Analytical Software GmbH Webinar, 28.11.2013 Verborgene Schätze heben Data Mining mit dem Microsoft SQL Server Thomas Jahnke Martin Oesterer HMS Analytical Software GmbH 1 Unsere heutige Agenda Verborgene Schätze heben Herzlich

Mehr

Kundenbindung optimieren mit Predictive Analytics und Text Mining

Kundenbindung optimieren mit Predictive Analytics und Text Mining Kundenbindung optimieren mit Predictive Analytics und Text Mining Ein Praxis-Beispiel mit der Analyse-Plattform STATISTICA CeBIT Hannover, 10. März 2014 www.statsoft.de StatSoft (Europe) GmbH 2014 Dr.

Mehr

Angewandte Ökonometrie, WS 2012/13, 1. Teilprüfung am 6.12.2012 - Lösungen. Das folgende Modell ist ein GARCH(1,1)-Modell:

Angewandte Ökonometrie, WS 2012/13, 1. Teilprüfung am 6.12.2012 - Lösungen. Das folgende Modell ist ein GARCH(1,1)-Modell: Angewandte Ökonometrie, WS 2012/13, 1. Teilprüfung am 6.12.2012 - Lösungen LV-Leiterin: Univ.Prof.Dr. Sylvia Frühwirth-Schnatter 1 Wahr oder falsch? 1. Das folgende Modell ist ein GARCH(1,1)-Modell: Y

Mehr

9. Schätzen und Testen bei unbekannter Varianz

9. Schätzen und Testen bei unbekannter Varianz 9. Schätzen und Testen bei unbekannter Varianz Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Schätzen und Testen bei unbekannter Varianz Wenn wir die Standardabweichung σ nicht kennen,

Mehr

Data Mining (ehem. Entscheidungsunterstützungssysteme)

Data Mining (ehem. Entscheidungsunterstützungssysteme) Data Mining (ehem. Entscheidungsunterstützungssysteme) Melanie Pfoh Anja Tetzner Christian Schieder Übung WS 2014/15 AGENDA TEIL 1 Aufgabe 1 (Wiederholung OPAL / Vorlesungsinhalte) ENTSCHEIDUNG UND ENTSCHEIDUNGSTHEORIE

Mehr

Grundlagen der Informatik. Prof. Dr. Stefan Enderle NTA Isny

Grundlagen der Informatik. Prof. Dr. Stefan Enderle NTA Isny Grundlagen der Informatik Prof. Dr. Stefan Enderle NTA Isny 2 Datenstrukturen 2.1 Einführung Syntax: Definition einer formalen Grammatik, um Regeln einer formalen Sprache (Programmiersprache) festzulegen.

Mehr

Unsupervised Kernel Regression

Unsupervised Kernel Regression 9. Mai 26 Inhalt Nichtlineare Dimensionsreduktion mittels UKR (Unüberwachte KernRegression, 25) Anknüpfungspunkte Datamining I: PCA + Hauptkurven Benötigte Zutaten Klassische Kernregression Kerndichteschätzung

Mehr

Dr. Andreas Hotho, Robert Jäschke Fachgebiet Wissensverarbeitung 30.10.2008. Wintersemester 2008/2009

Dr. Andreas Hotho, Robert Jäschke Fachgebiet Wissensverarbeitung 30.10.2008. Wintersemester 2008/2009 Dr. Andreas Hotho, Robert Jäschke Fachgebiet Wissensverarbeitung 30.10.2008 1. Übung Knowledge Discovery Wintersemester 2008/2009 Vorbemerkungen Vorlesungsfolien und Übungsblätter können Sie im Internet

Mehr

Messsystemanalyse (MSA)

Messsystemanalyse (MSA) Messsystemanalyse (MSA) Inhaltsverzeichnis Ursachen & Auswirkungen von Messabweichungen Qualifikations- und Fähigkeitsnachweise Vorteile einer Fähigkeitsuntersuchung Anforderungen an das Messsystem Genauigkeit

Mehr

Data Mining Anwendungen und Techniken

Data Mining Anwendungen und Techniken Data Mining Anwendungen und Techniken Knut Hinkelmann DFKI GmbH Entdecken von Wissen in banken Wissen Unternehmen sammeln ungeheure mengen enthalten wettbewerbsrelevantes Wissen Ziel: Entdecken dieses

Mehr

Was ist Data Mining... in der Fundraising Praxis?

Was ist Data Mining... in der Fundraising Praxis? Was ist Data Mining...... in der Fundraising Praxis? Erkennen von unbekannten Mustern in sehr grossen Datenbanken (> 1000 GB) wenige und leistungsfähige Verfahren Automatisierung Erkennen von unbekannten

Mehr

Insulin Dependent Diabetes Mellitus Rats and Autoimmune Diabetes

Insulin Dependent Diabetes Mellitus Rats and Autoimmune Diabetes 1 Insulin Dependent Diabetes Mellitus Rats and Autoimmune Diabetes, Georg Füllen Institut für Biostatistik und Informatik in Medizin und Alternsforschung Universität Rostock 2 Einführung: Diabetes Diabetes

Mehr

Räumliches Data Mining

Räumliches Data Mining Räumliches Data Mining Spatial Data Mining Data Mining = Suche nach "interessanten Mustern" in sehr großen Datensätzen => explorative Datenanlyse auch: Knowledge Discovery in Databases (KDD) verbreitete

Mehr

ML-Werkzeuge und ihre Anwendung

ML-Werkzeuge und ihre Anwendung Kleine Einführung: und ihre Anwendung martin.loesch@kit.edu (0721) 608 45944 Motivation Einsatz von maschinellem Lernen erfordert durchdachtes Vorgehen Programmieren grundlegender Verfahren aufwändig fehlerträchtig

Mehr

Risiken bei der Analyse sehr großer Datenmengen. Dr. Thomas Hoppe

Risiken bei der Analyse sehr großer Datenmengen. Dr. Thomas Hoppe Risiken bei der Analyse sehr großer Datenmengen Dr. Thomas Hoppe Datenaufbereitung Datenanalyse Data Mining Data Science Big Data Risiken der Analyse Sammlung Integration Transformation Fehlerbereinigung

Mehr

Binäre lineare Optimierung mit K*BMDs p.1/42

Binäre lineare Optimierung mit K*BMDs p.1/42 Binäre lineare Optimierung mit K*BMDs Ralf Wimmer wimmer@informatik.uni-freiburg.de Institut für Informatik Albert-Ludwigs-Universität Freiburg Binäre lineare Optimierung mit K*BMDs p.1/42 Grundlagen Binäre

Mehr

Modul G.1 WS 07/08: Statistik 17.01.2008 1. Die Korrelation ist ein standardisiertes Maß für den linearen Zusammenhangzwischen zwei Variablen.

Modul G.1 WS 07/08: Statistik 17.01.2008 1. Die Korrelation ist ein standardisiertes Maß für den linearen Zusammenhangzwischen zwei Variablen. Modul G.1 WS 07/08: Statistik 17.01.2008 1 Wiederholung Kovarianz und Korrelation Kovarianz = Maß für den linearen Zusammenhang zwischen zwei Variablen x und y Korrelation Die Korrelation ist ein standardisiertes

Mehr

Prognosen via Datenanalyse Predictive Analytics: Darauf müssen Unternehmen achten

Prognosen via Datenanalyse Predictive Analytics: Darauf müssen Unternehmen achten Prognosen via Datenanalyse Predictive Analytics: Darauf müssen Unternehmen achten von Jürgen Mauerer Foto: Avantum Consult AG Seite 1 von 21 Inhalt Mehrwert aufzeigen nach Analyse des Geschäftsmodells...

Mehr

Box-and-Whisker Plot -0,2 0,8 1,8 2,8 3,8 4,8

Box-and-Whisker Plot -0,2 0,8 1,8 2,8 3,8 4,8 . Aufgabe: Für zwei verschiedene Aktien wurde der relative Kurszuwachs (in % beobachtet. Aus den jeweils 20 Quartaldaten ergaben sich die folgenden Box-Plots. Box-and-Whisker Plot Aktie Aktie 2-0,2 0,8,8

Mehr

Vortrag zum Paper Results of the Active Learning Challenge von Guyon, et. al. Sören Schmidt Fachgebiet Knowledge Engineering

Vortrag zum Paper Results of the Active Learning Challenge von Guyon, et. al. Sören Schmidt Fachgebiet Knowledge Engineering Vortrag zum Paper Results of the Active Learning Challenge von Guyon, et. al. Sören Schmidt Fachgebiet Knowledge Engineering 11.12.2012 Vortrag zum Paper Results of the Active Learning Challenge von Isabelle

Mehr

Uplift Modelling mitsas

Uplift Modelling mitsas Praktische Anwendung des Uplift Modelling mitsas Hintergründe, Voraussetzungen, Tipps& Tricks 12.06.2013 Udo Böhm Inhalt Uplift Uplift-Modelling mit SAS 1. Warum brauchen wir Uplift Modellierung im analytischen

Mehr

Eine Baumstruktur sei folgendermaßen definiert. Eine Baumstruktur mit Grundtyp Element ist entweder

Eine Baumstruktur sei folgendermaßen definiert. Eine Baumstruktur mit Grundtyp Element ist entweder Programmieren in PASCAL Bäume 1 1. Baumstrukturen Eine Baumstruktur sei folgendermaßen definiert. Eine Baumstruktur mit Grundtyp Element ist entweder 1. die leere Struktur oder 2. ein Knoten vom Typ Element

Mehr

Inhaltsverzeichnis. I Einführung in STATISTICA 1. 1 Erste Schritte in STATISTICA 3

Inhaltsverzeichnis. I Einführung in STATISTICA 1. 1 Erste Schritte in STATISTICA 3 I Einführung in STATISTICA 1 1 Erste Schritte in STATISTICA 3 2 Datenhaltung in STATISTICA 11 2.1 Die unterschiedlichen Dateitypen in STATISTICA....... 11 2.2 Import von Daten......... 12 2.3 Export von

Mehr

Zeichnen von Graphen. graph drawing

Zeichnen von Graphen. graph drawing Zeichnen von Graphen graph drawing WS 2006 / 2007 Gruppe: D_rot_Ala0607 Christian Becker 11042315 Eugen Plischke 11042351 Vadim Filippov 11042026 Gegeben sei ein Graph G = (V; E) Problemstellung V E =

Mehr

Exploration und Klassifikation von BigData

Exploration und Klassifikation von BigData Exploration und Klassifikation von BigData Inhalt Einführung Daten Data Mining: Vorbereitungen Clustering Konvexe Hülle Fragen Google: Riesige Datenmengen (2009: Prozessieren von 24 Petabytes pro Tag)

Mehr

Erfolg und Vermögensrückgänge angefertigt im Rahmen der Lehrveranstaltung Nachrichtentechnik von: Eric Hansen, eric-hansen@gmx.de am: 07.09.

Erfolg und Vermögensrückgänge angefertigt im Rahmen der Lehrveranstaltung Nachrichtentechnik von: Eric Hansen, eric-hansen@gmx.de am: 07.09. Abstract zum Thema Handelssysteme Erfolg und Vermögensrückgänge angefertigt im Rahmen der Lehrveranstaltung Nachrichtentechnik von: Eric Hansen, eric-hansen@gmx.de am: 07.09.01 Einleitung: Handelssysteme

Mehr

Effektives Empfehlungsmarketing durch Customer Analytics bei der BAWAG P.S.K.

Effektives Empfehlungsmarketing durch Customer Analytics bei der BAWAG P.S.K. badger Effektives Empfehlungsmarketing durch Customer Analytics bei der BAWAG P.S.K. Die www.bawagpskfonds.at neue Bank. Die neue BAWAG. www.bawagpsk.com Montag, 25. Februar 2013 BAWAG P.S.K. EINE BANK

Mehr

Untersuchungen zum Thema Tracking Error

Untersuchungen zum Thema Tracking Error Untersuchungen zum Thema Tracking Error J. Fulmek 24. August 2003 1 Einleitung Im Folgenden werden folgende Punkte untersucht: 1. verschiedene in der Literatur übliche Definitionen des Tracking Errors

Mehr

Star-Schema-Modellierung mit ERwin - eine kritische Reflexion der Leistungspotentiale und Anwendungsmöglichkeiten

Star-Schema-Modellierung mit ERwin - eine kritische Reflexion der Leistungspotentiale und Anwendungsmöglichkeiten Star-Schema-Modellierung mit ERwin - eine kritische Reflexion der Leistungspotentiale und Anwendungsmöglichkeiten Michael Hahne T&I GmbH Workshop MSS-2000 Bochum, 24. März 2000 Folie 1 Worum es geht...

Mehr

Vorhersage mit CA CleverPath Predictive Analysis Server. Laszlo Mihalka Senior Consultant Laszlo.Mihalka@ca.com

Vorhersage mit CA CleverPath Predictive Analysis Server. Laszlo Mihalka Senior Consultant Laszlo.Mihalka@ca.com Vorhersage mit CA CleverPath Predictive Analysis Server Laszlo Mihalka Senior Consultant Laszlo.Mihalka@ca.com Agenda Herausforderung CP PAS Neugents Modelle Mustererkennung Tools CA World 1 Herausforderung

Mehr

Informationsflut bewältigen - Textmining in der Praxis

Informationsflut bewältigen - Textmining in der Praxis Informationsflut bewältigen - Textmining in der Praxis Christiane Theusinger Business Unit Data Mining & CRM Solutions SAS Deutschland Ulrich Reincke Manager Business Data Mining Solutions SAS Deutschland

Mehr

3.1 Konstruktion von minimalen Spannbäumen Es gibt zwei Prinzipien für die Konstruktion von minimalen Spannbäumen (Tarjan): blaue Regel rote Regel

3.1 Konstruktion von minimalen Spannbäumen Es gibt zwei Prinzipien für die Konstruktion von minimalen Spannbäumen (Tarjan): blaue Regel rote Regel 3.1 Konstruktion von minimalen Spannbäumen Es gibt zwei Prinzipien für die Konstruktion von minimalen Spannbäumen (Tarjan): blaue Regel rote Regel EADS 3.1 Konstruktion von minimalen Spannbäumen 16/36

Mehr

Standardab er des. Testwert = 145.5 95% Konfidenzintervall. T df Sig. (2-seitig) Differenz Untere Obere -2.011 698.045-5.82-11.50 -.14.

Standardab er des. Testwert = 145.5 95% Konfidenzintervall. T df Sig. (2-seitig) Differenz Untere Obere -2.011 698.045-5.82-11.50 -.14. Aufgabe : einfacher T-Test Statistik bei einer Stichprobe Standardfehl Standardab er des Mittelwert weichung Mittelwertes 699 39.68 76.59 2.894 Test bei einer Sichprobe Testwert = 45.5 95% Konfidenzintervall

Mehr

Univariate Lineare Regression. (eine unabhängige Variable)

Univariate Lineare Regression. (eine unabhängige Variable) Univariate Lineare Regression (eine unabhängige Variable) Lineare Regression y=a+bx Präzise lineare Beziehung a.. Intercept b..anstieg y..abhängige Variable x..unabhängige Variable Lineare Regression y=a+bx+e

Mehr