1 Predictive Analytics mit Random Forest

Größe: px
Ab Seite anzeigen:

Download "1 Predictive Analytics mit Random Forest"

Transkript

1 Predictive Analytics Demokratie im Wald 1

2 Agenda 1. Predictive Analytics Übersicht 2. Random Forest Grundkonzepte und Anwendungsfelder 3. Entscheidungsbaum Classification and Regression Tree (CART) 4. Bagging die Idee hinter dem Erfolg von Random Forest 5. Random Forest die Klassifikationsmethode im Detail 6. Random Forest Anwendungsbeispiele 7. Zusammenfassung 8. Quellen 9. Geplante nächste Termine 10.Themensammlung und -bewertung 3

3 Predictive Analytics??? Was ist Predictive Analytics? 4

4 Predictive Analytics Zwei Kinder Paradoxon Problem Eine Familie hat zwei Kinder, eins davon ist ein Junge. Wie hoch ist die Wahrscheinlichkeit, dass das zweite Kind auch ein Junge ist? Die meisten antworten: P = 1 2 Richtige Antwort: P = 1 3 Erläuterung Älteres Kind Junge Mädchen Junge Mädchen Jüngeres Kind Mädchen Junge Junge Mädchen 1 3 5

5 Predictive Analytics Geburtstagparadoxon Problem Wie hoch ist die Wahrscheinlichkeit, dass in einem Raum von n=50 Personen mindestens zwei am selben Tag im Jahr Geburtstag feiern? Richtiger Antwort P = 97% Erläuterung Es ist einfacher die Gegenwahrscheinlichkeit zu berechnen, also die Wahrscheinlichkeit, dass 50 Personen alle an unterschiedlichen Tagen Geburtstag haben. 1 - P = Ergebnis für verschiedene Anzahlen von Personen = 0.03 = 3% n P 2.7% 11.7% 41.1% 50.7% 70.6% 89.1% 97% 99.4% 99.9% 6

6 Predictive Analytics Verschiedene Definitionen i Was verstehen wir unter Data Mining ist der Prozess des Entdeckens bedeutsamer neuer Zusammenhänge, Muster und Trends durch die Analyse (großer) Datensätze mittels Mustererkennung sowie statistischer und mathematischer Verfahren (Erick Brethenoux, Gartner Group). An intrinsic feature of time series is that, typically, adjacent observations are dependent. The nature of this dependence among observations of a time series is of considerable practical interest. Time Series Analysis ist concerned with techniques for the analysis of this dependence. (George E.P. Box, PHD, Professor Emeritus of Statistics at the University of Wisconsin-Madison) Predictive Analytics generiert aus Daten operative Aktionen, indem verlässliche Schlüsse zur aktuellen Situation und zukünftigen Ereignissen erkannt bzw. prognostiziert werden. (Gartner Group) 7

7 Predictive Analytics Blickt in die Zukunft! i Predictive Analytics richtet den Blick in die Zukunft! Reporting und OLAP Predictive Analytics Vergangenheit Gegenwart Zukunft Aufgabe Kundenwert Betrugserkennung Kündigeranalysen Cross-Selling Kundenakquisition Umsatzplanung Reporting und OLAP (Vergangenheit und Gegenwart) TOP 10-Kunden des letzten Jahres Erkannte Betrugsfälle des letzten Jahres Kündigungen des letzten Jahres Produkt-Verkaufszahlen des letzten Jahres Wie war die Antwortquote der Mailing- Aktion? Tägliche Verkaufsmenge im Schnitt Predictive Analytics (Zukunft) Zukünftige TOP-Kunden Liste auffälliger Kunden / Vorgänge mit erhöhter Betrugswahrscheinlichkeit Kunden mit erhöhter Kündigungsbereitschaft Kunden mit hoher Kaufwahrscheinlichkeit für ein Produkt Kunden (-profile), bei denen eine erhöhte Response-Rate zu erwarten ist Welche Verkaufsmengen sind zukünftig zu erwarten? 8

8 Predictive Analytics Verfahren i Zahlreiche statistische Verfahren Lineare Regression Logistische Regression Neuronale Netze Diskriminanzanalyse Entscheidungswald Support Vector Machine ARIMA oder GARCH Assoziationsanalyse State Space Modell Smoothing Splines Ungerichteter Markov-Graph 9

9 Agenda 1. Predictive Analytics Übersicht 2. Random Forest Grundkonzepte und Anwendungsfelder 3. Entscheidungsbaum Classification and Regression Tree (CART) 4. Bagging die Idee hinter dem Erfolg von Random Forest 5. Random Forest die Klassifikationsmethode im Detail 6. Random Forest Anwendungsbeispiele 7. Zusammenfassung 8. Quellen 9. Geplante nächste Termine 10.Themensammlung und -bewertung 10

10 Random Forest Grundkonzepte Wird der Kunde seinen Vertrag kündigen? Baum 1 Baum 2 Baum 3 Baum 4 Baum 5 Baum 6 Was ist Random Forest? Ja Nein Ja Ja Nein Ja Random Forest Bagging Ja Entscheidungsbaum 11

11 Random Forest Anwendungsfelder Random Forest kann alle Arten von Inputmerkmalen (stetige und kategoriale) verarbeiten, z.b die Anzahl der Kinder eines Kunden, der jährliche Verdienst des Kunden, usw ist sowohl für Klassifikation (kategoriale Zielvariable z.b. eine 0-1 Variable) als auch für Regression (stetige Zielvariable z.b. die Einkaufsmenge eines Kunden) geeignet Keine Annahme über die Verteilung der Daten Keine Transformation notwendig Random Forest kann in folgenden Feldern angewandt werden Gesichtserkennung Betrugserkennung Krebsfrüherkennung Vorhersage vom Verursacher der Umweltverschmutzung Kreditrisiko und Scoring Churn Analyse Assoziationsanalyse usw 12

12 Agenda 1. Predictive Analytics Übersicht 2. Random Forest Grundkonzepte und Anwendungsfelder 3. Entscheidungsbaum Classification and Regression Tree (CART) 4. Bagging die Idee hinter dem Erfolg von Random Forest 5. Random Forest die Klassifikationsmethode im Detail 6. Random Forest Anwendungsbeispiele 7. Zusammenfassung 8. Quellen 9. Geplante nächste Termine 10.Themensammlung und -bewertung 13

13 Entscheidungsbaum - Terminologie Wurzelknoten oder Wurzel Splitvariable Region Knoten Endknoten oder Blatt 14

14 Entscheidungsbaum für Regression Gegeben N Beobachtungen (x i, y i ) für i = 1,2,, N p Merkmale, sodass x i = (x i1, x i2,, x ip ) eine Zielvariable Y in jede entstandene Region, wir modellieren die Zielvariable mit einer Konstante für jedes Merkmal j und Aufteilungspunkt s definiere und Finde Splitvariable j und Aufteilungspunkt (Splitpunkt) s, sodass folgender Ausdruck gelöst wird Aufteilung der Knote in zwei Tochterknoten und Fortsetzung des Algorithmus 15

15 Entscheidungsbaum für Klassifikation Zwei Unterschiede zur Regression 1. Ordne in jedem Blatt zu der am meisten vertretenden Klasse 2. Quadratische Fehler für einen Split ist nicht mehr geeignet. Stattdessen benutze Fehlklassifikationsrate (Gini-Index, Cross-Entropy, usw. ) Allgemeine Best Practices 1. Setze den Split-Prozess solange fort, bis eine minimale Anzahl von Beobachtungen in Blättern erreicht wird. 2. Benutze ein Kosten-Komplexitätskriterium, um einen Kompromiss zwischen Anpassungsgüte und Tiefe zu finden Dies heißt Pruning 16

16 Agenda 1. Predictive Analytics Übersicht 2. Random Forest Grundkonzepte und Anwendungsfelder 3. Entscheidungsbaum Classification and Regression Tree (CART) 4. Bagging die Idee hinter dem Erfolg von Random Forest 5. Random Forest die Klassifikationsmethode im Detail 6. Random Forest Anwendungsbeispiele 7. Zusammenfassung 8. Quellen 9. Geplante nächste Termine 10.Themensammlung und -bewertung 17

17 Bagging Begriffserklärung Gegeben einen Datensatz mit N Beobachtungen Eine Bootstrap-Stichprobe des Datensatzes bekommt man, indem man eine Stichprobe der gleichen Länge mit Zurücklegen aus dem originalen Datensatz zieht Bagging verwendet das gleiche Modell für B Bootstrap-Versionen des originalen Datensatzes und berechnet den Mittelwert aus den Vorhersagen der B Modelle verringert hierdurch die Variabilität der Vorhersage (siehe nächste Folie) funktioniert besser mit Vorhersagen, die keine Bias (Verzerrung = in der Statistik die Differenz zwischen dem Erwartungswert einer Statistik und dem zu schätzenden Wert) vorweisen aber eine große Varianz besitzen. Z.B. Entscheidungsbäume 18

18 Bagging Warum funktioniert das? Seien θ 1, θ 2,, θ B unabhängigen Vorhersagen von einem Wert θ, jeweils mit Varianz σ 2 Var 1 B B θ i i=1 B = 1 B 2 Var(θ i i=1 ) = σ2 B B 0 Also die Variabilität in der Vorhersage hat sich verbessert und verschwindet mit der Anzahl von Bootstrap-Stichproben Im Falle vom Random Forest müssen die Entscheidungsbäume unkorrelliert sein. Dies geschieht durch Randomisierung, daher das Wort Random in dem Namen 19

19 Agenda 1. Predictive Analytics Übersicht 2. Random Forest Grundkonzepte und Anwendungsfelder 3. Entscheidungsbaum Classification and Regression Tree (CART) 4. Bagging die Idee hinter dem Erfolg von Random Forest 5. Random Forest die Klassifikationsmethode im Detail 6. Random Forest Anwendungsbeispiele 7. Zusammenfassung 8. Quellen 9. Geplante nächste Termine 10.Themensammlung und -bewertung 20

20 Random Forest Definitionen i Random Forest ist... ein statistisches Verfahren in der Kategorie der Ensemble-Techniken, das eine große Menge von unkorrelierten Entscheidungsbäumen durch Randomisierung erzeugt, die auf Bootstrap-Stichproben des originalen Datensatzes trainiert werden und dadurch effizient die Varianz der Vorhersage reduziert. 21

21 Random Forest Randomisierung und Anzahl von Bäumen Die Randomisierung wird dadurch erzielt, dass für jeden Split eine zufällige Menge m aus den p Input-Merkmalen als mögliche Split-Variable gezogen wird Die Zahl m soll vom Anwender gewählt werden. Übliche Werte sind m = p für Klassifikation und m = p 3 für Regression aus den Daten mit Kreuzvalidierung ermittelt werden Die Wahl der Anzahl B von Entscheidungsbäumen soll ebenso durch Kreuzvalidierung erfolgen 22

22 Random Forest K-fache Kreuzvalidierung Kreuzvalidierung ist die häufigste benutzte Methode, um die Anpassungsgüte eines Modells zu beurteilen Algorithmus einer K-fache Kreuzvalidierung 1. Teile den Train-Datensatz in K fast gleich große, nicht überlappende Teilemengen auf 2. Nimm eine Teilmenge zur Seite (Validierungsteilmenge), trainiert das Modell auf die übrigen Daten und benutze die Validierungsteilmenge, um das Modell zu testen 3. Jede Teilmenge muss einmal als Validierungsteilmenge benutzt werden, sodass das Modell insgesamt K-Mal trainiert wird Wenn man N Beobachtungen hat, heißt eine N-fache Kreuzvalidierung auch Leave-oneout Kreuzvalidierung Best Practice empfiehlt eine 10-fache Kreuzvalidierung 5-fache Kreuzvalidierung Train Train Validierung Train Train 23

23 Random Forest Out-of-bag und Einfluss von Merkmalen Die Beobachtungen, die nicht in einer Bootstrap-Stichprobe auftauchen sind out-of-bag Eine Out-of-bag-Fehlerrate kann für jede Beobachtung über den gesamten Wald berechnet werden und kann deshalb als leave-one-out-fehlerrate gesehen werden Fazit : Im Gegensatz zu den meisten Modellen kann eine Kreuzvalidierung schon während der Anpassung von Random Forest durchgeführt werden Für jeden Split kann man für den Split-Merkmal die Verbesserung in dem Split- Kriterium berechnen. Der Einfluss von einem Merkmal wird als die Summe der Verbesserungen in dem Split-Kriterium über den gesamten Wald hinweg berechnet Liste der wichtigsten Merkmale 24

24 Agenda 1. Predictive Analytics Übersicht 2. Random Forest Grundkonzepte und Anwendungsfelder 3. Entscheidungsbaum Classification and Regression Tree (CART) 4. Bagging die Idee hinter dem Erfolg von Random Forest 5. Random Forest die Klassifikationsmethode im Detail 6. Random Forest Anwendungsbeispiele 7. Zusammenfassung 8. Quellen 9. Geplante nächste Termine 10.Themensammlung und -bewertung 25

25 Fall 1: Erkennung echter und gefälschter Schweizer Franken Die 1000-Schweizer Franken Banknoten der zweiten Banknotenserie 1911 wurden erstmals am ausgeben. Diese Banknoten waren ungewöhnlich lange im Umlauf und daher ein begehrtes Objekt für Fälscher Zwei Datensätze: Lern- und Testdatensatz Lerndatensatz : 60 falsche und 60 echte Banknoten zur Entwicklung des Modells Testdatensatz : 40 falsche und 40 echte Banknoten zum Testen unseres entwickelten Modells Zwei Klassen : Echten und falschen Banknoten 26

26 Fall 1: Falsche Banknoten von den echten unterscheiden Merkmale 1. length : Länge der Banknote 2. lheight : Höhe der Banknote, auf der linken Seite gemessen 3. rheight : Höhe der Banknote, auf der rechten Seite gemessen 4. lmargin : Abstand vom inneren Rahmen zur unteren Grenze 5. umargin : Abstand vom inneren Rahmen zur oberen Grenze 6. diagonal : Länge der Diagonale 27

27 Fall 1: Verteilung der Variablen in den zwei Klassen echt falsch Train Test Die Trennfähigkeit der Variablen ist unterschiedlich. lmargin trennt z.b. besser als length Die Verteilung in beiden Klassen in fast gleich 28

28 Fehlerrate (in %) Fall 1: Kreuzvalidierung 1. Eine 10-fache Kreuzvalidierung empfiehlt die Anwendung von 1100 Bäumen für den Wald 2. Eine Kreuzvalidierung mit 1100 Bäumen und m = 2, 3 und 4 suggeriert den Wert m = 2 5-fache und 10-fache Kreuzvalidierung Anzahl der Bäume im Wald 29

29 Fall 1: Banknoten - Ergebnisse der Klassifikation Lerndatensatz Testdatensatz Wahre Klasse Wahre Klasse Echt Falsch Echt Falsch Prognose Echt 58 2 Falsch 2 58 Prognose Echt 39 2 Falsch 1 38 Im Testdatensatz 39 der 40 echten Banknoten wurden als echt erkannt (True Positiv) 1 der 40 echten wurde als falsch erkannt (False Negativ) 2 der 40 falschen Banknoten wurden als echt zugeordnet (False Positiv) 38 der 40 falschen Banknoten wurden als falsch erkannt (True Negativ) 30

30 Fall 2: Big Data Regression mit simulierten Daten 1 Million Beobachtungen von 11 simulierten Variablen 9 ersten Variablen V 1 - V 9 sind uniformverteilt, wobei vari zufällige Werte zwischen 0 und 10i nimmt. Z.B. V 7 liegt zufällig zwischen 0 und 70 V 10 ist auch uniformverteilt zwischen 1 und 100 V 11 ist binomialverteilt mit Wahrscheinlichkeit 0.7, d.h. eine binäre ( Ja-Nein ) Variable mit der Wahrscheinlichkeit von Ja gleich 0.7 Die Zielvariable y ist mit folgender Gleichung simuliert worden y = V V 2V 3 10 V V V ln V V 8 + V 9 6e V I(V 11 = Ja) 8ln (V 10 ) 31

31 Fall 2: Big Data Verteilung der Daten Simulierte Daten werden in zwei Datenmengen geteilt: Beobachtungen zum Lernen und Beobachtungen zum Testen Auszug von Beobachtungen aus dem Traindatensatz y y y y y y y y y y Es scheint keine Struktur in den Daten zu geben 32

32 Häufigkeit Fall 2: Big Data Verteilung der Zielvariable Zielvariable Minimum 1. Quartile Median Mittelwert Standardabweichung Varianz 3. Quartile Maximum

33 Fall 2: Big Data Modellierung Achtung Traindatensatz ist zu groß, um eine hohe Anzahl von Bäumen im Wald zu trainieren Mögliche Lösungen 1. Kleine Bootstrap-Stichproben ziehen 2. Den Algorithmus von Random Forest parallelisieren 3. Beide erste Lösungen implementieren ( ) Unser Ansatz 1. Wir fahren mit Lösung 1. fort 2. Keine Kreuzvalidierung zum Vergleich der Modelle wird durchgeführt 3. Modelle werden mit dem out-of-bag-fehler verglichen 34

34 Fall 2: Big Data Ergebnisse Nr Anzahl Bäume Umfang B- Stichprobe Lernzeit in Sekunden OOB- Fehler Erklärte Varianz PMAE % % % % % % % 2.40 OOB = Out-of-bag PMAE = Predicted Mean Absolute Error = mittlere absolute Fehler der Prognose Die Güte des Modells steigt mit dem Umfang der Bootstrap-Stichprobe Das Modell verbessert sich auch mit wachsender Anzahl der Bäume im Wald Das beste Modell ist Modell 6 35

35 Agenda 1. Predictive Analytics Übersicht 2. Random Forest Grundkonzepte und Anwendungsfelder 3. Entscheidungsbaum Classification and Regression Tree (CART) 4. Bagging die Idee hinter dem Erfolg von Random Forest 5. Random Forest die Klassifikationsmethode im Detail 6. Random Forest Anwendungsbeispiele 7. Zusammenfassung 8. Quellen 9. Geplante nächste Termine 10.Themensammlung und -bewertung 36

36 Zusammenfassung Random Forest ist ein Ensemble-Verfahren, das die Mächtigkeit von Bagging benutzt und mehrere Entscheidungsbäume mittelt Random Forest ist ein sehr populäres statistisches Mittel, weil es sich zu jedem Datentyp und sowohl zu Regression als auch zu Klassifikation eignet Entscheidungsbäume schnell zu trainieren sind es komplexe nicht-lineare Strukturen modellieren kann es sich aufgrund der Unabhängigkeit der Bäume einfach parallelisieren lässt es automatisch Kreuzvalidierung beim Lernen durchführt es auch für unüberwachtes Lernen benutzt werden kann Jeder Parameter von Random Forest lässt sich optimal durch Kreuzvalidierung wählen Es gibt zahlreiche Implementierungen von Random Forest z.b. In R die Funktion randomforest im gleichnamigen Paket In SAS Enterprise Miner proc Forest oder proc HPForest In Weka und Fortran 77 37

37 Quellen 1. Hastie, Trevor et al (2009). The elements of statistical learning. Springer, second edition 2. Berk, Richard A. (2008). Statistical Learning from a Regression Perspective. Springer Series in Statistics. New York: Springer-Verlag 3. URL: 4. URL: 38

38 Vielen Dank für Ihre Aufmerksamkeit Dr. Arsene Ntiwa Foudjo XBI-APS Telefon:

Algorithmische Modelle als neues Paradigma

Algorithmische Modelle als neues Paradigma Algorithmische Modelle als neues Paradigma Axel Schwer Seminar über Philosophische Grundlagen der Statistik, WS 2010/11 Betreuer: Prof. Dr. Thomas Augustin München, den 28. Januar 2011 1 / 29 LEO BREIMAN

Mehr

Lernen von Entscheidungsbäumen. Volker Tresp Summer 2014

Lernen von Entscheidungsbäumen. Volker Tresp Summer 2014 Lernen von Entscheidungsbäumen Volker Tresp Summer 2014 1 Anforderungen an Methoden zum Datamining Schnelle Verarbeitung großer Datenmengen Leichter Umgang mit hochdimensionalen Daten Das Lernergebnis

Mehr

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining Gliederung 1. Einführung 2. Grundlagen Data Mining Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining 3. Ausgewählte Methoden des Data

Mehr

PPC und Data Mining. Seminar aus Informatik LV-911.039. Michael Brugger. Fachbereich der Angewandten Informatik Universität Salzburg. 28.

PPC und Data Mining. Seminar aus Informatik LV-911.039. Michael Brugger. Fachbereich der Angewandten Informatik Universität Salzburg. 28. PPC und Data Mining Seminar aus Informatik LV-911.039 Michael Brugger Fachbereich der Angewandten Informatik Universität Salzburg 28. Mai 2010 M. Brugger () PPC und Data Mining 28. Mai 2010 1 / 14 Inhalt

Mehr

Data Mining mit der SEMMA Methodik. Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG

Data Mining mit der SEMMA Methodik. Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG Data Mining mit der SEMMA Methodik Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG Data Mining Data Mining: Prozeß der Selektion, Exploration und Modellierung großer Datenmengen, um Information

Mehr

Häufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln

Häufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln Häufigkeitstabellen Menüpunkt Data PivotTable Report (bzw. entsprechendes Icon): wähle Data Range (Zellen, die die Daten enthalten + Zelle mit Variablenname) wähle kategoriale Variable für Spalten- oder

Mehr

Fachgruppe Statistik, Risikoanalyse & Computing. STAT672 Data Mining. Sommersemester 2007. Prof. Dr. R. D. Reiß

Fachgruppe Statistik, Risikoanalyse & Computing. STAT672 Data Mining. Sommersemester 2007. Prof. Dr. R. D. Reiß Fachgruppe Statistik, Risikoanalyse & Computing STAT672 Data Mining Sommersemester 2007 Prof. Dr. R. D. Reiß Überblick Data Mining Begrifflichkeit Unter Data Mining versteht man die Computergestützte Suche

Mehr

MS SQL Server 2012 (4)

MS SQL Server 2012 (4) MS SQL Server 2012 (4) Data Mining, Analyse und multivariate Verfahren Marco Skulschus Jan Tittel Marcus Wiederstein Webseite zum Buch: http://vvwvv.comelio-medien.com/buch-kataiog/ms sql_server/ms sql

Mehr

Data Mining - Marketing-Schlagwort oder ernstzunehmende Innovation?

Data Mining - Marketing-Schlagwort oder ernstzunehmende Innovation? 1. Konferenz der A Benutzer KFE in Forschung und Entwicklung Data Mining - Marketing-chlagwort oder ernstzunehmende Innovation? Hans-Peter Höschel,, Heidelberg 1. Konferenz der A Benutzer KFE in Forschung

Mehr

Proseminar - Data Mining

Proseminar - Data Mining Proseminar - Data Mining SCCS, Fakultät für Informatik Technische Universität München SS 2012, SS 2012 1 Data Mining Pipeline Planung Aufbereitung Modellbildung Auswertung Wir wollen nützliches Wissen

Mehr

Data Mining und maschinelles Lernen

Data Mining und maschinelles Lernen Data Mining und maschinelles Lernen Einführung und Anwendung mit WEKA Caren Brinckmann 16. August 2000 http://www.coli.uni-sb.de/~cabr/vortraege/ml.pdf http://www.cs.waikato.ac.nz/ml/weka/ Inhalt Einführung:

Mehr

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,

Mehr

Data Mining - Wiederholung

Data Mining - Wiederholung Data Mining - Wiederholung Norbert Fuhr 9. Juni 2008 Problemstellungen Problemstellungen Daten vs. Information Def. Data Mining Arten von strukturellen Beschreibungen Regeln (Klassifikation, Assoziations-)

Mehr

Umgang mit und Ersetzen von fehlenden Werten bei multivariaten Analysen

Umgang mit und Ersetzen von fehlenden Werten bei multivariaten Analysen Umgang mit und Ersetzen von fehlenden Werten bei multivariaten Analysen Warum überhaupt Gedanken machen? Was fehlt, ist doch weg, oder? Allgegenwärtiges Problem in psychologischer Forschung Bringt Fehlerquellen

Mehr

Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07

Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07 Regression Trees Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07 Ao.Univ.Prof. Dr. Marcus Hudec marcus.hudec@univie.ac.at Institut für Scientific Computing, Universität Wien 2

Mehr

Random Forests. Angewandte Biostatistik mit R. Fabian Knorre 26.11.2012. Ein Seminar bei Prof. Dr. Jörg Rahnenführer

Random Forests. Angewandte Biostatistik mit R. Fabian Knorre 26.11.2012. Ein Seminar bei Prof. Dr. Jörg Rahnenführer Angewandte Biostatistik mit R Fabian Knorre 26.11.2012 Ein Seminar bei Prof. Dr. Jörg Rahnenführer 1 / 53 Inhaltsverzeichnis 1 Motivation und Einleitung: Was ist ein... und wozu? 2 CART - Einleitung Konstruktion

Mehr

Einfache statistische Auswertungen mit dem TI-Nspire

Einfache statistische Auswertungen mit dem TI-Nspire 1. Neues Dokument und darin eine neue Seite anlegen Als Typ 6: Lists & Spreadsheet wählen. Darin die Messwerte in einer Spalte erfassen. Dies ergibt die Urliste. Wenn mehrere Messwerte vorliegen, die diejenigen,

Mehr

Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell

Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten Teil

Mehr

Data Mining SAS Mining Challenge Einführung in SAS Enterprise Miner

Data Mining SAS Mining Challenge Einführung in SAS Enterprise Miner Agenda Universitätsrechenzentrum Heidelberg Data Mining SAS Mining Challenge Einführung in 14. November 2003 Hussein Waly URZ Heidelberg Hussein.Waly@urz.uni-heidelberg.de SAS Mining Challenge Generelle

Mehr

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18 3. Deskriptive Statistik Ziel der deskriptiven (beschreibenden) Statistik (explorativen Datenanalyse) ist die übersichtliche Darstellung der wesentlichen in den erhobenen Daten enthaltene Informationen

Mehr

Neuerungen Analysis Services

Neuerungen Analysis Services Neuerungen Analysis Services Neuerungen Analysis Services Analysis Services ermöglicht Ihnen das Entwerfen, Erstellen und Visualisieren von Data Mining-Modellen. Diese Mining-Modelle können aus anderen

Mehr

Education Day 2012. Wissensgold aus Datenminen: wie die Analyse vorhandener Daten Ihre Performance verbessern kann! Education Day 2012 11.10.

Education Day 2012. Wissensgold aus Datenminen: wie die Analyse vorhandener Daten Ihre Performance verbessern kann! Education Day 2012 11.10. Wissensgold aus Datenminen: wie die Analyse vorhandener Daten Ihre Performance verbessern kann! 11.10.2012 1 BI PLUS was wir tun Firma: BI plus GmbH Giefinggasse 6/2/7 A-1210 Wien Mail: office@biplus.at

Mehr

Seminar Text- und Datamining Datamining-Grundlagen

Seminar Text- und Datamining Datamining-Grundlagen Seminar Text- und Datamining Datamining-Grundlagen Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 23.05.2013 Gliederung 1 Klassifikationsprobleme 2 Evaluation

Mehr

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining.

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining. Motivation Themenblock: Klassifikation Praktikum: Data Warehousing und Data Mining Ziel Item hat mehrere Attribute Anhand von n Attributen wird (n+)-tes vorhergesagt. Zusätzliches Attribut erst später

Mehr

Dokumentation Datamining

Dokumentation Datamining Hochschule Wismar University of Applied Sciences Technology, Business and Design Fakultät für Ingenieurwissenschaften, Bereich EuI Dokumentation Datamining Eingereicht am: 13. Mai 2012 von: Karsten Diepelt

Mehr

Commercial Banking Übung 1 Kreditscoring

Commercial Banking Übung 1 Kreditscoring Commercial Banking Übung Kreditscoring Dr. Peter Raupach raupach@wiwi.uni-frankfurt.de Sprechzeit Dienstag 6-7:00 Uhr Raum 603 B Kreditscoring Gliederung Grundanliegen Das Sample Modellspezifikation Diskriminanzanalyse

Mehr

Vorlesung Maschinelles Lernen

Vorlesung Maschinelles Lernen Vorlesung Maschinelles Lernen Additive Modelle Katharina Morik Informatik LS 8 Technische Universität Dortmund 7.1.2014 1 von 34 Gliederung 1 Merkmalsauswahl Gütemaße und Fehlerabschätzung 2 von 34 Ausgangspunkt:

Mehr

Klausur zur Vorlesung Multivariate Verfahren, SS 2006 6 Kreditpunkte, 90 min

Klausur zur Vorlesung Multivariate Verfahren, SS 2006 6 Kreditpunkte, 90 min Klausur, Multivariate Verfahren, SS 2006, 6 Kreditpunkte, 90 min 1 Prof. Dr. Fred Böker 08.08.2006 Klausur zur Vorlesung Multivariate Verfahren, SS 2006 6 Kreditpunkte, 90 min Gesamtpunkte: 39 Aufgabe

Mehr

Stichprobenauslegung. für stetige und binäre Datentypen

Stichprobenauslegung. für stetige und binäre Datentypen Stichprobenauslegung für stetige und binäre Datentypen Roadmap zu Stichproben Hypothese über das interessierende Merkmal aufstellen Stichprobe entnehmen Beobachtete Messwerte abbilden Schluss von der Beobachtung

Mehr

TNS EX A MINE BehaviourForecast Predictive Analytics for CRM. TNS Infratest Applied Marketing Science

TNS EX A MINE BehaviourForecast Predictive Analytics for CRM. TNS Infratest Applied Marketing Science TNS EX A MINE BehaviourForecast Predictive Analytics for CRM 1 TNS BehaviourForecast Warum BehaviourForecast für Sie interessant ist Das Konzept des Analytischen Customer Relationship Managements (acrm)

Mehr

Entscheidungsbaumverfahren

Entscheidungsbaumverfahren Entscheidungsbaumverfahren Allgemeine Beschreibung Der Entscheidungsbaum ist die Darstellung einer Entscheidungsregel, anhand derer Objekte in Klassen eingeteilt werden. Die Klassifizierung erfolgt durch

Mehr

Projektaufgaben Block 2

Projektaufgaben Block 2 Kurs BZQ III - Stochastikpraktikum WS 2013/14 Humboldt-Universität zu Berlin Randolf Altmeyer Philip-Moritz Eckert Projektaufgaben Block 2 Abgabe: bis 10.12.2013 Zur Einstimmung (freiwillig, ohne Abgabe)

Mehr

Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining

Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining Ausgangssituation Kaizen Data Mining ISO 9001 Wenn andere Methoden an ihre Grenzen stoßen Es gibt unzählige Methoden, die Abläufe

Mehr

Multivariate Statistik

Multivariate Statistik Hermann Singer Multivariate Statistik 1 Auflage 15 Oktober 2012 Seite: 12 KAPITEL 1 FALLSTUDIEN Abbildung 12: Logistische Regression: Geschätzte Wahrscheinlichkeit für schlechte und gute Kredite (rot/blau)

Mehr

Web Mining effektive Analyse des Nutzer- Verhaltens im Internet

Web Mining effektive Analyse des Nutzer- Verhaltens im Internet Web Mining effektive Analyse des Nutzer- Verhaltens im Internet Dr. Frank Säuberlich Business Unit e-intelligence SAS Deutschland Agenda 1. Begriffsdefinition e-intelligence: Systemdimension Angebotsdimension

Mehr

x 2 x 1 x 3 5.1 Lernen mit Entscheidungsbäumen

x 2 x 1 x 3 5.1 Lernen mit Entscheidungsbäumen 5.1 Lernen mit Entscheidungsbäumen Falls zum Beispiel A = {gelb, rot, blau} R 2 und B = {0, 1}, so definiert der folgende Entscheidungsbaum eine Hypothese H : A B (wobei der Attributvektor aus A mit x

Mehr

Einführung in die Geostatistik (7) Fred Hattermann (Vorlesung), hattermann@pik-potsdam.de Michael Roers (Übung), roers@pik-potsdam.

Einführung in die Geostatistik (7) Fred Hattermann (Vorlesung), hattermann@pik-potsdam.de Michael Roers (Übung), roers@pik-potsdam. Einführung in die Geostatistik (7) Fred Hattermann (Vorlesung), hattermann@pik-potsdam.de Michael Roers (Übung), roers@pik-potsdam.de 1 Gliederung 7 Weitere Krigingverfahren 7.1 Simple-Kriging 7.2 Indikator-Kriging

Mehr

Data-Mining: Ausgewählte Verfahren und Werkzeuge

Data-Mining: Ausgewählte Verfahren und Werkzeuge Fakultät Informatik Institut für Angewandte Informatik Lehrstuhl Technische Informationssysteme Data-Mining: Ausgewählte Verfahren und Vortragender: Jia Mu Betreuer: Dipl.-Inf. Denis Stein Dresden, den

Mehr

Moderne Methoden der KI: Maschinelles Lernen

Moderne Methoden der KI: Maschinelles Lernen Moderne Methoden der KI: Maschinelles Lernen Prof. Dr.Hans-Dieter Burkhard Vorlesung Entscheidungsbäume Darstellung durch Regeln ID3 / C4.5 Bevorzugung kleiner Hypothesen Overfitting Entscheidungsbäume

Mehr

4. Erstellen von Klassen

4. Erstellen von Klassen Statistik mit Tabellenkalkulation 4. Erstellen von Klassen Mit einem einfachen Befehl lässt sich eine Liste von Zahlen auf die Häufigkeit der einzelnen Werte untersuchen. Verwenden Sie dazu den Befehl

Mehr

Fortgeschrittene Statistik Logistische Regression

Fortgeschrittene Statistik Logistische Regression Fortgeschrittene Statistik Logistische Regression O D D S, O D D S - R A T I O, L O G I T T R A N S F O R M A T I O N, I N T E R P R E T A T I O N V O N K O E F F I Z I E N T E N, L O G I S T I S C H E

Mehr

9. Schätzen und Testen bei unbekannter Varianz

9. Schätzen und Testen bei unbekannter Varianz 9. Schätzen und Testen bei unbekannter Varianz Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Schätzen und Testen bei unbekannter Varianz Wenn wir die Standardabweichung σ nicht kennen,

Mehr

Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014

Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014 Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014 Aufgabe 1. Data Mining a) Mit welchen Aufgabenstellungen befasst sich Data Mining? b) Was versteht man unter Transparenz einer Wissensrepräsentation?

Mehr

Business Value Launch 2006

Business Value Launch 2006 Quantitative Methoden Inferenzstatistik alea iacta est 11.04.2008 Prof. Dr. Walter Hussy und David Tobinski UDE.EDUcation College im Rahmen des dokforums Universität Duisburg-Essen Inferenzstatistik Erläuterung

Mehr

Einfache statistische Auswertungen mit dem Programm SPSS

Einfache statistische Auswertungen mit dem Programm SPSS Einfache statistische Auswertungen mit dem Programm SPSS Datensatz: fiktive_daten.sav Dipl. Päd. Anne Haßelkus Dr. Dorothea Dette-Hagenmeyer 11/2011 Überblick 1 Deskriptive Statistiken; Mittelwert berechnen...

Mehr

Motivation. Jede Messung ist mit einem sogenannten Fehler behaftet, d.h. einer Messungenauigkeit

Motivation. Jede Messung ist mit einem sogenannten Fehler behaftet, d.h. einer Messungenauigkeit Fehlerrechnung Inhalt: 1. Motivation 2. Was sind Messfehler, statistische und systematische 3. Verteilung statistischer Fehler 4. Fehlerfortpflanzung 5. Graphische Auswertung und lineare Regression 6.

Mehr

Data Mining mit Rapidminer im Direktmarketing ein erster Versuch. Hasan Tercan und Hans-Peter Weih

Data Mining mit Rapidminer im Direktmarketing ein erster Versuch. Hasan Tercan und Hans-Peter Weih Data Mining mit Rapidminer im Direktmarketing ein erster Versuch Hasan Tercan und Hans-Peter Weih Motivation und Ziele des Projekts Anwendung von Data Mining im Versicherungssektor Unternehmen: Standard

Mehr

Big Data als neuer Partner von Six Sigma Optimierung der diskreten Produktion

Big Data als neuer Partner von Six Sigma Optimierung der diskreten Produktion Big Data als neuer Partner von Six Sigma Optimierung der diskreten Produktion Frank Effenberger, Marco Fischer, 22.06.2015, München Agenda Firmenpräsentation Einführung Anwendungsfall Fazit Zahlen und

Mehr

Automatische Mustererkennung zur Klassifikation von Konsumentenverhalten am Beispiel der Kreditwürdigkeitsprüfung

Automatische Mustererkennung zur Klassifikation von Konsumentenverhalten am Beispiel der Kreditwürdigkeitsprüfung Prof. Dr. Gerhard Arminger Dipl.-Ök. Alexandra Schwarz Bergische Universität Wuppertal Fachbereich Wirtschaftswissenschaft Fach Statistik Automatische Mustererkennung zur Klassifikation von Konsumentenverhalten

Mehr

Data Mining-Modelle und -Algorithmen

Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining ist ein Prozess, bei dem mehrere Komponenten i n- teragieren. Sie greifen auf Datenquellen, um diese zum Training,

Mehr

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table("c:\\compaufg\\kredit.

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table(c:\\compaufg\\kredit. Lösung 16.3 Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit

Mehr

Mining High-Speed Data Streams

Mining High-Speed Data Streams Mining High-Speed Data Streams Pedro Domingos & Geoff Hulten Departement of Computer Science & Engineering University of Washington Datum : 212006 Seminar: Maschinelles Lernen und symbolische Ansätze Vortragender:

Mehr

Eine zweidimensionale Stichprobe

Eine zweidimensionale Stichprobe Eine zweidimensionale Stichprobe liegt vor, wenn zwei qualitative Merkmale gleichzeitig betrachtet werden. Eine Urliste besteht dann aus Wertepaaren (x i, y i ) R 2 und hat die Form (x 1, y 1 ), (x 2,

Mehr

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen 4. Datenanalyse und Modellbildung Deskriptive Statistik 2-1 2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen Für die Auswertung einer Messreihe, die in Form

Mehr

Proseminar - Data Mining

Proseminar - Data Mining Proseminar - Data Mining SCCS, Fakultät für Informatik Technische Universität München SS 2014, SS 2014 1 Data Mining: Beispiele (1) Hausnummererkennung (Klassifikation) Source: http://arxiv.org/abs/1312.6082,

Mehr

Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens

Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 17.04.2015 Entscheidungsprobleme beim Textmining

Mehr

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002)

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002) 3. Entscheidungsbäume Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002) (aus Wilhelm 2001) Beispiel: (aus Böhm 2003) Wann sind Entscheidungsbäume

Mehr

Algorithms for Regression and Classification

Algorithms for Regression and Classification Fakultät für Informatik Effiziente Algorithmen und Komplexitätstheorie Algorithms for Regression and Classification Robust Regression and Genetic Association Studies Robin Nunkesser Fakultät für Informatik

Mehr

Neuerungen in Minitab 16

Neuerungen in Minitab 16 Neuerungen in Minitab 16 minitab@additive-net.de - Telefon: 06172 / 5905-30 Willkommen zu Minitab 16! Die neueste Version der Minitab Statistical Software umfasst mehr als siebzig neue Funktionen und Verbesserungen,

Mehr

2. Lernen von Entscheidungsbäumen

2. Lernen von Entscheidungsbäumen 2. Lernen von Entscheidungsbäumen Entscheidungsbäume 2. Lernen von Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch Attribut/Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse

Mehr

Einführung in Statistik und Messwertanalyse für Physiker

Einführung in Statistik und Messwertanalyse für Physiker Gerhard Böhm, Günter Zech Einführung in Statistik und Messwertanalyse für Physiker SUB Göttingen 7 219 110 697 2006 A 12486 Verlag Deutsches Elektronen-Synchrotron Inhalt sverzeichnis 1 Einführung 1 1.1

Mehr

Künstliche Neuronale Netze und Data Mining

Künstliche Neuronale Netze und Data Mining Künstliche Neuronale Netze und Data Mining Catherine Janson, icasus GmbH Heidelberg Abstract Der Begriff "künstliche Neuronale Netze" fasst Methoden der Informationstechnik zusammen, deren Entwicklung

Mehr

1. Allgemeine Hinweise Alexander.Martin.Koenig@TU-Clausthal.de

1. Allgemeine Hinweise Alexander.Martin.Koenig@TU-Clausthal.de 1. Allgemeine Hinweise Alexander.Martin.Koenig@TU-Clausthal.de Man sollte eine Excel-Tabelle immer so übersichtlich wie möglich halten. Dazu empfiehlt es sich, alle benötigten Daten, Konstanten und Messwerte

Mehr

Florian Frötscher und Demet Özçetin

Florian Frötscher und Demet Özçetin Statistische Tests in der Mehrsprachigkeitsforschung Aufgaben, Anforderungen, Probleme. Florian Frötscher und Demet Özçetin florian.froetscher@uni-hamburg.de SFB 538 Mehrsprachigkeit Max-Brauer-Allee 60

Mehr

Data Mining als Arbeitsprozess

Data Mining als Arbeitsprozess Data Mining als Arbeitsprozess Hagen Knaf Studiengang Angewandte Mathematik Hochschule RheinMain 31. Dezember 2015 In Unternehmen werden umfangreichere Aktivitäten oder Projekte im Bereich des Data Mining

Mehr

Data Mining Anwendungen und Techniken

Data Mining Anwendungen und Techniken Data Mining Anwendungen und Techniken Knut Hinkelmann DFKI GmbH Entdecken von Wissen in banken Wissen Unternehmen sammeln ungeheure mengen enthalten wettbewerbsrelevantes Wissen Ziel: Entdecken dieses

Mehr

Mining the Web. Analyse von Benutzerpfaden und Nutzertypen im Internet. Business Unit CRM Solutions SAS Deutschland. Dr.

Mining the Web. Analyse von Benutzerpfaden und Nutzertypen im Internet. Business Unit CRM Solutions SAS Deutschland. Dr. Mining the Web Analyse von Benutzerpfaden und Nutzertypen im Internet Dr. Frank Säuberlich Business Unit CRM Solutions SAS Deutschland Agenda 1. Einleitung: Der Lebenszyklus eines e-kunden Begriffsdefinition

Mehr

Standardab er des. Testwert = 145.5 95% Konfidenzintervall. T df Sig. (2-seitig) Differenz Untere Obere -2.011 698.045-5.82-11.50 -.14.

Standardab er des. Testwert = 145.5 95% Konfidenzintervall. T df Sig. (2-seitig) Differenz Untere Obere -2.011 698.045-5.82-11.50 -.14. Aufgabe : einfacher T-Test Statistik bei einer Stichprobe Standardfehl Standardab er des Mittelwert weichung Mittelwertes 699 39.68 76.59 2.894 Test bei einer Sichprobe Testwert = 45.5 95% Konfidenzintervall

Mehr

Survival of the Fittest Wie statistische Modelle an Daten angepasst werden

Survival of the Fittest Wie statistische Modelle an Daten angepasst werden Tag der Mathematik 2009 Survival of the Fittest Wie statistische Modelle an Daten angepasst werden Thomas Kneib Fakultät für Mathematik und Naturwissenschaften Carl von Ossietzky Universität Oldenburg

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Entscheidungsbäume

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Entscheidungsbäume Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Entscheidungsbäume Christoph Sawade/Niels Landwehr Jules Rasetaharison, Tobias Scheffer Entscheidungsbäume Eine von vielen Anwendungen:

Mehr

Mathematische und statistische Methoden II

Mathematische und statistische Methoden II Methodenlehre e e Prof. Dr. G. Meinhardt 6. Stock, Wallstr. 3 (Raum 06-206) Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung. Mathematische und statistische Methoden II Dr. Malte Persike

Mehr

Künstliche Intelligenz Maschinelles Lernen

Künstliche Intelligenz Maschinelles Lernen Künstliche Intelligenz Maschinelles Lernen Stephan Schwiebert Sommersemester 2009 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Maschinelles Lernen Überwachtes Lernen

Mehr

4. Lernen von Entscheidungsbäumen. Klassifikation mit Entscheidungsbäumen. Entscheidungsbaum

4. Lernen von Entscheidungsbäumen. Klassifikation mit Entscheidungsbäumen. Entscheidungsbaum 4. Lernen von Entscheidungsbäumen Klassifikation mit Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch /Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse zugeordnet werden.

Mehr

Allgemeine Regressionsanalyse. Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl. deterministisch

Allgemeine Regressionsanalyse. Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl. deterministisch Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 9.1 Allgemeine Regressionsanalyse Daten (X j, Y j ), j = 1,..., N unabhängig Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl.

Mehr

Trendlinien in Diagrammen (Excel 2010)

Trendlinien in Diagrammen (Excel 2010) Trendlinien in Diagrammen (Excel 2010) Trendlinien in Diagrammen (Excel 2010)... 1 Allgemeines... 2 Informationen über Prognosen und das Anzeigen von Trends in Diagrammen... 3 AUSWÄHLEN DES PASSENDEN TRENDLINIETYPS

Mehr

Erzeugung zufälliger Graphen und Bayes-Netze

Erzeugung zufälliger Graphen und Bayes-Netze Erzeugung zufälliger Graphen und Bayes-Netze Proseminar Algorithmen auf Graphen Georg Lukas, IF2000 2002-07-09 E-Mail: georg@op-co.de Folien: http://op-co.de/bayes/ Gliederung 1. Einleitung 2. einfache

Mehr

Kapitel 4: Binäre Regression

Kapitel 4: Binäre Regression Kapitel 4: Binäre Regression Steffen Unkel (basierend auf Folien von Nora Fenske) Statistik III für Nebenfachstudierende WS 2013/2014 4.1 Motivation Ausgangssituation Gegeben sind Daten (y i, x i1,...,

Mehr

Statistik und Wahrscheinlichkeitsrechnung

Statistik und Wahrscheinlichkeitsrechnung Statistik und Wahrscheinlichkeitsrechnung Übung 2 28.02.2008 1 Inhalt der heutigen Übung Beschreibende Statistik Gemeinsames Lösen der Übungsaufgaben 2.1: Häufigkeitsverteilung 2.2: Tukey Boxplot 25:Korrelation

Mehr

Kapitel 3. Zufallsvariable. Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion. Erwartungswert, Varianz und Standardabweichung

Kapitel 3. Zufallsvariable. Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion. Erwartungswert, Varianz und Standardabweichung Kapitel 3 Zufallsvariable Josef Leydold c 2006 Mathematische Methoden III Zufallsvariable 1 / 43 Lernziele Diskrete und stetige Zufallsvariable Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion

Mehr

Predictive Modeling Markup Language. Thomas Morandell

Predictive Modeling Markup Language. Thomas Morandell Predictive Modeling Markup Language Thomas Morandell Index Einführung PMML als Standard für den Austausch von Data Mining Ergebnissen/Prozessen Allgemeine Struktur eines PMML Dokuments Beispiel von PMML

Mehr

Klausur zu Methoden der Statistik I (mit Kurzlösung) Wintersemester 2007/2008. Aufgabe 1

Klausur zu Methoden der Statistik I (mit Kurzlösung) Wintersemester 2007/2008. Aufgabe 1 Lehrstuhl für Statistik und Ökonometrie der Otto-Friedrich-Universität Bamberg Prof. Dr. Susanne Rässler Klausur zu Methoden der Statistik I (mit Kurzlösung) Wintersemester 2007/2008 Aufgabe 1 Ihnen liegt

Mehr

Data Mining und Statistik: Gemeinsamkeiten und Unterschiede

Data Mining und Statistik: Gemeinsamkeiten und Unterschiede Universität Ulm Seminararbeit zum Thema Data Mining und Statistik: Gemeinsamkeiten und Unterschiede vorgelegt von: Daniel Meschenmoser betreut von: Dr. Tomas Hrycej Dr. Matthias Grabert Ulm, im Februar

Mehr

Regelmäßigkeit (Erkennen von Mustern und Zusammenhängen) versus Zufall

Regelmäßigkeit (Erkennen von Mustern und Zusammenhängen) versus Zufall Wahrscheinlichkeitstheorie Was will die Sozialwissenschaft damit? Regelmäßigkeit (Erkennen von Mustern und Zusammenhängen) versus Zufall Auch im Alltagsleben arbeiten wir mit Wahrscheinlichkeiten, besteigen

Mehr

Webergänzung zu Kapitel 10

Webergänzung zu Kapitel 10 Webergänzung zu Kapitel 10 10.1.4 Varianzanalyse (ANOVA: analysis of variance) Im Kapitel 10 haben wir uns hauptsächlich mit Forschungsbeispielen beschäftigt, die nur zwei Ergebnissätze hatten (entweder

Mehr

Bestandskundenmanagement Wo drückt bei Ihnen der Schuh?

Bestandskundenmanagement Wo drückt bei Ihnen der Schuh? Bestandskundenmanagement Wo drückt bei Ihnen der Schuh? best-reactions GmbH Hirschberger Straße 33 D 90559 Burgthann Alle Rechte vorbehalten HRB 23679, Amtsgericht Nürnberg Geschäftsführer Alexander P.

Mehr

Erfolg und Vermögensrückgänge angefertigt im Rahmen der Lehrveranstaltung Nachrichtentechnik von: Eric Hansen, eric-hansen@gmx.de am: 07.09.

Erfolg und Vermögensrückgänge angefertigt im Rahmen der Lehrveranstaltung Nachrichtentechnik von: Eric Hansen, eric-hansen@gmx.de am: 07.09. Abstract zum Thema Handelssysteme Erfolg und Vermögensrückgänge angefertigt im Rahmen der Lehrveranstaltung Nachrichtentechnik von: Eric Hansen, eric-hansen@gmx.de am: 07.09.01 Einleitung: Handelssysteme

Mehr

Kommentierter SPSS-Ausdruck zur logistischen Regression

Kommentierter SPSS-Ausdruck zur logistischen Regression Daten: POK V AG 3 (POKV_AG3_V07.SAV) Kommentierter SPSS-Ausdruck zur logistischen Regression Fragestellung: Welchen Einfluss hat die Fachnähe und das Geschlecht auf die interpersonale Attraktion einer

Mehr

Einleitung 19. Teil I Datenanalyse und Modellbildung Grundlagen 25

Einleitung 19. Teil I Datenanalyse und Modellbildung Grundlagen 25 Inhaltsverzeichnis Einleitung 19 Zu diesem Buch 19 Konventionen in diesem Buch 20 Was Sie nicht lesen müssen 21 Falsche Voraussetzungen 21 Wie dieses Buch aufgebaut ist 21 Teil I: Datenanalyse und Grundlagen

Mehr

Was ist Data Mining... in der Fundraising Praxis?

Was ist Data Mining... in der Fundraising Praxis? Was ist Data Mining...... in der Fundraising Praxis? Erkennen von unbekannten Mustern in sehr grossen Datenbanken (> 1000 GB) wenige und leistungsfähige Verfahren Automatisierung Erkennen von unbekannten

Mehr

Text Mining 4. Seminar Klassifikation

Text Mining 4. Seminar Klassifikation Text Mining 4. Seminar Klassifikation Stefan Bordag 1. Klassifikation Stringklassifikation (männliche-weibliche Vornamen) Dokument klassifikation Bayesian Neuronal network (Decision tree) (Rule learner)

Mehr

Logistische Regression

Logistische Regression Grundideen Logistische Regression Exkurs Logistische Regression Auch nachzulesen bei: http://www.psychologie.uniwuerzburg.de/methoden/lehre/skripten/hs_meth_evaluation/hs_evaluation_logistisch eregression.pdf

Mehr

Eine Einführung in R: Statistische Tests

Eine Einführung in R: Statistische Tests Eine Einführung in R: Statistische Tests Bernd Klaus, Verena Zuber Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.uni-leipzig.de/ zuber/teaching/ws12/r-kurs/

Mehr

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten.

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten. Statistik für Kommunikationswissenschaftler Wintersemester 2009/200 Vorlesung Prof. Dr. Helmut Küchenhoff Übung Cornelia Oberhauser, Monia Mahling, Juliane Manitz Thema 4 Homepage zur Veranstaltung: http://www.statistik.lmu.de/~helmut/kw09.html

Mehr

Anwendung von Ensemble Methoden für Klassifikationsaufgaben Marcus Hudec marcus.hudec@univie.ac.at

Anwendung von Ensemble Methoden für Klassifikationsaufgaben Marcus Hudec marcus.hudec@univie.ac.at Anwendung von Ensemble Methoden für Klassifikationsaufgaben Marcus Hudec marcus.hudec@univie.ac.at Österreichische Statistiktage 2011 Graz, 7.- 9. September 2011 Vorbemerkungen Ensemble Methoden für Klassifikationsaufgaben

Mehr

Anwendung der Predictive Analytics

Anwendung der Predictive Analytics TDWI Konferenz mit BARC@TDWI Track 2014 München, 23. 25. Juni 2014 Anwendung der Predictive Analytics Prof. Dr. Carsten Felden Dipl. Wirt. Inf. Claudia Koschtial Technische Universität Bergakademie Freiberg

Mehr

Motivation. Wilcoxon-Rangsummentest oder Mann-Whitney U-Test. Wilcoxon Rangsummen-Test Voraussetzungen. Bemerkungen

Motivation. Wilcoxon-Rangsummentest oder Mann-Whitney U-Test. Wilcoxon Rangsummen-Test Voraussetzungen. Bemerkungen Universität Karlsruhe (TH) Forschungsuniversität gegründet 825 Wilcoxon-Rangsummentest oder Mann-Whitney U-Test Motivation In Experimenten ist die Datenmenge oft klein Daten sind nicht normalverteilt Dann

Mehr

Statistik II für Betriebswirte Vorlesung 3

Statistik II für Betriebswirte Vorlesung 3 PD Dr. Frank Heyde TU Bergakademie Freiberg Institut für Stochastik Statistik II für Betriebswirte Vorlesung 3 5. November 2013 Beispiel: Aktiensplit (Aczel & Sounderpandan, Aufg. 14-28) Ein Börsenanalyst

Mehr

Unsupervised Kernel Regression

Unsupervised Kernel Regression 9. Mai 26 Inhalt Nichtlineare Dimensionsreduktion mittels UKR (Unüberwachte KernRegression, 25) Anknüpfungspunkte Datamining I: PCA + Hauptkurven Benötigte Zutaten Klassische Kernregression Kerndichteschätzung

Mehr

Exploration und Klassifikation von BigData

Exploration und Klassifikation von BigData Exploration und Klassifikation von BigData Inhalt Einführung Daten Data Mining: Vorbereitungen Clustering Konvexe Hülle Fragen Google: Riesige Datenmengen (2009: Prozessieren von 24 Petabytes pro Tag)

Mehr

Statistische Verfahren für das Data Mining in einem Industrieprojekt

Statistische Verfahren für das Data Mining in einem Industrieprojekt Statistische Verfahren für das Data Mining in einem Industrieprojekt Thorsten Dickhaus Forschungszentrum Jülich GmbH Zentralinstitut für Angewandte Mathematik Telefon: 02461/61-4193 E-Mail: th.dickhaus@fz-juelich.de

Mehr