Algorithmische Modelle als neues Paradigma

Ähnliche Dokumente

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining

Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07

Leichte-Sprache-Bilder

Stichprobenauslegung. für stetige und binäre Datentypen

Die Online-Meetings bei den Anonymen Alkoholikern. zum Thema. Online - Meetings. Eine neue Form der Selbsthilfe?

Xesar. Die vielfältige Sicherheitslösung

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Das Leitbild vom Verein WIR

SCHULVERSUCH INFORMATIK IN BADEN-WÜRTTEMBERG. Gerhard Liebrich Peter-Petersen-Gymnasium Mannheim

Binäre Bäume. 1. Allgemeines. 2. Funktionsweise. 2.1 Eintragen

1 topologisches Sortieren

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis

Konzepte der Informatik

Linearen Gleichungssysteme Anwendungsaufgaben

1. Weniger Steuern zahlen

Orientierungstest für angehende Industriemeister. Vorbereitungskurs Mathematik

Leistungen der Pflegeversicherung ab

Bedienungsanleitung für den Online-Shop

Kapiteltests zum Leitprogramm Binäre Suchbäume

Online-Bestellung Tageskarten für Mitglieder des FC St. Pauli, die nicht im Besitz einer Dauer- oder Saisonkarte sind.

Auftrag zum Fondswechsel

Institut für Computational Engineering ICE. N ä h e r d ra n a m S ys t e m d e r Te c h n i k d e r Z u ku n f t. w w w. n t b.

Makigami, Prozessmapping und Wertstromdesign. erstellt von Stefan Roth

Name: Vorname: Matr. Nr.:

Gemischte Modelle. Fabian Scheipl, Sonja Greven. SoSe Institut für Statistik Ludwig-Maximilians-Universität München

Updatehinweise für die Version forma 5.5.5

Switching. Übung 7 Spanning Tree. 7.1 Szenario

Guide DynDNS und Portforwarding

Abamsoft Finos im Zusammenspiel mit shop to date von DATA BECKER

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus:

Tutorials für ACDSee 12: Hochladen von Fotos auf Ihren Account bei ACDSeeOnline.com

SCHRITT 1: Öffnen des Bildes und Auswahl der Option»Drucken«im Menü»Datei«...2. SCHRITT 2: Angeben des Papierformat im Dialog»Drucklayout«...

SJ OFFICE - Update 3.0

Aufgabe 1 Berechne den Gesamtwiderstand dieses einfachen Netzwerkes. Lösung Innerhalb dieser Schaltung sind alle Widerstände in Reihe geschaltet.

Physik & Musik. Stimmgabeln. 1 Auftrag

WÄRMEMESSUNG MIT DURCHFLUSSMENGENMESSER, TEMPERATURSENSOREN UND LOXONE

Klassenarbeit zu linearen Gleichungssystemen

Das große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten

Catherina Lange, Heimbeiräte und Werkstatträte-Tagung, November

Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining

Zahlen und das Hüten von Geheimnissen (G. Wiese, 23. April 2009)

Lichtbrechung an Linsen

Nachtrag zu binären Suchbäumen

Subpostfächer und Vertretungen für Unternehmen

Bedienungsanleitung. Stand: Copyright 2011 by GEVITAS GmbH

KONSTRUKTION VON ROT-SCHWARZ-BÄUMEN

Nr. 86 / 13 vom 28. Oktober 2013

AUF LETZTER SEITE DIESER ANLEITUNG!!!

Sicher auf Erfolgskurs. Mit Ihrem Treuhand-Betriebsvergleich

Bruchrechnung Wir teilen gerecht auf

Spezifikation für Coaching Funktion in OpenOLAT

Formale Systeme. Binary Decision Diagrams. Prof. Dr. Bernhard Beckert WS 2010/2011 KIT INSTITUT FÜR THEORETISCHE INFORMATIK

LIFO -Stärkenmanagement: Übungen und Spiele

Prozessbewertung und -verbesserung nach ITIL im Kontext des betrieblichen Informationsmanagements. von Stephanie Wilke am

Menü Netzwerk 1. Job-Pufferung Netzwerkpuffer Netzwerk<x>-Konfig NPA-Modus PCL-SmartSwitch. PS-SmartSwitch MAC-Binär-PS. Drucken. Arbeiten mit Farben

Kapitalerhöhung - Verbuchung

Eva Douma: Die Vorteile und Nachteile der Ökonomisierung in der Sozialen Arbeit

Abituraufgabe zur Stochastik, Hessen 2009, Grundkurs (TR)

Predictive Modeling Markup Language. Thomas Morandell

Netzsicherheit I, WS 2008/2009 Übung 12. Prof. Dr. Jörg Schwenk

Medienwechsel in StarMoney 8.0 und StarMoney Business 5.0

Educase. Release Notes 1.7: Neue Funktionen und Verbesserungen. Base-Net Informatik AG Wassergrabe 14 CH-6210 Sursee

Amtsblatt der Hochschule für angewandte Wissenschaften Landshut. Jahrgang: 2014 Laufende Nr.:

Umgang mit Schaubildern am Beispiel Deutschland surft

Installation OMNIKEY 3121 USB

Bochum, den. geb. am: in Matr. Nr.:

HTML5. Wie funktioniert HTML5? Tags: Attribute:

Erfolg und Vermögensrückgänge angefertigt im Rahmen der Lehrveranstaltung Nachrichtentechnik von: Eric Hansen, am:

BITte ein BIT. Vom Bit zum Binärsystem. A Bit Of Magic. 1. Welche Werte kann ein Bit annehmen? 2. Wie viele Zustände können Sie mit 2 Bit darstellen?

Das in diesem Werk enthaltene Programm-Material ist mit keiner Verpflichtung oder Garantie irgendeiner Art verbunden.

WS 2013/14. Diskrete Strukturen

How to do? Projekte - Zeiterfassung

V 2 B, C, D Drinks. Möglicher Lösungsweg a) Gleichungssystem: 300x y = x + 500y = 597,5 2x3 Matrix: Energydrink 0,7 Mineralwasser 0,775,

Handbuch ZfEditor Stand

Mitarbeiterbefragung als PE- und OE-Instrument

ALEMÃO. Text 1. Lernen, lernen, lernen

SOZIALVORSCHRIFTEN IM STRAßENVERKEHR Verordnung (EG) Nr. 561/2006, Richtlinie 2006/22/EG, Verordnung (EU) Nr. 165/2014

Was meinen die Leute eigentlich mit: Grexit?

Dokumentation Typo3. tt - news - Nachrichtenmodul

Grundlagen der Informatik

Das Seminar ist eine Prüfungsleistung für Bachelor und Masterstudierende der Informatik!

Grundlagen für den erfolgreichen Einstieg in das Business Process Management SHD Professional Service

UpToNet DMS Posteingang

Sichere Anleitung Zertifikate / Schlüssel für Kunden der Sparkasse Germersheim-Kandel. Sichere . der

3. LINEARE GLEICHUNGSSYSTEME

Zahlensysteme Das 10er-System

EMIS - Langzeitmessung

Mobile Umfragen Responsive Design (Smartphone & Tablet)

Festigkeit von FDM-3D-Druckteilen

2. Negative Dualzahlen darstellen

Was ich als Bürgermeister für Lübbecke tun möchte

Checkliste zur qualitativen Nutzenbewertung

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

Handbucherweiterung Zuschlag

Kybernetik Braitenberg Vehikel

Aktuelles, Mitteilungen und Veranstaltungen verwalten

WS 2009/10. Diskrete Strukturen

Wasserfall-Ansätze zur Bildsegmentierung

Wir machen neue Politik für Baden-Württemberg

Transkript:

Algorithmische Modelle als neues Paradigma Axel Schwer Seminar über Philosophische Grundlagen der Statistik, WS 2010/11 Betreuer: Prof. Dr. Thomas Augustin München, den 28. Januar 2011 1 / 29

LEO BREIMAN geb: 27.Januar 1928, gest: 5.Juli 2005 Sohn europäischer Einwanderer Studium der Physik und Mathematik Professor für Wahrscheinlichkeitstheorie (zu seiner Zeit einer der wenigen) Verließ die Universität zeitweise und arbeitet als statistischer Berater 2 / 29

y nature x Data Modeling Culture Algorithmic Modeling Culture y Lineare Regression Logistische Regression Cox Regression x y unbekannt x Entscheidungsbäume Neuronale Netze Modelüberprüfung Anpassungsgüte Überprüfung der Residuen -> 98% der Statistiker Modelüberprüfung Messung der Vorhersagegenauigkeit -> 2% der Statistiker 3 / 29 Abbildungen aus: Statistical Science2001, Vol. 16, No. 3, 199 231

Data Modeling führt zu schnell zu: fragwürdigen Schlussfolgerungen hält Benutzer von anwenderfreundlichen algorithmischen Modellen ab versperrt Statistikern neue Bereiche die Fragestellung orientiert sich zu stark an den Modellen und zu wenig an der Fragestellung an sich Beispiel am Ozonprojekt Ende der 69er Ozonwerte Drei Warnstufen Mitte 70 EPA sucht nach Vorhersage für die nächsten 12 Stunden Täglich/Stündlich mehr als 450 Variablen über 7 Jahre und den dazugehörenden Ozonwerten. 4 / 29

Breimans Anforderungen an die Statistik Assume that the data are generated by the following model: (a) Lösungsorientiertes arbeiten. (b) Datenbetrachtung vor der Modellwahl (c) Suche nach dem besten Modell (Beide Kulturen ) (d) Gütekriterium des Modells ist die Vorhersagegenauigkeit (e) Computer sind unverzichtbare Hilfsmittel 5 / 29

Data Modeling + Einfache Interpretierbarkeit Unterschiedliche Modelle führen zu unterschiedlichen Schlussfolgerunge über die Natur - Faced with an applied problem, think of a data model Schlussfolgerung anhand der Modellannahmen und nicht der Vorgaben der Natur Modell bildet Natur schlecht ab, führt zu fehlerhafter Schlussfolgerung 6 / 29 McCullah and Nelder (1989): Data will often point with almost equal emphasis on several possible models, and it is important that the statistician recognize and accept this.

Algorithmische Modelle Mitte der 80er Jahre wurden Algorithmen populär bei den Modellen waren waren Informatiker, Physiker und Ingenieure führend Ziel war eine hohe Vorhersagegenauigkeit Hauptaugenmerk: komplexe Modelle für die bisherige Verfahren nicht passten Spracherkennung Bilderkennung Handschrifterkennung Vorhersagen im Finanzbereich 7 / 29

Grundgedanken Data Modeling war in diesen Bereichen kaum verwendet worden Die Natur verarbeitet die Daten in einer Black Bock, deren Inhalt, mysteriös und oft unbekannt ist. Rashomon Occam Bellman 8 / 29

Rashomon Die besten 5 Variablen aus 30 140.000 Kombinationen Problem auch bei Entscheidungsbäumen 9 / 29 Abbildungen aus: Statistical Science2001, Vol. 16, No. 3, 199 231

Occam Je einfacher desto besser Einfachheit vs. Genauigkeit Darstellung und Qualität Bäume einfach zu interpretieren Genauigkeit erst durch den Wald random forests 10 / 29 Abbildungen aus: Statistical Science2001, Vol. 16, No. 3, 199 231

Bellman Der Fluch der vielen Variablen Verringerung der Variablen ist Verringerung der Informationen Ziel: Viele (noch so kleine) Informationen mit einzubauen Der Segen der vielen Variablen 11 / 29

Konfrontation mit der Black Box y Natur x y Neuronale Netze Bäume x Inhalt oft unbekannt, komplex undurchschaubar Einfacher zu interpretieren Inhalt komplex Durchschaubarer schwieriger zu interpretieren Führt zu der Frage nach der Hautaufgabe des Modells? 12 / 29 Abbildungen aus: Statistical Science2001, Vol. 16, No. 3, 199 231

Beispiel Hepatitis 13 / 29 Abbildungen aus: Statistical Science2001, Vol. 16, No. 3, 199 231

Beispiel Hepatitis 14 / 29 Abbildungen aus: Statistical Science2001, Vol. 16, No. 3, 199 231

Klassifikations- und Regressions-Bäume 15 / 29

Klassifikations- und Regressions-Bäume Technik der Segmentierung sind Entscheidungsbäume Baumstruktur von Klassifikations- und Regressionsbäumen identisch y kategorial Klassifikation Die Werte sollten am Ende: innerhalb der Knoten möglichst homogen zwischen den Gruppen möglichst heterogen y stetig Regression Mittelwerte der Zielvariablen sollen sich stark unterscheiden Die Daten werden nach geeigneten Kriterien aufgeteilt 16 / 29

Gütekriterium Anforderungen an ein Maß zur Messung der Güte Heterogener Knoten = niedriges Maß Weitere Verzweigungen sollten damit auf ihre Güte messbar gemacht werden. 17 / 29

Splitkriterien Klassifikation Binäre Zielgröße Kategoriale Zielgröße Regression Stetige Zielgröße wobei p den Anteil der Klasse 1 im Knoten t beschreibt Gini Koeffizient Entropy Missklassifikationsfehler 18 / 29

Splitkriterien Klassifikation Binäre Zielgröße Kategoriale Zielgröße Regression Stetige Zielgröße wobei p den Anteil der Klasse 1 im Knoten t beschreibt Gini Koeffizient Entropy Missklassifikationsfehler 19 / 29 -> Erweiterung des binären Falls auf k Variablen mit 2 k-1-1 Splitmöglichkeiten.

Übersicht der Gütekriterien für die Heterogenität innerhalb der Knoten 20 / 29

Beispiel 400,400 400,400 Split anhand Variable A oder Split anhand Variable B 21 / 29

Beispiel 400,400 400,400 300,100 100,300 200,300 200,100 Missqualifikationsfehler: ¼ ¼ 2/5 1/3 gewichtet (300/800) ¼ +(100/800)* ¼ =1/8 = 0,125 (200/800)* 2/5 + (200/800)*1/3 = 11/60 = 0,1833 -> Die linke Aufteilung sollte hier gewählt werden. 22 / 29

Beispiel 400,400 400,400 300,100 100,300 200,400 200,0 Missqualifikationsfehler: ¼ ¼ ½ 0 gewichtet (300/800) ¼ +(100/800)* ¼ =1/8 (200/800)* ½ + 0 = 1/8 -> Nach dem Missqualifikationsfehler sind beide Aufteilungen hier äquivalent 23 / 29

Beispiel 400,400 400,400 300,100 100,300 200,400 200,0 Gini Index: 3/8 3/8 4/9 0 gewichtet (300/800) 3/8 +(100/800)* 3/8 =3/16 = 0,1875 (200/800)* 4/9 + 0 = 1/9 = 0,11 -> Nach dem Gini-Index ist die zweite Variante zu bevorzugen 24 / 29

Beispiel 400,400 400,400 300,100 100,300 200,400 200,0 Missqualifikationsfehler: =1/8 = 1/8 Gini-Index =3/16 = 0,1875 = 1/9 = 0,11 25 / 29 -> Missqualifikationsfehler führt in diesem Fall zum gleichen Ergebnis -> Gini-Index bevorzugt die 2. Auswahl, da ein reiner Knoten vorhanden ist.

Splitkriterien Klassifikation Binäre Zielgröße Kategoriale Zielgröße Regression Stetige Zielgröße Für y wird aus den Kovariablen ein Paar, bestehend aus einer Variablen und einem Splitpunkt gesucht, das folgendes Kriterium erfüllt: Die Minimierung wird berechnet durch: und somit das optimale Paar bestimmt. 26 / 29

Beispiel eines Regressionsbaumes 27 / 29

Vorgehensweise in der Praxis Aufteilung in Trainingsset und Testset Entscheidung ob binärer Split vs. multipler Split Bestimmung des Splitkriteriums pro Knoten Split sollte so gewählt werden, dass jeder Unterknoten homogener ist als der aktuelle Knoten Festlegung über Ende der Aufsplittung (Stoppkriterium) Überprüfung der Qualität des Baumes 28 / 29

Fazit Vorteile Einfache Interpretation Leicht anzuwenden (Black Box) Nonparametrisches Verfahren Große Anzahl an Variablen können einbezogen werden Nachteile Instabil bei Änderung des Trainingssets Gefahr von Overfitting Orientiert sich am Testdatensatz 29 / 29