Thema: Bootstrap-Methoden für die Regressionsanalyse. Bachelorarbeit. im Fachgebiet Wirtschaftsinformatik am Lehrstuhl für Quantitative Methoden



Ähnliche Dokumente
Eine Logikschaltung zur Addition zweier Zahlen

DISKUSSIONSBEITRÄGE DER FAKULTÄT FÜR BETRIEBSWIRTSCHAFTSLEHRE MERCATOR SCHOOL OF MANAGEMENT UNIVERSITÄT DUISBURG-ESSEN. Nr. 374

Data Mining: Einige Grundlagen aus der Stochastik

Erfahrungen mit Hartz IV- Empfängern

Zeichen bei Zahlen entschlüsseln

Kapitalerhöhung - Verbuchung

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis

Kommunikations-Management

Hauptseminar am Fachgebiet für Quantitative Methoden der Wirtschaftswissenschaften

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Melanie Kaspar, Prof. Dr. B. Grabowski 1

Leitfaden für die ersten Schritte im INIT-eCampus. mailto:

Messung und Aufwandsschätzung bei der Entwicklung von Web Applikationen. Frederik Kramer // Folie 1 von 14

Anleitung Redmine. Inhalt. Seite 1 von 11. Anleitung Redmine

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage:


Task: Nmap Skripte ausführen

Änderung des IFRS 2 Anteilsbasierte Vergütung

Objektorientierte Programmierung für Anfänger am Beispiel PHP

Anleitung Typo3-Extension - Raumbuchungssystem

Statistische Auswertung:

Stellvertretenden Genehmiger verwalten. Tipps & Tricks

Wichtige Information zur Verwendung von CS-TING Version 9 für Microsoft Word 2000 (und höher)

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Informationssysteme Gleitkommazahlen nach dem IEEE-Standard 754. Berechnung von Gleitkommazahlen aus Dezimalzahlen. HSLU T&A Informatik HS10

Theoretische Grundlagen der Informatik WS 09/10

Bedienungsanleitung EKZ Preis- und Produktvergleichsrechner

Ideation-Day Fit für Innovation

SEPA Lastschriften. Ergänzung zur Dokumentation vom Workshop Software GmbH Siemensstr Kleve / /

OUTLOOK (EXPRESS) KONFIGURATION POP3

Ihr Ideen- & Projektmanagement-Tool

Anleitung Redmine. Inhalt. Seite 1 von 11. Anleitung Redmine

Universität Passau. Betriebswirtschaftslehre mit Schwerpunkt Internationales Management Prof. Dr. Carola Jungwirth. Bachelorarbeit Netzwerkservices

Textgenerator Artex 1.0. Kurzanleitung

OLXFil er Anleitung

«Eine Person ist funktional gesund, wenn sie möglichst kompetent mit einem möglichst gesunden Körper an möglichst normalisierten Lebensbereichen

QM: Prüfen -1- KN

CITIES AGAINST RACISM RESPONSIBILITIES OF CITIES IN COUNTERACTING RACISM SUSTAINABILITY. Evaluation der Plakatkampagne der Stadt Graz gegen Rassismus

Erfolg und Vermögensrückgänge angefertigt im Rahmen der Lehrveranstaltung Nachrichtentechnik von: Eric Hansen, am:

Das große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten

Ihre Interessentendatensätze bei inobroker. 1. Interessentendatensätze

Speicher in der Cloud

Internet Explorer Version 6

1. Einleitung Abfrage des COON-Benutzernamens Ändern des Initial-Passwortes Anmelden an der COON-Plattform...

Stichprobenauslegung. für stetige und binäre Datentypen

Zeit- und Feriensaldoberechnung TimeSafe Leistungserfassung

Wann ist eine Software in Medizinprodukte- Aufbereitungsabteilungen ein Medizinprodukt?

Modellbildungssysteme: Pädagogische und didaktische Ziele

Damit auch Sie den richtigen Weg nehmen können die 8 wichtigsten Punkte, die Sie bei der Beantragung Ihrer Krankenversicherung beachten sollten:

EMIS - Langzeitmessung

Drei Fragen zum Datenschutz im. Nico Reiners

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

1.5 Umsatzsteuervoranmeldung

Einrichten des Elektronischen Postfachs

Second Steps in eport 2.0 So ordern Sie Credits und Berichte

Kurzanweisung für Google Analytics

Anlegen eines DLRG Accounts

Informationsblatt Induktionsbeweis

Formale Vorgaben für die Seminararbeit

Leseprobe. Thomas Konert, Achim Schmidt. Design for Six Sigma umsetzen ISBN: Weitere Informationen oder Bestellungen unter

Faktura. IT.S FAIR Faktura. Handbuch. Dauner Str.12, D Mönchengladbach, Hotline: 0900/ (1,30 /Min)

Welche Unterschiede gibt es zwischen einem CAPAund einem Audiometrie- Test?

Überprüfung der digital signierten E-Rechnung

IT-Unternehmensarchitektur Übung 01: IT-Strategie

1 Einleitung. 1.1 Motivation und Zielsetzung der Untersuchung

Erweiterung der Aufgabe. Die Notenberechnung soll nicht nur für einen Schüler, sondern für bis zu 35 Schüler gehen:

Väter in Familienunternehmen Die Ursachenstiftung Oktober 2012

Subpostfächer und Vertretungen für Unternehmen

BMW ConnectedDrive. connecteddrive. Freude am Fahren BMW CONNECTED DRIVE. NEUERUNGEN FÜR PERSONALISIERTE BMW CONNECTED DRIVE DIENSTE.

Nach der Einrichtung einer Benutzerkennung auf dem IW Medien Messenger werden dem Geschäftspartner automatisch zwei Informationsmails zugestellt.

Name (in Druckbuchstaben): Matrikelnummer: Unterschrift:

Materialupload. Verwalten von Unterrichtsmaterialien. über das STiNE-Webportal. Universität Hamburg Tor zur Welt der Wissenschaft

So eröffnen Sie schnell und bequem Ihr Internet-Festgeld

Anlage eines neuen Geschäftsjahres in der Office Line

Anleitung für die Registrierung und das Einstellen von Angeboten

Synchronisations- Assistent

Tutorial: Homogenitätstest

Um ein solches Dokument zu erzeugen, muss eine Serienbriefvorlage in Word erstellt werden, das auf die von BüroWARE erstellte Datei zugreift.

Die Zukunft der Zukunftsforschung im Deutschen Management: eine Delphi Studie

LIP Formulare Anleitung zum Speichern, Öffnen und Drucken

Ein möglicher Unterrichtsgang

Lizenzierung von StarMoney 9.0 bzw. StarMoney Business 6.0 durchführen

Um den chiptan-generator zu nutzen, müssen Sie zunächst Ihr Online-Banking umstellen.

Guide DynDNS und Portforwarding

Die Lernumgebung des Projekts Informationskompetenz

Ratenkredit und Dispokredit Eine Studie von Ipsos im Au1rag von Barclaycard Deutschland. Januar 2013

Sichere Anleitung Zertifikate / Schlüssel für Kunden der Sparkasse Germersheim-Kandel. Sichere . der

Dokumentation. estat Version 2.0

FlowFact Alle Versionen

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Portfolio: "Die Ratten" von Gerhart Hauptmann

Mitarbeiterbefragung als PE- und OE-Instrument

Lineare Funktionen. 1 Proportionale Funktionen Definition Eigenschaften Steigungsdreieck 3

Wie erreiche ich was?

Melde- und Veröffentlichungsplattform Portal (MVP Portal) Hochladen einer XML-Datei

SMS-Versand in MACS Einrichtung des SMS-Versand Verwendung des SMS-Versandes Der SMS-Versand Empfängerfeld Empfänger-Rufnummer Inhalt der SMS

Anwenderdokumentation AccountPlus GWUPSTAT.EXE

DOS-Sympas Scope Dateien in Excel einlesen

Einrichten des -Clients (Outlook-Express)

Kapitel 3: Etwas Informationstheorie

Auswertung qualitativer Interviews

Transkript:

Westfälische Wilhelms-Universität Münster Thema: Bootstrap-Methoden für die Regressionsanalyse Bachelorarbeit im Fachgebiet Wirtschaftsinformatik am Lehrstuhl für Quantitative Methoden Themensteller: Prof. Dr. Ulrich Müller-Funk vorgelegt von: Michael Höing Bismarckallee 49, C101 48151 Münster 0251/83851770 Abgabetermin: 2004-04-26

II Inhaltsverzeichnis Inhaltsverzeichnis...II Abbildungsverzeichnis...III Tabellenverzeichnis...III Abkürzungsverzeichnis...III Symbolverzeichnis... IV Verzeichnis der Anhänge...V Verzeichnis der Beispiele...V 1 Einleitung...1 2 Lineare Regression...3 2.1 Klassisches lineares Modell und Parameterschätzung...3 2.2 Resampling Schemata...5 2.2.1 Resampling errors...5 2.2.2 Resampling cases...8 2.3 Signifikanztests für den slope-parameter...10 2.3.1 Permutationstest...10 2.3.2 Bootstrap Tests...11 2.3.3 Bootstrap pivot Test...12 2.4 Prognoseintervalle und Prognosefehler für einzelne responses...16 2.5 Aggregate prediction error und Variablenselektion...19 2.5.1 Aggregate prediction error...19 2.5.2 Bootstrap Schätzer...20 2.5.3 Hybride Schätzer...22 2.5.4 Variablenselektion...26 2.6 Least trimmed sqares und jackknife-after-bootstrap...29 3 Generalisierte lineare Modelle...33 3.1 Modell und Definition von Residuen...33 3.2 Resampling Schemata für generalisierte lineare Modelle...35 4 Schlussteil...43 Anhang...44 Literaturverzeichnis...68

1 1 Einleitung Statistischen Fragestellungen liegt es in der Natur, dass ihre Beantwortung oft aufwendige theoretische Ansätze erfordert, die umständlich oder aufgrund ihrer Komplexität in hohem Maße fehlerbehaftet sind. Simulation ist ein Werkzeug, das Wege vorbei an komplexen Berechnungen eröffnet und oft Resultate ermöglicht, die weniger Variabilität aufweisen. War lange Zeit die Durchführung von Simulation aufgrund nicht vorhandener Rechenkapazität schlecht realisierbar oder unmöglich, so stellt sie vor dem Hintergrund moderner Rechnergenerationen einen generischen Ansatz dar, der schnell zu Ergebnissen führt, zur Validierung anderer Methoden herangezogen werden kann oder vielfach Möglichkeiten eröffnet, wenn andere Verfahren wegen ihrer zu strengen Voraussetzungen scheitern. Die grundlegende Idee der Simulationsmethoden, die in dieser Arbeit vorgestellt werden, ist das Generieren neuer Datensätze auf Basis eines gegebenen Ausgangdatensatzes. der als Stichprobe einer unbekannten Population angesehen wird. Dieses resampling geschieht entweder unter Zugrundelegung eines gefitteten Modells 1 oder direkt von der empirischen Verteilungsfunktion der Daten. Auf die künstlich erweiterte Datenbasis wird dann der so genannte bootstrap angewendet, der auf folgendem Prinzip beruht: The population is to the sample as the sample is to the bootstrap samples. 2 Die Tatsache, dass der Zusammenhang von Ausgangsdatensatz und simulierten Daten berechnet werden kann, ermöglicht nach dem bootstrap-prinzip also Aussagen über die unbekannte Population bzw. die wahren Eigenschaften des Ausgangsdatensatzes. Der Begriff bootstrap bzw. bootstrapping für dieses Verfahren leitet sich von einer Sage über den Baron von Münchhausen ab, nach der es diesem gelang, einmal in einen Sumpf eingesunken, sich selber an den Stiefelschlaufen (engl.: bootstraps) herauszuziehen. Die Analogie ist hier, dass die Datenbasis für den bootstrap aus sich selbst heraus wächst. 3 Der bootstrap sei an dieser Stelle als ein generisches Verfahren verstanden, dass Simulation, genauer resampling, verwendet und sich für die verschiedenen Domänen der statistischen Analyse und für verschiedenste Fragestellungen operationalisieren 1 2 3 fit bedeutet passend. Als gefittete Werte werden die vom Modell unterstellten responses bezeichnet. Sie enthalten keinen Fehlerterm. Vgl. Fox (2002), S. 2. Vgl. Davison, Hinkley (1997), S. 2 f.

2 lässt. In dieser Arbeit ist die Anwendung des bootstrappings auf die Regressionsanalyse thematisiert. Verschiedene Fragestellungen werden zunächst unter Zugrundelegung des klassischen linearen Modells für die lineare Regression behandelt. Im Anschluss werden Ansätze für generalisierte lineare Modelle vorgestellt, um einen ersten Ausblick auf die Möglichkeiten der Erweiterung der bootstrap-technik auf mächtigere praxisrelevantere Modellklassen zu gewähren. Nachdem auf die Annahmen des klassischen linearen Modells und die lineare Regression eingegangen wurde, werden zunächst das modellbasierte resampling-schema resampling errors und das nicht modellbasierte Schema resampling cases erläutert, die zur Erzeugung neuer Datensätze, den bootstrap samples, eingesetzt werden. Sie sind bei der linearen Regression die Basis für jeden bootstrap. Zur Prüfung der Relevanz einzelner Kovariate werden anschließend Permutationstests und verschiedene bootstrap Tests als resampling-varianten des Permutationstests erläutert. Im Anschluss an diese Verfahren für den deskriptiven Part der Regressionsanalyse werden im Folgenden bootstrap-verfahren erläutert, die es ermöglichen, auf Basis eines Modellfits Prognoseintervalle für prognostizierte Werte anzugeben. Werden hier lediglich Punktschätzungen um ein Intervall erweitert, so dient die nachfolgende Betrachtung aggregierter Fehlermaße und deren bootstrap-varianten zur Bewertung der Güte des Modellfits und dessen Eignung zur Prognose. Ein letzter Aspekt der Betrachtung der linearen Regression sind Methoden zur Identifikation von Ausreißern. Die Verallgemeinerung der resampling-schemata für generalisierte lineare Modelle soll im Folgenden einen Eindruck vermitteln, wie die vorgestellten bootstrap-verfahren für komplexere Modelle modifiziert werden können. Eingegangen wird hier insbesondere auf das Problem, dass die erzeugten bootstrap samples bei generalisierten linearen Modellen nicht zwangsläufig notwendige Eigenschaften des Ausgangsdatensatzes aufweisen, wie z.b. Nichtnegativität von Zähldaten. Um die vorgestellten Verfahren zu verdeutlichen und diskutierte Aspekte zu untermauern, sind die theoretischen Kapitel dieser Arbeit um neun Beispiele ergänzt, in denen bootstrapping auf ausgewählte oder synthetische Datensätze angewendet wird. Für die Implementierung der bootstraps und die Erzeugung der Abbildungen dieser Arbeit, die die Analyseergebnisse jeweils illustrieren, wurde die Sprache S verwendet. Die Beispiele dienen als link zwischen Theorie und Praxis und veranschaulichen eine mögliche Umsetzung der computer-intensive bootstrap methods. 4 4 Vgl. Anhang B.

68 Literaturverzeichnis Davison, A. C.; Hinkley, D. V.: Bootstrap Methods and their Application. Cambridge et al. 1997. Fahrmeir, L.; Hamerle, A.; Tutz, G.: Multivariate statistische Verfahren. 2. Auflage. Berlin, New York 1996. Hampel, F. R. et al.: Robust statistics: An approach based on influence functions. New York et al. 1986. Internet-Adressen Fox, J.; Bootstrapping Regression Models. 2002. http://cran.rproject.org/doc/contrib/fox-companion/appendix-bootstrapping.pdf. Abrufdatum: 2004-04-25. Olive, D. J.; ROBUST ESTIMATORS FOR TRANSFORMED LOCATION-SCALE FAMILIES. 2004. http://www.math.siu.edu/olive/pprloc2.pdf. Abrufdatum: 2004-04-25. Schmidt, C.; Verallgemeinerte Lineare Modelle. 2002. http://www.uni-ulm.de/~cschmid/oldstat/se4_2.htm. Abrufdatum: 2004-04-25.