Kapitel 23 Lineare Regression



Ähnliche Dokumente
Korrelation - Regression. Berghold, IMI

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen

Die Gleichung A x = a hat für A 0 die eindeutig bestimmte Lösung. Für A=0 und a 0 existiert keine Lösung.

Fortgeschrittene Statistik Logistische Regression

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50, ,5 51,7 48,8

Lineare Funktionen. 1 Proportionale Funktionen Definition Eigenschaften Steigungsdreieck 3

Einfache statistische Auswertungen mit dem Programm SPSS

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

Das Dialogfeld für die Regressionsanalyse ("Lineare Regression") findet sich im Statistik- Menu unter "Regression"-"Linear":

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Varianzanalyse (ANOVA: analysis of variance)

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis

Lineare Gleichungssysteme

Professionelle Seminare im Bereich MS-Office

Zeichen bei Zahlen entschlüsseln

Tangentengleichung. Wie lautet die Geradengleichung für die Tangente, y T =? Antwort:

Gleichungen Lösen. Ein graphischer Blick auf Gleichungen

Plotten von Linien ( nach Jack Bresenham, 1962 )

3.1. Die komplexen Zahlen

Quantitative Methoden der Bildungsforschung

Tutorial: Homogenitätstest

9. Schätzen und Testen bei unbekannter Varianz

Welche Lagen können zwei Geraden (im Raum) zueinander haben? Welche Lagen kann eine Gerade bezüglich einer Ebene im Raum einnehmen?

Dokumentation. estat Version 2.0

Willkommen zur Vorlesung Statistik

50. Mathematik-Olympiade 2. Stufe (Regionalrunde) Klasse Lösung 10 Punkte

Webergänzung zu Kapitel 10

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren)

Universität Bonn 28. Juli 2010 Fachbereich Rechts- und Wirtschaftswissenschaften Statistische Abteilung Prof. Dr. A. Kneip. KLAUSUR Statistik B

Statistische Auswertung:

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1

Tipp III: Leiten Sie eine immer direkt anwendbare Formel her zur Berechnung der sogenannten "bedingten Wahrscheinlichkeit".

Name (in Druckbuchstaben): Matrikelnummer: Unterschrift:

4. Erstellen von Klassen

Einführung in statistische Analysen

METHODENLEHRE I WS 2013/14 THOMAS SCHÄFER

Aufgabe 1. Zunächst wird die allgemeine Tangentengleichung in Abhängigkeit von a aufgestellt:

Berechnung der Erhöhung der Durchschnittsprämien

Leseprobe. Wilhelm Kleppmann. Versuchsplanung. Produkte und Prozesse optimieren ISBN: Weitere Informationen oder Bestellungen unter

Behörde für Bildung und Sport Abitur 2008 Lehrermaterialien zum Leistungskurs Mathematik

Repetitionsaufgaben Wurzelgleichungen

Auswerten mit Excel. Viele Video-Tutorials auf Youtube z.b.

Beispiel Zusammengesetzte Zufallsvariablen

Anhand des bereits hergeleiteten Models erstellen wir nun mit der Formel

Korrelation. Übungsbeispiel 1. Übungsbeispiel 4. Übungsbeispiel 2. Übungsbeispiel 3. Korrel.dtp Seite 1

Stellen Sie bitte den Cursor in die Spalte B2 und rufen die Funktion Sverweis auf. Es öffnet sich folgendes Dialogfenster

V 2 B, C, D Drinks. Möglicher Lösungsweg a) Gleichungssystem: 300x y = x + 500y = 597,5 2x3 Matrix: Energydrink 0,7 Mineralwasser 0,775,

3. LINEARE GLEICHUNGSSYSTEME

OECD Programme for International Student Assessment PISA Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland

Statistik II Wahrscheinlichkeitsrechnung und induktive Statistik Erste Klausur zum Sommersemester Juli 2005

Einfache statistische Auswertungen mit dem TI-Nspire

Repetitionsaufgaben: Lineare Funktionen

Lineare Gleichungssysteme

Welche Unterschiede gibt es zwischen einem CAPAund einem Audiometrie- Test?

Überblick über die Verfahren für Ordinaldaten

Austausch- bzw. Übergangsprozesse und Gleichgewichtsverteilungen

Primzahlen und RSA-Verschlüsselung

Ohne Fehler geht es nicht Doch wie viele Fehler sind erlaubt?

Funktion Erläuterung Beispiel

Abituraufgabe zur Stochastik, Hessen 2009, Grundkurs (TR)

Stichprobenauslegung. für stetige und binäre Datentypen

Berechnungen in Access Teil I

Korrelation (II) Korrelation und Kausalität

Formelsammlung zur Kreisgleichung

Grundlagen der Inferenzstatistik

Das große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten

1. Allgemeine Hinweise

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen

Rekursionen. Georg Anegg 25. November Methoden und Techniken an Beispielen erklärt

Vorkurs Mathematik Übungen zu Polynomgleichungen

A1.7: Entropie natürlicher Texte

AZK 1- Freistil. Der Dialog "Arbeitszeitkonten" Grundsätzliches zum Dialog "Arbeitszeitkonten"

Gymnasium Gerlingen. Physik Praktikum Mittelstufe. Auswertung von Messungen mit Excel. Versuchsauswertung mit Microsoft Excel. 1.

Kontingenzkoeffizient (nach Pearson)

Skript und Aufgabensammlung Terme und Gleichungen Mathefritz Verlag Jörg Christmann Nur zum Privaten Gebrauch! Alle Rechte vorbehalten!

Grundlagen der Informatik

Ein möglicher Unterrichtsgang

Gibt es einen Geschmacksunterschied zwischen Coca Cola und Cola Zero?

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau

Multicheck Schülerumfrage 2013

Binäre abhängige Variablen

Einfache Varianzanalyse für abhängige

11.3 Komplexe Potenzreihen und weitere komplexe Funktionen

Informationsblatt Induktionsbeweis

In konstanten Modellen wird davon ausgegangen, dass die zu prognostizierende Größe sich über die Zeit hinweg nicht verändert.

Inhaltsverzeichnis. Regressionsanalyse. - Stand vom:

Outlook. sysplus.ch outlook - mail-grundlagen Seite 1/8. Mail-Grundlagen. Posteingang

Orderarten im Wertpapierhandel

Das Vermögen der privaten Haushalte in Nordrhein-Westfalen ein Überblick auf der Basis der Einkommens- und Verbrauchsstichprobe

Repetitionsaufgaben Negative Zahlen/Brüche/Prozentrechnen

Risikodiversifikation. Birgit Hausmann

Angewandte Ökonometrie, WS 2012/13, 1. Teilprüfung am Lösungen. Das folgende Modell ist ein GARCH(1,1)-Modell:

AUTOMATISIERTE HANDELSSYSTEME

Abamsoft Finos im Zusammenspiel mit shop to date von DATA BECKER

Gleichungen und Ungleichungen

Theoretische Informatik SS 04 Übung 1

Transkript:

Kapitel 23 Lineare Regression Sowohl einfache als auch multiple Regressionsanalysen können Sie mit dem Befehl STATISTIK REGRESSION LINEAR... durchführen. Dabei lassen sich mit Hilfe diverser Optionen zahlreiche über den Standard-Output von Regressionsanalysen hinausgehende ergänzende Informationen anfordern, so zum Beispiel statistische Maßzahlen zur Beurteilung der Modellgüte, grafische Darstellungen verschiedener Variablen einschließlich der Residuen, eine Analyse der Residuen und weiteres. Wenn Sie das Regressionsmodell nicht fest vorgeben möchten, stehen verschiedene Verfahren zur Verfügung, mit denen aus einer größeren Anzahl in Frage kommender erklärender Variablen (Prädiktoren) anhand von Signifikanzkriterien die in die Regressionsgleichung aufzunehmenden Variablen ausgewählt werden. 23.1 Das Beispiel: Beschäftigungswirkungen der Arbeitszeitverkürzung in den 80 er Jahren Die in diesem Kapitel verwendeten Beispiele entstammen einer Untersuchung über die Beschäftigungswirkungen einer zum 1.4.1985 im Bereich der Metallindustrie durchgeführten Arbeitszeitverkürzung. Die dabei verwendeten Daten wurden der amtlichen Statistik entnommen. In diesem Kapitel werden speziell die Zusammenhänge für das Bundesland Baden-Württemberg betrachtet. Die sehr arbeitsintensive Aufbereitung des Materials erfolgte im Rahmen einer umfangreicheren Untersuchung über die Beschäftigungswirkungen der Arbeitszeitverkürzung, die sich auf mehrere Bundesländer erstreckte. 222 222 Die Ergebnisse der gesamten Untersuchung sind erschienen in Brosius, G., A. Oppolzer (Hrsg.) (1988): Effekte der Arbeitszeitverkürzung in der Metallindustrie, Frankfurt / New York. Dort werden auch die hier nur angedeuteten methodischen und modellmäßigen Voraussetzungen

522 Kapitel 23 Lineare Regression Mit Wirkung zum 1. April 1985 wurde im Bereich der metallverarbeitenden Industrie bundesweit die regelmäßige wöchentliche Arbeitszeit von 40 auf 38,5 Stunden reduziert. Um das bisherige Produktionsniveau halten zu können, müßten - so die Erwartungen der Gewerkschaften - neue Beschäftigte eingestellt werden. Eine volle Kompensation der Arbeitszeitverkürzung um 1,5 Stunden auf 38,5 Stunden würde unter sonst gleichen Umständen (wenn also unter anderem die Effizienz der Arbeit unverändert bleibt und nicht Arbeitskräfte aufgrund der Arbeitszeitverkürzung durch verstärkten Maschineneinsatz ersetzt werden) eine Erhöhung der Beschäftigtenzahlen um 3,9% erfordern. Die Arbeitgeber, die der Arbeitszeitverkürzung ablehnend gegenüberstanden, argumentierten dagegen, aus verschiedenen Gründen (die im wesentlichen auf die Annahme einer gestiegenen Kostenbelastung hinausliefen) würde von der Arbeitszeitverkürzung bestenfalls ein sehr geringer positiver Beschäftigungseffekt ausgehen. Im folgenden soll diese Fragestellung mit Hilfe regressionsanalytischer Instrumente näher untersucht werden. Grundlage der folgenden Betrachtungen bilden dabei die zur Verfügung stehenden Daten der statistischen Landesämter (in diesem Fall des Statistischen Landesamtes Baden-Württemberg). Am Ende der folgenden Betrachtungen wird ein Regressionsmodell (eine Regressionsgleichung) stehen, aus dem sich im Idealfall ablesen läßt, in welchem Ausmaße die Arbeitszeitverkürzung zur Veränderung der Arbeiterbeschäftigung in Baden-Württemberg beigetragen hat. In diesem Modell werden neben der Arbeitszeitverkürzung auch die Umsatz- und Überstundenveränderungen berücksichtigt. (Die Überstundenveränderungen werden als Veränderungen der je Arbeiter geleisteten Arbeitsstunden gemessen.) Diese beiden Variablen dienen neben der eigentlich interessierenden Variablen Arbeitszeitverkürzung als Kontrollvariablen. Aus didaktischen Gründen ist das Vorgehen im folgenden aber gerade umgekehrt: Zunächst wird der Zusammenhang zwischen der Beschäftigung und dem Umsatz betrachtet. Anschließend wird das Modell um die Überstunden erweitert, und erst danach wird auch die Arbeitszeitverkürzung als erklärende Variable einbezogen. Der wesentliche Grund für diese Vorgehensweise besteht darin, daß die Arbeitszeitverkürzung nur als sogenannte Dummy-Variable erfaßt werden kann. Dies ist ein nicht ganz einfach zu verstehender Variablentyp, mit dem die Darstellung der Regressionsanalyse nicht beginnen sollte. Zu den verwendeten Daten ist folgendes zu beachten: Als Ursprungsmaterial standen Monatswerte für die Arbeiterbeschäftigung, den Umsatz und die Arbeiterstunden je Arbeiter für 80 Wirtschaftszweige des Verarbeitenden Gewerbes in Baden-Württemberg zur Verfügung. Aus verschiedenen Gründen ist es sinnvoll, nicht unmittelbar diese Werte, sondern ihre Veränderungsraten, gemessen als Vorjahresvergleich, zu betrachten. Bei den drei im folgenden verwendeten Variablen av85.10 (Arbeitsveränderung), uv85.10 (Umsatzveränderung) und stv85.10 (Veränderung der Arbeitsstunden je Arbeiter) handelt es sich also um die als Dezimalbruch ausgedrückten Veränderungen dieser Größen gegenüber dem Vorjahresmonat. Solche Variablen wurden im Rahmen der ursprünglichen Untersuchung ausführlich diskutiert. Das für das Beispiel verwendete Material ist der gemeinsamen Arbeit von Karin Duwendag und Martin Mannowetz zu verdanken.

23.2 Einfache Regression 523 (vgl. Fn. 222) für zahlreiche Monate berechnet und ausgewertet. Im folgenden Beispiel wird dagegen lediglich ein Monat (Oktober 1985) betrachtet. Die Variablen geben also die (mit einem 5-Monats-Durchschnitt geglätteten) Veränderungsraten von Arbeiterbeschäftigung, Umsatz und Arbeiterstunden je Arbeiter von Oktober 1985 gegenüber Oktober 1984 wieder. Der Monat Oktober 1985 bietet sich für die folgende Betrachtung an, weil dieser eine genügend lange, aber nicht zu lange Zeit hinter dem Ereignis Beginn der Arbeitszeitverkürzung liegt, dessen Wirkung untersucht werden soll. Die dem Beispiel zugrundeliegenden Daten für das Bundesland Baden-Württemberg sind auf der dem Buch beiliegenden CD in der Datei azv.sav zu finden. Diese Datei enthält auch die entsprechenden Veränderungsraten für zahlreiche weitere Monate, so daß Sie nicht nur das im folgenden behandelte Beispiel nacharbeiten, sondern auch Regressionsschätzungen für Vorjahresvergleiche anderer Monate durchführen können. 23.2 Einfache Regression 23.2.1 Regressionsgerade und Streudiagramm Darstellung der gemeinsamen Verteilung im Streudiagramm Der Grundgedanke der Regressionsanalyse läßt sich am besten anhand einer einfachen Regression mit nur einer erklärenden Variablen darstellen. Eine einfache Regressionsanalyse bietet unter anderem den Vorteil, daß der untersuchte Zusammenhang anschaulich in einer zweidimensionalen Grafik dargestellt werden kann. Dies geschieht in Abbildung 23.1, die ein Streudiagramm für die beiden Variablen av85.10 und uv85.10 wiedergibt. Das Diagramm wurde mit dem Befehl GRAFIK STREUDIAGRAMM... erstellt. In dem entsprechenden Dialogfeld wurde av85.10 als Y-Variable und uv85.10 als X-Variable definiert. 223 Die in die Grafik eingezeichneten Geraden wurden nicht mit SPSS erstellt, sondern mit der Hand eingefügt. Der Zusammenhang zwischen den Variablen uv85.10 und av85.10 ist weit davon entfernt, perfekt zu sein. Mit anderen Worten: Die Punkte des Streudiagramms liegen eindeutig nicht exakt auf einer Geraden, sondern bilden vielmehr eine mehr oder weniger diffus erscheinende Punktwolke. Dennoch läßt sich im Streudiagramm ein deutlicher Zusammenhang zwischen den beiden Variablen erkennen, denn beide Variable bewegen sich tendenziell in die gleiche Richtung. In Fällen (also in Wirtschaftszweigen), in denen der Umsatz gegenüber dem Vorjahresmonat gestiegen ist, hat in der Tendenz auch die Beschäftigung zugenommen. Dage- 223 Zu Streudiagrammen siehe im einzelnen Kapitel 36, Streudiagramme.

524 Kapitel 23 Lineare Regression gen hat die Beschäftigung in Branchen, in denen der Umsatz zurückgegangen ist, tendenziell ebenfalls abgenommen. Dieser Zusammenhang gilt offensichtlich nicht nur für die Richtung, sondern auch hinsichtlich der Intensität der Veränderung. Je stärker sich der Umsatz in eine Richtung verändert hat, desto stärker fiel - wiederum nur tendenziell - auch die Veränderung der Beschäftigung in die gleiche Richtung aus. Darüber hinaus scheint der Zusammenhang in etwa linear zu sein, so daß einer doppelt starken Umsatzveränderung ungefähr auch eine doppelt starke Beschäftigungsveränderung entspricht.,2 Veränderung von Umsatz und Arbeiterbeschäftigung von 10/84 auf 10/85 Veränderung der Arbeiterbeschäftigung,1 0,0 -,1 -,2 -,3 -,2 -,1 -,0,1,2,3 Umsatzveränderung Abbildung 23.1: Streudiagramm für die Variablen av85.10 und uv85.10 Soll nun in die Punktwolke eine Gerade eingezeichnet werden, die den Zusammenhang zwischen den Variablen möglichst gut beschreibt, die also den Verlauf der Punkte am besten nachzeichnet bzw. sich am engsten an die Punkte in der Grafik anpaßt, so kämen verschiedene Geraden in Frage. In Abbildung 23.1 sind drei Geraden eingezeichnet, die alle mehr oder weniger gut geeignet sind, den Verlauf der Punktwolke zu skizzieren. Die Frage ist nun aber, welche der Geraden diesen Anspruch am besten erfüllt und nach welchem allgemeinen Kriterium die beste Gerade ausgewählt werden soll. In allgemeiner Form wird eine Gerade durch folgende Gleichung angegeben: Y = a + b X Dabei bezeichnet Y die abhängige und X die unabhängige (erklärende) Variable. Durch eine Gleichung dieser Form läßt sich jede Gerade im zweidimensionalen

23.2 Einfache Regression 525 Raum beschreiben. Um eine bestimmte Gerade durch eine solche Gleichung anzugeben, müssen lediglich die Werte für a und b entsprechend festgelegt werden. Dabei gibt a den Achsenabschnitt (den Schnittpunkt der Geraden mit der Y- Achse) und b die Steigung der Geraden an. In dem vorliegenden Beispiel ist es sinnvoll, die Veränderung der Beschäftigung von Arbeitern als abhängige und die Umsatzveränderung als unabhängige Variable zu interpretieren. Die lineare Beziehung zwischen den beiden Variablen wird dann durch folgende Gleichung wiedergegeben: av85.10 = a + b uv85.10 Denkbares Kriterium zur Auswahl einer Geraden Wie wir bereits oben festgestellt haben, besteht kein perfekter linearer Zusammenhang zwischen den beiden Variablen, so daß sich die Werte der Variablen av85.10 nicht wirklich durch eine Gleichung der Form a + b uv85.10 berechnen lassen. Vielmehr liefert diese Gleichung nur geschätzte Werte für die Variable av85.10, und im folgenden soll genau die Geradengleichung bestimmt werden, bei der die geschätzten Werte den tatsächlichen möglichst nahekommen. Hierzu wäre es denkbar, für jede in Betracht kommende Gerade die senkrechten Abstände zwischen den tatsächlich beobachteten Punkten und der Geraden zu berechnen. Einige dieser Abstände werden positiv und andere negativ sein, da sich sowohl oberhalb als auch unterhalb der Geraden Punkte befinden können. Als die am besten angepaßte Gerade könnte nun zum Beispiel diejenige ausgewählt werden, bei der die positiven und die negativen Abstände in der Summe genau gleich groß sind (die Summe aller Abstände also gleich null ist), so daß sich die Punkte gleichmäßig auf beide Seiten der Geraden verteilen. Für einen bestimmten Punkt i berechnet sich der senkrechte Abstand e i zur Geraden als: e i = av85.10 i - (a + b uv85.10 i ) i = 1, 2,..., 80 i kann die Werte 1 bis 80 annehmen, da diesem Beispiel 80 Beobachtungen zugrundeliegen, die Datendatei also 80 Fälle enthält und die Punktwolke aus 80 Punkten besteht. Die Summe der Abstände berechnet sich als: ( av85.10 a b uv85. ) ei = i 10 = av 85.10i 80 a b uv85.10i Soll die Summe der Abstände gleich null sein, muß also gelten: av 85.10i 80 a b uv 85.10i = 0 i

526 Kapitel 23 Lineare Regression Werden beide Seiten der Gleichung durch 80 (der Anzahl der Beobachtungen) dividiert, ergibt sich: av85.10i 80 a b uv85.10i 80 = av 85. 10 a b uv 85. 10 = 0 Die Summe der Abstände zwischen den einzelnen Punkten und der Geraden ist somit genau dann null, wenn gilt: av 85.10 = a + b uv85. 10 av 85.10 und uv 85. 10 bezeichnen dabei die Mittelwerte der beiden Variablen. Damit wird die Bedingung, daß die Abstände der Punkte von der Geraden in der Summe gleich null sind, von allen Geraden erfüllt, die in der zweidimensionalen Grafik durch den Punkt laufen, der durch die Mittelwerte der beiden Variablen gebildet wird. Die Steigung der Variablen wäre damit nach diesem Kriterium vollkommen irrelevant, solange die Gerade durch den Punkt aus den beiden Mittelwerten läuft. Damit ist das Kriterium, nach dem die Gerade auszuwählen ist, bei der die Abstände der einzelnen Punkte von der Geraden in der Summe gleich null sind, offensichtlich nicht geeignet, eine bestimmte Gerade als die am besten angepaßte Gerade zu bestimmen. Das Kleinst-Quadrate-Kriterium und die Regressionsgleichung Die Regressionsanalyse verwendet bei der Auswahl der besten Geraden die sogenannte Methode der kleinsten Quadratsumme (KQ-Methode). Auch hierbei werden zunächst die (senkrechten) Abstände der einzelnen Punkte von der Geraden bestimmt, diese Abstände werden jedoch quadriert, so daß die negativen Vorzeichen verschwinden. Anschließend wird die Summe der quadrierten Abstände berechnet, und es wird die Gerade als die am besten angepaßte ausgewählt, bei der die Summe der quadrierten Abstände am kleinsten ist. Die Summe der quadrierten Abstände berechnet sich für das vorliegende Beispiel als: 2 ( av85.10 a b uv85. ) ei = i 10 Da die Werte der beiden Variablen av85.10 und uv85.10 bereits bekannt und damit vorgegeben sind, hängt die Höhe von e i 2 nur noch von der Wahl des Achsenabschnitts a und des Steigungsmaßes b ab. e i 2 ist also eine Funktion der zu wählenden Größen a und b: e i 2 = f(a, b) i 2

23.2 Einfache Regression 527 Um nun die Werte von a und b zu bestimmen, bei denen e 2 i minimal ist, kann 224, 225 man die Ableitungen der Funktion nach a und nach b gleich null setzen: ( ei ) 2 ( ei ) 2 = 0; a Die Ableitung von (Y i - a - b X i ) 2 nach a ergibt sich aus der inneren Ableitung (-1), multipliziert mit der äußeren Ableitung (2 (Y i - a - b X i )). Dabei bleibt das Summenzeichen unverändert vor dem gesamten Ausdruck stehen. Die Konstante -2 kann anschließend vor das Summenzeichen gezogen werden: Division durch 2 Division durch 80 b -2 (Y i - a - b X i ) = 0 (Y i - a - b X i ) = 0 Y i - 80a - b X i = 0 Y - a - b X= 0 a = Y- b X Damit läßt sich der Achsenabschnitt a ausrechnen, wenn das Steigungsmaß b der Regressionsgeraden bekannt ist. 226 Auch für die Ableitung von (Y i - a - b X i ) 2 nach b wird die innere Ableitung (-X i ) mit der äußeren Ableitung (2 (Y i - a - b X i )) multipliziert: Division durch 2 und Aufspalten in Teilsummen = 0-2 (X i (Y i - a - b X i )) = 0 X i Y i - (a X i ) - (b X i 2 ) = 0 X i Y i - a X i - b X i 2 = 0 Wird in dieser Gleichung nun a = ( Y - b X ) eingesetzt, ergibt sich: Ausmultiplizieren der Klammer X i Y i - ( Y- b X ) X i - b X i 2 = 0 X i Y i - Y X i + b X X i - b X i 2 = 0 b ( X i 2 - X X i ) = X i Y i - Y X i Aufspalten in Teilsummen; da a eine Konstante ist, ist a für i = 1 bis 80 gleich 80a. Auflösen nach a Konstante können vor das Summenzeichen geschrieben werden. Umsortieren 224 Zur Vereinfachung der Schreibweise und der Lesbarkeit wird die abhängige Variable av85.10 im folgenden mit Y und die erklärende Variable uv85.10 mit X bezeichnet. 225 Daß die ersten Ableitungen gleich Null sind, ist lediglich eine notwendige (und keine hinreichende) Bedingung dafür, daß die Funktion e i 2 einen stationären Wert annimmt. Auf die Überprüfung der weiteren Voraussetzungen für das Vorliegen eines Minimums soll hier verzichtet werden, es sei jedoch erwähnt, daß diese Voraussetzungen erfüllt sind. 226 Beachten Sie auch, daß die Formel, wenn sie nach Y aufgelöst wird, identisch ist mit der Formel, die im vorhergehenden Abschnitt für die Gerade berechnet wurde, bei der die Summe der Abstände e i gleich Null ist. Damit gilt also auch für die nach dem KQ-Kriterium berechnete Regressionsgerade: e i = 0.

528 Kapitel 23 Lineare Regression Im folgenden ist zu beachten, daß X X i identisch ist mit ( XX i ) sowie mit 2 ( X X ). Ebenso gilt X Y i = ( XY i ) = ( X Y ). Der Ausdruck ( X ) - X X i ist daher gleich null und kann auf der linken Seite der Gleichung hinzuaddiert werden, ohne daß sich ihr Wert verändert. Ebenso ist X Y- X Y i gleich null und kann damit auf der rechten Seite der Gleichung hinzuaddiert werden, ohne daß der Wert der rechten Seite verändert wird: b ( X 2 i - X X i - X X i + X 2 ) = X i Y i - Y X i - X Y i + ( X Y) Die einzelnen Summen können auf jeder Seite zu einer Summe zusammengefaßt werden: b (X 2 2 i - XX i - XX i + X ) = (X i Y i - YX i - XY i + X Y) Die linke Seite kann nach der Regel (a - b) 2 = a 2-2ab + b 2 vereinfacht werden. Entsprechend läßt sich auch die rechte Seite zusammenfassen: b (X i - X) 2 = [(X i - X )(Y i - Y)] Durch Auflösen nach b ergibt sich damit: b = [( X i X)( Yi Y) ] 2 ( X X) Im Nenner steht die Summe der quadrierten Abweichungen der einzelnen Werte X i (uv85.10 i ) von dem Mittelwert X. Dividiert man diese Summe durch die Anzahl der Beobachtungen n (in diesem Fall ist n = 80), so ergibt sich ein Wert, der als Varianz der Variablen X (uv85.10) bezeichnet wird. Dividiert man den Ausdruck im Zähler durch n, ergibt sich die Kovarianz zwischen den Variablen X (uv85.10) und Y (av85.10). 227 Damit läßt sich das Steigungsmaß b der Regressionsgeraden auch errechnen als: Kovarianz(X,Y) b = Varianz(X) Die Kovarianz zweier Variablen und die Varianz einzelner Variablen können bei SPSS mit der Prozedur STATISTIK, KORRELATION, BIVARIAT berechnet werden. Geben Sie dort in der Variablenliste die Variablen av85.10 und uv85.10 an, und wählen Sie in dem Dialogfeld Optionen die beiden Optionen der Gruppe Statistik. Mit diesen Einstellungen erhalten Sie den Output aus Abbildung 23.2. 228 i 227 Zum Begriff der Varianz siehe auch Kapitel 13, Häufigkeitstabellen, S. 348. Auf die Kovarianz wird in Kapitel 22, Partielle Korrelationen, eingegangen. 228 Zur Prozedur STATISTIK, KORRELATION, BIVARIAT siehe im einzelnen Kapitel 21, Bivariate Korrelationen.

23.2 Einfache Regression 529 AV85.10 UV85.10 Deskriptive Statistiken Standardabweichung Mittelwert N,00861,06192 80,01365,08981 80 AV85.10 UV85.10 Korrelationen Korrelation nach Pearson Signifikanz (2-seitig) Quadratsummen und Kreuzprodukte Kovarianz N Korrelation nach Pearson Signifikanz (2-seitig) Quadratsummen und Kreuzprodukte Kovarianz N AV85.10,63602**,00000,27942,00354 80 UV85.10 **. Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant. Abbildung 23.2: Varianzen und Kovarianzen für die Variablen av85.10 und uv85.10, berechnet mit der Prozedur STATISTIK, KORRELATIONEN, BIVARIAT Die Kovarianz zwischen den Variablen av85.10 und uv85.10 wird in der rechten Tabelle der Abbildung in der Zeile Kovarianz ausgewiesen. Die Kovarianz beträgt somit 0,00354. Die Varianz ist das Quadrat der Standardabweichung. Die Standardabweichung wird in der linken Tabelle ausgewiesen, und damit läßt sich die Varianz der Variablen uv85.10 berechnen als 0,08981 2 = 0,00807. Mit diesen Werten kann das Steigungsmaß b für die Regressionsgerade berechnet werden: 0,00354 b = = 0,438 0,00807 Nachdem b nun bekannt ist, kann der Achsenabschnitt a nach der Formel a = Y- b X berechnet werden (siehe S. 527). Die Mittelwerte der Variablen X (uv85.10) und Y (av85.10) werden in der linken Tabelle aus Abbildung 23.2 in der Spalte Mittelwert angegeben. Der Mittelwert von av85.10 beträgt 0,00861, der von uv85.10 ist 0,01365. Damit ergibt sich für den Achsenabschnitt a ein Wert von: a = 0,00861-0,438 0,01365 = 0,0026 Die Gerade, die den linearen Zusammenhang zwischen den beiden Variablen av85.10 (Arbeitsveränderung) und uv85.10 (Umsatzveränderung) am besten (gemessen an dem KQ-Kriterium) wiedergibt, läßt sich damit durch folgende Gleichung angeben: av85.10 = 0,0026 + 0,438 uv85.10 Diese Gerade ist auch in dem Streudiagramm in Abbildung 23.1, S. 524 eingezeichnet. Es ist die mittlere der drei Geraden, die durch die Punktwolke laufen. Inhaltlich zu interpretieren ist vor allem das Steigungsmaß b: Allgemein gibt es an, um wie viele Einheiten sich die abhängige Variable verändert, wenn sich die erklärende Variable um eine Einheit verändert. In diesem Beispiel hat dies folgende Bedeutung: Wenn die Variable uv85.10 (also die Rate der Umsatzveränderung)

530 Kapitel 23 Lineare Regression um eine Einheit ansteigt, erhöht sich die Variable av85.10 (also die Rate der Arbeitsveränderung) um 0,438 Einheiten. Dabei ist stets zu beachten, in welcher Dimension eine Variable gemessen wird. In diesem Fall sind beide Variablen dimensionslos, denn ihre Werte stellen jeweils Veränderungsraten dar. Erhöht sich also der Umsatz um eine Rate von 1, dann steigt die Arbeiterbeschäftigung um eine Rate von 0,438 an. In Prozentwerten läßt sich dies folgendermaßen ausdrücken: Ändert sich der Umsatz um 100%, dann verändert sich die Arbeiterbeschäftigung um 43,8% in die gleiche Richtung. Entsprechend ist eine Umsatzveränderung von 1% (5%) mit einer Veränderung der Arbeiterbeschäftigung um 0,438% (2,19%) verbunden. Begrifflichkeiten Die Interpretation des konstanten Gliedes (a) als Achsenabschnitt und des Koeffizienten der erklärenden Variablen (b) als Steigungsmaß der Geraden ist in dem hier betrachteten Fall mit nur einer unabhängigen (erklärenden) Variablen sinnvoll und anschaulich. Im allgemeinen Fall haben Regressionsgleichungen jedoch mehr als eine erklärende Variable. Dieser allgemeine Fall wird weiter unten dargestellt. 229 Bei mehreren erklärenden Variablen verlieren die Begriffe Achsenabschnitt und Steigungsmaß ihre anschauliche Bedeutung, da sich die Regressionsgleichungen grafisch nicht mehr als Geraden darstellen lassen. Daher werden die Koeffizienten allgemein als Regressionskoeffizienten und das konstante Glied als Konstante bezeichnet. Für Regressionsgleichungen wird häufig auch der Begriff Vorhersagegleichung verwendet. Dies rührt daher, daß Regressionsgleichungen dazu benutzt werden können, Werte für die abhängige Variable zu prognostizieren, wenn die Werte der unabhängigen Variablen bekannt sind (oder mit anderen Methoden geschätzt wurden). Ist zum Beispiel bekannt, daß sich der Umsatz um 5% verändert, kann mit Hilfe der Regressionsgleichung eine Veränderung der Arbeiterbeschäftigung um 2,19% vorhergesagt werden (siehe hierzu unten genauer). Wegen dieser Möglichkeit, mit Hilfe der Regressionsgleichung anhand von Werten der erklärenden Variablen die Werte der abhängigen Variablen zu prognostizieren, werden die erklärenden Variablen auch als Prädiktoren bezeichnet. 23.2.2 Beziehungen zwischen den Variablen müssen linear sein Die Regressionsanalyse ermittelt diejenige Gerade, die sich - gemessen an dem KQ-Kriterium - bestmöglich an die Punkteschar anpaßt. Ebenso wäre es denkbar, daß eine andere Kurvenform - zum Beispiel eine Parabel oder eine Hyperbel - viel besser geeignet ist, die Punktwolke nachzuzeichnen und damit den Zusammenhang zwischen den betrachteten Variablen abzubilden. So kommen in der Empirie häufig exponentielle, logarithmische oder quadratische Kurven in Betracht. Das lineare Regressionsmodell ist nicht in der Lage, für diese Kurven unmittelbar die 229 Siehe Abschnitt 23.3, Schätzung einer multiple Regression, S. 545.

23.2 Einfache Regression 531 bestmögliche Anpassung zu bestimmen. Vielmehr erlaubt es ausschließlich lineare Anpassungen, unterstellt also immer eine lineare Beziehung zwischen der oder den erklärenden und der abhängigen Variablen. Häufig ist es jedoch über einen Umweg möglich, auch für nichtlineare Zusammenhänge zwischen zwei oder mehr Variablen eine lineare Regressionsanalyse durchzuführen. Hierzu müssen die Variablen (je nach Sachlage können dies eine oder mehrere erklärende und/oder die abhängige Variable sein) zuvor so transformiert werden, daß die Beziehungen zwischen den umgeformten Variablen linear sind. Überall dort, wo Wachstumsprozesse betrachtet werden, kommt es zum Beispiel häufig vor, daß sich die abhängige Variable exponentiell entwickelt, während sich die erklärende Variable linear verändert. Ein Beispiel hierfür könnten möglicherweise die Entwicklung des Sozialprodukts, die der Weltbevölkerung oder die der Konzentration von Schadstoffen in einem bestimmten Medium sein. Entwikkeln sich diese Größen im Zeitablauf exponentiell, kann der Zusammenhang zwischen dem Sozialprodukt (Y = abhängige Variable) und der Zeit (t = unabhängige Variable) durch folgende Gleichung ausgedrückt werden: Y = a e b t Dabei bezeichnet e die Eulersche Zahl ( 2,71828). Der Ausdruck e b t wird häufig auch in der Form exp(b t) geschrieben. Der Zusammenhang zwischen der abhängigen Variablen Y und der erklärenden Variablen t ist damit nicht linear und kann in dieser Form nicht in einer linearen Regressionsanalyse untersucht werden. Indem jedoch beide Seiten der Gleichungen logarithmiert werden, nimmt diese folgende Form an: ln(y) = ln(a) + b t Dies ist eine gewöhnliche Geradengleichung, die einen linearen Zusammenhang zwischen dem Logarithmus der Variablen Y und der (unveränderten, also nicht logarithmierten) Variablen t beschreibt. Es ist somit sinnvoll möglich, den Zusammenhang zwischen den logarithmierten Werten von Y (also den logarithmierten Werten des Sozialprodukts) und der Zeit in einer linearen Regression zu untersuchen. Hierzu müssen Sie lediglich vor dem Ausführen der Regressionsanalyse für die Variable Y logarithmierte Werte berechnen und in einer eigenen Variablen speichern. 230 Diese Variable können Sie anschließend in dem Dialogfeld der Regressionsanalyse als abhängige Variable angeben. 231 Beachten Sie bei dieser Vorgehensweise jedoch folgendes: Wenn Sie beispielsweise für die abhängige Variable nicht die beobachteten absoluten Werte, sondern Wachstumsraten betrachten, schätzen Sie mit der Regressionsanalyse nicht den Zusammenhang zwischen dem Niveau der erklärenden Variablen und dem Niveau der abhängigen Variablen. Vielmehr untersuchen Sie, ob ein Zusammenhang zwi- 230 Hierzu bietet sich die Prozedur TRANSFORMIEREN, BERECHNEN an, siehe in Kapitel 9, Variablentransformationen, den Abschnitt 9.1, Werte für eine Variable berechnen, S. 213. 231 Weitere Beispiele für das Transformieren nichtlinearer Gleichungen in lineare Gleichungen finden Sie in Kapitel 24, Kurvenanpassung, und dort insbesondere in Abschnitt 24.3, Kurventypen, S. 586.

532 Kapitel 23 Lineare Regression schen dem Niveau der erklärenden und der Veränderungsrate der abhängigen Variablen besteht. Haben Sie also eine Theorie formuliert, die von einem exponentiellen Zusammenhang zwischen den Niveaus der Variablen ausgeht, wird diese Theorie nicht unmittelbar überprüft, wenn Sie in einer Regressionsanalyse (zumindest für eine Variable) die Veränderungsraten betrachten. Freilich lassen sich durch einfache mathematische Berechnungen Rückschlüsse von den Veränderungsraten auf die Niveaus (et vice versa) ziehen, allerdings ist es nicht immer ganz unproblematisch, diese Rückschlüsse auch auf die inhaltliche Interpretation eines möglichen Zusammenhangs zu übertragen. 23.2.3 Skalenniveaus der Variablen Aus den bisherigen Betrachtungen ergibt sich eigentlich schon von selbst, daß die an der Regression beteiligten Variablen mindestens Intervallskalenniveau haben müssen. Dies folgt bereits aus dem Grundgedanken der Regression, nach dem Abstände kontinuierlich gemessen und interpretiert werden sollen. Allerdings gibt es von dieser Regel - wie sollte es anders sein - eine Ausnahme: In Abschnitt 23.4, Dummy-Variablen, S. 549 wird gezeigt, daß es bei einigen speziellen Fragestellungen möglich ist, bestimmte nominalskalierte Variablen als erklärende Variablen in das Modell aufzunehmen. Dies ändert jedoch nichts an der Grundregel, daß regressive Beziehungen nur zwischen (mindestens) intervallskalierten Variablen bestimmt werden können. 23.2.4 Schätzen einer einfachen Regressionsgleichung Im folgenden soll die einfache lineare Beziehung zwischen den Variablen av85.10 und uv85.10 mit der Prozedur STATISTIK, REGRESSION, LINEAR geschätzt werden. Geben Sie hierzu in dem Dialogfeld dieser Prozedur av85.10 als abhängige und uv85.10 als unabhängige Variable an. Bei allen übrigen Optionen werden die Voreinstellungen unverändert übernommen. Mit diesen Angaben erhalten Sie den in Abbildung 23.3 wiedergegebenen Output. 232 Zunächst sei die unterste Tabelle mit der Überschrift Koeffizienten betrachtet. Dort werden in der Spalte B die Werte angegeben, die von der Regressionsanalyse für den Achsenabschnitt a und das Steigungsmaß b der Regressionsgeraden berechnet wurden. Das Steigungsmaß b, also der Regressionskoeffizient der Variablen uv85.10, wird mit 0,438 ausgewiesen, der Achsenabschnitt a, also die Konstante der Regressionsgleichung, hat einen Wert von 0,003. Dies sind die Werte, die wir bereits oben (siehe S. 526 ff.) mit der Hand ausgerechnet haben. 232 Neben den dargestellten Tabellen wird von der Prozedur eine weitere Tabelle mit der Überschrift Variables Entered/Removed erstellt, die jedoch bei dieser einfachen Regression lediglich den Namen der erklärenden Variablen wiedergibt.

23.2 Einfache Regression 533 Modell 1 Modellzusammenfassung Korrigiertes Standardfehler R R-Quadrat R-Quadrat des Schätzers,636 a,405,397,0481 a. Einflußvariablen : (Konstante), UV85.10 Modell 1 Regression Residuen Gesamt a. Einflußvariablen : (Konstante), UV85.10 b. Abhängige Variable: AV85.10 ANOVA b Mittel der Quadratsumme df Quadrate F Signifikanz,1225 1,1225 52,986,000 a,1804 78,0023,3029 79 Modell 1 (Konstante) UV85.10 a. Abhängige Variable: AV85.10 Nicht standardisierte Koeffizienten Koeffizienten a Standardisierte Koeffizienten B Standardfehler Beta T Signifikanz,003,005,483,631,438,060,636 7,279,000 Abbildung 23.3: Output einer einfachen Regressionsanalyse mit der abhängigen Variablen av85.10 und der erklärenden Variablen uv85.10 23.2.5 Maße für die Güte der Anpassung Bestimmtheitsmaß R 2 Die 80 in der Regressionsanalyse untersuchten Branchen haben ihre Beschäftigung von Arbeitern in dem betrachteten Zeitraum im Durchschnitt um eine Rate von 0,0086 (0,86%) erhöht. 233 Dieser Durchschnittswert setzt sich aus zum Teil sehr unterschiedlichen Veränderungen der Arbeiterbeschäftigung in den einzelnen Branchen zusammen. So ist in dem Streudiagramm (Abbildung 23.1, S. 524) zu erkennen, daß die Veränderungen der Arbeiterbeschäftigung in den einzelnen Branchen zwischen -0,15 und +0,2 lagen. Die der Regressionsanalyse zugrundeliegende Vermutung besagt, daß die Unterschiede in den Veränderungsraten der Arbeiterbeschäftigung (also die Abweichungen der tatsächlichen Veränderung in den einzelnen Branchen von der durchschnittlichen Veränderung) durch unterschiedliche Umsatzentwicklungen erklärt werden können. Wir haben aber auch bereits festgestellt, daß zwischen der Umsatzentwicklung und der Veränderung der Arbeiterbeschäftigung kein perfekter (sondern nur ein ungefährer) linearer Zusammenhang besteht. Aus diesem Grund wird es der Regressionsanalyse nicht gelungen sein, sämtliche Unterschiede in der Veränderung der Arbeiterbeschäfti- 233 Dieser Wert wurde oben in der linken Tabelle aus Abbildung 23.2, S. 529 mitgeteilt.

534 Kapitel 23 Lineare Regression gung zu erklären. Vielmehr wird sie nur einen Teil der Unterschiede erklären können, während ein anderer Teil unerklärt bleibt. Dieser Zusammenhang wird in der Grafik aus Abbildung 23.4 skizziert. Y Y i Y * Y nicht erklärte e i Abweichung erklärte Abweichung X i/y i Y i Y gesamte Abweichung X X i X Abbildung 23.4: Erklärte und nicht erklärte Abweichungen der einzelnen Beobachtungen von ihrem Mittelwert Die Grafik skizziert ein Streudiagramm, in dem die Regressionsgerade (durchgezogene Linie) und eine einzelne Beobachtung (X i /Yi) eingezeichnet sind. Die waagerechte, gestrichelte Linie kennzeichnet den Mittelwert der abhängigen Variablen Y (im Beispiel also die durchschnittliche Veränderung der Arbeiterbeschäftigung). Der beobachtete Wert Y i liegt damit über dem durchschnittlichen Wert Y. Da auch der zu dem Punkt Y i gehörende X-Wert X i (also die Umsatzveränderung) über der durchschnittlichen Umsatzveränderung ( X ) liegt, entspricht die überdurchschnittliche Veränderung der Arbeiterbeschäftigung der zugrundeliegenden Theorie. Die Regressionsanalyse, deren Ergebnis durch die Regressionsgerade zum Ausdruck kommt, hätte bei gegebener Umsatzveränderung (also bei gegebenem Wert X i ) allerdings nur eine Veränderung der Arbeiterbeschäftigung in Höhe von Y * vorausgesagt. Die Abweichung der beobachteten Veränderung der Arbeiterbeschäftigung Y i von der durchschnittlichen Veränderung der Arbeiterbeschäftigung Y wird also nur zum Teil durch die Regressionsanalyse erklärt. Die gesamte Abweichung beträgt Y i -Y. Von dieser gesamten Abweichung wird nur der Teil Y * -Y erklärt, während der Teil Y i - Y * unerklärt bleibt. Dieser nicht erklärte Teil der Abweichung wird auch als Residuum e i bezeichnet. Als Maß dafür, wie eng die Regressionsgerade an den Punkten der Punktwolke liegt (also wie gut der durch die Regressionsgleichung formulierte Zusammenhang zwischen der erklärenden und der abhängigen Variablen die tatsächlichen Gegebenheiten beschreibt), wird häufig das Verhältnis zwischen dem erklärten Teil der Streuung und der gesamten Streuung (Abweichungen vom Mittelwert) betrachtet. Hierzu wird zunächst für jede Beobachtung der quadrierte Wert der nicht erklärten Streuung (also des Residuums e i ) berechnet. Die Summe dieser quadrierten Residuen wird häufig als RSS (Residual Sum of Squares) bezeichnet und ist im SPSS- Output der Regressionsanalyse ausgewiesen. Der Wert für das vorliegende Bei-

23.2 Einfache Regression 535 spiel beträgt 0,1804 (siehe Tabelle ANOVA in Abbildung 23.3). Entsprechend werden die quadrierten Werte der erklärten Abweichungen (Y * -Y ) berechnet und zu dem Wert ESS (Explained Sum of Squares) addiert. Dieser wird in der Tabelle ANOVA in der Zeile Regression mit 0,1225 ausgewiesen. Damit ist der erklärte Teil der Streuung kleiner als der nicht erklärte Teil. So wie für den erklärten und den nicht erklärten Teil der Streuung kann auch für die gesamte Streuung (Y i -Y ) die Summe der quadrierten Werte berechnet werden. Auch dieser Wert, der als TSS (Total Sum of Squares) bezeichnet wird, ist im Output der Regressionsanalyse in der Tabelle ANOVA ausgewiesen. Er beträgt 0,3029 und ist damit gleich der Summe von ESS (Quadratsumme der erklärten Streuung) und RSS (Quadratsumme der nicht erklärten Streuung): 234 TSS = ESS + RSS = 0,1225 + 0,1804 = 0,3029 Das Verhältnis zwischen der Quadratsumme der erklärten Streuung (ESS) und der Quadratsumme der gesamten Streuung (TSS) wird im allgemeinen mit R 2 bezeichnet und beträgt in diesem Beispiel: R 2 ESS 0,1225 = = = 0,4044 TSS 0,3029 Dieser Wert wird auch in dem Regressions-Output von SPSS mitgeteilt. Sie finden ihn in der Tabelle Modellzusammenfassung in der Spalte R-Quadrat (siehe Abbildung 23.3, S. 533). R 2, das häufig auch als Bestimmtheitsmaß oder als Fit der Regressionsgleichung bezeichnet wird, mißt also den Anteil der erklärten Streuung an der gesamten Streuung, der in diesem Beispiel 40,44% beträgt. Die Werte von R 2 liegen stets zwischen 0 und 1. Dies ergibt sich unmittelbar daraus, daß weder ESS noch TSS (die jeweils die Summe von quadrierten Werten darstellen) negativ sein können, so daß auch R 2 stets positiv ist. Da die erklärte Streuung (ESS) einen Teil der gesamten Streuung (TSS) bildet, kann der Zähler nicht größer sein als der Nenner, so daß R 2 nicht größer sein kann als 1. Hat R 2 den Wert 1, ist dies gleichbedeutend damit, daß die gesamte Streuung erklärt wird (ESS = TSS) und alle Beobachtungen exakt auf einer Geraden liegen. Je kleiner R 2 ist, desto schlechter ist dagegen die Anpassung der Geraden an die beobachteten Werte. Wichtig ist hierbei, daß R 2 lediglich ein Maß für den linearen Zusammenhang zwischen den Variablen ist. Besteht ein nichtlinearer Zusammenhang zwischen der abhängigen und der erklärenden Variablen, kann R 2 einen niedrigen Wert annehmen, selbst wenn der nichtlineare Zusammenhang perfekt ist 234 Anhand der Skizze in Abbildung 23.4 wurde dargestellt, daß sich die gesamte Abweichung in einen erklärten und einen nicht erklärten Teil zerlegen läßt. Gerade vor diesem Hintergrund mag es verwundern, daß auch für die Summe der quadrierten Werte gilt, daß sich der Wert für die gesamte Streuung (TSS) aus der Summe der entsprechenden Werte für die nicht erklärte Streuung (RSS) und die erklärte Streuung (ESS) ergeben. Es kann jedoch gezeigt werden, daß dieser Zusammenhang allgemeine Gültigkeit hat, es handelt sich also nicht um eine Besonderheit des hier betrachteten Beispiels. Die Gültigkeit des Zusammenhangs TSS = ESS + RSS hängt damit zusammen, daß die Regressionsgerade stets durch den Punkt geht, der aus den Mittelwerten der erklärenden und der abhängigen Variablen gebildet wird.

536 Kapitel 23 Lineare Regression (z.b. Y = X 2 ), denn in solchen Fällen ist eine Gerade nicht geeignet, den Zusammenhang zwischen den Variablen abzubilden. Neben dem Wert für R 2 wird im Regressions-Output von SPSS ein korrigiertes R 2 ausgewiesen. Dieses ist vor allem für Regressionsschätzungen mit mehr als einer erklärenden Variablen relevant und wird daher weiter unten betrachtet (siehe Abschnitt R 2 und korrigiertes R 2, S. 546). Standardfehler der Schätzung Die nicht erklärte Abweichung e i eines bestimmten Beobachtungspunktes kann sowohl positiv als auch negativ sein. e i ist positiv, wenn der Punkt der entsprechenden Beobachtung im Streudiagramm über der Regressionsgeraden liegt. Entsprechend ist e i negativ, wenn der Punkt unter die Gerade fällt. Im Durchschnitt aller Beobachtungen ist e i jedoch genau null. 235 Anders formuliert besagt dies, daß die durch die Regressionsgleichung vorhergesagten Werte der abhängigen Variablen durchaus falsch in dem Sinne sein können, daß sie die tatsächlichen Werte über- oder unterschätzen, daß die Schätzungen im Durchschnitt jedoch richtig sind. Nun ist es zunächst einmal sehr erfreulich, daß die mit der Regressionsgeraden prognostizierten Werte im Durchschnitt genau den wahren Werten entsprechen, dies ist jedoch nur wenig hilfreich, wenn jeder einzelne geschätzte Wert den entsprechenden wahren Wert um ein Vielfaches verfehlt. Wünschenswert wäre, daß die geschätzten Werte nicht nur im Durchschnitt richtig sind, sondern daß auch jeder einzelne Schätzwert - wenn er den wahren Wert schon nicht exakt trifft - zumindest in der Nähe des wahren Wertes liegt. Als Indikator dafür, wie weit dieses Ziel erreicht wird, können die Residuen e i der Regressionsschätzung angesehen werden, die ja gerade die Abweichungen der prognostizierten Werte von den wahren (beobachteten) Werten angeben. Da die Residuen in der Summe null ergeben, wird nicht die Summe der Residuen, sondern die Summe der quadrierten Residuen (RSS) betrachtet. Zusätzlich wird diese Summe der quadrierten Residuen durch die Anzahl der Beobachtungen (in diesem Beispiel also durch 80) geteilt, um den Einfluß der Stichprobengröße auf den gemessenen Wert auszuschalten: ei 2 n Wir haben bereits festgestellt, daß der Mittelwert der Residuen e gleich null ist. Daher kann der vorhergehende Ausdruck auch geschrieben werden als: ei 2 n ( e 0 ) i 2 ( ei e) 2 = = n n 235 Im Abschnitt Denkbares Kriterium zur Auswahl einer Geraden, S. 525 haben wir ausgerechnet, daß e i im Durchschnitt aller Beobachtungen genau dann gleich Null ist, wenn die Regressionsgerade durch den Punkt läuft, der aus den Mittelwerten der beiden Variablen gebildet wird. Da dies für die nach dem KQ-Kriterium ermittelte Regressionsgerade der Fall ist (vgl. Fn. 226, S. 527) gilt also auch e i = 0.

23.2 Einfache Regression 537 An dem rechten Ausdruck ist unmittelbar zu erkennen, daß es sich um die Varianz der Residuen (also um die durch die Anzahl der Beobachtungen dividierte Summe der quadrierten Abweichungen der Residuen von ihrem Mittelwert) handelt. Aus verschiedenen Gründen wird die Summe der quadrierten Residuen häufig nicht durch die Anzahl der Beobachtungen (n), sondern durch die Anzahl der Beobachtungen abzüglich der Anzahl der erklärenden Variablen dividiert, wobei in diesem Sinne auch der konstante Term der Regressionsgleichung als erklärende Variable angesehen wird. Wird die Anzahl der erklärenden Variablen (einschließlich der Konstanten) mit k bezeichnet, ist also folgender Wert zu berechnen: 236 e 2 i n k Für das vorliegende Beispiel ist e i 2 =RSS = 0,1804 und n - k = 80-2. Eingesetzt in die vorhergehende Gleichung ergibt sich damit eine Varianz der Residuen von: 0,1804 = 0,00231 80 2 Dieser Wert wird in dem Regressions-Output von SPSS (Abbildung 23.3, S. 533) in der Tabelle ANOVA in der Spalte Mittel der Quadrate und der Zeile Residuen ausgewiesen. Die Quadratwurzel dieses Wertes, also die Standardabweichung der Residuen (bzw. die geschätzte Standardabweichung des Störterms, vgl. Fn. 236), beträgt: e 2 i n k = = 0, 00231 = 0,0481 Dieser Wert, der häufig als Standardfehler der Schätzung bezeichnet wird, dient als Maß dafür, wie nahe die durch die Regressionsgleichung prognostizierten Werte an den wahren Werten liegen. Er hat damit inhaltlich eine ähnliche Bedeutung wie das im vorhergehenden Abschnitt betrachtete Bestimmtheitsmaß R 2. In dem Regressions-Output von SPSS finden Sie den Standardfehler der Schätzung in der obersten Tabelle Modellzusammenfassung unter der Überschrift Standardfehler des Schätzers. 236 Der Wert e i 2 / (n k) wird auch als Schätzung für die Varianz des Störterms bezeichnet. Damit hat es folgendes auf sich: Wir wissen nicht, ob die anhand der vorliegenden Stichproben für die Regressionsgerade geschätzten Werte a und b tatsächlich die Werte sind, die den linearen Zusammenhang zwischen der abhängigen und der erklärenden Variablen am besten beschreiben. Aber selbst wenn wir die am besten geeigneten Werte a und b kennen würden, ergäben sich Abweichungen zwischen den tatsächlich beobachteten und den durch die Regressionsgleichung geschätzten Werten. Diese Abweichungen, die als Störterme bezeichnet werden, würden daraus resultieren, daß sich die abhängige Variable nicht ausschließlich über einen linearen Zusammenhang aus der unabhängigen Variablen erklären läßt. Da wir die am besten geeigneten Werte a und b nicht kennen, können wir die Störterme und damit auch die Varianz der Störterme nicht berechnen. Aus diesem Grund wird die Varianz der Residuen e i nach der angegebenen Formel berechnet und als Schätzung für die Varianz der Störterme verwendet.

538 Kapitel 23 Lineare Regression 23.2.6 Aussagen über die Regressionskoeffizienten Standardfehler des Regressionskoeffizienten Oben wurde die Vorgehensweise zur Berechnung des Regressionskoeffizienten für die Variable uv85.10 dargestellt. Die gesamte Berechnung basierte auf den Angaben über den Umsatz und die Beschäftigung von Arbeitern, die für 80 Branchen der verarbeitenden Industrie in Baden-Württemberg für den Zeitraum von Oktober 1984 bis Oktober 1985 vorliegen. Diese 80 Beobachtungen können nicht eine vollständige Beschreibung der Entwicklung von Umsatz und Arbeiterbeschäftigung in der verarbeitenden Industrie Deutschlands liefern. Vielmehr wären für eine solche lückenlose Darstellung zahlreiche weitere Beobachtungen (z.b. für andere Zeiträume und andere Regionen) erforderlich, von denen die 80 vorliegenden Beobachtungen nur einen kleinen Teil (eine Stichprobe) bilden. Wäre die Regressionsanalyse nicht genau für die 80 in der Datendatei azv.sav enthaltenen Beobachtungen durchgeführt worden, sondern für 80 andere Beobachtungen (z.b. für die Veränderungen von November 1984 bis November 1985), hätte sich mit hoher Wahrscheinlichkeit ein etwas anderer Wert für den Regressionskoeffizienten der Variablen uv85.10 ergeben. Würde die Regressionsanalyse für 3, 4, 5 oder mehr unterschiedliche Stichproben durchgeführt, ergäben sich sehr wahrscheinlich auch 3, 4, 5 oder mehr unterschiedliche Regressionskoeffizienten, die alle mehr oder weniger stark von dem wahren Koeffizienten - der sich ergäbe, wenn alle relevanten Beobachtungen in die Regressionsanalyse einbezogen würden - abweichen. Je nach der Größe der für die Regressionsanalyse verwendeten Stichprobe und je nachdem, wie eng der lineare Zusammenhang zwischen der erklärenden und der abhängigen Variablen ist, können die für unterschiedliche Stichproben errechneten Regressionskoeffizienten mehr oder weniger stark um den wahren Wert streuen. 237 Als Maß für die Stärke der Streuung kann die Varianz des Koeffizienten betrachtet werden. Hat der wahre Koeffizient den Wert b * und ergeben sich bei n unterschiedlichen Stichproben die n verschiedenen Koeffizienten b i (i = 1, 2,..., n), kann die Varianz des Koeffizienten berechnet werden als: n * ( b b ) i i= 1 Var(b) = n Freilich ist der wahre Wert b * nicht bekannt, und man wird auch nicht zahlreiche Regressionsanalysen für unterschiedliche Stichproben durchführen, so daß sich die Varianz von b nicht wirklich exakt berechnen läßt. Allerdings kann die Varianz von b mit folgender Formel geschätzt werden: Var(e) Var(b) = Var(X) n 2 237 Es läßt sich im übrigen zeigen, daß die geschätzten Koeffizienten im Durchschnitt mit dem wahren Koeffizienten übereinstimmen.

23.2 Einfache Regression 539 Dabei bezeichnet Var(e) die Varianz der Residuen e i, 238 Var(X), ist die Varianz der erklärenden Variablen (in diesem Fall also die Varianz von uv85.10), und n ist die Anzahl der Beobachtungen, die der vorliegenden Regressionsanalyse zugrundeliegen (in diesem Fall also 80). Die Varianz der Variablen uv85.10 ergibt sich aus der linken Tabelle der Abbildung 23.2, S. 529 als Quadrat der Standardabweichung und beträgt 0,00807. Die Varianz der Residuen, die wir im vorhergehenden Abschnitt berechnet haben, beträgt 0,00231. Damit ergibt sich für den Regressionskoeffizienten der Variablen uv85.10 eine Varianz von: 0,00231 Var(b) = = 0,00357 0,00807 80 Die Quadratwurzel der Varianz von b ist die Standardabweichung von b, die auch als Standardfehler des Regressionskoeffizienten bezeichnet wird: 239 Standardfehler von b = Var () b = 0, 00357 = 0,060 In dem Regressions-Output von SPSS (Abbildung 23.3, S. 533) ist dieser Wert in der Spalte Standardfehler der Tabelle Koeffizienten ausgewiesen. Er ist ein Maß für die Stärke der Streuung der in unterschiedlichen Stichproben beobachteten Regressionskoeffizienten um den wahren Koeffizienten und ist damit vollkommen analog zu dem Standardfehler der Schätzung (siehe vorhergehenden Abschnitt) zu interpretieren. Rückschlüsse auf den wahren Koeffizienten Wir haben festgestellt, daß der durch die Regressionsanalyse berechnete Regressionskoeffizienten der Variablen uv85.10 sehr wahrscheinlich nicht exakt mit dem wahren Koeffizienten übereinstimmt. Mit Hilfe des Standardfehlers ist es jedoch möglich, Rückschlüsse auf die ungefähre Lage des wahren Koeffizienten zu ziehen. Hat der wahre Koeffizient den Wert b *, gilt folgender Zusammenhang: Der Wert, der sich durch die Formel b b s.e. () b ergibt, folgt einer t-verteilung mit n - k Freiheitsgraden. Dabei haben die Symbole folgende Bedeutung: ¾ n: Anzahl der zugrundeliegenden Beobachtungen (80) * 238 Strenggenommen sollte im Zähler nicht die Varianz der Residuen, sondern die Varianz des Störterms stehen, die jedoch unbekannt ist und durch die Varianz der Residuen geschätzt wird, vgl. Fn. 236. 239 Die Standardabweichung mißt die Streuung einer Gruppe von Werten um ihren Mittelwert. Handelt es sich bei den betrachteten Werten um Parameter mit gleicher inhaltlicher Bedeutung, die für unterschiedliche Stichproben (aus derselben Grundgesamtheit) berechnet wurden, wird die Standardabweichung der Parameter häufig als Standardfehler bezeichnet.

540 Kapitel 23 Lineare Regression ¾ k: Anzahl der erklärenden Variablen einschließlich der Konstanten (2) ¾ s.e.(b): Standardfehler des Regressionskoeffizienten b (0,060) Bei einem großen Stichprobenumfang (ungefähr bei n 30) nähert sich die t- Verteilung der Standardnormalverteilung an, so daß der Quotient aus der angegebenen Formel bei großen Stichproben approximativ standardnormalverteilt ist. Dies hat folgende praktische Bedeutung: Möchten Sie überprüfen, ob der wahre Koeffizient b * einen bestimmten Wert b 0 hat, können Sie folgendermaßen vorgehen: 240 ¾ Berechnen Sie zunächst den Testwert nach der Formel b b0 s.e. () b ¾ Ermitteln Sie anschließend den t-wert (oder bei großen Stichproben wahlweise den Wert der Standardnormalverteilung), der dem von Ihnen gewünschten Signifikanzniveau entspricht. Möchten Sie zum Beispiel die Nullhypothese (b * = b 0 ) mit einem 95%-Signifikanzniveau (Irrtumswahrscheinlichkeit von 5%) überprüfen, beträgt der t-wert 1,96. 241 ¾ Vergleichen Sie den im ersten Schritt berechneten Testwert mit dem im zweiten Schritt ermittelten t-wert. Ist der Testwert größer als der t-wert, lehnen Sie die Nullhypothese b * = b 0 mit der von Ihnen gewählten Irrtumswahrscheinlichkeit ab. Ist der Testwert dagegen kleiner als der t-wert, können Sie die Nullhypothese nicht ablehnen. Beispiel 1: Test auf linearen Zusammenhang zwischen den Variablen Für die erklärende Variable uv85.10 wurde in bezug auf die abhängige Variable av85.10 ein Regressionskoeffizient von 0,438 (vgl. Abbildung 23.3, S. 533) berechnet, der auf einen positiven linearen Zusammenhang zwischen den beiden Variablen hindeutet. Grundsätzlich ist es jedoch möglich, daß sich dieser Wert nur zufällig für die vorliegende Stichprobe der 80 Branchen ergeben hat, während in der Grundgesamtheit in Wirklichkeit kein linearer Zusammenhang zwischen den Variablen besteht, so daß b * gleich null ist. Um dies zu überprüfen, können Sie die Hypothese b * = 0 (In der Grundgesamtheit besteht kein linearer Zusammenhang zwischen den Variablen) gegen die Hypothese b * 0 (Es besteht ein linearer Zusammenhang zwischen den Variablen) testen.. 240 Etwas präziser formuliert überprüfen Sie mit der im folgenden skizzierten Vorgehensweise die Nullhypothese b * = b 0. Die Gegenhypothese ist b * b 0. 241 Beachten Sie, daß Sie bei der Gegenhypothese b * b 0 einen zweiseitigen Test durchführen und daher bei einem 95%-Signifikanzniveau den t-wert (bzw. den entsprechenden Wert der Standardnormalverteilung) für eine Wahrscheinlichkeit von 0,025 (und nicht für 0,05) verwenden müssen.