Lineare Regression. Werner Stahel Seminar für Statistik, ETH Zürich. Mai 2008 / Sept. 2013

Größe: px
Ab Seite anzeigen:

Download "Lineare Regression. Werner Stahel Seminar für Statistik, ETH Zürich. Mai 2008 / Sept. 2013"

Transkript

1 Lneare Regresson Werner Stahel Semnar für Statstk, ETH Zürch Ma 2008 / Sept Unterlagen zum Tel 1 der Vorlesung / des Kurses n Angewandter Regresson

2 1 Enführung n de statstsche Regressonsrechnung 1.1 Bespele zur lnearen Regresson a In der Wssenschaft, n der Technk und m Alltag fragen wr mmer weder danach, we ene Grösse, de uns spezell nteressert, von anderen Grössen abhängt. Dese grundlegende Frage behandelt de statstsche Regresson, de deshalb wohl (neben enfachen grafschen Darstellungen) de am mesten verwendete Methodk der Statstk darstellt. In desem Abschntt soll mttels Bespelen zur gewöhnlchen lnearen Regresson n de Problemstellung engeführt werden, bevor en Überblck über de verschedenen, allgemeneren Regressons- Modelle geboten wrd. b Bespel Sprengungen. Bem Bau enes Strassentunnels zur Unterfahrung ener Ortschaft muss gesprengt werden. De Erschütterung der Häuser darf dabe enen bestmmten Wert ncht überschreten. In der Nähe der Häuser muss daher vorschtg gesprengt werden, was natürlch zu erhöhten Kosten führt. Es lohnt sch, ene Regel zu entwckeln, de angbt, we stark n welcher Stuaton gesprengt werden darf. Erschütterung Ladung Dstanz Abbldung 1.1.c: Erschütterung n Abhänggket von der Dstanz für verschedene Ladungen De Erschütterung st abhängg von der Sprengladung, von der Dstanz zwschen dem Sprengund dem Messort, von der Art des Untergrund-Materals zwschen desen Punkten, vom Ort der Sprengung m Tunnelprofl und möglcherwese von weteren Grössen. Wäre de Erschütterung ene exakte, bekannte Funkton deser Grössen und könnte man se be ener geplanten Sprengung alle genau erfassen, dann könnte man de Sprengladung ausrechnen, de zu ener gerade noch tolererbaren Erschütterung führt. Verson Sept 2013, c W. Stahel

3 1.1. BEISPIELE ZUR LINEAREN REGRESSION 1 c d e Begnnen wr, mathematsche Symbole und Sprachregelungen enzuführen! De Zelgrösse y (englsch target varable) de Erschütterung hängt über ene Funkton h von den Engangsgrössen oder erklärenden Varablen x (1), x (2),..., x (m) (explanatory varables) Ladung, Dstanz, Spreng-Stuaton, Untergrundart ab. Bemerkungen zur Wortwahl. Der Ausdruck erklärende Varable st geegnet, wenn dese de Ursachen für de Zelgrösse darstellen. Da des n velen Anwendungen ncht gewährlestet st ene Regresson kann dazu denen, aus der Grösse der Wrkung auf den Wert der verursachenden Varablen zu schlessen bevorzugen wr her den Ausdruck Engangsgrösse, der desbezüglch etwas neutraler tönt. De ebenfalls gebräuchlchen Ausdrücke unabhängge Varable für de x (j) und abhängge Varable für y snd rreführend, da se mt stochastscher Unabhänggket nchts zu tun haben. * Der Ausdruck Ausgangsgrösse Grösse, von der man ausgeht wäre vom umgangssprachlchen Gebrauch ebenfalls nahelegend, aber m Zusammenhang mt Systemen, de Engangs- und Ausgangsgrössen haben, bezechnet er das genaue Gegentel. Im Idealfall sollte also y = h x (1), x (2),..., x (m) für jede Beobachtung (jede Sprengung) gelten. Leder exstert ene solche Formel ncht, und das Untergrundmateral st soweso ncht genau genug erfassbar. Abbldung 1.1.d zegt de Erschütterung n Abhänggket von der Dstanz für verschedene Ladungen. (De Daten stammen vom Bau der Unterfahrung von Schaffhausen. Se wurden freundlcherwese vom Ingeneurbüro Basler und Hoffmann, Zürch, zur Verfügung gestellt.) De statstsche Regressonsrechnung geht davon aus, dass ene Formel wengstens ungefähr glt bs auf Abwechungen, de zufällg genannt werden. Wr schreben Y = h x (1), x (2),..., x (m) + E und nennen de E de Zufallsfehler. De Vorstellungen, we gross solche Abwechungen snd, werden mt ener Wahrschenlchkets-Vertelung formulert. Oft wrd dafür de Normalvertelung verwendet. Man wrd mt Hlfe deses Modells trotz der Unscherhet ene Regel für de zu wählende Grösse der Sprengladung herleten können. Allerdngs muss man zulassen, dass gemäss Modell auch ene zu grosse Erschütterung mt ener gewssen Wahrschenlchket auftreten kann. Wll man dese Wahrschenlchket klen halten, so muss man entsprechend vorschtg sprengen. De statstsche Regressonsrechnung gbt enen Zusammenhang zwschen der Ladung und der Wahrschenlchket ener zu grossen Erschütterung be ener bestmmten Dstanz an. Deses Bespel wrd uns n den kommenden Abschntten begleten. Auf de Antworten müssen Se deshalb noch ene Wele warten. f Bespel Schadstoffe m Tunnel. De Schadstoffe, de vom motorserten Verkehr ausgestossen werden, blden enen wesentlchen Bestandtel der Belastung der Luft. Um de Grösse deser Belastung zu schätzen, werden für de Fahrzeuge so genannte Emssonsfaktoren bestmmt. Des kann enersets auf dem Prüfstand geschehen, auf dem de Strasse mt Rollen smulert wrd. Der Wderstand der Rollen wrd dabe varert, so dass en typscher Fahrzyklus durchgespelt werden kann. Anderersets egnen sch Strassentunnels mt En-Rchtungs- Verkehr für Messungen unter realen Bedngungen. Msst man Schadstoff-Konzentratonen am Anfang und am Schluss des Tunnels und zählt, we vele Fahrzeuge durch den Tunnel fahren, so kann man ebenfalls Emssonsfaktoren ausrechnen. Allerdngs erhält man zunächst nur enen gemttelten Faktor für jeden gemessenen Schadstoff, und deser lässt sch ncht ohne zusätzlche

4 2 1 EINFÜHRUNG IN DIE STATISTISCHE REGRESSIONSRECHNUNG Erkenntnsse auf andere Strassenabschntte übertragen. Wenn man de Anzahl der Fahrzeuge nach Fahrzeug-Kategoren auftelen kann, dann kann man mmerhn mt Regressonsrechnung zu enem Emssonsfaktor für jede Fahrzeug-Kategore kommen. Während ener Woche m September 1993 wurden n der Südröhre des Gubrst-Tunnels nördlch von Zürch solche Messungen durchgeführt. De Schadstoff-Konzentratonen am Anfang und am Ende wurden gemessen und de Luftströmung erfasst. Daraus lässt sch de Schadstoff-Emsson Y pro Klometer für alle durchgefahrenen Fahrzeuge zusammen berechnen. Von enem Schlaufen- Detektor m Strassenbelag wurden de Fahrzeuge n zwe Kategoren gezählt: Auf Grund des Abstands von Vorder- und Hnterachse wurden de Lastwagen von den übrgen Fahrzeugen getrennt. Es bezechne x (1) de Anzahl Ncht-Lastwagen und x (2) de Anzahl Lastwagen. De gesamten Emssonen n der Zetperode setzen sch zusammen gemäss Y = θ 1 x (1) + θ 2 x (2) + E, wobe θ 1 de durchschnttlche Emsson pro Ncht-Lastwagen und θ 2 dejenge pro Lastwagen bedeutet also de Grössen, an denen wr n der Stude prmär nteressert snd. De Zufallsfehler E entstehen durch Varatonen n Bauart und Zustand der Fahrzeuge, durch zetlche Abgrenzungs-Schwergketen und durch Mess-Ungenaugketen. Ef.NOx Lastwagen-Antel Abbldung 1.1.f: Emssonsfaktor für NOx und Lastwagen-Antel, gemttelt über jewels 15 Mnuten, m Bespel der Schadstoffe m Tunnel. Dre extrem hohe Y -Werte snd m Bldrand dargestellt. g De Formel lässt sch n ene üblchere und vellecht noch enfachere Form brngen: Wr dvderen Y, x (1) und x (2) durch de gesamte Anzahl Fahrzeuge x (1) + x (2) und erhalten Ỹ = θ 1 x (1) + θ 2 x (2) + Ẽ, wobe Ỹ der mttlere Emssonsfaktor für de Zetperode und x (1) und x (2) de Antele der Ncht-Lastwagen und der Lastwagen bedeuten. Da x (1) = 1 x (2) st, glt Ỹ = θ 1 + (θ 2 θ 1 ) x (2) + Ẽ.

5 1.1. BEISPIELE ZUR LINEAREN REGRESSION 3 Mt wenger komplzerten Symbolen geschreben seht das so aus: Y = α + βx + E. Des st das Modell ener so genannten enfachen lnearen Regresson. De Konstanten α und β nennen wr Koeffzenten oder Parameter des Modells. Wr wollen se aus den Daten der Stude bestmmen, also schätzen. In Abbldung 1.1.f zegt sch als Tendenz ene lneare Zunahme des mttleren Emssonsfaktors für NO x mt zunehmendem Lastwagen-Antel, we es dem besprochenen Modell entsprcht. h Bespel Lastwagen-Antel. Der Schlaufen-Detektor zählt zwar de gesamte Zahl der Fahrzeuge zuverlässg, kann aber den Antel der Lastwagen nur ungenau erfassen. Deshalb (unter anderem) wurde der Verkehr zetwese mt Vdeo aufgenommen und der Lastwagen-Antel auf desen Aufnahmen genau ausgezählt. Da des teurer war, konnte ncht der ganze Zetraum abgedeckt werden. Abbldung 1.1.h zegt, dass de Schlaufen-Zählung systematsche und zufällge Abwechungen von der Vdeo-Zählung aufwest. De zufällgen Abwechungen kommen telwese zustande, wel de Schlaufe am Anfang, de Kamera aber am Ende des Tunnels nstallert war, und de Abgrenzung der Mess-Intervalle ncht entsprechend korrgert wurde. (De Fahrzet beträgt etwa 3 Mnuten, de Intervalle dauerten 15 Mnuten.) Schlaufe Vdeo Abbldung 1.1.h: Lastwagen-Antel (n Prozenten) gemäss Schlaufen- und Vdeozählung. De Gerade stellt de Glechhet (y = x) dar. Es ergbt sch de wet verbretete Stuaton, dass der Wert ener nteresserenden Grösse auf Grund der Messung ener mt hr zusammenhängenden anderen Grösse mttels ener Umrechnungsformel ermttelt werden soll. Dabe kann de Messung auf ener ganz anderen Skala erfolgen; bespelswese wrd ene Konzentraton mttels ener optschen Durchlässgket erfasst. Man geht zunächst davon aus, dass für enen gegebenen exakten Wert x de Messung Y sch aus enem Idealwert h x und enem Messfehler E zusammensetzt. Das entsprcht enem Regressonsmodell. Man bestmmt de Funkton h mttels Messungen Y, für de der zugehörge Wert x bekannt st. In der Anwendung wrd aber ncht von x auf Y, sondern von enem Messwert Y auf den gesuchten Wert x geschlossen. Aus deser Umkehrung ergeben sch gewsse zusätzlche Probleme.

6 4 1 EINFÜHRUNG IN DIE STATISTISCHE REGRESSIONSRECHNUNG Deses Vorgehen entsprcht der Echung enes Messgeräts. Man msst Proben mt bekanntem exaktem Wert (z. B. bekannter Konzentraton) und lest de Messung ab. Dann wrd de Ablese- Skala ajustert, was der Schätzung und Verwendung der Funkton h n unserem allgemeneren Zusammenhang entsprcht. Bespel bassche Böden. In Inden behndern bassche Böden, also tefe Säurewerte oder hohe ph-werte, Pflanzen bem Wachstum. Es werden daher Baumarten gesucht, de ene hohe Toleranz gegen solche Umweltbedngungen haben. In enem Frelandversuch wurden auf enem Feld mt grossen lokalen Schwankungen des ph-wertes 120 Bäume ener Art gepflanzt und hre Höhe Y nach 3 Jahren gemessen. Abbldung 1.1. zegt de Ergebnsse mt den zugehörgen ph- Werten x (1) des Bodens zu Begnn des Versuchs. Zusätzlch wurde ene Varable x (2) gemessen, de enen etwas anderen Aspekt der Basztät erfasst (der Logarthmus der so genannten sodum absorpton rato, SAR). Deses Bespel hat also zwe Engangsgrössen. En Hauptzel der Untersuchung besteht darn, für gegebene Werte der beden Engangsgrössen an enem möglchen Pflanzort bestmmen zu können, we gut en solcher Baum dort wohl wachsen wrd. Es stellt sch zusätzlch de Frage, ob de Messung der zweten Grösse x (2) dazu überhaupt etwas beträgt, oder ob der ph (x (1) ) allen auch genügt. Höhe ph Abbldung 1.1.: Baumhöhe n Abhänggket vom ph für das Bespel der basschen Böden j Bespel Antkörper-Produkton. Grössere Mengen von Antkörpern werden n botechnologschen Prozessen gewonnen. Dazu werden botechnologsch veränderte Zellen, de den entsprechenden Antkörper produzeren können, Wrtsteren (z. B. Mäusen) njzert. Nach ener gewssen Zet begnnen dese Zellen Antkörper zu produzeren und auszuscheden. De ausgeschedene Flüssgket wrd dann engesammelt und weter verarbetet. Deses Bespel wrd ausführlch n Haaland (1989) dargestellt und analysert. Es dent uns her nur zur Illustraton der Fragestellung. De Zellen können erfahrungsgemäss nur Antkörper produzeren, wenn das Immunsystem der Wrtstere geschwächt wrd. Des kann durch 4 Faktoren geschehen. Es wrd zudem vermutet, dass de Menge der njzerten Zellen und deren Entwcklungsstand de Antkörper-Produkton beenflusst. Da es für so komplexe bologsche Prozesse kene theoretschen Modelle gbt, werden de relevanten Prozessfaktoren durch en Experment ermttelt. En solches Experment braucht vele Mäuse, st zetaufwändg und kostet Geld. Mt ener geschckten Versuchsanordnung können unter gerngstmöglchem Aufwand de wchtgen Prozessfaktoren ermttelt werden. Her hlft de statstsche Versuchsplanung.

7 1.2. FRAGESTELLUNGEN 5 k Als relevante Prozessfaktoren wurden n deser Stude zwe Prozessfaktoren dentfzert, nämlch de Doss von Co 60 Gamma-Strahlen und de Anzahl Tage zwschen der Bestrahlung und der Injekton enes renen Öls (englsche Bezechnung prstane). Dese beden Prozessfaktoren sollen nun so engestellt werden, dass ene möglchst optmale Menge von Antkörpern durch de veränderten Zellen produzert wrd. Dazu wollen wr en emprsches Modell Y = h x (1), x (2) + E fnden, das de Ausbeute Y von Antkörpern möglchst gut aus den beden Prozessfaktoren x (1) und x (2) vorhersagt. Als Funkton h wrd oft en quadratsches Polynom n den Varablen x (1) und x (2) verwendet. Mt dem aus den Daten bestmmten Modell lässt sch dann de optmale Enstellung [x (1) o, x (2) o ] der Prozessfaktoren bestmmen. 1.2 Fragestellungen a b c d e f Von der Problemstellung her können de Anwendungen der Regresson n Gruppen engetelt werden: Vorhersage, Prognose, Interpolaton. Im Bespel der Sprengungen soll ene Formel helfen, für gegebene Dstanz und Ladung de Erschütterung vorherzusagen. Es nteressert ncht nur der mttlere zu erwartende Wert, sondern auch ene obere Grenze, über der de Erschütterung nur mt klener Wahrschenlchket legen wrd. (De Begrffe Vorhersage und Prognose werden mestens für ene zetlche Extrapolaton n de Zukunft verwendet. Her spelt de Zet kene Rolle ausser dass de Problemstellung nur wesentlch st, wenn de Sprengung noch ncht erfolgt st.) Schätzung von Parametern. Im Bespel des Gubrst-Tunnels sollen zwe Konstanten, de Emssonsfaktoren für Lastwagen und für übrge Fahrzeuge, bestmmt werden. Bestmmung von Enflussgrössen. Im Bespel der Antkörper-Produkton müssen zunächst aus mehreren n Frage kommenden Engangsgrössen dejengen herausgefunden werden, de de Zelvarable wesentlch beenflussen. In velen Forschungs-Projekten steht dese Frage ebenfalls m Vordergrund: Von welchen Grössen wrd ene Zelgrösse egentlch beenflusst? Optmerung. Im Bespel der Antkörper-Produkton sollten optmale Produktonsbedngungen gefunden werden. In allen Berechen der Produkton st dese Frage offenschtlch von grundlegender Bedeutung. Echung. Auf Grund der ungenauen und systematsch verfälschten Angabe des Schlaufen- Detektors soll der Antel der Lastwagen bestmmt werden. Dese Problemstellung kombnert Elemente der Vorhersage und der Schätzung von Parametern. Der Block Regresson 1 wrd sch vor allem mt den ersten dre Fragen befassen. 1.3 Ausblck a In der lnearen Regresson, de m Folgenden behandelt wrd, setzt man voraus, dass de Zelgrösse ene kontnuerlche Varable st, dass de zufällgen Abwechungen E ener Normalvertelung folgen und von enander statstsch unabhängg snd und dass de Funkton h von ener enfachen Form st, nämlch n enem gewssen Snne lnear (sehe 3.2.w). De glechen Fragestellungen werden auch n der Varanzanalyse 1 behandelt, mt anderen Schwerpunkten bezüglch der Art der Engangsgrössen.

8 6 1 EINFÜHRUNG IN DIE STATISTISCHE REGRESSIONSRECHNUNG b Am Ende deses Blockes und n späteren Blöcken wrd deser Ansatz n velen Rchtungen erwetert: Wenn de Funkton h ncht m erwähnten Snne lnear st, kommt de nchtlneare Regresson zum Zug. c Wenn de Beobachtungen der Zelgrösse und der erklärenden Grössen n ener zetlchen Abfolge auftreten, entstehen normalerwese besondere Probleme durch entsprechende Korrelatonen. Dese Besonderheten werden n der Theore der Zetrehen behandelt. d Man kann an mehreren Zelgrössen nteressert sen. Ene enfache Art, damt umzugehen, besteht darn, für jede von hnen ene separate Regressonsrechnung durchzuführen. De multvarate Statstk zegt, we man be gemensamer Betrachtung mt multvarater Regresson und Varanzanalyse noch etwas darüber hnaus gewnnen kann. e De Annahme der Normalvertelung für de E st oft nur näherungswese erfüllt. De Methoden, de wr m Folgenden kennen lernen, snd dann ncht mehr gut geegnet. Besser fährt man mt den Methoden der robusten Regresson. f De nteresserende Zelgrösse kann ene zwewertge Varable (Ja/Nen) sen. Das führt zur logstschen Regresson. Ist de Zelvarable ene Zählgrösse, ene dskrete geordnete oder ene nomnale Varable, so snd de verallgemenerten lnearen Modelle anzuwenden, zu denen auch das gewöhnlche und das logstsche Regressonmodell gehören. g Zeten bs zum Ausfall enes Gerätes oder bs zum Entreffen enes anderen Eregnsses folgen mest anderen Vertelungen als der üblcherwese verwendeten Normalvertelung. Ausserdem werden solche Eregnsse oft ncht für alle Beobachtungsenheten abgewartet, was zu so genannt zenserten Daten führt. Es gbt auch für solche Daten geegnete Regressonsmethoden, de m Gebet der Überlebenszeten (survval oder falure tme data) behandelt werden. h In der lnearen Regresson werden nur de Abwechungen E als Zufallsvarable modellert. Manchmal kann es auch snnvoll sen, de Parameter selbst durch Zufallsgrössen zu ersetzen. Des kommt vor allem n enem weterführenden Gebet der Varanzanalyse (repeated measures und Spaltanlagen, splt plot desgns) zum Zug, wo man von zufällgen Effekten sprcht. In all desen Modellen st de Regressonsfunkton en Mtgled ener Schar von vorgegebenen Funktonen, de durch enen oder mehrere Parameter charaktersert st. Es geht dann darum, dese(n) Parameter zu bestmmen. Was wr ntutv oft wollen, st ken n solcher Wese vorgegebener Funktonstyp, sondern enfach ene glatte Funkton. Man sprcht von Glättung der Daten. We man ene solche Idee mathematsch formulert und de entsprechende Funkton schätzt, untersucht de nchtparametrsche Regresson. j In all desen Verallgemenerungen erschenen mmer weder de glechen Grunddeen, de wr nun an Hand der lnearen Regresson zunächst mt ener enzgen erklärenden Varablen, nachher mt mehreren enführen wollen. De folgenden Unterlagen für de enfache Regresson enthalten Repettons-Abschntte zu den Begrffen der Schlessenden Statstk. Se sollen den Ensteg vor allem jenen erlechtern, de ncht gerade den entsprechenden Block des Nachdplomkurses hnter sch haben.

9 2 Enfache lneare Regresson 2.1 Das Modell a Bespel Sprengungen (1.1.b). Wr untersuchen zunächst de Abhänggket der Erschütterung von der Dstanz be konstanter Ladung. Im Streudagramm Abbldung 2.1.a snd bede Achsen logarthmsch dargestellt. De logarthmerte Erschütterung hängt gemäss der Fgur ungefähr lnear von der logarthmerten Dstanz ab; enfacher gesagt, de Punkte n der Fgur streuen um ene Gerade. Erschütterung Dstanz Abbldung 2.1.a: Dstanz und Erschütterung be Sprengungen mt Ladung De Achsen snd logarthmsch dargestellt b Ene Gerade st wohl de enfachste Funkton, de ene Abhänggket ausdrücken kann. Alle Punkte [x, y ] auf ener Geraden folgen der Geradenglechung y = α + βx mt geegneten Zahlen α und β. De erste, α, st der Achsenabschntt und β msst de Stegung der Geraden. Da β als Faktor vor der Engangs-Varablen auftrtt, wrd es als (Regressons- ) Koeffzent von X bezechnet. Wenn α = 0 st, geht de Gerade durch den Nullpunkt. Verson Sept 2013, c W. Stahel

10 8 2 EINFACHE LINEARE REGRESSION c d Im Bespel schenen de logarthmerten Daten ungefähr ener Bezehung zu folgen, de sch durch ene Gerade darstellen lässt. Immer weder wrd gefragt, ob denn ene Transformaton ncht ene unerlaubte Daten-Manpulaton se. Her wrd folgende These vertreten: Daten verlangen kene Gerechtgket. Unser Zel st es, Zusammenhänge und Strukturen zu erkennen und wenn möglch zu verstehen. Dazu bauen wr Modelle auf, de determnstsche, gut nterpreterbare Zusammenhänge mt zufällgen Grössen verbnden. Es st wchtg, dass wr sorgfältg prüfen, we eng de Überenstmmung der Modelle mt den Daten st. Ob de Modelle aber für Rohdaten oder für daraus abgeletete Grössen formulert snd, st kene Frage der wssenschaftlchen Redlchket, sondern höchstens ene der enfachen Interpreterbarket. Im Bespel werden wohl wenge dagegen Enspruch erheben, dass für de grafsche Darstellung logarthmsch getelte Achsen verwendet werden. Dem entsprcht, we erwähnt, das Rechnen und Modelleren mt logarthmsch transformerten Daten und Zufallsgrössen. In velen Anwendungen gbt es fachlche Theoren, de enen lnearen Zusammenhang zwschen logarthmerten Grössen benhalten. Im Bespel st anzunehmen, dass de Erschütterung proportonal zur Ladung und umgekehrt proportonal zur quadrerten Dstanz sen sollten, also Erschütterung const Ladung/(Dstanz) 2 oder log(erschütterung) log(const) + log(ladung) 2 log(dstanz). Für de logarthmerten Grössen lässt sch also en lnearer Zusammenhang herleten. Da de Ladung her konstant gehalten wurde, müssten de Punkte [log(dstanz), log(erschütterung)] dealerwese auf ener Geraden legen. Gemäss Modell wäre de Stegung schon bekannt en seltener Fall. Wr wollen davon ausgehen, dass de logarthmerten Grössen etwa lnear zusammenhängen, aber de Stegung der Geraden zunächst ncht festlegen. e f Als nächstes werden Se wohl ene Gerade n das Streudagramm legen wollen. Das st ene Aufgabe der zusammenfassenden Beschrebung, also der Beschrebenden Statstk. De bekannteste Regel, we de zu den Daten passende Gerade zu bestmmen se, hesst Klenste Quadrate. Wr werden se bald enführen (2.2.c); das Resultat für das Bespel zegt Abbldung 2.2.a. Wenn de Daten als de Wahrhet gelten, dann st des de rchtge Gerade. Allen st aber klar, dass de Daten auch anders hätten herauskommen können dass der Zufall mtgespelt hat. Mt anderen Daten wäre auch de Gerade ncht de selbe. De erhaltene Gerade st also zufällg, ungenau. We sollen wr den Zufall, de Ungenaugket erfassen? De Antwort auf dese Frage gbt de Schlessende oder Analytsche Statstk, de auf der Wahrschenlchketsrechnung beruht. Um se zu verstehen, müssen wr zunächst ene Modellvorstellung entwckeln, de sagt, welche anderen Datensätze ebenso gut möglch gewesen wären we der n Abbldung 2.1.a festgehaltene. Wr vergessen dazu zunächst dese Daten und überlegen uns en Wahrschenlchketsmodell, das de gegebene Stuaton beschrebt. Zunächst überlegen wr, we en Wert Y der Zelgrösse aussehen wrd, der zur Engangsgrösse x gemessen wrd m Bespel, we gross wohl de logarthmerte Erschütterung st, wenn de logarthmerte Dstanz zum Sprengort x = log beträgt. Gemäss dem bsher Gesagten st des glech dem Funktonswert α + βx, bs auf ene Abwechung E, de wr jetzt als Zufallsvarable betrachten, Y = α + βx + E. Wr nehmen an, dass de Abwechungen E, = 1,..., n, ene bestmmte Vertelung haben alle de gleche und stochastsch unabhängg (nsbesondere unkorrelert) seen. Se blden also ene Zufalls-Stchprobe. Es zegt sch, dass de Annahme ener Normalvertelung zu den mathematsch enfachsten Resultaten führt. De Normalvertelung soll Erwartungswert 0 und Varanz σ 2 haben. Wr noteren das als E N 0, σ 2.

11 2.1. DAS MODELL 9 g h Das Modell wrd erst dann konkret, wenn wr de dre Zahlen α, β und σ festlegen. Dese Stuaton st n der Wahrschenlchketsrechnung und n der Statstk üblch: Es wrd en Modell zunächst nur bs auf en paar Konstante festgelegt. Dese Konstanten nennt man Parameter der Vertelung. De Normalvertelung st egentlch kene Vertelung, sondern ene Vertelungs- Famle; erst wenn Erwartungswert und Varanz festgelegt snd, entsteht daraus ene Vertelung. In velen Anwendungsgebeten wrd das Wort Parameter für ene gemessene Grösse verwendet was n der Statstk als Varable bezechnet wrd. En anderes Wort dafür st Merkmal. Wr hoffen auf Ihr Verständns für dese Sprachkonfuson. Ene Modell-Vorstellung entsteht n unseren Köpfen. Wr wollen auch glech noch de Parameter erfnden. Abbldung 2.1.h veranschaulcht das Modell der lnearen Regresson mt den Parameter-Werten α = 4, β = 2 und σ = 0.1. De Wahrschenlchketen, mt denen bestmmte Werte für de Y -Varable erwartet werden, snd mt den Wahrschenlchketsdchten dargestellt. Y Wahrschen- lchkets- dchte x Abbldung 2.1.h: Veranschaulchung des Regressonsmodells Y = 4 2x + E für dre Beobachtungen Y 1, Y 2 und Y 3 zu den x-werten x 1 = 1.6, x 2 = 1.8 und x 3 = 2 Als zwete Veranschaulchung wollen wr Zufallszahlen gemäss unserm Modell zehen und darstellen, also Beobachtungen, de dem Modell entsprechen, smuleren. Dre standard-normalvertelte Zufallszahlen, de mt σ = 0.1 multplzert werden, blden en möglches Ergebns für de dre zufällgen Abwechungen E 1, E 2 und E 3. En Zufallszahl-Generator leferte de ver Dreergruppen 0.419, 1.536, ; 0.253, 0.587, ; 1.287, 1.623, ; 0.417, 1.427, Wenn 4 2x mt x 1 = 1.6, x 2 = 1.8 und x 3 = 2 dazugezählt werden, erhält man je de entsprechenden Werte für Y 1, Y 2 und Y 3. In Abbldung 2.1. snd de so smulerten Ergebnsse dargestellt.

12 10 2 EINFACHE LINEARE REGRESSION Abbldung 2.1.: Ver smulerte Ergebnsse für dre Messungen gemäss dem Modell Y = 4 2x + E. De gestrchelten Geraden stellen den her bekannten wahren Zusammenhang y = 4 2x dar. 2.2 Schätzung der Parameter a b c Kehren wr zu konkreten Daten zurück! Abbldung 2.2.a zegt de Daten des Bespels der Sprengungen mt ener Geraden, de zu den Daten passt. Se legt de Parameter α und β des Regressonsmodells fest. Um allgemen den Daten en best-passendes Modell zuzuordnen, müssen de Parameter mt geegneten Regeln festgelegt werden. De Funktonen, de den Daten de best-passenden Werte zuordnen, hessen Schätzfunktonen oder Schätzungen. Es gbt enge allgemene Prnzpen, nach denen solche Regeln aufgestellt werden können. Das berühmteste für unseren Fall st das Prnzp der Klensten Quadrate. Darn werden de Parameter so bestmmt, dass de Summe der quadrerten Abwechungen n r 2, r = y (α + βx ) =1 mnmal wrd. Wenn de Fehler E normalvertelt snd, dann kann deses Krterum aus dem Prnzp der Maxmalen Lkelhood hergeletet werden.

13 2.2. SCHÄTZUNG DER PARAMETER 11 Erschütterung [x, y ] r Dstanz Abbldung 2.2.a: Geschätzte Gerade für das Bespel der Sprengungen De Schätzfunktonen lauten dann β = n =1 (Y Y )(x x) n =1 (x x) 2 α = Y βx. Wetere Detals snd m Anhang 2.A beschreben. Es gbt n unserem Modell enen weteren Parameter, de Varanz σ 2 der zufällgen Abwechungen. Dese Grösse muss ebenfalls aus den Daten geschätzt werden. Man braucht se allerdngs ncht, um de best-passende Gerade zu bestmmen. Wr stellen das Thema deshalb zurück (2.2.n). d* Ene best-passende Gerade würde anschaulch eher so bestmmt, dass de Abstände der Punkte von der Geraden, senkrecht zur Geraden gemessen, möglchst klen würden. Man nennt de Methode, de de Quadratsumme deser Abstände mnmert, orthogonale Regresson. Das Modell, das wr n 2.1.f formulert haben, sagt aber, der Idealpunkt [x, α + βx ] auf der Geraden werde durch de zufällgen Abwechungen E n Y -Rchtung verschoben, ncht senkrecht zur Geraden. Im Zusammenhang mt enem anderen Modell für de Wrkung des Zufalls st de orthogonale Regresson n der Tat de angebrachte Methode, vergleche 6.1.j. e Ene Schätzung st ene Funkton, de den n Beobachtungen ene Zahl und damt den n Zufallsvarablen Y 1, Y 2,..., Y n, de wr als Modell für de Daten benützen, ene Zufallsvarable zuordnet. Also snd Schätzungen selbst auch Zufallsvarable. Üblcherwese werden se mt enem Hut über dem zu schätzenden Parameter bezechnet, z. B. α, β. Zufallsvarable streuen. Des kann n Abbldung 2.2.e beobachtet werden. In deser Abbldung wurden jewels de zu den Punkten aus Abbldung 2.1. am besten passenden Geraden engezechnet. De geschätzten Geraden und damt de entsprechenden geschätzten Parameter streuen um de wahre Gerade respektve um de wahren Parameter.

14 12 2 EINFACHE LINEARE REGRESSION Abbldung 2.2.e: Ver smulerte Ergebnsse für dre Messungen mt den geschätzten (ausgezogenen) Geraden f g h Da Schätzungen Zufallsvarable snd, können wr Egenschaften von Schätzungen mt Hlfe des Wahrschenlchketsmodells studeren. Dazu vergessen wr weder für enen Moment de konkreten Daten. Wr nehmen jetzt an, wr kennen das Modell für de Beobachtungen genau, de Werte der Parameter engeschlossen. Überlegen wr uns, was en armer Forscher, der de Parameter α und β ncht kennt, als Schätzwerte erhalten könnte und welche Wahrschenlchketen dese Werte haben würden kurz, we de Vertelung der Schätzfunkton ausseht. Dese Vertelung kann mt Hlfe der Wahrschenlchketstheore bestmmt werden. Anschaulcher st es, wenn wr Modell-Expermente betrachten. Dazu werden Zufallszahlen gemäss dem Modell gezogen analog dem Bespel n Abbldung 2.2.e. Dann werden de Parameter für dese smulerten Beobachtungen geschätzt. Deses Vorgehen wrd nun m mal wederholt, und wr erhalten daraus m Schätzwerte für de Parameter α und β. In Abbldung 2.2.g snd 1000 Schätzwerte der Stegung β n enem Hstogramm zusammengefasst. We gesagt, de Vertelungen der Schätzungen lassen sch mt Hlfe der Wahrschenlchketsrechnung drekt aus den Annahmen über de Vertelung der Messfehler bestmmen. Wr haben angenommen, dass dese unabhängg und normalvertelt snd. Daraus folgt nun, dass de Klenste- Quadrate-Schätzungen α und β ebenfalls normalvertelt snd, nämlch β N β, σ (β)2 und α N α, σ (α)2,

15 2.2. SCHÄTZUNG DER PARAMETER 13 relatve Häufgket geschätzte Stegung Abbldung 2.2.g: Smulerte und theoretsche Vertelung der Schätzung β der Stegung wobe σ (β), σ (α) und de so genannte Quadratsumme SSQ (X) der x-werte defnert snd als σ (β)2 = σ 2 /SSQ (X) σ (α)2 = σ 2 ( 1 n + x2/ SSQ (X)) SSQ (X) = n (x x) 2. Für mathematsch Interesserte st de Herletung m Anhang 2.B beschreben. * De Methode der Klensten Quadrate st zwar de bekannteste Schätzmethode für de Parameter, aber ncht de enzge. Man könnte auch den Punkt mt dem klensten und den mt dem grössten x-wert mtenander verbnden und erhelte auch ene Gerade mest gar ncht ene allzu schlechte. Es würde wohl kaum jemand dese Regel, ene Gerade an Daten anzupassen, ernsthaft zum allgemenen Gebrauch empfehlen. Weso ncht? Dese Frage kann solde beantwortet werden, wenn man de Vertelung von verschedenen Schätzfunktonen für den glechen Parameter mtenander verglecht. j* De oben genannten Ergebnsse sagen unter anderem, dass der Erwartungswert der Schätzung β der Stegung glech dem wahren Wert der Stegung β se, und Analoges glt für den Achsenabschntt. Man nennt dese Egenschaft Erwartungstreue. Das st scher ene nützlche Egenschaft: Wenn de Schätzung schon notwendgerwese streuen muss, dann hoffentlch wengstens um den Wert, den se schätzen sollte. =1 (Wenn des für ene Schätzung ncht glt, so sprcht man von enem Bas, defnert als Dfferenz zwschen dem Erwartungswert der Schätzung θ und dem vorgegebenen Parameterwert θ.) k* Ene Schätzung streut, we gesagt, notwendgerwese. Es st natürlch anzustreben, dass se möglchst weng streut. Das kann man mt der Varanz der Schätzung messen für β haben wr var β = σ 2 /SSQ (X) angegeben. (Wenn ene Schätzung θ ncht erwartungstreu st, st der Mttlere Quadratsche Fehler, englsch mean squared error, MSE = E ( θ θ) 2 en geegneteres Mass.) Je grösser de Varanz (oder der MSE), desto schlechter de Schätzung. Um zwe Schätzungen zu verglechen, wählt man das umgekehrte Verhältns der Varanzen und defnert es als de relatve Effzenz der Schätzungen. De (absolute) Effzenz ener Schätzung st hre relatve Effzenz verglchen mt der besten Schätzung, also mt jener mt der klensten Varanz. Es zegt sch, dass de Klensten Quadrate unter den her gemachten Voraussetzungen zu solchen besten Schätzungen führen. l* Weso denn so vele Begrffe? Wenn doch de besten Schätzungen so enfach zu bestmmen snd, kann man doch alle anderen soweso vergessen! Das werden wr auch zemlch lange tun. Später werden wr uns daran ernnern, dass all dese Theore auf der Annahme beruht, dass de Zufallsfehler normalvertelt seen. Wenn des ncht stmmt, dann snd de genannten Schätzungen ncht mehr de besten so genannte robuste Schätzungen snd dann besser. Vorläufg aber glt:

16 14 2 EINFACHE LINEARE REGRESSION m n De Klenste-Quadrate-Schätzungen α und β snd erwartungstreu und normalvertelt mt den oben angegebenen Varanzen und de besten Schätzungen, sofern de Zufallsfehler unabhängg snd und alle de gleche Normalvertelung N 0, σ 2 haben. Bs jetzt haben wr uns ausschlesslch mt den beden Parametern, welche de Gerade bestmmen, beschäftgt. Nun kümmern wr uns noch um den Parameter σ 2 = var E, der de Varanz der Fehlervertelung festlegt. De zufällgen Fehler E können weder drekt beobachtet noch aus E = Y (α + βx ) hergeletet werden, da α und β unbekannt snd; sonst könnte man deren emprsche Varanz berechnen. Bekannt snd wengstens, als Näherungswerte für de E, de so genannten Resduen R = Y ( α + βx ), de Dfferenzen zwschen den Beobachtungen Y und den angepassten Werten ŷ = α + βx 1 (englsch ftted values). Deren emprsche Varanz st n n 1 =1 (R R) 2. Der Nenner n 1 n der Defnton der emprschen Varanz wurde engeführt, um se m Falle ener enfachen Stchprobe erwartungstreu zu machen. Rechnungen zegen, dass wr m vorlegenden Fall der enfachen Regresson durch n 2 telen müssen, um des zu errechen. Da mmer R = 0 glt, st σ 2 = 1 n 2 n =1 de gebräuchlche, erwartungstreue Schätzung von σ 2. o* En Velfaches der geschätzten Varanz, (n 2) σ 2 /σ 2, st ch-quadrat-vertelt mt n 2 Frehetsgraden und unabhängg von α und β. Auf ene Herletung wollen wr verzchten. R Tests und Vertrauensntervalle a Im letzten Abschntt haben wr uns damt beschäftgt, we man de Parameter des Modells aus den Daten bestmmen kann. Ene nahe legende Frage kann nun sen, ob de Daten mt enem Modell mt (telwese) vorgegebenen Parametern verträglch st m Bespel, ob de Stegung der Geraden wrklch glech 2 sen kann (vergleche 2.1.d). Obwohl de geschätzte Stegung β = 1.92 st, könnte des zutreffen, da ja de Schätzung ene Zufallsvarable st und demnach vom wahren Wert β = 2 abwechen wrd. Wr können also ncht zwngend schlessen, dass de beobachteten Werte dem vorgegebenen Modell wdersprechen. De Frage st, ob der geschätzte Wert β = 1.92 bloss auf Grund des Zufalls vom postulerten Wert β 0 = 2 verscheden st, oder ob de Abwechung so gross st, dass wr das Modell mt β 0 = 2 als ncht zutreffend ablehnen müssen. Dese Frage wrd mt enem statstschen Test beantwortet. Allgemener kann man fragen, welche Parameterwerte auf Grund der Daten als plausbel erschenen. Dese Frage führt auf de so genannten Vertrauensntervalle. Her geben wr stchwortartg das Vorgehen zur Beantwortung deser Fragen an.

17 2.3. TESTS UND VERTRAUENSINTERVALLE 15 b Der statstsche Test soll de Nullhypothese H 0 : β = β 0 = 2 prüfen. De vollständge Nullhypothese lautet: De Beobachtungen folgen dem Modell der enfachen lnearen Regresson mt β = 2 und belebgem α und σ. Als Alternatve H A zeht man n Betracht, dass β 2 se, während de anderen Annahmen (Fehlervertelung, Unabhänggket) der Nullhypothese weterhn gelten. De Alternatve β 2 umfasst also de Modelle mt allen Parameterwerten ausser dem Wert β 0, der durch de Nullhypothese festgelegt st; es snd de Parameterwerte auf beden Seten des Wertes β 0 durch de Alternatve abgedeckt. Dese hesst daher zwesetge Alternatve. In gewssen Anwendungen st man bloss an Alternatven auf ener Sete nteressert bespelswese, wenn Abwechungen auf de ene Sete soweso ncht auftreten können. Dann zeht man nur de entsprechende ensetge Alternatve her β > 2 (oder β < 2) n Betracht. Als Nullhypothese prüft man dann ncht nur den Grenzfall, sondern auch de andere Sete her β 2 (oder β 2). Als Teststatstk egnet sch (we üblch) ene standardserte Form der Dfferenz zwschen Schätzung und postulertem Wert des Parameters, T = β β 0 se (β), se (β) = σ 2 /SSQ (X). De Grösse se (β) entsprcht σ (β) von 2.2.h; da der Parameter σ n jener Formel ncht als bekannt angenommen werden kann, wrd er durch sene Schätzung σ ersetzt. se (β) (manchmal auch σ (β) ) wrd Standardfehler genannt. De Teststatstk T hat, falls das Modell der Nullhypothese glt, ene so genannte t-vertelung mt n 2 Frehetsgraden. Des st der t-test für den Koeffzenten β. c P-Wert. Der P-Wert st en standardsertes Mass dafür, we typsch en Wert der Teststatstk st oder we gut de Daten mt dem Modell der Nullhypothese überenstmmen. Man braucht dazu de kumulatve Vertelungsfunkton F (T ) der Teststatstk, de der Nullhypothese entsprcht. Abbldung 2.3.c veranschaulcht de Rechnung für den Fall enes zwesetgen Tests. (Der Anschaulchket halber wurde β als Teststatstk verwendet. Das wäre snnvoll, wenn man σ kennen würde.) Der P-Wert st, anschaulch gesprochen, de Fläche unter der Dchtekurve für den Berech von Werten der Teststatstk, de extremer snd als der beobachtete Wert. Er msst also de Wahrschenlchket, extremere Werte der Teststatstk als den beobachteten zu erhalten, falls de Nullhypothese stmmt. (Im Falle von dskreten Teststatstken muss extremer durch mndestens so extrem ersetzt werden.) Wenn er klen genug st, dann sagt man, de Daten wechen sgnfkant von der Nullhypothese ab, oder, falls β 0 = 0 getestet wrd, der Enfluss der Engangsgrösse auf de Zelgrösse st statstsch geschert oder Ähnlches. Klen genug hesst nach üblcher Konventon klener als De gewählte Grenze von 0.05=5% wrd Nveau des Tests genannt. Se st glech der Wahrschenlchket enes Fehlers erster Art, der darn besteht, de Nullhypothese zu verwerfen, falls se glt. Falls Se desen Begrff noch ncht kennen, st wohl ene Erklärung nützlch: Wahrschenlchketen gbt es nur unter der Annahme enes bestmmten Modells für de Beobachtungen. Wr setzen dafür de Annahmen der Nullhypothese en und berechnen dann de Wahrschenlchket, dass de Test-Entschedung sgnfkante Abwechung von der Nullhypothese lautet, was unter der gemachten Annahme ene Fehlentschedung st. Das st der Fall, wenn der P-Wert unter 5%

18 16 2 EINFACHE LINEARE REGRESSION P v. P value β t c Verwerfungsberech Abbldung 2.3.c: Veranschaulchung des P-Wertes und des Verwerfungsbereches für enen zwesetgen Test. De obere Kurve stellt de kumulatve Vertelungsfunkton, de untere de Dchte der Vertelung der Teststatstk dar. legt. De Grösse P-Wert st gerade so konstruert, dass für de Entschedungsregel sgnfkant falls P-Wert 0.05 de obge Wahrschenlchket 5% beträgt. Gleches glt natürlch auch für andere Nveaus; der P-Wert erlaubt es, für belebge Nveaus de Entschedung über sgnfkante Abwechung von der Nullhypothese sofort abzulesen. (Genaueres zum Thema sehe Stahel, 2000, Kap. 8.7). d e Statt ener Schranke für den P-Wert kann man ene entsprechenden Schranke c für de Teststatstk angeben. Das erspart de Umrechnung der Teststatstk n den P-Wert und war deshalb früher üblch. De Schranke erhält man aus Tabellen. Für de t-vertelung we für de F-Vertelung, de wr später noch antreffen werden, snd solche Tabellen verbretet und entsprechende Funktonen snd n Computer-Umgebungen verfügbar. Der P-Wert, der von Statstk-Programmen ebenfalls angegeben wrd, kann aber, we gesagt, ohne Tabellen beurtelt werden und st deshalb handlcher. Enen Computer-Output für das Bespel der Sprengungen zegt Tabelle 2.3.e. Für den Test der Nullhypothese β = 0 (und für α = 0) snd der Wert der Teststatstk T = T (β) (und de analog gebldete Teststatstk T (α) ) und der zugehörge P-Wert angegeben. De Teststatstken snd unter der Nullhypothese t-vertelt; wr prüfen also de Stegung und den Achsenabschntt mt enem t-test.

19 2.3. TESTS UND VERTRAUENSINTERVALLE 17 Regresson Analyss - Lnear model: Y = a+bx Dependent varable: log10(ersch) Independent varable: log10(dst) Standard T (P- Prob. Parameter Estmate Error Value Wert) Level Intercept α = se (α) = T (α) = Slope β = se (β) = T (β) = R-squared = = r 2 XY Std.dev. of Error = σ = on n 2 = 11 degrees of freedom F-statstc: on 1 and 11 degrees of freedom, the p-value s 3.448e-07 Tabelle 2.3.e: Computer-Output für das Bespel der Sprengungen f Für de Nullhypothese β = β 0 = 2 erhält man T = ( β β 0 )/ se (β) = ( 1.92 ( 2))/ = De krtsche Grenze c für de t-vertelung mt 11 Frehetsgraden st gemäss ener Tabelle Also st de Abwechung be wetem ncht sgnfkant. Das kann man auch feststellen, wenn man den Rechner den P-Wert bestmmen lässt. Er beträgt 0.676, st also vel höher als g Nun zur Frage, welche Parameterwerte auf Grund der Daten plausbel erschenen. Das Vertrauensntervall umfasst alle Parameterwerte, de auf Grund enes bestmmten statstschen Tests ncht abgelehnt werden. Jedes Vertrauensntervall entsprcht also ener bestmmten Test-Regel. Für de Stegung n der enfachen lnearen Regresson ergbt sch das Intervall wobe q = q t n β q se (β) β β + q se (β) das Quantl der genannten t-vertelung st. Man schrebt des oft als / β ± q se (β), se (β) = σ SSQ (X). h Im Output (Tabelle 2.3.e) fndet man de nötgen Angaben für das Vertrauensntervall von β : Man erhält ± = ± , also das Intervall von 2.32 bs (Gute Programme lefern das Vertrauensntervall drekt.) Der Wert 2 legt klar n desem Intervall, was nochmals zegt, dass das Modell mt Stegung 2 sehr gut mt den Daten verträglch st. Damt haben wr de dre Grundfragen der parametrschen Statstk behandelt: 1. Welcher Wert st für den (respektve jeden) Parameter am plausbelsten? De Antwort wrd durch ene Schätzung gegeben. 2. Ist en bestmmter Wert plausbel? De Entschedung trfft man mt enem Test. 3. Welche Werte snd nsgesamt plausbel? Als Antwort erhält man ene ganze Menge plausbler Werte, de mestens en Intervall blden das Vertrauensntervall oder Konfdenzntervall.

20 18 2 EINFACHE LINEARE REGRESSION 2.4 Vertrauens- und Vorhersage-Bereche a b Im Bespel der Sprengungen kann man fragen, we gross de Erschütterung sen wrd, wenn de Dstanz zur Sprengstelle 50m beträgt. Zunächst fragen wr nach dem Erwartungswert der Erschütterung be 50m Dstanz. Allgemen nteressert man sch oft für den Funktonswert h x 0 an ener bestmmten Stelle x 0. Kann man dafür en Vertrauensntervall erhalten? Laut Modell st h x 0 = α + βx 0. Wr wollen de Hypothese h x 0 = η 0 ( eta ) testen. Üblcherwese legt ene Hypothese enen bestmmten Wert für enen Parameter des Modells fest. Das Rezept lässt sch aber ohne weteres auf ene aus den ursprünglchen Parametern abgeletete Grösse übertragen, we es η = α + βx st. Als Testgrösse für de genannte Hypothese verwenden wr we üblch de Schätzung η = α + βx 0. Erwartungswert und Varanz von η snd ncht schwerg zu bestmmen. * Es st E η = E α + E β x 0 = α + βx 0 = η 0. Um de Varanz zu bestmmen, schreben wr η = γ + β(x 0 x) mt γ = α + βx = Y und erhalten, da cov Y, β = 0 st, var η = var γ + var β (x 0 x) 2 = σ2 n + σ2 (x 0 x) 2 ( 1 = σ 2 SSQ (X) n + (x 0 x) 2 ). SSQ (X) Wenn, we üblch, σ 2 unbekannt st, bldet man de Testgrösse 1 T = η η 0 se (η), se (η) = σ n + (x 0 x) 2 SSQ (X), de unter der Nullhypothese ene t-vertelung mt n 2 Frehetsgraden hat. Das Vertrauensntervall für η = h x 0 wrd dann wobe q = q t n ( α + βx 0 ) ± q se (η), weder das Quantl der t-vertelung mt n 2 Frehetsgraden st. c Der Ausdruck für das Vertrauensntervall glt für belebges x 0, und es st nahe legend, de Grenzen des Intervalls als Funktonen von x 0 aufzuzechnen (Abbldung 2.4.c, nnere Kurven). Das ergbt en Band, das für x 0 = x am schmalsten st und gegen bede Seten langsam breter wrd. In der Mtte des Bandes legt de geschätzte Gerade (ftted lne) α + βx. Aus desem Bld lässt sch für enen belebgen x-wert x 0 das Vertrauensntervall für den Funktonswert h x 0 ablesen.

21 2.4. VERTRAUENS- UND VORHERSAGE-BEREICHE 19 Erschuetterung Vorhersageband Vertrauensband Dstanz Abbldung 2.4.c: Vertrauensband für den Funktonswert h x und Vorhersage-Band für ene wetere Beobachtung m Bespel der Sprengungen d Das betrachtete Vertrauensband gbt an, wo de dealen Funktonswerte h x, also de Erwartungswerte von Y be gegebenen x, legen. De Frage, n welchem Berech ene künftge Beobachtung zu legen kommen, st damt ncht beantwortet. Se st aber oft nteressanter als de Frage nach dem dealen Funktonswert; man möchte bespelswese wssen, n welchem Berech der zu messende Wert der Erschütterung be 50m Dstanz legen wrd. Deser muss schlesslch unter dem festgelegten Grenzwert bleben! Ene solche Angabe st ene Aussage über ene Zufallsvarable und st prnzpell zu unterscheden von enem Vertrauensntervall, das über enen Parameter, also ene feste, aber unbekannte Zahl, etwas aussagt. Entsprechend der Fragestellung nennen wr den jetzt gesuchten Berech Vorhersage-Intervall oder Prognose-Intervall. Es st klar, dass deses Intervall breter st als das Vertrauensntervall für den Erwartungswert, da ja noch de Zufallsabwechung der zukünftgen Beobachtung berückschtgt werden muss. Das Ergebns st n Abbldung 2.4.c auch engezechnet. e* Herletung: De Zufallsvarable Y 0 se also der Wert der Zelgrösse be ener Beobachtung mt Engangsgrösse x 0. Da wr de wahre Gerade ncht kennen, blebt uns nchts anderes übrg, als de Abwechung der Beobachtung von der geschätzten Geraden zu untersuchen, R 0 = Y 0 ( α + βx 0 ) = ( Y 0 (α + βx 0 ) ) ( ( α + βx 0 ) (α + βx 0 ) ). Auch wenn α und β unbekannt snd, kennen wr de Vertelungen der Ausdrücke n den grossen Klammern: Bedes snd normalvertelte Zufallsvarable, und se snd unabhängg, wel de erste nur von der zukünftgen Beobachtung Y 0, de zwete nur von den Beobachtungen Y 1,..., Y n abhängt, de zur ge-

22 20 2 EINFACHE LINEARE REGRESSION schätzten Geraden führten. Bede haben Erwartungswert 0; de Varanzen adderen sch zu ( 1 var R 0 = σ 2 + σ 2 n + (x 0 x) 2 ) = σ ( n + (x 0 x) 2 ). SSQ (X) SSQ (X) Daraus ergbt sch das Vorhersage-Intervall α + βx 0 ± q σ n + (x 0 x) 2 /SSQ (X) = α + βx 0 ± q σ 2 + (se (η) ) 2, wobe weder q = q tn bedeutet. (Der zwete Ausdruck glt auch für de multple Regresson.) f De Interpretaton deses Vorhersage-Bandes st ncht ganz enfach: Es glt nach der Herletung, dass P V0 x 0 Y 0 V1 x 0 = 0.95 st, wobe V0 x 0 de untere und V1 x 0 de obere Grenze des Vorhersage-Intervalls st. Wenn wr aber ene Aussage für mehr als ene zukünftge Beobachtung machen wollen, dann st de Anzahl der Beobachtungen m Vorhersage-Band ncht etwa bnomalvertelt mt π = De Eregnsse, dass de enzelnen zukünftgen Beobachtungen ns Band fallen, snd nämlch ncht unabhängg; se hängen über de zufällgen Grenzen V0 und V 1 vonenander ab. Wenn bespelswese de Schätzung σ zufällgerwese merklch zu klen herauskam, blebt für alle zukünftgen Beobachtungen das Band zu schmal, und es werden zu vele Beobachtungen ausserhalb des Bandes legen. Um scher zu gehen, dass mndestens 95% aller zukünftgen Beobachtungen m Intervall legen, muss deses nochmals vergrössert werden. Genaueres st unter dem Stchwort Toleranz- Intervall bespelswese n Hartung, Elpelt und Klösener (2002, IV.1.3.3) nachzulesen. g* Der Vollständgket halber se noch en weteres Band mt der glechen, hyperbolschen Form erwähnt, das n der enfachen Regresson manchmal angegeben wrd. Man kann zunächst enen Test für ene gemensame Hypothese über α und β, H 0 : α = α 0 und β = β 0, angeben und daraus enen Vertrauensberech für das Wertepaar [α, β] erhalten. Es ergbt sch ene Ellpse n der [α, β]-ebene. Jedem Punkt n deser Ellpse entsprcht ene Gerade n der [x, y]-ebene. Wenn man sch alle plausblen Geraden engezechnet denkt, verlaufen se n enem Band mt hyperbolschen Begrenzungslnen, den so genannten Enveloppen der plausblen Geraden (m Snne enes Vertrauensberechs). 2.A Klenste Quadrate a Ene klare Begründung für de Forderung nach Klensten Quadraten lefert das Prnzp der Maxmalen Lkelhood. Wr nehmen ja E N (0, σ 2 ) an. Daraus folgt, dass de Wahrschenlchketsdchte für ene enzelne Beobachtung, wenn [α, β ] de wahren Parameter snd, glech ( y (α + β x ) ) 2 r α, β 2 f y = c exp 2σ 2 = c exp 2σ 2 st; dabe st r α, β = y (α + β x ), analog zu 2.2.n, und c st ene Konstante, de wr ncht genau aufzuschreben brauchen. De gemensame Dchte für alle Beobachtungen st das Produkt all deser Ausdrücke, für = 1, 2,..., n. Das Prnzp der Maxmalen Lkelhood besteht darn, de Parameter so zu wählen, dass dese Dchte möglchst gross wrd. De Rechnungen werden enfacher, wenn man logarthmert. Das ergbt n =1 ( log c r α, β 2 /(2σ 2 ) ) = n log c 1 2σ 2 n =1 r2 α, β. De Parameter, de de Dchte maxmeren, tun des auch für de logarthmerte Dchte. Da n log c und σ 2 ncht von α oder β abhängen, kann man se zur Maxmerung weglassen. Maxmerung von r2 α, β bedeutet de Suche nach Klensten Quadraten.

23 2.B. VERTEILUNG DER GESCHÄTZTEN PARAMETER 21 b Lässt man Konstante, de ncht von α und β abhängen, weg, dann muss man also n =1 (y (α + βx )) 2 als Funkton von α und β mnmeren. Wr leten also ab α β n =1 (y (α + βx )) 2 = n =1 2(y (α + βx ))( 1) n =1 (y (α + βx )) 2 = n =1 2(y (α + βx ))( x ) und setzen de Abletung null; wr erhalten Das kann man umformen zu n α = n =1 y β n =1 x β n =1 x2 = n =1 y x α n =1 x β n =1 x2 = n =1 y x y n =1 x + βx n =1 x α = y βx β n =1 x (x x) = n =1 (y y)x n =1 β = (y y)x n =1 x (x x) Der Ausdruck für β kann nochmals umgeformt werden: Da n =1 (x x) = 0 und n =1 (y y) = 0 glt, können wr vom Zähler n =1 (y y) x = 0 und vom Nenner n =1 (x x) x = 0 abzählen. Dann erhalten wr den üblchen Ausdruck β = n =1 (y y)(x x) n =1 (x x) 2 für de geschätzte Stegung. So wet de Herletung der Klenste-Quadrate-Schätzungen von α und β. 2.B Vertelung der geschätzten Parameter a In enem ersten Schrtt wollen wr den Erwartungswert der Schätzung β bestmmen. Zur Abkürzung schreben wr für de so genannte Quadratsumme der x-werte SSQ (X) = n =1 (x x) 2 und x = (x x)/ssq (X). Es glt x = 0 und deshalb β = n =1 x (Y Y ) = n =1 x Y Y n =1 x = n =1 x Y. Mt Hlfe der allgemenen Regeln E a + bx = a + b E X und E X + Y = E X + E Y ergbt sch E β = n =1 x E Y = n =1 x (α + βx ) = α n =1 x + β n =1 x x. Wegen n =1 x = 0 fällt der erste Term weg, und n =1 x x = n =1 x (x x) = n =1 (x x) 2/ SSQ (X) = 1. Daraus folgt de Erwartungstreue von β, E β = β.

24 22 2 EINFACHE LINEARE REGRESSION b De Varanz von β ergbt sch ebenfalls aus den entsprechenden allgemenen Regeln für de lneare Transformaton, var a+bx = b 2 var X, und für de Summe von unabhänggen Zufallsvarablen, var X + Y = var X + var Y, var β = var n =1 x Y = n =1 x2 var Y = σ 2 n =1 (x x) 2 / ( SSQ (X)) 2 = σ 2 /SSQ (X). Nun snd Erwartungswert und Varanz von β bekannt. Wr können auch genauer nach der Vertelung von β fragen. Da β = x Y ene Summe von Velfachen (ene Lnearkombnaton) von normalvertelten Zufallsvarablen Y st, st es selbst normalvertelt. Gesamthaft ergbt sch also β N β, σ 2 /SSQ (X). c Der Parameter α st mestens wenger von Interesse. Um sene Vertelung herzuleten, verwenden wr enen Trck, der auch später nützlch sen wrd: Wr schreben das Regressonsmodell etwas anders, Y = γ + β(x x) + E = (γ βx) + βx + E. Dese Schrebwese ändert das Modell ncht es besteht mmer noch aus ener allgemenen Geradenglechung und enem Fehlerterm nur de Parametrserung st jetzt anders. Aus [γ, β] lässt sch das frühere Parameterpaar sofort ausrechnen: Der Verglech der letzten Glechung mt dem ursprünglchen Modell zegt γ = α + βx; β st als Parameter bebehalten worden. Ebenso hängen natürlch de Schätzungen zusammen, de zwete Glechhet erhält man aus 2.2.c. γ = α + β x = Y ; d De Vertelung von γ st enfach zu bestmmen. Es st ene Normalvertelung mt E γ = 1 n =1 n E Y = γ + β 1 n =1 n (x x) = γ, 1 var γ = var n =1 n Y = 1n n=1 2 var Y = σ2 n, da var Y = var α + βx + E = var E st. Also st γ N γ, σ 2 /n. e We seht de gemensame Vertelung von γ und β aus? Man kann zegen, dass cov γ, β = 0 st. Zum Bewes formen wr zunächst β und γ um. Ausgehend von 2.B.0.a wrd β = n =1 x Y = α n =1 x + β n =1 x x + n =1 x E = α 0 + β 1 + n γ = Y = γ + 1 n β n =1 (x x) + n 1 n =1 E = γ + n 1 n =1 E. =1 x E Daraus ergbt sch cov β, γ ( n )( ) = E ( β β)( γ γ) = E =1 x 1 n E n =1 E = 1 ( n n =1 x E E 2 + n =1 x ) E E E j, j und des st = 0, da n =1 x = 0 und E E E j = 0 für j.

25 2.S. S-FUNKTIONEN 23 f Jetzt st auch de Vertelung von α = γ β x enfach zu bestmmen: Es st de Normalvertelung mt E α = E γ x E β = γ xβ = α und var α = var ( γ βx) = var γ 2x cov γ, β + x 2 var β = σ 2 ( 1 n + x2/ SSQ (X)). De Parameter α und β snd m Allgemenen korrelert: Es glt cov α, β = cov γ x β, β = cov γ, β x cov β, β = x var β. 2.S S-Funktonen a Am Ende jedes Kaptels wrd en solcher Anhang stehen, n dem de nützlchen S-Funktonen beschreben snd. Sofern nchts anderes steht, snd de Angaben für de free Software R und das kommerzelle Produkt S-Plus gültg. (Letzteres st aber zurzet ncht durchgehend überprüft.) b Funkton lm. In S st lm de grundlegende Funkton zur Anpassung von lnearen Regressonsmodellen. Se erzeugt als Resultat en Objekt der Klasse lm, für de de zentralen generschen Funktonen spezelle Methoden kennen. > r.lm < lm(log10(ersch) log10(dst), data = d.spreng) c Modell-Formeln. Das erste Argument st ene Modell-Formel. Solche Formeln enthalten Namen von Varablen, allenfalls (we m Bespel) Funktonsnamen und mmer das Zechen, das de Zelgrösse auf der lnken Sete mt der oder den X -Varablen (Regressoren) auf der rechten Sete verbndet. De Varablen müssen entweder m data.frame enthalten sen, der als Argument data= angegeben wrd (sehe unten) oder se müssen als Objekte vorhanden sen. De Modell-Formeln werden m nächsten Abschntt (3.S.0.a) m allgemeneren Zusammenhang behandelt. d Argument data. De Varablen, de n der Modell-Formel benützt werden, werden m data.frame gesucht, das als Argument data angegeben wrd. Falls das Argument fehlt oder Varable ncht gefunden werden, werden se m global envronment gesucht also da, wo Se Ihre Objekte spechern. S ermöglcht auch, de Varablen enes data.frames über de Funkton attach generell verfügbar zu machen, und dann muss das Argument data ncht gesetzt werden. Deses Vorgehen wrd aber ncht empfohlen (da Änderungen an den Varablen dann ncht n der erhofften Art wrksam werden). e Fehlende Werte. De enfachste Art, Datensätze mt fehlenden Werten zu behandeln, besteht darn, de entsprechenden ganzen Beobachtungen wegzulassen, und das wrd mt dem Argument na.acton n der Form lm(..., na.acton=na.omt,...) errecht. Wenn vele Werte fehlen, kann das dazu führen dass sehr wenge oder kene Beobachtungen übrg bleben. Methoden, de n solchen Fällen weter helfen, snd anspruchsvoll. f Argument subset. Mt dem Argument subset kann man de Analyse auf enen Tel des Datensatzes beschränken. g Funkton summary. De genersche Funkton summary zegt generell de nützlchen Informatonen aus enem Objekt. Wendet man se auf das Resultat enes lm-aufrufs an (also auf en Objekt der Klasse lm), dann erhält man m Wesentlchen den n 2.3.e gezegten Output (allerdngs mt ener Bezechnung von σ als Resdual standard error, de der Autor ncht versteht; en korrekter Ausdruck wäre estmated error standard devaton ).

26 24 2 EINFACHE LINEARE REGRESSION h Funkton predct. Vorhersagewerte für gegebene Engangsgrössen lefert de Funkton predct, wenn gewünscht auch mt Vertrauens- und Vorhersage-Intervallen. Wll man nur de Vorhersagewerte für de x-varablen des vorlegenden Datensatzes, dann genügt ftted. Wenn Vorhersagewerte und Intervalle für neue Werte der Engangsgrössen berechnet werden sollen, müssen dese n Form enes data.frames vorlegen auch wenn es nur um ene Varable geht, > t.pred < predct(t.r, newdata=data.frame(x=seq(5,15,0.1)), nterval="predcton")

27 3 Multple lneare Regresson 3.1 Modell und Statstk a De Abhänggket ener Zelgrösse von ener Engangsgrösse kann n enem enfachen Streudagramm dargestellt werden. Oft wrd dadurch das Wesentlche des Zusammenhangs sofort schtbar. De ganze Methodk der enfachen Regresson wrd dann nur noch zur Erfassung der Genaugket von Schätzungen und Vorhersagen gebraucht n Grenzfällen auch zur Beurtelung, ob der Enfluss von X auf Y sgnfkant se. Wenn der Zusammenhang zwschen ener Zelgrösse und mehreren Ausgangsgrössen X (1), X (2),..., X (m) erfasst werden soll, rechen grafsche Mttel ncht mehr aus. Das Modell der Regresson lässt sch aber ohne Weteres verallgemenern zu Y = h x (1), x (2),..., x (m) + E. Über de zufällgen Fehler E macht man de glechen Annahmen we früher. Für h st de enfachste Form weder de lneare, h x (1), x (2),..., x (m) = β 0 + β 1 x (1) + β 2 x (2) β m x (m). Se führt zum Modell der multplen lnearen Regresson. De Parameter snd de so genannten Koeffzenten β 0, β 1,..., β m der Engangs-Varablen und de Varanz σ 2 der zufällgen Abwechungen E. De Koeffzenten β 1, β 2,..., β m snd de Stegungen n Rchtung der x- Achsen. Den Achsenabschntt (für de Y -Achse) bezechnen wr mt β 0 statt mt α we n der enfachen Regresson; das wrd später de Notaton verenfachen. b Im Bespel der Sprengungen wurde ncht nur n unterschedlcher Dstanz vom Messort gesprengt, sondern es wurden auch verschedene Ladungen verwendet (sehe Abbldung 1.1.b). Das multple lneare Regressonsmodell mt m = 2 Engangs-Varablen lautet Y = β 0 + β 1 x (1) + β 2 x (2) + E. Weder st ene lneare Bezehung ncht für de ursprünglchen Varablen, sondern wenn schon für de logarthmerten Werte plausbel. Wr verwenden also Y = log 10 Erschütterung, X (1) = log 10 Dstanz und X (2) = log 10 Ladung. Ene Formulerung des Modells, de der Programmengabe näher steht, lautet log10(ersch) = β 0 + β 1 log10(dst) + β 2 log10(ladung) + E. Verson Sept 2013, c W. Stahel

28 26 3 MULTIPLE LINEARE REGRESSION c d De üblche Schätzung der Koeffzenten β j erfolgt we n der enfachen Regresson über de Methode der Klensten Quadrate. Ihre Vertelung st mt Hlfe von Lnearer Algebra ncht schwerg zu bestmmen(anhänge 3.4 und 3.5), und darauf werden weder Tests und Vertrauensntervalle aufgebaut. Auch de Streuung σ 2 wrd auf de gleche Wese we vorher behandelt (sehe 2.2.n). Her wollen wr sofort de Interpretaton der Ergebnsse dskuteren. Ene Computer-Ausgabe für das Bespel der Sprengungen zegt Tabelle 3.1.d. (Es wurden zunächst von den sechs Messorten nur de ersten ver berückschtgt, de gut zuenander passen.) De Tabelle enthält de Schätzungen der Koeffzenten n der Kolonne Value, de geschätzte Standardabwechung des Fehlers und de nötgen Angaben für Tests, auf de wr glech zurückkommen. Coeffcents: Value Std. Error t value Pr(> t ) (Intercept) *** log10(dst) *** log10(ladung) * St.dev. of Error = on 45 degrees of freedom Multple R-Squared: F-statstc: on 2 and 45 degrees of freedom p-value 1.11e-16 Tabelle 3.1.d: Computer-Output für das Bespel der Sprengungen e Bevor wr P-Werte nterpreteren können, sollten wr überlegen, welche Fragen zu stellen snd. In den Bespelen könnten wr fragen (wenn es ncht so endeutg wäre), ob de Dstanz und de Ladung de Erschütterung, respektve de Basztät das Wachstum, überhaupt beenflussen. Allgemener: Beenflusst de Gesamthet der Engangsgrössen de Zelgrösse? De Nullhypothese lautet: Alle β j (ausser β 0 ) snd = 0. Den entsprechenden Test fndet man n den beden letzten Zelen der Tabelle 3.1.d. Es wrd ene Testgrösse gebldet, de ene F-Vertelung hat; man sprcht vom F-Test. Be ener enzgen Engangsgrösse st de Frage, ob se enen Enfluss auf de Zelgrösse hat, mt dem Test der Nullhypothese β = 0 zu prüfen. Der F-Test, der n Tabelle 2.3.e auch aufgeführt wrd, gbt n desem Fall mmer de gleche Antwort st äquvalent zum t-test, der dort besprochen wurde. f* De Testgrösse st T = ( SSQ (R) /m )/( SSQ (E) /(n p) ). Dabe st de Quadratsumme der Regresson SSQ (R) = SSQ (Y ) SSQ (E) de Dfferenz zwschen der Quadratsumme der Zelgrösse oder totalen Quadratsumme SSQ (Y ) = n =1 (Y Y ) 2 und der Quadratsumme der Fehler SSQ (E) = n =1 R2. Ferner st p = m + 1 de Zahl der Koeffzenten. Falls ken Achsenabschntt β 0 m Modell erschent, st p = m und SSQ (Y ) = n. De Frehetsgrade der F-Vertelung snd m und n p. g =1 Y 2 Etlche Programme lefern auch ene so genannte Varanzanalyse-Tabelle. Tabelle 3.1.g zegt entsprechend ausführlchere Angaben für das Bespel der basschen Böden (1.1.). In deser Tabelle wrd der genannte F-Test n der Zele Regresson ausgewesen; der P-Wert n deser Zele gbt Auskunft über de Sgnfkanz.

29 3.1. MODELL UND STATISTIK 27 Coeffcents: Value Std. Error t value Pr(> t ) (Intercept) ph lsar Resdual standard error: σ = on n p = 120 degrees of freedom Multple R-Squared: R 2 = Analyss of varance Df Sum of Sq Mean Sq F Value Pr(F) Regresson m = 2 SSQ (R) = T = Resduals n p = 120 SSQ (E) = σ 2 = P-Wert Total 122 SSQ (Y ) = Tabelle 3.1.g: Computer-Output für das Bespel der basschen Böden mt Varanzanalyse-Tabelle und der m folgenden verwendeten Notaton h De Grösse Multple R-Squared st das Quadrat der so genannten multplen Korrelaton, der Korrelaton zwschen den Beobachtungen Y und den angepassten Werten (ftted values) ŷ = β 0 + β 1 x (1) + β 2 x (2) β m x (m). Man kann zegen, dass de nach Klensten Quadraten geschätzten Koeffzenten ncht nur de Quadratsumme der Resduen mnmeren, sondern auch de Korrelaton zwschen den angepassten Werten und den Beobachtungen der Zelgrösse maxmeren; der maxmale Wert st de multple Korrelaton. Das Streudagramm n Abbldung 3.1.h soll dese Korrelaton veranschaulchen. 1.0 log10(erschütterung) angepasste Werte Abbldung 3.1.h: Streudagramm der beobachteten und der angepassten Werte m Bespel der Sprengungen

30 28 3 MULTIPLE LINEARE REGRESSION De quadrerte multple Korrelaton wrd auch Bestmmthetsmass genannt, da se den durch de Regresson bestmmten Antel der Streuung der Y -Werte msst, R 2 = SSQ (R) /SSQ (Y ) = 1 SSQ (E) /SSQ (Y ). j k l De Frage nach dem Enfluss der enzelnen Varablen X (j) muss man genau stellen. Der t-wert und der P-Wert n derjengen Zele der Tabelle 3.1.d (oder des ersten Tels von 3.1.g), de X (j) entsprcht, prüft, ob dese Varable aus dem Modell weggelassen werden kann, also ob de Nullhypothese β j = 0 mt den Daten verträglch st. De letzte Spalte der Tabelle enthält de üblche symbolsche Darstellung der Sgnfkanz: Dre Sternchen *** für hoch sgnfkante Testergebnsse (P-Wert unter 0.1%), zwe Sternchen für P- Werte zwschen 0.1% und 1%, en Sternchen für gerade noch sgnfkante Ergebnsse (1% bs 5 %), enen Punkt für ncht ganz sgnfkante Fälle (P-Wert unter 10%) und gar nchts für Zelen mt P-Wert über 10%. Das erlechtert n grossen Tabellen das Auffnden von sgnfkanten Resultaten. Im Bespel der basschen Böden zegt sch unter anderem, dass de zwete Art der Erfassung der Basztät, also X (2), enen Tel der Varabltät von Y erfasst, der durch den ph-wert X (1) ncht erklärt wrd. De Frage, we stark X (2) für sch allen, ohne Konkurrenz von X (1), mt Y zusammenhängt, lässt sch mt ener enfachen Regresson beantworten und wrd m Computer-Output der multplen Regressonsrechnung ncht geprüft. Mt den Angaben der Tabelle lässt sch auch en Vertrauensntervall für enen Koeffzenten β j angeben. Es hat we üblch de Form β j ±q se (βj), wobe β j und se (βj) n Tabelle 3.1.d unter Value und Std. Error zu fnden snd, während der krtsche Wert q = qt n n ener Tabelle der t-vertelung zu fnden st. Enge Programme geben de Vertrauensntervalle drekt an. Im Bespel der Sprengungen erhält man für den Koeffzenten von log10(dst) das Vertrauensntervall ± = ± = [1.2869, ]. Nun st der Wert -2, den wr bsher als von der Theore vorgegeben dargestellt haben, ncht mehr m Vertrauensntervall enthalten. Der Wert -2 entsprcht der ungehnderten Ausbretung der Energe n dre Dmensonen de Energe st dann umgekehrt proportonal zur Kugeloberfläche und damt zum quadrereten Radus. Wenn de Energe an gewssen Schchten reflektert wrd, dann st ene wenger starke Abnahme mt der Dstanz plausbel. In desem Skrpt wrd ene neue Grösse engeführt, de enersets de Spalte t value ersetzt und anderersets de Berechnung der Vertrauensntervalle erlechtert. De t-werte werden egentlch ncht mehr gebraucht, um den Test auf β j = 0 durchzuführen, da ja de p-werte angegeben werden. Immerhn geben se ene andere Art der Stärke der Sgnfkanz an: Wenn se wesentlch grösser als etwa 2 snd, dann st der Effekt entsprechend stark geschert, denn das 95 %-Quantl ener t-vertelung mt ncht allzu wengen Frehetsgraden st ungefähr 2. Vor allem für klar sgnfkante Effekte kann das ene quanttatve Beurtelung erlechtern, da der p-wert dann enfach sehr klen wrd. Machen wr das exakt und führen als Mass für de Sgnfkanz den t-quotenten (t rato) en, T j = β j se (β j) q (t k) = T / q (t k) De Stärke der Sgnfkanz wrd jetzt ncht mehr durch Verglech mt ungefähr 2, sondern mt exakt 1 beurtelt; wenn T j betragsmässg grösser als 1 st, st der Koeffzent sgnfkant. T j sagt drekt, we wet nnerhalb oder ausserhalb des Vertrauensntervalls der Wert 0 legt

31 3.1. MODELL UND STATISTIK 29 m Verhältns zur halben Länge des Intervalls. Ist der Wert 0.8, so legt 0 nnerhalb des Vertrauensntervalls, und zwar um 20% sener halben Länge. Ist T j = 1.2, so legt 0 um glech vel ausserhalb des Intervalls. Anders ausgedrückt, ermöglcht T j, das Vertrauensntervall zu berechnen: De halbe Brete des Intervalls st β j / T j und deshalb das Vertrauensntervall selbst β j (1 ± 1/ T j ). Tabelle 3.1.l zegt ene Tabelle mt deser Grösse, bezechnet als sgnf und wr erhalten das Vertrauensntervall für den Koeffzenten von log10(dst) aus 1.511(1±1/6.75) = 1.511±0.224, ohne das Quantl der t-vertelung nachsehen oder abrufen zu müssen. De Tabelle enthält ausserdem ene Spalt mt den Frehetsgraden (df), de m gegenwärtgen Zusammenhang mmer glech 1 snd, und zwe weteren Grössen, de glech noch erklärt werden. Coeffcents: coef stcoef sgnf R2.x df p.value (Intercept) NA log10(dst) log10(ladung) St.dev. of Error = on 45 degrees of freedom Multple R-Squared: F-statstc: on 2 and 45 degrees of freedom p-value 1.11e-16 Tabelle 3.1.l: Resultat der S-Funkton regr für das Bespel der Sprengungen * Man könnte auch 1/ T j als neue Grösse enführen und würde damt de Bldung des Kehrwertes be der Berechnung des Vertrauensntervalls vermeden. Das wäre aber als Mass für de Sgnfkanz ungeegnet, da en schwacher Effekt zu ener unbegrenzten Zahl führen würde, während en sehr stark gescherter Effekt zu ener sehr klenen Zahl führt. m Ene wetere nützlche Grösse für jede X -Varable, de von engen Programmen angegeben wrd, st der standardserte Regressons-Koeffzent ( stcoef n der Tabelle) β j = β j sd X (j) / sd Y. (sd steht für de Standardabwechung.) Es st der Koeffzent, den man erhält, wenn man alle X -Varablen und de Zelgrösse auf Mttelwert 0 und Varanz 1 standardsert und das Modell mt den neuen Grössen anpasst. In ener enfachen Regresson st de so standardserte Stegung glech der Korrelaton. In der multplen Regresson messen de standardserten Koeffzenten ebenfalls de Stärke des Enflusses der enzelnen Engangs-Varablen auf de Zelgrösse, unabhängg von den Massenheten oder Streuungen der Varablen. Ändert man X (j) um ene Standardabwechung sd X (j), dann ändert sch der geschätzte Wert der Zelgrösse um β j Standardabwechungen sd Y. n* Schlesslch erschent n der Tabelle unter der Spalte R2.x en Mass für de so genannte Kollneartät zwschen den X -Varablen. Wenn ene X -Varable stark mt den anderen zusammenhängt, führt das zu Schwergketen be der Interpretaton und zu grossen Ungenaugketen be der Schätzung der betroffenen Koeffzenten. Genaueres folgt n 5.3.m und 5.4. Das her verwendete Mass für dese Schwergket wrd bestmmt, ndem man de Regresson jeder X - Varablen X (j) gegen alle anderen X -Varablen durchführt und das entsprechende Bestmmthetsmass Rj 2 notert. Auch wenn ene X -Varable, als Zelgrösse verwendet, allen Annahmen des entsprechenden Regressonsmodells wdersprechen sollte, gbt das Bestmmthetsmass enen brauchbaren Hnwes auf das Problem der Kollneartät. Der Mnmalwert 0 sagt, dass X (j) mt den anderen Engangsgrössen ncht (lnear) zusammenhängt. Das Maxmum 1 trtt auf, wenn X (j) von den anderen X -Varablen vollständg lnear abhängt. In desem Fall trtt sogar en numersches Problem auf, da de Koeffzenten ncht mehr endeutg schätzbar snd (we n 3.2.f).

32 30 3 MULTIPLE LINEARE REGRESSION En häufg verwendetes Mass für de Kollneartät st der Varance Inflaton Factor (VIF), der glech 1/(1 Rj 2 ) st. Sen Mnmum st 1; er kann belebg gross werden. 3.2 Velfalt der Fragestellungen a De Engangs-Varablen X (1) und X (2) snd n den Bespelen kontnuerlche Messgrössen we de Zelvarable. Das braucht allgemen ncht so zu sen. Im Modell der multplen Regresson werden kene enschränkenden Annahmen über de X -Varablen getroffen. Se müssen von kenem bestmmten Datentyp sen und schon gar ncht ener bestmmten Vertelung folgen. Se snd ja ncht enmal als Zufallsvarable engesetzt. b* Im Bespel der basschen Böden snd de Bodenwerte wohl ebenso zufällg we de Baumhöhen. Für de Analyse können wr trotzdem so tun, als ob de Basztät vorgegeben wäre. Ene formale Begründung besteht darn, dass de Vertelungen gemäss Modell als bedngte Vertelungen, gegeben de x (j) -Werte, aufgefasst werden. c d e Ene Engangs-Varable kann bespelswese bnär, also auf de Werte 0 und 1 beschränkt sen. Ist se de enzge X -Varable, dann wrd das Modell zu Y = β 0 + E für x = 0 und Y = β 0 + β 1 + E für x = 1. Das Regressonsmodell st dann äquvalent zum Modell von zwe unabhänggen Stchproben, von denen en allfällger Untersched der Lage nteressert ene sehr üblche, enfache Fragestellung n der Statstk. Das seht man folgendermassen: Oft werden be zwe Stchproben de Beobachtungen mt zwe Indces versehen: Y k st de te Beobachtung der kten Gruppe (k = 1 oder 2) und Y k N µ k, σ 2. Es se nun x k = 0, falls k = 1 st, und x k = 1 für k = 2. Dann st Y k N β 0 + β 1 x k, σ 2, mt β 0 = µ 1 und β 1 = µ 2 µ 1. Wenn man de Beobachtungen weder mt enem enzgen Index durchnummerert, ergbt sch das Regressonsmodell mt der bnären x-varablen. Im Bespel der Sprengungen wurde de Messstelle je nach Arbetsfortschrtt verändert. Es st plausbel, dass de örtlchen Gegebenheten be den Messstellen enen Enfluss auf de Erschütterung haben. Betrachten wr zunächst den Fall von nur zwe Messstellen! En enfaches Modell lautet we n 3.1.b Y = β 0 + β 1 x (1) + β 2 x (2) + E, wobe X (1) de logarthmerte Dstanz se und X (2) de bnäre Varable, de de Messstelle bezechnet, bespelswese durch de Werte 0 für de erste und 1 für de zwete Messstelle. Das Modell beschrebt zwe Geraden y = β 0 + β 1 x (1) für de erste und y = (β 0 + β 2 ) + β 1 x (1) für de zwete Messstelle. Für bede Messstellen st de gleche Stegung β 1 wrksam; deshalb snd de beden Geraden parallel. Dass de Geraden parallel sen sollen, st ene Annahme, de n unserem Bespel recht plausbel erschent. Auf den allgemeneren Fall kommen wr zurück (3.2.u). Nun waren es aber ver Stellen, de we üblch n ener wllkürlchen Rehenfolge durchnummerert wurden. Es st snnlos, de so entstehende Varable Stellennummer als Engangs-Varable X (j) ns Modell aufzunehmen, da ene lneare Abhänggket der Erschütterung von der Stellen- Nummer kaum plausbel st.

33 3.2. VIELFALT DER FRAGESTELLUNGEN 31 Ene solche Engangs-Varable mt nomnalem oder kategorellem Werteberech wrd auch Faktor genannt. Um se n en Regressonsmodell enzubezehen, führt man für jeden möglchen Wert (jede Stelle) ene Indkatorvarable en, { x (j) 1 falls te Beobachtung aus der j ten Gruppe, = 0 sonst.. En Modell für mehrere Gruppen j von Beobachtungen mt verschedenen Erwartungswerten µ j (aber sonst glecher Vertelung) kann man schreben als Y = µ 1 x (1) + µ 2 x (2) E mt unabhänggen, glech vertelten E. Setzt man µ j = β j, so steht das multple Regressonsmodell da, allerdngs ohne Achsenabschntt β 0. Ene bnäre Varable, de ene Gruppenzugehörgket ausdrückt, wrd als dummy varable bezechnet. Ene nomnale Engangs-Varable führt so zu enem Block von dummy Varablen. f Im Bespel kommt deser Block zu den beden andern Engangs-Varablen hnzu (und de Nummererung j der X (j) mag sch dadurch verändern). Das Modell kann man so schreben: log10(ersch) = β 0 + β 1 log10(dst) + β 2 log10(ladung) + γ 1 St1 + γ 2 St2 + γ 3 St3 + γ 4 St4 + E g h En technscher Punkt: In desem Modell lassen sch de Koeffzenten prnzpell ncht endeutg bestmmen (vergleche 3.4.h). Es verändern sch nämlch de Modellwerte h x (1),...x (m) ncht, wenn man zu allen γ k ene Konstante dazuzählt und se von β 0 abzählt. Ene so gebldete Kombnaton von Koeffzenten passt also scher genau glech gut zu den Beobachtungen. Man sagt deshalb, de Parameter seen ncht dentfzerbar. Um de Sache endeutg zu machen, braucht man entweder Nebenbedngungen oder man lässt ene dummy Varable weg. Ene enfache Lösung besteht darn, γ 1 = 0 zu setzen oder, anders gesagt, de Varable St1 ncht ns Modell aufzunehmen. (In der Varanzanalyse werden wr auf das Problem zurückkommen und auch andere Abhlfen dskuteren.) De numerschen Ergebnsse zegt Tabelle 3.2.h. De t- und P-Werte, de zu den dummy Varablen St2 bs St4 angegeben werden, haben weng Bedeutung. Be unserer Wahl von γ 1 = 0 zegen se, ob der Untersched zwschen der entsprechenden Stelle und Stelle 1 sgnfkant se. Coeffcents: Value Std. Error t value Pr(> t ) Sgnf (Intercept) *** log10(dst) *** log10(ladung) * St * St St Resdual standard error: on 42 degrees of freedom Multple R-Squared: F-statstc: on 5 and 42 degrees of freedom the p-value s 3.22e-15 Tabelle 3.2.h: Computer-Ausgabe m Bespel Sprengungen mt 3 Engangs-Varablen

34 32 3 MULTIPLE LINEARE REGRESSION j Um de Idee grafsch veranschaulchen zu können, unterdrücken wr de Varable ladung, ndem wr nur Beobachtungen mt ladung=2.6 berückschtgen. Abbldung 3.2. zegt de Beobachtungen und das angepasste Modell: Für jede Stelle ergbt sch ene Gerade, und da für de verschedenen Stellen m Modell de gleche Stegung bezüglch der Varablen log(dst) vorausgesetzt wurde, snd de angepassten Geraden parallel. Es gbt ene sehr nützlche verenfachte Notaton, n der solche Modelle aufgeschreben werden, de Modell-Formeln. Das Modell m Bespel wrd geschreben als log10(ersch) log10(dst) + log10(ladung) + St. De Indces, de Koeffzenten und der Fehlerterm werden weggelassen. Das Plus-Zechen hat jetzt natürlch ene andere Bedeutung als üblch; es verbndet ncht mehr Zahlen, sondern Engangs- Varable n ursprünglcher oder transformerter Form. De Sprache der Modell-Formeln egnet sch zur Engabe n Programm-Pakete. Für de Varable St muss dem Programm bekannt sen, dass es sch um ene nomnale Varable oder enen so genannten Faktor (sehe Varanzanalyse) handelt. Es konstruert sch dann de entsprechenden dummy Varablen selber. St st also en Term n der Modell-Formel, der ene ganze Gruppe von X -Varablen umfasst, de n hrer Bedeutung zusammengehören. In engen Programmen können n der Modellangabe kene Transformatonen festgelegt werden. Man muss dann zuerst transformerte Varable lersch=log10(ersch) und analog ldst und lladung erzeugen. Das Modell lautet dann lersch ldst + lladung + St. k l De X -Varablen erschenen nun n verschedenen Formen, de wr mt verschedenen Ausdrücken bezechnen wollen: Ene Engangsgrösse oder Engangs-Varable st ene Grösse, von der angenommen wrd, dass se mt der Zelgrösse zusammenhängt, und für de deshalb ene geegnete Form gesucht wrd, n der se n das lneare Regressonsmodell enbezogen werden soll. Das kann n transformerter Form geschehen oder, wenn es ene nomnale Varable st, n Form mehrerer dummy-varablen. De X -Varablen, we se m lnearen Modell erschenen, nennt man auch Regressoren. En Term n der Modell-Formel kann en enzelner Regressor sen oder ene Gruppe von zusammengehörgen Regressoren, de als Enhet betrachtet werden. Neben den Faktoren werden solche Gruppen vor allem Wechselwrkungen mt Faktoren sen, de bald engeführt werden (3.2.t). Man wrd de Frage stellen, ob de Messstelle (St) überhaupt enen Enfluss auf de Erschütterung habe. Ken Enfluss bedeutet, dass de Koeffzenten aller entsprechenden Indkator-Varablen null snd, γ 1 = 0, γ 2 = 0, γ 3 = 0, γ 4 = 0. Den üblchen Test für dese Hypothese wollen wr allgemener aufschreben.

35 3.2. VIELFALT DER FRAGESTELLUNGEN 33 m F-Test zum Verglech von Modellen. De Frage se, ob de q Koeffzenten β j1, β j2,..., β jq n enem lnearen Regressonsmodell glech null sen könnten. Nullhypothese: β j1 = 0 und β j2 = 0 und... und β jq = 0 Teststatstk: SSQ (E) T = (SSQ(E) SSQ (E) )/q SSQ (E) /(n p) st de Quadratsumme des Fehlers m klenen Modell, de man aus ener Regresson mt den verblebenden m q X -Varablen erhält, und p de Anzahl Koeffzenten m grossen Modell (= m + 1, falls das Modell enen Achsenabschntt enthält, = m sonst). Vertelung von T unter der Nullhypolthese: T F q,n p, F-Vertelung mt q und n p Frehetsgraden. Der Test hesst F-Test zum Verglech von Modellen. Allerdngs kann nur en kleneres Modell mt enem grösseren verglchen werden, n dem alle X -Varablen des klenen weder vorkommen, also mt enem umfassenderen Modell. Der früher besprochene F-Test für das gesamte Modell (3.1.e) st en Spezalfall: das klene Modell besteht dort nur aus dem Achsenabschntt β 0. ; n Zurück zur Prüfung des Enflusses ener nomnalen erklärenden Varablen: De besseren Programme lefern den entsprechenden Test glech mt, ndem se n ener Tabelle den F-Test für de enzelnen Terme n der Modellformel zusammenstellen (Tabelle 3.2.n). Df Sum of Sq RSS F Value Pr(F) log10(dst) e-12 log10(ladung) Stelle Tabelle 3.2.n: Tests für de Effekte der enzelnen Terme m Bespel der Sprengungen Für de ersten beden erklärenden Varablen gbt dese Tabelle de gleche Auskunft we de vorhergehende (3.2.h). Der F Value st glech dem quadrerten t value von damals, und de entsprechenden Tests snd äquvalent. De drtte Zele verglecht das umfassende Modell mt dem Modell ohne St als erklärende Varable. Se zegt, dass der Enfluss der Stelle ncht sgnfkant st. o* Achtung! Oft wrd n ener genau glech aussehenden Tabelle en anderer Test durchgeführt, der m Allgemenen weng Bedeutung hat. Es wrd nämlch n der engegebenen Rehenfolge der Terme m Regressonsmodell schrttwese geprüft, ob der betreffende Term ene Verbesserung gegenüber dem vorhergehenden Modell, ohne desen Term, brngt. Nur für den letzten Term n der Tabelle erhält man also den gewünschten Test. p q Wenn kontnuerlche Varable und Faktoren als Engangsgrössen m Modell stehen, muss man üblcherwese de nützlche Informaton aus zwe verschedenen Tabellen zusammensuchen: Aus Tabelle 3.1.d, lest man de Koeffzenten der kontnuerlchen Varablen ab und schaut sch auch hren P-Wert für den Test gegen β j = 0 an, und n der vorhergehenden Tabelle (3.2.n), de man extra verlangen muss, sucht man den P-Wert für de Faktoren. Das Resultat der Funkton regr zegt bedes n ener Tabelle (Tabelle 3.2.p). De geschätzten Koeffzenten des Faktors erschenen unterhalb der Haupttabelle. In den üblchen Darstellungen der Resultate (3.2.h) werden Koeffzenten für Faktoren n der glechen Tabelle we für kontnuerlche Varable gezegt. Je nach Coderung snd dese aber ncht de Effekte γ k der enzelnen Werte des Faktors (3.2.g), sondern kaum nterpreterbare Grössen, de als Koeffzenten von erzeugten Varablen auftreten. Für de Koeffzenten werden dann, we für de kontnuerlchen Varablen, t- und P-Werte angegeben, de nur be geegneter Coderung

36 34 3 MULTIPLE LINEARE REGRESSION Call: regr(formula = log10(ersch) ~ log10(dst) + log10(ladung) + Stelle, data = d.spreng14) Terms: coef stcoef sgnf R2.x df p.value (Intercept) NA log10(dst) log10(ladung) Stelle NA NA Coeffcents for factors: $Stelle St.dev.error: on 42 degrees of freedom Multple R^2: Adjusted R-squared: NA F-statstc: 41.7 on 5 and 42 d.f., p.value: 3.22e-15 Tabelle 3.2.p: Ergebnsse der Funkton regr für das Bespel der Sprengungen ( treatment oder sum n S) mt der entsprechenden Vorscht snnvoll zu nterpreteren snd. r* De Spalte sgnf n der n 3.1.l engeführten Darstellung der Resultate lefert für ene kontnuerlche Varable, we beschreben (3.1.l), das Verhältns T j zwschen dem geschätzten Koeffzenten und sener Sgnfkanzgrenze. De Grösse soll für Faktoren so defnert sen, dass se ene ähnlche anschaulche Bedeutung erhält. Es se (für rgendenen Test) de z-rato das Quantl der Standard-Normalvertelung, das dem P-Wert entsprcht, dvdert durch den entsprechenden krtschen Wert q (N ) 0.95 = 1.96, / T = q (N ) 1 p q (N ) (De t-rato für kontnuerlche Varable st zwar ncht genau glech desem Wert, aber für ncht allzu klene Anzahlen von Frehetsgraden sehr ähnlch.) Fox and Monette (1992) verallgemenern den Varance Inflaton Factor für Faktoren. Her wrd deser verallgemenerte VIF verwendet und n de R 2 -Skala umgerechnet nach der Formel R 2 = 1 1/VIF. s* Allgemenere Vergleche von Modellen können ncht automatsch erfolgen, da es zu vele Möglchketen gbt und das Programm de nteressanten kaum erraten kann. In umfassenden Programmen kann man de nteresserenden Vergleche angeben und erhält dann de gewünschten Testergebnsse. Sonst muss man sch de nötgen Quadratsummen aus zwe Computer-Ausgaben heraussuchen und mt der obenstehenden Formel den Wert der Testgrösse und den P-Wert bestmmen. t Im Modell 3.2.f zegt sch der Enfluss der Stelle nur durch ene addtve Konstante. Der Wechsel von ener Messstelle zu ener anderen darf also nur zur Folge haben, dass sch de logarthmerten Erschütterungen um ene Konstante vergrössern oder verklenern; de Geraden n 3.2.d müssen parallel sen. Es st natürlch denkbar, dass der Zusammenhang zwschen Erschütterung enersets und Dstanz und Ladung anderersets sch zwschen den Stellen auf komplzertere Art unterschedet. Ene nahe legende Varante wäre, dass sch de Stegungskoeffzenten β 1 und β 2 für verschedene Messstellen unterscheden. Man sprcht dann von ener Wechselwrkung zwschen Dstanz und Stelle oder zwschen Ladung und Stelle. Das st ene allgemenere Frage als de folgende enfache, de mmer weder auftaucht.

37 3.2. VIELFALT DER FRAGESTELLUNGEN 35 u Snd zwe Geraden glech? Oder unterscheden se sch m Achsenabschntt, n der Stegung oder n bedem? Um dese Frage zu untersuchen, formuleren wr als Modell Y = α + β x + α g + β x g + E wobe g de Gruppenzugehörgket angbt: g = 0, falls de Beobachtung zur enen Geraden, g = 1, falls se zur anderen gehört. Für de Gruppe mt g = 0 entsteht de Gerade α + βx, für g = 1 kommt (α + α) + (β + β)x heraus. De beden Geraden stmmen n der Stegung überen, wenn β = 0 st. Se stmmen gesamthaft überen, wenn β = 0 und α = 0 gelten. (Der Fall enes glechen Achsenabschntts be unglecher Stegung st selten von Bedeutung.) Das Modell seht zunächst anders aus als das Grundmodell der multplen Regresson. Wr brauchen aber nur x (1) = x, x (2) = g und x (3) = x g zu setzen und de Koeffzenten α, β, α, β als β 0, β 1, β 2, β 3 zu bezechnen, damt weder de vertraute Form dasteht. De Nullhypothese β = 0 lässt sch mt der üblchen Tabelle testen. Der Test für α = 0 und β = 0 st en weterer Fall für den F-Test zum Verglech von Modellen. v Das Bespel zegt, dass de x-varablen m Modell n rgendener Wese aus ursprünglchen erklärenden Varablen ausgerechnet werden können. So darf bespelswese auch X (2) = (X (1) ) 2 sen. Das führt zur quadratschen Regresson, Y = β 0 + β 1 x + β 2 x 2 + E. Abbldung 3.2.v zegt de Anpassung deses Modells m Bespel der basschen Böden (Beobachtungen mt ph> 8.5 wurden weggelassen). In glecher Wese können auch höhere Potenzen engeführt werden, was zur polynomalen Regresson führt. * Da jede glatte Funkton sch durch ene Polynom-Rehe annähern lässt, wrd de polynomale Regresson oft engesetzt, wenn man über de Art der Abhänggket zwschen ener erklärenden Varablen und ener Zelgrösse kene Annahmen treffen wll. Es gbt dafür aber unter dem Stchwort Glättung oder smoothng oder nchtparametrsche Regresson geegnetere Methoden. w x Nun geraten de Begrffe durchenander: Ene quadratsche Regresson wrd als (multple) lneare Regresson bezechnet! Das Wort lnear m Begrff der multplen lnearen Regresson bezeht sch ncht auf ene lneare Bezehung zwschen Y und den X (j), sondern darauf, dass de Koeffzenten lnear n der Formel vorkommen! Deser Abschntt hat gezegt, dass das Modell der multplen lnearen Regresson vele Stuatonen beschreben kann, wenn man de X -Varablen geegnet wählt: Transformatonen der X - (und Y -) Varablen können aus ursprünglch ncht-lnearen Zusammenhängen lneare machen. En Verglech von zwe Gruppen lässt sch mt ener zwewertgen X -Varablen, von mehreren Gruppen mt enem Block von dummy Varablen als multple Regresson schreben. Auf dese Art werden nomnale erklärende Varable n en Regressonsmodell aufgenommen. De Vorstellung von zwe verschedenen Geraden für zwe Gruppen von Daten kann als en enzges Modell hngeschreben werden das glt auch für mehrere Gruppen. Auf allgemenere Wechselwrkungen zwschen erklärenden Varablen kommen wr zurück (4.6.g). De polynomale Regresson st en Spezalfall der multplen lnearen (!) Regresson.

38 36 3 MULTIPLE LINEARE REGRESSION 3.3 Multple Regresson st vel mehr als vele enfache Regressonen a b De multple Regresson wurde engeführt, um den Enfluss mehrerer erklärender Grössen auf ene Zelgrösse zu erfassen. En verlockender, enfacherer Ansatz zum glechen Zel besteht darn, für jede erklärende Varable ene enfache Regresson durchzuführen. Man erhält so ebenfalls je enen geschätzten Koeffzenten mt Vertrauensntervall. In der Computer-Ausgabe der multplen Regresson stehen de Koeffzenten n ener enzgen Tabelle. Ist das der wesentlche Vortel? De Überschrft über desen Abschntt behauptet, dass der Untersched der beden Ansätze mehrere enfache gegen ene multple Regressonsanalyse vel grundlegender st. Das soll m Folgenden begründet werden. Modfzertes Bespel der Sprengungen. Um Unterschede der beden möglchen Arten der Auswertungen zu demonstreren, wurde der Datensatz der Sprengungen auf de Stellen 3 und 6 und Dstanzen klener als 100 m engeschränkt. Tabelle 3.3.b zegt de numerschen Resultate der enfachen Regressonen der logarthmerten Erschütterung auf de logarthmerte Dstanz und zum Verglech das Resultat der multplen Regresson mt den erklärenden Varablen log(dstanz), log(ladung) und Stelle () lm(formula = log10(ersch) ~ log10(dst), data = dd) Coeffcents: Estmate Std. Error t value Pr(> t ) (Intercept) log10(dst) Resdual standard error: on 32 degrees of freedom Multple R-Squared: , Adjusted R-squared: F-statstc: on 1 and 32 degrees of freedom, p-value: () lm(formula = log10(ersch) ~ log10(dst) + log10(ladung) + stelle, data = dd) Coeffcents: Estmate Std. Error t value Pr(> t ) (Intercept) * log10(dst) * log10(ladung) ** stelle Resdual standard error: on 30 degrees of freedom Multple R-Squared: , Adjusted R-squared: F-statstc: on 3 and 30 degrees of freedom, p-value: Tabelle 3.3.b: Ergebnsse für de () enfache Regressonen der logarthmerten Erschütterung auf de logarthmerte Dstanz und für de () multple Regresson mt Dstanz, Ladung und Stelle. De enfache Regresson lefert enen völlg unplausblen Wert für den Koeffzenten der logarthmerten Dstanz, mt enem Vertrauensntervall von [ ± ] = [ 0.80, 0.53]. Mt dem multplen Modell ergbt sch für desen Koeffzenten en Intervall von [ ± ] = [ 1.45, 0.002], das mt den Ergebnssen verträglch st, de der gesamte Datensatz leferte (3.2.h).

39 3.3. MULTIPLE REGRESSION IST MEHR ALS VIELE EINFACHE 37 In Abbldung 3.3.b snd geschätzte Stegungen für de enfache Regresson engezechnet sowohl für bede Stellen zusammen als auch für de getrennte Auswertung. De beden weteren, parallelen Geraden haben de Stegung, de sch aus der multplen Regresson ergbt, und geben de angepassten Werte für ene mttlere Ladung weder. (De Wechselwrkung zwschen log10(dstanz) und der Stelle, de ener unterschedlchen Stegung der beden Geraden entsprcht, erwes sch als ncht sgnfkant.) c d e An künstlchen Bespelen lassen sch solche Effekte noch klarer veranschaulchen. In Abbldung 3.3.c snd für den Fall ener kontnuerlchen erklärenden Varablen X (1) und ener Grupperungsvarablen X (2) ver möglche Fälle aufgezechnet. De gestrchelten Geraden zegen das Modell, nach dem de Beobachtungen erzeugt wurden: Zwe parallele Geraden mt Stegung β 1 und enem vertkalen Abstand von β 2. De Beobachtungen der beden Gruppen tragen verschedene Symbole. De ausgezogene Gerade stellt das Resultat ener enfachen Regresson von Y auf X (1) dar; das schmale Rechteck am rechten Rand zegt den Untersched zwschen den Gruppenmttelwerten der Zelgrösse, was der enfachen Regresson von Y gegen X (2) entsprcht. De Gerade und das Rechteck zegen also das Resultat, das man erhält, wenn man de beden Regressoren X (1) und X (2) je mt enfacher Regresson abhandelt. De Ergebnsse der multplen Regresson snd ncht engezechnet; se wderspegeln das Modell zemlch genau. De ver Fälle zegen de Schwergketen der Interpretaton von enfachen Regressonen drastsch: (A) (B) (C) (D) Bede Varablen haben enen postven Effekt, β 1 > 0, β 2 > 0. De geschätzte Stegung und der Untersched der Gruppenmttelwerte werden zu gross. Ken Effekt der kontnuerlchen erklärenden Varablen X (1). De geschätzte Gerade erhält hre Stegung durch den Untersched zwschen den Gruppen. Entgegengesetzte Effekte, β 1 < 0, β 2 > 0. De geschätzte Stegung zegt enen postven Effekt der kontnuerlchen erklärenden Varablen X (1) auf de Zelgrösse, während er n Wrklchket negatv st! Her snd de Effekte so engerchtet, dass se sch gegensetg aufheben. Man wrd fälschlcherwese schlessen, dass kene der beden Varablen enen Enfluss auf Y hat. Wenn wr uns das Modell der multplen Regresson vergegenwärtgen, wrd klar, we der Untersched zu den Ergebnssen der enfachen Regresson entsteht: Der Koeffzent β 1 bespelswese gbt an, um we vel sch der erwartete Wert der Zelgrösse erhöht, wenn X (1) um 1 erhöht wrd und alle anderen erklärenden Varablen glech bleben. Im Bespel blebt de Ladung und de Stelle glech; wr erhalten also de Stegung der Geraden nnerhalb der Stelle be konstanter Ladung und gehen, wenn de Wechselwrkung m Modell fehlt, davon aus, dass dese für bede Stellen glech st. Betrachten wr de enfache Regresson der Zelgrösse auf X (1), dann wrd sch de Bedeutung von β 1 ändern. De zwete ausgewählte Stelle wurde be grösseren Dstanzen erfasst als de erste und führte trotzdem tendenzell zu glech hohen Erschütterungen. Telwese lag das daran, dass auch stärker geladen wurde. Wenn X (1) um 1 erhöht wrd, kommen m Datensatz tendenzell Beobachtungen mt höherer Ladung und anderer Stellenzugehörgket zum Zuge, und daher snkt der Erschütterungswert kaum. De Effekte der erklärenden Varablen werden vermscht. Ist ene kontnuerlche erklärende Varable X (2) mt X (1) postv korrelert, dann wrd sch be ener Erhöhung von X (1) um 1 erwartungsgemäss auch X (2) erhöhen, was enen zusätzlchen Effekt auf de Zelgrösse hat. (* Der Effekt, ausgedrückt durch den Koeffzenten β 2 m multplen Modell und dem Regressonskoeffzenten von X (2) auf X (1), β 21 = cov X (1), X (2) / var X (1), beträgt β 2 β 21.) Analoges glt, wenn X (1) sch für de verschedenen Werte ener nomnalen erklärenden Grösse X (2) m Mttel wesentlch unterschedet. Dese Betrachtung zegt allgemener, dass de Bedeutung der Regressonskoeffzenten prnzpell davon abhängt, welche erklärenden Grössen m Modell auftreten. Beachten Se, dass wr vom Modell gesprochen haben, dass also deses Problem ncht mt der

40 38 3 MULTIPLE LINEARE REGRESSION Schätzung zusammenhängt. f g h j k Grundlegend für alle Wssenschaften st de Suche nach Ursache-Wrkungs-Bezehungen. Bekanntlch kann aus statstschen Korrelatonen ncht auf solche Bezehungen geschlossen werden. Dennoch besteht ene wchtge Anwendung der Regresson darn, Indzen für solche Bezehungen zu sammeln. Zwe Arten von Schlüssen snd üblch: Erste Schlusswese: Falls en Koeffzent n enem Regressonsmodell sgnfkant von Null verscheden st und ene ursächlche Wrkung der Zelgrösse auf de erklärende Grösse aus prnzpellen Überlegungen heraus ausgeschlossen werden kann (de Erschütterung kann de Dstanz zum Sprengort ncht beenflussen!), dann wrd des als Nachwes für ene vermutete ursächlche Wrkung der erklärenden Grösse auf de Zelgrösse nterpretert. Oft kommt aber ene Korrelaton zwschen ener erklärenden Varablen und der Zelgrösse dadurch zustande, dass bede von ener drtten Grösse Z verursacht werden. Des st besonders häufg, wenn de Daten als Zetrehe entstehen. De Zahl der Neugeborenen hat m 20. Jahrhundert n den hochentwckelten Ländern abgenommen. Das lässt sch gut mt der Abnahme der Störche erklären... De Zet st her ncht de egentlche Ursache der beden Phänomene, sondern de Ursachen für den Nedergang der Anzahl Störche und der Anzahl Babes haben sch mt der Zet ebenfalls verändert. De Zet kann dann de Ursachen n deser Betrachtung (telwese) vertreten. Solche Stuatonen werden auch als ndrekte Zusammenhänge, ndrekte Korrelatonen oder Schen-Korrelatonen bezechnet. Wenn de Grösse Z m Modell als erklärende Varable auftaucht, dann verfälschen de durch se erfassten ndrekten Wrkungen de Koeffzenten der anderen erklärenden Varablen ncht. Im Idealfall wrd man also alle denkbaren ursächlchen Varablen für de betrachtete Zelgrösse als erklärende Varable ns Modell aufnehmen; dann stellt en sgnfkanter Koeffzent von X (1) en starkes Indz für ene Ursache-Wrkungsbezehung dar. Ene noch bessere Bass für ene solche Interpretaton blden, wenn se möglch snd, geplante Versuche, n denen unter sonst glechen Bedngungen nur de fraglche Varable X (1) varert wrd. Dann kann man de Wrkung drekt messen. Am überzeugendsten st aber natürlch mmer noch der konkrete Nachwes enes Wrkungs-Mechansmus. Zwete Schlusswese: Wenn en Koeffzent ncht sgnfkant st, wrd des oft als Nachwes betrachtet, dass de entsprechende erklärende Grösse kenen Enfluss auf de Zelgrösse habe. Des st n mehrfacher Hnscht en Fehlschluss: We be allen statstschen Tests st de Bebehaltung der Nullhypothese ken Bewes, dass se glt. De vorher erwähnten Effekte von ncht ns Modell enbezogenen Enflussgrössen können auch dazu führen, dass ene ursächlche Wrkung durch ndrekte Zusammenhänge gerade kompensert wrd (vergleche das Bespel!). Der Enfluss ener erklärenden Grösse kann ncht-lnear sen. Dann kann man mt ener geegneten Transformaton (4.4, 4.6.c) oder mt Zusatztermen (4.6.d) zu enem genaueren Modell kommen.

41 3.4. MODELL UND SCHÄTZUNGEN IN MATRIX-SCHREIBWEISE 39 l m n o De am klarsten nterpreterbare Antwort auf de Frage nach ener Wrkung ener erklärenden Varablen auf de Zelgrösse errecht man also, wenn man n enem geegnet geplanten Versuch de Varable gezelt verändert.... oder, falls das ncht geht, möglchst alle denkbaren ursächlchen Grössen ns Modell aufnmmt, de Lneartät der Zusammenhänge überprüft (sehe 4.4, 4.2.h), en Vertrauensntervall für den Koeffzenten lefert statt enes P-Wertes. Deses gbt be fehlender Sgnfkanz an, we gross der Effekt dennoch sen könnte. Indrekte Effekte, we se her als Gründe für falsche Interpretatonen angeführt wurden, können ncht vorkommen, wenn de erklärenden Grössen selbst ncht zusammenhängen wengstens ncht lnear genauer: wenn se orthogonal snd. Wr könnten von unkorrelert reden, wenn de erklärenden Grössen Zufallsvarable wären. Orthogonal hesst also: wenn wr trotz allem de emprsche Korrelaton zwschen den Varablen ausrechnen, so erhalten wr null. Wr kommen auf de Schwergketen von korrelerten erklärenden Varablen n 5.4 zurück. Wenn das möglch st namentlch be geplanten Versuchen st deshalb sehr zu empfehlen, de x (j) -Werte so zu wählen, dass de Orthogonaltät erfüllt wrd. Näheres wrd n der Versuchsplanung besprochen. Wenn alle erklärenden Varablen n desem Snne orthogonal zuenander snd, dann kann man zegen, dass de Schätzungen der Koeffzenten der enfachen Regressonen genau de geschätzten Werte des multplen Modells geben müssen. Trotzdem lohnt sch das multple Modell, da de geschätzte Standardabwechung der Fehler klener wrd und daduch de Vertrauensntervalle kürzer und de Tests eher sgnfkant werden. Zusammenfassend: En multples Regressonsmodell sagt mehr aus als vele enfache Regressonen m Falle von korrelerten erklärenden Varablen sogar vel mehr. 3.4 Modell und Schätzungen n Matrx-Schrebwese a Es st Zet, weder etwas Theore zu behandeln. Es wrd sch lohnen, auch für praktsch orenterte Leute. Se wollen ja ncht nur Rezepte auswendg lernen. Für Rezepte gbt es Bücher. Theore stellt Zusammenhänge her. Etlche Probleme, de n der praktschen Anwendung der Regresson auftreten können, lassen sch mt Hlfe der Theore besser verstehen. De Theore, de her folgt, zegt de Nützlchket von Lnearer Algebra, von Matrzen und Vektoren. Se werden de her engeführten Begrffe und Methoden n der multvaraten Statstk und be den Zetrehen weder antreffen. Bevor wr zufällge Vektoren und Matrzen betrachten, empfehlt es sch, de gewöhnlche Vektorund Matrxalgebra n Ernnerung zu rufen. Was für de folgenden Abschntte wchtg st, fasst Anhang 3.A zusammen. b Das Modell der multplen Regresson, Y = β 0 + β 1 x (1) + β 2 x (2) mt Hlfe von Vektoren und Matrzen formuleren β m x (m) + E, wollen wr

42 40 3 MULTIPLE LINEARE REGRESSION Dazu müssen wr zuerst den Begrff des Vektors von Zufallsvarablen oder der vektorellen Zufallsvarablen oder des Zufallsvektors enführen: Es handelt sch enfach um ene Zusammenfassung von mehreren Zufallsvarablen, Y = Y 1 Y 2 : Y n und E = Man verwendet also Spaltenvektoren. (Drucktechnsch platzsparender wären Zelenvektoren, und deshalb schrebt man oft den transponerten Vektor hn, Y = [Y 1,..., Y n ] T ; T steht für transponert.) E 1 E 2 : E n. c De Koeffzenten β j können wr auch als Vektor schreben, und de erklärenden Varablen x (j) zu ener Matrx zusammenfassen: β = β 1 β 2 : β m und X = x (1) 1 x (2) 1... x (m) 1 x (1) 2 x (2) 2... x (m) 2... x (1) n x (2) n... x (m) n Schlesslch brauchen wr noch den Vektor, der aus lauter Ensen besteht, 1 = [1, 1,..., 1] T. Jetzt wrd das Regressonsmodell enfach zu Y = β X β + E. Was hesst das? Auf beden Seten des Glechhetszechens stehen Vektoren. Das -te Element des Vektors rechts st β j β jx (j) + E, und das st laut Modell glech dem -ten Element von Y. d De Vektor-Glechung st noch ncht ganz enfach genug! Damt β 0 noch verschwndet, erwetern wr X um ene Kolonne von Ensen und β um das Element β 0 : X = [ 1 X ] = 1 x (1) 1 x (2) 1... x (m) 1 1 x (1) 2 x (2) 2... x (m) x (1) n x (2) n... x (m) n β = [ β0 β ] = β 0 β 1 β 2 : β m Jetzt glt Y = X β + E. Wenn das Modell kenen Achsenabschntt enthält, setzen wr X = X und β = β. e Auf das Modell folgt de Schätzung. In der enfachen Regresson haben wr das Prnzp der Klensten Quadrate angewandt. De Resduen, de zu enem Parameter-Vektor β gehören, snd R = Y (β0 + j β j x (j) ). Wr können auch se zu enem Vektor zusammenfassen und erhalten R = Y X β. (Wenn β = β st, snd de R gerade de Zufalls-Fehler E.)

43 3.4. MODELL UND SCHÄTZUNGEN IN MATRIX-SCHREIBWEISE 41 De Summe der Quadrate R2 kann man schreben als Q β = R2 = R T R (und das st auch de quadrerte Norm des Vektors R). Desen Ausdruck wollen wr also mnmeren. Dass des aus dem Prnzp der Maxmalen Lkelhood folgt, wurde n 2.A.0.a gezegt. f Wr wollen dasjenge β fnden, für das Q β mnmal wrd, und es als Schätzung von β verwenden. Ene klare Schrebwese für dese Aufgabe, de man vermehrt verwenden sollte, st β = arg mn β Q β. Mnmeren läuft oft über Ableten und null Setzen. Man kann Regeln für Abletungen von und nach Vektoren herleten und ensetzen. Wr kommen aber auch mt gewöhnlchen Abletungen durch, wenn es auch etwas mühsam wrd. Es st und (wenn man x (0) Q β / β j = R2 / β j = 2 R R / β j ( R / β j = Y (β 0 + )/ β jx (j) j ) β j = x (j) = 1 setzt, glt des auch für j = 0), also Q β / β j = 2 R x (j) = 2 ( X T R) j. De Abletungen (für j = 0, 1,..., m) sollen glech 0 sen. g Das können wr glech als Vektor hnschreben, X T R = 0. Ensetzen führt zu X T (Y X β) = 0 X T X β = X T Y. De letzte Glechung hat enen Namen: Se hesst de Normal-Glechungen es snd ja p Glechungen, n ene Vektoren-Glechung verpackt. Lnks steht ene quadratsche, symmetrsche Matrx, C = X T X, multplzert mt dem gesuchten Vektor β, rechts en Vektor, X T Y. Be der Auflösung deser Glechung macht sch de lneare Algebra erstmals rchtg bezahlt: Wr multplzeren de Glechung von lnks mt der Inversen von C, C 1, und erhalten β = C 1 X T Y. h Dazu müssen wr voraussetzen, dass C nverterbar oder ncht-sngulär (oder regulär oder von vollem Rang) st. Sonst? Sonst st de Lösung des Problems der Klensten Quadrate ncht endeutg, und man muss mt komplzerteren Methoden dahntergehen (mt verallgemenerten Inversen). Das Prnzp der Klensten Quadrate führt also ncht mmer zu ener endeutgen Lösung. Das st ncht nur en theoretsches Problem! Wenn C ncht nverterbar st, hesst das, dass das Regressons-Modell selbst schlecht formulert st, dass nämlch de Parameter ncht endeutg snd, also verschedene Parameter-Kombnatonen genau das gleche Modell festlegen. Man sprcht von ncht dentfzerbaren Parametern. Das Modell wrd dann besser so geändert, dass man weder endeutg wess, was en Parameter bedeuten soll. (Enen solchen Fall haben wr n 3.2.g angetroffen.) Das Problem kann auch fast auftreten. Wr kommen darauf unter dem Stchwort Kollneartät zurück (5.3.m).

44 42 3 MULTIPLE LINEARE REGRESSION Schreben Se de letzte Formel für de enfache lneare Regresson (2.2.c) auf und zegen Se, dass se mt 2.2.c überenstmmt! Das st nützlch, um de allgemenere Formel besser zu verstehen und um etwas lneare Algebra zu üben. 3.5 Vertelung der geschätzten Regressonskoeffzenten a De geschätzten Regressonskoeffzenten lassen sch also n Matrxform sehr kurz schreben, β = C Y, C = C 1 X T. Wenn wr jetzt en Element β j des Vektors β herausgrefen, so lässt sch deses also auch als Summe ausdrücken, β j = n jy. =1 De C j snd feste Zahlen, de Y Zufallsvarable. We n der Enführung über Wahrschenlchketsrechnung gezegt wrd, st ene solche Lnearkombnaton von normalvertelten Zufallsvarable weder normalvertelt, und es blebt noch, den Erwartungswert und de Varanz zu bestmmen. b Der Erwartungswert st gemäss der allgemenen Formel E a Y = a E Y glech E β j = n C j E Y = n C j =1 =1 k X(k) β k. Das seht sehr komplzert aus. Wr nehmen weder de Matrxrechnung zu Hlfe. De Doppelsumme st glech dem j ten Element von C X β = C 1 X T X β = C 1 C β = β, also glech β j. c Für de Varanz ener Summe von unabhänggen Zufallsvarablen lautet de allgemene Formel var a Y = a2 var Y. Ensetzen ergbt var β j = n k=1 ( ) 2 C jk var Yk = σ 2 n ( 2 C jk). k=1 De Summe der Quadrate st glech dem j ten Dagonalelement von C C T = C 1 XT (C 1 XT ) T = C 1 XT X(C 1 ) T = C 1 C(C 1 ) T = (C 1 ) T. Da C symmetrsch st (und wr soweso nur de Dagonalelemente betrachten), kann man das Transponeren weglassen. Also st var β j = σ 2 ( C 1) jj. d Mt etwas mehr Theore kann man auch Kovaranzen zwschen den geschätzten Koeffzenten β j erhalten. Dese Überlegungen gehören zum Thema der Multvaraten Statstk und werden m entsprechenden Block behandelt.

45 3.A. ANHANG: GRUNDBEGRIFFE DER LINEAREN ALGEBRA 43 3.A Anhang: Grundbegrffe der Lnearen Algebra a Matrzen. Matrx, genauer n m-matrx: a 11 a a 1m a 21 a a 2m A =... a n1 a n2... a nm Zelen = 1,..., n, Spalten j = 1,..., m. Elemente a j. Quadratsche Matrx: Gleche Anzahl Zelen und Spalten, n = m. Symmetrsche Matrx: Es glt a j = a j. Dagonale ener quadratschen Matrx: De Elemente [a 11, a 22,..., a nn ]. Dagonalmatrx: Ene, de nur aus der Dagonalen besteht, d j = 0 für j. D = d d d nn b Transponerte Matrx: Wenn man Zelen und Spalten ener Matrx A vertauscht, erhält man de transponerte Matrx A T : a 11 a a n1 A T a 12 a a n2 =... a 1m a 2m... a nm Bemerkungen: 1. Es glt offenschtlch (A T ) T = A (vgl. de zwemal gewendete Matratze). 2. Für symmetrsche Matrzen glt A T = A. c Vektoren. Vektor, genauer Spaltenvektor: n Zahlen, unter enander geschreben. Elemente b. b = b 1 b 2 : b n d Transponerte Vektoren: Spaltenvektoren werden zu Zelenvektoren, wenn man se transponert: b T = b 1 b 2 : T = [b 1, b 2,..., b n ]. b n Drucktechnsch platzsparender als Spaltenvektoren snd Zelenvektoren, und deshalb schrebt man Spaltenvektoren oft als transponerte Zelenvektoren hn: b = [b 1, b 2,..., b n ] T.

46 44 3 MULTIPLE LINEARE REGRESSION e Enfache Rechenoperatonen. Addton und Subtrakton: Geht nur be glechen Dmensonen. Man addert oder subtrahert de enander entsprechenden Elemente. Multplkaton mt ener Zahl (enem Skalar ): Jedes Element wrd multplzert. Dvson durch ene Zahl ebenso. Recht oft trfft man n der Statstk und anderswo auf so genannte Lnearkombnatonen von Vektoren. Das st en schöner Name für Ausdrücke der Form λ 1 b 1 + λ 2 b 2 + eventuell wetere solche Terme man addert Velfache der betelgten Vektoren. f Matrx-Multplkaton. Matrzen können nur multplzert werden, wenn de Dmensonen passen: C = A B st defnert, wenn de Anzahl Spalten von A glech der Anzahl Zelen von B st. Dann st c k = m j=1 a jb jk Bespel: Bemerkungen: [ ] ( 2) = ( 1) ( 1) ( 2) = ( 2) Im Bespel st B A ncht defnert, da B 2 Spalten, A aber 3 Zelen hat. 2. Wenn A B und B A bede defnert snd, snd de beden m allgemenen verscheden, A B B A! Matrzen dürfen ncht vertauscht werden. 3. Es kann A B = 0 sen, obwohl weder A = 0 noch B = 0 st. 4. Es glt das Assozatvgesetz: (A B ) C = A (B C ) 5. Es glt das Dstrbutvgesetz: A (B + C ) = A B + A C und ebenso (A + B ) C = A C + B C. 6. Transponeren enes Produktes: Es st (A B ) T = B T A T Man muss also bem Transponeren de Rehenfolge vertauschen! 7. Das Produkt A A T st mmer symmetrsch. g All das glt auch für Vektoren: Wenn a und b Spaltenvektoren snd, st a 1 b 1 a 1 b 2... a 1 b m a b T a 2 b 1 a 2 b 2... a 2 b m =... a n b 1 a n b 2... a n b m Wenn se gleche Länge haben, st a T b = a b. Matrx mal Spaltenvektor ergbt (falls defnert) enen Spaltenvektor: A b = c.

47 3.A. ANHANG: GRUNDBEGRIFFE DER LINEAREN ALGEBRA 45 h De Länge enes Vektors st de Wurzel aus a2. Man bezechnet se oft mt a. Man kann schreben a 2 = a T a. De Enhetsmatrx (der Dmenson m) st defnert als Dagonalmatrx mt lauter Ensen: I = Se lässt be Multplkaton Matrzen unverändert: I A = A, A I = A. j Inverse Matrx. Wenn A quadratsch st und B A = I glt, hesst B de zu A nverse Matrx; man schrebt B = A 1. Bemerkungen: 1. Es glt dann auch A B = I. Wenn also B = A 1 st, st auch A = B Es gbt ncht zu jeder quadratschen Matrx A ene Inverse. Wenn es ene gbt, hesst A regulär, und es gbt nur ene Inverse. Wenn es kene Inverse gbt, hesst A sngulär. 3. Es st (A 1 ) 1 = A. 4. Inverses enes Matrx-Produkts: Wenn A und B quadratsch snd, st (A B ) 1 = B 1 A 1 De Rehenfolge muss also vertauscht werden, we bem Transponeren! 5. Es st (A T ) 1 = (A 1 ) T. Man schrebt oft kurz A T. k Lneares Glechungssystem. Kurz zusammengefasst: Das Glechungssystem a 11 β 1 + a 12 β a 1m β m = y 1 a 21 β 1 + a 22 β a 2m β m = y a m1 β 1 + a m2 β a mm β m = y m (für de β j ) lässt sch schreben als Aβ = y (für β ). Es hat genau ene Lösung, wenn A regulär st, also wenn de Inverse A 1 exstert. Dann st β = A 1 y dese Lösung. l Wenn de Matrx A sngulär st, dann gbt es ene Zele [a 1, a 2,..., a m ], de sch als Lnearkombnaton der andern schreben lässt. De entsprechende Glechung führt entweder zu enem Wderspruch (kene Lösung) oder st überflüssg (unendlch vele Lösungen). Man sprcht von lnearer Abhänggket der Zelen der Matrx oder der Glechungen. (Wenn de Matrx sngulär st, gbt es auch ene Spalte, de sch als Lnearkombnaton der andern schreben lässt. Es snd also auch de Spaltenvektoren lnear abhängg.)

48 46 3 MULTIPLE LINEARE REGRESSION 3.S S-Funktonen a Modell-Formeln denen dazu, Modelle von Regressonen und Varanzanalysen aller Art und auch Modelle der multvaraten Statstk festzulegen. Se snd dadurch gekenntzechnet, dass se das Zechen enthalten. Solche Ausdrücke blden ene spezelle Klasse von S-Objekten, genannt formula-objekte. Regressons- und Varanzanalyse-Funktonen verlangen jewels als erstes Argument ene solche formula. Be Regressons- und Varanzanalyse-Modellen steht lnks von desem Zechen de Zelgrösse und rechts de Engangsgrössen. In der enfachsten Form lautet en multples Regressonsmodell y x1 + x2 Das Zechen + erhält her ene neue Bedeutung. Es werden ncht x1 und x2 zusammengezählt, sondern de beden Varablen werden als Engangsvarable m Modell erkannt. In mathematscher Schrebwese entsteht also der Ausdruck β 1 x1 + β 2 x2. Automatsch wrd en Fehlerterm +E hnzugefügt. Ebenso en Achsenabschntt β 0, wenn man hn ncht ausdrücklch unterdrückt, ndem man 1 enfügt, also bespelswese y -1 + x1 + x2 schrebt. So entsprcht also der Ausdruck y x1 + x2 dem Regressonsmodell y = β 1 x1 + β 2 x2 + E. We schon n 2.S.0.c erwähnt, können Transformatonen drekt n de Formel geschreben werden, log10(ersch) log10(dst) + log10(ladung) b c Faktoren oder nomnale Engangsgrössen können (we n 3.2.j erwähnt) ebenfalls drekt n de S-Formel geschreben werden. De Regressonsfunkton verwandelt solche Varable zuerst n de entsprechende Anzahl von Dummy-Varablen (3.2.h). Normalerwese snd solche Varable m data.frame als factor gekenntzechnet und werden deshalb automatsch rchtg behandelt. Wenn ene numersche Varable, bespelswese mt den Werten 1, 2, 3, 4, als Faktor nterpretert werden soll, braucht man de Funkton factor. Wäre de Stelle m Bespel n d.spreng ncht als Faktor gespechert, so könnte man durch log10(ersch) log10(dst) + log10(ladung) + factor(st) das rchtge Modell dennoch erhalten. In 3.2.g von Nebenbedngungen gesprochen, de nötg snd, um be Faktoren zu enem endeutgen Modell zu kommen. Dese können verscheden gewählt werden. De dort erwähnte Lösung, für de enfach de erste Dummy-Varable weggelassen wrd, st de Default-Methode. Ene andere, de für de Interpretaton nützlch st, erhält man über das Argument contrasts="sum". Genauer wrd des n der Varanzanalyse dskutert. Wechselwrkungen zwschen Varablen (3.2.t) können n der formula ebenfalls enfach angegeben werden, und zwar mt enem Ausdruck der Form x1:x2, log10(ersch) log10(dst) + St + log10(dst):st Da n den Modellen Wechselwrkungen mmer nur zwschen Varablen enbezogen werden sollen, de auch als Enzelterme ( Haupteffekte m Gegensatz zu Wechselwrkungen) auftreten, gbt es ene Kurzschrebwese. x1*x2 bedeutet das Gleche we x1+x2+x1:x2. Das vorhergende Modell kann deshalb kurz als log10(ersch) log10(dst) * St angegeben werden.

49 3.S. S-FUNKTIONEN 47 d We man seht, erhält ncht nur das Zechen + ene neue Bedeutung, wenn es n ener formula erschent, sondern auch * und : ; se bezechnen Wechselwrkungen. (In der Varanzanalyse werden auch ^ und / für Abkürzungen üblcher Modellstrukturen benützt werden.) Manchmal möchte man aber * auch als Multplkatonszechen verstanden wssen. Wenn man bespelswese ene n cm gemessene Varable n nches ausdrücken wll, braucht man 2.51*x als Engangsgrösse. Man kann dese enfache Transformaton mt Hlfe der Funkton I() angeben durch y I(2.51*x). e Funkton lm, summary. De Funktonen lm und summary produzeren de glechen Resultate we n der enfachen Regresson (2.S.0.g), mt zusätzlchen Zelen n der Koeffzenten-Tabelle, de dem erweterten Modell entsprechen. f Funkton drop1. Wenn ene Engangsgrösse und damt en Term n der Modell-Formel enen Faktor benhaltet, snd de Tests für de enzelnen Koeffzenten ncht snnvoll. Ihre Bedeutung hängt nämlch von den Nebenbedngungen, also von den contrasts ab. Der snnvolle Test, der prüft, ob der ganze Term nötg se (3.2.m), wrd von der Funkton drop1 durchgeführt. > drop1(r.lm, test="f") De Funkton berechnet prmär en Krterum mt Namen AIC, das wr später für de Modellwahl brauchen werden (5.2.e). Wenn das Argument test ncht angegeben wrd, wrd ken Test durchgeführt. g Enge Egenheten deser Funktonen-Famle erschenen dem Autor deser Beschrebung weng benutzerfreundlch. Bespelswese st ncht enzusehen, weshalb das Objekt, das lm produzert, weng Nützlches zegt, wenn man es drekt ausgbt, und dass deshalb zuerst de genersche Funkton summary darauf angewendet werden muss. Wll man de Resultate weter verwenden, so snd enge nteressante Ergebnsse, we de geschätzte Standardabwechung σ der Fehler, ncht m Ergebns von lm enthalten, sondern erst m Ergebns von summary(r.lm), und es st ncht trval, das herauszufnden. Leder enthält auch das summary ncht das, was für de Interpretaton gebraucht wrd. Vertrauensntervalle, standardserte Koeffzenten und de R 2 j - Werte müssen mt zusätzlchen Funktonen ermttelt werden. Für nomnale Engangsgrössen muss, we erwähnt, drop1 aufgerufen werden. Ich habe daher ene neue grundlegende Funkton geschreben, de ene Klasse von Objekten erzeugt, welche wederum durch verbesserte Methoden der generschen Funktonen prnt und plot dargestellt werden. De neuen Funktonen beruhen selbstverständlch auf den grundlegenden Funktonen von R. (De neue Klasse erbt auch de Methoden von lm, sowet kene spezellen Methoden zu generschen Funktonen nötg wurden.) h Funkton regr (package regr0). De Funkton regr hat de glechen Argumente we lm (und enge mehr, da se auch andere Regressonsmodelle anpasst). Se erzeugt en Objekt der Klasse regr, das alle nteressanten Resultate der Anpassung enthält. > r.regr < regr(log10(ersch) log10(dst)+log10(ladung)+stelle, data=d.spreng) De wchtgsten Resultate seht man durch Entppen von > r.regr Das Hauptresultat st ene Tabelle, de für alle erklärenden Varablen den Test für de Nullhypothese ken Enfluss prüft. Für Varable mt enem Frehetsgrad wrd neben dem geschätzten Koeffzenten de standardserte Verson angegeben. Statt dem Standarfehler wrd ene nützlche Grösse angegeben, mt der das Vertrauensntervall enfach berechnet werden kann (3.1.l). Für Terme mt mehreren Frehetsgraden wrd n der Haupttabelle nur der F-Test angegeben. De geschätzten Koeffzenten folgen anschlessend an de Tabelle. Se snd drekt nterpreterbar, ohne dass bekannt sen muss, mt welchen Kontrasten Faktoren codert werden. Wetere Vortele der Funkton regr werden sch be der Resduen-Analyse und be den Methoden

50 48 3 MULTIPLE LINEARE REGRESSION für andere Regressonsmodelle zegen. Resultate von regr Aufruf, mt dem das Objekt erzeugt wurde; Haupttabelle mt den Spalten coef: de geschätzten Koeffzenten β j für Varable mt enem enzgen Frehetsgrad, stcoef: de standardserten Koeffzenten β j = β j sd X (j) /sd Y, Rx2: Das Mass Rj 2 für Kollneartät, df: Anzahl Frehetsgrade, sgnf: Für Varable mt enem enzgen Frehetsgrad wrd her de t-rato = T/q (t k) 0.975, der Quotent aus der klassschen t-test-statstk und hrer Sgnfkanzgrenze, angegeben. De Nullhypothese β j = 0 wrd abgelehnt, wenn de t-rato betragsmässg grösser als 1 st. Für Faktoren und andere Terme mt mehr als enem Frehetsgrad lefert de Spalte ene monotone Transformaton der Teststatstk des F-Tests, deren Wert ebenfalls mt 1 verglchen werden kann, sehe 3.2.r. p value: Der P-Wert für den durchgeführten Test. Falls Faktoren oder andere Terme mt mehr als enem Frehetsgrad vorkommen, folgen de geschätzten Koeffzenten. Es folgen de Angaben über de geschätzte Standardabwechung des Zufallsterms (mt ener snnvollen Bezechnung!), das Bestmmthetsmass und der Gesamt-Test. Falls das Argument correlaton=true gesetzt wrd, folgt de Korrelatonsmatrx der geschätzten Koeffzenten (sehe summary.lm) j Funktonen resduals, ftted. De Resduen und de angepassten Werte snd als Komponenten n der Resultat-Lste von lm oder regr enthalten. Man kann se also als t.r$resduals resp. t.r$ftted.values ansprechen. Eleganter, wel auch n anderen Modellen anwendbar und m Fall von fehlenden Werten angemessen, st de Anwendung der Funktonen ( Extraktor- Funktonen ) resduals und ftted (oder synonym resd, ftted.values. Man schrebt also bespelswese resduals(t.r), um de Resduen zu erhalten. Achtung: Be lm st, wenn de Daten fehlende Werte (NA) enthalten, der Resduen-Vektor kürzer als de Daten, ausser wenn na.acton=na.replace gesetzt wurde. Dann enthält der Resduenvektor selbst NAs für jene Beobachtungen, de für de Regressonsrechnung ncht verwendet wurden.

51 3.S. S-FUNKTIONEN 49 log10(ersch) log10(dst) Stelle Abbldung 3.2.: Beobachtungen und geschätzte Geraden m Bespel der Sprengungen

52 50 3 MULTIPLE LINEARE REGRESSION Höhe ph Abbldung 3.2.v: Quadratsche Regresson m Bespel der basschen Böden 6 log10(erschütterung) Regr. / Stellen enfache / bede enfache / St.3 enfache / St.6 multple, f. St.3 multple, f. St log10(dstanz) Abbldung 3.3.b: Daten des engeschränkten Bespels der Sprengungen (Stellen 3 und 6) mt geschätzten Regressonsgeraden: De engezechneten Geraden stehen enersets für de enfachen Regressonen, für bede Stellen zusammen we auch separat gerechnet; anderersets erschenen zwe parallele Geraden, de de angepassten Werte gemäss multpler Regresson für ene mttlere Ladung für de beden Stellen wedergeben.

53 3.S. S-FUNKTIONEN 51 (A) (B) Y X2=0 X2= Y (C) (D) X (1) X (1) Abbldung 3.3.c: Enfache und multple Regresson für ene Grupperungsvarable (bnäre Varable) und ene kontnuerlche erklärende Varable

54 4 Resduen-Analyse 4.1 Problemstellung a b c d e De engeführten Schätz- und Testmethoden beruhen auf Modellannahmen: Für de Fehler wurde E N 0, σ 2 (unabhängg) angenommen. Das kann man aufspalten: (a) Der Erwartungswert der E st E E = 0, (b) se haben alle de gleche theoretsche Varanz var E = σ 2, (c) (d) se snd normalvertelt se snd unabhängg, Für de Regressonsfunkton muss jewels ene bestmmte Formel angesetzt werden, de nur enge Parameter β (j) offen lässt. Im oben besprochenen Snne (3.2.w) wrd Lneartät vorausgesetzt. Wenn de Formel ncht de Form hat, de für de Daten egentlch glt, st für de Fehler Annahme (a) verletzt. Dese Voraussetzungen zu überprüfen, st mestens wesentlch. Es geht dabe ncht n erster Lne um ene Rechtfertgung, sondern um de Möglchket, aus allfällgen Abwechungen en besseres Modell entwckeln zu können. Das kann bedeuten, dass Varable transformert werden, zusätzlche Terme, bespelswese Wechselwrkungen, ns Modell aufgenommen werden, für de Beobachtungen Gewchte engeführt werden, allgemenere Modelle und statstsche Methoden verwendet werden. De Chancen der Modell-Verbesserung wahrzunehmen, entsprcht der Grundhaltung der exploratven Datenanalyse. Es geht her ncht um präzse mathematsche Aussagen, Optmaltät von statstschen Verfahren oder um Sgnfkanz, sondern um Methoden zum kreatven Entwckeln von Modellen, de de Daten gut beschreben. Wr kommen glech noch etwas konkreter auf de Bedeutung der Überprüfung von Voraussetzungen zurück (4.2.e). De Resduenanalyse bedent sch enger grafscher Darstellungen und allenfalls auch enger formaler Tests. Dese können Symptome dafür fnden, dass en Modell de Daten ncht genau beschrebt. Symptome können sch zu Syndromen zusammenfügen, de auf bekannte Krankheten hnwesen und de wrksame Therape klar machen. Schwerg wrd es, wenn mehrere Aspekte des Modells falsch snd und sch deshalb mehrere Syndrome überlagern. Dann kann es schwerg werden, aus den verschedenen Symptomen auf de rchtgen Verbesserungen des Modells zu schlessen. De Entwcklung enes Modells braucht dann Intuton, Erfahrung und Kreatvtät und gute Dagnose-Instrumente, nämlch solche, de möglchst spezfsch snd für de Verletzung enzelner Voraussetzungen oder für de Wrksamket bestmmter Modellveränderungen (vergleche 4.2.j). De Mttel zur Überprüfung von Voraussetzungen werden her für de multple lneare Regresson mt normalvertelten Fehlern dargestellt. De mesten Ideen snd n der Varanzanalyse drekt anwendbar und lassen sch auch auf andere Regressonsmodelle übertragen und snd damt grundlegend für weteren Kaptel. Verson Sept 2013, c W. Stahel

55 4.2. RESIDUEN UND ANGEPASSTE WERTE Resduen und angepasste Werte a b c In der enfachen Regresson können de Voraussetzungen mt Ausnahme der Unabhänggket (d) anhand enes Streudagramms der Zelgrösse gegen de Engangs-Varable beurtelt werden. Für de multple Regresson entsteht ene ebenso anschaulche Darstellung, wenn auf der horzontalen Achse de angepassten Werte ŷ = β 0 + β 1 x (1) + β 2 x (2) β m x (m) verwendet werden, we das schon n 3.1.h getan wurde. Was sagt uns dese Abbldung über de enzelnen Voraussetzungen? (a) Regressonsfunkton: De Gerade passt m Bespel recht gut zum Verlauf der Punkte. Wenn man genau hnseht, haben de Punkte etwas rechts von der Mtte (ŷ zwschen 0.4 und 0.7) de Tendenz, en weng höher zu legen, während de Punkte rechts und lnks häufger unterhalb der Geraden anzutreffen snd. Ene lecht gekrümmte Kurve würde etwas besser zu den Daten passen. Das deutet darauf hn, dass der Erwartungswert der Zelgrösse durch de verwendete Regressonsfunkton ncht genau beschreben wrd und deshalb E E 0 st. (b) Gleche Varanzen: De Streubrete der Punkte um de Gerade st engermassen glechmässg bs auf enen oder zwe Punkte, de man als Ausresser bezechnen kann, enen be ŷ 0.73, der nach unten abwecht, und enen be ŷ 0.6, der etwas zu hoch legt. Dese extremen Punkte verletzen eher de Voraussetzung der Normalvertelung (c) als de der glechen Varanzen (b). Ene typsche Abwechung von der Voraussetzung der glechen Varanzen führt dazu, dass de Streubrete der Punkte für grössere angepasste Werte grösser wrd, m Dagramm also de Punkte gegen rechts trchterförmg ausenanderlaufen oder umgekehrt, was seltener vorkommt (vergleche 4.4.b). Wenn de Varanzen der Fehler verscheden snd, aber nchts mt den Werten der Regressonsfunkton zu tun haben, werden wr das n deser Fgur ncht sehen. * De Voraussetzung der glechen Varanzen wrd mt dem Zungenbrecher Homoskedastztät, jede Abwechung davon mt Heteroskedastztät bezechnet. d (c) Vertelung der Fehler: De Abwechungen von der Geraden snd de Resduen R = Y ŷ. Se streuen engermassen symmetrsch um de Gerade. De beden Ausresser haben wr schon kommentert. Se deuten auf ene langschwänzge Vertelung hn. Auf de Beurtelung der Vertelung der Fehler kommen wr noch zurück (4.3.a). e De her festgestellten Abwechungen von den Voraussetzungen snd ohne Weteres zu tolereren. So de Beurtelung des Autors. Das st ene rechlch unwssenschaftlche Aussage! Und n welchem Snne zu tolereren? Das st ncht präzse zu fassen. Her enge Überlegungen dazu: Be exakter Gültgket der Voraussetzungen gbt es n den Daten mmer weder schenbare Abwechungen we ja be strkt durchgeführten Tests n 5% der Fälle sgnfkante Effekte auftreten, wenn de Nullhypothese exakt glt. Mt Erfahrung lässt sch etwa abschätzen, we gross solche zufällgen Abwechungen etwa werden können. Wr werden glech noch dskuteren, we man de zufällgen Abwechungen präzser fassen kann. Selbst wenn n rgendenem Snn sgnfkante Abwechungen von den Voraussetzungen vorlegen, kann de Anwendung der m vorhergehenden Kaptel besprochenen Methodk mmer noch zu genügend korrekten Resultaten führen. Solche Beurtelungen beruhen auf dem Wssen und der Erfahrung über de Auswrkungen von Abwechungen auf enzelne Resultate der Methoden, we Vertelungen von Schätzungen, P-Werte von Tests und Ähnlchem. We wchtg präzse Aussagen der statstschen Methoden snd, hängt von der wssen-

56 54 4 RESIDUEN-ANALYSE schaftlchen Fragestellung ab. Wenn es um ene präzse Schätzung des Effekts ener Engangs-Varablen auf de Zelgrösse n enem gut funderten Modell geht, snd de Voraussetzungen krtscher, als wenn es darum geht, n ener Velzahl von möglchen Engangs- Varablen de wchtgen von den unwchtgen zu trennen. Nach desen allgemenen Bemerkungen zurück zum Konkreten! Wr wollen de enzelnen Voraussetzungen noch genauer untersuchen, mt besser geegneten grafschen Darstellungen. f De Betrachtungen zum Streudagramm der beobachteten und angepassten Werte (3.1.h) lassen sch noch präzser fassen, wenn wr de Abbldung etwas abändern: Statt der beobachteten Werte Y tragen wr n vertkaler Rchtung de Resduen R ab. Das hlft vor allem dann, Abwechungen deutlcher zu sehen, wenn de Punkte n 3.1.h weng um de Gerade streuen, wenn also de multple Korrelaton oder das Bestmmthetsmass R 2 hoch st und de Resduen deshalb klen werden. De so entstehende Darstellung hesst nach den Autoren, de se als unverzchtbaren Bestandtel der Resduenanalyse propagert haben, Tukey-Anscombe- Dagramm (Abbldung 4.2.f). In deser Darstellung sollten de Punkte glechmässg um de Nulllne R = 0 streuen Resduen angepasste Werte Abbldung 4.2.f: Tukey-Anscombe-Dagramm für das Bespel der Sprengungen, mt ener Glättung und der Referenzgeraden Y = Y g In Abbldung 4.2.f st ene fallende Gerade engezechnet, de Punkte zusammenfasst, für de de Zelgrösse Y konstant (glech dem Mttelwert der Y ) st. Se wrd sch als Referenzlne als nützlch erwesen (4.4.m), wrd aber von Programmen (bsher) ncht gezechnet. Wr wollen nun de Voraussetzungen nochmals mt desem neuen Dagramm prüfen. h (a) Regressonsfunkton: Ene Kurve n 3.1.h wrd zu ener entsprechenden, flach gelegten Kurve n 4.2.f. Von Auge können wr zwar Muster n solchen Darstellungen recht gut erkennen, aber es erwest sch oft als nützlch, ene möglche Kurve enzuzechnen. Man erhält se mt ener geegneten Glättungsmethode.

57 4.2. RESIDUEN UND ANGEPASSTE WERTE 55 De Voraussetzung (a) lautet ja: E E = 0. Wenn wr nun enge Beobachtungen mt ähnlchem ŷ zusammennehmen, also enen vertkalen Strefen n Abbldung 4.2.f herausgrefen, sollte der Mttelwert der Resduen R ungefähr 0 ergeben. Man kann enen solchen Strefen mt vorgegebener Brete h wählen und den Mttelwert der Resduen n der Mtte des Strefens n vertkaler Rchtung enzechnen (Abbldung 4.2.). Varert man nun de Poston des Strefens, entlang der horzontalen Achse, so erhält man das gletende Mttel (runnng mean). Dese kurze Beschrebung sollte nur de Grunddee des Glättens mt der wohl enfachsten Idee erklären. Das Verfahren kann st lecht zu verbessern und sollte deshalb ncht verwendet werden. Genaueres zu Glättungmethoden brngt das Kaptel über Nchtparametrsche Regresson. R Resduen angepasste Werte y^ Abbldung 4.2.: Bestmmung des gletenden Mttels: Mttelwerte für zwe vertkale Strefen. j k Wenn Ausresser vorhanden snd, dann sollte sch de Glättung davon ncht berren lassen! Enverstanden? In enem realen Bespel st mmer damt zu rechnen, dass mehrere Voraussetzungen unerfüllt bleben. Methoden, de enzelne Voraussetzungen beurtelen lassen, auch wenn andere verletzt snd, erwesen sch als besonders nützlch. Se erlauben es, de geegneten Verbesserungen zu fnden; ene spezfsche Dagnose ermöglcht de Wahl der wrksamen Therape. Methoden, de auf de Verletzung bestmmter Voraussetzungen weng reageren, hessen robuste Methoden, vergleche 4.5.d. Das gletende Mttel reagert stark auf enen Ausresser, st also n desem Snne ncht robust. Wr verwenden deshalb de robuste Glättungsmethode loess. De Glättung n Abbldung 4.2.f zegt de Abwechung von der Lneartät, de wr n Abbldung 3.1.h von Auge festgestellt haben (4.2.b), deutlch. Ist ene solche Krümmung aufgrund des Zufalls möglch? Oder handelt es sch um ene echte Abwechung, de wr durch de Verbesserung des Modells zum Verschwnden brngen sollten? Es lesse sch en formeller Test angeben, der de entsprechende Nullhypothese prüft Näheres m Kaptel über Nchtparametrsche Regresson. Wr wollen her ene nformelle Methode benützen, de sehr allgemen nützlch st. Das Stchwort hesst Smulaton, (vergleche 2.2.e). Schrtt (1): Man erzeugt Beobachtungen, de dem Modell entsprechen, mt Zufallszahlen. Genauer: Es werden n standard-normalvertelte Zufallszahlen E erzeugt und daraus Y = ŷ + σe bestmmt. Schrtt (2): Man führt de Regressonsrechnung mt den m Datensatz gegebenen Engangs-

58 56 4 RESIDUEN-ANALYSE l Varablen und den neu erzeugten Werten Y der Zelgrösse durch, berechnet de Glättung für das Tukey-Anscombe-Dagramm und zechnet se ns Dagramm der Daten oder n ene separate Darstellung en. Schrtt (rep): Man wederholt dese beden Schrtte n rep Mal. De erzeugten Kurven entstehen aufgrund von zufällgen Schwankungen. De Modellwerte folgen ja exakt enem lnearen Modell dem aus den Daten geschätzten multplen lnearen Regressonsmodell. Nun benützt man weder de Fähgket des Auges zur Mustererkennung, um nformell zu beurtelen, ob de Kurve m ursprünglchen Tukey-Anscombe-Dagramm extremer ausseht als de smulerten. Dabe sollte man ncht nur darauf achten, ob de ursprünglche Glättung n der Bandbrete der smulerten Kurven blebt. Es kann auch de Form der Abwechung untypsch sen. In Anlehnung ans Testen auf dem Nveau 5% = 1/20 wurde von Daves (1995) empfohlen, de durch de ursprünglchen Beobachtungen gegebene Glättung durch n rep = 19 smulerte Kurven zu ergänzen. En nformeller grafscher Test besteht dann darn, de 20 Kurven auf gleche Wese (ohne de Resduen) darzustellen und unbetelgte Personen aufzufordern, de auffällgste auszusuchen. Wenn das de Kurve st, de den Beobachtungen entsprcht, glt de Abwechung als sgnfkant. R Resduen angepasste Werte y^ Abbldung 4.2.l: De Glättung für de Resduen m Tukey-Anscombe-Dagramm ( ) mt 19 smulerten Glättungskurven ( ) In Abbldung 4.2.l wurden de Resduen weggelassen, damt das Bld enfacher wrd. Es zegt sch deutlch, dass de Glättung am lnken und rechten Rand zufällg stärker streut als n der Mtte, was auch ntutv zu erwarten st. De Glättung der Resduen der beobachteten Daten erschent so oder so als de am stärksten gekrümmte Kurve. Damt kann de Abwechung als sgnfkant gelten. m* Statt der enzelnen Kurven kann man en Streuband enzechnen, das zu jedem Wert von ŷ angbt, n welchem Berech n vertkaler Rchtung ene zufällge Glättungskurve legen würde. Dazu sollte n rep wesentlch grösser gewählt werden als 20, damt de Quantle mt vernünftger Genaugket ermttelt werden können. De Formen der zufällgen Kurven gehen dabe verloren. Zudem st de Interpretaton enes solchen Strefens ncht ganz enfach: Macht man daraus ene Testregel, de de Nullhypothese akzeptert, wenn de beobachtete Kurve ganz m Strefen legt, dann st de Irrtumswahrschenlchket höher als das Nveau, das man zur Bestmmung des Streubandes gewählt hat. De Bestmmung enes smultanen Streubandes mt vorgegebener Irrtumswahrschenlchket st schwerg.

59 4.2. RESIDUEN UND ANGEPASSTE WERTE 57 n* Für de Smulaton von Fehlern E kann man statt der vorausgesetzten Normalvertelung auch de emprsche Vertelung der Resduen R verwenden. Das st de Idee der Bootstrap-Methode, de her ncht näher besprochen wrd. Schrtt (2) kann man wesentlch verenfachen: Man rechnet nur de Glättung der smulerten Fehler aus und stellt se dar. (Allenfalls multplzert man de Fehler mt dem Faktor 1 p/n, sehe 4.3.g oder verwendet de emprsche Vertelung der halb-standardserten Resduen R / 1 H, sehe 4.3..) Das vernachlässgt zwar ene Quelle der Zufällgket der Kurve, wrd aber für praktsche Zwecke genau genug sen. o (b) Gleche Varanzen: Ganz analog zu desen Ideen kann man de Voraussetzung der glechen Varanzen prüfen, ndem man zusätzlch zu enem gletenden Mttel ene gletende Standardabwechung nach oben und unten abträgt. De Standardabwechung reagert noch stärker auf Ausresser und sollte deshalb noch drngender durch ene robustere Schätzung ersetzt werden. Ene enfache Möglchket besteht darn, de für de Glättung benützte Methode (lowess) auf de Absolutwerte R der Resduen anzuwenden. Das Programmsystem R lefert en Streudagramm der wurzel-transformerten R gegen de angepassten Werte ŷ (Abbldung 4.2.o), das englsch scale-locaton plot genannt wrd und wr Streuungs-Dagramm nennen wollen. De Kurve fällt lecht, aber ene so mlde Abwechung wäre, auch wenn se sch als sgnfkant herausstellen sollte, unbedeutend. R Wurzel abs. Resduen y^ angepasste Werte Abbldung 4.2.o: Wurzel-transformerte absolute Resduen R gegen angepasste Werte m Bespel der Sprengungen p* De Glättung der (wurzel-transformerten) absoluten Resduen ergbt allerdngs en Streuungsmass, das auch für unendlch vele normalvertelte Beobachtungen ncht glech der Standardabwechung st. Es empfehlt sch, enen entsprechenden Korrekturfaktor enzuführen. Da man ncht an der Streuung an sch, sondern nur an hrer allfällgen Varaton für verschedene Bereche von angepassten Werten nteressert st, kann man darauf auch verzchten.

60 58 4 RESIDUEN-ANALYSE 4.3 Vertelung der Fehler a De Annahme der Normalvertelung ((c) n 4.1.a) kann man unter anderem grafsch überprüfen. Allerdngs kennen wr de Fehler E ncht aber wengstens de Resduen. Das Hstogramm der Resduen kann grafsch mt der geegneten Normalvertelung verglchen werden (Abbldung 4.3.a). Dese st durch den Erwartungswert 0 und de emprsche Varanz der Resduen festgelegt. Abbldung 4.3.a: Hstogramm der Resduen für das Bespel der Sprengungen. * De emprsche Varanz der Resduen st ncht glech der geschätzten Varanz σ 2 der Fehler, sondern glech ( R 2 )/(n 1) = σ2 (n p)/(n 1). Damt das Hstogramm mt der Normalvertelung-Dchte verglechbar wrd, muss de Skala auf der vertkalen Achse so gewählt werden, dass de Summe der Produkte von Balkenhöhe mal Balkenbrete glech 1 wrd. Beachten Se, dass de Überprüfung der Normalvertelung für de Zelgrösse selbst snnlos st, da de Y ja verschedene Erwartungswerte haben. b c d e Ene wetere Darstellungsart, das Normalvertelungs-Dagramm oder der normal plot, beruht auf dem Verglech der Quantle der emprschen Vertelung der Resduen und der Quantle der Normalvertelung (Stahel (2007), 11.3). Im Bespel der Sprengungen zegt sowohl das Hstogramm (vergleche Abbldung 4.3.a) als auch das Normalvertelungs-Dagramm (Abbldung 4.3.c), dass de Daten genähert normalvertelt sen könnten. Es fällt allerdngs en verdächtg extremer Wert auf, en so genannter Ausresser, den wr berets m Tukey-Anscombe-Dagramm gesehen haben. En Hstogramm kann ne perfekt mt ener Dchtekurve überenstmmen. De Häufgketsvertelung der Resduen wrd zufällg mmer weder anders herauskommen, auch wenn Beobachtungen genau nach dem Modell erzeugt werden bespelswese über Zufallszahlen. Welche Abwechungen können noch als ren zufällg gelten? Man kann dese Frage formal mt enem statstschen Test beantworten. Des führt zu den Anpassungstests (goodness of ft tests). Jeder deser Tests prüft ene bestmmte Art von Abwechungen. Wr gehen her ncht näher auf dese Methoden en. Der Vortel ener grafschen Darstellung besteht gerade darn, dass das Auge auch Besonderheten entdeckt, an de man vorher ncht gedacht hat. De Entschedung, ob en Hstogramm nur zufällg von der dealen Vertelung abwecht oder ncht, braucht Übung und dese kann man

61 4.3. VERTEILUNG DER FEHLER Geordnete Resduen Quantle der Standardnormalvertelung Abbldung 4.3.c: Normal plot der Resduen für das Bespel der Sprengungen. sch verschaffen, ndem man durch Smulaton (vergleche 4.2.k) mt dem angepassten Modell mmer neue Datensätze erzeugt. So snd de 6 smulerten Resduen-Hstogramme n Abbldung 4.3.e () und de Normalvertelungs-Dagramme n Abbldung 4.3.e () entstanden sm.resduen sm.resduen sm.resduen sm.resduen sm.resduen sm.resduen Abbldung 4.3.e (): Hstogramme von Resduen aus 6 smulerten Sätzen von Y -Werten m Bespel der Sprengungen Nützlch st es auch, analog zur Untersuchung der zufällgen Varaton der Glättungen n 4.2.k vorzugehen und n rep smulerte Normalvertelungs-Dagramme überenander oder den daraus ermttelten Streustrefen zu zechnen.

62 60 4 RESIDUEN-ANALYSE Quantles of Standard Normal Quantles of Standard Normal Quantles of Standard Normal Quantles of Standard Normal Quantles of Standard Normal Quantles of Standard Normal Abbldung 4.3.e (): Quantl-Quantl-Dagramme von Resduen aus 6 smulerten Sätzen von Y -Werten m Bespel der Sprengungen f g Be desen Betrachtungen haben wr, we engangs angedeutet, en weng geschummelt. Wr wollen ja de Vertelung der Zufallsfehler E überprüfen, haben aber de Resduen R benützt, und das st ncht dasselbe. Das st mt Hlfe von Matrxalgebra ncht schwerg zu untersuchen, we Anhang 4.A zegt. Her de Ergebnsse: Falls de Fehler normalvertelt snd, so snd es de Resduen von ener Klenste-Quadrate-Schätzung ebenfalls. Aber se haben ncht de gleche theoretsche Varanz, auch wenn de Fehler des erfüllen; var R hängt von [x (1), x (2),... ] ab! (Verwrrt Se de Betrachtung der Varanz enes Resduums? Jedes R st ja ene Zufallsvarable, de ene theoretsche Varanz hat ncht zu verwechseln mt der emprschen Varanz, de es mmer nur für ene Stchprobe gbt, her also für alle Resduen zusammen.) Es st var R = (1 H ) σ 2. De Grösse H st ene Funkton aller x (j). Se hesst englsch leverage, was wr mt Hebelarm übersetzen wollen, und wrd oft als h notert. h De Hebelarm-Werte haben enge anschaulche Bedeutungen: Wenn man enen Wert Y um y verändert, dann msst H y de Veränderung des zugehörgen angepassten Wertes ŷ. Wenn H also gross st, dann zwngt de te Beobachtung de Regressons-Funkton, sch an se stark anzupassen. Se hat ene grosse Hebelwrkung daher der Name. Das macht auch das Ergebns über de Varanzen qualtatv plausbel: Wenn de te Beobachtung de Regressonfunkton stark an sch zeht, wrd de Abwechung R tendenzell gernger, also de Varanz von R klener. Hebelpunkte n der Physk snd solche, de wet vom Drehpunkt entfernt snd. In unserem Zusammenhang hesst das, dass se n gewssem Snne wet vom grossen Haufen der Punkte weg snd, was de x-varablen betrfft.

63 4.4. ZIELGRÖSSE TRANSFORMIEREN? 61 * De H snd für de enfache Regresson glech (1/n) + (x x) 2 /SSQ (X), also ene enfache Funkton des quadrerten Abstandes vom Schwerpunkt x. In der multplen Regresson snd se ene ebenso enfache Funkton der so genannten Mahalanobs-Dstanz. De leverages legen zwschen 0 und 1. Ihr Mttelwert muss mmer glech p/n sen. Damt de Resduen wrklch de gleche Vertelung haben, muss man se also standardseren! Man soll also für de Überprüfung der Vertelung de standardserten Resduen R = R /( σ 1 H ) verwenden. Das Gleche glt für das Streuungs-Dagramm, das zegen soll, ob de Varanzen der Fehler glech sen können, was bedeutet, dass de Varanzen der standardserten Resduen glech snd. Mestens snd allerdngs de Unterschede zwschen den Varanzen var R klen, so dass man auch unstandardserte Resduen für dese Analyse verwenden kann. Wesentlch wrd de Unterschedung n der gewchteten Regresson, sehe Zelgrösse transformeren? a b c Nachdem jetzt enge Dagnose-Instrumente engeführt snd, können wr de ersten Syndrome und Therapen besprechen. Dazu gehen wr den umgekehrten Weg von ener bekannten Krankhet zu den entsprechenden Symptomen. Im Bespel der Sprengungen wurde auf Grund von grafschen Darstellungen und theoretschen Überlegungen de Zelgrösse Erschütterung logarthmert. We würden de besprochenen grafschen Darstellungen aussehen, wenn de Zelgrösse ncht transformert worden wäre? Abbldung 4.4.a zegt es! Am augenfällgsten st das Muster m Tukey-Anscombe-Dagramm: Es zegt sch ene nach oben gekrümmte Glättung, ene nach rechts trchterförmg zunehmende Streuung, m rechten Tel ene schefe Vertelung der Resduen bs auf enen Ausresser nach unten. Im Streuungs-Dagramm wrd de Zunahme der Streuung gegen rechts ebenfalls klar. Se würde noch klarer, wenn Abwechungen von der Glättungskurve m Tukey-Anscombe-Dagramm statt der Resduen des (falschen) Modells verwendet würden. De Vertelung der standardserten Resduen zegt ebenfalls ene gewsse Schefe. Wenn man de smulerten Blder aus dem letzten Abschntt anseht (4.3.e), blebt allerdngs unklar, ob ene solche Abwechung auch zufällg zustande kommen könnte. De dre erwähnten Symptome blden en Syndrom, das nach ener Transformaton Ỹ = g Y der Zelgrösse ruft, und zwar mt ener Funkton g, de ene postve Schefe verklenert. Im vorlegenden Bespel st de Lösung schon bekannt: Wenn de Zelgrösse logarthmert wrd, passt das Modell recht gut, we wr berets wssen. De Logarthmusfunkton st allerdngs nur ene unter velen, de de Schefe ener Vertelung reduzeren; alle monoton zunehmenden, nach unten gekrümmten (konkaven) Funktonen kommen her n Frage. Ene wetere, oft verwendete Funkton st de (Quadrat-) Wurzel, de wenger stark wrkt.

64 62 4 RESIDUEN-ANALYSE Abbldung 4.4.a: Tukey-Anscombe-Dagramm mt Streuungs-Dagramm und Hstogramm und Normalvertelungs-Dagramm der standardserten Resduen Als Transformatonen der Zelgrösse kommen m vorlegenden Zusammenhang umkehrbare oder monotone Funktonen n Frage. Würde ene Funkton verwendet, de zwe verschedenen Werten der ursprünglchen den glechen Wert der transformerten Zelgrösse zuwest, dann würde damt de Art des untersuchten Zusammenhanges grundsätzlch verändert. Das sprengt den Rahmen der Veränderung des Modells zwecks besserer Erfüllung der Voraussetzungen. Als Grenzfall snd Funktonen zulässg, de ncht strkt, sondern nur schwach monoton snd, für de also zusammenhängenden Intervallen der ursprünglchen Grösse allenfalls der gleche transformerte Wert zugewesen wrd. Wr kommen auf möglche Transformatonen glech zurück. d Im Bespel der basschen Böden zegt das Tukey-Anscombe-Dagramm (Abbldung 4.4.d) en analoges Bld we das Spreng-Bespel mt untransformerter Zelgrösse n umgekehrter Rchtung und vel schwächer: De Glättung zegt ene lechte Krümmung nach unten, de Streuung nmmt (für ŷ > 4) gegen rechts lecht ab und de Vertelung der Resduen st auf de unüblche Sete schef. Her hlft ene Transformaton, de ene negatve Schefe reduzert, also ene mt ener monoton zunehmenden, konvexen Funkton. Erfahrung und Proberen führte n desem Fall zu Ỹ = Y 2. Das Tukey-Anscombe-Dagramm zegt danach kene Abwechungen von den Modellannahmen mehr. De Resduen snd etwa symmetrsch vertelt.

65 4.4. ZIELGRÖSSE TRANSFORMIEREN? 63 Abbldung 4.4.d: Tukey-Anscombe-Dagramm für das Bespel der basschen Böden * De Transformaton Ỹ = Y 2 st selten nützlch. Se st auch ncht de enzg rchtge, sondern ene enfache, de zum Zel führt. Man kann versuchen, plausbel zu machen, weshalb ene solche Transformaton n desem Bespel ene Bedeutung hat: Vellecht st de quadrerte Baumhöhe etwa proportonal zur Blattfläche. e f g h En Glücksfall, dass alle Abwechungen mt der glechen Transformaton besetgt werden können! Deser Glücksfall trtt erstaunlch häufg en. (Wenn Se gerne phlosopheren, können Se sch nach dem Grund deser emprschen Erschenung fragen, de allerdngs wohl kaum je mt ener emprschen Untersuchung quanttatv erfasst wurde.) Welche Transformatonen soll man n Betracht zehen, um das beschrebene Syndrom zu kureren? De folgenden Empfehlungen beruhen weder auf Erfahrungen der angewandten Statstk, auf Plausbltät, Enfachhet und ähnlchen unexakten Grundlagen. Als nützlch erwesen sch sehr oft de Logarthmus-Transformaton für Konzentratonen und Beträge also für stetge Zufallsvarable, de nur postve Werte haben können de Wurzeltransformaton für Zähldaten und de so genannte Arcus-Snus-Transformaton ỹ = arcsn y für Antele (Prozentzahlen/100). Dese Transformatonen haben von J. W. Tukey den Namen frst ad transformatons erhalten und sollten für solche Daten mmer angewendet werden, wenn es kene Gegengründe gbt und zwar auch für Engangs-Varable. Wenn n ener enfachen Regresson sowohl de Engangs-Varable als auch de Zelgrösse Konzentratonen snd, führt de Regel zu Ỹ = log 10 Y und X = log 10 X. Aus Ỹ = α + β x + E wrd log 10 Y = α + β log 10 x + E und Y = 10 α x β 10 E,

66 64 4 RESIDUEN-ANALYSE also en Potenzgesetz für de ursprünglchen Grössen (vergleche 2.1.d). Falls β = 1 st, snd de Konzentratonen proportonal bs auf enen multplkatven zufällgen Fehler. Wenn das lneare Modell der logarthmerten Grössen wetere Terme enthält, dann wrken dese auf de untransformerte Zelgrösse multplkatv. Für ene zusätzlche kontnuerlche Engangsgrösse kommt en multplkatver Potenz-Term x (2) β 2 hnzu. Im Fall ener Indkator-Varablen, bespelswese für ene neue Behandlung, st de Wrkung enfacher: De neue Behandlung bewrkt gemäss Modell ene proportonal Erhöhung (oder Ernedrgung) von Y um den Faktor 10 β 2. De Logarthmus-Transformaton st also von besonderer Bedeutung. Se st vom datenanalytschen Geschtspunkt her dann rchtg, wenn de Standardabwechung der Resduen etwa proportonal zu den angepassten Werten st. Se st allerdngs nur anwendbar, wenn de Zelgrösse nur postve Werte haben kann. Das allerdngs glt oft auch für Varable, für de der Wert 0 auftreten kann. Man muss dann de Logarthmus-Transformaton lecht abändern, damt de Nullen ncht wegfallen. Beobachtungen mt Y = 0, also dejengen mt dem klensten Wert der Zelgrösse, wegfallen zu lassen, müsste zu ener systematschen Verfälschung der Resultate führen! De enfachste Formel zur Abänderung der Logarthmus-Funkton lautet Ỹ = log Y + c mt ener geegneten Konstanten c. Oft seht man, gemäss dem Prnzp der Enfachhet, de Wahl von c = 1. Da de Wrkung deser Wahl stark vom Berech der untransformerten Werte Y abhängt, sollte man dese Wahl eher als enfältg bezechnen. De Wahl soll von der Vertelung der postven Y abhängen. Wären dese lognormal vertelt, dann würde c = med Y k /s 2.9 mt s = med Y k /q 0.25 Y k ene Schätzung für das 2.5%-Quantl ergeben (q 0.25 st das untere Quartl). Dese Konstante hat also de gleche Grössenordnung we de klensten postven beobachteten Werte. Ihre Wahl st mmer noch wllkürlch, aber se macht de Wrkung der Transformaton wengstens von der Wahl der Messenhet von Y unabhängg. j* Box-Cox-Transformatonen. Damt man möglchst ncht-schefe Fehler-Vertelungen errechen kann, kann man ene ganze Famle von Transformatonen enführen. Von Box und Cox stammt der Vorschlag x λ 1 g λ (x) = für λ 0, λ. ln x für λ = 0 (für postve x). Bs auf Verschebung um 1 und Multplkaton mt 1/λ snd des de Potenzen x λ. Dese Skalerung hat den Vortel, dass m Grenzfall λ 0 de Logarthmus-Funkton herauskommt, was de Defnton für desen Fall begründet. De Schefe wrd grösser für λ > 1; für λ < 1 nmmt de Schefe ab. Es wurde auch vorgeschlagen, de Grösse λ als zusätzlchen Parameter ns Modell aufzunehmen und nach dem Prnzp der Maxmalen Lkelhood zu schätzen. Für de Interpretaton kann es enfacher sen, sch auf enfache Werte von λ zu beschränken we: Quadrat: λ = 2; kene Transformaton (bs auf ene Verschebung um 1): λ = 1; Quadrat-Wurzel: λ = 0.5; Logarthmus: λ = 0; Kehrwert: λ = 1. k l We de Betrachtung n 4.4.h deutlch macht, ändert sch mt der Transformaton der Zelgrösse auch de Regressonsfunkton. In engen Anwendungen st das ncht zulässg, da de (lneare) Regressonsfunkton für de untransformerte Zelgrösse theoretsch begründet st. Das glt bespelswese für de Schadstoffe m Tunnel (1.1.f): De gesamten Schadstoffe setzen sch nach ener offenschtlchen physkalschen Gesetz addtv aus den Schadstoffen zusammen, de de beden Fahrzeugkategoren ausstossen. In enem solchen Fall muss man zu enem allgemeneren Regressonsmodell übergehen, ndem man entweder de Voraussetzungen der glechen Varanz (b) und der Normalvertelung (c) fallen lässt oder en ncht-lneares Modell verwendet. Wenn kene Theore de Transformaton verbetet, kann es natürlch noch vorkommen, dass der erwähnte Glücksfall ncht entrtt, dass also ene Krümmung der Glättung, ene Abhänggket der Varanz vom angepassten Wert und de Form der Vertelung der Resduen ncht durch ene

67 4.5. AUSREISSER UND LANGSCHWÄNZIGE VERTEILUNG 65 enzge Transformaton aus der Welt zu schaffen snd. Snd zum Bespel de Glechhet der Varanzen (b) und de Normalvertelung (c) n Ordnung, aber de Regressonsfunkton verbesserungsbedürftg, dann soll man zunächst prüfen, ob se sch durch Transformatonen der Engangs-Varablen oder durch Zusatzterme lnearseren lässt (sehe Abschntt 4.6). Wenn das ncht hlft, kann man de Zelgrösse trotzdem transformeren und nachher de anderen Voraussetzungen, de dann verletzt sen können, durch Gewchtung und robuste Schätzung berückschtgen. m Gekrümmte Glättungen m Tukey-Anscombe-Dagramm lassen sch ncht mmer mt Transformaton der Zelgrösse kureren. Wenn bespelswese n ener enfachen Regresson de wahre Regressonsfunkton quadratsch st (vergleche 3.2.v), dann ergbt sch ene gekrümmte Glättung. Wenn de Funkton m Berech der Daten en Maxmum oder en Mnmum zegt, dann blebt das auch erhalten, wenn man de Zelgrösse (monoton) transformert. Ene monotone Transformaton der Zelgrösse kann enen Zusammenhang mt ener Engangsgrösse nur dann lnear machen, wenn deser Zusammenhang selbst monoton st. Nun snd m Tukey-Anscombe-Dagramm n vertkaler Rchtung de Resduen abgetragen, ncht de Y -Werte. Man kann also entweder zum Dagramm der beobachteten Y -Werte gegen de angepassten zurückgehen (3.1.h) oder ns Tukey-Anscombe-Dagramm ene Referenzlne enzechnen, de Punkte mt glechen Y -Werten verbndet, we des n 4.2.g erwähnt wurde. Ene monotone Transformaton der Zelgrösse kann nur helfen, wenn de Glättung jede Parallele zur Referenzlne (jede Gerade der Form Y = konstant) nur enmal schnedet. 4.5 Ausresser und langschwänzge Vertelung a b Im Bespel der Sprengungen haben wr ene oder zwe Beobachtungen als Ausresser bezechnet. Der Begrff des Ausressers st ncht klar defnert. Es handelt sch um ene Beobachtung, de schlecht zu enem Modell passt, das für de Mehrhet der Daten angebracht st. Im Fall ener enfachen Stchprobe st en Ausresser ene Beobachtung, de, gemessen an der Streuung der Daten, wet vom Medan entfernt st. In der Regresson spelt das Modell ene wesentlche Rolle. Vor allem haben Transformatonen enen starken Enfluss darauf, welche Beobachtungen extreme Resduen erhalten. * Ausresser st damt en vager Begrff. Dass dese n der Datenanalyse ene wchtge Funkton haben, auch wenn se von Mathematkern mestens ncht gelebt werden, hat J. W. Tukey betont. Se helfen, de nötgen Präzserungen durch wohldefnerte Masszahlen krtsch zu hnterfragen und alternatve Operatonalserungen vorzuschlagen. Was soll man tun mt Ausressern? Zunächst sollen se de zugehörgen Daten auf Rchtgket überprüft werden. Es st lecht enzusehen, dass Ausresser m Tukey-Anscombe-Dagramm durch grobe Fehler sowohl n der Zelgrösse als auch n ener wchtgen erklärenden Grösse verursacht sen können. Fndet man kene genügenden Gründe, an der Rchtgket der Werte zu zwefeln, dann wrd man zunächst mt den weteren Methoden der Resduen-Analyse nach Erklärungen für de ungewöhnlche Beobachtung und Verbesserungen des Modells suchen. Ausresser snd (we m menschlchen Zusammenhang) etwas Besonderes, aber nchts Schlechtes, sondern manchmal de wertvollsten Beobachtungen m Datensatz! Fördert auch de Suche nach Modell-Veränderungen nchts zu Tage, dann kann der Ausresser auch durch ene ungewöhnlch grosse Zufallsabwechung zustande gekommen sen; solche werden durch langschwänzge Vertelungen mt grösserer Wahrschenlchket erzeugt.

68 66 4 RESIDUEN-ANALYSE c Schefe Vertelungen versucht man, we m vorhergen Abschntt erwähnt, durch Transformatonen zum Verschwnden zu brngen. Zegt der normal plot ene engermassen symmetrsche Vertelung, de aber langschwänzg st, dann nützen Transformatonen der Zelgrösse mestens nchts. Man kann de extremsten Beobachtungen weglassen, bs de Langschwänzgket verschwndet oder zu vele (z. B. mehr als 5%) elmnert werden. Resultate, de man mt den übrggeblebenen Beobachtungen erhält, snd aber mt Vorscht zu benützen. Be Tests und Vertrauensntervallen stmmt de Irrtums-Wahrschenlchket ncht mehr. De weggelassenen Beobachtungen soll man als Ausresser auf hre Rchtgket spezell überprüfen, und auf alle Fälle snd se m Bercht zu erwähnen. d* De Klenste-Quadrate-Methoden snd be langschwänzgen Vertelungen der Fehler ncht optmal. Robuste Methoden snd n desem Fall deutlch besser; se lefern effzentere Schätzungen und mächtgere Tests. Gleches glt, wenn sch enzelne Ausresser zegen; der Fall ener Normalvertelung mt Ausressern st en Spezalfall ener langschwänzgen Vertelung. 4.6 Resduen und Engangs-Varable a Im Tukey-Anscombe-Dagramm können sch Abwechungen von der angenommenen Form der Regressonsfunkton und von der Voraussetzung der glechen Varanzen zegen. Ähnlches kann auch zu Tage treten, wenn als horzontale Achse statt Ŷ ene Engangs-Varable gewählt wrd. Abbldung 4.6.a zegt dese Streudagramme für de zwe kontnuerlchen Engangsgrössen m Bespel der Sprengungen. Weder wurden zur Beurtelung der Glättung 19 zufällge Glättungen engezechnet. Abbldung 4.6.a: Streudagramme der Resduen gegen zwe Engangs-Varable, mt Glättung ( ) und Referenzlne Y =konstant ( ) b We bem Tukey-Anscombe-Dagramm erschent auch her ene Referenzlne, de Punkte glecher Y -Werte verbnden soll. Da Y aber ncht de Summe ener lnearen Funkton von x (j) und dem Resduum R st, st de genaue Bedeutung der Referenzgeraden etwas komplzerter zu formuleren: se verbndet Punkte, für de de Summe aus dem geschätzten Effekt der betrachteten Engangs-Varablen X (j) und den Resduen, also β j x (j) + R = const

69 4.6. RESIDUEN UND EINGANGS-VARIABLE 67 st. Der erste Term wrd m Englschen auch component effect genannt. De Summe der beden kann auch geschreben werden als Y β l j l x (l), was als beobachteten Wert, korrgert für de Effekte der anderen Regressoren, angesprochen werden kann. Wenn en Regressor X (j) durch Transformaton aus ener (oder mehreren) Engangs-Varablen U (j) ausgerechnet wurde, stellt sch de Frage, ob de Resduen gegen de untransformerte oder de transformerte Varable dargestellt werden sollen. Im Bespel wurden sowohl de Dstanz als auch de Ladung logarthmert. In der Abbldung wurden de untransformerten Werte benützt, was dazu führt, dass de Referenzlne kene Geraden st. De Begründung für dese Wahl folgt unten (4.6.e). c Ene Abwechung der Form der Regressonsfunkton, de sch m Streudagramm der Resduen gegen X (j) allenfalls zegt, kann oft durch Transformaton der Engangs-Varablen X (j) zum Verschwnden gebracht werden. Häufg wrd man ene solche Abwechung berets m Tukey-Anscombe-Dagramm gesehen haben. Vellecht musste man aber auf ene Transformaton der Zelgrösse verzchten, wel sonst de vorhandene Symmetre und Glechhet der Varanzen der Resduen zerstört worden wäre. Kann ene monotone Transformaton von U (j) helfen? We m Tukey-Anscombe-Dagramm hlft de Referenzlne, dese Frage zu beantworten. De Dfferenz zwschen der Nulllne (der horzontalen Achse) und der Referenzlne msst den Enfluss der Engangsgrösse U (j) auf de Zelgrösse gemäss Modell. De Dfferenz zwschen der Glättung und der Referenzlne dagegen zegt, we der Enfluss geschätzt wrd, wenn er ncht auf de lneare Form β j X (j) engeschränkt wrd. Wenn dese Dfferenz ncht lnear, aber mmerhn monoton zunmmt oder monoton abnmmt, kann ene monotone Transformaton der Engangs-Varablen helfen. Im Bespel st deser flexbel geschätzte Enfluss für klene Dstanzen klener und für grosse Dstanzen grösser als der Enfluss gemäss Modell. Würde de Glättung der Nulllne folgen, dann würde der Enfluss gerade der m Modell angenommenen Form entsprechen. Da der flexbel geschätzte Enfluss de Dfferenz zwschen Glättung und Referenzlne mmerhn monoton mt der Engangs-Varablen abnmmt, hat man mt ener monotonen Transformaton deser Varablen ene Chance, de Krümmung weg zu brngen. De Transformaton müsste grosse Werte der Engangs-Varablen ausenander zehen. Da es sch um den Logarthmus der Dstanz handelt, kann man es mt ent-logarthmeren versuchen. Konsequenterwese ent-logarthmeren wr auch de Engangsgrösse Ladung. Abbldung 4.6.c zegt de Dagramme für das entsprechend geänderte Modell. De Transformaton zegt für de Dstanz den erwünschten Erfolg. Für de Ladung st de Wrkung gerng; de Logarthmus-Transformaton wrkt für de Ladung näherungswese als lneare Funkton, da der Varatonskoeffzent relatv klen st. Im vorlegenden Fall haben de (Rück-) Transformatonen den Nachtel, dass de enfache physkalsche Interpretaton verloren geht. Wenn wr nur an guter Vorhersage nteressert snd, können wr auf de Begründung verzchten. Allerdngs st be der Verallgemenerbarket der Stude auf andere Tunnels dann erhöhte Skepss am Platz. d Wenn kene Transformaton von X (j) zum Zel führt, kann en zusätzlcher, quadratscher Term X (j)2 helfen. Ene enfache lneare Regresson wrd dann zu ener quadratschen (sehe 3.2.v). e* Weso werden n den Darstellungen ncht de transformerten Varablen für de horzontale Achse verwendet? Wenn de Transformaton ncht erfolgrech war, dann sollte man enen neuen Versuch starten. Wurde de transformerte Varable auf der horzontalen Achse verwendet, dann kann de Abbldung nur ene Transformaton der Transformerten nahelegen das kann zu ener komplzerten, weng snnvollen Lösung führen. Wenn de untransformerte Varable verwendet wrd, kann man mt der Abbldung drekt ene neue, enfache Transformaton bestmmen. Falls en quadratscher Term m Modell vorkommt, st es weng snnvoll, de Resduen gegen desen Regressor aufzutragen. Es st nformatver, de untransfor-

70 68 4 RESIDUEN-ANALYSE Resduen Dstanz Ladung Abbldung 4.6.c: Streudagramm der Resduen gegen de Engangsgrössen Dstanz und Ladung, de her unlogarthmert m Modell stehen merte Engangsgrösse zu verwenden, und dese st normalerwese soweso ebenfalls m Modell vorhanden, weshalb für se so oder so ene entsprechende Abbldung gezechnet wrd. Deshalb werden von der Funkton regr de Resduen gegen alle n der Modellformel vorkommenden Varablen aufgetragen, ncht gegen Regressoren resp. Terme der Formel. Wenn Wechselwrkungen m Modell snd (oder andere Regressoren, de aus mehreren Engangsgrössen berechnet werden), muss neu geklärt werden, we der Effekt ener Engangsgrösse U (j) gemessen werden soll. Antwort: Man setzt alle anderen Engangs-Varablen auf enen typschen Wert u k (Medan für kontnuerlche und Modus für kategorelle Varable) und verwendet de Vorhersage ŷ u 1,..., u j 1, U (j), u j+1,... als Funkton des varerenden U (j) als component effect γ (j). f g Im Modell wrd als nächstes vorausgesetzt, dass de Effekte von zwe Engangs-Varablen sch adderen. Dese Annahme soll ebenfalls grafsch überprüft werden. Dazu braucht es en dredmensonales Streudagramm von x (j), x (k) und den Resduen R. Etlche Programme erlauben es, enen dredmensonalen Endruck auf enem zwedmensonalen Bldschrm durch Echtzet-Rotaton zu gewnnen. Auf dem Paper st der dredmensonale Endruck schwerger zu errechen. Abbldung 4.6.f zegt ene spezelle Art der Darstellung für das Bespel der Sprengungen. Darn wrd de Grösse des ten Resduums durch en strchförmges Symbol dargestellt, das am Ort [x (1), x (2) ] platzert wrd. De Länge des Strches st proportonal zum Absolutbetrag des Resduums und de Stegung von +1 oder 1 gbt das Vorzechen weder. Im lnken Dagramm snd de beden Engangs-Varablen kontnuerlch. Wenn n enem solchen Dagramm Gebete schtbar werden, n denen de mesten Strche n der enen Rchtung verlaufen, deutet des ene so genannte Wechselwrkung an. Der enfachste Fall besteht darn, dass de Resduen lnks unten und rechts oben vorwegend postv und lnks oben und rechts unten eher negatv snd oder umgekehrt. Ene solche Wechselwrkung kann de durch enen zusätzlchen Term + β m+1 x (m+1) mt x (m+1) = x (j) x (k) m Modell berückschtgt werden kann. Im rechten Dagramm st de n vertkaler Rchtung gezechnete Varable en Faktor (de Stelle). Es zegt sch für Stelle 1 ene Tendenz zu negatven Resduen für grosse und postven für klenere Dstanzen; für Stelle 3 st es gerade umgekehrt. Das deutet ene Wechselwrkung zwschen dem Faktor Stelle und der (logarthmerten) Dstanz an, vergleche 3.2.t. Ene solche Wechselwrkung lässt sch noch enfacher entdecken n enem Streudagramm der Resduen gegen de kontnuerlche Engangs-Varable, mt verschedenen Symbolen für de verschedenen Faktor-

71 4.6. RESIDUEN UND EINGANGS-VARIABLE 69 log(ladung) log(dstanz) Abbldung 4.6.f (): Resduen n Abhänggket von zwe Engangs-Varablen m Bespel der Sprengungen werte (Abbldung 4.6.g ()). Resduen log(dstanz) Abbldung 4.6.g (): Resduen gegen ene Engangs-Varable, mt verschedenen Symbolen und Glättungen für de verschedenen Werte enes Faktors h In den Streudagrammen der Resduen gegen de Engangs-Varablen kann sch auch zegen, dass de Streuung der Resduen von X (j) abhängt. Dann gbt de gewchtete Regresson korrekte Ergebnsse.

72 70 4 RESIDUEN-ANALYSE 4.7 Gewchtete lneare Regresson a b De Varanzen der enzelnen Zufallsfehler, de wr mt σ 2 = var E bezechnen wollen, sollen nun ncht mehr als glech (= σ 2 ) vorausgesetzt werden. Wr gehen zunächst davon aus, dass de σ 2 bekannt seen. Dann st es scher snnvoll, den Beobachtungen mt klenerer Zufallsstreuung, also den präzseren Beobachtungen, n der Regressonsrechnung grösseres Gewcht zu geben. Statt der gewöhnlchen Quadratsumme SSQ (E) kann man ene gewchtete Verson davon, w R 2, mnmeren. De Gewchte w sollen für stegende σ fallen. Nach dem Prnzp der Maxmalen Lkelhood st w = 1/σ 2 optmal. * De Wahrschenlchkets-Dchte für ene Beobachtung Y = y st unter deser Annahme nämlch 1/(σ 2π) exp (r 2 /(2σ 2) (mt r = y (β0 + j β j x(j) )). We n 2.A.0.a) ergbt sch durch Logarthmeren und Summeren de Quadratsumme, desmal de gewchtete. Bespel starke Wechselwrkung. In Expermenten der Hochenerge-Physk wurde n den 1970er Jahren de starke Wechselwrkungskraft untersucht. In enem Versuch trfft en Elementartelchenstrahl auf ene Protonenquelle, und es entstehen verschedene neue Elementartelchen, von denen ene Sorte durch enen Detektor erfasst wrd. Genaueres fndet man n Wesberg (2005, Ex. 4.1). u Y σ u Y σ Tabelle 4.7.b: Daten des Bespels der starken Wechselwrkung: Energe des Telchenstromes u, Antel erfasste Telchen Y und Standardabwechung σ der Zufalls-Abwechungen E De Daten n Tabelle 4.7.b enthalten de Energe u des Telchenstromes und de Zelgrösse Y, de proportonal zum Verhältns der erfassten Telchen zu den engeschossenen Telchen st. Zudem kann man ene theoretsche Standardabwechung σ für jedes Y (oder jeder Zufalls-Abwechung E ) bestmmen; dese Grössen snd n der Tabelle ebenfalls enthalten. Für bede Grössen bldet de Logarthmus-Funkton de frst ad transformaton. Deshalb snd de beden Varablen n Abbldung 4.7.b lnks mt logarthmschen Skalen gezegt. Gemäss ener Theore sollte Y β 0 + β 1 u 1/2 sen. Das Streudagramm der Zelgrösse gegen x = u 1/2 (rechtes Dagramm) sollte gemäss Theore enen lnearen Zusammenhang zegen. Er seht eher quadratsch aus. Dennoch wrd auch ene enfache lneare Regresson angepasst. Man kann fragen (s. 4.8.a), ob de Abwechungen auch zufällg sen könnten. c Nun kennt man de Standardabwechung σ sozusagen ne. Es genügt aber, de relatven Genaugketen oder Streuungen zu kennen, also var E = σ 2 v anzunehmen, wobe man v kennt und nur σ aus den Daten bestmmen muss. Man mnmert dann R2 /v. Im vorhergehenden Abschntt wurde erwähnt, dass sch n enem Streudagramm der Resduen gegen ene Engangsgrösse U (j) zegen kann, dass de Streuung von U (j) abhängt. Dann kann man versuchen, ene Funkton v anzugeben, de dese Abhänggket beschrebt, für de also var E σ 2 v u (j) angenommen werden kann. Nun wendet man gewchtete Regresson an mt den Gewchten w = 1/v u (j). * Schwerger wrd de Überlegung, wenn de Streuung der Resduen vom angepassten Wert ŷ abhängt. Man geht dann oft so vor, dass man zuerst das Modell ohne Gewchte anpasst und de so berechneten

73 4.7. GEWICHTETE LINEARE REGRESSION 71 Abbldung 4.7.b: Daten des Bespels der starken Wechselwrkung mt logarthmschen Achsen (lnks) und mt transformerter Energe (rechts). Im zweten Fall snd de geschätzten Regressonsfunktonen mt lnearem Modell (entsprechend der physkalschen Theore) und quadratschem Modell engezechnet. angepassten Werte als Grundlage für ene verfenerte, gewchtete Regressonsrechnung benützt. En solches Vorgehen brgt aber Tücken vor allem, wenn man auf de Idee verfällt, es zu wederholen: De geschätzte Regressonsfunkton kann sch dann zu sehr an (zufällgerwese) klen ausgefallene Y -Werte anpassen. d Es st ncht schwerg, de Koeffzenten, de de gewchtete Quadratsumme mnmeren, anzugeben und hre Vertelung auszurechnen, sehe 4.e. Es se W de Dagonalmatrx mt den Dagonal-Elementen w. Dann wrd β = ( X T W X ) 1 X T W Y. De Schätzung st mmer noch erwartungstreu und de Varanzen der β j snd glech den Dagonalelementen von σ 2 ( X T W X ) 1. Schlesslch st de Varanz enes Resduums R wchtg für de Bestmmung von standardserten Resduen. Dese werden /( R = R σ ) 1/w (H W ) mt H W = X(X T W X) 1 X T. e Welche Resduen soll man n grafschen Darstellungen verwenden? Nun st der Untersched zwschen standardserten und unstandardserten Resduen ncht mehr zu vernachlässgen. Generell glt: Für de Beurtelung der Vertelung (m Normalvertelungs-Dagramm) und der Streuung der Fehler (m Streuungs-Dagramm) verwendet man standardserte Resduen. Wenn es um de Egnung der Regressonsfunkton geht (Tukey-Anscombe Dagramm und Streudagramme der Resduen gegen de erklärenden Varablen), kommen unstandardserte Resduen zum Zug. In beden Fällen st es snnvoll, de Gewchte w durch de Grösse der gezechneten Symbole darzustellen.

74 72 4 RESIDUEN-ANALYSE f Zur Überprüfung der Wahl der Gewchte sollen de Resduen analog zum Streuungs-Dagramm gegen de Gewchte selbst aufgetragen werden. Für das Bespel der starken Wechselwrkung mt quadratschem Modell zegt Abbldung 4.7.f kene Hnwese, dass de Streuung der standardserten Resduen von den Gewchten abhängen würden. De Gewchtung schent damt n Ordnung zu sen. De engezechnete Glättung (de, we m scale-locaton plot (4.2.o) für wurzeltransformerte Absolutwerte gerechnet und zum Zechnen zurücktransformert wurde) st kaum ernst zu nehmen, da de Zahl der Beobachtungen zu klen st. Abbldung 4.7.f: Absolute Resduen aus dem quadratschen Modell gegen Gewchte m Bespel der starken Wechselwrkung 4.8 * Gesamthafte Überprüfung a* Resduenanalysen können zu mmer neuen Ideen führen, we das Modell noch zu verbessern wäre. Idealerwese möchte man ene Methode haben, de sagt, wann es genug st. Ene Idee zu ener solchen Methode beruht darauf, dass das Modell genügt, wenn de Resduen sch m Berech der natürlchen Streuung der Fehler bewegen. In gewssen Stuatonen kennt man ene solche Streuung, bespelswese ene Mess-Ungenaugket. In anderen Fällen gbt es Methoden, ene natürlchen Streuung der Fehler zu schätzen. De Grunddee aller Tests für de Anpassung oder den lack of ft besteht darn, de mt der Regressonsmethodk geschätzte Varanz σ 2 der Fehler mt ener anderen Schätzung σ 2 zu verglechen, de unabhängg davon gewonnen wrd. Falls das Modell stmmt, sollte σ 2 σ 2 sen. Andernfalls st σ 2 grösser, wel de Resduen R zusätzlch zur zufällgen Streuung noch enen systematschen Fehler enthalten. De Testgrösse st jewels das Verhältns T = σ 2 / σ 2. Ist dese Grösse sgnfkant grösser als 1, dann muss das Modell als unvollständg gelten.

75 4.8. * GESAMTHAFTE ÜBERPRÜFUNG 73 b* Gegen solche Tests müssen allerdngs de glechen Bedenken we gegen alle Anpassungstests angefügt werden: De Anwendung von Tests st für dese Problemstellung egentlch ncht angebracht, denn man möchte gerne de Nullhypothese bewesen. Das st bekanntlch ncht möglch; wr können ene Nullhypothese nur verwerfen oder bebehalten. Es kann gut sen, dass de Voraussetzung, de überprüft werden soll, verletzt st, und dass trotzdem ken sgnfkantes Testergebns entsteht (Fehler 2. Art). c* Der enfachste Fall legt vor, wenn ene Varanz für de Fehler aus ener anderen Quelle bekannt st. Das st der Fall, wenn Angaben zur Messgenaugket der Zelgrösse vorlegen. Allerdngs snd dese oft vorschtg, also de Ungenaugketen grösser angegeben, als se n Wrklchket snd. Snd de Ungenaugketen der Messfehler durch σ 2 = var E gegeben, dann lautet de Testgrösse T = R2 /σ2 ; se st chquadrat-vertelt, χ2 n p, falls de Varanzen stmmen und man se be der Schätzung mt gewchteter Regresson berückschtgt hat. d* Im Bespel der starken Wechselwrkung (4.7.b) waren de Standardabwechungen der E aus physkalscher Theore bekannt. Für das lneare Modell erhält man als Resduen 30.3, 8.6, 13.1, 0.1, -4.6, , -4.9, -1.3, 11.9; der Testwert T = 19.3 führt zum P-Wert p = Das lneare Modell genügt also ncht was dem vsuellen Endruck von Abbldung 4.7.b entsprcht. Für de quadratsche Regressonsfunkton erhält man dagegen de Resduen -9.67, -4.10, 11.16, 3.16, 0.97, -0.06, -5.87, 0.66, -3.00, 3.21 und daraus T = 4.04 und p = In desem Bespel und allgemen n der enfachen lnearen Regresson st allerdngs deser Anpassungstest ncht besonders geegnet. De nahelegenden Alternatven bestehen n ener enfachen Krümmung, und gegen solche Alternatven st es normalerwese effzenter, de Sgnfkanz enes quadratschen Terms zu prüfen. Im Bespel wrd der entsprechende P-Wert mt ene Grössenordnung klener als der P-Wert des lack-of-ft-tests. e* Wenn für de glechen X -Werte [x (1), x (2),..., x (m) ] mehrere Beobachtungen Y 1, Y 2,..., Y n gemacht werden, ergbt sch de Möglchket ener unabhänggen Schätzung von σ. (Normalerwese würden wr de Y -Werte durchnummereren und hätten mehrere gleche X -Werte-Kombnatonen. Der unüblche zwete Index von Y h verenfacht de folgende Überlegung.) Man kann dann de Varanz σ 2 der Fehler statt we üblch auch nur aus der Streuung nnerhalb deser Gruppen schätzen, nämlch durch σ 2 = 1 n g g n (Y h Y. ) 2 = 1 n g SSQ(rep), =1 h=1 wobe Y. das Mttel über de n Beobachtungen zu den X -Werten [x (1), x (2),..., x (m) ] und g de Anzahl solcher Beobachtungs-Gruppen st, während SSQ (rep) de Quadratsumme der Replkate bezechnet. De Testgrösse T = (SSQ(E) SSQ (rep) )/(g p) SSQ (rep) /(n g) hat unter der Nullhypothese ene F-Vertelung mt g p und n g Frehetsgraden. (Falls g < p st, snd de Paramter ncht schätzbar; für g = p st T ebenfalls ncht defnert.) Als Begründung denke man sch das betrachtete Modell erwetert durch je ene Indkatorvarable für jede der g Gruppen. Der Test st en F-Test zum Verglech des betrachteten mt dem so erweterten Regressonsmodell. f* Wenn kene Gruppen von Beobachtungen mt glechen X -Werten vorhanden snd, können Paare von benachbarten X -Kombnatonen [x(1), x (2),..., x (m) ] und [x (1) h, x(2) h,..., x(m) h ] gesucht werden. De quadrerten Dfferenzen (R R h ) 2 der entsprechenden Resduen sollte m Mttel etwa 2 σ 2 betragen. Man kann des grafsch überprüfen, ndem man (R R h ) 2 gegenüber enem geegneten Dstanzmass d x (1), x (2),..., x (m) ; x (1) h, x(2) h,..., x(m) h n enem Streudagramm aufträgt. Der Vorschlag stammt von Danel and Wood (1980, Abschntt 7.10), de d x (1), x (2),..., x (m) ; x (1) h, x(2) h,..., x(m) h = ( βj / σ (x (j) x (j) h )) 2 2 j benützen.

76 74 4 RESIDUEN-ANALYSE 4.9 Unabhänggket a De letzte Voraussetzung, de zu überprüfen blebt, st de Unabhänggket der zufällgen Fehler. Wenn de Beobachtungen ene natürlche, nsbesondere ene zetlche Rehenfolge enhalten, soll man de Resduen R n deser Rehenfolge auftragen. Im Bespel der Sprengungen (Abbldung 4.9.a) seht man allenfalls am Schluss enen Abfall; des dürfte jedoch m Berech enes Zufalls-Phänomens legen. Resduen Rehenfolge Abbldung 4.9.a: Resduen gegen Rehenfolge m Bespel der Sprengungen. De verschedenen Stellen snd mt verschedenen Symbolen dargestellt. b* De Programme lefern häufg Tests, de de Unabhänggket überprüfen. Am bekanntesten st der Durbn- Watson-Test. Wenn de Zufallsfehler postv korrelert snd, dann unterscheden sch aufenanderfolgende Resduen wenger, als wenn se unabhängg snd. Deshalb sollte de Teststatstk T = n =2 (R R 1 ) 2 / n =1 R2 n desem Fall klen ausfallen. Leder st de Vertelung der Teststatstk unter der Nullhypothese der Unabhänggket der E von der Desgn-Matrx X abhängg (da ja de R trotzdem korrelert snd, sehe 4.d). Durbn und Watson st es mmerhn gelungen, en Intervall anzugeben, n dem de wahre krtsche Grenze für den Test legen muss. Deshalb st de Schlusswese m Durbn-Watson-Test unüblch: Man erhält aus Tabellen (de der Computer hoffentlch kennt) zwe Grenzen c und c mt c < c und schlesst auf Verwerfung der Unabhänggket, falls T < c, auf Bebehaltung der Unabhänggket, falls T > c, gar nchts (unentschedbar), falls T dazwschen legt. (Vellecht entschlesst sch jemand gelegentlch, deses Problem mt den heutgen Rechenmöglchketen befredgender zu lösen!)

77 4.10. EINFLUSSREICHE BEOBACHTUNGEN 75 c Oft st jede Beobachtung mt enem Ort verbunden, und es st plausbel, dass de Beobachtungen an benachbarten Orten ähnlcher snd als für wet entfernte Orte. Solche räumlche Korrelatonen zegen sch m Bespel der basschen Böden. De Bäume wurden n enem regelmässgen Gtter gepflanzt. Für de Gtterpunkte snd n Abbldung 4.9.c de Resduen auf gleche Wese dargestellt we n Abbldung 4.6.f. Abbldung 4.9.c: Resduen und räumlche Anordnung der Beobachtungen m Bespel der basschen Böden Benachtbarte Punkte schenen n der Tat ähnlche Resduen aufzuwesen. In der rechten unteren Ecke snd alle Resduen negatv. Es st ene Abhänggket zwschen den Fehlern vorhanden, de sch geografsch zegt. d Wenn Korrelatonen zetlche, räumlche oder andere vorlegen, dann snd de P-Werte der üblchen Tests häufg grob falsch. Methoden, de Korrelatonen berückschtgen, laufen unter der Bezechnung Verallgemenerte Klenste Quadrate. Wr kommen m Block Regresson von Zetrehen auf das Problem zurück Enflussreche Beobachtungen a b Ausresser wurden schon n 4.5.a dskutert. Manchmal verschwnden se durch Verbesserungen des Modells. Sowet se stehen bleben, stellt sch de Frage, we stark se de Analyse beenflussen. Weshalb st das wchtg? Wenn es sch um fehlerhafte Beobachtungen handelt, wrd de Analyse verfälscht. Wenn es korrekte Beobachtungen snd und se de Ergebnsse stark prägen, st es nützlch, des zu wssen. Man wrd dann als Interpretaton de Möglchket bedenken, dass de Ausresser aus rgendenem Grund ncht zur glechen Grundgesamthet gehören, und dass das an de übrgen Beobachtungen angepasste Modell de typschen Zusammenhänge n snnvoller Wese wedergbt. Der Effekt enes Ausressers auf de Resultate kann untersucht werden, ndem de Analyse ohne de fraglche Beobachtung wederholt wrd. Auf deser Idee beruhen de (nfluence) dagnostcs, de von etlchen Programmen als grosse Tabellen gelefert werden: De Veränderung aller möglchen Resultatgrössen (Schätzwerte, Teststatstken) bem Weglassen der ten Beobachtung werden für alle angegeben. (Dazu muss ncht etwa de Analyse n mal wederholt werden; es snd starke rechnersche Verenfachungen möglch, so dass der zusätzlche Rechenaufwand unbedeutend wrd.) Es st nützlch, dese dagnostcs zu studeren. Leder zegen se aber oft ncht, was passeren würde, wenn man zwe oder mehrere Ausresser glechzetg weglässt

78 76 4 RESIDUEN-ANALYSE de Effekte müssen sch ncht enfach adderen. c En wesentlcher Tel deser Tabellen kann glücklcherwese mt ener enzgen grafschen Darstellung erfasst werden, de wr Hebelarm-Dagramm (leverage plot) nennen wollen. Etlche nfluence dagnostcs snd nämlch Funktonen des ten Resduum R, der leverage H (4.3.h) und der geschätzten Standardabwechung σ. gefährlche Zonen h Abbldung 4.10.c: Hebelarm-Dagramm für das Bespel der Sprengungen De (Beträge der) Enfluss-Indkatoren snd jewels grösser für grössere R und grössere H. Für de grafsche Darstellung verwendet man aber besser de standardserten Resduen R, de ja selbst aus R, H und σ berechnet werden (4.3.). In enem Streudagramm der R gegen de H snd de gefährlchen Beobachtungen rechts, oben und unten, zu fnden (Abbldung 4.10.c). Es gbt allerdngs kene endeutgen Grenzen, de festlegen, wo de Gefährlchket begnnt. Im Bespel st de grösste leverage bedenklch gross und de beden extremeren Resduen der Beobachtungen mt H > 0.2 snd ebenfalls beachtenswert. Es könnte sch lohnen, de Analyse versuchswese ohne dese Beobachtungen zu wederholen. d e Neben den standardserten Resduen gbt es auch so genannte studentserte Resduen. Das te studentserte Resduum msst de Dfferenz zwschen Y und dem angepassten Wert, der sch ergäbe, wenn man de te Beobachtung zum Anpassen des Modells ncht verwenden würde. Dese Dfferenz wrd noch geegnet standardsert. Man würde erwarten, dass man zur Berechnung deser Grössen für jede Beobachtung das Modell neu anpassen müsse. Es zegt sch aber, dass se sch als relatv enfache Funkton aus R, H und σ ergeben. De Dstanz von Cook fasst de Veränderungen aller angepassten Werte ŷ bem Weglassen der ten Beobachtung zu ener Zahl zusammen (nämlch zu hrer Quadratsumme (ŷ ( ) ŷ) T (ŷ ( ) ŷ), dvdert durch p σ 2 ). Se lässt sch schreben als d (C) = R 2 H p σ 2 (1 H ) 2 = (1/p) R 2 H /(1 H ), st also ebenfalls ene Funkton der dre erwähnten Grössen. Im Programmsystem R werden de d (C) n der Rehenfolge der Beobachtungen m Datensatz routnemässg grafsch dargestellt.

79 4.10. EINFLUSSREICHE BEOBACHTUNGEN 77 f* De leverage st en Mass für de Extremhet der Beobachtung, n das auch Varable engehen, de sch als unwchtg für das Modell erwesen. Als Ergänzung dazu kann de n engeführte Dstanz von Danel and Wood (1980), angewandt zwschen x und dem Schwerpnukt x, d x x = j ( βj (x (j) x (j) ) ) 2 / σ 2 denen. Se besteht aus der Quadratsumme der component effects β j (x (j) x (j) ) und berückschtgt de Wchtgket der Varablen. g Der Enfluss enzelner Beobachtungen auf enen enzelnen Regressonskoeffzenten β j zegt sch n enem spezellen Streudagramm, das added varable plot oder partal regresson leverage plot genannt wrd. (Das erste könnte man als Dagramm für zusätzlche Varable übersetzen.) Es zegt de Resduen ener Regressons-Analyse ohne de entsprechende Engangs- Varable X (j), aufgetragen gegen korrgerte Werte von X (j). Dese Werte erhält man als Resduen n ener Regresson von X (j) (als Zelvarable ) auf de übrgen Engangs-Varablen mt der Bldung solcher Resduen schaltet man de ndrekten Enflüsse von X (j) auf Y aus. Res.(log10(ersch)~log10(ladung)+Stelle) Res.(log10(dst)~log10(ladung)+Stelle) Abbldung 4.10.g: Added varable plot für de logarthmerte Dstanz m Bespel der Sprengungen Wenn man n desem Streudagramm ene Gerade (mt Klensten Quadraten) anpasst, so hat se genau de Stegung β j, de auch be der Schätzung aller Koeffzenten m gesamten Modell herauskommt. Das Dagramm zegt, we dese Stegung zustandekommt, also nsbesondere, welche Beobachtungen enen starken Enfluss auf se ausüben. In Abbldung 4.10.g fällt en Punkt m lnken Tel auf, der enen starken Enfluss auf den geschätzten Koeffzenten der Dstanz hat. Es handelt sch um unseren altbekannten Ausresser.

80 78 4 RESIDUEN-ANALYSE 4.A Theoretsche Vertelung der Resduen a De angepassten Werte kann man mt Hlfe der n 3.4.g hergeleteten Matrx-Formel enfach schreben, ŷ = X β = X( X T X) 1 XT Y =: HY. De Matrx H hesst Projektonsmatrx (von Y auf den Raum, der durch de erklärenden Varablen X (j) aufgespannt wrd) oder Hut-Matrx (hat matrx) se setzt dem Y den Hut auf! De Dagonal-Elemente H von H haben ene besondere Bedeutung: Wenn man enen Wert Y um y verändert, dann msst, we de Glechung zegt, H y de Veränderung des zugehörgen angepassten Wertes ŷ. b Nun zur Vertelung der Resduen.!!! Her werden noch Voraussetzungen an de Kenntnsse gemacht, de ncht erfüllt snd. Zunächst st enfach festzustellen, dass jedes Resduum den Erwartungswert 0 hat, E R = E Y X E β = X β X β = 0. Für de Berechnung der Varanz schreben wr zuerst R = Y ŷ = I Y H Y = (I H ) Y und erhalten daraus var R = (I H) var Y (I H) T = σ 2 (I H)(I H) T = σ 2 (I H H T + HH T ). Es st H = X ( X T X ) 1 X T und deshalb H T = H und HH T = X( X T X) 1 XT X( XT X) 1 XT = X( X T X) 1 XT = H. Also glt var R = σ 2 (I H ). De Varanzen der enzelnen Resduen stehen n der Dagonalen deser Matrx, var R = (1 H ) σ 2. c De Glechung R = (I H ) Y zegt, dass de R und damt auch de halb-standardserten Resduen R / 1 H Lnearkombnatonen der normalvertelten Y snd. Se snd deshalb selbst normalvertelt; es glt R / 1 H N 0, σ 2. d* Gemäss der Formel var R = σ 2 (I H ) snd de Resduen korrelert, cov R, R k = σ 2 H k.

81 4.S. S-FUNKTIONEN 79 e Gewchtete Regresson. Es se W de Dagonalmatrx mt den Dagonal-Elementen w. Dann st Q β = w R 2 = R T W R zu mnmeren. Es ergeben sch de Normalglechungen X T W R = 0 oder X T W (Y X β) = 0 X T W X β = X T W Y und daraus, mt C W = X T W X, β = C 1 W X T W Y. De Erwartungstreue st enfach nachzurechnen. Da var Y = σ 2 /w und deshalb var Y = σ 2 W 1 glt, wrd var β = C 1 X T W W σ 2 W 1 W (C 1 X T W ) T = σ 2 C 1 X T 1 W W X(C W )T = σ 2 ( X T W X) 1. f De Resduen snd jetzt glech wenn wr H W = X C 1 W X T R = (I X C 1 W X T W )Y = (I H W W )Y, setzen. Ihre Kovaranzmatrx wrd var R = (I H W W ) σ 2 W 1 (I H W W ) T = σ 2 (W 1 H W W W 1 W 1 W H W + H W W W 1 W H W ) = σ 2 (W 1 H W ). De standardserten Resduen snd also R = R /( σ 1/w (H W ) ). 4.S S-Funktonen a b De Funkton plot zegt, wenn man se auf das Resultat ener Regressons-Anpassung anwendet, Dagramme, de der Resduen-Analyse denen. Grundlegend st dabe der Tukey-Anscombe plot (Resduen gegen angepasste Werte), und zudem wrd normalerwese en QQ-plot (Normalvertelungs- Dagramm) der Resduen und der scale-locaton plot (Absolutbeträge der Resduen gegen angepasste Werte) zur Überprüfung der Homogentät der Varanzen dargestellt. Als verte Grafk folgt der leverage plot (Resduen gegen Hebelwerte H ). Enflussreche Beobachtungen befnden sch rechts oben und unten. Wenn de Regresson mt regr angepasst wurde, werden als Nächstes de Resduen gegen de Rehenfolge der Beobachtungen aufgetragen. Schlesslch wrd de unten beschrebene Funkton plresx für alle Varablen, de n der Modellformel vorkommen, aufgerufen. Als Alternatve (oder zusätzlch) zum Tukey-Anscombe-Dagramm kann de Zelgrösse statt der Resduen gegen de angepassten Werte aufgetragen werden. Das Zel der plot-methode für de Ergebnsse von regr st es, für den Normalfall ene möglchst vollständge Resduen-Analyse zu präsenteren. Erfahrungsgemäss beschränkt sch de Resduen- Analyse der mesten Benützer nämlch darauf, anzusehen, was de Funkton plot automatsch lefert, und das st be Verwendung von lm zu weng.

82 80 4 RESIDUEN-ANALYSE c Argumente smooth und smooth.sm von plot für regr-objekte. In allen geegneten Grafken wrd ene glatte Kurve engezechnet, ausser wenn smooth=false gesetzt wrd. Wenn smooth ncht selbst ene Funkton st, wrd lowess verwendet. Es werden smooth.sm=19 Datensätze der Zelgrösse entsprechend dem angepassten Modell erzeugt und angepasst und de Ergebnsse der Glättungsmethode jewels mt engezechnet (n schwächerer Farbe), damt de Zufällgket der Glättung beurtelt werden kann. We man damt sehen kann, passt sch ene Glättung an den Rändern mest zu stark den Beobachtungen an. De Glättung m scale-locaton plot beruht auf den Wurzeln der Absolutbeträge der Resduen, auch wenn de Absolutbeträge (und de zurücktransformerte Glättung) gezegt werden (m Gegensatz zur Methode für lm). d Funkton termplot. Resduen, genauer partal resduals, werden gegen de Engangsgrössen aufgetragen. e Funkton plresx (Zusatzfunkton zu regr). Dese Funkton lestet Ähnlches we termplot: De Resduen werden gegen de erklärenden Varablen aufgetragen. Im Normalfall werden de Resduen (ohne component effect ) verwendet; dafür wrd de Referenzlne, de konstanten Y -Werten entsprcht (und glech den negatven component effects st), engezechnet. De Argumente smooth und smooth.sm funktoneren we oben. f De Funktonen für regr-objekte rufen für jede grafsche Darstellung de Funkton stamp auf, de zur Dokumentaton des grafschen Outputs dent. Se fügt n der rechten unteren Ecke das Datum und enen allfällgen Projektttel (useroptons(project=projectttle, step=stepname)) en.

83 5 Modell-Entwcklung a b 5.1 Problemstellung Von der wssenschaftlchen Fragestellung und vom Vorwssen her gbt es verschedene Arten, de Regressons-Analyse enzusetzen: 1. Im Idealfall st berets klar, dass de Zelgrösse Y von den gegebenen Regressoren X (1),..., X (m) lnear abhängt. Man nteressert sch für ene klasssche Fragestellung über de Koeffzenten der Regressoren, also für enen Test ener Nullhypothese (z. B. β j = 0), ene Punkt- oder Intervallschätzung für enen oder mehrere Koeffzenten oder allenfalls für Vorhersage-Intervalle. De entsprechenden Methoden haben wr behandelt. 2. Im anderen Extremfall dent de Stude dazu, Zusammenhänge zwschen der Zelgrösse Y und den Engangs-Varablen überhaupt erst zu erforschen. Man wess ncht, ob und n welcher Form de Engangs-Varablen de Zelgrössen beenflussen. Oft hat man dann für ene recht grosse Zahl potenteller Enflussgrössen vorsorglch Daten erhoben. 3. Manchmal legt de Fragestellung dazwschen: Man st egentlch nur am Enfluss enes enzgen Regressors nteressert, aber unter Berückschtgung der Effekte von anderen Engangs-Varablen (um ndrekte Enflüsse zu vermeden). Bespel: Wrkung enes Medkamentes. Man wess enges aus früheren Studen und aus theoretschen Überlegungen und wll zusätzlche Erkenntnsse gewnnen. In 2. und 3. stellt sch n unterschedlchem Ausmass de Frage der Modellwahl: Welche Engangs-Varablen sollen n welcher Form n der Modell-Glechung der lnearen Regresson erschenen? Bespel Baukosten von Atomkraftwerken. De Baukosten von 32 Kernkraftwerken, de n den Jahren n den USA entstanden, wurden untersucht (Quelle: Cox and Snell (1981)). Ene Fragestellung war, ob ene partelle Kostengarante des Generalunternehmers zu Ensparungen führe. Als wetere erklärende Angaben für de Baukosten wurden de n Tabelle 5.1.b aufgeführten Varablen notert. Das Bespel st zwar schon n de Jahre gekommen, und de Anzahl Beobachtungen st prekär klen. Es zegt aber de Chancen und Schwergketen der Modellwahl recht schön. c Ernnern Se sch, dass de x (j) n der Modellglechung Y = β 0 +β 1 x (1) +β 2 x (2) +...+β m x (m) +E ncht unbedngt de ursprünglch beobachteten oder gemessenen Grössen, de wr zur Unterschedung mt u (k) bezechnen wollen, sen müssen; es können transformerte Grössen (z. B. x (j) = log 10 u (j) ) sen oder Funktonen von mehreren ursprünglchen Grössen (z. B. x (j) = u (k) u (l) ). Auch de Zelgrösse Y kann durch geegnete Transformaton oder Standardserung aus ener oder mehreren ursprünglch gemessenen Varablen gewonnen werden. d Im Bespel führen allgemene Überlegungen (sehe 4.4.g) zu den n Tabelle 5.1.b aufgeführten Transformatonen als Engangsgrössen. De Wartezet und de Bauzet wurden, obwohl es sch um Beträge (postve Zahlen) handelt, ncht logarthmert, da es gemäss Znseszns-Rechnung snnvoll st, enen lnearen Enfluss deser Zeten auf de logarthmerten Kosten anzunehmen. Es snd auch andere Transformatonen denkbar, und solche sollen ja auf Grund der Resduenanalyse mmer weder n Betracht gezogen werden. Das lneare Regressonsmodell mt allen transformerten Varablen, das volle Modell, lautet m Verson Sept 2013, c W. Stahel

84 82 5 MODELL-ENTWICKLUNG Bez. Bedeutung Typ Transf. K Baukosten Betrag log G Grösse Betrag log D Datum der Baubewllgung kontn. WZ Wartezet zwschen Antrag und Baubewllgung Betrag BZ Bauzet: Zet bs Inbetrebnahme Betrag Z Zwetwerk: früheres Werk auf glechem Gelände bnär NE Werk steht m Nordosten der USA bnär KT Werk arbetet mt Kühlturm bnär BW Reaktor hergestellt durch Babcock-Wlcox bnär N Anzahl Werke, de das gleche Ingeneur-Team berets erbaut hat, +1 Anzahl Wurzel KG Partelle Kostengarante des Generalunternehmers bnär Tabelle 5.1.b: De Varablen des Bespels Baukosten Bespel also n Modellschrebwese oder ausführlch log10(k) log10(g) + D + WZ + BZ + Z + NE + KT + BW + sqrt(n) + KG log 10 K = β 0 + β 1 log 10 G + β 2 D + β 3 WZ + β 4 BZ +β 5 Z + β 6 NE + β 7 KT + β 8 BW + β 9 N + β 10 KG + E. e Tabelle 5.1.e zegt de Computer-Ausgabe für das Bespel. Es können mndestens 5 Varable als überflüssg angesehen werden. Auch de Kostengarante st schwach ncht-sgnfkant. Ist de Frage damt schon beantwortet? Wr werden das Bespel noch weter verfolgen. Schlesslch kann es um vel Geld gehen. Coeffcents: Value Std. Error t value Pr(> t ) Sgnf (Intercept) * log10(g) *** D * WZ BZ Z NE ** KT BW sqrt(n) KG Tabelle 5.1.e: Computer-Ausgabe für das volle Modell m Bespel Baukosten

85 5.2. WICHTIGKEIT EINES EINZELNEN TERMS Wchtgket enes enzelnen Terms a Ist en bestmmter Term β j x (j) m Modell nötg? nützlch? überflüssg? De Beantwortung deser Frage bldet enen Grundbausten für de Modellwahl. Als Hypothesen-Prüfung haben wr dese Frage schon gelöst: Wr wssen, we man de Nullhypothese β j = 0 prüft (mt dem t-test). Dese Antwort tönt aber besser, als se st, denn es ergbt sch das Problem des multplen Testens. b c d e Be der Suche nach enem geegneten Modell werden mestens enge bs vele Entschedungen der erwähnten Art getroffen. Extremfall: Man habe 20 Regressoren ( X -Varable ), und en enzger Koeffzent se sgnfkant (auf dem 5%-Nveau) von 0 verscheden. Dann entsprcht das auf Grund der Wahrschenlchket enes Fehlers erster Art der Erwartung für den Fall, dass überhaupt ken Regressor enen Enfluss auf Y hat! Dazu kommt en weteres, kleneres Problem: Man müsste de Voraussetzungen der Normalvertelung und der Unabhänggket der Fehler prüfen, wenn man de P-Werte der t-tests zum Nennwert nehmen wollte. Man kann also ncht behaupten, dass en Term mt sgnfkantem Test-Wert enen statstsch gescherten Enfluss auf de Zelgrösse habe. Statt de Tests für strkte statstsche Schlüsse zu verwenden, begnügen wr uns damt, de P- Werte der t-tests für de Koeffzenten (oder drekt de t-werte) zu benützen, um de relatve Wchtgket der entsprechenden Regressoren anzugeben, nsbesondere um de wchtgste oder de unwchtgste zu ermtteln. Ene nomnale Varable (en Faktor, also ene Varable mt mehreren möglchen Werten, de kene natürlche Ordnung zegen) kann, we n 3.2.e erklärt, n mehrere Indkator-Varable oder dummy varables verwandelt werden; wr reden von enem Block von Indkator-Varablen. (Das Bespel enthält (leder) kene nomnale Varable. De fünf bnären Varablen snd zwar Indkator-Varable, aber ncht m Snne der dummy varables enes Faktors verknüpft.) Wenn gefragt wrd, ob man ene nomnale Engangs-Varable ns Modell enbezehen soll oder ncht, muss man für den ganzen Block der entsprechenden Indkator-Varablen prüfen, ob alle weggelassen werden können. Das gescheht mt dem F-Test zum Verglech von Modellen (3.2.m). Sen P-Wert kann mt den P-Werten der anderen Varablen notfalls verglchen werden. (Besser egnet sch en Verglech mt den so genannten C p -Werten, de n 5.3.g engeführt werden.) 5.3 Automatserte Verfahren zur Modellwahl a b Mt Hlfe enes Masses für de relatve Nützlchket enes enzelnen Terms n der Regressonsglechung können Strategen der Modellwahl formulert werden: Schrttwese rückwärts. Man geht vom Modell aus, n dem alle n Frage kommenden Regressoren enthalten snd. (Das st nur möglch, wenn de Zahl deser Varablen klener st als de Zahl der Beobachtungen se sollte bedeutend klener sen, sagen wr mndestens fünfmal klener.) Nun kann man schrttwese den unwchtgsten wegnehmen, solange er unwchtg genug erschent. Wo de entsprechende Grenze der Wchtgket, also des P-Wertes, legen soll, st kaum generell festzulegen. De Schranke 0.05 für den P-Wert st wegen des Problems des multplen Testens ncht snnvoller als andere (nedrgere) Werte. Im Bespel der Baukosten st gemäss Tabelle 5.1.e de Varable WZ de unwchtgste. Wenn se weggelassen wrd, ergeben sch neue t- und P-Werte und damt ene neue Rehenfolge. De P-Werte snd jetzt

86 84 5 MODELL-ENTWICKLUNG log10(g) Z BW D NE sqrt(n) BZ KT KG Das Maxmum zegt de Varable BW, de also als nächste zu elmneren st. So werden der Rehe nach zunächst de Varablen BW, BZ, Z, N und KT weggelassen. Nun st, we Tabelle 5.3.b zegt, der Enfluss der Kostengarante hochsgnfkant. Also doch! Coeffcents: Value Std. Error t value Pr(> t ) Sgnf (Intercept) ** log10(g) *** D *** NE * KG *** Tabelle 5.3.b: Computer-Ausgabe für das durch schrttwese Elmnaton reduzerte Modell m Bespel Baukosten c Schrttwese vorwärts. Analog zum schrttwesen Rückwärts-Verfahren kann man vom leeren Modell (ken Regressor) zu mmer grösseren kommen, ndem man schrttwese enen zusätzlchen Term (enen Regressor oder enen Faktor n Form des entsprechenden Blockes von dummy Varablen) hnzunmmt, und zwar n jedem Schrtt denjengen, der (von den verblebenden) am wchtgsten st. Deses Verfahren hatte n den Anfangszeten der multplen Regresson ene grundlegende Bedeutung, da es enen mnmalen Rechenaufwand erfordert. d e f Im Bespel zegt de Kostengarante KG de grösste enfache Korrelaton mt den logarthmerten Baukosten und wrd deshalb als erste Varable ns Modell aufgenommen! Es folgen log 10 G, D, NE und KT. Der letzte Schrtt führt zu enem formal ncht-sgnfkanten Koeffzenten. Wr lassen also KT weder weg und haben das gleche Modell we vorher errecht. Nun snd wr von der Bedeutsamket der Kostengarante überzeugt, ncht wahr? Alle Glechungen (all subsets). Gehen wr we bem Rückwärts-Verfahren von enem festen Satz von m möglchen Regressoren aus. Mt desen Varablen lassen sch prnzpell 2 m möglche lneare Modell-Glechungen blden; man kann für jede Varable wählen, ob se n der Glechung erschenen soll oder ncht. Der Computer kann alle möglchen Glechungen an de Daten anpassen und nach enem geegneten Krterum de beste oder de paar besten suchen. (Intellgente Algorthmen vermeden es, alle Glechungen durchzurechnen.) Im Folgenden bezechnen wr de Anzahl Regressoren n enem n Frage stehenden Modell mt m. Analog zu früher se p = m + 1, falls das Modell enen Achsenabschntt β 0 enthält und = m m gegentelgen Fall. Als Krteren können de folgenden Grössen verwendet werden: 1. Bestmmthetsmass R2 oder multple Korrelaton R, 2. Wert der Teststatstk für das gesamte Modell (F-Test), 3. zur F-Teststatstk gehörger P-Wert, 4. geschätzte Varanz σ 2 der Fehler (oder Standardabwechung σ ). Für ene feste Anzahl m von Regressoren führen alle dese (und auch de unten aufgeführten) Krteren zur glechen Ordnung unter den ( ) m m möglchen Modellen (da jedes sch aus jedem andern für festes m über ene monotone Funkton ausrechnen lässt); es werden also von

87 5.3. AUTOMATISIERTE VERFAHREN ZUR MODELLWAHL 85 allen de glechen Modelle als de besten ausgewählt. g Bem Verglech zwschen Modellen mt verscheden velen Koeffzenten gbt es Unterschede: Das Bestmmthetsmass R 2 kann ncht abnehmen, wenn en Term zur Modellglechung hnzugefügt wrd. * Es msst ja m grösseren Modell das Quadrat der maxmalen Korrelaton zwschen Y und ener geschätzten Regressons-Funkton β 0 +β j1 x (j1) +...+β jm +1 x (j m +1 ). De Varable x (j m +1 ) weglassen hesst β jm +1 = 0 setzen. Das Maxmum unter deser Nebenbedngung kann ncht grösser sen als ohne Bedngung. Trotzdem st en grösseres Modell ja ncht unbedngt besser als en kleneres. Sonst wäre ja das vollständge Modell mmer das beste. Es snd deshalb Krteren vorgeschlagen worden, de automatsch auch unter Glechungen mt verscheden velen Termen ene snnvolle Wahl der besten vornehmen: 5. Korrgertes Bestmmthetsmass R 2 (adjusted R 2 ): R 2 adj = 1 n 1 n p (1 R 2 ) 6. C p von Mallows. Deses verbretete Krterum mnmert n gewsser Wese enen mttleren Vorhersagefehler. Es st defnert als C p := SSQ (E) / σ 2 m + 2p n = (n p )(SSQ (E) / σ 2 m 1) + p, wobe MSQ (E) = SSQ (E) /(n p ) das mttlere Quadrat des Fehlers st und σ m de Schätzung von σ m grössten Modell. 7. Das Informatons-Krterum AIC von Akake (und Varanten davon). Es st AIC = n log MSQ (E) + kp mt k = 2, was C p plus ene Konstante ergbt (???) Dese Krteren zechnen jewels en Modell als das beste aus. Oft snd se sch ncht eng n bezug auf de Anzahl Terme. Innerhalb der Glechungen mt glecher Anzahl Terme führen se, we erwähnt, zur glechen Ordnung we de erste Lste, snd sch also auch unterenander eng. Häufg, aber ncht mmer, st jedes deser besten auch unter den Modellen zu fnden, de de schrttwesen Verfahren lefern. h*!!! überprüfen!!! De F-Statstk, de zum Testen der formalen Sgnfkanz enes enzelnen Koeffzenten gebraucht wrd, st F = (n p + 1)MSQ(E) (n p) σ 2 m = (n p + 1) = (n p + 1) σ 2 m ( (n p + 1) log ( MSQ (E) σ 2 m ( MSQ (E) σ 2 m ) n p n p + 1 ) 1 1 n p + 1 MSQ (E) + p 1 n p + 1 ( log σ )) 2 p m + n p + 1 was ener Dfferenz von AIC-Werten mt k 1 entsprcht. Der Test st dann sgnfkant, wenn de F- Statstk grösser als der krtsche Wert c = q (F1,n p) 0.95 ausfällt. Das trfft gemäss Näherung dann en, wenn de Dfferenz log MSQ (E) + p 1 n p + 1 (1 + c) log σ 2 p m + (1 + c) n p + 1 grösser als 0 st, was enem AIC mt k 1 + c entsprcht.

88 86 5 MODELL-ENTWICKLUNG Enen grafschen Überblck über de Modelle und de zugehörgen Krterenwerte vermttelt en Streudagramm der Krterenwerte gegen de Anzahl Koeffzenten p m Modell (Abbldung 5.3.). Da des für das Krterum C p engeführt wurde (Danel and Wood, 1980) wrd de Grafk C p -Plot genannt. Abbldung 5.3.: C p -Plot für das Bespel der Baukosten j k Im Bespel würden laut dem C p -Krterum zusätzlch zu den n Tabelle 5.3.b erwähnten Varablen noch KT und N ns Modell enbezogen. In desem Modell beträgt der P-Wert für de Kostengarante en nur noch ganz knapp sgnfkantes Resultat also! De Frage, ob de Kostengarante zu Ensparungen führe, wrd also verscheden beantwortet, je nach den zusätzlchen erklärenden Varablen m Modell. Wr kommen auf desen Punkt zurück (5.5.g). Das beste Modell st aber noch lange ncht das rchtge oder das wahre Modell! Wenn man Daten auf Grund enes bestmmten Modells smulert, werden (je nach Streuung der Fehler, Anzahl Beobachtungen, Grösse der Modell-Koeffzenten und Vertelung der Regressoren, genannt desgn ) mehr oder wenger oft andere Modelle als beste ausgelesen. Das beste Modell wrd also vom Zufall mtbestmmt! Deshalb soll man mmer mehrere Modelle n Betracht zehen, de von den Krteren als gut ncht vel schlechter als das beste bewertet werden. We vel schlechter? Leder gbt de Statstk darauf kene Antwort. (Ene klene Hlfe st der Test für enzelne Koeffzenten, sehe oben.)

89 5.3. AUTOMATISIERTE VERFAHREN ZUR MODELLWAHL 87 l* Eher penlch berührt es, zu erwähnen, dass de mesten Programme zur Modellwahl mt den n 5.2.e erwähnten Blöcken von Indkator- oder dummy-varablen (und anderen Varablen-Blöcken) ncht rchtg umgehen. Es werden de enzelnen Indkator-Varablen als völlg unzusammenhängend behandelt. De beste Glechung enthält daher oft ene oder enge, aber ncht alle Indkator-Varablen enes Blocks en unsnnges Ergebns. m n o Hohe Korrelatonen zwschen Regressoren oder allgemenere Formen von Kollneartät führen zwar zu Problemen mt der Interpretaton, snd aber von der Theore her zugelassen. Im Vorwärts- und Rückwärts-Verfahren st es n solchen Fällen häufg vom Zufall abhängg, welche der betelgten Varablen als erste weggelassen respektve aufgenommen wrd. Wenn alle Glechungen untersucht werden, gbt es n desem Fall jewels Gruppen von ähnlch geegneten. Wr untersuchen dese Erschenung m nächsten Abschntt noch genauer. Ene ausführlchere Dskusson des Problems und von Lösungsmöglchketen fndet man n Kap. 8 von Hockng (1996). Als Ergebns der Modellwahl kann man de Telmenge der ausgewählten Terme aus allen Termen des vollständgen Modells ansprechen ene zufällge Menge also. Wenn man de Daten lecht verändert, wrd dese Telmenge n gewssen Fällen sprunghaft ändern, ndem bespelswese en Regressor X (j) wegfällt. Man kann auch sagen, der entsprechende Koeffzent β j sprnge auf 0. Das st kene wünschenswerte Egenschaft. Es gbt deshalb Verfahren, für de de Koeffzenten stetg von den Daten abhängen. De Idee des Verfahrens namens Lasso (sehe Haste, Tbshran and Fredman, 2001) besteht darn, das Krterum Klenste Quadrate, das ja be der Bestmmung der Koeffzenten mnmert wrd, durch enen Bestrafungsterm für de Grösse der Koeffzenten zu versehen. Man sprcht m Englschen von penalzed regresson. Damt de Grössen der Koeffzenten verglechbar snd, benützt man standardserte Koeffzenten βj (sehe 3.1.m). Her wrd ausnahmswese kene Quadratsumme als Mass der Grösse benützt, sondern de Summe der Absolutbeträge. Man mnmert also Q β; λ = R2 + λ j β j. De Grösse λ steuert, we stark de Grösse der Koeffzenten gegenüber der Resduen-Quadratsumme ns Gewcht fallen soll. Man kann das Problem der Mnmerung von Q auch formuleren als Mnmerung der Quadratsumme der Resduen unter Enhaltung ener Schranke für de Grösse der Koeffzenten. Man mnmert also R2 unter ener Nebenbedngung der Form j β j < c. Jeder Lösung deses zweten Problems, mt bestmmtem c, entsprcht ene Lösung des ersten Problems mt enem gewssen λ, das von c abhängt. De Gesamthet der Lösungen für alle verschedenen c m zweten Fall st also glech der Gesamthet der Lösungen für alle verschedenen λ m ersten Fall. Wenn c so gross st, dass de Klenste-Quadrate-Schätzungwerte β j de Nebenbedngung erfüllen, also j β j c, dann ergbt sch kene Änderung. Wrd c klener gewählt, dann werden de Koeffzenten demgegenüber verklenert oder gegen 0 geschrumpft. Um c n enem snnvollen Berech zu wählen, setzt man deshalb besser b = c / j β j fest auf enen Wert zwschen 0 und 1. De Art der Nebenbedngung führt dazu, dass bald der erste Koeffzent exakt glech 0 wrd und mt kleneren c-werten mmer mehr Koeffzenten verschwnden. Dadurch entsteht ene Modellselektons-Rehe we n enem schrttwesen Rückwärts-Verfahren. p Abbldung 5.3.p zegt, we de geschätzten standardserten Koeffzenten von der relatven Schranke b abhängen. Wenn man von b = 1 rückwärts geht, wrd zunächst der Koeffzent von BW glech 0, dann derjenge von WZ, dann Z, N und BZ. En merkwürdges Verhalten zegt ausgerechnet der Koeffzent der Kostengarante KG: Er st m Berech von mttleren Schranken am bedeutendsten.

90 88 5 MODELL-ENTWICKLUNG Coeffcent paths l.1 l.21 coeffcents D lg NE KT BZ WZ BW Z KG sn D lg NE KT BZ WZ BW Z KG sn Oct 25,01/0: Lambda Abbldung 5.3.p: Lasso m Bespel der Kernkraftwerke: standardserte Koeffzenten n Abhänggket der relatven Schranke b 5.4 Kollneartät a Der Begrff der Kollneartät stammt aus der lnearen Algebra. Das Modell lautete n Matrx- Schrebwese Y = X β +E (3.4.d), und de Schätzung war β = C 1 T X Y (3.4.g). Man braucht also de Inverse der Matrx C = X T X. De Matrx C st sngulär, wenn de Spalten der Desgn-Matrx X kollnear snd, C sngulär es gbt Zahlen c = [c 0, c 1,..., c p ] mt X c = 0 (c 0) es gbt en j und Zahlen [c 0, c 1,..., c p ] mt x (j) = k j c k x (k). In desem Fall snd de Parameter m Modell ncht endeutg zu bestmmen. Wegen X β = X ( β + γc) mt belebgem γ glt: Wenn β en Schätzwert von β st, dann führt β + γc zu den glechen Abwechungen R und st deshalb en glech guter Schätzwert. De Klenste-Quadrate-Schätzung st also ncht endeutg, und etlche Programme stegen aus. b c Das Problem kann gelöst werden, ndem man ene x-varable, x (j), also ene Spalte n der Desgn-Matrx, strecht falls de verblebende Matrx mmer noch sngulär st, strecht man ene wetere, usw. (Man muss jewels ene Spalte x (j) wählen, für de de erwähnte Glechung x (j) = k j c k x (k) erfüllt st.) De Vertelungen, de das Modell beschrebt, bleben damt egentlch de glechen, nur de Parametrserung ändert, und damt de Interpretaton der Parameter. Wenn solche lneare Bezehungen zwschen den x-varablen ncht exakt, aber näherungswese gelten, snd de Parameter zwar formell dentfzerbar, aber schlecht bestmmt. Man sprcht dann n der Statstk mmer noch von Kollneartät. En anschaulches enfaches Bespel blden zwe stark korrelerte x-varable, z. B. x (1) und x (2). Abbldung 5.4.c zegt enen solchen Datensatz.

91 5.4. KOLLINEARITÄT 89 geschätzt 3 Y + Modell x (2) x (1) 5 Abbldung 5.4.c: Kollneartät durch zwe stark korrelerte x-varable. De Y -Werte snd entsprechend dem Modell smulert. Engezechnet st auch de geschätzte Ebene. d e f Welches snd de Auswrkungen von Kollneartät? Im dargestellten Bespel st de Ebene, de dem lnearen Regressonsmodell entsprcht, n der enen Rchtung, entlang des Zauns gut, n der anderen (quer zum Zaun ) schlecht bestmmt. De Koeffzenten von x (1) und x (2), de Stegungen der Schnttgeraden der Ebene mt der Aufrss- und Setenrss-Ebene (x(1) -Y - und x (2) -Y -Ebene), snd dann ebenfalls mt grosser Unscherhet behaftet. Das führt zu grossen Standardfehlern für de geschätzten Koeffzenten. Deshalb kann man auf Grund des t-tests (sehe 3.1.) mestens de ene oder de andere Varable aus dem Modell strechen aber oft ncht bede glechzetg! De Höhe der Ebene st m Berech der Daten mt der üblchen Genaugket durch dese bestmmbar, und n der Verlängerung des Zauns recht gut extrapolerbar. An desen Orten snd also Vorhersagen mt vernünftger Genaugket anzugeben. Auf beden Seten des Zauns nmmt aber de Genaugket rapde ab! We entdeckt man Kollneartät? De Probleme zegen sch n den Standardfehlern, also auch n der Länge von Vertrauens- Intervallen und Prognose-Intervallen deutlch sofern man darauf achtet! Wr können aber auch drekter feststellen, ob ene Bezehung (annähernd) x (j) k j c k x (k) erfüllt st. Das st en Regressonsproblem. Das Bestmmthetsmass Rj 2 der Regresson von x(j) auf alle übrgen erklärenden Varablen zegt, we stark ene solche Bezehung st und st also en snnvolles Mass für Kollneartät, das erst noch angbt, welche Varable das Problem verursacht. En Mass, das man n Programmen fndet, st der so genannte varance nflaton factor VIF j = 1/(1 R 2 j ).

92 90 5 MODELL-ENTWICKLUNG g h Was tun gegen Kollneartät? Wenn mmer möglch, soll man de Beobachtungen so durchführen, dass das Problem vermeden wrd. Be Expermenten geben de x-varablen de Versuchsbedngungen an. Kollneartät lässt sch durch geegnete Wahl der Versuchsbedngungen vermeden. Können de Versuchsbedngungen ncht gewählt werden, dann kann man zu anderen X -Varablen übergehen, de besser bestmmte Koeffzenten ergeben. Im Bespel der beden stark korrelerten Varablen ersetzt man dese durch hre Summe und Dfferenz oder durch andere enfache Lnearkombnatonen, de ncht-kollneare neue Varable lefern. Es gbt mmer vele Möglchketen von lnearen Transformatonen, de zu unkorrelerten x- Varablen führen. Für de Anwendung st wesentlch, dass de neuen x-varablen und damt hre Koeffzenten lecht nterpreterbar bleben. Immer hlft das folgende Rezept: De wchtgste Varable, sagen wr x (1), wrd bebehalten; x (2) wrd durch de Resduen ener Regresson von x (2) auf x (1) ersetzt, also durch den Tel von x (2), der von x (1) ncht erklärt wrd ; Wenn de Kollneartät ncht von enem Paar von stark korrelerten Varablen stammt, sondern dre oder mehr Varable betelgt snd, kann man allgemen de x-varable mt dem höchsten Rj 2 wählen und durch Resduen bezüglch der Regresson auf de anderen erklärenden Varablen ersetzen und auch her Modellwahl anwenden. j Ene enfachere Lösung besteht darn, dass man de Varable mt dem höchsten R 2 j aus dem Modell entfernt. (Das wrd man oft auf Grund des t-tests soweso tun, sehe 5.3.m.) k* In der Lteratur wrd auch en Verfahren unter dem Namen rdge regresson vorgeschlagen. Ich fnde es weng hlfrech; de Ergebnsse snd schlecht nterpreterbar. 5.5 Strategen der Modell-Entwcklung a De automatserten Verfahren zur Modellwahl genügen für ene befredgende exploratve Analyse aus verschedenen Gründen ncht: We erwähnt (5.3.k), st de Auswahl der Varablen n der besten Glechung entsprechend jedem Krterum selbst vom Zufall abhängg, und man muss zumndest neben desem besten Modell de fast glech guten n Betracht zehen. Um dese zu fnden, st de all subsets -Rechnung mmerhn sehr hlfrech. Wr snd von enem festen Satz von Regressoren ausgegangen. Im Kaptel Resduen- Analyse haben wr gesehen, dass oft Varable transformert oder quadratsche oder Wechselwrkungsterme engeführt werden sollten. Wollte man alle dese Möglchketen von Anfang an zum festen Satz von Regressoren hnzufügen, dann würde des schon be wengen ursprünglchen Engangs-Varablen zu ener übergrossen Zahl von Regressoren führen. Solche Zusatzterme müssen daher mt anderen Mtteln auf hre Egnung geprüft werden. Manchmal lefern de Verfahren Modelle, de mt dem gescherten Fachwssen ncht überenstmmen. Bespelswese kann der geschätzte Koeffzent enes Regressors en Vorzechen haben, das ncht stmmen kann. Bevor man ene ganz neue Theore entwckelt, wrd man wetere Modelle prüfen wollen.

93 5.5. STRATEGIEN DER MODELL-ENTWICKLUNG 91 b c d e Zur Modellwahl braucht es also ene Stratege, de allerdngs noch selten formulert und dskutert wrd. Se wrd eher als Kunst angesehen, de allenfalls durch Bespele zu vermtteln se. De Modellwahl fndet nnerhalb enes gesamten Ablaufs der Datenanalyse statt, deren nullter Schrtt mmer lautet: 0. Daten kennenlernen und berengen. Man macht sch mt der genauen Bedeutung aller Varablen bekannt und legt kurze, nformatve Varablennamen fest, de alle Betelgten gut nterpreteren können. Dann überprüft man unmöglche oder unplausble Werte und Ausresser für alle Varablen m Datensatz, korrgert wenn nötg und setzt verblebende unmöglche Werte auf fehlend. In desem Zusammenhang bewährt es sch (wenn de Zahl der Varablen ncht allzu gross st), de Streudagramm-Matrx aller Varablen (mndestens der Varablen mt stetgem oder geordnetem Werteberech) zu studeren. Schlesslch untersucht man de Häufgketen und Auffällgketen des Auftretens von fehlenden Werten. Wenn se mt spürbarer Häufgket auftreten, muss ene egene Stratege zu hrer Behandlung festgelegt werden, de wr her ncht besprechen wollen. Wer her zu weng nvestert, büsst später! Wr werden sehen, dass de geegnete Stratege vom Zweck der Stude abhängt (vergleche 5.1.a). Gehen wr zunächst davon aus, dass es der Zweck der Stude se, de erklärenden Varablen zu dentfzeren, de de Zelgrösse beenflussen. Deses Zel st ncht so klar, we es zunächst tönt. Am befredgsten wäre es, de Ursachen für de Werte der Zelvarablen zu fnden. Das st aber mt ener exploratven Analyse von Daten ncht zu errechen, sondern nur mt geplanten Versuchen, sowet solche möglch snd (sehe Versuchsplanung). Es geht also darum, en Modell zu fnden, das de vorlegenden Daten gut beschrebt und möglchst kene systematschen Abwechungen übrglässt de zufällgen snd ncht zu vermeden. Ene Stratege zur Analyse solcher Daten kann etwa so aussehen: 1. Frst ad Transformatonen. Allgemene statstsche Geschtspunkte (4.4.g) und spezfsches Fachwssen führen für jede Varable zu ener plausblen Skala oft ener transformerten ursprünglchen Grösse (englsches Stchwort re-expresson). 2. En grosses Modell. Man passt ene Glechung an, de vermutlch zu vele erklärende Varable enthält, nämlch alle Varablen, falls deren Anzahl höchstens enen Fünftel der Anzahl Beobachtungen ausmacht (* allenfalls setzt man gar en general addtve model an), alle Varablen, de entsprechend Plausbltäts-Überlegungen und Fachwssen enen Enfluss auf de Zelgrösse haben könnten, de Varablen, de mt enem Schrttwese-Vorwärts-Verfahren mt grosszüggem Abbruchkrterum (hohem P-Wert) ausgewählt werden. Falls gemäss Fachwssen Wechselwrkungen zwschen erklärenden Varablen erwartet werden, sollen dese ebenfalls enbezogen werden. Wenn möglch sollten robuste Schätzmethoden verwendet werden. 3. Überprüfung des zufällgen Tels: Ausresser n den Resduen, Vertelung der Resduen, Glechhet der Varanzen,

94 92 5 MODELL-ENTWICKLUNG Unabhänggket der Fehler. Es kann auf Grund der Ergebnsse angezegt sen, de Zelgrösse zu transformeren, Gewchte enzuführen, robuste(re) Methoden zu verwenden, sowet des ncht schon soweso gescheht, Blöcke n der zetlchen Abfolge (oder geographschen Anordnung) zu blden und ene entsprechende nomnale erklärende Varable enzuführen, um serelle Korrelatonen mt dem funktonalen Tel statt mt korrelerten Fehlern E zu beschreben, Schätzmethoden zu verwenden, de den Korrelatonen Rechnung tragen. Allerdngs müssen de Modell-Voraussetzungen für das angegebene Analyse-Zel nur grob erfüllt sen. 4. Ncht-Lneartäten. Streudagramme der Resduen gegen de erklärenden Varablen können zu Transformatonen der erklärenden Varablen oder zu quadratschen Termen führen. 5. Automatserte Varablen-Wahl mt all subsets, notfalls mt schrttwesem Rückwärts- Verfahren. 6. Varable hnzufügen. Streudagramme der Resduen gegen de erklärenden Varablen, de ncht m Modell snd auch gegen jene, de gerade elmnert wurden und we n Schrtt 4 verfahren. 7. Wechselwrkungen. Man prüft, ob Wechselwrkungsterme zwschen den Varablen, de berets m Modell snd, zur Verbesserung der Anpassung führen. Wechselwrkungen mt Varablen, de mangels Enfluss auf de Zelgrösse ncht ns Modell aufgenommen werden, snd unerwünscht und selten nützlch (sehe Cox and Snell, 1981, S. 126). Wenn solche ns Modell aufgenommen werden, nmmt man auch de betelgten (ncht-sgnfkanten) erklärenden Varablen weder ns Modell auf 8. Enflussreche Beobachtungen. Man sucht multvarate Ausresser m Raum der x-varablen, also hohe Leverage-Werte H, und überprüft allgemen enflussreche Beobachtungen (* mt robusten Methoden). 9. Krtk mt Fachwssen. Wenn das Modell Terme enthält, de unplausbel snd oder deren geschätzter Koeffzent das falsche Vorzechen hat, lässt man se weg, sofern sch dadurch de Anpassung ncht allzu stark verschlechtert. 10. Anpassung prüfen. Man verglecht de geschätzte Varanz der Fehler m Modell mt ener anderen Schätzung, bespelswese ener mnmalen, scher vorhandenen Streuung (Messgenaugket) oder ener Schätzung aus wederholten oder benachbarten Messungen (4.8.a). Falls deser Verglech befredgend ausfällt, kann man zu Schrtt 12 gehen. 11. Revson. Falls sch das Modell set Schrtt 4 merklch verändert hat, geht man dorthn oder gar zu Schrtt 3 zurück. 12. Entfernte Terme überprüfen. Wenn n Schrtt 8 Terme unterdrückt wurden, muss man nochmals überprüfen, we wchtg se jetzt erschenen. f De Stratege soll sch nach dem Zweck der Stude rchten. De Abscht se nun, ene Hypothese zu überprüfen, genauer wollen wr bespelswese überprüfen, ob der Koeffzent von x (1) null sen kann. Dann wrd man de Stratege anpassen: 1. Daten-Transformaton (sowet von der Fragestellung her zugelassen), we oben.

95 5.S. S-FUNKTIONEN In gewssen Fällen st auch her ene Modellwahl möglch oder nötg. Man folgt dann den Schrtten 2-7 der vorhergehenden Stratege, aber mt Nebenbedngungen : X (1) blebt mmer m Modell, man kümmert sch nur um Varable, de ene merklche Vergrösserung von R 2 bewrken oder de mt X (1) korrelert snd, eventuell st de Transformaton der Zelgrösse und von X (1) von der Fragestellung her ncht erlaubt. 8. Kollneartäten. Genaue Überprüfung der X -Varablen m Modell, de mt X (1) korrelert snd ( krtsche X -Varable). Aufgepasst: De Fragestellung selbst ändert sch, wenn man Varable ns Modell enbezeht, de mt der zu testenden Varablen korrelert snd. De Beurtelung des Modells vom Fachwssen her st daher her unumgänglch. 9. Annahmen über de Zufalls-Fehler überprüfen. Gegebenenfalls muss man de Testmethode anpassen (generalzed least squares, robuster Test,...). De Enhaltung der Voraussetzungen st her wchtg. 10. Test-Resultate. Man berechnet de P-Werte für de Modelle mt und ohne krtsche Varable. g h Im Bespel der Baukosten legt ene solche Fragestellung vor. Es soll ja herausgefunden werden, ob de Kostengarante enen (vermndernden) Enfluss auf de Zelgrösse Kosten hat. Verschedene Modelle haben zwespältge Antworten gelefert. De Varable N, de zählt, we vele Werke das gleche Ingeneur-Team berets erbaut hat, st ene krtsche Varable. Mt fachlcher Beurtelung kommt man zu enem überraschend klaren Ergebns, das wr aber her ncht ausführen wollen. En drtter Zweck: Vorhersage. Her st noch kene Stratege formulert. Es kommt be deser Fragestellung nur darauf an, gute angepasste Werte zu erhalten. Kollneartäten snd unwchtg. Für Prognose-Intervalle st de Form der Vertelung der Fehler wesentlch. 5.S S-Funktonen a De Wchtgket enes Terms n der Modellglechung wrd von drop1 geprüft, sehe 3.S.0.f. Dese Funkton lefert ncht nur Test-Resultate (wenn man test="f" setzt), sondern (vor allem) enen AIC-Wert (5.3.g), der den Verglech zwschen Modellen mt verschedenen Anzahlen von Regressoren ermöglcht. Analog zu drop1 gbt es ene Funkton add1, de prüft, ob Terme zum bestehenden Modell hnzugefügt werden sollen. b Funkton step. De schrttwesen Verfahren snd n der Funkton step mplementert. Als erstes Argument verlangt step en lm- (oder regr-) Resultat. Wenn nchts weteres gegeben wrd, dann läuft de Modellwahl schrttwese rückwärts. Man kann aber als Argument scope=.+x5+x6 zusätzlche Terme (X5 und X6)angeben und auch festlegen, dass gewsse Terme n allen Modellen vorkommen müssen ( scope=lst( lower= X1, upper=.+x5+x6) ). Wll man en Vorwärts-Verfahren vom leeren Modell an durchführen, dann muss man zunächst das leere Modell anpassen, also t.r < lm(y 1, data=...) engeben. Bespel: > t.r < lm(k 1,data=d.nuk) > t.rs < step(t.r, scope=paste(" ",paste(names(d.nuk)[-1],collapse="+"))) Das schrttwese Verfahren stoppt, wenn de Grösse AIC ncht mehr abnmmt. Oft wll man sehen,

96 94 5 MODELL-ENTWICKLUNG welche Varablen n weteren Schrtten elmnert würden. Dazu kann man das Argument k=100 benützen. Dann st zwar AIC ncht mehr, was es sen soll, aber das Rückwärts-Verfahren läuft weter, mestens bs zum leeren Modell. c Funkton regsubsets lbrary(leaps). Ermöglcht de Prüfung aller Glechungen (all subsets). > t.ras < regsubsets(k.,data=d.nuk,nbest=3) > summary(t.ras) Mt nvmax= maxmale Anzahl Regressoren und mt force.n= kann man den Aufwand reduzeren und deshalb (noch) grössere Modelle verarbeten. > t.ras < regsubsets(x=d.nuk[,-1], y=d.nuk[,"k"], force.n=c("g","d"), nvmax=8,nbest=3) d Funkton update. De Idee der Funkton update st es, enzelne Modell-Spezfkatonen ändern zu können und auf enfache Art ene neue Modell-Anpassung zu erwrken. Bespelwese führt > update(t.r,formula=.-bw) zu enem Modell, das sch von dem n t.r abgespecherten Modell-Ergebns nur dadurch unterschedet, dass der Term BW m Modell weggelassen wrd. Allerdngs kann es gerade so effzent und transparent sen, mt copy-paste den vorhergehenden Aufruf von lm zu duplzeren und abzuändern. e De Lasso-Methode st m package lbrary(lasso2) unter dem Namen l1ce mplementert. De Standardserung der Varablen muss man selber organseren. Das Argument bound legt de relatve Schranke b fest (ausser man setzt absolute.t=true). Man kann desem Argument mehrere Werte geben (enen Vektor), bespelswese bound=seq(0.05,1,0.05) und erhält dann ene ganze Lste von Regressonsresultaten. Mt plot(...) erhält man ene Darstellung der erhaltenen Koeffzenten n Abhänggket von der Schranke. > t.r < l1ce(k.,data=t.d, bound=seq(0.05,1,0.05)) > plot(t.r) > summary(t.r[[5]])

97 6 Ergänzungen 6.1 Fehlerbehaftete erklärende Varable a b De erklärenden Varablen erschenen n den besprochenen Modellen ncht als Zufallsvarable, obwohl se oft ebenso zufällg snd we de Zelgrösse. Wr haben des bsher vernachlässgt und mmer so getan, als ob de x-werte feste, vorgegebene Zahlen seen. Ene formale Begründung dafür besteht darn, dass de Vertelungen gemäss Modell als bedngte Vertelungen, gegeben de x -Werte, aufgefasst werden. Wr wollen nun untersuchen, was gescheht, wenn de erklärende Varable, deren Enfluss auf de Zelgrösse von Interesse st, nur ungenau gemessen oder beobachtet werden kann. Wr stellen uns zwe latente Varable u und v vor, de determnstsch zusammenhängen m enfachsten Fall lnear, v = α + βu. Se können aber bede ncht exakt beobachtet werden, sondern nur mt zufällgen Fehlern, also X = u + D, Y = v + E = α + βu + E. De Fehler D sollen ebenso we de Messfehler E normalvertelt sen, D N 0, σ 2 D, E N 0, σ 2 E und unabhängg. De u und damt auch de v seen feste Zahlen we es n der lnearen Regresson de x snd. Unser Interesse glt dem Koeffzenten β und eventuell auch α. Für σ 2 D = 0 wrd u glech der beobachtbaren Varablen X, und man erhält das Modell der enfachen lnearen Regresson. c d e Das beschrebene Modell st der enfachste Fall ener Regresson mt fehlerbehafteten erklärenden Varablen (errors-n-varables regresson). Man sprcht auch von ener funktonalen Bezehung (functonal relatonshp). Wenn de wahren Werte u der erklärenden Varablen als zufällg statt als fest aufgefasst werden, dann hesst das Modell ene structural relatonshp. Den Untersched zwschen dem Modell der funktonalen Bezehung und der enfachen lnearen Regresson wrd n Abbldung 6.1.d an enem smulerten Bespel gezegt. Verglecht man de Beobachtungen mt den Punkten, de man erhalten hätte, wenn de erklärende Varable u ohne Messfehler verfügbar wäre, dann seht man, dass sch de Streuung der Punkte n x-rchtung ausdehnt. De Stegung der Regressonsgeraden, de mt Klensten Quadraten bestmmt wrd, st glech β LS = n =1 (Y Y )(x x) n =1 (x x) 2 = cov X, Y, var X also glech dem Quotenten aus der (emprschen) Kovaranz zwschen X und Y und der (emprschen) Varanz von X. In Abbldung 6.1.d zegt sch, dass de geschätzte Gerade vel flacher st als de wahre. Ist das Zufall? Um de gewünschte Stegung β zu bestmmen, müssten wr de X -Werte durch de u ersetzen können. Was würde sch ändern? Da de Zufallsfehler D unabhängg snd von den E und den u und damt auch von den Y = βu + E, verändert sch de Kovaranz ncht (genauer: de emprsche Kovaranz zwschen U und Y hat den glechen Erwartungswert we dejenge Verson Sept 2013, c W. Stahel

98 96 6 ERGÄNZUNGEN Abbldung 6.1.d: Veranschaulchung des Modells mt ener fehlerbehafteten erklärenden Varablen. 50 Beobachtungen wurden mt dem Modell v = u, σ D = 3 und σ E = 1 smulert. De Beobachtungen ( ) streuen n x-rchtung stärker als de Beobachtungen ohne Fehler n x-rchtung (+), de aus der Smulaton her bekannt snd. Zusätzlch zur wahren Geraden snd de mt Klensten Quadraten geschätzte und de korrgerte Gerade engezechnet. zwschen X und Y ). De emprsche Varanz der u st dagegen m Erwartungswert um σd 2 klener als de emprsche Varanz der X. Deshalb wrd der Nenner n der obgen Formel zu gross, während der Zähler den rchtgen Erwartungswert hat. Das führt zu ener systematsch zu flachen Geraden. Der systematsche Fehler lässt sch aber lecht korrgeren, wenn σ D bekannt st: Wr setzen m Nenner var X σd 2 statt var X en. Anders gesagt, β = n =1 (Y Y )(x x) n =1 (x x) 2 σ 2 D = β LS / κ κ = var X σ2 D var X De Grösse κ schreben wr mt Hut ( ), da se (über de u ) von der Stchprobe abhängt. Wenn de wahren Werte u der erklärenden Varablen selbst als Zufallsvarable modellert werden, st der Modellparameter, der durch κ geschätzt wrd glech κ = var U / var X. De Grösse κ wrd n der Lteratur als Abschwächungs-Koeffzent (attenuaton coeffcent) bezechnet. Er msst, we vel flacher de mt der üblchen Methode geschätzte Stegung wrd als de gesuchte Stegung β. Er wrd auch relablty rato genannt, da er de Verlässlchket der Varablen X als Mass für de gewünschte Varable U msst.

99 6.1. FEHLERBEHAFTETE ERKLÄRENDE VARIABLE 97 f g h j k Den zweten Parameter α, den Achsenabschntt der gesuchten Geraden, schätzt man we früher nach der Formel α = Y β X (2.2.c) her natürlch mt der soeben engeführten erwartungstreuen Schätzung β. Bevor wr den Fall dskuteren, n dem σ D ncht bekannt st, soll en Bespel folgen. Im Bespel der Schadstoffe m Tunnel (1.1.f) sollen de Emssonsfaktoren für de beden Fahrzeugklassen Personenwagen und Lastwagen bestmmt werden. In der erwähnten Untersuchung m Gubrst-Tunnel konnte de Anzahl Fahrzeuge ener Fahrzeugklasse ncht genau bestmmt werden. De systematsche Abwechung (systematsche Unterschätzung des Antels der Lastwagen am Gesamtverkehr durch de Schlaufen-Klasserung) kann durch Echung (sehe 1.1.h und 6.2 unten) korrgert werden, aber der Erfassungsfehler wrd auch zufällg streuen. De Daten, de zur Echung denen, lefern auch ene Schätzung der Varanz deser zufällgen Fehler, also von σ 2 D, nämlch Wenn de Schätzung dese zufällgen Fehler ncht berückschtgt, wrd de Gerade zu flach geschätzt, we wr gesehen haben. Für Schadstoffe, de von den Lastwagen stärker emttert werden, bewrkt das, dass hre Emssonen unterschätzt und jene der Personenwagen überschätzt werden und umgekehrt für Schadstoffe, de von Personenwagen n grösserer Menge ausgestossen werden. Abbldung 6.1.g zegt de Daten der Stude, de für de Berechnung der Emssonsfaktoren brauchbar waren. In den Nachtstunden herrschte gernger Verkehr, was zu so klenen Luftgeschwndgketen führt, dass de Emssonen ncht mehr rchtg berechnet werden konnten. (De Rechnung setzt lamnare Luftströmung voraus.) De flachere engezechnete Gerade resultert aus ener robusten Schätzung ohne Berückschtgung der Fehler der erklärenden Varablen; de stelere st de korrgerte. Der Korrekturfaktor 1/κ für de Stegung beträgt Der Achsenabschntt, der den Emssonsfaktor für de Personenwagen msst, wrd gerngfügg von 1254 auf 1169 korrgert, während der geschätzte Emssonsfaktor für de Lastwagen ( α + β ) von um 10% auf klettert. Im Umweltberech gbt es vele ähnlche Fragestellungen, vor allem auch auf dem Gebet des Zusammenhangs von Gesundhetsschäden mt der Exposton gegenüber Rskostoffen: De Schädgungen werden systematsch unterschätzt, wenn de Ungenaugket der Erfassung der Exposton ncht berückschtgt wrd. Statt der Ungenaugket der erklärenden Varablen X kann auch das Verhältns γ = σ E /σ D der Ungenaugketen von X und Y (näherungswese) bekannt sen. Durch Umskalerung der enen Varablen (X γx ) lässt sch dann errechen, dass bede gemäss Annahme de gleche Genaugket aufwesen. Dann lefert de orthogonale Regresson de rchtge Schätzung. De orthogonale Regresson mnmert statt der Quadratsumme der vertkalen Abwechungen r a, b (Methode der Klensten Quadrate) dejenge der orthogonalen Abstände d a, b (Abbldung 6.1.j). Das ergbt ene stelere Gerade als de Klensten Quadrate der r. (* Se fällt mt der ersten Hauptkomponente ener Hauptkomponenten-Analyse zusammen en Thema der Multvaraten Statstk.) Wenn de Massenhet von X oder Y geändert wrd, ändert sch de mt orthogonaler Regresson bestmmte Gerade n ener Wese, de schwerg nterpreterbar st. (Proberen Se Extremfälle aus!) Man soll dese Art der Regresson daher nur auf geegnet standardserte Daten anwenden. Wenn X und Y auf emprsche Standardabwechung 1 transformert werden, ergbt sch mmer ene Stegung von +1 oder 1 für de optmale Gerade, unabhängg von der Stärke des Zusammenhangs. (Wenn de Korrelaton 0 st, st de Gerade für standardserte Varable unbestmmt.) De bsher besprochenen Schätzmethoden setzen voraus, dass de Varanz σd 2 der Zufallsfehler D oder das Verhältns σ E /σ D bekannt se. Wenn über de Varanzen σ D und σ E nchts

100 98 6 ERGÄNZUNGEN Abbldung 6.1.g: Emssonsfaktor für NOx und Lastwagen-Antel m Bespel der Schadstoffe m Tunnel, für de Zetabschntte mt genügender Luftgeschwndgket. De Geraden stellen de Schätzung mt und ohne Berückschtgung der Messfehler des Lastwagen-Antels dar. y [x, y ] y = a + bx d a, b x Abbldung 6.1.j: Zur Defnton der orthogonalen Regresson bekannt st, wrd das Problem n enem grundlegenden Snn schwerg. Wenn de wahren Werte u als normalvertelte Zufallsvarable U N µ, σu 2 modellert werden, dann lässt sch zegen, dass de Parameter auch mt unendlch velen Beobachtungen ncht geschätzt werden können. Es führen dann nämlch verschedene Parametersätze ([ β, α, σ D, σ E, σ U ]) zur genau glechen Vertelung der Beobachtungen [X, Y ]. Das Modell st ncht dentfzerbar. Be anderen Annahmen über de u st de Identfzerbarket zwar theoretsch gegeben, aber für vernünftge Stchprobenumfänge ncht wrklch errechbar. Man braucht n der Praxs also ene zusätzlche Informaton. Kennt man wengstens ene obere Schranke ( grösser als... kann σ D ncht sen ), dann kann man den schlmmsten Fall durchrechnen und aus dem Untersched zu den Resultaten für σ D = 0 abschätzen, ob das Problem bedeutsam se oder ncht.

101 6.2. EICHUNG 99 l m Weso wrd dese Methodk so selten behandelt und noch wenger angewandt? Ncht nur wegen mangelndem Wssen! Wenn man Y vorhersagen oder nterpoleren wll, so macht des mestens nur für gegebene X -Werte Snn, ncht für gegebene u-werte, da man dese ja ncht beobachten kann. Dann st de gewöhnlche Regressonsrechnung angebracht. Allerdngs muss gewährlestet sen, dass de X -Werte für de neuen Beobachtungen auf gleche Wese zustande kommen we de Daten, mt denen das Modell angepasst wurde. Wenn de Frage nteressert, ob en Enfluss von u auf Y (oder v ) vorhanden se, so muss man de Nullhypothese β = 0 testen. Wenn de Hypothese glt, st auch de Stegung m Regressonsmodell von Y auf X null, und man kann den Test der gewöhnlchen Regressonsrechnung anwenden. Lteratur: Wetherll (1986) gbt ene kurze, krtsche Darstellung. Fuller (1987) st en umfassendes Werk über deses Thema. 6.2 Echung a Ausglechs-Geraden werden oft verwendet, um ene Mess-Methode zu echen oder um aus dem Resultat ener (bllgen) Mess-Methode das Resultat ener anderen (teuren) zu schätzen. Für de Bestmmung des Zusammenhangs geht man mest von bekannten wahren Werten x (oder Werten der präzsen, teuren Mess-Methode) aus und bestmmt dazu de Werte Y der zu untersuchenden Methode. Es wrd bespelswese jewels für ene chemsche Lösung mt bekannter Konzentraton de Absorpton von Lcht be ener bestmmten Wellenlänge gemessen. (Mestens muss zunächst ene Reakton durchgeführt werden, de de nteresserende chemsche Substanz n ene optsch erfassbare Substanz verwandelt.) In der Anwendung der Ech-Geraden (oder -Kurve) st umgekehrt der Wert Y der fraglchen Messmethode vorgegeben, und man wll den zugehörgen wahren Wert x schätzen. Im Bespel wll man aus der Absorpton de Konzentraton der Lösung ausrechnen. Man verwendet de Regressons-Bezehung also n der falschen Rchtung. Daraus ergeben sch Probleme. Ihre Behandlung fndet man auch unter dem Ttel nverse regresson oder calbraton. b c Wr wollen her ene enfache Behandlung vorstellen, de en brauchbares Resultat ergbt, wenn der Zusammenhang eng (das Bestmmthetsmass gross, bespelswese über 0.95) st. Zunächst nehmen wr an, dass de x-werte kene Messfehler aufwesen. Das errecht man, ndem man m Bespel sehr sorgfältg erstellte Ech-Lösungen verwendet. Für mehrere solche Lösungen mt möglchst unterschedlchen Konzentratonen führt man jewels mehrere (möglchst) unabhängge Messungen (Aufberetung und Ablesung des optschen Messgerätes) der Grösse Y durch. Daraus bestmmt man mt den besprochenen Methoden ene enfache lneare Regressonsglechung sofern Lneartät vorhanden st. Des führt zu Schätzungen der Parameter α, β und σ und zu geschätzten Standardfehlern von α und β. Wenn nun für ene zu messende Probe der Wert y abgelesen wrd, st klar, we en zugehörger x-wert bestmmt wrd: x = (y α)/ β. De Frage stellt sch, we genau deser Wert st. De Antwort lässt sch formuleren, ndem wr x als Parameter ansehen, für den en Vertrauensntervall gesucht st. En solches Intervall ergbt sch (we mmer) aus enem Test. Nehmen wr als Nullhypothese x = x 0 an! We wr m Abschntt über Vorhersage gesehen haben, legt Y mt Wahrschenlchket 0.95 n m Vorhersage-Intervall α + βx 0 ± b mt b = q t n σ n + (x 0 x) 2 /SSQ (X), das n Abbldung 6.2.c we n Abbldung 2.4.c glech für alle möglchen x 0 dargestellt st.

102 100 6 ERGÄNZUNGEN Das Intervall bldet deshalb en Annahmentervall für de Grösse Y (de her de Rolle ener Teststatstk spelt) unter der Nullhypothese x = x 0. Abbldung 6.2.c: Veranschaulchung der Verwendung ener Echgeraden für enen Messwert von 11. Zum Verglech de Verwendung für ene Vorhersage des Messwertes be enem wahren Wert von 20. De Abbldung veranschaulcht nun den weteren Gedankengang: Messwerte y snd mt Parameterwerten x 0 verenbar m Snne des Tests, wenn der Punkt [x 0, y] zwschen den engezechneten Kurven legt. In der Fgur kann man deshalb ohne Schwergketen de Menge der x 0 -Werte bestmmen, de mt der Beobachtung y verträglch snd. Se blden das engezechnete Intervall das Vertrauensntervall für x 0. In sehr guter Näherung hat des den Mttelpunkt x und de Brete 2 b/ β, st also glech (y α)/ β ± b/ β. d* Enge wetere Stchworte: Fehlerbehaftete x-werte: Man verwende ene Schätzung der wahren Geraden α + β x. Überprüfung der Lneartät und anderer Modell-Annahmen st wchtg! Perodsche Echung: sollte ncht mt Enzelmessungen erfolgen.

1.1 Beispiele zur linearen Regression

1.1 Beispiele zur linearen Regression 1.1. BEISPIELE ZUR LINEAREN REGRESSION 0 REGRESSION 1: Multple neare Regresson 1 Enführung n de statstsche Regressonsrechnung 1.1 Bespele zur lnearen Regresson b Bespel Sprengungen. Erschütterung Funkton

Mehr

Lineare Regression Teil des Weiterbildungskurses in angewandter Statistik

Lineare Regression Teil des Weiterbildungskurses in angewandter Statistik 0 Lneare Regresson Tel des Weterbldungskurses n angewandter Statstk der ETH Zürch Folen Werner Stahel, September 2017 1.1 Bespele zur lnearen Regresson 1 1 Enführung n de statstsche Regressonsrechnung

Mehr

Lineare Regression. Werner Stahel Seminar für Statistik, ETH Zürich. Mai 2012

Lineare Regression. Werner Stahel Seminar für Statistik, ETH Zürich. Mai 2012 Lneare Regresson Werner Stahel Semnar für Statstk, ETH Zürch Ma 2012 Unterlagen zum Modul G3: Wahrschenlchket und Statstk des Zertfkatskurses über Rsko und Scherhet Dese Unterlagen stammen aus enem umfangrechen

Mehr

3 Multiple lineare Regression

3 Multiple lineare Regression 3.1 Modell und Statstk 34 3 Multple lneare Regresson 3.1 Modell und Statstk a Zusammenhang zwschen ener Zelgrösse Y und mehreren Engangsgrössen X (1), X (2),..., X (m) Y = β 0 + β 1 x (1) + β 2 x (2) Parameter:

Mehr

Grundgedanke der Regressionsanalyse

Grundgedanke der Regressionsanalyse Grundgedanke der Regressonsanalse Bsher wurden durch Koeffzenten de Stärke von Zusammenhängen beschreben Mt der Regressonsrechnung können für ntervallskalerte Varablen darüber hnaus Modelle geschätzt werden

Mehr

Definition des linearen Korrelationskoeffizienten

Definition des linearen Korrelationskoeffizienten Defnton des lnearen Korrelatonskoeffzenten r xy x y y r x xy y 1 x x y y x Der Korrelatonskoeffzent st en Indkator dafür, we gut de Punkte (X,Y) zu ener Geraden passen. Sen Wert legt zwschen -1 und +1.

Mehr

Übungsklausur zur Vorlesung Wahrscheinlichkeit und Regression Lösungen. Übungsklausur Wahrscheinlichkeit und Regression Die Lösungen

Übungsklausur zur Vorlesung Wahrscheinlichkeit und Regression Lösungen. Übungsklausur Wahrscheinlichkeit und Regression Die Lösungen Übungsklausur Wahrschenlchket und Regresson De Lösungen. Welche der folgenden Aussagen treffen auf en Zufallsexperment zu? a) En Zufallsexperment st en emprsches Phänomen, das n stochastschen Modellen

Mehr

2 Zufallsvariable und Verteilungen

2 Zufallsvariable und Verteilungen Zufallsvarable und Vertelungen 7 Zufallsvarable und Vertelungen Wr wollen uns jetzt mt Zufallsexpermenten beschäftgen, deren Ausgänge durch (reelle) Zahlen beschreben werden können, oder be denen man jedem

Mehr

Beschreibung des Zusammenhangs zweier metrischer Merkmale. Streudiagramme Korrelationskoeffizienten Regression

Beschreibung des Zusammenhangs zweier metrischer Merkmale. Streudiagramme Korrelationskoeffizienten Regression Beschrebung des Zusammenhangs zweer metrscher Merkmale Streudagramme Korrelatonskoeffzenten Regresson Alter und Gewcht be Kndern bs 36 Monaten Knd Monate Gewcht 9 9 5 8 3 4 7.5 4 3 6 5 3 6 4 3.5 7 35 5

Mehr

Arbeitsgruppe Radiochemie Radiochemisches Praktikum P 06. Einführung in die Statistik. 1. Zählung von radioaktiven Zerfällen und Statistik 2

Arbeitsgruppe Radiochemie Radiochemisches Praktikum P 06. Einführung in die Statistik. 1. Zählung von radioaktiven Zerfällen und Statistik 2 ETH Arbetsgruppe Radocheme Radochemsches Praktkum P 06 Enführung n de Statstk INHALTSVERZEICHNIS Sete 1. Zählung von radoaktven Zerfällen und Statstk 2 2. Mttelwert und Varanz 2 3. Momente ener Vertelung

Mehr

Prof. Dr. Roland Füss Statistik II SS 2008

Prof. Dr. Roland Füss Statistik II SS 2008 5. Spezelle Testverfahren Zahlreche parametrsche und nchtparametrsche Testverfahren, de nach Testvertelung (Bnomal, t-test etc.), Analysezel (Anpassungs- und Unabhänggketstest) oder Konstrukton der Prüfgröße

Mehr

(Theoretische) Konfidenzintervalle für die beobachteten Werte: Die Standardabweichung des Messfehlers wird Standardmessfehler genannt:

(Theoretische) Konfidenzintervalle für die beobachteten Werte: Die Standardabweichung des Messfehlers wird Standardmessfehler genannt: (Theoretsche Konfdenzntervalle für de beobachteten Werte: De Standardabwechung des Messfehlers wrd Standardmessfehler genannt: ( ε ( 1- REL( Mt Hlfe der Tschebyscheff schen Unglechung lassen sch be bekanntem

Mehr

Die Annäherung der Binomialverteilung durch die Normalverteilung am Beispiel eines Modells der Schadenversicherung

Die Annäherung der Binomialverteilung durch die Normalverteilung am Beispiel eines Modells der Schadenversicherung am Bespel enes Modells der chadenverscherung Für das Modell ener chadenverscherung se gegeben: s w s. n 4 chaden enes Verscherungsnehmers, wenn der chadenfall entrtt Wahrschenlchket dafür, dass der chadenfall

Mehr

Die hierzu formulierte Nullhypothese H lautet: X wird durch die Verteilungsdichtefunktion h(x)

Die hierzu formulierte Nullhypothese H lautet: X wird durch die Verteilungsdichtefunktion h(x) ZZ Lösung zu Aufgabe : Ch²-Test Häufg wrd be der Bearbetung statstscher Daten ene bestmmte Vertelung vorausgesetzt. Um zu überprüfen ob de Daten tatsächlch der Vertelung entsprechen, wrd en durchgeführt.

Mehr

Statistik und Wahrscheinlichkeitsrechnung

Statistik und Wahrscheinlichkeitsrechnung Statstk und Wahrschenlchketsrechnung Statstk und Wahrschenlchketsrechnung 5. Vorlesung Dr. Jochen Köhler.03.0 Statstk und Wahrschenlchketsrechnung Wchtg!!! Vorlesung Do 4.03.0 HCI G3 Übung 5 D 9.03.0 Fnk

Mehr

wird auch Spannweite bzw. Variationsbreite genannt ist definiert als die Differenz zwischen dem größten und kleinsten Messwert einer Verteilung:

wird auch Spannweite bzw. Variationsbreite genannt ist definiert als die Differenz zwischen dem größten und kleinsten Messwert einer Verteilung: Streuungswerte: 1) Range (R) ab metrschem Messnveau ) Quartlabstand (QA) und mttlere Quartlabstand (MQA) ab metrschem Messnveau 3) Durchschnttlche Abwechung (AD) ab metrschem Messnveau 4) Varanz (s ) ab

Mehr

nonparametrische Tests werden auch verteilungsfreie Tests genannt, da sie keine spezielle Verteilung der Daten in der Population voraussetzen

nonparametrische Tests werden auch verteilungsfreie Tests genannt, da sie keine spezielle Verteilung der Daten in der Population voraussetzen arametrsche vs. nonparametrsche Testverfahren Verfahren zur Analyse nomnalskalerten Daten Thomas Schäfer SS 009 1 arametrsche vs. nonparametrsche Testverfahren nonparametrsche Tests werden auch vertelungsfree

Mehr

Fallstudie 1 Diskrete Verteilungen Abgabe: Aufgabentext und Lösungen schriftlich bis zum

Fallstudie 1 Diskrete Verteilungen Abgabe: Aufgabentext und Lösungen schriftlich bis zum Abgabe: Aufgabentext und Lösungen schrftlch bs zum 15. 6. 2012 I. Thema: Zehen mt und ohne Zurücklegen Lesen Se sch zunächst folgenden Text durch! Wr haben bsher Stchprobenzehungen aus Grundgesamtheten

Mehr

Vorlesung: Multivariate Statistik für Psychologen

Vorlesung: Multivariate Statistik für Psychologen Vorlesung: Multvarate Statstk für Psychologen 3. Vorlesung: 14.04.2003 Agenda 1. Organsatorsches 2. Enfache Regresson. Grundlagen.. Grunddee und Zele der enfachen Regresson Bespele Statstsches Modell Modell

Mehr

5 Gemischte Verallgemeinerte Lineare Modelle

5 Gemischte Verallgemeinerte Lineare Modelle 5 Gemschte Verallgemenerte Lneare Modelle Wr betrachten zunächst enge allgemene Aussagen für Gemschte Verallgemenerte Lneare Modelle. Se y der beobachtbare Zufallsvektor und u der Vektor der ncht-beobachtbaren

Mehr

Klausur zur Vorlesung Lineare Modelle SS 2006 Diplom, Klausur A

Klausur zur Vorlesung Lineare Modelle SS 2006 Diplom, Klausur A Lneare Modelle m SS 2006, Prof. Dr. W. Zucchn 1 Klausur zur Vorlesung Lneare Modelle SS 2006 Dplom, Klausur A Aufgabe 1 (18 Punkte) a) Welcher grundsätzlche Untersched besteht n der Interpretaton von festen

Mehr

3 Multiple lineare Regression

3 Multiple lineare Regression 3 Multple lneare Regresson 3.1 Modell und Statstk a De Abhänggket ener Zelgrösse von ener Ausgangsgrösse kann n enem enfachen Streudagramm dargestellt werden. Oft wrd dadurch das Wesentlche des Zusammenhangs

Mehr

Beschreibende Statistik Mittelwert

Beschreibende Statistik Mittelwert Beschrebende Statstk Mttelwert Unter dem arthmetschen Mttel (Mttelwert) x von n Zahlen verstehen wr: x = n = x = n (x +x +...+x n ) Desen Mttelwert untersuchen wr etwas genauer.. Zege für n = 3: (x x )

Mehr

Lineare Regression (1) - Einführung I -

Lineare Regression (1) - Einführung I - Lneare Regresson (1) - Enführung I - Mttels Regressonsanalysen und kompleeren, auf Regressonsanalysen aserenden Verfahren können schenar verschedene, jedoch nenander üerführare Fragen untersucht werden:

Mehr

Mehrfachregression: Einfluss mehrerer Merkmale auf ein metrisches Merkmal. Designmatrix Bestimmtheitsmaß F-Test T-Test für einzelne Regressoren

Mehrfachregression: Einfluss mehrerer Merkmale auf ein metrisches Merkmal. Designmatrix Bestimmtheitsmaß F-Test T-Test für einzelne Regressoren Mehrfachregresson: Enfluss mehrerer Merkmale auf en metrsches Merkmal Desgnmatrx Bestmmthetsmaß F-Test T-Test für enzelne Regressoren Mehrfachregresson Bvarat: x b b y + = 0 ˆ k k x b x b x b b y + + +

Mehr

Gauss sche Fehlerrrechnung

Gauss sche Fehlerrrechnung Gauss sche Fehlerrrechnung T. Ihn 24. Oktober 206 Inhaltsverzechns Modell und Lkelhood 2 Alle Standardabwechungen σ snd bekannt, bzw. de Kovaranzmatrx der Daten st bekannt: Mnmeren der χ 2 -Funkton. 6

Mehr

-70- Anhang: -Lineare Regression-

-70- Anhang: -Lineare Regression- -70- Anhang: -Lneare Regressn- Für ene Messgröße y f(x) gelte flgender mathematsche Zusammenhang: y a+ b x () In der Regel läßt sch durch enen Satz vn Messwerten (x, y ) aber kene Gerade zechnen, da de

Mehr

Daten sind in Tabellenform gegeben durch die Eingabe von FORMELN können mit diesen Daten automatisierte Berechnungen durchgeführt werden.

Daten sind in Tabellenform gegeben durch die Eingabe von FORMELN können mit diesen Daten automatisierte Berechnungen durchgeführt werden. Ene kurze Enführung n EXCEL Daten snd n Tabellenform gegeben durch de Engabe von FORMELN können mt desen Daten automatserte Berechnungen durchgeführt werden. Menüleste Symbolleste Bearbetungszele aktve

Mehr

Standardnormalverteilung / z-transformation

Standardnormalverteilung / z-transformation Standardnormalvertelung / -Transformaton Unter den unendlch velen Normalvertelungen gbt es ene Normalvertelung, de sch dadurch ausgeechnet st, dass se enen Erwartungswert von µ 0 und ene Streuung von σ

Mehr

Mathematische und statistische Methoden II

Mathematische und statistische Methoden II Methodenlehre e e Prof. Dr. G. Menhardt 6. Stock, Wallstr. 3 (Raum 06-206) Sprechstunde jederzet nach Verenbarung und nach der Vorlesung. Mathematsche und statstsche Methoden II Dr. Malte Perske perske@un-manz.de

Mehr

(2) i = 0) in Abhängigkeit des Zeitunterschieds x ZeitBus ZeitAuto für seinen Arbeitsweg.) i = 1) oder Bus ( y

(2) i = 0) in Abhängigkeit des Zeitunterschieds x ZeitBus ZeitAuto für seinen Arbeitsweg.) i = 1) oder Bus ( y 5. Probt-Modelle Ökonometre II - Peter Stalder "Bnar Choce"-Modelle - Der Probt-Ansatz Ene ncht drekt beobachtbare stochastsche Varable hängt von x ab: x u 2 u ~ N(0, ( Beobachtet wrd ene bnäre Varable

Mehr

Funktionsgleichungen folgende Funktionsgleichungen aus der Vorlesung erhält. = e

Funktionsgleichungen folgende Funktionsgleichungen aus der Vorlesung erhält. = e Andere Darstellungsformen für de Ausfall- bzw. Überlebens-Wahrschenlchket der Webull-Vertelung snd we folgt: Ausfallwahrschenlchket: F ( t ) Überlebenswahrschenlchket: ( t ) = R = e e t t Dabe haben de

Mehr

Statistische Regressionsmodelle

Statistische Regressionsmodelle Statstsche Regressonsmodelle Tel I: Lneare Regresson Werner Stahel Semnar für Statstk, ETH Zürch Ma 2008 Unterlagen zu enem Kurs über Regressonsmodelle, gehalten vom 4.-6. Jun 2008, veranstaltet von der

Mehr

3. Lineare Algebra (Teil 2)

3. Lineare Algebra (Teil 2) Mathematk I und II für Ingeneure (FB 8) Verson /704004 Lneare Algebra (Tel ) Parameterdarstellung ener Geraden Im folgenden betrachten wr Geraden m eukldschen Raum n, wobe uns hauptsächlch de Fälle n bzw

Mehr

Prof. Dr. P. Kischka WS 2012/13 Lehrstuhl für Wirtschafts- und Sozialstatistik. Klausur Statistische Inferenz

Prof. Dr. P. Kischka WS 2012/13 Lehrstuhl für Wirtschafts- und Sozialstatistik. Klausur Statistische Inferenz Prof. Dr. P. Kschka WS 2012/13 Lehrstuhl für Wrtschafts- und Sozalstatstk Klausur Statstsche Inferenz 15.02.2013 Name: Matrkelnummer: Studengang: Aufgabe 1 2 3 4 5 6 7 8 Summe Punkte 6 5 5 5 5 4 4 6 40

Mehr

Kapitel 4: Unsicherheit in der Modellierung Modellierung von Unsicherheit. Machine Learning in der Medizin 104

Kapitel 4: Unsicherheit in der Modellierung Modellierung von Unsicherheit. Machine Learning in der Medizin 104 Kaptel 4: Unscherhet n der Modellerung Modellerung von Unscherhet Machne Learnng n der Medzn 104 Regresson Modellerung des Datengenerators: Dchteschätzung der gesamten Vertelung, t pt p p Lkelhood: L n

Mehr

14 Schätzmethoden. Eigenschaften von Schätzungen ˆθ. Sei ˆθ n eine Schätzung eines Parameters θ, die auf n Beobachtungen beruht.

14 Schätzmethoden. Eigenschaften von Schätzungen ˆθ. Sei ˆθ n eine Schätzung eines Parameters θ, die auf n Beobachtungen beruht. 14 Schätzmethoden Egenschaften von Schätzungen ˆθ Se ˆθ n ene Schätzung enes Parameters θ, de auf n Beobachtungen beruht. ˆθn n θ Konsstenz (Mnmalforderung) Eˆθ n = θ Erwartungstreue Eˆθ n n θ Asymptotsche

Mehr

2.1 Einfache lineare Regression 31

2.1 Einfache lineare Regression 31 .1 Enfache lneare Regresson 31 Regressonsanalyse De Regressonsanalyse gehört zu den am häufgsten engesetzten multvaraten statstschen Auswertungsverfahren. Besonders de multple Regressonsanalyse hat große

Mehr

Abbildung 3.1: Besetzungszahlen eines Fermigases im Grundzustand (a)) und für eine angeregte Konfiguration (b)).

Abbildung 3.1: Besetzungszahlen eines Fermigases im Grundzustand (a)) und für eine angeregte Konfiguration (b)). 44 n n F F a) b) Abbldung 3.: Besetzungszahlen enes Fermgases m Grundzustand (a)) und für ene angeregte Konfguraton (b)). 3.3 Ferm Drac Statstk In desem Abschntt wollen wr de thermodynamschen Egenschaften

Mehr

Bedingte Entropie. Bedingte Entropie. Bedingte Entropie. Kapitel 4: Bedingte Entropie I(X;Y) H(X Y) H(Y) H(X) H(XY)

Bedingte Entropie. Bedingte Entropie. Bedingte Entropie. Kapitel 4: Bedingte Entropie I(X;Y) H(X Y) H(Y) H(X) H(XY) Bedngte Entrope Kaptel : Bedngte Entrope Das vorherge Theorem kann durch mehrfache Anwendung drekt verallgemenert werden H (... H ( = Ebenso kann de bedngt Entrope defnert werden Defnton: De bedngte Entrope

Mehr

z.b. Münzwurf: Kopf = 1 Zahl = 2 oder z.b. 2 Würfel: Merkmal = Summe der Augenzahlen, also hier: Bilde die Summe der Augenzahlen der beiden Würfel!

z.b. Münzwurf: Kopf = 1 Zahl = 2 oder z.b. 2 Würfel: Merkmal = Summe der Augenzahlen, also hier: Bilde die Summe der Augenzahlen der beiden Würfel! Aufgabe : Vorbemerkung: Ene Zufallsvarable st ene endeutge Funkton bzw. ene Abbldungsvorschrft, de angbt, auf welche Art aus enem Elementareregns ene reelle Zahl gewonnen wrd. x 4 (, ) z.b. Münzwurf: Kopf

Mehr

Sei T( x ) die Tangente an den Graphen der Funktion f(x) im Punkt ( x 0, f(x 0 ) ) : T( x ) = f(x 0 ) + f (x 0 ) ( x - x 0 ).

Sei T( x ) die Tangente an den Graphen der Funktion f(x) im Punkt ( x 0, f(x 0 ) ) : T( x ) = f(x 0 ) + f (x 0 ) ( x - x 0 ). Taylorentwcklung (Approxmaton durch Polynome). Problemstellung Se T( x ) de Tangente an den Graphen der Funkton f(x) m Punkt ( x 0, f(x 0 ) ) : T( x ) = f(x 0 ) + f (x 0 ) ( x - x 0 ). Dann kann man de

Mehr

Streuungs-, Schiefe und Wölbungsmaße

Streuungs-, Schiefe und Wölbungsmaße aptel IV Streuungs-, Schefe und Wölbungsmaße B... Lagemaße von äufgketsvertelungen geben allen weng Auskunft über ene äufgketsvertelung. Se beschreben zwar en Zentrum deser Vertelung, geben aber kenen

Mehr

Konkave und Konvexe Funktionen

Konkave und Konvexe Funktionen Konkave und Konvexe Funktonen Auch wenn es n der Wrtschaftstheore mest ncht möglch st, de Form enes funktonalen Zusammenhangs explzt anzugeben, so kann man doch n velen Stuatonen de Klasse der n Frage

Mehr

Lineare Regression. Stefan Keppeler. 16. Januar Mathematik I für Biologen, Geowissenschaftler und Geoökologen

Lineare Regression. Stefan Keppeler. 16. Januar Mathematik I für Biologen, Geowissenschaftler und Geoökologen Mathematk I für Bologen, Geowssenschaftler und Geoökologen 16. Januar 2012 Problemstellung Bespel Maß für Abwechung Trck Mnmum? Exponentalfunktonen Potenzfunktonen Bespel Problemstellung: Gegeben seen

Mehr

-2 Das einfache Regressionsmodell 2.1 Ein ökonomisches Modell

-2 Das einfache Regressionsmodell 2.1 Ein ökonomisches Modell Kaptel : Das enfache Regressonsmodell - Das enfache Regressonsmodell. En ökonomsches Modell Bespel: De Bezehung zwschen Haushaltsenkommen und Leensmttelausgaen Befragung zufällg ausgewählter Haushalte

Mehr

Lösungen zum 3. Aufgabenblock

Lösungen zum 3. Aufgabenblock Lösungen zum 3. Aufgabenblock 3. Aufgabenblock ewerber haben n enem Test zur sozalen Kompetenz folgende ntervallskalerte Werte erhalten: 96 131 11 1 85 113 91 73 7 a) Zegen Se für desen Datensatz, dass

Mehr

Lehrstuhl für Empirische Wirtschaftsforschung und Ökonometrie Dr. Roland Füss Statistik II: Schließende Statistik SS 2007

Lehrstuhl für Empirische Wirtschaftsforschung und Ökonometrie Dr. Roland Füss Statistik II: Schließende Statistik SS 2007 Lehrstuhl für Emprsche Wrtschaftsforschung und Ökonometre Dr Roland Füss Statstk II: Schleßende Statstk SS 007 5 Mehrdmensonale Zufallsvarablen Be velen Problemstellungen st ene solerte Betrachtung enzelnen

Mehr

Resultate / "states of nature" / mögliche Zustände / möglicheentwicklungen

Resultate / states of nature / mögliche Zustände / möglicheentwicklungen Pay-off-Matrzen und Entschedung unter Rsko Es stehen verschedene Alternatven (Strategen) zur Wahl. Jede Stratege führt zu bestmmten Resultaten (outcomes). Man schätzt dese Resultate für jede Stratege und

Mehr

Rotation (2. Versuch)

Rotation (2. Versuch) Rotaton 2. Versuch Bekannt snd berets Vektorfelder be denen das Lnenntegral über ene geschlossene Kurve Null wrd Stchworte: konservatve Kraft Potentalfelder Gradentenfeld. Es gbt auch Vektorfelder be denen

Mehr

Grundlagen der Mathematik I Lösungsvorschlag zum 12. Tutoriumsblatt

Grundlagen der Mathematik I Lösungsvorschlag zum 12. Tutoriumsblatt Mathematsches Insttut der Unverstät München Wntersemester 3/4 Danel Rost Lukas-Faban Moser Grundlagen der Mathematk I Lösungsvorschlag zum. Tutorumsblatt Aufgabe. a De Formel besagt, daß de Summe der umrahmten

Mehr

Kapitel V. Parameter der Verteilungen

Kapitel V. Parameter der Verteilungen Kaptel V Parameter der Vertelungen D. 5.. (Erwartungswert) Als Erwartungswert ener Zufallsvarablen X bezechnet man: E( X ) : Dabe se vorausgesetzt: = = + p falls X dskret f d falls X stetg und = + p

Mehr

Ökonomische und ökonometrische Evaluation. 1.3 Ökonometrische Grundkonzepte

Ökonomische und ökonometrische Evaluation. 1.3 Ökonometrische Grundkonzepte Ökonomsche und ökonometrsche Evaluaton 90 Emprsche Analyse des Arbetsangebots Zele: Bestmmung von Arbetsangebotselastztäten als Test der theoretschen Modelle Smulaton oder Evaluaton der Wrkungen von Insttutonen

Mehr

Multivariate Analysemethoden

Multivariate Analysemethoden Multvarate Analysemethoden q-q-plot Methode zur Prüfung der Multvaraten Normalvertelung Günter Menhardt Johannes Gutenberg Unverstät Manz Prüfung der NV-Annahme Vertelungsanpassung/Prüfung Prüfung der

Mehr

Analysis I. Vorlesung 17. Logarithmen. R R, x exp x,

Analysis I. Vorlesung 17. Logarithmen. R R, x exp x, Prof. Dr. H. Brenner Osnabrück WS 2013/2014 Analyss I Vorlesung 17 Logarthmen Satz 17.1. De reelle Exponentalfunkton R R, x exp x, st stetg und stftet ene Bjekton zwschen R und R +. Bewes. De Stetgket

Mehr

Lineare Regression. Werner Stahel Seminar für Statistik, ETH Zürich. Januar 2006. Unterlagen zum Block Rg1 des Kurses in Angewandter Statistik

Lineare Regression. Werner Stahel Seminar für Statistik, ETH Zürich. Januar 2006. Unterlagen zum Block Rg1 des Kurses in Angewandter Statistik Lneare Regresson Werner Stahel Semnar für Statstk, ETH Zürch Januar 2006 Unterlagen zum Block Rg1 des Kurses n Angewandter Statstk 2 3 Inhaltsverzechns 1 Enführung n de statstsche Regressonsrechnung 1

Mehr

Ökometrie I 10 Korrelation - Regression

Ökometrie I 10 Korrelation - Regression Ökometre I 10 Korrelaton - Regresson Ka Uwe Totsche LS Hydrogeologe Fredrch-Schller-Unverstät Jena Prof. Dr. Ka Uwe Totsche Ökometre I Korrelaton - Regresson 10-1 Zele und Lernnhalte Zel deser Enhet Zwedmensonale

Mehr

U Test (Rangsummentest) Parameterfreie Tests. U -Test. U -Test. χ ²- Unabhängigkeitstest Test auf Unabhängigkeit von zwei Zufallsgrößen

U Test (Rangsummentest) Parameterfreie Tests. U -Test. U -Test. χ ²- Unabhängigkeitstest Test auf Unabhängigkeit von zwei Zufallsgrößen Parameterfree Tests U Test (Rangsummentest) Verglech der Mttelwerte (Medane) be ncht normalvertelten Größen U - Test Mttelwertverglech von zwe ncht verbundenen Zugrößen Wlcoxon - Vorzechenrangtest Mttelwertverglech

Mehr

Multilineare Algebra und ihre Anwendungen. Nr. 6: Normalformen. Verfasser: Yee Song Ko Adrian Jenni Rebecca Huber Damian Hodel

Multilineare Algebra und ihre Anwendungen. Nr. 6: Normalformen. Verfasser: Yee Song Ko Adrian Jenni Rebecca Huber Damian Hodel ultlneare Algebra und hre Anwendungen Nr. : Normalformen Verfasser: Yee Song Ko Adran Jenn Rebecca Huber Daman Hodel 9.5.7 - - ultlneare Algebra und hre Anwendungen Jordan sche Normalform Allgemene heore

Mehr

Lösungen der Aufgaben zu Kapitel 2

Lösungen der Aufgaben zu Kapitel 2 Lösungen der Aufgaben zu Kaptel Abschntt 1 Aufgabe 1 Wr benutzen de Potenzrechenregeln, um ene Potenz von mt geradem Eponenten n oder mt ungeradem Eponenten n + 1 we folgt darzustellen: n n und n+1 n n

Mehr

Verteilungen eindimensionaler diskreter Zufallsvariablen

Verteilungen eindimensionaler diskreter Zufallsvariablen Vertelungen endmensonaler dskreter Zufallsvarablen Enführung Dskrete Vertelungen Dskrete Glechvertelung Bernoull-Vertelung Bnomalvertelung Bblografe: Prof. Dr. Kück Unverstät Rostock Statstk, Vorlesungsskrpt,

Mehr

Empirische Wirtschaftsforschung

Empirische Wirtschaftsforschung Emprsche Wrtschaftsforschung Prof. Dr. Bernd Süßmuth Unverstät Lepzg Insttut für Emprsche Wrtschaftsforschung Volkswrtschaftslehre, nsbesondere Ökonometre 5. Enfaches OLS-Regressonsmodell 5.1. Herletung

Mehr

12 UMPU Tests ( UMP unbiased )

12 UMPU Tests ( UMP unbiased ) 89 1 UMPU Tests ( UMP unbased ) Nach Bemerkung 11.8(b) exstert m Allgemenen ken zwesetger UMP- Test zu enem Nveau α. Deshalb Enschränkung auf unverfälschte Tests: ϕ Φ α heßt unverfälscht (unbased) zum

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Bayessches Lernen

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Bayessches Lernen Unverstät Potsdam Insttut für Informatk Lehrstuhl Maschnelles Lernen Bayessches Lernen Chrstoph Sawade/Nels Landwehr/Paul Prasse Domnk Lahmann Tobas Scheffer Überblck Wahrschenlchketen, Erwartungswerte,

Mehr

Analyse von Querschnittsdaten. Bivariate Regression

Analyse von Querschnittsdaten. Bivariate Regression Analse von Querschnttsdaten Bvarate Regresson Warum geht es n den folgenden Stzungen? Kontnuerlche Varablen Deskrptve Modelle kategorale Varablen Datum 3.0.2004 20.0.2004 27.0.2004 03..2004 0..2004 7..2004

Mehr

Übung zu Erwartungswert und Standardabweichung

Übung zu Erwartungswert und Standardabweichung Aufgabe Übung zu Erwartungswert und Standardabwechung In ener Lottere gewnnen 5 % der Lose 5, 0 % der Lose 0 und 5 % der Lose. En Los kostet 2,50. a)berechnen Se den Erwartungswert für den Gewnn! b)der

Mehr

Statistik Exponentialfunktion

Statistik Exponentialfunktion ! " Statstk " Eponentalfunkton # $ % & ' $ ( )&* +, - +. / $ 00, 1 +, + ) Ensemble von radoaktven Atomkernen Zerfallskonstante λ [1/s] Lebensdauer τ 1/λ [s] Anzahl der pro Zetenhet zerfallenden Kerne:

Mehr

Auswertung univariater Datenmengen - deskriptiv

Auswertung univariater Datenmengen - deskriptiv Auswertung unvarater Datenmengen - desrptv Bblografe Prof. Dr. Küc; Statst, Vorlesungssrpt Abschntt 6.. Bleymüller/Gehlert/Gülcher; Statst für Wrtschaftswssenschaftler Verlag Vahlen Bleymüller/Gehlert;

Mehr

Beschreibung von Vorgängen durch Funktionen

Beschreibung von Vorgängen durch Funktionen Beschrebung von Vorgängen durch Funktonen.. Splnes (Sete 6) a +b c Zechenerklärung: [ ] - Drücken Se de entsprechende Taste des Graphkrechners! [ ] S - Drücken Se erst de Taste [SHIFT] und dann de entsprechende

Mehr

Informatik II. Minimalpolynome und Implikanten. Minimalpolynome. Minimalpolynome. Rainer Schrader. 27. Oktober Was bisher geschah: Definition

Informatik II. Minimalpolynome und Implikanten. Minimalpolynome. Minimalpolynome. Rainer Schrader. 27. Oktober Was bisher geschah: Definition Informatk II Raner Schrader und Implkanten Zentrum für Angewandte Informatk Köln 27. Oktober 2005 1 / 28 2 / 28 Was bsher geschah: jede Boolesche Funkton kann durch enfache Grundfunktonen dargestellt werden

Mehr

Statistik-Teil der Vorlesung Statistische und numerische Methoden für Chemie-Ingenieure

Statistik-Teil der Vorlesung Statistische und numerische Methoden für Chemie-Ingenieure Statstk-Tel der Vorlesung Statstsche und numersche Methoden für Cheme-Ingeneure Januar 2003 Unterlagen von Dr. Werner Stahel, Semnar für Statstk, ETH Zürch Vorbemerkungen a Für Se als Chemengeneure und

Mehr

Aufgabe 8 (Gewinnmaximierung bei vollständiger Konkurrenz):

Aufgabe 8 (Gewinnmaximierung bei vollständiger Konkurrenz): LÖSUNG AUFGABE 8 ZUR INDUSTRIEÖKONOMIK SEITE 1 VON 6 Aufgabe 8 (Gewnnmaxmerung be vollständger Konkurrenz): Betrachtet wrd en Unternehmen, das ausschleßlch das Gut x produzert. De m Unternehmen verwendete

Mehr

4.6 Das Pumping-Lemma für reguläre Sprachen:

4.6 Das Pumping-Lemma für reguläre Sprachen: Theoretsche Informatk 1 Vorlesungsskrpt vom Fretag, 30 Jun 000 Index: Erstellt von: (Matrkelnummer: 70899) Sete : 46 Das Pumpng-Lemma für reguläre Sprachen 1 Satz W 1 Zugrundelegende Idee des Pumpng-Lemma

Mehr

Regressionsgerade. x x 1 x 2 x 3... x n y y 1 y 2 y 3... y n

Regressionsgerade. x x 1 x 2 x 3... x n y y 1 y 2 y 3... y n Regressonsgerade x x x x 3... x n y y y y 3... y n Bem Auswerten von Messrehen wrd häufg ene durch theoretsche Überlegungen nahegelegte lneare Bezehung zwschen den x- und y- Werten gesucht, d.h. ene Gerade

Mehr

Stochastische Prozesse

Stochastische Prozesse INSTITUT FÜR STOCHASTIK SS 009 UNIVERSITÄT KARLSRUHE Blatt 4 Prv.-Doz. Dr. D. Kadelka Dpl.-Math. W. Lao Übungen zur Vorlesung Stochastsche Prozesse Musterlösungen Aufgabe 16: (Success Run, Fortsetzung)

Mehr

Rückblick Regression II: Anpassung an Polynome

Rückblick Regression II: Anpassung an Polynome Rückblck Regresson II: Anpassung an Polynome T. Keßlng: Auswertung von Messungen und Fehlerrechnung - Fehlerrechnung und Korrelaton 0.06.08 Vorlesung 0- Temperaturmessung mt Thermospannung Wr erhalten

Mehr

P(mindestens zwei gleiche Augenzahlen) = = 0.4 = = 120. den 5 vorbereiteten Gebieten drei auszuwählen: = 10. Deshalb ist 120 =

P(mindestens zwei gleiche Augenzahlen) = = 0.4 = = 120. den 5 vorbereiteten Gebieten drei auszuwählen: = 10. Deshalb ist 120 = Hochschule Harz Fachberech Automatserung und Informatk Prof. Dr. T. Schade Ft for Ab & Study - Aprl 2014 Lösungen zu den Aufgaben zu elementarer Wahrschenlchketsrechnung 1. a 12 11 10 9 = 33 = 0.102 20

Mehr

4 Residuen-Analyse. 4.1 Problemstellung

4 Residuen-Analyse. 4.1 Problemstellung 4 Resduen-Analyse 4.1 Problemstellung a Modell-Annahmen. De engeführten Schätz- und Testmethoden beruhen auf Annahmen: Für de Zufallsabwechungen wurde E N 0, σ 2 (unabhängg) angenommen. Das kann man aufspalten:

Mehr

P[bk t c se(b k) k bk t c se(b k)] 1 (5.1.3)

P[bk t c se(b k) k bk t c se(b k)] 1 (5.1.3) Kaptel 5: Inferenz m multplen Modell 5 Inferenz m multplen Modell 5. Intervallschätzung m multplen Regressonsmodell Analog zum enfachen Regressonsmodell glt: Dem Intervallschätzer der Parameter legt zugrunde,

Mehr

Nomenklatur - Übersicht

Nomenklatur - Übersicht Nomenklatur - Überscht Name der synthetschen Varable Wert der synthetschen Varable durch synth. Varable erklärte Gesamt- Streuung durch synth. Varable erkl. Streuung der enzelnen Varablen Korrelaton zwschen

Mehr

6. Modelle mit binären abhängigen Variablen

6. Modelle mit binären abhängigen Variablen 6. Modelle mt bnären abhänggen Varablen 6.1 Lneare Wahrschenlchketsmodelle Qualtatve Varablen: Bnäre Varablen: Dese Varablen haben genau zwe möglche Kategoren und nehmen deshalb genau zwe Werte an, nämlch

Mehr

ANOVA (Analysis of Variance) Varianzanalyse. Statistik Methoden. Ausgangssituation ANOVA. Ao.Prof.DI.Dr Josef Haas

ANOVA (Analysis of Variance) Varianzanalyse. Statistik Methoden. Ausgangssituation ANOVA. Ao.Prof.DI.Dr Josef Haas Ao.Prof.DI.Dr Josef Haas josef.haas@medungraz.at ANOVA (Analyss of Varance) Varanzanalyse Statstk Methoden Verglech von Mttelwerten Ao.Unv.Prof.DI.Dr. Josef Haas josef.haas@medungraz.at Ausgangsstuaton

Mehr

Maße der zentralen Tendenz (10)

Maße der zentralen Tendenz (10) Maße der zentralen Tendenz (10) - De Berechnung der zentralen Tendenz be ategorserten Daten mt offenen Endlassen I - Bespel 1: offene Endlasse Alter x f x f p x p p cum bs 20 1? 3? 6? 6 21-25 2 23 20 460

Mehr

Lineare Regression - Mathematische Grundlagen

Lineare Regression - Mathematische Grundlagen FKULTÄT FÜR MTHEMTIK U TURWISSESCHFTE ISTITUT FÜR PHYSIK FCHGEBIET EXPERIMETLPHYSIK I r. rer. nat. orbert Sten, pl.-ing (FH) Helmut Barth Lneare Regresson - Mathematsche Grundlagen. llgemene Gerade Wr

Mehr

Alternative Darstellung des 2-Stichprobentests für Anteile. Beobachtete Response No Response Total absolut DCF CF

Alternative Darstellung des 2-Stichprobentests für Anteile. Beobachtete Response No Response Total absolut DCF CF Alternatve Darstellung des -Stchprobentests für Antele DCF CF Total n= 111 11 3 Response 43 6 69 Resp. Rate 0,387 0,3 0,309 Beobachtete Response No Response Total absolut DCF 43 68 111 CF 6 86 11 69 154

Mehr

Kurs Mikroökonometrie Rudolf Winter-Ebmer Thema 3: Binary Choice Models Probit & Logit. Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit

Kurs Mikroökonometrie Rudolf Winter-Ebmer Thema 3: Binary Choice Models Probit & Logit. Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit BINARY CHOICE MODELS 1 mt Pr( Y = 1) = P Y = 0 mt Pr( Y = 0) = 1 P Bespele: Wahlentschedung Kauf langlebger Konsumgüter Arbetslosgket Schätzung mt OLS? Y = X β + ε Probleme: Nonsense Predctons ( < 0, >

Mehr

9 Komplexe Zahlen ( ) ( ) 9.1 Ziele. 9.2 Warum braucht man komplexe Zahlen? 9.3 Darstellung von komplexen Zahlen. r 2. j 2. j 1.

9 Komplexe Zahlen ( ) ( ) 9.1 Ziele. 9.2 Warum braucht man komplexe Zahlen? 9.3 Darstellung von komplexen Zahlen. r 2. j 2. j 1. Mathematk I / Komplexe Zahlen 9 Komplexe Zahlen 9. Zele Am Ende deses Kaptels hast Du ene Grundvorstellung was komplexe Zahlen snd. Du kannst se grafsch darstellen und enfache Berechnungen durchführen.

Mehr

16. Vorlesung Sommersemester

16. Vorlesung Sommersemester 16. Vorlesung Sommersemester 1 Das Egenwertproblem In allgemener Form hat das Egenwertproblem de Form A x = λ x, (1) wobe A ene n n-matrx, x en n-dmensonaler Vektor und λ der Egenwert st (n Englsch: egenvector,

Mehr

Zufallsvariable, Wahrscheinlichkeitsverteilungen und Erwartungswert

Zufallsvariable, Wahrscheinlichkeitsverteilungen und Erwartungswert R. Brnkmann http://brnkmann-du.de Sete..8 Zufallsvarable, Wahrschenlchketsvertelungen und Erwartungswert Enführungsbespel: Zwe Würfel (en blauer und en grüner) werden 4 mal zusammen geworfen. De Häufgketen

Mehr

18. Vorlesung Sommersemester

18. Vorlesung Sommersemester 8. Vorlesung Sommersemester Der Drehmpuls des starren Körpers Der Drehmpuls des starren Körpers st etwas komplzerter. Wenn weder de Wnkelgeschwndgket um de feste Rotatonsachse st, so wrd mt Hlfe des doppelten

Mehr

3. Vorlesung Sommersemester

3. Vorlesung Sommersemester 3. Vorlesung Sommersemester 1 Bespele (Fortsetzung) 1. Der starre Körper: Formulerung der Zwangsbedngungen später. Anschaulch snd schon de Frehetsgrade: dre der Translaton (z. B. Schwerpuntsoordnaten)

Mehr

3.3 Lineare Abbildungen und Matrizen

3.3 Lineare Abbildungen und Matrizen 33 LINEARE ABBILDUNGEN UND MATRIZEN 87 33 Lneare Abbldungen und Matrzen Wr wollen jetzt de numersche Behandlung lnearer Abbldungen zwschen Vektorräumen beschreben be der vorgegebene Basen de Hauptrolle

Mehr

22. Vorlesung Sommersemester

22. Vorlesung Sommersemester 22 Vorlesung Sommersemester 1 Bespel 2: Würfel mt festgehaltener Ecke In desem Fall wählt man den Koordnatenursprung n der Ecke und der Würfel st durch den Berech x = 0 a, y = 0 a und z = 0 a bestmmt De

Mehr

5. ZWEI ODER MEHRERE METRISCHE MERKMALE

5. ZWEI ODER MEHRERE METRISCHE MERKMALE 5. ZWEI ODER MEHRERE METRISCHE MERKMALE wenn an ener Beobachtungsenhet zwe (oder mehr) metrsche Varablen erhoben wurden wesentlche Problemstellungen: Frage nach Zusammenhang: Bsp.: Duxbury Press (sehe

Mehr

Itemanalyse und Itemkennwerte. Itemanalyse und Itemkennwerte. Itemanalyse und Itemkennwerte: Itemschwierigkeit P i

Itemanalyse und Itemkennwerte. Itemanalyse und Itemkennwerte. Itemanalyse und Itemkennwerte: Itemschwierigkeit P i Itemanalyse und Itemkennwerte De Methoden der Analyse der Itemegenschaften st ncht m engeren Snne Bestandtel der Klassschen Testtheore Im Rahmen ener auf der KTT baserenden Testkonstrukton und -revson

Mehr

Weitere NP-vollständige Probleme

Weitere NP-vollständige Probleme Wetere NP-vollständge Probleme Prosemnar Theoretsche Informatk Marten Tlgner December 10, 2014 Wr haben letzte Woche gesehen, dass 3SAT NP-vollständg st. Heute werden wr für enge wetere Probleme n NP zegen,

Mehr

Übung zur Vorlesung - Theorien Psychometrischer Tests II

Übung zur Vorlesung - Theorien Psychometrischer Tests II Übung zur Vorlesung - Theoren Psychometrscher Tests II N. Rose 9. Übung (15.01.2009) Agenda Agenda 3-parametrsches logstsches Modell nach Brnbaum Lnkfunktonen 3PL-Modell nach Brnbaum Modellglechung ( =

Mehr