4 Residuen-Analyse. 4.1 Problemstellung

Größe: px
Ab Seite anzeigen:

Download "4 Residuen-Analyse. 4.1 Problemstellung"

Transkript

1 4 Resduen-Analyse 4.1 Problemstellung a Modell-Annahmen. De engeführten Schätz- und Testmethoden beruhen auf Annahmen: Für de Zufallsabwechungen wurde E N 0, σ 2 (unabhängg) angenommen. Das kann man aufspalten: (a) Der Erwartungswert der E st E E 0, (b) se haben alle de gleche theoretsche Varanz var E σ 2, (c) (d) se snd normalvertelt, se snd unabhängg. Für de Regressonsfunkton muss jewels ene bestmmte Formel angesetzt werden, de nur enge Parameter β (j) offen lässt. Im oben besprochenen Snne (3.2.x) wrd Lneartät vorausgesetzt. Wenn de Formel ncht de Form hat, de für de Daten egentlch glt, st für de Zufallsabwechungen Annahme (a) verletzt. b Modell-Verbesserung. Dese Voraussetzungen zu überprüfen, st mestens wesentlch. Es geht dabe enersets darum, dass de Tests und Vertrauensntervalle nur dann de hnen zugedachten Egenschaften (Nveaus) gewährlesten, wenn de Annahmen erfüllt snd. Zudem snd wr nteressert, allfällge Abwechungen für de Etnwcklung enes besseren Modells zu verwenden. Das kann bedeuten, dass Varable transformert werden, zusätzlche Terme, bespelswese Wechselwrkungen, ns Modell aufgenommen werden, für de Beobachtungen Gewchte engeführt werden, allgemenere Modelle und statstsche Methoden verwendet werden. De Chancen der Modell-Verbesserung wahrzunehmen, entsprcht der Grundhaltung der exploratven Datenanalyse. Es geht her ncht um präzse mathematsche Aussagen, Optmaltät von statstschen Verfahren oder um Sgnfkanz, sondern um Methoden zum kreatven Entwckeln von Modellen, de de Daten gut beschreben. c Symptom, Syndrom, Dagnose. De Resduenanalyse bedent sch enger grafscher Darstellungen und allenfalls auch enger formaler Tests. Dese können we medznsche dagnostsche Tests Symptome dafür fnden, dass en Modell de Daten ncht genau beschrebt. Symptome können sch zu Syndromen zusammenfügen, de auf bekannte Krankheten hnwesen und de wrksame Therape klar machen. Schwerg wrd es, wenn mehrere Aspekte des Modells falsch snd und sch deshalb mehrere Syndrome überlagern. Dann kann es schwerg werden, aus den verschedenen Symptomen auf de rchtgen Verbesserungen des Modells zu schlessen. De Entwcklung enes Modells braucht dann Intuton, Erfahrung und Kreatvtät und gute Dagnose-Instrumente, nämlch solche, de möglchst spezfsch snd für de Verletzung enzelner Voraussetzungen oder für de Wrksamket bestmmter Modellveränderungen (vergleche 4.2.h). Verson Sept. 2017, W. Stahel

2 66 4 RESIDUEN-ANALYSE d De Mttel zur Überprüfung von Voraussetzungen werden her für de multple lneare Regresson mt normalvertelten Zufallsabwechungenn dargestellt. De mesten Ideen snd n der Varanzanalyse drekt anwendbar, lassen sch auch auf andere Regressonsmodelle übertragen und snd damt grundlegend für weteren Kaptel. 4.2 Resduen und angepasste Werte a Zelgrösse gegen angepasste Werte. In der enfachen Regresson können de Voraussetzungen mt Ausnahme der Unabhänggket (d) anhand enes Streudagramms der Zelgrösse gegen de Engangs-Varable beurtelt werden. Für de multple Regresson entsteht ene ebenso anschaulche Darstellung, wenn auf der horzontalen Achse de angepassten Werte ŷ β 0 + β 1 x (1) + β 2 x (2) β m x (m) verwendet werden, we das schon n 3.1.h getan wurde. Was sagt uns dese Abbldung über de enzelnen Voraussetzungen? b c (a) Regressonsfunkton: De Gerade passt m Bespel recht gut zum Verlauf der Punkte. Wenn man genau hnseht, haben de Punkte weng rechts von der Mtte ( ŷ zwschen 0.4 und 0.7) de Tendenz, en weng höher zu legen, während de Punkte rechts und lnks häufger unterhalb der Geraden anzutreffen snd. Ene lecht gekrümmte Kurve würde etwas besser zu den Daten passen. Das deutet darauf hn, dass der Erwartungswert der Zelgrösse durch de verwendete Regressonsfunkton ncht genau beschreben wrd und deshalb E E 0 st. (b) Gleche Varanzen: De Streubrete der Punkte um de Gerade st engermassen glechmässg bs auf enen oder zwe Punkte, de man als Ausresser bezechnen kann, enen be ŷ 0.73, der nach unten abwecht, und enen be ŷ 0.6, der etwas zu hoch legt. Dese extremen Punkte verletzen eher de Voraussetzung der Normalvertelung (c) als de der glechen Varanzen (b). Ene typsche Abwechung von der Voraussetzung der glechen Varanzen führt dazu, dass de Streubrete der Punkte für grössere angepasste Werte grösser wrd, m Dagramm also de Punkte gegen rechts trchterförmg ausenanderlaufen oder umgekehrt, was seltener vorkommt (vergleche 4.4.b). Wenn de Varanzen der Zufallsabwechungen verscheden snd, aber nchts mt den Werten der Regressonsfunkton zu tun haben, werden wr das n deser Fgur ncht sehen. De Voraussetzung der glechen Varanzen wrd mt dem Zungenbrecher Homoskedastztät, jede Abwechung davon mt Heteroskedastztät bezechnet. d (c) Vertelung der Zufallsabwechungen: De Abwechungen von der Geraden snd de Resduen R Y ŷ. Se streuen engermassen symmetrsch um de Gerade. De beden Ausresser haben wr schon kommentert. Se deuten auf ene langschwänzge Vertelung hn. Auf de Beurtelung der Vertelung der Zufallsabwechungen kommen wr noch zurück (4.3.a).

3 4.2. RESIDUEN UND ANGEPASSTE WERTE 67 e Beurtelung. De her festgestellten Abwechungen von den Voraussetzungen snd ohne Weteres zu tolereren. So de Beurtelung des Autors. Das st ene rechlch unwssenschaftlche Aussage! Und n welchem Snne zu tolereren? Das st ncht präzse zu fassen. Her enge Überlegungen dazu: Be exakter Gültgket der Voraussetzungen gbt es n den Daten mmer weder schenbare Abwechungen we ja be strkt durchgeführten Tests n 5% der Fälle sgnfkante Effekte auftreten, wenn de Nullhypothese exakt glt. Mt Erfahrung lässt sch etwa abschätzen, we gross solche zufällgen Abwechungen etwa werden können. Wr werden glech noch dskuteren, we man de zufällgen Abwechungen präzser fassen kann. Selbst wenn n rgendenem Snn sgnfkante Abwechungen von den Voraussetzungen vorlegen, kann de Anwendung der m vorhergehenden Kaptel besprochenen Methodk mmer noch zu genügend korrekten Resultaten führen. De Beurtelung, wann das zutrfft, beruht auf dem Wssen und der Erfahrung über de Auswrkungen von Abwechungen auf Resultate we Vertelungen von Schätzungen, P-Werte von Tests und Ähnlchem. We wchtg präzse Aussagen der statstschen Methoden snd, hängt von der wssenschaftlchen Fragestellung ab. Wenn es um ene präzse Schätzung des Effekts ener Engangs-Varablen auf de Zelgrösse n enem gut funderten Modell geht, snd de Voraussetzungen krtscher, als wenn es darum geht, n ener Velzahl von möglchen Engangs-Varablen de wchtgen von den unwchtgen zu trennen oder en Modell für Vorhersagen m Snn von 2.4.d zu entwckeln. Nach desen allgemenen Bemerkungen zurück zum Konkreten! Wr wollen de enzelnen Voraussetzungen noch genauer untersuchen, mt besser geegneten grafschen Darstellungen. f Tukey-Anscombe-Dagramm. De Betrachtungen zum Streudagramm der beobachteten und angepassten Werte (3.1.h) lassen sch noch präzser fassen, wenn wr de Abbldung etwas abändern: Statt der beobachteten Werte Y tragen wr n vertkaler Rchtung de Resduen R ab. Das hlft vor allem dann, Abwechungen deutlcher zu sehen, wenn de Punkte n 3.1.h weng um de Gerade streuen, wenn also de multple Korrelaton oder das Bestmmthetsmass R 2 hoch st und de Resduen deshalb klen werden. De so entstehende Darstellung hesst nach den Autoren, de se als unverzchtbaren Bestandtel der Resduenanalyse propagert haben, Tukey-Anscombe-Dagramm (Abbldung 4.2.f). In deser Darstellung sollten de Punkte glechmässg um de Nulllne R 0 streuen. Wr wollen nun de Voraussetzungen nochmals mt desem neuen Dagramm prüfen. g (a) Regressonsfunkton. Ene Kurve n 3.1.h wrd zu ener entsprechenden, flach gelegten Kurve n 4.2.f. Von Auge können wr zwar Muster n solchen Darstellungen recht gut erkennen, aber es erwest sch oft als nützlch, ene Kurve enzuzechnen. Man erhält se mt ener geegneten Glättungsmethode.

4 68 4 RESIDUEN-ANALYSE angepasste Werte Resduen Abbldung 4.2.f: Tukey-Anscombe-Dagramm m Bespel Stckoxyd, mt ener Glättung De Voraussetzung (a) lautet ja: E E 0. Wenn wr nun enge Beobachtungen mt ähnlchem ŷ zusammennehmen, also enen vertkalen Strefen n Abbldung 4.2.f herausgrefen, sollte der Mttelwert der Resduen R ungefähr 0 ergeben. Man kann enen solchen Strefen mt vorgegebener Brete h wählen und den Mttelwert der Resduen n der Mtte des Strefens n vertkaler Rchtung enzechnen (Abbldung 4.2.g). Varert man nun de Poston des Strefens, entlang der horzontalen Achse, so erhält man das gletende Mttel (runnng mean). Dese kurze Beschrebung sollte nur de Grunddee des Glättens mt der wohl enfachsten Idee erklären. Das Verfahren kann st lecht zu verbessern und sollte deshalb ncht verwendet werden. Genaueres zu Glättungmethoden brngt das Kaptel über Nchtparametrsche Regresson. h Spezfsche Dagnosemttel. Wenn Ausresser vorhanden snd, dann sollte sch de Glättung davon ncht berren lassen! Se soll möglchst nur de Egnung der Regressonsfunkton zegen. De Ausresser sehen wr besser, wenn de Glättung sch ncht durch se beenflussen lässt, und de geegnete Therape für Ausresser st mest ncht de Veränderung der Regressonsfunkton. Allgemen st n enem realen Bespel mmer damt zu rechnen, dass mehrere Voraussetzungen unerfüllt bleben. Methoden, de enzelne Voraussetzungen beurtelen lassen, auch wenn andere verletzt snd, erwesen sch als besonders nützlch. Se erlauben es, de geegneten Verbesserungen zu fnden; ene spezfsche Dagnose ermöglcht de Wahl der wrksamen Therape. Methoden, de auf de Verletzung bestmmter Voraussetzungen weng reageren, hessen robuste Methoden, vergleche 4.5.d. Das gletende Mttel reagert stark auf enen Ausresser, st also n desem Snne ncht robust. Wr verwenden deshalb de robuste Glättungsmethode loess.

5 4.2. RESIDUEN UND ANGEPASSTE WERTE 69 R Resduen angepasste Werte y^ Abbldung 4.2.g: Bestmmung des gletenden Mttels: Mttelwerte für zwe vertkale Strefen. Zufällgket der glatten Kurve. De Glättung n Abbldung 4.2.f zegt de Abwechung von der Lneartät, de wr n Abbldung 3.1.h von Auge festgestellt haben (4.2.b), deutlch. Ist ene solche Krümmung aufgrund des Zufalls möglch? Oder handelt es sch um ene echte Abwechung, de wr durch de Verbesserung des Modells zum Verschwnden brngen sollten? Es lesse sch en formeller Test angeben, der de entsprechende Nullhypothese prüft Näheres m Kaptel über Nchtparametrsche Regresson. Wr wollen her ene nformelle Methode benützen, de sehr allgemen nützlch st. Das Stchwort hesst Smulaton, (vergleche 2.2.e). Schrtt (1): Man erzeugt Beobachtungen, de dem Modell entsprechen, mt Zufallszahlen. Genauer: Es werden n standard-normalvertelte Zufallszahlen E erzeugt und daraus Y ŷ + σe bestmmt. Schrtt (2): Man führt de Regressonsrechnung mt den m Datensatz gegebenen Engangs- Varablen und den neu erzeugten Werten Y der Zelgrösse durch, berechnet de Glättung für das Tukey-Anscombe-Dagramm und zechnet se ns Dagramm der Daten oder n ene separate Darstellung en. Schrtt (rep): Man wederholt dese beden Schrtte n rep Mal. De erzeugten Kurven entstehen aufgrund von zufällgen Schwankungen. De Modellwerte folgen ja exakt enem lnearen Modell dem aus den Daten geschätzten multplen lnearen Regressonsmodell. Nun benützt man weder de Fähgket des Auges zur Mustererkennung, um nformell zu beurtelen, ob de Kurve m ursprünglchen Tukey- Anscombe-Dagramm extremer ausseht als de smulerten. Dabe sollte man ncht nur darauf achten, ob de ursprünglche Glättung n der Bandbrete der smulerten Kurven blebt. Es kann auch de Form der Abwechung untypsch sen.

6 70 4 RESIDUEN-ANALYSE j Streuung der Kurve. In Anlehnung ans Testen auf dem Nveau 5% = 1/20 wurde von Daves (1995) empfohlen, de durch de ursprünglchen Beobachtungen gegebene Glättung durch n rep 19 smulerte Kurven zu ergänzen. En nformeller grafscher Test besteht dann darn, de 20 Kurven auf gleche Wese (ohne de Resduen) darzustellen und unbetelgte Personen aufzufordern, de auffällgste auszusuchen. Wenn das de Kurve st, de den Beobachtungen entsprcht, glt de Abwechung als sgnfkant. res( Y ) Ftted Values Abbldung 4.2.j: De Glättung für de Resduen m Tukey-Anscombe-Dagramm ( ) mt 19 smulerten Glättungskurven ( ) In Abbldung 4.2.j zegt sch deutlch, dass de Glättung am lnken und rechten Rand zufällg stärker streut als n der Mtte, was auch ntutv zu erwarten st. De Glättung der Resduen der beobachteten Daten erschent so oder so als de am stärksten gekrümmte Kurve. Damt kann de Abwechung als sgnfkant gelten. k* Streuband. Statt der enzelnen Kurven kann man en Streuband enzechnen, das zu jedem Wert von ŷ angbt, n welchem Berech n vertkaler Rchtung ene zufällge Glättungskurve mt hoher Wahrschenlchket (95%) legen würde. Dazu sollte n rep wesentlch grösser gewählt werden als 20, damt de Quantle mt vernünftger Genaugket ermttelt werden können. De Formen der zufällgen Kurven gehen dabe verloren. Zudem st de Interpretaton enes solchen Strefens ncht ganz enfach: Macht man daraus ene Testregel, de de Nullhypothese akzeptert, wenn de beobachtete Kurve ganz m Strefen legt, dann st de Irrtumswahrschenlchket höher als das Nveau, das man zur Bestmmung des Streubandes gewählt hat. De Bestmmung enes smultanen Streubandes mt vorgegebener Irrtumswahrschenlchket st schwerg. l* Emprsche Fehervertelung. Für de Smulaton von Zufallsabwechungen E kann man statt der vorausgesetzten Normalvertelung auch de emprsche Vertelung der Resduen R verwenden. Das st de Idee der Bootstrap-Methode, de her ncht näher besprochen wrd. (Allenfalls multplzert man de Zufallsabwechungen mt dem Faktor 1 p/n, sehe 4.3.g oder verwendet de emprsche Vertelung der halb-standardserten Resduen R / 1 H, sehe 4.3..) Schrtt (2) kann man wesentlch verenfachen: Man rechnet nur de Glättung der smulerten Zufallsabwechungen gegen de angepassten Werte aus und stellt se dar. Das vernachlässgt zwar ene Quelle der Zufällgket der Kurve, wrd aber für praktsche Zwecke genau genug sen.

7 4.2. RESIDUEN UND ANGEPASSTE WERTE 71 m Funkton regr. De Idee der smulerten Glättungen st mplementert n der plot - Methode, de zur Darstellung von Resultaten der Funkton regr verwendet wrd, sehe Abbldung 4.2.m. De beden zusätzlchen Glättungskurven werden glech noch erläutert (4.2.o). Zudem snd de extrem legenden Beobachtungen mt enem Code bezechnet, um de Identfzerung zu erlechtern. Damt se den Darstellungs-Berech der normalen Punkte ncht zu stark beenflussen, snd de Punkte ausserhalb des engerahmten Berechs stark ncht-lnear an den Berech herangerückt se legen also weter entfernt als es hre Darstellung zegt. Bespelswese hat der Punkt mt der Bezechnung Jp en Resduum (vertkale Achse) von (In desem Fall wäre ene Darstellung ohne Randberech wohl ebenso gut geegnet. De Darstellung funktonert m Fall von extremeren Punkten wesentlch besser als de üblche.) log10(no2)~temp + prec + daytype res( log10(no2) ) H5 Lb Jp La Kl Eg B9 L9 L1 Bb Ftted Values Abbldung 4.2.m: Angerechertes Tukey-Anscombe-Dagramm für das Bespel Stckoxyd. Punkte ausserhalb des umrahmten Rechtecks snd n ncht-lnearer Wese an das Rechteck herangerückt. n Referenzlne. In Abbldung 4.2.m st zudem ene fallende Gerade engezechnet. Se fasst Punkte zusammen, für de de Zelgrösse Y konstant (glech dem Mttelwert der Y ) st. Se wrd sch als Referenzlne nützlch erwesen, sehe 4.4.m, wrd aber von den gebräuchlchen Programmen (bsher) ncht gezechnet. * Konstrukton: Es glt ja Y R + ŷ, also st Y y auf der Geraden R y ŷ, wobe ŷ de Werte auf der horzontalen Achse, und R dejengen auf der vertkalen Achse bezechnet und y ene Konstante st. Es st also ene Gerade mt Stegung 1, und se geht durch den Mttelpunkt mt den Koordnaten ŷ y und R 0.

8 72 4 RESIDUEN-ANALYSE o (b) Gleche Varanzen. Ganz analog zu desen Ideen kann man de Voraussetzung der glechen Varanzen prüfen, ndem man zusätzlch zu enem gletenden Mttel ene gletende Standardabwechung nach oben und unten abträgt. De Standardabwechung reagert noch stärker auf Ausresser und sollte deshalb noch drngender durch ene robustere Schätzung ersetzt werden. Ene enfache Möglchket besteht darn, de für de Glättung benützte Methode (lowess) je auf de postven resp. de negatven Resduen mt hren entsprechenden horzontalen Koordnaten ŷ anzuwenden. Das ergbt de oben und unten legenden glatten Kurven n Abbldung 4.2.m. * Damt ene Abwechung der Regressonsfunkton, de n der vorher betrachteten Glättung g zum Ausdruck kommt, de Bestmmung der Streuung ncht stört, werden ncht de R, sondern de Abwechungen R Y g ŷ geglättet, und das Resultat wrd zu g hnzugezählt. De Glättung wrd mt Hlfe der wurzel-transformerten R berechnet und dann zurücktransformert, da de Glättungsmethode mt symmetrsch vertelten Daten bessere Resultate lefert und de so transformerten R symmetrscher vertelt snd als de untransformerten. p Ene andere Möglchket besteht darn, de Absolutwerte R der Resduen gegen de y aufzutragen. Das Programmsystem R lefert en Streudagramm der wurzel-transformerten R gegen de angepassten Werte ŷ (Abbldung 4.2.p ()), das englsch scale-locaton plot genannt wrd und wr Streuungs-Dagramm nennen wollen. De Kurve st m Bespel sehr flach und damt de Konstanz der Streuung bezüglch angepassten Werte sehr gut erfüllt angepasste Werte Resduen σ Abbldung 4.2.p (): Streubrete-Dagramm: Wurzel-transformerte absolute Resduen R gegen angepasste Werte m Bespel Stckoxyd Ene verfenerte Varante des Streuungs-Dagramms zegt Abbldung 4.2.p (). Her werden de absoluten Resduen R ohne Wurzel-Transformaton gezegt, da de schenbare Symmetre n der ersten Verson zu Fehlnterpretatonen verletet. Es werden weder smulerte Glättungskurven gelefert, de klar zegen, dass m Bespel der lechte Ansteg der Streuung m Berech des Zufalls anzusedeln st.

9 4.3. VERTEILUNG DER ZUFALLSABWEICHUNGEN 73 log10(no2)~temp + prec + daytype H5 Lb Jp La Kl Eg B9 Bb L9 L1 st.sm.res( log10(no2) ) Ftted Values Abbldung 4.2.p (): Varante des Streubrete-Dagramms: Absolute Resduen R gegen angepasste Werte m Bespel Stckoxyd 4.3 Vertelung der Zufallsabwechungen a De Annahme der Normalvertelung der Zufallsabwechungen ((c) n 4.1.a) kann man unter anderem grafsch überprüfen. Allerdngs kennen wr de Zufallsabwechungen E ncht aber wengstens de Resduen. Das Hstogramm der Resduen kann grafsch mt der geegneten Normalvertelung verglchen werden (Abbldung 4.3.a). Dese st durch den Erwartungswert 0 und de emprsche Varanz der Resduen festgelegt. Häufgket Wahrsch.dchte Resduen Abbldung 4.3.a: Hstogramm der Resduen für das Bespel Stckoxyd * De emprsche Varanz der Resduen st ncht glech der geschätzten Varanz σ 2 der Zufallsabwechungen, sondern glech ( R 2 )/(n 1) σ2 (n p)/(n 1). Damt das Hstogramm mt der Normalvertelungs-Dchte verglechbar wrd, muss de Skala auf der vertkalen Achse so gewählt werden, dass de Summe der Produkte von Balkenhöhe mal Balkenbrete glech 1 wrd.

10 74 4 RESIDUEN-ANALYSE b Im Bespel zegt das Hstogramm, abgesehen von ener merkwürdgen Sptze unterhalb von 0.1, ene gute Überenstmmung mt der Normalvertelung. De Frage, ob ene solche Besonderhet ren zufällg auftreten kann, lässt sch besser abschätzen, wenn man mt Hstogrammen verglecht, de mt smulerten Daten analog zu 4.2. erzeugt wurden. Abbldung 4.3.b zegt 6 solche Darstellungen. In der zweten erschent ene verglechbare Sptze we m Hstogramm der beobachteten Daten (4.3.a). Häufgket Häufgket Resduen Resduen Resduen Abbldung 4.3.b: Hstogramme von Resduen aus 6 smulerten Sätzen von Y -Werten m Bespel der Sprengungen c Beachten Se, dass de Überprüfung der Normalvertelung für de Zelgrösse selbst snnlos st, da de Y ja verschedene Erwartungswerte haben. d Normal Plot. Ene wetere Darstellungsart der Vertelung, das Normalvertelungs- Dagramm oder der normal plot, beruht auf dem Verglech der Quantle der emprschen Vertelung der Resduen mt denjengen der Normalvertelung (Stahel (2007), 11.3), sehe Abbldung 4.3.d. e Anpassungstests. En Hstogramm kann ne perfekt mt ener Dchtekurve überenstmmen. De Häufgketsvertelung der Resduen wrd zufällg mmer weder anders herauskommen, auch wenn Beobachtungen genau nach dem Modell erzeugt werden bespelswese über Zufallszahlen. Welche Abwechungen können noch als ren zufällg gelten? Man kann dese Frage formal mt enem statstschen Test beantworten. Des führt zu den Anpassungstests (goodness of ft tests). Jeder deser Tests prüft ene bestmmte Art von Abwechungen. Wr gehen her ncht näher auf dese Methoden en. Nützlch st es auch, analog zur Untersuchung der zufällgen Varaton der Glättungen n 4.2. vorzugehen und n rep smulerte Normalvertelungs-Dagramme überenander oder den daraus ermttelten Streustrefen zu zechnen.

11 4.3. VERTEILUNG DER ZUFALLSABWEICHUNGEN 75 Quantle der Standardnormalvertelung Geordnete Resduen Abbldung 4.3.d: Normal plot der Resduen für das Bespel Stckoxyd f Zufallsabwechungen und Resduen. Be desen Betrachtungen haben wr, we engangs angedeutet, en weng geschummelt. Wr wollen ja de Vertelung der Zufallsabwechungen E überprüfen, haben aber de Resduen R benützt, und das st ncht dasselbe. Der Untersched st mt Hlfe von Matrxalgebra ncht schwerg zu untersuchen, we Anhang 4.10.f zegt. Her de Ergebnsse: g Varanz der Zufallsabwechungen. Falls de Zufallsabwechungen normalvertelt snd, so snd es de Resduen von ener Klenste-Quadrate-Schätzung ebenfalls. Aber se haben ncht de gleche theoretsche Varanz, auch wenn de Zufallsabwechungen des erfüllen; var R hängt von [x (1), x (2),... ] ab! (Verwrrt Se de Betrachtung der Varanz enes Resduums? Jedes R st ja ene Zufallsvarable, de ene theoretsche Varanz hat ncht zu verwechseln mt der emprschen Varanz, de es mmer nur für ene Stchprobe gbt, her also für alle Resduen zusammen.) Es st var R (1 H ) σ 2. De Grösse H st ene Funkton aller x (j). Se hesst englsch leverage, was wr mt Hebelarm übersetzen wollen, und wrd oft als h notert.

12 76 4 RESIDUEN-ANALYSE h De Hebelarm-Werte haben enge anschaulche Bedeutungen: Wenn man enen Wert Y um y verändert, dann msst H y de Veränderung des zugehörgen angepassten Wertes ŷ. Wenn H also gross st, dann zwngt de te Beobachtung de Regressons-Funkton, sch an se stark anzupassen. Se hat ene grosse Hebelwrkung daher der Name. Das macht auch das Ergebns über de Varanzen qualtatv plausbel: Wenn de te Beobachtung de Regressonfunkton stark an sch zeht, wrd de Abwechung R tendenzell gernger, also de Varanz von R klener. Hebelpunkte n der Physk snd solche, de wet vom Drehpunkt entfernt snd. In unserem Zusammenhang hesst das, dass se n gewssem Snne wet vom grossen Haufen der Punkte weg snd, was de x -Varablen betrfft. * De H snd für de enfache Regresson glech (1/n) + (x x) 2 /SSQ (X), also ene enfache Funkton des quadrerten Abstandes vom Schwerpunkt x. In der multplen Regresson snd se ene ebenso enfache Funkton der so genannten Mahalanobs-Dstanz. De Hebelarm-Werte legen zwschen 0 und 1. Ihr Mttelwert muss mmer glech p/n sen. Standardserte Resduen. Damt de Resduen wrklch de gleche Vertelung haben, muss man se also standardseren! Man soll also für de Überprüfung der Vertelung de standardserten Resduen4 R R /( σ 1 H ) verwenden. Das Gleche glt für das Streuungs-Dagramm, das zegen soll, ob de Varanzen der Zufallsabwechungen glech sen können, was bedeutet, dass de Varanzen der standardserten Resduen glech snd. Mestens snd allerdngs de Unterschede zwschen den Varanzen var R klen, so dass man auch unstandardserte Resduen für dese Analyse verwenden kann. Wesentlch wrd de Unterschedung n der gewchteten Regresson, sehe 4.6.j. 4.4 Zelgrösse transformeren? a Nachdem jetzt enge Dagnose-Instrumente engeführt snd, können wr de ersten Syndrome und Therapen besprechen. Dazu gehen wr den umgekehrten Weg von ener bekannten Krankhet zu den entsprechenden Symptomen. Im Bespel Stckoxyd wurde auf Grund des Streudagramms (1.1.b) de Zelgrösse NO 2 logarthmert, damt ene Chance bestand, de Voraussetzungen des Regressonsmodells zu erfüllen. We würden de besprochenen grafschen Darstellungen aussehen, wenn de Zelgrösse ncht transformert worden wäre? Abbldung 4.4.a zegt es! 4Oft werden de Grössen R /σ als standardserte Resduen bezechnet. Ihre Verwendung führt nur zu ener Massstabs-Änderung, also ncht zu ener wrklchen Änderung der grafschen Darstellungen.

13 4.4. ZIELGRÖSSE TRANSFORMIEREN? TukeyAnscombe Plot angepasste Werte Resduen SkalenDagramm angepasste Werte standardserte Resduen standardzed resduals standardzed resduals Häufgket theoret. Quantle standardzed resduals Abbldung 4.4.a: Tukey-Anscombe-Dagramm, Streuungs-Dagramm und Hstogramm und Normalvertelungs-Dagramm der standardserten Resduen des Modells mt untransformerter Zelgrösse m Bespel Stckoxyd b Am augenfällgsten st das Muster m Tukey-Anscombe-Dagramm, nsbesondere n der angerecherten Form n Abbldung 4.4.b. Es zegt sch ene nach oben gekrümmte Glättung, ene nach rechts trchterförmg zunehmende Streuung, ene schefe Vertelung der Resduen. Im Streuungs-Dagramm wrd de Zunahme der Streuung gegen rechts ebenfalls klar. Se würde noch klarer, wenn Abwechungen von der Glättungskurve m Tukey-Anscombe- Dagramm statt der Resduen des (falschen) Modells verwendet würden. De Vertelung der standardserten Resduen wrd m Hstogramm we m Normalvertelungs- Dagramm klar als schef erkannt.

14 78 4 RESIDUEN-ANALYSE NO2~temp + prec Jp Kl B9 La L9 L1 L2L8 Le Lf res( NO2 ) Ftted Values Abbldung 4.4.b: Angerechertes Tukey-Anscombe-Dagramm für das Modell mt untransformerter Zelgrösse m Bespel Stckoxyd c De dre erwähnten Symptome blden en Syndrom, das nach ener Transformaton Ỹ g Y der Zelgrösse ruft, und zwar mt ener Funkton g, de ene postve Schefe verklenert. Im vorlegenden Bespel st de Lösung schon bekannt: Wenn de Zelgrösse logarthmert wrd, passt das Modell recht gut, we wr berets wssen. De Logarthmusfunkton st allerdngs nur ene unter velen, de de Schefe ener Vertelung reduzeren; alle monoton zunehmenden, nach unten gekrümmten (konkaven) Funktonen kommen her n Frage. Nach dem Logarthmus wrd am häufgsten de (Quadrat-) Wurzel-Transformaton verwendet. Se reduzert de Schefe wenger stark. Als Transformatonen der Zelgrösse kommen m vorlegenden Zusammenhang umkehrbare oder monotone Funktonen n Frage. Würde ene Funkton verwendet, de zwe verschedenen Werten der ursprünglchen den glechen Wert der transformerten Zelgrösse zuwest, dann würde damt de Art des untersuchten Zusammenhanges grundsätzlch verändert. Das sprengt den Rahmen der Veränderung des Modells zwecks besserer Erfüllung der Voraussetzungen. Als Grenzfall snd Funktonen zulässg, de ncht strkt, sondern nur schwach monoton snd, für de also zusammenhängenden Intervallen der ursprünglchen Grösse allenfalls der gleche transformerte Wert zugewesen wrd. Wr kommen auf geegnete Transformatonen glech zurück. d Im Bespel der basschen Böden zegt das Tukey-Anscombe-Dagramm (Abbldung 4.4.d) en analoges Bld we das Stckoxyd-Bespel mt untransformerter Zelgrösse n umgekehrter Rchtung und vel schwächer: De Glättung zegt ene lechte Krümmung nach unten, de Streuung nmmt (für ŷ > 5) gegen rechts lecht ab und de Vertelung der Resduen st auf de unüblche Sete schef.

15 4.4. ZIELGRÖSSE TRANSFORMIEREN? 79 heght~ph + l.sar res( heght ) Ftted Values Abbldung 4.4.d: Tukey-Anscombe-Dagramm für das Bespel der basschen Böden Her hlft ene Transformaton, de ene negatve Schefe reduzert, also ene mt ener monoton zunehmenden, konvexen Funkton. Erfahrung und Proberen führte n desem Fall zu Ỹ Y2. Das Tukey-Anscombe-Dagramm zegt danach kene Abwechungen von den Modellannahmen mehr. De Resduen snd etwa symmetrsch vertelt. * De Transformaton Ỹ Y2 st selten nützlch. Se st auch ncht de enzg rchtge, sondern ene enfache, de zum Zel führt. Man kann versuchen, plausbel zu machen, weshalb ene solche Transformaton n desem Bespel ene Bedeutung hat: Vellecht st de quadrerte Baumhöhe etwa proportonal zur Blattfläche. e Transformatonen helfen oft! En Glücksfall, dass alle Abwechungen mt der glechen Transformaton besetgt werden können! Deser Glücksfall trtt erstaunlch häufg en. (Wenn Se gerne phlosopheren, können Se sch nach dem Grund deser Erschenung fragen, de allerdngs wohl kaum je mt ener emprschen Untersuchung quanttatv erfasst wurde.) f Welche Transformatonen soll man n Betracht zehen, um das beschrebene Syndrom zu kureren? De folgenden Empfehlungen beruhen weder auf Erfahrungen der angewandten Statstk, auf Plausbltät, Enfachhet und ähnlchen unexakten Grundlagen.

16 80 4 RESIDUEN-ANALYSE g Als nützlch erwesen sch sehr oft de Logarthmus-Transformaton für Konzentratonen und Beträge also für stetge Zufallsvarable, de nur postve Werte haben können de Wurzeltransformaton für Zähldaten und de so genannte Arcus-Snus-Transformaton ỹ arcsn y für Antele (Prozentzahlen/100). Dese Transformatonen haben von J. W. Tukey den Namen frst ad transformatons erhalten und sollten für solche Daten mmer angewendet werden, wenn es kene Gegengründe gbt und zwar auch für Engangs-Varable. h Rücktransformaton des Logarthmus. Wenn n ener enfachen Regresson sowohl de Engangs-Varable als auch de Zelgrösse Konzentratonen snd, führt de Regel zu Ỹ log 10 Y und X log 10 X. Aus Ỹ α+β x +E wrd log 10 Y α+β log 10 x +E und Y 10 α x β 10 E, also en Potenzgesetz für de ursprünglchen Grössen (vergleche 2.1.f). Falls β 1 st, snd de Konzentratonen proportonal bs auf multplkatve Zufallsabwechungen. Wenn das lneare Modell der logarthmerten Grössen wetere Terme enthält, dann wrken dese auf de untransformerte Zelgrösse multplkatv. Für ene zusätzlche kontnuerlche Engangsgrösse kommt en multplkatver Potenz-Term x (j) β j hnzu. Im Fall ener Indkator-Varablen, bespelswese für ene neue Behandlung, st de Wrkung enfacher: De neue Behandlung bewrkt gemäss Modell ene proportonale Erhöhung (oder Ernedrgung) von Y um den Faktor 10 β j. De Logarthmus-Transformaton st also von besonderer Bedeutung. Se st vom datenanalytschen Geschtspunkt her dann rchtg, wenn de Standardabwechung der Resduen etwa proportonal zu den angepassten Werten st. Se st allerdngs nur anwendbar, wenn de Zelgrösse nur postve Werte haben kann. De Proportonaltät von Standardabwechung und angepasstem Wert glt aber oft auch für Varable, für de der Wert 0 auftreten kann. Für desen Fall muss man de Logarthmus-Transformaton lecht abändern, damt de Nullen ncht wegfallen. Beobachtungen mt Y 0, also dejengen mt dem klensten Wert der Zelgrösse, wegfallen zu lassen, müsste zu ener systematschen Verfälschung der Resultate führen! De enfachste Formel zur Abänderung der Logarthmus-Funkton lautet Ỹ log Y + c mt ener geegneten Konstanten c. Oft seht man, gemäss dem Prnzp der Enfachhet, de Wahl von c 1. Da de Wrkung deser Wahl stark vom Berech der untransformerten Werte Y abhängt, sollte man dese Wahl eher als enfältg bezechnen. De Wahl soll von der Vertelung der postven Y abhängen. Wären dese lognormal vertelt, dann würde c med Y k /s 2.9 mt s med Y k /q 0.25 Y k ene Schätzung für das 2.5%-Quantl ergeben (q 0.25 st das untere Quartl). Dese Konstante hat also de gleche Grössenordnung we de klensten postven beobachteten Werte. Ihre Wahl st mmer noch wllkürlch, aber se macht de Wrkung der Transformaton wengstens von der Wahl der Messenhet von

17 4.4. ZIELGRÖSSE TRANSFORMIEREN? 81 Y unabhängg. * Im R-package regr0 st de Funkton logst (started log) enthalten, de für de Werte, de grösser als c > 0 snd, de Logartmus-Funkton unverändert übernmmt und für klenere Werte lnear st, und zwar so, dass de Stegung n y c von lnks und rechts glech st. j* Box-Cox-Transformatonen. Damt man ene möglchst ncht-schefe Vertelung der Zufallsabwechungen errechen kann, kann man ene ganze Famle von Transformatonen enführen. Von Box und Cox stammt der Vorschlag x λ 1 für λ 0, g λ (x) λ. ln x für λ 0 (für postve x ). Bs auf Verschebung um 1 und Multplkaton mt 1/λ snd des für λ 0 de Potenzen x λ. De Skalerung hat den Vortel, dass m Grenzfall λ 0 de Logarthmus-Funkton herauskommt, was de Defnton für λ 0 begründet. De Schefe wrd grösser für λ > 1; für λ < 1 nmmt de Schefe ab. Es wurde auch vorgeschlagen, de Grösse λ als zusätzlchen Parameter ns Modell aufzunehmen und nach dem Prnzp der Maxmalen Lkelhood zu schätzen. Für de Interpretaton kann es enfacher sen, sch auf enfache Werte von λ zu beschränken we: Quadrat: λ 2; kene Transformaton (bs auf ene Verschebung um 1): λ 1; Quadrat-Wurzel: λ 0.5; Logarthmus: λ 0; Kehrwert: λ 1. k We de Überlegung zur Rücktransformaton des Logarthmus (4.4.h) deutlch macht, ändert sch mt der Transformaton der Zelgrösse auch de Regressonsfunkton. In engen Anwendungen st das ncht zulässg, da de (lneare) Regressonsfunkton für de untransformerte Zelgrösse theoretsch begründet st. Das glt bespelswese für de Schadstoffe m Tunnel (1.1.g): De gesamten Schadstoffe setzen sch nach enem offenschtlchen physkalschen Gesetz addtv aus den Schadstoffen zusammen, de de beden Fahrzeugkategoren ausstossen. In enem solchen Fall muss man zu enem allgemeneren Regressonsmodell übergehen, ndem man entweder de Voraussetzungen der glechen Varanz (b) und der Normalvertelung (c) durch andere Annahmen ersetzt oder en ncht-lneares Modell verwendet. l Transformaton hlft ncht mmer. Wenn kene Theore de Transformaton verbetet, kann es natürlch noch vorkommen, dass der erwähnte Glücksfall ncht entrtt, dass also ene Krümmung der Glättung, ene Abhänggket der Varanz vom angepassten Wert und de Form der Vertelung der Resduen ncht durch ene enzge Transformaton aus der Welt zu schaffen snd. Snd zum Bespel de Glechhet der Varanzen (b) und de Normalvertelung (c) n Ordnung, aber de Regressonsfunkton verbesserungsbedürftg, dann soll man zunächst prüfen, ob se sch durch Transformatonen der Engangs-Varablen oder durch Zusatzterme lnearseren lässt (sehe Abschntt 4.5.d). Wenn das ncht hlft, kann man de Zelgrösse trotzdem transformeren und nachher de anderen Voraussetzungen, de dann verletzt sen können, durch Gewchtung und robuste Schätzung berückschtgen.

18 82 4 RESIDUEN-ANALYSE m Referenzlne m Tukey-Anscombe-Dagramm. Gekrümmte Glättungen m Tukey- Anscombe-Dagramm lassen sch ncht mmer mt Transformaton der Zelgrösse kureren. Wenn bespelswese n ener enfachen Regresson de wahre Regressonsfunkton quadratsch st (vergleche 3.2.w), dann hnterlässt de Anpassung ener lnearen Regresson ene gekrümmte Glättung m Tukey-Anscombe-Dagramm. Wenn de Funkton m Berech der Daten en Maxmum oder en Mnmum zegt, dann blebt das auch erhalten, wenn de Zelgrösse (monoton) transformert wrd. Ene monotone Transformaton der Zelgrösse kann enen Zusammenhang mt ener Engangsgrösse nur dann lnear machen, wenn deser Zusammenhang selbst monoton st. Ob des der Fall st, lässt sch aus dem Streudagramm der Zelgrösse gegen de Engangs- Varable sofort ersehen (Abbldung 4.4.m (A)). Nun snd m Tukey-Anscombe-Dagramm n vertkaler Rchtung de Resduen abgetragen, ncht de Y -Werte. Um de Unterschedung dennoch zu ermöglchen, zechnet man ns Tukey-Anscombe-Dagramm ene Referenzlne en, de Punkte mt glechen Y -Werten verbndet, we des n 4.2.n erwähnt wurde (Dagramm (B)). Ene monotone Transformaton der Zelgrösse kann nur helfen, wenn de glatte Kurve nrgends steler st als de Referenzlne. Das st n der Abbldung m ersten Bespel der Fall; m zweten st de Glättung lnks steler als de Referenzlne. (A) (B) Y res( Y1 ) Ftted Values Ftted Values Y res( Y2 ) Ftted Values Ftted Values Abbldung 4.4.m: Zelgrösse (A) und Resduen (B) gegen angepasste Werte n zwe fktven Bespelen. Mttels der Referenzlne können de beden Fälle auch n (B) unterscheden werden.

19 4.5. AUSREISSER UND LANGSCHWÄNZIGE VERTEILUNG Ausresser und langschwänzge Vertelung a Im Bespel der Sprengungen haben wr ene oder zwe Beobachtungen als Ausresser bezechnet. Der Begrff des Ausressers st ncht klar defnert. Es handelt sch um ene Beobachtung, de schlecht zu enem Modell passt, das für de Mehrhet der Daten angebracht st. Im Fall ener enfachen Stchprobe st en Ausresser ene Beobachtung, de, gemessen an der Streuung der Daten, wet vom Medan entfernt st. In der Regresson spelt das Modell ene wesentlche Rolle. Vor allem haben Transformatonen enen starken Enfluss darauf, welche Beobachtungen extreme Resduen erhalten. * Ausresser st damt en vager Begrff. Dass solche Ausdrücke n der Datenanalyse ene wchtge Funkton haben, auch wenn se von Mathematkern mestens ncht gelebt werden, hat J. W. Tukey betont. Se helfen, Präzserungen durch wohldefnerte Masszahlen z.b. de Standardabwechung als Mass für den vagen Begrff Streuung krtsch zu hnterfragen und alternatve Operatonalserungen vorzuschlagen. b Was soll man tun mt Ausressern? Zunächst sollen de zugehörgen Daten auf Rchtgket überprüft werden. Es st lecht enzusehen, dass Ausresser m Tukey- Anscombe-Dagramm durch grobe Fehler sowohl n der Zelgrösse als auch n ener wchtgen erklärenden Grösse verursacht sen können. Fndet man kene genügenden Gründe, an der Rchtgket der Werte zu zwefeln, dann wrd man zunächst mt den weteren Methoden der Resduen-Analyse nach Erklärungen für de ungewöhnlche Beobachtung und Verbesserungen des Modells suchen. Ausresser snd (we m menschlchen Zusammenhang) etwas Besonderes, aber nchts Schlechtes, sondern manchmal de wertvollsten Beobachtungen m Datensatz! Fördert auch de Suche nach Modell-Veränderungen nchts zu Tage, dann kann der Ausresser auch durch ene ungewöhnlch grosse Zufallsabwechung zustande gekommen sen; solche werden durch langschwänzge Vertelungen mt grösserer Wahrschenlchket erzeugt. c Langschwänzge Vertelung. Schefe Vertelungen versucht man, we m vorhergen Abschntt erwähnt, durch Transformatonen zum Verschwnden zu brngen. Zegt der normal plot ene engermassen symmetrsche Vertelung, de aber langschwänzg st, dann nützen Transformatonen der Zelgrösse mestens nchts. Man kann de extremsten Beobachtungen weglassen, bs de Langschwänzgket verschwndet oder zu vele (z. B. mehr als 5%) elmnert werden. Resultate, de man mt den übrggeblebenen Beobachtungen erhält, snd aber mt Vorscht zu benützen. Be Tests und Vertrauensntervallen stmmt de Irrtums-Wahrschenlchket ncht mehr. De weggelassenen Beobachtungen müssen m Bercht über de Analyse ausgewesen werden. d* De Klenste-Quadrate-Methoden snd be langschwänzgen Vertelungen der Zufallsabwechungen ncht optmal. Robuste Methoden snd n desem Fall deutlch besser; se lefern effzentere Schätzungen und mächtgere Tests. Gleches glt, wenn sch enzelne Ausresser zegen; der Fall ener Normalvertelung mt Ausressern st en Spezalfall ener langschwänzgen Vertelung.

20 84 4 RESIDUEN-ANALYSE 4.6 Resduen und Engangs-Varable a Im Tukey-Anscombe-Dagramm können sch Abwechungen von der angenommenen Form der Regressonsfunkton und von der Voraussetzung der glechen Varanzen zegen. Ähnlches kann auch zu Tage treten, wenn als horzontale Achse statt Ŷ ene Engangs-Varable gewählt wrd. Abbldung 4.6.a zegt dese Streudagramme für de zwe kontnuerlchen Engangsgrössen m Bespel der Sprengungen. Weder wurden zur Beurtelung der Glättung 19 zufällge Glättungen engezechnet. log10(ersch) ~ Stelle + log10(dst) + log10(ladung) Resduals Resduals dst ladung Oct 1,01/2:19 Abbldung 4.6.a: Streudagramme der Resduen gegen zwe Engangs-Varable, mt Glättung ( ) und Referenzlne ( ) b Referenzlne. We bem Tukey-Anscombe-Dagramm erschent auch her ene Referenzlne, de Punkte glecher Y -Werte verbnden soll. Da Y aber ncht de Summe ener lnearen Funkton von x (j) und dem Resduum R st, st de genaue Bedeutung der Referenzgeraden etwas komplzerter zu formuleren: se verbndet Punkte, für de de Summe aus dem geschätzten Effekt der betrachteten Engangs-Varablen X (j) und den Resduen, also β j x (j) + R const st. Der erste Term wrd m Englschen auch component effect genannt. De Summe der beden kann auch geschreben werden als Y β l j l x (l), was als beobachteten Wert, korrgert für de Effekte der anderen Regressoren, angesprochen werden kann. Gewöhnungsbedürftg st de Tatsache, dass en postver Effekt von X (j) auf de Zelgrösse zu ener fallenden Referenzlne führt und umgekehrt. Wenn en Regressor X (j) durch Transformaton aus ener (oder mehreren) Engangs- Varablen U (j) ausgerechnet wurde, stellt sch de Frage, ob de Resduen gegen de untransformerte oder de transformerte Varable dargestellt werden sollen. Im Bespel wurden sowohl de Dstanz als auch de Ladung logarthmert. In der Abbldung wurden de untransformerten Werte benützt, was dazu führt, dass de Referenzlne kene Gerade st. De Begründung für dese Wahl folgt unten (4.6.f).

21 4.6. RESIDUEN UND EINGANGS-VARIABLE 85 c d De Glättung der Resduen m Streudagramm gegen ene Engangs-Varable sollte horzontal verlaufen, bs auf zufällge Abwechungen, we se auch de smulerten Glättungen zegen. Ene Abwechung der Form der Regressonsfunkton, de sch mt ener gekrümmten Glättung allenfalls zegt, kann oft durch Transformaton der Engangs-Varablen X (j) zum Verschwnden gebracht werden. Häufg wrd man ene solche Abwechung berets m Tukey-Anscombe-Dagramm gesehen haben. Vellecht musste man aber auf ene Transformaton der Zelgrösse verzchten, wel sonst de vorhandene Symmetre und Glechhet der Varanzen der Resduen zerstört worden wäre. Kann ene monotone Transformaton der Engangs-Varablen U (j) helfen? We m Tukey- Anscombe-Dagramm hlft de Referenzlne, dese Frage zu beantworten. De Dfferenz zwschen der Nulllne (der horzontalen Achse) und der Referenzlne msst den Enfluss der Engangsgrösse U (j) auf de Zelgrösse gemäss Modell. De Dfferenz zwschen der Glättung und der Referenzlne dagegen zegt, we der Enfluss geschätzt wrd, wenn er ncht auf de lneare Form β j X (j) engeschränkt wrd. Wenn dese Dfferenz ncht lnear, aber mmerhn monoton zunmmt oder monoton abnmmt, kann ene monotone Transformaton der Engangs-Varablen helfen. Das st, we früher, dann der Fall, wenn de Glättung nrgends steler st als de Referenzlne. Im Bespel st deser flexbel geschätzte Enfluss für klene Dstanzen klener und für grosse Dstanzen grösser als der Enfluss gemäss Modell. Würde de Glättung der Nulllne folgen, dann würde der Enfluss gerade der m Modell angenommenen Form entsprechen. Da der flexbel geschätzte Enfluss de Dfferenz zwschen Glättung und Referenzlne mmerhn monoton mt der Engangs-Varablen abnmmt oder, anders gesagt, de Glättung auch m lnken Tel ncht steler anstegt als de Referenzlne, hat man mt ener monotonen Transformaton deser Varablen ene Chance, de Krümmung weg zu brngen. De Transformaton müsste grosse Werte der Engangs-Varablen ausenander zehen. Da es sch um den Logarthmus der Dstanz handelt, kann man es mt Ent-logarthmeren versuchen. Konsequenterwese ent-logarthmeren wr auch de Engangsgrösse Ladung. Abbldung 4.6.d zegt de Dagramme für das entsprechend geänderte Modell. De Transformaton zegt für de Dstanz den erwünschten Erfolg. Für de Ladung st de Wrkung gerng; de Logarthmus-Transformaton wrkt für de Ladung näherungswese als lneare Funkton, da der Varatonskoeffzent relatv klen st. Im vorlegenden Fall haben de (Rück-) Transformatonen den Nachtel, dass de enfache physkalsche Interpretaton verloren geht. Wenn wr nur an guter Vorhersage nteressert snd, können wr auf de theoretsche Begründung verzchten. Allerdngs st be der Verallgemenerung der Stude für andere Tunnels dann erhöhte Skepss am Platz. e Quadratscher Term, Splne. Wenn kene Transformaton von X (j) zum Zel führt, kann en zusätzlcher, quadratscher Term X (j)2 helfen. Ene enfache lneare Regresson wrd dann zu ener quadratschen (sehe 3.2.w). Noch flexbler snd de so genannten Splnes, de ene allgemenere glatte Funkton von X (j) enzuführen erlauben. Se werden n der nchtparametrschen Regresson behandelt. f* Weso werden n den Darstellungen ncht de transformerten Varablen für de horzontale Achse verwendet? Wenn de Transformaton ncht erfolgrech war, dann sollte man enen neuen

22 86 4 RESIDUEN-ANALYSE log10(ersch) ~ Stelle + dst + ladung Resduals Resduals dst ladung Oct 1,01/2:20 Abbldung 4.6.d: Streudagramm der Resduen gegen de Engangsgrössen Dstanz und Ladung, de her unlogarthmert m Modell stehen Versuch starten. Würde de transformerte Varable auf der horzontalen Achse verwendet, dann könnte de Abbldung nur ene Transformaton der Transformerten nahelegen das könnte zu ener komplzerten, weng snnvollen Lösung führen. Wenn de untransformerte Varable verwendet wrd, kann man mt der Abbldung drekt ene neue, enfache Transformaton bestmmen. Falls en quadratscher Term m Modell vorkommt, st es weng snnvoll, de Resduen gegen den Regressor (U (j) ) 2 aufzutragen. Es dann nur snnvoll, de untransformerte Engangsgrösse zu verwenden, und dese st normalerwese soweso ebenfalls m Modell vorhanden, weshalb für se so oder so ene entsprechende Abbldung gezechnet wrd. Deshalb werden von der Funkton regr de Resduen gegen de n der Modellformel vorkommenden Varablen aufgetragen, ncht gegen Regressoren resp. Terme der Formel. Wenn Wechselwrkungen m Modell snd (oder andere Regressoren, de aus mehreren Engangsgrössen berechnet werden), muss neu geklärt werden, we der Effekt ener Engangsgrösse U (j) gemessen werden soll. Antwort: Man setzt alle anderen Engangs-Varablen auf enen typschen Wert u k (Medan für kontnuerlche und Modus für kategorelle Varable) und verwendet de Vorhersage ŷ u 1,..., u j1, U (j), u j+1,... als Funkton des varerenden U (j) als component effect γ (j) U (j) zum Zechnen der Referenzlne R const γ (j) u. g Wechselwrkung. Im Modell wrd als nächstes vorausgesetzt, dass de Effekte von zwe Engangs-Varablen sch adderen. Dese Annahme soll ebenfalls grafsch überprüft werden. Dazu braucht es en dredmensonales Streudagramm von x (j), x (k) und den Resduen R. Etlche Programme erlauben es, enen dredmensonalen Endruck auf enem zwedmensonalen Bldschrm durch Echtzet-Rotaton zu gewnnen. In zwe Darstellungs-Dmensonen st der dredmensonale Endruck schwerger zu errechen. Abbldung 4.6.g zegt ene spezelle Art der Darstellung für das Bespel der Sprengungen. Darn wrd de Grösse des ten Resduums durch en strchförmges Symbol dargestellt, das am Ort [x (1), x (2) ] platzert wrd. De Länge des Strches st proportonal zum Absolutbetrag des Resduums, und de Stegung von +1 oder 1 gbt das Vorzechen weder. h Deses Dagramm egnet sch für zwe kontnuerlche Engangs-Varable.

23 4.6. RESIDUEN UND EINGANGS-VARIABLE 87 log(ladung) log(dstanz) Abbldung 4.6.g: Resduen n Abhänggket von zwe Engangs-Varablen m Bespel der Sprengungen Wenn n enem solchen Dagramm Gebete schtbar werden, n denen de mesten Strche n der enen Rchtung verlaufen, deutet des ene Wechselwrkung an. Der enfachste Fall besteht darn, dass de Resduen lnks unten und rechts oben vorwegend postv und lnks oben und rechts unten eher negatv snd oder umgekehrt. Ene solche Wechselwrkung kann de durch enen zusätzlchen Term + β m+1 x (m+1) mt x (m+1) x (j) x (k) m Modell berückschtgt werden. Wechselwrkung mt enem Faktor. Wenn ene der beden Engangs-Varablen en Faktor st, zegt sch ene Wechselwrkung klarer, wenn weder de Resduen gegen de kontnuerlche Engangs-Varable aufgetragen werden, aber mt verschedenen Symbolen für de verschedenen Faktorwerte und getrennt bestmmten Glättungen (Abbldung 4.6.). log10(ersch) ~ stelle + log10(dst) + log10(ladung) Resduals Oct 1,01/8: Abbldung 4.6.: Resduen gegen ene Engangs-Varable, mt verschedenen Symbolen und Glättungen für de verschedenen Werte enes Faktors dst

24 4 RESIDUEN-ANALYSE 88 j In den Streudagrammen der Resduen gegen de Engangs-Varablen kann sch auch zegen, dass de Streuung der Resduen von X ( j ) abhängt. Dann gbt de gewchtete Regresson korrekte Ergebnsse. 4.7 a Gewchtete lneare Regresson Ungleche, bekannte Varanzen. De Varanzen der enzelnen Zufallsfehler, de wr mt σ2 varhe bezechnen wollen, sollen nun ncht mehr als glech ( σ2 ) vorausgesetzt werden. Wr gehen zunächst davon aus, dass de σ2 bekannt seen. Dann st es scher snnvoll, den Beobachtungen mt klenerer Zufallsstreuung, also den präzseren Beobachtungen, n der Regressonsrechnung grösseres Gewcht zu geben. Statt der gewöhnlchen QuaP dratsumme SSQ (E ) kann man ene gewchtete Verson davon, w R2, mnmeren. De Gewchte w sollen für stegende σ fallen. Nach dem Prnzp der Maxmalen Lkelhood st w 1/σ2 optmal. * De Wahrschenlchkets-Dchte für ene Beobachtung Y y st unter deser Annahme nämlch P ( j) 1/ ( σ 2π ) exp ( r 2 / (2σ2 )) (mt r y ( β 0 + j β j x ) ). Das Prnzp der maxmalen (logap rthmerten) Lkelhood ergbt für de Koeffzenten de Mnmerung von ( r 2 / (2σ2 )), also der mt 1/σ2 gewchteten Quadratsumme. b. Bespel starke Wechselwrkung. In Expermenten der Hochenerge-Physk wurde n den 1970er Jahren de starke Wechselwrkungskraft untersucht. In enem Versuch trfft en Elementartelchenstrahl auf ene Protonenquelle, und es entstehen verschedene neue Elementartelchen, von denen ene Sorte durch enen Detektor erfasst wrd. Genaueres fndet man n Wesberg (2005, Ex. 4.1). u Y σ u Y σ u Y σ 5 5 Tabelle 4.7.b: Daten des Bespels der starken Wechselwrkung: Energe des Telchenstromes u, Antel erfasste Telchen Y und Standardabwechung σ der Zufalls-Abwechungen E De Daten n Tabelle 4.7.b enthalten de Energe u des Telchenstromes und de Zelgrösse Y, de proportonal zum Verhältns der Anzahl erfasster Telchen zur Zahle der engeschossenen Telchen st. Zudem kann man ene theoretsche Standardabwechung σ für jedes Y (oder jede Zufalls-Abwechung E ) bestmmen; dese Grössen snd n der Tabelle ebenfalls enthalten. Für bede Grössen bldet de Logarthmus-Funkton de frst ad transformaton. Deshalb snd de beden Varablen n Abbldung 4.7.b lnks mt logarthmschen Skalen gezegt. Gemäss ener Theore sollte Y β 0 + β 1 u 1/2 sen. Das Streudagramm der Zelgrösse gegen x u 1/2 (rechtes Dagramm) sollte gemäss Theore enen lnearen Zusammenhang zegen. Er seht eher quadratsch aus. Dennoch wrd auch ene enfache lneare Regresson angepasst. Man

25 4.7. GEWICHTETE LINEARE REGRESSION 89 Y Y u (1 2) u Abbldung 4.7.b: Daten des Bespels der starken Wechselwrkung mt logarthmschen Achsen (lnks) und mt transformerter Energe (rechts). Im zweten Fall snd de geschätzten Regressonsfunktonen mt lnearem Modell (entsprechend der physkalschen Theore) und quadratschem Modell engezechnet. kann fragen (sehe 4.8.a), ob de Abwechung von der Lneartät auch zufällg sen könnte. c Telwese bekannte Varanzen. Nun kennt man de Standardabwechung σ sozusagen ne. Es genügt aber, de relatven Genaugketen oder Streuungen zu kennen, also var E σ 2 v anzunehmen, wobe man v kennt und nur σ aus den Daten bestmmen muss. Man mnmert dann R2 /v. Im vorhergehenden Abschntt wurde erwähnt, dass sch n enem Streudagramm der Resduen gegen ene Engangsgrösse U (j) zegen kann, dass de Streuung von U (j) abhängt. Dann kann man versuchen, ene Funkton v anzugeben, de dese Abhänggket beschrebt, für de also var E σ 2 v u (j) angenommen werden kann. Nun wendet man gewchtete Regresson an mt den Gewchten w 1/v u (j). * Schwerger wrd de Überlegung, wenn de Streuung der Resduen vom angepassten Wert ŷ abhängt. Man geht dann oft so vor, dass man zuerst das Modell ohne Gewchte anpasst und de daraus berechneten angepassten Werte als Grundlage für ene verfenerte, gewchtete Regressonsrechnung benützt. En solches Vorgehen brgt aber Tücken vor allem, wenn man auf de Idee verfällt, es zu wederholen: De geschätzte Regressonsfunkton kann sch dann zu sehr an (zufällgerwese) klen ausgefallene Y -Werte anpassen. d Es st ncht schwerg, de Koeffzenten, de de gewchtete Quadratsumme mnmeren, anzugeben und hre Vertelung auszurechnen, sehe 4.A.e m Anhang. Es se W de Dagonalmatrx mt den Dagonal-Elementen w. Dann wrd β ( X T W X ) 1 X T W Y. De Schätzung st mmer noch erwartungstreu und de Varanzen der β j snd glech den Dagonalelementen von σ 2 ( X T W X ) 1.

26 90 4 RESIDUEN-ANALYSE Schlesslch snd de Varanzen der enzelnen Resduen R wchtg für de Bestmmung von standardserten Resduen. Dese werden /( R R σ ) 1/w (H W ) mt H W X (X T W X) 1 X T. e Welche Resduen soll man n grafschen Darstellungen verwenden? Nun st der Untersched zwschen standardserten und unstandardserten Resduen ncht mehr zu vernachlässgen. Generell glt: Für de Beurtelung der Vertelung (m Normalvertelungs-Dagramm) und der Streuung der Fehler (m Streuungs-Dagramm) verwendet man standardserte Resduen. Wenn es um de Egnung der Regressonsfunkton geht (Tukey-Anscombe Dagramm und Streudagramme der Resduen gegen de erklärenden Varablen), kommen unstandardserte Resduen zum Zug. In beden Fällen st es snnvoll, de Gewchte w Symbole darzustellen. durch de Grösse der gezechneten f Zur Überprüfung der Wahl der Gewchte sollen de Resduen analog zum Streuungs- Dagramm gegen de Gewchte selbst aufgetragen werden. Für das Bespel der starken Wechselwrkung mt quadratschem Modell zegt Abbldung 4.7.f kene Hnwese, dass de Streuung der standardserten Resduen von den Gewchten abhängen würden. De Gewchtung schent damt n Ordnung zu sen. De engezechnete Glättung (de, we m scale-locaton plot (4.2.p) für wurzeltransformerte Absolutwerte gerechnet und zum Zechnen zurücktransformert wurde) st kaum ernst zu nehmen, da de Zahl der Beobachtungen zu klen st. Resduen Gewchte Abbldung 4.7.f: Absolute Resduen aus dem quadratschen Modell gegen Gewchte m Bespel der starken Wechselwrkung

27 4.8. * GESAMTHAFTE ÜBERPRÜFUNG * Gesamthafte Überprüfung a* Wann st s genug? Resduenanalysen können zu mmer neuen Ideen führen, we das Modell noch zu verbessern wäre. Idealerwese möchte man ene Methode haben, de sagt, wann es genug st. Ene Idee zu ener solchen Methode beruht darauf, dass das Modell genügt, wenn de Resduen sch m Berech der natürlchen Streuung der Zufallsabwechungen bewegen. In gewssen Stuatonen kennt man ene solche Streuung, bespelswese ene Mess-Ungenaugket. In anderen Fällen gbt es Methoden, ene natürlchen Streuung der Zufallsabwechungen zu schätzen. De Grunddee aller Tests für de Anpassung oder den lack of ft besteht darn, de mt der Regressonsmethodk geschätzte Varanz σ 2 der Zufallsabwechungen mt ener anderen Schätzung σ 2 zu verglechen, de unabhängg davon gewonnen wrd. Falls das Modell stmmt, sollte σ 2 σ 2 sen. Andernfalls st σ 2 grösser, wel de Resduen R zusätzlch zur zufällgen Streuung noch enen systematschen Fehler enthalten. De Testgrösse st jewels das Verhältns T σ 2 / σ 2. Ist dese Grösse sgnfkant grösser als 1, dann muss das Modell als unvollständg gelten. b* Gegen solche Tests müssen allerdngs de glechen Bedenken we gegen alle Anpassungstests angefügt werden: De Anwendung von Tests st für dese Problemstellung egentlch ncht angebracht, denn man möchte gerne de Nullhypothese bewesen. Das st bekanntlch ncht möglch; wr können ene Nullhypothese nur verwerfen oder bebehalten. Es kann gut sen, dass de Voraussetzung, de überprüft werden soll, verletzt st, und dass trotzdem ken sgnfkantes Testergebns entsteht (Fehler 2. Art). c* Bekannte Varanz. De enfachste Möglchket ener Gesamt-Überprüfung entsteht, wenn de Varanz der Zufallsabwechungen aus ener anderen Quelle als den vorlegenden Daten bekannt st. Das st der Fall, wenn Angaben zur Messgenaugket der Zelgrösse vorlegen. Allerdngs snd dese oft vorschtg, also de Ungenaugketen grösser angegeben, als se n Wrklchket snd. Snd de Ungenaugketen der Messfehler durch σ 2 var E gegeben, dann lautet de Testgrösse T R2 /σ2 ; se st chquadrat-vertelt, χ2 np, falls de Varanzen stmmen und man se be der Schätzung mt gewchteter Regresson berückschtgt hat. d* Im Bespel der starken Wechselwrkung (4.7.b) waren de Standardabwechungen der E aus physkalscher Theore bekannt. Für das lneare Modell erhält man als Resduen 30.3, 8.6, 13.1, 0.1, -4.6, , -4.9, -1.3, 11.9; der Testwert T 19.3 führt zum P-Wert p Das lneare Modell genügt also ncht was dem vsuellen Endruck von Abbldung 4.7.b entsprcht. Für de quadratsche Regressonsfunkton erhält man dagegen de Resduen -9.67, -4.10, 11.16, 3.16, 0.97, -0.06, -5.87, 0.66, -3.00, 3.21 und daraus T 4.04 und p In desem Bespel und allgemen n der enfachen lnearen Regresson st allerdngs deser Anpassungstest ncht besonders geegnet. De nahelegenden Alternatven bestehen n ener enfachen Krümmung, und gegen solche Alternatven st es normalerwese effzenter, de Sgnfkanz enes quadratschen Terms zu prüfen. Im Bespel wrd der entsprechende P-Wert mt ene Grössenordnung klener als der P-Wert des lack-of-ft-tests. e* Wenn für de glechen X -Werte [x (1), x (2),..., x (m) ] mehrere Beobachtungen Y 1, Y 2,..., Y n gemacht werden, ergbt sch de Möglchket ener unabhänggen Schätzung von σ. (Normalerwese würden wr de Y -Werte durchnummereren und hätten mehrere gleche X -Werte- Kombnatonen. Der unüblche zwete Index von Y h verenfacht de folgende Überlegung.) Man kann dann de Varanz σ 2 der Zufallsabwechungen statt we üblch auch nur aus der Streuung

28 92 4 RESIDUEN-ANALYSE nnerhalb deser Gruppen schätzen, nämlch durch σ 2 1 g n n g (Y h Y. ) h 1 n g SSQ(rep), wobe Y. das Mttel über de n Beobachtungen zu den X -Werten [x (1), x (2),..., x (m) ] und g de Anzahl solcher Beobachtungs-Gruppen st, während SSQ (rep) de Quadratsumme der Replkate bezechnet. De Testgrösse T (SSQ(E) SSQ (rep) )/(g p) SSQ (rep) /(n g) hat unter der Nullhypothese ene F-Vertelung mt g p und n g Frehetsgraden. (Falls g < p st, snd de Parameter ncht schätzbar; für g p st T ebenfalls ncht defnert.) Als Begründung denke man sch das betrachtete Modell erwetert durch je ene Indkatorvarable für jede der g Gruppen. Der Test st en F-Test zum Verglech des betrachteten mt dem so erweterten Regressonsmodell. f* Wenn kene Gruppen von Beobachtungen mt glechen X -Werten vorhanden snd, können Paare von benachbarten X -Kombnatonen [x (1), x (2),..., x (m) ] und [x (1) h, x(2) h,..., x(m) h ] gesucht werden. De quadrerten Dfferenzen (R R h ) 2 der entsprechenden Resduen sollten m Mttel etwa 2 σ 2 betragen. Man kann des grafsch überprüfen, ndem man (R R h ) 2 gegenüber enem geegneten Dstanzmass d x (1), x (2),..., x (m) ; x (1) h, x(2) h,..., x(m) h n enem Streudagramm aufträgt. Der Vorschlag stammt von Danel and Wood (1980, Abschntt 7.10), de als Dstanz d x (1), x (2),..., x (m) ; x (1) h, x(2) h,..., x(m) h ( β / σ j (x (j) x (j) h )) 2 2 j benützen. 4.9 Unabhänggket a Zetlche Rehenfolge. De letzte Voraussetzung, de zu überprüfen blebt, st de Unabhänggket der Zufallsabwechungen. Wenn de Beobachtungen ene natürlche, nsbesondere ene zetlche Rehenfolge enhalten, soll man de Resduen R n deser Rehenfolge auftragen. Im Bespel der Sprengungen (Abbldung 4.9.a) seht man allenfalls am Schluss enen Abfall; des dürfte jedoch m Berech enes Zufalls-Phänomens legen. b* Tests für zetlche Unabhänggket. De Programme lefern häufg Tests, de de Unabhänggket überprüfen. Am bekanntesten st der Durbn-Watson-Test. Wenn de Zufallsabwechungen postv korrelert snd, dann unterscheden sch aufenanderfolgende Resduen wenger, als wenn se unabhängg snd. Deshalb sollte de Teststatstk T n 2 (R R 1 ) 2 / n 1 R2 n desem Fall klen ausfallen. Leder st de Vertelung der Teststatstk unter der Nullhypothese der Unabhänggket der E von der Desgn-Matrx X abhängg (da ja de R trotzdem korrelert snd, sehe 4.A.d). Durbn und Watson st es mmerhn gelungen, en Intervall anzugeben, n dem de wahre krtsche Grenze für den Test legen muss. Deshalb st de Schlusswese m Durbn- Watson-Test unüblch: Man erhält aus Tabellen (de der Computer hoffentlch kennt) zwe Grenzen c und c mt c < c und schlesst

29 4.9. UNABHÄNGIGKEIT 93 Resduen Rehenfolge Abbldung 4.9.a: Resduen gegen Rehenfolge m Bespel der Sprengungen. De verschedenen Stellen snd mt verschedenen Symbolen dargestellt. auf Verwerfung der Unabhänggket, falls T < c, auf Bebehaltung der Unabhänggket, falls T > c, gar nchts (unentschedbar), falls T dazwschen legt. Mt Smulaton lässt sch deses Problem natürlch n jedem Enzelfall lösen: We be der Erzeugung der smulerten Glättungen ordnet man de standardserten Resduen mt ener zufällgen Permutaton neu an, passt de Regresson an und bestmmt den Wert der Teststatstk. Dese Schrtte wederholt man oft genug, um mt den erhaltenen Werten de Vertelung der Teststatstk unter der Nullhypothese der Unabhänggket genau genug zu bestmmen. c Räumlche Abhänggket. Oft st jede Beobachtung mt enem Ort verbunden, und es st plausbel, dass de Beobachtungen an benachbarten Orten ähnlcher snd als für wet entfernte Orte. Im Bespel der basschen Böden wurden de Bäume n enem regelmässgen Gtter gepflanzt. Für de Gtterpunkte snd n Abbldung 4.9.c de Resduen auf gleche Wese dargestellt we n Abbldung 4.6.g. Benachbarte Punkte schenen n der Tat ähnlche Resduen aufzuwesen. In der rechten unteren Ecke snd alle Resduen negatv. Es st ene Abhänggket zwschen den Zufallsabwechungen vorhanden, de sch geografsch zegt. d Wenn Korrelatonen zetlche, räumlche oder andere vorlegen, dann snd de P-Werte der üblchen Tests häufg grob falsch. Methoden, de Korrelatonen berückschtgen, laufen unter der Bezechnung Verallgemenerte Klenste Quadrate. Se werden unter dem Ttel Regresson von Zetrehen behandelt.

30 94 4 RESIDUEN-ANALYSE Abbldung 4.9.c: Resduen n der räumlchen Anordnung der Beobachtungen m Bespel der basschen Böden 4.10 Enflussreche Beobachtungen a b Ausresser wurden schon n 4.5.a dskutert. Manchmal verschwnden se durch Verbesserungen des Modells. Sowet se stehen bleben, stellt sch de Frage, we stark se de Analyse beenflussen. Weshalb st das wchtg? Wenn es sch um fehlerhafte Beobachtungen handelt, wrd de Analyse verfälscht. Wenn es korrekte Beobachtungen snd und se de Ergebnsse stark prägen, st es nützlch, des zu wssen. Man wrd dann als Interpretaton de Möglchket bedenken, dass de Ausresser aus rgendenem Grund ncht zur glechen Grundgesamthet gehören, und dass das an de übrgen Beobachtungen angepasste Modell de typschen Zusammenhänge n snnvoller Wese wedergbt. Der Effekt enes Ausressers auf de Resultate kann untersucht werden, ndem de Analyse ohne de fraglche Beobachtung wederholt wrd. Auf deser Idee beruhen de (nfluence) dagnostcs, de von etlchen Programmen als grosse Tabellen gelefert werden: De Veränderung aller möglchen Resultatgrössen (Schätzwerte, Teststatstken) bem Weglassen der ten Beobachtung werden für alle angegeben. (Dazu muss ncht etwa de Analyse n mal wederholt werden; es snd starke rechnersche Verenfachungen möglch, so dass der zusätzlche Rechenaufwand unbedeutend blebt.) Es st nützlch, dese dagnostcs zu studeren. Leder zegen se aber oft ncht, was passeren würde, wenn man zwe oder mehrere Ausresser glechzetg weglässt de Effekte müssen sch ncht enfach adderen. c Hebelarm-Dagramm. En wesentlcher Tel deser Tabellen kann glücklcherwese mt ener enzgen grafschen Darstellung erfasst werden, de wr Hebelarm-Dagramm (leverage plot) nennen wollen. Etlche nfluence dagnostcs snd nämlch Funktonen des ten Resduum R, der leverage H (4.3.h) und der geschätzten Standardabwechung σ. De (Beträge der) Enfluss-Indkatoren snd jewels grösser für grössere R und grössere H. Für de grafsche Darstellung verwendet man aber besser de standardserten Resduen R, de ja selbst aus R, H und σ berechnet werden (4.3.). In enem Streudagramm der R gegen de H snd de gefährlchen Beobachtungen rechts, oben und unten, zu

1.1 Beispiele zur linearen Regression

1.1 Beispiele zur linearen Regression 1.1. BEISPIELE ZUR LINEAREN REGRESSION 0 REGRESSION 1: Multple neare Regresson 1 Enführung n de statstsche Regressonsrechnung 1.1 Bespele zur lnearen Regresson b Bespel Sprengungen. Erschütterung Funkton

Mehr

Lineare Regression Teil des Weiterbildungskurses in angewandter Statistik

Lineare Regression Teil des Weiterbildungskurses in angewandter Statistik 0 Lneare Regresson Tel des Weterbldungskurses n angewandter Statstk der ETH Zürch Folen Werner Stahel, September 2017 1.1 Bespele zur lnearen Regresson 1 1 Enführung n de statstsche Regressonsrechnung

Mehr

3 Multiple lineare Regression

3 Multiple lineare Regression 3.1 Modell und Statstk 34 3 Multple lneare Regresson 3.1 Modell und Statstk a Zusammenhang zwschen ener Zelgrösse Y und mehreren Engangsgrössen X (1), X (2),..., X (m) Y = β 0 + β 1 x (1) + β 2 x (2) Parameter:

Mehr

Definition des linearen Korrelationskoeffizienten

Definition des linearen Korrelationskoeffizienten Defnton des lnearen Korrelatonskoeffzenten r xy x y y r x xy y 1 x x y y x Der Korrelatonskoeffzent st en Indkator dafür, we gut de Punkte (X,Y) zu ener Geraden passen. Sen Wert legt zwschen -1 und +1.

Mehr

wird auch Spannweite bzw. Variationsbreite genannt ist definiert als die Differenz zwischen dem größten und kleinsten Messwert einer Verteilung:

wird auch Spannweite bzw. Variationsbreite genannt ist definiert als die Differenz zwischen dem größten und kleinsten Messwert einer Verteilung: Streuungswerte: 1) Range (R) ab metrschem Messnveau ) Quartlabstand (QA) und mttlere Quartlabstand (MQA) ab metrschem Messnveau 3) Durchschnttlche Abwechung (AD) ab metrschem Messnveau 4) Varanz (s ) ab

Mehr

Übungsklausur zur Vorlesung Wahrscheinlichkeit und Regression Lösungen. Übungsklausur Wahrscheinlichkeit und Regression Die Lösungen

Übungsklausur zur Vorlesung Wahrscheinlichkeit und Regression Lösungen. Übungsklausur Wahrscheinlichkeit und Regression Die Lösungen Übungsklausur Wahrschenlchket und Regresson De Lösungen. Welche der folgenden Aussagen treffen auf en Zufallsexperment zu? a) En Zufallsexperment st en emprsches Phänomen, das n stochastschen Modellen

Mehr

2 Zufallsvariable und Verteilungen

2 Zufallsvariable und Verteilungen Zufallsvarable und Vertelungen 7 Zufallsvarable und Vertelungen Wr wollen uns jetzt mt Zufallsexpermenten beschäftgen, deren Ausgänge durch (reelle) Zahlen beschreben werden können, oder be denen man jedem

Mehr

Beschreibung des Zusammenhangs zweier metrischer Merkmale. Streudiagramme Korrelationskoeffizienten Regression

Beschreibung des Zusammenhangs zweier metrischer Merkmale. Streudiagramme Korrelationskoeffizienten Regression Beschrebung des Zusammenhangs zweer metrscher Merkmale Streudagramme Korrelatonskoeffzenten Regresson Alter und Gewcht be Kndern bs 36 Monaten Knd Monate Gewcht 9 9 5 8 3 4 7.5 4 3 6 5 3 6 4 3.5 7 35 5

Mehr

Streuungs-, Schiefe und Wölbungsmaße

Streuungs-, Schiefe und Wölbungsmaße aptel IV Streuungs-, Schefe und Wölbungsmaße B... Lagemaße von äufgketsvertelungen geben allen weng Auskunft über ene äufgketsvertelung. Se beschreben zwar en Zentrum deser Vertelung, geben aber kenen

Mehr

eigentlich gilt, ist für die Fehler Annahme (a) verletzt.

eigentlich gilt, ist für die Fehler Annahme (a) verletzt. 4 Resduen-Analyse 4.1 Problemstellung a b c d e De engeführten Schätz- und Testmethoden beruhen auf Modellannahmen: Für de Fehler wurde E N 0, σ 2 (unabhängg) angenommen. Das kann man aufspalten: (a) Der

Mehr

Die hierzu formulierte Nullhypothese H lautet: X wird durch die Verteilungsdichtefunktion h(x)

Die hierzu formulierte Nullhypothese H lautet: X wird durch die Verteilungsdichtefunktion h(x) ZZ Lösung zu Aufgabe : Ch²-Test Häufg wrd be der Bearbetung statstscher Daten ene bestmmte Vertelung vorausgesetzt. Um zu überprüfen ob de Daten tatsächlch der Vertelung entsprechen, wrd en durchgeführt.

Mehr

Mehrfachregression: Einfluss mehrerer Merkmale auf ein metrisches Merkmal. Designmatrix Bestimmtheitsmaß F-Test T-Test für einzelne Regressoren

Mehrfachregression: Einfluss mehrerer Merkmale auf ein metrisches Merkmal. Designmatrix Bestimmtheitsmaß F-Test T-Test für einzelne Regressoren Mehrfachregresson: Enfluss mehrerer Merkmale auf en metrsches Merkmal Desgnmatrx Bestmmthetsmaß F-Test T-Test für enzelne Regressoren Mehrfachregresson Bvarat: x b b y + = 0 ˆ k k x b x b x b b y + + +

Mehr

Die Annäherung der Binomialverteilung durch die Normalverteilung am Beispiel eines Modells der Schadenversicherung

Die Annäherung der Binomialverteilung durch die Normalverteilung am Beispiel eines Modells der Schadenversicherung am Bespel enes Modells der chadenverscherung Für das Modell ener chadenverscherung se gegeben: s w s. n 4 chaden enes Verscherungsnehmers, wenn der chadenfall entrtt Wahrschenlchket dafür, dass der chadenfall

Mehr

(Theoretische) Konfidenzintervalle für die beobachteten Werte: Die Standardabweichung des Messfehlers wird Standardmessfehler genannt:

(Theoretische) Konfidenzintervalle für die beobachteten Werte: Die Standardabweichung des Messfehlers wird Standardmessfehler genannt: (Theoretsche Konfdenzntervalle für de beobachteten Werte: De Standardabwechung des Messfehlers wrd Standardmessfehler genannt: ( ε ( 1- REL( Mt Hlfe der Tschebyscheff schen Unglechung lassen sch be bekanntem

Mehr

Daten sind in Tabellenform gegeben durch die Eingabe von FORMELN können mit diesen Daten automatisierte Berechnungen durchgeführt werden.

Daten sind in Tabellenform gegeben durch die Eingabe von FORMELN können mit diesen Daten automatisierte Berechnungen durchgeführt werden. Ene kurze Enführung n EXCEL Daten snd n Tabellenform gegeben durch de Engabe von FORMELN können mt desen Daten automatserte Berechnungen durchgeführt werden. Menüleste Symbolleste Bearbetungszele aktve

Mehr

Beschreibende Statistik Mittelwert

Beschreibende Statistik Mittelwert Beschrebende Statstk Mttelwert Unter dem arthmetschen Mttel (Mttelwert) x von n Zahlen verstehen wr: x = n = x = n (x +x +...+x n ) Desen Mttelwert untersuchen wr etwas genauer.. Zege für n = 3: (x x )

Mehr

Grundgedanke der Regressionsanalyse

Grundgedanke der Regressionsanalyse Grundgedanke der Regressonsanalse Bsher wurden durch Koeffzenten de Stärke von Zusammenhängen beschreben Mt der Regressonsrechnung können für ntervallskalerte Varablen darüber hnaus Modelle geschätzt werden

Mehr

nonparametrische Tests werden auch verteilungsfreie Tests genannt, da sie keine spezielle Verteilung der Daten in der Population voraussetzen

nonparametrische Tests werden auch verteilungsfreie Tests genannt, da sie keine spezielle Verteilung der Daten in der Population voraussetzen arametrsche vs. nonparametrsche Testverfahren Verfahren zur Analyse nomnalskalerten Daten Thomas Schäfer SS 009 1 arametrsche vs. nonparametrsche Testverfahren nonparametrsche Tests werden auch vertelungsfree

Mehr

Abbildung 3.1: Besetzungszahlen eines Fermigases im Grundzustand (a)) und für eine angeregte Konfiguration (b)).

Abbildung 3.1: Besetzungszahlen eines Fermigases im Grundzustand (a)) und für eine angeregte Konfiguration (b)). 44 n n F F a) b) Abbldung 3.: Besetzungszahlen enes Fermgases m Grundzustand (a)) und für ene angeregte Konfguraton (b)). 3.3 Ferm Drac Statstk In desem Abschntt wollen wr de thermodynamschen Egenschaften

Mehr

Standardnormalverteilung / z-transformation

Standardnormalverteilung / z-transformation Standardnormalvertelung / -Transformaton Unter den unendlch velen Normalvertelungen gbt es ene Normalvertelung, de sch dadurch ausgeechnet st, dass se enen Erwartungswert von µ 0 und ene Streuung von σ

Mehr

Arbeitsgruppe Radiochemie Radiochemisches Praktikum P 06. Einführung in die Statistik. 1. Zählung von radioaktiven Zerfällen und Statistik 2

Arbeitsgruppe Radiochemie Radiochemisches Praktikum P 06. Einführung in die Statistik. 1. Zählung von radioaktiven Zerfällen und Statistik 2 ETH Arbetsgruppe Radocheme Radochemsches Praktkum P 06 Enführung n de Statstk INHALTSVERZEICHNIS Sete 1. Zählung von radoaktven Zerfällen und Statstk 2 2. Mttelwert und Varanz 2 3. Momente ener Vertelung

Mehr

Lineare Regression. Werner Stahel Seminar für Statistik, ETH Zürich. Mai 2012

Lineare Regression. Werner Stahel Seminar für Statistik, ETH Zürich. Mai 2012 Lneare Regresson Werner Stahel Semnar für Statstk, ETH Zürch Ma 2012 Unterlagen zum Modul G3: Wahrschenlchket und Statstk des Zertfkatskurses über Rsko und Scherhet Dese Unterlagen stammen aus enem umfangrechen

Mehr

Kapitel V. Parameter der Verteilungen

Kapitel V. Parameter der Verteilungen Kaptel V Parameter der Vertelungen D. 5.. (Erwartungswert) Als Erwartungswert ener Zufallsvarablen X bezechnet man: E( X ) : Dabe se vorausgesetzt: = = + p falls X dskret f d falls X stetg und = + p

Mehr

Mathematische und statistische Methoden II

Mathematische und statistische Methoden II Methodenlehre e e Prof. Dr. G. Menhardt 6. Stock, Wallstr. 3 (Raum 06-206) Sprechstunde jederzet nach Verenbarung und nach der Vorlesung. Mathematsche und statstsche Methoden II Dr. Malte Perske perske@un-manz.de

Mehr

Lösungen zum 3. Aufgabenblock

Lösungen zum 3. Aufgabenblock Lösungen zum 3. Aufgabenblock 3. Aufgabenblock ewerber haben n enem Test zur sozalen Kompetenz folgende ntervallskalerte Werte erhalten: 96 131 11 1 85 113 91 73 7 a) Zegen Se für desen Datensatz, dass

Mehr

U Test (Rangsummentest) Parameterfreie Tests. U -Test. U -Test. χ ²- Unabhängigkeitstest Test auf Unabhängigkeit von zwei Zufallsgrößen

U Test (Rangsummentest) Parameterfreie Tests. U -Test. U -Test. χ ²- Unabhängigkeitstest Test auf Unabhängigkeit von zwei Zufallsgrößen Parameterfree Tests U Test (Rangsummentest) Verglech der Mttelwerte (Medane) be ncht normalvertelten Größen U - Test Mttelwertverglech von zwe ncht verbundenen Zugrößen Wlcoxon - Vorzechenrangtest Mttelwertverglech

Mehr

3. Lineare Algebra (Teil 2)

3. Lineare Algebra (Teil 2) Mathematk I und II für Ingeneure (FB 8) Verson /704004 Lneare Algebra (Tel ) Parameterdarstellung ener Geraden Im folgenden betrachten wr Geraden m eukldschen Raum n, wobe uns hauptsächlch de Fälle n bzw

Mehr

ANOVA (Analysis of Variance) Varianzanalyse. Statistik Methoden. Ausgangssituation ANOVA. Ao.Prof.DI.Dr Josef Haas

ANOVA (Analysis of Variance) Varianzanalyse. Statistik Methoden. Ausgangssituation ANOVA. Ao.Prof.DI.Dr Josef Haas Ao.Prof.DI.Dr Josef Haas josef.haas@medungraz.at ANOVA (Analyss of Varance) Varanzanalyse Statstk Methoden Verglech von Mttelwerten Ao.Unv.Prof.DI.Dr. Josef Haas josef.haas@medungraz.at Ausgangsstuaton

Mehr

Bedingte Entropie. Bedingte Entropie. Bedingte Entropie. Kapitel 4: Bedingte Entropie I(X;Y) H(X Y) H(Y) H(X) H(XY)

Bedingte Entropie. Bedingte Entropie. Bedingte Entropie. Kapitel 4: Bedingte Entropie I(X;Y) H(X Y) H(Y) H(X) H(XY) Bedngte Entrope Kaptel : Bedngte Entrope Das vorherge Theorem kann durch mehrfache Anwendung drekt verallgemenert werden H (... H ( = Ebenso kann de bedngt Entrope defnert werden Defnton: De bedngte Entrope

Mehr

Analyse von Querschnittsdaten. Bivariate Regression

Analyse von Querschnittsdaten. Bivariate Regression Analse von Querschnttsdaten Bvarate Regresson Warum geht es n den folgenden Stzungen? Kontnuerlche Varablen Deskrptve Modelle kategorale Varablen Datum 3.0.2004 20.0.2004 27.0.2004 03..2004 0..2004 7..2004

Mehr

Multivariate Analysemethoden

Multivariate Analysemethoden Multvarate Analysemethoden q-q-plot Methode zur Prüfung der Multvaraten Normalvertelung Günter Menhardt Johannes Gutenberg Unverstät Manz Prüfung der NV-Annahme Vertelungsanpassung/Prüfung Prüfung der

Mehr

Prof. Dr. Roland Füss Statistik II SS 2008

Prof. Dr. Roland Füss Statistik II SS 2008 5. Spezelle Testverfahren Zahlreche parametrsche und nchtparametrsche Testverfahren, de nach Testvertelung (Bnomal, t-test etc.), Analysezel (Anpassungs- und Unabhänggketstest) oder Konstrukton der Prüfgröße

Mehr

6. Modelle mit binären abhängigen Variablen

6. Modelle mit binären abhängigen Variablen 6. Modelle mt bnären abhänggen Varablen 6.1 Lneare Wahrschenlchketsmodelle Qualtatve Varablen: Bnäre Varablen: Dese Varablen haben genau zwe möglche Kategoren und nehmen deshalb genau zwe Werte an, nämlch

Mehr

Erwartungswert, Varianz, Standardabweichung

Erwartungswert, Varianz, Standardabweichung RS 24.2.2005 Erwartungswert_Varanz_.mcd 4) Erwartungswert Erwartungswert, Varanz, Standardabwechung Be jedem Glücksspel nteresseren den Speler vor allem de Gewnnchancen. 1. Bespel: Setzen auf 1. Dutzend

Mehr

Statistik Exponentialfunktion

Statistik Exponentialfunktion ! " Statstk " Eponentalfunkton # $ % & ' $ ( )&* +, - +. / $ 00, 1 +, + ) Ensemble von radoaktven Atomkernen Zerfallskonstante λ [1/s] Lebensdauer τ 1/λ [s] Anzahl der pro Zetenhet zerfallenden Kerne:

Mehr

3 Multiple lineare Regression

3 Multiple lineare Regression 3 Multple lneare Regresson 3.1 Modell und Statstk a De Abhänggket ener Zelgrösse von ener Ausgangsgrösse kann n enem enfachen Streudagramm dargestellt werden. Oft wrd dadurch das Wesentlche des Zusammenhangs

Mehr

Lineare Regression (1) - Einführung I -

Lineare Regression (1) - Einführung I - Lneare Regresson (1) - Enführung I - Mttels Regressonsanalysen und kompleeren, auf Regressonsanalysen aserenden Verfahren können schenar verschedene, jedoch nenander üerführare Fragen untersucht werden:

Mehr

5 Gemischte Verallgemeinerte Lineare Modelle

5 Gemischte Verallgemeinerte Lineare Modelle 5 Gemschte Verallgemenerte Lneare Modelle Wr betrachten zunächst enge allgemene Aussagen für Gemschte Verallgemenerte Lneare Modelle. Se y der beobachtbare Zufallsvektor und u der Vektor der ncht-beobachtbaren

Mehr

Sind die nachfolgenden Aussagen richtig oder falsch? (1 Punkt pro korrekter Beantwortung)

Sind die nachfolgenden Aussagen richtig oder falsch? (1 Punkt pro korrekter Beantwortung) LÖSUNG KLAUSUR STATISTIK I Berufsbegletender Studengang Betrebswrtschaftslehre Sommersemester 016 Aufgabentel I: Theore (10 Punkte) Snd de nachfolgenden Aussagen rchtg oder falsch? (1 Punkt pro korrekter

Mehr

Rotation (2. Versuch)

Rotation (2. Versuch) Rotaton 2. Versuch Bekannt snd berets Vektorfelder be denen das Lnenntegral über ene geschlossene Kurve Null wrd Stchworte: konservatve Kraft Potentalfelder Gradentenfeld. Es gbt auch Vektorfelder be denen

Mehr

2.1 Einfache lineare Regression 31

2.1 Einfache lineare Regression 31 .1 Enfache lneare Regresson 31 Regressonsanalyse De Regressonsanalyse gehört zu den am häufgsten engesetzten multvaraten statstschen Auswertungsverfahren. Besonders de multple Regressonsanalyse hat große

Mehr

Grundlagen der Mathematik I Lösungsvorschlag zum 12. Tutoriumsblatt

Grundlagen der Mathematik I Lösungsvorschlag zum 12. Tutoriumsblatt Mathematsches Insttut der Unverstät München Wntersemester 3/4 Danel Rost Lukas-Faban Moser Grundlagen der Mathematk I Lösungsvorschlag zum. Tutorumsblatt Aufgabe. a De Formel besagt, daß de Summe der umrahmten

Mehr

Konkave und Konvexe Funktionen

Konkave und Konvexe Funktionen Konkave und Konvexe Funktonen Auch wenn es n der Wrtschaftstheore mest ncht möglch st, de Form enes funktonalen Zusammenhangs explzt anzugeben, so kann man doch n velen Stuatonen de Klasse der n Frage

Mehr

Ökonomische und ökonometrische Evaluation. 1.3 Ökonometrische Grundkonzepte

Ökonomische und ökonometrische Evaluation. 1.3 Ökonometrische Grundkonzepte Ökonomsche und ökonometrsche Evaluaton 90 Emprsche Analyse des Arbetsangebots Zele: Bestmmung von Arbetsangebotselastztäten als Test der theoretschen Modelle Smulaton oder Evaluaton der Wrkungen von Insttutonen

Mehr

Sei T( x ) die Tangente an den Graphen der Funktion f(x) im Punkt ( x 0, f(x 0 ) ) : T( x ) = f(x 0 ) + f (x 0 ) ( x - x 0 ).

Sei T( x ) die Tangente an den Graphen der Funktion f(x) im Punkt ( x 0, f(x 0 ) ) : T( x ) = f(x 0 ) + f (x 0 ) ( x - x 0 ). Taylorentwcklung (Approxmaton durch Polynome). Problemstellung Se T( x ) de Tangente an den Graphen der Funkton f(x) m Punkt ( x 0, f(x 0 ) ) : T( x ) = f(x 0 ) + f (x 0 ) ( x - x 0 ). Dann kann man de

Mehr

Kapitel 4: Unsicherheit in der Modellierung Modellierung von Unsicherheit. Machine Learning in der Medizin 104

Kapitel 4: Unsicherheit in der Modellierung Modellierung von Unsicherheit. Machine Learning in der Medizin 104 Kaptel 4: Unscherhet n der Modellerung Modellerung von Unscherhet Machne Learnng n der Medzn 104 Regresson Modellerung des Datengenerators: Dchteschätzung der gesamten Vertelung, t pt p p Lkelhood: L n

Mehr

Statistik und Wahrscheinlichkeitsrechnung

Statistik und Wahrscheinlichkeitsrechnung Statstk und Wahrschenlchketsrechnung Statstk und Wahrschenlchketsrechnung 5. Vorlesung Dr. Jochen Köhler.03.0 Statstk und Wahrschenlchketsrechnung Wchtg!!! Vorlesung Do 4.03.0 HCI G3 Übung 5 D 9.03.0 Fnk

Mehr

Alternative Darstellung des 2-Stichprobentests für Anteile. Beobachtete Response No Response Total absolut DCF CF

Alternative Darstellung des 2-Stichprobentests für Anteile. Beobachtete Response No Response Total absolut DCF CF Alternatve Darstellung des -Stchprobentests für Antele DCF CF Total n= 111 11 3 Response 43 6 69 Resp. Rate 0,387 0,3 0,309 Beobachtete Response No Response Total absolut DCF 43 68 111 CF 6 86 11 69 154

Mehr

Vorlesung: Multivariate Statistik für Psychologen

Vorlesung: Multivariate Statistik für Psychologen Vorlesung: Multvarate Statstk für Psychologen 3. Vorlesung: 14.04.2003 Agenda 1. Organsatorsches 2. Enfache Regresson. Grundlagen.. Grunddee und Zele der enfachen Regresson Bespele Statstsches Modell Modell

Mehr

-70- Anhang: -Lineare Regression-

-70- Anhang: -Lineare Regression- -70- Anhang: -Lneare Regressn- Für ene Messgröße y f(x) gelte flgender mathematsche Zusammenhang: y a+ b x () In der Regel läßt sch durch enen Satz vn Messwerten (x, y ) aber kene Gerade zechnen, da de

Mehr

Lösungen der Aufgaben zu Kapitel 2

Lösungen der Aufgaben zu Kapitel 2 Lösungen der Aufgaben zu Kaptel Abschntt 1 Aufgabe 1 Wr benutzen de Potenzrechenregeln, um ene Potenz von mt geradem Eponenten n oder mt ungeradem Eponenten n + 1 we folgt darzustellen: n n und n+1 n n

Mehr

Empirische Wirtschaftsforschung

Empirische Wirtschaftsforschung Emprsche Wrtschaftsforschung Prof. Dr. Bernd Süßmuth Unverstät Lepzg Insttut für Emprsche Wrtschaftsforschung Volkswrtschaftslehre, nsbesondere Ökonometre 5. Enfaches OLS-Regressonsmodell 5.1. Herletung

Mehr

Multilineare Algebra und ihre Anwendungen. Nr. 6: Normalformen. Verfasser: Yee Song Ko Adrian Jenni Rebecca Huber Damian Hodel

Multilineare Algebra und ihre Anwendungen. Nr. 6: Normalformen. Verfasser: Yee Song Ko Adrian Jenni Rebecca Huber Damian Hodel ultlneare Algebra und hre Anwendungen Nr. : Normalformen Verfasser: Yee Song Ko Adran Jenn Rebecca Huber Daman Hodel 9.5.7 - - ultlneare Algebra und hre Anwendungen Jordan sche Normalform Allgemene heore

Mehr

Regressionsgerade. x x 1 x 2 x 3... x n y y 1 y 2 y 3... y n

Regressionsgerade. x x 1 x 2 x 3... x n y y 1 y 2 y 3... y n Regressonsgerade x x x x 3... x n y y y y 3... y n Bem Auswerten von Messrehen wrd häufg ene durch theoretsche Überlegungen nahegelegte lneare Bezehung zwschen den x- und y- Werten gesucht, d.h. ene Gerade

Mehr

Klausur zur Vorlesung Lineare Modelle SS 2006 Diplom, Klausur A

Klausur zur Vorlesung Lineare Modelle SS 2006 Diplom, Klausur A Lneare Modelle m SS 2006, Prof. Dr. W. Zucchn 1 Klausur zur Vorlesung Lneare Modelle SS 2006 Dplom, Klausur A Aufgabe 1 (18 Punkte) a) Welcher grundsätzlche Untersched besteht n der Interpretaton von festen

Mehr

Auswertung univariater Datenmengen - deskriptiv

Auswertung univariater Datenmengen - deskriptiv Auswertung unvarater Datenmengen - desrptv Bblografe Prof. Dr. Küc; Statst, Vorlesungssrpt Abschntt 6.. Bleymüller/Gehlert/Gülcher; Statst für Wrtschaftswssenschaftler Verlag Vahlen Bleymüller/Gehlert;

Mehr

Gauss sche Fehlerrrechnung

Gauss sche Fehlerrrechnung Gauss sche Fehlerrrechnung T. Ihn 24. Oktober 206 Inhaltsverzechns Modell und Lkelhood 2 Alle Standardabwechungen σ snd bekannt, bzw. de Kovaranzmatrx der Daten st bekannt: Mnmeren der χ 2 -Funkton. 6

Mehr

STATISTIK AUF DEM KREIS

STATISTIK AUF DEM KREIS - 17 - STATISTIK AUF DEM KREIS nach K. E. SElkrk, Unversty of Nottngham Orgnalttel n 'Teachng Statstcs' Vol. 4 (1982) Nr. 3: Statstcs on a Crcle tlbersetzung und Bearbetung: B. Wollrng De mesten Zufallsgrößen,

Mehr

(2) i = 0) in Abhängigkeit des Zeitunterschieds x ZeitBus ZeitAuto für seinen Arbeitsweg.) i = 1) oder Bus ( y

(2) i = 0) in Abhängigkeit des Zeitunterschieds x ZeitBus ZeitAuto für seinen Arbeitsweg.) i = 1) oder Bus ( y 5. Probt-Modelle Ökonometre II - Peter Stalder "Bnar Choce"-Modelle - Der Probt-Ansatz Ene ncht drekt beobachtbare stochastsche Varable hängt von x ab: x u 2 u ~ N(0, ( Beobachtet wrd ene bnäre Varable

Mehr

Informatik II. Minimalpolynome und Implikanten. Minimalpolynome. Minimalpolynome. Rainer Schrader. 27. Oktober Was bisher geschah: Definition

Informatik II. Minimalpolynome und Implikanten. Minimalpolynome. Minimalpolynome. Rainer Schrader. 27. Oktober Was bisher geschah: Definition Informatk II Raner Schrader und Implkanten Zentrum für Angewandte Informatk Köln 27. Oktober 2005 1 / 28 2 / 28 Was bsher geschah: jede Boolesche Funkton kann durch enfache Grundfunktonen dargestellt werden

Mehr

3.3 Lineare Abbildungen und Matrizen

3.3 Lineare Abbildungen und Matrizen 33 LINEARE ABBILDUNGEN UND MATRIZEN 87 33 Lneare Abbldungen und Matrzen Wr wollen jetzt de numersche Behandlung lnearer Abbldungen zwschen Vektorräumen beschreben be der vorgegebene Basen de Hauptrolle

Mehr

18. Vorlesung Sommersemester

18. Vorlesung Sommersemester 8. Vorlesung Sommersemester Der Drehmpuls des starren Körpers Der Drehmpuls des starren Körpers st etwas komplzerter. Wenn weder de Wnkelgeschwndgket um de feste Rotatonsachse st, so wrd mt Hlfe des doppelten

Mehr

-2 Das einfache Regressionsmodell 2.1 Ein ökonomisches Modell

-2 Das einfache Regressionsmodell 2.1 Ein ökonomisches Modell Kaptel : Das enfache Regressonsmodell - Das enfache Regressonsmodell. En ökonomsches Modell Bespel: De Bezehung zwschen Haushaltsenkommen und Leensmttelausgaen Befragung zufällg ausgewählter Haushalte

Mehr

6 Wandtafeln. 6.3 Berechnung der Kräfte und des Schubflusses auf Wandtafeln. 6.3.1 Allgemeines

6 Wandtafeln. 6.3 Berechnung der Kräfte und des Schubflusses auf Wandtafeln. 6.3.1 Allgemeines 6 Wandtafeln 6.3 Berechnung der Kräfte und des Schubflusses auf Wandtafeln 6.3.1 Allgemenes Be der Berechnung der auf de enzelnen Wandtafeln entfallenden Horzontalkräfte wrd ene starre Deckenschebe angenommen.

Mehr

Fallstudie 1 Diskrete Verteilungen Abgabe: Aufgabentext und Lösungen schriftlich bis zum

Fallstudie 1 Diskrete Verteilungen Abgabe: Aufgabentext und Lösungen schriftlich bis zum Abgabe: Aufgabentext und Lösungen schrftlch bs zum 15. 6. 2012 I. Thema: Zehen mt und ohne Zurücklegen Lesen Se sch zunächst folgenden Text durch! Wr haben bsher Stchprobenzehungen aus Grundgesamtheten

Mehr

5 Modell-Entwicklung. 5.1 Problemstellung

5 Modell-Entwicklung. 5.1 Problemstellung 5 Modell-Entwcklung 5.1 Problemstellung a Unterschedlcher Kenntnsstand. Von der wssenschaftlchen Fragestellung und vom Vorwssen her gbt es verschedene Arten, de Regressons-Analyse enzusetzen: 1. Im Idealfall

Mehr

Konzept der Chartanalyse bei Chart-Trend.de

Konzept der Chartanalyse bei Chart-Trend.de Dpl.-Phys.,Dpl.-Math. Jürgen Brandes Konzept der Chartanalyse be Chart-Trend.de Konzept der Chartanalyse be Chart-Trend.de... Bewertungsgrundlagen.... Skala und Symbole.... Trendkanalbewertung.... Bewertung

Mehr

Analysis I. Vorlesung 17. Logarithmen. R R, x exp x,

Analysis I. Vorlesung 17. Logarithmen. R R, x exp x, Prof. Dr. H. Brenner Osnabrück WS 2013/2014 Analyss I Vorlesung 17 Logarthmen Satz 17.1. De reelle Exponentalfunkton R R, x exp x, st stetg und stftet ene Bjekton zwschen R und R +. Bewes. De Stetgket

Mehr

Lineare Regression. Stefan Keppeler. 16. Januar Mathematik I für Biologen, Geowissenschaftler und Geoökologen

Lineare Regression. Stefan Keppeler. 16. Januar Mathematik I für Biologen, Geowissenschaftler und Geoökologen Mathematk I für Bologen, Geowssenschaftler und Geoökologen 16. Januar 2012 Problemstellung Bespel Maß für Abwechung Trck Mnmum? Exponentalfunktonen Potenzfunktonen Bespel Problemstellung: Gegeben seen

Mehr

Itemanalyse und Itemkennwerte. Itemanalyse und Itemkennwerte. Itemanalyse und Itemkennwerte: Itemschwierigkeit P i

Itemanalyse und Itemkennwerte. Itemanalyse und Itemkennwerte. Itemanalyse und Itemkennwerte: Itemschwierigkeit P i Itemanalyse und Itemkennwerte De Methoden der Analyse der Itemegenschaften st ncht m engeren Snne Bestandtel der Klassschen Testtheore Im Rahmen ener auf der KTT baserenden Testkonstrukton und -revson

Mehr

Funktionsgleichungen folgende Funktionsgleichungen aus der Vorlesung erhält. = e

Funktionsgleichungen folgende Funktionsgleichungen aus der Vorlesung erhält. = e Andere Darstellungsformen für de Ausfall- bzw. Überlebens-Wahrschenlchket der Webull-Vertelung snd we folgt: Ausfallwahrschenlchket: F ( t ) Überlebenswahrschenlchket: ( t ) = R = e e t t Dabe haben de

Mehr

Resultate / "states of nature" / mögliche Zustände / möglicheentwicklungen

Resultate / states of nature / mögliche Zustände / möglicheentwicklungen Pay-off-Matrzen und Entschedung unter Rsko Es stehen verschedene Alternatven (Strategen) zur Wahl. Jede Stratege führt zu bestmmten Resultaten (outcomes). Man schätzt dese Resultate für jede Stratege und

Mehr

Facility Location Games

Facility Location Games Faclty Locaton Games Semnar über Algorthmen SS 2006 Klaas Joeppen 1 Abstract Wr haben berets sehr häufg von Nash-Glechgewchten und vor allem von deren Exstenz gesprochen. Das Faclty Locaton Game betet

Mehr

6.5. Rückgewinnung des Zeitvorgangs: Rolle der Pole und Nullstellen

6.5. Rückgewinnung des Zeitvorgangs: Rolle der Pole und Nullstellen 196 6.5. Rückgewnnung des Zetvorgangs: Rolle der Pole und Nullstellen We n 6.2. und 6.. gezegt wurde, st de Übertragungsfunkton G( enes lnearen zetnvaranten Systems mt n unabhänggen Spechern ene gebrochen

Mehr

9 Komplexe Zahlen ( ) ( ) 9.1 Ziele. 9.2 Warum braucht man komplexe Zahlen? 9.3 Darstellung von komplexen Zahlen. r 2. j 2. j 1.

9 Komplexe Zahlen ( ) ( ) 9.1 Ziele. 9.2 Warum braucht man komplexe Zahlen? 9.3 Darstellung von komplexen Zahlen. r 2. j 2. j 1. Mathematk I / Komplexe Zahlen 9 Komplexe Zahlen 9. Zele Am Ende deses Kaptels hast Du ene Grundvorstellung was komplexe Zahlen snd. Du kannst se grafsch darstellen und enfache Berechnungen durchführen.

Mehr

Prof. Dr. P. Kischka WS 2012/13 Lehrstuhl für Wirtschafts- und Sozialstatistik. Klausur Statistische Inferenz

Prof. Dr. P. Kischka WS 2012/13 Lehrstuhl für Wirtschafts- und Sozialstatistik. Klausur Statistische Inferenz Prof. Dr. P. Kschka WS 2012/13 Lehrstuhl für Wrtschafts- und Sozalstatstk Klausur Statstsche Inferenz 15.02.2013 Name: Matrkelnummer: Studengang: Aufgabe 1 2 3 4 5 6 7 8 Summe Punkte 6 5 5 5 5 4 4 6 40

Mehr

16. Vorlesung Sommersemester

16. Vorlesung Sommersemester 16. Vorlesung Sommersemester 1 Das Egenwertproblem In allgemener Form hat das Egenwertproblem de Form A x = λ x, (1) wobe A ene n n-matrx, x en n-dmensonaler Vektor und λ der Egenwert st (n Englsch: egenvector,

Mehr

1 Mehrdimensionale Analysis

1 Mehrdimensionale Analysis 1 Mehrdmensonale Analyss Bespel: De Gesamtmasse der Erde st ene Funton der Erddchte ρ Erde und des Erdradus r Erde De Gesamtmasse der Erde st dann m Erde = V Erde ρ Erde Das Volumen ener Kugel mt Radus

Mehr

Maße der zentralen Tendenz (10)

Maße der zentralen Tendenz (10) Maße der zentralen Tendenz (10) - De Berechnung der zentralen Tendenz be ategorserten Daten mt offenen Endlassen I - Bespel 1: offene Endlasse Alter x f x f p x p p cum bs 20 1? 3? 6? 6 21-25 2 23 20 460

Mehr

Rückblick Regression II: Anpassung an Polynome

Rückblick Regression II: Anpassung an Polynome Rückblck Regresson II: Anpassung an Polynome T. Keßlng: Auswertung von Messungen und Fehlerrechnung - Fehlerrechnung und Korrelaton 0.06.08 Vorlesung 0- Temperaturmessung mt Thermospannung Wr erhalten

Mehr

Beschreibung von Vorgängen durch Funktionen

Beschreibung von Vorgängen durch Funktionen Beschrebung von Vorgängen durch Funktonen.. Splnes (Sete 6) a +b c Zechenerklärung: [ ] - Drücken Se de entsprechende Taste des Graphkrechners! [ ] S - Drücken Se erst de Taste [SHIFT] und dann de entsprechende

Mehr

FORMELSAMMLUNG STATISTIK (I)

FORMELSAMMLUNG STATISTIK (I) Statst I / B. Zegler Formelsammlng FORMELSAMMLUG STATISTIK (I) Statstsche Formeln, Defntonen nd Erläterngen A a X n qaltatves Mermal Mermalsasprägng qanttatves Mermal Mermalswert Anzahl der statstschen

Mehr

e dt (Gaußsches Fehlerintegral)

e dt (Gaußsches Fehlerintegral) Das Gaußsche Fehlerntegral Φ Ac 5-8 Das Gaußsche Fehlerntegral Φ st denert als das Integral über der Standard-Normalvertelung j( ) = -,5 n den Grenzen bs, also F,5 t ( ) = - e dt (Gaußsches Fehlerntegral)

Mehr

Auswertung univariater Datenmengen - deskriptiv

Auswertung univariater Datenmengen - deskriptiv Auswertung unvarater Datenmengen - desrptv Bblografe Prof. Dr. Küc; Statst, Vorlesungssrpt Abschntt 6.. Bleymüller/Gehlert/Gülcher; Statst für Wrtschaftswssenschaftler Verlag Vahlen Bleymüller/Gehlert;

Mehr

2πσ. e ax2 dx = x exp. 2πσ. 2σ 2. Die Varianz ergibt sich mit Hilfe eines weiteren bestimmten Integrals: x 2 e ax2 dx = 1 π.

2πσ. e ax2 dx = x exp. 2πσ. 2σ 2. Die Varianz ergibt sich mit Hilfe eines weiteren bestimmten Integrals: x 2 e ax2 dx = 1 π. 2.5. NORMALVERTEILUNG 27 2.5 Normalvertelung De n der Statstk am häufgsten benutzte Vertelung st de Gauss- oder Normalvertelung. Wr haben berets gesehen, dass dese Vertelung aus den Bnomal- und Posson-Vertelungen

Mehr

Seminar über Numerische Mathematik

Seminar über Numerische Mathematik Andreas Mester Semnar über Numersche Mathematk Semnar m Wntersemester 008/009 Unverstät Kassel Fachberech Mathematk Inhaltsverzechns Bezer-Kurven 1 1 Enletung 1 Der Algorthmus von de-castelau.1 Parabeln....................................

Mehr

Zweck. Radiometrische Kalibrierung. Traditioneller Ansatz. Kalibrierung ohne Kalibrierkörper

Zweck. Radiometrische Kalibrierung. Traditioneller Ansatz. Kalibrierung ohne Kalibrierkörper Raometrsche Kalbrerung Tratoneller Ansatz Kalbrerung aus mehreren Blern Behanlung von übersteuerten Blern Zweck Das Antwortverhalten es Systems Kamera Framegrabber st ncht mmer lnear Grauwerte sn ncht

Mehr

9 Komplexe Zahlen ( ) ( ) 9.1 Ziele. 9.2 Warum braucht man komplexe Zahlen? 9.3 Darstellung von komplexen Zahlen. r 2. j 2. j 1.

9 Komplexe Zahlen ( ) ( ) 9.1 Ziele. 9.2 Warum braucht man komplexe Zahlen? 9.3 Darstellung von komplexen Zahlen. r 2. j 2. j 1. Mathematk I / Komplexe Zahlen 9 Komplexe Zahlen 9. Zele Am Ende deses Kaptels hast Du ene Grundvorstellung was komplexe Zahlen snd. Du kannst se grafsch darstellen und enfache Berechnungen durchführen.

Mehr

Nomenklatur - Übersicht

Nomenklatur - Übersicht Nomenklatur - Überscht Name der synthetschen Varable Wert der synthetschen Varable durch synth. Varable erklärte Gesamt- Streuung durch synth. Varable erkl. Streuung der enzelnen Varablen Korrelaton zwschen

Mehr

Lineare Regression - Mathematische Grundlagen

Lineare Regression - Mathematische Grundlagen FKULTÄT FÜR MTHEMTIK U TURWISSESCHFTE ISTITUT FÜR PHYSIK FCHGEBIET EXPERIMETLPHYSIK I r. rer. nat. orbert Sten, pl.-ing (FH) Helmut Barth Lneare Regresson - Mathematsche Grundlagen. llgemene Gerade Wr

Mehr

Elemente der Mathematik - Sommer 2016

Elemente der Mathematik - Sommer 2016 Elemente der Mathematk - Sommer 2016 Prof Dr Matthas Lesch, Regula Krapf Lösungen Übungsblatt 3 Aufgabe 9 (10 Punkte) Das Horner-Schema st ene Methode zum Auswerten enes Polynoms n a0 x an der Stelle s

Mehr

Numerische Methoden II

Numerische Methoden II umersche Methoden II Tm Hoffmann 23. Januar 27 umersche Bespele umersche Methoden zur Approxmaton von Dervatpresen: - Trnomsche Gttermethode - Implzte Fnte Dfferenzen - Explzte Fnte Dfferenzen - Crank-colson

Mehr

Kapitel 7: Ensemble Methoden. Maschinelles Lernen und Neural Computation

Kapitel 7: Ensemble Methoden. Maschinelles Lernen und Neural Computation Kaptel 7: Ensemble Methoden 133 Komtees Mehrere Netze haben bessere Performanz als enzelne Enfachstes Bespel: Komtee von Netzen aus der n-fachen Kreuzvalderung (verrngert Varanz) De Computatonal Learnng

Mehr

Lineare Regression. Werner Stahel Seminar für Statistik, ETH Zürich. Mai 2008 / Sept. 2013

Lineare Regression. Werner Stahel Seminar für Statistik, ETH Zürich. Mai 2008 / Sept. 2013 Lneare Regresson Werner Stahel Semnar für Statstk, ETH Zürch Ma 2008 / Sept. 2013 Unterlagen zum Tel 1 der Vorlesung / des Kurses n Angewandter Regresson 1 Enführung n de statstsche Regressonsrechnung

Mehr

z.b. Münzwurf: Kopf = 1 Zahl = 2 oder z.b. 2 Würfel: Merkmal = Summe der Augenzahlen, also hier: Bilde die Summe der Augenzahlen der beiden Würfel!

z.b. Münzwurf: Kopf = 1 Zahl = 2 oder z.b. 2 Würfel: Merkmal = Summe der Augenzahlen, also hier: Bilde die Summe der Augenzahlen der beiden Würfel! Aufgabe : Vorbemerkung: Ene Zufallsvarable st ene endeutge Funkton bzw. ene Abbldungsvorschrft, de angbt, auf welche Art aus enem Elementareregns ene reelle Zahl gewonnen wrd. x 4 (, ) z.b. Münzwurf: Kopf

Mehr

14 Schätzmethoden. Eigenschaften von Schätzungen ˆθ. Sei ˆθ n eine Schätzung eines Parameters θ, die auf n Beobachtungen beruht.

14 Schätzmethoden. Eigenschaften von Schätzungen ˆθ. Sei ˆθ n eine Schätzung eines Parameters θ, die auf n Beobachtungen beruht. 14 Schätzmethoden Egenschaften von Schätzungen ˆθ Se ˆθ n ene Schätzung enes Parameters θ, de auf n Beobachtungen beruht. ˆθn n θ Konsstenz (Mnmalforderung) Eˆθ n = θ Erwartungstreue Eˆθ n n θ Asymptotsche

Mehr

ME II, Prof. Dr. T. Wollmershäuser. Kapitel 2 Das IS-LM-Modell

ME II, Prof. Dr. T. Wollmershäuser. Kapitel 2 Das IS-LM-Modell ME II, Prof. Dr. T. Wollmershäuser Kaptel 2 Das IS-LM-Modell Verson: 26.04.2011 2.1 Der Gütermarkt De gesamte Güternachfrage Z (Verwendung des BIP) lässt sch we folgt darstellen: Z C+ I + G ME II, Prof.

Mehr