Ein Index für die Adäquatheit der Pearson-Korrelation

Größe: px
Ab Seite anzeigen:

Download "Ein Index für die Adäquatheit der Pearson-Korrelation"

Transkript

1 Ein Index für die Adäquatheit der Pearson-Korrelation Rainer Alexandrowicz & Oliver Vitouch Es wird eine Kennzahl vorgestellt, welche über einen Jackknifing-Algorithmus die Adäquatheit der Anwendung der Produkt-Moment-Korrelation auf einen gegebenen Datensatz beschreibt. Anhand simulierter Datensätze wird die hohe Sensibilität des Index auf Scheinkorrelationen dargestellt. Weiters erlaubt eine Referenztabelle die Orientierung bei modellkonformen Daten. Idealerweise sollte dieser Index vergleichbar der Standardabweichung (bzw. dem Standardfehler) beim arithmetischen Mittel zu jeder Angabe einer Korrelation hinzugefügt werden, um so auch Rezipienten die Möglichkeit zu geben, korrelationsbasierte Erkenntnisse kritisch nachvollziehen zu können. Schlüsselwörter: Korrelation, Ausreißer, robuste Statistik, breakdown point 1 Fragestellung Der Korrelationskoeffizient nach Pearson, auch Produkt-Moment-Korrelation, beschreibt den linearen stochastischen Zusammenhang zweier intervallskalierter Variablen und zählt zu den in der Psychologie wohl am häufigsten eingesetzten deskriptiven Kennzahlen. Um den im geschlossenen Intervall [ 1, +1] befindlichen Koeffizienten korrekt interpretieren zu können ist bivariate Normalverteilung erforderlich. Ist diese nicht gegeben, so erlaubt der Korrelationskoeffizient weder hinsichtlich Vorzeichen noch Betrag eine schlüssige Aussage bezüglich des vorliegenden Datensatzes. Praktisch jedes einführende Lehrbuch der Statistik liefert Beispiele für Datenkonstellationen, welche zu irreführend hoher oder niedriger Korrelation führen können (z. B. Bortz, 2005 S. 214f, Lehmann, 2002, S. 92f; Rasch & Kubinger, 2005, S. 250ff.). Diese Voraussetzung wäre optisch-intuitiv mittels Scatterplot leicht überprüfbar, dennoch finden sich in publizierten Artikeln selten Hinweise auf eine explizite Überprüfung. Damit soll keineswegs notwendigerweise unterstellt werden, dass diese Überprüfung nicht durchgeführt würde der Mangel liegt vielmehr an der Schwierigkeit, eine solche kompakt darzustellen. Dies umsomehr, wenn eine Serie von Korrelationen untersucht wird, wie beispielsweise im Rahmen von Faktorenanalysen oder Strukturgleichungsmodellen. Abhilfe könnte hier ein Gütekriterium schaffen, welches die Adäquatheit der Pearson-Korrelation zur Beschreibung des Zusammenhanges angibt ein solches soll hier vorgeschlagen werden. 2 Methode Ausgehend vom Fall einer sog. Scheinkorrelation d. h. einem betragsmäßig hohen Korrelationskoeffizienten, welcher durch wenige bivariate Ausreißer bei mehrheitlich Rainer Alexandrowicz Abteilung für Angewandte Psychologie und Methodenforschung, Institut für Psychologie, Alpen-Adria-Universität Klagenfurt

2 Ein Index für die Adäquatheit der Pearson-Korrelation 493 unkorrelierten Beobachtungen zustandekommt soll ermittelt werden, wieviele der vorliegenden n Beobachtungen für die hohe Korrelation maßgeblich verantwortlich waren. Zur Ermittlung eines summativen (und damit kompakt darstellbaren) Index der Adäquatheit der Pearson-Korrelation wird folgender iterative Algorithmus vorgeschlagen: (i) berechne den Korrelationskoeffizienten r 0 für die vorliegende Stichprobe vom Umfang n 0 ; (ii) nimm ein Messwertpaar (x i, y i ) heraus und berechne den Korrelationskoeffizienten r (i) über die verbleibenden n 1 Beobachtungen und lege das eliminierte Messwertpaar anschließend wieder zurück; (iii) führe diesen Vorgang für alle n Messwertpaare durch und ermittle den betragsmäßig kleinsten Wert r 1 = min(r (i) ). Berechne für diesen das Bestimmtheitsmaß B 1 = r1 2. (iv) Jenes Messwertpaar, dessen Weglassung zu diesem Minimum geführt hat lösche dauerhaft und setze n 1 = n 1; (v) wende (i) (iv) solange auf den jeweils reduzierten Datensatz an, bis nur mehr drei Beobachtungen übrig sind. Man erhält auf diese Weise einen Vektor von n 3 Werten des Bestimmtheitsmaßes, welches jeweils den größtmöglichen Abfall, also das Ausscheiden des am wenigsten typischen Wertes darstellt. Liegt nun ein modellkonformer Datensatz vor, d. h. handelt es sich tatsächlich um einen linearen Zusammenhang basierend auf bivariat normalverteilten Daten, dann wird kein Schritt zu einem im Vergleich zu den anderen atypischen Abfall führen. Liegt hingegen eine Scheinkorrelation vor, dann wird nach der Elimination des letzten Ausreißerpaares das Bestimmtheitsmaß deutlich einbrechen. Als skalare Kenngröße bietet sich dann der relative Anteil jener Werte an, welche wegzulassen waren, bis das Bestimmtheitsmaß auf die Hälfte (bzw. einen anderen wählbaren Wert) des Ausgangswertes reduziert wurde. In Anlehnung an die Absicht, die Adäquatheit der Anwendung der Pearson-Korrelation auszudrücken wird, die Bezeichnung r ad50 (bei Verwendung der 50 %-Grenze) vorgeschlagen. Der Index wird an unterschiedlichen Datensätzen demonstriert, wo seine Eigenschaften unter verschiedenen Annahmen untersucht werden sollen. Es werden drei bivariat normalverteilte Datensätze mit fast perfektem (r 0 =.99), hohem (r 0 =.90), mittlerem (r 0 =.70) und geringem (r 0 =.50) Zusammenhang untersucht. Zur Simulation wurde der im Compiler der Programmiersprache Delphi angebotene LCG( , 1, 2 32 ) verwendet. Die Herstellung eines korrelativen Zusammenhanges erfolgte in Anlehnung an den von Zimmerman, Zumbo & William (2003) dargestellten Algorithmus 1. Die Auswertungen wurden mit einem vom Erstautor in Delphi-Pascal erstellten Programm durchgeführt. 3 Ergebnisse Das Verhalten des Index bei modellkonform simulierten Datensätzen lässt sich gut aus Abb. 1 ablesen. Bei extrem hoher Korrelation (Abb. 1a: r 0 =.99) können etwas mehr als drei Viertel (78.4 %) der Beobachtungen gezielt entnommen werden, bis das Be- 1 Im Gegensatz zum dort dargestellten Algorithmus war es jedoch notwendig, die Variable U ebenfalls N(0, 1) anzunehmen und den Koeffizienten c über den Ausdruck c = sqrt(r/(1 r)) zu bestimmen. Mit den Originalangaben konnten keine Korrelationen erzeugt werden.

3 494 Rainer Alexandrowicz & Oliver Vitouch Abb. 1. Scatterplots und Verlaufsdiagramme für unterschiedlich starke Zusammenhänge (n = 250): a) r 0 =.9916, b) r 0 =.9008, c) r 0 =.7047, d) r 0 = (Die strichlierten Linien in der oberen Reihe kennzeichnen die Lage der Mittelwerte; in den Verlaufsdiagrammen kennzeichnet die obere Linie die Korrelationen bei Entnahme von Beobachtungen, die untere das zugehörige Bestimmtheitsmaß). stimmtheitsmaß auf die Hälfte des Ausgangswertes abgesunken ist (sogar 84.8 % bis es auf 25 % sinkt). Bei immer noch sehr hoher Korrelation (Abb. 1b: r 0 =.90) sind nur mehr ein Drittel (33.6 %) der Beobachtung korrelationsbegründend (immerhin 44.4 % bis zum Abfall des Bestimmtheitsmaßes auf ein Viertel des Ausgangswertes). Bei in praktischen Anwendungen wohl noch immer als hoch bezeichneten Korrelationen von.70 sind nur mehr 17.2 % Entnahmen möglich, bis sich das Bestimmtheitsmaß halbiert (27.2 % bis zum Abfall auf ein Viertel). Und bei einer Ausgangskorrelation von.50 halbiert sich das Bestimmtheitsmaß bereits nach Ausschluss von nur 5.6 % der Beobachtungen (d. s. bei n = 250 gerade einmal 15 Personen), nach 11.8 % (d. s. 27 Beobachtungen) sinkt das Bestimmtheitsmaß auf ein Viertel des Ausgangswertes ab. Betrachtet man die Verlaufsdiagramme zu den vier dargestellten Beispielen (Abb. 1, untere Zeile), so fällt der konvexe (d. h. erst bei zunehmendem Ausschluss abfallende) bzw. linear-ähnliche (gleichmäßige) Verlauf auf. Dies ist, wie systematische Simulationen gezeigt haben, typisch für modellkonforme (d. h. bivariat normalverteilte) Daten. Tabelle 1 gibt für den gesamten (positiven) Wertebereich des Korrelationskoeffizienten deskriptivstatistische Kennzahlen des Index für modellkonform simulierte Datensätze wieder. Es wurden jeweils zwei Stichproben pro Korrelationskoeffizient von.00 bis.99 für Stichprobenumfänge von n = 100 bis n = 1000 in Schritten von 100 untersucht. Da der Algorithmus unabhängig vom Vorzeichen mit dem Betrag der Korrelation arbeitet, sind die Kennwerte unverändert auch für negative Werte anzuwen-

4 Ein Index für die Adäquatheit der Pearson-Korrelation 495 den. Die unterschiedlichen Häufigkeiten der Kategorien sind die Folge von geringfügigen Schwankungen bei der Simulation eines vorgegebenen Zusammenhanges. Weiters gibt es bei besonders hohen Korrelationen den Fall, dass bis zum letzten Schritt das Bestimmtheitsmaß nicht unter die Schranke von 50 % des Ausgangswertes fällt; dies war bei 47 der insgesamt 2000 simulierten Datensätzen der Fall. Der Index zeigte in einer Kovarianzanalyse keinen Unterschied beim Vergleich der Stichprobenumfänge (Varianzhomogenität über Box-M-Test: F (9, 1943) =.077, p >.999; Haupteffekt Stichprobenumfang: F (1, 1942) =.134, p =.999). Tab. 1. Deskriptivstatistische Kennzahlen des vorgeschlagenen Index r ad50 in Abhängigkeit von der Ausgangskorrelation (n = 100..(100)..1000; r 0 = Ausgangskorrelation, MW = Mittelwert, Md = Median, Std.Abw. = Standardabweichung, Min = Minimum, Max = Maximum). r 0 n MW Md Std.Abw. Min. Max < < Nun soll ein Fall inadäquater Anwendung der Produkt-Moment-Korrelation nämlich jener einer Scheinkorrelation untersucht werden. Zu diesem Zweck wurden drei Datensätze modellkonform generiert und ein bestimmter Anteil von Beobachtungen per Zufall ausgewählt und linear (x i = x i + 10, y i = y i + 10) transformiert, sodass bivariate Ausreißer entstehen. Scatterplots und Verlaufsdiagramme sind in Abb. 2 wiedergegeben. Ausgehend von jeweils einer wahren Korrelation von.20 (n = 100) wurden (a) ca. 2 %, (b) ca. 20 % und (c) ca. 40 % der Beobachtungen der genannten Transformation unterworfen, wodurch jeweils ein Zusammenhang in der Höhe von.79,.96 und.97 entstand. Deutlich ist in den Verlaufsdiagrammen (Abb. 2 unten) zu erkennen, dass diese Werte sofort eliminiert wurden: die entsprechenden Indices betrugen.02,.16 und.41 d. h. zwei, 16 und 41 der 100 Beobachtungen waren jeweils korrelationsbegründend. 4 Diskussion Der hier vorgestellte Ansatz einer Überprüfung der Adäquatheit der Anwendung der Korrelation nach Pearson beruht auf einem Jackknifing-Algorithmus, bei welchem

5 496 Rainer Alexandrowicz & Oliver Vitouch Abb. 2. Scatterplot und Verlaufsdiagramm einer Scheinkorrelation (a) r 0 =.7932, (b) r 0 =.9616, (c) r 0 =.9744 sukzessive jene Werte ausgeschieden werden, welche die Korrelation maximal vermindern. Dies wird solange fortgesetzt, bis das anfängliche Bestimmtheitsmaß auf einen zuvor definierten Wert (z. B. 50 %) gesunken ist. Der relative Anteil bis dahin ausgeschiedener und damit korrelationsbegründender Werte wird als Maß für die Adäquatheit interpretiert: je geringer dieser Anteil im Vergleich zu den in Tabelle 1 als Referenz angeführten typischen Werten ist, desto ungeeigneter ist die Pearson- Korrelation zur Beschreibung des Zusammenhangs. Dieses Verfahren reagiert damit sensibel auf Scheinkorrelationen, welche durch wenige Ausreißer zustandekommen. Der Ausreißerproblematik als solcher kann man sich auf mehrere Arten nähern: zum einen ist über genaue Dateninspektion (data screening) auszuschließen, dass es sich nicht um einen Erfassungsfehler (Messfehler, Eingabefehler o. dgl.) handelt. Ein solcher wird korrigiert oder von der weiteren Analyse ausgeschlossen was vom Regen in die Traufen führt: höchst unterschiedliche Auswertungsstrategien sind indiziert, je nachdem, ob derartige fehlende Werte als missing completely at random (MCAR), missing at random (MAR) oder not missing at random (NMAR) anzusehen sind (vgl. z. B. Allison, 2002; Little und Rubin, 1987). Es existieren (a) zahlreiche Methoden zur Entdeckung von Ausreißern (Hawkins, 1980), für multivariate Normalverteilung siehe Mardia (1970, 1980), von Eye und Bogat (2004), von Eye und Gardiner (2004) oder Wilks (1963); für andere multivariate Verteilungstypen siehe Barnett und Lewis (1994) oder die minimum volume el-

6 Ein Index für die Adäquatheit der Pearson-Korrelation 497 lipsoid method nach Rousseeuw und van Zomeren (1990) mit Modifikationen nach Hadi (1992, 1994). Als graphisches Verfahren wäre beispielsweise das bagplot (Rousseeuw, Ruts & Tukey, 1999) zu nennen. Liegt hingegen nach allen verfügbaren Überprüfungen ein gültiger (aber dennoch gemessen an den übrigen atypischer) Wert vor, so kann (b) versucht werden, (i) über robuste Methoden den Einfluss eines solchen Wertes zu mindern (z. B. M-Schätzer, etwa trimmed mean, Winsorized mean, Tukey s biweight oder Hampel-Schätzer; Kernel-Schätzer für Dichten; z. B. Huber, 1981; für multiple/multivariate Problemstellungen: Robuste Regression, Davies, 1993; Robuste PCA, Campbell, 1980). Oder es kann (ii) mittels einer Clusteranalyse (z. B. Bacher, 1994; Moosbrugger & Frank, 1992) versucht werden, ohne Modellannahmen bzw. Unterteilung in un/abhängige Variablen charakteristische Partitionen im höherdimensionalen Raum zu identifizieren. Weiters kann (iii) über ein Mischverteilungsmodell ein komplexer Zusammenhang für mehrere Populationen mit unbekannten Eigenschaften und unbekanntem Mischungsverhältnis beschrieben werden (vgl. z. B. Everitt & Hand, 1981; McLachlan & Peel, 2000; Rost, 2004). Will man nicht den Pfad der Ausreißersuche beschreiten, dann bietet sich (c) auch die Möglichkeit, das geplante Verfahren anzuwenden und ex post den Einfluss jeder einzelnen Beobachtung auf das Gesamtergebnis zu ermitteln (wie beispielsweise leverage values oder Cook s distance bei Regressionsmodellen). Will man ohne Bezug zu einem bestimmten Datensatz die Sensibilität eines Verfahrens auf Ausreißer beschreiben, so bieten sich Robustheitsmaße, wie etwa der breakdown point (Hampel, 1971; siehe auch Davies & Gather, 2005; Donoho & Huber 1983; Huber, 1981) oder die sensitivity curve (Tukey, 1977), an. Ersterer beschreibt für eine gegebene Kennzahl (etwa ein Lagemaß) den Anteil an Beobachtungen, welcher beliebig verzerrt sein kann, ohne die Kennzahl selbst zu verfälschen (z. B. arithmetisches Mittel: Null; Median:.5; x % getrimmtes Mittel: 0.x). Letztere gibt die Veränderung eines Schätzers an, wenn eine andere zugrundeliegende Verteilung der untersuchten Zufallsvariable angenommen wird. Bei Rousseeuw und Leroy (2003) findet sich auch das breakdown plot, welches dem hier verwendeten Verlaufsdiagramm ähnlich ist. Bei jenem werden jedoch (a) geschätzte Regressionskoeffizienten dargestellt und (b) entnommene Werte durch Zufallszahlen einer gegebenen Verteilung ersetzt. Damit dient diese Darstellung der Analyse der grundsätzlichen Empfindlichkeit eines Schätzers auf contamination (Rousseeuw & Leroy, 2003, S. 69). Der vorgeschlagene Index füllt daher insofern eine Lücke, als er für eine gegebene Stichprobe und ein gegebenes Modell (lineares Modell realisiert als Korrelationskoeffizient) in einer Kennzahl quantifiziert, wie sehr die Eigenheiten der Stichprobe mit den Voraussetzungen des Modells korrespondieren. Er wäre daher als Gütekriterium zu sehen, inwiefern das Modell eben die Pearson-Korrelation zur Beschreibung dieses untersuchten Datensatzes geeignet ist. Dies scheint auch insofern von großer Bedeutung, als der Korrelationskoeffizient in praktisch allen Fachgebieten psychologischer Forschung häufig angewandt wird. Als Vorteil dieses Index ist vor allem die Möglichkeit zu sehen, ihn leicht und kompakt in eine wissenschaftliche Arbeit einbinden zu können im Gegensatz etwa zu einem Scatterplot. Weiters ist er im Gegensatz zu Signifikanztests für Korrelatio-

7 498 Rainer Alexandrowicz & Oliver Vitouch nen vom Stichprobenumfang völlig unabhängig. Vielmehr stellt er eine wesentliche Ergänzung zur Angabe der Korrelation dar, nämlich wieviele der Beobachtungen tatsächlich zum Zustandekommen des Wertes maßgeblich beitragen. Damit sind vor allem Scheinkorrelationen unmittelbar als solche erkennbar. Ein für die Autoren durchaus überraschendes Phänomen war jenes, wie wenige Beobachtungen eigentlich bei erfüllten Modellvoraussetzungen tatsächlich korrelationsbegründend sind vor allem bei vielfach als mittelstark qualifizierten Koeffizienten von.60 (12 %) oder.70 (17 %). Dies steht im Einklang mit der beispielsweise bei Rasch & Kubinger (2005) (erneut) propagierten Vorgangsweise, zur Interpretation eines Korrelationskoeffizienten das Bestimmtheitsmaß r 2 heranzuziehen. Gegenwärtig in Vorbereitung ist eine entsprechende Standardisierung des Index, sodass er unabhängig von der Ausgangskorrelation zu interpretieren ist. Weiters ist auch das Verhalten des Index bei unterschiedlichen Formen von Abweichungen von der Linearität bzw. bivariaten Normalverteilung Gegenstand weiterer Untersuchungen. Die hohe Sensibilität auf wenige bivariate Ausreißer konnte bereits demonstriert werden. Weitere Simulationen zeigten, dass das Verlaufsdiagramm auch bei hohen nichtlinearen Zusammenhängen charakteristische Verläufe erkennen lässt eine Systematisierung dieser und weiterer Formen der Modellverletzungen ist in Arbeit. Von besonderem Interesse kann der vorgeschlagene Index bei der Anwendung multivariater statistischer Verfahren sein, welche auf einer Korrelationsmatrix (wie etwa die Hauptkomponentenanalyse/explorative Faktorenanalyse) bzw. auf einer Kovarianzmatrix (wie etwa lineare Strukturgleichungsmodelle) aufbauen dort bleiben Ausreißer leichter unentdeckt. Es soll dazu beigetragen werden zu verhindern, dass das Ergebnis einer solchen Analyse maßgeblich auf wenigen atypischen Messwerten beruht. Das Verfahren kann aufgrund seiner Einfachheit auch leicht programmtechnisch realisiert werden. Vom Erstautor ist ein Programm für das Betriebssystem Windows, welches SPSS-Datensätze verarbeiten kann, auf Anfrage erhältlich. Darüber hinaus ist beispielsweise eine Implementierung in R (www.r-project.org) oder auch eine Lösung als Makro der Statistikpakete SPSS, STATA oder SAS ohne größere Probleme realisierbar. Keinesfalls soll mit der hier vorgeschlagenen Methode dazu eingeladen werden, atypische Beobachtungen zum Zwecke des unreflektierten Ausschlusses von der Analyse zu identifizieren. Vielmehr soll ein Hinweis gegeben werden, dass eine andere Form der methodischen Herangehensweise eben adäquater wäre, der Korrelationskoeffizient nach Pearson ist es dann jedenfalls nicht. So bleibt zu wünschen, dass der vorgeschlagene Index standardmäßig (vergleichbar der Angabe einer Standardabweichung zu einem Mittelwert) Eingang in wissenschaftliche Literatur findet, und so auch Rezipienten in der Lage sind, die Adäquatheit einer Korrelationsangabe kritisch nachvollziehen zu können.

8 Ein Index für die Adäquatheit der Pearson-Korrelation 499 Literatur Allison, P. D. (2002). Missing data. Thousand Oaks, CA: Sage. Bacher, J. (1994). Clusteranalyse: Anwendungsorientierte Einführung. München: Oldenbourg. Bortz, J. (2005). Statistik für Human- und Sozialwissenschaftler (6. Aufl.). Berlin: Springer. Campbell, N. A. (1980). Robust procedures in multivariate analysis. 1: Robust covariance estimation. Applied statistics, 29, Caroni, C. (2000). Outlier detection by robust principal component analysis. Communications in Statistics and Simulation, 29, Croux, C. & Haesbroeck, G. (2000). Principal component analysis based on robust estimators of the covariance or correlation matrix: Influence functions and efficiencies. Biometrika, 87, Davies, P. L. (1993). Aspects of robust linear regresseion. The Annals of Statistics, 21, Davies P. L. & Gather U. (2005). Discussion paper: Breakdown and groups. The Annals of Statistics, 33, Donoho, D. L. & Huber, P. J. (1983). The notion of breakdown point. In P. J. Bickel, K. Doksum & J. L. Hodges Jr. (Eds.), A Festschrift for Erich L. Lehmann (S ). Belmont, CA: Wadsworth. Hadi, A. (1992). Identifying multiple outliers in multivariate data. Journal of the Royal Statistical Society B, 54, Everitt, B. S. & Hand, D. J. (1981). Finite mixture distributions. London: Chapman & Hall. Fahrmeir, L., Hamerle, A. & Tutz, G. (Hrsg.) (1996). Multivariate statistische Verfahren (2. Aufl.). Berlin: de Gruyter. Hadi, A. (1994). A modification of a method for the detection of outliers in multivariate samples. Journal of the Royal Statistical Society B, 56, Hawkins, D. M. (1980). Identification of outliers. London: Chapman & Hall. Hampel, F. R. (1971). A general qualitative definition of robustness. Annnals of Mathematical Statistics, 42, Huber, P. J. (1981). Robust statistics. New York: Wiley. Lehmann, G. (2002). Statistik. Eine Einführung. Heidelberg: Spektrum. Little, R. J. A. & Rubin, D. B. (1987). Statistical analysis with missing data. New York: Wiley. Mardia, K. V. (1970). Measures of multivariate skewness and kurtosis with applications. Biometrika, 36, Mardia, K. V. (1980). Tests of univariate and multivariate normality. In S. Kotz et al. (Eds.), Handbook of statistics (vol. 1, pp ). New York: Wiley. McLachlan, G. & Peel, D. (2000). Finite mixture models. New York: Wiley. Moosbrugger, H. & Frank, D. (1992). Clusteranalytische Methoden in der Persönlichkeitsforschung. Bern: Huber. Rasch, D. & Kubinger, K. D. (2005). Statistik für das Psychologiestudium. Mit Softwareunterstützung zur Planung und Auswertung von Untersuchungen sowie zu sequentiellen Verfahren. Heidelberg: Spektrum. Rost, J. (2004). Lehrbuch Testtheorie Testkonstruktion. Bern: Huber.

9 500 Rainer Alexandrowicz & Oliver Vitouch Rousseeuw, P. J. & Leroy, A. M. (2003). Robust Regression and Outlier Detection. Hoboken, NJ: John Wiley & Sons. Rousseeuw, P. J., Ruts, I. & Tukey, J. W. (1999). The bagplot: A bivariate boxplot. The American Statistician, 53, Rousseeuw, P. J. & van Zomeren, B. C. (1990). Unmasking multivariate outliers and leverage points. Journal of the American Statistical Association, 85, Tukey, J. W. (1977). Exploratory data analysis. Reading, MA: Addison-Wesley von Eye, A. & Bogat, G. A. (2004). Testing the assumption of multivariate normality. Psychology Science, 46, von Eye, A. & Gardiner, J. C. (2004). Locating deviations from multivariate normality. Understanding Statistics, 3, Wilks, S. S. (1963). Multivariate statistical outliers. Sankhya A, 25, Zimmerman, D.W., Zumbo, B.D. & Williams, R.H. (2003). Bias in estimation and hypothesis testing of correlation. Psicológica, 24,

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen 4. Datenanalyse und Modellbildung Deskriptive Statistik 2-1 2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen Für die Auswertung einer Messreihe, die in Form

Mehr

Umgang mit und Ersetzen von fehlenden Werten bei multivariaten Analysen

Umgang mit und Ersetzen von fehlenden Werten bei multivariaten Analysen Umgang mit und Ersetzen von fehlenden Werten bei multivariaten Analysen Warum überhaupt Gedanken machen? Was fehlt, ist doch weg, oder? Allgegenwärtiges Problem in psychologischer Forschung Bringt Fehlerquellen

Mehr

Eine computergestützte Einführung mit

Eine computergestützte Einführung mit Thomas Cleff Deskriptive Statistik und Explorative Datenanalyse Eine computergestützte Einführung mit Excel, SPSS und STATA 3., überarbeitete und erweiterte Auflage ^ Springer Inhaltsverzeichnis 1 Statistik

Mehr

METHODENLEHRE I WS 2013/14 THOMAS SCHÄFER

METHODENLEHRE I WS 2013/14 THOMAS SCHÄFER METHODENLEHRE I WS 2013/14 THOMAS SCHÄFER DAS THEMA: INFERENZSTATISTIK IV INFERENZSTATISTISCHE AUSSAGEN FÜR ZUSAMMENHÄNGE UND UNTERSCHIEDE Inferenzstatistik für Zusammenhänge Inferenzstatistik für Unterschiede

Mehr

Auswertung mit dem Statistikprogramm SPSS: 30.11.05

Auswertung mit dem Statistikprogramm SPSS: 30.11.05 Auswertung mit dem Statistikprogramm SPSS: 30.11.05 Seite 1 Einführung SPSS Was ist eine Fragestellung? Beispiel Welche statistische Prozedur gehört zu welcher Hypothese? Statistische Berechnungen mit

Mehr

Evaluation der Normalverteilungsannahme

Evaluation der Normalverteilungsannahme Evaluation der Normalverteilungsannahme. Überprüfung der Normalverteilungsannahme im SPSS P. Wilhelm; HS SPSS bietet verschiedene Möglichkeiten, um Verteilungsannahmen zu überprüfen. Angefordert werden

Mehr

Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression

Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression Speziell im Zusammenhang mit der Ablehnung der Globalhypothese werden bei einer linearen Einfachregression weitere Fragestellungen

Mehr

Multivariate Statistik

Multivariate Statistik Hermann Singer Multivariate Statistik 1 Auflage 15 Oktober 2012 Seite: 12 KAPITEL 1 FALLSTUDIEN Abbildung 12: Logistische Regression: Geschätzte Wahrscheinlichkeit für schlechte und gute Kredite (rot/blau)

Mehr

Einfache statistische Auswertungen mit dem Programm SPSS

Einfache statistische Auswertungen mit dem Programm SPSS Einfache statistische Auswertungen mit dem Programm SPSS Datensatz: fiktive_daten.sav Dipl. Päd. Anne Haßelkus Dr. Dorothea Dette-Hagenmeyer 11/2011 Überblick 1 Deskriptive Statistiken; Mittelwert berechnen...

Mehr

Korrelation - Regression. Berghold, IMI

Korrelation - Regression. Berghold, IMI Korrelation - Regression Zusammenhang zwischen Variablen Bivariate Datenanalyse - Zusammenhang zwischen 2 stetigen Variablen Korrelation Einfaches lineares Regressionsmodell 1. Schritt: Erstellung eines

Mehr

Statistik, Geostatistik

Statistik, Geostatistik Geostatistik Statistik, Geostatistik Statistik Zusammenfassung von Methoden (Methodik), die sich mit der wahrscheinlichkeitsbezogenen Auswertung empirischer (d.h. beobachteter, gemessener) Daten befassen.

Mehr

Einfache Statistiken in Excel

Einfache Statistiken in Excel Einfache Statistiken in Excel Dipl.-Volkswirtin Anna Miller Bergische Universität Wuppertal Schumpeter School of Business and Economics Lehrstuhl für Internationale Wirtschaft und Regionalökonomik Raum

Mehr

Thema: Bootstrap-Methoden für die Regressionsanalyse. Bachelorarbeit. im Fachgebiet Wirtschaftsinformatik am Lehrstuhl für Quantitative Methoden

Thema: Bootstrap-Methoden für die Regressionsanalyse. Bachelorarbeit. im Fachgebiet Wirtschaftsinformatik am Lehrstuhl für Quantitative Methoden Westfälische Wilhelms-Universität Münster Thema: Bootstrap-Methoden für die Regressionsanalyse Bachelorarbeit im Fachgebiet Wirtschaftsinformatik am Lehrstuhl für Quantitative Methoden Themensteller: Prof.

Mehr

Standardisierung von Daten Darstellung von Daten in Texten, Tabellen und Abbildungen. Standardisierung von Daten

Standardisierung von Daten Darstellung von Daten in Texten, Tabellen und Abbildungen. Standardisierung von Daten DAS THEMA: TABELLEN UND ABBILDUNGEN Standardisierung von Daten Darstellung von Daten in Texten, Tabellen und Abbildungen Standardisierung von Daten z-standardisierung Standardnormalverteilung 1 DIE Z-STANDARDISIERUNG

Mehr

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten.

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten. Statistik für Kommunikationswissenschaftler Wintersemester 2009/200 Vorlesung Prof. Dr. Helmut Küchenhoff Übung Cornelia Oberhauser, Monia Mahling, Juliane Manitz Thema 4 Homepage zur Veranstaltung: http://www.statistik.lmu.de/~helmut/kw09.html

Mehr

Übungsserie Nr. 10 mit Lösungen

Übungsserie Nr. 10 mit Lösungen Übungsserie Nr. 10 mit Lösungen 1 Ein Untersuchungsdesign sieht einen multivariaten Vergleich einer Stichprobe von Frauen mit einer Stichprobe von Männern hinsichtlich der Merkmale X1, X2 und X3 vor (Codierung:

Mehr

Univariate/ multivariate Ansätze. Klaus D. Kubinger. Test- und Beratungsstelle. Effektgrößen

Univariate/ multivariate Ansätze. Klaus D. Kubinger. Test- und Beratungsstelle. Effektgrößen Univariate/ multivariate Ansätze Klaus D. Kubinger Effektgrößen Rasch, D. & Kubinger, K.D. (2006). Statistik für das Psychologiestudium Mit Softwareunter-stützung zur Planung und Auswertung von Untersuchungen

Mehr

Einführung in die Geostatistik (7) Fred Hattermann (Vorlesung), hattermann@pik-potsdam.de Michael Roers (Übung), roers@pik-potsdam.

Einführung in die Geostatistik (7) Fred Hattermann (Vorlesung), hattermann@pik-potsdam.de Michael Roers (Übung), roers@pik-potsdam. Einführung in die Geostatistik (7) Fred Hattermann (Vorlesung), hattermann@pik-potsdam.de Michael Roers (Übung), roers@pik-potsdam.de 1 Gliederung 7 Weitere Krigingverfahren 7.1 Simple-Kriging 7.2 Indikator-Kriging

Mehr

Herzlich Willkommen zur Vorlesung Statistik

Herzlich Willkommen zur Vorlesung Statistik Herzlich Willkommen zur Vorlesung Statistik Thema dieser Vorlesung: Kovarianz und Korrelation Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften

Mehr

Eine Einführung in R: Statistische Tests

Eine Einführung in R: Statistische Tests Eine Einführung in R: Statistische Tests Bernd Klaus, Verena Zuber Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.uni-leipzig.de/ zuber/teaching/ws12/r-kurs/

Mehr

Behandlung fehlender Werte

Behandlung fehlender Werte Halle/Saale, 8.6.2 Behandlung fehlender Werte Dipl.-Psych. Wilmar Igl - Methodenberatung - Rehabilitationswissenschaftlicher Forschungsverbund Bayern Einleitung () Fehlende Werte als allgegenwärtiges Problem

Mehr

Tabelle 6a: Deskriptive Statistiken der metrischen Variablen

Tabelle 6a: Deskriptive Statistiken der metrischen Variablen Ergebnisse 77 5 Ergebnisse Das folgende Kapitel widmet sich der statistischen Auswertung der Daten zur Ü- berprüfung der Hypothesen. Die hier verwendeten Daten wurden mit den in 4.3 beschriebenen Instrumenten

Mehr

Teil II: Einführung in die Statistik

Teil II: Einführung in die Statistik Teil II: Einführung in die Statistik (50 Punkte) Bitte beantworten Sie ALLE Fragen. Es handelt sich um multiple choice Fragen. Sie müssen die exakte Antwortmöglichkeit angeben, um die volle Punktzahl zu

Mehr

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft Prof. Dr. Helmut Küchenhoff SS08 90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft am 22.7.2008 Anmerkungen Überprüfen Sie bitte sofort, ob Ihre Angabe vollständig ist. Sie sollte

Mehr

Statistik und Datenanalyse. eine praktische Einführung

Statistik und Datenanalyse. eine praktische Einführung Statistik und Datenanalyse eine praktische Einführung Antony Unwin Lehrstuhl für Rechnerorientierte Statistik und Datenanalyse Institut für Mathematik Universität Augsburg unwin@math.uni-augsburg.de Augsburger

Mehr

Christian FG Schendera. Regressionsanalyse. mit SPSS. 2. korrigierte und aktualisierte Auflage DE GRUYTER OLDENBOURG

Christian FG Schendera. Regressionsanalyse. mit SPSS. 2. korrigierte und aktualisierte Auflage DE GRUYTER OLDENBOURG Christian FG Schendera Regressionsanalyse mit SPSS 2. korrigierte und aktualisierte Auflage DE GRUYTER OLDENBOURG Inhalt Vorworte V 1 Korrelation 1 1.1 Einführung 1 1.2 Erste Voraussetzung: Das Skalenniveau

Mehr

Univariate Lineare Regression. (eine unabhängige Variable)

Univariate Lineare Regression. (eine unabhängige Variable) Univariate Lineare Regression (eine unabhängige Variable) Lineare Regression y=a+bx Präzise lineare Beziehung a.. Intercept b..anstieg y..abhängige Variable x..unabhängige Variable Lineare Regression y=a+bx+e

Mehr

5. Schließende Statistik. 5.1. Einführung

5. Schließende Statistik. 5.1. Einführung 5. Schließende Statistik 5.1. Einführung Sollen auf der Basis von empirischen Untersuchungen (Daten) Erkenntnisse gewonnen und Entscheidungen gefällt werden, sind die Methoden der Statistik einzusetzen.

Mehr

9. Schätzen und Testen bei unbekannter Varianz

9. Schätzen und Testen bei unbekannter Varianz 9. Schätzen und Testen bei unbekannter Varianz Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Schätzen und Testen bei unbekannter Varianz Wenn wir die Standardabweichung σ nicht kennen,

Mehr

Statistische Auswertung der Daten von Blatt 13

Statistische Auswertung der Daten von Blatt 13 Statistische Auswertung der Daten von Blatt 13 Problemstellung 1 Graphische Darstellung der Daten 1 Diskussion der Normalverteilung 3 Mittelwerte und deren Konfidenzbereiche 3 Signifikanz der Behandlung

Mehr

Einige Grundbegriffe der Statistik

Einige Grundbegriffe der Statistik Einige Grundbegriffe der Statistik Philipp Mitteröcker Basic terms Statistik (statistics) stammt vom lateinischen statisticum ( den Staat betreffend ) und dem italienischen statista ( Staatsmann" oder

Mehr

Korrelation (II) Korrelation und Kausalität

Korrelation (II) Korrelation und Kausalität Korrelation (II) Korrelation und Kausalität Situation: Seien X, Y zwei metrisch skalierte Merkmale mit Ausprägungen (x 1, x 2,..., x n ) bzw. (y 1, y 2,..., y n ). D.h. für jede i = 1, 2,..., n bezeichnen

Mehr

Statistische Tests (Signifikanztests)

Statistische Tests (Signifikanztests) Statistische Tests (Signifikanztests) [testing statistical hypothesis] Prüfen und Bewerten von Hypothesen (Annahmen, Vermutungen) über die Verteilungen von Merkmalen in einer Grundgesamtheit (Population)

Mehr

Institut für Soziologie. Methoden 2. Regressionsanalyse I: Einfache lineare Regression

Institut für Soziologie. Methoden 2. Regressionsanalyse I: Einfache lineare Regression Institut für Soziologie Methoden 2 Regressionsanalyse I: Einfache lineare Regression Programm Anwendungsbereich Vorgehensweise Interpretation Annahmen Zusammenfassung Übungsaufgabe Literatur # 2 Anwendungsbereich

Mehr

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 1 Einführung in die statistische Datenanalyse Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 2 Gliederung 1.Grundlagen 2.Nicht-parametrische Tests a. Mann-Whitney-Wilcoxon-U Test b. Wilcoxon-Signed-Rank

Mehr

Lösung zu Kapitel 11: Beispiel 1

Lösung zu Kapitel 11: Beispiel 1 Lösung zu Kapitel 11: Beispiel 1 Eine Untersuchung bei 253 Personen zur Kundenzufriedenheit mit einer Einzelhandelskette im Südosten der USA enthält Variablen mit sozialstatistischen Daten der befragten

Mehr

Auswerten mit Excel. Viele Video-Tutorials auf Youtube z.b. http://www.youtube.com/watch?v=vuuky6xxjro

Auswerten mit Excel. Viele Video-Tutorials auf Youtube z.b. http://www.youtube.com/watch?v=vuuky6xxjro Auswerten mit Excel Viele Video-Tutorials auf Youtube z.b. http://www.youtube.com/watch?v=vuuky6xxjro 1. Pivot-Tabellen erstellen: In der Datenmaske in eine beliebige Zelle klicken Registerkarte Einfügen

Mehr

Einführung in Statistik und Messwertanalyse für Physiker

Einführung in Statistik und Messwertanalyse für Physiker Gerhard Böhm, Günter Zech Einführung in Statistik und Messwertanalyse für Physiker SUB Göttingen 7 219 110 697 2006 A 12486 Verlag Deutsches Elektronen-Synchrotron Inhalt sverzeichnis 1 Einführung 1 1.1

Mehr

Prof. Dr. Gabriele Helga Franke TESTTHEORIE UND TESTKONSTRUKTION

Prof. Dr. Gabriele Helga Franke TESTTHEORIE UND TESTKONSTRUKTION Prof. Dr. Gabriele Helga Franke TESTTHEORIE UND TESTKONSTRUKTION 2. FS Master Rehabilitationspsychologie, SoSe 2012 Faktorenanalyse/ faktorielle Validität 2 Einleitung Allgemeines zu Faktorenanalysen (FA)

Mehr

Einseitig gerichtete Relation: Mit zunehmender Höhe über dem Meeresspiegel sinkt im allgemeinen die Lufttemperatur.

Einseitig gerichtete Relation: Mit zunehmender Höhe über dem Meeresspiegel sinkt im allgemeinen die Lufttemperatur. Statistik Grundlagen Charakterisierung von Verteilungen Einführung Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsverteilungen Schätzen und Testen Korrelation Regression Einführung Die Analyse und modellhafte

Mehr

Biostatistische Studienplanung II. Dr. Matthias Kohl SIRS-Lab GmbH

Biostatistische Studienplanung II. Dr. Matthias Kohl SIRS-Lab GmbH Biostatistische Studienplanung II Dr. Matthias Kohl SIRS-Lab GmbH Inhalt Lineare Modelle: Definition und Beispiele KQ- und robuste Schätzer Diagnostik Ausblick: Mixed-Effects Definition des linearen Modells

Mehr

Klausur zur Vorlesung Multivariate Verfahren, SS 2006 6 Kreditpunkte, 90 min

Klausur zur Vorlesung Multivariate Verfahren, SS 2006 6 Kreditpunkte, 90 min Klausur, Multivariate Verfahren, SS 2006, 6 Kreditpunkte, 90 min 1 Prof. Dr. Fred Böker 08.08.2006 Klausur zur Vorlesung Multivariate Verfahren, SS 2006 6 Kreditpunkte, 90 min Gesamtpunkte: 39 Aufgabe

Mehr

Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel

Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel 16.11.01 MP1 - Grundlagen quantitativer Sozialforschung - (4) Datenanalyse 1 Gliederung Datenanalyse (inferenzstatistisch)

Mehr

Solvency II und die Standardformel

Solvency II und die Standardformel Fakultät Mathematik und Naturwissenschaften Institut für Mathematische Stochastik Solvency II und die Standardformel Festkolloquium 20 Jahre (neue) Versicherungsmathematik an der TU Dresden Sebastian Fuchs

Mehr

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18 3. Deskriptive Statistik Ziel der deskriptiven (beschreibenden) Statistik (explorativen Datenanalyse) ist die übersichtliche Darstellung der wesentlichen in den erhobenen Daten enthaltene Informationen

Mehr

Inhaltsverzeichnis. I Einführung in STATISTICA 1. 1 Erste Schritte in STATISTICA 3

Inhaltsverzeichnis. I Einführung in STATISTICA 1. 1 Erste Schritte in STATISTICA 3 I Einführung in STATISTICA 1 1 Erste Schritte in STATISTICA 3 2 Datenhaltung in STATISTICA 11 2.1 Die unterschiedlichen Dateitypen in STATISTICA....... 11 2.2 Import von Daten......... 12 2.3 Export von

Mehr

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren)

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Multiple Regression 1 Was ist multiple lineare Regression? Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Annahme: Der Zusammenhang

Mehr

Schätzung des Lifetime Values von Spendern mit Hilfe der Überlebensanalyse

Schätzung des Lifetime Values von Spendern mit Hilfe der Überlebensanalyse Schätzung Lifetime Values von Spenn mit Hilfe Überlebensanalyse Einführung in das Verfahren am Beispiel Einzugsgenehmigung Überlebensanalysen o Ereignisdatenanalysen behandeln das Problem, mit welcher

Mehr

Willkommen zur Vorlesung Statistik

Willkommen zur Vorlesung Statistik Willkommen zur Vorlesung Statistik Thema dieser Vorlesung: Maßzahlen für zentrale Tendenz, Streuung und andere Eigenschaften von Verteilungen Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische

Mehr

Nichtparametrische Analyse longitudinaler Daten in faktoriellen Experimenten. Frank Konietschke

Nichtparametrische Analyse longitudinaler Daten in faktoriellen Experimenten. Frank Konietschke Nichtparametrische Analyse longitudinaler Daten in faktoriellen Experimenten Frank Konietschke Abteilung für Medizinische Statistik Universität Göttingen 1 Übersicht Beispiele CGI (repeated measures) γ-gt

Mehr

TÜV Service tested Prüfgrundlagen

TÜV Service tested Prüfgrundlagen TÜV Service tested Prüfgrundlagen 60 Grundsätzliche Prüfgrundlagen Für die Auszeichnung TÜV Service tested müssen drei Voraussetzungen erfüllt sein: 1. Die Gesamtzufriedenheit muss von den Kunden des Unternehmens

Mehr

Business Value Launch 2006

Business Value Launch 2006 Quantitative Methoden Inferenzstatistik alea iacta est 11.04.2008 Prof. Dr. Walter Hussy und David Tobinski UDE.EDUcation College im Rahmen des dokforums Universität Duisburg-Essen Inferenzstatistik Erläuterung

Mehr

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50,7 50 51,5 51,7 48,8

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50,7 50 51,5 51,7 48,8 1. Aufgabe: Eine Reifenfirma hat für Winterreifen unterschiedliche Profile entwickelt. Bei jeweils gleicher Geschwindigkeit und auch sonst gleichen Bedingungen wurden die Bremswirkungen gemessen. Die gemessenen

Mehr

Einfache statistische Auswertungen mit dem TI-Nspire

Einfache statistische Auswertungen mit dem TI-Nspire 1. Neues Dokument und darin eine neue Seite anlegen Als Typ 6: Lists & Spreadsheet wählen. Darin die Messwerte in einer Spalte erfassen. Dies ergibt die Urliste. Wenn mehrere Messwerte vorliegen, die diejenigen,

Mehr

Ein möglicher Unterrichtsgang

Ein möglicher Unterrichtsgang Ein möglicher Unterrichtsgang. Wiederholung: Bernoulli Experiment und Binomialverteilung Da der sichere Umgang mit der Binomialverteilung, auch der Umgang mit dem GTR und den Diagrammen, eine notwendige

Mehr

Fehlende Werte in der (Regressions-) Analyse von Datensätzen: zwei SAS-Makros

Fehlende Werte in der (Regressions-) Analyse von Datensätzen: zwei SAS-Makros Medizinische Statistik Fehlende Werte in der (Regressions-) Analyse von Datensätzen: zwei SAS-Makros Kathrin Hohl*, Christina Ring*, Rainer Muche*, Christoph Ziegler *Abt. Biometrie und Med. Dok., Universität

Mehr

Statistische Verfahren für das Data Mining in einem Industrieprojekt

Statistische Verfahren für das Data Mining in einem Industrieprojekt Statistische Verfahren für das Data Mining in einem Industrieprojekt Thorsten Dickhaus Forschungszentrum Jülich GmbH Zentralinstitut für Angewandte Mathematik Telefon: 02461/61-4193 E-Mail: th.dickhaus@fz-juelich.de

Mehr

Auswertung und Darstellung wissenschaftlicher Daten (1)

Auswertung und Darstellung wissenschaftlicher Daten (1) Auswertung und Darstellung wissenschaftlicher Daten () Mag. Dr. Andrea Payrhuber Zwei Schritte der Auswertung. Deskriptive Darstellung aller Daten 2. analytische Darstellung (Gruppenvergleiche) SPSS-Andrea

Mehr

Grundlagen der Inferenzstatistik

Grundlagen der Inferenzstatistik Grundlagen der Inferenzstatistik (Induktive Statistik oder schließende Statistik) Dr. Winfried Zinn 1 Deskriptive Statistik versus Inferenzstatistik Die Deskriptive Statistik stellt Kenngrößen zur Verfügung,

Mehr

Monte-Carlo-Simulationen mit Copulas. Kevin Schellkes und Christian Hendricks 29.08.2011

Monte-Carlo-Simulationen mit Copulas. Kevin Schellkes und Christian Hendricks 29.08.2011 Kevin Schellkes und Christian Hendricks 29.08.2011 Inhalt Der herkömmliche Ansatz zur Simulation logarithmischer Renditen Ansatz zur Simulation mit Copulas Test und Vergleich der beiden Verfahren Fazit

Mehr

Name (in Druckbuchstaben): Matrikelnummer: Unterschrift:

Name (in Druckbuchstaben): Matrikelnummer: Unterschrift: 20-minütige Klausur zur Vorlesung Lineare Modelle im Sommersemester 20 PD Dr. Christian Heumann Ludwig-Maximilians-Universität München, Institut für Statistik 2. Oktober 20, 4:5 6:5 Uhr Überprüfen Sie

Mehr

Einige Statistische Tests für den Ein- Zwei- und k-stichprobenfall (Nach Sachs, Stat. Meth.)

Einige Statistische Tests für den Ein- Zwei- und k-stichprobenfall (Nach Sachs, Stat. Meth.) ue biostatistik: nichtparametrische testverfahren / ergänzung 1/6 h. Lettner / physik Statistische Testverfahren Einige Statistische Tests für den Ein- Zwei- und k-stichprobenfall (Nach Sachs, Stat. Meth.)

Mehr

Modul G.1 WS 07/08: Statistik 17.01.2008 1. Die Korrelation ist ein standardisiertes Maß für den linearen Zusammenhangzwischen zwei Variablen.

Modul G.1 WS 07/08: Statistik 17.01.2008 1. Die Korrelation ist ein standardisiertes Maß für den linearen Zusammenhangzwischen zwei Variablen. Modul G.1 WS 07/08: Statistik 17.01.2008 1 Wiederholung Kovarianz und Korrelation Kovarianz = Maß für den linearen Zusammenhang zwischen zwei Variablen x und y Korrelation Die Korrelation ist ein standardisiertes

Mehr

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik Ludwig Fahrmeir, Nora Fenske Institut für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik 29. März 21 Hinweise:

Mehr

Prüfen von Mittelwertsunterschieden: t-test

Prüfen von Mittelwertsunterschieden: t-test Prüfen von Mittelwertsunterschieden: t-test Sven Garbade Fakultät für Angewandte Psychologie SRH Hochschule Heidelberg sven.garbade@hochschule-heidelberg.de Statistik 1 S. Garbade (SRH Heidelberg) t-test

Mehr

E ektgrößen Metaanalysen. Zusammenhänge und Unterschiede quantifizieren E ektgrößen

E ektgrößen Metaanalysen. Zusammenhänge und Unterschiede quantifizieren E ektgrößen DAS THEMA: EFFEKTGRÖßEN UND METAANALYSE E ektgrößen Metaanalysen Zusammenhänge und Unterschiede quantifizieren E ektgrößen Was ist ein E ekt? Was sind E ektgrößen? Berechnung von E ektgrößen Interpretation

Mehr

Zusammenhänge zwischen metrischen Merkmalen

Zusammenhänge zwischen metrischen Merkmalen Zusammenhänge zwischen metrischen Merkmalen Darstellung des Zusammenhangs, Korrelation und Regression Daten liegen zu zwei metrischen Merkmalen vor: Datenpaare (x i, y i ), i = 1,..., n Beispiel: x: Anzahl

Mehr

Quantitative Methoden der Bildungsforschung

Quantitative Methoden der Bildungsforschung Glieung Wieholung Korrelationen Grundlagen lineare Regression Lineare Regression in SPSS Übung Wieholung Korrelationen Standardisiertes Zusammenhangsmaß (unstandardisiert: Kovarianz) linearer Zusammenhang

Mehr

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1 LÖSUNG 3A Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1 Mit den Berechnungsfunktionen LG10(?) und SQRT(?) in "Transformieren", "Berechnen" können logarithmierte Werte sowie die Quadratwurzel

Mehr

Varianzanalyse ANOVA

Varianzanalyse ANOVA Varianzanalyse ANOVA Johannes Hain Lehrstuhl für Mathematik VIII Statistik 1/23 Einfaktorielle Varianzanalyse (ANOVA) Bisher war man lediglich in der Lage, mit dem t-test einen Mittelwertsvergleich für

Mehr

Inhaltsverzeichnis. Fragestellungen und Methoden 11. Vorwort 15. Kapitel 1 Einführung 17. Kapitel 2 Statistische Grundbegriffe 23

Inhaltsverzeichnis. Fragestellungen und Methoden 11. Vorwort 15. Kapitel 1 Einführung 17. Kapitel 2 Statistische Grundbegriffe 23 Fragestellungen und Methoden 11 Vorwort 15 Kapitel 1 Einführung 17 1.1 KonzeptiondesBuchs... 18 1.2 AufbaudesBuchs... 19 1.3 Programmversionen von PASW bzw. SPSS..... 20 1.4 WiekanndiesesBuchverwendetwerden?...

Mehr

3.2 Bivariate Verteilungen

3.2 Bivariate Verteilungen 3.2 Bivariate Verteilungen zwei Variablen X, Y werden gemeinsam betrachtet (an jedem Objekt i, i = 1,..., n, werden gleichzeitig zwei Merkmale beobachtet) Beobachtungswerte sind Paare/Kombinationen von

Mehr

Einführung in statistische Analysen

Einführung in statistische Analysen Einführung in statistische Analysen Andreas Thams Econ Boot Camp 2008 Wozu braucht man Statistik? Statistik begegnet uns jeden Tag... Weihnachten macht Deutschen Einkaufslaune. Im Advent überkommt die

Mehr

Willkommen zur Vorlesung Statistik (Master)

Willkommen zur Vorlesung Statistik (Master) Willkommen zur Vorlesung Statistik (Master) Thema dieser Vorlesung: Verteilungsfreie Verfahren Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften

Mehr

Linearer Zusammenhang von Datenreihen

Linearer Zusammenhang von Datenreihen Linearer Zusammenhang von Datenreihen Vielen Problemen liegen (möglicherweise) lineare Zusammenhänge zugrunde: Mein Internetanbieter verlangt eine Grundgebühr und rechnet minutenweise ab Ich bestelle ein

Mehr

Lineare Modelle in R: Einweg-Varianzanalyse

Lineare Modelle in R: Einweg-Varianzanalyse Lineare Modelle in R: Einweg-Varianzanalyse Achim Zeileis 2009-02-20 1 Datenaufbereitung Wie schon in der Vorlesung wollen wir hier zur Illustration der Einweg-Analyse die logarithmierten Ausgaben der

Mehr

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. Excel Edition. ^ Springer Spektrum

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. Excel Edition. ^ Springer Spektrum Franz Kronthaler Statistik angewandt Datenanalyse ist (k)eine Kunst Excel Edition ^ Springer Spektrum Inhaltsverzeichnis Teil I Basiswissen und Werkzeuge, um Statistik anzuwenden 1 Statistik ist Spaß 3

Mehr

Statistische Auswertung:

Statistische Auswertung: Statistische Auswertung: Die erhobenen Daten mittels der selbst erstellten Tests (Surfaufgaben) Statistics Punkte aus dem Punkte aus Surftheorietest Punkte aus dem dem und dem Surftheorietest max.14p.

Mehr

Mensch Technisch. Fallstudien

Mensch Technisch. Fallstudien Zusammenfassung Überblick Mensch Technisch h h titativ iv Quan Qualitat Kontrollierte Experimente mit Probanden Fragebög en Interview Fallstudien Zeitreihen analysen Perform ance Beweise Think Aloud Protokolle

Mehr

- Eine typische Ausfallrate, wie sie bei vielen technischen Anwendungen zu sehen ist hat die Form einer Badewanne, deshalb nennt man diese Kurve auch

- Eine typische Ausfallrate, wie sie bei vielen technischen Anwendungen zu sehen ist hat die Form einer Badewanne, deshalb nennt man diese Kurve auch 1 2 - Eine typische Ausfallrate, wie sie bei vielen technischen Anwendungen zu sehen ist hat die Form einer Badewanne, deshalb nennt man diese Kurve auch Badewannenkurve. -mit der Badewannenkurve lässt

Mehr

Untersuchungen zum Thema Tracking Error

Untersuchungen zum Thema Tracking Error Untersuchungen zum Thema Tracking Error J. Fulmek 24. August 2003 1 Einleitung Im Folgenden werden folgende Punkte untersucht: 1. verschiedene in der Literatur übliche Definitionen des Tracking Errors

Mehr

Weitere (wählbare) Kontraste in der SPSS Prozedur Allgemeines Lineares Modell

Weitere (wählbare) Kontraste in der SPSS Prozedur Allgemeines Lineares Modell Einfaktorielle Versuchspläne 27/40 Weitere (wählbare) Kontraste in der SPSS Prozedur Allgemeines Lineares Modell Abweichung Einfach Differenz Helmert Wiederholt Vergleich Jede Gruppe mit Gesamtmittelwert

Mehr

Statistik. Average requirement. deficiency. Sufficient supply for 97.5% of the population. 2 sd 2 sd

Statistik. Average requirement. deficiency. Sufficient supply for 97.5% of the population. 2 sd 2 sd Themenübersicht: Grundlegende statistische Verfahren: Mittelwert, Median,Standardabweichung, Standardfehler Regression mit Beispielen (Eichkurven, Korrelationskoeffizienten) t-tests, Normalverteilung,

Mehr

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1 LÖSUNG 9B a) Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1 Man kann erwarten, dass der Absatz mit steigendem Preis abnimmt, mit höherer Anzahl der Außendienstmitarbeiter sowie mit erhöhten

Mehr

Studiendesign/ Evaluierungsdesign

Studiendesign/ Evaluierungsdesign Jennifer Ziegert Studiendesign/ Evaluierungsdesign Praxisprojekt: Nutzerorientierte Evaluierung von Visualisierungen in Daffodil mittels Eyetracker Warum Studien /Evaluierungsdesign Das Design einer Untersuchung

Mehr

Das Dialogfeld für die Regressionsanalyse ("Lineare Regression") findet sich im Statistik- Menu unter "Regression"-"Linear":

Das Dialogfeld für die Regressionsanalyse (Lineare Regression) findet sich im Statistik- Menu unter Regression-Linear: Lineare Regression Das Dialogfeld für die Regressionsanalyse ("Lineare Regression") findet sich im Statistik- Menu unter "Regression"-"Linear": Im einfachsten Fall werden mehrere Prädiktoren (oder nur

Mehr

Mittelwert und Standardabweichung

Mittelwert und Standardabweichung Professur E-Learning und Neue Medien Institut für Medienforschung Philosophische Fakultät Einführung in die Statistik Mittelwert und Standardabweichung Überblick Mittelwert Standardabweichung Weitere Maße

Mehr

Kapitel 6: Zweifaktorielle Varianzanalyse

Kapitel 6: Zweifaktorielle Varianzanalyse Kapitel 6: Zweifaktorielle Varianzanalyse Durchführung einer zweifaktoriellen Varianzanalyse ohne Messwiederholung 1 Effektstärke und empirische Teststärke einer zweifaktoriellen Varianzanalyse ohne Messwiederholung

Mehr

Titel anhand der der Präsentation. nicht fett geschrieben

Titel anhand der der Präsentation. nicht fett geschrieben Schätzung von Vollzeitäquivalenten Titel anhand der der Präsentation AHV-Lohndaten wenn nötig Jann Potteratmit und Monique Untertitel Graf Bundesamt für Statistik, Statistische Methoden METH nicht fett

Mehr

Einführung in die Korrelationsrechnung

Einführung in die Korrelationsrechnung Einführung in die Korrelationsrechnung Sven Garbade Fakultät für Angewandte Psychologie SRH Hochschule Heidelberg sven.garbade@hochschule-heidelberg.de Statistik 1 S. Garbade (SRH Heidelberg) Korrelationsrechnung

Mehr

Motivation. Jede Messung ist mit einem sogenannten Fehler behaftet, d.h. einer Messungenauigkeit

Motivation. Jede Messung ist mit einem sogenannten Fehler behaftet, d.h. einer Messungenauigkeit Fehlerrechnung Inhalt: 1. Motivation 2. Was sind Messfehler, statistische und systematische 3. Verteilung statistischer Fehler 4. Fehlerfortpflanzung 5. Graphische Auswertung und lineare Regression 6.

Mehr

2. Korrelation, lineare Regression und multiple Regression

2. Korrelation, lineare Regression und multiple Regression multiple 2.2 Lineare 2.2 Lineare 1 / 130 2.2 Lineare 2 / 130 2.1 Beispiel: Arbeitsmotivation Untersuchung zur Motivation am Arbeitsplatz in einem Chemie-Konzern 25 Personen werden durch Arbeitsplatz zufällig

Mehr

Value at Risk Einführung

Value at Risk Einführung Value at Risk Einführung Veranstaltung Risk Management & Computational Finance Dipl.-Ök. Hans-Jörg von Mettenheim mettenheim@iwi.uni-hannover.de Institut für Wirtschaftsinformatik Leibniz Universität Hannover

Mehr

Planen mit mathematischen Modellen 00844: Computergestützte Optimierung. Autor: Dr. Heinz Peter Reidmacher

Planen mit mathematischen Modellen 00844: Computergestützte Optimierung. Autor: Dr. Heinz Peter Reidmacher Planen mit mathematischen Modellen 00844: Computergestützte Optimierung Leseprobe Autor: Dr. Heinz Peter Reidmacher 11 - Portefeuilleanalyse 61 11 Portefeuilleanalyse 11.1 Das Markowitz Modell Die Portefeuilleanalyse

Mehr

Einführung in die Statistik

Einführung in die Statistik Einführung in die Statistik Analyse und Modellierung von Daten Von Prof. Dr. Rainer Schlittgen 4., überarbeitete und erweiterte Auflage Fachbereich Materialwissenschaft! der Techn. Hochschule Darmstadt

Mehr

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien Deskription, Statistische Testverfahren und Regression Seminar: Planung und Auswertung klinischer und experimenteller Studien Deskriptive Statistik Deskriptive Statistik: beschreibende Statistik, empirische

Mehr

Häufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln

Häufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln Häufigkeitstabellen Menüpunkt Data PivotTable Report (bzw. entsprechendes Icon): wähle Data Range (Zellen, die die Daten enthalten + Zelle mit Variablenname) wähle kategoriale Variable für Spalten- oder

Mehr

Inhalt 1 Einführung... 1 2 Ausgewählte Begriffe... 10 3 Vorgehensweise im Überblick... 14

Inhalt 1 Einführung... 1 2 Ausgewählte Begriffe... 10 3 Vorgehensweise im Überblick... 14 VII 1 Einführung... 1 1.1 Warum Versuche?... 1 1.2 Warum Statistik?... 1 1.3 Warum Versuchsplanung?... 4 1.4 Welche Art von Ergebnissen kann man erwarten?... 6 1.5 Versuche oder systematische Beobachtung?...

Mehr

1 Darstellen von Daten

1 Darstellen von Daten 1 Darstellen von Daten BesucherInnenzahlen der Bühnen Graz in der Spielzeit 2010/11 1 Opernhaus 156283 Hauptbühne 65055 Probebühne 7063 Ebene 3 2422 Next Liberty 26800 Säulen- bzw. Balkendiagramm erstellen

Mehr

Inhalt. Vorwort... 1 Einführung... 1. 2 Ausgewählte Begriffe... 11. 3 Vorgehensweise im Überblick... 17

Inhalt. Vorwort... 1 Einführung... 1. 2 Ausgewählte Begriffe... 11. 3 Vorgehensweise im Überblick... 17 Inhalt Vorwort.................................................................. V Inhalt.................................................................... VII 1 Einführung..........................................................

Mehr