Ein Index für die Adäquatheit der Pearson-Korrelation

Größe: px
Ab Seite anzeigen:

Download "Ein Index für die Adäquatheit der Pearson-Korrelation"

Transkript

1 Ein Index für die Adäquatheit der Pearson-Korrelation Rainer Alexandrowicz & Oliver Vitouch Es wird eine Kennzahl vorgestellt, welche über einen Jackknifing-Algorithmus die Adäquatheit der Anwendung der Produkt-Moment-Korrelation auf einen gegebenen Datensatz beschreibt. Anhand simulierter Datensätze wird die hohe Sensibilität des Index auf Scheinkorrelationen dargestellt. Weiters erlaubt eine Referenztabelle die Orientierung bei modellkonformen Daten. Idealerweise sollte dieser Index vergleichbar der Standardabweichung (bzw. dem Standardfehler) beim arithmetischen Mittel zu jeder Angabe einer Korrelation hinzugefügt werden, um so auch Rezipienten die Möglichkeit zu geben, korrelationsbasierte Erkenntnisse kritisch nachvollziehen zu können. Schlüsselwörter: Korrelation, Ausreißer, robuste Statistik, breakdown point 1 Fragestellung Der Korrelationskoeffizient nach Pearson, auch Produkt-Moment-Korrelation, beschreibt den linearen stochastischen Zusammenhang zweier intervallskalierter Variablen und zählt zu den in der Psychologie wohl am häufigsten eingesetzten deskriptiven Kennzahlen. Um den im geschlossenen Intervall [ 1, +1] befindlichen Koeffizienten korrekt interpretieren zu können ist bivariate Normalverteilung erforderlich. Ist diese nicht gegeben, so erlaubt der Korrelationskoeffizient weder hinsichtlich Vorzeichen noch Betrag eine schlüssige Aussage bezüglich des vorliegenden Datensatzes. Praktisch jedes einführende Lehrbuch der Statistik liefert Beispiele für Datenkonstellationen, welche zu irreführend hoher oder niedriger Korrelation führen können (z. B. Bortz, 2005 S. 214f, Lehmann, 2002, S. 92f; Rasch & Kubinger, 2005, S. 250ff.). Diese Voraussetzung wäre optisch-intuitiv mittels Scatterplot leicht überprüfbar, dennoch finden sich in publizierten Artikeln selten Hinweise auf eine explizite Überprüfung. Damit soll keineswegs notwendigerweise unterstellt werden, dass diese Überprüfung nicht durchgeführt würde der Mangel liegt vielmehr an der Schwierigkeit, eine solche kompakt darzustellen. Dies umsomehr, wenn eine Serie von Korrelationen untersucht wird, wie beispielsweise im Rahmen von Faktorenanalysen oder Strukturgleichungsmodellen. Abhilfe könnte hier ein Gütekriterium schaffen, welches die Adäquatheit der Pearson-Korrelation zur Beschreibung des Zusammenhanges angibt ein solches soll hier vorgeschlagen werden. 2 Methode Ausgehend vom Fall einer sog. Scheinkorrelation d. h. einem betragsmäßig hohen Korrelationskoeffizienten, welcher durch wenige bivariate Ausreißer bei mehrheitlich Rainer Alexandrowicz Abteilung für Angewandte Psychologie und Methodenforschung, Institut für Psychologie, Alpen-Adria-Universität Klagenfurt

2 Ein Index für die Adäquatheit der Pearson-Korrelation 493 unkorrelierten Beobachtungen zustandekommt soll ermittelt werden, wieviele der vorliegenden n Beobachtungen für die hohe Korrelation maßgeblich verantwortlich waren. Zur Ermittlung eines summativen (und damit kompakt darstellbaren) Index der Adäquatheit der Pearson-Korrelation wird folgender iterative Algorithmus vorgeschlagen: (i) berechne den Korrelationskoeffizienten r 0 für die vorliegende Stichprobe vom Umfang n 0 ; (ii) nimm ein Messwertpaar (x i, y i ) heraus und berechne den Korrelationskoeffizienten r (i) über die verbleibenden n 1 Beobachtungen und lege das eliminierte Messwertpaar anschließend wieder zurück; (iii) führe diesen Vorgang für alle n Messwertpaare durch und ermittle den betragsmäßig kleinsten Wert r 1 = min(r (i) ). Berechne für diesen das Bestimmtheitsmaß B 1 = r1 2. (iv) Jenes Messwertpaar, dessen Weglassung zu diesem Minimum geführt hat lösche dauerhaft und setze n 1 = n 1; (v) wende (i) (iv) solange auf den jeweils reduzierten Datensatz an, bis nur mehr drei Beobachtungen übrig sind. Man erhält auf diese Weise einen Vektor von n 3 Werten des Bestimmtheitsmaßes, welches jeweils den größtmöglichen Abfall, also das Ausscheiden des am wenigsten typischen Wertes darstellt. Liegt nun ein modellkonformer Datensatz vor, d. h. handelt es sich tatsächlich um einen linearen Zusammenhang basierend auf bivariat normalverteilten Daten, dann wird kein Schritt zu einem im Vergleich zu den anderen atypischen Abfall führen. Liegt hingegen eine Scheinkorrelation vor, dann wird nach der Elimination des letzten Ausreißerpaares das Bestimmtheitsmaß deutlich einbrechen. Als skalare Kenngröße bietet sich dann der relative Anteil jener Werte an, welche wegzulassen waren, bis das Bestimmtheitsmaß auf die Hälfte (bzw. einen anderen wählbaren Wert) des Ausgangswertes reduziert wurde. In Anlehnung an die Absicht, die Adäquatheit der Anwendung der Pearson-Korrelation auszudrücken wird, die Bezeichnung r ad50 (bei Verwendung der 50 %-Grenze) vorgeschlagen. Der Index wird an unterschiedlichen Datensätzen demonstriert, wo seine Eigenschaften unter verschiedenen Annahmen untersucht werden sollen. Es werden drei bivariat normalverteilte Datensätze mit fast perfektem (r 0 =.99), hohem (r 0 =.90), mittlerem (r 0 =.70) und geringem (r 0 =.50) Zusammenhang untersucht. Zur Simulation wurde der im Compiler der Programmiersprache Delphi angebotene LCG( , 1, 2 32 ) verwendet. Die Herstellung eines korrelativen Zusammenhanges erfolgte in Anlehnung an den von Zimmerman, Zumbo & William (2003) dargestellten Algorithmus 1. Die Auswertungen wurden mit einem vom Erstautor in Delphi-Pascal erstellten Programm durchgeführt. 3 Ergebnisse Das Verhalten des Index bei modellkonform simulierten Datensätzen lässt sich gut aus Abb. 1 ablesen. Bei extrem hoher Korrelation (Abb. 1a: r 0 =.99) können etwas mehr als drei Viertel (78.4 %) der Beobachtungen gezielt entnommen werden, bis das Be- 1 Im Gegensatz zum dort dargestellten Algorithmus war es jedoch notwendig, die Variable U ebenfalls N(0, 1) anzunehmen und den Koeffizienten c über den Ausdruck c = sqrt(r/(1 r)) zu bestimmen. Mit den Originalangaben konnten keine Korrelationen erzeugt werden.

3 494 Rainer Alexandrowicz & Oliver Vitouch Abb. 1. Scatterplots und Verlaufsdiagramme für unterschiedlich starke Zusammenhänge (n = 250): a) r 0 =.9916, b) r 0 =.9008, c) r 0 =.7047, d) r 0 = (Die strichlierten Linien in der oberen Reihe kennzeichnen die Lage der Mittelwerte; in den Verlaufsdiagrammen kennzeichnet die obere Linie die Korrelationen bei Entnahme von Beobachtungen, die untere das zugehörige Bestimmtheitsmaß). stimmtheitsmaß auf die Hälfte des Ausgangswertes abgesunken ist (sogar 84.8 % bis es auf 25 % sinkt). Bei immer noch sehr hoher Korrelation (Abb. 1b: r 0 =.90) sind nur mehr ein Drittel (33.6 %) der Beobachtung korrelationsbegründend (immerhin 44.4 % bis zum Abfall des Bestimmtheitsmaßes auf ein Viertel des Ausgangswertes). Bei in praktischen Anwendungen wohl noch immer als hoch bezeichneten Korrelationen von.70 sind nur mehr 17.2 % Entnahmen möglich, bis sich das Bestimmtheitsmaß halbiert (27.2 % bis zum Abfall auf ein Viertel). Und bei einer Ausgangskorrelation von.50 halbiert sich das Bestimmtheitsmaß bereits nach Ausschluss von nur 5.6 % der Beobachtungen (d. s. bei n = 250 gerade einmal 15 Personen), nach 11.8 % (d. s. 27 Beobachtungen) sinkt das Bestimmtheitsmaß auf ein Viertel des Ausgangswertes ab. Betrachtet man die Verlaufsdiagramme zu den vier dargestellten Beispielen (Abb. 1, untere Zeile), so fällt der konvexe (d. h. erst bei zunehmendem Ausschluss abfallende) bzw. linear-ähnliche (gleichmäßige) Verlauf auf. Dies ist, wie systematische Simulationen gezeigt haben, typisch für modellkonforme (d. h. bivariat normalverteilte) Daten. Tabelle 1 gibt für den gesamten (positiven) Wertebereich des Korrelationskoeffizienten deskriptivstatistische Kennzahlen des Index für modellkonform simulierte Datensätze wieder. Es wurden jeweils zwei Stichproben pro Korrelationskoeffizient von.00 bis.99 für Stichprobenumfänge von n = 100 bis n = 1000 in Schritten von 100 untersucht. Da der Algorithmus unabhängig vom Vorzeichen mit dem Betrag der Korrelation arbeitet, sind die Kennwerte unverändert auch für negative Werte anzuwen-

4 Ein Index für die Adäquatheit der Pearson-Korrelation 495 den. Die unterschiedlichen Häufigkeiten der Kategorien sind die Folge von geringfügigen Schwankungen bei der Simulation eines vorgegebenen Zusammenhanges. Weiters gibt es bei besonders hohen Korrelationen den Fall, dass bis zum letzten Schritt das Bestimmtheitsmaß nicht unter die Schranke von 50 % des Ausgangswertes fällt; dies war bei 47 der insgesamt 2000 simulierten Datensätzen der Fall. Der Index zeigte in einer Kovarianzanalyse keinen Unterschied beim Vergleich der Stichprobenumfänge (Varianzhomogenität über Box-M-Test: F (9, 1943) =.077, p >.999; Haupteffekt Stichprobenumfang: F (1, 1942) =.134, p =.999). Tab. 1. Deskriptivstatistische Kennzahlen des vorgeschlagenen Index r ad50 in Abhängigkeit von der Ausgangskorrelation (n = 100..(100)..1000; r 0 = Ausgangskorrelation, MW = Mittelwert, Md = Median, Std.Abw. = Standardabweichung, Min = Minimum, Max = Maximum). r 0 n MW Md Std.Abw. Min. Max < < Nun soll ein Fall inadäquater Anwendung der Produkt-Moment-Korrelation nämlich jener einer Scheinkorrelation untersucht werden. Zu diesem Zweck wurden drei Datensätze modellkonform generiert und ein bestimmter Anteil von Beobachtungen per Zufall ausgewählt und linear (x i = x i + 10, y i = y i + 10) transformiert, sodass bivariate Ausreißer entstehen. Scatterplots und Verlaufsdiagramme sind in Abb. 2 wiedergegeben. Ausgehend von jeweils einer wahren Korrelation von.20 (n = 100) wurden (a) ca. 2 %, (b) ca. 20 % und (c) ca. 40 % der Beobachtungen der genannten Transformation unterworfen, wodurch jeweils ein Zusammenhang in der Höhe von.79,.96 und.97 entstand. Deutlich ist in den Verlaufsdiagrammen (Abb. 2 unten) zu erkennen, dass diese Werte sofort eliminiert wurden: die entsprechenden Indices betrugen.02,.16 und.41 d. h. zwei, 16 und 41 der 100 Beobachtungen waren jeweils korrelationsbegründend. 4 Diskussion Der hier vorgestellte Ansatz einer Überprüfung der Adäquatheit der Anwendung der Korrelation nach Pearson beruht auf einem Jackknifing-Algorithmus, bei welchem

5 496 Rainer Alexandrowicz & Oliver Vitouch Abb. 2. Scatterplot und Verlaufsdiagramm einer Scheinkorrelation (a) r 0 =.7932, (b) r 0 =.9616, (c) r 0 =.9744 sukzessive jene Werte ausgeschieden werden, welche die Korrelation maximal vermindern. Dies wird solange fortgesetzt, bis das anfängliche Bestimmtheitsmaß auf einen zuvor definierten Wert (z. B. 50 %) gesunken ist. Der relative Anteil bis dahin ausgeschiedener und damit korrelationsbegründender Werte wird als Maß für die Adäquatheit interpretiert: je geringer dieser Anteil im Vergleich zu den in Tabelle 1 als Referenz angeführten typischen Werten ist, desto ungeeigneter ist die Pearson- Korrelation zur Beschreibung des Zusammenhangs. Dieses Verfahren reagiert damit sensibel auf Scheinkorrelationen, welche durch wenige Ausreißer zustandekommen. Der Ausreißerproblematik als solcher kann man sich auf mehrere Arten nähern: zum einen ist über genaue Dateninspektion (data screening) auszuschließen, dass es sich nicht um einen Erfassungsfehler (Messfehler, Eingabefehler o. dgl.) handelt. Ein solcher wird korrigiert oder von der weiteren Analyse ausgeschlossen was vom Regen in die Traufen führt: höchst unterschiedliche Auswertungsstrategien sind indiziert, je nachdem, ob derartige fehlende Werte als missing completely at random (MCAR), missing at random (MAR) oder not missing at random (NMAR) anzusehen sind (vgl. z. B. Allison, 2002; Little und Rubin, 1987). Es existieren (a) zahlreiche Methoden zur Entdeckung von Ausreißern (Hawkins, 1980), für multivariate Normalverteilung siehe Mardia (1970, 1980), von Eye und Bogat (2004), von Eye und Gardiner (2004) oder Wilks (1963); für andere multivariate Verteilungstypen siehe Barnett und Lewis (1994) oder die minimum volume el-

6 Ein Index für die Adäquatheit der Pearson-Korrelation 497 lipsoid method nach Rousseeuw und van Zomeren (1990) mit Modifikationen nach Hadi (1992, 1994). Als graphisches Verfahren wäre beispielsweise das bagplot (Rousseeuw, Ruts & Tukey, 1999) zu nennen. Liegt hingegen nach allen verfügbaren Überprüfungen ein gültiger (aber dennoch gemessen an den übrigen atypischer) Wert vor, so kann (b) versucht werden, (i) über robuste Methoden den Einfluss eines solchen Wertes zu mindern (z. B. M-Schätzer, etwa trimmed mean, Winsorized mean, Tukey s biweight oder Hampel-Schätzer; Kernel-Schätzer für Dichten; z. B. Huber, 1981; für multiple/multivariate Problemstellungen: Robuste Regression, Davies, 1993; Robuste PCA, Campbell, 1980). Oder es kann (ii) mittels einer Clusteranalyse (z. B. Bacher, 1994; Moosbrugger & Frank, 1992) versucht werden, ohne Modellannahmen bzw. Unterteilung in un/abhängige Variablen charakteristische Partitionen im höherdimensionalen Raum zu identifizieren. Weiters kann (iii) über ein Mischverteilungsmodell ein komplexer Zusammenhang für mehrere Populationen mit unbekannten Eigenschaften und unbekanntem Mischungsverhältnis beschrieben werden (vgl. z. B. Everitt & Hand, 1981; McLachlan & Peel, 2000; Rost, 2004). Will man nicht den Pfad der Ausreißersuche beschreiten, dann bietet sich (c) auch die Möglichkeit, das geplante Verfahren anzuwenden und ex post den Einfluss jeder einzelnen Beobachtung auf das Gesamtergebnis zu ermitteln (wie beispielsweise leverage values oder Cook s distance bei Regressionsmodellen). Will man ohne Bezug zu einem bestimmten Datensatz die Sensibilität eines Verfahrens auf Ausreißer beschreiben, so bieten sich Robustheitsmaße, wie etwa der breakdown point (Hampel, 1971; siehe auch Davies & Gather, 2005; Donoho & Huber 1983; Huber, 1981) oder die sensitivity curve (Tukey, 1977), an. Ersterer beschreibt für eine gegebene Kennzahl (etwa ein Lagemaß) den Anteil an Beobachtungen, welcher beliebig verzerrt sein kann, ohne die Kennzahl selbst zu verfälschen (z. B. arithmetisches Mittel: Null; Median:.5; x % getrimmtes Mittel: 0.x). Letztere gibt die Veränderung eines Schätzers an, wenn eine andere zugrundeliegende Verteilung der untersuchten Zufallsvariable angenommen wird. Bei Rousseeuw und Leroy (2003) findet sich auch das breakdown plot, welches dem hier verwendeten Verlaufsdiagramm ähnlich ist. Bei jenem werden jedoch (a) geschätzte Regressionskoeffizienten dargestellt und (b) entnommene Werte durch Zufallszahlen einer gegebenen Verteilung ersetzt. Damit dient diese Darstellung der Analyse der grundsätzlichen Empfindlichkeit eines Schätzers auf contamination (Rousseeuw & Leroy, 2003, S. 69). Der vorgeschlagene Index füllt daher insofern eine Lücke, als er für eine gegebene Stichprobe und ein gegebenes Modell (lineares Modell realisiert als Korrelationskoeffizient) in einer Kennzahl quantifiziert, wie sehr die Eigenheiten der Stichprobe mit den Voraussetzungen des Modells korrespondieren. Er wäre daher als Gütekriterium zu sehen, inwiefern das Modell eben die Pearson-Korrelation zur Beschreibung dieses untersuchten Datensatzes geeignet ist. Dies scheint auch insofern von großer Bedeutung, als der Korrelationskoeffizient in praktisch allen Fachgebieten psychologischer Forschung häufig angewandt wird. Als Vorteil dieses Index ist vor allem die Möglichkeit zu sehen, ihn leicht und kompakt in eine wissenschaftliche Arbeit einbinden zu können im Gegensatz etwa zu einem Scatterplot. Weiters ist er im Gegensatz zu Signifikanztests für Korrelatio-

7 498 Rainer Alexandrowicz & Oliver Vitouch nen vom Stichprobenumfang völlig unabhängig. Vielmehr stellt er eine wesentliche Ergänzung zur Angabe der Korrelation dar, nämlich wieviele der Beobachtungen tatsächlich zum Zustandekommen des Wertes maßgeblich beitragen. Damit sind vor allem Scheinkorrelationen unmittelbar als solche erkennbar. Ein für die Autoren durchaus überraschendes Phänomen war jenes, wie wenige Beobachtungen eigentlich bei erfüllten Modellvoraussetzungen tatsächlich korrelationsbegründend sind vor allem bei vielfach als mittelstark qualifizierten Koeffizienten von.60 (12 %) oder.70 (17 %). Dies steht im Einklang mit der beispielsweise bei Rasch & Kubinger (2005) (erneut) propagierten Vorgangsweise, zur Interpretation eines Korrelationskoeffizienten das Bestimmtheitsmaß r 2 heranzuziehen. Gegenwärtig in Vorbereitung ist eine entsprechende Standardisierung des Index, sodass er unabhängig von der Ausgangskorrelation zu interpretieren ist. Weiters ist auch das Verhalten des Index bei unterschiedlichen Formen von Abweichungen von der Linearität bzw. bivariaten Normalverteilung Gegenstand weiterer Untersuchungen. Die hohe Sensibilität auf wenige bivariate Ausreißer konnte bereits demonstriert werden. Weitere Simulationen zeigten, dass das Verlaufsdiagramm auch bei hohen nichtlinearen Zusammenhängen charakteristische Verläufe erkennen lässt eine Systematisierung dieser und weiterer Formen der Modellverletzungen ist in Arbeit. Von besonderem Interesse kann der vorgeschlagene Index bei der Anwendung multivariater statistischer Verfahren sein, welche auf einer Korrelationsmatrix (wie etwa die Hauptkomponentenanalyse/explorative Faktorenanalyse) bzw. auf einer Kovarianzmatrix (wie etwa lineare Strukturgleichungsmodelle) aufbauen dort bleiben Ausreißer leichter unentdeckt. Es soll dazu beigetragen werden zu verhindern, dass das Ergebnis einer solchen Analyse maßgeblich auf wenigen atypischen Messwerten beruht. Das Verfahren kann aufgrund seiner Einfachheit auch leicht programmtechnisch realisiert werden. Vom Erstautor ist ein Programm für das Betriebssystem Windows, welches SPSS-Datensätze verarbeiten kann, auf Anfrage erhältlich. Darüber hinaus ist beispielsweise eine Implementierung in R (www.r-project.org) oder auch eine Lösung als Makro der Statistikpakete SPSS, STATA oder SAS ohne größere Probleme realisierbar. Keinesfalls soll mit der hier vorgeschlagenen Methode dazu eingeladen werden, atypische Beobachtungen zum Zwecke des unreflektierten Ausschlusses von der Analyse zu identifizieren. Vielmehr soll ein Hinweis gegeben werden, dass eine andere Form der methodischen Herangehensweise eben adäquater wäre, der Korrelationskoeffizient nach Pearson ist es dann jedenfalls nicht. So bleibt zu wünschen, dass der vorgeschlagene Index standardmäßig (vergleichbar der Angabe einer Standardabweichung zu einem Mittelwert) Eingang in wissenschaftliche Literatur findet, und so auch Rezipienten in der Lage sind, die Adäquatheit einer Korrelationsangabe kritisch nachvollziehen zu können.

8 Ein Index für die Adäquatheit der Pearson-Korrelation 499 Literatur Allison, P. D. (2002). Missing data. Thousand Oaks, CA: Sage. Bacher, J. (1994). Clusteranalyse: Anwendungsorientierte Einführung. München: Oldenbourg. Bortz, J. (2005). Statistik für Human- und Sozialwissenschaftler (6. Aufl.). Berlin: Springer. Campbell, N. A. (1980). Robust procedures in multivariate analysis. 1: Robust covariance estimation. Applied statistics, 29, Caroni, C. (2000). Outlier detection by robust principal component analysis. Communications in Statistics and Simulation, 29, Croux, C. & Haesbroeck, G. (2000). Principal component analysis based on robust estimators of the covariance or correlation matrix: Influence functions and efficiencies. Biometrika, 87, Davies, P. L. (1993). Aspects of robust linear regresseion. The Annals of Statistics, 21, Davies P. L. & Gather U. (2005). Discussion paper: Breakdown and groups. The Annals of Statistics, 33, Donoho, D. L. & Huber, P. J. (1983). The notion of breakdown point. In P. J. Bickel, K. Doksum & J. L. Hodges Jr. (Eds.), A Festschrift for Erich L. Lehmann (S ). Belmont, CA: Wadsworth. Hadi, A. (1992). Identifying multiple outliers in multivariate data. Journal of the Royal Statistical Society B, 54, Everitt, B. S. & Hand, D. J. (1981). Finite mixture distributions. London: Chapman & Hall. Fahrmeir, L., Hamerle, A. & Tutz, G. (Hrsg.) (1996). Multivariate statistische Verfahren (2. Aufl.). Berlin: de Gruyter. Hadi, A. (1994). A modification of a method for the detection of outliers in multivariate samples. Journal of the Royal Statistical Society B, 56, Hawkins, D. M. (1980). Identification of outliers. London: Chapman & Hall. Hampel, F. R. (1971). A general qualitative definition of robustness. Annnals of Mathematical Statistics, 42, Huber, P. J. (1981). Robust statistics. New York: Wiley. Lehmann, G. (2002). Statistik. Eine Einführung. Heidelberg: Spektrum. Little, R. J. A. & Rubin, D. B. (1987). Statistical analysis with missing data. New York: Wiley. Mardia, K. V. (1970). Measures of multivariate skewness and kurtosis with applications. Biometrika, 36, Mardia, K. V. (1980). Tests of univariate and multivariate normality. In S. Kotz et al. (Eds.), Handbook of statistics (vol. 1, pp ). New York: Wiley. McLachlan, G. & Peel, D. (2000). Finite mixture models. New York: Wiley. Moosbrugger, H. & Frank, D. (1992). Clusteranalytische Methoden in der Persönlichkeitsforschung. Bern: Huber. Rasch, D. & Kubinger, K. D. (2005). Statistik für das Psychologiestudium. Mit Softwareunterstützung zur Planung und Auswertung von Untersuchungen sowie zu sequentiellen Verfahren. Heidelberg: Spektrum. Rost, J. (2004). Lehrbuch Testtheorie Testkonstruktion. Bern: Huber.

9 500 Rainer Alexandrowicz & Oliver Vitouch Rousseeuw, P. J. & Leroy, A. M. (2003). Robust Regression and Outlier Detection. Hoboken, NJ: John Wiley & Sons. Rousseeuw, P. J., Ruts, I. & Tukey, J. W. (1999). The bagplot: A bivariate boxplot. The American Statistician, 53, Rousseeuw, P. J. & van Zomeren, B. C. (1990). Unmasking multivariate outliers and leverage points. Journal of the American Statistical Association, 85, Tukey, J. W. (1977). Exploratory data analysis. Reading, MA: Addison-Wesley von Eye, A. & Bogat, G. A. (2004). Testing the assumption of multivariate normality. Psychology Science, 46, von Eye, A. & Gardiner, J. C. (2004). Locating deviations from multivariate normality. Understanding Statistics, 3, Wilks, S. S. (1963). Multivariate statistical outliers. Sankhya A, 25, Zimmerman, D.W., Zumbo, B.D. & Williams, R.H. (2003). Bias in estimation and hypothesis testing of correlation. Psicológica, 24,

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen 4. Datenanalyse und Modellbildung Deskriptive Statistik 2-1 2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen Für die Auswertung einer Messreihe, die in Form

Mehr

Eine computergestützte Einführung mit

Eine computergestützte Einführung mit Thomas Cleff Deskriptive Statistik und Explorative Datenanalyse Eine computergestützte Einführung mit Excel, SPSS und STATA 3., überarbeitete und erweiterte Auflage ^ Springer Inhaltsverzeichnis 1 Statistik

Mehr

Multivariate Statistik

Multivariate Statistik Hermann Singer Multivariate Statistik 1 Auflage 15 Oktober 2012 Seite: 12 KAPITEL 1 FALLSTUDIEN Abbildung 12: Logistische Regression: Geschätzte Wahrscheinlichkeit für schlechte und gute Kredite (rot/blau)

Mehr

Evaluation der Normalverteilungsannahme

Evaluation der Normalverteilungsannahme Evaluation der Normalverteilungsannahme. Überprüfung der Normalverteilungsannahme im SPSS P. Wilhelm; HS SPSS bietet verschiedene Möglichkeiten, um Verteilungsannahmen zu überprüfen. Angefordert werden

Mehr

Institut für Soziologie. Methoden 2. Regressionsanalyse I: Einfache lineare Regression

Institut für Soziologie. Methoden 2. Regressionsanalyse I: Einfache lineare Regression Institut für Soziologie Methoden 2 Regressionsanalyse I: Einfache lineare Regression Programm Anwendungsbereich Vorgehensweise Interpretation Annahmen Zusammenfassung Übungsaufgabe Literatur # 2 Anwendungsbereich

Mehr

Einfache Statistiken in Excel

Einfache Statistiken in Excel Einfache Statistiken in Excel Dipl.-Volkswirtin Anna Miller Bergische Universität Wuppertal Schumpeter School of Business and Economics Lehrstuhl für Internationale Wirtschaft und Regionalökonomik Raum

Mehr

Univariate/ multivariate Ansätze. Klaus D. Kubinger. Test- und Beratungsstelle. Effektgrößen

Univariate/ multivariate Ansätze. Klaus D. Kubinger. Test- und Beratungsstelle. Effektgrößen Univariate/ multivariate Ansätze Klaus D. Kubinger Effektgrößen Rasch, D. & Kubinger, K.D. (2006). Statistik für das Psychologiestudium Mit Softwareunter-stützung zur Planung und Auswertung von Untersuchungen

Mehr

Univariate Lineare Regression. (eine unabhängige Variable)

Univariate Lineare Regression. (eine unabhängige Variable) Univariate Lineare Regression (eine unabhängige Variable) Lineare Regression y=a+bx Präzise lineare Beziehung a.. Intercept b..anstieg y..abhängige Variable x..unabhängige Variable Lineare Regression y=a+bx+e

Mehr

Biostatistische Studienplanung II. Dr. Matthias Kohl SIRS-Lab GmbH

Biostatistische Studienplanung II. Dr. Matthias Kohl SIRS-Lab GmbH Biostatistische Studienplanung II Dr. Matthias Kohl SIRS-Lab GmbH Inhalt Lineare Modelle: Definition und Beispiele KQ- und robuste Schätzer Diagnostik Ausblick: Mixed-Effects Definition des linearen Modells

Mehr

Auswertung mit dem Statistikprogramm SPSS: 30.11.05

Auswertung mit dem Statistikprogramm SPSS: 30.11.05 Auswertung mit dem Statistikprogramm SPSS: 30.11.05 Seite 1 Einführung SPSS Was ist eine Fragestellung? Beispiel Welche statistische Prozedur gehört zu welcher Hypothese? Statistische Berechnungen mit

Mehr

Korrelation - Regression. Berghold, IMI

Korrelation - Regression. Berghold, IMI Korrelation - Regression Zusammenhang zwischen Variablen Bivariate Datenanalyse - Zusammenhang zwischen 2 stetigen Variablen Korrelation Einfaches lineares Regressionsmodell 1. Schritt: Erstellung eines

Mehr

Übungsserie Nr. 10 mit Lösungen

Übungsserie Nr. 10 mit Lösungen Übungsserie Nr. 10 mit Lösungen 1 Ein Untersuchungsdesign sieht einen multivariaten Vergleich einer Stichprobe von Frauen mit einer Stichprobe von Männern hinsichtlich der Merkmale X1, X2 und X3 vor (Codierung:

Mehr

2. Korrelation, lineare Regression und multiple Regression

2. Korrelation, lineare Regression und multiple Regression multiple 2.2 Lineare 2.2 Lineare 1 / 130 2.2 Lineare 2 / 130 2.1 Beispiel: Arbeitsmotivation Untersuchung zur Motivation am Arbeitsplatz in einem Chemie-Konzern 25 Personen werden durch Arbeitsplatz zufällig

Mehr

Statistik und Datenanalyse. eine praktische Einführung

Statistik und Datenanalyse. eine praktische Einführung Statistik und Datenanalyse eine praktische Einführung Antony Unwin Lehrstuhl für Rechnerorientierte Statistik und Datenanalyse Institut für Mathematik Universität Augsburg unwin@math.uni-augsburg.de Augsburger

Mehr

Einseitig gerichtete Relation: Mit zunehmender Höhe über dem Meeresspiegel sinkt im allgemeinen die Lufttemperatur.

Einseitig gerichtete Relation: Mit zunehmender Höhe über dem Meeresspiegel sinkt im allgemeinen die Lufttemperatur. Statistik Grundlagen Charakterisierung von Verteilungen Einführung Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsverteilungen Schätzen und Testen Korrelation Regression Einführung Die Analyse und modellhafte

Mehr

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft Prof. Dr. Helmut Küchenhoff SS08 90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft am 22.7.2008 Anmerkungen Überprüfen Sie bitte sofort, ob Ihre Angabe vollständig ist. Sie sollte

Mehr

Untersuchungen zum Thema Tracking Error

Untersuchungen zum Thema Tracking Error Untersuchungen zum Thema Tracking Error J. Fulmek 24. August 2003 1 Einleitung Im Folgenden werden folgende Punkte untersucht: 1. verschiedene in der Literatur übliche Definitionen des Tracking Errors

Mehr

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren)

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Multiple Regression 1 Was ist multiple lineare Regression? Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Annahme: Der Zusammenhang

Mehr

Prüfen von Mittelwertsunterschieden: t-test

Prüfen von Mittelwertsunterschieden: t-test Prüfen von Mittelwertsunterschieden: t-test Sven Garbade Fakultät für Angewandte Psychologie SRH Hochschule Heidelberg sven.garbade@hochschule-heidelberg.de Statistik 1 S. Garbade (SRH Heidelberg) t-test

Mehr

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18 3. Deskriptive Statistik Ziel der deskriptiven (beschreibenden) Statistik (explorativen Datenanalyse) ist die übersichtliche Darstellung der wesentlichen in den erhobenen Daten enthaltene Informationen

Mehr

Christian FG Schendera. Regressionsanalyse. mit SPSS. 2. korrigierte und aktualisierte Auflage DE GRUYTER OLDENBOURG

Christian FG Schendera. Regressionsanalyse. mit SPSS. 2. korrigierte und aktualisierte Auflage DE GRUYTER OLDENBOURG Christian FG Schendera Regressionsanalyse mit SPSS 2. korrigierte und aktualisierte Auflage DE GRUYTER OLDENBOURG Inhalt Vorworte V 1 Korrelation 1 1.1 Einführung 1 1.2 Erste Voraussetzung: Das Skalenniveau

Mehr

werden können. Wenn der Benutzer zudem eine konkrete Differenz mit praktischen Konsequenzen angibt, berechnet der Assistent den Stichprobenumfang,

werden können. Wenn der Benutzer zudem eine konkrete Differenz mit praktischen Konsequenzen angibt, berechnet der Assistent den Stichprobenumfang, Dieses White Paper ist Teil einer Reihe von Veröffentlichungen, welche die Forschungsarbeiten der Minitab-Statistiker erläutern, in deren Rahmen die im Assistenten der Minitab 17 Statistical Software verwendeten

Mehr

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik Ludwig Fahrmeir, Nora Fenske Institut für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik 29. März 21 Hinweise:

Mehr

Termin3 Klassifikation multispektraler Daten unüberwachte Verfahren

Termin3 Klassifikation multispektraler Daten unüberwachte Verfahren Ziel Termin3 Klassifikation multispektraler Daten unüberwachte Verfahren Einteilung (=Klassifikation) der Pixel eines multispektralen Datensatzes in eine endliche Anzahl von Klassen. Es sollen dabei versucht

Mehr

Inhaltsverzeichnis. I Einführung in STATISTICA 1. 1 Erste Schritte in STATISTICA 3

Inhaltsverzeichnis. I Einführung in STATISTICA 1. 1 Erste Schritte in STATISTICA 3 I Einführung in STATISTICA 1 1 Erste Schritte in STATISTICA 3 2 Datenhaltung in STATISTICA 11 2.1 Die unterschiedlichen Dateitypen in STATISTICA....... 11 2.2 Import von Daten......... 12 2.3 Export von

Mehr

Multinomiale logistische Regression

Multinomiale logistische Regression Multinomiale logistische Regression Die multinomiale logistische Regression dient zur Schätzung von Gruppenzugehörigkeiten bzw. einer entsprechenden Wahrscheinlichkeit hierfür, wobei als abhänginge Variable

Mehr

Schätzung des Lifetime Values von Spendern mit Hilfe der Überlebensanalyse

Schätzung des Lifetime Values von Spendern mit Hilfe der Überlebensanalyse Schätzung Lifetime Values von Spenn mit Hilfe Überlebensanalyse Einführung in das Verfahren am Beispiel Einzugsgenehmigung Überlebensanalysen o Ereignisdatenanalysen behandeln das Problem, mit welcher

Mehr

3.2 Bivariate Verteilungen

3.2 Bivariate Verteilungen 3.2 Bivariate Verteilungen zwei Variablen X, Y werden gemeinsam betrachtet (an jedem Objekt i, i = 1,..., n, werden gleichzeitig zwei Merkmale beobachtet) Beobachtungswerte sind Paare/Kombinationen von

Mehr

Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel

Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel 16.11.01 MP1 - Grundlagen quantitativer Sozialforschung - (4) Datenanalyse 1 Gliederung Datenanalyse (inferenzstatistisch)

Mehr

Statistische Verfahren für das Data Mining in einem Industrieprojekt

Statistische Verfahren für das Data Mining in einem Industrieprojekt Statistische Verfahren für das Data Mining in einem Industrieprojekt Thorsten Dickhaus Forschungszentrum Jülich GmbH Zentralinstitut für Angewandte Mathematik Telefon: 02461/61-4193 E-Mail: th.dickhaus@fz-juelich.de

Mehr

SAP Predictive Challenge - Lösung. DI Walter Müllner, Dr. Ingo Peter, Markus Tempel 22. April 2015

SAP Predictive Challenge - Lösung. DI Walter Müllner, Dr. Ingo Peter, Markus Tempel 22. April 2015 SAP Predictive Challenge - Lösung DI Walter Müllner, Dr. Ingo Peter, Markus Tempel 22. April 2015 Teil II - Lösung Teil II-1: Fachbereich (automated mode) Teil II-2: Experte (PAL HANA) Teil II-3: Vergleich

Mehr

Kategoriale abhängige Variablen: Logit- und Probit -Modelle. Statistik II

Kategoriale abhängige Variablen: Logit- und Probit -Modelle. Statistik II Kategoriale abhängige Variablen: Logit- und Probit -Modelle Statistik II Wiederholung Literatur Annahmen und Annahmeverletzungen Funktionen Exponenten, Wurzeln usw. Das Problem Das binäre Logit-Modell

Mehr

Lösung zu Kapitel 11: Beispiel 1

Lösung zu Kapitel 11: Beispiel 1 Lösung zu Kapitel 11: Beispiel 1 Eine Untersuchung bei 253 Personen zur Kundenzufriedenheit mit einer Einzelhandelskette im Südosten der USA enthält Variablen mit sozialstatistischen Daten der befragten

Mehr

Kommentierter SPSS-Output für die multiple Regressionsanalyse (SPSS-Version 17)

Kommentierter SPSS-Output für die multiple Regressionsanalyse (SPSS-Version 17) R.Niketta Multiple Regressionsanalyse Kommentierter SPSS-Output für die multiple Regressionsanalyse (SPSS-Version 17) Daten: Selbstdarstellung und Kontaktsuche in studi.vz (POK VIII, AG 3) Fragestellung:

Mehr

Prof. Dr. Gabriele Helga Franke TESTTHEORIE UND TESTKONSTRUKTION

Prof. Dr. Gabriele Helga Franke TESTTHEORIE UND TESTKONSTRUKTION Prof. Dr. Gabriele Helga Franke TESTTHEORIE UND TESTKONSTRUKTION 2. FS Master Rehabilitationspsychologie, SoSe 2012 Faktorenanalyse/ faktorielle Validität 2 Einleitung Allgemeines zu Faktorenanalysen (FA)

Mehr

Einführung in die Statistik mir R

Einführung in die Statistik mir R Einführung in die Statistik mir R ww w. syn t egris.de Überblick GESCHÄFTSFÜHRUNG Andreas Baumgart, Business Processes and Service Gunar Hofmann, IT Solutions Sven-Uwe Weller, Design und Development Jens

Mehr

Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt!

Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt! Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt! 1 Einführung 2 Wahrscheinlichkeiten kurz gefasst 3 Zufallsvariablen und Verteilungen 4 Theoretische Verteilungen (Wahrscheinlichkeitsfunktion)

Mehr

5.2 Optionen Auswahl der Statistiken, die bei der jeweiligen Prozedur zur Verfügung stehen.

5.2 Optionen Auswahl der Statistiken, die bei der jeweiligen Prozedur zur Verfügung stehen. 5 Statistik mit SPSS Die Durchführung statistischer Auswertungen erfolgt bei SPSS in 2 Schritten, der Auswahl der geeigneten Methode, bestehend aus Prozedur Variable Optionen und der Ausführung. 5.1 Variablen

Mehr

Analyse alt- und mittelpaläolithischer Steinartefaktinventare mittels Parallelkoordinatenplots

Analyse alt- und mittelpaläolithischer Steinartefaktinventare mittels Parallelkoordinatenplots Einleitung Analyse alt- und mittelpaläolithischer Steinartefaktinventare mittels Parallelkoordinatenplots von Irmela Herzog Im Rahmen der Herbsttagung der AG DANK (Datenanalyse und Numerische Klassifikation)

Mehr

Analyse bivariater Kontingenztafeln

Analyse bivariater Kontingenztafeln Analyse bivariater Kontingenztafeln Werden zwei kategoriale Merkmale mit nicht zu vielen möglichen Ausprägungen gemeinsam analysiert, so kommen zur Beschreibung der gemeinsamen Verteilung im allgemeinen

Mehr

Auswertung und Darstellung wissenschaftlicher Daten (1)

Auswertung und Darstellung wissenschaftlicher Daten (1) Auswertung und Darstellung wissenschaftlicher Daten () Mag. Dr. Andrea Payrhuber Zwei Schritte der Auswertung. Deskriptive Darstellung aller Daten 2. analytische Darstellung (Gruppenvergleiche) SPSS-Andrea

Mehr

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 1 Einführung in die statistische Datenanalyse Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 2 Gliederung 1.Grundlagen 2.Nicht-parametrische Tests a. Mann-Whitney-Wilcoxon-U Test b. Wilcoxon-Signed-Rank

Mehr

Allgemeine Regressionsanalyse. Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl. deterministisch

Allgemeine Regressionsanalyse. Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl. deterministisch Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 9.1 Allgemeine Regressionsanalyse Daten (X j, Y j ), j = 1,..., N unabhängig Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl.

Mehr

Delta-Gamma-Verfahren als Standard- Risikomodell für Lebensversicherer

Delta-Gamma-Verfahren als Standard- Risikomodell für Lebensversicherer Delta-Gamma-Verfahren als Standard- Risikomodell für Lebensversicherer 1 Einleitung Im Rahmen des SST wird teilweise vereinfachend angenommen, dass der Zusammenhang zwischen der Veränderung des risikotragenden

Mehr

Modul G.1 WS 07/08: Statistik 17.01.2008 1. Die Korrelation ist ein standardisiertes Maß für den linearen Zusammenhangzwischen zwei Variablen.

Modul G.1 WS 07/08: Statistik 17.01.2008 1. Die Korrelation ist ein standardisiertes Maß für den linearen Zusammenhangzwischen zwei Variablen. Modul G.1 WS 07/08: Statistik 17.01.2008 1 Wiederholung Kovarianz und Korrelation Kovarianz = Maß für den linearen Zusammenhang zwischen zwei Variablen x und y Korrelation Die Korrelation ist ein standardisiertes

Mehr

Oliver Kuß*; Dorothee Twardella**; Maria Blettner***; Thomas L. Diepgen**

Oliver Kuß*; Dorothee Twardella**; Maria Blettner***; Thomas L. Diepgen** Effektschätzung in Cluster-Randomized Trials mit binärer Zielgröße: Eine Sensitivitätsanalyse mit numerischer Integration, MCMC und NPMLE am Beispiel der DHP Oliver Kuß*; Dorothee Twardella**; Maria Blettner***;

Mehr

Faktorenanalyse. 1. Grundlegende Verfahren. Bacher, SoSe2007

Faktorenanalyse. 1. Grundlegende Verfahren. Bacher, SoSe2007 Faktorenanalyse Bacher, SoSe2007 1. Grundlegende Verfahren explorative FA (EXFA): Für eine Menge von Variablen/Items werden zugrunde liegende gemeinsame (latente) Dimensionen/Faktoren gesucht, die Faktorstruktur

Mehr

LISREL/CFA: Modelltest

LISREL/CFA: Modelltest LISREL/CFA: Modelltest im Rahmen des Interdisziplinären Seminars Multivariate Statistik bei psychologischen Fragestellungen Martina Feilke, Martina Unterburger, Christoph Burkhardt Dozenten: Prof. Dr.

Mehr

Verteilungsanalyse. Johannes Hain. Lehrstuhl für Mathematik VIII Statistik 1/35

Verteilungsanalyse. Johannes Hain. Lehrstuhl für Mathematik VIII Statistik 1/35 Verteilungsanalyse Johannes Hain Lehrstuhl für Mathematik VIII Statistik 1/35 Datentypen Als Sammeln von Daten bezeichnet man in der Statistik das Aufzeichnen von Fakten. Erhobene Daten klassifziert man

Mehr

Ilmenauer Beiträge zur Wirtschaftsinformatik. Herausgegeben von U. Bankhofer, V. Nissen D. Stelzer und S. Straßburger

Ilmenauer Beiträge zur Wirtschaftsinformatik. Herausgegeben von U. Bankhofer, V. Nissen D. Stelzer und S. Straßburger Ilmenauer Beiträge zur Wirtschaftsinformatik Herausgegeben von U. Bankhofer, V. Nissen D. Stelzer und S. Straßburger Zur Güte von Signifikanztests auf mehrdimensionale Normalverteiltheit Arbeitsbericht

Mehr

Modellbildung und Simulation

Modellbildung und Simulation Modellbildung und Simulation 5. Vorlesung Wintersemester 2007/2008 Klaus Kasper Value at Risk (VaR) Glossar Portfolio: In der Ökonomie bezeichnet der Begriff Portfolio ein Bündel von Investitionen, das

Mehr

Tabelle 6a: Deskriptive Statistiken der metrischen Variablen

Tabelle 6a: Deskriptive Statistiken der metrischen Variablen Ergebnisse 77 5 Ergebnisse Das folgende Kapitel widmet sich der statistischen Auswertung der Daten zur Ü- berprüfung der Hypothesen. Die hier verwendeten Daten wurden mit den in 4.3 beschriebenen Instrumenten

Mehr

Kapitel 7: Varianzanalyse mit Messwiederholung

Kapitel 7: Varianzanalyse mit Messwiederholung Kapitel 7: Varianzanalyse mit Messwiederholung Durchführung einer einfaktoriellen Varianzanalyse mit Messwiederholung 1 Durchführung einer zweifaktoriellen Varianzanalyse mit Messwiederholung auf einem

Mehr

Varianzanalyse ANOVA

Varianzanalyse ANOVA Varianzanalyse ANOVA Johannes Hain Lehrstuhl für Mathematik VIII Statistik 1/23 Einfaktorielle Varianzanalyse (ANOVA) Bisher war man lediglich in der Lage, mit dem t-test einen Mittelwertsvergleich für

Mehr

Zusammenhänge zwischen metrischen Merkmalen

Zusammenhänge zwischen metrischen Merkmalen Zusammenhänge zwischen metrischen Merkmalen Darstellung des Zusammenhangs, Korrelation und Regression Daten liegen zu zwei metrischen Merkmalen vor: Datenpaare (x i, y i ), i = 1,..., n Beispiel: x: Anzahl

Mehr

Häufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln

Häufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln Häufigkeitstabellen Menüpunkt Data PivotTable Report (bzw. entsprechendes Icon): wähle Data Range (Zellen, die die Daten enthalten + Zelle mit Variablenname) wähle kategoriale Variable für Spalten- oder

Mehr

14.01.14 DAS THEMA: INFERENZSTATISTIK II. Standardfehler Konfidenzintervalle Signifikanztests. Standardfehler

14.01.14 DAS THEMA: INFERENZSTATISTIK II. Standardfehler Konfidenzintervalle Signifikanztests. Standardfehler DAS THEMA: INFERENZSTATISTIK II INFERENZSTATISTISCHE AUSSAGEN Standardfehler Konfidenzintervalle Signifikanztests Standardfehler der Standardfehler Interpretation Verwendung 1 ZUR WIEDERHOLUNG... Ausgangspunkt:

Mehr

9. Schätzen und Testen bei unbekannter Varianz

9. Schätzen und Testen bei unbekannter Varianz 9. Schätzen und Testen bei unbekannter Varianz Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Schätzen und Testen bei unbekannter Varianz Wenn wir die Standardabweichung σ nicht kennen,

Mehr

Seminarangebote zu Methodenkompetenzen

Seminarangebote zu Methodenkompetenzen Seminarangebote zu Methodenkompetenzen Contrastwerkstatt Fotolia.com Inhalt Inhalt... 2 Einführung in Diversity Management... Fehler! Textmarke nicht definiert. Evaluation und Qualitätssicherung in der

Mehr

Inhaltsverzeichnis. Fragestellungen und Methoden 11. Vorwort 15. Kapitel 1 Einführung 17. Kapitel 2 Statistische Grundbegriffe 23

Inhaltsverzeichnis. Fragestellungen und Methoden 11. Vorwort 15. Kapitel 1 Einführung 17. Kapitel 2 Statistische Grundbegriffe 23 Fragestellungen und Methoden 11 Vorwort 15 Kapitel 1 Einführung 17 1.1 KonzeptiondesBuchs... 18 1.2 AufbaudesBuchs... 19 1.3 Programmversionen von PASW bzw. SPSS..... 20 1.4 WiekanndiesesBuchverwendetwerden?...

Mehr

Algorithmische Modelle als neues Paradigma

Algorithmische Modelle als neues Paradigma Algorithmische Modelle als neues Paradigma Axel Schwer Seminar über Philosophische Grundlagen der Statistik, WS 2010/11 Betreuer: Prof. Dr. Thomas Augustin München, den 28. Januar 2011 1 / 29 LEO BREIMAN

Mehr

Linearer Zusammenhang von Datenreihen

Linearer Zusammenhang von Datenreihen Linearer Zusammenhang von Datenreihen Vielen Problemen liegen (möglicherweise) lineare Zusammenhänge zugrunde: Mein Internetanbieter verlangt eine Grundgebühr und rechnet minutenweise ab Ich bestelle ein

Mehr

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50,7 50 51,5 51,7 48,8

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50,7 50 51,5 51,7 48,8 1. Aufgabe: Eine Reifenfirma hat für Winterreifen unterschiedliche Profile entwickelt. Bei jeweils gleicher Geschwindigkeit und auch sonst gleichen Bedingungen wurden die Bremswirkungen gemessen. Die gemessenen

Mehr

Methoden Quantitative Datenanalyse

Methoden Quantitative Datenanalyse Leitfaden Universität Zürich ISEK - Andreasstrasse 15 CH-8050 Zürich Telefon +41 44 635 22 11 Telefax +41 44 635 22 19 www.isek.uzh.ch 11. September 2014 Methoden Quantitative Datenanalyse Vorbereitung

Mehr

Verteilungsanalyse. Johannes Hain. Lehrstuhl für Mathematik VIII Statistik 1/31

Verteilungsanalyse. Johannes Hain. Lehrstuhl für Mathematik VIII Statistik 1/31 Verteilungsanalyse Johannes Hain Lehrstuhl für Mathematik VIII Statistik 1/31 Datentypen Als Sammeln von Daten bezeichnet man in der Statistik das Aufzeichnen von Fakten. Erhobene Daten klassifziert man

Mehr

Monte Carlo Simulation (Grundlagen)

Monte Carlo Simulation (Grundlagen) Der Titel des vorliegenden Beitrages wird bei den meisten Lesern vermutlich Assoziationen mit Roulette oder Black Jack hervorrufen. Allerdings haben das heutige Thema und die Spieltische nur den Namen

Mehr

Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall )

Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall ) Zusammenhänge von Variablen Regressionsanalysen linearer Zusammenhang ( Idealfall ) kein Zusammenhang nichtlinearer monotoner Zusammenhang (i.d.regel berechenbar über Variablentransformationen mittels

Mehr

Grundlagen von Versuchsmethodik und Datenanalyse

Grundlagen von Versuchsmethodik und Datenanalyse Grundlagen von Versuchsmethodik und Datenanalyse Der Anfang: Hypothesen über Ursache-Wirkungs-Zusammenhänge Ursache Wirkung Koffein verbessert Kurzzeitgedächtnis Gewaltfilme führen zu aggressivem Verhalten

Mehr

Value at Risk Einführung

Value at Risk Einführung Value at Risk Einführung Veranstaltung Risk Management & Computational Finance Dipl.-Ök. Hans-Jörg von Mettenheim mettenheim@iwi.uni-hannover.de Institut für Wirtschaftsinformatik Leibniz Universität Hannover

Mehr

Quantitative Methoden der Bildungsforschung

Quantitative Methoden der Bildungsforschung Glieung Wieholung Korrelationen Grundlagen lineare Regression Lineare Regression in SPSS Übung Wieholung Korrelationen Standardisiertes Zusammenhangsmaß (unstandardisiert: Kovarianz) linearer Zusammenhang

Mehr

Lineare Modelle in R: Einweg-Varianzanalyse

Lineare Modelle in R: Einweg-Varianzanalyse Lineare Modelle in R: Einweg-Varianzanalyse Achim Zeileis 2009-02-20 1 Datenaufbereitung Wie schon in der Vorlesung wollen wir hier zur Illustration der Einweg-Analyse die logarithmierten Ausgaben der

Mehr

Stichprobenauslegung. für stetige und binäre Datentypen

Stichprobenauslegung. für stetige und binäre Datentypen Stichprobenauslegung für stetige und binäre Datentypen Roadmap zu Stichproben Hypothese über das interessierende Merkmal aufstellen Stichprobe entnehmen Beobachtete Messwerte abbilden Schluss von der Beobachtung

Mehr

BM-Datenanalyse eine Exploration

BM-Datenanalyse eine Exploration BM-Datenanalyse eine Exploration Marcello Robbiani ZHAW und EBMK www.zuguttenberg.de/dokumente/zuguttenberg_presseportrait.jpg Ein Web-basierter Bildervortrag Allgemeingut, Eigengewächs: Keine Quellenangabe

Mehr

Varianzananalyse. How to do

Varianzananalyse. How to do Varianzananalyse How to do Die folgende Zusammenfassung zeigt beispielhaft, wie eine Varianzanalyse mit SPSS durchgeführt wird und wie die Ergebnisse in einem Empra-Bericht oder in einer Bachelor- oder

Mehr

3 Deskriptive Statistik in R (univariat)

3 Deskriptive Statistik in R (univariat) (univariat) Markus Burkhardt (markus.burkhardt@psychologie.tu-chemnitz.de) Inhalt 3.1 Ziel... 1 3.2 Häufigkeiten... 1 3.3 Deskriptive Kennziffern I Lagemaße... 2 3.4 Streuungsmaße... 5 3.5 Standardisierung:

Mehr

8. Methoden der klassischen multivariaten Statistik

8. Methoden der klassischen multivariaten Statistik 8. Methoden der klassischen multivariaten Statistik 8.1. Darstellung von Daten Voraussetzungen auch in diesem Kapitel: Grundgesamtheit (Datenraum) Ω von Objekten (Fällen, Instanzen), denen J-Tupel von

Mehr

Varianzanalytische Methoden Zweifaktorielle Versuchspläne 4/13. Durchführung in SPSS (File Trait Angst.sav)

Varianzanalytische Methoden Zweifaktorielle Versuchspläne 4/13. Durchführung in SPSS (File Trait Angst.sav) Zweifaktorielle Versuchspläne 4/13 Durchführung in SPSS (File Trait Angst.sav) Analysieren > Allgemeines Lineares Modell > Univariat Zweifaktorielle Versuchspläne 5/13 Haupteffekte Geschlecht und Gruppe

Mehr

(2) Mittels welcher Methode ist es im ALM möglich kategoriale Variablen als Prädiktoren in eine Regressionsgleichung zu überführen?

(2) Mittels welcher Methode ist es im ALM möglich kategoriale Variablen als Prädiktoren in eine Regressionsgleichung zu überführen? Beispielaufgaben LÖSUNG (1) Grenzen Sie eine einfache lineare Regression von einem Random Intercept Modell mit nur einem Level1-Prädiktor ab! a. Worin unterscheiden sich die Voraussetzungen? - MLM braucht

Mehr

Inhaltsverzeichnis. Regressionsanalyse. http://mesosworld.ch - Stand vom: 20.1.2010 1

Inhaltsverzeichnis. Regressionsanalyse. http://mesosworld.ch - Stand vom: 20.1.2010 1 Inhaltsverzeichnis Regressionsanalyse... 2 Lernhinweise... 2 Einführung... 2 Theorie (1-8)... 2 1. Allgemeine Beziehungen... 3 2. 'Best Fit'... 3 3. 'Ordinary Least Squares'... 4 4. Formel der Regressionskoeffizienten...

Mehr

25. Januar 2010. Ruhr-Universität Bochum. Methodenlehre III, WS 2009/2010. Prof. Dr. Holger Dette. 4. Multivariate Mittelwertvergleiche

25. Januar 2010. Ruhr-Universität Bochum. Methodenlehre III, WS 2009/2010. Prof. Dr. Holger Dette. 4. Multivariate Mittelwertvergleiche Ruhr-Universität Bochum 25. Januar 2010 1 / 75 2 / 75 4.1 Beispiel: Vergleich von verschiedenen Unterrichtsmethoden Zwei Zufallsstichproben (A und B) mit je 10 Schülern und 8 Schülern Gruppe A wird nach

Mehr

SLAM. Simultaneous Localization and Mapping. KogSys-Sem-M2: Reading Club - SLAM - Andreas Habermann

SLAM. Simultaneous Localization and Mapping. KogSys-Sem-M2: Reading Club - SLAM - Andreas Habermann SLAM Simultaneous Localization and Mapping KogSys-Sem-M2: Reading Club - SLAM - Andreas Habermann Simultaneous Localization And Mapping SLAM Problematik SLAM Arten SLAM Methoden: (E)KF SLAM GraphSLAM Fast

Mehr

Bivariate Zeitreihenanalyseverfahren Tests auf Nichtlinearität

Bivariate Zeitreihenanalyseverfahren Tests auf Nichtlinearität Bivariate Zeitreihenanalseverahren Tests au Nichtlinearität Skewness, Kurtosis ür zirkuläre Maße z.b. Phasenkohärenz R Problem: nur statische Nichtlinearitäten Statistik Ansatz: transormiere Phasen Phasendierenzen

Mehr

Abhängigkeit zweier Merkmale

Abhängigkeit zweier Merkmale Abhängigkeit zweier Merkmale Johannes Hain Lehrstuhl für Mathematik VIII Statistik 1/33 Allgemeine Situation Neben der Untersuchung auf Unterschiede zwischen zwei oder mehreren Untersuchungsgruppen hinsichtlich

Mehr

Multiple Regression II: Signifikanztests, Gewichtung, Multikollinearität und Kohortenanalyse

Multiple Regression II: Signifikanztests, Gewichtung, Multikollinearität und Kohortenanalyse Multiple Regression II: Signifikanztests,, Multikollinearität und Kohortenanalyse Statistik II Übersicht Literatur Kausalität und Regression Inferenz und standardisierte Koeffizienten Statistik II Multiple

Mehr

Abschlussklausur (60 Minuten), 15. Juli 2014

Abschlussklausur (60 Minuten), 15. Juli 2014 Prof. Dr. Amelie Wuppermann Volkswirtschaftliche Fakultät Universität München Sommersemester 2014 Empirische Ökonomie 1 Abschlussklausur (60 Minuten), 15. Juli 2014 Bearbeitungshinweise Die Bearbeitungszeit

Mehr

Veranstaltungsort Bildungsherberge der Studierendenschaft der FernUniversität Hagen

Veranstaltungsort Bildungsherberge der Studierendenschaft der FernUniversität Hagen Bildungsurlaub-Seminare: Lerninhalte und Programm Seminartitel SPSS für Psychologen/innen (BH15113) Termin Mo, den 18.05.bis Fr, den 22.05.2015 (40 UStd.) Veranstaltungsort Bildungsherberge der Studierendenschaft

Mehr

Metriken - ein unverzichtbarer Begleiter für Software-Prozess-Verbesserungen

Metriken - ein unverzichtbarer Begleiter für Software-Prozess-Verbesserungen Metriken - ein unverzichtbarer Begleiter für Software-Prozess-Verbesserungen Dipl.-Math. Hermann Will QADVICE Software+System Qualität Jamnitzerstr. 2, 81543 München hermann.will@qadvice.de Zusammenfassung.

Mehr

Elisabeth Raab-Steiner/Michael Benesch. Der Fragebogen. Von der Forschungsidee zur SPSS/PASW-Auswertung. 2., aktualisierte Auflage. facultas.

Elisabeth Raab-Steiner/Michael Benesch. Der Fragebogen. Von der Forschungsidee zur SPSS/PASW-Auswertung. 2., aktualisierte Auflage. facultas. Elisabeth Raab-Steiner/Michael Benesch Der Fragebogen Von der Forschungsidee zur SPSS/PASW-Auswertung 2., aktualisierte Auflage facultas.wuv Inhaltsverzeichnis 1 Elementare Definitionen 11 1.1 Deskriptive

Mehr

Der Umgang mit fehlenden Werten in epidemiologischen und Versorgungssforschungsstudien

Der Umgang mit fehlenden Werten in epidemiologischen und Versorgungssforschungsstudien Der Umgang mit fehlenden Werten in epidemiologischen und Versorgungssforschungsstudien Oliver Kuß Institut für Medizinische Epidemiologie, Biometrie und Informatik, Medizinische Fakultät, Martin-Luther-Universität

Mehr

(2) (x 2 1 + x 2 2 + + x 2 n)(y 2 1 + y 2 2 + + y 2 n) = z 2 1 + z 2 2 + + z 2 n

(2) (x 2 1 + x 2 2 + + x 2 n)(y 2 1 + y 2 2 + + y 2 n) = z 2 1 + z 2 2 + + z 2 n Über die Komposition der quadratischen Formen von beliebig vielen Variablen 1. (Nachrichten von der k. Gesellschaft der Wissenschaften zu Göttingen, Mathematisch-physikalische Klasse, 1898, S. 309 316.)

Mehr

V A R I A N Z A N A L Y S E

V A R I A N Z A N A L Y S E V A R I A N Z A N A L Y S E Ziel / Funktion: statistische Beurteilung des Einflusses von nominal skalierten (kategorialen) Faktoren auf intervallskalierte abhängige Variablen Vorteil: die Wirkung von mehreren,

Mehr

Multivariate and Geostatistical Data Analysis. Multivariate and Geostatistical Data Analysis

Multivariate and Geostatistical Data Analysis. Multivariate and Geostatistical Data Analysis Multivariate and Geostatistical Data Analysis Multivariate and Geostatistical Data Analysis c 2012 Helmut Schaeben Geomathematics and Geoinformatics Technische Universität Bergakademie Freiberg, Germany

Mehr

Weitere (wählbare) Kontraste in der SPSS Prozedur Allgemeines Lineares Modell

Weitere (wählbare) Kontraste in der SPSS Prozedur Allgemeines Lineares Modell Einfaktorielle Versuchspläne 27/40 Weitere (wählbare) Kontraste in der SPSS Prozedur Allgemeines Lineares Modell Abweichung Einfach Differenz Helmert Wiederholt Vergleich Jede Gruppe mit Gesamtmittelwert

Mehr

Varianzanalyse * (1) Varianzanalyse (2)

Varianzanalyse * (1) Varianzanalyse (2) Varianzanalyse * (1) Einfaktorielle Varianzanalyse (I) Die Varianzanalyse (ANOVA = ANalysis Of VAriance) wird benutzt, um Unterschiede zwischen Mittelwerten von drei oder mehr Stichproben auf Signifikanz

Mehr

Literaturhinweise zur quantitativen Datenanalyse

Literaturhinweise zur quantitativen Datenanalyse Fachbereich 05 Gesellschaftswissenschaften Methoden der empirischen Sozialforschung Prof. Dr. Volker Stocké Marc Graupner, M.A. Dipl.-Soz. Daniel Klein Dipl.-Soz. Ulrike Schwabe Dipl.-Soz. Lisa Währisch

Mehr

Motivation. Themenblock: Data Preprocessing. Einsatzgebiete für Data Mining I. Modell von Gianotti und Pedreschi

Motivation. Themenblock: Data Preprocessing. Einsatzgebiete für Data Mining I. Modell von Gianotti und Pedreschi Motivation Themenblock: Data Preprocessing We are drowning in information, but starving for knowledge! (John Naisbett) Was genau ist Datenanalyse? Praktikum: Data Warehousing und Data Mining Was ist Data

Mehr

Statistik und Wahrscheinlichkeitsrechnung

Statistik und Wahrscheinlichkeitsrechnung Statistik und Wahrscheinlichkeitsrechnung Übung 2 28.02.2008 1 Inhalt der heutigen Übung Beschreibende Statistik Gemeinsames Lösen der Übungsaufgaben 2.1: Häufigkeitsverteilung 2.2: Tukey Boxplot 25:Korrelation

Mehr

Wir haben ermittelt, dass Tests 1, 2 und 7 am nützlichsten zum Auswerten der Stabilität der X-quer-Karte und der I-Karte sind:

Wir haben ermittelt, dass Tests 1, 2 und 7 am nützlichsten zum Auswerten der Stabilität der X-quer-Karte und der I-Karte sind: Dieses White Paper ist Teil einer Reihe von Veröffentlichungen, welche die Forschungsarbeiten der Minitab-Statistiker erläutern, in deren Rahmen die im Assistenten der Minitab 17 Statistical Software verwendeten

Mehr

Deskriptive Statistik

Deskriptive Statistik Deskriptive Statistik In der beschreibenden Statistik werden Methoden behandelt, mit deren Hilfe man Daten übersichtlich darstellen und kennzeichnen kann. Die Urliste (=Daten in der Reihenfolge ihrer Erhebung)

Mehr