Intuition: Wie lässt sich das abhängige Merkmal durch die unabhängigen Merkmale erklären?

Größe: px
Ab Seite anzeigen:

Download "Intuition: Wie lässt sich das abhängige Merkmal durch die unabhängigen Merkmale erklären?"

Transkript

1 2. Regression

2 Motivation Regressionsanalysen modellieren den Zusammenhang zwischen einem oder mehreren unabhängigen Merkmalen (z.b. Gewicht und PS) und einem abhängigen Merkmal (z.b. Verbrauch) Intuition: Wie lässt sich das abhängige Merkmal durch die unabhängigen Merkmale erklären? Hierzu wird ein Modell angenommen, wie die Merkmale zusammenhängen und dessen Parameter anhand von verfügbaren Daten bestimmt 2

3 Motivation Beispiel: Vorhersage des Verbrauchs (mpg) eines Autos basierend auf seiner Leistung (hp) (und später weiteren Merkmalen) Daten: Auto MPG Datensatz aus UCI ML Repository Autos (392 mit vollständigen Merkmalen) 8 Merkmale (Verbrauch, Zylinder, Gewicht, etc.) 3

4 Motivation 4

5 Inhalt 2.1 Einfache lineare Regression 2.2 Multiple lineare Regression 2.3 Nominale und ordinale Merkmale 2.4 Gradientenabstiegsverfahren 2.5 Polynomiale Regression 2.6 Merkmalstransformation 2.7 Evaluation 2.8 Regularisierung 5

6 2.1 Einfache lineare Regression Einfache lineare Regression betrachtet Datenpunkte (x 1,y 1 ),...,(x n,y n ) und nimmt an, dass das das metrische Merkmal y linear vom metrischen Merkmal x abhängt Das angenommene Modell hat somit die Form Unabhängiges Merkmal Abhängiges Merkmal ŷ = w 0 + w 1 x Modell Parameter 6

7 Einfache lineare Regression Verschiedene Werte der Parameter w 0 und w 1 entsprechen verschiedenen Geraden w 0 = 0 w 1 = 0.2 w 0 = 35 w 1 = -0.1 Wir benötigen ein Gütekriterium, um zu bestimmen, welche Gerade die beste ist 7

8 Mittelwert, Varianz und Standardabweichung Wir definieren den Mittelwert unserer Merkmale als x = 1 nÿ x i ȳ = 1 nÿ y i n n i=1 i=1 Die Varianz unserer Merkmale ist definiert als x 2 = 1 nÿ (x i x) 2 y 2 = 1 nÿ (y i ȳ) 2 n n i=1 i=1 Die Werte σ x und σ y heißen Standardabweichung der Merkmale x und y 8

9 Kovarianz Kovarianz cov x,y misst inwiefern die beiden Merkmale x und y zusammenhängen, d.h. sich in die gleiche Richtung bzw. entgegengesetzte Richtungen ändern cov x,y = 1 nÿ (x i x)(y i ȳ) n i=1 Große Kovarianz deutet auf einen Zusammenhang hin ein positiver Wert zeigt an, dass sich die beiden Merkmale in die gleiche Richtung ändern ein negativer Wert zeigt an, dass sich die beiden Merkmale in entgegengesetzte Richtungen ändern 9

10 Korrelationskoeffizient nach Pearson Pearsons Korrelationskoeffizient misst inwiefern ein linearer Zusammenhang zwischen zwei Merkmalen x und y besteht cor x,y = Û nq (x i x)(y i ȳ) i=1 Û nq nq (x i x) (y i ȳ) i=1 Pearsons Korrelationskoeffizient nimmt Werte in [-1,+1] an i=1 Wert -1 zeigt negative lineare Korrelation an Wert 0 zeigt keine lineare Korrelation an Wert 1 zeigt positive lineare Korrelation an = cov x,y x y 10

11 Korrelationskoeffizient nach Pearson cor hp,mpg

12 Anscombes Quartett Alle vier Datensätze haben den gleichen Mittelwert, die gleiche Varianz, den gleichen Korrelationskoeffizienten sowie die gleiche optimale Regressionsgerade 12

13 Korrelation und Kausalität Korrelation zwischen zwei Merkmalen bedeutet nicht, dass eine Kausalität, d.h. Wirkzusammenhang, zwischen den beiden besteht Beispiele: Zahl der Fernseher und Einkommen eines Haushalts Leistung eines PKWs und Schuhgröße des Halters Verkauf von Weihnachtsschmuck und Selbstmordrate Korrelation des Tages: Spurious Correlations: 13

14 Straffunktion und Residuen Straffunktion (loss function) misst wie gut unser Modell, für eine bestimmte Wahl von Parameterwerten, unsere Daten beschreibt (d.h. wie viel wir verlieren, wenn wir unser Modell statt der Daten verwenden) Residuum (residual) des Datenpunkts (x i, y i ) misst wie weit der beobachte Wert y i von der Vorhersage abweicht (y i ŷ i )=(y i (w 0 + w 1 x i )) = (y i w 0 w 1 x i ) 14

15 Residuen 15

16 Quadratischer Fehler Einfache lineare Regression (ordinary least squares) verwendet die Summe der quadrierten Residuen (sum of squared errors SSE) als Straffunktion nÿ L(w 0,w 1 )= (y i w 0 w 1 x i ) 2 i=1 Zum Bestimmen der optimalen Parameter w 0* und w 1 * müssen wir folgendes Optimierungsproblem lösen nÿ arg min (y i w 0 w 1 x i ) 2 w 0,w 1 i=1 16

17 Plotten der Straffunktion Straffunktion für unsere Beispieldaten sieht wie folgt aus 17

18 Analytische Bestimmung optimaler Parameter Optimale Parameterwerte lassen sich im Fall der einfachen linearen Regression analytisch bestimmen 1) Bestimme partielle Ableitungen der Straffunktion nach den Parametern w 0 und w 1 ˆL ˆ w 0 = 2 ˆL ˆ w 1 = 2 2) Bestimme gemeinsame Nullstelle durch Lösen des linearen Gleichungssystems nÿ (y i w 0 w 1 x i ) i=1 nÿ (y i w 0 w 1 x i ) x i i=1 ˆL ˆ w 0 =0 ˆL ˆ w 1 =0 18

19 Analytische Bestimmung optimaler Parameter Geschlossene Lösungen für optimale Parameterwerte w ú 1 = w ú 0 = 1 n n n q i=1 nÿ y i w1 ú i=1 x i y i n n q i=1 3 n q i=1 1 n x 2 i 3 n q nÿ i=1 x i x i 43 n q i=1 i=1 x i 4 2 y i 4 19

20 Analytische Bestimmung optimaler Parameter Optimale Parameter für unsere Beispieldaten w ú 0 = w ú 1 =

21 Bestimmtheitsmaß Bestimmtheitsmaß (R 2 coefficient of determination) misst wie gut die bestimmte Regressionsgerade die Daten annähert, d.h. wie gut sie die in den Daten beobachtete Variation erklärt nq (y i ŷ i ) 2 R 2 =1 i=1 nq i=1 (y i ȳ) 2 21

22 Einfache lineare Regression in Python import numpy as np import pandas as pd import seaborn as sns import matplotlib.pyplot as plt from sklearn import linear_model, metrics # Autodaten einlesen cars = pd.read_csv('../data/auto-mpg/auto-mpg.data', header=none, sep='\s+') # Verbrauchswerte extrahieren y = cars.iloc[:,0].values # Leistungswerte extrahieren X = cars.iloc[:,[3]].values # Plot erstellen g = sns.regplot(x=x, y=y, fit_reg=false) # Einfache lineare Regression reg = linear_model.linearregression() reg.fit(x,y) plt.plot(x, reg.predict(x), color='red') # Plot beschriften plt.xlabel('leistung [hp]') plt.ylabel('verbrauch [mpg]') # Plot anzeigen plt.show() 22

23 Einfache lineare Regression in Python # Koeffizienten und Bestimmtheitsmaß ausgeben print('parameter:') print('w0: %f'%reg.intercept_) print('w1: %f'%reg.coef_[0]) print('bestimmtheitsmaß') print('r2: %f'%metrics.r2_score(y,reg.predict(x))) Vollständiges Jupyter-Notebook unter:

24 Zusammenfassung Lineare Regression sagt ein abhängiges metrisches Merkmal anhand eines unabhängigen metrischen Merkmals voraus Straffunktion betrachtet die Summe der quadrierten Residuen, d.h. Abweichungen zwischen dem eigentlichen Wert und der Vorhersage Optimale Parameter der Regressionsgerade lassen sich analytisch bestimmen 24

25 Literatur [1] L. Fahrmeir, R. Künstler, I. Pigeot und G. Tutz: Statistik Der Weg zur Datenanalyse, Springer, 2017 (Kapitel 12) [2] S. Raschka: Machine Learning in Python, mitp, 2017 (Kapitel 10) 25

26 2.2 Multiple lineare Regression Multiple lineare Regression betrachtet Datenpunkte (x (i,1),x (i,2),...,x (i,m),y i ) und nimmt an, dass sich das abhängige Merkmal y i als Linearkombination der m unabhängigen Merkmale x (i,1),, x (m,1) erklären lässt ŷ i = w 0 + w 1 x (i,1) + w 2 x (i,2) w m x (i,m) Das Modell hat somit (m + 1) Parameter und entspricht einer Hyperebene im (m + 1)-dimensionalen Raum 26

27 Multiple lineare Regression in Matrixschreibweise Oft ist es einfacher, bei vielen unabhängigen Merkmalen, das Modell in Matrixschreibweise zu formulieren Datenmatrix X (n (m + 1)) S T 1 x (1,1)... x (1,m) W X X = U. V 1 x (n,1)... x (n,m) mit einer zusätzlichen führenden Spalte gefüllt mit Einsen 27

28 Multiple lineare Regression in Matrixschreibweise Parametervektor w ((m + 1) 1) S T w = W U w 0. w m X V Beobachtungsvektor y (n 1) S y = W U y 1. y n T X V 28

29 Multiple lineare Regression in Matrixschreibweise Vorhersagevektor ŷ (n 1) lässt sich berechnen als S T S T 1 x (1,1)... x (1,m) w 0 W X W X ŷ = Xw= U. V U. V 1 x (n,1)... x (n,m) w m 29

30 Multiple lineare Regression in Matrixschreibweise Auch bei der multiplen linearen Regression kommt der quadratische Fehler zum Einsatz Die Straffunktion (loss function) lässt sich schreiben als nÿ! " 2 L(w) = yi w 0 x (i,0) w 1 x (i,1)... w m x (i,m) i=1 =(y Xw) T (y Xw) 30

31 Analytische Bestimmung optimaler Parameter Zum Bestimmen der optimalen Parameter müssen wir folgendes Optimierungsproblem lösen arg min w L(w) =(y Xw) T (y Xw) Vorgehensweise ist analog zum einfachen Fall, bedient sich jedoch der Vektoranalysis 31

32 Analytische Bestimmung optimaler Parameter Schritt 1: Vereinfachen der Straffunktion L(w) =(y Xw) T (y Xw) (1) =(y T w T X T )(y Xw) (2) = y T y y T Xw w T X T y + w T X T Xw (3) = y T y 2 w T X T y + w T X T Xw (4) (1) nach (2) nutzt aus, dass (Xw) T = w T X T (3) nach (4) nutzt aus, dass y T Xw = (w T X T y) T = (w T X T y) 32

33 Analytische Bestimmung optimaler Parameter Schritt 2: Bestimmen der Ableitung nach w ˆL(w) ˆw = 2XT y +2X T Xw Hierbei wird ausgenutzt, dass gilt: ˆw T X T y ˆw = X T y ˆw T X T Xw ˆw =2X T Xw 33

34 Analytische Bestimmung optimaler Parameter Schritt 3: Bestimmen einer Nullstelle der Ableitung nach w 2X T y +2X T Xw! = 0 (1) 2 X T Xw = 2X T y (2) X T Xw = X T y (3) w = (X T X) 1 X T y (4) (3) nach (4) multipliziert beide Seiten von links mit der inversen Matrix (X T X) -1 Die inverse Matrix (X T X) -1 existiert dann, wenn die ursprüngliche Datenmatrix X vollen Spaltenrang hat, d.h. alle Spaltenvektoren sind linear unabhängig 34

35 Analytische Bestimmung optimaler Parameter Die inverse Matrix (X T X) -1 existiert nicht z.b. für folgende Datenmatrizen S 1 2 T 4 X = U1 3 6V X = S T 5 U V Allgemein existiert die inverse Matrix nicht, wenn es mehr Merkmale als Datenpunkte gibt (d.h. m > n) unabhängige Merkmale (d.h. Spaltenvektoren) existieren, die linear abhängig voneinander sind 35

36 Multiple lineare Regression in Python import numpy as np import pandas as pd import seaborn as sns import matplotlib.pyplot as plt from mpl_toolkits.mplot3d import Axes3D from sklearn import linear_model, metrics # Autodaten einlesen cars = pd.read_csv('../data/auto-mpg/auto-mpg.data', header=none, sep='\s+') # Verbrauchswerte extrahieren y = cars.iloc[:,0].values # Leistungs- und Gewichtswerte extrahieren X = cars.iloc[:,[3,4]].values # Plot erstellen #g = sns.regplot(x=x, y=y, fit_reg=false) # Einfache lineare Regression reg = linear_model.linearregression() reg.fit(x,y) # Plot erstellen fig = plt.figure() ax = fig.add_subplot(111, projection='3d') # Datenpunkte plotten for i in range(0,len(y)): ax.scatter(x[i,0], X[i,1], y[i], color='blue', marker='x') 36

37 Multiple lineare Regression in Python # Vorhersagewerte berechnen X0 = np.arange(min(x[:,0]), max(x[:,0]), 25) X1 = np.arange(min(x[:,1]), max(x[:,1]), 25) X0, X1 = np.meshgrid(x0, X1) Z = X0.copy() n = X0.shape[0] m = X0.shape[1] for i in range(0, n): for j in range(0, m): Z[i,j] = reg.predict([[x0[i,j], X1[i,j]]]) # Hyperebene Plotten ax.plot_surface(x0, X1, Z, color='red', linewidth=0, antialiased=false) # Plot beschriften ax.set_xlabel('leistung [hp]') ax.set_ylabel('gewicht [lbs]') ax.set_zlabel('verbrauch [mpg]') # Plot anzeigen plt.show() # Koeffizienten und Bestimmtheitsmaß ausgeben print('parameter:') print('w0: %f'%reg.intercept_) print('w1: %f'%reg.coef_[0]) print('w2: %f'%reg.coef_[1]) print('bestimmtheitsmaß') print('r2: %f'%metrics.r2_score(y,reg.predict(x))) 37

38 Multiple lineare Regression in Python Vollständiges Jupyter-Notebook unter:

39 2.3 Nominale und ordinale Merkmale Wie lassen sich nominale und ordinale Merkmale so kodieren, dass sie für lineare Regression und andere Verfahren verwendbar sind? Nominale Merkmale (z.b. Herkunft) werden in ein binäres Merkmal je in den Daten vorhandenem Wert kodiert (one-hot encoding) Herkunft Herkunft 1 Herkunft 2 Herkunft

40 Nominale und ordinale Merkmale Ordinale Merkmale (z.b. Energieeffizienzklasse) werden auf ganze Zahlen abgebildet, so dass die Ordnung der ursprünglichen Werte erhalten bleibt Energiee zienzklasse Energiee zienzklasse A C B Hierbei wird implizit angenommen, dass die Abstände zwischen benachbarten Werten gleich groß, d.h. diese äquidistant sind 40

41 Nominale und ordinale Merkmale in Python import pandas as pd # Autodaten einlesen cars = pd.read_csv('../data/auto-mpg/auto-mpg.data', header=none, sep='\s+') # Daten der ersten zehn Autos ausgeben print(cars.head(n=10), "\n") # Nominales Merkmal Herkunft kodieren origin_one_hot = pd.get_dummies(cars[7], prefix='origin') # Neue Merkmale mit ursprünglichen Daten konkatenieren cars = pd.concat([cars, origin_one_hot], axis=1) # Daten der ersten zehn Autos ausgeben print(cars.head(n=10), "\n") 41

42 Nominale und ordinale Merkmale in Python import numpy as np import pandas as pd # Daten mit einem metrischen und einem ordinalen Merkmal erzeugen data = pd.dataframe(np.matrix([[1.2,'a'], [2.1, 'B'], [1.7, 'C'], [3.2, 'A'], [4.2,'B']])) # Daten ausgeben print(data,"\n") # Ordnung der Werte angeben order = ['A', 'B', 'C'] # Ordinales Merkmal kodieren encoded_feature = data[1].astype("category", ordered=true, categories=order).cat.codes # Neues Merkmal mit urprünglichen Daten konkatenieren data = pd.concat([data, encoded_feature], axis=1) # Daten ausgeben print(data) Vollständiges Jupyter-Notebook unter:

43 Zusammenfassung Multiple lineare Regression sagt ein abhängiges metrisches Merkmal anhand mehrerer unabhängiger metrischer Merkmale voraus Optimale Parameter der Regressionshyperebene lassen sich analytisch bestimmen Nominale und ordinale Merkmale können so kodiert werden, dass sie für lineare Regression verwendbar sind 43

44 Literatur [1] L. Fahrmeir, R. Künstler, I. Pigeot und G. Tutz: Statistik Der Weg zur Datenanalyse, Springer, 2017 (Kapitel 12) [2] S. Raschka: Machine Learning in Python, mitp, 2017 (Kapitel 10) 44

Intuition: Wie lässt sich das abhängige Merkmal durch die unabhängigen Merkmale erklären?

Intuition: Wie lässt sich das abhängige Merkmal durch die unabhängigen Merkmale erklären? 3. Regression Motivation Regressionsanalysen modellieren den Zusammenhang zwischen einem oder mehreren unabhängigen Merkmalen (z.b. Gewicht und PS) und einem abhängigen Merkmal (z.b. Verbrauch) Intuition:

Mehr

Inhalt. 4.1 Motivation. 4.2 Evaluation. 4.3 Logistische Regression. 4.4 k-nächste Nachbarn. 4.5 Naïve Bayes. 4.6 Entscheidungsbäume

Inhalt. 4.1 Motivation. 4.2 Evaluation. 4.3 Logistische Regression. 4.4 k-nächste Nachbarn. 4.5 Naïve Bayes. 4.6 Entscheidungsbäume 4. Klassifikation Inhalt 4.1 Motivation 4.2 Evaluation 4.3 Logistische Regression 4.4 k-nächste Nachbarn 4.5 Naïve Bayes 4.6 Entscheidungsbäume 4.7 Support Vector Machines 4.8 Neuronale Netze 4.9 Ensemble-Methoden

Mehr

Statistik II. Lineare Regressionsrechnung. Wiederholung Skript 2.8 und Ergänzungen (Schira: Kapitel 4) Statistik II

Statistik II. Lineare Regressionsrechnung. Wiederholung Skript 2.8 und Ergänzungen (Schira: Kapitel 4) Statistik II Statistik II Lineare Regressionsrechnung Wiederholung Skript 2.8 und Ergänzungen (Schira: Kapitel 4) Statistik II - 09.06.2006 1 Mit der Kovarianz und dem Korrelationskoeffizienten können wir den statistischen

Mehr

Bivariate Regressionsanalyse

Bivariate Regressionsanalyse Universität Bielefeld 15. März 2005 Kovarianz, Korrelation und Regression Kovarianz, Korrelation und Regression Ausgangspunkt ist folgende Datenmatrix: Variablen 1 2... NI 1 x 11 x 12... x 1k 2 x 21 x

Mehr

3.5 Entscheidungsbäume

3.5 Entscheidungsbäume 3.5 Entscheidungsbäume Entscheidungsbäume (decision trees) sind diskriminative Verfahren zur Klassifikation in zwei oder mehr Klassen; unabhängige Merkmale der Datenpunkte können nominal, ordinal oder

Mehr

Die Funktion f wird als Regressionsfunktion bezeichnet.

Die Funktion f wird als Regressionsfunktion bezeichnet. Regressionsanalyse Mit Hilfe der Techniken der klassischen Regressionsanalyse kann die Abhängigkeit metrischer (intervallskalierter) Zielgrößen von metrischen (intervallskalierten) Einflussgrößen untersucht

Mehr

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen) 3 Einfache lineare Regression Einfache lineare Modelle mit R 36 Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen) > summary(lm(y~x)) Call: lm(formula =

Mehr

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp Dr. Maike M. Burda Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 8.-10. Januar 2010 BOOTDATA.GDT: 250 Beobachtungen für die Variablen... cm:

Mehr

Karl Entacher. FH-Salzburg

Karl Entacher. FH-Salzburg Ahorn Versteinert Bernhard.Zimmer@fh-salzburg.ac.at Statistik @ HTK Karl Entacher FH-Salzburg karl.entacher@fh-salzburg.ac.at Beispiel 3 Gegeben sind 241 NIR Spektren (Vektoren der Länge 223) zu Holzproben

Mehr

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. mit dem R Commander. A Springer Spektrum

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. mit dem R Commander. A Springer Spektrum Franz Kronthaler Statistik angewandt Datenanalyse ist (k)eine Kunst mit dem R Commander A Springer Spektrum Inhaltsverzeichnis Teil I Basiswissen und Werkzeuge, um Statistik anzuwenden 1 Statistik ist

Mehr

1 x 1 y 1 2 x 2 y 2 3 x 3 y 3... n x n y n

1 x 1 y 1 2 x 2 y 2 3 x 3 y 3... n x n y n 3.2. Bivariate Verteilungen zwei Variablen X, Y werden gemeinsam betrachtet (an jedem Objekt werden gleichzeitig zwei Merkmale beobachtet) Beobachtungswerte sind Paare von Merkmalsausprägungen (x, y) Beispiele:

Mehr

13. Lösung weitere Übungsaufgaben Statistik II WiSe 2016/2017

13. Lösung weitere Übungsaufgaben Statistik II WiSe 2016/2017 13. Lösung weitere Übungsaufgaben Statistik II WiSe 2016/2017 1. Aufgabe: Für 25 der größten Flughäfen wurde die Anzahl der abgefertigten Passagiere in den Jahren 2009 und 2012 erfasst. Aus den Daten (Anzahl

Mehr

1 Beispiel zur Methode der kleinsten Quadrate

1 Beispiel zur Methode der kleinsten Quadrate 1 Beispiel zur Methode der kleinsten Quadrate 1.1 Daten des Beispiels t x y x*y x 2 ŷ ˆɛ ˆɛ 2 1 1 3 3 1 2 1 1 2 2 3 6 4 3.5-0.5 0.25 3 3 4 12 9 5-1 1 4 4 6 24 16 6.5-0.5 0.25 5 5 9 45 25 8 1 1 Σ 15 25

Mehr

Korrelation - Regression. Berghold, IMI

Korrelation - Regression. Berghold, IMI Korrelation - Regression Zusammenhang zwischen Variablen Bivariate Datenanalyse - Zusammenhang zwischen 2 stetigen Variablen Korrelation Einfaches lineares Regressionsmodell 1. Schritt: Erstellung eines

Mehr

Korrelation und Regression

Korrelation und Regression FB 1 W. Ludwig-Mayerhofer und 1 und FB 1 W. Ludwig-Mayerhofer und 2 Mit s- und sanalyse werden Zusammenhänge zwischen zwei metrischen Variablen analysiert. Wenn man nur einen Zusammenhang quantifizieren

Mehr

Das Lineare Regressionsmodell

Das Lineare Regressionsmodell Das Lineare Regressionsmodell Bivariates Regressionsmodell Verbrauch eines Pkw hängt vom Gewicht des Fahrzeugs ab Hypothese / Theorie: Je schwerer ein Auto, desto mehr wird es verbrauchen Annahme eines

Mehr

k-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering

k-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering Rückblick k-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering Hierarchisches Clustering bestimmt eine Folge von Clusterings, die als Dendrogramm darstellbar

Mehr

Übung V Lineares Regressionsmodell

Übung V Lineares Regressionsmodell Universität Ulm 89069 Ulm Germany Dipl.-WiWi Michael Alpert Institut für Wirtschaftspolitik Fakultät für Mathematik und Wirtschaftswissenschaften Ludwig-Erhard-Stiftungsprofessur Sommersemester 2007 Übung

Mehr

Prof. Dr. Walter F. Tichy Dr. Matthias Müller Sommersemester 2006

Prof. Dr. Walter F. Tichy Dr. Matthias Müller Sommersemester 2006 Empirische Softwaretechnik Prof. Dr. Walter F. Tichy Dr. Matthias Müller Sommersemester 2006 1 Experiment zur Vererbungstiefe Softwaretechnik: die Vererbungstiefe ist kein guter Schätzer für den Wartungsaufwand

Mehr

Statistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management

Statistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management Statistik für Betriebswirtschaft und International Management Sommersemester 2014 Prof. Dr. Stefan Etschberger HSA Ausgangsdaten Bundesliga 2008/2009 Gegeben: Daten zu den 18 Vereinen der ersten Bundesliga

Mehr

Einführung in einige Teilbereiche der Wirtschaftsmathematik für Studierende des Wirtschaftsingenieurwesens

Einführung in einige Teilbereiche der Wirtschaftsmathematik für Studierende des Wirtschaftsingenieurwesens in einige Teilbereiche der für Studierende des Wirtschaftsingenieurwesens Sommersemester 2013 Hochschule Augsburg Graphische Repräsentation von Kontingenztabellen Beispiel Autounfälle Verletzung leicht

Mehr

Kapitel 8. Einfache Regression. Anpassen des linearen Regressionsmodells, OLS. Eigenschaften der Schätzer für das Modell

Kapitel 8. Einfache Regression. Anpassen des linearen Regressionsmodells, OLS. Eigenschaften der Schätzer für das Modell Kapitel 8 Einfache Regression Josef Leydold c 2006 Mathematische Methoden VIII Einfache Regression 1 / 21 Lernziele Lineares Regressionsmodell Anpassen des linearen Regressionsmodells, OLS Eigenschaften

Mehr

6.2 Lineare Regression

6.2 Lineare Regression 6.2 Lineare Regression Einfache lineare Regression (vgl. Kap. 4.7) Y i = θ 0 + θ 1 X i + ǫ i ǫ i (0, σ 2 ) ˆθ 1 ˆθ 0 = S XY S 2 X = 1 ( Yi n ˆθ ) 1 Xi als Lösung der Minimumaufgabe n (Y i θ 1 X 1 θ 0 )

Mehr

Statistik II Übung 1: Einfache lineare Regression

Statistik II Übung 1: Einfache lineare Regression Statistik II Übung 1: Einfache lineare Regression Diese Übung beschäftigt sich mit dem Zusammenhang zwischen dem Lohneinkommen von sozial benachteiligten Individuen (16-24 Jahre alt) und der Anzahl der

Mehr

Eine zweidimensionale Stichprobe

Eine zweidimensionale Stichprobe Eine zweidimensionale Stichprobe liegt vor, wenn zwei qualitative Merkmale gleichzeitig betrachtet werden. Eine Urliste besteht dann aus Wertepaaren (x i, y i ) R 2 und hat die Form (x 1, y 1 ), (x 2,

Mehr

Statistik II Übung 1: Einfache lineare Regression

Statistik II Übung 1: Einfache lineare Regression Statistik II Übung 1: Einfache lineare Regression Diese Übung beschäftigt sich mit dem Zusammenhang zwischen dem Lohneinkommen von sozial benachteiligten Individuen (16-24 Jahre alt) und der Anzahl der

Mehr

Drittvariablenkontrolle in der linearen Regression: Trivariate Regression

Drittvariablenkontrolle in der linearen Regression: Trivariate Regression Drittvariablenkontrolle in der linearen Regression: Trivariate Regression 14. Januar 2002 In der Tabellenanalyse wird bei der Drittvariablenkontrolle für jede Ausprägung der Kontrollvariablen eine Partialtabelle

Mehr

Vorlesung: Statistik I für Studierende der Statistik, Mathematik & Informatik. Regression. Einfache lineare Regression

Vorlesung: Statistik I für Studierende der Statistik, Mathematik & Informatik. Regression. Einfache lineare Regression Vorlesung: Statistik I für Studierende der Statistik, Mathematik & Informatik Regression Dozent: Fabian Scheipl Material: H. Küchenhoff LMU München 39 Einfache lineare Regression Bestimmung der Regressionsgerade

Mehr

Kapitel 7. Regression und Korrelation. 7.1 Das Regressionsproblem

Kapitel 7. Regression und Korrelation. 7.1 Das Regressionsproblem Kapitel 7 Regression und Korrelation Ein Regressionsproblem behandelt die Verteilung einer Variablen, wenn mindestens eine andere gewisse Werte in nicht zufälliger Art annimmt. Ein Korrelationsproblem

Mehr

Regression und Korrelation

Regression und Korrelation Kapitel 7 Regression und Korrelation Ein Regressionsproblem behandeltdie VerteilungeinerVariablen, wenn mindestens eine andere gewisse Werte in nicht zufälliger Art annimmt. Ein Korrelationsproblem dagegen

Mehr

Statistik, Datenanalyse und Simulation

Statistik, Datenanalyse und Simulation Dr. Michael O. Distler distler@kph.uni-mainz.de Mainz, 31. Mai 2011 4. Methode der kleinsten Quadrate Geschichte: Von Legendre, Gauß und Laplace zu Beginn des 19. Jahrhunderts eingeführt. Die Methode der

Mehr

1 (2π) m/2 det (Σ) exp 1 ]

1 (2π) m/2 det (Σ) exp 1 ] Multivariate Normalverteilung: m=1: Y N(µ; σ 2 ) Erwartungswert: µ Varianz: σ 2 f Y (y) = f Y1 Y 2...Y m (y 1,y 2,...,y m ) = [ 1 exp 1 ] 2πσ 2 2 (y µ)2 /σ 2 Σ: m m-matrix, symmetrisch, positiv definit.

Mehr

2. Stochastische ökonometrische Modelle. - Modelle der ökonomischen Theorie an der Wirklichkeit überprüfen

2. Stochastische ökonometrische Modelle. - Modelle der ökonomischen Theorie an der Wirklichkeit überprüfen .1. Stochastische ökonometrische Modelle.1 Einführung Ziele: - Modelle der ökonomischen Theorie an der Wirklichkeit überprüfen - Numerische Konkretisierung ökonomischer Modelle und deren Analse. . Variierende

Mehr

1 Einfachregression 1.1In 10 Haushalten wurden Einkommen und Ausgaben für Luxusgüter erfragt:

1 Einfachregression 1.1In 10 Haushalten wurden Einkommen und Ausgaben für Luxusgüter erfragt: Beispiele zum Üben und Wiederholen zu Wirtschaftsstatistik 2 (Kurs 3) 1 Einfachregression 1.1In 10 Haushalten wurden Einkommen und Ausgaben für Luxusgüter erfragt: Haushaltseinkommen 12 24 30 40 80 60

Mehr

Das (multiple) Bestimmtheitsmaß R 2. Beispiel: Ausgaben in Abhängigkeit vom Einkommen (I) Parameterschätzer im einfachen linearen Regressionsmodell

Das (multiple) Bestimmtheitsmaß R 2. Beispiel: Ausgaben in Abhängigkeit vom Einkommen (I) Parameterschätzer im einfachen linearen Regressionsmodell 1 Lineare Regression Parameterschätzung 13 Im einfachen linearen Regressionsmodell sind also neben σ ) insbesondere β 1 und β Parameter, deren Schätzung für die Quantifizierung des linearen Zusammenhangs

Mehr

Inhaltsverzeichnis. Teil 1 Basiswissen und Werkzeuge, um Statistik anzuwenden

Inhaltsverzeichnis. Teil 1 Basiswissen und Werkzeuge, um Statistik anzuwenden Inhaltsverzeichnis Teil 1 Basiswissen und Werkzeuge, um Statistik anzuwenden 1 Statistik ist Spaß 3 Warum Statistik? 3 Checkpoints 4 Daten 4 Checkpoints 7 Skalen - lebenslang wichtig bei der Datenanalyse

Mehr

4.1. Verteilungsannahmen des Fehlers. 4. Statistik im multiplen Regressionsmodell Verteilungsannahmen des Fehlers

4.1. Verteilungsannahmen des Fehlers. 4. Statistik im multiplen Regressionsmodell Verteilungsannahmen des Fehlers 4. Statistik im multiplen Regressionsmodell In diesem Kapitel wird im Abschnitt 4.1 zusätzlich zu den schon bekannten Standardannahmen noch die Annahme von normalverteilten Residuen hinzugefügt. Auf Basis

Mehr

Anwendungen der Differentialrechnung

Anwendungen der Differentialrechnung KAPITEL 3 Anwendungen der Differentialrechnung 3.1 Lokale Maxima und Minima Definition 16: Sei f : D R eine Funktion von n Veränderlichen. Ein Punkt x heißt lokale oder relative Maximalstelle bzw. Minimalstelle

Mehr

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg. für Betriebswirtschaft und internationales Management

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg. für Betriebswirtschaft und internationales Management für Betriebswirtschaft und internationales Management Sommersemester 2015 Prof. Dr. Stefan Etschberger Hochschule Augsburg Preismesszahl: Misst Preisveränderung eines einzelnen Gutes: Preis zum Zeitpunkt

Mehr

TEIL 13: DIE EINFACHE LINEARE REGRESSION

TEIL 13: DIE EINFACHE LINEARE REGRESSION TEIL 13: DIE EINFACHE LINEARE REGRESSION Die einfache lineare Regression Grundlagen Die einfache lineare Regression ist ebenfalls den bivariaten Verfahren für metrische Daten zuzuordnen 1 Sie hat einen

Mehr

Ziel der linearen Regression

Ziel der linearen Regression Regression 1 Ziel der linearen Regression Bei der linearen Regression wird untersucht, in welcher Weise eine abhängige metrische Variable durch eine oder mehrere unabhängige metrische Variablen durch eine

Mehr

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 7.-9.

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 7.-9. Dr. Maike M. Burda Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 7.-9. Januar 2011 BOOTDATA11.GDT: 250 Beobachtungen für die Variablen...

Mehr

Zusammenhänge zwischen metrischen Merkmalen

Zusammenhänge zwischen metrischen Merkmalen Zusammenhänge zwischen metrischen Merkmalen Darstellung des Zusammenhangs, Korrelation und Regression Daten liegen zu zwei metrischen Merkmalen vor: Datenpaare (x i, y i ), i = 1,..., n Beispiel: x: Anzahl

Mehr

Bivariate Zusammenhänge

Bivariate Zusammenhänge Bivariate Zusammenhänge 40 60 80 Bivariater Zusammenhang: Zusammenhang zwischen zwei Variablen weight (kg) Gibt es einen Zusammenhang zwischen Größe & Gewicht? (am Beispieldatensatz) Offensichtlich positiver

Mehr

Der Korrelationskoezient nach Pearson

Der Korrelationskoezient nach Pearson Der Korrelationskoezient nach Pearson 1 Motivation In der Statistik werden wir uns häug mit empirisch erfassten Daten beschäftigen. Um diese auszuwerten, ist es oftmals notwendig einen Zusammenhang zwischen

Mehr

X =, y In welcher Annahme unterscheidet sich die einfache KQ Methode von der ML Methode?

X =, y In welcher Annahme unterscheidet sich die einfache KQ Methode von der ML Methode? Aufgabe 1 (25 Punkte) Zur Schätzung der Produktionsfunktion des Unternehmens WV wird ein lineares Regressionsmodell der Form angenommen. Dabei ist y t = β 1 + x t2 β 2 + e t, t = 1,..., T (1) y t : x t2

Mehr

Forschungsstatistik I

Forschungsstatistik I Prof. Dr. G. Meinhardt 2. Stock, Nordflügel R. 02-429 (Persike) R. 02-431 (Meinhardt) Sprechstunde jederzeit nach Vereinbarung Forschungsstatistik I Dr. Malte Persike persike@uni-mainz.de http://psymet03.sowi.uni-mainz.de/

Mehr

Statistik. Ludwig Fahrmeir Rita Künstler Iris Pigeot Gerhard Tutz. Der Weg zur Datenanalyse. Springer. Zweite, verbesserte Auflage

Statistik. Ludwig Fahrmeir Rita Künstler Iris Pigeot Gerhard Tutz. Der Weg zur Datenanalyse. Springer. Zweite, verbesserte Auflage Ludwig Fahrmeir Rita Künstler Iris Pigeot Gerhard Tutz Statistik Der Weg zur Datenanalyse Zweite, verbesserte Auflage Mit 165 Abbildungen und 34 Tabellen Springer Inhaltsverzeichnis Vorwort v 1 Einführung

Mehr

Statistik Vorlesung 7 (Lineare Regression)

Statistik Vorlesung 7 (Lineare Regression) Statistik Vorlesung 7 (Lineare Regression) K.Gerald van den Boogaart http://www.stat.boogaart.de/ Statistik p.1/77 Gerade als Vereinfachung Wachstum bei Kindern height 76 78 80 82 18 20 22 24 26 28 age

Mehr

Serie 8: Fakultativer Online-Test

Serie 8: Fakultativer Online-Test Prof Norbert Hungerbühler Lineare Algebra I Serie 8: Fakultativer Online-Test ETH Zürich - D-MAVT HS 215 1 Diese Serie besteht nur aus Multiple-Choice-Aufgaben und wird nicht vorbesprochen Die Nachbesprechung

Mehr

2. Generieren Sie deskriptive Statistiken (Mittelwert, Standardabweichung) für earny3 und kidsunder6yr3 und kommentieren Sie diese kurz.

2. Generieren Sie deskriptive Statistiken (Mittelwert, Standardabweichung) für earny3 und kidsunder6yr3 und kommentieren Sie diese kurz. Statistik II Übung : Einfache lineare Regression Diese Übung beschäftigt sich mit dem Zusammenhang zwischen dem Lohneinkommen von sozial benachteiligten Individuen (6-24 Jahre alt) und der Anzahl der unter

Mehr

Elementare Regressionsrechnung

Elementare Regressionsrechnung Elementare Regressionsrechnung Motivation: Streudiagramm zweier metrisch skalierter Merkmale X und Y Y X Dr. Karsten Webel 107 Ziel: Erfassung des Zusammenhangs zwischen X und Y durch eine Gerade der Form

Mehr

Mathematik III - Statistik für MT(Master)

Mathematik III - Statistik für MT(Master) 3. Regressionsanalyse Fachbereich Grundlagenwissenschaften Prof. Dr. Viola Weiß Wintersemester 0/03 Mathematik III - Statistik für MTMaster 3. Empirische Regressionsgerade Optimalitätskriterium: Die Summe

Mehr

13 Mehrdimensionale Zufallsvariablen Zufallsvektoren

13 Mehrdimensionale Zufallsvariablen Zufallsvektoren 3 Mehrdimensionale Zufallsvariablen Zufallsvektoren Bisher haben wir uns ausschließlich mit Zufallsexperimenten beschäftigt, bei denen die Beobachtung eines einzigen Merkmals im Vordergrund stand. In diesem

Mehr

Diagnostik von Regressionsmodellen (1)

Diagnostik von Regressionsmodellen (1) Diagnostik von Regressionsmodellen (1) Bei Regressionsanalysen sollte immer geprüft werden, ob das Modell angemessen ist und ob die Voraussetzungen eines Regressionsmodells erfüllt sind. Das Modell einer

Mehr

Vorlesung 8a. Kovarianz und Korrelation

Vorlesung 8a. Kovarianz und Korrelation Vorlesung 8a Kovarianz und Korrelation 1 Wir erinnern an die Definition der Kovarianz Für reellwertige Zufallsvariable X, Y mit E[X 2 ] < und E[Y 2 ] < ist Cov[X, Y ] := E [ (X EX)(Y EY ) ] Insbesondere

Mehr

Statistik II. IV. Hypothesentests. Martin Huber

Statistik II. IV. Hypothesentests. Martin Huber Statistik II IV. Hypothesentests Martin Huber 1 / 41 Übersicht Struktur eines Hypothesentests Stichprobenverteilung t-test: Einzelner-Parameter-Test F-Test: Multiple lineare Restriktionen 2 / 41 Struktur

Mehr

Multivariate Verfahren

Multivariate Verfahren Multivariate Verfahren Oliver Muthmann 31. Mai 2007 Gliederung 1 Einführung 2 Varianzanalyse (MANOVA) 3 Regressionsanalyse 4 Faktorenanalyse Hauptkomponentenanalyse 5 Clusteranalyse 6 Zusammenfassung Komplexe

Mehr

Teil: lineare Regression

Teil: lineare Regression Teil: lineare Regression 1 Einführung 2 Prüfung der Regressionsfunktion 3 Die Modellannahmen zur Durchführung einer linearen Regression 4 Dummyvariablen 1 Einführung o Eine statistische Methode um Zusammenhänge

Mehr

Einführung in die Statistischen Methoden und GRETL - Übung

Einführung in die Statistischen Methoden und GRETL - Übung Einführung in die Statistischen Methoden und GRETL - Übung Andrija Mihoci Elena Silyakova Ladislaus von Bortkiewicz Chair of Statistics Humboldt Universität zu Berlin http://lvb.wiwi.hu-berlin.de Motivation

Mehr

Inhaltsverzeichnis Grundlagen aufigkeitsverteilungen Maßzahlen und Grafiken f ur eindimensionale Merkmale

Inhaltsverzeichnis Grundlagen aufigkeitsverteilungen Maßzahlen und Grafiken f ur eindimensionale Merkmale 1. Grundlagen... 1 1.1 Grundgesamtheit und Untersuchungseinheit................ 1 1.2 Merkmal oder statistische Variable........................ 2 1.3 Datenerhebung.........................................

Mehr

Musterlösung zur Übungsklausur Statistik

Musterlösung zur Übungsklausur Statistik Musterlösung zur Übungsklausur Statistik WMS15B Oettinger 9/216 Aufgabe 1 (a) Falsch: der Modus ist die am häufigsten auftretende Merkmalsausprägung in einer Stichprobe. (b) Falsch: die beiden Größen sind

Mehr

STATISTIK 2 Teil 1 Regressionsanalyse Von: Anne Schmidt. Anordnung von Zahlen in Zeilen und Spalten (Tabelle)

STATISTIK 2 Teil 1 Regressionsanalyse Von: Anne Schmidt. Anordnung von Zahlen in Zeilen und Spalten (Tabelle) Kapitel 2 Deskriptive lineare Regression 2.1. Einführung Definition Regressionsanalyse Unterschied zu Varianzanalyse Matrix/ Matrizen Indices Vektor Decken Zusammenhänge zwischen Beobachtungsreihen auf,

Mehr

Statistische Methoden in den Umweltwissenschaften

Statistische Methoden in den Umweltwissenschaften Statistische Methoden in den Umweltwissenschaften Korrelationsanalysen Kreuztabellen und χ²-test Themen Korrelation oder Lineare Regression? Korrelationsanalysen - Pearson, Spearman-Rang, Kendall s Tau

Mehr

9 Faktorenanalyse. Wir gehen zunächst von dem folgenden Modell aus (Modell der Hauptkomponentenanalyse): Z = F L T

9 Faktorenanalyse. Wir gehen zunächst von dem folgenden Modell aus (Modell der Hauptkomponentenanalyse): Z = F L T 9 Faktorenanalyse Ziel der Faktorenanalyse ist es, die Anzahl der Variablen auf wenige voneinander unabhängige Faktoren zu reduzieren und dabei möglichst viel an Information zu erhalten. Hier wird davon

Mehr

Multiple Regressionsanalyse - Kurzabriss

Multiple Regressionsanalyse - Kurzabriss Multiple Regressionsanalyse - Kurzabriss Ziele: Schätzung eines Kriteriums aus einer Linearkombination von Prädiktoren Meist zu Screening-Untersuchungen, um den Einfluß von vermuteten Ursachenvariablen

Mehr

Prognoseintervalle für y 0 gegeben x 0

Prognoseintervalle für y 0 gegeben x 0 10 Lineare Regression Punkt- und Intervallprognosen 10.5 Prognoseintervalle für y 0 gegeben x 0 Intervallprognosen für y 0 zur Vertrauenswahrscheinlichkeit 1 α erhält man also analog zu den Intervallprognosen

Mehr

Statistik. R. Frühwirth. Statistik. VO Februar R. Frühwirth Statistik 1/536

Statistik. R. Frühwirth. Statistik. VO Februar R. Frühwirth Statistik 1/536 fru@hephy.oeaw.ac.at VO 142.090 http://tinyurl.com/tu142090 Februar 2010 1/536 Übersicht über die Vorlesung Teil 1: Deskriptive Teil 2: Wahrscheinlichkeitsrechnung Teil 3: Zufallsvariable Teil 4: Parameterschätzung

Mehr

Regression ein kleiner Rückblick. Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate

Regression ein kleiner Rückblick. Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate Regression ein kleiner Rückblick Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate 05.11.2009 Gliederung 1. Stochastische Abhängigkeit 2. Definition Zufallsvariable 3. Kennwerte 3.1 für

Mehr

Streuungsmaße von Stichproben

Streuungsmaße von Stichproben Streuungsmaße von Stichproben S P A N N W E I T E, V A R I A N Z, S T A N D A R D A B W E I C H U N G, Q U A R T I L E, K O V A R I A N Z, K O R R E L A T I O N S K O E F F I Z I E N T Zentrale Methodenlehre,

Mehr

Bivariate lineare Regression. Statistik für SozialwissenschaftlerInnen II p.154

Bivariate lineare Regression. Statistik für SozialwissenschaftlerInnen II p.154 Bivariate lineare Regression Statistik für SozialwissenschaftlerInnen II p.154 Grundidee und Typen der Regression Die Regressionsanalyse dient zur Quantifizierung des Zusammenhangs und der statistisch

Mehr

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien Deskription, Statistische Testverfahren und Regression Seminar: Planung und Auswertung klinischer und experimenteller Studien Deskriptive Statistik Deskriptive Statistik: beschreibende Statistik, empirische

Mehr

Varianz und Kovarianz

Varianz und Kovarianz KAPITEL 9 Varianz und Kovarianz 9.1. Varianz Definition 9.1.1. Sei (Ω, F, P) ein Wahrscheinlichkeitsraum und X : Ω eine Zufallsvariable. Wir benutzen die Notation (1) X L 1, falls E[ X ]

Mehr

a 11 a 12 a 1(m 1) a 1m a n1 a n2 a n(m 1) a nm Matrizen Betrachten wir das nachfolgende Rechteckschema:

a 11 a 12 a 1(m 1) a 1m a n1 a n2 a n(m 1) a nm Matrizen Betrachten wir das nachfolgende Rechteckschema: Matrizen Betrachten wir das nachfolgende Rechteckschema: a 12 a 1(m 1 a 1m a n1 a n2 a n(m 1 a nm Ein solches Schema nennt man (n m-matrix, da es aus n Zeilen und m Spalten besteht Jeder einzelne Eintrag

Mehr

Statistik I. Hinweise zur Bearbeitung. Aufgabe 1

Statistik I. Hinweise zur Bearbeitung. Aufgabe 1 Statistik I, SS 2002, Seite 1 von 8 Statistik I Hinweise zur Bearbeitung Hilfsmittel: - Taschenrechner (ohne Datenbank oder die Möglichkeit diesen zu programmieren) - Formelsammlung im Umfang von einer

Mehr

Formelsammlung für das Modul. Statistik 2. Bachelor. Sven Garbade

Formelsammlung für das Modul. Statistik 2. Bachelor. Sven Garbade Version 2015 Formelsammlung für das Modul Statistik 2 Bachelor Sven Garbade Prof. Dr. phil. Dipl.-Psych. Sven Garbade Fakultät für Angewandte Psychologie SRH Hochschule Heidelberg sven.garbade@hochschule-heidelberg.de

Mehr

Wertetabelle für eine Gleichung

Wertetabelle für eine Gleichung 1 Wertetabelle für eine Gleichung Wie läßt sich für eine gegebene Gleichung eine Wertetabelle erstellen? - um die Daten zu exportieren - um die Daten in einem Plot darzustellen Wir betrachten diese SigmaPlot-Funktionen

Mehr

Die Datenmatrix für Überwachtes Lernen

Die Datenmatrix für Überwachtes Lernen Die Datenmatrix für Überwachtes Lernen X j j-te Eingangsvariable X = (X 0,..., X M 1 ) T Vektor von Eingangsvariablen M Anzahl der Eingangsvariablen N Anzahl der Datenpunkte Y Ausgangsvariable x i = (x

Mehr

Assoziation & Korrelation

Assoziation & Korrelation Statistik 1 für SoziologInnen Assoziation & Korrelation Univ.Prof. Dr. Marcus Hudec Einleitung Bei Beobachtung von Merkmalen stellt sich die Frage, ob es Zusammenhänge oder Abhängigkeiten zwischen den

Mehr

Tests einzelner linearer Hypothesen I

Tests einzelner linearer Hypothesen I 4 Multiple lineare Regression Tests einzelner linearer Hypothesen 4.5 Tests einzelner linearer Hypothesen I Neben Tests für einzelne Regressionsparameter sind auch Tests (und Konfidenzintervalle) für Linearkombinationen

Mehr

Eine Einführung in R: Das Lineare Modell

Eine Einführung in R: Das Lineare Modell Eine Einführung in R: Das Lineare Modell Bernd Klaus, Verena Zuber Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig 6. Januar 2009 Bernd Klaus, Verena Zuber

Mehr

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester Statistik mit SPSS

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester Statistik mit SPSS Sommersemester 2009 Statistik mit SPSS 15. Mai 2009 15. Mai 2009 Statistik Dozentin: mit Esther SPSSOchoa Fernández 1 Überblick 1. Korrelation vs. Regression 2. Ziele der Regressionsanalyse 3. Syntax für

Mehr

Inhaltsverzeichnis: Aufgaben zur Vorlesung Statistik Seite 1 von 10 Prof. Dr. Karin Melzer, Prof. Dr. Gabriele Gühring, Fakultät Grundlagen

Inhaltsverzeichnis: Aufgaben zur Vorlesung Statistik Seite 1 von 10 Prof. Dr. Karin Melzer, Prof. Dr. Gabriele Gühring, Fakultät Grundlagen Inhaltsverzeichnis: 1. Aufgabenlösungen... Lösung zu Aufgabe 1:... Lösung zu Aufgabe... Lösung zu Aufgabe 3... Lösung zu Aufgabe 4... Lösung zu Aufgabe 5... 3 Lösung zu Aufgabe... 3 Lösung zu Aufgabe 7...

Mehr

4. Verteilungen von Funktionen von Zufallsvariablen

4. Verteilungen von Funktionen von Zufallsvariablen 4. Verteilungen von Funktionen von Zufallsvariablen Allgemeine Problemstellung: Gegeben sei die gemeinsame Verteilung der ZV en X 1,..., X n (d.h. bekannt seien f X1,...,X n bzw. F X1,...,X n ) Wir betrachten

Mehr

Statistik. Ronald Balestra CH St. Peter

Statistik. Ronald Balestra CH St. Peter Statistik Ronald Balestra CH - 7028 St. Peter www.ronaldbalestra.ch 17. Januar 2010 Inhaltsverzeichnis 1 Statistik 1 1.1 Beschreibende Statistik....................... 1 1.2 Charakterisierung von Häufigkeitsverteilungen...........

Mehr

Breusch-Pagan-Test I auf Heteroskedastie in den Störgrößen

Breusch-Pagan-Test I auf Heteroskedastie in den Störgrößen Breusch-Pagan-Test I Ein weiterer Test ist der Breusch-Pagan-Test. Im Gegensatz zum Goldfeld-Quandt-Test ist es nicht erforderlich, eine (einzelne) Quelle der Heteroskedastizität anzugeben bzw. zu vermuten.

Mehr

Kurs Empirische Wirtschaftsforschung

Kurs Empirische Wirtschaftsforschung Kurs Empirische Wirtschaftsforschung 5. Bivariates Regressionsmodell 1 Martin Halla Institut für Volkswirtschaftslehre Johannes Kepler Universität Linz 1 Lehrbuch: Bauer/Fertig/Schmidt (2009), Empirische

Mehr

Assoziation & Korrelation

Assoziation & Korrelation Statistik 1 für SoziologInnen Assoziation & Korrelation Univ.Prof. Dr. Marcus Hudec Einleitung Bei Beobachtung von 2 Merkmalen stellt sich die Frage, ob es Zusammenhänge oder Abhängigkeiten zwischen den

Mehr

Dynamische Systeme und Zeitreihenanalyse // Beschreiben von Zeitreihen 9 p.2/??

Dynamische Systeme und Zeitreihenanalyse // Beschreiben von Zeitreihen 9 p.2/?? Dynamische Systeme und Zeitreihenanalyse Beschreiben von Zeitreihen Kapitel 9 Statistik und Mathematik WU Wien Michael Hauser Dynamische Systeme und Zeitreihenanalyse // Beschreiben von Zeitreihen 9 p.0/??

Mehr

Inhaltsverzeichnis. Vorwort. 1 Einführung in die multivariate Datenanalyse 1

Inhaltsverzeichnis. Vorwort. 1 Einführung in die multivariate Datenanalyse 1 V Inhaltsverzeichnis Vorwort XI 1 Einführung in die multivariate Datenanalyse 1 1.1 Was ist multivariate Datenanalyse? 1 1.2 Datensätze in der multivariaten Datenanalyse 4 1.3 Ziele der multivariaten Datenanalyse

Mehr

Häufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln

Häufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln Häufigkeitstabellen Menüpunkt Data PivotTable Report (bzw. entsprechendes Icon): wähle Data Range (Zellen, die die Daten enthalten + Zelle mit Variablenname) wähle kategoriale Variable für Spalten- oder

Mehr

9.3 Lineare Regression

9.3 Lineare Regression 9.3 Lineare Regression 115 A B C D E F G H 1 2 Pearsonscher Korrelationskoeffizient 3 4 5 6 x-werte y-werte ANALYSE ASSISTENT 7 2,4-4 8 3,2-1 9 8,3 6,4 Spalte 1 Spalte 2 10 6,4 6 Spalte 1 1 11 7,2 6,3

Mehr

Statistische Methoden der Datenanalyse Wintersemester 2012/2013 Albert-Ludwigs-Universität Freiburg

Statistische Methoden der Datenanalyse Wintersemester 2012/2013 Albert-Ludwigs-Universität Freiburg Statistische Methoden der Datenanalyse Wintersemester 2012/2013 Albert-Ludwigs-Universität Freiburg Prof. Markus Schumacher, Dr. Stan Lai Physikalisches Institut Westbau 2 OG Markus.Schumacher@physik.uni-freiburg.de

Mehr

Grundlagen der Statistik I

Grundlagen der Statistik I NWB-Studienbücher Wirtschaftswissenschaften Grundlagen der Statistik I Beschreibende Verfahren Von Professor Dr. Jochen Schwarze 10. Auflage Verlag Neue Wirtschafts-Briefe Herne/Berlin Inhaltsverzeichnis

Mehr

Musterlösung. Modulklausur Multivariate Verfahren

Musterlösung. Modulklausur Multivariate Verfahren Musterlösung Modulklausur 31821 Multivariate Verfahren 25. September 2015 Aufgabe 1 (15 Punkte) Kennzeichnen Sie die folgenden Aussagen zur Regressionsanalyse mit R für richtig oder F für falsch. F Wenn

Mehr

Hypothesentests mit SPSS

Hypothesentests mit SPSS Beispiel für eine einfache Regressionsanalyse (mit Überprüfung der Voraussetzungen) Daten: bedrohfb_v07.sav Hypothese: Die Skalenwerte auf der ATB-Skala (Skala zur Erfassung der Angst vor terroristischen

Mehr

Korrelation und Regression

Korrelation und Regression Professur E-Learning und Neue Medien Institut für Medienforschung Philosophische Fakultät Einführung in die Statistik Korrelation und Regression Überblick Kovarianz und Korrelation Korrelation und Kausalität

Mehr

Statistik II. II. Univariates lineares Regressionsmodell. Martin Huber 1 / 27

Statistik II. II. Univariates lineares Regressionsmodell. Martin Huber 1 / 27 Statistik II II. Univariates lineares Regressionsmodell Martin Huber 1 / 27 Übersicht Definitionen (Wooldridge 2.1) Schätzmethode - Kleinste Quadrate Schätzer / Ordinary Least Squares (Wooldridge 2.2)

Mehr