Polynomiale Regression lässt sich mittels einer Transformation der Merkmale auf multiple lineare Regression zurückführen
|
|
- Angelika Boer
- vor 6 Jahren
- Abrufe
Transkript
1 Rückblick Polynomiale Regression lässt sich mittels einer Transformation der Merkmale auf multiple lineare Regression zurückführen Ridge Regression vermeidet Überanpassung, indem einfachere Modelle mit weniger Merkmalen, gemäß Ockhams Rasiermesser, bevorzugt werden Stochastisches Gradientenverfahren als universelles Optimierungsverfahren bei bekannten Gradienten 76
2 3.5 Validierung Systematische Vorgehensweise zum Messen der Güte eines Modells (z.b. Regressionsgerade) oder zum Vergleichen mehrerer konkurrierender Modelle Gütemaß von Anwendung und Art des Modells abhängig Bestimmtheitsmaß, Quadratischer Fehler für Regression R 2 = nq i=1 nq i=1 (ŷ i ȳ) 2 =1 (y i ȳ) 2 Recall und Precision für Klassifikation (vgl. Kapitel 5) nq i=1 nq i=1 (y i ŷ i ) 2 (y i ȳ) 2 77
3 Trainings-, Validierungs- und Testdaten Vorhersagekraft bzw. Verallgemeinerbarkeit eines Modells auf vorher unbekannten Daten ist zu messen Randomisierte Aufteilung der vorhandenen Daten in Trainingsdaten (z.b. 80%) werden verwendet, um ein Modell (z.b. Regressionsgerade) zu bestimmen Testdaten (z.b. 20%) werden verwendet, um die Güte des Modells auf unbekannten Daten zu messen Zusätzlich können Validierungsdaten (z.b. 10%) verwendet werden, um eines aus mehreren konkurrierenden Modellen auszuwählen 78
4 Kreuzvalidierung Verlässlichkeit der Validierung kann, insbesondere wenn relativ wenig Daten verfügbar sind, durch k-fache Kreuzvalidierung (k-fold cross validation) gesteigert werden Vorgehensweise: Teile verfügbare Daten in k gleich große Teile (folds) Verwende jeden Teil einmal als Testdaten für ein Modell, das auf den anderen (k-1) Teilen trainiert wurde Bestimme Gütemaß als arithmetisches Mittel aus diesen k Messungen 79
5 Beispiel: 5-fach Kreuzvalidierung Daten D1 D2 D3 D4 D5 Training Test D1 D2 D3 D4 D5 m 1 D1 D2 D3 D4 D5 m 2 D1 D2 D3 D4 D5 m 3 D1 D2 D3 D4 D5 D1 D2 D3 D4 D5 m 4 m 5 m = 1 5 5ÿ i=1 m i 80
6 Kreuzvalidierung in R (vgl. [2, Kapitel 8]) 1 require(bootstrap) 2 3 # Regression mit allen Merkmalen 4 fit <- lm(verbrauch Gewicht+Hubraum+PS+Zylinder+Beschleunigung+Jahr, 5 data=autos) 6 7 theta.fit <- function(x,y){lsfit(x,y)} 8 theta.predict <- function(fit,x){cbind(1,x)%*% fit$ coef} 9 10 x <- fit$ model[,2:ncol(fit$ model)] 11 y <- fit$ model[,1] # 10-fache Kreuzvalidierung 14 results <- crossval(x,y, theta.fit, theta.predict, ngroup=10) # Bestimmtheitsmaß ohne Kreuzvalidierung 17 r2 <- cor(y, fit$ fitted.values)ˆ # Bestimmtheitsmaß mit 10-facher Kreuzvalidierung 20 r2cv <- cor(y, results$cv.fit)ˆ2 R 2 ohne KV / R 2 mit 10-fach KV ca
7 3.6 Faktorenanalyse Welche unabhängigen Merkmale haben relativ großen Einfluss auf das zu erklärende abhängige Merkmal? Idee #1: Verwende Korrelationskoeffizient nach Pearson bestimme Korrelationskoeffizient zwischen jedem unabhängigen und dem zu erklärenden Merkmal ordne unabhängige Merkmale nach dem Wert ihrer Korrelation mit zu erklärendem Merkmal 82
8 Faktorenanalyse Beispiel: Korrelation mit Verbrauch Merkmal Korrelation Gewicht Hubraum PS Zylinder Beschleunigung Jahr Problem: Unabhängige Merkmale miteinander korreliert Hubraum und Zylinder haben Korrelationskoeffizient 0.95 wählt man eines aus, ist das andere Merkmal überflüssig 83
9 Faktorenanalyse Idee #2: Verwende Parameter (Koeffizienten) der optimalen Regressionshyperebene bei Betrachtung aller unabhängigen Merkmale Beispiel: Erklärung von Verbrauch durch die Merkmale Gewicht, Hubraum, PS, Zylinder, Beschleunigung und Jahr Parameter Merkmal Koe zient Gewicht Hubraum PS Zylinder Beschleunigung Jahr
10 Faktorenanalyse Problem: Werte der Koeffizienten hängen von Größenordnung der zugehörigen Merkmale ab Zylinder (Werte zwischen 3 und 8) großer Koeffizient Gewicht (Werte zwischen 732 und 2331) kleiner Koeffizient Idee #3: Transformiere Merkmale derart, dass alle die gleiche Größenordnung haben und die ermittelten Koeffizienten damit vergleichbar sind Normalisierung anhand minimalem und maximalem Wert Standardisierung unter Annahme einer Normalverteilung 85
11 Normalisierung Normalisierung (normalization) transformiert die Werte eines Merkmals x so, dass sie im Intervall [0,1] liegen x Õ = x x min x max x min mit x min und x max als minimaler und maximaler beobachteter (oder möglicher) Wert des Merkmals Ausreißer (z.b. durch Messfehler) sind problematisch 86
12 Standardisierung Standardisierung (standardization) nimmt an, dass die Werte eines Merkmals x normalverteilt sind und transformiert sie als x Õ = x µ mit geschätztem Mittelwert µ und Standardabweichung σ ˆ µ = 1 nÿ ı x i = Ù 1 nÿ (x n i µ) n 1 2 i=1 i=1 Transformierte Werte haben Mittelwert 0 und Standardabweichung 1 87
13 Faktorenanalyse Beispiel: Parameter (Koeffizienten) der optimalen Regressionshypereben nach Standardisierung des abhängigen und der unabhängigen Merkmale Parameter Merkmal Koe zient Gewicht Hubraum PS Zylinder Beschleunigung Jahr Beobachtung: Hubraum hat negativen Einfluss, Zylinder hat positiven Einfluss auf Verbrauch 88
14 Faktorenanalyse Interpretation: Koeffizienten spiegeln die erwartete Veränderung des abhängigen Merkmals (hier: Verbrauch) in Standardabweichungen bei Veränderung des zugehörigen unabhängigen Merkmals (z.b. Gewicht) um eine Standardabweichung an Problem: Unabhängige Merkmale miteinander korreliert 89
15 Faktorenanalyse Beispiel: Parameter (Koeffizienten) der optimalen Regressionshypereben nach Standardisierung des abhängigen und der unabhängigen Merkmale ohne Berücksichtigung von Zylinder Parameter Merkmal Koe zient Gewicht Hubraum PS Beschleunigung Jahr Beobachtung: Hubraum hat leicht positiven Einfluss 90
16 Faktorenanalyse Beispiel: Parameter (Koeffizienten) der optimalen Regressionshypereben nach Standardisierung des abhängigen und der unabhängigen Merkmale ohne Berücksichtigung von Hubraum Parameter Merkmal Koe zient Gewicht PS Zylinder Beschleunigung Jahr Beobachtung: Zylinder hat leicht positiven Einfluss 91
17 Faktorenanalyse Korrelierte unabhängige Merkmale (hier: Zylinder und Hubraum) erschweren die Faktorenanalyse, da der Einfluss eines Merkmals von den anderen betrachteten Merkmalen abhängt Idee #4: Betrachte mittlere Verbesserung im Bestimmtheitsmaß R 2, wenn unabhängiges Merkmal zu Teilmenge anderer unabhängiger Merkmale hinzugefügt wird rechenintensiv, da bei n unabhängigen Merkmalen Regressionsmodell für alle 2 n Teilmengen betrachtet werden müssen 92
18 Faktorenanalyse in R Faktorenanalyse mittels standardisierter Merkmale in R 1 # Merkmale standardisieren 2 autos_ standardized = scale(autos[c(" Verbrauch"," Gewicht"," Hubraum","PS", 3 " Zylinder"," Beschleunigung"," Jahr" )]) 4 5 # Regression mit standardisierten Merkmalen 6 fit <- lm(verbrauch Gewicht+Hubraum+PS+Zylinder+Beschleunigung+Jahr, 7 data=as. data. frame(autos_ standardized)) 8 9 # Koeffizienten anzeigen 10 coefficients(fit) 93
19 3.7 Kodierung nominaler und ordinaler Merkmale Wie lassen sich nominale Merkmale (z.b. Geschlecht, Herkunft) und ordinale Merkmale (z.b. Güteklasse) in einem Regressionsmodell berücksichtigen? Nominale Merkmale als binäre Merkmale kodiert ein binäres Merkmal pro Wert des nominalen Merkmals für jeden Datenpunkt nimmt genau eines der binären Merkmale den Wert 1 an; alle anderen den Wert 0 Beispiel: Herkunft mit Wert in {USA, Europa, Japan} wird zu HerkunftUSA, HerkunftEuropa, HerkunftJapan 94
20 Kodierung nominaler und ordinaler Merkmale Ordinale Merkmale als metrische Merkmale kodiert ein metrisches Merkmal pro nominalem Merkmal die Werte des nominalen Merkmals (z.b. Güteklasse A, B, C) werden in numerische Werte übersetzt (z.b. -1, 0, 1), so dass deren Ordnung erhalten bleibt alternativ, kann wie bei nominalen Merkmalen, eine Kodierung als binäre Merkmale erfolgen; die Ordnung der Werte geht dabei verloren 95
21 Kodierung nominaler Merkmale in R R erkennt und kodiert nominale Merkmale automatisch 1 # Merkmale außer Herkunft standardisieren 2 autos_ standardized = 3 cbind( scale(autos[c(" Verbrauch"," Gewicht"," Hubraum","PS", 4 " Zylinder"," Beschleunigung"," Jahr")]), 5 autos[c(" Herkunft" )]) 6 7 # Regression mit standardisierten Merkmalen 8 fit <- lm(verbrauch Gewicht+Hubraum+PS+Zylinder+Beschleunigung+Jahr+Herkunft 9 data=as. data. frame(autos_ standardized)) # Koeffizienten anzeigen 12 coefficients(fit) 96
22 Kodierung nominaler Merkmale in R R erkennt und kodiert nominale Merkmale automatisch; der alphabetisch kleinste Wert (hier: Europa) wird zum Standardwert und der Achsenabschnitt entspricht seinem Koeffizienten Parameter Merkmal Koe zient 0 HerkunftEuropa (Achsenabschnitt) Gewicht Hubraum PS Zylinder Beschleunigung Jahr HerkunftJapan HerkunftUSA
23 Zusammenfassung Vorhersagekraft eines Modells muss auf Daten gemessen werden, die nicht seiner Bestimmung verwendet wurden Kreuzvalidierung teilt Daten zufällig in gleich große Teile auf und verwendet jeden Teil einmal zum Testen der Güte Faktorenanalyse misst den Einfluss eines einzelnen unabhängigen Merkmals auf das zu erklärende Merkmal; Nominale und ordinale Merkmale lassen sich durch Kodierung in einem Regressionsmodell berücksichtigen 98
24 Literatur [1] L. Fahrmeir, R. Künstler, I. Pigeot und G. Tutz: Statistik Der Weg zur Datenanalyse, Springer 2012 [2] R. Kabacoff: R In Action, Manning 2015 [Kapitel 8] [3] N. Zumel und J. Mount: Practical Data Science with R, Manning
Inhalt. 4.1 Motivation. 4.2 Evaluation. 4.3 Logistische Regression. 4.4 k-nächste Nachbarn. 4.5 Naïve Bayes. 4.6 Entscheidungsbäume
4. Klassifikation Inhalt 4.1 Motivation 4.2 Evaluation 4.3 Logistische Regression 4.4 k-nächste Nachbarn 4.5 Naïve Bayes 4.6 Entscheidungsbäume 4.7 Support Vector Machines 4.8 Neuronale Netze 4.9 Ensemble-Methoden
MehrIntuition: Wie lässt sich das abhängige Merkmal durch die unabhängigen Merkmale erklären?
3. Regression Motivation Regressionsanalysen modellieren den Zusammenhang zwischen einem oder mehreren unabhängigen Merkmalen (z.b. Gewicht und PS) und einem abhängigen Merkmal (z.b. Verbrauch) Intuition:
Mehrk-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering
Rückblick k-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering Hierarchisches Clustering bestimmt eine Folge von Clusterings, die als Dendrogramm darstellbar
MehrTeil: lineare Regression
Teil: lineare Regression 1 Einführung 2 Prüfung der Regressionsfunktion 3 Die Modellannahmen zur Durchführung einer linearen Regression 4 Dummyvariablen 1 Einführung o Eine statistische Methode um Zusammenhänge
MehrDr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp
Dr. Maike M. Burda Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 8.-10. Januar 2010 BOOTDATA.GDT: 250 Beobachtungen für die Variablen... cm:
MehrIntuition: Wie lässt sich das abhängige Merkmal durch die unabhängigen Merkmale erklären?
2. Regression Motivation Regressionsanalysen modellieren den Zusammenhang zwischen einem oder mehreren unabhängigen Merkmalen (z.b. Gewicht und PS) und einem abhängigen Merkmal (z.b. Verbrauch) Intuition:
MehrRückblick. Entscheidungsunterstützende Systeme / Kapitel 4: Klassifikation
Rückblick k-nächste Nachbarn als distanzbasiertes Verfahren zur Klassifikation benötigt sinnvolles Distanzmaß und weist vorher unbekanntem Datenpunkt dann die häufigste Klasse seiner k nächsten Nachbarn
MehrInhaltsverzeichnis. 1 Über dieses Buch Zum Inhalt dieses Buches Danksagung Zur Relevanz der Statistik...
Inhaltsverzeichnis 1 Über dieses Buch... 11 1.1 Zum Inhalt dieses Buches... 13 1.2 Danksagung... 15 2 Zur Relevanz der Statistik... 17 2.1 Beispiel 1: Die Wahrscheinlichkeit, krank zu sein, bei einer positiven
MehrDr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 7.-9.
Dr. Maike M. Burda Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 7.-9. Januar 2011 BOOTDATA11.GDT: 250 Beobachtungen für die Variablen...
Mehr4.1. Verteilungsannahmen des Fehlers. 4. Statistik im multiplen Regressionsmodell Verteilungsannahmen des Fehlers
4. Statistik im multiplen Regressionsmodell In diesem Kapitel wird im Abschnitt 4.1 zusätzlich zu den schon bekannten Standardannahmen noch die Annahme von normalverteilten Residuen hinzugefügt. Auf Basis
MehrBivariate Regressionsanalyse
Universität Bielefeld 15. März 2005 Kovarianz, Korrelation und Regression Kovarianz, Korrelation und Regression Ausgangspunkt ist folgende Datenmatrix: Variablen 1 2... NI 1 x 11 x 12... x 1k 2 x 21 x
MehrTeil XII. Einfache Lineare Regression. Woche 10: Lineare Regression. Lernziele. Zusammenfassung. Patric Müller
Woche 10: Lineare Regression Patric Müller Teil XII Einfache Lineare Regression ETHZ WBL 17/19, 03.07.2017 Wahrscheinlichkeit und Statistik Patric Müller WBL 2017 Wahrscheinlichkeit
MehrVorlesung: Lineare Modelle. Verschiedene Typen von Residuen. Probleme bei der Regression und Diagnose. Prof. Dr. Helmut Küchenhoff.
Vorlesung: Lineare Modelle Prof. Dr. Helmut Küchenhoff Institut für Statistik, LMU München SoSe 205 5 Metrische Einflußgrößen: Polynomiale Regression, Trigonometrische Polynome, Regressionssplines, Transformationen.
MehrKonfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert
Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert Beispiel für Konfidenzintervall Im Prinzip haben wir
MehrKapitel 7. Regression und Korrelation. 7.1 Das Regressionsproblem
Kapitel 7 Regression und Korrelation Ein Regressionsproblem behandelt die Verteilung einer Variablen, wenn mindestens eine andere gewisse Werte in nicht zufälliger Art annimmt. Ein Korrelationsproblem
MehrStatistik II. Lineare Regressionsrechnung. Wiederholung Skript 2.8 und Ergänzungen (Schira: Kapitel 4) Statistik II
Statistik II Lineare Regressionsrechnung Wiederholung Skript 2.8 und Ergänzungen (Schira: Kapitel 4) Statistik II - 09.06.2006 1 Mit der Kovarianz und dem Korrelationskoeffizienten können wir den statistischen
MehrSeminar zur Energiewirtschaft:
Seminar zur Energiewirtschaft: Ermittlung der Zahlungsbereitschaft für erneuerbare Energien bzw. bessere Umwelt Vladimir Udalov 1 Modelle mit diskreten abhängigen Variablen 2 - Ausgangssituation Eine Dummy-Variable
MehrGrundlagen der Statistik
www.nwb.de NWB Studium Betriebswirtschaft Grundlagen der Statistik Band 1: Beschreibende Verfahren Von Professor Dr. Jochen Schwarze 12., vollständig überarbeitete Auflage nwb STUDIUM Inhaltsverzeichnis
MehrRegression und Korrelation
Kapitel 7 Regression und Korrelation Ein Regressionsproblem behandeltdie VerteilungeinerVariablen, wenn mindestens eine andere gewisse Werte in nicht zufälliger Art annimmt. Ein Korrelationsproblem dagegen
MehrInhalt. 5.1 Motivation. 5.2 Clustering mit Repräsentanten. 5.3 Hierarchisches Clustering. 5.4 Dichtebasiertes Clustering. 5.
5. Clustering Inhalt 5.1 Motivation 5.2 Clustering mit Repräsentanten 5.3 Hierarchisches Clustering 5.4 Dichtebasiertes Clustering 5.5 Validierung 5.6 Graphbasiertes Clustering 2 y 5.1 Motivation Datenpunkte
MehrDeskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien
Deskription, Statistische Testverfahren und Regression Seminar: Planung und Auswertung klinischer und experimenteller Studien Deskriptive Statistik Deskriptive Statistik: beschreibende Statistik, empirische
MehrVorlesung: Statistik II für Wirtschaftswissenschaft
Vorlesung: Statistik II für Wirtschaftswissenschaft Prof. Dr. Helmut Küchenhoff Institut für Statistik, LMU München Sommersemester 2017 6 Genzwertsätze Einführung 1 Wahrscheinlichkeit: Definition und Interpretation
MehrÜbung V Lineares Regressionsmodell
Universität Ulm 89069 Ulm Germany Dipl.-WiWi Michael Alpert Institut für Wirtschaftspolitik Fakultät für Mathematik und Wirtschaftswissenschaften Ludwig-Erhard-Stiftungsprofessur Sommersemester 2007 Übung
MehrProf. Dr. Walter F. Tichy Dr. Matthias Müller Sommersemester 2006
Empirische Softwaretechnik Prof. Dr. Walter F. Tichy Dr. Matthias Müller Sommersemester 2006 1 Experiment zur Vererbungstiefe Softwaretechnik: die Vererbungstiefe ist kein guter Schätzer für den Wartungsaufwand
MehrForschungsstatistik I
Psychologie Prof. Dr. G. Meinhardt 6. Stock, TB II R. 06-206 (Persike) R. 06-321 (Meinhardt) Sprechstunde jederzeit nach Vereinbarung Forschungsstatistik I Dr. Malte Persike persike@uni-mainz.de http://psymet03.sowi.uni-mainz.de/
MehrGrundlagen der Statistik I
NWB-Studienbücher Wirtschaftswissenschaften Grundlagen der Statistik I Beschreibende Verfahren Von Professor Dr. Jochen Schwarze 10. Auflage Verlag Neue Wirtschafts-Briefe Herne/Berlin Inhaltsverzeichnis
MehrBivariate Zusammenhänge
Bivariate Zusammenhänge 40 60 80 Bivariater Zusammenhang: Zusammenhang zwischen zwei Variablen weight (kg) Gibt es einen Zusammenhang zwischen Größe & Gewicht? (am Beispieldatensatz) Offensichtlich positiver
MehrPrüfung aus Wahrscheinlichkeitstheorie und Statistik MASCHINENBAU 2002
Prüfung aus Wahrscheinlichkeitstheorie und Statistik MASCHINENBAU 2002 1. Ein Chemiestudent hat ein Set von 10 Gefäßen vor sich stehen, von denen vier mit Salpetersäure Stoff A), vier mit Glyzerin Stoff
MehrZiel: Vorhersage eines Kriteriums/Regressand Y durch einen Prädiktor/Regressor X.
Lineare Regression Einfache Regression Beispieldatensatz: trinkgeld.sav Ziel: Vorhersage eines Kriteriums/Regressand Y durch einen Prädiktor/Regressor X. H0: Y lässt sich nicht durch X erklären, das heißt
Mehr1 x 1 y 1 2 x 2 y 2 3 x 3 y 3... n x n y n
3.2. Bivariate Verteilungen zwei Variablen X, Y werden gemeinsam betrachtet (an jedem Objekt werden gleichzeitig zwei Merkmale beobachtet) Beobachtungswerte sind Paare von Merkmalsausprägungen (x, y) Beispiele:
MehrDie Funktion f wird als Regressionsfunktion bezeichnet.
Regressionsanalyse Mit Hilfe der Techniken der klassischen Regressionsanalyse kann die Abhängigkeit metrischer (intervallskalierter) Zielgrößen von metrischen (intervallskalierten) Einflussgrößen untersucht
MehrPrognoseintervalle für y 0 gegeben x 0
10 Lineare Regression Punkt- und Intervallprognosen 10.5 Prognoseintervalle für y 0 gegeben x 0 Intervallprognosen für y 0 zur Vertrauenswahrscheinlichkeit 1 α erhält man also analog zu den Intervallprognosen
MehrStatistische Methoden in den Umweltwissenschaften
Statistische Methoden in den Umweltwissenschaften Korrelationsanalysen Kreuztabellen und χ²-test Themen Korrelation oder Lineare Regression? Korrelationsanalysen - Pearson, Spearman-Rang, Kendall s Tau
Mehr13. Lösung weitere Übungsaufgaben Statistik II WiSe 2016/2017
13. Lösung weitere Übungsaufgaben Statistik II WiSe 2016/2017 1. Aufgabe: Für 25 der größten Flughäfen wurde die Anzahl der abgefertigten Passagiere in den Jahren 2009 und 2012 erfasst. Aus den Daten (Anzahl
MehrEinführung in Quantitative Methoden
in Quantitative Methoden Mag. Dipl.Ing. Dr. Pantelis Christodoulides & Mag. Dr. Karin Waldherr SS 2011 Christodoulides / Waldherr in Quantitative Methoden- 2.VO 1/47 Historisches Regression geht auf Galton
MehrGraphische Verfahren in der Statistik: Q-Q- und P-P-Plots
Prof. Dr. Dietmar Pfeifer Institut für Mathemati Graphische Verfahren in der Statisti: Q-Q- und P-P-Plots Bei den üblichen parametrischen Testverfahren in der Statisti wird in der Regel eine Annahme über
Mehr, Data Mining, 2 VO Sommersemester 2008
Evaluation 188.646, Data Mining, 2 VO Sommersemester 2008 Dieter Merkl e-commerce Arbeitsgruppe Institut für Softwaretechnik und Interaktive Systeme Technische Universität Wien www.ec.tuwien.ac.at/~dieter/
MehrInstitut für Soziologie Dipl.-Soz. Benjamin Gedon. Methoden 2. Ausblick; Darstellung von Ergebnissen; Wiederholung
Institut für Soziologie Dipl.-Soz. Methoden 2 Ausblick; Darstellung von Ergebnissen; Wiederholung Ein (nicht programmierbarer) Taschenrechner kann in der Klausur hilfreich sein. # 2 Programm Ausblick über
MehrDas Lineare Regressionsmodell
Das Lineare Regressionsmodell Bivariates Regressionsmodell Verbrauch eines Pkw hängt vom Gewicht des Fahrzeugs ab Hypothese / Theorie: Je schwerer ein Auto, desto mehr wird es verbrauchen Annahme eines
MehrEigene MC-Fragen SPSS. 1. Zutreffend auf die Datenerfassung und Datenaufbereitung in SPSS ist
Eigene MC-Fragen SPSS 1. Zutreffend auf die Datenerfassung und Datenaufbereitung in SPSS ist [a] In der Variablenansicht werden für die betrachteten Merkmale SPSS Variablen definiert. [b] Das Daten-Editor-Fenster
MehrTeil XIII. Multiple lineare Regression. Woche 11: Multiple lineare Regression. Zusammenfassung Einfache lineare Regression.
Woche 11: Multiple lineare Regression Patric Müller Teil XIII Multiple lineare Regression ETHZ WBL 17/19, 10.07.017 Wahrscheinlichkeit und Statistik Patric Müller WBL
MehrDie Regressionsanalyse
Die Regressionsanalyse Zielsetzung: Untersuchung und Quantifizierung funktionaler Abhängigkeiten zwischen metrisch skalierten Variablen eine unabhängige Variable Einfachregression mehr als eine unabhängige
MehrStatistische Messdatenauswertung
Roland Looser Statistische Messdatenauswertung Praktische Einführung in die Auswertung von Messdaten mit Excel und spezifischer Statistik-Software für naturwissenschaftlich und technisch orientierte Anwender
MehrDeskriptive Statistik
Helge Toutenburg Christian Heumann Deskriptive Statistik Eine Einführung in Methoden und Anwendungen mit R und SPSS Siebte, aktualisierte und erweiterte Auflage Mit Beiträgen von Michael Schomaker 4ü Springer
MehrKorrelation Regression. Wenn Daten nicht ohne einander können Korrelation
DAS THEMA: KORRELATION UND REGRESSION Korrelation Regression Wenn Daten nicht ohne einander können Korrelation Korrelation Kovarianz Pearson-Korrelation Voraussetzungen für die Berechnung die Höhe der
MehrNumerische Methoden und Algorithmen in der Physik
Numerische Methoden und Algorithmen in der Physik Hartmut Stadie, Christian Autermann 15.01.2009 Numerische Methoden und Algorithmen in der Physik Christian Autermann 1/ 47 Methode der kleinsten Quadrate
MehrKarl Entacher. FH-Salzburg
Ahorn Versteinert Bernhard.Zimmer@fh-salzburg.ac.at Statistik @ HTK Karl Entacher FH-Salzburg karl.entacher@fh-salzburg.ac.at Beispiel 3 Gegeben sind 241 NIR Spektren (Vektoren der Länge 223) zu Holzproben
Mehr3 Korrelation und Regression
3 KORRELATION UND REGRESSION 3 Korrelation und Regression Sind zwei Zufallsvariable X und Y unabhängig, so gibt es keinerlei Wechselwirkung zwischen ihnen. Ist ein funktionaler Zusammenhang = f( zwischen
MehrBefehl: Analysieren > Deskriptive Statistiken > Häufigkeiten. Unter: Statistiken: Angabe Kurtosis/ Schiefe/ andere Lagemasse
Grundeinstellungen Befehl: Bearbeiten >Optionen > Allgemein: Namen anzeigen Häufigkeiten Befehl: Analysieren > Deskriptive Statistiken > Häufigkeiten Unter: Statistiken: Angabe Kurtosis/ Schiefe/ andere
MehrKapitel 1 Beschreibende Statistik
Beispiel 1.25: fiktive Aktienkurse Zeitpunkt i 0 1 2 Aktienkurs x i 100 160 100 Frage: Wie hoch ist die durchschnittliche Wachstumsrate? Dr. Karsten Webel 53 Beispiel 1.25: fiktive Aktienkurse (Fortsetzung)
MehrStatistik Einführung // Stichprobenverteilung 6 p.2/26
Statistik Einführung Kapitel 6 Statistik WU Wien Gerhard Derflinger Michael Hauser Jörg Lenneis Josef Leydold Günter Tirler Rosmarie Wakolbinger Statistik Einführung // 6 p.0/26 Lernziele 1. Beschreiben
MehrBivariate Analyseverfahren
Bivariate Analyseverfahren Bivariate Verfahren beschäftigen sich mit dem Zusammenhang zwischen zwei Variablen Beispiel: Konservatismus/Alter Zusammenhangsmaße beschreiben die Stärke eines Zusammenhangs
MehrVorlesung Wissensentdeckung
Vorlesung Wissensentdeckung Klassifikation und Regression: nächste Nachbarn Katharina Morik, Uwe Ligges 14.05.2013 1 von 24 Gliederung Funktionsapproximation 1 Funktionsapproximation Likelihood 2 Kreuzvalidierung
MehrEinführung in die Statistik für Politikwissenschaftler Sommersemester 2011
Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011 Es können von den Antworten alle, mehrere oder keine Antwort(en) richtig sein. Nur bei einer korrekten Antwort (ohne Auslassungen
MehrÜbung 3 im Fach "Biometrie / Q1"
Universität Ulm, Institut für Epidemiologie und Medizinische Biometrie, D-89070 Ulm Institut für Epidemiologie und Medizinische Biometrie Leiter: Prof. Dr. D. Rothenbacher Schwabstr. 13, 89075 Ulm Tel.
Mehr5 Beschreibung und Analyse empirischer Zusammenhänge
5 Beschreibung und Analyse empirischer Zusammenhänge 132 5 Beschreibung und Analyse empirischer Zusammenhänge 5.1 Zusammenhänge zwischen kategorialen Merkmalen 137 5.1.1 Kontingenztabellen 137 Verteilungen
MehrForschungsstatistik I
Prof. Dr. G. Meinhardt 2. Stock, Nordflügel R. 02-429 (Persike) R. 02-431 (Meinhardt) Sprechstunde jederzeit nach Vereinbarung Forschungsstatistik I Dr. Malte Persike persike@uni-mainz.de http://psymet03.sowi.uni-mainz.de/
MehrInhaltsverzeichnis Grundlagen aufigkeitsverteilungen Maßzahlen und Grafiken f ur eindimensionale Merkmale
1. Grundlagen... 1 1.1 Grundgesamtheit und Untersuchungseinheit................ 1 1.2 Merkmal oder statistische Variable........................ 2 1.3 Datenerhebung.........................................
MehrZusammenhangsmaße II
Sommersemester 2009 Wiederholung/ Eine nominale und eine intervallskalierte Variable χ 2 =?!? Übung von Simone Reutzel Heute im HS1, altes ReWi-Haus Zum Nachlesen Agresti/Finlay: Kapitel 8.5, 9.4 Gehring/Weins:
MehrMultivariate Verfahren
Multivariate Verfahren Oliver Muthmann 31. Mai 2007 Gliederung 1 Einführung 2 Varianzanalyse (MANOVA) 3 Regressionsanalyse 4 Faktorenanalyse Hauptkomponentenanalyse 5 Clusteranalyse 6 Zusammenfassung Komplexe
MehrKategorielle Zielgrössen
Kategorielle Zielgrössen 27.11.2017 Motivation Bisher gesehen: Regressionsmodelle für diverse Arten von Zielgrössen Y. kontinuierliche Zielgrösse Lineare Regression Binäre/binomiale Zielgrösse Logistische
MehrArbeitsbuch zur deskriptiven und induktiven Statistik
Helge Toutenburg Michael Schomaker Malte Wißmann Christian Heumann Arbeitsbuch zur deskriptiven und induktiven Statistik Zweite, aktualisierte und erweiterte Auflage 4ü Springer Inhaltsverzeichnis 1. Grundlagen
MehrStatistik. Ludwig Fahrmeir Rita Künstler Iris Pigeot Gerhard Tutz. Der Weg zur Datenanalyse. Springer. Zweite, verbesserte Auflage
Ludwig Fahrmeir Rita Künstler Iris Pigeot Gerhard Tutz Statistik Der Weg zur Datenanalyse Zweite, verbesserte Auflage Mit 165 Abbildungen und 34 Tabellen Springer Inhaltsverzeichnis Vorwort v 1 Einführung
MehrStatistik für das Psychologiestudium
Dieter Rasch / Klaus D. Kubinger Statistik für das Psychologiestudium Mit Softwareunterstützung zur Planung und Auswertung von Untersuchungen sowie zu sequentiellen Verfahren ELSEVIER SPEKTRUM AKADEMISCHER
Mehr2.2 Entscheidung bei Sicherheit
2.2 Entscheidung bei Sicherheit Umweltzustand ist bekannt oder irrelevant, so dass die Ergebnisse der Handlungsalternativen sicher sind Bei mehreren Zielgrößen besteht die Herausforderung darin, den Entscheider
MehrEinführung in die Statistik
Einführung in die Statistik Analyse und Modellierung von Daten von Prof. Dr. Rainer Schlittgen Universität Hamburg 12., korrigierte Auflage Oldenbourg Verlag München Inhaltsverzeichnis 1 Statistische Daten
MehrStatistik-Klausur A WS 2009/10
Statistik-Klausur A WS 2009/10 Name: Vorname: Immatrikulationsnummer: Studiengang: Hiermit erkläre ich meine Prüfungsfähigkeit vor Beginn der Prüfung. Unterschrift: Dauer der Klausur: Erlaubte Hilfsmittel:
MehrStatistics, Data Analysis, and Simulation SS 2017
Statistics, Data Analysis, and Simulation SS 2017 08.128.730 Statistik, Datenanalyse und Simulation Dr. Michael O. Distler Mainz, May 29, 2017 Dr. Michael O. Distler
MehrDas (multiple) Bestimmtheitsmaß R 2. Beispiel: Ausgaben in Abhängigkeit vom Einkommen (I) Parameterschätzer im einfachen linearen Regressionsmodell
1 Lineare Regression Parameterschätzung 13 Im einfachen linearen Regressionsmodell sind also neben σ ) insbesondere β 1 und β Parameter, deren Schätzung für die Quantifizierung des linearen Zusammenhangs
MehrMultivariate Verfahren
Selbstkontrollarbeit 1 Multivariate Verfahren Diese Selbstkontrollarbeit bezieht sich auf die Kapitel 1 bis 4 der Kurseinheit 1 (Multivariate Statistik) des Kurses Multivariate Verfahren (883). Hinweise:
MehrZusammenhänge zwischen metrischen Merkmalen
Zusammenhänge zwischen metrischen Merkmalen Darstellung des Zusammenhangs, Korrelation und Regression Daten liegen zu zwei metrischen Merkmalen vor: Datenpaare (x i, y i ), i = 1,..., n Beispiel: x: Anzahl
MehrEinführung in einige Teilbereiche der Wirtschaftsmathematik für Studierende des Wirtschaftsingenieurwesens
in einige Teilbereiche der für Studierende des Wirtschaftsingenieurwesens Sommersemester 2013 Hochschule Augsburg Graphische Repräsentation von Kontingenztabellen Beispiel Autounfälle Verletzung leicht
MehrStatistik I. Zusammenfassung und wichtiges zur Prüfungsvorbereitung. Malte Wissmann. 9. Dezember Universität Basel.
Zusammenfassung und wichtiges zur Prüfungsvorbereitung 9. Dezember 2008 Begriffe Kenntnis der wichtigen Begriffe und Unterscheidung dieser. Beispiele: Merkmal, Merkmalsraum, etc. Skalierung: Nominal etc
MehrMATHEMATIK 3 STUNDEN
EUROPÄISCHES ABITUR 2013 MATHEMATIK 3 STUNDEN DATUM : 10. Juni 2013, Vormittag DAUER DER PRÜFUNG: 2 Stunden (120 Minuten) ERLAUBTES HILFSMITTEL Prüfung mit technologischem Hilfsmittel 1/6 DE AUFGABE B1
MehrErmitteln Sie auf 2 Dezimalstellen genau die folgenden Kenngrößen der bivariaten Verteilung der Merkmale Weite und Zeit:
1. Welche der folgenden Kenngrößen, Statistiken bzw. Grafiken sind zur Beschreibung der Werteverteilung des Merkmals Konfessionszugehörigkeit sinnvoll einsetzbar? A. Der Modalwert. B. Der Median. C. Das
MehrLineare Regression. Volker Tresp
Lineare Regression Volker Tresp 1 Die Lernmaschine: Das lineare Modell / ADALINE Wie beim Perzeptron wird zunächst die Aktivierungsfunktion gewichtete Summe der Eingangsgrößen x i berechnet zu h i = M
MehrSozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester Statistik mit SPSS
Sommersemester 2009 Statistik mit SPSS 15. Mai 2009 15. Mai 2009 Statistik Dozentin: mit Esther SPSSOchoa Fernández 1 Überblick 1. Korrelation vs. Regression 2. Ziele der Regressionsanalyse 3. Syntax für
Mehr6Korrelationsanalyse:Zusammengangsanalysestetiger Merkmale
6Korrelationsanalyse:Zusammengangsanalysestetiger Merkmale Jetzt betrachten wir bivariate Merkmale (X, Y ), wobei sowohl X als auch Y stetig bzw. quasi-stetig und mindestens ordinalskaliert, typischerweise
MehrHochschule Darmstadt FB Mathematik und Naturwissenschaften. Statistik. für Wirtschaftsingenieure (B.Sc.) Sommersemester 2017
für Wirtschaftsingenieure (B.Sc.) Sommersemester 017 Dr. rer. nat. habil. E-mail: adam-georg.balogh@h-da.de 1 Hochschule Darmstadt, Fachbereich MN Sommersemester 017 Testklausur zur Vorlesung Wirtschaftsstatistik
MehrStatistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management
Statistik für Betriebswirtschaft und International Management Sommersemester 2014 Prof. Dr. Stefan Etschberger HSA Ausgangsdaten Bundesliga 2008/2009 Gegeben: Daten zu den 18 Vereinen der ersten Bundesliga
MehrName Vorname Matrikelnummer Unterschrift
Dr. Hans-Otfried Müller Institut für Mathematische Stochastik Fachrichtung Mathematik Technische Universität Dresden Klausur Statistik II (Sozialwissenschaft, Nach- und Wiederholer) am 26.10.2007 Gruppe
MehrEinfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)
3 Einfache lineare Regression Einfache lineare Modelle mit R 36 Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen) > summary(lm(y~x)) Call: lm(formula =
MehrFranz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. mit dem R Commander. A Springer Spektrum
Franz Kronthaler Statistik angewandt Datenanalyse ist (k)eine Kunst mit dem R Commander A Springer Spektrum Inhaltsverzeichnis Teil I Basiswissen und Werkzeuge, um Statistik anzuwenden 1 Statistik ist
MehrMehrdimensionale Zufallsvariablen
Mehrdimensionale Zufallsvariablen Im Folgenden Beschränkung auf den diskreten Fall und zweidimensionale Zufallsvariablen. Vorstellung: Auswerten eines mehrdimensionalen Merkmals ( ) X Ỹ also z.b. ω Ω,
MehrBei näherer Betrachtung des Diagramms Nr. 3 fällt folgendes auf:
18 3 Ergebnisse In diesem Kapitel werden nun zunächst die Ergebnisse der Korrelationen dargelegt und anschließend die Bedingungen der Gruppenbildung sowie die Ergebnisse der weiteren Analysen. 3.1 Ergebnisse
MehrSigmaStat Nina Becker, Christoph. Rothenwöhrer. Copyright 2004 Systat Software, Inc.
SigmaStat 3.11 Copyright 2004 Systat Software, Inc. http://www.systat.com Nina Becker, Christoph Rothenwöhrer Die Aufgabe der Statistik ist die Zusammenfassung von Daten, deren Darstellung, Analyse und
MehrAufgabe 1 (8= Punkte) 13 Studenten haben die folgenden Noten (ganze Zahl) in der Statistikklausur erhalten:
Aufgabe 1 (8=2+2+2+2 Punkte) 13 Studenten haben die folgenden Noten (ganze Zahl) in der Statistikklausur erhalten: Die Zufallsvariable X bezeichne die Note. 1443533523253. a) Wie groß ist h(x 5)? Kreuzen
MehrErgänzungsmaterial zur Vorlesung. Statistik 2. Modelldiagnostik, Ausreißer, einflussreiche Beobachtungen
Institut für Stochastik WS 2007/2008 Universität Karlsruhe JProf. Dr. H. Holzmann Dipl.-Math. oec. D. Engel Ergänzungsmaterial zur Vorlesung Statistik 2 Modelldiagnostik, Ausreißer, einflussreiche Beobachtungen
MehrKapitel 8. Einfache Regression. Anpassen des linearen Regressionsmodells, OLS. Eigenschaften der Schätzer für das Modell
Kapitel 8 Einfache Regression Josef Leydold c 2006 Mathematische Methoden VIII Einfache Regression 1 / 21 Lernziele Lineares Regressionsmodell Anpassen des linearen Regressionsmodells, OLS Eigenschaften
MehrInhaltsverzeichnis. Vorwort. 1 Einführung in die multivariate Datenanalyse 1
V Inhaltsverzeichnis Vorwort XI 1 Einführung in die multivariate Datenanalyse 1 1.1 Was ist multivariate Datenanalyse? 1 1.2 Datensätze in der multivariaten Datenanalyse 4 1.3 Ziele der multivariaten Datenanalyse
MehrMathematische und statistische Methoden II
Statistik & Methodenlehre e e Prof. Dr. G. Meinhardt 6. Stock, Wallstr. 3 (Raum 06-206) Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung. Mathematische und statistische Methoden II Dr. Malte
MehrInhaltsverzeichnis. Teil 1 Basiswissen und Werkzeuge, um Statistik anzuwenden
Inhaltsverzeichnis Teil 1 Basiswissen und Werkzeuge, um Statistik anzuwenden 1 Statistik ist Spaß 3 Warum Statistik? 3 Checkpoints 4 Daten 4 Checkpoints 7 Skalen - lebenslang wichtig bei der Datenanalyse
MehrMathematik IV: Statistik
für D-UWIS, D-ERDW, D-USYS und D-HEST SS16 Sie hören Vitamin String Quartet Daniel Stekhoven 14.04.2016 1 Daniel Stekhoven 14.04.2016 2 Überblick Lernziele Erledigt! Grundlagen Wahrscheinlichkeitsmodell
MehrDie Datenmatrix für Überwachtes Lernen
Die Datenmatrix für Überwachtes Lernen X j j-te Eingangsvariable X = (X 0,..., X M 1 ) T Vektor von Eingangsvariablen M Anzahl der Eingangsvariablen N Anzahl der Datenpunkte Y Ausgangsvariable x i = (x
Mehr9.3 Lineare Regression
9.3 Lineare Regression 115 A B C D E F G H 1 2 Pearsonscher Korrelationskoeffizient 3 4 5 6 x-werte y-werte ANALYSE ASSISTENT 7 2,4-4 8 3,2-1 9 8,3 6,4 Spalte 1 Spalte 2 10 6,4 6 Spalte 1 1 11 7,2 6,3
MehrAngewandte Statistik mit R
Reiner Hellbrück Angewandte Statistik mit R Eine Einführung für Ökonomen und Sozialwissenschaftler 2., überarbeitete Auflage B 374545 GABLER Inhaltsverzeichnis Vorwort zur zweiten Auflage Tabellenverzeichnis
MehrVorlesung: Statistik I für Studierende der Statistik, Mathematik & Informatik. Regression. Einfache lineare Regression
Vorlesung: Statistik I für Studierende der Statistik, Mathematik & Informatik Regression Dozent: Fabian Scheipl Material: H. Küchenhoff LMU München 39 Einfache lineare Regression Bestimmung der Regressionsgerade
Mehr6. Multivariate Verfahren Übersicht
6. Multivariate Verfahren 6. Multivariate Verfahren Übersicht 6.1 Korrelation und Unabhängigkeit 6.2 Lineare Regression 6.3 Nichtlineare Regression 6.4 Nichtparametrische Regression 6.5 Logistische Regression
Mehr1. Datei Informationen
1. Datei Informationen Datei vorbereiten (Daten, Variablen, Bezeichnungen und Skalentypen) > Datei Dateiinformation anzeigen Arbeitsdatei 2. Häufigkeiten Analysieren Deskriptive Statistik Häufigkeiten
Mehr