Lasso in LMs und GLMs

Größe: px
Ab Seite anzeigen:

Download "Lasso in LMs und GLMs"

Transkript

1 Lasso in LMs und GLMs Seminar Regularisierungstechniken und strukturierte Regression, Prof. Dr. Gerhard Tutz, Institut für Statistik, Ludwig-Maximilians-Universität München Referent: Patrick Schenk Betreuer: Wolfgang Pössnecker 18. Dezember / 33

2 1. Einführung Regression große Rolle in statistischer Ausbildung und Praxis Fokus auf erwartungstreue (zumindest konsistente) Schätzer Programm: Übersicht Kleinste-Quadrate (KQ) Schätzer im Linearen Modell (LM) Vorteile Schwachstellen/Wünsche? Shrinkage-Schätzer : Lasso- (und Ridge-)Regression Herkunft Eigenschaften Performance in realen und simulierten Daten Erweiterungen und Diskussion 2 / 33

3 Lineares Modell (LM) I: Setup LM postuliert Zusammenhang Response - Kovariablen p y i = β 0 + x ij β i + ɛ i j =1 für i = 1,..., n quadratischer Verlust: Residuenquadratsumme (RSS) RSS(β) = n (y i β 0 i=1 keine Verteilungsannahme nötig führt zum KQ-Schätzer p j =1 ˆβ (ls) = (X X) 1 X y x ij β j ) 2 min β 3 / 33

4 Lineares Modell II: Vorteile des KQ-Schätzers einige Vorteile (+) erwartungstreu und linear in y (+) optimal in Klasse erwartungstreuer linearer Schätzer: Mean Squared Error (MSE) und Varianz minimal (Gauß-Markov Theorem) (+) marginale Interpretation der Koeffizienten β j 4 / 33

5 Lineares Modell III: KQ-Schätzer Nachteile (-) keine automatische Variablenselektion falls p n: ˆβ (ls) nicht (eindeutig) definiert. falls p sehr groß: volles Modell schlechter interpretierbar Beibehalten von irrelevanten Kovariablen (β j = 0) erhöht Ungenauigkeit von Schätzung und Prognose (-) keine Aussage über relative Einflussstärke der Kovariablen (-) muss nicht optimal sein (Gauß-Markov gilt nur in Klasse) Suche nach Verfahren, das sparsamere Modelle schätzt Intuition: Bias-Varianz-Tradeoff 5 / 33

6 2.1 Lasso, Ridge und Best Subset: Motivation gesucht: Verfahren, das sparsameres Modell ergibt sparsameres Modell: manche Koeffizienten β j = 0 Ansatz: Größe des Koeffizientenvektors β beschränken Norm nach oben beschränken durch Wert t q-norm (für q 1) p β q := β j q j =1 1/q t β q t äquivalent zu β q q t q (Umparametrisierung) 6 / 33

7 Allgemeiner Ansatz Minimierung von RSS(β) unter Restriktion der Größe von β: min β RSS(β) = n (y i β 0 i=1 p x ij β j ) 2 j =1 bzw. in Lagrangeform u. d. NB. p β j q t j =1 min β RSS(β) + λ p β j q j =1 neues Kriterium : penalisierte RSS RSS(β) + λ L q -Penalty 7 / 33

8 Alternative Betrachtung: Optimum im zulässigen Bereich Nebenbedingung p β j q t j =1 impliziert zulässigen Bereich für β: {β : p β j q t} j =1 also: Minimierung des KQ-Kriteriums im zulässigen Bereich min β {β: RSS(β) p j =1 β j q t} und nicht mehr über alle möglichen β R p grafisch für Lasso bei 2 Kovariablen: nächste Folie 8 / 33

9 Zulässiger Bereich für Lasso-Regression bei 2 Kovariablen Fall 1: KQ Schätzer erfüllt Restriktion (Lasso) Fall 2: KQ Schätzer erfüllt Restriktion nicht (Lasso) β^(ls) β^(ls) Lasso Abb.1 Minimierung im zulässigen Bereich. Leicht abgewandelte Reproduktion von Tibshirani (1996, Fig. 2) 9 / 33

10 Bemerkungen min β n (y i β 0 i=1 p x ij β j ) 2 + λ j =1 p β j q j =1 Intercept β 0 nicht Teil der Penalty Schätzung nicht skaleninvariant gewählte Skala beeinflusst Erklärungsgüte (RSS) nicht, sehr wohl jedoch die Norm von β! Bsp. monetäre Kovariable Lösung: vorab Standardisierung jeder Kovariablen: Mittelwert: x j = 0 und empirische Varianz Var(x j ) = 1 nach Schätzung von β: Rücktransformation jedes Koeffizienten auf Originalskala oder: angepasste Interpretation beachten 10 / 33

11 Ridge Regression (Hoerl und Kennard, 1970): q = 2 min β RSS(β) + λ Restriktion an die euklidische Norm p j =1 explizite Lösung: ˆβ (ridge) = (X X + λi) 1 X y existiert auch bei Multikollinearität, also wenn (X X) 1 nicht/schwer zu berechnen war Motivation von Hoerl und Kennard (1970) schrumpft i.a. Koeffizienten (relativ zu KQ-Koeffizienten) i.a. keine Variablenselektion β 2 j 11 / 33

12 Best Subset Regression: q = 0 min β RSS(β) + λ p βj 0 = RSS(β) + λ j =1 p I(β j 0) j =1 Nebenbedingung zählt von 0 verschiedene Koeffizienten ergibt best-erklärendes Modell mit t Koeffizienten ( t p) keine Lösung in geschlossener Form bis t 40: alle möglichen Modelle betrachtbar Leaps and Bounds Algorithmus (Furnival und Wilson, 1994) für t > 40: Approx., z.b. Forward-/Backward-Stepwise (step) 12 / 33

13 Lasso Regression (Tibshirani, 1996): q = 1 min β beschränkt 1-Norm RSS(β) + λ p β j j =1 i.a. Selektion von Kovariablen und Schrumpfung von Koeffizienten nicht differenzierbar bei 0 ( ) keine explizite Lösung Algorithmen für Pfad ˆβ (lasso) (t) (+) ausschlaggebend dafür, dass Lasso Kovariablen selektiert 13 / 33

14 Lasso (links) und Ridge (rechts): Optimierung im zulässigen 2 BAYESIANISCHES Bereich LASSO IN LINEAREN MODELLEN ^ ^ Abbildung 2.7: Linkes Bild: Grafische Darstellung des Lasso-Schätzproblems. Rechtes Bild: Grafische Darstellung Quelle: Konrath (2007, Abb. 3.7) des Ridge-Schätzproblems. Die blauen Bereiche stellen die Nebenbedingung zu verschiedenen Werten von t dar und die pinkfarbenen Ellipsen sind die Konturlinien der Residuenquadratsumme bei beliebiger Produktsummenmatrix X X I. 14 / 33

15 Datensatz: Prostatakrebs (Stamey et al., 1989) 97 Männer vor Prostataentfernung Response: log Prostataspezifsches Antigen (lpsa) 8 Kovariablen Alter, log Krebsvolumen, log Prostatagewicht,... Korrelationen positiv bis auf 2 minimale Ausnahmen 10 der 28 p.w. Korrelationen mittelstark ( ) 15 / 33

16 KQ-, Lasso-, Ridge- und Best Subset Regression (Prostatakrebs) Tab Regressionskoeffizienten (Prostatakrebs) Koeffizient KQ Lasso Ridge Best Subset (Intercept) lcavol lweight age lbph svi lcp gleason pgg Response ist lpsa, der logarithmierte Level des Prostataspezifischen Antigens. 16 / 33

17 Lasso und Ridge: Koeffizientenpfade (Prostatakrebs) Coefficients Lasso min CV MSE Coefficients Ridge min CV MSE L1 Norm L1 Norm Abb.2 Lasso- und Ridge-Koeffizientenpfade in den Prostakrebs Daten. Leicht abgewandelte Reproduktion von Hastie et al. (2009, Fig. 3.11) 17 / 33

18 Wahl des Tuningparameters: Kreuzvalidierung Grid von Werten für t: für jeden Wert Koeffizienten berechnen MSE per Kreuzvalidierung (CV) schätzen Entscheidung für optimales t min-regel: t mit kleinstem CV-MSE 1-SE-Regel: kleinstes Modell, dessen CV-MSE von obigem Minimum um höchstens 1-SE abweicht grafisch im Prostatakrebs Datensatz: nächste Folie Tuning über λ äquivalent (bijektive Beziehung von λ und t) in Implementationen meistens der Fall (z.b. glmnet) potentielle Probleme MSE(t) flach (links) Vorgehen anfällig min- und 1-SE-Regeln können deutlich differieren (links) MSE(t) hat Randoptimum (rechts) 18 / 33

19 Lasso und Ridge: Kreuzvalidierungs-MSE (Prostatakrebs) Mean Squared Error Lasso min Regel 1 SE Regel Mean Squared Error Ridge min Regel 1 SE Regel log(lambda) log(lambda) Abb.3 MSE in Abhängigkeit vom Tuningparameter log(λ) in den Prostakrebs Daten. Leicht angepasste Kombination von Hastie et al. (2009, Fig. 3.8 und 3.10) 19 / 33

20 3.1 Spezialfall orthonormale Kovariablen: Eigenschaften I Lasso (lasso) β^j Ridge (ridge) β^j Best Subset (subset) β^j λ λ λ λ (ls) β^j 1 (1 + λ) 1 (ls) β^j (ls) β^(m) (ls) β^j Abb.4 Lasso-, Ridge- und Best-Subset-Koeffizienten bei unterschiedlichen KQ-Koeffzienten unter Orthonormalität. Leicht abgewandelte Reproduktion von Hastie et. al (2009, Fig. 3.11) 20 / 33

21 Spezialfall orthonormale Kovariablen: Eigenschaften II ˆβ(lasso) j = { ˆβ (ls) j ˆβ (ls) ( λ) sign( j ) falls 0 sonst (ls) ˆβ j > λ stetige Selektion (soft-thresholding): schrumpft umso stärker, je kleiner KQ-Koeffizient nur kleine Koeffizienten ganz aus Modell heraus große Effekte deutlicher herausgehoben (ls) ˆβ(ridge) ˆβ j j = 1+λ schrumpft jeden KQ-Koeffizienten um gleichen Faktor (λ > 0) keine Selektion { ˆβ(ls) ˆβ(subset) j = j wobei (ls) (ls) falls ˆβ j ˆβ (M ) 0 sonst (ls) ˆβ (M ) betragsmäßig der t -größte KQ-Koeffizient ist selektiert diskret (hard-thresholding): voll im Modell oder gar nicht 21 / 33

22 3.2 Nichtorthonormale Kovariablen: Eigenschaften Korrelationen zwischen Kovariablen Lasso: p = 2: kein Einfluss p > 2: greift eine (wenige) Kovariable(n) aus stark-korr. Gruppe heraus, entfernt andere (Intuition: wenig zusätzliche Erklärung, aber volle Erhöhung der Penalty) Ridge: positiv korr. Koeffizienten ähnlicher (Grund: L 2 -Penalty) Best Subset: ähnlich zu Lasso (Fall p > 2) relativ zum KQ-Schätzer und zum wahren Koeffizienten anderes Vorzeichen möglich Overshooting (betragsmäßiges Überschätzen) möglich 22 / 33

23 Vorzeichen und Overshooting (Prostatakrebs) Tab Regressionskoeffizienten (Prostatakrebs) Koeffizient KQ Lasso Ridge Best Subset (Intercept) lcavol lweight age lbph svi lcp gleason pgg Response ist lpsa, der logarithmierte Level des Prostataspezifischen Antigens. 23 / 33

24 Simulation I: Vorzeichen, Selektion, Modellgrößen wahre Koeffizenten β fest 10 kleine: βj = mittlere: βj = große: β j = 5 je 5 mit positivem und 5 mit negativem Vorzeichen 30 irrelevante Variablen : βj = 0 n = 80 n p = Designmatrix X fest (iid N(0,1)-verteilt) R = 2000 Replikationen in Replikation r: Addiere Fehler ɛ i i.i.d. N (0, 1) simulierter Response y i = x i β + ɛ i (i = 1,..., n) wie häufig: Vorzeichen korrekt, Variable im Modell? Modellgrößen 24 / 33

25 Tab Häufigkeiten: Selektion und Vorzeichen (Simulation I) Effektgröße MSE* klein mittel groß kein (SE MSE ) KQ Vz korrekt Vz falsch (0.0748) nicht in Modell.... Ridge Vz korrekt Vz falsch (0.0939) nicht in Modell.... Lasso Vz korrekt Vz falsch (0.1709) nicht in Modell Stepwise 1 Vz korrekt Vz falsch (0.1140) nicht in Modell Response ist lpsa, der logarithmierte Level des Prostataspezifischen Antigens. MSE* ist Durchschnitt der mittleren quadratischen Abweichungen über R = 2000 Replikationen. 1 Approximation für Best Subset, da mehr als 40 Kovariablen: Backward- und Forward-Stepwise via step. 25 / 33

26 Modellgrößen (Simulation I) Effektgröße klein mittel groß kein gesamt KQ Ridge Lasso Stepwise Response ist lpsa, der logarithmierte Level des Prostataspezifischen Antigens. 1 Approximation für Best Subset, da mehr als 40 Kovariablen: Backward- und Forward-Stepwise via step. 26 / 33

27 Entdecken eines sparsamen Modells bei p > n Simulation II exakt wie zuvor: R = 2000 Replikationen p = 60 Variablen in Designmatrix nur 30 Kovariaten mit Einfluss aber: nur die ersten n = 40 Beobachtungen p > n kein KQ-Schätzer wahres Modell ist sparsam: weniger Kovariablen als Beobachtungen Performance von Lasso: Einfluss der Effektstärken? Modellgröße? 27 / 33

28 Tab Häufigkeiten von Effekt-Selektion und falschen Vorzeichen klein mittel groß kein Effekt Lasso Vorzeichen korrekt Vorzeichen falsch nicht im Modell # im Modell Mittlere Gesamtmodellgröße: Kovariablen. Response ist lpsa, der logarithmierte Level des Prostataspezifischen Antigens. 28 / 33

29 Vorteile, Nachteile und Anwendbarkeit I KQ-Schätzer muss nicht überall beste Wahl darstellen: Situation p > n : Selektion zwingend erforderlich Situation Prognose ist Hauptziel : Schätzung kleiner Effekte sehr fehleranfällig und variabel Lasso verzichtet teils darauf (kann Prognosegüte erhöhen) KQ vs Lasso: Versuch, Prognosefehler abzuschätzen Situation perfekt unabhängige Kovariablen selten in Praxis- Ausnahme: kontrollierte Experimente Lasso sehr intuitiv, gut verständlich Computationale Betrachtungen: Lasso (im LM): Größenordnung wie für Berechnung von k-fache Kreuzvalidierung erhöht nur um Faktor k gilt für LARS-Alg.; noch schneller: Friedman et al. (2010) Lasso im GLM: deutlich mehr Aufwand ˆβ (ls) 29 / 33

30 Vorteile, Nachteile und Anwendbarkeit II Lasso (und Ridge): weniger automatisierbar was ist Ziel der Analyse? welche Situation liegt vor und wie verhält sich Lasso dort i.a.? gewähltes R-Paket: Standardisierung von xj automatisch oder manuell? werden bereits rücktransformierte Koeffizienten ausgegeben? Ausreisser, einflussreiche Datenpunkte, fehlerhafte Daten KQ-Schätzer: es existieren Kennzahlen Lasso, Ridge: Auswirkungen unklar; Abschätzversuch z.b. über Bootstrap Fazit: Lasso/Ridge benötigen relativ zum KQ-Schätzer mehr Arbeitsaufwand Wissen und Erfahrungen mit ihrem Umgang 30 / 33

31 Erweiterungen I: Generalisierte Lineare Modelle GLMs Strukturannahme: E(y i x i ) = h(x i β) (h Responsefunktion) Verteilungsann.: y i x i F (F aus einfacher Expo.familie) Schätzung von β über ML: l(β) min β i.a. keine explizite Lösung (Fisher-Scoring, Newton-Raphson) Lasso in GLMs wieder: Minimierung der Summe von Zielfunktion und Penalty min l(β) + λ p j =1 β j β Schätzung über zyklischen Koordinatenabstieg (Friedman et al., 2010) enthält LM als Spezialfall (Normalverteilung) R: glmnet 31 / 33

32 Erweiterungen II in jeder Kovariable unterschiedliche Strafen p j =1 λ j β j manche Kovariablen nicht bestrafen (im Modell halten): λj = 0 Adapative Lasso: Strafe relativ zu KQ-Koeffizient SCAD: größere Koeffizienten weniger stark bestrafen ˆβ (ls) j Grouped Lasso: Gruppe von Variablen gemeinsam in/aus dem Modell (Bsp: k-kategoriale Variable in Form von k 1 Dummies) Elastic Net: gewichtetes Mittel von Lasso- und Ridge-Penalty erbt Eigenschaften von Lasso (z.b. Selektion) und Ridge zweistufige Verfahren: Lasso in 1. Stufe (zur Variablenselektion) 32 / 33

33 Vielen Dank für Ihre Aufmerksamkeit. Literatur (Vortrag) J. Friedman, T. Hastie und R. Tibshirani (2010). Regularization paths for generalized linear models via coordinate descent. Journal of Statistical Software, 33(1): A. E. Hoerl und R. Kennard (1970). Ridge regression: biased estimation for nonorthogonal problems. Technometrics, 12: T. Hastie, R. Tibshirani und J. Friedman (2009). The Elements of Statistical Learning. Zweite Auflage. Springer: New York. R. Tibshirani (1996). Regression shrinkage and selection via the lasso. Journal of the Royal Statistical Society, Series B, 58: S. Konrath (2007). Bayesianische Regularisierung mit Anwendungen. Master Thesis. LMU, München. S. 39, Abb / 33

Kapitel 4: Binäre Regression

Kapitel 4: Binäre Regression Kapitel 4: Binäre Regression Steffen Unkel (basierend auf Folien von Nora Fenske) Statistik III für Nebenfachstudierende WS 2013/2014 4.1 Motivation Ausgangssituation Gegeben sind Daten (y i, x i1,...,

Mehr

2.Tutorium Generalisierte Regression

2.Tutorium Generalisierte Regression 2.Tutorium Generalisierte Regression - Binäre Regression - Moritz Berger: 04.11.2013 und 11.11.2013 Shuai Shao: 06.11.2013 und 13.11.2013 Institut für Statistik, LMU München 1 / 16 Gliederung 1 Erweiterte

Mehr

Kernel, Perceptron, Regression. Erich Schubert, Arthur Zimek. 2014-07-20 KDD Übung

Kernel, Perceptron, Regression. Erich Schubert, Arthur Zimek. 2014-07-20 KDD Übung Kernel, Perceptron, Regression Erich Schubert, Arthur Zimek Ludwig-Maximilians-Universität München 2014-07-20 KDD Übung Kernel-Fukctionen Kernel kann mehrdeutig sein! Unterscheidet zwischen: Kernel function

Mehr

Teil II. Nichtlineare Optimierung

Teil II. Nichtlineare Optimierung Teil II Nichtlineare Optimierung 60 Kapitel 1 Einleitung In diesem Abschnitt wird die Optimierung von Funktionen min {f(x)} x Ω betrachtet, wobei Ω R n eine abgeschlossene Menge und f : Ω R eine gegebene

Mehr

Multivariate Statistik

Multivariate Statistik Hermann Singer Multivariate Statistik 1 Auflage 15 Oktober 2012 Seite: 12 KAPITEL 1 FALLSTUDIEN Abbildung 12: Logistische Regression: Geschätzte Wahrscheinlichkeit für schlechte und gute Kredite (rot/blau)

Mehr

9. Schätzen und Testen bei unbekannter Varianz

9. Schätzen und Testen bei unbekannter Varianz 9. Schätzen und Testen bei unbekannter Varianz Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Schätzen und Testen bei unbekannter Varianz Wenn wir die Standardabweichung σ nicht kennen,

Mehr

Kap. 9: Regression mit einer binären abhängigen Variablen

Kap. 9: Regression mit einer binären abhängigen Variablen Kap. 9: Regression mit einer binären abhängigen Variablen Motivation Lineares Wahrscheinlichkeitsmodell Probit- und Logit-Regression Maximum Likelihood Empirisches Beispiel: Analyse der HMDA-Daten Ausblick:

Mehr

Lineare Modelle in R: Einweg-Varianzanalyse

Lineare Modelle in R: Einweg-Varianzanalyse Lineare Modelle in R: Einweg-Varianzanalyse Achim Zeileis 2009-02-20 1 Datenaufbereitung Wie schon in der Vorlesung wollen wir hier zur Illustration der Einweg-Analyse die logarithmierten Ausgaben der

Mehr

Korrelation - Regression. Berghold, IMI

Korrelation - Regression. Berghold, IMI Korrelation - Regression Zusammenhang zwischen Variablen Bivariate Datenanalyse - Zusammenhang zwischen 2 stetigen Variablen Korrelation Einfaches lineares Regressionsmodell 1. Schritt: Erstellung eines

Mehr

Algorithmische Modelle als neues Paradigma

Algorithmische Modelle als neues Paradigma Algorithmische Modelle als neues Paradigma Axel Schwer Seminar über Philosophische Grundlagen der Statistik, WS 2010/11 Betreuer: Prof. Dr. Thomas Augustin München, den 28. Januar 2011 1 / 29 LEO BREIMAN

Mehr

Semiparametrisches Kredit Scoring

Semiparametrisches Kredit Scoring Semiparametrisches Kredit Scoring Marlene Müller Fraunhofer Institut für Techno- und Wirtschaftsmathematik (ITWM) Kaiserslautern Bernd Rönz, Wolfgang Härdle Center for Applied Statistics and Economics

Mehr

Abschlussklausur (60 Minuten), 15. Juli 2014

Abschlussklausur (60 Minuten), 15. Juli 2014 Prof. Dr. Amelie Wuppermann Volkswirtschaftliche Fakultät Universität München Sommersemester 2014 Empirische Ökonomie 1 Abschlussklausur (60 Minuten), 15. Juli 2014 Bearbeitungshinweise Die Bearbeitungszeit

Mehr

6.1 Grundbegriffe und historischer Hintergrund

6.1 Grundbegriffe und historischer Hintergrund Kapitel 6 Regression 61 Grundbegriffe und historischer Hintergrund Bedeutung der Regression: Eines der am häufigsten verwendeten statistischen Verfahren Vielfache Anwendung in den Sozialwissenschaften

Mehr

Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall )

Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall ) Zusammenhänge von Variablen Regressionsanalysen linearer Zusammenhang ( Idealfall ) kein Zusammenhang nichtlinearer monotoner Zusammenhang (i.d.regel berechenbar über Variablentransformationen mittels

Mehr

OPERATIONS-RESEARCH (OR)

OPERATIONS-RESEARCH (OR) OPERATIONS-RESEARCH (OR) Man versteht darunter die Anwendung mathematischer Methoden und Modelle zur Vorbereitung optimaler Entscheidungen bei einem Unternehmen. Andere deutsche und englische Bezeichnungen:

Mehr

Biostatistische Studienplanung II. Dr. Matthias Kohl SIRS-Lab GmbH

Biostatistische Studienplanung II. Dr. Matthias Kohl SIRS-Lab GmbH Biostatistische Studienplanung II Dr. Matthias Kohl SIRS-Lab GmbH Inhalt Lineare Modelle: Definition und Beispiele KQ- und robuste Schätzer Diagnostik Ausblick: Mixed-Effects Definition des linearen Modells

Mehr

Projektaufgaben Block 2

Projektaufgaben Block 2 Kurs BZQ III - Stochastikpraktikum WS 2013/14 Humboldt-Universität zu Berlin Randolf Altmeyer Philip-Moritz Eckert Projektaufgaben Block 2 Abgabe: bis 10.12.2013 Zur Einstimmung (freiwillig, ohne Abgabe)

Mehr

ε heteroskedastisch BINARY CHOICE MODELS Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS?

ε heteroskedastisch BINARY CHOICE MODELS Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS? BINARY CHOICE MODELS 1 mit Pr( Y = 1) = P Y = 0 mit Pr( Y = 0) = 1 P Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS? Y i = X i β + ε i Probleme: Nonsense Predictions

Mehr

Oliver Kuß*; Dorothee Twardella**; Maria Blettner***; Thomas L. Diepgen**

Oliver Kuß*; Dorothee Twardella**; Maria Blettner***; Thomas L. Diepgen** Effektschätzung in Cluster-Randomized Trials mit binärer Zielgröße: Eine Sensitivitätsanalyse mit numerischer Integration, MCMC und NPMLE am Beispiel der DHP Oliver Kuß*; Dorothee Twardella**; Maria Blettner***;

Mehr

Über statistische Probleme bei der Analyse von Daten aus dem Bereich der Kraftfahrzeugversicherung

Über statistische Probleme bei der Analyse von Daten aus dem Bereich der Kraftfahrzeugversicherung Statistik Über statistische Probleme bei der Analyse von Daten aus dem Bereich der Kraftfahrzeugversicherung Andreas Christmann Universität Dortmund Fachbereich Statistik 44221 Dortmund christmann@statistik.uni-dortmund.de

Mehr

Lehrstuhl für Statistik und empirische Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Prüfung im Fach Ökonometrie im WS 2011/12 Lösungsskizze

Lehrstuhl für Statistik und empirische Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Prüfung im Fach Ökonometrie im WS 2011/12 Lösungsskizze Lehrstuhl für Statistik und empirische irtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Prüfung im ach Ökonometrie im S 20/2 Lösungsskizze Aufgabe (.5 Punkte) Sie verfügen über einen Datensatz, der Informationen

Mehr

Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt!

Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt! Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt! 1 Einführung 2 Wahrscheinlichkeiten kurz gefasst 3 Zufallsvariablen und Verteilungen 4 Theoretische Verteilungen (Wahrscheinlichkeitsfunktion)

Mehr

Skript zur Vorlesung Computerintensive Verfahren in der Statistik

Skript zur Vorlesung Computerintensive Verfahren in der Statistik Skript zur Vorlesung Computerintensive Verfahren in der Statistik Stefan Lang Institut für Statistik Ludwigstrasse 33 email: lang@stat.uni-muenchen.de 15. Januar 24 Ich bedanke mich bei zahlreichen StudentInnen

Mehr

Multinomiale logistische Regression

Multinomiale logistische Regression Multinomiale logistische Regression Die multinomiale logistische Regression dient zur Schätzung von Gruppenzugehörigkeiten bzw. einer entsprechenden Wahrscheinlichkeit hierfür, wobei als abhänginge Variable

Mehr

Geoadditive Regression

Geoadditive Regression Seminar: Stochastische Geometrie und ihre Anwendungen - Zufallsfelder Universität Ulm 27.01.2009 Inhalt Einleitung 1 Einleitung 2 3 Penalisierung 4 Idee Variogramm und Kovarianz Gewöhnliches Ansatz für

Mehr

Probeklausur Zeitreihenökonometrie (Sommersemester 2014) 1

Probeklausur Zeitreihenökonometrie (Sommersemester 2014) 1 Probeklausur Zeitreihenökonometrie (Sommersemester 2014) 1 Aufgabe 1: Betrachtet wird folgendes Modell zur Erklärung des Managergehalts salary durch den Umsatz sales, die Eigenkapitalrendite roe und die

Mehr

Das Dialogfeld für die Regressionsanalyse ("Lineare Regression") findet sich im Statistik- Menu unter "Regression"-"Linear":

Das Dialogfeld für die Regressionsanalyse (Lineare Regression) findet sich im Statistik- Menu unter Regression-Linear: Lineare Regression Das Dialogfeld für die Regressionsanalyse ("Lineare Regression") findet sich im Statistik- Menu unter "Regression"-"Linear": Im einfachsten Fall werden mehrere Prädiktoren (oder nur

Mehr

Institut für Soziologie. Methoden 2. Regressionsanalyse I: Einfache lineare Regression

Institut für Soziologie. Methoden 2. Regressionsanalyse I: Einfache lineare Regression Institut für Soziologie Methoden 2 Regressionsanalyse I: Einfache lineare Regression Programm Anwendungsbereich Vorgehensweise Interpretation Annahmen Zusammenfassung Übungsaufgabe Literatur # 2 Anwendungsbereich

Mehr

Statistik im Bachelor-Studium der BWL und VWL

Statistik im Bachelor-Studium der BWL und VWL Max C. Wewel Statistik im Bachelor-Studium der BWL und VWL Methoden, Anwendung, Interpretation Mit herausnehmbarer Formelsammlung ein Imprint von Pearson Education München Boston San Francisco Harlow,

Mehr

Aufabe 7: Baum-Welch Algorithmus

Aufabe 7: Baum-Welch Algorithmus Effiziente Algorithmen VU Ausarbeitung Aufabe 7: Baum-Welch Algorithmus Florian Fest, Matr. Nr.0125496 baskit@generationfun.at Claudia Hermann, Matr. Nr.0125532 e0125532@stud4.tuwien.ac.at Matteo Savio,

Mehr

Statistische Verfahren für das Data Mining in einem Industrieprojekt

Statistische Verfahren für das Data Mining in einem Industrieprojekt Statistische Verfahren für das Data Mining in einem Industrieprojekt Thorsten Dickhaus Forschungszentrum Jülich GmbH Zentralinstitut für Angewandte Mathematik Telefon: 02461/61-4193 E-Mail: th.dickhaus@fz-juelich.de

Mehr

Eine computergestützte Einführung mit

Eine computergestützte Einführung mit Thomas Cleff Deskriptive Statistik und Explorative Datenanalyse Eine computergestützte Einführung mit Excel, SPSS und STATA 3., überarbeitete und erweiterte Auflage ^ Springer Inhaltsverzeichnis 1 Statistik

Mehr

ChangePoint-Analysen - ein Überblick

ChangePoint-Analysen - ein Überblick ChangePoint-Analysen - ein Überblick Gliederung Motivation Anwendungsgebiete Chow Test Quandt-Andrews Test Fluktuations-Tests Binary Segmentation Recursive circular and binary segmentation algorithm Bayesscher

Mehr

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik Ludwig Fahrmeir, Nora Fenske Institut für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik 29. März 21 Hinweise:

Mehr

Informatik-Sommercamp 2012. Mastermind mit dem Android SDK

Informatik-Sommercamp 2012. Mastermind mit dem Android SDK Mastermind mit dem Android SDK Übersicht Einführungen Mastermind und Strategien (Stefan) Eclipse und das ADT Plugin (Jan) GUI-Programmierung (Dominik) Mastermind und Strategien - Übersicht Mastermind Spielregeln

Mehr

MATHEMATISCHE ANALYSE VON ALGORITHMEN

MATHEMATISCHE ANALYSE VON ALGORITHMEN MATHEMATISCHE ANALYSE VON ALGORITHMEN Michael Drmota Institut für Diskrete Mathematik und Geometrie, TU Wien michael.drmota@tuwien.ac.at www.dmg.tuwien.ac.at/drmota/ Ringvorlesung SS 2008, TU Wien Algorithmus

Mehr

Optimierung I. 1 Einführung. Luise Blank. Wintersemester 2012/13. Universität Regensburg

Optimierung I. 1 Einführung. Luise Blank. Wintersemester 2012/13. Universität Regensburg Universität Regensburg Wintersemester 2012/13 1 Einführung Anwendungen Finanzwirtschaft: maximale Gewinnrate unter Beschränkungen an das Risiko; Portfolio von Investments Produktion: maximiere Gewinn bei

Mehr

Modul G.1 WS 07/08: Statistik 17.01.2008 1. Die Korrelation ist ein standardisiertes Maß für den linearen Zusammenhangzwischen zwei Variablen.

Modul G.1 WS 07/08: Statistik 17.01.2008 1. Die Korrelation ist ein standardisiertes Maß für den linearen Zusammenhangzwischen zwei Variablen. Modul G.1 WS 07/08: Statistik 17.01.2008 1 Wiederholung Kovarianz und Korrelation Kovarianz = Maß für den linearen Zusammenhang zwischen zwei Variablen x und y Korrelation Die Korrelation ist ein standardisiertes

Mehr

Generalisierte Additive Modelle im Credit Rating: Eine Fallstudie zum Vergleich verschiedener Verfahren

Generalisierte Additive Modelle im Credit Rating: Eine Fallstudie zum Vergleich verschiedener Verfahren Generalisierte Additive Modelle im Credit Rating: Eine Fallstudie zum Vergleich verschiedener Verfahren Marlene Müller Beuth Hochschule für Technik Berlin, Fachbereich II Luxemburger Str. 10, D 13353 Berlin

Mehr

Einfache Statistiken in Excel

Einfache Statistiken in Excel Einfache Statistiken in Excel Dipl.-Volkswirtin Anna Miller Bergische Universität Wuppertal Schumpeter School of Business and Economics Lehrstuhl für Internationale Wirtschaft und Regionalökonomik Raum

Mehr

Data Mining im Online Condition Monitoring: Vergleich gängiger statistischer Methoden

Data Mining im Online Condition Monitoring: Vergleich gängiger statistischer Methoden Data Mining im Online Condition Monitoring: Vergleich gängiger statistischer Methoden 1 Data Mining im Online Condition Monitoring: Vergleich gängiger statistischer Methoden Bakk. Peter Holzer peter.holzer@predictive.at

Mehr

Quantitative Methoden der Bildungsforschung

Quantitative Methoden der Bildungsforschung Glieung Wieholung Korrelationen Grundlagen lineare Regression Lineare Regression in SPSS Übung Wieholung Korrelationen Standardisiertes Zusammenhangsmaß (unstandardisiert: Kovarianz) linearer Zusammenhang

Mehr

17. Penalty- und Barriere-Methoden

17. Penalty- und Barriere-Methoden H.J. Oberle Optimierung SoSe 01 17. Penalty- und Barriere-Methoden Penalty- und Barriere Methoden gehören zu den ältesten Ansätzen zur Lösung allgemeiner restringierter Optimierungsaufgaben. Die grundlegende

Mehr

Delta-Gamma-Verfahren als Standard- Risikomodell für Lebensversicherer

Delta-Gamma-Verfahren als Standard- Risikomodell für Lebensversicherer Delta-Gamma-Verfahren als Standard- Risikomodell für Lebensversicherer 1 Einleitung Im Rahmen des SST wird teilweise vereinfachend angenommen, dass der Zusammenhang zwischen der Veränderung des risikotragenden

Mehr

Stochastische Prozesse und Zeitreihenmodelle

Stochastische Prozesse und Zeitreihenmodelle Kapitel 12 Stochastische Prozesse und reihenmodelle [ Stochastische Prozesse und reihenmodelle ] Einleitung:.com-Blase an der NASDAQ Department of Statistics and Mathematics WU Wien c 2008 Statistik 12

Mehr

Neue SAS-Prozedur GLMSELECT: Gehaltsanalyse und Studiengebührenmodell

Neue SAS-Prozedur GLMSELECT: Gehaltsanalyse und Studiengebührenmodell Neue SAS-Prozedur GLMSELECT: Gehaltsanalyse und Studiengebührenmodell Variablenselektion Dr. Jakob Margolis Anna Margolis Analytiker Studentin European Business FH Münster / University of Portsmouth Frizstr.

Mehr

Modellierung von Korrelationen zwischen Kreditausfallraten für Kreditportfolios. Bernd Rosenow, 3. Kölner Workshop Quantitative Finanzmarktforschung

Modellierung von Korrelationen zwischen Kreditausfallraten für Kreditportfolios. Bernd Rosenow, 3. Kölner Workshop Quantitative Finanzmarktforschung Modellierung von Korrelationen zwischen Kreditausfallraten für Kreditportfolios Bernd Rosenow Rafael Weißhaupt Frank Altrock Universität zu Köln West LB AG, Düsseldorf Gliederung Beschreibung des Datensatzes

Mehr

Kontingenzkoeffizient (nach Pearson)

Kontingenzkoeffizient (nach Pearson) Assoziationsmaß für zwei nominale Merkmale misst die Unabhängigkeit zweier Merkmale gibt keine Richtung eines Zusammenhanges an 46 o jl beobachtete Häufigkeiten der Kombination von Merkmalsausprägungen

Mehr

Vergleich von KreditRisk+ und KreditMetrics II Seminar Portfoliokreditrisiko

Vergleich von KreditRisk+ und KreditMetrics II Seminar Portfoliokreditrisiko Vergleich von KreditRisk+ und KreditMetrics II Seminar Portfoliokreditrisiko Jan Jescow Stoehr Gliederung 1. Einführung / Grundlagen 1.1 Ziel 1.2 CreditRisk+ und CreditMetrics 2. Kreditportfolio 2.1 Konstruktion

Mehr

Proseminar - Data Mining

Proseminar - Data Mining Proseminar - Data Mining SCCS, Fakultät für Informatik Technische Universität München SS 2012, SS 2012 1 Data Mining Pipeline Planung Aufbereitung Modellbildung Auswertung Wir wollen nützliches Wissen

Mehr

(2) Mittels welcher Methode ist es im ALM möglich kategoriale Variablen als Prädiktoren in eine Regressionsgleichung zu überführen?

(2) Mittels welcher Methode ist es im ALM möglich kategoriale Variablen als Prädiktoren in eine Regressionsgleichung zu überführen? Beispielaufgaben LÖSUNG (1) Grenzen Sie eine einfache lineare Regression von einem Random Intercept Modell mit nur einem Level1-Prädiktor ab! a. Worin unterscheiden sich die Voraussetzungen? - MLM braucht

Mehr

Kommentierter SPSS-Ausdruck zur logistischen Regression

Kommentierter SPSS-Ausdruck zur logistischen Regression Daten: POK V AG 3 (POKV_AG3_V07.SAV) Kommentierter SPSS-Ausdruck zur logistischen Regression Fragestellung: Welchen Einfluss hat die Fachnähe und das Geschlecht auf die interpersonale Attraktion einer

Mehr

Unsupervised Kernel Regression

Unsupervised Kernel Regression 9. Mai 26 Inhalt Nichtlineare Dimensionsreduktion mittels UKR (Unüberwachte KernRegression, 25) Anknüpfungspunkte Datamining I: PCA + Hauptkurven Benötigte Zutaten Klassische Kernregression Kerndichteschätzung

Mehr

2. Eindimensionale (univariate) Datenanalyse

2. Eindimensionale (univariate) Datenanalyse 2. Eindimensionale (univariate) Datenanalyse Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Kennzahlen, Statistiken In der Regel interessieren uns nicht so sehr die beobachteten Einzeldaten

Mehr

Multiple Regression II: Signifikanztests, Gewichtung, Multikollinearität und Kohortenanalyse

Multiple Regression II: Signifikanztests, Gewichtung, Multikollinearität und Kohortenanalyse Multiple Regression II: Signifikanztests,, Multikollinearität und Kohortenanalyse Statistik II Übersicht Literatur Kausalität und Regression Inferenz und standardisierte Koeffizienten Statistik II Multiple

Mehr

Commercial Banking Übung 1 Kreditscoring

Commercial Banking Übung 1 Kreditscoring Commercial Banking Übung Kreditscoring Dr. Peter Raupach raupach@wiwi.uni-frankfurt.de Sprechzeit Dienstag 6-7:00 Uhr Raum 603 B Kreditscoring Gliederung Grundanliegen Das Sample Modellspezifikation Diskriminanzanalyse

Mehr

Inhaltsverzeichnis. Regressionsanalyse. http://mesosworld.ch - Stand vom: 20.1.2010 1

Inhaltsverzeichnis. Regressionsanalyse. http://mesosworld.ch - Stand vom: 20.1.2010 1 Inhaltsverzeichnis Regressionsanalyse... 2 Lernhinweise... 2 Einführung... 2 Theorie (1-8)... 2 1. Allgemeine Beziehungen... 3 2. 'Best Fit'... 3 3. 'Ordinary Least Squares'... 4 4. Formel der Regressionskoeffizienten...

Mehr

Evaluation der Normalverteilungsannahme

Evaluation der Normalverteilungsannahme Evaluation der Normalverteilungsannahme. Überprüfung der Normalverteilungsannahme im SPSS P. Wilhelm; HS SPSS bietet verschiedene Möglichkeiten, um Verteilungsannahmen zu überprüfen. Angefordert werden

Mehr

Christian FG Schendera. Regressionsanalyse. mit SPSS. 2. korrigierte und aktualisierte Auflage DE GRUYTER OLDENBOURG

Christian FG Schendera. Regressionsanalyse. mit SPSS. 2. korrigierte und aktualisierte Auflage DE GRUYTER OLDENBOURG Christian FG Schendera Regressionsanalyse mit SPSS 2. korrigierte und aktualisierte Auflage DE GRUYTER OLDENBOURG Inhalt Vorworte V 1 Korrelation 1 1.1 Einführung 1 1.2 Erste Voraussetzung: Das Skalenniveau

Mehr

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren)

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Multiple Regression 1 Was ist multiple lineare Regression? Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Annahme: Der Zusammenhang

Mehr

Binäre abhängige Variablen

Binäre abhängige Variablen Binäre abhängige Variablen Thushyanthan Baskaran thushyanthan.baskaran@awi.uni-heidelberg.de Alfred Weber Institut Ruprecht Karls Universität Heidelberg Einführung Oft wollen wir qualitative Variablen

Mehr

6.0 Logistische Regression. 6 Logistische Regression. 6.1 Das binäre Modell. 6 Logistische Regression

6.0 Logistische Regression. 6 Logistische Regression. 6.1 Das binäre Modell. 6 Logistische Regression 6.0 Logistische Regression 6.1 Das binäre Modell 6.1 Das binäre Modell Sei x der Vektor der Einflussgrößen mit einem Eins-Element, um die Regressionskonstante zu modellieren. Angenommen, es gilt das Regressionsmodell:

Mehr

8. Februar 2007. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt.

8. Februar 2007. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt. L. Fahrmeir, C. Belitz Department für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit Wahlfach Statistik 8. Februar 2007 Hinweise:

Mehr

Allgemeine Regressionsanalyse. Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl. deterministisch

Allgemeine Regressionsanalyse. Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl. deterministisch Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 9.1 Allgemeine Regressionsanalyse Daten (X j, Y j ), j = 1,..., N unabhängig Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl.

Mehr

Proseminar - Data Mining

Proseminar - Data Mining Proseminar - Data Mining SCCS, Fakultät für Informatik Technische Universität München SS 2014, SS 2014 1 Data Mining: Beispiele (1) Hausnummererkennung (Klassifikation) Source: http://arxiv.org/abs/1312.6082,

Mehr

Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel

Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel 16.11.01 MP1 - Grundlagen quantitativer Sozialforschung - (4) Datenanalyse 1 Gliederung Datenanalyse (inferenzstatistisch)

Mehr

Klausur STATISTIK 2 für Diplom VWL

Klausur STATISTIK 2 für Diplom VWL Klausur STATISTIK 2 für Diplom VWL Name, Vorname: Matrikel-Nr. Die Klausur enthält zwei Typen von Aufgaben: Teil A besteht aus Fragen mit mehreren vorgegebenen Antwortvorschlägen, von denen mindestens

Mehr

Untersuchungen zum Thema Tracking Error

Untersuchungen zum Thema Tracking Error Untersuchungen zum Thema Tracking Error J. Fulmek 24. August 2003 1 Einleitung Im Folgenden werden folgende Punkte untersucht: 1. verschiedene in der Literatur übliche Definitionen des Tracking Errors

Mehr

2. Korrelation, lineare Regression und multiple Regression

2. Korrelation, lineare Regression und multiple Regression multiple 2.2 Lineare 2.2 Lineare 1 / 130 2.2 Lineare 2 / 130 2.1 Beispiel: Arbeitsmotivation Untersuchung zur Motivation am Arbeitsplatz in einem Chemie-Konzern 25 Personen werden durch Arbeitsplatz zufällig

Mehr

Multivariate Verfahren

Multivariate Verfahren Selbstkontrollarbeit 2 Multivariate Verfahren Musterlösung Aufgabe 1 (28 Punkte) Der Marketing-Leiter einer Lebensmittelherstellers möchte herausfinden, mit welchem Richtpreis eine neue Joghurt-Marke auf

Mehr

Übungen zur Ingenieur-Mathematik III WS 2009/10 Blatt 10 21.12.2009

Übungen zur Ingenieur-Mathematik III WS 2009/10 Blatt 10 21.12.2009 Übungen zur Ingenieur-Mathematik III WS 2009/10 Blatt 10 21.12.2009 Aufgabe 35: Thema: Singulärwertzerlegung und assoziierte Unterräume Sei A eine m n Matrix mit Rang r und A = UDV T ihre Singulärwertzerlegung.

Mehr

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen 4. Datenanalyse und Modellbildung Deskriptive Statistik 2-1 2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen Für die Auswertung einer Messreihe, die in Form

Mehr

Füllmenge. Füllmenge. Füllmenge. Füllmenge. Mean = 500,0029 Std. Dev. = 3,96016 N = 10.000. 485,00 490,00 495,00 500,00 505,00 510,00 515,00 Füllmenge

Füllmenge. Füllmenge. Füllmenge. Füllmenge. Mean = 500,0029 Std. Dev. = 3,96016 N = 10.000. 485,00 490,00 495,00 500,00 505,00 510,00 515,00 Füllmenge 2.4 Stetige Zufallsvariable Beispiel. Abfüllung von 500 Gramm Packungen einer bestimmten Ware auf einer automatischen Abfüllanlage. Die Zufallsvariable X beschreibe die Füllmenge einer zufällig ausgewählten

Mehr

Anwendung von Ensemble Methoden für Klassifikationsaufgaben Marcus Hudec marcus.hudec@univie.ac.at

Anwendung von Ensemble Methoden für Klassifikationsaufgaben Marcus Hudec marcus.hudec@univie.ac.at Anwendung von Ensemble Methoden für Klassifikationsaufgaben Marcus Hudec marcus.hudec@univie.ac.at Österreichische Statistiktage 2011 Graz, 7.- 9. September 2011 Vorbemerkungen Ensemble Methoden für Klassifikationsaufgaben

Mehr

Anhang A: Fragebögen und sonstige Unterlagen

Anhang A: Fragebögen und sonstige Unterlagen Anhang Anhang A: Fragebögen und sonstige Unterlagen A.: Flyer zur Probandenrekrutierung 46 A.: Fragebogen zur Meditationserfahrung 47 48 A.3: Fragebogen Angaben zur Person 49 5 5 A.4: Termin- und Einladungsschreiben

Mehr

Datenanalyse und Statistik

Datenanalyse und Statistik Datenanalyse und Statistik p. 1/44 Datenanalyse und Statistik Vorlesung 2 (Graphik I) K.Gerald van den Boogaart http://www.stat.boogaart.de Datenanalyse und Statistik p. 2/44 Daten Schätzung Test Mathe

Mehr

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft Prof. Dr. Helmut Küchenhoff SS08 90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft am 22.7.2008 Anmerkungen Überprüfen Sie bitte sofort, ob Ihre Angabe vollständig ist. Sie sollte

Mehr

Kompakte Graphmodelle handgezeichneter Bilder

Kompakte Graphmodelle handgezeichneter Bilder Kompakte Graphmodelle handgezeichneter Bilder Einbeziehung in Authentizierung und Bilderkennung Inhaltsverzeichnis Seminar Mustererkennung WS 006/07 Autor: Stefan Lohs 1 Einleitung 1 Das graphische Modell.1

Mehr

Häufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln

Häufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln Häufigkeitstabellen Menüpunkt Data PivotTable Report (bzw. entsprechendes Icon): wähle Data Range (Zellen, die die Daten enthalten + Zelle mit Variablenname) wähle kategoriale Variable für Spalten- oder

Mehr

Binäre lineare Optimierung mit K*BMDs p.1/42

Binäre lineare Optimierung mit K*BMDs p.1/42 Binäre lineare Optimierung mit K*BMDs Ralf Wimmer wimmer@informatik.uni-freiburg.de Institut für Informatik Albert-Ludwigs-Universität Freiburg Binäre lineare Optimierung mit K*BMDs p.1/42 Grundlagen Binäre

Mehr

Zusammenhänge zwischen metrischen Merkmalen

Zusammenhänge zwischen metrischen Merkmalen Zusammenhänge zwischen metrischen Merkmalen Darstellung des Zusammenhangs, Korrelation und Regression Daten liegen zu zwei metrischen Merkmalen vor: Datenpaare (x i, y i ), i = 1,..., n Beispiel: x: Anzahl

Mehr

Big Data als neuer Partner von Six Sigma Optimierung der diskreten Produktion

Big Data als neuer Partner von Six Sigma Optimierung der diskreten Produktion Big Data als neuer Partner von Six Sigma Optimierung der diskreten Produktion Frank Effenberger, Marco Fischer, 22.06.2015, München Agenda Firmenpräsentation Einführung Anwendungsfall Fazit Zahlen und

Mehr

Projektive Moduln. Lemma/Definition 1.1. Folgende Aussagen für einen R-Modul P sind äquivalent: (i) P erfüllt folgende Liftungseigenschaft:

Projektive Moduln. Lemma/Definition 1.1. Folgende Aussagen für einen R-Modul P sind äquivalent: (i) P erfüllt folgende Liftungseigenschaft: Seminar Summen von Quadraten und K-Theorie Projektive Moduln Im Folgenden sei R ein assoziativer Ring mit Eins, nicht notwendigerweise kommutativ. R-Modul ist im Folgenden stets ein Rechts-R-Modul. Ein

Mehr

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining.

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining. Personalisierung Personalisierung Thomas Mandl Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung Klassifikation Die Nutzer werden in vorab bestimmte Klassen/Nutzerprofilen

Mehr

Die Verteilung dieser Werte y ist eine Normalverteilung. hängt nicht von u ab

Die Verteilung dieser Werte y ist eine Normalverteilung. hängt nicht von u ab Einfache lineare Regression als Beispiel für das ALM ALM : Allgemeines Lineares Modell Y : Kriterium U : Prädiktor Modell : Erwartungswert von Y ist lineare Funktion von U Genauer : Für festes u gilt für

Mehr

Risikomessung und Value at Risk Wintersemester 2013/14

Risikomessung und Value at Risk Wintersemester 2013/14 Risikomessung und Value at Risk Wintersemester 2013/14 Walter Sanddorf-Köhle Statistik und Ökonometrie Foliensatz Nr. 11 Version vom 24. Januar 2014 1 / 45 6.5.1 Bisherige Vorgehensweise zur Berechnung

Mehr

Statistik und Datenanalyse. eine praktische Einführung

Statistik und Datenanalyse. eine praktische Einführung Statistik und Datenanalyse eine praktische Einführung Antony Unwin Lehrstuhl für Rechnerorientierte Statistik und Datenanalyse Institut für Mathematik Universität Augsburg unwin@math.uni-augsburg.de Augsburger

Mehr

Morphologie auf Binärbildern

Morphologie auf Binärbildern Morphologie auf Binärbildern WS07 5.1 Konen, Zielke WS07 5.2 Konen, Zielke Motivation Aufgabe: Objekte zählen Probleme: "Salt-&-Pepper"-Rauschen erzeugt falsche Objekte Verschmelzen richtiger Objekte durch

Mehr

Evaluation von Risikomodellen

Evaluation von Risikomodellen Evaluation von Risikomodellen Über die Pflicht zum echten Mehrwert Erstellt für: DKF 2015, München 5. Mai 2015 Agenda 1 Vorstellung 2 Motivation 3 Das ideale VaR-Modell 4 Testverfahren 5 Implikationen

Mehr

Commercial Banking. Kreditportfoliosteuerung

Commercial Banking. Kreditportfoliosteuerung Commercial Banking Kreditportfoliosteuerung Dimensionen des Portfoliorisikos Risikomessung: Was ist Kreditrisiko? Marking to Market Veränderungen des Kreditportfolios: - Rating-Veränderung bzw. Spreadveränderung

Mehr

Fehler in numerischen Rechnungen

Fehler in numerischen Rechnungen Kapitel 1 Fehler in numerischen Rechnungen Analyse numerischer Rechnungen: - Welche möglichen Fehler? - Einfluss auf Endergebnis? - Nicht alles in der Comp.Phys./Numerical Analysis dreht sich um Fehler

Mehr

Übungen zur Vorlesung. Statistik 2. a) Welche Grundannahmen der linearen Regression sind in Modell (1) verletzt?

Übungen zur Vorlesung. Statistik 2. a) Welche Grundannahmen der linearen Regression sind in Modell (1) verletzt? Institut für Stochastik WS 2007/2008 Universität Karlsruhe JProf. Dr. H. Holzmann Blatt 7 Dipl.-Math. oec. D. Engel Übungen zur Vorlesung Statistik 2 Aufgabe 25 (keine Abgabe) Angenommen die Zielvariable

Mehr

Quantitative Entscheidungsunterstützung Themen für Gruppenarbeiten

Quantitative Entscheidungsunterstützung Themen für Gruppenarbeiten Quantitative Entscheidungsunterstützung Themen für Gruppenarbeiten Dr. Philipp Baumann Prof. Dr. Norbert Trautmann Mario Gnägi Universität Bern Herbstsemester 2014 Gliederung Marketing Portfolio-Selektion

Mehr

Klausur Sommersemester 2010

Klausur Sommersemester 2010 Klausur Sommersemester 2010 Lehrstuhl: Wirtschaftspolitik Prüfungsfach: Empirische Wirtschaftsforschung Prüfer: Prof. Dr. K. Kraft Datum: 04.08.2010 Hilfsmittel: Nicht-programmierbarer Taschenrechner Klausurdauer:

Mehr

Technische Universität München. Zentrum Mathematik

Technische Universität München. Zentrum Mathematik Technische Universität München Zentrum Mathematik Modellwahl bei der KFZ Haftpflicht-Versicherung mit Hilfe von GLMs Diplomarbeit von Ivonne Siegelin Themenstellerin: Prof. Dr. C. Czado, Dr. G. Sussmann

Mehr

Aufgabenblatt 10 zur Lehrveranstaltung Quantitative Methoden der Betriebswirtschaftslehre I Frühjahrssemester 2015

Aufgabenblatt 10 zur Lehrveranstaltung Quantitative Methoden der Betriebswirtschaftslehre I Frühjahrssemester 2015 Universität Bern Bern, den 27. April 2015 Professur für Quantitative Methoden der BWL Schützenmattstr. 14, 3012 Bern Prof. Dr. Norbert Trautmann, Oliver Strub E-Mail: oliver.strub@pqm.unibe.ch Fragestunde

Mehr

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18 3. Deskriptive Statistik Ziel der deskriptiven (beschreibenden) Statistik (explorativen Datenanalyse) ist die übersichtliche Darstellung der wesentlichen in den erhobenen Daten enthaltene Informationen

Mehr

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 1 Einführung in die statistische Datenanalyse Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 2 Gliederung 1.Grundlagen 2.Nicht-parametrische Tests a. Mann-Whitney-Wilcoxon-U Test b. Wilcoxon-Signed-Rank

Mehr

Inhaltsverzeichnis. Fragestellungen und Methoden 11. Vorwort 15. Kapitel 1 Einführung 17. Kapitel 2 Statistische Grundbegriffe 23

Inhaltsverzeichnis. Fragestellungen und Methoden 11. Vorwort 15. Kapitel 1 Einführung 17. Kapitel 2 Statistische Grundbegriffe 23 Fragestellungen und Methoden 11 Vorwort 15 Kapitel 1 Einführung 17 1.1 KonzeptiondesBuchs... 18 1.2 AufbaudesBuchs... 19 1.3 Programmversionen von PASW bzw. SPSS..... 20 1.4 WiekanndiesesBuchverwendetwerden?...

Mehr

Kategoriale abhängige Variablen: Logit- und Probit -Modelle. Statistik II

Kategoriale abhängige Variablen: Logit- und Probit -Modelle. Statistik II Kategoriale abhängige Variablen: Logit- und Probit -Modelle Statistik II Wiederholung Literatur Annahmen und Annahmeverletzungen Funktionen Exponenten, Wurzeln usw. Das Problem Das binäre Logit-Modell

Mehr