Clustering B EM-Algorithmus Automatische Bestimmung der Clusteranzahl

Größe: px
Ab Seite anzeigen:

Download "Clustering B EM-Algorithmus Automatische Bestimmung der Clusteranzahl"

Transkript

1 Clustering B EM-Algorithmus Automatische Bestimmung der Clusteranzahl Daniel Birkmaier, Erlangen,

2 Inhalt EM-Algorithmus Grundlegendes Details Anwendung Beispiel Automatische Bestimmung der Cluster-Anzahl Grundlegendes Χ 2 -Statistiken Arten Prüfgrößen Beziehungen zum k-means-algorithmus Bootstrap-Verfahren Beispiel 2

3 EM-Algorithmus Grundlegendes

4 Geschichte des EM-Algorithmus 1974 Entdeckung durch Goodman Häufige Verwendung von Autoren in bestimmten Spezialfällen 1977 Verallgemeinerung der Konvergenzanalyse auf breitere Klasse von Problemen durch Dempster, Laird und Rubin Wichtiges Instrument für statische Analyse 1983 Veröffentlichung korrekter, nicht exponentieller Konvergenzanalyse durch Jeff Wu 4

5 Erinnerung an den k-means-algorithmus Schritt 1: Zufällige Zuordnung der Objekte zu k Clustern Schritt 2: Berechnung der Cluster-Zentren mit arithmetischem Mittel Schritt 3: Neuzuordnung der Objekte zum Cluster-Zentrum mit minimaler euklidischer Distanz Schritt 4: Iteration Bei Änderung der Cluster-Zuordnung der Objekte Wiederholung ab Schritt 2 5

6 Unterschiede zwischen k-means- und EM-Algorithmus Verallgemeinerung des k-means-algorithmus (Ausnahme: TwoStep-Cluster) Schritt 2: Berechnung der Klassenzentren und Klassenanteilswerte Arithmetisches Mittel Maximum-Likelihood-Schätzung Schritt 3: Klassenzuordnung Minimale euklidische Distanz Zuordnungswahrscheinlichkeit Deterministische Zuordnung der Objekte zu den Klassen Probabilistische Zuordnung der Objekte zu den Klassen Beschreibung und Interpretation einer Klassenlösung analog zu k- Means Unterschiede kaum bei Klassenzentren, eher bei Klassenanteilswerten 6

7 EM-Algorithmus Schritt 1: Zufällige Zuordnung der Objekte zu k Clustern Schritt 2: Berechnung der Cluster-Zentren mit Maximum-Likelihood-Schätzung Schritt 3: Neuzuordnung der Objekte zum Cluster-Zentrum mit höchster Zuordnungswahrscheinlichkeit Schritt 4: Iteration Bei Änderung der Cluster-Zuordnung der Objekte Wiederholung ab Schritt 2 7

8 Möglichkeiten der Beschreibung und Interpretation äquivalent k-means-algorithmus Prüfung jeder Variable auf signifikanten Beitrag zur Klassentrennung (Streuung der Variablen und F-Wert) Berechnung paarweiser Unterschiede von Klassen in den Variablen Zusammenfassung von Variablen innerhalb einer Klasse zu Gruppen Prüfung auf signifikante Abweichungen von den Gesamtmittelwerten durch Berechnung von z-werten Beschreibung und inhaltliche Validitätsprüfung durch Deskriptionsvariablen bi-/multivariate Verfahren 8

9 Vorteile des EM-Algorithmus Gute Vergleichbarkeit Modellierbarkeit von Messfehlern in den Variablen Kleinere Anfälligkeit für Verzerrungen durch irrelevante Variablen Ermittlung von erwartungstreuen Schätzern für Cluster-Zentren Formal besser begründete Maßzahlen für Bestimmung der Cluster- Zahl Modellierung unterschiedlicher Variablentypen möglich 9

10 Nachteile des EM-Algorithmus Konvergente und stabile Lösungen benötigen größere Stichproben Verletzung von zu treffenden Annahmen kann zu verzerrten Schätzungen führen Untersuchung der Identifikation des zu schätzenden Modells 10

11 EM-Algorithmus Details

12 Konzept der lokalen Unabhängigkeit Zentral für EM-Algorithmus Modellvorstellung: Grundstein der Daten: K latente/unbeobachtete Klassen Erklärung der Zusammenhänge zwischen den untersuchten manifesten/beobachteten Variablen durch Klassen Einführung der (latenten) Klassen als Kontrollvariablen in die Analyse Verschwinden der empirischen Zusammenhänge Unabhängigkeit manifester Variablen innerhalb jeder Klasse 12

13 Modellansatz K latente Klassen Paarweise Unabhängigkeit aller Variablen innerhalb jeder Klasse Anteilswert π(k) jeder Klasse k an der Grundgesamtheit 2 Normalverteilung mit einem Erwartungswert μ kj und der Varianz σ kj für jede Klasse k und jede Variable j 13

14 Normalverteilung der Variablen Zusammensetzung des beobachteten Wertes x gj der Variablen X j eines Objekts g einer Klasse k: Klassenmittelwert μ kj Fehlerterm ε gj ε gj ist Realisierung einer normalverteilten Zufallsvariable ξ kj Erwartungswert 0 2 Varianz σ kj ξ kj paarweise unabhängig: cov(ξ kj, ξ kj* ) = 0 14

15 Grundlegende Stochastikwerte Gesamtmittelwert für eine Variable: μ j = k Kovarianz zwischen zwei Variablen: σ jj = k π (k )μ kj Varianz einer Variablen: σ j 2 = σ jj = k π (k )(μ kj μ j )(μ kj μ j ) π (k )σ 2 kj + π (k )(μ kj μ j ) 2 k 15

16 Bedingte Wahrscheinlichkeiten Bedingte Wahrscheinlichkeit für das Auftreten eines Objektes g mit bestimmtem Wert x gj für die Variable j in der Klasse k: π (x gj k ) = ϕ(x gj μ kj, σ kj ) = Bedingte Wahrscheinlichkeit für die Zugehörigkeit eines Objektes g zu einer Klasse k: π (g k ) = j π(x gj k ) 1 2πσ kj e (x gj μ kj ) σ kj 16

17 Maximum-Likelihood-Schätzung Likelihood-Funktion L: L = g k Log-Likelihood-Funktion LL: LL = lnl = g π (k )π (g k ) ln k π (k )π (g k ) Schätzwertbestimmung durch Funktionsmaximierung 17

18 EM-Algorithmus Anwendung

19 Grundprinzip des EM-Algorithmus Expectation-Schritt (E-Schritt): Abschätzung der Zuordnungswahrscheinlichkeiten π(k g) Annahme: Modellparameter π(k), µ kj und σ kj sind gegeben Maximization-Schritt (M-Schritt): Abschätzung der Modellparameter π(k), µ kj und σ kj Annahme: Zuordnungswahrscheinlichkeiten π(k g) sind gegeben 19

20 EM-Algorithmus Schritt 1: Zufällige Zuordnung der Objekte zu k Clustern Schritt 2: E-Schritt Berechnung der Cluster-Zentren mit Maximum-Likelihood-Schätzung Schritt 3: M-Schritt Neuzuordnung der Objekte zum Cluster-Zentrum mit höchster Zuordnungswahrscheinlichkeit Schritt 4: Iteration Bei Änderung der Cluster-Zuordnung der Objekte Wiederholung ab Schritt 2 20

21 Annahme Wahrscheinlichkeit für Auftreten einer Klasse bei Objekt g gegeben π (k g ) Vorsicht! Annahme entspricht nicht den Tatsachen Nicht verwechseln mit der bisher verwendeten Wahrscheinlichkeit: π (g k ) 21

22 Folgerung Log-Likelihood-Funktion LL = g ln k Vereinfachung π (k ) π (g k ) LL = g = g k k π (k g )(lnπ(k ) + ln π (g k )) π (k g )( lnπ(k ) + j lnπ( x gj k ) ) 22

23 Schätzung von π(k g) Satz von Bayes P( A B ) = P (B A)P( A) P(B) Schätzung p(k g) von π(k g) p(k g ) = k p (k )p(g k ) p (k )p (g k ) 23

24 EM-Algorithmus - Schritt 1 Berechnung oder Eingabe von Startwerten für Modellparameter oder Zuordnungswahrscheinlichkeiten (Bei Startwerten hierfür gehe zu Schritt 3) 24

25 EM-Algorithmus - Schritt 2 Schätzung der Zuordnungswahrscheinlichkeiten π(k g): p(k g ) = i Hierbei gilt: k p(g k ) = i j p (k ) p (g k ) i 1 i 1 p (k ) p (g k ) i 1 i 1 ϕ( p (x gj k ) = x gj x, s kj) i 1 j i 1 kj i 1 Mittig tiefgestellter Index: Iterationszähler 25

26 EM-Algorithmus - Schritt 3 Schätzung der Modellparameter π(k), µ kj und σ kj p(k ) = i x kj = i s 2 = i kj g g g g p (k g ) i n p (k g ) x gj i p i p (k g ) i (k g ) ( x gj x kj)2 i g p(k g ) i 26

27 EM-Algorithmus - Schritt 4 Prüfung der Konvergenz Abbruch des Algorithmus unter folgenden Bedingungen: Verbesserung der Log-Likelihood-Funktion unter Schwellenwert (zum Beispiel 10-7 ) und/oder Maximale Abweichung aufeinanderfolgender Schätzwerte unter Schwellenwert (zum Beispiel 10-4 ) 27

28 Anzahl zu schätzender Parameter Anzahl Art K - 1 Klassenanteilswerte π(k) (Definition eines Anteilwertes durch Bedingung, dass die Summe aller Werte gleich 1 ist.) Km Klassenzentren µ kj : Erwartungswerte jeder Variablen für jede Klasse Km Klassenvarianzen: Varianzen σ kj 2 jeder Variablen für jede Klasse K(1 + 2m) - 1 Gesamtzahl zu schätzender Parameter =: m K 28

29 Überwachung der lokalen Unabhängigkeit Abspeicherung der Klassenzuordnungswahrscheinlichkeiten p(k g) Berechnung einer Varianz-Kovarianz-Matrix W k für jede Klasse (Gewichte: p(k g)) Unabhängigkeit W k ist Diagonalmatrix Möglichkeiten: Likelihood-Quotienten-Test Bivariate Residuen 29

30 Überwachung der Klassenüberlappungen Große Beeinflussung der Konvergenz und Stabilität Überwachung sinnvoll Gefahr für Instabilität ab bestimmtem Überlappungsanteil stark erhöht Überwachungsmöglichkeiten: Dichotomisierung der Zuordnungswahrscheinlichkeiten und Berechnung aller Ausprägungskombinationen (Schwelle: 1/K) Fuzzy-Clustering-Messzahlen Empirische Stabilitätsuntersuchungen 30

31 Beispiel Zweidimensional Nicht überlappende Klassen 31

32 EM-Algorithmus Automatische Bestimmung der Cluster-Anzahl

33 Grundprinzip Ausführung des EM-Algorithmus Für verschiedene Anzahlen von Klassen Mit verschiedenen Startwerten je Klasse Anwendung von Χ 2 -Statistiken Bootstrap-Verfahren Berechnungen für jede Klassenanzahl K 33

34 Χ 2 -Statistiken Ausmaß der durch das Modell unerklärbaren Beziehungen zwischen den Variablen Je größer die Statistik, desto schlechter das Modell 34

35 Indikator-Variablen Sichtbare Klassenvariablen y Latente Klassenvariablen Unsichtbare Klassenvariablen x Kovariaten Variablen z mit direktem Einfluss auf Indikator-Variablen und/oder Latente Klassenvariablen 35

36 Datenmuster Für ein Datenmuster i* haben alle enthaltenen Fälle i dieselben Ausprägungen in den Indikatoren und Kovariaten w i := Fallgewicht n i* := Auftrittshäufigkeit des Datenmusters i* n i = w i i i 36

37 Weitere Annahmen und Voraussetzungen Kovariatenmuster wie bei Datenmuster i* u i Fallanzahl für Kovariatenmuster u i n u i Bedingte multinomiale Wahrscheinlichkeit für Datenmuster i* bei Kovariatenmuster f (y i z i ) Erwartete Zellhäufigkeiten m i = n ui f (y i z i ) u i 37

38 Χ 2 -Statistiken Likelihood-Ratio-Χ 2 -Statistik I L 2 = 2 n i ln n i m i = 1 i Pearson-Χ 2 -Statistik I Χ 2 = i = 1 2 n i m i n Cressie-Read-Χ 2 -Statistik I CR 2 = 1,8 i = 1 (( n n i 3 i m )2 i 1) 38

39 Anzahl Freiheitsgrade Anzahl an beobachteten Indikatoren im Kovariatenmuster i* T u Anzahl der Kategorien des t-ten beobachteten Indikators M ut Anzahl Freiheitsgrade U df = min( u = 1 T u 1) ) ( M ut, n m K t = 1 Freiheitsgrade df beruhen auf der Stichprobengröße n, wenn die Anzahl der unabhängigen Zellen in der hypothetischen Kreuztabelle größer ist als die Stichprobengröße 39

40 Informationsmaße - Likelihood-Funktion Akaike-Informationsmaß: AIC K AIC K = L K 2 2df Akaike-3-Informationsmaß: AIC3 K AIC3 K = L K 2 3 df Bayes'sches Informationsmaß: BIC K BIC K = L K 2 df ln n Konsistentes Akaike-Informationsmaß: CAIC K CAIC K = L K 2 df ln (n + 1) 40

41 Informationsmaße - Problem Ähnliche Ergebnisse bei Beurteilung eines Modellvergleichs Große Anzahl Freiheitsgrade df Nicht verwertbare Ergebnisse möglich bei Berechnung mit L 2 Notwendigkeit der Berechnung mit LL I LL = w i ln f (y i z i ) i = 1 41

42 Informationsmaße - Log-Likelihood-Funktion Akaike-Informationsmaß: AIC K AIC K = 2m K LL K Akaike-3-Informationsmaß: AIC3 K AIC3 K = 3m K 2LL K Bayes'sches Informationsmaß: BIC K BIC K = m K ln n 2LL K Konsistentes Akaike-Informationsmaß: CAIC K CAIC K = m K ln (n + 1) 2LL K 42

43 Unähnlichkeitsindex Englisch: Dissimilarity Index DI = n + i = 1 I ( n i m i m i ) 2n Stärke der Abweichung der beobachteten und geschätzten Zellhäufigkeiten voneinander Für perfekte Modellanpassung zu verändernder Teil der Stichprobe 43

44 Berechnungen für jede Klassenanzahl K Prozentuelle Verbesserung zum Nullmodell: PV0 K PV0 K = 1 LL K LL 0 Prozentuelle Verbesserung zu vorausgehendem Modell: PV K PV K = 1 LL K LL K 1 Informationsmaß Unähnlichkeitsindex Veraltet: Likelihood-Quotienten-Statistiken 44

45 Beziehungen von EM- und k-means-modellprüfgrößen PV0 K η K 2 (Erklärte Streuung) Auswahl von Lösungen mit bestimmtem Mindestwert für PV0 K PV K PRE K (Prozentuale Verbesserung zu vorheriger Lösung) Auswahl von Lösungen mit starkem Abfall bei nachfolgender Lösung Informationsmaße F max (Maximale F-Statistik) Auswahl von Lösung mit kleinstem Informationsmaß Likelihood-Quotienten-Statistiken Bealsche F-Werte Auswahl der Lösung, die im Vergleich zu allen vorausgehenden Lösungen signifikant ist nachfolgenden Lösungen nicht signifikant ist (Zur Signifikanzprüfung sind Bootstrap-Verfahren zu empfehlen) 45

46 Bootstrap-Verfahren Lieferungen von Wahrscheinlichkeiten für Modellprüfgrößen Statistiken besitzen keine Χ 2 -Verteilungen Approximative Eigenschaften nicht erfüllt Heute Bootstrap-Verfahren empfohlen statt Χ 2 -Statistiken 46

47 Beispiel Zweidimensional Überlappende Klassen 47

48 Noch Fragen?

49 Anhang

50 Literaturverzeichnis Johann Bacher, Andreas Pöge, Knut Wenzig (2010): Clusteranalyse - Anwendungsorientierte Einführung in Klassifikationsverfahren. Oldenbourg Verlag München. ISBN Stuart Russell, Peter Norvig (2004): Künstliche Intelligenz. Pearson Studium. ISBN Bing Liu (2011): Web Data Mining Exploring Hyperlinks, Contents, and Usage Data. Springer. ISBN Rob Sullivan (2012): Introduction to Data Mining for the Life Sciences. Springer. ISBN Ian H. Witten, Eibe Frank, Mark A. Hall (2011): Data Mining Practical Machine Learning Tools and Techniques. Morgan Kaufmann. ISBN

51 Literaturverzeichnis Dempster, A.P.; Laird, N.M.; Rubin, D.B. (1977). "Maximum Likelihood from Incomplete Data via the EM Algorithm". Journal of the Royal Statistical Society, Series B 39 (1): JSTOR MR Sundberg, Rolf (1974). "Maximum likelihood theory for incomplete data from an exponential family". Scandinavian Journal of Statistics 1 (2): JSTOR MR Rolf Sundberg Maximum likelihood theory and applications for distributions generated when observing a function of an exponential family variable. Dissertation, Institute for Mathematical Statistics, Stockholm University. 51

52 Literaturverzeichnis Sundberg, Rolf (1976). "An iterative method for solution of the likelihood equations for incomplete data from exponential families". Communications in Statistics Simulation and Computation 5 (1): doi: / MR Danksagung von Dempster, Laird und Rubin: S. 3, 5 und 11. G. Kulldorff Contributions to the theory of estimation from grouped and partially grouped samples. Almqvist & Wiksell. Anders Martin-Löf "Utvärdering av livslängder i subnanosekundsområdet" ("Evaluation of sub-nanosecond lifetimes"). ("Sundberg formula") Martin-Löf, Per The notion of redundancy and its use as a quantitative measure of the discrepancy between a statistical hypothesis and a set of observational data. Scand. J. Statist. 1 (1974), no. 1,

53 Literaturverzeichnis Sundberg, Rolf (1976). "An iterative method for solution of the likelihood equations for incomplete data from exponential families". Communications in Statistics Simulation and Computation 5 (1): doi: / MR Danksagung von Dempster, Laird und Rubin: S. 3, 5 und 11. G. Kulldorff Contributions to the theory of estimation from grouped and partially grouped samples. Almqvist & Wiksell. Anders Martin-Löf "Utvärdering av livslängder i subnanosekundsområdet" ("Evaluation of sub-nanosecond lifetimes"). ("Sundberg formula") Martin-Löf, Per The notion of redundancy and its use as a quantitative measure of the discrepancy between a statistical hypothesis and a set of observational data. Scand. J. Statist. 1 (1974), no. 1,

54 Literaturverzeichnis Per Martin-Löf Statistics from the point of view of statistical mechanics. Lecture notes, Mathematical Institute, Aarhus University. ("Sundberg formula" credited to Anders Martin-Löf). Per Martin-Löf Statistika Modeller (Statistical Models): Anteckningar från seminarier läsåret (Notes from seminars in the academic year ), with the assistance of Rolf Sundberg. Stockholm University. ("Sundberg formula") Wu, C. F. Jeff (Mar. 1983). "On the Convergence Properties of the EM Algorithm". Annals of Statistics 11 (1): doi: /aos/ JSTOR MR

55 Literaturverzeichnis PMartin-Löf, P. The notion of redundancy and its use as a quantitative measure of the deviation between a statistical hypothesis and a set of observational data. With a discussion by F. Abildgård, A. P. Dempster, D. Basu, D. R. Cox, A. W. F. Edwards, D. A. Sprott, G. A. Barnard, O. Barndorff-Nielsen, J. D. Kalbfleisch and G. Rasch and a reply by the author. Proceedings of Conference on Foundational Questions in Statistical Inference (Aarhus, 1973), pp Memoirs, No. 1, Dept. Theoret. Statist., Inst. Math., Univ. Aarhus, Aarhus,

Schätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC. Referenten: Linda Gräfe & Konstantin Falk

Schätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC. Referenten: Linda Gräfe & Konstantin Falk Schätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC Referenten: Linda Gräfe & Konstantin Falk 1 Agenda Schätzverfahren ML REML Beispiel in SPSS Modellbeurteilung Devianz AIC BIC

Mehr

VII Unüberwachte Data-Mining-Verfahren

VII Unüberwachte Data-Mining-Verfahren VII Unüberwachte Data-Mining-Verfahren Clusteranalyse Assoziationsregeln Generalisierte Assoziationsregeln mit Taxonomien Formale Begriffsanalyse Self Organizing Maps Institut AIFB, 00. Alle Rechte vorbehalten.

Mehr

Clusteranalyse. Anwendungsorientierte Einführung. R. Oldenbourg Verlag München Wien. Von Dr. Johann Bacher

Clusteranalyse. Anwendungsorientierte Einführung. R. Oldenbourg Verlag München Wien. Von Dr. Johann Bacher Clusteranalyse Anwendungsorientierte Einführung Von Dr. Johann Bacher R. Oldenbourg Verlag München Wien INHALTSVERZEICHNIS Vorwort XI 1 Einleitung 1 1.1 Primäre Zielsetzung clusteranalytischer Verfahren

Mehr

Strukturgleichungsmodellierung

Strukturgleichungsmodellierung Strukturgleichungsmodellierung FoV Methodenlehre FSU-Jena Dipl.-Psych. Norman Rose Parameterschätzung, Modelltest & Fit Indizes bei SEM Forschungsorientierte Vertiefung - Methodenlehre Dipl.-Psych. Norman

Mehr

Clusteranalyse K-Means-Verfahren

Clusteranalyse K-Means-Verfahren Workshop Clusteranalyse Clusteranalyse K-Means-Verfahren Graz, 8. 9. Oktober 2009 Johann Bacher Johannes Kepler Universität Linz Linz 2009 1 1. Fragestellung und Algorithmus Bestimmung von Wertetypen (Bacher

Mehr

Theorie Parameterschätzung Ausblick. Schätzung. Raimar Sandner. Studentenseminar "Statistische Methoden in der Physik"

Theorie Parameterschätzung Ausblick. Schätzung. Raimar Sandner. Studentenseminar Statistische Methoden in der Physik Studentenseminar "Statistische Methoden in der Physik" Gliederung 1 2 3 Worum geht es hier? Gliederung 1 2 3 Stichproben Gegeben eine Beobachtungsreihe x = (x 1, x 2,..., x n ): Realisierung der n-dimensionalen

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Thomas Vanck Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer

Mehr

Wahrscheinlichkeitsrechnung und Statistik

Wahrscheinlichkeitsrechnung und Statistik 10. Vorlesung - 2018 Grundbegriffe der Statistik statistische Einheiten = Objekte an denen interessierende Größen erfaßt werden z.b. Bevölkerung einer Stadt; Schüler einer bestimmten Schule; Patienten

Mehr

Wahrscheinlichkeitsrechnung und schließende Statistik

Wahrscheinlichkeitsrechnung und schließende Statistik Springer-Lehrbuch Wahrscheinlichkeitsrechnung und schließende Statistik Bearbeitet von Karl Mosler, Friedrich Schmid 4., verb. Aufl. 2010. Taschenbuch. XII, 347 S. Paperback ISBN 978 3 642 15009 8 Format

Mehr

Schließende Statistik

Schließende Statistik Schließende Statistik [statistical inference] Sollen auf der Basis von empirischen Untersuchungen (Daten) Erkenntnisse gewonnen und Entscheidungen gefällt werden, sind die Methoden der Statistik einzusetzen.

Mehr

Inhalt. 1 Unvollständige Clusteranalyseverfahren 35

Inhalt. 1 Unvollständige Clusteranalyseverfahren 35 Inhalt i Einleitung 15 1.1 Zielsetzung clusteranalytischer Verfahren 15 1.2 Homogenität als Grundprinzip der Bildung von Clustern 16 1.3 Clusteranalyseverfahren 18 1.4 Grundlage der Clusterbildung 20 1.5

Mehr

Willkommen zur Vorlesung Statistik (Master)

Willkommen zur Vorlesung Statistik (Master) Willkommen zur Vorlesung Statistik (Master) Thema dieser Vorlesung: Verteilungen stetiger Zufallsvariablen Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften

Mehr

Mustererkennung. Übersicht. Unüberwachtes Lernen. (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren Gaussian-Mixture Modelle

Mustererkennung. Übersicht. Unüberwachtes Lernen. (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren Gaussian-Mixture Modelle Mustererkennung Unüberwachtes Lernen R. Neubecker, WS 01 / 01 Übersicht (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren 1 Lernen Überwachtes Lernen Zum Training des Klassifikators

Mehr

Clusteranalyse: Gauß sche Mischmodelle

Clusteranalyse: Gauß sche Mischmodelle Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse: Gauß sche Mischmodelle iels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer

Mehr

So berechnen Sie einen Schätzer für einen Punkt

So berechnen Sie einen Schätzer für einen Punkt htw saar 1 EINFÜHRUNG IN DIE STATISTIK: SCHÄTZEN UND TESTEN htw saar 2 Schätzen: Einführung Ziel der Statistik ist es, aus den Beobachtungen eines Merkmales in einer Stichprobe Rückschlüsse über die Verteilung

Mehr

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38 Dynamische Systeme und Zeitreihenanalyse Multivariate Normalverteilung und ML Schätzung Kapitel 11 Statistik und Mathematik WU Wien Michael Hauser Dynamische Systeme und Zeitreihenanalyse // Multivariate

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Niels Landwehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Niels Landwehr Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Niels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer Ansatz:

Mehr

7. Übung: Aufgabe 1. b), c), e) Aufgabe 2. a), c), e) Aufgabe 3. c), e) Aufgabe 4. Aufgabe 5. Aufgabe 6. Aufgabe 7. Aufgabe 8. Aufgabe 9.

7. Übung: Aufgabe 1. b), c), e) Aufgabe 2. a), c), e) Aufgabe 3. c), e) Aufgabe 4. Aufgabe 5. Aufgabe 6. Aufgabe 7. Aufgabe 8. Aufgabe 9. 7. Übung: Aufgabe 1 b), c), e) Aufgabe a), c), e) Aufgabe 3 c), e) Aufgabe 4 b) Aufgabe 5 a) Aufgabe 6 b) Aufgabe 7 e) Aufgabe 8 c) Aufgabe 9 a), c), e) Aufgabe 10 b), d) Aufgabe 11 a) Aufgabe 1 b) Aufgabe

Mehr

Einführung in die Maximum Likelihood Methodik

Einführung in die Maximum Likelihood Methodik in die Maximum Likelihood Methodik Thushyanthan Baskaran thushyanthan.baskaran@awi.uni-heidelberg.de Alfred Weber Institut Ruprecht Karls Universität Heidelberg Gliederung 1 2 3 4 2 / 31 Maximum Likelihood

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Christoph Sawade/Niels Landwehr/Tobias Scheffer

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Christoph Sawade/Niels Landwehr/Tobias Scheffer Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Christoph Sawade/Niels Landwehr/Tobias Scheffer Überblick Problemstellung/Motivation Deterministischer i ti Ansatz:

Mehr

Konfirmatorische Faktorenanalyse. Regressionsmodelle für Politikwissenschaftler

Konfirmatorische Faktorenanalyse. Regressionsmodelle für Politikwissenschaftler Konfirmatorische Faktorenanalyse Regressionsmodelle für Politikwissenschaftler Was ist ein Faktor? Faktor oder latente Variable Regressionsmodelle für Politikwissenschaftler Konfirmatorische Faktorenanalyse

Mehr

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert Beispiel für Konfidenzintervall Im Prinzip haben wir

Mehr

Multivariate Verfahren

Multivariate Verfahren Multivariate Verfahren Oliver Muthmann 31. Mai 2007 Gliederung 1 Einführung 2 Varianzanalyse (MANOVA) 3 Regressionsanalyse 4 Faktorenanalyse Hauptkomponentenanalyse 5 Clusteranalyse 6 Zusammenfassung Komplexe

Mehr

Vergleich von Gruppen I

Vergleich von Gruppen I Vergleich von Gruppen I t-test und einfache Varianzanalyse (One Way ANOVA) Werner Brannath VO Biostatistik im WS 2006/2007 Inhalt Der unverbundene t-test mit homogener Varianz Beispiel Modell Teststatistik

Mehr

Statistische Datenanalyse

Statistische Datenanalyse Werner A. Stahel Statistische Datenanalyse Eine Einführung für Naturwissenschaftler 3., durchgesehene Auflage vieweg VII 1 Einleitung 1 1.1 Was ist Statistische Datenanalyse? 1 1.2 Ziele 6 1.3 Hinweise

Mehr

Lösung Übungsblatt 5

Lösung Übungsblatt 5 Lösung Übungsblatt 5 5. Januar 05 Aufgabe. Die sogenannte Halb-Normalverteilung spielt eine wichtige Rolle bei der statistischen Analyse von Ineffizienzen von Produktionseinheiten. In Abhängigkeit von

Mehr

Anpassungsrechnungen mit kleinsten Quadraten und Maximum Likelihood

Anpassungsrechnungen mit kleinsten Quadraten und Maximum Likelihood Anpassungsrechnungen mit kleinsten Quadraten und Maximum Likelihood KARLSRUHER INSTITUT FÜR TECHNOLOGIE (KIT) 0 KIT 06.01.2012 Universität des Fabian Landes Hoffmann Baden-Württemberg und nationales Forschungszentrum

Mehr

10 Statistisches Schätzen

10 Statistisches Schätzen 10 Statistisches Schätzen 620 10 Statistisches Schätzen 10.1 Punktschätzung 623 10.1.1 Schätzer und ihre Gütekriterien 623 10.1.2 Erwartungstreue 627 10.1.3 Erwartete quadratische Abweichung (MSE) 634

Mehr

Willkommen zur Vorlesung Statistik (Master)

Willkommen zur Vorlesung Statistik (Master) Willkommen zur Vorlesung Statistik (Master) Thema dieser Vorlesung: Inferenzstatistik in Regressionsmodellen Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für

Mehr

Wahrscheinlichkeitsrechnung und schließende Statistik

Wahrscheinlichkeitsrechnung und schließende Statistik Karl Mosler Friedrich Schmid Wahrscheinlichkeitsrechnung und schließende Statistik Vierte, verbesserte Auflage Springer Inhaltsverzeichnis 0 Einführung 1 1 Zufalls Vorgänge und Wahrscheinlichkeiten 5 1.1

Mehr

Konfirmatorische Faktorenanalyse

Konfirmatorische Faktorenanalyse Konfirmatorische Faktorenanalyse Regressionsmodelle für Politikwissenschaftler Was ist ein Faktor? Faktor oder latente Variable nicht direkt beobachtbare Größe die beobachtbare Variablen ( Indikatoren

Mehr

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential Zufallsvariablen Diskret Binomial Hypergeometrisch Poisson Stetig Normal Lognormal Exponential Verteilung der Stichprobenkennzahlen Stetige Zufallsvariable Verteilungsfunktion: Dichtefunktion: Integralrechnung:

Mehr

Prüfung im Fach Mikroökonometrie im Sommersemester 2014 Aufgaben

Prüfung im Fach Mikroökonometrie im Sommersemester 2014 Aufgaben Lehrstuhl für Statistik und empirische Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Prüfung im Fach Mikroökonometrie im Sommersemester 014 Aufgaben Vorbemerkungen: Anzahl der Aufgaben: Bewertung:

Mehr

Hypothesenbewertungen: Übersicht

Hypothesenbewertungen: Übersicht Hypothesenbewertungen: Übersicht Wie kann man Fehler einer Hypothese abschätzen? Wie kann man einschätzen, ob ein Algorithmus besser ist als ein anderer? Trainingsfehler, wirklicher Fehler Kreuzvalidierung

Mehr

Quantitative Auswertung II. Korpuslinguistik Heike Zinsmeister

Quantitative Auswertung II. Korpuslinguistik Heike Zinsmeister Quantitative Auswertung II Korpuslinguistik Heike Zinsmeister 16.12.2011 Unterschiedstest Fall 1: unabhängige Stichproben Daten eine unabhängige Variable auf Nominal- oder Kategorialniveau eine abhängige

Mehr

Ein exakter Test für die Meta-Analyse von Studien mit binären Endpunkten. Oliver Kuß, Cora Gromann

Ein exakter Test für die Meta-Analyse von Studien mit binären Endpunkten. Oliver Kuß, Cora Gromann Ein exakter Test für die Meta-Analyse von Studien mit binären Endpunkten Oliver Kuß, Cora Gromann Institut für Medizinische Epidemiologie, Biometrie und Informatik, Universität Halle-Wittenberg, Halle

Mehr

Wahrscheinlichkeitsverteilungen

Wahrscheinlichkeitsverteilungen Universität Bielefeld 3. Mai 2005 Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsrechnung Das Ziehen einer Stichprobe ist die Realisierung eines Zufallsexperimentes. Die Wahrscheinlichkeitsrechnung betrachtet

Mehr

Repeated Measures unter Nicht-Normalverteilung

Repeated Measures unter Nicht-Normalverteilung Robuste Verfahren für strukturierte Repeated Measures unter Nicht-Normalverteilung Abteilung für Medizinische Statistik Universität Göttingen 19. November 2009 Übersicht Beispiel e Bekannte Verfahren für

Mehr

Wahrscheinlichkeitsrechnung und Statistik

Wahrscheinlichkeitsrechnung und Statistik 9. Vorlesung - 2017 Monte Carlo Methode für numerische Integration Sei g : [0, 1] R stetige Funktion; man möchte 1 0 g(t)dt numerisch approximieren mit Hilfe von Zufallszahlen: Sei (U n ) n eine Folge

Mehr

Einführung in die Statistik

Einführung in die Statistik Einführung in die Statistik Analyse und Modellierung von Daten von Prof. Dr. Rainer Schlittgen Universität Hamburg 12., korrigierte Auflage Oldenbourg Verlag München Inhaltsverzeichnis 1 Statistische Daten

Mehr

Willkommen zur Vorlesung Statistik (Master)

Willkommen zur Vorlesung Statistik (Master) Willkommen zur Vorlesung Statistik (Master) Thema dieser Vorlesung: Punkt- und Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften Prof. Dr.

Mehr

Varianzkomponentenschätzung

Varianzkomponentenschätzung Qualitas AG Varianzkomponentenschätzung Peter von Rohr Qualitas AG Peter von Rohr Folien ZL I+II LFW C11 October 29, 2015 2 / 23 Multiple Lineare Regression Annahmen Modell y = Xb + e Varianz der Fehler

Mehr

Umgang mit fehlenden Werten in der psychologischen Forschung

Umgang mit fehlenden Werten in der psychologischen Forschung Umgang mit fehlenden Werten in der psychologischen Forschung Oliver Lüdtke Max-Planck-Institut für Bildungsforschung Alexander Robitzsch Institut zur Qualitätsentwicklung im Bildungswesen Programm Montag

Mehr

Einführung in die Statistik

Einführung in die Statistik Elmar Klemm Einführung in die Statistik Für die Sozialwissenschaften Westdeutscher Verlag INHALTSVERZEICHNIS 1. Einleitung und Begrifflichkeiten 11 1.1 Grundgesamtheit, Stichprobe 12 1.2 Untersuchungseinheit,

Mehr

Kindern mit Leukämie in Deutschland,

Kindern mit Leukämie in Deutschland, Raum-zeitliche Analyse von Kindern mit Leukämie in Deutschland, 1987-2007 Arbeitstagung Bayes-Methodik, räumliche Statistik, Ökologie und Umwelt Sven Schmiedel, Peter Kaatsch, Maria Blettner, Joachim Schüz

Mehr

Nicht-kontinuierliche abhängige Variablen: Das generalisierte lineare Modell und die Parameterschätzung via Maximum Likelihood

Nicht-kontinuierliche abhängige Variablen: Das generalisierte lineare Modell und die Parameterschätzung via Maximum Likelihood Nicht-kontinuierliche abhängige Variablen: Das generalisierte lineare Modell und die Parameterschätzung via Maximum Likelihood Interaktionseffekte Varianz-Kovarianz-Matrix Interaktionseffekte Varianz-Kovarianz-Matrix

Mehr

Willkommen zur Vorlesung Statistik (Master)

Willkommen zur Vorlesung Statistik (Master) Willkommen zur Vorlesung Statistik (Master) Thema dieser Vorlesung: Punkt- und Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften Prof. Dr.

Mehr

Inhaltsverzeichnis. Robert Galata, Sandro Scheid. Deskriptive und Induktive Statistik für Studierende der BWL. Methoden - Beispiele - Anwendungen

Inhaltsverzeichnis. Robert Galata, Sandro Scheid. Deskriptive und Induktive Statistik für Studierende der BWL. Methoden - Beispiele - Anwendungen Inhaltsverzeichnis Robert Galata, Sandro Scheid Deskriptive und Induktive Statistik für Studierende der BWL Methoden - Beispiele - Anwendungen Herausgegeben von Robert Galata, Markus Wessler ISBN (Buch):

Mehr

2. Lösung weitere Übungsaufgaben Statistik II WiSe 2016/2017

2. Lösung weitere Übungsaufgaben Statistik II WiSe 2016/2017 . Lösung weitere Übungsaufgaben Statistik II WiSe 016/017 1. Aufgabe: Bei der Produktion eines Werkstückes wurde die Bearbeitungszeit untersucht. Für die als normalverteilt angesehene zufällige Bearbeitungszeit

Mehr

Statistics, Data Analysis, and Simulation SS 2017

Statistics, Data Analysis, and Simulation SS 2017 Statistics, Data Analysis, and Simulation SS 2017 08.128.730 Statistik, Datenanalyse und Simulation Dr. Michael O. Distler Mainz, May 29, 2017 Dr. Michael O. Distler

Mehr

Vorlesung: Statistik II für Wirtschaftswissenschaft

Vorlesung: Statistik II für Wirtschaftswissenschaft Vorlesung: Statistik II für Wirtschaftswissenschaft Prof. Dr. Helmut Küchenhoff Institut für Statistik, LMU München Sommersemester 2017 6 Genzwertsätze Einführung 1 Wahrscheinlichkeit: Definition und Interpretation

Mehr

1.1.1 Ergebnismengen Wahrscheinlichkeiten Formale Definition der Wahrscheinlichkeit Laplace-Experimente...

1.1.1 Ergebnismengen Wahrscheinlichkeiten Formale Definition der Wahrscheinlichkeit Laplace-Experimente... Inhaltsverzeichnis 0 Einführung 1 1 Zufallsvorgänge und Wahrscheinlichkeiten 5 1.1 Zufallsvorgänge.......................... 5 1.1.1 Ergebnismengen..................... 6 1.1.2 Ereignisse und ihre Verknüpfung............

Mehr

Zufallsvariablen [random variable]

Zufallsvariablen [random variable] Zufallsvariablen [random variable] Eine Zufallsvariable (Zufallsgröße) X beschreibt (kodiert) die Versuchsausgänge ω Ω mit Hilfe von Zahlen, d.h. X ist eine Funktion X : Ω R ω X(ω) Zufallsvariablen werden

Mehr

4.1 Stichproben, Verteilungen und Schätzwerte. N(t) = N 0 e λt, (4.1)

4.1 Stichproben, Verteilungen und Schätzwerte. N(t) = N 0 e λt, (4.1) Kapitel 4 Stichproben und Schätzungen 4.1 Stichproben, Verteilungen und Schätzwerte Eine physikalische Messung ist eine endliche Stichprobe aus einer Grundgesamtheit, die endlich oder unendlich sein kann.

Mehr

Mathematische und statistische Methoden II

Mathematische und statistische Methoden II Methodenlehre e e Prof. Dr. G. Meinhardt 6. Stock, Wallstr. 3 (Raum 06-06) Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung. Mathematische und statistische Methoden II Dr. Malte Persike

Mehr

Chi-Quadrat-Verteilung

Chi-Quadrat-Verteilung Chi-Quadrat-Verteilung Wikipedia http://de.wikipedia.org/wiki/chi-quadrat-verteilung 1 von 7 6/18/2009 6:13 PM Chi-Quadrat-Verteilung aus Wikipedia, der freien Enzyklopädie Die Chi-Quadrat-Verteilung ist

Mehr

Evaluation & Forschungsstrategien. B.Sc.-Seminar. Sitzung IV: Konfidenzintervalle // Normalverteilungstests

Evaluation & Forschungsstrategien. B.Sc.-Seminar. Sitzung IV: Konfidenzintervalle // Normalverteilungstests Evaluation & Forschungsstrategien B.Sc.-Seminar Sitzung V: Konfidenzintervalle // Normalverteilungstests Seminarinhalte Sitzung V: 16.05.2018 Konfidenzintervalle bei bekannter Varianz Konfidenzintervalle

Mehr

Wie liest man Konfidenzintervalle? Teil II. Premiu m

Wie liest man Konfidenzintervalle? Teil II. Premiu m Wie liest man Konfidenzintervalle? Teil II Premiu m - Hintergrund Anderer Wahrscheinlichkeitsbegriff subjektiver Wahrscheinlichkeitsbegriff Beispiel: Was ist die Wahrscheinlichkeit dafür, dass ein Patient

Mehr

Algorithmen zur Kundensegmentierung

Algorithmen zur Kundensegmentierung Algorithmen zur Kundensegmentierung Heuristische, semiparametrische und parametrische Clusterverfahren Patrick Mair Inhalt Einführung Nichtprobabilistische Clusterung Hierarchische Clusterverfahren k-means

Mehr

Statistische Matching-Verfahren

Statistische Matching-Verfahren Statistische Matching-Verfahren Erste Statistik-Tage 2012 Bamberg Fürth 26./27. Juli 2012 in Bamberg Prof. Dr. Susanne Rässler Lehrstuhl für Statistik und Ökonometrie in den Sozial- und Wirtschaftswissenschaften

Mehr

Allgemeine lineare Modelle

Allgemeine lineare Modelle 262 Merkpunkte Allgemeine lineare Modelle Multiple lineare Regression mit nicht-normalen Zufallsabweichungen bilden eine harmlose" Verallgemeinerung der multiplen lin. Regr. Beispiele: Gumbel-Regression,

Mehr

Uwe Hassler. Statistik im. Bachelor-Studium. Eine Einführung. für Wirtschaftswissenschaftler. ^ Springer Gabler

Uwe Hassler. Statistik im. Bachelor-Studium. Eine Einführung. für Wirtschaftswissenschaftler. ^ Springer Gabler Uwe Hassler Statistik im Bachelor-Studium Eine Einführung für Wirtschaftswissenschaftler ^ Springer Gabler 1 Einführung 1 2 Beschreibende Methoden univariater Datenanalyse 5 2.1 Grundbegriffe 5 2.2 Häufigkeitsverteilungen

Mehr

Statistik II. Version A. 1. Klausur Sommersemester 2011 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN!

Statistik II. Version A. 1. Klausur Sommersemester 2011 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN! Statistik II Version A 1. Klausur Sommersemester 2011 Hamburg, 27.07.2011 BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN! Nachname:............................................................................

Mehr

Einführung in die Statistik

Einführung in die Statistik Einführung in die Statistik Analyse und Modellierung von Daten Von Prof. Dr. Rainer Schlittgen 4., überarbeitete und erweiterte Auflage Fachbereich Materialwissenschaft! der Techn. Hochschule Darmstadt

Mehr

Prüfungsvorbereitungskurs Höhere Mathematik 3

Prüfungsvorbereitungskurs Höhere Mathematik 3 Prüfungsvorbereitungskurs Höhere Mathematik 3 Stochastik Marco Boßle Jörg Hörner Mathematik Online Frühjahr 2011 PV-Kurs HM 3 Stochastik 1-1 Zusammenfassung Wahrscheinlichkeitsraum (WR): Menge der Elementarereignisse

Mehr

Bivariate Kreuztabellen

Bivariate Kreuztabellen Bivariate Kreuztabellen Kühnel, Krebs 2001 S. 307-342 Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 1/33 Häufigkeit in Zelle y 1 x 1 Kreuztabellen Randverteilung x 1... x j... x J Σ

Mehr

Statistik K urs SS 2004

Statistik K urs SS 2004 Statistik K urs SS 2004 3.Tag Grundlegende statistische Maße Mittelwert (mean) Durchschnitt aller Werte Varianz (variance) s 2 Durchschnittliche quadrierte Abweichung aller Werte vom Mittelwert >> Die

Mehr

4.1. Verteilungsannahmen des Fehlers. 4. Statistik im multiplen Regressionsmodell Verteilungsannahmen des Fehlers

4.1. Verteilungsannahmen des Fehlers. 4. Statistik im multiplen Regressionsmodell Verteilungsannahmen des Fehlers 4. Statistik im multiplen Regressionsmodell In diesem Kapitel wird im Abschnitt 4.1 zusätzlich zu den schon bekannten Standardannahmen noch die Annahme von normalverteilten Residuen hinzugefügt. Auf Basis

Mehr

Statistik II. Weitere Statistische Tests. Statistik II

Statistik II. Weitere Statistische Tests. Statistik II Statistik II Weitere Statistische Tests Statistik II - 19.5.2006 1 Überblick Bisher wurden die Test immer anhand einer Stichprobe durchgeführt Jetzt wollen wir die statistischen Eigenschaften von zwei

Mehr

3.2 Maximum-Likelihood-Schätzung

3.2 Maximum-Likelihood-Schätzung 291 Die Maximum-Likelihood-Schätzung ist die populärste Methode zur Konstruktion von Punktschätzern bei rein parametrischen Problemstellungen. 292 3.2.1 Schätzkonzept Maximum-Likelihood-Prinzip: Finde

Mehr

2 Aufgaben aus [Teschl, Band 2]

2 Aufgaben aus [Teschl, Band 2] 20 2 Aufgaben aus [Teschl, Band 2] 2.1 Kap. 25: Beschreibende Statistik 25.3 Übungsaufgabe 25.3 a i. Arithmetisches Mittel: 10.5 ii. Median: 10.4 iii. Quartile: x 0.25 Y 4 10.1, x 0.75 Y 12 11.1 iv. Varianz:

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Tobias Scheffer Christoph Sawade

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Tobias Scheffer Christoph Sawade Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Christoph Sawade Heute: Niels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz:

Mehr

Statistik I für Betriebswirte Vorlesung 13

Statistik I für Betriebswirte Vorlesung 13 Statistik I für Betriebswirte Vorlesung 13 Prof. Dr. Hans-Jörg Starkloff TU Bergakademie Freiberg Institut für Stochastik 4. Juli 2016 Prof. Dr. Hans-Jörg Starkloff Statistik I für Betriebswirte Vorlesung

Mehr

Vorlesung: Statistik II für Wirtschaftswissenschaft

Vorlesung: Statistik II für Wirtschaftswissenschaft Vorlesung: Statistik II für Wirtschaftswissenschaft Prof. Dr. Helmut Küchenhoff Institut für Statistik, LMU München Sommersemester 2017 Einführung 1 Wahrscheinlichkeit: Definition und Interpretation 2

Mehr

FINANZMATHEMATISCHE MODELLIERUNG AM SEKUNDÄRREGELLEISTUNGSMARKT

FINANZMATHEMATISCHE MODELLIERUNG AM SEKUNDÄRREGELLEISTUNGSMARKT 1 FINANZMATHEMATISCHE MODELLIERUNG AM SEKUNDÄRREGELLEISTUNGSMARKT Strommarkttreffen, 30. Juni 2017 Prilly Oktoviany prilly.oktoviany@itwm.fraunhofer.de in Zusammenarbeit mit Dr. Andreas Wagner Lukas Müller

Mehr

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik Sommersemester 2016 Prof. Dr. Stefan Etschberger Hochschule Augsburg Einstichproben-t-Test und approximativer Gaußtest

Mehr

Teil: lineare Regression

Teil: lineare Regression Teil: lineare Regression 1 Einführung 2 Prüfung der Regressionsfunktion 3 Die Modellannahmen zur Durchführung einer linearen Regression 4 Dummyvariablen 1 Einführung o Eine statistische Methode um Zusammenhänge

Mehr

Statistische Methoden der Datenanalyse

Statistische Methoden der Datenanalyse Statistische Methoden der Datenanalyse Vorlesung im Sommersemester 2008 H. Kolanoski Humboldt-Universität zu Berlin Inhaltsverzeichnis Literaturverzeichnis iii 1 Grundlagen der Statistik 3 1.1 Wahrscheinlichkeit............................

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Christoph Sawade/Niels Landwehr/Tobias Scheffer

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Christoph Sawade/Niels Landwehr/Tobias Scheffer Universität Potsdam Institut für Informati Lehrstuhl Maschinelles Lernen Clusteranalyse Christoph Sawade/iels Landwehr/Tobias Scheffer Überblic Problemstellung/Motivation Deterministischer Ansatz: K-Means

Mehr

1 Beispiel zur Methode der kleinsten Quadrate

1 Beispiel zur Methode der kleinsten Quadrate 1 Beispiel zur Methode der kleinsten Quadrate 1.1 Daten des Beispiels t x y x*y x 2 ŷ ˆɛ ˆɛ 2 1 1 3 3 1 2 1 1 2 2 3 6 4 3.5-0.5 0.25 3 3 4 12 9 5-1 1 4 4 6 24 16 6.5-0.5 0.25 5 5 9 45 25 8 1 1 Σ 15 25

Mehr

Auswertung und Lösung

Auswertung und Lösung Dieses Quiz soll Ihnen helfen, Kapitel 4.6 und 4.7 besser zu verstehen. Auswertung und Lösung Abgaben: 59 / 265 Maximal erreichte Punktzahl: 8 Minimal erreichte Punktzahl: 0 Durchschnitt: 4.78 1 Frage

Mehr

Man kann also nicht erwarten, dass man immer den richtigen Wert trifft.

Man kann also nicht erwarten, dass man immer den richtigen Wert trifft. 2.2.2 Gütekriterien Beurteile die Schätzfunktionen, also das Verfahren an sich, nicht den einzelnen Schätzwert. Besonders bei komplexeren Schätzproblemen sind klar festgelegte Güteeigenschaften wichtig.

Mehr

Mehrdimensionale Zufallsvariablen

Mehrdimensionale Zufallsvariablen Mehrdimensionale Zufallsvariablen Im Folgenden Beschränkung auf den diskreten Fall und zweidimensionale Zufallsvariablen. Vorstellung: Auswerten eines mehrdimensionalen Merkmals ( ) X Ỹ also z.b. ω Ω,

Mehr

Philipp Sibbertsen Hartmut Lehne. Statistik. Einführung für Wirtschafts- und. Sozialwissenschaftler. 2., überarbeitete Auflage. 4^ Springer Gabler

Philipp Sibbertsen Hartmut Lehne. Statistik. Einführung für Wirtschafts- und. Sozialwissenschaftler. 2., überarbeitete Auflage. 4^ Springer Gabler Philipp Sibbertsen Hartmut Lehne Statistik Einführung für Wirtschafts- und Sozialwissenschaftler 2., überarbeitete Auflage 4^ Springer Gabler Inhaltsverzeichnis Teil I Deskriptive Statistik 1 Einführung

Mehr

Übung V Lineares Regressionsmodell

Übung V Lineares Regressionsmodell Universität Ulm 89069 Ulm Germany Dipl.-WiWi Michael Alpert Institut für Wirtschaftspolitik Fakultät für Mathematik und Wirtschaftswissenschaften Ludwig-Erhard-Stiftungsprofessur Sommersemester 2007 Übung

Mehr

Arbeitsbuch zur deskriptiven und induktiven Statistik

Arbeitsbuch zur deskriptiven und induktiven Statistik Helge Toutenburg Michael Schomaker Malte Wißmann Christian Heumann Arbeitsbuch zur deskriptiven und induktiven Statistik Zweite, aktualisierte und erweiterte Auflage 4ü Springer Inhaltsverzeichnis 1. Grundlagen

Mehr

Klassifikation von Signifikanztests

Klassifikation von Signifikanztests Klassifikation von Signifikanztests nach Verteilungsannahmen: verteilungsabhängige = parametrische Tests verteilungsunabhängige = nichtparametrische Tests Bei parametrischen Tests werden im Modell Voraussetzungen

Mehr

Modellanpassung und Parameterschätzung. A: Übungsaufgaben

Modellanpassung und Parameterschätzung. A: Übungsaufgaben 7 Modellanpassung und Parameterschätzung 1 Kapitel 7: Modellanpassung und Parameterschätzung A: Übungsaufgaben [ 1 ] Bei n unabhängigen Wiederholungen eines Bernoulli-Experiments sei π die Wahrscheinlichkeit

Mehr

Literatur: Rudolf & Müller, S Dr. Matthias Rudolf: M3 Multivariate Statistik Vorlesung Einführung SEM Folie Nr. 1

Literatur: Rudolf & Müller, S Dr. Matthias Rudolf: M3 Multivariate Statistik Vorlesung Einführung SEM Folie Nr. 1 1 Korrelation und Kausalität 2 Grundsätzliches 3 Pfaddiagramme und lineare Strukturgleichungen 4 Struktur- und Messmodell 5 Modellspezifikation 6 Parameterschätzungen 7 Beurteilung der Schätzergebnisse

Mehr

Lösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK

Lösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK Institut für Stochastik Dr. Steffen Winter Lösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK für Studierende der INFORMATIK vom 17. Juli 01 (Dauer: 90 Minuten) Übersicht über

Mehr

Klausur zur Vorlesung

Klausur zur Vorlesung Institut für Mathematische Stochastik WS 2006/2007 Universität Karlsruhe 12. Februar 2007 Priv.-Doz. Dr. D. Kadelka Dipl.-Math. W. Lao Aufgabe 1 (15 Punkte) Klausur zur Vorlesung Statistik für Biologen

Mehr

Methodenlehre. Vorlesung 10. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Methodenlehre. Vorlesung 10. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg Methodenlehre Vorlesung 10 Prof. Dr., Cognitive Biopsychology and Methods University of Fribourg 1 Methodenlehre I Woche Datum Thema 1 FQ Einführung, Verteilung der Termine 1 25.9.13 Psychologie als Wissenschaft

Mehr

Mathematische Statistik Aufgaben zum Üben. Schätzer

Mathematische Statistik Aufgaben zum Üben. Schätzer Prof. Dr. Z. Kabluchko Wintersemester 2016/17 Philipp Godland 14. November 2016 Mathematische Statistik Aufgaben zum Üben Keine Abgabe Aufgabe 1 Schätzer Es seien X 1,..., X n unabhängige und identisch

Mehr

Statistik für Ingenieure und Naturwissenschaftler

Statistik für Ingenieure und Naturwissenschaftler Sheldon M. Ross Statistik für Ingenieure und Naturwissenschaftler 3. Auflage Aus dem Amerikanischen übersetzt von Carsten Heinisch ELSEVIER SPEKTRUM AKADEMISCHER VERLAG Spektrum Inhalt Vorwort zur dritten

Mehr