Emp. Sozialforschung/Soz.-wiss. Methoden II. Empirische Sozialforschung/ Sozialwissenschaftliche Methoden II. Prof. Dr.

Größe: px
Ab Seite anzeigen:

Download "Emp. Sozialforschung/Soz.-wiss. Methoden II. Empirische Sozialforschung/ Sozialwissenschaftliche Methoden II. Prof. Dr."

Transkript

1 Empirische Sozialforschung/ Sozialwissenschaftliche Methoden II Prof Dr Wenzel Matiaske Inhalt 1 Übersicht 2 2 Multivariate Datenanalyse 3 21 Multivariate Beschreibungen 4 22 Modelle der symmetrischen Datenanalyse Nähemaße Clusteranalysen Multidimensionale Skalierung Hauptkomponenten- und Faktorenanalyse Modelle der asymmetrischen Datenanalyse Regressionsanalyse Varianz- und Kovarianzanalyse Das generalisierte lineare Modell 78 3 Messen und Skalieren Facettentheorie 81 Literatur 94 Wenzel Matiaske 1 Next Prev Full

2 1 Übersicht Die Vorlesung behandelt vier Themengebiete: Multivariate Datenanalyse Messen und Skalieren Netzwerkanalytische Verfahren Modellbildung und Simulation Voraussetzung sind grundlegende Kenntnisse der deskriptiven Statistik (Statistik I) und der linearen Algebra Wünschenswert sind Kenntnisse der der Empirischen Sozialforschung (Sozialwissenschaftliche Methoden I) Zielsetzung ist, die Teilnehmer in die Lage zu versetzen sozialwissenschaftliche Studien kritisch zu rezipieren und den Einstieg in eigene empirische Studien zu erleichtern Wenzel Matiaske 2 Next Prev Full

3 2 Multivariate Datenanalyse Verfahren Zielvariable Prädiktor Graphische Methoden Clusteranalysen MDS Faktorenanalysen Korrespondenzanalyse dreidimensionale und bedingte Plots Schneeflocken, Chernoff-Gesichter symmetrische Verfahren zur Klassifizierung von Untersuchungsobjekten oder Variablen für metrische und non-metrische Maße symmetrische Verfahren zur räumlichen Darstellung von Untersuchungsobjekten oder Variablen für metrische und non-metrische Maße symmetrische Verfahren für metrische Variablen symmetrisches Verfahren zur räumlichen Darstellung von Zusammenhängen in Kontingenztafeln und anderen Tabellen Regressionsanalyse eine metrische mehrere metrische Varianzanalyse eine metrische mehrere non-metrische Kovarianzanalyse eine metrische mehrere metrische und non-metrische Diskriminanzanalyse eine non-metrische mehrere metrische Pfadanalyse mehrere metrische mehrere metrische GSK-Ansatz eine non-metrische mehrere non-metrische loglineare Modelle mehrere non-metrische mehrere non-metrische GLIM mehrere metrische oder mehrere metrische oder LISREL non-metrische mehrere metrische oder non-metrische non-metrische mehrere metrische oder non-metrische Wenzel Matiaske 3 Next Prev Full

4 21 Multivariate Beschreibungen Ausgangspunkt der multivariaten Datenanalyse sind graphische Darstellungen wie Höhenlinien- oder Gebirge, mehrdimensionale Streudiagramme sowie zusammenfassende Darstellungen von Verteilungsparametern (Schneeflocken, Chernoff-Gesichter) A Topographic Map of Maunga Whau 10 Meter Contour Spacing Meters West Meters North Wenzel Matiaske 4 Next Prev Full

5 scatterplot3d 5 Volume Height Girth Given : depth long lat Wenzel Matiaske 5 Next Prev Full

6 Edgar Anderson s Iris Data SepalLength SepalWidth PetalLength PetalWidth Chernoff-Gesichter Wenzel Matiaske 6 Next Prev Full

7 Übungsaufgaben Hilfreich zum Verständnis und Nachvollzug des vorgestellten Stoffes ist Software zur multivariaten Datenanalyse Insofern Ihnen kein klassisches Statistikpaket wie P-STAT, SAS, SPSS oder S- PLUS zur Verfügung steht, finden Sie geeignet Pakete unter den folgenden Anschriften: R ist eine frei verfügbare Implementation (GNU) der Programmiersprache S, die zur Datenanalyse besonders geeignet ist R beinhaltet eine Programmiersprache zur Manipulation von Daten und zur Programmierung eigener Prozeduren, eine Vielzahl fest eingebauter statistischer Programme und umfangreiche Bibliotheken mit speziellen Algorithmen Das Programm gibt es für verschiedene Betriebssysteme (Windows, Mac, UNIX) Nach kurzer Einarbeitungszeit in die Syntax der Datenanalyse steht Ihnen ein modernes und umfangreiches Werkzeug zur grafischen und numerischen Datenanalyse zur Verfügung Nahezu alle hier vorgestellten Auswertungen (und vieles mehr) lässt sich mit R bewältigen Ihre Investition lohnt sich, denn S-PLUS, eine kommerzielle Implementation von S, wird in der Praxis häufig eingesetzt LinuX Anwender sollten R mit Xgobi kombinieren Sollten Sie keine (!) Möglichkeit finden, R auf Ihrem Computer zu installieren besteht die bei einer vorhandenen Internet-Anbindung die Möglichkeit die Beispiele via Ausschneiden und Einfügen auszuprobieren ( Rcgi ) Das Paket UCINET ist ein mächtiges, menugesteuertes Programm zur sozialwissenschaftlichen Netzwerkanalyse Das Paket enthält neben speziellen Prozeduren zur Netzwerkanalyse eine Vielzahl von Algorithmen zur Manipulation von Matrizen und zur multivariaten Statistik (Clusteranalysen, MDS, Faktorenanalyse etc) Ältere Programmversionen für DOS (laufen in der Windows DOS-Box) stehen kostenlos zur Verfügung Nach minimaler Einarbeitungszeit verfügen Sie über ein Programm, mit dem Sie alle hier besprochenen Verfahren der symmetrischen Datenanalyse beherrschen Die MDS-X Bibliothek ist eine Sammlung der wichtigsten klassischen Algorithmen zur symmetrischen Datenanalyse Die Programme sind auf Grund ihres Alters etwas gewöhnungsbedürftig (Windows-Versionen sind in Vorbereitung), Interessierten allerdings unbedingt zu empfehlen 1 Besuchen Sie die Seiten der genannten Pakete und laden Sie zumindest R auf Ihren Rechner Laden Sie zusätzlich eine der Einführungen (empfohlen Baron/Li (2001)) 2 Helfen Sie jemanden aus diesem Kurs bei Installieren der Software oder lassen Sie sich helfen 3 Es sollte Ihnen gelingen die Matrix (S 17) in das eine und das andere Programm einzulesen Literaturhinweise: Matiaske (1996), Daumenlang (1987) Baron/Li (2001) Wenzel Matiaske 7 Next Prev Full

8 22 Modelle der symmetrischen Datenanalyse Modelle der symmetrischen Datenanalyse lassen sich danach unterscheiden, ob sie (primär) zur Bündelung von Fällen oder von Variablen geeignet sind: x 11 x 12 x 13 x 1m x 21 x 22 x 23 x 2m x 31 x 32 x 33 x 3m x n1 x n2 x n3 x nm } {{ } } {{ } } {{ } F 1 F 2 F 3 C 1 C 2 Eine weitere Differenzierung ist die Raumvorstellung des Modells, wobei sich Distanz- von Vektormodellen unterscheiden lassen Wenzel Matiaske 8 Next Prev Full

9 221 Nähemaße Nähemaße beschreiben die Ähnlichkeit bzw Distanz zwischen Objekten bzw Variablen Wir unterscheiden zwischen Ähnlichkeitsmaßen (hohe Werte bedeuten große Ähnlichkeit), Distanzmaßen (niedrige Werte bedeuten große Ähnlichkeit) und korrelativen Maßen Diese unterscheiden sich bezüglich der theoretischen Konzeption von Ähnlichkeit (Entfernung vs Steigung) Ferner finden sich verschiedene Koeffizienten je nach Datenniveau Wir behandeln im Folgenden insbesondere euklidische Distanzen (metrische Daten) sowie einige Maße für binäre Daten Wenzel Matiaske 9 Next Prev Full

10 Ein zentrales Modell der Nähe ist das der euklidischen Distanz Sie misst die Vogelfluglinie zwischen Punkten im Raum: y q p y p y q x p x q x d p,q = m i=1 (p i q i ) 2 ; d p,q = (3 1) 2 + (3 0) 2 = 3, 46 (1) Eine Verallgemeinerung der Euklidischen Distanz erhält man mit der sogenannten Minkowki-Metrik (L r ), d p,q = r i=1 p i q i r 1/r die für r = 2 der Euklidischen Distanz und für r = 1 der sogenannten City-Block-Metrik entspricht Dieses Maß beschreibt den Weg über die Katheten Die City-Block-Metrik wichtet, im Unterschied zur euklidischen Distanz, die größeren Differenzen implizit ein größeres Gewicht verleiht, alle Unterschiede gleich (2) Wenzel Matiaske 10 Next Prev Full

11 Die Maße der Minkowski-Metrik haben metrisches Datenniveau zur Voraussetzung Häufig lässt aber nur unterscheiden, ob ein Merkmal (gemeinsam) vorhanden ist oder nicht (nominales Datenniveau), wie die 2 2 Kreuztabelle veranschaulicht: Objekt q 1 0 (vorhanden) (nicht vorh) 1 a b a + b Objekt p 0 c d c + d a + c b + d Ausgehend von dieser Kreuztabelle lassen sich unterschiedliche Vorstellungen von Ähnlichkeit (Nähe) entwickeln Ähnlich seien zwei Objekte z B dann, wenn sie ein Merkmal a gemeinsam haben Wir standardisieren über die unterschiedlichen Ausprägungen: s p,q = a a + b + c und erhalten das sogenannte Jaccard-Maß (auch S-Koeffizient) Interessiert auch die Unähnlichkeit, sollte auch d im Zähler berücksichtigt werden z B: (3) s p,q = a + d a + b + c + d Gleichung 4 wird als Simple-Matching-Koeffizient bezeichnet (4) Wenzel Matiaske 11 Next Prev Full

12 Ein Anwendungsbeispiel ist die folgende soziometrische Darstellung der Freundschaftsbeziehungen im Bankwiring Room : bwfriendsdat I 1 I 3 W 1 W 2 W 3 W 4 W 5 W 6 W 7 W 8 W 9 S 1 S 2 S 4 I I W W W W W W W W W S S S Der Matching-Koeffizient berechnet sich für die Arbeiter W 3 und W 4 nach Formel 4: s W3,W 4 = = 92 Wenzel Matiaske 12 Next Prev Full

13 Die Koeffizienten in der Gruppe der Ähnlichlichkeitsmaße variieren zwischen 0 s p,q 1 und weisen im Unterschied zu den Distanzmaßen hohe Werte im Fall großer Ähnlichkeit (Nähe) auf, wohingegen die Distanzmaße geringe Werte für nahe beieinanderliegende Fälle aufweisen Eine Verallgemeinerung, die eine Ableitung der meisten Matchingkoeffizienten erlaubt, enthält die folgende Gleichung: s p,q = a + γd a + δ(b + c) + γd, (5) wobei 0 γ 1 und δ > 0 Wichtungen sind Für γ = 1 reflektiert das Maß, das ein Merkmal für beide Objekte fehlt (d) Für γ = 0 wird diese Möglichkeit ignoriert δ wichtet die Differenzen zwischen den Objekten (b + c) Im Fall des Simple-Matching-Koeffizienten sind beide γ = 1 und δ = 1 Wenzel Matiaske 13 Next Prev Full

14 Abschließende Hinweise Distanzmaße und korrelative (!) Ähnlichkeitsmaße beinhalten verschiedene Modelle von Ähnlichkeit (Distanz vs Steigung) Bei gemischten Datenniveaus ist auf die implizite Gewichtung zu achten (Dummy-Codierung) Die Dummy-Codierung wird u a genutzt, um ordinale Variablen auf mehrere binäre Variable zu reduzieren Wir verwenden grundsätzlich eine Dummyvariable weniger als die ursprüngliche Variable Ausprägungen hat Z B die ordinale Variable Stellung in der Hierarchie mit der Codierung 1 = Sachbearbeiter, 2 = Gruppenleiter, 3 = Abteilungsleiter; Wir benötigen zwei Dummy-Variablen D 1 und D 2 : D 1 = 0 und D 2 = 0 Sachbearbeiter; D 1 = 1 und D 2 = 0 Abteilungsleiter; D 1 = 0 und D 2 = 1 Abteilungsleiter; Die ordinale Variable Stellung in der Hierarchie wird also in zwei binäre Variablen aufgelöst Bei der Berechnung von binären Ähnlichkeitsmaßen wird diese aber in Relation zu echten binären Variablen (beispielsweise Gechlecht 0/1 codiert) doppelt so stark gewichtet Vor der Berechnung von Nähemaßen sind die Variablen ggf zu standardisieren Die Variablen sind häufig über verschiedene Maßstäbe gemessen (Körpergröße, Schuhgröße, Gewicht etc) Eine Möglichkeit der Standardisierung ist die Verwendung der Verteilungsmaße in der sogenannten z-transformation: z i = (x i x)/s (6) Verschiedene Programme verlangen die Umrechnung von Ähnlichkeits- (s) in Distanzsmaße (d), z B: d ij = 1 s ij (7) Wenzel Matiaske 14 Next Prev Full

15 Maße für metrische Daten Die Euklidische Distanz zwischen zwei Objekten p und q: d p,q = mi=1 (p i q i ) 2 Die quadrierte Euklidische Distanz zur Verwendung mit dem Ward-Cluster- Schema: d p,q = m i=1 (p i q i ) 2 Die City-Block-Metrik: d p,q = m i=1 p i q i Die Chebychev Distanz: d p,q = max i p i q i Das Cosinus-Maß (0 s p,q 1) entspricht der Pearson-Korrelation: s p,q = mi=1 (p i q i ) ( mi=1 p 2 i )( m i=1 q 2 i ) Maße für binäre Daten Die erste Gruppe umfasst die sogenannten Matching-Koeffizienten Die Maße dieser Gruppe variieren zwischen 0 und 1 Russel und Rao Ähnlichkeitsmaß: s p,q = a a+b+c+d Sokal und Michener Simple-Matching-Koeffizient: s p,q = Rogers und Tanimoto Ähnlichkeitsmaß: s p,q = Sokal und Sneath Ähnlichkeitsmaß 1: s p,q = Jaccard Ähnlichkeitsmaß: s p,q = a a+b+c Dice oder Czekanowski Ähnlichkeitsmaß: s p,q = Sokal und Sneath Ähnlichkeitsmaß 2: s p,q = a+d a+d+2(b+c) 2(a+d) 2(a+d)+b+c 2a 2a+b+c a a+2(b+c) a+d a+b+c+d Wenzel Matiaske 15 Next Prev Full

16 Die zweite Gruppe von Koeffizienten umfasst Ähnlichkeitskoeffizienten, die auf konditionalen Wahrscheinlichkeiten oder Korrelationen beruhen Kulczynskis Ähnlichkeitskoeffizient (0 s p,q 1) lässt sich via der konditionalen Wahrscheinlichkeit interpretieren Das Maß ist als mittlerer konditionale Wahrscheinlichkeit für den Fall definiert, dass ein Merkmal eines Objektes unter der Bedingung der Merkmalsausprägung bei einem anderen Objekt vorhanden ist: s p,q = 1 2 ( a a+b + a a+c ) Yule s Q ( 1 s p,q + 1) oder Goodman und Kruskals γ für 2 2 Tafeln: s p,q = ad bc ad+bc Ochiais Ähnlichkeitsmaß (binäre Fassung des Cosinus-Maßes) (0 s p,q 1): s p,q = a a a+b a+c Die letzte Gruppe umfasst Distanzmaße für binäre Daten: Bray und Curtis oder Lance und Williams non-metrischer Distanz-Koeffizient (0 d p,q ): d p,q = b+c 2a+b+c Binäre euklidische Distanz (0 d p,q ): d p,q = b + c Quadrierte binäre euklidische Distanz (0 d p,q ): d p,q = b + c Wenzel Matiaske 16 Next Prev Full

17 Übungsaufgaben Die folgende Tabelle ( secdat ): enthält Leistungsprofile von Sekretären Hohe Ausprägungen bedeuten gute Fähigkeiten Fähigkeiten von Sekretären Name Englisch Französisch Russisch Kurzschrift Maschine Textverarbeitung Chris Ben Ann Credic Andy Canny Alice Bert Carol Cecil Barb Art Berechnen Sie die euklidische Distanz zwischen den Profilen der Sekretäre in obiger Tabelle (Wenn Sie noch keines der Statistikpakete verwenden: berechnen Sie die euklidische Distanz zwischen den Profile von Chris und Ben) 5 Berechnen Sie die zugehörige Korrelationsmatrix (nun brauchen Sie ein Statistikpaket) 6 Interpretieren Sie die Unterschiede zwischen Distanzen und Korrelationen, indem Sie die Leistungsprofile der Sekretäre zeichnen 7 Berechnen Sie das Jaccard-Maß für die Freundschaftsbeziehungen zwischen den Arbeiten W 3 und W 4 8 Welche inhaltlichen Gründe sprechen für die Verwendung dieses Maßes? Welche für die Verwendung des Simple-Matching-Koeffizienten? Literaturhinweise: Matiaske (1994), Backhaus et al (1994), Steinhausen/Langer (1977) Wenzel Matiaske 17 Next Prev Full

18 222 Clusteranalysen Klassifizierungsverfahren suchen ausgehend von Nähematrizen (zwischen Objekten oder Variablen) kohäsive Gruppen zu bilden Wir unterscheiden: Agglomerativ hierarchische Modelle, Divisive hierarchische Modelle, partitionierende Modelle und Clustermodelle mit überlappenden Strukturen (probabilistische Verfahren) Im folgenden behandeln wir einige der praktisch weit verbreiteten agglomerativ hierarchischen Modelle und geben Hinweise auf partitionierende Modelle für größere Datensätze Wenzel Matiaske 18 Next Prev Full

19 Agglomerativ hierarchische Modelle Die Modelle dieser Verfahrensgruppe basieren auf der Idee der Vereinigung nahe benachbarter Objekte: 1 Vereinige die ähnlichsten Objekte zu einem Cluster (suche den niedrigsten Wert in der Nähematrix) 2 Berechne die Distanzmatrix neu 3 Wenn noch nicht alle Objekte vereinigt, gehe zu Schritt 1 4 Ende Die vorliegenden Algorithmen unterscheiden sich bezüglich des Schrittes 2 Wenzel Matiaske 19 Next Prev Full

20 Der sogenannte single linkage (minimum jump, nächster Nachbar) definiert sich über die minimale Distanz zwischen einem Punkt q neu und den Punkten p, q im Cluster: d qneu,i = min (d p,i, d q,i ) (8) Das Kritierium kann mit Ähnlichkeits- und Distanzmaßen verwendet werden Der Algorithmus neigt zur Kettenbildung, was idr unerwünscht ist aber zur Aufdeckung von Ausreißern genutzt werden kann Im Unterschied dazu definiert sich der complete linkage (diameter, entferntester Nachbar) über die maximale Distanz zwischen einem Punkt und den Punkten innerhalb des Clusters: d qneu,i = max (d p,i, d q,i ) (9) Als Kompromiss ist der average linkage zu verstehen, der die mittlere Distanz berücksichtigt: d qneu,i = 1 2 (d p,i + d q,i ) (10) Die Eigenschaften der Algorithmen (kontrahierend, dilatierend, konservativ) lassen sich insb in der explorativen Analyse nutzen Wenzel Matiaske 20 Next Prev Full

21 Average Linkage für das Sekretariatsbeispiel: N 1 = {1}, N 12 = {12}, N 13 = N 4 N 9 = {4, 9}, N 14 = N 1 N 10 = {1, 10}, N 15 = N 3 N 12 = {3, 12}, N 16 = N 14 N 6 = {1, 6, 10}, N 17 = N 15 N 7 = {3, 7, 12}, N 18 = N 16 N 13 = {1, 4, 6, 9, 10}, N 19 = N 2 N 8 = {2, 8}, N 20 = N 17 N 5 = {3, 5, 7, 12}, N 21 = N 19 N 11 = {2, 8, 11}, N 22 = N 18 N 21 = {1, 2, 4, 6, 8, 9, 10, 11}, N 23 = N 22 N 20 = {1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11} node with var var node combined node distance in1 in2 nr row label Christian Ben Ann Credic Andrew Canny Alice Bert Caroline Cecilia Barbara 12 Art Wenzel Matiaske 21 Next Prev Full

22 Clusterzugehörigkeiten und Darstellung im Dendrogram: Name P 1 P 2 P 3 P 4 P 5 P 6 P 7 P 8 P 9 P 10 P 11 Chris Ben Ann Credic Andy Conny Alice Bert Carol Cecil Barb Art Rescaled Distances 0 % 50 % 100 % Andy 5 Alice 7 Art 12 Ann 3 Barb 11 Bert 8 Ben 2 Carol 9 Credic 4 Conny 6 Cecil 10 Chris 1 c Wenzel Matiaske 22 Next Prev Full

23 Partitionierende Modelle Die Modelle dieser Verfahrensgruppe gehen von einer vorab spezifizierten Anzahl von Clustern aus Durch Austausch von Objekten suchen sie die Varianz innerhalb der Cluster zu minimieren und zwischen diesen zu maximieren (Austauschverfahren, K-Means) 1 Teile willkürlich in gegebene Anzahl von Clustern 2 Austausch von Objekten 3 Abruchkriterium erreicht? Wenn nein, zurück zu 2 4 Stop Abschließende Hinweise Zur Bestimmung der Clusterzahl in hierarchischen Verfahren verwendet man gelegentlich den Scree-Test (41) Entscheidend sind inhaltliche Argumente Weitere wichtige Verfahren der Clusterung sind die Latent-Class- Analysis (insb zur Itemanalyse eingesetzt) und sog Blockmodelle (Netzwerkanalyse) Verfahren mit überlappenden Clusterstrukturen vermeiden die restriktive Annahme der Hierarchisierung Wenzel Matiaske 23 Next Prev Full

24 Übungsaufgaben 9 Nutzen Sie ein Statistikpaket und wenden die hierarchischen Algorithmen des single-linkage und des average-linkage auf die Distanzmatrix des Sekretariatsbeispiels an 10 Welche Clusterlösung wählen Sie? Begründen Sie Ihre Entscheidung 11 Verwenden Sie auch den K-Means Algorithmus für die von Ihnen auf Grund der hierarchischen Lösung gewählten Clusterzahl Hinweise: Für Benutzer des Programmpaketes R: library(mva) ## Bibliothek für dist, hclust secdat <- readtable("secdat", header=t) ## einlesen der Tabelle, wobei die Kopfzeile als ## Variablennamen gelesen wird attach(secdat) ## Zugriff auf Variablennamen lab <- name d <- dist(secdat[,-1]) ### Spalte 1 (name) bleibt unberücksichtigt hc <- hclust(d) ### Algorithmus beachten plot(hc, labels=lab) library(cluster) hc <- agnes(secdat) ### Alternativ Verbinden! Literaturhinweise: Matiaske (1994), Backhaus et al (1994), Everitt/Dunn (1991), Steinhausen/Langer (1977) Wenzel Matiaske 24 Next Prev Full

25 223 Multidimensionale Skalierung Ausgangsdaten der multidimemsionalen Skalierung (MDS) sind ebenfalls Nähematrizen Wir unterscheiden die Verfahrensgruppen: metrische MDS, non-metrische MDS, MDS für Individualdaten Während die metrische MDS Intervallniveau der Daten voraussetzt, sucht die N-MDS lediglich die Rangfolgen der Distanzen im Raum zu rekonstruieren Sie ist bez des Datenniveaus voraussetzungslos Wenzel Matiaske 25 Next Prev Full

26 N-MDS von Entfernungsdaten: Berlin 0 Bielefeld Bonn Bremen Frankfurt/M Freiburg Hamburg Hannover Köln Mannheim München Nürnberg Frankfurt/O Dresden Mannh Frankfurt/M Freiburg Bonn Köln Bremen Bielefeld Hannover Hamburg Nürnberg München Dresden Berlin Frankfurt/O Stress = 0214 Wenzel Matiaske 26 Next Prev Full

27 Der Ablauf einer N-MDS: 1 Aus den Werten s ij einer Nähematrix wird eine Rangreihe gebildet (mit n(n 1)/2 Elemente wg Symmetrie der Matrix) 2 Es wird eine Konfiguration von n Punkten im niedrigdimensionalen Raum ermittelt 3 Die Distanzen d ij zwischen den Punkten im Raum werden berechnet und in eine Rangreihe gebracht 4 Große Distanzen d ij entsprechen geringen Ähnlichkeiten s ij und vice versa 5 Die Ähnlichkeit der Rangreihen (goodness of fit, z B das Stress- Maß) werden miteinander verglichen 6 Die Konfiguration wird iterativ verbessert (monotone Regression) Wenzel Matiaske 27 Next Prev Full

28 Ähnlichkeitsdaten: Ausgangskonfiguration: 1 Peter 2 Paul 3 Marie 4 Su 1 Peter 2 Paul 3 3 Marie Su Objekt Dim 1 Dim 2 1 Peter Paul Marie Su 10 4 dim 2 Paul Marie Peter Su dim 1 Euklidische Distanzen: Punkte a = x pq x p2 b = x 11 x 12 a 2 + b 2 d pq s pq 1, = 26 5,1 3 1, = 5 2,2 2 1, = 53 7,3 5 2, = 17 4,1 1 2, = 73 8,5 4 3, = 82 9,1 6 Wenzel Matiaske 28 Next Prev Full

29 Rangordnungen von Ähnlichkeiten und Distanzen s pq 1, 3 1, 2 2, 3 1, 4 1, 1 2, 4 d pq Wir ermitteln die Disparitäten ˆ d pj für die nicht-monotonen Objektpaare ZB: dˆ 14 = d ˆ 24 = d 14 + d 24 2 = 7, 9 Und verbessern die Konfiguration hinsichtlich der Übereinstimmung von Distanzen und Disparitäten und Berücksichtigung der Monotoniebedinung Die Güte der Anpassung wird über den sogenannten Stress ausgedrückt: L = i,j (d p,q ˆd p,q ) 2 i,j (d p,q d p,q ) 2 (11) Wenzel Matiaske 29 Next Prev Full

30 Berechung des Stress: Beurteilung der Anpassung: p, q s pq d pq ˆdpq (d pq ˆd pq ) 2 (d pq d) 2 2, , , , , , d = 363/6 = 61 L = 26/364 = 007 Stress Anpassungsgüte 0,4 gering 0,2 ausreichend 0,1 gut 0,05 ausgezeichnet 0,0 perfekt Wenzel Matiaske 30 Next Prev Full

31 Abschließende Hinweise Zur Bestimmung der Anzahl notwendiger Dimensionen verwendet man des Scree-Test (41) Zur Vermeidung lokaler Minima empfiehlt sich der Einsatz des Hybridalgorithmus MINISSA Insbesondere im Bereich der Marktforschung kommen eine Reihe von Verfahren (Rangordnen, Ankerpunkt- und Ratingmethode) zur direkten Erhebung von Ähnlichkeiten zum Einsatz Die Verfahrensfamilie der MDS umfasst eine Vielzahl spezieller Modelle Hingewiesen sei auf die Möglichkeit der Skalierung von Individualdaten (INDSCAL) Wenzel Matiaske 31 Next Prev Full

32 Übungsaufgaben 12 Verwenden Sie den Übungsdatensatz ( hsrdat ) und berechnen Sie die Korrelationen der Variablen des Handlungsspielraums (esr n, tsr n, fsr n ) 13 Berechnen Sie für diese Korrelationsmatrix eine nicht-metrische MDS und eine hierarchische Clusterlösung Wie interpretieren Sie die Ergebnisse? Hinweise: Für Benutzer des Programmpaketes MDSX (MINISSA): RUN NAME Staedte Beispiel N OF STIMULI 13 DIMENSIONS 2 TO 3 PARAMETERS DATA(1) INPUT FORMAT (12F40) READ MATRIX PLOT ALL COMPUTE FINISH Wenzel Matiaske 32 Next Prev Full

33 Hinweise: Für Benutzer des Programmpaketes R: library(mass) ### sammon und isomds library(mva) ### dist und hclust hsr <- readtable("hsrdat", header=t) chsr <- cor (hsr) dchsr <- asdist(1- chsr) ### Ähnlichkeiten in distanzen plot(hclust(dchsr)) mdshsr <- sammon(dchsr) ### oder isomds nach Kruskal eqscplot(mdshsr$points, type="n") text(mdshsr$points, labels=rownames(chsr)) library(xgobi) ### oder interaktiv mit xgobi/xgvis xgvis((1-chsr)) Verbinden! Literaturhinweise: Backhaus et al (1994), Borg/Staufenbiel (1989), Borg/Groenen (1997) Wenzel Matiaske 33 Next Prev Full

34 224 Hauptkomponenten- und Faktorenanalyse Das Ziel der explorativen Hauptkomponenten- (PCA, Principal Component Analysis) und Faktorenanalyse (FA, Factor Analysis) besteht darin, eine Reihe von Variablen auf wenige zugrundeliegende Faktoren zurückzuführen Faktor 2 Faktor 1 Variable 1 Variable 2 Variable 3 e1 e2 e3 Variable 4 e4 Das Fundamentaltheorem Die Beobachtungswerte (x ij ) der Beobachtung i und der Variablen j werden mittels der z-transformation (6) standardisiert Für die standardisierten Beobachtungswerte lässt sich das Modell der PCA wie folgt ausdrücken: z ij = a j1 f 1i + a j2 f 2i + + a jr f ri (12) Die a j1 bis a jr werden als Faktorladungen bezeichnet Diese sind Korrelationen zwischen den Faktoren und den Variablen Die f 1i bis f ri werden als Faktorwerte bezeichnet und geben die Werte der Beobachtung i auf den einzelnen Faktoren an Wenzel Matiaske 34 Next Prev Full

35 In Matrixform lautet die Gleichung: Z = AF, (13) mit F als Matrix der Faktorwerte und A als Matrix der Faktorladungen Das Grundmodell der PCA, nimmt also einen linear additiven Zusammenhang zwischen Faktoren und Variablen an Ob diese Modellannahme dem empirischen Datensatz adäquat ist, muß im jeweiligen Anwendungsfall geprüft werden Da Z eine standardisierte Datenmatrix darstellt, ist die Korrelationsmatrix R der Variablen gleich der Kovarianzmatrix Es gilt: Setzt man (13) in (14) ein, so erhält man: Im folgenden Schritt wird definiert: R = 1 n 1 ZZ (14) R = 1 n 1 AFA F (15) C = 1 n 1 FF, (16) wobei C eine Korrelationsmatrix zwischen den Faktoren darstellt Unter der Bedingung, dass die die gesuchten Faktoren voneinander unabhängig ist C eine Einheitsmatrix Es gilt: Wenzel Matiaske 35 Next Prev Full

36 R = AA (17) Die Korrelationsmatrix lässt sich durch Multiplikation der Faktorladungsmatrix mit ihrer Transponierten berechnen Die Gleichung (17) wird als Fundamentaltheorem der Hauptkomponentenanalyse bezeichnet Es gilt nur unter der Bedingung der Unabhängigkeit der Faktoren Ablauf einer PCA oder FA Der Ablauf einer Faktorenanalyse gliedert sich in folgende Verfahrensschritte: Berechnung der Korrelationsmatrix, gegebenenfalls Reduktion dieser Matrix (Kommunalitätenproblem), Berechnung der Faktorladungsmatrix (Extraktionsproblem), Rotation der Faktorladungsmatrix (Rotationsproblem), Berechnung der Faktorwerte Wenzel Matiaske 36 Next Prev Full

37 Unterschiede zwischen PCA und FA Beispiel einer Korrelationsmatrix: V30 V31 V33 V34 V37 V41 V30 1,00 V31 0,64 1,00 V33 0,51 0,43 1,00 V34 0,22 0,37 0,12 1,00 V37 0,25 0,34 0,26 0,41 1,00 V41 0,21 0,27 0,23 0,47 0,52 1,00 Die PCA nimmt an, dass die gesammte Varianz einer Variablen (durch Standardisierung auf 1 normiert) auf die Faktoren zurückgeführt werden kann Die linearen Gewichte (a jr ) wurden als Korrelationskoeffizienten zwischen Variablen und Faktor eingeführt Der quadrierte Korrelationskoeffizient (a 2 jr) drückt den Varianzerklärungsanteil des Faktors an der Variablen an Die Summe der quadrierten Faktorladungen einer Variablen j über alle Faktoren wird als Kommunalität h 2 j bezeichnet und gibt den durch die gemeinsamen Faktoren erklärten Anteil der Varianz an h 2 j = p i=1 a 2 ij (18) Faktorenanalysen gehen im Gegensatz davon aus, daß in der Linearkombination noch Fehleranteile enthalten sind, wobei diese Einzelrestfaktoren (U, uniqueness) untereinander und zu den übrigen Faktoren unkorreliert sind Wenzel Matiaske 37 Next Prev Full

38 Die Gleichung (17) muss also um einen Fehlerterm ergänzt werden: R = AA + E (19) Daraus ergibt sich das sogenannte Kommunalitätenproblem Praktisch: Die Diagonale der Korrelationsmatrix ist mit Werten 1 zu besetzen Die geschätzten Kommunalitäten werden in die Diagonale der Korrelationsmatrix eingesetzt Das Extraktionsproblem Zur Extraktion der Faktoren wird auf die Eigenwert- /Eigenvektorberechung zurückgegriffen Geometrisch veranschaulicht: Variablen lassen sich als Vektoren im Raum darstellen, wobei die Länge der Vektoren durch Standardisierung der Variablen auf 1 normiert ist Der von den Vektoren eingeschlossene Winkel entspricht der Korrelation zwischen den Variablen angibt (r = cos) Die Vektoren der Variablen in der folgenden Skizze umschließen einen Winkel von 60 Zur Berechnung des Cosinus fällt man vom Punkt C das Lot auf den Vektor AB Der Cosinus ist definiert als das Verhältnis von Ankathete zur Hypothenuse AD/AC Da AC auf 1 normiert ist, entspricht der Cosinus von 60 der Strecke AD; mithin ist der Korrelationskoeffizient r = 0, 5 Wenzel Matiaske 38 Next Prev Full

39 A D B 1 0,5 C Faktor II Var 2 Var 1 Faktor I Der erste Faktor wird so positioniert, dass dieser möglichst zentral durch das Vektorbündel der Variablen verläuft Die Winkel zwischen Variablen und Faktor sind Korrelationen (cos 30 = 0, 87) oder Faktorladungen Der zweite Faktor wird aufgrund der Annahmen des Verfahrens orthogonal, d h unkorreliert zum ersten Faktor extrahiert Wenzel Matiaske 39 Next Prev Full

40 Die Korrelationsmatrix R läßt sich bei Anwendung der Hauptkomponentenanalyse vollständig reproduzieren, wenn so viele Faktoren extrahiert werden wie Variable vorhanden sind Der Varianzerklärungsanteil eines Faktors wird im sogenannten Eigenwert desselben ausgedrückt und ergibt sich aus der Summe der quadrierten Faktorladungen Faktor I II III IV V VI V30 0,71 0,52 0,15 0,08 0,24 0,38 V31 0,77 0,32 0,33 0,17 0,05 0,40 V33 0,62 0,47 0,45 0,33 0,28 0,05 V34 0,62 0,48 0,46 0,28 0,28 0,12 V37 0,68 0,40 0,30 0,49 0,20 0,07 V41 0,65 0,52 0,25 0,23 0,43 0,08 Eigenwerte 2,76 1,25 0,70 0,52 0,44 0,33 Varianz in % 46,0 20,8 11,6 8,7 7,4 5,5 Kumuliert 46,0 66,8 78,4 87,1 94,5 100,0 Die Tabelle zeigt die Matrix der Faktorladungen aller Faktoren bei Anwendung der Hauptkomponentenanalyse Die Varianzerklärungsanteile lassen sich aus den jeweiligen Eigenwerten berechnen Bei sechs Variablen mit jeweils normierter Varianz ist die Gesamtvarianz im Beispiel gleich 6 Daran hat der erste Faktor einen Anteil von (2, )/6 = 46% Die Kommunalität jeder Variablen ist gleich 1, da alle möglichen Faktoren ermittelt wurden und das Modell keinen Fehleranteil enthält Folglich lassen sich auch die Korrelationen vollständig reproduzieren Wenzel Matiaske 40 Next Prev Full

41 Die Auswahl der Faktoren erfolgt u a nach dem Varianzerklärungsanteil (z B der Faktoren; Kaiser- Kriterium deren Eigenwerte größer ist als 1), dem Scree-Test, Zunächst werden die Eigenwerte der Faktoren in absteigender Reihenfolge in ein Diagramm eingetragen, das auf der Ordinate die Eigenwerte und auf der Abzisse die Faktorenzahl enthält Gibt es im Verlauf dieser Werte einen deutlichen Knick, so bedeutet dies, daß durch Hinzunahme eines weiteren Faktors der Varianzerklärungsanteil nicht mehr deutlich verbessert werden kann inhaltlichen Überlegungen Wenzel Matiaske 41 Next Prev Full

42 Faktor I Faktor II h 2 V30 0,71 0,52 0,77 V31 0,77 0,32 0,70 V33 0,62 0,47 0,61 V34 0,62 0,48 0,61 V37 0,68 0,40 0,62 V41 0,65 0,52 0,69 Eigenwerte 2,76 1,25 Im Beispiel werden nach dem Kaiser-Kriterium zwei Faktoren extrahiert Die Kommunalität für die Variable V31 beträgt: r 31,31 = (0, 77) 2 + ( 0, 32) 2 = 0, 70 Es werden also insgesamt 70% der Varianz der Variable V31 durch zwei Faktoren erklärt Für die Korrelation der Variablen V30 und V31 ergibt sich folgende Schätzung: r 30,31 = (71)(77) + ( 52)( 32) = 0, 71 Zur empirischen Korrelation der Variablen von 0,64 ergibt sich also eine Differenz von 0,07, die als Residuum bezeichnet wird Wenzel Matiaske 42 Next Prev Full

43 Das Rotationsproblem Faktor II 7 Faktor II rotiert V41 V34 V37 V31 V33 V30 Faktor I rotiert Faktor I Durch orthogonale oder schiefwinklige Rotation des durch die Faktoren gebildeten Achsenkreuzes kann dieses so positioniert werden, daß die Punktwolken jeweils durch einen der beiden Faktoren recht gut repräsentiert werden (Rotation zur Einfachstruktur) Bei der Varimax-Rotation sollen hohe Faktorladungen eines Faktors größer werden, während kleine Faktorladungen tendenziell gegen 0 streben sollen (Vereinfachung der faktorbezogenen Interpretation) Die Quartimax-Rotation hat dagegen das Ziel, die Variablen auf einem Faktor möglichst hoch und auf anderen möglichst niedrig Wenzel Matiaske 43 Next Prev Full

44 zu laden (Vereinfachung der variablenbezogenen Interpretation) Schiefwinklige (oblique) Rotation (Promax, Oblimin) Neben der Faktorladungsmatrix ist die Faktorstrukturmatrix ermittelt, die die Korrelationen zwischen den Faktoren beinhaltet Faktor I Faktor II h 2 V30 0,87 0,11 0,77 V31 0,78 0,30 0,70 V33 0,78 0,09 0,62 V34 0,12 0,78 0,62 V37 0,21 0,76 0,62 V41 0,12 0,82 0,69 Eigenwerte 2, Berechnung der Faktorwerte Die Berechnung der Faktorwerte bildet den Abschluss einer Faktorenanalyse Im Fall der PCA kann die Berechnung direkt erfolgen Bei anderen Verfahren der Kommunalitätenbestimmung sind diese zu schätzen Eine Möglichkeit ist die Methode der multiplen Regression, wobei als Prädiktoren der Faktorwerte die gewichteten Linearkombinationen der Itemwerte benutzt werden Wenzel Matiaske 44 Next Prev Full

45 Abschließende Hinweise Die Probleme der Kommunalitätenschätzung und der Zahl der zu extrahierenden Faktoren sind Ausgangspunkt jüngerer Weiterentwicklungen der Faktorenanalyse (ULS, unweighted least squares; GLS generalized least squares; ML maximum-likelihood) Neben dem besprochenen R-Typ der Faktorenanalyse zur Bündelung von Variablen wird der sogenannte Q-Typ zur Faktorisierung der Fälle angewendet Die Anwendungsempfehlung lautet Hauptkomponentenanalyse (PCA), die Auswahl von Faktoren mit Eigenwerten größer als 1 und anschließende Varimax-Rotation umfaßt Wenzel Matiaske 45 Next Prev Full

46 Übungsaufgaben 14 Verwenden Sie den Übungsdatensatz ( hsrdat ) berechnen Sie eine Hauptkomponentenoder Faktorenanalyse mit anschließender Rotation für die Variablen des Handlungsspielraums (esr n, tsr n, fsr n ) 15 Vergleichen Sie die Ergebnisse mit denen von MDS und hierarchischer Clusteranalyse Hinweise: Für Benutzer des Programmpaketes R: library(mva) hsr <- readtable("hsrdat", header=t) pc <- prcomp(hsr, scale=t) ## Hauptkomponenten fa <- factanal(hsr, rotation="promax", factors=4) ## Faktorenanalyse pc summary(pc) fa library(multidim) acp <- acp(hsr) plot(acp) ### Ausgaben der Ergebnisse ### sofern vorhanden verwenden Sie auch ACP Verbinden! Literaturhinweise: Backhaus et al (1994), Matiaske (1996), Everitt/Dunn (1991) Wenzel Matiaske 46 Next Prev Full

47 23 Modelle der asymmetrischen Datenanalyse Modelle der asymmetrischen Datenanalyse setzen an den Spalten der Datenmatrix an Eine oder mehrere Variablen sollen auf den Einfluss einer oder mehrerer Variablen zurückgeführt werden Prototyp der asymmetrischen Datenanalyse ist das Modell der Regression: Ziel- Prädiktoren var x 11 x 12 x 13 x 1m x 21 x 22 x 23 x 2m x 31 x 32 x 33 x 3m x n1 x n2 x n3 x nm Regressionsanalyse Varianten lassen sich insbesondere auf Grund des Datenniveaus der Zielvariablen bzw der Prädiktoren und der verwendeten Schätzfunktion unterscheiden Wenzel Matiaske 47 Next Prev Full

48 231 Regressionsanalyse Regression bezeichnet sinngemäß das Zurückführen der Ausprägungen einer abhängigen Variable auf die Ausprägungen einer oder mehrerer unabhängiger Variablen Das regressionsanalytische Modell setzt dabei voraus, dass die Zielvariable der Analyse und ihre Prädiktorvariablen auf Grund theoretischer Überlegungen bestimmt worden sind Zielsetzung der Analyse ist, die unabhängige Variable mittels der erhobenen Daten zu beschreiben und ferner deren Verhältnis in der Grundgesamtheit zu bestimmen Die deskriptive Zielsetzung verlangt die möglichst genaue Bestimmung der abhängigen Variable durch möglichst wenige Prädiktorvariablen Wie bei allen multivariaten Analyseverfahren wird also ein befriedigender Kompromiß zwischen Genauigkeit und Einfachheit des Modells gesucht, indem die Haupteinflußfaktoren herausgefiltert werden Wenzel Matiaske 48 Next Prev Full

49 Das Grundmodell der bivariaten Regression Das Streudiagramm zeigt den Zusammenhang von Arbeitszufriedenheit (SAZ) und Entscheidungsspielraum (ESR) Auf Grund des Streudiagramms lässt sich ein linearer Trend diagnostizieren Ferner ist ein sogenannter Ausreisser ( ) festzustellen SAZ ESR Legende: 1 Fall; 2 Fälle; mehr als 3 Fälle Lineare Zusammenhänge zwischen zwei Variablen können mittels einer Geraden beschrieben werden: y = b 0 + b 1 x, (20) wobei die abhängige Variable y auf der Ordinate abgetragen wird Den Schnittpunkt der Geraden mit der y-achse bezeichnet b 0 Die Steigung der Geraden bezeichnet b 1 Wenzel Matiaske 49 Next Prev Full

50 IdR können nicht alle Punkte eines Diagramms mittels einer Geraden verbunden werden Die Grundgleichung ist daher einen Fehlerterm e zu ergänzen y = b 0 + b 1 x + e (21) Es ist plausibel, die Gerade zur Repräsentation der Punktwolke möglichst zentral durch diese zu legen, so daß die Fehler minimiert werden Dieser Forderung kommt das Standardschätzverfahren die Methode der kleinsten Quadrate (OLS, ordinary least squares) nach Dabei werden die Abstände der Punkte von der Geraden in vertikaler Richtung betrachtet, die sich nach: y i b 0 b 1 x i, (22) ergeben, wobei y i und x i die Koordinaten eines Punktes sind Die Summe der quadrierten Abstände aller Punkte soll nun ein Minimum werden, d h: n i=1 (y i b 0 b 1 x i ) 2 min! (23) Durch die Quadrierung der Abstände wird verhindert, daß sich die Abstände nach oben und unten gegenseitig aufheben Wenzel Matiaske 50 Next Prev Full

51 Implizit werden damit aber kleine Abstände weniger stark gewichtet als größere Abstände Die OLS-Schätzung ist deshalb relativ stark von Ausreißern beeinflußt Sogenannte robuste Regressionsschätzungen wichten daher große Abweichungen weniger stark Gelten die Standardannahmen des Regressionsmodells, lässt sich zeigen, dass die OLS-Methode die wünschenswerten Eigenschaften einer BLUE-Schätzung (best linear unbiased estimator) besitzt Mit Hilfe der Differentialrechnung lassen sich Gleichungen für Schnittpunkt und Steigung der Geraden abgeleiten: b 0 = y b 1 x; b 1 = n i=1 (x i x)(y i y) n i=1 (x i x) 2 (24) Für das Beispiel ergibt sich folgende Regressionsgleichung: SAZ = 20, 9 + 0, 51ESR, Wenzel Matiaske 51 Next Prev Full

52 SAZ bezeichnet diejenigen Werte (Prädiktorwerte), welche genau auf der Gerade liegen Der Regressionskoeffizient b 1 drückt die Steigung im Maßstab der unabhängigen Variable ESR aus Um vergleichbare Regressionskoeffizienten zu erhalten, wird die Regression z-standardisierten abhängigen und unabhängigen Variablen durchgeführt Der Koeffizient b 0 nimmt in diesem Fall den Wert 0 an Die resultierenden standardisierten Regressionskoeffizienten werden mit Beta bezeichnet Wenzel Matiaske 52 Next Prev Full

53 y y i ŷ y y i ŷ i ŷ i y y i y ŷ = b 0 + b 1 x x x i Komponenten der Variation x Die Abstände (y i ŷ i ) werden als Residuen (yi res ) bezeichnet und geben Aufschluß über die Güte der Anpassung des Regressionsmodells Weil die Summe der Residuen 0 ergibt, verwenden wir die Quadratsumme Die gesamte Variation der abhängigen Variablen ist die Summe der Abweichungsquadrate der empirischen Werte (y i ) von ihrem Mittelwert (y) Die durch das Modell erklärte Variation ergibt sich folglich als Differenz von gesamter Variation und nicht-erklärter Variation, also als Quadratsumme der Prädiktoren (ŷ i ) von ihrem Mittelwert Wenzel Matiaske 53 Next Prev Full

54 Die gesamte Variation (SS tot ) läßt sich als in die im Regressionsmodell erklärte Variation (SS reg ) und die nicht erklärte oder Residualvariation (SS res ) aufteilen n i=1 (y i y) 2 = n (ŷ i y) 2 + n (y i ŷ i ) 2 ; (25) i=1 i=1 SS tot = SS reg + SS res (26) Das Verhältnis von SS reg /SS tot ist der Determinationskoeffizient R 2, der den prozentualen Anteil der im Modell erklärten Varianz angibt Das Verhältnis von SS res /SS tot wird als Alienationskoeffizient (1 R 2 ) bezeichnet und drückt entsprechend den nicht determinierten Varianzanteil aus Im Beispiel nimmt R 2 den Wert 0, 28 an, es werden also 28 % der Varianz der abhängigen Variable (SAZ) durch die unabhängige Variable (ESR) determiniert Wenzel Matiaske 54 Next Prev Full

55 Multiple Regression Bezieht man weitere Variablen in das Modell ein, wird mittels der OLS-Schätzung eine Hyperebene im n-dimensionalen Raum bestimmt Erweitern wir die Analyse auf drei Variablen, lautet die Gleichung: ŷ = b 0 + b 1 x 1 + b 2 x 2 (27) Der lineare Einfluß zwischen den Prädiktoren (x 1, x 2 ) wird zur Berechnung der multiplen Regression herausgefiltert (partialisiert) Die multiple wird in eine doppelte bivariate Regression aufgeteilt Zunächst wird nur der lineare Zusammenhang zwischen einer unabhängigen Variablen und den übrigen bestimmt: ˆx 1 = b 0 + b 1 x 2 (28) Die Residuen von x 1 bei der Regression auf x 2 : x res 1 = x 1 ˆx 1 (29) sind genau der Anteil, der nicht linear von x 2 abhängig ist Nur mit diesen Residuen wird also im zweiten Schritt eine bivariate Regression mit der Zielvariable y durchgeführt: y = b 0 + b 1 x res 1 (30) Der so bestimmte Koeffizient b 1 ist der Koeffizient b 1 im multiplen Fall Wenzel Matiaske 55 Next Prev Full

56 Analog werden die Schritte für die weiteren unabhängigen Variablen vollzogen Nehmen wir in das Beispiel als zusätzliche Prädiktoren der Arbeitszufriedenheit die weiteren Dimensionen des Handlungsspielraums, nämlich den Freiheitsspielraum (FSR) und den Tätigkeitsspielraum (TSR), auf: SAZ = b 0 + b 1 ESR + b 2 F SR + b 3 T SR Für diese Gleichung lassen sich folgende Koeffizienten bestimmen, wobei die Beta-Koeffizienten in Klammern angegeben sind SAZ = 14, , 40ESR + 0, 05F SR + 0, 43T SR; (0, 41) (0, 04) (0, 25) Der Koeffizient für ESR ist im Vergleich zum bivariaten Modell leicht gesunken, was ein Indiz für eine korrelative Beziehung zwischen den Prädiktoren sein kann Die unstandardisierten Koeffizienten der Variablen ESR und TSR haben nahezu die gleiche Größe Die Betrachtung der Beta-Koeffizienten zeigt aber, daß der Einfluß des Tätigkeitsspielraums auf die Arbeitszufriedenheit geringer ist als der des Entscheidungsspielraums Der Freiheitsspielraum ist für die Arbeitszufriedenheit nahezu bedeutungslos R 2 nimmt einen Wert von 0,33 an Es werden also insgesamt 5 % mehr Varianz erklärt als im bivariaten Fall Wenzel Matiaske 56 Next Prev Full

57 Signifikanztests Es kann von Interesse sein, von den Ergebnissen der Stichprobe auf die Grundgesamtheit zu schließen Die Fragestellung lautet also, ob die aufgestellte Regressionsgleichung brauchbar ist, den Zusammenhang in der Grundgesamtheit zu beschreiben Die Testverfahren erfordern normalverteilte Residuen mit einem Mittelwert von 0 und konstanter Varianz für die Ausprägungen der unabhängigen Variablen Mittels des F -Tests wird die Gültigkeit des Gesamtmodells geprüft Die Gültigkeit der Regressionskoeffizienten wird mittels des t-tests getestet Um die Gültigkeit des Gesamtmodells zu prüfen, wird die Nullhypothese getestet, ob dieser Koeffizient in der Grundgesamtheit 0 ist Die Nullhypothese behauptet also, daß alle partiellen Regressionskoeffizieten in der Grundgesamtheit, die mit β bezeichnet werden, gleich 0 sind: H 0 : β 1 = β 2 = β p = 0; H 1 : Es gibt i mit β i 0 (31) Die F -verteilte Prüfgröße des Tests ergibt sich als Quotient der erklärten Variation und der im Modell nicht-erklärten Residualvariation gewichtet mit den jeweiligen Freiheitsgraden (Anzahl der Variablen p, Anzahl der Fälle n Die so gewichteten Quadratsummen werden als mittlere Quadrate (M SS) bezeichnet: F = = SS reg /p SS res (n p 1) = MSS reg 1659, 77/3 3374, 34/( ) MSS res ; (32) = 553, 26 23, 43 = 23, 61 Wenzel Matiaske 57 Next Prev Full

58 Der theoretische F -Wert beträgt F 3,144;0,05 = 2, 68, ist also kleiner als der empirische Wert für F = 23, 61, für den sich ein ein Signifikanzniveau von p = 0, 0000 ergibt Die Nullhypothese wird daher verworfen Wir können davon ausgehen, daß der multiple Korrelationskoeffizient auch in der Grundgesamtheit größer ist als Null Ein signifikantes Ergebnis der Prüfung der gesamten Gleichung besagt im multiplen Fall nicht, daß die einzelnen Regressionskoeffizienten bezogen auf die Grundgesamtheit als signifikant gelten können Unter bestimmten Annahmen läßt sich eine mit (n p) Freiheitsgraden t-verteilte Prüfgröße als Quotient von Regressionskoeffizient und zugehörigem Standardfehler konstruieren t = b p SE bp (33) Die Nullhypothese lautet, daß der Regressionskoeffizient in der Grundgesamtheit 0 ist Innerhalb des Intervalls von ±2 (Aproximation durch die Normalverteilung) Standardfehlern um den Regressionskoeffizienten sollte dabei der Wert 0 nicht vorkommen, soll mit α = 0, 05 angenommen werden, daß der Regressionskoeffizient signifikant ist Betrachten wir beispielsweise das Mutungsintervall für die Variable FSR, für die sich ein Standardfehler von 0,1 berechnet Das Mutungsintervall für FSR bestimmt sich als: 0, 05 1, 96(0, 1) β F SR 0, , 96(0, 1) (34) Der wahre Regressionskoeffizient β ist mit 95 % Wahrscheinlichkeit im Intervall von 0, 15 und 0,25 in der Grundgesamtheit zu finden Die Nullhypothese kann daher nicht zurückgewiesen werden Wenzel Matiaske 58 Next Prev Full

59 Modellannahmen der Regression Das lineare Modell der Regression umfaßt fünf Annahmen: Die Beziehung zwischen abhängiger und unabhängigen Variablen ist linear Die Verletzung der Prämisse wird folglich als Nichtlinearität bezeichnet Die unabhängigen Variablen sind linear unabhängig voneinander Korrelieren die unabhängigen Variablen miteinander, spricht man von Multikollinearität Die abhängige Variable besitzt für ihre konditionalen Verteilungen gleiche Streuungen Liegt keine Streuungsgleichheit vor, wird von Heteroskedastizität gesprochen (z B freiwillige Sozialleistungen in Abhängigkeit von der Ertragslage) Die Werte der abhängigen Variable dürfen nicht von vorhergehenden oder nachfolgenden Werten beeinflußt sein Ein niedriger Wert der abhängigen Variable darf also nicht niedrig sein, weil der vorhergehende oder der nachfolgende Wert niedrig ist, andernfalls spricht man von Autokorrelation Für bestimmte, feste Werte der unabhängigen Variable soll die konditionale Verteilung der abhängigen Variable der Normalverteilung folgen Wenzel Matiaske 59 Next Prev Full

60 y }e i y i x Annahmen der Regression Die Abbildung verdeutlicht die Annahmen der Linearität, der Streuungsgleichheit und der Normalverteilung Wenzel Matiaske 60 Next Prev Full

61 e + 0 ŷ a) e + 0 b) ŷ e + 0 c) Typische Residuen-Streudiagramme ŷ Im Streudiagramm von standardisierten Residuen und geschätzten Werten der abhängigen Variable wird deutlich, inwieweit ein Regressionsmodell den Daten angemessen ist Die Abbildung zeigt drei typische Streudiagramme der standardisierten Residuen: Darstellung (a) gibt ein ideales Streudiagramm wieder, bei dem die Modellvoraussetzungen erfüllt sind Das Streudiagramm (b) verweist auf einen nicht-linearen Zusammenhang, dem ein lineares Regressionsmodell nicht angemessen ist Die Daten sind daher zu transformieren oder es ist ein nichtlineares Regressionsmodell zu wählen Das dritte Streudiagramm (c) zeigt mit den geschätzten Werten ansteigende Varianzen der Residuen Streuungsungleichheit kann gegebenenfalls durch Anwendung einer Schätzmethode für ungleiche Varianzen beseitigt werden Wenzel Matiaske 61 Next Prev Full

62 Nicht-Linearität kann durch ggf durch Transformation der Prädiktoren (z b Quadrierung) gelöst werden Interaktivität (Nichtadditivität, z B Alkohol und Schmerzmittelkonsum als Prädiktoren der Fahrtüchtigkeit) kann durch Schätzung des Produktes der Prädiktoren gelöst werden Zur Vermeidung von Multikollinearität sollten die bivariaten Korrelation der Prädiktoren geprüft werden Bei Heteroskedastizität wird häufig auf alternative Schätzmethoden zurückgegriffen Bei der WLS-Methode (Weighted Least Squares) werden die Varianzen der Residuen bei den zu minimierenden Abständen von der Regressionsgeraden berücksichtigt: n 1 i=1 σ1 2 (y i b 0 b 1 x i ) 2 min! (35) Autokorrelation lässt sich im Streudiagrammen nur schwer erkennen (analytisch z B Durbin-Watson-Test) Autokorrelation läßt sich oft schon durch andere Spezifizierung des Regressionsmodells beheben, indem die Variablen zusätzlich in die Regressionsgleichung aufgenommen werden, die die Autokorrelation bewirken Ferner kann auf alternative Schätzverfahren zurückgegriffen werden Die Annahme normalverteilter y-werte bzw Residuen ist zur Durchführung der Signifikanztests notwendig Bei großen Stichproben ist diese Annahme unproblematisch Wenzel Matiaske 62 Next Prev Full

63 Übungsaufgaben 16 Verwenden Sie den Übungsdatensatz ( sazhsrdat ) und berechnen Sie die bivariaten Modelle: saz = b 0 + b 1 esr saz = b 0 + b 1 tsr saz = b 0 + b 1 fsr Vergleichen Sie die Koeffizienten mit den Korrelationen zwischen der Zielvariablen und den Prädiktoren 17 Bestimmen Sie das multiple Modell saz = b 0 + b 1 esr + b 2 fsr + b 3 tsr Interpretieren sie die Koeffizienten Hinweise: Für Benutzer des Programmpaketes R: sazhsr <- readtable("sazhsrdat", header=t) attach(sazhsr) c <- cor(sazhsr, use="completeobs") ### wg fehlender Werte m1 <- lm(saz ~ esr) m2 <- lm(saz ~ esr + tsr + fsr) summary(m1) summary(m2) par(mfcol=c(2,2)) plot(m2) ### 2 x 2 Plots auf einem Blatt ### Graphiken zur Residuenanalyse Verbinden! Literaturhinweise: Matiaske (1996), Everitt/Dunn (1991) Wenzel Matiaske 63 Next Prev Full

Klausur zur Vorlesung Multivariate Verfahren, SS 2006 6 Kreditpunkte, 90 min

Klausur zur Vorlesung Multivariate Verfahren, SS 2006 6 Kreditpunkte, 90 min Klausur, Multivariate Verfahren, SS 2006, 6 Kreditpunkte, 90 min 1 Prof. Dr. Fred Böker 08.08.2006 Klausur zur Vorlesung Multivariate Verfahren, SS 2006 6 Kreditpunkte, 90 min Gesamtpunkte: 39 Aufgabe

Mehr

Korrelation - Regression. Berghold, IMI

Korrelation - Regression. Berghold, IMI Korrelation - Regression Zusammenhang zwischen Variablen Bivariate Datenanalyse - Zusammenhang zwischen 2 stetigen Variablen Korrelation Einfaches lineares Regressionsmodell 1. Schritt: Erstellung eines

Mehr

Willkommen zur Vorlesung Statistik

Willkommen zur Vorlesung Statistik Willkommen zur Vorlesung Statistik Thema dieser Vorlesung: Varianzanalyse Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften Prof. Dr. Wolfgang

Mehr

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren)

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Multiple Regression 1 Was ist multiple lineare Regression? Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Annahme: Der Zusammenhang

Mehr

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50,7 50 51,5 51,7 48,8

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50,7 50 51,5 51,7 48,8 1. Aufgabe: Eine Reifenfirma hat für Winterreifen unterschiedliche Profile entwickelt. Bei jeweils gleicher Geschwindigkeit und auch sonst gleichen Bedingungen wurden die Bremswirkungen gemessen. Die gemessenen

Mehr

Hans-Friedrich Eckey SS 2004. Skript zur Lehrveranstaltung Multivariate Statistik

Hans-Friedrich Eckey SS 2004. Skript zur Lehrveranstaltung Multivariate Statistik Hans-Friedrich Eckey SS 2004 Skript zur Lehrveranstaltung Multivariate Statistik Vormerkungen I Vorbemerkungen Das Manuskript beinhaltet den gesamten Stoff, der Bestandteil der Lehrveranstaltung "Multivariate

Mehr

Überblick über die Verfahren für Ordinaldaten

Überblick über die Verfahren für Ordinaldaten Verfahren zur Analyse ordinalskalierten Daten 1 Überblick über die Verfahren für Ordinaldaten Unterschiede bei unabhängigen Stichproben Test U Test nach Mann & Whitney H Test nach Kruskal & Wallis parametrische

Mehr

Fortgeschrittene Statistik Logistische Regression

Fortgeschrittene Statistik Logistische Regression Fortgeschrittene Statistik Logistische Regression O D D S, O D D S - R A T I O, L O G I T T R A N S F O R M A T I O N, I N T E R P R E T A T I O N V O N K O E F F I Z I E N T E N, L O G I S T I S C H E

Mehr

ERGÄNZUNGEN ZUR ANALYSIS II MITTELWERTSATZ UND ANWENDUNGEN

ERGÄNZUNGEN ZUR ANALYSIS II MITTELWERTSATZ UND ANWENDUNGEN ERGÄNZUNGEN ZUR ANALYSIS II MITTELWERTSATZ UND ANWENDUNGEN CHRISTIAN HARTFELDT. Zweiter Mittelwertsatz Der Mittelwertsatz Satz VI.3.4) lässt sich verallgemeinern zu Satz.. Seien f, g : [a, b] R auf [a,

Mehr

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis Unterrichtsmaterialien in digitaler und in gedruckter Form Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis Das komplette Material finden Sie hier: Download bei School-Scout.de

Mehr

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen 4. Datenanalyse und Modellbildung Deskriptive Statistik 2-1 2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen Für die Auswertung einer Messreihe, die in Form

Mehr

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren Lineargleichungssysteme: Additions-/ Subtraktionsverfahren W. Kippels 22. Februar 2014 Inhaltsverzeichnis 1 Einleitung 2 2 Lineargleichungssysteme zweiten Grades 2 3 Lineargleichungssysteme höheren als

Mehr

Das Dialogfeld für die Regressionsanalyse ("Lineare Regression") findet sich im Statistik- Menu unter "Regression"-"Linear":

Das Dialogfeld für die Regressionsanalyse (Lineare Regression) findet sich im Statistik- Menu unter Regression-Linear: Lineare Regression Das Dialogfeld für die Regressionsanalyse ("Lineare Regression") findet sich im Statistik- Menu unter "Regression"-"Linear": Im einfachsten Fall werden mehrere Prädiktoren (oder nur

Mehr

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage:

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage: Zählen und Zahlbereiche Übungsblatt 1 1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage: Für alle m, n N gilt m + n = n + m. in den Satz umschreiben:

Mehr

Zusammenhänge zwischen metrischen Merkmalen

Zusammenhänge zwischen metrischen Merkmalen Zusammenhänge zwischen metrischen Merkmalen Darstellung des Zusammenhangs, Korrelation und Regression Daten liegen zu zwei metrischen Merkmalen vor: Datenpaare (x i, y i ), i = 1,..., n Beispiel: x: Anzahl

Mehr

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 1 Einführung in die statistische Datenanalyse Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 2 Gliederung 1.Grundlagen 2.Nicht-parametrische Tests a. Mann-Whitney-Wilcoxon-U Test b. Wilcoxon-Signed-Rank

Mehr

50. Mathematik-Olympiade 2. Stufe (Regionalrunde) Klasse 11 13. 501322 Lösung 10 Punkte

50. Mathematik-Olympiade 2. Stufe (Regionalrunde) Klasse 11 13. 501322 Lösung 10 Punkte 50. Mathematik-Olympiade. Stufe (Regionalrunde) Klasse 3 Lösungen c 00 Aufgabenausschuss des Mathematik-Olympiaden e.v. www.mathematik-olympiaden.de. Alle Rechte vorbehalten. 503 Lösung 0 Punkte Es seien

Mehr

Zeichen bei Zahlen entschlüsseln

Zeichen bei Zahlen entschlüsseln Zeichen bei Zahlen entschlüsseln In diesem Kapitel... Verwendung des Zahlenstrahls Absolut richtige Bestimmung von absoluten Werten Operationen bei Zahlen mit Vorzeichen: Addieren, Subtrahieren, Multiplizieren

Mehr

Inhaltsverzeichnis. Regressionsanalyse. http://mesosworld.ch - Stand vom: 20.1.2010 1

Inhaltsverzeichnis. Regressionsanalyse. http://mesosworld.ch - Stand vom: 20.1.2010 1 Inhaltsverzeichnis Regressionsanalyse... 2 Lernhinweise... 2 Einführung... 2 Theorie (1-8)... 2 1. Allgemeine Beziehungen... 3 2. 'Best Fit'... 3 3. 'Ordinary Least Squares'... 4 4. Formel der Regressionskoeffizienten...

Mehr

Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression

Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression Speziell im Zusammenhang mit der Ablehnung der Globalhypothese werden bei einer linearen Einfachregression weitere Fragestellungen

Mehr

Auswertung mit dem Statistikprogramm SPSS: 30.11.05

Auswertung mit dem Statistikprogramm SPSS: 30.11.05 Auswertung mit dem Statistikprogramm SPSS: 30.11.05 Seite 1 Einführung SPSS Was ist eine Fragestellung? Beispiel Welche statistische Prozedur gehört zu welcher Hypothese? Statistische Berechnungen mit

Mehr

Name (in Druckbuchstaben): Matrikelnummer: Unterschrift:

Name (in Druckbuchstaben): Matrikelnummer: Unterschrift: 20-minütige Klausur zur Vorlesung Lineare Modelle im Sommersemester 20 PD Dr. Christian Heumann Ludwig-Maximilians-Universität München, Institut für Statistik 2. Oktober 20, 4:5 6:5 Uhr Überprüfen Sie

Mehr

Primzahlen und RSA-Verschlüsselung

Primzahlen und RSA-Verschlüsselung Primzahlen und RSA-Verschlüsselung Michael Fütterer und Jonathan Zachhuber 1 Einiges zu Primzahlen Ein paar Definitionen: Wir bezeichnen mit Z die Menge der positiven und negativen ganzen Zahlen, also

Mehr

einfache Rendite 0 145 85 1 160 90 2 135 100 3 165 105 4 190 95 5 210 110

einfache Rendite 0 145 85 1 160 90 2 135 100 3 165 105 4 190 95 5 210 110 Übungsbeispiele 1/6 1) Vervollständigen Sie folgende Tabelle: Nr. Aktie A Aktie B Schlusskurs in Schlusskurs in 0 145 85 1 160 90 2 135 100 3 165 105 4 190 95 5 210 110 Arithmetisches Mittel Standardabweichung

Mehr

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft Prof. Dr. Helmut Küchenhoff SS08 90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft am 22.7.2008 Anmerkungen Überprüfen Sie bitte sofort, ob Ihre Angabe vollständig ist. Sie sollte

Mehr

Lineare Differentialgleichungen erster Ordnung erkennen

Lineare Differentialgleichungen erster Ordnung erkennen Lineare Differentialgleichungen erster Ordnung In diesem Kapitel... Erkennen, wie Differentialgleichungen erster Ordnung aussehen en für Differentialgleichungen erster Ordnung und ohne -Terme finden Die

Mehr

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über Güte von s Grundlegendes zum Konzept der Güte Ableitung der Gütefunktion des Gauss im Einstichprobenproblem Grafische Darstellung der Gütefunktionen des Gauss im Einstichprobenproblem Ableitung der Gütefunktion

Mehr

Prof. Dr. Gabriele Helga Franke TESTTHEORIE UND TESTKONSTRUKTION

Prof. Dr. Gabriele Helga Franke TESTTHEORIE UND TESTKONSTRUKTION Prof. Dr. Gabriele Helga Franke TESTTHEORIE UND TESTKONSTRUKTION 2. FS Master Rehabilitationspsychologie, SoSe 2012 Faktorenanalyse/ faktorielle Validität 2 Einleitung Allgemeines zu Faktorenanalysen (FA)

Mehr

METHODENLEHRE I WS 2013/14 THOMAS SCHÄFER

METHODENLEHRE I WS 2013/14 THOMAS SCHÄFER METHODENLEHRE I WS 2013/14 THOMAS SCHÄFER DAS THEMA: INFERENZSTATISTIK IV INFERENZSTATISTISCHE AUSSAGEN FÜR ZUSAMMENHÄNGE UND UNTERSCHIEDE Inferenzstatistik für Zusammenhänge Inferenzstatistik für Unterschiede

Mehr

Welche Lagen können zwei Geraden (im Raum) zueinander haben? Welche Lagen kann eine Gerade bezüglich einer Ebene im Raum einnehmen?

Welche Lagen können zwei Geraden (im Raum) zueinander haben? Welche Lagen kann eine Gerade bezüglich einer Ebene im Raum einnehmen? Welche Lagen können zwei Geraden (im Raum) zueinander haben? Welche Lagen können zwei Ebenen (im Raum) zueinander haben? Welche Lagen kann eine Gerade bezüglich einer Ebene im Raum einnehmen? Wie heiÿt

Mehr

Einfache statistische Auswertungen mit dem Programm SPSS

Einfache statistische Auswertungen mit dem Programm SPSS Einfache statistische Auswertungen mit dem Programm SPSS Datensatz: fiktive_daten.sav Dipl. Päd. Anne Haßelkus Dr. Dorothea Dette-Hagenmeyer 11/2011 Überblick 1 Deskriptive Statistiken; Mittelwert berechnen...

Mehr

Clustering Seminar für Statistik

Clustering Seminar für Statistik Clustering Markus Kalisch 03.12.2014 1 Ziel von Clustering Finde Gruppen, sodas Elemente innerhalb der gleichen Gruppe möglichst ähnlich sind und Elemente von verschiedenen Gruppen möglichst verschieden

Mehr

Universität Bonn 28. Juli 2010 Fachbereich Rechts- und Wirtschaftswissenschaften Statistische Abteilung Prof. Dr. A. Kneip. KLAUSUR Statistik B

Universität Bonn 28. Juli 2010 Fachbereich Rechts- und Wirtschaftswissenschaften Statistische Abteilung Prof. Dr. A. Kneip. KLAUSUR Statistik B Universität Bonn 28. Juli 2010 Fachbereich Rechts- und Wirtschaftswissenschaften Statistische Abteilung Prof. Dr. A. Kneip Sommersemester 2010 KLAUSUR Statistik B Hinweise zur Bearbeitung: Bei allen Teilaufgaben

Mehr

Statistische Auswertung:

Statistische Auswertung: Statistische Auswertung: Die erhobenen Daten mittels der selbst erstellten Tests (Surfaufgaben) Statistics Punkte aus dem Punkte aus Surftheorietest Punkte aus dem dem und dem Surftheorietest max.14p.

Mehr

3.3 Eigenwerte und Eigenräume, Diagonalisierung

3.3 Eigenwerte und Eigenräume, Diagonalisierung 3.3 Eigenwerte und Eigenräume, Diagonalisierung Definition und Lemma 3.3.1. Sei V ein K-Vektorraum, φ End K (V ), λ K. Wir defnieren den zu λ gehörigen Eigenraum von φ als Dies ist ein Unterraum von V.

Mehr

Quantitative Methoden der Bildungsforschung

Quantitative Methoden der Bildungsforschung Glieung Wieholung Korrelationen Grundlagen lineare Regression Lineare Regression in SPSS Übung Wieholung Korrelationen Standardisiertes Zusammenhangsmaß (unstandardisiert: Kovarianz) linearer Zusammenhang

Mehr

Professionelle Seminare im Bereich MS-Office

Professionelle Seminare im Bereich MS-Office Der Name BEREICH.VERSCHIEBEN() ist etwas unglücklich gewählt. Man kann mit der Funktion Bereiche zwar verschieben, man kann Bereiche aber auch verkleinern oder vergrößern. Besser wäre es, die Funktion

Mehr

Auswerten mit Excel. Viele Video-Tutorials auf Youtube z.b. http://www.youtube.com/watch?v=vuuky6xxjro

Auswerten mit Excel. Viele Video-Tutorials auf Youtube z.b. http://www.youtube.com/watch?v=vuuky6xxjro Auswerten mit Excel Viele Video-Tutorials auf Youtube z.b. http://www.youtube.com/watch?v=vuuky6xxjro 1. Pivot-Tabellen erstellen: In der Datenmaske in eine beliebige Zelle klicken Registerkarte Einfügen

Mehr

Lineare Gleichungssysteme

Lineare Gleichungssysteme Lineare Gleichungssysteme 1 Zwei Gleichungen mit zwei Unbekannten Es kommt häufig vor, dass man nicht mit einer Variablen alleine auskommt, um ein Problem zu lösen. Das folgende Beispiel soll dies verdeutlichen

Mehr

Rekursionen. Georg Anegg 25. November 2009. Methoden und Techniken an Beispielen erklärt

Rekursionen. Georg Anegg 25. November 2009. Methoden und Techniken an Beispielen erklärt Methoden und Techniken an Beispielen erklärt Georg Anegg 5. November 009 Beispiel. Die Folge {a n } sei wie folgt definiert (a, d, q R, q ): a 0 a, a n+ a n q + d (n 0) Man bestimme eine explizite Darstellung

Mehr

Angewandte Ökonometrie, WS 2012/13, 1. Teilprüfung am 6.12.2012 - Lösungen. Das folgende Modell ist ein GARCH(1,1)-Modell:

Angewandte Ökonometrie, WS 2012/13, 1. Teilprüfung am 6.12.2012 - Lösungen. Das folgende Modell ist ein GARCH(1,1)-Modell: Angewandte Ökonometrie, WS 2012/13, 1. Teilprüfung am 6.12.2012 - Lösungen LV-Leiterin: Univ.Prof.Dr. Sylvia Frühwirth-Schnatter 1 Wahr oder falsch? 1. Das folgende Modell ist ein GARCH(1,1)-Modell: Y

Mehr

Konzepte der Informatik

Konzepte der Informatik Konzepte der Informatik Vorkurs Informatik zum WS 2011/2012 26.09. - 30.09.2011 17.10. - 21.10.2011 Dr. Werner Struckmann / Christoph Peltz Stark angelehnt an Kapitel 1 aus "Abenteuer Informatik" von Jens

Mehr

Standardisierung von Daten Darstellung von Daten in Texten, Tabellen und Abbildungen. Standardisierung von Daten

Standardisierung von Daten Darstellung von Daten in Texten, Tabellen und Abbildungen. Standardisierung von Daten DAS THEMA: TABELLEN UND ABBILDUNGEN Standardisierung von Daten Darstellung von Daten in Texten, Tabellen und Abbildungen Standardisierung von Daten z-standardisierung Standardnormalverteilung 1 DIE Z-STANDARDISIERUNG

Mehr

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. Excel Edition. ^ Springer Spektrum

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. Excel Edition. ^ Springer Spektrum Franz Kronthaler Statistik angewandt Datenanalyse ist (k)eine Kunst Excel Edition ^ Springer Spektrum Inhaltsverzeichnis Teil I Basiswissen und Werkzeuge, um Statistik anzuwenden 1 Statistik ist Spaß 3

Mehr

OECD Programme for International Student Assessment PISA 2000. Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland

OECD Programme for International Student Assessment PISA 2000. Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland OECD Programme for International Student Assessment Deutschland PISA 2000 Lösungen der Beispielaufgaben aus dem Mathematiktest Beispielaufgaben PISA-Hauptstudie 2000 Seite 3 UNIT ÄPFEL Beispielaufgaben

Mehr

Hauptseminar am Fachgebiet für Quantitative Methoden der Wirtschaftswissenschaften

Hauptseminar am Fachgebiet für Quantitative Methoden der Wirtschaftswissenschaften Hauptseminar am Fachgebiet für Quantitative Methoden der Wirtschaftswissenschaften Fehlende Daten in der Multivariaten Statistik SS 2011 Allgemeines Das Seminar richtet sich in erster Linie an Studierende

Mehr

Faktorenanalyse. 1. Grundlegende Verfahren. Bacher, SoSe2007

Faktorenanalyse. 1. Grundlegende Verfahren. Bacher, SoSe2007 Faktorenanalyse Bacher, SoSe2007 1. Grundlegende Verfahren explorative FA (EXFA): Für eine Menge von Variablen/Items werden zugrunde liegende gemeinsame (latente) Dimensionen/Faktoren gesucht, die Faktorstruktur

Mehr

Korrelation. Übungsbeispiel 1. Übungsbeispiel 4. Übungsbeispiel 2. Übungsbeispiel 3. Korrel.dtp Seite 1

Korrelation. Übungsbeispiel 1. Übungsbeispiel 4. Übungsbeispiel 2. Übungsbeispiel 3. Korrel.dtp Seite 1 Korrelation Die Korrelationsanalyse zeigt Zusammenhänge auf und macht Vorhersagen möglich Was ist Korrelation? Was sagt die Korrelationszahl aus? Wie geht man vor? Korrelation ist eine eindeutige Beziehung

Mehr

9. Schätzen und Testen bei unbekannter Varianz

9. Schätzen und Testen bei unbekannter Varianz 9. Schätzen und Testen bei unbekannter Varianz Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Schätzen und Testen bei unbekannter Varianz Wenn wir die Standardabweichung σ nicht kennen,

Mehr

Das große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten

Das große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten Das große x -4 Alles über das Wer kann beantragen? Generell kann jeder beantragen! Eltern (Mütter UND Väter), die schon während ihrer Elternzeit wieder in Teilzeit arbeiten möchten. Eltern, die während

Mehr

Multivariate Statistik

Multivariate Statistik Hermann Singer Multivariate Statistik 1 Auflage 15 Oktober 2012 Seite: 12 KAPITEL 1 FALLSTUDIEN Abbildung 12: Logistische Regression: Geschätzte Wahrscheinlichkeit für schlechte und gute Kredite (rot/blau)

Mehr

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1 LÖSUNG 9B a) Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1 Man kann erwarten, dass der Absatz mit steigendem Preis abnimmt, mit höherer Anzahl der Außendienstmitarbeiter sowie mit erhöhten

Mehr

Abiturprüfung Mathematik 2008 (Baden-Württemberg) Berufliche Gymnasien ohne TG Analysis, Aufgabe 1

Abiturprüfung Mathematik 2008 (Baden-Württemberg) Berufliche Gymnasien ohne TG Analysis, Aufgabe 1 Abiturprüfung Mathematik (Baden-Württemberg) Berufliche Gymnasien ohne TG Analysis, Aufgabe Für jedes t f t () + t R ist die Funktion f t gegeben durch = mit R. Das Schaubild von f t heißt K t.. (6 Punkte)

Mehr

6.2 Scan-Konvertierung (Scan Conversion)

6.2 Scan-Konvertierung (Scan Conversion) 6.2 Scan-Konvertierung (Scan Conversion) Scan-Konvertierung ist die Rasterung von einfachen Objekten (Geraden, Kreisen, Kurven). Als Ausgabemedium dient meist der Bildschirm, der aus einem Pixelraster

Mehr

Musterlösung zu Serie 14

Musterlösung zu Serie 14 Dr. Lukas Meier Statistik und Wahrscheinlichkeitsrechnung FS 21 Musterlösung zu Serie 14 1. Der Datensatz von Forbes zeigt Messungen von Siedepunkt (in F) und Luftdruck (in inches of mercury) an verschiedenen

Mehr

Musterlösungen zur Linearen Algebra II Blatt 5

Musterlösungen zur Linearen Algebra II Blatt 5 Musterlösungen zur Linearen Algebra II Blatt 5 Aufgabe. Man betrachte die Matrix A := über dem Körper R und über dem Körper F und bestimme jeweils die Jordan- Normalform. Beweis. Das charakteristische

Mehr

Pfadanalyse. 1. Grundlegende Verfahren. Bacher, SoSe2007

Pfadanalyse. 1. Grundlegende Verfahren. Bacher, SoSe2007 Pfadanalyse Bacher, SoSe2007 1. Grundlegende Verfahren Explorative Pfadanalyse: Kausale Beziehungen zwischen Variablen werden aufgedeckt, erforderlich ist eine kausale Anordnung der Variablen. Konfirmatorische

Mehr

Die Übereckperspektive mit zwei Fluchtpunkten

Die Übereckperspektive mit zwei Fluchtpunkten Perspektive Perspektive mit zwei Fluchtpunkten (S. 1 von 8) / www.kunstbrowser.de Die Übereckperspektive mit zwei Fluchtpunkten Bei dieser Perspektivart wird der rechtwinklige Körper so auf die Grundebene

Mehr

4. Erstellen von Klassen

4. Erstellen von Klassen Statistik mit Tabellenkalkulation 4. Erstellen von Klassen Mit einem einfachen Befehl lässt sich eine Liste von Zahlen auf die Häufigkeit der einzelnen Werte untersuchen. Verwenden Sie dazu den Befehl

Mehr

Austausch- bzw. Übergangsprozesse und Gleichgewichtsverteilungen

Austausch- bzw. Übergangsprozesse und Gleichgewichtsverteilungen Austausch- bzw. Übergangsrozesse und Gleichgewichtsverteilungen Wir betrachten ein System mit verschiedenen Zuständen, zwischen denen ein Austausch stattfinden kann. Etwa soziale Schichten in einer Gesellschaft:

Mehr

Monte-Carlo-Simulationen mit Copulas. Kevin Schellkes und Christian Hendricks 29.08.2011

Monte-Carlo-Simulationen mit Copulas. Kevin Schellkes und Christian Hendricks 29.08.2011 Kevin Schellkes und Christian Hendricks 29.08.2011 Inhalt Der herkömmliche Ansatz zur Simulation logarithmischer Renditen Ansatz zur Simulation mit Copulas Test und Vergleich der beiden Verfahren Fazit

Mehr

Einführung in statistische Analysen

Einführung in statistische Analysen Einführung in statistische Analysen Andreas Thams Econ Boot Camp 2008 Wozu braucht man Statistik? Statistik begegnet uns jeden Tag... Weihnachten macht Deutschen Einkaufslaune. Im Advent überkommt die

Mehr

Willkommen zur Vorlesung Statistik (Master)

Willkommen zur Vorlesung Statistik (Master) Willkommen zur Vorlesung Statistik (Master) Thema dieser Vorlesung: Verteilungsfreie Verfahren Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften

Mehr

W-Rechnung und Statistik für Ingenieure Übung 11

W-Rechnung und Statistik für Ingenieure Übung 11 W-Rechnung und Statistik für Ingenieure Übung 11 Christoph Kustosz (kustosz@statistik.tu-dortmund.de) Mathematikgebäude Raum 715 Christoph Kustosz (kustosz@statistik.tu-dortmund.de) W-Rechnung und Statistik

Mehr

Webergänzung zu Kapitel 10

Webergänzung zu Kapitel 10 Webergänzung zu Kapitel 10 10.1.4 Varianzanalyse (ANOVA: analysis of variance) Im Kapitel 10 haben wir uns hauptsächlich mit Forschungsbeispielen beschäftigt, die nur zwei Ergebnissätze hatten (entweder

Mehr

Einfache Varianzanalyse für abhängige

Einfache Varianzanalyse für abhängige Einfache Varianzanalyse für abhängige Stichproben Wie beim t-test gibt es auch bei der VA eine Alternative für abhängige Stichproben. Anmerkung: Was man unter abhängigen Stichproben versteht und wie diese

Mehr

H. Gruber, R. Neumann. Erfolg im Mathe-Abi. Übungsbuch für die optimale Vorbereitung in Analysis, Geometrie und Stochastik mit verständlichen Lösungen

H. Gruber, R. Neumann. Erfolg im Mathe-Abi. Übungsbuch für die optimale Vorbereitung in Analysis, Geometrie und Stochastik mit verständlichen Lösungen H. Gruber, R. Neumann Erfolg im Mathe-Abi Übungsbuch für die optimale Vorbereitung in Analysis, Geometrie und Stochastik mit verständlichen Lösungen Inhaltsverzeichnis Inhaltsverzeichnis Analysis Von der

Mehr

Anhand des bereits hergeleiteten Models erstellen wir nun mit der Formel

Anhand des bereits hergeleiteten Models erstellen wir nun mit der Formel Ausarbeitung zum Proseminar Finanzmathematische Modelle und Simulationen bei Raphael Kruse und Prof. Dr. Wolf-Jürgen Beyn zum Thema Simulation des Anlagenpreismodels von Simon Uphus im WS 09/10 Zusammenfassung

Mehr

Theoretische Grundlagen der Informatik WS 09/10

Theoretische Grundlagen der Informatik WS 09/10 Theoretische Grundlagen der Informatik WS 09/10 - Tutorium 6 - Michael Kirsten und Kai Wallisch Sitzung 13 02.02.2010 Inhaltsverzeichnis 1 Formeln zur Berechnung Aufgabe 1 2 Hamming-Distanz Aufgabe 2 3

Mehr

Lineare Funktionen. 1 Proportionale Funktionen 3 1.1 Definition... 3 1.2 Eigenschaften... 3. 2 Steigungsdreieck 3

Lineare Funktionen. 1 Proportionale Funktionen 3 1.1 Definition... 3 1.2 Eigenschaften... 3. 2 Steigungsdreieck 3 Lineare Funktionen Inhaltsverzeichnis 1 Proportionale Funktionen 3 1.1 Definition............................... 3 1.2 Eigenschaften............................. 3 2 Steigungsdreieck 3 3 Lineare Funktionen

Mehr

Modul G.1 WS 07/08: Statistik 17.01.2008 1. Die Korrelation ist ein standardisiertes Maß für den linearen Zusammenhangzwischen zwei Variablen.

Modul G.1 WS 07/08: Statistik 17.01.2008 1. Die Korrelation ist ein standardisiertes Maß für den linearen Zusammenhangzwischen zwei Variablen. Modul G.1 WS 07/08: Statistik 17.01.2008 1 Wiederholung Kovarianz und Korrelation Kovarianz = Maß für den linearen Zusammenhang zwischen zwei Variablen x und y Korrelation Die Korrelation ist ein standardisiertes

Mehr

Plotten von Linien ( nach Jack Bresenham, 1962 )

Plotten von Linien ( nach Jack Bresenham, 1962 ) Plotten von Linien ( nach Jack Bresenham, 1962 ) Ac Eine auf dem Bildschirm darzustellende Linie sieht treppenförmig aus, weil der Computer Linien aus einzelnen (meist quadratischen) Bildpunkten, Pixels

Mehr

Grundlagen der Datenanalyse am Beispiel von SPSS

Grundlagen der Datenanalyse am Beispiel von SPSS Grundlagen der Datenanalyse am Beispiel von SPSS Einführung Dipl. - Psych. Fabian Hölzenbein hoelzenbein@psychologie.uni-freiburg.de Einführung Organisatorisches Was ist Empirie? Was ist Statistik? Dateneingabe

Mehr

1. Allgemeine Hinweise Alexander.Martin.Koenig@TU-Clausthal.de

1. Allgemeine Hinweise Alexander.Martin.Koenig@TU-Clausthal.de 1. Allgemeine Hinweise Alexander.Martin.Koenig@TU-Clausthal.de Man sollte eine Excel-Tabelle immer so übersichtlich wie möglich halten. Dazu empfiehlt es sich, alle benötigten Daten, Konstanten und Messwerte

Mehr

Grundlagen der Inferenzstatistik

Grundlagen der Inferenzstatistik Grundlagen der Inferenzstatistik (Induktive Statistik oder schließende Statistik) Dr. Winfried Zinn 1 Deskriptive Statistik versus Inferenzstatistik Die Deskriptive Statistik stellt Kenngrößen zur Verfügung,

Mehr

Lineare Gleichungssysteme

Lineare Gleichungssysteme Brückenkurs Mathematik TU Dresden 2015 Lineare Gleichungssysteme Schwerpunkte: Modellbildung geometrische Interpretation Lösungsmethoden Prof. Dr. F. Schuricht TU Dresden, Fachbereich Mathematik auf der

Mehr

Binäre abhängige Variablen

Binäre abhängige Variablen Binäre abhängige Variablen Thushyanthan Baskaran thushyanthan.baskaran@awi.uni-heidelberg.de Alfred Weber Institut Ruprecht Karls Universität Heidelberg Einführung Oft wollen wir qualitative Variablen

Mehr

Behörde für Bildung und Sport Abitur 2008 Lehrermaterialien zum Leistungskurs Mathematik

Behörde für Bildung und Sport Abitur 2008 Lehrermaterialien zum Leistungskurs Mathematik Abitur 8 II. Insektenpopulation LA/AG In den Tropen legen die Weibchen einer in Deutschland unbekannten Insektenpopulation jedes Jahr kurz vor Beginn der Regenzeit jeweils 9 Eier und sterben bald darauf.

Mehr

Anwendungshinweise zur Anwendung der Soziometrie

Anwendungshinweise zur Anwendung der Soziometrie Anwendungshinweise zur Anwendung der Soziometrie Einführung Die Soziometrie ist ein Verfahren, welches sich besonders gut dafür eignet, Beziehungen zwischen Mitgliedern einer Gruppe darzustellen. Das Verfahren

Mehr

3. LINEARE GLEICHUNGSSYSTEME

3. LINEARE GLEICHUNGSSYSTEME 176 3. LINEARE GLEICHUNGSSYSTEME 90 Vitamin-C-Gehalt verschiedener Säfte 18,0 mg 35,0 mg 12,5 mg 1. a) 100 ml + 50 ml + 50 ml = 41,75 mg 100 ml 100 ml 100 ml b) : Menge an Kirschsaft in ml y: Menge an

Mehr

Klausur zu Methoden der Statistik I (mit Kurzlösung) Wintersemester 2007/2008. Aufgabe 1

Klausur zu Methoden der Statistik I (mit Kurzlösung) Wintersemester 2007/2008. Aufgabe 1 Lehrstuhl für Statistik und Ökonometrie der Otto-Friedrich-Universität Bamberg Prof. Dr. Susanne Rässler Klausur zu Methoden der Statistik I (mit Kurzlösung) Wintersemester 2007/2008 Aufgabe 1 Ihnen liegt

Mehr

4. Jeder Knoten hat höchstens zwei Kinder, ein linkes und ein rechtes.

4. Jeder Knoten hat höchstens zwei Kinder, ein linkes und ein rechtes. Binäre Bäume Definition: Ein binärer Baum T besteht aus einer Menge von Knoten, die durch eine Vater-Kind-Beziehung wie folgt strukturiert ist: 1. Es gibt genau einen hervorgehobenen Knoten r T, die Wurzel

Mehr

Stichprobenauslegung. für stetige und binäre Datentypen

Stichprobenauslegung. für stetige und binäre Datentypen Stichprobenauslegung für stetige und binäre Datentypen Roadmap zu Stichproben Hypothese über das interessierende Merkmal aufstellen Stichprobe entnehmen Beobachtete Messwerte abbilden Schluss von der Beobachtung

Mehr

Versuchsplanung. Inhalt. Grundlagen. Faktor-Effekt. Allgemeine faktorielle Versuchspläne. Zweiwertige faktorielle Versuchspläne

Versuchsplanung. Inhalt. Grundlagen. Faktor-Effekt. Allgemeine faktorielle Versuchspläne. Zweiwertige faktorielle Versuchspläne Inhalt Versuchsplanung Faktorielle Versuchspläne Dr. Tobias Kiesling Allgemeine faktorielle Versuchspläne Faktorielle Versuchspläne mit zwei Faktoren Erweiterungen Zweiwertige

Mehr

In konstanten Modellen wird davon ausgegangen, dass die zu prognostizierende Größe sich über die Zeit hinweg nicht verändert.

In konstanten Modellen wird davon ausgegangen, dass die zu prognostizierende Größe sich über die Zeit hinweg nicht verändert. Konstante Modelle: In konstanten Modellen wird davon ausgegangen, dass die zu prognostizierende Größe sich über die Zeit hinweg nicht verändert. Der prognostizierte Wert für die Periode T+i entspricht

Mehr

Formelsammlung zur Kreisgleichung

Formelsammlung zur Kreisgleichung zur Kreisgleichung Julia Wolters 6. Oktober 2008 Inhaltsverzeichnis 1 Allgemeine Kreisgleichung 2 1.1 Berechnung des Mittelpunktes und Radius am Beispiel..... 3 2 Kreis und Gerade 4 2.1 Sekanten, Tangenten,

Mehr

Die Näherung durch die Sekante durch die Punkte A und C ist schlechter, da der Punkt C weiter von A entfernt liegt.

Die Näherung durch die Sekante durch die Punkte A und C ist schlechter, da der Punkt C weiter von A entfernt liegt. LÖSUNGEN TEIL 1 Arbeitszeit: 50 min Gegeben ist die Funktion f mit der Gleichung. Begründen Sie, warum die Steigung der Sekante durch die Punkte A(0 2) und C(3 11) eine weniger gute Näherung für die Tangentensteigung

Mehr

Data Mining: Einige Grundlagen aus der Stochastik

Data Mining: Einige Grundlagen aus der Stochastik Data Mining: Einige Grundlagen aus der Stochastik Hagen Knaf Studiengang Angewandte Mathematik Hochschule RheinMain 21. Oktober 2015 Vorwort Das vorliegende Skript enthält eine Zusammenfassung verschiedener

Mehr

Statistische Thermodynamik I Lösungen zur Serie 1

Statistische Thermodynamik I Lösungen zur Serie 1 Statistische Thermodynamik I Lösungen zur Serie Zufallsvariablen, Wahrscheinlichkeitsverteilungen 4. März 2. Zwei Lektoren lesen ein Buch. Lektor A findet 2 Druckfehler, Lektor B nur 5. Von den gefundenen

Mehr

Dokumentation. estat Version 2.0

Dokumentation. estat Version 2.0 Dokumentation estat Version 2.0 Installation Die Datei estat.xla in beliebiges Verzeichnis speichern. Im Menü Extras AddIns... Durchsuchen die Datei estat.xla auswählen. Danach das Auswahlhäkchen beim

Mehr

Statistik II Wahrscheinlichkeitsrechnung und induktive Statistik Erste Klausur zum Sommersemester 2005 26. Juli 2005

Statistik II Wahrscheinlichkeitsrechnung und induktive Statistik Erste Klausur zum Sommersemester 2005 26. Juli 2005 Statistik II Wahrscheinlichkeitsrechnung und induktive Statistik Erste Klausur zum Sommersemester 2005 26. Juli 2005 Aufgabe 1: Grundzüge der Wahrscheinlichkeitsrechnung 19 P. Als Manager eines großen

Mehr

Verteilungsmodelle. Verteilungsfunktion und Dichte von T

Verteilungsmodelle. Verteilungsfunktion und Dichte von T Verteilungsmodelle Verteilungsfunktion und Dichte von T Survivalfunktion von T Hazardrate von T Beziehungen zwischen F(t), S(t), f(t) und h(t) Vorüberlegung zu Lebensdauerverteilungen Die Exponentialverteilung

Mehr

Einführung. Vorlesungen zur Komplexitätstheorie: Reduktion und Vollständigkeit (3) Vorlesungen zur Komplexitätstheorie. K-Vollständigkeit (1/5)

Einführung. Vorlesungen zur Komplexitätstheorie: Reduktion und Vollständigkeit (3) Vorlesungen zur Komplexitätstheorie. K-Vollständigkeit (1/5) Einführung 3 Vorlesungen zur Komplexitätstheorie: Reduktion und Vollständigkeit (3) Univ.-Prof. Dr. Christoph Meinel Hasso-Plattner-Institut Universität Potsdam, Deutschland Hatten den Reduktionsbegriff

Mehr

Aufgabe 1. Zunächst wird die allgemeine Tangentengleichung in Abhängigkeit von a aufgestellt:

Aufgabe 1. Zunächst wird die allgemeine Tangentengleichung in Abhängigkeit von a aufgestellt: Aufgabe 1 1.1. Bestimmung von D max : 1. Bedingung: x >0 ; da ln(x) nur für x > 0 definiert ist. 2. Bedingung: Somit ist die Funktion f a nur für x > 0 definiert und sie besitzt eine Definitionslücke an

Mehr

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen 7. Clusteranalyse (= Häufungsanalyse; Clustering-Verfahren) wird der multivariaten Statistik zugeordnet Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut,

Mehr

Lineare Gleichungssysteme I (Matrixgleichungen)

Lineare Gleichungssysteme I (Matrixgleichungen) Lineare Gleichungssysteme I (Matrigleichungen) Eine lineare Gleichung mit einer Variable hat bei Zahlen a, b, die Form a b. Falls hierbei der Kehrwert von a gebildet werden darf (a 0), kann eindeutig aufgelöst

Mehr

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Vollständigkeit halber aufgeführt. Gehen wir einmal davon aus, dass die von uns angenommenen 70% im Beispiel exakt berechnet sind. Was würde

Mehr

Nichtlineare Optimierung ohne Nebenbedingungen

Nichtlineare Optimierung ohne Nebenbedingungen Kapitel 2 Nichtlineare Optimierung ohne Nebenbedingungen In diesem Abschnitt sollen im wesentlichen Verfahren zur Bestimmung des Minimums von nichtglatten Funktionen in einer Variablen im Detail vorgestellt

Mehr