Kapitel 27 Distanz- und Ähnlichkeitsmaße

Größe: px
Ab Seite anzeigen:

Download "Kapitel 27 Distanz- und Ähnlichkeitsmaße"

Transkript

1 Kapitel 7 Distanz- und Ähnlichkeitsmaße 7.1 Einführung Sowohl Distanz- als auch Ähnlichkeitsmaße dienen dazu, die Ähnlichkeit verschiedener Fälle oder Variablen zu quantifizieren. Beide Maße untersuchen, wie nahe die Werte zweier Fälle oder Variablen beieinanderliegen. Eine starke Ähnlichkeit zweier Fälle oder Variablen kommt in großen Werten eines Ähnlichkeitsmaßes und in kleinen Werten eines Distanzmaßes zum Ausdruck. Distanzmaßen liegt damit im Vergleich zu Ähnlichkeitsmaßen die entgegengesetzte Perspektive zugrunde, da sie zunächst nicht versuchen, die Ähnlichkeit, sondern die Unähnlichkeit zweier Fälle oder Variablen zu quantifizieren. Aus diesem Grund werden Distanzmaße häufig auch als Unähnlichkeitsmaße bezeichnet. Es gibt mehrere statistische Prozeduren, in denen Distanz- und Ähnlichkeitsmaße verwendet werden, um eine größere Anzahl von Objekten (Fälle oder Variablen der Datendatei) derart in Gruppen zu unterteilen, daß innerhalb einer Gruppe Objekte mit besonders großer Ähnlichkeit zusammengefaßt werden, während sich die verschiedenen Gruppen möglichst deutlich voneinander unterscheiden. So wird zum Beispiel im folgenden Kapitel 8 eine Hierarchische Clusteranalyse durchgeführt, um die 15 Mitgliedsländer der Europäischen Union anhand der Kennzahlen, die im Vertrag von Maastricht als Kriterien für die Teilnahme an der Währungsunion formuliert wurden, derart in Gruppen aufzuteilen, daß innerhalb einer Gruppe Länder mit einer relativ hohen Konvergenz zusammengefaßt werden, während sich die Länder unterschiedlicher Gruppen in bezug auf die zugrunde gelegten Kriterien möglichst stark unterscheiden. Auch andere Verfahren wie die Faktorenanalyse oder die Multidimensionale Skalierung basieren wesentlich auf einem Vergleich von Objekten (Fällen oder Variablen) mit Hilfe von Distanz- und Ähnlichkeitsmaßen. Bei SPSS steht eine große Anzahl unterschiedlicher Distanz- und Ähnlichkeitsmaße zur Verfügung, von denen in konkreten Anwendungsfällen stets mehrere in Frage kommen. Viele der Maße sind also gegeneinander austauschbar, und häufig hängt es nur von den Vorlieben des Anwenders ab, für welches Maß er sich letztlich entscheidet. Allerdings ist zu beachten, daß nicht sämtliche Maße gegenein-

2 67 Kapitel 7 Distanz- und Ähnlichkeitsmaße ander ausgetauscht werden können. Vielmehr kommt in Abhängigkeit von der Skala, auf der die zu vergleichenden Daten gemessen werden, stets eine bestimmte Gruppe von Distanz- und Ähnlichkeitsmaßen in Betracht. Bei SPSS stehen spezielle Maße für intervallskalierte Daten, für Variablen mit Häufigkeitswerten und für binäre Daten (0/1-Variablen) zur Verfügung. In Abschnitt 7.3, Verschiedene Maße für unterschiedliche Datentypen, S. 675 wird der grundsätzliche Unterschied zwischen diesen drei Gruppen von Distanz- und Ähnlichkeitsmaßen erläutert, in den drei darauffolgenden Abschnitten 7.4 bis 7.6 werden die für die drei Datentypen jeweils zur Verfügung stehenden Maße im einzelnen dargestellt. Zunächst soll jedoch im folgenden Abschnitt anhand eines Beispiels die Berechnung und Interpretation von Distanz- und Ähnlichkeitsmaßen beschrieben werden. 7. Beispiel: Strukturdaten für die 15 EU-Länder Die Datendatei EU-Strukturdaten.sav enthält für die 15 Mitgliedstaaten der EU sieben Kennzahlen zur Beschreibung wirtschaftlicher und sozialer Umstände. Die Tabelle in Abbildung 7.1 nennt die Bedeutung der einzelnen Variablen dieser Datei. Variable Bedeutung land Name des Landes energie Pro-Kopf-Verbrauch an Energie [Energiegehalt von 1 Kg Kohle] lebenerw Lebenserwartung der Männer bei der Geburt [Jahre] ksterbl Kindersterblichkeit (pro lebend geborenen) bip Bruttoinlandsprodukt pro Kopf der Bevölkerung [$] telefone Hauptanschlüsse von Telefonen pro 0 Einwohner analphab Anteil der Analphabeten an der Bevölkerung zeitung Gesamtauflage aller Tageszeitungen pro Einwohner Abbildung 7.1: Bedeutung der Variablen aus der Datendatei EU-Strukturdaten.sav Im folgenden sollen die 15 EU-Länder anhand dieser sieben Kennzahlen miteinander verglichen werden. Hierzu lassen sich für alle Paare, die aus den 15 Ländern gebildet werden können, mit den folgenden Einstellungen Distanzwerte berechnen: ¾ Prozedur aufrufen: Die Prozedur zum Berechnen der Distanz- und Ähnlichkeitswerte wird aufgerufen mit dem Befehl STATISTIK KORRELATION DISTANZEN... ¾ Variablen: In dem Dialogfeld Distanzen werden die Variable land in dem Feld Fallbeschriftung und alle übrigen Variablen in dem Feld Variablen angegeben.

3 7. Beispiel: Strukturdaten für die 15 EU-Länder 673 ¾ Weitere Einstellungen: Bei den weiteren Optionen werden größtenteils die Voreinstellungen übernommen. Die einzige Änderung gegenüber den Voreinstellungen besteht darin, daß in dem Dialogfeld der Schaltfläche Maße in der Dropdown-Liste Standardisieren der Eintrag Z-Werte gewählt wird. Die unverändert übernommenen Voreinstellungen legen fest, daß Distanzen Zwischen den Fällen berechnet werden. Hierzu werden die Unähnlichkeiten nach dem Maß der Euklidischen Distanz berechnet. Die Dialogfelder in Abschnitt 7.7, Einstellungen zur Berechnung von Distanz- und Ähnlichkeitsmaßen, S. 687 zeigen die hier verwendeten Einstellungen. Abbildung 7. zeigt die Distanzmatrix, die mit diesen Angaben erstellt wurde. Die Matrix weist für jedes Länderpaar einen Distanzwert aus. So wird etwa die Distanz zwischen Deutschland (D) und Belgien (B) mit 0,9 beziffert, während für Deutschland und Portugal (P) ein Distanzwert von 6,1 ausgewiesen wird. Da die Tabelle Distanzwerte und nicht Ähnlichkeitswerte enthält (hierauf wird in der Fußnote unter der Tabelle noch einmal ausdrücklich hingewiesen), weisen hohe Werte auf eine relativ geringe Ähnlichkeit hin. Deutschland scheint somit, gemessen an den sieben zugrunde gelegten Kriterien, eine stärkere Ähnlichkeit zu Belgien als zu Portugal aufzuweisen. Anhand der Distanzmatrix lassen sich auf diese Weise unmittelbar Paare von Objekten (in diesem Fall von Ländern) identifizieren, zwischen denen, gemessen an den jeweils zugrundeliegenden Kriterien, eine relativ hohe Ähnlichkeit oder auch eine relativ hohe Unähnlichkeit besteht. 1:B :DK 3:D 4:FIN 5:F 6:EL 7:UK 8:IRL 9:I :L 11:NL 1:A 13:P 14:S 15:E Näherungsmatrix Euklidisches Distanzmaß 1:B :DK 3:D 4:FIN 5:F 6:EL 7:UK 8:IRL 9:I :L 11:NL 1:A 13:P 14:S 15:E,0,90, 1,65 4,39 1,39,14,59 3,03 1,48 1,49 5,99 3,51 3,,0 1,57,65 1,7 4,83,7 3,58 3,35 3,08,6 1,7 6,4 3,7 4,3,90 1,57,19 1,31 4,67 1,6,50,8 3,17 1,78 1,07 6,1 3,43 3,47,,65,19 3,00 5,74,48 3,74 4,48 3,0,99,6 7,03 3,31 4,84 1,65 1,7 1,31 3,00 3,97 1,8,64,3 3,36 1,66 1,63 5,80 3,56 3, 4,39 4,83 4,67 5,74 3,97 3,48 3,46,3 6,0 3,74 4,4 4,61 5,64,5 1,39,7 1,6,48 1,8 3,48,4,9 3,67 1,31 1,34 5,77 3,16,78,14 3,58,50 3,74,64 3,46,4 1,90 4,71,83,49 4,73 5,19 1,9,59 3,35,8 4,48,3,3,9 1,90 4,89,33,63 4,70 4,75 1,38 3,03 3,08 3,17 3,0 3,36 6,0 3,67 4,71 4,89 3,19 3,67 7,50 4,8 5,76 1,48,6 1,78,99 1,66 3,74 1,31,83,33 3,19 1,89 6,37,85 3,07 1,49 1,7 1,07,6 1,63 4,4 1,34,49,63 3,67 1,89 5,90 3,57 3,33 5,99 6,4 6,1 7,03 5,80 4,61 5,77 4,73 4,70 7,50 6,37 5,90 8,36 4,75 3,51 3,7 3,43 3,31 3,56 5,64 3,16 5,19 4,75 4,8,85 3,57 8,36 5,16 3, 4,3 3,47 4,84 3,,5,78 1,9 1,38 5,76 3,07 3,33 4,75 5,16 Dies ist eine Unähnlichkeitsmatrix. Abbildung 7.: Distanzmatrix für die 15 EU-Länder auf der Grundlage der Strukturdaten Die in der Distanzmatrix angegebenen Unähnlichkeitswerte wurden nach dem Maß Euklidische Distanz berechnet. Nach diesem Maß ergibt sich die Distanz zwischen den beiden Objekten X und Y nach der allgemeinen Formel Distanz X, Y = ( i Y i ) v i= 1 X.

4 674 Kapitel 7 Distanz- und Ähnlichkeitsmaße Dabei gibt v die Anzahl der zur Bewertung der Ähnlichkeit berücksichtigten Variablen an. X i bezeichnet den Wert des Objekts (also des Falles) X in der Variablen i. Die Strukturdaten für die Länder (Objekte) Belgien und Deutschland werden in Abbildung 7.3 wiedergegeben. Für diese Daten müßte sich nach der angegebenen Formel folgende Euklidische Distanz ergeben: Distanz = ( ) + ( 73 7,7) + ( 6 6) ( ) + ( 44,9 48,3) + ( 1 0) + ( 3 33) = , , = 3685,017 Es fällt unmittelbar auf, daß der gesamte Distanzwert maßgeblich durch die Distanzen zwischen den beiden Energieverbrauchswerten und den beiden Werten des Pro-Kopf-BIP geprägt ist. Die übrigen fünf Variablen haben nur einen verschwindend geringen Einfluß. Würden sie nicht in die Analyse einbezogen, würde sich das Ergebnis kaum verändern. Dieser ungleich starke Einfluß einzelner Variablen hat seine Ursache darin, daß die sieben Variablen auf unterschiedlichen Skalen gemessen werden. Während beim Energieverbrauch (gemessen in dem Energiegehalt eines Kilogramms Kohle) üblicherweise Werte im vierstelligen Bereich auftreten, kann der Wert für den Anteil der Analphabeten an der Bevölkerung nur zwischen 0% und 0% (also zwischen 0 und 1) liegen. Damit können in der Analphabetenquote unter keinen Umständen derart große Distanzen auftreten, wie sie hier für den Energieverbrauch oder auch für das Pro-Kopf-BIP regelmäßig beobachtet wurden. Um solche unterschiedlich starken Gewichte der Variablen zu vermeiden, ist es üblich, die Werte vor der Berechnung der Distanzen zu standardisieren. Durch eine Standardisierung werden die Werte der einzelnen Variablen derart transformiert, daß sie sich anschließend auf einem einheitlichen Niveau bewegen. Zur Berechnung der Distanzmatrix aus Abbildung 7. wurden die Originalwerte in sogenannte Z-Werte umgewandelt. 98 Zur Berechnung von Z-Werten wird zunächst von jedem Originalwert der Mittelwert der jeweiligen Variablen abgezogen. Anschließend wird der Wert durch die Standardabweichung der Variablen dividiert. Dies bewirkt, daß jede Variable einen Mittelwert von 0 und eine Standardabweichung von 1 erhält, so daß die einzelnen Variablen einen gleich starken Einfluß auf die Distanzwerte ausüben. Aus diesem Grund stimmt auch der in der Distanzmatrix für Belgien und Deutschland ausgewiesene Distanzwert nicht mit dem oben berechneten Wert von 3685,017 überein. Wäre dagegen keine Standardisierung der Originalwerte durchgeführt worden, hätte die Distanzmatrix genau diesen Wert ausgewiesen. 98 Dies wurde in dem Dialogfeld der Schaltfläche Maße durch die Wahl des entsprechenden Eintrags in der Dropdown-Liste Standardisierung erreicht.

5 7.3 Verschiedene Maße für unterschiedliche Datentypen 675 Abbildung 7.3: Originaldaten für Belgien und Deutschland 7.3 Verschiedene Maße für unterschiedliche Datentypen Nicht alle bei SPSS zur Verfügung stehenden Distanz- und Ähnlichkeitsmaße lassen sich in gleicher Weise auf sämtliche Datentypen anwenden. Vielmehr gibt es drei Gruppen von Maßen, von denen eine speziell für intervallskalierte Variablen, eine zweite für Variablen mit Häufigkeitswerten und die dritte für binäre Variablen geeignet ist. Dabei mag die Unterscheidung zwischen intervallskalierten Daten und Häufigkeitswerten zunächst sonderbar erscheinen, da auch Häufigkeiten die Anforderungen eines Intervallskalenniveaus erfüllen. Allerdings lassen Häufigkeitswerte eine besondere Interpretation der Daten zu, so daß spezielle Maße auf der Basis der χ -Statistik berechnet werden können. Zusätzlich können Häufigkeitswerte auch mit den Maßen für intervallskalierte Variablen untersucht werden Intervallskalierte Daten Den Ausgangspunkt aller Maße für intervallskalierte Daten bilden stets die Differenzen zwischen den Werten der zu vergleichenden Fälle oder Variablen. Abbildung 7.4 zeigt standardisierte Werte (Z-Werte) der Strukturdaten für Belgien und Deutschland aus der Datendatei EU-Strukturdaten.sav. 99 Zusätzlich werden dort auch die Differenzen mitgeteilt, die sich für die Wertepaare der beiden Fälle in den einzelnen Variablen ergeben und die den Ausgangspunkt für die Berechnung der Distanzwerte bilden. energie lebener ksterbl bip telefon analpha zeitung Belgien 0,50-0,196-0,74 0,335-0,419-0,334 0,194 Deutschland -0,01-0,593-0,74 0,861-0,056-0,51 0,83 Differenz 0,541 0,397 0,000-0,56-0,363 0,187-0,089 Abbildung 7.4: Strukturdaten für Belgien und Deutschland mit den Differenzen für die Wertepaare der einzelnen Variablen Eines der gebräuchlichsten Distanzmaße für intervallskalierte Variablen ist die Euklidische Distanz, die sich als Quadratwurzel aus der Summe der quadrierten 99 Um Z-Werte für eine Variable zu berechnen, können Sie den Befehl STATISTIK, DE- SKRIPTIVE STATISTIK, UNIVARIATE STATISTIKEN verwenden. Dabei wird für jede Ursprungsvariable eine neue Variable mit den Z-Werten in die Datendatei eingefügt.

6 676 Kapitel 7 Distanz- und Ähnlichkeitsmaße Differenzen ergibt. Auf der Grundlage der standardisierten Werte ergibt sich für Belgien und Deutschland damit eine Euklidische Distanz von: Distanz = 0, ,397 + ( 0,56) + ( 0,363) + 0,187 + ( 0, 089 ) = 0,90 Dieser Wert wird auch in der Distanzmatrix aus Abbildung 7. ausgewiesen, die ebenfalls auf der Grundlage von Z-Werten berechnet wurde. Ein anderes, sehr einfaches Distanzmaß für intervallskalierte Variablen ist die Block-Distanz. Danach berechnet sich der Distanzwert aus der Summe der absoluten Differenzen. Für Belgien und Deutschland beträgt die Block-Distanz somit: Distanz = 0, , ,56 + 0, , ,089 =,3 Weder die Euklidische Distanz noch die Block-Distanz ist dem jeweils anderen Maß eindeutig überlegen. Der Umgang mit Betragswerten gestaltet sich häufig schwieriger als das Rechnen mit quadrierten Werten, so daß viele Statistiker eher die Euklidische Distanz vorziehen. Davon abgesehen hängt es jedoch eher vom Geschmack des Anwenders ab, welchem Distanzmaß er dem Vorzug gibt. Dies gilt nicht nur für die Wahl zwischen der Euklidischen Distanz und der Block- Distanz, sondern auch für einen Großteil der übrigen Distanzmaße für intervallskalierte Daten. Eine Sonderrolle nimmt dagegen die Distanz nach Tschebyscheff ein, bei der die größte absolute Differenz der Wertepaare den Distanzwert bildet. Für Belgien und Deutschland ist der Distanzwert damit gleich 0,541. Die Tschebyscheff-Distanz unterscheidet sich von allen übrigen bei SPSS zur Verfügung stehenden Distanzmaßen für intervallskalierte Daten vor allem dadurch, daß der Distanzwert letztlich nur durch das Ausmaß einer einzigen Differenz bestimmt wird, während bei allen übrigen Maßen sämtliche Differenzen auf unterschiedliche Weise zu einer Maßzahl zusammengefaßt werden. Daher ist die Tschebyscheff-Distanz nur für solche Anwendungsfälle geeignet, bei denen die Unähnlichkeit zweier Objekte tatsächlich sinnvoll an dem Ausmaß der größten Differenz eines Wertepaares gemessen werden kann Häufigkeitswerte Für den Fall, daß zur Bewertung der Ähnlichkeit zweier Objekte ausschließlich Variablen verwendet werden, deren Werte absolute Häufigkeiten darstellen, stehen zwei spezielle Distanzmaße zu Verfügung, die beide auf der Chi-Quadrat- Statistik basieren. Das eine Maß ist das Chi-Quadrat-Maß selbst, das sich als Wurzel aus dem χ -Wert ergibt. Das andere Maß, das als Phi-Quadrat-Maß bezeichnet wird, versucht, das Chi-Quadrat-Maß zu korrigieren, indem es zusätzlich den Stichprobenumfang berücksichtigt. Zur Berechnung des χ -Wertes werden die quadrierten Differenzen aus den beobachteten und den erwarteten Häufigkeiten berechnet und anschließend durch die

7 7.3 Verschiedene Maße für unterschiedliche Datentypen 677 erwarteten Häufigkeiten dividiert. Die Summe dieser Quotienten ergibt den χ - Wert. Werden zwei Fälle anhand von m Variablen verglichen, ergibt sich somit: χ = m ( x ij xˆ ij ) i= 1 j= 1 Dabei bezeichnet x ij die beobachtete Häufigkeit des i-ten Falles und der j-ten Variablen und xˆ die entsprechende erwartete Häufigkeit. ij Abbildung 7.5 zeigt zwei Fälle mit drei Variablen, in denen Häufigkeitswerte enthalten sind. Die Werte können so interpretiert werden, daß zwei Personen angegeben haben, mit welcher Häufigkeit sie im vergangenen Monaten die drei aufgeführten Kultureinrichtungen besucht haben. Kino Theater Museum Gesamt Gesamt Abbildung 7.5: Beispieldaten: Häufigkeiten für zwei Fälle und drei Variablen mit Gesamthäufigkeiten Person 1 hat im vergangenen Monat insgesamt sechs Kulturveranstaltungen besucht, zu denen drei Kinovorstellungen gehörten. Beide Personen zusammen waren insgesamt bei zehn Kulturveranstaltungen, davon waren sie viermal im Kino. Würden sich die vier Kinobesuche in dem Verhältnis auf Person 1 und Person verteilen, das für die Gesamtheit der besuchten Kulturveranstaltungen gilt (also im Verhältnis 6:4), hätte Person 1 6 / der Kinobesuche absolvieren und damit 6 / 4 =,4 Filme anschauen müssen. Dieser Wert von,4 wird als erwartete Häufigkeit für die Variable Kino im Fall 1 bezeichnet. 300 Jede Abweichung der beobachteten von der erwarteten Häufigkeiten deutet auf ein unterschiedliches Konsumverhalten der beiden Personen in bezug auf Kulturveranstaltungen hin. Das Chi-Quadrat- Maß faßt nun die Differenzen zwischen den erwarteten und beobachteten Häufigkeiten aller sechs Felder der Tabelle zu einem Distanzmaß zusammen: ( 6 4 ) ( 6 5 ) ( 61 ) ( 4 4 ) ( 4 5 ) ( 4 1 ) χ = xˆ ij 1,37 Je stärker die beobachteten von den erwarteten Häufigkeiten abweichen, desto größer fällt das Chi-Quadrat-Maß aus. Der Distanzwert wird jedoch auch mit zunehmender Variablenzahl ansteigen, da bei einer größeren Anzahl von Variablen auch mehr Differenzen in die Summe zur Berechnung des χ -Wertes eingehen. Auch das Niveau, auf dem sich die Häufigkeitswerte üblicherweise bewegen, hat 300 Diese Häufigkeit ist zu erwarten, wenn die Gesamthäufigkeiten vorgegeben sind und beide Personen im gleichen Verhältnis die verschiedenen Kulturveranstaltungen besuchen. Siehe hierzu auch ausführlicher Kapitel 13, Häufigkeitstabellen.

8 678 Kapitel 7 Distanz- und Ähnlichkeitsmaße Auswirkungen auf die Größe des Distanzwertes. Werden - wie im obigen Beispiel - Personen nach der Anzahl der Kinobesuche im vergangenen Monat befragt, werden die Häufigkeitswerte selten größer als zehn sein. Dies gilt dann auch für die Differenzen zwischen den Werten zweier Personen. Wird dagegen gefragt, wie häufig die Personen im vergangenen Monat öffentliche Verkehrsmittel benutzt haben, werden Differenzen von mehr als 0 nicht ungewöhnlich sein. Um diesen Einfluß von Variablenzahl und -dimension zu korrigieren, wird zur Berechnung des Phi-Quadrat-Maßes das Chi-Quadrat-Maß durch die Quadratwurzel der Gesamthäufigkeiten dividiert. Für das obige Beispiel ergibt sich damit ein Wert von: φ 1,37 = = 0, Binäre Daten Binäre Variablen weisen nur zwei unterschiedliche Werte auf. Diese Werte geben an, ob ein Merkmal erfüllt ist oder nicht. Beispielsweise könnten die Antworten zweier Personen auf die Frage, welche von fünf Sportarten sie ausüben, in der in Abbildung 7.6 dargestellten Weise mit Hilfe binärer Variablen codiert werden, wobei die Codierung 1 der Antwort Ja (Sportart wird ausgeübt) und die Codierung der Antwort Nein entspricht. Segeln Inline-Skaten Surfen Aerobic Jogging Abbildung 7.6: Beispieldaten für binäre Variablen Werden auch hier die Wertepaare in den einzelnen Variablen betrachtet, können sich lediglich vier unterschiedliche Kombinationen ergeben: 1/1, 1/0, 0/1 und 0/0. Auf dieser Besonderheit binärer Variablen basieren alle bei SPSS für solche Daten zur Verfügung stehenden Distanz- und Ähnlichkeitsmaße. Alle Maße vergleichen lediglich die Häufigkeiten, mit denen die vier unterschiedlichen Wertekombinationen bei der Betrachtung zweier Fälle auftreten. Der Unterschied zwischen den einzelnen Distanz- und Ähnlichkeitsmaßen besteht ausschließlich in der Art, in der sie die Häufigkeiten der Wertekombinationen miteinander vergleichen. Grundsätzlich gilt, daß Distanzmaße die Anzahl der Wertekombinationen mit unterschiedlichen Ausprägungen (0/1 und 1/0) in Relation zur Gesamtzahl der Wertepaare setzen. Entsprechend vergleichen Ähnlichkeitsmaße die Häufigkeit, mit der zwei gleiche Werte auftreten (1/1 und 0/0), mit der Anzahl aller Wertepaare. Diese allgemeine Regel wird in zahlreichen Variationen (und natürlich z.t. mit leichten Abweichungen von der allgemeinen Regel) durch unterschiedliche Maße konkretisiert. Ein übliches Distanzmaß ist zum Beispiel die Varianz, bei der die Anzahl der ungleichen Wertepaare durch die mit vier multiplizierte Anzahl aller Wertepaare dividiert wird. Für die beiden Fälle aus Abbildung 7.6 ergibt sich danach folgende Distanz:

9 7.4 Maße für intervallskalierte Daten 679 Größendifferenz = = 0,1 4 5 Die Euklidische Distanz für binäre Variablen betrachtet dagegen ausschließlich die Anzahl der ungleichen Wertepaare und ist gleich der Quadratwurzel dieser Anzahl. Für die beiden Fälle aus Abbildung 7.6 ergibt sich somit: Euklidische Distanz = 1, Maße für intervallskalierte Daten Für intervallskalierte Daten stehen sowohl Distanz- als auch Ähnlichkeitsmaße zur Verfügung, für die im folgenden lediglich die Berechnungsweise - ohne weitere Erläuterungen - angegeben wird. Dabei bezeichnen X und Y die beiden miteinander zu vergleichenden Fälle. X i kennzeichnet den Wert des Falles X in der i-ten Variablen. X i gibt an, daß die Werte des Falles X über alle relevanten Variablen addiert werden. Dabei wird auf die Angabe der Indizes beim Summationszeichen verzichtet. Werden nicht die Distanzen oder Ähnlichkeiten von Fällen, sondern die von Variablen berechnet, bezeichnen X und Y entsprechend die zu vergleichenden Variablen und X i den Wert der Variablen X im Fall i Distanzmaße Euklidische Distanz Die Euklidische Distanz für intervallskalierte Variablen ergibt sich als Quadratwurzel aus der Summe der quadrierten Differenzen: Euklidische Distanz = ( X i Y i ) Quadrierte Euklidische Distanz Die Quadrierte Euklidische Distanz ist die Summe der quadrierten Differenzen: Quadrierte Euklidische Distanz = ( X i Y i ) Tschebyscheff Die Distanz wird an der größten absoluten Differenz eines Wertepaares gemessen: Tschebyscheff -Distanz = Max X Y i i i

10 680 Kapitel 7 Distanz- und Ähnlichkeitsmaße Block Die Block-Distanz (auch City-Block oder Manhattan-Distanz) ist gleich der Summe der absoluten Differenzen: Block-Distanz = X i Y i Minkowski Die Distanz ist gleich der p-ten Wurzel aus der Summe der p-ten Potenzen der Wertepaardifferenzen. Für p können Sie in der Dropdown-Liste Exponent einen Wert zwischen 1 und 4 auswählen. p Minkowski-Distanz = ( X i Y i ) p Benutzerdefiniert Dieses Maß berechnet sich wie die Minkowski-Distanz, wobei Sie jedoch den Exponenten p und den Grad der Wurzel w unabhängig voneinander wählen können: Benutzerdefinierte Distanz = w ( X i Y i ) p 7.4. Ähnlichkeitsmaße Pearson-Korrelation Die standardisierten Werte der beiden Fälle werden jeweils paarweise miteinander multipliziert. Die Summe der Produkte wird durch die Anzahl der Wertepaare, verringert um 1, dividiert: Pearson-Korrelation = ( Z Z ) X i Y i N 1 Dabei sind Z X und Z Y die standardisierten Werte der beiden Fälle 301, N bezeichnet die Anzahl der Variablen. 301 Beachten Sie, daß die eingehenden Werte hier zuvor fallweise standardisiert werden, und zwar unabhängig davon, ob Sie in dem Dialogfeld der Schaltfläche Maß zusätzlich die Standardisierung der Variablen angefordert haben. (Diese Aussage bezieht sich auf den Fall einer Berechnung von Distanzen zwischen Fällen und ist auf die Berechnung von Distanzen zwischen Variablen analog zu übertragen.)

11 7.5 Maße für Häufigkeitswerte 681 Kosinus Die Werte dieses Ähnlichkeitsmaßes liegen zwischen -1 und +1. Die Maßzahl errechnet sich als: Kosinus = ( X i Yi ) X i Yi 7.5 Maße für Häufigkeitswerte Werden ausschließlich Häufigkeitswerte als Kriterium für die Ähnlichkeit zweier Fälle oder Variablen betrachtet, können zwei spezielle Distanzmaße berechnet werden (siehe auch Abschnitt 7.3., Häufigkeitswerte, S. 676). Im folgenden bezeichnet X i den Wert des Falles X in der Variablen i und E(X i ) den entsprechenden erwarteten Wert. Chi-Quadrat-Maß Der Distanzwert ergibt sich als Wurzel der χ -Statistik: Chi-Quadrat-Maß = ( X i E( X i )) E( X ) i + ( Yi E( Yi )) E( Y ) i Phi-Quadrat-Maß Das Phi-Quadrat-Maß korrigiert das Chi-Quadrat-Maß um den Einfluß der Stichprobengröße N: Phi-Quadrat-Maß = ( Xi E( X i )) E( X ) i + N ( Yi E( Yi )) E( Y ) i 7.6 Maße für binäre Daten Bei binären Daten werden zur Messung der Distanz zwischen zwei Objekten stets die Wertepaare der beiden Objekte betrachtet. Dabei sind nur vier unterschiedliche Wertekombinationen möglich, die im folgenden - wie in der Abbildung skizziert - mit den Werten a, b, c und d bezeichnet werden. Objekt Objekt 1 Erfüllt Nicht erfüllt Erfüllt a b Nicht erfüllt c d

12 68 Kapitel 7 Distanz- und Ähnlichkeitsmaße Distanzmaße Euklidische Distanz Die Distanz ist gleich der Quadratwurzel aus der Anzahl ungleicher Wertepaare: Euklidische Distanz = b + c Quadrierte Euklidische Distanz Die Distanz ist gleich der Anzahl ungleicher Wertepaare: Quadrierte Euklidische Distanz = b + c Größendifferenz Zunächst wird die Differenz zwischen den beiden Häufigkeiten der möglichen Kombinationen mit ungleichen Werten berechnet. Das Quadrat dieser Differenz wird anschließend durch die quadrierte Anzahl aller Wertepaare dividiert: Größendifferenz = ( b c) ( a + b + c + d) Musterdifferenz Die Musterdifferenz liefert Distanzwerte, die zwischen 0 und 1 liegen. b c Musterdifferenz = ( ) a + b + c + d Varianz Die Anzahl der ungleichen Wertepaare wird durch die mit vier multiplizierte Anzahl aller Wertepaare dividiert: Varianz = 4 b + c ( a + b + c + d) Form Distanz berechnet sich nach folgender Formel: ( a + b + c + d ) ( b + c ) ( b c ) Form = ( a + b + c + d)

13 7.6 Maße für binäre Daten 683 Lance and Williams Dieses Maß, das auch als nichtmetrischer Bray-Kurtis-Koeffizient bezeichnet wird, liefert Distanzwerte zwischen 0 und 1. Lance and Williams = b + c a + b + c 7.6. Ähnlichkeitsmaße Russel und Rao Die Anzahl der Wertepaare, bei denen der Tatbestand zweimal erfüllt ist, wird durch die Anzahl aller Wertepaare dividiert. In dem Dialogfeld (Abbildung 7.8, S. 688) geben Sie an, welcher Wert einen erfüllten und welcher einen nicht erfüllten Tatbestand kennzeichnet. Russel und Rao = a a + b + c + d Einfache Übereinstimmung Die Anzahl gleicher Wertepaare wird durch die Anzahl aller Wertepaare dividiert: Einfache Übereinstimmung = a + d a + b + c + d Jaccard Die Anzahl der Wertepaare, bei denen der Tatbestand zweimal erfüllt ist, wird durch die Anzahl der Wertepaare dividiert, bei denen der Tatbestand mindestens einmal erfüllt ist: Jaccard = a a + b + c Würfel Auch Czekanowski- oder Sorensen-Maß. Dies ist dem Maß Jaccard ähnlich. Der Unterschied besteht darin, daß Wertepaare mit doppelt erfülltem Tatbestand mit dem Faktor gewichtet werden: Würfel = a a + b + c

14 684 Kapitel 7 Distanz- und Ähnlichkeitsmaße Rogers und Tanimoto Dieses Maß ist der Einfachen Übereinstimmung ähnlich, allerdings werden hier die ungleichen Wertepaare doppelt gewichtet: Rogers und Tanimoto = a + d a + d + ( b + c) Sokal und Sneath 1 Ähnlich wie Rogers und Tanimoto, wobei hier nicht die ungleichen, sondern die gleichen Wertepaare doppeltes Gewicht erhalten: Sokal und Sneath 1 = ( a + d) ( a + d) + b + c Sokal und Sneath Ähnlich wie Jaccard, wobei hier die ungleichen Wertepaare doppelt gewichtet werden: a Sokal und Sneath = a + b + c ( ) Sokal und Sneath 3 Die Anzahl der gleichen Wertepaare wird durch die Anzahl der ungleichen Wertepaare dividiert: a + d Sokal und Sneath 3 = b + c Kulczynski 1 Die Anzahl der Wertepaare, bei denen der Tatbestand zweimal erfüllt ist, wird durch die Anzahl der ungleichen Wertepaaren dividiert: a Kulczynski 1 = b + c Kulczynski Wenn bekannt ist, daß der Tatbestand im ersten Fall erfüllt ist, beträgt die Wahrscheinlichkeit dafür, daß er auch im zweiten Fall erfüllt ist a / (a + c). Ist nur bekannt, daß der Tatbestand im zweiten Fall erfüllt ist, beträgt die entsprechende Wahrscheinlichkeit a / (a + b).

15 7.6 Maße für binäre Daten 685 Das arithmetische Mittel dieser beiden Wahrscheinlichkeiten ist der Ähnlichkeitswert nach Kulczynski : Kulczynski = a a a+ b + a+ c Sokal und Sneath 4 Dieses Maß ähnelt Kulczynski, jedoch werden hier auch die entsprechenden Wahrscheinlichkeit für das gleichzeitige Nichteintreten des Tatbestandes einbezogen: Sokal und Sneath 4 = a a d d a+ b a+ c d+ b d+ c 4 Hamann Die Differenz aus der Anzahl der Wertepaare mit zwei gleichen Werten und der Anzahl der Paare mit unterschiedlichen Werten wird durch die Anzahl aller Wertepaare dividiert: Hamann = ( a + d ) ( b + c ) a + b + c + d Lambda Dies ist Goodman und Kruskals Lambda. Es mißt die proportionale Fehlerverringerung bei der Vorhersage des Wertes eines Falles, die dadurch erzielt wird, daß der Wert des anderen Falles bekannt ist. Die Werte von λ liegen zwischen 0 und 1: max Lambda = ( a,b) + max( a,c) + max( d,b) + max( d,c) max ( a+ b+ c+ d) - ( a+ c,d+ b) + max( a+ b,d+ c) ( a+ b+ c+ d) Anderbergs D Anderbergs D mißt die Vorhersagbarkeit eines Wertes bei Kenntnis des anderen Wertes aus dem Wertepaar. Die Ähnlichkeitswerte liegen zwischen 0 und 1: max Anderbergs D = ( a,b) + max( a,c) + max( d,b) + max( d,c) max ( a+ b+ c+ d) + ( a+ c,d+ b) + max( a+ b,d+ c) ( a+ b+ c+ d) Yules Y Die nach Yules Y berechneten Ähnlichkeitswerte liegen zwischen -1 und +1: Yules Y = a d a d + b c b c

16 686 Kapitel 7 Distanz- und Ähnlichkeitsmaße Yules Q Auch bei Yules Q liegen die Ähnlichkeitswerte zwischen -1 und +1: a d b c Yules Q = a d + b c Ochiai Unter der Bedingung, daß der Tatbestand im ersten Fall erfüllt ist, gilt dies mit einer Wahrscheinlichkeit von a / (a + c) auch für den zweiten Fall. Ist dagegen bekannt, daß der Tatbestand im zweiten Fall erfüllt ist, beträgt die entsprechende Wahrscheinlichkeit a / (a + b). Die Quadratwurzel aus dem Produkt dieser beiden Wahrscheinlichkeiten liefert das Ochiai-Ähnlichkeitsmaß, das stets Werte zwischen 0 und 1 annimmt: Ochiai = a a a + b a + c Sokal und Sneath 5 Die nach Sokal und Sneath 5 berechneten Ähnlichkeitswerte liegen zwischen 0 und 1: Sokal und Sneath 5 = a d ( a + b) ( a + c) ( d + c) ( d + b) Phi-4-Punkt-Korrelation Dies ist die binäre Form von Pearsons Korrelationskoeffizient. Die Werte liegen zwischen 0 und 1: Phi-4-Punkt-Korrelation = ad bc ( a + b) ( a + c) ( d + c) ( d + b) Streuung Die Ähnlichkeitswerte liegen hier zwischen -1 und +1: a d b c Streuung = ( ) a + b + c + d

17 7.7 Einstellungen zur Berechnung von Distanz- und Ähnlichkeitsmaßen Einstellungen zur Berechnung von Distanz- und Ähnlichkeitsmaßen Allgemeine Vorgehensweise Um Distanz- oder Ähnlichkeitswerte zum Vergleich von Fällen oder Variablen zu berechnen, öffnen Sie das in Abbildung 7.7 dargestellte Dialogfeld. Wählen Sie hierzu den Befehl STATISTIK KORRELATION DISTANZEN... Abbildung 7.7: Dialogfeld des Befehls STATISTIK, KORRELATION, DISTANZEN Nehmen Sie in diesem Dialogfeld folgende Einstellungen vor: ¾ Fälle oder Variablen: Geben Sie in der Gruppe Distanzen berechnen an, ob die Distanz- bzw. Ähnlichkeitswerte für Fälle oder für Variablen berechnet werden sollen. ¾ Variablen: Verschieben Sie die bei der Berechnung der Distanz- bzw. Ähnlichkeitswerte zu berücksichtigenden Variablen in das Feld Variablen. Dies dürfen ausschließlich numerische Variablen sein. Wenn Sie die (Un-)Ähnlichkeiten von Variablen bestimmen möchten, geben Sie hier die Variablen an, die jeweils paarweise miteinander verglichen werden sollen. Der Vergleich erfolgt anhand der Werte, die die Variablen in den unterschiedlichen Fällen der Datendatei aufweisen. ¾ Fallbeschriftung: Wenn Sie die Distanzen oder Ähnlichkeiten von Fällen berechnen, können Sie in dem Feld Fallbeschriftung eine Textvariable angeben, deren Werte zur Kennzeichnung der Fälle in der Distanzmatrix verwendet

18 688 Kapitel 7 Distanz- und Ähnlichkeitsmaße werden. Geben Sie eine solche Variable nicht an, werden die Fälle lediglich durch ihre Fallnummern gekennzeichnet. ¾ Maß: (Siehe hierzu auch den folgenden Abschnitt 7.7.). Geben Sie in der Gruppe Maß zunächst an, ob Sie Distanzwerte oder Ähnlichkeitsmaße berechnen möchten, und wählen Sie anschließend in dem Dialogfeld der Schaltfläche Maße ein entsprechendes Maß aus. Zusätzlich können Sie dort sowohl für die Originaldaten als auch für die Maßzahlen Verfahren zur Standardisierung der Werte anfordern Maße auswählen Die in dem Dialogfeld der Schaltfläche Maße angebotenen Optionen variieren in Abhängigkeit davon, ob Sie in der Gruppe Maß (im Hauptdialogfeld) Werte zur Berechnung der Unähnlichkeiten oder zur Berechnung der Ähnlichkeiten ausgewählt haben. Abbildung 7.8 zeigt das Dialogfeld für Unähnlichkeitsmaße. Das Dialogfeld für Ähnlichkeitsmaße unterscheidet sich von diesem nur dadurch, daß es andere Maßzahlen zur Auswahl anbietet. Abbildung 7.8: Dialogfeld der Schaltfläche Maße für Unähnlichkeiten Maß Wählen Sie zunächst je nach Art der zugrundeliegenden Daten eine der Optionen Intervall, Häufigkeiten oder Binär. Anschließend können Sie in der entsprechenden Dropdown-Liste das zu berechnende Distanz- oder Ähnlichkeitsmaß bestimmen. Beachten Sie, daß spezielle Maße für Häufigkeitswerte nur in der Form von Distanzwerten und nicht in Form von Ähnlichkeitswerten vorliegen. Aus diesem Grund steht die Option Häufigkeiten nicht zur Verfügung, wenn Sie im Hauptdialogfeld die Option Ähnlichkeiten ausgewählt haben.

19 7.7 Einstellungen zur Berechnung von Distanz- und Ähnlichkeitsmaßen 689 Für die intervallskalierten Distanzmaße Minkowski und Benutzerdefiniert können Sie in den Dropdown-Listen Exponent und Wurzel den Grad des Exponenten bzw. den der Wurzel bestimmen (siehe auch S. 680) Wenn Sie Maßzahlen für binäre Daten berechnen, müssen Sie in den Feldern Vorhanden und Nicht vorhanden die Codierungen angeben, die das Erfülltsein bzw. das Nichterfülltsein eines Tatbestandes kennzeichnen. Diese Werte müssen in allen einbezogenen Variablen einheitlich verwendet werden. Werte transformieren Für intervallskalierte Daten sowie für Häufigkeiten können Sie eine Standardisierung der Werte vornehmen. Dies ist vor allem dann sinnvoll, wenn Sie Variablen verwenden, die in unterschiedlichen Dimensionen gemessen werden. Nach Variablen oder Nach Fällen: Geben Sie an, ob die Werte variablenweise oder fallweise transformiert werden sollen. Wenn Sie die Ähnlichkeiten von Fällen untersuchen, sollten Sie grundsätzlich die Option Nach Variablen wählen. Berechnen Sie dagegen Distanz- oder Ähnlichkeitswerte für Variablen, empfiehlt sich die Option Nach Fällen. Standardisieren: Wählen Sie in der Dropdown-Liste eines der folgenden Standardisierungsverfahren: ¾ Keine: Diese Option ist voreingestellt, so daß keine Standardisierung durchgeführt wird. ¾ Z-Werte: Die Werte werden so transformiert, daß sie anschließend einen Mittelwert von 0 und eine Standardabweichung von 1 aufweisen. Hierzu wird von jedem Wert der Stichprobenmittelwert abgezogen. Das Ergebnis wird anschließend durch die Standardabweichung der Stichprobe dividiert. (Die Stichprobe besteht dabei jeweils aus den Werten der zu standardisierenden Variablen bzw. des zu standardisierenden Falles.) Dieses Standardisierungsverfahren wurde in dem Beispiel dieses Kapitels verwendet. ¾ Bereich -1 bis 1: Die Werte werden so transformiert, daß sie anschließend in dem Bereich zwischen -1 und +1 liegen. Hierzu wird jeder Wert durch die Spannweite der Stichprobe dividiert. Hat die Stichprobe eine Spannweite von 0 (sind die Werte also alle identisch), bleiben die Werte unverändert. ¾ Bereich 0 bis 1: Nach der Standardisierung liegen die Werte alle zwischen 0 und 1. Zunächst wird von jedem Wert der kleinste Wert der Stichprobe abgezogen. Das Ergebnis wird anschließend durch die Spannweite der Stichprobe dividiert. Hat die Stichprobe eine Spannweite von 0 (so daß alle Werte identisch sind), wird jeder Wert in 0,5 transformiert. ¾ Maximale Größe von 1: Jeder Wert wird durch den größten Wert der Stichprobe dividiert. Damit beträgt der größte Wert anschließend genau 1. Ist der größte Wert in der Stichprobe 0, wird jeder Wert durch den Betrag des kleinsten Wertes dividiert und anschließend mit 1 addiert.

20 690 Kapitel 7 Distanz- und Ähnlichkeitsmaße ¾ Mittelwert 1: Jeder Wert wird durch den Stichprobenmittelwert dividiert. Damit ergibt sich ein neuer Mittelwert von 1. Beträgt der Stichprobenmittelwert vor der Standardisierung 0, wird lediglich jeder Wert um 1 erhöht. ¾ Standardabweichung 1: Jeder Wert wird durch die Standardabweichung der Stichprobe dividiert. Damit weisen die transformierten Werte eine Standardabweichung von 1 auf. Beträgt die Standardabweichung der Stichprobe 0, bleiben die Werte unverändert. Maße transformieren Nicht nur die der Prozedur zugrundeliegenden Ausgangswerte können standardisiert werden, sondern auch die daraus berechneten Distanz- bzw. Ähnlichkeitsmaße. Dabei werden die Maßzahlen zunächst in der üblichen Weise berechnet und anschließend einer der folgenden Transformationen unterworfen: 30 ¾ Absolutwerte: Alle Distanz- bzw. Ähnlichkeitswerte werden in ihre Beträge umgewandelt. Einige Distanzmaße (z.b. die Euklidische Distanz) liefern ohnehin ausschließlich positive Werte, andere Maße können dagegen auch negative Werte ergeben. Beachten Sie aber, daß das Vorzeichen bei diesen Maßen häufig so etwas wie die Richtung eines Zusammenhangs anzeigt (so zum Beispiel bei Pearsons Korrelationskoeffizient). ¾ Vorzeichen ändern: Jede Maßzahl wird mit -1 multipliziert. Dies bewirkt, daß Ähnlichkeitswerte in Distanzwerte umgewandelt werte (und umgekehrt). ¾ Auf Bereich 0-1 umskalieren: Die Maßzahlen werden so transformiert, daß sie anschließend in dem Bereich zwischen 0 und 1 liegen. Hierzu wird von jedem Wert die kleinste errechnete Maßzahl abgezogen. Das Ergebnis wird anschließend durch die Spannweite der Maßzahlen dividiert. Beachten Sie jedoch, daß einige Maße bereits von sich aus standardisierte Werte berechnen (z.b. die Musterdifferenz oder Lance und Williams). Bei diesen Maßen ist eine zusätzliche Transformation im allgemeinen nicht sinnvoll. 30 Wenn Sie mehr als eine Transformationsart ankreuzen, werden die Werte allen ausgewählten Transformationen nacheinander unterworfen. Dabei kommen die Transformationsverfahren in der Reihenfolge zu Anwendung, in der sie im Dialogfeld aufgeführt werden.

Analyse bivariater Kontingenztafeln

Analyse bivariater Kontingenztafeln Analyse bivariater Kontingenztafeln Werden zwei kategoriale Merkmale mit nicht zu vielen möglichen Ausprägungen gemeinsam analysiert, so kommen zur Beschreibung der gemeinsamen Verteilung im allgemeinen

Mehr

Kapitel 33 Hoch-Tief-Diagramme

Kapitel 33 Hoch-Tief-Diagramme Kapitel 33 Hoch-Tief-Diagramme 33.1 Diagrammtypen In einem Hoch-Tief-Diagramm werden Wertepaare oder -tripel dargestellt. Einen typischen Anwendungsfall für Hoch-Tief-Diagramme bildet die Darstellung von

Mehr

Diskriminanzanalyse Beispiel

Diskriminanzanalyse Beispiel Diskriminanzanalyse Ziel bei der Diskriminanzanalyse ist die Analyse von Gruppenunterschieden, d. h. der Untersuchung von zwei oder mehr Gruppen hinsichtlich einer Vielzahl von Variablen. Diese Methode

Mehr

T-TEST BEI EINER STICHPROBE:

T-TEST BEI EINER STICHPROBE: Kapitel 19 T-Test Mit Hilfe der T-TEST-Prozeduren werden Aussagen über Mittelwerte getroffen. Dabei wird versucht, aus den Beobachtungen einer Stichprobe Rückschlüsse auf die Grundgesamtheit zu ziehen.

Mehr

Kontingenzkoeffizient (nach Pearson)

Kontingenzkoeffizient (nach Pearson) Assoziationsmaß für zwei nominale Merkmale misst die Unabhängigkeit zweier Merkmale gibt keine Richtung eines Zusammenhanges an 46 o jl beobachtete Häufigkeiten der Kombination von Merkmalsausprägungen

Mehr

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen 4. Datenanalyse und Modellbildung Deskriptive Statistik 2-1 2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen Für die Auswertung einer Messreihe, die in Form

Mehr

3.2 Bivariate Verteilungen

3.2 Bivariate Verteilungen 3.2 Bivariate Verteilungen zwei Variablen X, Y werden gemeinsam betrachtet (an jedem Objekt i, i = 1,..., n, werden gleichzeitig zwei Merkmale beobachtet) Beobachtungswerte sind Paare/Kombinationen von

Mehr

Das Dialogfeld für die Regressionsanalyse ("Lineare Regression") findet sich im Statistik- Menu unter "Regression"-"Linear":

Das Dialogfeld für die Regressionsanalyse (Lineare Regression) findet sich im Statistik- Menu unter Regression-Linear: Lineare Regression Das Dialogfeld für die Regressionsanalyse ("Lineare Regression") findet sich im Statistik- Menu unter "Regression"-"Linear": Im einfachsten Fall werden mehrere Prädiktoren (oder nur

Mehr

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18 3. Deskriptive Statistik Ziel der deskriptiven (beschreibenden) Statistik (explorativen Datenanalyse) ist die übersichtliche Darstellung der wesentlichen in den erhobenen Daten enthaltene Informationen

Mehr

Einseitig gerichtete Relation: Mit zunehmender Höhe über dem Meeresspiegel sinkt im allgemeinen die Lufttemperatur.

Einseitig gerichtete Relation: Mit zunehmender Höhe über dem Meeresspiegel sinkt im allgemeinen die Lufttemperatur. Statistik Grundlagen Charakterisierung von Verteilungen Einführung Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsverteilungen Schätzen und Testen Korrelation Regression Einführung Die Analyse und modellhafte

Mehr

Abhängigkeit zweier Merkmale

Abhängigkeit zweier Merkmale Abhängigkeit zweier Merkmale Johannes Hain Lehrstuhl für Mathematik VIII Statistik 1/33 Allgemeine Situation Neben der Untersuchung auf Unterschiede zwischen zwei oder mehreren Untersuchungsgruppen hinsichtlich

Mehr

Kommentierter SPSS-Ausdruck zur logistischen Regression

Kommentierter SPSS-Ausdruck zur logistischen Regression Daten: POK V AG 3 (POKV_AG3_V07.SAV) Kommentierter SPSS-Ausdruck zur logistischen Regression Fragestellung: Welchen Einfluss hat die Fachnähe und das Geschlecht auf die interpersonale Attraktion einer

Mehr

Korrelation - Regression. Berghold, IMI

Korrelation - Regression. Berghold, IMI Korrelation - Regression Zusammenhang zwischen Variablen Bivariate Datenanalyse - Zusammenhang zwischen 2 stetigen Variablen Korrelation Einfaches lineares Regressionsmodell 1. Schritt: Erstellung eines

Mehr

Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt!

Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt! Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt! 1 Einführung 2 Wahrscheinlichkeiten kurz gefasst 3 Zufallsvariablen und Verteilungen 4 Theoretische Verteilungen (Wahrscheinlichkeitsfunktion)

Mehr

0 Einführung: Was ist Statistik

0 Einführung: Was ist Statistik 0 Einführung: Was ist Statistik 1 Datenerhebung und Messung Die Messung Skalenniveaus 2 Univariate deskriptive Statistik 3 Multivariate Statistik 4 Regression 5 Ergänzungen Grundbegriffe Statistische Einheit,

Mehr

3 Deskriptive Statistik in R (univariat)

3 Deskriptive Statistik in R (univariat) (univariat) Markus Burkhardt (markus.burkhardt@psychologie.tu-chemnitz.de) Inhalt 3.1 Ziel... 1 3.2 Häufigkeiten... 1 3.3 Deskriptive Kennziffern I Lagemaße... 2 3.4 Streuungsmaße... 5 3.5 Standardisierung:

Mehr

Einfache Statistiken in Excel

Einfache Statistiken in Excel Einfache Statistiken in Excel Dipl.-Volkswirtin Anna Miller Bergische Universität Wuppertal Schumpeter School of Business and Economics Lehrstuhl für Internationale Wirtschaft und Regionalökonomik Raum

Mehr

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren)

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Multiple Regression 1 Was ist multiple lineare Regression? Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Annahme: Der Zusammenhang

Mehr

Auswertung mit dem Statistikprogramm SPSS: 30.11.05

Auswertung mit dem Statistikprogramm SPSS: 30.11.05 Auswertung mit dem Statistikprogramm SPSS: 30.11.05 Seite 1 Einführung SPSS Was ist eine Fragestellung? Beispiel Welche statistische Prozedur gehört zu welcher Hypothese? Statistische Berechnungen mit

Mehr

Zusammenhänge zwischen metrischen Merkmalen

Zusammenhänge zwischen metrischen Merkmalen Zusammenhänge zwischen metrischen Merkmalen Darstellung des Zusammenhangs, Korrelation und Regression Daten liegen zu zwei metrischen Merkmalen vor: Datenpaare (x i, y i ), i = 1,..., n Beispiel: x: Anzahl

Mehr

Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall )

Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall ) Zusammenhänge von Variablen Regressionsanalysen linearer Zusammenhang ( Idealfall ) kein Zusammenhang nichtlinearer monotoner Zusammenhang (i.d.regel berechenbar über Variablentransformationen mittels

Mehr

Linearer Zusammenhang von Datenreihen

Linearer Zusammenhang von Datenreihen Linearer Zusammenhang von Datenreihen Vielen Problemen liegen (möglicherweise) lineare Zusammenhänge zugrunde: Mein Internetanbieter verlangt eine Grundgebühr und rechnet minutenweise ab Ich bestelle ein

Mehr

Korrelation. Übungsbeispiel 1. Übungsbeispiel 4. Übungsbeispiel 2. Übungsbeispiel 3. Korrel.dtp Seite 1

Korrelation. Übungsbeispiel 1. Übungsbeispiel 4. Übungsbeispiel 2. Übungsbeispiel 3. Korrel.dtp Seite 1 Korrelation Die Korrelationsanalyse zeigt Zusammenhänge auf und macht Vorhersagen möglich Was ist Korrelation? Was sagt die Korrelationszahl aus? Wie geht man vor? Korrelation ist eine eindeutige Beziehung

Mehr

Entscheidungsanalyse unter Unsicherheit Entscheidungskriterien in ökonomischen Netzen

Entscheidungsanalyse unter Unsicherheit Entscheidungskriterien in ökonomischen Netzen Entscheidungsanalyse unter Unsicherheit Entscheidungskriterien in ökonomischen Netzen Referat von Guido RECKE Institut für Agrarökonomie der Georg-August-Universität Göttingen Platz der Göttinger Sieben

Mehr

Einleitung 19. Teil I SPSS kennen lernen 25. Kapitel 1 In 25 Minuten zum SPSS-Profi 27

Einleitung 19. Teil I SPSS kennen lernen 25. Kapitel 1 In 25 Minuten zum SPSS-Profi 27 Inhaltsverzeichnis Einleitung 19 SPSS oder PASW oder was? 19 Über dieses Buch 20 Konventionen in diesem Buch 20 Was Sie nicht lesen müssen 21 Törichte Annahmen über den Leser 21 Wie dieses Buch aufgebaut

Mehr

Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel

Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel 16.11.01 MP1 - Grundlagen quantitativer Sozialforschung - (4) Datenanalyse 1 Gliederung Datenanalyse (inferenzstatistisch)

Mehr

Faktorenanalyse. 1. Grundlegende Verfahren. Bacher, SoSe2007

Faktorenanalyse. 1. Grundlegende Verfahren. Bacher, SoSe2007 Faktorenanalyse Bacher, SoSe2007 1. Grundlegende Verfahren explorative FA (EXFA): Für eine Menge von Variablen/Items werden zugrunde liegende gemeinsame (latente) Dimensionen/Faktoren gesucht, die Faktorstruktur

Mehr

Datenanalyse mit SPSS spezifische Analysen

Datenanalyse mit SPSS spezifische Analysen Datenanalyse mit SPSS spezifische Analysen Arnd Florack Tel.: 0251 / 83-34788 E-Mail: florack@psy.uni-muenster.de Raum 2.015 Sprechstunde: Dienstags 15-16 Uhr 25. Mai 2001 2 Auswertung von Häufigkeitsdaten

Mehr

Modul G.1 WS 07/08: Statistik 17.01.2008 1. Die Korrelation ist ein standardisiertes Maß für den linearen Zusammenhangzwischen zwei Variablen.

Modul G.1 WS 07/08: Statistik 17.01.2008 1. Die Korrelation ist ein standardisiertes Maß für den linearen Zusammenhangzwischen zwei Variablen. Modul G.1 WS 07/08: Statistik 17.01.2008 1 Wiederholung Kovarianz und Korrelation Kovarianz = Maß für den linearen Zusammenhang zwischen zwei Variablen x und y Korrelation Die Korrelation ist ein standardisiertes

Mehr

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table("c:\\compaufg\\kredit.

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table(c:\\compaufg\\kredit. Lösung 16.3 Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit

Mehr

Einführung in SPSS. 1. Die Datei Seegräser

Einführung in SPSS. 1. Die Datei Seegräser Einführung in SPSS 1. Die Datei Seegräser An 25 verschiedenen Probestellen wurde jeweils die Anzahl der Seegräser pro m 2 gezählt und das Vorhandensein von Seeigeln vermerkt. 2. Programmaufbau Die wichtigsten

Mehr

Multivariate Statistik

Multivariate Statistik Hermann Singer Multivariate Statistik 1 Auflage 15 Oktober 2012 Seite: 12 KAPITEL 1 FALLSTUDIEN Abbildung 12: Logistische Regression: Geschätzte Wahrscheinlichkeit für schlechte und gute Kredite (rot/blau)

Mehr

Codierungstheorie Rudolf Scharlau, SoSe 2006 9

Codierungstheorie Rudolf Scharlau, SoSe 2006 9 Codierungstheorie Rudolf Scharlau, SoSe 2006 9 2 Optimale Codes Optimalität bezieht sich auf eine gegebene Quelle, d.h. eine Wahrscheinlichkeitsverteilung auf den Symbolen s 1,..., s q des Quellalphabets

Mehr

Kapitel 3. Zufallsvariable. Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion. Erwartungswert, Varianz und Standardabweichung

Kapitel 3. Zufallsvariable. Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion. Erwartungswert, Varianz und Standardabweichung Kapitel 3 Zufallsvariable Josef Leydold c 2006 Mathematische Methoden III Zufallsvariable 1 / 43 Lernziele Diskrete und stetige Zufallsvariable Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion

Mehr

Einführung in die Cluster-Analyse mit SAS

Einführung in die Cluster-Analyse mit SAS Einführung in die Cluster-Analyse mit SAS Benutzertreffen am URZ Carina Ortseifen 4. Juli 2003 Inhalt 1. Clusteranalyse im allgemeinen Definition, Distanzmaße, Gruppierung, Kriterien 2. Clusteranalyse

Mehr

Webergänzung zu Kapitel 10

Webergänzung zu Kapitel 10 Webergänzung zu Kapitel 10 10.1.4 Varianzanalyse (ANOVA: analysis of variance) Im Kapitel 10 haben wir uns hauptsächlich mit Forschungsbeispielen beschäftigt, die nur zwei Ergebnissätze hatten (entweder

Mehr

Varianzanalyse ANOVA

Varianzanalyse ANOVA Varianzanalyse ANOVA Johannes Hain Lehrstuhl für Mathematik VIII Statistik 1/23 Einfaktorielle Varianzanalyse (ANOVA) Bisher war man lediglich in der Lage, mit dem t-test einen Mittelwertsvergleich für

Mehr

3 FORMELN. 3.1. Formeln erzeugen

3 FORMELN. 3.1. Formeln erzeugen Formeln Excel effektiv 3 FORMELN 3.1. Formeln erzeugen Übungen: Quittung... 136 Kalkulation... 138 Bestellung... 128 Kassenbuch.. 132 Aufmaß... 152 Zum Berechnen verwendet Excel Formeln. Diese sind in

Mehr

Fortsetzung zu Binswanger2 Überlegungen zu Geld, Kredit und Wirtschaftswachstum

Fortsetzung zu Binswanger2 Überlegungen zu Geld, Kredit und Wirtschaftswachstum Fortsetzung zu Binswanger2 Überlegungen zu Geld, Kredit und Wirtschaftswachstum Peter Fleissner (Version 05.02.2008) Bisher wurde die Rechung nur mit zirkulierendem konstantem Kapital durchgeführt. Die

Mehr

6. METRISCHE UND KATEGORIALE MERKMALE

6. METRISCHE UND KATEGORIALE MERKMALE 6. METRISCHE UND KATEGORIALE MERKMALE wenn an einer Beobachtungseinheit eine (oder mehrere) metrische und eine (oder mehrere) kategoriale Variable(n) erhoben wurden Beispiel: Haushaltsarbeit von Teenagern

Mehr

Kundenzufriedenheitsbefragung 2014

Kundenzufriedenheitsbefragung 2014 Kundenzufriedenheitsbefragung 2014 Auswertungsband über alle bisher erhobenen Augenoptiker Anton Optik e.k. Februar 2015, V100 Label TÜV SÜD Management Service GmbH 1 1 2 Hintergrund der Erhebung Zusammenfassung

Mehr

Kapitel 23 Lineare Regression

Kapitel 23 Lineare Regression Kapitel 23 Lineare Regression Sowohl einfache als auch multiple Regressionsanalysen können Sie mit dem Befehl STATISTIK REGRESSION LINEAR... durchführen. Dabei lassen sich mit Hilfe diverser Optionen zahlreiche

Mehr

Auswertung und Darstellung wissenschaftlicher Daten (1)

Auswertung und Darstellung wissenschaftlicher Daten (1) Auswertung und Darstellung wissenschaftlicher Daten () Mag. Dr. Andrea Payrhuber Zwei Schritte der Auswertung. Deskriptive Darstellung aller Daten 2. analytische Darstellung (Gruppenvergleiche) SPSS-Andrea

Mehr

Grundlagen von Versuchsmethodik und Datenanalyse

Grundlagen von Versuchsmethodik und Datenanalyse Grundlagen von Versuchsmethodik und Datenanalyse Der Anfang: Hypothesen über Ursache-Wirkungs-Zusammenhänge Ursache Wirkung Koffein verbessert Kurzzeitgedächtnis Gewaltfilme führen zu aggressivem Verhalten

Mehr

Kurze Einführung in IBM SPSS für Windows

Kurze Einführung in IBM SPSS für Windows Kurze Einführung in IBM SPSS für Windows SPSS Inc. Chicago (1968) SPSS GmbH Software München (1986) 1984: Datenanalyse Software für den PC 1992: Datenanalyse Software unter Windows 1993: Datenanalyse Software

Mehr

Box-and-Whisker Plot -0,2 0,8 1,8 2,8 3,8 4,8

Box-and-Whisker Plot -0,2 0,8 1,8 2,8 3,8 4,8 . Aufgabe: Für zwei verschiedene Aktien wurde der relative Kurszuwachs (in % beobachtet. Aus den jeweils 20 Quartaldaten ergaben sich die folgenden Box-Plots. Box-and-Whisker Plot Aktie Aktie 2-0,2 0,8,8

Mehr

GF(2 2 ) Beispiel eines Erweiterungskörpers (1)

GF(2 2 ) Beispiel eines Erweiterungskörpers (1) GF(2 2 ) Beispiel eines Erweiterungskörpers (1) Im Kapitel 2.1 wurde bereits gezeigt, dass die endliche Zahlenmenge {0, 1, 2, 3} q = 4 nicht die Eigenschaften eines Galoisfeldes GF(4) erfüllt. Vielmehr

Mehr

Eine computergestützte Einführung mit

Eine computergestützte Einführung mit Thomas Cleff Deskriptive Statistik und Explorative Datenanalyse Eine computergestützte Einführung mit Excel, SPSS und STATA 3., überarbeitete und erweiterte Auflage ^ Springer Inhaltsverzeichnis 1 Statistik

Mehr

Beteiligung der Beschäftigten an betrieblicher Weiterbildung. und Unternehmensgröße

Beteiligung der Beschäftigten an betrieblicher Weiterbildung. und Unternehmensgröße Beteiligung der Beschäftigten an betrieblicher Weiterbildung und Unternehmensgröße Befunde auf der Grundlage von CVTS3 Friederike Behringer, Gudrun Schönfeld Bonn, Februar 2011 1 Vorbemerkung Im Folgenden

Mehr

Multivariate Verfahren

Multivariate Verfahren Selbstkontrollarbeit 2 Multivariate Verfahren Musterlösung Aufgabe 1 (28 Punkte) Der Marketing-Leiter einer Lebensmittelherstellers möchte herausfinden, mit welchem Richtpreis eine neue Joghurt-Marke auf

Mehr

Univariate/ multivariate Ansätze. Klaus D. Kubinger. Test- und Beratungsstelle. Effektgrößen

Univariate/ multivariate Ansätze. Klaus D. Kubinger. Test- und Beratungsstelle. Effektgrößen Univariate/ multivariate Ansätze Klaus D. Kubinger Effektgrößen Rasch, D. & Kubinger, K.D. (2006). Statistik für das Psychologiestudium Mit Softwareunter-stützung zur Planung und Auswertung von Untersuchungen

Mehr

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50,7 50 51,5 51,7 48,8

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50,7 50 51,5 51,7 48,8 1. Aufgabe: Eine Reifenfirma hat für Winterreifen unterschiedliche Profile entwickelt. Bei jeweils gleicher Geschwindigkeit und auch sonst gleichen Bedingungen wurden die Bremswirkungen gemessen. Die gemessenen

Mehr

ZERTIFIKATE spielend beherrschen

ZERTIFIKATE spielend beherrschen UDI ZAGST / MICHAEL HUBER RUDI ZAGST / MICHAEL HUBER ZERTIFIKATE ZERTIFIKATE spielend beherrschen spielend beherrschen Der Performance-Kick Der Performance-Kick für Ihr für Portfolio Ihr Portfolio inanzbuch

Mehr

12. Vergleich mehrerer Stichproben

12. Vergleich mehrerer Stichproben 12. Vergleich mehrerer Stichproben Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Häufig wollen wir verschiedene Populationen, Verfahren, usw. miteinander vergleichen. Beipiel: Vergleich

Mehr

Willkommen zur Vorlesung Statistik

Willkommen zur Vorlesung Statistik Willkommen zur Vorlesung Statistik Thema dieser Vorlesung: Varianzanalyse Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften Prof. Dr. Wolfgang

Mehr

Prof. Dr. P. von der Lippe Statistik I NK SS 2002 Seite 1

Prof. Dr. P. von der Lippe Statistik I NK SS 2002 Seite 1 Prof. Dr. P. von der Lippe Statistik I NK SS 2002 Seite 1 Aufgabe 1 a) BWL-Student S hat von seinem Lieblingsonkel 10.000 geschenkt bekommen mit der Auflage damit etwas Vernünftiges zu machen. Nachdem

Mehr

5.2. Nichtparametrische Tests. 5.2.1. Zwei unabhängige Stichproben: U- Test nach MANN- WHITNEY

5.2. Nichtparametrische Tests. 5.2.1. Zwei unabhängige Stichproben: U- Test nach MANN- WHITNEY 5.2. Nichtparametrische Tests 5.2.1. Zwei unabhängige Stichproben: U- Test nach MANN- WHITNEY Voraussetzungen: - Die Verteilungen der beiden Grundgesamtheiten sollten eine ähnliche Form aufweisen. - Die

Mehr

Übungsserie Nr. 10 mit Lösungen

Übungsserie Nr. 10 mit Lösungen Übungsserie Nr. 10 mit Lösungen 1 Ein Untersuchungsdesign sieht einen multivariaten Vergleich einer Stichprobe von Frauen mit einer Stichprobe von Männern hinsichtlich der Merkmale X1, X2 und X3 vor (Codierung:

Mehr

Messsystemanalyse (MSA)

Messsystemanalyse (MSA) Messsystemanalyse (MSA) Inhaltsverzeichnis Ursachen & Auswirkungen von Messabweichungen Qualifikations- und Fähigkeitsnachweise Vorteile einer Fähigkeitsuntersuchung Anforderungen an das Messsystem Genauigkeit

Mehr

Die Duration von Standard-Anleihen. - Berechnungsverfahren und Einflussgrößen -

Die Duration von Standard-Anleihen. - Berechnungsverfahren und Einflussgrößen - Die Duration von Standard-Anleihen - Berechnungsverfahren und Einflussgrößen - Gliederung Einleitendes Herleitung einer Berechnungsvorschrift Berechnungsvorschriften für Standardfälle Einflussgrößen und

Mehr

Allgemeines Lineares Modell: Univariate Varianzanalyse und Kovarianzanalyse

Allgemeines Lineares Modell: Univariate Varianzanalyse und Kovarianzanalyse Allgemeines Lineares Modell: Univariate Varianzanalyse und Kovarianzanalyse Univariate Varianz- und Kovarianzanlyse, Multivariate Varianzanalyse und Varianzanalyse mit Messwiederholung finden sich unter

Mehr

Kommentierter SPSS-Output für die multiple Regressionsanalyse (SPSS-Version 17)

Kommentierter SPSS-Output für die multiple Regressionsanalyse (SPSS-Version 17) R.Niketta Multiple Regressionsanalyse Kommentierter SPSS-Output für die multiple Regressionsanalyse (SPSS-Version 17) Daten: Selbstdarstellung und Kontaktsuche in studi.vz (POK VIII, AG 3) Fragestellung:

Mehr

SPSS 16 für b ummies

SPSS 16 für b ummies Felix Brosius SPSS 16 für b ummies WILEY- VCH WILEY-VCH Verlag GmbH & Co. KGaA Inhaltsverzeichnis Über den Autor 7 Einführung 21 Über dieses Buch 21 Konventionen in diesem Buch 22 Was Sie nicht lesen müssen

Mehr

Portfoliotheorie. Von Sebastian Harder

Portfoliotheorie. Von Sebastian Harder Portfoliotheorie Von Sebastian Harder Inhalt - Begriffserläuterung - Allgemeines zur Portfoliotheorie - Volatilität - Diversifikation - Kovarianz - Betafaktor - Korrelationskoeffizient - Betafaktor und

Mehr

Standardab er des. Testwert = 145.5 95% Konfidenzintervall. T df Sig. (2-seitig) Differenz Untere Obere -2.011 698.045-5.82-11.50 -.14.

Standardab er des. Testwert = 145.5 95% Konfidenzintervall. T df Sig. (2-seitig) Differenz Untere Obere -2.011 698.045-5.82-11.50 -.14. Aufgabe : einfacher T-Test Statistik bei einer Stichprobe Standardfehl Standardab er des Mittelwert weichung Mittelwertes 699 39.68 76.59 2.894 Test bei einer Sichprobe Testwert = 45.5 95% Konfidenzintervall

Mehr

2. Eindimensionale (univariate) Datenanalyse

2. Eindimensionale (univariate) Datenanalyse 2. Eindimensionale (univariate) Datenanalyse Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Kennzahlen, Statistiken In der Regel interessieren uns nicht so sehr die beobachteten Einzeldaten

Mehr

Wie arbeite ich mit GEMIS 4.4?

Wie arbeite ich mit GEMIS 4.4? Globales Emissions-Modell Integrierter Systeme (GEMIS) Wie arbeite ich mit GEMIS 4.4? Schritt für Schritt Anleitung (Tour) Tour 2: Ergebnisse von Szenarien Uwe R. Fritsche/Klaus Schmidt Öko-Institut (Institut

Mehr

Koeffizienten der Logitanalyse. Kurt Holm. Almo Statistik-System www.almo-statistik.de holm@almo-statistik.de kurt.holm@jku.at

Koeffizienten der Logitanalyse. Kurt Holm. Almo Statistik-System www.almo-statistik.de holm@almo-statistik.de kurt.holm@jku.at Koeffizienten der Logitanalyse Kurt Holm Almo Statistik-System www.almo-statistik.de holm@almo-statistik.de kurt.holm@jku.at 1 Kurt Holm Koeffizienten der Logitanalyse Eine häufig gestellte Frage lautet:

Mehr

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft Prof. Dr. Helmut Küchenhoff SS08 90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft am 22.7.2008 Anmerkungen Überprüfen Sie bitte sofort, ob Ihre Angabe vollständig ist. Sie sollte

Mehr

DHBW Karlsruhe, Vorlesung Programmieren, Klassen (2)

DHBW Karlsruhe, Vorlesung Programmieren, Klassen (2) DHBW Karlsruhe, Vorlesung Programmieren, Klassen (2) Aufgabe 3 Bankkonto Schreiben Sie eine Klasse, die ein Bankkonto realisiert. Attribute für das Bankkonto sind der Name und Vorname des Kontoinhabers,

Mehr

9. Schätzen und Testen bei unbekannter Varianz

9. Schätzen und Testen bei unbekannter Varianz 9. Schätzen und Testen bei unbekannter Varianz Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Schätzen und Testen bei unbekannter Varianz Wenn wir die Standardabweichung σ nicht kennen,

Mehr

Advanced Encryption Standard. Copyright Stefan Dahler 20. Februar 2010 Version 2.0

Advanced Encryption Standard. Copyright Stefan Dahler 20. Februar 2010 Version 2.0 Advanced Encryption Standard Copyright Stefan Dahler 20. Februar 2010 Version 2.0 Vorwort Diese Präsentation erläutert den Algorithmus AES auf einfachste Art. Mit Hilfe des Wissenschaftlichen Rechners

Mehr

Lineare Algebra - alles was man wissen muß

Lineare Algebra - alles was man wissen muß Statistik für Bioinformatiker SoSe 3 Rainer Spang Lineare Algebra - alles was man wissen muß Der Titel ist natürlich gelogen, aber was wir hier zusammengetragen haben ist zumindest ein Anfang. Weniger

Mehr

Übungsaufgaben zu Kapitel 5. Aufgabe 101. Inhaltsverzeichnis:

Übungsaufgaben zu Kapitel 5. Aufgabe 101. Inhaltsverzeichnis: Inhaltsverzeichnis: Übungsaufgaben zu Kapitel 5... 1 Aufgabe 101... 1 Aufgabe 102... 2 Aufgabe 103... 2 Aufgabe 104... 2 Aufgabe 105... 3 Aufgabe 106... 3 Aufgabe 107... 3 Aufgabe 108... 4 Aufgabe 109...

Mehr

Univariate Lineare Regression. (eine unabhängige Variable)

Univariate Lineare Regression. (eine unabhängige Variable) Univariate Lineare Regression (eine unabhängige Variable) Lineare Regression y=a+bx Präzise lineare Beziehung a.. Intercept b..anstieg y..abhängige Variable x..unabhängige Variable Lineare Regression y=a+bx+e

Mehr

Der Chi Quadrat Test nicht nur für die digitalen Ziffernanalyse geeignet

Der Chi Quadrat Test nicht nur für die digitalen Ziffernanalyse geeignet Der Chi Quadrat Test nicht nur für die digitalen Ziffernanalyse geeignet 1. Einleitung Seit Anfang 2002 finden elektronische Betriebsprüfungen auf der Grundlage der Grundsätze zum Datenzugriff und zur

Mehr

2. Korrelation, lineare Regression und multiple Regression

2. Korrelation, lineare Regression und multiple Regression multiple 2.2 Lineare 2.2 Lineare 1 / 130 2.2 Lineare 2 / 130 2.1 Beispiel: Arbeitsmotivation Untersuchung zur Motivation am Arbeitsplatz in einem Chemie-Konzern 25 Personen werden durch Arbeitsplatz zufällig

Mehr

Fakultät für Wirtschaftswissenschaft. Aufgabenheft zu. Klausur: Modul 32711 Business Intelligence. Termin: 23.09.2014, 11:30 13:30 Uhr

Fakultät für Wirtschaftswissenschaft. Aufgabenheft zu. Klausur: Modul 32711 Business Intelligence. Termin: 23.09.2014, 11:30 13:30 Uhr Fakultät für Wirtschaftswissenschaft Aufgabenheft zu : Modul 32711 Business Intelligence Termin: 23.09.2014, 11:30 13:30 Uhr Prüfer: Univ.-Prof. Dr. U. Baumöl Aufbau und Bewertung der Aufgabe 1 2 3 4 Summe

Mehr

Einführung in die Statistik mir R

Einführung in die Statistik mir R Einführung in die Statistik mir R ww w. syn t egris.de Überblick GESCHÄFTSFÜHRUNG Andreas Baumgart, Business Processes and Service Gunar Hofmann, IT Solutions Sven-Uwe Weller, Design und Development Jens

Mehr

SPSS-Beispiel zu Kapitel 6: Methoden der Reliabilitätsbestimmung 1

SPSS-Beispiel zu Kapitel 6: Methoden der Reliabilitätsbestimmung 1 SPSS-Beispiel zu Kapitel 6: Methoden der Reliabilitätsbestimmung 1 Karin Schermelleh-Engel & Christina S. Werner Inhaltsverzeichnis 1 Empirischer Datensatz... 1 2 Interne Konsistenz... 2 3 Split-Half-Reliabilität...

Mehr

ax 2 + bx + c = 0, (4.1)

ax 2 + bx + c = 0, (4.1) Kapitel 4 Komplexe Zahlen Wenn wir uns auf die reellen Zahlen beschränken, ist die Operation des Wurzelziehens (also die Umkehrung der Potenzierung) nicht immer möglich. Zum Beispiel können wir nicht die

Mehr

x 2 2x + = 3 + Es gibt genau ein x R mit ax + b = 0, denn es gilt

x 2 2x + = 3 + Es gibt genau ein x R mit ax + b = 0, denn es gilt - 17 - Die Frage ist hier also: Für welche x R gilt x = x + 1? Das ist eine quadratische Gleichung für x. Es gilt x = x + 1 x x 3 = 0, und man kann quadratische Ergänzung machen:... ( ) ( ) x x + = 3 +

Mehr

Inhaltsverzeichnis. Regressionsanalyse. http://mesosworld.ch - Stand vom: 20.1.2010 1

Inhaltsverzeichnis. Regressionsanalyse. http://mesosworld.ch - Stand vom: 20.1.2010 1 Inhaltsverzeichnis Regressionsanalyse... 2 Lernhinweise... 2 Einführung... 2 Theorie (1-8)... 2 1. Allgemeine Beziehungen... 3 2. 'Best Fit'... 3 3. 'Ordinary Least Squares'... 4 4. Formel der Regressionskoeffizienten...

Mehr

Computerarithmetik ( )

Computerarithmetik ( ) Anhang A Computerarithmetik ( ) A.1 Zahlendarstellung im Rechner und Computerarithmetik Prinzipiell ist die Menge der im Computer darstellbaren Zahlen endlich. Wie groß diese Menge ist, hängt von der Rechnerarchitektur

Mehr

Kreuztabellenanalyse -Zusammenhangsmaße

Kreuztabellenanalyse -Zusammenhangsmaße Lehrveranstaltung Empirische Forschung und Politikberatung der Universität Bonn, WS 2007/2008 Kreuztabellenanalyse -Zusammenhangsmaße 14. Dezember 2007 Anja Hall, Bundesinstitut für Berufsbildung, AB 2.2:

Mehr

17 Datenbank aufteilen

17 Datenbank aufteilen 17 Datenbank aufteilen Warum teilt man eine Datenbank auf und was bedeutet dies? Eine Access-Datenbankdatei ist ein Monolith. Sie enthält alle notwendigen Objekte wie Tabellen, Abfragen, Formulare, Berichte,

Mehr

Zahlensysteme. Digitale Rechner speichern Daten im Dualsystem 435 dez = 1100110011 binär

Zahlensysteme. Digitale Rechner speichern Daten im Dualsystem 435 dez = 1100110011 binär Zahlensysteme Menschen nutzen zur Angabe von Werten und zum Rechnen vorzugsweise das Dezimalsystem Beispiel 435 Fische aus dem Teich gefischt, d.h. 4 10 2 + 3 10 1 +5 10 0 Digitale Rechner speichern Daten

Mehr

MS-Excel 2003 Datenbanken Pivot-Tabellen

MS-Excel 2003 Datenbanken Pivot-Tabellen The Company Datenbanken Pivot-Tabellen (Schnell-Einführung) Seestrasse 160, CH-8002 Zürich E-Mail: info@iswsolution.ch Autor: F. Frei The Company 2 Inhaltsverzeichnis Inhaltsverzeichnis... 2 Datenbank...

Mehr

Institut für Soziologie Dr. Christian Ganser. Methoden 2. Einführung, grundlegende PASW-Bedienung, univariate Statistik

Institut für Soziologie Dr. Christian Ganser. Methoden 2. Einführung, grundlegende PASW-Bedienung, univariate Statistik Institut für Soziologie Dr. Methoden 2 Einführung, grundlegende PASW-Bedienung, univariate Statistik Programm Wiederholung zentraler Aspekten der Übungen Literatur zur Veranstaltung Erste Schritte mit

Mehr

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 1 Einführung in die statistische Datenanalyse Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 2 Gliederung 1.Grundlagen 2.Nicht-parametrische Tests a. Mann-Whitney-Wilcoxon-U Test b. Wilcoxon-Signed-Rank

Mehr

Excel Pivot-Tabellen 2010 effektiv

Excel Pivot-Tabellen 2010 effektiv 7.2 Berechnete Felder Falls in der Datenquelle die Zahlen nicht in der Form vorliegen wie Sie diese benötigen, können Sie die gewünschten Ergebnisse mit Formeln berechnen. Dazu erzeugen Sie ein berechnetes

Mehr

Primzahlen zwischen 50 und 60. Primzahlen zwischen 70 und 80. Primzahlen zwischen 10 und 20. Primzahlen zwischen 40 und 50. den Term 2*x nennt man

Primzahlen zwischen 50 und 60. Primzahlen zwischen 70 und 80. Primzahlen zwischen 10 und 20. Primzahlen zwischen 40 und 50. den Term 2*x nennt man die kleinste Primzahl zwischen 0 und 60 zwischen 0 und 10 zwischen 60 und 70 zwischen 70 und 80 zwischen 80 und 90 zwischen 90 und 100 zwischen 10 und 20 zwischen 20 und 0 zwischen 0 und 40 zwischen 40

Mehr

Dr. Heidemarie Keller

Dr. Heidemarie Keller Reliabilität und Validität der deutschen Version der OPTION Scale Dr. Heidemarie Keller Abteilung für Allgemeinmedizin, Präventive und Rehabilitative Medizin Philipps-Universität Marburg EbM & Individualisierte

Mehr

Felix-Nicolai Müller. Seminar Fragebogenmethodik - WS2009/2010 - Universität Trier Dr. Dirk Kranz 24.11.2009

Felix-Nicolai Müller. Seminar Fragebogenmethodik - WS2009/2010 - Universität Trier Dr. Dirk Kranz 24.11.2009 Cohen s Kappa Felix-Nicolai Müller Seminar Fragebogenmethodik - WS2009/2010 - Universität Trier Dr. Dirk Kranz 24.11.2009 Felix-Nicolai Müller Cohen s Kappa 24.11.2009 1 / 21 Inhaltsverzeichnis 1 2 3 4

Mehr

$ % + 0 sonst. " p für X =1 $

$ % + 0 sonst.  p für X =1 $ 31 617 Spezielle Verteilungen 6171 Bernoulli Verteilung Wir beschreiben zunächst drei diskrete Verteilungen und beginnen mit einem Zufallsexperiment, indem wir uns für das Eintreffen eines bestimmten Ereignisses

Mehr

Anhang A: Fragebögen und sonstige Unterlagen

Anhang A: Fragebögen und sonstige Unterlagen Anhang Anhang A: Fragebögen und sonstige Unterlagen A.: Flyer zur Probandenrekrutierung 46 A.: Fragebogen zur Meditationserfahrung 47 48 A.3: Fragebogen Angaben zur Person 49 5 5 A.4: Termin- und Einladungsschreiben

Mehr

SFB 833 Bedeutungskonstitution. Kompaktkurs. Datenanalyse. Projekt Z2 Tübingen, Mittwoch, 18. und 20. März 2015

SFB 833 Bedeutungskonstitution. Kompaktkurs. Datenanalyse. Projekt Z2 Tübingen, Mittwoch, 18. und 20. März 2015 SFB 833 Bedeutungskonstitution Kompaktkurs Datenanalyse Projekt Z2 Tübingen, Mittwoch, 18. und 20. März 2015 Messen und Skalen Relativ (Relationensystem): Menge A von Objekten und eine oder mehrere Relationen

Mehr

Grundbegriffe (1) Grundbegriffe (2)

Grundbegriffe (1) Grundbegriffe (2) Grundbegriffe (1) S.1 Äquivalenzklasse Unter einer Äquivalenzklasse versteht man eine Klasse von Objekten, die man hinsichtlich bestimmter Merkmalsausprägungen als gleich (äquivalent) betrachtet. (z.b.

Mehr

Institut für Soziologie. Methoden 2. Regressionsanalyse I: Einfache lineare Regression

Institut für Soziologie. Methoden 2. Regressionsanalyse I: Einfache lineare Regression Institut für Soziologie Methoden 2 Regressionsanalyse I: Einfache lineare Regression Programm Anwendungsbereich Vorgehensweise Interpretation Annahmen Zusammenfassung Übungsaufgabe Literatur # 2 Anwendungsbereich

Mehr

Kategoriale abhängige Variablen: Logit- und Probit -Modelle. Statistik II

Kategoriale abhängige Variablen: Logit- und Probit -Modelle. Statistik II Kategoriale abhängige Variablen: Logit- und Probit -Modelle Statistik II Wiederholung Literatur Annahmen und Annahmeverletzungen Funktionen Exponenten, Wurzeln usw. Das Problem Das binäre Logit-Modell

Mehr