Einführung in die Clusteranalyse

Größe: px
Ab Seite anzeigen:

Download "Einführung in die Clusteranalyse"

Transkript

1 Arbeitsgemeinschaft Statistische Methoden der Sozialwissenschaften Einführung in die Clusteranalyse Fabian Pfeffer 0. Mai 00 Inhaltsverzeichnis Einführung Proximitätsmaße. Ähnlichkeitsmaße bei binären Merkmalen. Distanzmaße bei metrischen Merkmalen Clusteralgorithmen. Hierarchische, agglomerative Clusterverfahren. Das Single-Linkage-Verfahren. Weitere Clusterverfahren. Validitätsprüfung und Interpretation der berechneten Clusterlösung Anwendungsbeispiel. Generelle praktische Vorüberlegungen. Vorstellung des Beispiel-Datensatzes. Distanzmatrix und Dendogramm 5 Ergänzung: Das K-Means-Verfahren 5. Der K-Means-Algorithmus 5. Empirische Umsetzung in Clementine und STATA 6 Fazit Dieses Vortragsskript basiert auf einem Hausarbeitsentwurf und ist als solches sicherlich ausführlicher als im Rahmen des AGSMS-Vortrags notwendig. Für den schnellen Leser sollte aber insbesondere zur Vorbereitung auf den Vortrag die Lektüre der Kapitel (Anfang),.,. und 6 genügen.

2 Einführung Clusteranalyse ist der Begriff für eine Vielzahl verschiedener Verfahren zur Zuordnung einzelner Objekte zu einer Gruppe, sprich Klassifikation einzelner Entitäten. Sie ist eine multivariate statistische Prozedur, um heterogene Objekte einer gegebenen Gesamtheit in relativ homogene Gruppen einzuteilen. Erstmals in den 60er Jahren in der Biologie zur Klassifikation biologischer Spezies angewandt, findet die Clusteranalyse heute in zahlreichen wissenschaftlichen Disziplinen Anwendung; so beispielsweise in der Anthropologie (z.b. Auffinden homogener Kulturregionen), der Psychologie (z.b. Auffinden von Persönlichkeitstypen, Erstellung von Patientenprofilen), der Geografie (z.b. Einteilung in homogene Regionen), der Soziologie und Politologie (z.b. Typologisierung von Individuen oder Ländern) oder der betriebswirtschaftlichen Praxis (z.b. Erstellen von Kundenprofilen). Das methodische Vorgehen der Clusteranalyse geschieht in folgenden Schritten:. Auswahl der zu berücksichtigenden Einheiten und Merkmale. Errechnung der Ähnlichkeit zwischen den Einheiten anhand aller ausgewählter Merkmale. Anwendung eines Fusionierungsalgorithmus zur Gruppeneinteilung. Validitätsprüfung der resultierenden Clusterlösung Es sollte an dieser Stelle betont werden, dass die Clusteranalyse trotz ihres Vorgehens der aktiven Gruppeneinteilung lediglich ein Instrument zur Gruppenaufdeckung darstellt. Sie soll im Datensatz vorhandene Strukturen aufdecken, die so ohne weiteres nicht sichtbar wären. Im Allgemeinen führen verschiedene Clustermethoden jedoch auch zu verschiedenen Ergebnissen. Die eigentliche Herausforderung bei der Clusteranalyse ist entsprechend, zu wissen, welche Gruppen wahr sind und welche den Daten durch die Clustermethode lediglich zugeschrieben wurden (Aldenderfer/Blashfield 98: 6). Das Vorgehen der Klassifikation von Objekten ist wohl einer der zentralen Bausteine der Wissensgenerierung jeder Wissenschaft. Ganz besonders in den Sozialwissenschaften wird die theoretische Weiterentwicklung oft durch klassifikatorische Systeme vorangetrieben (erinnert sei hier für den Fall der Soziologie lediglich an Bourdieus Feine Unterschiede). Die Clusteranalyse kann in dieser Hinsicht folgende Funktionen erfüllen: - Entwicklung neuer Typologien und Klassifikationen - Daran anschließende Generierung neuer Hypothesen - Empirischer (Hypothesen)test bestehender theoretischer Klassifikationskonzepte Da die Methoden der Clusteranalyse relativ simple mathematische Prozeduren ohne tiefgehende statistische Argumentation darstellen, müssen ihre deskriptiven Ergebnisse für eine fruchtbare weitere Verwendung im sozialwissenschaftlichen Erkenntnisprozess zum Großteil durch starke theoretische Explikationen und Interpretationen gestützt werden. Im Folgenden beschränke ich mich jedoch auf die Darstellung der grundlegende methodischen Vorgehensweise der Clusteranalyse. - -

3 Proximitätsmaße In einem ersten Schritt müssen die Ähnlichkeiten zwischen allen Objekten der Gesamtheit paarweise bestimmt werden. Zur Quantifizierung der Ähnlichkeiten zwischen zwei Objekten stehen zwei Arten von Proximitätsmaßen zur Verfügung: i) Ähnlichkeitsmaße zur Beschreibung der Ähnlichkeiten zweier Objekte. Je ähnlicher sich zwei Objekte sind, desto höher das zugehörige Ähnlichkeitsmaß ii) Distanzmaße zur Beschreibung der Unähnlichkeit zweier Objekte. Sie verhalten sich reziprok: Je ähnlicher sich zwei Objekte sind, desto niedriger das Distanzmaß. Die Wahl des Proximitätsmaßes richtet sich in erster Linie nach der Art der Fragestellung: Ähnlichkeitsmaße bieten sich an, um Profil-Ähnlichkeit von Objekten zu untersuchen ohne dabei etwaige Niveauunterschiede der Merkmale zu beachten (so z.b. bei der Untersuchung von Einkommensentwicklungen). Distanzmaße bieten sich an, um absolute Unterschiede zwischen Objekten zu messen (z.b. Untersuchung von Einkommenshöhen). Ferner legt auch das Skalenniveau der Merkmale die Wahl bestimmter Proximitätsmaße nahe: Liegen alle untersuchten Merkmale in Form binärer Variablen vor, so finden Ähnlichkeitsmaße Anwendung, bei metrischer Datenstruktur in der Regel Distanzmaße. In den folgenden Abschnitten werden für beide Fälle einige konkrete Maße vorgeführt. Der Ausgangspunkt der Clusteranalyse ist in beiden Fällen derselbe: Es wird eine Ähnlichkeits- oder Distanzmatrix errechnet, welche (KxK) Objekte kreuztabelliert und ein entsprechendes Proximitätsmaß p enthält (vgl. Tabelle ). Tabelle : Struktur einer Ähnlichkeits- oder Distanzmatrix Objekt Objekt Objekt... Objekt K Objekt p Objekt p p Objekt p p p Objekt K p K p K p K... p KK Die Zellen oberhalb der Hauptdiagonale können leer bleiben, da sie schlicht eine Spiegelung der Zellen unterhalb der Hauptdiagonale entlang dieser wären. Die p- Koeffizienten in den Zellen der Hauptdiagonale geben den Wert für maximale Ähnlichkeit, beziehungsweise minimale Distanz wieder.. Ähnlichkeitsmaße bei binären Merkmalen Sofern alle untersuchten Merkmale in Form 0/-codierter Variablen vorliegen, beziehungsweise nominale Merkmale zu Dummy-Variablen umgewandelt wurden, stehen (unter anderen) folgende Ähnlichkeitskoeffizienten, die jeweils paarweise für zwei Objekte berechnet werden, zur Auswahl: Dichotomisierung von ursprünglich metrischen Variablen ist ein probates Mittel, um ein einheitliches Skalenniveau zu schaffen. Der damit verbundene Informationsverlust kann bekanntermaßen reduziert werden, indem die Ausgangsvariable in m Kategorien aufgeteilt und durch (m-) Dummy-Variablen dargestellt wird. Problematisch ist hierbei allerdings, dass das auf diese Weise verschlüsselte Merkmal mit einem (m-)-fachen Gewicht in die Berechnung eingeht. Dies kann u.u. zu beträchtlichen Verzerrungen in der Analyse führen. - -

4 Tanimoto-(Jaccard) a a + b + c () Russel & Rao (RR) a a + b + c + d = a m () Simple Matching (M) a + d a + d = a + b + c + d m () Wobei a = Anzahl der Merkmale, die bei beiden Objekten zutreffen (X i =Y i =) b = Anzahl der Merkmale, die nur bei Objekt X zutreffen (X i =, Y i =0) c = Anzahl der Merkmale, die nur bei Objekt Y zutreffen (X i =0, Y i =) d = Anzahl der Merkmale, die bei beiden Objekten nicht zutreffen (X i =Y i =0) m = Anzahl aller beobachteter Merkmale (=a+b+c+d) Somit setzt der Tanimoto-(Jaccard)-Koeffizient (Gleichung ) die Anzahl gemeinsamer, zutreffender Merkmale in Verhältnis zu den Merkmalen, die bei mindestens einem der beiden Objekt zutreffen. Der RR-Koeffizient (Gleichung ) hingegen setzt die Anzahl gemeinsamer, zutreffender Merkmale in Verhältnis zur Anzahl aller beobachteten Merkmale. Der M-Koeffizient (Gleichung ) wiederum berücksichtigt im Zähler zusätzlich auch gemeinsame, nicht zutreffende Merkmale, also alle übereinstimmenden Merkmale. Die Darstellung der Ergebnisse der paarweise berechneten Ähnlichkeitskoeffizienten geschieht in einer Ähnlichkeitsmatrix wie in Tabelle. Die drei Ähnlichkeitsmaße weisen einen Wertebereich zwischen 0 (totale Unähnlichkeit) und (totale Ähnlichkeit) auf. Sie liefern allerdings verschieden hohe Ähnlichkeitswerte (generell gilt: M > Tanimoto > RR) und können zu verschiedenen Ähnlichkeitsrangordnung der Objekte führen.. Distanzmaße bei metrischen Merkmalen Weisen alle untersuchten Variablen metrisches oder quasi-metrisches Skalenniveau auf, so werden in der Regel Distanzmaße zur paarweisen Bestimmung der Ähnlichkeit zwischen den Objekten verwendet. (Ein Ähnlichkeitsmaß, das in diesem Fall auch benutzt werden kann ist der Q- Korrelationskoeffizient, auf den an dieser Stelle nicht weiter eingegangen wird). Im Konkreten sind dies: City-Block-Metrik J d p, q = x pj xqj () j= Quadrierte euklidische Distanz J p, q = j= d x x (5) pj qj Für die Wahl eines passenden Ähnlichkeitskoeffizienten ist unter anderem folgende Überlegung wichtig: Hat das Zutreffen einer binär gemessenen Eigenschaft (z.b. Geschlecht= Männlich Weiblich ) in der Realität den selben Informationsgehalt, wie das Nicht-Zutreffen dieser Eigenschaft (Geschlecht Männlich = Weiblich ), so sollte der RR- oder M-Koeffizient verwendet werden, da hier alle Merkmalsübereinstimmungen, ob positiv oder negativ, eingehen. Ist der Informationsgehalt allerdings nicht derselbe (insbeondere bei nachträglich dichotomisierten Merkmalen, z.b. Klasse= Arbeiter ), so muss die negative Übereinstimmung der Dummy- Variablen in der ( nicht-binären ) Realität nicht unbedingt eine Merkmalsübereinstimmung zur Folge haben. Hier sollte man deshalb auf den Tanimoto-Koeffizienten ausweichen. - -

5 Wobei d p,q = Distanz der Objekte p und q x pj bzw. x qj = Wert der Variablen j bei Objekt p bzw. q (j=,,...,j) Wie leicht ersichtlich ist, bauen die angeführten Distanzkoeffizienten auf einer gemeinsamen Basis, der sogenannten L-Norm, auf. Die quadrierte euklidische Distanz unterscheidet sich als Distanzmaß von der City-Block-Metrik dadurch, dass durch die Aufsummierung der quadrierten Differenzwerte aller Variablen große Differenzen mit mehr Gewicht in die Berechnung eingehen (ähnlich z.b. der least-squares-methode in der Regressionsanalyse). Die quadrierte euklidische Distanz liegt zahlreichen Clusteralgorithmen zugrunde, so dass sie auch hier als Proximitätsmaß für alle weiteren Berechnungen herangezogen wird. Clusteralgorithmen Auf Grundlage eines der Proximitätsmaße aus Abschnitt (in den behandelten Verfahren die quadrierte euklidische Distanz) soll nun ein Fusionierungsprozess vorgenommen werden, der eine sinnvolle Zuordnung der einzelnen Objekte zu Gruppen liefert (clustering). Dazu bestehen wiederum zahlreiche Clusteralgorithmen, von denen im Folgenden nur einige wenige vorgestellt werden.. Hierarchische, agglomerative Clusterverfahren Generell unterscheiden wir Clusterverfahren in partitionierende und hierarchische Verfahren. Partitionierende Clusterverfahren bauen auf einer gegebenen Gruppeneinteilung auf und tauschen so lange Objekte zwischen den Gruppen aus, bis eine optimale Einteilung gegeben ist. Dahingegen zeichnen sich hierarchische Clusterverfahren dadurch aus, dass die Gruppenanzahl und - verteilung erst durch schrittweise (und nicht revidierbare ) Verteilung jedes einzelnen Objektes geschieht. Entweder geht man hierzu von der größtmöglichen Gruppe, die alle Objekte umfasst, aus und teilt diese sukzessive in kleinere Gruppen auf (diversive Verfahren) oder startet mit den kleinstmöglichen Gruppen, nämlich allen einzelnen Objekten, und verteilt diese nach und nach auf größere Gruppen (agglomerative Verfahren). Letztere sind die in der Praxis gängigsten Verfahren. Im Weiteren werden deshalb zunächst nur hierarchische, agglomerative Verfahren vorgestellt (Kapitel. und.). Die generelle Vorgehensweise solcher Algorithmen ist folgende (vgl. Backhaus et al. 000):. Erstellen der Distanzmatrix mit allen Einzelobjekten ( feinste Partition ). Suche nach den beiden ähnlichsten Objekten/Clustern (geringste Distanz). Zusammenfassen der beiden ähnlichsten Objekte/Cluster zu einem Cluster. Berechnung der neuen Distanzen und Erstellen einer neuen Distanzmatrix 5. Wiederholung der Schritte - bis alle Objekte einer Gruppe zugeordnet sind Die grafische Darstellung hierarchischer Clusterverfahren geschieht gewöhnlich in Form eines sogenannten Dendogramms (vgl. Abbildung ). Dies ist eine Art Stammbaum, aus dem abzulesen ist, in welchem Schritt welche Objekte zu einem Cluster vereinigt wurden und auf welchem Niveau die Distanz zwischen Bei diesen Verfahren ergibt sich je nach untersuchter Fragestellung unter Umständen das Problem, dass die Wahl der Startpartition (gegebene Gruppenanzahl und -auteilung) oft nur subjektiv begründbar und das empirische Ergebnis damit verstärkt anfechtbar ist

6 den vereinigten Objekten/Clustern jeweils liegt (meist wird die Distanz normiert auf eine Skala von 0 bis 5). Die Lesart der Abbildung verläuft gemäß der Logik der agglomerativen Verfahren von links nach rechts (bei divisiven Verfahren entsprechend umgekehrt). Somit wird in Abbildung nochmals nachvollziehbar, dass mit zunehmender Durchlaufzahl agglomerativer Algorithmen, die Distanz zwischen den vereinigten Objekten höher ist. Abbildung : Aufbau eines Dendogramms für hierarchische Verfahren Distanzmaß bei Clusterfusion (reskaliert) ID òòø òòôòòòòòòòòòòòòòòòòòòòòòòòòòòø òò ó òòòòòòòòûòòòòòòòòòòòø ùòòòòòòòòòòòòòòòòòòòø 5 òòòòòòòò ó ó ó 6 òòòòòòòòòòòòòòòòòòòòôòòòòòòòò ó 7 òòòòòòòòòòòòòòòòòòòò ó 8 òòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò Die Darstellung der Clusterlösung anhand eines Dendogramms bringt einige entscheidende Vorteile mit sich. Speziell werden hier zwei Beobachtungen besonders anschaulich: Deutlich getrennte Klassen sind dadurch erkennbar, dass ihr Zusammenschluss im Verlauf der Clusteranalyse (sprich beim Fortschreiten der Clusterbildung nach rechts ) lange unverändert bleibt. In Abbildung ist dies zum Beispiel für das Cluster der Objekte, und zu beobachten. Ferner fallen in dieser Darstellung gegebenenfalls Ausreißer aus der Datenmenge schnell ins Auge: Sie werden spät oder zuletzt mit anderen Objekten oder Clustern zu einer gemeinsamen Gruppe fusioniert; siehe Objekt 8 in Abbildung. Darüber hinaus bietet die grafische Darstellung des gesamten Clusterprozesses eine entscheidende Hilfestellung für ein in der Clusteranalyse zentrales Problem: Wieviele Cluster werden als endgültige Lösung zur weiteren Verwendung ausgewählt? Jeder Anwender muss selbst wählen, welche Ebene der Clusteranalyse sinnvoll für die gewünschten Zwecke zu Grunde gelegt werden kann, also welche Anzahl von Clustern am ehesten seinen eigenen Vorstellungen entspricht (die einfachste Gruppierungslösung wäre z.b. die Wahl der zwei Cluster, die im letzten Schritt der agglomerativen Clusteranalyse gebildet werden). Denn im Gegensatz zu partitioniertenden Verfahren, bei denen die Clusteranzahl bereits vorgegeben ist, muss die geeignete Ebene der Clusterlösung oftmals außerhalb konkreter statistischer Kriterien ausgewählt werden. Ein Dendogramm kann hier wichtige Dienste leisten. Ein - wenn auch weiches - statistisches Kriterium, das bei der Entscheidung helfen kann, wird in Abschnitt. für den Fall des Ward-Verfahrens angeführt. Darüber hinaus stellen Kaufmann/Pape (996: Absatz. und 6.) einige statistische Plausibilätsüberlegungen und Ansätze zur stochastischen Ermittelung der Clusterzahl vor

7 . Das Single-Linkage-Verfahren Nach dem oben dargestellten Vorgehen, werden beim ersten Durchlauf agglomerativer Algorithmen die zwei ähnlichsten Objekte zu einem ersten Cluster vereinigt. In der Folge muss für dieses neu entstandene Cluster die Distanz zu allen verbleibenden Objekten (in späteren Durchläufen auch anderen Clustern) berechnet werden. Die in der Folge vorgestellten Clusteralgorithmen unterscheiden sich in der Weise der Distanzberechnung zwischen zu Clustern zusammengefassten Objekten. Das weit verbreitete Single-Linkage-Verfahren basiert auf folgender Idee: Die Distanz zwischen einem Cluster M und anderen Objekten/Clustern entspricht der geringsten Distanz zwischen den einzelnen Objekten des Clusters M und anderen Objekten. Nehmen wir an, die Objekte A und B wurden zu einem Cluster AB vereinigt und es soll die Distanz d zu einem Objekt X bestimmt werden, so gilt also folgende Beziehung: oder ausführlicher d(x,ab) = min {d(x,a);d(x,b)} (6) d(x,ab) = 0,5 {d(x,a)+d(x,b) - d(x,a)-d(x,b) } (7) In anderen Worten wird einem neu gebildeten Cluster also die kleinste Distanz zugewiesen, die zwischen den einfachen Distanzen der alten (unvereinigten) Objekte dieses Clusters und einem anderen Objekt bestand. Damit dürfte auch der synonym gebrauchte Name nearest neighbour method oder auch minimum distance method für dieses Verfahren nachvollziehbar werden. Das Vorgehen der single-linkage-methode hat bestimmte absehbare Wirkungen auf die Eigenschaften der entstehenden Clusterlösung: Wenn für die Distanzberechnung alleine der nearest neighbour einbezogen wird, umgekehrt also alle anderen Objekte des untersuchten Clusters nicht ins Gewicht fallen, können letztere beträchtlich weit voneinander entfernt liegen. Eine solche vergleichbar niedrige Anforderung an die Gruppenhomogenität der einzelnen Cluster hat zur Folge, dass dieses Verfahren (im Gegensatz zu allen anderen) relativ unterschiedlich stark besetzte Cluster identifizieren kann. Oftmals liefert es wenige große und viele kleinere Cluster. Letztere dienen insbesondere dazu, etwaige Ausreißer in der Objektmenge zu identifizieren. Andererseits besitzt das single-linkage-verfahren die nachteilhaftige Tendenz zur Kettenbildung: Bei fehlender Trennschärfe zwischen Gruppen und insbesondere bei Bestehen einer Brücke (Objekt das in einer geringen Distanz zu ansonsten hinreichend gut getrennten Gruppen liegt) werden ungerechtfertigt große und folglich heterogene Cluster identifiziert.. Weitere Clusterverfahren Für die Distanzberechnung zwischen neu generierten Clustern besteht eine Reihe weiterer Verfahren, von denen hier nur einige kurz skizziert werden sollen: Complete-Linkage-Verfahren: Praktisch als Gegenstück zum single-linkage- Verfahren wird hier nicht die geringst mögliche sondern die maximale Distanz zwischen den Clustern berechnet. Parallel zu der Veranschaulichung in Gleichung (6) gilt also: d(x,ab) = max {d(x,a);d(x,b)} (8) - 7 -

8 Dies impliziert auch entsprechend gegenläufige Tendenzen der enstehenden Clusterlösung: Durch die Orientierung am furthest neighbour ist das Verfahren einerseits besonders anfällig für Ausreißer (diese sollten um stark verzerrte Clusterlösungen zu vermeiden also vor Berechnung ausgeschlossen werden); andererseits besteht in diesem Verfahren die Tendenz zur Bildung relativ kleiner Gruppen (keine Kettenbildung). Average-Linkage-Verfahren: Nicht überraschend existiert zwischen dem Ansatz des single- und des complete-linkage-verfahrens ein Mittelweg. Das averagelinkage-verfahren berechnet die durchschnittlichen Distanzen zwischen den generierten Clustern. Bestehende Cluster werden hier also mit anderen Objekten/Clustern fusioniert, wenn die Objekte im Mittel hinreichend ähnlich sind. Ähnlich orientiert sich das Zentroid-Verfahren vorrangig für intervallskalierten Merkmale am jeweiligen Klassenschwerpunkt. Ward-Verfahren: Neben einer weiteren Methode der Distanzbildung, unterscheidet sich dieses Verfahren auch im Fusionierungsprozess von den vorgestellten linkage-verfahren. Hier werden diejenigen Objekte/Cluster vereinigt, die einen möglichst geringen Heterogenitätszuwachs (gemessen durch die Fehlerquadratsumme) im Cluster und folglich in der Gesamtheit zur Folge haben. Ausgehend von einer Fehlerquadratsumme von 0 (jedes Objekt bildet ein eigenes Cluster ohne Streuung) sollen jeweils die kleinsten Schritte zur Erhöhung der Fehlerquadratsumme gegangen werden. Die Entscheidung, nach welchem Fusionierungsschritt eine geeignete Clusterlösung erreicht ist, ist wie weiter oben beschrieben zu einem guten Teil von den individuellen Vorstellungen des Betrachters in Hinblick auf sein Untersuchungsziel abhängig. Beim Ward-Verfahren kann die Entscheidung allerdings durch eine statistische Methode, das sogenannte Elbow-Kriterium gestützt werden. Dazu werden in einem Koordinatensystem die Clusteranzahl und ihre korrespondierende Fehlerquadratsumme abgetragen. Ein oftmals deutlich auszumachender Knick ( elbow ) in der entstehenden Gerade weist auf eine sprunghafte Zunahme der Clusterheterogenität hin und legt nahe, nicht über die an dieser Stelle vorliegende Clusterlösung hinauszugehen (vgl. Backhaus/Erichson/Plinke/Weiber 000: 75-76). Außerdem kann darauf hingewiesen werden, dass es sich aufgrund der verschiedenen absehbaren Tendenzen der Verfahren durchaus anbieten kann, mehrere zu kombinieren; z.b. kann das single-linkage-verfahren zum Aufspüren und späteren Ausschluss von Ausreißern einem der oben aufgeführten Verfahren vorgeschaltet werden.. Validitätsprüfung und Interpretation der berechneten Clusterlösung Zur Prüfung der Güte und Interpretation der Ergebnisse der Clusteranalyse stehen mehrere Möglichkeiten offen. Hier sollen drei statistische Mittel und zwei eher pragmatisch Überlegungen kurz skizziert werden: F-Wert: Der F-Wert gibt den Grad der Homogenität der einzelnen Cluster an und kann für jedes Cluster und für jede Variable getrennt nach folgender Formel berechnet werden: - 8 -

9 v(j,c) F = (9) v(j) mit v(j,c) als Varianz der Variable J im Cluster C und v(j) als Varianz der Variable J in der Grundgesamtheit. Wenn F>, liegt im Cluster eine höhere Streuung der Variable vor, als in der Grundgesamtheit und das Cluster ist damit im Hinblick auf diese Variable als nicht homogen zu betrachten. Annehmbare Clusterlösungen sollten deshalb für hinreichend viele, wenn nicht alle Variablen einen F-Wert kleiner innerhalb aller Cluster aufweisen. t-wert: Ergänzend zum F-Wert kann für jede Variable in jedem Cluster ein t- Wert durch folgende Formel bestimmt werden: X(J,C) - X(J) t = (0) S(J) mit X (J, C) / X (J) als Mittelwert der Variable J im Cluster C / in der Grundgesamtheit und S(J) als Standardabweichung der Variable J in der Grundgesamtheit. t>0 zeigt an, dass die Variable J im Cluster C stärker besetzt ist als in der Grundgesamtheit, bzw. bei t<0 schwächer. Damit dienen t-werte vor allem der Interpretation der Cluster ( Wodurch zeichnet sich das Cluster aus? ) und dem Abgleich mit theoretischen Erwartungen (siehe unten), welcher für sich wiederum in gewisser Weise die Güte der Clusterergebnisse prüfen kann. Diskriminanz- oder Regressionsanalyse: Es ist ebenfalls denkbar, die entstandene Clusterlösung durch etablierte statistische Verfahren einer Prüfung zu unterziehen. Eine sich der Clusteranalyse anschließende Diskriminanzanalyse oder logistische Regression definiert als Zielvariable die Zugehörigkeit zu einem der gefundenen Cluster und untersucht den Einfluss der in der Clusteranalyse verwendeten Merkmale als unabhängige Variablen. Daraus sollte erkennbar werden, welche Merkmale besonderen Einfluss zur Bildung der Klassen haben und eine Interpretation der Cluster leichter fallen. Stabilitätsprüfung: Wie aus den bisherigen Ausführungen ersichtlich sein sollte, stehen sowohl verschiedene Ähnlichkeitsmaße wie auch Clusteralgorithmen zur Verwendung. Die Stabilität der Ergebnisse einer Anwendung der Clusteranalyse kann insbesondere überprüft werden, indem eine weitere Clusteranalyse auf Grundlage eines anderen Ähnlichkeitsmaßes und unter Verwendung eines anderen Algorithmus angewandt wird. Dieses Vorgehen mag nicht sonderlich einfallsreich sein, seine Wirksamkeit liegt in Anbetracht der Vielfalt möglicher Clustermethoden allerdings auf der Hand. Eine exakte Übereinstimmung der Clusterlösungen ist allerdings generell nicht zu erwarten. Theoretische Überlegung: Zuletzt - und im Rahmen sozialwissenschaftlicher Forschungspraxis wohl am nächstliegendsten - bleibt der Abgleich der empirischen Ergebnisse mit einem theoretischem Modell. Wenn auf diese Weise ex-ante festgesetzte Typologien oder Klassifikationen bestätigt oder verworfen werden, ist die Clusteranalyse in diesem Sinne auch hypothesentestend

10 Anwendungsbeispiel. Generelle praktische Vorüberlegungen Bevor oben beschriebene Verfahren anhand eines einfachen Beispiel-Datensatzes veranschaulicht werden, sollen kurz einige allgemeine Überlegung zur praktischen Durchführung einer Clusteranalyse angeführt werden. Backhaus et al. führen folgende Punkte an, die vor Durchführung einer Clusteranalyse beachtet werden sollten (000: 80-8): - Ausreißer: Einzelne Objekte, die sich in vielen Merkmalen und extrem von der Masse aller Objekte unterscheiden, führen wie bereits erwähnt zu deutlichen Verzerrungen in der Analyse. Sie sollten deshalb identifiziert (z.b. durch das single-linkage-verfahren) und ausgeschlossen werden. - Hochkorrelierende Variablen: In eine Clusteranalyse gehen alle Variablen mit gleichem Gewicht ein. Liegen korrelierert Variablen vor, die eine gemeinsame latente Variable messen, so geht diese latente Variable ungerechtfertigterweise mit höherem Gewicht in Analyse ein. Der Ausschluss hochkorrelierender Variablen oder die Verdichtung dieser Variable zu einem Faktor durch Faktorenanalyse schaffen Abhilfe. - Konstante Merkmale: Variablen, die für alle Objekte den gleichen oder nahezu gleichen Wert annehmen haben einerseits logischerweise keine Trennungskraft, können andererseits aber durchaus zu Verzerrungen im Prozess der Clusteranalyse führen. Sie sind deshalb auszuschließen. - Verschieden skalierte Variablen: Variablen mit verschieden breiten Skalierungen sollten standardisiert werden, um ungewünschte Gewichtungen einzelner Variablen zu vermeiden. Breitskalierte Variablen lassen eine höhere Varianz zu und gingen als solche mit höherem Gewicht in die Analyse ein.. Vorstellung des Beispiel-Datensatzes Unser Beispieldatensatz besteht aus Beobachtungseinheiten, für welche jeweils folgende Variablen erfasst wurden (vgl. Tabelle ): - Alter: Alter des Befragten in Jahren - SES: Sozioökonomischer Status (Prestigemaß mit W={0;60}) - Distanz: Distanz zwischen Wohn- und Geburtsort in km - Telefon: Monatliche Telefonkosten für Fern- und Auslandsgespräche in - Reisekilometer: Jährlich zurückgelegte Reisekilometer Obwohl ein einfaches Anwendungsbeispiel keiner tiefschürfenden theoretischen Überlegungen bedarf, so ist doch denkbar, dass die hier eingeschlossenen Variablen dazu dienen könnten, mögliche Mobilitätstypen aufzudecken. Wohnmobilität, Fernkontakte und Reisekilometer sollen hier einige Dimensionen des Mobilitätsverhaltens erfassen und mit Alter und sozioökonomischem Status des Befragten in Verbindung gesetzt werden. Die letzte Spalte in Tabelle beinhaltet das Endergebnis der Analyse und soll an dieser Stelle noch nicht interpretiert werden. Gemäß den Ausführungen im vorhergehenden Abschnitt wurden Korrelationen zwischen den Variablen untersucht und in der Mehrzahl der Fälle als nichtexistent und nicht-signifikant gefunden. Einzig die Variable Telefon korreliert mit den Variablen SES und Distanz, wird hier aber aufgrund der ihr unterstellten Messung einer eigenen Dimension in der Analyse beibehalten. Für die weitere - 0 -

11 Analyse wurden ferner alle Variablen zur Vermeidung von ungewünschten Gewichtungen z-standardisiert. Tabelle : Häufigkeitsmatrix ID Alter SES Distanz Telefon Reisekilometer Clusterzuordnung B E A A C B D B C C D D B A. Distanzmatrix und Dendogramm Auf Grundlage der z-standardisierten Variablen wurde die Distanz zwischen allen Objekten durch die quadrierte euklidische Distanz gemessen (vgl. Abschnitt.). Tabelle gibt die entstandene Distanzmatrix wieder. Tabelle : Distanzmatrix ID Quadrierte Euklidische Distanz ,00 9,76,00 7,9 5,59,00 7,98,69,7,00,75,5 8,87 8,,00,7 8,0,,8 0,50,00 0,85 7,7 7,0 8,8 6,79 7,,00,88 5,8 6,9 8,,68,5 9,9,00 0,7 0,9 6,88 5,7,5 9,88,07,6,00,50 6,70 6, 5,6,09 0,55 7,9,,8,00 8,88,5 6,95 9,,6 5,0,58 7, 8,5,09,00 5,0 0,8 0,,86 9,7,,58, 8,7 0,,,00,67,55 6,0 7, 6,7,6 6,0, 8, 8,60 5,75 0,5,00 0,,7,6,9 7, 6, 0,0 0,55,0,88,7,78 8,0,00 Zur Erinnerung: Hohe Distanzwerte zeigen eine geringe Ähnlichkeit zwischen den Objekten an. Damit können in Tabelle erste Beobachtungen über die Unterschiedlichkeit der einzelnen Objekte angestellt werden: Für Objekt (ID) fällt auf, dass hier durchweg besonders hohe Distanzwerte vorliegen. Dies ist ein erster Hinweis darauf, dass dieses Objekt als Ausreißer aus der Datenmenge gelten kann (die spätere Analyse wird dies bestätigen). Bei Nichtberücksichtigung des Objekts finden wir folgende Extremfälle: - Die größte Distanz besteht zwischen Objekt und. Ein Blick auf die Variablenwerte dieser Objekte (vgl. Tabelle ) lässt dies nachvollziehbar werden: Beobachtungseinheit zeichnet sich insbesondere durch ein hohes Alter und sehr geringe Mobilität auf allen drei Mobilitätsdimensionen aus, - -

12 während Objekt bei jungem Alter relativ hohe Mobilität aufweist. - Die geringste Distanz besteht zwischen den Objekten und. In der Tat wird aus Tabelle sichtbar, dass beide Objekte in allen Variablen annährend gleiche Ausprägungen aufweisen. Auf Grundlage der errechneten quadrierten euklidischen Distanzen wird nun als Clusteralgorithmus das Single-Linkage-Verfahren angewandt (vgl..). Tabelle protokolliert die einzelnen Fusionierungsschritte. Im ersten Schritt werden die Objekte und, welche bereits oben als ähnlichste Objekte identifiziert wurden, vereinigt. Es wird ebenfalls der zugrunde liegende Distanzkoeffizient berichtet, welcher in diesem Fall noch direkt aus der Distanzmatrix in Tabelle abzulesen ist; im Verlauf des weiteren Clusterprozesses allerdings nicht mehr, da dem Algorithmus mit jedem Schritt eine um eine Spalte und Zeile reduzierte Distanzmatrix mit neuberechneten Distanzwerten zugrunde liegt. Tabelle : Fusionierungsverlauf Schritt Clusterfusion Cluster Cluster Distanz,7,9 7,58 8,88 5 0,09 6,5, 7,58 5 9,8, 5,88 7 5,0 0,9 Eine sehr viel anschaulichere Darstellung des Fusionsprozesses liefert das zugehörige Dendogramm (vgl. Abbildung ). Erneut können wir hier bereits beobachtete Zusammenhänge nachvollziehen: Die ähnlichsten Objekte und wurden ganz zu Anfang ( früh entspricht hier also links ) fusioniert. Die als weit voneinander entfernte identifizierten Objekte und werden entsprechend erst relativ spät in ein Cluster zusammengefasst (aus dem Fusionsprotokoll in Tabelle wird deutlicher dass dies sogar erst im zweitletzten Schritt und über das Brückenobjekt 7 erfolgt). Auch Objekt wird erwartungsgemäß als eindeutiger Ausreißer identifiziert. Es wird als solches zuletzt und bei hoher Distanz zum letzten Cluster mit diesem fusioniert. Die Entscheidung für eine bestimmte Clusterlösung und deren Interpretation soll durch die Buchstaben A bis D deutlich gemacht werden ( E für den Ausreißer). In der Tat sind die Objekte in den jeweiligen Clustern relativ leicht charakterisierbar: - Cluster A: Tourismustyp (mittleres Alter und SES, geringe Distanz und Telefonkosten, sehr hohe Reisekilometer) - Cluster B: Studententyp (relativ jung und niedriger SES, mittlere Mobilität auf allen drei Dimensionen) - -

13 - Cluster C: Businessreisender (mittleres Alter und hoher SES, mittlere Distanz und Telefonkosten, hohe Reisekilometer) - Cluster D: Immobiler Typ (hohes Alter, mittlerer bis geringer SES, geringe Mobilität auf allen Ebenen) Abbildung : Dendogramm Distanzmaß bei Clusterfusion (reskaliert) Cl. ID A òø A òôòòòòòòòòòòòø A ò ó B òòòûòø ùòòòø B 8 òòò ó ó ó B 6 òòòòòôòòòòòòò ùòòòòòø B òòòòò ó ó C 5 òòòûòòòòòòòø ó ó C 0 òòò ùòòòòò ùòòòòòòòòòòòòòòòòòòòòòòòòòø C 9 òòòòòòòòòòò ó ó D 7 òûòòòòòø ó ó D ò ùòòòòòòòòòòòòòòò ó D òòòòòòò ó E òòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò Wie unter. beschrieben, zeichnen sich deutlich getrennte Klassen dadurch aus, dass ihr Zusammenschluss über folgende Fusionierungsschritte hinweg relativ lange unverändert bleibt. In Abbildung gilt dies zum Beispiel für das Cluster A und D. An dieser Stelle soll die empirische Illustration der angeführten Konzepte enden. In einer tatsächlichen empirischen Untersuchung müsste sich hier natürlich eine eingehende Validitätsprüfung gemäß Abschnitt. anschließen. 5 Ergänzung: Das K-Means-Verfahren Nachdem sich die bisherigen Ausführungen ausschließlich auf hierarchische Clusterverfahren bezogen haben, soll zum Abschluss ergänzend ein Algorithmus aus der Gruppe der partitionierenden Clusterverfahren vorgestellt werden. Bei dem K-Means-Verfahren handelt es sich um ein iterativ-partielles Verfahren, das trotz anderer Grundstruktur des Fusionierungsalgorithmus in Bezug auf mögliche Ausgangsproblematiken, Interpretation und Validitätsprüfung in weiten Teilen den bereits vorgestellten Techniken entspricht. Deshalb konzentrieren sich die folgenden komprimierten Erläuterungen ausschließlich auf die zentralen Besonderheit des K-Means Verfahrens. 5. Der K-Means-Algorithmus Wie bei allen partitionierenden Verfahren wird als Startpunkt des Verfahrens eine bestimmte Anzahl k von Clustern vorgegeben. Der Algorithmus tauscht sodann - -

14 alle Objekte solange zwischen den Clustern aus, bis keine Verbesserung der Clusterstruktur mehr möglich ist, sprich die Streuung innerhalb der Cluster auf ein Minimum gesunken ist. Genauer werden folgende Schritt vollzogen:. Vorgabe der Clusteranzahl k (vgl. Fußnote ). Auswahl von k Initial-Clusterzentren: k Objekte werden als Ausgangs-Clusterzentren festgelegt. Die Auswahl dieser Objekte ist entweder zufallsgesteuert, systematisch (erste k Objekte, systematische Auswahl jedes i-ten Objekts, etc.), statistisch fundiert (die k unähnlichsten Objekte 5 ) oder inhaltlich zu begründen.. Zuordnung aller Objekte zu einem der k Clusterzentren: Jedes Objekt X wird dem Clusterzentrum K zugeordnet, zu dem der geringste Abstand (quadrierte euklidische Distanz) besteht.. Neuberechnung der Clusterzentren: Für solchermaßen generierte neue Cluster muss ein neues Clusterzentrum berechnet werden. Die k Clusterzentren (C k ) ergeben sich als Durchschnitts- Vektor der im Cluster vereinigten Objekte (k means, daher auch der Name), also C = X mit k k x n k x ji( k ) i= jk = nk wobei n k als Anzahl der Objekte im Cluster k und x ji(k) als q-te Variable des Objektes i im Cluster k. () 5. Wiederholung der Schritte - bis keine Neuordnung der Objekte mehr stattfindet (oder Abbruch bei vorgegebenem maximalem Iterationsschritt). Für das K-Means-Verfahren ergeben sich hinsichtlich der Modellprüfung und Interpretation der Cluster einige zusätzliche Möglichkeiten: - Insbesondere durch Veränderung der Initial-Clusterzentren sollte überprüft werden, ob eine stabile Clusterlösung gefunden ist. - Als allgemeine Prüfgröße steht die Streuungsquadratsumme innerhalb der Cluster (die durch den Algorithmus ja stets minimiert werden soll) zur Verfügung. Ähnlich der Varianzanalyse kann diese als (durch die Clusteraufteilung) nicht-erklärte Streuung interpretiert werden. Die Streuungsquadratsumme errechnet sich für alle Variablen j der Objekte g aus Cluster k folgendermaßen: SQ = ( x x () ( k ) gj kj ) k j SQ kann nun beispielsweise für eine verändert Anzahl Cluster untersucht werden und mithilfe statistischer Maße bewertet werden (PRE-Maß, maximale F-Statistik, Bealsche F-Werte, siehe hierzu Bacher 996: 6-) - Da das K-Means-Verfahren sich in seinem Vorgehen stark auf Clusterzentren konzentriert, liegt es auf der Hand, für die Interpretation der entstandenen Cluster ebenfalls vorrangig Bezug auf die Clusterzentren (neben der Clustergröße und -streuung) zu nehmen. So kann beispielsweise der Abstand zwischen den Clustern durch die quadrierten euklidischen Distanzen zwischen 5 Hier ergibt sich allerdings das Problem, dass auf diese Weise auch Ausreißer zu Initial-Clusterzentren werden. - -

15 ihren Clusterzentren gemessen und interpretiert werden; die Signifikanz der Unterschiede zwischen den einzelnen Clustermittelwerten untersucht werden (anhand des t-werts); oder auch der Unterschied zwischen Cluster- und Gesamtmittelwert auf Signifikanz geprüft werden (anhand der z-werte). 5. Empirische Umsetzung in Clementine und STATA Während das Statistikpaket STATA bereits K-Means-Algorithmen umfasst (StataCorp. 00), kommt SPSS bislang ohne diese aus und bietet stattdessen ein eigenständiges Programm für Clusteranalysen mit dem Namen Clementine an (SPSS 00). Sowohl Clementine als auch STATA sollen hier für eine knappe empirische Umsetzung des K-Means-Verfahrens verwendet werden. Der Einfachheit halber greifen wir auf den bereits benutzten Beispieldatensatz zurück (wobei der früher identifizierte Ausreißer ausgeschlossen wurde). Der Beispielcharakter der Anwendung muss hier besonders unterstrichen werden, ist das K-Means-Verfahren doch auf sehr viel größere Datensätze ausgelegt und liefert bei fast überlappungsfreier Clusterstruktur erst ab einer Stichprobengröße über 500 brauchbare Ergebnisse, bei sich überlappenden Clustern bedarf es einer noch höheren Fallzahl (genauer zum asymptotischen Verhalten des K-Means- Verfahrens siehe Bacher 996: 0-6). Dennoch mögen die Berechnungen dazu dienen, das K-Means-Verfahren nochmals zu veranschaulichen und vor allem einige wenige weitere Illustrationsmöglichkeiten für die Ergebnisse von Clusteranalysen darzustellen. Das Programmpaket Clementine bietet einen Algorithmus für das K-Means- Verfahren an, der folgende Setzungen vornimmt: Für die Initialclusterzentren werden die am weitesten voneinander entfernten Objekte ausgewählt. Außerdem werden automatisch alle Variablenwerte über die Formel x i =(x i -x min )/(x max -x min ) standardisiert. Als Distanzmaß ist die quadrierte euklidische Distanz festgelegt. Die verbleibende selbst zu treffende Entscheidung über die Clusteranzahl fiel hier (gemäß der Lösung aus.) auf k=. Der K-Means-Algorithmus kommt nach Iterationen zu einer gleichmäßig verteilten Clusterlösung mit Clustern mit jeweils Objekten und einem Cluster mit Objekten. Es zeigt sich, dass die Objektbesetzung der Cluster exakt jener aus Abschnitt. entspricht! Zur besseren Interpretation der Cluster gibt Clementine für jedes Cluster den Mittelwert samt Standardabweichung an. Aus Tabelle 5 ist damit schnell ersichtlich, welche Cluster den bereits weiter oben gefundenen Mobilitätstypen entsprichen. Tabelle 5: Clementine-Output: Clustermittelwerte und Standardabweichung Alter Reisekm. Telefon SES Distanz Cluster Cluster Cluster Cluster Overall 6,75, 6,0 7,0 0,6 (,75) (8,) (7,) (,0) (,9) 95,0.766,67,.766,67.06,5 (5,) (750,56) (57,7) (5,66) (.55,) 0,0 6, 6,67 56,67,6 (,) (55,08) (0,8) (0,8) (99,7) 86,5 05,0 0,0 6,67,08 (,9) (5,0) (,6) (,55) (9,8),5 7, 8,, 89,6 (79,7) (0,5) (7,6) (5,7) (,9) entspricht Student Business Immobiler Tourist - 5 -

16 Im Programmpaket STATA stehen dem Anwender mehr Einflussmöglichkeiten auf die veränderbaren Teile des K-Means-Algorithmus zur Verfügung. So steht ihm beispielsweise die Wahl der Initialclusterzentren (hier ausgewählt: erste k Objekte) und die Wahl des Ähnlichkeitsmaßes (hier ausgewählt: euklidische Distanz) frei. Es wurden z-standardisierte Werte zugrunde gelegt. Die vorgegebene Clusteranzahl wurde bei k= belassen. Das Ergebnis des Clusterprozesses bestätigt erneut die relativ hohe Stabilität der früher erreichten Clusterlösung: Lediglich zwei Objekte sind hier aus dem Cluster Student in das Cluster Immobile übergewechselt (Objekt 6 und ), ansonsten ist die Verteilung nach wie vor die gleiche wie in den vorhergehenden Clusterlösungen. Dabei gilt folgende Entsprechung: - Studententyp, - Immobiler Typ (+Student), - Tourismustyp und - Businessreisender. STATA ermöglicht die Abtragung der Ausprägungen aller Objekte auf jeweils zwei Variablen in einer sogenannten Scatterplot-Matrix (siehe Annex I). Die Objektpunkte werden mit einer Zahl zwischen und, die deren Clusterzugehörigkeit wiedergibt, dargestellt. In der Matrix in Annex I können nun für alle Variablenkombinationen die Verteilung der Objekte im zweidimensionalen Raum und für diesen die Trennschärfe der Cluster untersucht werden. Es können auch erste Rückschlüsse auf die Trennungskraft einzelner Variablen gezogen werden. Weitergehende statistische Analysemöglichkeiten in diese Richtung wurden bereits in Abschnitt 5. angezeigt. 6 Fazit Ziel war die Beschreibung der grundlegenden Vorgehensweise von Clusteranalysen. Im Rahmen dieser Arbeit konnten aus der Menge möglicher Clusterverfahren nur einige wenige ausgewählt werden. Grundlage jedes Clusterverfahrens ist die Berechnung eines Proximitätskoeffizienten für alle Untersuchungsobjekte. Eine Auswahl der wichtigsten Ähnlichkeits- und Distanzmaße wurde aufgezeigt; für den weiteren Verlauf allerdings ausschließlich die (quadrierte) euklidische Distanz zur Anwendung gebracht. In einem nächsten Schritt wurde die Vorgehensweise von Clusteralgorithmen im Allgemeinen vorgestellt und die Methode hierarchischer, agglomerative Verfahren und hier besonders das single-linkage-verfahren näher betrachtet. Anhand eines einfachen, konstruierten Beispieldatensatzes wurde für letzteres Verfahren eine empirische Illustration vollzogen. Durch eine Distanzmatrix, ein Fusionierungsprotokoll und ein Dendogramm sollten die Grundlagen des Clusteralgorithmus nachvollziehbar gemacht werden. Wenn auch die Güte und die Interpretation der berechneten Clusterlösung in einem solchen Datenbeispiel nicht im Vordergrund steht, so erhielt jene in einer weiterführenden Analyse doch anschauliche Bestätigung: Das ergänzend vorgestellte K-Means-Verfahren als Beispiel für die Klasse partitionierender Clusterverfahren lieferte keine stark abweichenden Ergebnisse. Ferner wurden in diesem Rahmen weitere Darstellungsmöglichkeiten clusteranalytischer Ergebnisse deutlich (Tabelle 5 und Annex I). Darüber hinausgehende grafische Darstellungsmethoden konnten hier nicht behandelt werden, auch wenn ihnen als hilfreiche Stütze des strukturaufdeckenden Zieles der Clusteranalyse besondere Bedeutung zukommt. Auch gewinnen Güteprüfung und Ansätze zur Interpretation der Cluster zur analytischen Einbindung der deskriptiven Ergebnisse in der Praxis sicherlich mehr Gewicht, als ihnen in dieser Arbeit zukommen konnten

17 References Aldenderfer, Mark S./Roger K. Blashfield, 98: Cluster Analysis. Beverly Hills / London / New Delhi: Sage Publications. Bacher, Johann, 996: Clusteranalyse. Anwendungsorientiere Einführung. München / Wien: R. Oldenourg Verlag. Backhaus, Klaus et al., 000: Multivariate Analysemethoden. Eine anwendungsorientierte Einführung. 9. Auflage. Berlin et al.: Springer. Kaufmann, Heinz/Heinz Pape, 996: Clusteranalyse. In: Lutz Fahrmeiret al. (Hrsg.), Multivariate statistische Verfahren. Berlin / New York: de Gruyter, SPSS, 00: K-means Algorithm. Clementine 8.0 Algorithmus Guide StataCorp., 00: Stata Statistical Software: Release 8.0. Cluster Analysis. College Station: Stata Corporation

18 Annex I: STATA-Output: Verteilung der Clusterobjekte auf jeweils zwei Variablen alter 0 - ses - distanz telefon reisekm - 0

Primzahlen und RSA-Verschlüsselung

Primzahlen und RSA-Verschlüsselung Primzahlen und RSA-Verschlüsselung Michael Fütterer und Jonathan Zachhuber 1 Einiges zu Primzahlen Ein paar Definitionen: Wir bezeichnen mit Z die Menge der positiven und negativen ganzen Zahlen, also

Mehr

Auswerten mit Excel. Viele Video-Tutorials auf Youtube z.b. http://www.youtube.com/watch?v=vuuky6xxjro

Auswerten mit Excel. Viele Video-Tutorials auf Youtube z.b. http://www.youtube.com/watch?v=vuuky6xxjro Auswerten mit Excel Viele Video-Tutorials auf Youtube z.b. http://www.youtube.com/watch?v=vuuky6xxjro 1. Pivot-Tabellen erstellen: In der Datenmaske in eine beliebige Zelle klicken Registerkarte Einfügen

Mehr

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren Lineargleichungssysteme: Additions-/ Subtraktionsverfahren W. Kippels 22. Februar 2014 Inhaltsverzeichnis 1 Einleitung 2 2 Lineargleichungssysteme zweiten Grades 2 3 Lineargleichungssysteme höheren als

Mehr

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Vollständigkeit halber aufgeführt. Gehen wir einmal davon aus, dass die von uns angenommenen 70% im Beispiel exakt berechnet sind. Was würde

Mehr

Zeichen bei Zahlen entschlüsseln

Zeichen bei Zahlen entschlüsseln Zeichen bei Zahlen entschlüsseln In diesem Kapitel... Verwendung des Zahlenstrahls Absolut richtige Bestimmung von absoluten Werten Operationen bei Zahlen mit Vorzeichen: Addieren, Subtrahieren, Multiplizieren

Mehr

Statistische Auswertung:

Statistische Auswertung: Statistische Auswertung: Die erhobenen Daten mittels der selbst erstellten Tests (Surfaufgaben) Statistics Punkte aus dem Punkte aus Surftheorietest Punkte aus dem dem und dem Surftheorietest max.14p.

Mehr

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen 7. Clusteranalyse (= Häufungsanalyse; Clustering-Verfahren) wird der multivariaten Statistik zugeordnet Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut,

Mehr

OECD Programme for International Student Assessment PISA 2000. Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland

OECD Programme for International Student Assessment PISA 2000. Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland OECD Programme for International Student Assessment Deutschland PISA 2000 Lösungen der Beispielaufgaben aus dem Mathematiktest Beispielaufgaben PISA-Hauptstudie 2000 Seite 3 UNIT ÄPFEL Beispielaufgaben

Mehr

Berechnung der Erhöhung der Durchschnittsprämien

Berechnung der Erhöhung der Durchschnittsprämien Wolfram Fischer Berechnung der Erhöhung der Durchschnittsprämien Oktober 2004 1 Zusammenfassung Zur Berechnung der Durchschnittsprämien wird das gesamte gemeldete Prämienvolumen Zusammenfassung durch die

Mehr

Professionelle Seminare im Bereich MS-Office

Professionelle Seminare im Bereich MS-Office Der Name BEREICH.VERSCHIEBEN() ist etwas unglücklich gewählt. Man kann mit der Funktion Bereiche zwar verschieben, man kann Bereiche aber auch verkleinern oder vergrößern. Besser wäre es, die Funktion

Mehr

Fortgeschrittene Statistik Logistische Regression

Fortgeschrittene Statistik Logistische Regression Fortgeschrittene Statistik Logistische Regression O D D S, O D D S - R A T I O, L O G I T T R A N S F O R M A T I O N, I N T E R P R E T A T I O N V O N K O E F F I Z I E N T E N, L O G I S T I S C H E

Mehr

Anhand des bereits hergeleiteten Models erstellen wir nun mit der Formel

Anhand des bereits hergeleiteten Models erstellen wir nun mit der Formel Ausarbeitung zum Proseminar Finanzmathematische Modelle und Simulationen bei Raphael Kruse und Prof. Dr. Wolf-Jürgen Beyn zum Thema Simulation des Anlagenpreismodels von Simon Uphus im WS 09/10 Zusammenfassung

Mehr

Das große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten

Das große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten Das große x -4 Alles über das Wer kann beantragen? Generell kann jeder beantragen! Eltern (Mütter UND Väter), die schon während ihrer Elternzeit wieder in Teilzeit arbeiten möchten. Eltern, die während

Mehr

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über Güte von s Grundlegendes zum Konzept der Güte Ableitung der Gütefunktion des Gauss im Einstichprobenproblem Grafische Darstellung der Gütefunktionen des Gauss im Einstichprobenproblem Ableitung der Gütefunktion

Mehr

Die Clusteranalyse 24.06.2009. Clusteranalyse. Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele. methodenlehre ll Clusteranalyse

Die Clusteranalyse 24.06.2009. Clusteranalyse. Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele. methodenlehre ll Clusteranalyse Clusteranalyse Thomas Schäfer SS 2009 1 Die Clusteranalyse Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele Thomas Schäfer SS 2009 2 1 Die Clusteranalyse Grundidee: Eine heterogene Gesamtheit

Mehr

Insiderwissen 2013. Hintergrund

Insiderwissen 2013. Hintergrund Insiderwissen 213 XING EVENTS mit der Eventmanagement-Software für Online Eventregistrierung &Ticketing amiando, hat es sich erneut zur Aufgabe gemacht zu analysieren, wie Eventveranstalter ihre Veranstaltungen

Mehr

Standardisierung von Daten Darstellung von Daten in Texten, Tabellen und Abbildungen. Standardisierung von Daten

Standardisierung von Daten Darstellung von Daten in Texten, Tabellen und Abbildungen. Standardisierung von Daten DAS THEMA: TABELLEN UND ABBILDUNGEN Standardisierung von Daten Darstellung von Daten in Texten, Tabellen und Abbildungen Standardisierung von Daten z-standardisierung Standardnormalverteilung 1 DIE Z-STANDARDISIERUNG

Mehr

QM: Prüfen -1- KN16.08.2010

QM: Prüfen -1- KN16.08.2010 QM: Prüfen -1- KN16.08.2010 2.4 Prüfen 2.4.1 Begriffe, Definitionen Ein wesentlicher Bestandteil der Qualitätssicherung ist das Prüfen. Sie wird aber nicht wie früher nach der Fertigung durch einen Prüfer,

Mehr

Welche Unterschiede gibt es zwischen einem CAPAund einem Audiometrie- Test?

Welche Unterschiede gibt es zwischen einem CAPAund einem Audiometrie- Test? Welche Unterschiede gibt es zwischen einem CAPAund einem Audiometrie- Test? Auch wenn die Messungsmethoden ähnlich sind, ist das Ziel beider Systeme jedoch ein anderes. Gwenolé NEXER g.nexer@hearin gp

Mehr

Tutorial: Homogenitätstest

Tutorial: Homogenitätstest Tutorial: Homogenitätstest Eine Bank möchte die Kreditwürdigkeit potenzieller Kreditnehmer abschätzen. Einerseits lebt die Bank ja von der Vergabe von Krediten, andererseits verursachen Problemkredite

Mehr

Excel 2013. Fortgeschrittene Techniken. Peter Wies. 1. Ausgabe, März 2013 EX2013F

Excel 2013. Fortgeschrittene Techniken. Peter Wies. 1. Ausgabe, März 2013 EX2013F Excel 2013 Peter Wies 1. Ausgabe, März 2013 Fortgeschrittene Techniken EX2013F 15 Excel 2013 - Fortgeschrittene Techniken 15 Spezielle Diagrammbearbeitung In diesem Kapitel erfahren Sie wie Sie die Wert-

Mehr

Varianzanalyse (ANOVA: analysis of variance)

Varianzanalyse (ANOVA: analysis of variance) Varianzanalyse (AOVA: analysis of variance) Einfaktorielle VA Auf der Basis von zwei Stichproben wird bezüglich der Gleichheit der Mittelwerte getestet. Variablen müssen Variablen nur nominalskaliert sein.

Mehr

Konzepte der Informatik

Konzepte der Informatik Konzepte der Informatik Vorkurs Informatik zum WS 2011/2012 26.09. - 30.09.2011 17.10. - 21.10.2011 Dr. Werner Struckmann / Christoph Peltz Stark angelehnt an Kapitel 1 aus "Abenteuer Informatik" von Jens

Mehr

Clustering Seminar für Statistik

Clustering Seminar für Statistik Clustering Markus Kalisch 03.12.2014 1 Ziel von Clustering Finde Gruppen, sodas Elemente innerhalb der gleichen Gruppe möglichst ähnlich sind und Elemente von verschiedenen Gruppen möglichst verschieden

Mehr

1 Mathematische Grundlagen

1 Mathematische Grundlagen Mathematische Grundlagen - 1-1 Mathematische Grundlagen Der Begriff der Menge ist einer der grundlegenden Begriffe in der Mathematik. Mengen dienen dazu, Dinge oder Objekte zu einer Einheit zusammenzufassen.

Mehr

Anwendungshinweise zur Anwendung der Soziometrie

Anwendungshinweise zur Anwendung der Soziometrie Anwendungshinweise zur Anwendung der Soziometrie Einführung Die Soziometrie ist ein Verfahren, welches sich besonders gut dafür eignet, Beziehungen zwischen Mitgliedern einer Gruppe darzustellen. Das Verfahren

Mehr

Willkommen zur Vorlesung Statistik

Willkommen zur Vorlesung Statistik Willkommen zur Vorlesung Statistik Thema dieser Vorlesung: Varianzanalyse Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften Prof. Dr. Wolfgang

Mehr

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis Unterrichtsmaterialien in digitaler und in gedruckter Form Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis Das komplette Material finden Sie hier: Download bei School-Scout.de

Mehr

Was ist eine Clusteranalyse, wann und wie wird sie angewendet?

Was ist eine Clusteranalyse, wann und wie wird sie angewendet? Autor: Dr. Ralf Gutfleisch, Stadt Frankfurt a. M., Bürgeramt, Statistik und Wahlen Was ist eine Clusteranalyse, wann und wie wird sie angewendet? Fragestellung Drei Fragen stehen im Vordergrund dieser

Mehr

Professionelle Diagramme mit Excel 2010 erstellen. Peter Wies. 1. Ausgabe, 2. Aktualisierung, März 2014. Themen-Special W-EX2010DI

Professionelle Diagramme mit Excel 2010 erstellen. Peter Wies. 1. Ausgabe, 2. Aktualisierung, März 2014. Themen-Special W-EX2010DI Peter Wies 1. Ausgabe, 2. Aktualisierung, März 2014 Professionelle Diagramme mit Excel 2010 erstellen Themen-Special W-EX2010DI 2 Professionelle Diagramme mit Excel 2010 erstellen - Themen-Special 2 Wichtige

Mehr

50. Mathematik-Olympiade 2. Stufe (Regionalrunde) Klasse 11 13. 501322 Lösung 10 Punkte

50. Mathematik-Olympiade 2. Stufe (Regionalrunde) Klasse 11 13. 501322 Lösung 10 Punkte 50. Mathematik-Olympiade. Stufe (Regionalrunde) Klasse 3 Lösungen c 00 Aufgabenausschuss des Mathematik-Olympiaden e.v. www.mathematik-olympiaden.de. Alle Rechte vorbehalten. 503 Lösung 0 Punkte Es seien

Mehr

einfache Rendite 0 145 85 1 160 90 2 135 100 3 165 105 4 190 95 5 210 110

einfache Rendite 0 145 85 1 160 90 2 135 100 3 165 105 4 190 95 5 210 110 Übungsbeispiele 1/6 1) Vervollständigen Sie folgende Tabelle: Nr. Aktie A Aktie B Schlusskurs in Schlusskurs in 0 145 85 1 160 90 2 135 100 3 165 105 4 190 95 5 210 110 Arithmetisches Mittel Standardabweichung

Mehr

Plotten von Linien ( nach Jack Bresenham, 1962 )

Plotten von Linien ( nach Jack Bresenham, 1962 ) Plotten von Linien ( nach Jack Bresenham, 1962 ) Ac Eine auf dem Bildschirm darzustellende Linie sieht treppenförmig aus, weil der Computer Linien aus einzelnen (meist quadratischen) Bildpunkten, Pixels

Mehr

Überblick über die Verfahren für Ordinaldaten

Überblick über die Verfahren für Ordinaldaten Verfahren zur Analyse ordinalskalierten Daten 1 Überblick über die Verfahren für Ordinaldaten Unterschiede bei unabhängigen Stichproben Test U Test nach Mann & Whitney H Test nach Kruskal & Wallis parametrische

Mehr

AUTOMATISIERTE HANDELSSYSTEME

AUTOMATISIERTE HANDELSSYSTEME UweGresser Stefan Listing AUTOMATISIERTE HANDELSSYSTEME Erfolgreich investieren mit Gresser K9 FinanzBuch Verlag 1 Einsatz des automatisierten Handelssystems Gresser K9 im Portfoliomanagement Portfoliotheorie

Mehr

METHODENLEHRE I WS 2013/14 THOMAS SCHÄFER

METHODENLEHRE I WS 2013/14 THOMAS SCHÄFER METHODENLEHRE I WS 2013/14 THOMAS SCHÄFER DAS THEMA: INFERENZSTATISTIK IV INFERENZSTATISTISCHE AUSSAGEN FÜR ZUSAMMENHÄNGE UND UNTERSCHIEDE Inferenzstatistik für Zusammenhänge Inferenzstatistik für Unterschiede

Mehr

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft Prof. Dr. Helmut Küchenhoff SS08 90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft am 22.7.2008 Anmerkungen Überprüfen Sie bitte sofort, ob Ihre Angabe vollständig ist. Sie sollte

Mehr

Druckvorlagen Als Druckvorlagen sind dafür vorhanden:!liste1.ken (Kennzahlen)!Liste2.KEN (Kontennachweis)

Druckvorlagen Als Druckvorlagen sind dafür vorhanden:!liste1.ken (Kennzahlen)!Liste2.KEN (Kontennachweis) Kennzahlen und Kennzeichen Dieses Dokument zeigt Ihnen in wenigen kurzen Schritten die Logik und Vorgehensweise der Definition der Kennzahlen und Kennzeichen und deren Auswertung in eigens dafür vorhandenen

Mehr

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen 4. Datenanalyse und Modellbildung Deskriptive Statistik 2-1 2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen Für die Auswertung einer Messreihe, die in Form

Mehr

Guide DynDNS und Portforwarding

Guide DynDNS und Portforwarding Guide DynDNS und Portforwarding Allgemein Um Geräte im lokalen Netzwerk von überall aus über das Internet erreichen zu können, kommt man um die Themen Dynamik DNS (kurz DynDNS) und Portweiterleitung(auch

Mehr

Behörde für Bildung und Sport Abitur 2008 Lehrermaterialien zum Leistungskurs Mathematik

Behörde für Bildung und Sport Abitur 2008 Lehrermaterialien zum Leistungskurs Mathematik Abitur 8 II. Insektenpopulation LA/AG In den Tropen legen die Weibchen einer in Deutschland unbekannten Insektenpopulation jedes Jahr kurz vor Beginn der Regenzeit jeweils 9 Eier und sterben bald darauf.

Mehr

4. Erstellen von Klassen

4. Erstellen von Klassen Statistik mit Tabellenkalkulation 4. Erstellen von Klassen Mit einem einfachen Befehl lässt sich eine Liste von Zahlen auf die Häufigkeit der einzelnen Werte untersuchen. Verwenden Sie dazu den Befehl

Mehr

Universität Bonn 28. Juli 2010 Fachbereich Rechts- und Wirtschaftswissenschaften Statistische Abteilung Prof. Dr. A. Kneip. KLAUSUR Statistik B

Universität Bonn 28. Juli 2010 Fachbereich Rechts- und Wirtschaftswissenschaften Statistische Abteilung Prof. Dr. A. Kneip. KLAUSUR Statistik B Universität Bonn 28. Juli 2010 Fachbereich Rechts- und Wirtschaftswissenschaften Statistische Abteilung Prof. Dr. A. Kneip Sommersemester 2010 KLAUSUR Statistik B Hinweise zur Bearbeitung: Bei allen Teilaufgaben

Mehr

Korrelation (II) Korrelation und Kausalität

Korrelation (II) Korrelation und Kausalität Korrelation (II) Korrelation und Kausalität Situation: Seien X, Y zwei metrisch skalierte Merkmale mit Ausprägungen (x 1, x 2,..., x n ) bzw. (y 1, y 2,..., y n ). D.h. für jede i = 1, 2,..., n bezeichnen

Mehr

Einführung in statistische Analysen

Einführung in statistische Analysen Einführung in statistische Analysen Andreas Thams Econ Boot Camp 2008 Wozu braucht man Statistik? Statistik begegnet uns jeden Tag... Weihnachten macht Deutschen Einkaufslaune. Im Advent überkommt die

Mehr

Korrelation. Übungsbeispiel 1. Übungsbeispiel 4. Übungsbeispiel 2. Übungsbeispiel 3. Korrel.dtp Seite 1

Korrelation. Übungsbeispiel 1. Übungsbeispiel 4. Übungsbeispiel 2. Übungsbeispiel 3. Korrel.dtp Seite 1 Korrelation Die Korrelationsanalyse zeigt Zusammenhänge auf und macht Vorhersagen möglich Was ist Korrelation? Was sagt die Korrelationszahl aus? Wie geht man vor? Korrelation ist eine eindeutige Beziehung

Mehr

Erfolg und Vermögensrückgänge angefertigt im Rahmen der Lehrveranstaltung Nachrichtentechnik von: Eric Hansen, eric-hansen@gmx.de am: 07.09.

Erfolg und Vermögensrückgänge angefertigt im Rahmen der Lehrveranstaltung Nachrichtentechnik von: Eric Hansen, eric-hansen@gmx.de am: 07.09. Abstract zum Thema Handelssysteme Erfolg und Vermögensrückgänge angefertigt im Rahmen der Lehrveranstaltung Nachrichtentechnik von: Eric Hansen, eric-hansen@gmx.de am: 07.09.01 Einleitung: Handelssysteme

Mehr

Data Mining: Einige Grundlagen aus der Stochastik

Data Mining: Einige Grundlagen aus der Stochastik Data Mining: Einige Grundlagen aus der Stochastik Hagen Knaf Studiengang Angewandte Mathematik Hochschule RheinMain 21. Oktober 2015 Vorwort Das vorliegende Skript enthält eine Zusammenfassung verschiedener

Mehr

Stichprobenauslegung. für stetige und binäre Datentypen

Stichprobenauslegung. für stetige und binäre Datentypen Stichprobenauslegung für stetige und binäre Datentypen Roadmap zu Stichproben Hypothese über das interessierende Merkmal aufstellen Stichprobe entnehmen Beobachtete Messwerte abbilden Schluss von der Beobachtung

Mehr

Kontingenzkoeffizient (nach Pearson)

Kontingenzkoeffizient (nach Pearson) Assoziationsmaß für zwei nominale Merkmale misst die Unabhängigkeit zweier Merkmale gibt keine Richtung eines Zusammenhanges an 46 o jl beobachtete Häufigkeiten der Kombination von Merkmalsausprägungen

Mehr

1 topologisches Sortieren

1 topologisches Sortieren Wolfgang Hönig / Andreas Ecke WS 09/0 topologisches Sortieren. Überblick. Solange noch Knoten vorhanden: a) Suche Knoten v, zu dem keine Kante führt (Falls nicht vorhanden keine topologische Sortierung

Mehr

Das Wachstum der deutschen Volkswirtschaft

Das Wachstum der deutschen Volkswirtschaft Institut für Wachstumsstudien www.wachstumsstudien.de IWS-Papier Nr. 1 Das Wachstum der deutschen Volkswirtschaft der Bundesrepublik Deutschland 1950 2002.............Seite 2 Relatives Wachstum in der

Mehr

Um zusammenfassende Berichte zu erstellen, gehen Sie folgendermaßen vor:

Um zusammenfassende Berichte zu erstellen, gehen Sie folgendermaßen vor: Ergebnisreport: mehrere Lehrveranstaltungen zusammenfassen 1 1. Ordner anlegen In der Rolle des Berichterstellers (siehe EvaSys-Editor links oben) können zusammenfassende Ergebnisberichte über mehrere

Mehr

Webergänzung zu Kapitel 10

Webergänzung zu Kapitel 10 Webergänzung zu Kapitel 10 10.1.4 Varianzanalyse (ANOVA: analysis of variance) Im Kapitel 10 haben wir uns hauptsächlich mit Forschungsbeispielen beschäftigt, die nur zwei Ergebnissätze hatten (entweder

Mehr

Mitarbeiterbefragung als PE- und OE-Instrument

Mitarbeiterbefragung als PE- und OE-Instrument Mitarbeiterbefragung als PE- und OE-Instrument 1. Was nützt die Mitarbeiterbefragung? Eine Mitarbeiterbefragung hat den Sinn, die Sichtweisen der im Unternehmen tätigen Menschen zu erkennen und für die

Mehr

Trainingsplan 16-wöchiger Trainingsplan für einen Triathlon (Volkstriathlon), Einsteiger

Trainingsplan 16-wöchiger Trainingsplan für einen Triathlon (Volkstriathlon), Einsteiger Trainingsplan 16-wöchiger Trainingsplan für einen Triathlon (Volkstriathlon), Einsteiger Der Triathlon erfreut sich großer Beliebtheit unter Multisportlern. Neben den bekannten Veranstaltungsformaten wie

Mehr

Das RSA-Verschlüsselungsverfahren 1 Christian Vollmer

Das RSA-Verschlüsselungsverfahren 1 Christian Vollmer Das RSA-Verschlüsselungsverfahren 1 Christian Vollmer Allgemein: Das RSA-Verschlüsselungsverfahren ist ein häufig benutztes Verschlüsselungsverfahren, weil es sehr sicher ist. Es gehört zu der Klasse der

Mehr

Dossier: Rechnungen und Lieferscheine in Word

Dossier: Rechnungen und Lieferscheine in Word www.sekretaerinnen-service.de Dossier: Rechnungen und Lieferscheine in Word Es muss nicht immer Excel sein Wenn Sie eine Vorlage für eine Rechnung oder einen Lieferschein erstellen möchten, brauchen Sie

Mehr

Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken

Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken Dateiname: ecdl5_01_00_documentation_standard.doc Speicherdatum: 14.02.2005 ECDL 2003 Basic Modul 5 Datenbank - Grundlagen

Mehr

Die Methode des Robusten Trends und der CAC40 (Frankreich)

Die Methode des Robusten Trends und der CAC40 (Frankreich) Die Methode des Robusten Trends und der CAC40 (Frankreich) von Dr. Hans Uhlig Zusammenfassung Auch für den CAC40 lässt sich ein robuster Trend bestimmen, wie es für den DAX bereits gezeigt werden konnte

Mehr

Lineare Gleichungssysteme

Lineare Gleichungssysteme Lineare Gleichungssysteme 1 Zwei Gleichungen mit zwei Unbekannten Es kommt häufig vor, dass man nicht mit einer Variablen alleine auskommt, um ein Problem zu lösen. Das folgende Beispiel soll dies verdeutlichen

Mehr

Jede Zahl muss dabei einzeln umgerechnet werden. Beginnen wir also ganz am Anfang mit der Zahl,192.

Jede Zahl muss dabei einzeln umgerechnet werden. Beginnen wir also ganz am Anfang mit der Zahl,192. Binäres und dezimales Zahlensystem Ziel In diesem ersten Schritt geht es darum, die grundlegende Umrechnung aus dem Dezimalsystem in das Binärsystem zu verstehen. Zusätzlich wird auch die andere Richtung,

Mehr

Stellen Sie bitte den Cursor in die Spalte B2 und rufen die Funktion Sverweis auf. Es öffnet sich folgendes Dialogfenster

Stellen Sie bitte den Cursor in die Spalte B2 und rufen die Funktion Sverweis auf. Es öffnet sich folgendes Dialogfenster Es gibt in Excel unter anderem die so genannten Suchfunktionen / Matrixfunktionen Damit können Sie Werte innerhalb eines bestimmten Bereichs suchen. Als Beispiel möchte ich die Funktion Sverweis zeigen.

Mehr

Vermögensbildung: Sparen und Wertsteigerung bei Immobilien liegen vorn

Vermögensbildung: Sparen und Wertsteigerung bei Immobilien liegen vorn An die Redaktionen von Presse, Funk und Fernsehen 32 02. 09. 2002 Vermögensbildung: Sparen und Wertsteigerung bei Immobilien liegen vorn Das aktive Sparen ist nach wie vor die wichtigste Einflussgröße

Mehr

Multicheck Schülerumfrage 2013

Multicheck Schülerumfrage 2013 Multicheck Schülerumfrage 2013 Die gemeinsame Studie von Multicheck und Forschungsinstitut gfs-zürich Sonderauswertung ICT Berufsbildung Schweiz Auswertung der Fragen der ICT Berufsbildung Schweiz Wir

Mehr

EINMALEINS BEZIEHUNGSREICH

EINMALEINS BEZIEHUNGSREICH EINMALEINS BEZIEHUNGSREICH Thema: Übung des kleinen Einmaleins; operative Beziehungen erkunden Stufe: ab 2. Schuljahr Dauer: 2 bis 3 Lektionen Materialien: Kleine Einmaleinstafeln (ohne Farben), Punktefelder

Mehr

In diesem Tutorial lernen Sie, wie Sie einen Termin erfassen und verschiedene Einstellungen zu einem Termin vornehmen können.

In diesem Tutorial lernen Sie, wie Sie einen Termin erfassen und verschiedene Einstellungen zu einem Termin vornehmen können. Tutorial: Wie erfasse ich einen Termin? In diesem Tutorial lernen Sie, wie Sie einen Termin erfassen und verschiedene Einstellungen zu einem Termin vornehmen können. Neben den allgemeinen Angaben zu einem

Mehr

DPF Dynamic Partial distance Function

DPF Dynamic Partial distance Function DPF Dynamic Partial distance Function Vorgelegt von Sebastian Loose (MatrikelNR.: 169172), Computervisualistikstudent im 4. Semester. Hausarbeit zum Papier DPF A Perceptual Distance Function for Image

Mehr

W-Rechnung und Statistik für Ingenieure Übung 11

W-Rechnung und Statistik für Ingenieure Übung 11 W-Rechnung und Statistik für Ingenieure Übung 11 Christoph Kustosz (kustosz@statistik.tu-dortmund.de) Mathematikgebäude Raum 715 Christoph Kustosz (kustosz@statistik.tu-dortmund.de) W-Rechnung und Statistik

Mehr

Klausur zur Vorlesung Multivariate Verfahren, SS 2006 6 Kreditpunkte, 90 min

Klausur zur Vorlesung Multivariate Verfahren, SS 2006 6 Kreditpunkte, 90 min Klausur, Multivariate Verfahren, SS 2006, 6 Kreditpunkte, 90 min 1 Prof. Dr. Fred Böker 08.08.2006 Klausur zur Vorlesung Multivariate Verfahren, SS 2006 6 Kreditpunkte, 90 min Gesamtpunkte: 39 Aufgabe

Mehr

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table("c:\\compaufg\\kredit.

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table(c:\\compaufg\\kredit. Lösung 16.3 Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit

Mehr

Zusammenfassende Beurteilung der Unterrichtsbeispiele für Wirtschaft und Recht

Zusammenfassende Beurteilung der Unterrichtsbeispiele für Wirtschaft und Recht Zusammenfassende Beurteilung der Unterrichtsbeispiele für Wirtschaft und Recht In die Auswertung der Beurteilungen der Unterrichtsbeispiele gingen von Seiten der SchülerInnen insgesamt acht Items ein,

Mehr

Einfache statistische Auswertungen mit dem TI-Nspire

Einfache statistische Auswertungen mit dem TI-Nspire 1. Neues Dokument und darin eine neue Seite anlegen Als Typ 6: Lists & Spreadsheet wählen. Darin die Messwerte in einer Spalte erfassen. Dies ergibt die Urliste. Wenn mehrere Messwerte vorliegen, die diejenigen,

Mehr

Arbeitshilfen zur Auftragsdatenverarbeitung

Arbeitshilfen zur Auftragsdatenverarbeitung Arbeitshilfen zur Auftragsdatenverarbeitung 1 Abgrenzung Die vorliegenden Excel-Tabellen dienen nur als Beispiel, wie anhand von Checklisten die datenschutzrechtlichen Voraussetzungen für die Vergabe einer

Mehr

5 Zusammenhangsmaße, Korrelation und Regression

5 Zusammenhangsmaße, Korrelation und Regression 5 Zusammenhangsmaße, Korrelation und Regression 5.1 Zusammenhangsmaße und Korrelation Aufgabe 5.1 In einem Hauptstudiumsseminar des Lehrstuhls für Wirtschafts- und Sozialstatistik machten die Teilnehmer

Mehr

II. Zum Jugendbegleiter-Programm

II. Zum Jugendbegleiter-Programm II. Zum Jugendbegleiter-Programm A. Zu den Jugendbegleiter/inne/n 1. Einsatz von Jugendbegleiter/inne/n Seit Beginn des Schuljahres 2007/2008 setzen die 501 Modellschulen 7.068 Jugendbegleiter/innen ein.

Mehr

Moderne Behandlung des Grauen Stars

Moderne Behandlung des Grauen Stars Katarakt Moderne Behandlung des Grauen Stars Sehr geehrte Patientin, sehr geehrter Patient, Bei Ihnen wurde eine Trübung der Augenlinse festgestellt, die umgangssprachlich auch Grauer Star genannt wird.

Mehr

1 Einleitung. 1.1 Motivation und Zielsetzung der Untersuchung

1 Einleitung. 1.1 Motivation und Zielsetzung der Untersuchung 1 Einleitung 1.1 Motivation und Zielsetzung der Untersuchung Obgleich Tourenplanungsprobleme zu den am häufigsten untersuchten Problemstellungen des Operations Research zählen, konzentriert sich der Großteil

Mehr

Gleichungen Lösen. Ein graphischer Blick auf Gleichungen

Gleichungen Lösen. Ein graphischer Blick auf Gleichungen Gleichungen Lösen Was bedeutet es, eine Gleichung zu lösen? Was ist überhaupt eine Gleichung? Eine Gleichung ist, grundsätzlich eine Aussage über zwei mathematische Terme, dass sie gleich sind. Ein Term

Mehr

Änderung des IFRS 2 Anteilsbasierte Vergütung

Änderung des IFRS 2 Anteilsbasierte Vergütung Änderung IFRS 2 Änderung des IFRS 2 Anteilsbasierte Vergütung Anwendungsbereich Paragraph 2 wird geändert, Paragraph 3 gestrichen und Paragraph 3A angefügt. 2 Dieser IFRS ist bei der Bilanzierung aller

Mehr

IT-Governance und Social, Mobile und Cloud Computing: Ein Management Framework... Bachelorarbeit

IT-Governance und Social, Mobile und Cloud Computing: Ein Management Framework... Bachelorarbeit IT-Governance und Social, Mobile und Cloud Computing: Ein Management Framework... Bachelorarbeit zur Erlangung des akademischen Grades Bachelor of Science (B.Sc.) im Studiengang Wirtschaftswissenschaft

Mehr

impact ordering Info Produktkonfigurator

impact ordering Info Produktkonfigurator impact ordering Info Copyright Copyright 2013 veenion GmbH Alle Rechte vorbehalten. Kein Teil der Dokumentation darf in irgendeiner Form ohne schriftliche Genehmigung der veenion GmbH reproduziert, verändert

Mehr

Verband der TÜV e. V. STUDIE ZUM IMAGE DER MPU

Verband der TÜV e. V. STUDIE ZUM IMAGE DER MPU Verband der TÜV e. V. STUDIE ZUM IMAGE DER MPU 2 DIE MEDIZINISCH-PSYCHOLOGISCHE UNTERSUCHUNG (MPU) IST HOCH ANGESEHEN Das Image der Medizinisch-Psychologischen Untersuchung (MPU) ist zwiespältig: Das ist

Mehr

Angewandte Ökonometrie, WS 2012/13, 1. Teilprüfung am 6.12.2012 - Lösungen. Das folgende Modell ist ein GARCH(1,1)-Modell:

Angewandte Ökonometrie, WS 2012/13, 1. Teilprüfung am 6.12.2012 - Lösungen. Das folgende Modell ist ein GARCH(1,1)-Modell: Angewandte Ökonometrie, WS 2012/13, 1. Teilprüfung am 6.12.2012 - Lösungen LV-Leiterin: Univ.Prof.Dr. Sylvia Frühwirth-Schnatter 1 Wahr oder falsch? 1. Das folgende Modell ist ein GARCH(1,1)-Modell: Y

Mehr

Dieses erste Kreisdiagramm, bezieht sich auf das gesamte Testergebnis der kompletten 182 getesteten Personen. Ergebnis

Dieses erste Kreisdiagramm, bezieht sich auf das gesamte Testergebnis der kompletten 182 getesteten Personen. Ergebnis Datenanalyse Auswertung Der Kern unseres Projektes liegt ganz klar bei der Fragestellung, ob es möglich ist, Biere von und geschmacklich auseinander halten zu können. Anhand der folgenden Grafiken, sollte

Mehr

Theoretische Grundlagen der Informatik WS 09/10

Theoretische Grundlagen der Informatik WS 09/10 Theoretische Grundlagen der Informatik WS 09/10 - Tutorium 6 - Michael Kirsten und Kai Wallisch Sitzung 13 02.02.2010 Inhaltsverzeichnis 1 Formeln zur Berechnung Aufgabe 1 2 Hamming-Distanz Aufgabe 2 3

Mehr

Modellbildungssysteme: Pädagogische und didaktische Ziele

Modellbildungssysteme: Pädagogische und didaktische Ziele Modellbildungssysteme: Pädagogische und didaktische Ziele Was hat Modellbildung mit der Schule zu tun? Der Bildungsplan 1994 formuliert: "Die schnelle Zunahme des Wissens, die hohe Differenzierung und

Mehr

Leitfaden #1a. "zanox Publisher-Statistik" (next generation)

Leitfaden #1a. zanox Publisher-Statistik (next generation) Leitfaden #1a "zanox Publisher-Statistik" (next generation) Thema: Sortieren von Leads und Sales nach dem Bearbeitungsdatum (inklusive Abschnitt "Filterung nach Transaktionsstatus") 1/8 Leitfaden "Sortieren

Mehr

Suche schlecht beschriftete Bilder mit Eigenen Abfragen

Suche schlecht beschriftete Bilder mit Eigenen Abfragen Suche schlecht beschriftete Bilder mit Eigenen Abfragen Ist die Bilderdatenbank über einen längeren Zeitraum in Benutzung, so steigt die Wahrscheinlichkeit für schlecht beschriftete Bilder 1. Insbesondere

Mehr

Theorie qualitativen Denkens

Theorie qualitativen Denkens Theorie qualitativen Denkens Vorbetrachtungen - vor den 70er Jahren standen vor allem quantitative Forschungen im Mittelpunkt - qualitative Wende in den 70er Jahren in der BRD - seit dem setzt sich qualitatives

Mehr

Repetitionsaufgaben: Lineare Funktionen

Repetitionsaufgaben: Lineare Funktionen Kantonale Fachschaft Mathematik Repetitionsaufgaben: Lineare Funktionen Zusammengestellt von Irina Bayer-Krakvina, KSR Lernziele: - Wissen, was ein Steigungsdreieck einer Geraden ist und wie die Steigungszahl

Mehr

Sollsaldo und Habensaldo

Sollsaldo und Habensaldo ollsaldo und abensaldo Man hört oft die Aussage "Ein ollsaldo steht im aben, und ein abensaldo steht im oll". Da fragt man sich aber, warum der ollsaldo dann ollsaldo heißt und nicht abensaldo, und warum

Mehr

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage:

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage: Zählen und Zahlbereiche Übungsblatt 1 1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage: Für alle m, n N gilt m + n = n + m. in den Satz umschreiben:

Mehr

Gibt es einen Geschmacksunterschied zwischen Coca Cola und Cola Zero?

Gibt es einen Geschmacksunterschied zwischen Coca Cola und Cola Zero? Gibt es einen Geschmacksunterschied zwischen Coca Cola und Cola Zero? Manche sagen: Ja, manche sagen: Nein Wie soll man das objektiv feststellen? Kann man Geschmack objektiv messen? - Geschmack ist subjektiv

Mehr

Erfolgreiche Webseiten: Zur Notwendigkeit die eigene(n) Zielgruppe(n) zu kennen und zu verstehen!

Erfolgreiche Webseiten: Zur Notwendigkeit die eigene(n) Zielgruppe(n) zu kennen und zu verstehen! Erfolgreiche Webseiten: Zur Notwendigkeit die eigene(n) Zielgruppe(n) zu kennen und zu verstehen! www.wee24.de. info@wee24.de. 08382 / 6040561 1 Experten sprechen Ihre Sprache. 2 Unternehmenswebseiten

Mehr

Rekursionen. Georg Anegg 25. November 2009. Methoden und Techniken an Beispielen erklärt

Rekursionen. Georg Anegg 25. November 2009. Methoden und Techniken an Beispielen erklärt Methoden und Techniken an Beispielen erklärt Georg Anegg 5. November 009 Beispiel. Die Folge {a n } sei wie folgt definiert (a, d, q R, q ): a 0 a, a n+ a n q + d (n 0) Man bestimme eine explizite Darstellung

Mehr

Ergebnisse der NOVIBEL-Kundenzufriedenheitsanalyse 2002

Ergebnisse der NOVIBEL-Kundenzufriedenheitsanalyse 2002 Ergebnisse der NOVIBEL-Kundenzufriedenheitsanalyse 2002 1. Grundlagen zum Verständnis der Befragung NOVIBEL führt die Kundenzufriedenheitsanalyse seit dem Jahr 2000 in Zusammenarbeit mit dem Lehrstuhl

Mehr

In diesem Thema lernen wir die Grundlagen der Datenbanken kennen und werden diese lernen einzusetzen. Access. Die Grundlagen der Datenbanken.

In diesem Thema lernen wir die Grundlagen der Datenbanken kennen und werden diese lernen einzusetzen. Access. Die Grundlagen der Datenbanken. In diesem Thema lernen wir die Grundlagen der Datenbanken kennen und werden diese lernen einzusetzen. Access Die Grundlagen der Datenbanken kurspc15 Inhaltsverzeichnis Access... Fehler! Textmarke nicht

Mehr

3. LINEARE GLEICHUNGSSYSTEME

3. LINEARE GLEICHUNGSSYSTEME 176 3. LINEARE GLEICHUNGSSYSTEME 90 Vitamin-C-Gehalt verschiedener Säfte 18,0 mg 35,0 mg 12,5 mg 1. a) 100 ml + 50 ml + 50 ml = 41,75 mg 100 ml 100 ml 100 ml b) : Menge an Kirschsaft in ml y: Menge an

Mehr