Ziel: Unterteilung beobachteter Objekte in homogene Gruppen. Vorab meist weder Anzahl noch Charakteristika der Gruppen bekannt.

Größe: px
Ab Seite anzeigen:

Download "Ziel: Unterteilung beobachteter Objekte in homogene Gruppen. Vorab meist weder Anzahl noch Charakteristika der Gruppen bekannt."

Transkript

1 8 Clusteranalyse Ziel: Unterteilung beobachteter Objekte in homogene Gruppen. Vorab meist weder Anzahl noch Charakteristika der Gruppen bekannt. Anwendungsbeispiele: Mikrobiologie: Ermittlung der Verwandtschaft bei Kleinstlebewesen Medizin: Bestimmung von Patienten mit demselben Krankheitsbild zwecks gezielter Therapie oder Ursachenforschung Marketing: Finden von Absatzregionen mit ähnlichen Merkmalen zwecks gezielter Werbung, Produkttests auf repräsentativen Märkten Schritte einer Clusteranalyse: 1. Messung der Ähnlichkeiten unter Objekten: Berechnung eines Ähnlichkeitsmaßes für jedes Paar von Objekten. 2. Gruppierung der Objekte: Bilden von homogenen Gruppen ähnlicher Objekte, mit großen Unterschieden zwischen den Gruppen (Heterogenität). Beispiel 8.1. Archäologie Relief in der Apadana von Persepolis (Südiran): 24 steinerne persische Bogenschützen mit leichten Unterschieden (Lockung des Barts, Kopfschmuck,...). Fragen: Sind alle Bogenschützen in derselben Zeit entstanden? Stammen sie von einem oder mehreren Bildhauern? Antwort mittels Clusteranalyse. 132

2 Identifikation von 21 Unterschiedsmerkmalen (A - U) zwischen den Schützen. Jedes Merkmal mit nur wenigen Variationen (meist 2 oder 3, bis zu 6). Zur Gruppierung Feststellung der Ähnlichkeiten unter den Bogenschützen. Welche Bogenschützen sind sich am meisten/wenigsten ähnlich? Notwendig: Ähnlichkeitsmaß. Bogen- Merkmal schütze A B C D E F G H I J K L M N O P Q R S T U

3 8.1 Ähnlichkeits- und Distanzmaße Bemerkung 8.2. Wir kehren wieder zur Standard-Notation zurück. p-dimensionales Merkmal X = (X 1,..., X p ) beobachtet an n Objekten. Stichprobe: {x 1,..., x n } mit i-ter Beobachtung x i = (x i,1,..., x i,p ). Darstellung der Stichprobe als Datenmatrix : x 1,1... x 1,p x 1 X =.. =.. x n,1... x n,p x n Die meisten Clusterverfahren teilen x 1,..., x n in k disjunkte, alle Objekte umfassende Gruppen (Cluster) C 1,..., C k ein, so dass C i C j =, i = j, und k C i = {x 1,..., x n }. Jede Beobachtung (Objekt) gehört zu genau einem Cluster. i=1 Definition 8.3. Ähnlichkeitsmaß Gegeben seien n Objekte {x 1,..., x n }. Ein Ähnlichkeitsmaß (similarity measure) s ordnet je zwei Objekten x i, x j einen Ähnlichkeitswert s(x i, x j ) zu. Dabei besitze die Funktion s folgende Eigenschaften: s(x i, x j ) = s(x j, x i ) (Symmetrie) s(x i, x j ) s(x i, x i ). Die symmetrische n n-matrix S = [s(x i, x j )] i,j heißt Ähnlichkeitsmatrix. Häufig fordert man als Normierung s(x i, x j ) [0, 1]. Alternativ: Messung von Unähnlichkeit als Abstand der Objekte: 134

4 Definition 8.4. Distanzmaß Gegeben seien n Objekte {x 1,..., x n }. Ein Distanzmaß d ordnet je zwei Objekten x i, x j einen Abstand d(x i, x j ) zu. Nötige Eigenschaften von d: d(x i, x j ) = d(x j, x i ) (Symmetrie) d(x i, x j ) 0 und d(x i, x i ) = 0. Die symmetrische n n-matrix D = [d(x i, x j )] i,j heißt Distanzmatrix. Gilt zusätzlich d(x i, x j ) d(x i, x l ) + d(x l, x j ) (Dreiecksungleichung), so spricht man von einem metrischen Distanzmaß. Distanzmaße in Ähnlichkeitsmaße umwandeln und umgekehrt: Bemerkung 8.5. Zusammenhang Ähnlichkeitsmaß und Distanzmaß Ist s ein normiertes Ähnlichkeitsmaß mit 0 s(x i, x j ) 1, so ist d mit d(x i, x j ) = 1 s(x i, x j ) ein Distanzmaß. Ist d Distanzmaß mit maximaler Distanz d max = max i,j d(x i, x j ) zwischen zwei Objekten, so ist s mit s(x i, x j ) = 1 d(x i, x j )/d max Ähnlichkeitsmaß. Bemerkung 8.6. Ähnlichkeit und Distanz: Situationen Für verschiedene Situationen benutzt man verschiedene Maße s und d: X 1,..., X p binäre Merkmale mit genau zwei Ausprägungen 0 und 1, X 1,..., X p nominal skaliert (mindestens ein Variable mit mehr als zwei Ausprägungen), X 1,..., X p ordinal skaliert, X 1,..., X p metrisch skaliert. Wir betrachten nur reine Situationen, d.h. alle Merkmale mit selbem Skalenniveau. Bei unterschiedlichen Skalenniveaus alle Merkmale an niedrigstes Skalenniveau anpassen und mit Maß hierfür arbeiten (aber: Informationsverlust) oder ein kombiniertes Maß verwenden. 135

5 Beispiel 8.7. Binäre Variablen Sei X ein 7-dimensionales Merkmal, das in jeder Komponente nur die Ausprägungen 0 und 1 annimmt. Ausprägungen für drei Objekte: x 1 = (1, 0, 0, 1, 0, 1, 1), x 2 = (0, 0, 1, 1, 1, 0, 0), x 3 = (1, 0, 0, 1, 1, 0, 0). Vergleich x 1 und x 2 : An Positionen 2 und 4 stimmen beide Objekte überein, für 1, 3, 5, 6, 7 hingegen nicht. Vergleich x 1 und x 3 : Übereinstimmung an Positionen 1, 2, 3 und 4. x 1 und x 3 scheinen sich ähnlicher zu sein als x 1 und x 2. Bemerkung 8.8. Ähnlichkeits- und Distanzmaße für binäre Variablen Sei X ein p-dimensionales Merkmal, das in jeder Komponente nur die Ausprägungen 0 und 1 annimmt. Kontingenztafel der Anzahl der Kombinationen (1, 1), (1, 0), (0, 1), (0, 0) für je zwei Objekte x i und x j : x i 1 0 Allgemeines Ähnlichkeitsmaß: M(atching)-Koeffizient: S(imilarity)-Koeffizient: x j 1 a b a + b 0 c d c + d s(x i, x j ) = a + c b + d p a + δd a + δd + λ(b + c) s(x i, x j ) = a + d p s(x i, x j ) = a a + b + c 136

6 Beispiel 8.9. Binäre Variablen: Ähnlichkeitstafeln für Beispiel 8.7: x x x x x x Resultierende Matching-Koeffizienten: s(x 1, x 2 ) = 2 7, s(x 1, x 3 ) = 4 7, s(x 2, x 3 ) = 5 7, s(x 1, x 1 ) = s(x 2, x 2 ) = s(x 3, x 3 ) = 7 7 = 1. Ähnlichkeitsmatrix: S = Resultierende Similarity-Koeffizienten: 1 s(x 1, x 2 ) = = 1 6, s(x 1, x 3 ) = 2 s(x 2, x 3 ) = = 0.5. Ähnlichkeitsmatrix: S = = 2 5 Hier sind sich jeweils x 2 und x 3 ähnlicher als x 1 und x 3, und diese wiederum ähnlicher als x 1 und x

7 Bemerkung Ähnlichkeits- und Distanzmaße für nominale Variablen Sei X ein p-dimensionales Merkmal mit nominal skalierten Komponenten, von denen mindestens eine mehr als zwei Ausprägungen annehmen kann. Der verallgemeinerte M-Koeffizient ist s(x i, x j ) = u, wobei u gleich p Anzahl der Komponenten, in denen x i und x j übereinstimmen. Beispiel Bogenschützen (Fortsetzung Beispiel 8.1) Ähnlichkeitsmatrix aus dem verallgemeinerten M-Koeffizienten: S = 1 21 S, mit S = Dabei wurde 0 (Relief an dieser Stelle zerstört) als normale Ausprägung gezählt. Stattdessen möglich: 0 als fehlende Beobachtung interpretieren und Ähnlichkeitswerte unter Berücksichtigung der Nullen adjustieren. 138

8 Beispiel Ordinale Variablen Merkmale Schulbildung (Ausprägungen Hauptschulabschluss, mittlere Reife und Abitur ) und Note in einem Leistungstest (Noten von 5 bis 1). Realisierungen für zwei Personen: x 1 = (mittlere Reife, 3), x 2 = (Abitur, 5) Binärkodierung zur Messung der Ähnlichkeiten: Die 3 Ausprägungen der Schulbildung mittels dreier binärer Variablen kodieren, die das Erreichte von der geringsten bis zur höchsten Schulbildung angeben ( 1 : erreicht, 0 : nicht erreicht, höhere Schulbildung umfasst niedrigere). Für die Note im Leistungstest entsprechend fünf binäre Variablen. Für 1. Person also (1, 1, 1, 0, 0), für 2. Person (1, 0, 0, 0, 0). Neue binäre Beobachtungsvektoren durch Konkatenation: x 1 = (1, 1, 0, 1, 1, 1, 0, 0), x 2 = (1, 1, 1, 1, 0, 0, 0, 0). Bemerkung Ähnlichkeits- und Distanzmaße für ordinale Variablen Sei X p-dimensionales Merkmal mit ordinal skalierten Komponenten. Für jede der p Komponenten Konstruktion so vieler binärer Merkmale, wie die Komponente Ausprägungen besitzt. Die binären Variablen pro Komponente werden von der niedrigsten bis zur erreichten Ausprägung mit der Ausprägung 1 versehen. Restliche binäre Variablen für diese Komponente erhalten Wert 0. Dadurch Umkodierung der ordinalen in binäre Merkmale und Nutzung eines Ähnlichkeitsmaßes für binäre Variablen. Alternativer Vorschlag für ordinalskalierte Merkmale: Kodierung der Merkmalsausprägungen mit den Zahlen 1 bis Anzahl der 139

9 Ausprägungen und Nutzung eines Ähnlichkeits- bzw. Distanzmaßes für metrisch skalierte Variablen. Dann setzt man allerdings mehr an die Variablen voraus, als sie erfüllen. Bemerkung Ähnlichkeits- und Distanzmaße für metrische Variablen Sei X p-dimensionales Merkmal mit metrisch skalierten Komponenten. Meist misst man dann statt der Ähnlichkeit die Distanz. Gängige Maße: L q -Norm ( ) p 1/q d q (x i, x j ) = x i,l x j,l q, q 1, l=1 Euklidische Distanz p d 2 (x i, x j ) = (x i x j ) (x i x j ) = (x i,l x j,l ) 2, l=1 City-Block-Metrik d 1 (x i, x j ) = p x i,l x j,l, l=1 Mahalanobisdistanz d(x i, x j ) = (x i x j ) Σ 1 (x i x j ). Hierbei bezeichnet Σ eine Schätzung der Kovarianzmatrix von (X 1,..., X p ). Die skalenabhängigen L q -Normen sollten stets auf Basis der standardisierten Beobachtungen bestimmt werden. 140

10 euklidische Distanz = Länge der Verbindungsstrecke Abbildung: Euklidische Distanz x 4 x 2 x 1 x 3 Abbildung: City-Block-Metrik x 4 x 2 x 1 x 3 City-Block-Distanz = Länge des Wegs, den man in einer Stadt mit gitterförmigem Straßennetz zurücklegen müsste Abbildung: Mahalanobisdistanz x 4 x 2 x x1 1 x 3 Mahalanobis-Distanz Schritt 1: Kovarianzstruktur feststellen, Transformation auf runde Struktur x 4 x 2 x x1 1 x 3 Schritt 2: In der runden Struktur euklidische Distanzen feststellen 141

11 8.2 Zweiter Schritt: Cluster-Algorithmen Gruppierung der Objekte anhand ihrer Ähnlichkeiten. Unterscheidung: hierarchische und optimal partitionierende Verfahren. Bemerkung Hierarchische Clusterverfahren Hierarchische Clusterverfahren konstruieren eine Folge von Partitionen der Objektmenge. Zwei grundlegende Vorgehensweisen: Agglomerative Verfahren: Start mit maximal möglicher Clusteranzahl (jede Beobachtung bildet eine Gruppe); in jedem Schritt Vereinigung der beiden ähnlichsten bisherigen Cluster zu einem neuen. Divisive Verfahren: Start mit kleinstmöglicher Clusteranzahl (alle Beobachtungen in einer Gruppe); in jedem Schritt Aufspaltung eines Clusters in zwei zueinander möglichst unähnliche Gruppen. Bei beiden Varianten ist die Clusteranzahl nicht im Vorhinein festgelegt, sondern wird während der Durchführung bestimmt. Im Folgenden nur agglomerative Verfahren, da einfacher und in Programmpaketen die Regel. Hierarchische Clusterverfahren benötigen Ähnlichkeits-/ Distanzmaße nicht nur für Paare von Objekten, sondern auch zwischen den Gruppen: Bemerkung Distanz zwischen Clustern Seien n Objekte {x 1,..., x n } in l Gruppen C 1,..., C l mit n 1,..., n l Objekten eingeteilt. Mögliche Abstandsmaße D zwischen Gruppen C i und C j : nächster Nachbar (nearest neighbour): D(C i, C j ) = min d(x a, x b ), x a C i, x b C j (geringste Distanz zwischen je einem Objekt aus C i und C j ) 142

12 entferntester Nachbar (furthest neighbour): D(C i, C j ) = max d(x a, x b ), x a C i, x b C j (größte Distanz zwischen je einer Beobachtung aus C i und C j ) mittlerer Nachbar: D(C i, C j ) = 1 n i n j d(x a, x b ), x a C i x b C j (Durchschnitt aller Distanzen zwischen Beobachtungen aus C i und C j ) Zentroid-Distanz: D(C i, C j ) = x i x j, (euklidischer Abstand zwischen den Gruppenzentren x i = 1 n i xa C i x a ) Hierbei sei d ein Distanzmaß für Abstände zwischen Objekten, vgl. Def Da die Zentroid-Distanz auf der euklidischen Distanz beruht, sollte sie nur für metrische skalierte Variablen benutzt werden. Hierarchische agglomerative Clusterverfahren: Single Linkage Verfahren (nächster Nachbar), Complete Linkage Verfahren (entferntester Nachbar), Average Linkage Verfahren (durchschnittlicher Abstand), Zentroid Verfahren (Zentroid-Distanz). 143

13 Bemerkung Agglomerative Verfahren: Vorgehensbeschreibung Objekte x 1,..., x n sind in k Cluster C 1,..., C k einzuteilen. Ablauf eines agglomerativen Clusterverfahrens auf Basis eines Objekt- Distanzmaßes d (Bem. 8.8, 8.10, 8.13 und 8.14) und einer Clusterdistanz D (Bem. 8.16): 1. Ausgangsclusterung: C i = {x i }, jedes Objekt bildet ein Cluster 2. Wiederholung der folgenden Schritte Berechnung der Distanzen zwischen je zwei Clustern C i und C j für alle i, j (i = j) Vereinigung der beiden Cluster mit der kleinsten Distanz zu einem neuen Cluster; entstehende neue Clusterung: C 1,..., C l bis alle Objekte zu einem Cluster vereint sind. 3. Bestimmung einer geeigneten Clusteranzahl k über geeignetes Kriterium: Durch ein Homogenitätsmaß, d.h. Vorgabe einer Grenze für die Homogenitäten innerhalb der Gruppen, oder mittels des Dendrogramms. Statt eines Distanzmaßes d Verwendung eines Ähnlichkeitsmaßes s möglich, wobei dann Cluster mit der größten Ähnlichkeit vereinigt werden. Bemerkung Dendrogramm Vorlesung Dendrogramm eines hierarchisches Clusterverfahrens zeichnet in Form eines Stammbaums auf, welche Cluster im Ablauf des Verfahrens in welcher Reihenfolge vereinigt (getrennt) wurden. Schematisches Aussehen: 144

14 * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * Dendrogram using Average Linkage (Between Groups) Rescaled Distance Cluster Combine C A S E Label Num Case 8 8 Case Case 7 7 Case 9 9 Case 4 4 Case 6 6 Case Case Case Case Case 5 5 Case 1 1 Case 2 2 Case 3 3 Case Case Case Case Case Case Case Case Case Case Case Links stehen die Objekte (hier bezeichnet mit laufenden Nummern). Senkrechte Striche zeigen an, wo zwei Cluster vereinigt wurden: Von links nach rechts verfolgt man die sukzessive Vereinigung der Cluster. Hier wurden zuerst Objekt 8 und 10 sowie 1 und 2 geclustert (jeweils gleiche, minimale Distanz). Die waagerechte Länge zwischen zwei senkrechten Strichen zeigt die Distanz zwischen den zugehörigen Clustern. Anhaltspunkt für geeignete Clusteranzahl: Suche Stelle im Dendrogramm mit langen waagerechten Strichen über die komplette Höhe des Diagramms (dort deutlich getrennte Cluster mit großer Distanz, die spät vereinigt 145

15 werden). Hier zwei Cluster: eines aus Beobachtungen 15-18, anderes mit Rest. Beispiel Bogenschützen (Fortsetzung Beispiele 8.1 und 8.11) Dendrogramm für die persischen Bogenschützen mittels der Ähnlichkeitsmatrix aus verallgemeinertem M-Koeffizienten und Single-Linkage: Dendrogramm Bogenschützen Die größte Lücke zwischen senkrechten Strichen legt drei Gruppen nahe: zwei große Cluster aus Schützen Nr (ohne 12) sowie 1-8 und 20-24, sowie einzelne Beobachtung Nr. 12. Cluster 1 besteht aus inneren Figuren, Cluster 2 aus Figuren am Rand. Archäologen erhielten ähnliches Ergebnis. 146

16 Bemerkung Bei Verwendung des nächsten, des entferntesten oder des mittleren Nachbarn wachsen die Distanzen während des Clusterns monoton an. Nach Vereinigung von C 1 und C 2 hat C 0 := C 1 C 2 zu jedem anderen Cluster C 3 einen mindestens so großen Abstand wie zuvor C 1 zu C 2 (sei n i die Anzahl der Elemente von Cluster C i, i = 0,..., 3): min d(x a, x b ) = min{ min d(x a, x b ), a C 0,b C 3 a C 1,b C 3 max d(x a, x b ) = max{ max d(x a, x b ), a C 0,b C 3 a C 1,b C 3 D(C 0, C 3 ) = min d(x a, x b )} a C 2,b C 3 max d(x a, x b )} a C 2,b C 3 n 1 n 1 + n 2 D(C 1, C 3 ) + n 2 n 1 + n 2 D(C 2, C 3 ) D(C 1, C 2 ), min d(x a, x b ) a C 1,b C 2 max d(x a, x b ) a C 1,b C 2 Dies gilt jedoch nicht unbedingt bei Verwendung der Zentroid-Distanz, z. B. C 3 = {(0, 0)}, C 1 = {( 0.55, 1)}, C 2 = {(0.55, 1)}. Beispiel Schweizer Banknoten: Kann man mit Hilfe hierarchischer Clusterverfahren die echten von den falschen trennen? Scatterplot der ersten beiden Hauptkomponenten (vgl. Bsp. 4.19): Ergebnisse verschiedener agglomerative Clusterverfahren unter Verwendung des euklidischen Abstandes als Distanzmaß (Quelle: deutscher Wikipedia-Eintrag Hierarchische Clusteranalyse ): 147

17 Single Linkage: Complete Linkage: 148

18 Average Linkage: Zentroid-Verfahren: 149

19 Fazit: Verschiedene Verfahren liefern recht unterschiedliche Ergebnisse. Keines der vier vorgestellten Clusterverfahren liefert hier wirklich gute Ergebnisse. Bei der Wahl der Clusteranzahl neben großen Distanz-Unterschied auch Größe der entstehenden Cluster berücksichtigen (z.b. wenn wie hier bekannt ist, dass ungefähr gleichgroße Cluster gesucht werden). Es gibt aber auch ein Clusterverfahren, dass für das Banknoten-Beispiel ein richtig gutes Ergebnis liefert: Bemerkung Clusterverfahren nach Ward Das Clusterverfahren nach Ward läuft in den gleichen Grundschritten ab wie die anderen agglomerativen Verfahren. In jedem Iterationsschritt werden aber jeweils die beiden Cluster vereint, deren Verbindung den kleinsten Zuwachs an Heterogenität der entstehenden Partition hervorbringt. Sei C 1,..., C l die momentane Partition der Objektmenge. Messung der Heterogenität des Clusters C i über Variabilität innerhalb von C i : x a C i x a x i 2 Dabei ist x i Zentrum des Clusters C i, x y die euklidische Distanz. Heterogenität der Partition C 1,..., C l als Summe der einzelnen Variabilitäten: H(C 1,..., C l = l i=1 x a C i x a x i

20 Eine Vereinigung von zwei Clustern führt zu einem Heterogenitätszuwachs. Es werden diejenigen Cluster C i und C j vereinigt, die zum geringsten Zuwachs führen. Da die euklidische Distanz verwendet wird, sollte das Verfahren von Ward nur für metrisch skalierte Variablen angewendet werden. Übertragung des Ward-Verfahrens auf nominal skalierte Merkmale: Messung der Homogenität der Cluster durch den Informationsinhalt, der in gewissem Sinn ebenfalls die Variabilität innerhalb des Clusters beschreibt. Beispiel Nochmal die Schweizer Banknoten: Ergebnis des Ward- Clusterverfahrens: Abschließende Bemerkung: In R gibt es z. B. den Befehl hclust(). Eine Distanzmatrix kann man mit dist() basteln. 151

21 8.3 Partitionierende Verfahren Im Gegensatz zu hierarchischen bestimmen partitionierende Clustermethoden eine Partitionierung der Objektmenge in k Cluster, so dass ein vorgegebenes Homogenitätskriterium optimiert wird. Dabei geht man meist davon aus, dass die Anzahl k der Cluster bekannt ist oder im Vorhinein geschätzt wurde. Wichtigstes partitionierendes Verfahren: k-means (kmeans() in R) Vorgehen: 1. Aufteilung der beobachteten Objekte in k beliebige Gruppen 2. Bestimmung der Gruppenzentren (Gruppenmittelwerte, Zentroide) 3. Bestimmung des Abstands jedes Objekts zu allen Gruppenzentren 4. Neuzuweisung jedes Objekts zu derjenigen Gruppe, zu deren Zentrum es den geringsten Abstand hat Wiederholung von 2. bis 4., bis keine Neuzuweisung von Objekten mehr vorgenommen wird. Konvergenz: k-means Clustern konvergiert bei Verwendung der L 2 -Distanz und der Gruppenmittelwerte binnen endlich vieler Schritte: Es gibt nur endlich viele Partitionierungen endlich vieler Objekte und daher auch nur endlich viele Gruppenzentren. Im Laufe des Clusterns wird zudem die Summe aller Abstände zu Gruppenzentren immer kleiner. Sind x (l) 1,..., x(l) k die Gruppenzentren und C1 l,..., Cl k die Cluster im l-ten Schritt, so gilt k j=1 i Cj l x i x l j 2 k j=1 i Cj l+1 x i x l j 2 k j=1 i Cj l+1 x i x l+1 j 2 Aber: Kein konvexes Optimierungsproblem. Lösung abhängig von den Startwerten. Es gibt verschiedene Varianten des Verfahrens, die sich im We- 152

22 sentlichen durch eine mehr oder weniger clevere Initialisierung der Zentren unterscheiden. Üblich mehrere Durchläufe mit verschiedenen Startwerten. Man wählt dann die Lösung mit dem geringsten Wert des Zielkriteriums k j=1 i C l x i x l j j 2. Bemerkung Bemerkung zu Clusteranalyseverfahren: Clusteranalyse ist deskriptiv. Es werden keine Tests durchgeführt. Die Effektivität der verschiedenen Clustertechniken hängt von der Lage und Form der wahren Cluster ab, die nicht bekannt sind. Nützlich: Resultate verschiedener Verfahren vergleichen. Führen verschiedene Ansätze zu ähnlichen Ergebnissen, die auch inhaltlich Sinn machen, so kann man auf die gefundenen Cluster vertrauen. Clusteranalysemethoden können ausreißeranfällig sein, insbesondere wenn sie auf der euklidischen Distanz basieren. Ohne die Existenz deutlicher Trennungen keine guten Ergebnisse erzielbar. Nichtlineare Strukturen werden von wenigen Clusteranalyseverfahren getrennt, z.b. kreisförmige (Gruppe 1) innerhalb U-förmiger Punktwolke (Gruppe 2) Statt Objekten kann man auch Variablen clustern: Alternative zur Faktorenanalyse, extrahiert allerdings keine verborgenen Faktoren, sondern findet nur ähnliche Variablengruppen. 153

Multivariate Verfahren

Multivariate Verfahren Multivariate Verfahren Lineare Regression Zweck: Vorhersage x Dimensionsreduktion x x Klassifizierung x x Hauptkomponentenanalyse Korrespondenzanalyse Clusteranalyse Diskriminanzanalyse Eigenschaften:

Mehr

Strukturerkennende Verfahren

Strukturerkennende Verfahren Strukturerkennende Verfahren Viele Verfahren der multivariaten Datenanalyse dienen dazu, die in den Daten vorliegenden Strukturen zu erkennen und zu beschreiben. Dabei kann es sich um Strukturen sehr allgemeiner

Mehr

4.Tutorium Multivariate Verfahren

4.Tutorium Multivariate Verfahren 4.Tutorium Multivariate Verfahren - Clusteranalyse - Hannah Busen: 01.06.2015 und 08.06.2015 Nicole Schüller: 02.06.2015 und 09.06.2015 Institut für Statistik, LMU München 1 / 17 Gliederung 1 Idee der

Mehr

Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07

Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07 Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07 Ziel der Clusteranalyse: Bilde Gruppen (cluster) aus einer Menge multivariater Datenobjekte (stat

Mehr

4.4 Hierarchische Clusteranalyse-Verfahren

4.4 Hierarchische Clusteranalyse-Verfahren Clusteranalyse 18.05.04-1 - 4.4 Hierarchische Clusteranalyse-Verfahren Ablauf von hierarchischen Clusteranalyse-Verfahren: (1) Start jedes Objekt sein eigenes Cluster, also Start mit n Clustern (2) Fusionierung

Mehr

Lösungen zu den Aufgaben zur Multivariaten Statistik Teil 4: Aufgaben zur Clusteranalyse

Lösungen zu den Aufgaben zur Multivariaten Statistik Teil 4: Aufgaben zur Clusteranalyse Prof. Dr. Reinhold Kosfeld Fachbereich Wirtschaftswissenschaften Universität Kassel Lösungen zu den Aufgaben zur Multivariaten Statistik Teil 4: Aufgaben zur Clusteranalyse 1. Erläutern Sie, wie das Konstrukt

Mehr

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer Clusterstruktur kennen, verschiedene

Mehr

5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften 5. Clusteranalyse Vorbemerkungen 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer

Mehr

Entscheidungen bei der Durchführung einer Cluster-Analyse

Entscheidungen bei der Durchführung einer Cluster-Analyse 7712Clusterverfahren Entscheidungen bei der Durchführung einer Cluster-Analyse nach: Eckes, Thomas, und Helmut Roßbach, 1980: Clusteranalysen; Stuttgart:Kohlhammer A. Auswahl der Merkmale Festlegung des

Mehr

Ähnlichkeits- und Distanzmaße

Ähnlichkeits- und Distanzmaße Einheit 1 Ähnlichkeits- und Distanzmaße IFAS JKU Linz c 2015 Multivariate Verfahren 1 0 / 41 Problemstellung Ziel: Bestimmung von Ähnlichkeit zwischen n Objekten, an denen p Merkmale erhoben wurden. Die

Mehr

Clusteranalyse. Gliederung. 1. Einführung 2. Vorgehensweise. 3. Anwendungshinweise 4. Abgrenzung zu Faktorenanalyse 5. Fallbeispiel & SPSS

Clusteranalyse. Gliederung. 1. Einführung 2. Vorgehensweise. 3. Anwendungshinweise 4. Abgrenzung zu Faktorenanalyse 5. Fallbeispiel & SPSS Clusteranalyse Seminar Multivariate Verfahren SS 2010 Seminarleiter: Dr. Thomas Schäfer Theresia Montag, Claudia Wendschuh & Anne Brantl Gliederung 1. Einführung 2. Vorgehensweise 1. Bestimmung der 2.

Mehr

Dr. Ralf Gutfleisch, Stadt Frankfurt a.m.

Dr. Ralf Gutfleisch, Stadt Frankfurt a.m. Zentrale Fragestellungen: Was Wie Wann ist eine Clusteranalyse? wird eine Clusteranalyse angewendet? wird eine Clusteranalyse angewendet? Clusteranalyse = Gruppenbildungsverfahren = eine Vielzahl von Objekten

Mehr

Clustering 2010/06/11 Sebastian Koch 1

Clustering 2010/06/11 Sebastian Koch 1 Clustering 2010/06/11 1 Motivation Quelle: http://www.ha-w.de/media/schulung01.jpg 2010/06/11 2 Was ist Clustering Idee: Gruppierung von Objekten so, dass: Innerhalb einer Gruppe sollen die Objekte möglichst

Mehr

Ähnlichkeits- und Distanzmaße

Ähnlichkeits- und Distanzmaße Ähnlichkeits- und Distanzmaße Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund 11.1.8-1 - Ähnlichkeits- und Distanzmaße Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund 11.1.8 -

Mehr

Clusteranalyse. Florian Löwenstein. Clusteranalyse eoda GmbH

Clusteranalyse. Florian Löwenstein. Clusteranalyse eoda GmbH Florian Löwenstein www.eoda.de 1 Übersicht Hypothesenfreies Verfahren Gehört zur Familie der Data-Mining-Techniken Ganze Verfahrensfamilie Ziel: Informationsreduktion und damit verbunden Abstraktion Typische

Mehr

Mathematisch-Statistische Verfahren des Risiko-Managements - SS

Mathematisch-Statistische Verfahren des Risiko-Managements - SS Clusteranalyse Mathematisch-Statistische Verfahren des Risiko-Managements - SS 2004 Allgemeine Beschreibung (I) Der Begriff Clusteranalyse wird vielfach als Sammelname für eine Reihe mathematisch-statistischer

Mehr

VII Unüberwachte Data-Mining-Verfahren

VII Unüberwachte Data-Mining-Verfahren VII Unüberwachte Data-Mining-Verfahren Clusteranalyse Assoziationsregeln Generalisierte Assoziationsregeln mit Taxonomien Formale Begriffsanalyse Self Organizing Maps Institut AIFB, 00. Alle Rechte vorbehalten.

Mehr

4 Clusteranalyse 4.1 Einführung

4 Clusteranalyse 4.1 Einführung Clusteranalyse.0.0 - - Clusteranalyse. Einführung p Merkmale: X, X,..., X p (metrisch; auch ordinal möglich, falls geeignet nummeriert; nominalskaliert?!) Zu den Merkmalen werden n Datensätze bzw. Datenobjekte

Mehr

Kapitel ML: X (Fortsetzung)

Kapitel ML: X (Fortsetzung) Kapitel ML: X (Fortsetzung) X. Clusteranalyse Einordnung Data Mining Einführung in die Clusteranalyse Hierarchische Verfahren Iterative Verfahren Dichtebasierte Verfahren Cluster-Evaluierung ML: X-31 Cluster

Mehr

Clusteranalyse. Mathematische Symbole Anzahl der Objekte, Versuchspersonen

Clusteranalyse. Mathematische Symbole Anzahl der Objekte, Versuchspersonen Clusteranalyse Ziel: Auffinden von Gruppen ( Cluster ) ähnlicher Obekte (bezogen auf die ausgewählten Variablen). Obekte i selben Cluster haben ähnliche Eigenschaften, Obekte in verschiedenen Clustern

Mehr

... Text Clustern. Clustern. Einführung Clustern. Einführung Clustern

... Text Clustern. Clustern. Einführung Clustern. Einführung Clustern Clustern Tet Clustern Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so daß: Beispiele innerhalb eines Clusters sich sehr ähnlich Beispiele in verschiedenen Clustern

Mehr

Methoden der Klassifikation und ihre mathematischen Grundlagen

Methoden der Klassifikation und ihre mathematischen Grundlagen Methoden der Klassifikation und ihre mathematischen Grundlagen Mengenlehre und Logik A B "Unter einer 'Menge' verstehen wir jede Zusammenfassung M von bestimmten wohlunterschiedenen Objekten unserer Anschauung

Mehr

Einführung in die Cluster-Analyse mit SPSS

Einführung in die Cluster-Analyse mit SPSS Einführung in die -Analyse mit SPSS SPSS-Benutzertreffen am URZ Carina Ortseifen. Juli 00 Inhalt. analyse im allgemeinen Definition, Distanzmaße, Gruppierung, Kriterien. analyse mit SPSS a) Hierarchische

Mehr

Klassifikation und Ähnlichkeitssuche

Klassifikation und Ähnlichkeitssuche Klassifikation und Ähnlichkeitssuche Vorlesung XIII Allgemeines Ziel Rationale Zusammenfassung von Molekülen in Gruppen auf der Basis bestimmter Eigenschaften Auswahl von repräsentativen Molekülen Strukturell

Mehr

Hauptseminar KDD SS 2002

Hauptseminar KDD SS 2002 Hauptseminar KDD SS 2002 Prof. Dr. Hans-Peter Kriegel Eshref Januzaj Karin Kailing Peer Kröger Matthias Schubert Session: Clustering HS KDD, Ludwig-Maximilians-Universität München, SS 2002 1 Inhalt Einleitung

Mehr

6. Multivariate Verfahren Zufallszahlen

6. Multivariate Verfahren Zufallszahlen 4. Zufallszahlen 6. Multivariate Verfahren Zufallszahlen - werden nach einem determinist. Algorithmus erzeugt Pseudozufallszahlen - wirken wie zufäll. Zahlen (sollen sie jedenfalls) Algorithmus: Startwert

Mehr

Einführung in die Ähnlichkeitsmessung

Einführung in die Ähnlichkeitsmessung Einführung in die Ähnlichkeitsmessung Reading Club SS 2008 Similarity Stefanie Sieber stefanie.sieber@uni-bamberg.de Lehrstuhl für Medieninformatik Otto-Friedrich-Universität Bamberg Agenda Worum geht

Mehr

Clustern: Voraussetzungen

Clustern: Voraussetzungen Clustering Gruppen (Cluster) ähnlicher Elemente bilden Elemente in einem Cluster sollen sich möglichst ähnlich sein, u. den Elementen in anderen Clustern möglichst unähnlich im Gegensatz zu Kategorisierung

Mehr

Multivariate Verfahren

Multivariate Verfahren Multivariate Verfahren Oliver Muthmann 31. Mai 2007 Gliederung 1 Einführung 2 Varianzanalyse (MANOVA) 3 Regressionsanalyse 4 Faktorenanalyse Hauptkomponentenanalyse 5 Clusteranalyse 6 Zusammenfassung Komplexe

Mehr

Reader Teil 5: Clusteranalyse

Reader Teil 5: Clusteranalyse r. Katharina est Sommersemester 2011 12. Mai 2011 Reader Teil 5: Clusteranalyse WiMa-raktikum ei der Clusteranalyse wollen wir Gruppen in aten auffinden. ie Aufgabe ist, in vorhandenen aten Klassen resp.

Mehr

Die Clusteranalyse 24.06.2009. Clusteranalyse. Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele. methodenlehre ll Clusteranalyse

Die Clusteranalyse 24.06.2009. Clusteranalyse. Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele. methodenlehre ll Clusteranalyse Clusteranalyse Thomas Schäfer SS 2009 1 Die Clusteranalyse Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele Thomas Schäfer SS 2009 2 1 Die Clusteranalyse Grundidee: Eine heterogene Gesamtheit

Mehr

6 Korrelations- und Regressionsanalyse: Zusammenhangsanalyse stetiger Merkmale

6 Korrelations- und Regressionsanalyse: Zusammenhangsanalyse stetiger Merkmale 6 Korrelations- und Regressionsanalyse: Zusammenhangsanalyse stetiger Merkmale 397 6.1 Korrelationsanalyse Jetzt betrachten wir bivariate Merkmale (X, Y ), wobei sowohl X als auch Y stetig bzw. quasi-stetig

Mehr

Kap. 5 Spatial (räumliches) Data Mining

Kap. 5 Spatial (räumliches) Data Mining Kap. 5 Spatial (räumliches) Data Mining Univ.-Prof. Dr.-Ing. Wolfgang Reinhardt AGIS / Inst. Für Angewandte Informatik (INF4) Universität der Bundeswehr München Wolfgang.Reinhardt@unibw.de www.agis.unibw.de

Mehr

Inhalt. 1 Unvollständige Clusteranalyseverfahren 35

Inhalt. 1 Unvollständige Clusteranalyseverfahren 35 Inhalt i Einleitung 15 1.1 Zielsetzung clusteranalytischer Verfahren 15 1.2 Homogenität als Grundprinzip der Bildung von Clustern 16 1.3 Clusteranalyseverfahren 18 1.4 Grundlage der Clusterbildung 20 1.5

Mehr

Clusteranalyse. Anwendungsorientierte Einführung. R. Oldenbourg Verlag München Wien. Von Dr. Johann Bacher

Clusteranalyse. Anwendungsorientierte Einführung. R. Oldenbourg Verlag München Wien. Von Dr. Johann Bacher Clusteranalyse Anwendungsorientierte Einführung Von Dr. Johann Bacher R. Oldenbourg Verlag München Wien INHALTSVERZEICHNIS Vorwort XI 1 Einleitung 1 1.1 Primäre Zielsetzung clusteranalytischer Verfahren

Mehr

Empirische Forschungsmethoden

Empirische Forschungsmethoden Winfried Stier Empirische Forschungsmethoden Zweite, verbesserte Auflage Mit 22 Abbildungen und 53 Tabellen Springer L Inhaltsverzeichnis I. Grundlagen 1 1.1. Methoden, Methodologie, Empirie 1 1.2. Einige

Mehr

Clusteranalyse. Clusteranalyse. Fragestellung und Aufgaben. Abgrenzung Clusteranalyse - Diskriminanzanalyse. Rohdatenmatrix und Distanzmatrix

Clusteranalyse. Clusteranalyse. Fragestellung und Aufgaben. Abgrenzung Clusteranalyse - Diskriminanzanalyse. Rohdatenmatrix und Distanzmatrix TECHNISCHE UNIVERSITÄT MÜNCHEN-WEIHENSTEPHAN MATHEMATIK UND STATISTIK INFORMATIONS- UND DOKUMENTATIONSZENTRUM R. Biometrische und Ökonometrische Methoden II SS 00 Fragestellung und Aufgaben Abgrenzung

Mehr

Übungen zu Multimedia-Datenbanken Aufgabenblatt 4 - Musterlösungen

Übungen zu Multimedia-Datenbanken Aufgabenblatt 4 - Musterlösungen Übungen zu Multimedia-Datenbanken Aufgabenblatt 4 - Musterlösungen Übung: Dipl.-Inf. Tina Walber Vorlesung: Dr.-Ing. Marcin Grzegorzek Fachbereich Informatik, Universität Koblenz Landau Ausgabe: 31.0.2010

Mehr

2 Distanzen. Distanzen von Objekten. Einleitung Distanzen Repräsentation Klassifikation Segmentierung

2 Distanzen. Distanzen von Objekten. Einleitung Distanzen Repräsentation Klassifikation Segmentierung 2 von Objekten Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 23 316 Gliederung Kapitel 2: von Objekten 2.1 Objekte und Merkmale 2.2 Merkmalstypen und ihre Nominale Merkmale Ordinale

Mehr

Charakterisierung von 1D Daten

Charakterisierung von 1D Daten Charakterisierung von D Daten Mittelwert: µ, Schätzung m x = x i / n Varianz σ2, Schätzung: s2 = (s: Standardabweichung) Höhere Momente s 2 = ( x i m x ) 2 n ( ) Eine Normalverteilung ist mit Mittelwert

Mehr

9 Metrische und normierte Räume

9 Metrische und normierte Räume 9 Metrische und normierte Räume Idee: Wir wollen Abstände zwischen Punkten messen. Der Abstand soll eine reelle Zahl 0 sein (ohne Dimensionsangabe wie Meter...). 9.1 Definition Sei X eine Menge. Eine Metrik

Mehr

Projektgruppe. Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten

Projektgruppe. Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten Projektgruppe Jennifer Post Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten 2. Juni 2010 Motivation Immer mehr Internet-Seiten Immer mehr digitale Texte Viele Inhalte ähnlich oder gleich

Mehr

Die Hamming-Distanz definiert eine Metrik.

Die Hamming-Distanz definiert eine Metrik. Die Hamming-Distanz definiert eine Metrik. Satz Metrik Hamming-Distanz Die Hamming-Distanz ist eine Metrik auf {0, 1} n, d.h. für alle x, y, z {0, 1} n gilt: 1 Positivität: d(x, y) 0, Gleichheit gdw x

Mehr

Kapitel 6. Zusammenfassung der wichtigsten Ergebnisse dieser Arbeit

Kapitel 6. Zusammenfassung der wichtigsten Ergebnisse dieser Arbeit Kapitel 6 Zusammenfassung der wichtigsten Ergebnisse dieser Arbeit 159 160 Kapitel 6. Zusammenfassung der Ergebnisse Im Fokus der vorliegenden Arbeit steht die Frage nach der Eignung verschiedener Matchingverfahren

Mehr

Musterlösung. Modulklausur Multivariate Verfahren

Musterlösung. Modulklausur Multivariate Verfahren Musterlösung Modulklausur 31821 Multivariate Verfahren 27. März 2015 Aufgabe 1 Kennzeichnen Sie die folgenden Aussagen über die beiden Zufallsvektoren ([ ] [ ]) ([ ] [ ]) 2 1 0 1 25 2 x 1 N, x 3 0 1 2

Mehr

Clusteranalyse und Display-Methoden

Clusteranalyse und Display-Methoden Ziel: Erkennen von Strukturen in Daten Vergleich der Algorithmen für die Clusteranalyse Beurteilung verschiedener Displaymethoden Stabilitätsdiagramme Betreuer: Dipl.-Chem. Stefan Hesse IAAC, Lehrbereich

Mehr

Kapitel 1 Beschreibende Statistik

Kapitel 1 Beschreibende Statistik Beispiel 1.25: fiktive Aktienkurse Zeitpunkt i 0 1 2 Aktienkurs x i 100 160 100 Frage: Wie hoch ist die durchschnittliche Wachstumsrate? Dr. Karsten Webel 53 Beispiel 1.25: fiktive Aktienkurse (Fortsetzung)

Mehr

Statistik II: Klassifikation und Segmentierung

Statistik II: Klassifikation und Segmentierung Medien Institut : Klassifikation und Segmentierung Dr. Andreas Vlašić Medien Institut (0621) 52 67 44 vlasic@medien-institut.de Gliederung 1. Faktorenanalyse 2. Clusteranalyse 3. Key Facts 2 I 14 Ziel

Mehr

Produktgruppen als mögliche Hilfe für die Auswahl zutreffender CE-Richtlinien

Produktgruppen als mögliche Hilfe für die Auswahl zutreffender CE-Richtlinien Produktgruppen als mögliche Hilfe für die Auswahl zutreffender CE-Richtlinien Langenbach, J. Für jedes neue Produkt, welches in Europa auf den Markt gebracht wird, muss die CE-Zertifizierung beachtet werden.

Mehr

Clustering Seminar für Statistik

Clustering Seminar für Statistik Clustering Markus Kalisch 03.12.2014 1 Ziel von Clustering Finde Gruppen, sodas Elemente innerhalb der gleichen Gruppe möglichst ähnlich sind und Elemente von verschiedenen Gruppen möglichst verschieden

Mehr

Clusteranalyse mit SPSS

Clusteranalyse mit SPSS Autor: Thomas Nirschl, Amt für Stadtforschung und Statistik, Stadt Nürnberg Clusteranalyse mit SPSS Das Statistikpaket SPSS (aktuell in der Version 17 vorliegend) stellt dem Anwender eine große Vielfalt

Mehr

Clustering. Hauptseminar Machine Learning WS 2003/2004. Referent: Can Önder Betreuer: Martin Wagner

Clustering. Hauptseminar Machine Learning WS 2003/2004. Referent: Can Önder Betreuer: Martin Wagner Clustering Hauptseminar Machine Learning WS 2003/2004 Referent: Can Önder Betreuer: Martin Wagner Gliederung Partitionierendes Clustering Hierarchisches Clustering Wahrscheinlichkeitsbasiertes Clustering

Mehr

5.5 PRE-Maße (Fehlerreduktionsmaße) 6

5.5 PRE-Maße (Fehlerreduktionsmaße) 6 359 5.5 PRE-Maße (Fehlerreduktionsmaße) 6 5.5.1 Die grundlegende Konstruktion Völlig andere, sehr allgemeine Grundidee zur Beschreibung von Zusammenhängen. Grundlegendes Prinzip vieler statistischer Konzepte.

Mehr

VII Unüberwachte Data-Mining-Verfahren. VII Unüberwachte Data-Mining-Verfahren

VII Unüberwachte Data-Mining-Verfahren. VII Unüberwachte Data-Mining-Verfahren VII Unüberwachte Data-Mg-Verfahren VII Unüberwachte Data-Mg-Verfahren Clusteranalyse Assoziationsregeln Generalisierte Assoziationsregeln mit Taxonomien Formale Begriffsanalyse Self Organizg Maps Institut

Mehr

k-nächste-nachbarn-schätzung

k-nächste-nachbarn-schätzung k-nächste-nachbarn-schätzung Mustererkennung und Klassifikation, Vorlesung No. 7 1 M. O. Franz 29.11.2007 1 falls nicht anders vermerkt, sind die Abbildungen entnommen aus Duda et al., 2001. Übersicht

Mehr

13 Mehrdimensionale Zufallsvariablen Zufallsvektoren

13 Mehrdimensionale Zufallsvariablen Zufallsvektoren 3 Mehrdimensionale Zufallsvariablen Zufallsvektoren Bisher haben wir uns ausschließlich mit Zufallsexperimenten beschäftigt, bei denen die Beobachtung eines einzigen Merkmals im Vordergrund stand. In diesem

Mehr

Nichtmetrische multidimensionale Skalierung (NMDS) Dr. Heike Culmsee Vegetationsanalyse & Phytodiversität

Nichtmetrische multidimensionale Skalierung (NMDS) Dr. Heike Culmsee Vegetationsanalyse & Phytodiversität Nichtmetrische multidimensionale Skalierung (NMDS) Dr. Heike Culmsee Vegetationsanalyse & Phytodiversität Übersicht Ordinationsverfahren Linear methods Weighted averaging Multidimensional scaling Unconstrained

Mehr

Kapitel 5 KONVERGENZ

Kapitel 5 KONVERGENZ Kapitel 5 KONVERGENZ Fassung vom 21. April 2002 Claude Portenier ANALYSIS 75 5.1 Metrische Räume 5.1 Metrische Räume DEFINITION 1 Sei X eine Menge. Eine Abbildung d : X X! R + heißt Metrik oder Distanz

Mehr

0 Einführung: Was ist Statistik

0 Einführung: Was ist Statistik 0 Einführung: Was ist Statistik 1 Datenerhebung und Messung 2 Univariate deskriptive Statistik Häufigkeitsverteilungen Statistische Kennwerte 3 Multivariate Statistik 4 Regression 5 Ergänzungen Deskriptive

Mehr

Clustern von numerischen Wettervorhersagen

Clustern von numerischen Wettervorhersagen Clustern von numerischen Wettervorhersagen Diplomarbeit in der Studienrichtung Technische Mathematik zur Erlangung des akademischen Grades Diplom-Ingenieurin eingereicht an der Fakultät für Mathematik,

Mehr

1 Einleitung Definitionen, Begriffe Grundsätzliche Vorgehensweise... 3

1 Einleitung Definitionen, Begriffe Grundsätzliche Vorgehensweise... 3 Inhaltsverzeichnis 1 Einleitung 1 1.1 Definitionen, Begriffe........................... 1 1.2 Grundsätzliche Vorgehensweise.................... 3 2 Intuitive Klassifikation 6 2.1 Abstandsmessung zur Klassifikation..................

Mehr

Aufgaben zur Multivariaten Statistik

Aufgaben zur Multivariaten Statistik Prof. Dr. Reinhold Kosfeld Fachbereich Wirtschaftswissenschaften Universität Kassel Aufgaben zur Multivariaten Statistik Teil : Aufgaben zur Einleitung. Was versteht man unter einer univariaten, bivariaten

Mehr

Klausur zur Vorlesung Analyse mehrdimensionaler Daten, Lösungen WS 2010/2011; 6 Kreditpunkte, 90 min

Klausur zur Vorlesung Analyse mehrdimensionaler Daten, Lösungen WS 2010/2011; 6 Kreditpunkte, 90 min Klausur, Analyse mehrdimensionaler Daten, WS 2010/2011, 6 Kreditpunkte, 90 min 1 Prof. Dr. Fred Böker 21.02.2011 Klausur zur Vorlesung Analyse mehrdimensionaler Daten, Lösungen WS 2010/2011; 6 Kreditpunkte,

Mehr

SBWL Tourismusanalyse und Freizeitmarketing

SBWL Tourismusanalyse und Freizeitmarketing SBWL Tourismusanalyse und Freizeitmarketing Vertiefungskurs 4: Multivariate Verfahren 2 Teil 2: Explorative multivariate Analyse & Clusteranalyse Achim Zeileis Department of Statistics and Mathematics

Mehr

Mathematik für Anwender II

Mathematik für Anwender II Prof. Dr. H. Brenner Osnabrück SS 2012 Mathematik für Anwender II Vorlesung 32 Metrische Räume Euklidische Räume besitzen nach Definition ein Skalarprodukt. Darauf aufbauend kann man einfach die Norm eines

Mehr

Statistik K urs SS 2004

Statistik K urs SS 2004 Statistik K urs SS 2004 3.Tag Grundlegende statistische Maße Mittelwert (mean) Durchschnitt aller Werte Varianz (variance) s 2 Durchschnittliche quadrierte Abweichung aller Werte vom Mittelwert >> Die

Mehr

Ausführliche Lösungen zu ausgewählten Aufgaben von ÜB 5 und 6. Streudiagramm

Ausführliche Lösungen zu ausgewählten Aufgaben von ÜB 5 und 6. Streudiagramm y Aufgabe 3 Ausführliche Lösungen zu ausgewählten Aufgaben von ÜB 5 und 6 a) Zur Erstellung des Streudiagramms zeichnet man jeweils einen Punkt für jedes Datenpaar (x i, y i ) aus der zweidimensionalen

Mehr

1. Gruppen. 1. Gruppen 7

1. Gruppen. 1. Gruppen 7 1. Gruppen 7 1. Gruppen Wie schon in der Einleitung erläutert wollen wir uns in dieser Vorlesung mit Mengen beschäftigen, auf denen algebraische Verknüpfungen mit gewissen Eigenschaften definiert sind.

Mehr

Parametrische vs. Non-Parametrische Testverfahren

Parametrische vs. Non-Parametrische Testverfahren Parametrische vs. Non-Parametrische Testverfahren Parametrische Verfahren haben die Besonderheit, dass sie auf Annahmen zur Verteilung der Messwerte in der Population beruhen: die Messwerte sollten einer

Mehr

5. Äquivalenzrelationen

5. Äquivalenzrelationen 5. Äquivalenzrelationen 35 5. Äquivalenzrelationen Wenn man eine große und komplizierte Menge (bzw. Gruppe) untersuchen will, so kann es sinnvoll sein, zunächst kleinere, einfachere Mengen (bzw. Gruppen)

Mehr

Mathematik I. Vorlesung 19. Metrische Räume

Mathematik I. Vorlesung 19. Metrische Räume Prof. Dr. H. Brenner Osnabrück WS 2009/2010 Mathematik I Vorlesung 19 Metrische Räume Euklidische Räume besitzen nach Definition ein Skalarprodukt. Darauf aufbauend kann man einfach die Norm eines Vektors

Mehr

Ferienkurs Analysis 1

Ferienkurs Analysis 1 Skript Ferienkurs Analysis 1 Fabian Hafner und Thomas Baldauf TUM Wintersemester 2016/17 04.04.2017 Das Skript wurde teilweise übernommen vom Skript des Ferienkurses WS 2014, verfasst von Andreas Wörfel.

Mehr

Inhaltsverzeichnis 1. EINLEITUNG...1

Inhaltsverzeichnis 1. EINLEITUNG...1 VII Inhaltsverzeichnis Vorwort...V Verzeichnis der Abbildungen...XII Verzeichnis der Tabellen... XVI Verzeichnis der Übersichten...XXII Symbolverzeichnis... XXIII 1. EINLEITUNG...1 2. FAKTORENANALYSE...5

Mehr

Vorlesung 7 GRAPHBASIERTE BILDSEGMENTIERUNG

Vorlesung 7 GRAPHBASIERTE BILDSEGMENTIERUNG Vorlesung 7 GRAPHBASIERTE BILDSEGMENTIERUNG 195 Bildsegmentierung! Aufgabe: Bestimme inhaltlich zusammenhängende, homogene Bereiche eines Bildes! Weit verbreitetes Problem in der Bildverarbeitung! Viele

Mehr

Der n-dimensionale Raum

Der n-dimensionale Raum Der n-dimensionale Raum Mittels R kann nur eine Größe beschrieben werden. Um den Ort eines Teilchens im Raum festzulegen, werden schon drei Größen benötigt. Interessiert man sich für den Bewegungszustand

Mehr

Kreisdiagramm, Tortendiagramm

Kreisdiagramm, Tortendiagramm Kreisdiagramm, Tortendiagramm Darstellung der relativen (absoluten) Häufigkeiten als Fläche eines Kreises Anwendung: Nominale Merkmale Ordinale Merkmale (Problem: Ordnung nicht korrekt wiedergegeben) Gruppierte

Mehr

Analyis I -Metrische Räume - eine Einführung in die Topologie

Analyis I -Metrische Räume - eine Einführung in die Topologie Analyis I -Metrische Räume - eine Einführung in die Topologie E = E isolierter Punkte x 1 x 2 x 3 E ist abgeschlossen U ɛ (x) x innerer Punkt Ω Häufungspunkte Ω Metrik Metrische Räume Definition Sei X

Mehr

30 Metriken und Normen

30 Metriken und Normen 31 Metriken und Normen 153 30 Metriken und Normen Lernziele: Konzepte: Metriken, Normen, Skalarprodukte, Konvergenz von Folgen Frage: Versuchen Sie, möglichst viele verschiedene Konvergenzbegriffe für

Mehr

Medizinisches Beispiel

Medizinisches Beispiel Problemstellung Stimmen zwei oder mehrere Beobachter in ihrer Einschätzung überein? (im engl.: rater agreement oder interrater agreement) Beispiel: Zwei Professoren beurteilen die Referate oder Seminararbeiten

Mehr

1. Gruppen. 1. Gruppen 7

1. Gruppen. 1. Gruppen 7 1. Gruppen 7 1. Gruppen Wie schon in der Einleitung erläutert wollen wir uns in dieser Vorlesung mit Mengen beschäftigen, auf denen algebraische Verknüpfungen mit gewissen Eigenschaften definiert sind.

Mehr

Erich Schubert, Arthur Zimek KDD Übung

Erich Schubert, Arthur Zimek KDD Übung Hausaufgabe Distanzfunktionen Erich Schubert, Arthur Zimek Ludwig-Maximilians-Universität München 2014-04-25 KDD Übung Distanzfunktionen Reflexiv: Distanz zu sich selbst ist 0 x = y d(x, y) = 0 Symmetrisch:

Mehr

2 Einlesen von Datensätzen

2 Einlesen von Datensätzen 2 Einlesen von Datensätzen 2.1 Einlesen von SPSS-Datenfiles SPSS bietet die beiden kompatiblen Datenformate.sav und.por zum Speichern und Einlesen von Dateien an. Daten dieses Formats können problemlos

Mehr

Distanzen und Ähnlichkeitsmaÿe

Distanzen und Ähnlichkeitsmaÿe Distanzen und Ähnlichkeitsmaÿe Michael Siebers Kognitive Systeme Universität Bamberg 25. Mai 2011 M. Siebers (KogSys) Distanzen und Ähnlichkeitsmaÿe 25. Mai 2011 1 / 14 Agenda 1 Distanzen 2 Ähnlichkeitsmaÿe

Mehr

Kapitel 1 Beschreibende Statistik

Kapitel 1 Beschreibende Statistik Beispiel 1.5: Histogramm (klassierte erreichte Punkte, Fortsetzung Bsp. 1.1) 0.25 0.2 Höhe 0.15 0.1 0.05 0 0 6 7 8,5 10 11 erreichte Punkte Dr. Karsten Webel 24 Beispiel 1.5: Histogramm (Fortsetzung) Klasse

Mehr

Algorithmische Graphentheorie

Algorithmische Graphentheorie Algorithmische Graphentheorie Vorlesung 7 und 8: Euler- und Hamilton-Graphen Babeş-Bolyai Universität, Department für Informatik, Cluj-Napoca csacarea@cs.ubbcluj.ro 17. April 2018 1/96 WIEDERHOLUNG Eulersche

Mehr

Einführung in die Bioinformatik

Einführung in die Bioinformatik Einführung in die Bioinformatik Ringvorlesung Biologie Sommer 07 Burkhard Morgenstern Institut für Mikrobiologie und Genetik Abteilung für Bioinformatik Goldschmidtstr. 1 Online Materialien zur Ringvorlesung:

Mehr

Inhalt. 6.1 Motivation. 6.2 Klassifikation. 6.3 Clusteranalyse. 6.4 Asszoziationsanalyse. Datenbanken & Informationssysteme / Kapitel 6: Data Mining

Inhalt. 6.1 Motivation. 6.2 Klassifikation. 6.3 Clusteranalyse. 6.4 Asszoziationsanalyse. Datenbanken & Informationssysteme / Kapitel 6: Data Mining 6. Data Mining Inhalt 6.1 Motivation 6.2 Klassifikation 6.3 Clusteranalyse 6.4 Asszoziationsanalyse 2 6.1 Motivation Data Mining and Knowledge Discovery zielt darauf ab, verwertbare Erkenntnisse (actionable

Mehr

Theoretische Informatik 1

Theoretische Informatik 1 Theoretische Informatik 1 Approximierbarkeit David Kappel Institut für Grundlagen der Informationsverarbeitung Technische Universität Graz 02.07.2015 Übersicht Das Problem des Handelsreisenden TSP EUCLIDEAN-TSP

Mehr

Lösungsmenge L I = {x R 3x + 5 = 9} = L II = {x R 3x = 4} = L III = { }

Lösungsmenge L I = {x R 3x + 5 = 9} = L II = {x R 3x = 4} = L III = { } Zur Einleitung: Lineare Gleichungssysteme Wir untersuchen zunächst mit Methoden, die Sie vermutlich aus der Schule kennen, explizit einige kleine lineare Gleichungssysteme. Das Gleichungssystem I wird

Mehr

Konzepte II. Netzwerkanalyse für Politikwissenschaftler

Konzepte II. Netzwerkanalyse für Politikwissenschaftler Konzepte II Netzwerkanalyse für Politikwissenschaftler Wiederholung Räumliche Distanzen und MDS Hauptkomponenten Neuere Entwicklungen Netzwerkanalyse für Politikwissenschaftler Konzepte II (1/20) Worum

Mehr

Statistische Eigenschaften von Clusterverfahren

Statistische Eigenschaften von Clusterverfahren Universität Potsdam Mathematisch-Naturwissenschaftliche Fakultät Institut für Mathematik Diplomarbeit Statistische Eigenschaften von Clusterverfahren Andrea Schorsch Matrikelnummer: 715466 Sommersemester

Mehr

Algorithmen auf Sequenzen

Algorithmen auf Sequenzen Algorithmen auf Sequenzen Fehlertolerante Mustersuche: Distanz- und Ähnlichkeitsmaße Sven Rahmann Genominformatik Universitätsklinikum Essen Universität Duisburg-Essen Universitätsallianz Ruhr Einführung

Mehr

Algorithmische Geometrie, SoSe 2005 Skriptmitschrift vom 29. April 2005

Algorithmische Geometrie, SoSe 2005 Skriptmitschrift vom 29. April 2005 Algorithmische Geometrie, SoSe 2005 Skriptmitschrift vom 29. April 2005 Antonia Wittmers Igor Savchenko Konvexe Hüllen Inkrementeller Algorithmus für die konvexe Hülle Dabei heißt inkrementeller Algorithmus,

Mehr

Haben Sie schon mal geclustert? Beitrag zum Workshop Clusteranalyse auf der Frühjahrstagung der Städtestatistik 2008 in Saarbrücken

Haben Sie schon mal geclustert? Beitrag zum Workshop Clusteranalyse auf der Frühjahrstagung der Städtestatistik 2008 in Saarbrücken Haben Sie schon mal geclustert? Beitrag zum Workshop Clusteranalyse auf der Frühjahrstagung der Städtestatistik 2008 in Saarbrücken Dr. Ralf Gutfleisch, Frankfurt am Main Haben Sie schon mal geclustert?

Mehr

Technische Universität München. Aufgaben Mittwoch SS 2012

Technische Universität München. Aufgaben Mittwoch SS 2012 Technische Universität München Andreas Wörfel Ferienkurs Analysis 2 für Physiker Aufgaben Mittwoch SS 2012 Aufgabe 1 Äquivalente Aussagen für Stetigkeit( ) Beweisen Sie folgenden Satz: Seien X und Y metrische

Mehr

htw saar 1 EINFÜHRUNG IN DIE STATISTIK: BESCHREIBENDE STATISTIK

htw saar 1 EINFÜHRUNG IN DIE STATISTIK: BESCHREIBENDE STATISTIK htw saar 1 EINFÜHRUNG IN DIE STATISTIK: BESCHREIBENDE STATISTIK htw saar 2 Grundbegriffe htw saar 3 Grundgesamtheit und Stichprobe Ziel: Über eine Grundgesamtheit (Population) soll eine Aussage über ein

Mehr

5.4 Hierarchische Verfahren

5.4 Hierarchische Verfahren Ziel Grundlagen Konstruktion einer Hierarchie von lustern (meist repräsentiert durch ein sog. Dendrogramm), ) so dass immer die luster mit minimaler i Distanz verschmolzen werden Dendrogramm ein Baum,

Mehr

Teil I. Lineare Optimierung

Teil I. Lineare Optimierung Teil I Lineare Optimierung 5 Kapitel 1 Grundlagen Definition 1.1 Lineares Optimierungsproblem, lineares Programm. Eine Aufgabenstellung wird lineares Optimierungsproblem oder lineares Programm genannt,

Mehr