Ziel: Unterteilung beobachteter Objekte in homogene Gruppen. Vorab meist weder Anzahl noch Charakteristika der Gruppen bekannt.
|
|
- Joseph Fiedler
- vor 5 Jahren
- Abrufe
Transkript
1 8 Clusteranalyse Ziel: Unterteilung beobachteter Objekte in homogene Gruppen. Vorab meist weder Anzahl noch Charakteristika der Gruppen bekannt. Anwendungsbeispiele: Mikrobiologie: Ermittlung der Verwandtschaft bei Kleinstlebewesen Medizin: Bestimmung von Patienten mit demselben Krankheitsbild zwecks gezielter Therapie oder Ursachenforschung Marketing: Finden von Absatzregionen mit ähnlichen Merkmalen zwecks gezielter Werbung, Produkttests auf repräsentativen Märkten Schritte einer Clusteranalyse: 1. Messung der Ähnlichkeiten unter Objekten: Berechnung eines Ähnlichkeitsmaßes für jedes Paar von Objekten. 2. Gruppierung der Objekte: Bilden von homogenen Gruppen ähnlicher Objekte, mit großen Unterschieden zwischen den Gruppen (Heterogenität). Beispiel 8.1. Archäologie Relief in der Apadana von Persepolis (Südiran): 24 steinerne persische Bogenschützen mit leichten Unterschieden (Lockung des Barts, Kopfschmuck,...). Fragen: Sind alle Bogenschützen in derselben Zeit entstanden? Stammen sie von einem oder mehreren Bildhauern? Antwort mittels Clusteranalyse. 132
2 Identifikation von 21 Unterschiedsmerkmalen (A - U) zwischen den Schützen. Jedes Merkmal mit nur wenigen Variationen (meist 2 oder 3, bis zu 6). Zur Gruppierung Feststellung der Ähnlichkeiten unter den Bogenschützen. Welche Bogenschützen sind sich am meisten/wenigsten ähnlich? Notwendig: Ähnlichkeitsmaß. Bogen- Merkmal schütze A B C D E F G H I J K L M N O P Q R S T U
3 8.1 Ähnlichkeits- und Distanzmaße Bemerkung 8.2. Wir kehren wieder zur Standard-Notation zurück. p-dimensionales Merkmal X = (X 1,..., X p ) beobachtet an n Objekten. Stichprobe: {x 1,..., x n } mit i-ter Beobachtung x i = (x i,1,..., x i,p ). Darstellung der Stichprobe als Datenmatrix : x 1,1... x 1,p x 1 X =.. =.. x n,1... x n,p x n Die meisten Clusterverfahren teilen x 1,..., x n in k disjunkte, alle Objekte umfassende Gruppen (Cluster) C 1,..., C k ein, so dass C i C j =, i = j, und k C i = {x 1,..., x n }. Jede Beobachtung (Objekt) gehört zu genau einem Cluster. i=1 Definition 8.3. Ähnlichkeitsmaß Gegeben seien n Objekte {x 1,..., x n }. Ein Ähnlichkeitsmaß (similarity measure) s ordnet je zwei Objekten x i, x j einen Ähnlichkeitswert s(x i, x j ) zu. Dabei besitze die Funktion s folgende Eigenschaften: s(x i, x j ) = s(x j, x i ) (Symmetrie) s(x i, x j ) s(x i, x i ). Die symmetrische n n-matrix S = [s(x i, x j )] i,j heißt Ähnlichkeitsmatrix. Häufig fordert man als Normierung s(x i, x j ) [0, 1]. Alternativ: Messung von Unähnlichkeit als Abstand der Objekte: 134
4 Definition 8.4. Distanzmaß Gegeben seien n Objekte {x 1,..., x n }. Ein Distanzmaß d ordnet je zwei Objekten x i, x j einen Abstand d(x i, x j ) zu. Nötige Eigenschaften von d: d(x i, x j ) = d(x j, x i ) (Symmetrie) d(x i, x j ) 0 und d(x i, x i ) = 0. Die symmetrische n n-matrix D = [d(x i, x j )] i,j heißt Distanzmatrix. Gilt zusätzlich d(x i, x j ) d(x i, x l ) + d(x l, x j ) (Dreiecksungleichung), so spricht man von einem metrischen Distanzmaß. Distanzmaße in Ähnlichkeitsmaße umwandeln und umgekehrt: Bemerkung 8.5. Zusammenhang Ähnlichkeitsmaß und Distanzmaß Ist s ein normiertes Ähnlichkeitsmaß mit 0 s(x i, x j ) 1, so ist d mit d(x i, x j ) = 1 s(x i, x j ) ein Distanzmaß. Ist d Distanzmaß mit maximaler Distanz d max = max i,j d(x i, x j ) zwischen zwei Objekten, so ist s mit s(x i, x j ) = 1 d(x i, x j )/d max Ähnlichkeitsmaß. Bemerkung 8.6. Ähnlichkeit und Distanz: Situationen Für verschiedene Situationen benutzt man verschiedene Maße s und d: X 1,..., X p binäre Merkmale mit genau zwei Ausprägungen 0 und 1, X 1,..., X p nominal skaliert (mindestens ein Variable mit mehr als zwei Ausprägungen), X 1,..., X p ordinal skaliert, X 1,..., X p metrisch skaliert. Wir betrachten nur reine Situationen, d.h. alle Merkmale mit selbem Skalenniveau. Bei unterschiedlichen Skalenniveaus alle Merkmale an niedrigstes Skalenniveau anpassen und mit Maß hierfür arbeiten (aber: Informationsverlust) oder ein kombiniertes Maß verwenden. 135
5 Beispiel 8.7. Binäre Variablen Sei X ein 7-dimensionales Merkmal, das in jeder Komponente nur die Ausprägungen 0 und 1 annimmt. Ausprägungen für drei Objekte: x 1 = (1, 0, 0, 1, 0, 1, 1), x 2 = (0, 0, 1, 1, 1, 0, 0), x 3 = (1, 0, 0, 1, 1, 0, 0). Vergleich x 1 und x 2 : An Positionen 2 und 4 stimmen beide Objekte überein, für 1, 3, 5, 6, 7 hingegen nicht. Vergleich x 1 und x 3 : Übereinstimmung an Positionen 1, 2, 3 und 4. x 1 und x 3 scheinen sich ähnlicher zu sein als x 1 und x 2. Bemerkung 8.8. Ähnlichkeits- und Distanzmaße für binäre Variablen Sei X ein p-dimensionales Merkmal, das in jeder Komponente nur die Ausprägungen 0 und 1 annimmt. Kontingenztafel der Anzahl der Kombinationen (1, 1), (1, 0), (0, 1), (0, 0) für je zwei Objekte x i und x j : x i 1 0 Allgemeines Ähnlichkeitsmaß: M(atching)-Koeffizient: S(imilarity)-Koeffizient: x j 1 a b a + b 0 c d c + d s(x i, x j ) = a + c b + d p a + δd a + δd + λ(b + c) s(x i, x j ) = a + d p s(x i, x j ) = a a + b + c 136
6 Beispiel 8.9. Binäre Variablen: Ähnlichkeitstafeln für Beispiel 8.7: x x x x x x Resultierende Matching-Koeffizienten: s(x 1, x 2 ) = 2 7, s(x 1, x 3 ) = 4 7, s(x 2, x 3 ) = 5 7, s(x 1, x 1 ) = s(x 2, x 2 ) = s(x 3, x 3 ) = 7 7 = 1. Ähnlichkeitsmatrix: S = Resultierende Similarity-Koeffizienten: 1 s(x 1, x 2 ) = = 1 6, s(x 1, x 3 ) = 2 s(x 2, x 3 ) = = 0.5. Ähnlichkeitsmatrix: S = = 2 5 Hier sind sich jeweils x 2 und x 3 ähnlicher als x 1 und x 3, und diese wiederum ähnlicher als x 1 und x
7 Bemerkung Ähnlichkeits- und Distanzmaße für nominale Variablen Sei X ein p-dimensionales Merkmal mit nominal skalierten Komponenten, von denen mindestens eine mehr als zwei Ausprägungen annehmen kann. Der verallgemeinerte M-Koeffizient ist s(x i, x j ) = u, wobei u gleich p Anzahl der Komponenten, in denen x i und x j übereinstimmen. Beispiel Bogenschützen (Fortsetzung Beispiel 8.1) Ähnlichkeitsmatrix aus dem verallgemeinerten M-Koeffizienten: S = 1 21 S, mit S = Dabei wurde 0 (Relief an dieser Stelle zerstört) als normale Ausprägung gezählt. Stattdessen möglich: 0 als fehlende Beobachtung interpretieren und Ähnlichkeitswerte unter Berücksichtigung der Nullen adjustieren. 138
8 Beispiel Ordinale Variablen Merkmale Schulbildung (Ausprägungen Hauptschulabschluss, mittlere Reife und Abitur ) und Note in einem Leistungstest (Noten von 5 bis 1). Realisierungen für zwei Personen: x 1 = (mittlere Reife, 3), x 2 = (Abitur, 5) Binärkodierung zur Messung der Ähnlichkeiten: Die 3 Ausprägungen der Schulbildung mittels dreier binärer Variablen kodieren, die das Erreichte von der geringsten bis zur höchsten Schulbildung angeben ( 1 : erreicht, 0 : nicht erreicht, höhere Schulbildung umfasst niedrigere). Für die Note im Leistungstest entsprechend fünf binäre Variablen. Für 1. Person also (1, 1, 1, 0, 0), für 2. Person (1, 0, 0, 0, 0). Neue binäre Beobachtungsvektoren durch Konkatenation: x 1 = (1, 1, 0, 1, 1, 1, 0, 0), x 2 = (1, 1, 1, 1, 0, 0, 0, 0). Bemerkung Ähnlichkeits- und Distanzmaße für ordinale Variablen Sei X p-dimensionales Merkmal mit ordinal skalierten Komponenten. Für jede der p Komponenten Konstruktion so vieler binärer Merkmale, wie die Komponente Ausprägungen besitzt. Die binären Variablen pro Komponente werden von der niedrigsten bis zur erreichten Ausprägung mit der Ausprägung 1 versehen. Restliche binäre Variablen für diese Komponente erhalten Wert 0. Dadurch Umkodierung der ordinalen in binäre Merkmale und Nutzung eines Ähnlichkeitsmaßes für binäre Variablen. Alternativer Vorschlag für ordinalskalierte Merkmale: Kodierung der Merkmalsausprägungen mit den Zahlen 1 bis Anzahl der 139
9 Ausprägungen und Nutzung eines Ähnlichkeits- bzw. Distanzmaßes für metrisch skalierte Variablen. Dann setzt man allerdings mehr an die Variablen voraus, als sie erfüllen. Bemerkung Ähnlichkeits- und Distanzmaße für metrische Variablen Sei X p-dimensionales Merkmal mit metrisch skalierten Komponenten. Meist misst man dann statt der Ähnlichkeit die Distanz. Gängige Maße: L q -Norm ( ) p 1/q d q (x i, x j ) = x i,l x j,l q, q 1, l=1 Euklidische Distanz p d 2 (x i, x j ) = (x i x j ) (x i x j ) = (x i,l x j,l ) 2, l=1 City-Block-Metrik d 1 (x i, x j ) = p x i,l x j,l, l=1 Mahalanobisdistanz d(x i, x j ) = (x i x j ) Σ 1 (x i x j ). Hierbei bezeichnet Σ eine Schätzung der Kovarianzmatrix von (X 1,..., X p ). Die skalenabhängigen L q -Normen sollten stets auf Basis der standardisierten Beobachtungen bestimmt werden. 140
10 euklidische Distanz = Länge der Verbindungsstrecke Abbildung: Euklidische Distanz x 4 x 2 x 1 x 3 Abbildung: City-Block-Metrik x 4 x 2 x 1 x 3 City-Block-Distanz = Länge des Wegs, den man in einer Stadt mit gitterförmigem Straßennetz zurücklegen müsste Abbildung: Mahalanobisdistanz x 4 x 2 x x1 1 x 3 Mahalanobis-Distanz Schritt 1: Kovarianzstruktur feststellen, Transformation auf runde Struktur x 4 x 2 x x1 1 x 3 Schritt 2: In der runden Struktur euklidische Distanzen feststellen 141
11 8.2 Zweiter Schritt: Cluster-Algorithmen Gruppierung der Objekte anhand ihrer Ähnlichkeiten. Unterscheidung: hierarchische und optimal partitionierende Verfahren. Bemerkung Hierarchische Clusterverfahren Hierarchische Clusterverfahren konstruieren eine Folge von Partitionen der Objektmenge. Zwei grundlegende Vorgehensweisen: Agglomerative Verfahren: Start mit maximal möglicher Clusteranzahl (jede Beobachtung bildet eine Gruppe); in jedem Schritt Vereinigung der beiden ähnlichsten bisherigen Cluster zu einem neuen. Divisive Verfahren: Start mit kleinstmöglicher Clusteranzahl (alle Beobachtungen in einer Gruppe); in jedem Schritt Aufspaltung eines Clusters in zwei zueinander möglichst unähnliche Gruppen. Bei beiden Varianten ist die Clusteranzahl nicht im Vorhinein festgelegt, sondern wird während der Durchführung bestimmt. Im Folgenden nur agglomerative Verfahren, da einfacher und in Programmpaketen die Regel. Hierarchische Clusterverfahren benötigen Ähnlichkeits-/ Distanzmaße nicht nur für Paare von Objekten, sondern auch zwischen den Gruppen: Bemerkung Distanz zwischen Clustern Seien n Objekte {x 1,..., x n } in l Gruppen C 1,..., C l mit n 1,..., n l Objekten eingeteilt. Mögliche Abstandsmaße D zwischen Gruppen C i und C j : nächster Nachbar (nearest neighbour): D(C i, C j ) = min d(x a, x b ), x a C i, x b C j (geringste Distanz zwischen je einem Objekt aus C i und C j ) 142
12 entferntester Nachbar (furthest neighbour): D(C i, C j ) = max d(x a, x b ), x a C i, x b C j (größte Distanz zwischen je einer Beobachtung aus C i und C j ) mittlerer Nachbar: D(C i, C j ) = 1 n i n j d(x a, x b ), x a C i x b C j (Durchschnitt aller Distanzen zwischen Beobachtungen aus C i und C j ) Zentroid-Distanz: D(C i, C j ) = x i x j, (euklidischer Abstand zwischen den Gruppenzentren x i = 1 n i xa C i x a ) Hierbei sei d ein Distanzmaß für Abstände zwischen Objekten, vgl. Def Da die Zentroid-Distanz auf der euklidischen Distanz beruht, sollte sie nur für metrische skalierte Variablen benutzt werden. Hierarchische agglomerative Clusterverfahren: Single Linkage Verfahren (nächster Nachbar), Complete Linkage Verfahren (entferntester Nachbar), Average Linkage Verfahren (durchschnittlicher Abstand), Zentroid Verfahren (Zentroid-Distanz). 143
13 Bemerkung Agglomerative Verfahren: Vorgehensbeschreibung Objekte x 1,..., x n sind in k Cluster C 1,..., C k einzuteilen. Ablauf eines agglomerativen Clusterverfahrens auf Basis eines Objekt- Distanzmaßes d (Bem. 8.8, 8.10, 8.13 und 8.14) und einer Clusterdistanz D (Bem. 8.16): 1. Ausgangsclusterung: C i = {x i }, jedes Objekt bildet ein Cluster 2. Wiederholung der folgenden Schritte Berechnung der Distanzen zwischen je zwei Clustern C i und C j für alle i, j (i = j) Vereinigung der beiden Cluster mit der kleinsten Distanz zu einem neuen Cluster; entstehende neue Clusterung: C 1,..., C l bis alle Objekte zu einem Cluster vereint sind. 3. Bestimmung einer geeigneten Clusteranzahl k über geeignetes Kriterium: Durch ein Homogenitätsmaß, d.h. Vorgabe einer Grenze für die Homogenitäten innerhalb der Gruppen, oder mittels des Dendrogramms. Statt eines Distanzmaßes d Verwendung eines Ähnlichkeitsmaßes s möglich, wobei dann Cluster mit der größten Ähnlichkeit vereinigt werden. Bemerkung Dendrogramm Vorlesung Dendrogramm eines hierarchisches Clusterverfahrens zeichnet in Form eines Stammbaums auf, welche Cluster im Ablauf des Verfahrens in welcher Reihenfolge vereinigt (getrennt) wurden. Schematisches Aussehen: 144
14 * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * Dendrogram using Average Linkage (Between Groups) Rescaled Distance Cluster Combine C A S E Label Num Case 8 8 Case Case 7 7 Case 9 9 Case 4 4 Case 6 6 Case Case Case Case Case 5 5 Case 1 1 Case 2 2 Case 3 3 Case Case Case Case Case Case Case Case Case Case Case Links stehen die Objekte (hier bezeichnet mit laufenden Nummern). Senkrechte Striche zeigen an, wo zwei Cluster vereinigt wurden: Von links nach rechts verfolgt man die sukzessive Vereinigung der Cluster. Hier wurden zuerst Objekt 8 und 10 sowie 1 und 2 geclustert (jeweils gleiche, minimale Distanz). Die waagerechte Länge zwischen zwei senkrechten Strichen zeigt die Distanz zwischen den zugehörigen Clustern. Anhaltspunkt für geeignete Clusteranzahl: Suche Stelle im Dendrogramm mit langen waagerechten Strichen über die komplette Höhe des Diagramms (dort deutlich getrennte Cluster mit großer Distanz, die spät vereinigt 145
15 werden). Hier zwei Cluster: eines aus Beobachtungen 15-18, anderes mit Rest. Beispiel Bogenschützen (Fortsetzung Beispiele 8.1 und 8.11) Dendrogramm für die persischen Bogenschützen mittels der Ähnlichkeitsmatrix aus verallgemeinertem M-Koeffizienten und Single-Linkage: Dendrogramm Bogenschützen Die größte Lücke zwischen senkrechten Strichen legt drei Gruppen nahe: zwei große Cluster aus Schützen Nr (ohne 12) sowie 1-8 und 20-24, sowie einzelne Beobachtung Nr. 12. Cluster 1 besteht aus inneren Figuren, Cluster 2 aus Figuren am Rand. Archäologen erhielten ähnliches Ergebnis. 146
16 Bemerkung Bei Verwendung des nächsten, des entferntesten oder des mittleren Nachbarn wachsen die Distanzen während des Clusterns monoton an. Nach Vereinigung von C 1 und C 2 hat C 0 := C 1 C 2 zu jedem anderen Cluster C 3 einen mindestens so großen Abstand wie zuvor C 1 zu C 2 (sei n i die Anzahl der Elemente von Cluster C i, i = 0,..., 3): min d(x a, x b ) = min{ min d(x a, x b ), a C 0,b C 3 a C 1,b C 3 max d(x a, x b ) = max{ max d(x a, x b ), a C 0,b C 3 a C 1,b C 3 D(C 0, C 3 ) = min d(x a, x b )} a C 2,b C 3 max d(x a, x b )} a C 2,b C 3 n 1 n 1 + n 2 D(C 1, C 3 ) + n 2 n 1 + n 2 D(C 2, C 3 ) D(C 1, C 2 ), min d(x a, x b ) a C 1,b C 2 max d(x a, x b ) a C 1,b C 2 Dies gilt jedoch nicht unbedingt bei Verwendung der Zentroid-Distanz, z. B. C 3 = {(0, 0)}, C 1 = {( 0.55, 1)}, C 2 = {(0.55, 1)}. Beispiel Schweizer Banknoten: Kann man mit Hilfe hierarchischer Clusterverfahren die echten von den falschen trennen? Scatterplot der ersten beiden Hauptkomponenten (vgl. Bsp. 4.19): Ergebnisse verschiedener agglomerative Clusterverfahren unter Verwendung des euklidischen Abstandes als Distanzmaß (Quelle: deutscher Wikipedia-Eintrag Hierarchische Clusteranalyse ): 147
17 Single Linkage: Complete Linkage: 148
18 Average Linkage: Zentroid-Verfahren: 149
19 Fazit: Verschiedene Verfahren liefern recht unterschiedliche Ergebnisse. Keines der vier vorgestellten Clusterverfahren liefert hier wirklich gute Ergebnisse. Bei der Wahl der Clusteranzahl neben großen Distanz-Unterschied auch Größe der entstehenden Cluster berücksichtigen (z.b. wenn wie hier bekannt ist, dass ungefähr gleichgroße Cluster gesucht werden). Es gibt aber auch ein Clusterverfahren, dass für das Banknoten-Beispiel ein richtig gutes Ergebnis liefert: Bemerkung Clusterverfahren nach Ward Das Clusterverfahren nach Ward läuft in den gleichen Grundschritten ab wie die anderen agglomerativen Verfahren. In jedem Iterationsschritt werden aber jeweils die beiden Cluster vereint, deren Verbindung den kleinsten Zuwachs an Heterogenität der entstehenden Partition hervorbringt. Sei C 1,..., C l die momentane Partition der Objektmenge. Messung der Heterogenität des Clusters C i über Variabilität innerhalb von C i : x a C i x a x i 2 Dabei ist x i Zentrum des Clusters C i, x y die euklidische Distanz. Heterogenität der Partition C 1,..., C l als Summe der einzelnen Variabilitäten: H(C 1,..., C l = l i=1 x a C i x a x i
20 Eine Vereinigung von zwei Clustern führt zu einem Heterogenitätszuwachs. Es werden diejenigen Cluster C i und C j vereinigt, die zum geringsten Zuwachs führen. Da die euklidische Distanz verwendet wird, sollte das Verfahren von Ward nur für metrisch skalierte Variablen angewendet werden. Übertragung des Ward-Verfahrens auf nominal skalierte Merkmale: Messung der Homogenität der Cluster durch den Informationsinhalt, der in gewissem Sinn ebenfalls die Variabilität innerhalb des Clusters beschreibt. Beispiel Nochmal die Schweizer Banknoten: Ergebnis des Ward- Clusterverfahrens: Abschließende Bemerkung: In R gibt es z. B. den Befehl hclust(). Eine Distanzmatrix kann man mit dist() basteln. 151
21 8.3 Partitionierende Verfahren Im Gegensatz zu hierarchischen bestimmen partitionierende Clustermethoden eine Partitionierung der Objektmenge in k Cluster, so dass ein vorgegebenes Homogenitätskriterium optimiert wird. Dabei geht man meist davon aus, dass die Anzahl k der Cluster bekannt ist oder im Vorhinein geschätzt wurde. Wichtigstes partitionierendes Verfahren: k-means (kmeans() in R) Vorgehen: 1. Aufteilung der beobachteten Objekte in k beliebige Gruppen 2. Bestimmung der Gruppenzentren (Gruppenmittelwerte, Zentroide) 3. Bestimmung des Abstands jedes Objekts zu allen Gruppenzentren 4. Neuzuweisung jedes Objekts zu derjenigen Gruppe, zu deren Zentrum es den geringsten Abstand hat Wiederholung von 2. bis 4., bis keine Neuzuweisung von Objekten mehr vorgenommen wird. Konvergenz: k-means Clustern konvergiert bei Verwendung der L 2 -Distanz und der Gruppenmittelwerte binnen endlich vieler Schritte: Es gibt nur endlich viele Partitionierungen endlich vieler Objekte und daher auch nur endlich viele Gruppenzentren. Im Laufe des Clusterns wird zudem die Summe aller Abstände zu Gruppenzentren immer kleiner. Sind x (l) 1,..., x(l) k die Gruppenzentren und C1 l,..., Cl k die Cluster im l-ten Schritt, so gilt k j=1 i Cj l x i x l j 2 k j=1 i Cj l+1 x i x l j 2 k j=1 i Cj l+1 x i x l+1 j 2 Aber: Kein konvexes Optimierungsproblem. Lösung abhängig von den Startwerten. Es gibt verschiedene Varianten des Verfahrens, die sich im We- 152
22 sentlichen durch eine mehr oder weniger clevere Initialisierung der Zentren unterscheiden. Üblich mehrere Durchläufe mit verschiedenen Startwerten. Man wählt dann die Lösung mit dem geringsten Wert des Zielkriteriums k j=1 i C l x i x l j j 2. Bemerkung Bemerkung zu Clusteranalyseverfahren: Clusteranalyse ist deskriptiv. Es werden keine Tests durchgeführt. Die Effektivität der verschiedenen Clustertechniken hängt von der Lage und Form der wahren Cluster ab, die nicht bekannt sind. Nützlich: Resultate verschiedener Verfahren vergleichen. Führen verschiedene Ansätze zu ähnlichen Ergebnissen, die auch inhaltlich Sinn machen, so kann man auf die gefundenen Cluster vertrauen. Clusteranalysemethoden können ausreißeranfällig sein, insbesondere wenn sie auf der euklidischen Distanz basieren. Ohne die Existenz deutlicher Trennungen keine guten Ergebnisse erzielbar. Nichtlineare Strukturen werden von wenigen Clusteranalyseverfahren getrennt, z.b. kreisförmige (Gruppe 1) innerhalb U-förmiger Punktwolke (Gruppe 2) Statt Objekten kann man auch Variablen clustern: Alternative zur Faktorenanalyse, extrahiert allerdings keine verborgenen Faktoren, sondern findet nur ähnliche Variablengruppen. 153
Multivariate Verfahren
Multivariate Verfahren Lineare Regression Zweck: Vorhersage x Dimensionsreduktion x x Klassifizierung x x Hauptkomponentenanalyse Korrespondenzanalyse Clusteranalyse Diskriminanzanalyse Eigenschaften:
MehrStrukturerkennende Verfahren
Strukturerkennende Verfahren Viele Verfahren der multivariaten Datenanalyse dienen dazu, die in den Daten vorliegenden Strukturen zu erkennen und zu beschreiben. Dabei kann es sich um Strukturen sehr allgemeiner
Mehr4.Tutorium Multivariate Verfahren
4.Tutorium Multivariate Verfahren - Clusteranalyse - Hannah Busen: 01.06.2015 und 08.06.2015 Nicole Schüller: 02.06.2015 und 09.06.2015 Institut für Statistik, LMU München 1 / 17 Gliederung 1 Idee der
MehrStatistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07
Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07 Ziel der Clusteranalyse: Bilde Gruppen (cluster) aus einer Menge multivariater Datenobjekte (stat
Mehr4.4 Hierarchische Clusteranalyse-Verfahren
Clusteranalyse 18.05.04-1 - 4.4 Hierarchische Clusteranalyse-Verfahren Ablauf von hierarchischen Clusteranalyse-Verfahren: (1) Start jedes Objekt sein eigenes Cluster, also Start mit n Clustern (2) Fusionierung
MehrLösungen zu den Aufgaben zur Multivariaten Statistik Teil 4: Aufgaben zur Clusteranalyse
Prof. Dr. Reinhold Kosfeld Fachbereich Wirtschaftswissenschaften Universität Kassel Lösungen zu den Aufgaben zur Multivariaten Statistik Teil 4: Aufgaben zur Clusteranalyse 1. Erläutern Sie, wie das Konstrukt
Mehr5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften
5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer Clusterstruktur kennen, verschiedene
Mehr5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften
5. Clusteranalyse Vorbemerkungen 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer
MehrEntscheidungen bei der Durchführung einer Cluster-Analyse
7712Clusterverfahren Entscheidungen bei der Durchführung einer Cluster-Analyse nach: Eckes, Thomas, und Helmut Roßbach, 1980: Clusteranalysen; Stuttgart:Kohlhammer A. Auswahl der Merkmale Festlegung des
MehrÄhnlichkeits- und Distanzmaße
Einheit 1 Ähnlichkeits- und Distanzmaße IFAS JKU Linz c 2015 Multivariate Verfahren 1 0 / 41 Problemstellung Ziel: Bestimmung von Ähnlichkeit zwischen n Objekten, an denen p Merkmale erhoben wurden. Die
MehrClusteranalyse. Gliederung. 1. Einführung 2. Vorgehensweise. 3. Anwendungshinweise 4. Abgrenzung zu Faktorenanalyse 5. Fallbeispiel & SPSS
Clusteranalyse Seminar Multivariate Verfahren SS 2010 Seminarleiter: Dr. Thomas Schäfer Theresia Montag, Claudia Wendschuh & Anne Brantl Gliederung 1. Einführung 2. Vorgehensweise 1. Bestimmung der 2.
MehrDr. Ralf Gutfleisch, Stadt Frankfurt a.m.
Zentrale Fragestellungen: Was Wie Wann ist eine Clusteranalyse? wird eine Clusteranalyse angewendet? wird eine Clusteranalyse angewendet? Clusteranalyse = Gruppenbildungsverfahren = eine Vielzahl von Objekten
MehrClustering 2010/06/11 Sebastian Koch 1
Clustering 2010/06/11 1 Motivation Quelle: http://www.ha-w.de/media/schulung01.jpg 2010/06/11 2 Was ist Clustering Idee: Gruppierung von Objekten so, dass: Innerhalb einer Gruppe sollen die Objekte möglichst
MehrÄhnlichkeits- und Distanzmaße
Ähnlichkeits- und Distanzmaße Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund 11.1.8-1 - Ähnlichkeits- und Distanzmaße Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund 11.1.8 -
MehrClusteranalyse. Florian Löwenstein. Clusteranalyse eoda GmbH
Florian Löwenstein www.eoda.de 1 Übersicht Hypothesenfreies Verfahren Gehört zur Familie der Data-Mining-Techniken Ganze Verfahrensfamilie Ziel: Informationsreduktion und damit verbunden Abstraktion Typische
MehrMathematisch-Statistische Verfahren des Risiko-Managements - SS
Clusteranalyse Mathematisch-Statistische Verfahren des Risiko-Managements - SS 2004 Allgemeine Beschreibung (I) Der Begriff Clusteranalyse wird vielfach als Sammelname für eine Reihe mathematisch-statistischer
MehrVII Unüberwachte Data-Mining-Verfahren
VII Unüberwachte Data-Mining-Verfahren Clusteranalyse Assoziationsregeln Generalisierte Assoziationsregeln mit Taxonomien Formale Begriffsanalyse Self Organizing Maps Institut AIFB, 00. Alle Rechte vorbehalten.
Mehr4 Clusteranalyse 4.1 Einführung
Clusteranalyse.0.0 - - Clusteranalyse. Einführung p Merkmale: X, X,..., X p (metrisch; auch ordinal möglich, falls geeignet nummeriert; nominalskaliert?!) Zu den Merkmalen werden n Datensätze bzw. Datenobjekte
MehrKapitel ML: X (Fortsetzung)
Kapitel ML: X (Fortsetzung) X. Clusteranalyse Einordnung Data Mining Einführung in die Clusteranalyse Hierarchische Verfahren Iterative Verfahren Dichtebasierte Verfahren Cluster-Evaluierung ML: X-31 Cluster
MehrClusteranalyse. Mathematische Symbole Anzahl der Objekte, Versuchspersonen
Clusteranalyse Ziel: Auffinden von Gruppen ( Cluster ) ähnlicher Obekte (bezogen auf die ausgewählten Variablen). Obekte i selben Cluster haben ähnliche Eigenschaften, Obekte in verschiedenen Clustern
Mehr... Text Clustern. Clustern. Einführung Clustern. Einführung Clustern
Clustern Tet Clustern Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so daß: Beispiele innerhalb eines Clusters sich sehr ähnlich Beispiele in verschiedenen Clustern
MehrMethoden der Klassifikation und ihre mathematischen Grundlagen
Methoden der Klassifikation und ihre mathematischen Grundlagen Mengenlehre und Logik A B "Unter einer 'Menge' verstehen wir jede Zusammenfassung M von bestimmten wohlunterschiedenen Objekten unserer Anschauung
MehrEinführung in die Cluster-Analyse mit SPSS
Einführung in die -Analyse mit SPSS SPSS-Benutzertreffen am URZ Carina Ortseifen. Juli 00 Inhalt. analyse im allgemeinen Definition, Distanzmaße, Gruppierung, Kriterien. analyse mit SPSS a) Hierarchische
MehrKlassifikation und Ähnlichkeitssuche
Klassifikation und Ähnlichkeitssuche Vorlesung XIII Allgemeines Ziel Rationale Zusammenfassung von Molekülen in Gruppen auf der Basis bestimmter Eigenschaften Auswahl von repräsentativen Molekülen Strukturell
MehrHauptseminar KDD SS 2002
Hauptseminar KDD SS 2002 Prof. Dr. Hans-Peter Kriegel Eshref Januzaj Karin Kailing Peer Kröger Matthias Schubert Session: Clustering HS KDD, Ludwig-Maximilians-Universität München, SS 2002 1 Inhalt Einleitung
Mehr6. Multivariate Verfahren Zufallszahlen
4. Zufallszahlen 6. Multivariate Verfahren Zufallszahlen - werden nach einem determinist. Algorithmus erzeugt Pseudozufallszahlen - wirken wie zufäll. Zahlen (sollen sie jedenfalls) Algorithmus: Startwert
MehrEinführung in die Ähnlichkeitsmessung
Einführung in die Ähnlichkeitsmessung Reading Club SS 2008 Similarity Stefanie Sieber stefanie.sieber@uni-bamberg.de Lehrstuhl für Medieninformatik Otto-Friedrich-Universität Bamberg Agenda Worum geht
MehrClustern: Voraussetzungen
Clustering Gruppen (Cluster) ähnlicher Elemente bilden Elemente in einem Cluster sollen sich möglichst ähnlich sein, u. den Elementen in anderen Clustern möglichst unähnlich im Gegensatz zu Kategorisierung
MehrMultivariate Verfahren
Multivariate Verfahren Oliver Muthmann 31. Mai 2007 Gliederung 1 Einführung 2 Varianzanalyse (MANOVA) 3 Regressionsanalyse 4 Faktorenanalyse Hauptkomponentenanalyse 5 Clusteranalyse 6 Zusammenfassung Komplexe
MehrReader Teil 5: Clusteranalyse
r. Katharina est Sommersemester 2011 12. Mai 2011 Reader Teil 5: Clusteranalyse WiMa-raktikum ei der Clusteranalyse wollen wir Gruppen in aten auffinden. ie Aufgabe ist, in vorhandenen aten Klassen resp.
MehrDie Clusteranalyse 24.06.2009. Clusteranalyse. Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele. methodenlehre ll Clusteranalyse
Clusteranalyse Thomas Schäfer SS 2009 1 Die Clusteranalyse Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele Thomas Schäfer SS 2009 2 1 Die Clusteranalyse Grundidee: Eine heterogene Gesamtheit
Mehr6 Korrelations- und Regressionsanalyse: Zusammenhangsanalyse stetiger Merkmale
6 Korrelations- und Regressionsanalyse: Zusammenhangsanalyse stetiger Merkmale 397 6.1 Korrelationsanalyse Jetzt betrachten wir bivariate Merkmale (X, Y ), wobei sowohl X als auch Y stetig bzw. quasi-stetig
MehrKap. 5 Spatial (räumliches) Data Mining
Kap. 5 Spatial (räumliches) Data Mining Univ.-Prof. Dr.-Ing. Wolfgang Reinhardt AGIS / Inst. Für Angewandte Informatik (INF4) Universität der Bundeswehr München Wolfgang.Reinhardt@unibw.de www.agis.unibw.de
MehrInhalt. 1 Unvollständige Clusteranalyseverfahren 35
Inhalt i Einleitung 15 1.1 Zielsetzung clusteranalytischer Verfahren 15 1.2 Homogenität als Grundprinzip der Bildung von Clustern 16 1.3 Clusteranalyseverfahren 18 1.4 Grundlage der Clusterbildung 20 1.5
MehrClusteranalyse. Anwendungsorientierte Einführung. R. Oldenbourg Verlag München Wien. Von Dr. Johann Bacher
Clusteranalyse Anwendungsorientierte Einführung Von Dr. Johann Bacher R. Oldenbourg Verlag München Wien INHALTSVERZEICHNIS Vorwort XI 1 Einleitung 1 1.1 Primäre Zielsetzung clusteranalytischer Verfahren
MehrEmpirische Forschungsmethoden
Winfried Stier Empirische Forschungsmethoden Zweite, verbesserte Auflage Mit 22 Abbildungen und 53 Tabellen Springer L Inhaltsverzeichnis I. Grundlagen 1 1.1. Methoden, Methodologie, Empirie 1 1.2. Einige
MehrClusteranalyse. Clusteranalyse. Fragestellung und Aufgaben. Abgrenzung Clusteranalyse - Diskriminanzanalyse. Rohdatenmatrix und Distanzmatrix
TECHNISCHE UNIVERSITÄT MÜNCHEN-WEIHENSTEPHAN MATHEMATIK UND STATISTIK INFORMATIONS- UND DOKUMENTATIONSZENTRUM R. Biometrische und Ökonometrische Methoden II SS 00 Fragestellung und Aufgaben Abgrenzung
MehrÜbungen zu Multimedia-Datenbanken Aufgabenblatt 4 - Musterlösungen
Übungen zu Multimedia-Datenbanken Aufgabenblatt 4 - Musterlösungen Übung: Dipl.-Inf. Tina Walber Vorlesung: Dr.-Ing. Marcin Grzegorzek Fachbereich Informatik, Universität Koblenz Landau Ausgabe: 31.0.2010
Mehr2 Distanzen. Distanzen von Objekten. Einleitung Distanzen Repräsentation Klassifikation Segmentierung
2 von Objekten Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 23 316 Gliederung Kapitel 2: von Objekten 2.1 Objekte und Merkmale 2.2 Merkmalstypen und ihre Nominale Merkmale Ordinale
MehrCharakterisierung von 1D Daten
Charakterisierung von D Daten Mittelwert: µ, Schätzung m x = x i / n Varianz σ2, Schätzung: s2 = (s: Standardabweichung) Höhere Momente s 2 = ( x i m x ) 2 n ( ) Eine Normalverteilung ist mit Mittelwert
Mehr9 Metrische und normierte Räume
9 Metrische und normierte Räume Idee: Wir wollen Abstände zwischen Punkten messen. Der Abstand soll eine reelle Zahl 0 sein (ohne Dimensionsangabe wie Meter...). 9.1 Definition Sei X eine Menge. Eine Metrik
MehrProjektgruppe. Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten
Projektgruppe Jennifer Post Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten 2. Juni 2010 Motivation Immer mehr Internet-Seiten Immer mehr digitale Texte Viele Inhalte ähnlich oder gleich
MehrDie Hamming-Distanz definiert eine Metrik.
Die Hamming-Distanz definiert eine Metrik. Satz Metrik Hamming-Distanz Die Hamming-Distanz ist eine Metrik auf {0, 1} n, d.h. für alle x, y, z {0, 1} n gilt: 1 Positivität: d(x, y) 0, Gleichheit gdw x
MehrKapitel 6. Zusammenfassung der wichtigsten Ergebnisse dieser Arbeit
Kapitel 6 Zusammenfassung der wichtigsten Ergebnisse dieser Arbeit 159 160 Kapitel 6. Zusammenfassung der Ergebnisse Im Fokus der vorliegenden Arbeit steht die Frage nach der Eignung verschiedener Matchingverfahren
MehrMusterlösung. Modulklausur Multivariate Verfahren
Musterlösung Modulklausur 31821 Multivariate Verfahren 27. März 2015 Aufgabe 1 Kennzeichnen Sie die folgenden Aussagen über die beiden Zufallsvektoren ([ ] [ ]) ([ ] [ ]) 2 1 0 1 25 2 x 1 N, x 3 0 1 2
MehrClusteranalyse und Display-Methoden
Ziel: Erkennen von Strukturen in Daten Vergleich der Algorithmen für die Clusteranalyse Beurteilung verschiedener Displaymethoden Stabilitätsdiagramme Betreuer: Dipl.-Chem. Stefan Hesse IAAC, Lehrbereich
MehrKapitel 1 Beschreibende Statistik
Beispiel 1.25: fiktive Aktienkurse Zeitpunkt i 0 1 2 Aktienkurs x i 100 160 100 Frage: Wie hoch ist die durchschnittliche Wachstumsrate? Dr. Karsten Webel 53 Beispiel 1.25: fiktive Aktienkurse (Fortsetzung)
MehrStatistik II: Klassifikation und Segmentierung
Medien Institut : Klassifikation und Segmentierung Dr. Andreas Vlašić Medien Institut (0621) 52 67 44 vlasic@medien-institut.de Gliederung 1. Faktorenanalyse 2. Clusteranalyse 3. Key Facts 2 I 14 Ziel
MehrProduktgruppen als mögliche Hilfe für die Auswahl zutreffender CE-Richtlinien
Produktgruppen als mögliche Hilfe für die Auswahl zutreffender CE-Richtlinien Langenbach, J. Für jedes neue Produkt, welches in Europa auf den Markt gebracht wird, muss die CE-Zertifizierung beachtet werden.
MehrClustering Seminar für Statistik
Clustering Markus Kalisch 03.12.2014 1 Ziel von Clustering Finde Gruppen, sodas Elemente innerhalb der gleichen Gruppe möglichst ähnlich sind und Elemente von verschiedenen Gruppen möglichst verschieden
MehrClusteranalyse mit SPSS
Autor: Thomas Nirschl, Amt für Stadtforschung und Statistik, Stadt Nürnberg Clusteranalyse mit SPSS Das Statistikpaket SPSS (aktuell in der Version 17 vorliegend) stellt dem Anwender eine große Vielfalt
MehrClustering. Hauptseminar Machine Learning WS 2003/2004. Referent: Can Önder Betreuer: Martin Wagner
Clustering Hauptseminar Machine Learning WS 2003/2004 Referent: Can Önder Betreuer: Martin Wagner Gliederung Partitionierendes Clustering Hierarchisches Clustering Wahrscheinlichkeitsbasiertes Clustering
Mehr5.5 PRE-Maße (Fehlerreduktionsmaße) 6
359 5.5 PRE-Maße (Fehlerreduktionsmaße) 6 5.5.1 Die grundlegende Konstruktion Völlig andere, sehr allgemeine Grundidee zur Beschreibung von Zusammenhängen. Grundlegendes Prinzip vieler statistischer Konzepte.
MehrVII Unüberwachte Data-Mining-Verfahren. VII Unüberwachte Data-Mining-Verfahren
VII Unüberwachte Data-Mg-Verfahren VII Unüberwachte Data-Mg-Verfahren Clusteranalyse Assoziationsregeln Generalisierte Assoziationsregeln mit Taxonomien Formale Begriffsanalyse Self Organizg Maps Institut
Mehrk-nächste-nachbarn-schätzung
k-nächste-nachbarn-schätzung Mustererkennung und Klassifikation, Vorlesung No. 7 1 M. O. Franz 29.11.2007 1 falls nicht anders vermerkt, sind die Abbildungen entnommen aus Duda et al., 2001. Übersicht
Mehr13 Mehrdimensionale Zufallsvariablen Zufallsvektoren
3 Mehrdimensionale Zufallsvariablen Zufallsvektoren Bisher haben wir uns ausschließlich mit Zufallsexperimenten beschäftigt, bei denen die Beobachtung eines einzigen Merkmals im Vordergrund stand. In diesem
MehrNichtmetrische multidimensionale Skalierung (NMDS) Dr. Heike Culmsee Vegetationsanalyse & Phytodiversität
Nichtmetrische multidimensionale Skalierung (NMDS) Dr. Heike Culmsee Vegetationsanalyse & Phytodiversität Übersicht Ordinationsverfahren Linear methods Weighted averaging Multidimensional scaling Unconstrained
MehrKapitel 5 KONVERGENZ
Kapitel 5 KONVERGENZ Fassung vom 21. April 2002 Claude Portenier ANALYSIS 75 5.1 Metrische Räume 5.1 Metrische Räume DEFINITION 1 Sei X eine Menge. Eine Abbildung d : X X! R + heißt Metrik oder Distanz
Mehr0 Einführung: Was ist Statistik
0 Einführung: Was ist Statistik 1 Datenerhebung und Messung 2 Univariate deskriptive Statistik Häufigkeitsverteilungen Statistische Kennwerte 3 Multivariate Statistik 4 Regression 5 Ergänzungen Deskriptive
MehrClustern von numerischen Wettervorhersagen
Clustern von numerischen Wettervorhersagen Diplomarbeit in der Studienrichtung Technische Mathematik zur Erlangung des akademischen Grades Diplom-Ingenieurin eingereicht an der Fakultät für Mathematik,
Mehr1 Einleitung Definitionen, Begriffe Grundsätzliche Vorgehensweise... 3
Inhaltsverzeichnis 1 Einleitung 1 1.1 Definitionen, Begriffe........................... 1 1.2 Grundsätzliche Vorgehensweise.................... 3 2 Intuitive Klassifikation 6 2.1 Abstandsmessung zur Klassifikation..................
MehrAufgaben zur Multivariaten Statistik
Prof. Dr. Reinhold Kosfeld Fachbereich Wirtschaftswissenschaften Universität Kassel Aufgaben zur Multivariaten Statistik Teil : Aufgaben zur Einleitung. Was versteht man unter einer univariaten, bivariaten
MehrKlausur zur Vorlesung Analyse mehrdimensionaler Daten, Lösungen WS 2010/2011; 6 Kreditpunkte, 90 min
Klausur, Analyse mehrdimensionaler Daten, WS 2010/2011, 6 Kreditpunkte, 90 min 1 Prof. Dr. Fred Böker 21.02.2011 Klausur zur Vorlesung Analyse mehrdimensionaler Daten, Lösungen WS 2010/2011; 6 Kreditpunkte,
MehrSBWL Tourismusanalyse und Freizeitmarketing
SBWL Tourismusanalyse und Freizeitmarketing Vertiefungskurs 4: Multivariate Verfahren 2 Teil 2: Explorative multivariate Analyse & Clusteranalyse Achim Zeileis Department of Statistics and Mathematics
MehrMathematik für Anwender II
Prof. Dr. H. Brenner Osnabrück SS 2012 Mathematik für Anwender II Vorlesung 32 Metrische Räume Euklidische Räume besitzen nach Definition ein Skalarprodukt. Darauf aufbauend kann man einfach die Norm eines
MehrStatistik K urs SS 2004
Statistik K urs SS 2004 3.Tag Grundlegende statistische Maße Mittelwert (mean) Durchschnitt aller Werte Varianz (variance) s 2 Durchschnittliche quadrierte Abweichung aller Werte vom Mittelwert >> Die
MehrAusführliche Lösungen zu ausgewählten Aufgaben von ÜB 5 und 6. Streudiagramm
y Aufgabe 3 Ausführliche Lösungen zu ausgewählten Aufgaben von ÜB 5 und 6 a) Zur Erstellung des Streudiagramms zeichnet man jeweils einen Punkt für jedes Datenpaar (x i, y i ) aus der zweidimensionalen
Mehr1. Gruppen. 1. Gruppen 7
1. Gruppen 7 1. Gruppen Wie schon in der Einleitung erläutert wollen wir uns in dieser Vorlesung mit Mengen beschäftigen, auf denen algebraische Verknüpfungen mit gewissen Eigenschaften definiert sind.
MehrParametrische vs. Non-Parametrische Testverfahren
Parametrische vs. Non-Parametrische Testverfahren Parametrische Verfahren haben die Besonderheit, dass sie auf Annahmen zur Verteilung der Messwerte in der Population beruhen: die Messwerte sollten einer
Mehr5. Äquivalenzrelationen
5. Äquivalenzrelationen 35 5. Äquivalenzrelationen Wenn man eine große und komplizierte Menge (bzw. Gruppe) untersuchen will, so kann es sinnvoll sein, zunächst kleinere, einfachere Mengen (bzw. Gruppen)
MehrMathematik I. Vorlesung 19. Metrische Räume
Prof. Dr. H. Brenner Osnabrück WS 2009/2010 Mathematik I Vorlesung 19 Metrische Räume Euklidische Räume besitzen nach Definition ein Skalarprodukt. Darauf aufbauend kann man einfach die Norm eines Vektors
MehrFerienkurs Analysis 1
Skript Ferienkurs Analysis 1 Fabian Hafner und Thomas Baldauf TUM Wintersemester 2016/17 04.04.2017 Das Skript wurde teilweise übernommen vom Skript des Ferienkurses WS 2014, verfasst von Andreas Wörfel.
MehrInhaltsverzeichnis 1. EINLEITUNG...1
VII Inhaltsverzeichnis Vorwort...V Verzeichnis der Abbildungen...XII Verzeichnis der Tabellen... XVI Verzeichnis der Übersichten...XXII Symbolverzeichnis... XXIII 1. EINLEITUNG...1 2. FAKTORENANALYSE...5
MehrVorlesung 7 GRAPHBASIERTE BILDSEGMENTIERUNG
Vorlesung 7 GRAPHBASIERTE BILDSEGMENTIERUNG 195 Bildsegmentierung! Aufgabe: Bestimme inhaltlich zusammenhängende, homogene Bereiche eines Bildes! Weit verbreitetes Problem in der Bildverarbeitung! Viele
MehrDer n-dimensionale Raum
Der n-dimensionale Raum Mittels R kann nur eine Größe beschrieben werden. Um den Ort eines Teilchens im Raum festzulegen, werden schon drei Größen benötigt. Interessiert man sich für den Bewegungszustand
MehrKreisdiagramm, Tortendiagramm
Kreisdiagramm, Tortendiagramm Darstellung der relativen (absoluten) Häufigkeiten als Fläche eines Kreises Anwendung: Nominale Merkmale Ordinale Merkmale (Problem: Ordnung nicht korrekt wiedergegeben) Gruppierte
MehrAnalyis I -Metrische Räume - eine Einführung in die Topologie
Analyis I -Metrische Räume - eine Einführung in die Topologie E = E isolierter Punkte x 1 x 2 x 3 E ist abgeschlossen U ɛ (x) x innerer Punkt Ω Häufungspunkte Ω Metrik Metrische Räume Definition Sei X
Mehr30 Metriken und Normen
31 Metriken und Normen 153 30 Metriken und Normen Lernziele: Konzepte: Metriken, Normen, Skalarprodukte, Konvergenz von Folgen Frage: Versuchen Sie, möglichst viele verschiedene Konvergenzbegriffe für
MehrMedizinisches Beispiel
Problemstellung Stimmen zwei oder mehrere Beobachter in ihrer Einschätzung überein? (im engl.: rater agreement oder interrater agreement) Beispiel: Zwei Professoren beurteilen die Referate oder Seminararbeiten
Mehr1. Gruppen. 1. Gruppen 7
1. Gruppen 7 1. Gruppen Wie schon in der Einleitung erläutert wollen wir uns in dieser Vorlesung mit Mengen beschäftigen, auf denen algebraische Verknüpfungen mit gewissen Eigenschaften definiert sind.
MehrErich Schubert, Arthur Zimek KDD Übung
Hausaufgabe Distanzfunktionen Erich Schubert, Arthur Zimek Ludwig-Maximilians-Universität München 2014-04-25 KDD Übung Distanzfunktionen Reflexiv: Distanz zu sich selbst ist 0 x = y d(x, y) = 0 Symmetrisch:
Mehr2 Einlesen von Datensätzen
2 Einlesen von Datensätzen 2.1 Einlesen von SPSS-Datenfiles SPSS bietet die beiden kompatiblen Datenformate.sav und.por zum Speichern und Einlesen von Dateien an. Daten dieses Formats können problemlos
MehrDistanzen und Ähnlichkeitsmaÿe
Distanzen und Ähnlichkeitsmaÿe Michael Siebers Kognitive Systeme Universität Bamberg 25. Mai 2011 M. Siebers (KogSys) Distanzen und Ähnlichkeitsmaÿe 25. Mai 2011 1 / 14 Agenda 1 Distanzen 2 Ähnlichkeitsmaÿe
MehrKapitel 1 Beschreibende Statistik
Beispiel 1.5: Histogramm (klassierte erreichte Punkte, Fortsetzung Bsp. 1.1) 0.25 0.2 Höhe 0.15 0.1 0.05 0 0 6 7 8,5 10 11 erreichte Punkte Dr. Karsten Webel 24 Beispiel 1.5: Histogramm (Fortsetzung) Klasse
MehrAlgorithmische Graphentheorie
Algorithmische Graphentheorie Vorlesung 7 und 8: Euler- und Hamilton-Graphen Babeş-Bolyai Universität, Department für Informatik, Cluj-Napoca csacarea@cs.ubbcluj.ro 17. April 2018 1/96 WIEDERHOLUNG Eulersche
MehrEinführung in die Bioinformatik
Einführung in die Bioinformatik Ringvorlesung Biologie Sommer 07 Burkhard Morgenstern Institut für Mikrobiologie und Genetik Abteilung für Bioinformatik Goldschmidtstr. 1 Online Materialien zur Ringvorlesung:
MehrInhalt. 6.1 Motivation. 6.2 Klassifikation. 6.3 Clusteranalyse. 6.4 Asszoziationsanalyse. Datenbanken & Informationssysteme / Kapitel 6: Data Mining
6. Data Mining Inhalt 6.1 Motivation 6.2 Klassifikation 6.3 Clusteranalyse 6.4 Asszoziationsanalyse 2 6.1 Motivation Data Mining and Knowledge Discovery zielt darauf ab, verwertbare Erkenntnisse (actionable
MehrTheoretische Informatik 1
Theoretische Informatik 1 Approximierbarkeit David Kappel Institut für Grundlagen der Informationsverarbeitung Technische Universität Graz 02.07.2015 Übersicht Das Problem des Handelsreisenden TSP EUCLIDEAN-TSP
MehrLösungsmenge L I = {x R 3x + 5 = 9} = L II = {x R 3x = 4} = L III = { }
Zur Einleitung: Lineare Gleichungssysteme Wir untersuchen zunächst mit Methoden, die Sie vermutlich aus der Schule kennen, explizit einige kleine lineare Gleichungssysteme. Das Gleichungssystem I wird
MehrKonzepte II. Netzwerkanalyse für Politikwissenschaftler
Konzepte II Netzwerkanalyse für Politikwissenschaftler Wiederholung Räumliche Distanzen und MDS Hauptkomponenten Neuere Entwicklungen Netzwerkanalyse für Politikwissenschaftler Konzepte II (1/20) Worum
MehrStatistische Eigenschaften von Clusterverfahren
Universität Potsdam Mathematisch-Naturwissenschaftliche Fakultät Institut für Mathematik Diplomarbeit Statistische Eigenschaften von Clusterverfahren Andrea Schorsch Matrikelnummer: 715466 Sommersemester
MehrAlgorithmen auf Sequenzen
Algorithmen auf Sequenzen Fehlertolerante Mustersuche: Distanz- und Ähnlichkeitsmaße Sven Rahmann Genominformatik Universitätsklinikum Essen Universität Duisburg-Essen Universitätsallianz Ruhr Einführung
MehrAlgorithmische Geometrie, SoSe 2005 Skriptmitschrift vom 29. April 2005
Algorithmische Geometrie, SoSe 2005 Skriptmitschrift vom 29. April 2005 Antonia Wittmers Igor Savchenko Konvexe Hüllen Inkrementeller Algorithmus für die konvexe Hülle Dabei heißt inkrementeller Algorithmus,
MehrHaben Sie schon mal geclustert? Beitrag zum Workshop Clusteranalyse auf der Frühjahrstagung der Städtestatistik 2008 in Saarbrücken
Haben Sie schon mal geclustert? Beitrag zum Workshop Clusteranalyse auf der Frühjahrstagung der Städtestatistik 2008 in Saarbrücken Dr. Ralf Gutfleisch, Frankfurt am Main Haben Sie schon mal geclustert?
MehrTechnische Universität München. Aufgaben Mittwoch SS 2012
Technische Universität München Andreas Wörfel Ferienkurs Analysis 2 für Physiker Aufgaben Mittwoch SS 2012 Aufgabe 1 Äquivalente Aussagen für Stetigkeit( ) Beweisen Sie folgenden Satz: Seien X und Y metrische
Mehrhtw saar 1 EINFÜHRUNG IN DIE STATISTIK: BESCHREIBENDE STATISTIK
htw saar 1 EINFÜHRUNG IN DIE STATISTIK: BESCHREIBENDE STATISTIK htw saar 2 Grundbegriffe htw saar 3 Grundgesamtheit und Stichprobe Ziel: Über eine Grundgesamtheit (Population) soll eine Aussage über ein
Mehr5.4 Hierarchische Verfahren
Ziel Grundlagen Konstruktion einer Hierarchie von lustern (meist repräsentiert durch ein sog. Dendrogramm), ) so dass immer die luster mit minimaler i Distanz verschmolzen werden Dendrogramm ein Baum,
MehrTeil I. Lineare Optimierung
Teil I Lineare Optimierung 5 Kapitel 1 Grundlagen Definition 1.1 Lineares Optimierungsproblem, lineares Programm. Eine Aufgabenstellung wird lineares Optimierungsproblem oder lineares Programm genannt,
Mehr