2 Distanzen. Distanzen von Objekten. Einleitung Distanzen Repräsentation Klassifikation Segmentierung

2 von Objekten Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 23 316

Gliederung Kapitel 2: von Objekten 2.1 Objekte und Merkmale 2.2 Merkmalstypen und ihre Nominale Merkmale Ordinale Merkmale Quantitative Merkmale 2.3 Aggregation von Quantitative Merkmale Nominale Merkmale Gemischte Datenmatrizen Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 24 316

Schematische Vorgehensweise Objekte Merkmale Interpretation Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 25 316

2.1 Objekte und Merkmale Einige grundlegende Definitionen (Wiederholung): G = {1, 2, 3,...} Grundgesamtheit von Objekten N = {1,...,n} Falls G = N Falls N G M = {1,...,m} Objektmenge Vollerhebung Stichprobe aus der Grundgesamtheit Merkmalsmenge Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 26 316

Die Datenmatrix A = (a ik ) n m = a 11.... a 1m.... Datenmatrix a n1... a nm mit a ik als Ausprägung des Merkmals k bei Objekt i Zeilen von A (Objektvektoren): a T i = (a i1,...,a im ), i N Spalten von A (Merkmalsvektoren): a k = a 1k. a nk, k M A k Menge der möglichen Ausprägungen bei Merkmal k Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 27 316

Beispiel: Hörer einer Vorlesung Merkmale Alter Geschlecht Wohnort Semester Studiengang Prüfungen Objekte 1 22 männlich Augsburg 5 BWL mit VD 2 25 männlich Karlsruhe 10 Mathe mit HD 3 21 weiblich München 4 VWL mit VD 4 28 männlich Augsburg 13 BWL mit VD 5 24 männlich Augsburg 8 BWL ohne VD = A Merkmal k Ausprägungsmenge A k Alter Menge der natürlichen Zahlen Geschlecht {männlich, weiblich} Wohnort Menge aller Orte Semester Menge der natürlichen Zahlen Studiengang {BWL, VWL, Mathematik, Informatik,...} Prüfungen {ohne Vordiplom, mit Vordiplom, mit Hauptdiplom} Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 28 316

Ähnlichkeit contra Verschiedenheit Man benötigt ein Maß, das die Ähnlichkeit zweier Objekte quantifiziert. Ähnlichkeitsmaß (AM): Je größer ein Wert, desto ähnlicher sind sich zwei Objekte. Folgen: Was bedeutet ein Wert AM = 0? Wie groß ist die Ähnlichkeit zweier identischer Objekte? Übergang zu einem Verschiedenheitsmaß Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 29 316

Definition: Distanzindex Sei N = 1,...,n eine Menge von n Objekten. Die Abbildung heißt Distanzindex, wenn gilt: d : N N R + d(i, i) = 0 d(i, j) = d(j, i) d(i,j) 0 [Reflexivität] [Symmetrie] [Nichtnegativität] Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 30 316

Distanzindex: Mögliche Eigenschaften Dreiecksungleichung ( ): d(i, j) d(i, h) + d(h, j) i, j, h N Ist beispielsweise erfüllt bei räumlichem Abstandsbegriff j i h Aber: Ist nicht immer haltbar bzw. sinnvoll (Beispiel: Hoher Distanzindex entspricht schwachem Bedarfsverbund bei Supermarkteinkauf) Tee Zucker Kaffee Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 31 316

Distanzindex: Mögliche Eigenschaften Ultrametrische Ungleichung (U): d(i, j) max { d(i, h), d(j, h) } i, j, h N Es gilt: (U) ( ) ( ) (U) D.h. (U) ist stärker als ( ) Identitätseigenschaft (I): i, j N mit d(i, j) = 0 i = j Ist i.a. nicht erfüllt, da verschiedene Objekte häufig gleiche Merkmalsausprägungen besitzen. Beispiel: Patienten mit identischen Krankheitssymptomen * Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 32 316

Distanzindex: Mögliche Eigenschaften Äquivalenzeigenschaft (A): i, j N mit d(i, j) = 0 d(i, h) = d(j, h) h N D.h. i und j sind äquivalente Objekte. Bemerkung: (A) ist Abschwächung von (I). Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 33 316

Definition: Metriken Ein Distanzindex, der die Eigenschaft ( ) (U) ( ), (I) (U), (I) erfüllt, heißt Quasimetrik, erfüllt, heißt Quasiultrametrik, erfüllt, heißt Metrik, erfüllt, heißt Ultrametrik. Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 34 316

Definition: Distanzmatrix Zusammenfassung aller paarweisen zu einer Matrix: D = (d(i,j)) n n = d(1, 1) d(1,n)..... d(n, 1) d(n,n) bzw. D = (d ij ) n n = d 11 d 1n..... d n1 d nn Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 35 316

Eigenschaften der Distanzmatrix Eine Distanzmatrix D besitzt folgende Eigenschaften: ist quadratisch ist symmetrisch enthält in der Hauptdiagonalen ausschließlich Nullen Somit müssen nur 1 2 zwar n (n 1) berechnet werden und d 12 d 1n.... d n 1n Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 36 316

Gewinnung von Bestimmung der je Merkmal und anschließende Aggregation zur Gesamtdistanzmatrix (siehe Abschnitte 2.2, 2.3) Direkte Beurteilung von Objektpaaren (ohne Berücksichtigung von Merkmalen) Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 37 316

Gewinnung von, direkte Beurteilung: Bei der direkten Beurteilung von Objektpaaren (ohne Vorgabe von Merkmalen) werden jeder Versuchsperson die möglichen Objektpaare vorgelegt, wobei die Ähnlichkeit durch einen Wert aus einem vorher festgelegten Bereich quantifiziert werden soll. Beispiel zur direkten Beurteilung: Die Parteien SPD, CDU und FDP sollten bezüglich ihrer Verschiedenheit auf einer Skala von Null (Parteien sind identisch) bis zehn (Parteien sind maximal verschieden) beurteilt werden. Folgendes Ergebnis sei festgehalten worden: CDU - FDP 4 CDU - SPD 7 SPD - FDP 5 D = FDP SPD CDU 4 7 FDP 5 Vor- und Nachteile dieser Methodik: Vorteile: + implizite Berücksichtigung mehrerer, nicht weiter spezifizierter Merkmale + einfache, schnelle Datenerhebung Nachteile: - Interpretationsschwierigkeiten, da Merkmale unbekannt - nur bei kleiner Objektmenge zweckmäßig (bei n = 10 bereits 1 2 10 9 = 45 Paarvergleiche) Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 38 316

2.2 Merkmalstypen und ihre Grundsätzlich lassen sich folgende Merkmalstypen unterscheiden: Quantitative Merkmale: Alle Ausprägungen des Merkmals werden intuitiv durch reelle Zahlen benannt. Qualitative Merkmale: Die Ausprägungen des Merkmals werden intuitiv durch Worte oder Begriffe, nicht aber durch Zahlen, wiedergegeben (nominale oder ordinale Merkmale). Da es häufig von Vorteil ist, daß die Ausprägungen eines Merkmals durch Zahlen wiedergegeben werden, quantifiziert man i.d.r. die qualitativen Merkmale. Dies geschieht mit Hilfe einer Abbildung, die man Skala nennt. Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 39 316

Definition: Skala Sei k ein Merkmal mit der Ausprägungsmenge A k. Dann heißt die Abbildung f : A k Reine Skala. Bemerkung: Die Abbildung f sollte so gewählt werden, dass die Informationen und Relationen, die für bzw. zwischen den einzelnen Merkmalsausprägungen a ik gelten, auch für die Bildwerte f(a ik ) korrekt sind. Messungen erfordern oft schon eine Skala. Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 40 316

Nominale Merkmale Definition: Ein Merkmal k heißt nominal oder klassifikatorisch, wenn für die Ausprägungen nur nach Gleichheit (=) oder Ungleichheit ( ) unterschieden werden kann. Bezüglich der Äquivalenz ( ) zweier Objekte gilt: Die Abbildung f : A k R mit i k j a ik = a jk bzw. i k j a ik a jk a ik a jk f(a ik ) f(a jk ) heißt Nominalskala. Jeder Distanzindex hat dann die Form: d k (i, j) = 0 für f(a ik ) = f(a jk ) c für f(a ik ) f(a jk ), mit c > 0 Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 41 316

Distanzindex nominaler Daten Beispiel: Geschlecht der Hörer Objekte Alter Geschlecht Wohnort Semester Studiengang Prüfungen 1 22 männlich 1 5 1 mit VD 2 25 männlich 2 10 2 mit HD 3 21 weiblich 3 4 3 mit VD 4 28 männlich 1 13 1 mit VD 5 24 männlich 1 8 1 ohne VD 2 3 4 5 f Geschlecht (weiblich) = 0 f Geschlecht (männlich) = 1 c = 1 D Geschl. = 1 0 1 0 0 2 1 0 0 3 1 1 4 0 Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 42 316

Eigenschaften von Nominalskalen Satz: Jede injektive, reelle Abbildung ist eine Nominalskala. Jeder Distanzindex einer Nominalskala ist eine Quasi-Ultrametrik mit der Eigenschaft (A) (Äquivalenzeigenschaft). Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 43 316

Ordinale Merkmale Definition: Ein Merkmal k heißt ordinal (komparativ), wenn die Ausprägungen vollständig geordnet werden können. Bezüglich der Ordnung zweier Objekte gilt: i j k a ik < a jk niedrigerer Rang i j k a ik = a jk gleicher Rang i k j a ik > a jk höherer Rang Die Abbildung f : A k R mit heißt Ordinalskala. a ik < a jk f(a ik ) < f(a jk ) Ein Distanzindex hat im einfachsten Fall die Form: d k (i, j) = f(a ik ) f(a jk ) Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 44 316

Distanzindex ordinaler Daten Beispiel: Prüfungen der Hörer Objekte Alter Geschlecht Wohnort Semester Studiengang Prüfungen 1 22 männlich 1 5 1 mit VD 2 25 männlich 2 10 2 mit HD 3 21 weiblich 3 4 3 mit VD 4 28 männlich 1 13 1 mit VD 5 24 männlich 1 8 1 ohne VD 2 3 4 5 f Prüfg. (ohne VD) = 1 f Prüfg. (mit VD) = 2 f Prüfg. (mit HD) = 3 c = 1 D Prüfg. = 1 1 0 0 1 2 1 1 2 3 0 1 4 1 Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 45 316

Eigenschaften von Ordinalskalen Satz: Jede streng monotone, reelle Abbildung ist eine Ordinalskala. Der o.g. Distanzindex der Ordinalskala ist eine Quasimetrik mit der Eigenschaft (A) (Äquivalenzeigenschaft). Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 46 316

Quantitative Merkmale Definition: Ein Merkmal k heißt quantitativ (kardinal, metrisch), wenn es ordinal ist und die Differenzen von Ausprägungspaaren vollständig geordnet werden können. Dies bedeutet insbesondere, dass das Ausmaß der Unterschiedlichkeit zweier Ausprägungen bestimmt werden kann und aussagekräftig ist. Die Abbildung f : Ak R mit f(a ik ) = α a ik + β (α > 0, β R) heißt Intervallskala. Die Abbildung f : Ak R mit f(a ik ) = α a ik (α > 0) heißt Verhältnisskala. Die Abbildung f : Ak N 0 mit f(a ik ) = a ik heißt Absolutskala. Jeder Distanzindex einer quantitativen Skala hat die Form: d k (i, j) = φ k f(a ik ) f(a jk ) p φk ermöglicht eine merkmalspezifische lineare Gewichtung. p ermöglicht eine hohe Gewichtung großer Differenzen in Merkmalsausprägungen. Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 47 316

Distanzindex metrischer Daten Beispiel: Alter der Hörer Objekte Alter Geschlecht... 1 22 männlich 2 25 männlich 3 21 weiblich 4 28 männlich 5 24 männlich f(a ik ) = α a ik + β = a ik (d.h. α = 1, β = 0) φ = 1; p = 1 φ = 1; p = 2 2 3 4 5 2 3 4 5 D Alter = 1 3 1 6 2 2 4 3 1 3 7 3 4 4 D Alter = 1 9 1 36 4 2 16 9 1 3 49 9 4 16 Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 48 316

Eigenschaften von metrischen Skalen Satz: Jede positive lineare Abbildung ist eine Intervallskala. Für eine Intervallskala gilt für beliebige Funktionen f: f(a ik ) f(a jk ) f(a i k) f(a j k) = const. Für eine Verhältnisskala gilt für beliebige Funktionen f: f(a ik ) f(a i k) = const. Der Distanzindex einer quantitativen Skala ist unabhängig von β. Die Wirkung von α kann über die φ k beeinflusst werden. Der Distanzindex ist eine Quasimetrik mit der Äquivalenzeigenschaft (A). Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 49 316

2.3 Aggregation von Aufgabe: Sinnvolle Aggregation der einzelnen, merkmalspezifisch ermittelten. Dabei unterscheidet man zwischen ausschließlich nominalen Merkmalen, ausschließlich quantitativen Merkmalen oder gemischten Datenmatrizen. Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 50 316

Distanzaggregation von nominal skalierten Daten Da nominal polytome Merkmale in mehrere binäre Merkmale überführt werden können, werden im Folgenden zunächst binäre Merkmale betrachtet. Dazu werden die Objekte generell durch den Besitz einer bestimmten Eigenschaft charakterisiert. Distanzaggregation bei binären Merkmalen - Idee Zwei Objekte (i, j) weisen bezüglich mehrerer binärer Merkmale eine große Ähnlichkeit auf, wenn häufig - d.h. bei vielen Merkmalen - die gleiche Ausprägung Ja/Ja bzw. 1/1 Nein/Nein bzw. 0/0 zu beobachten ist. Häufige Kombinationen wie Ja/Nein bzw. Nein/Ja weisen auf eine hohe Verschiedenheit hin. Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 51 316

Distanzaggregation bei binären Merkmalen - Umsetzung Gegeben sei eine Datenmatrix A = (a ik ) n m mit a ik {1,0}. Berechne Kontingenztabelle für binäre Merkmale gemäß 1 (Ja) 0 (Nein) 1 (Ja) α ij β ij 0 (Nein) γ ij δ ij und m := α ij + β ij + γ ij + δ ij mit beispielsweise α ij = { k : a ik = a jk = 1 } Jeder aggregierte Distanzindex d(i, j) ist somit eine Funktion von α ij, β ij, γ ij,δ ij. Es gilt also: d(i, j) = f(α ij, β ij, γ ij,δ ij ) 0 Forderungen an d(i, j): monoton wachsend mit βij und γ ij monoton fallend mit αij und δ ij symmetrisch in βij und γ ij Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 52 316

Distanzaggregation bei binären Merkmalen - Umsetzung (2) Varianten für die Bildung von d(i, j): 1. Anzahl nicht übereinstimmender Merkmale d(i, j) = β ij + γ ij = m (α ij + δ ij ) 2. Anteil nicht übereinstimmender Merkmale d(i, j) = β ij + γ ij m 3. Gewichteter Anteil nicht übereinstimmender Merkmale d(i, j) = λ (β ij + γ ij ) λ (β ij + γ ij ) + (1 λ) (α ij + δ ij ) mit λ (0, 1) (Beispiel siehe Vorlesung) Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 53 316

Direkte Distanzaggregation bei nominal-polytom skalierten Merkmalen Sei d k (i, j) = { 0 für aik = a jk c > 0 für a ik a jk 1. Ungewichtete Aggregation der merkmalspezifischen d(i, j) = m d k (i,j) k=1 2. Gewichtete Aggregation der merkmalspezifischen d(i, j) = 1 m A k m A k d k (i,j) k=1 k=1 Bemerkung: Variante (2.) gewichtet Merkmale mit vielen Merkmalsausprägungen stärker als solche mit wenigen, d.h. Wenige Ausprägungen Beitrag zu d(i, j) ist klein Viele Ausprägungen Beitrag zu d(i, j) ist groß (Beispiel siehe Vorlesung) Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 54 316

Distanzaggregation bei metrischen Merkmalen Vorüberlegung: Jeder Okjektvektor a i kann als Punkt im m-dimensionalen Raum dargestellt werden. Die geometrische Anschauung legt es also nahe, die Distanz zwischen i und j durch die Euklidsche Distanz (oder eine Verallgemeinerung dieser) zu messen. Definition: Distanzindex für metrische Merkmale Sei A = (a ik ) n m eine quantitative Datenmatrix. Dann heißt d(i, j) mit d(i, j) = ( m k=1 φ k a ik a jk p ) 1 p, φ k > 0, p N gewichtete L p -Distanz von i und j. Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 55 316

Spezialfälle der gewichteten L p -Distanz Man spricht von einer City-Block-Distanz für p = 1: d(i, j) = m φ k a ik a jk k=1 Euklidschen Distanz für p = 2: d(i, j) = m φ k a ik a jk 2 k=1 Tschebyscheff-Distanz für p : (Grafik und Beispiel siehe Vorlesung) d(i, j) = max k (φ k a ik a jk ) Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 56 316

Spezialfälle der gewichteten L p -Distanz City-Block-Distanz Merkmal 2 Euklidscher Abstand Tschebyscheff-Abstand Objekt j Objekt i Merkmal 1 Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 57 316

Gewichtete L p -Distanz: Beispiel Objekte Alter Semester 1 22 5 2 25 10 3 21 4 4 28 13 5 24 8 L 1 2 3 4 5 1 8 2 14 5 2 10 6 3 3 16 7 4 9 L 2 2 3 4 5 1 34 2 100 13 2 52 18 5 3 130 25 4 41 L 2 3 4 5 1 5 1 8 3 2 6 3 2 3 9 4 4 5 Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 58 316

L p -Distanzindex: Eigenschaften Satz: Jede L p -Distanz ist eine Quasimetrik Es gilt d L1 d L2... d L i,j Die Rangordnung der d ij kann sich bei Verwendung unterschiedlicher L p - ändern. Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 59 316

L p -Distanzindex: Potentielle Probleme Merkmale mit hoher Varianz werden bei Distanzaggregation hoch gewichtet. Abhilfe: Gewichtung z.b. mit merkmalsspezifischen Varianzen oder Spannweiten, d.h. φ k = Var(a k ) bzw. φ k = max(a k ) min(a k ) Sind zwei Merkmale k 1 und k 2 hoch korreliert, dann liefern beide Merkmale etwa die gleiche Information bzgl. der Ähnlichkeit der Objekte. Also werden ähnliche Informationen im Distanzindex mehrfach berücksichtigt. Abhilfe: die Mahalanobis-Distanz Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 60 316

Die Mahalanobis-Distanz Sei A = (a ik ) n m eine quantitative Datenmatrix. Dann heißt d ij mit d ij = m k=1 m s kl (a ik a jk )(a il a jl ) = (a i a j ) T S 1 (a i a j ) l=1 Mahalanobis-Distanz von i und j, wobei (s kl ) m m = S 1 = (Cov(A)) 1 und s kl = 1 n n (a ik a k )(a il a l ) mit a k = 1 n i=1 n i=1 a ik Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 61 316

Mahalanobis-Distanz: Beispiel Objekte Alter Semester ergibt: 1 22 5 2 25 10 3 21 4 4 28 13 5 24 8 L 2 3 4 5 1 9 1 6 1.5 2 6 9 3.5 3 9 1.5 4 3.5 (Berechnung siehe Vorlesung) Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 62 316

Mahalanobis-Distanz: Beispiel mit R > # Alter, Semester > A = cbind(c(22,25,21,28,24), c(5,10,4,13,8)); > > # Anzahl der Objekte > n = dim(a)[1]; > > # Distanzmatrix > d = matrix(0,n,n) > > # Kovarianzmatrix > S = ((n-1)/n)*cov(a); > > for (i in 1:n) d[i,] = mahalanobis(a,a[i,],s); > > # Kosmetik > d = d[lower.tri(d)]; > attr(d,"class")<-"dist"; > attr(d,"size")<-n; > > d; 1 2 3 4 2 9.0 3 1.0 6.0 4 6.0 9.0 9.0 5 1.5 3.5 1.5 3.5 Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 63 316

Mahalanobis-Distanz: Eigenschaften Sind zwei Merkmale k und l hoch korreliert, dann liefern beide Merkmale etwa die gleiche Information bzgl. der Ähnlichkeit der Objekte. Die Mahalanobis- Distanz versieht in diesem Fall den Beitrag der beiden Merkmale mit einem niedrigeren Gewicht s kl. Sind die Merkmale paarweise unkorreliert, d.h. s kl = 0 für k l, dann werden Merkmale mit großer Varianz bei der Berechnung von d ij weniger stark berücksichtigt, da dann gilt: d ij = m s kk (a ik a jk ) 2 = k=1 m k=1 1 s kk (a ik a jk ) 2 = Beachte: In diesem Fall ist S Diagonalmatrix und damit auch S 1. Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 64 316

Aggregation gemischter Datenmatrizen Ausgangssituation: Für jedes Merkmal k = 1,...,m ist ein Distanzindex d k (i, j) gegeben, der das entsprechende Skalenniveau adäquat berücksichtigt. Gesucht: Eine Aggregationsregel g, die die Distanzindizes d 1,...,d m zu einer gemeinsamen Distanz d zusammenfasst. Forderungen an eine Aggregationsregel: Aggregationsregel g : g(0,..., 0) = 0 Gilt für alle Merkmale k = 1,..., m d k (i, j) = d k (i, j ) so folgt daraus auch d(i, j) = d(i, j ) Gilt für alle Merkmale k = 1,..., m d k (i, j) d k (i, j ) und für mind. ein k d k (i, j) < d k (i, j ) so folgt daraus auch d(i, j) < d(i, j ) Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 65 316

Aggregation gemischter Datenmatrizen (I) Linear homogene Aggregationen Sei A = (a ik ) n m eine gemischte Datenmatrix und d 1,...,d m seien die Distanzindizes der Merkmale. Dann ergeben sich für φ k > 0 folgende Distanzindizes: (a) d(i,j) = (b) d(i,j) = m k=1 m k=1 φ k d k (i,j) φ k d k (i,j) max i,j (d k(i,j)) (c) d(i,j) = max (d k(i,j)) k Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 66 316

Linear homogene Aggregationen: Beispiel Geschlecht (1) Studiengang (2) Prüfungen (3) D 1 2 3 4 5 1 0 1 0 0 2 1 0 0 3 1 1 4 0 D 2 2 3 4 5 1 2 1 0 0 2 2 2 2 3 1 1 4 0 D 3 2 3 4 5 1 1 0 0 1 2 1 1 2 3 0 1 4 1 Mit φ 1 = 1, φ 2 = 1 2, φ 3 = 1 2 D (a) 2 3 4 5 1 1.5 1.5 0 0.5 2 2.5 1.5 2 3 1.5 2 4 0.5 ergibt sich D (b) 2 3 4 5 1 3 4 2 7 4 5 1 4 0 4 3 5 4 3 4 1 6 4 4 1 4 D (c) 2 3 4 5 1 2 1 0 1 2 2 2 2 3 1 1 4 1 Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 67 316

Aggregation gemischter Datenmatrizen (II) Aggregationen mit Entscheidungsregeln Sei A = (a ik ) n m eine gemischte Datenmatrix und d 1,...,d m seien die Distanzindizes der Merkmale. Dann ergibt sich für φ k > 0 folgender aggregierter Distanzindex: d(i,j) = m k=1 φ k {(u,v) : u < v, d k (u,v) < d k (i,j)} (Rangordnungsregel) Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 68 316

Aggregation mit Entscheidungsregeln: Beispiel Geschlecht (1) Studiengang (2) Prüfungen (3) D 1 2 3 4 5 1 0 1 0 0 2 1 0 0 3 1 1 4 0 D 2 2 3 4 5 1 2 1 0 0 2 2 2 2 3 1 1 4 0 D 3 2 3 4 5 1 1 0 0 1 2 1 1 2 3 0 1 4 1 Mit φ 1 = φ 2 = φ 3 = 1 ergibt sich D 2 3 4 5 1 9 9 0 3 2 15 9 15 3 9 12 4 3 Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 69 316

Vergleich der Aggregationen (I) Linear homogene Aggregation (a) d(1, 4) < d(1, 5) = d(4, 5) < d(1, 2) = d(1, 3) = d(2, 4) = d(3, 4) < d(2, 5) = d(3, 5) < d(2, 3) (II) Aggr. mit Rangordnungsregel d(1, 4) < d(1, 5) = d(4, 5) < d(1, 2) = d(1, 3) = d(2, 4) = d(3, 4) < d(3, 5) < d(2, 3) = d(2, 5) Die unterschiedlichen Ansätze kommen zu sehr ähnlichen aber im allgemeinen nicht gleichen Ergebnissen. (Philosophie der Datenanalyse) Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 70 316