2 von Objekten Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 23 316
Gliederung Kapitel 2: von Objekten 2.1 Objekte und Merkmale 2.2 Merkmalstypen und ihre Nominale Merkmale Ordinale Merkmale Quantitative Merkmale 2.3 Aggregation von Quantitative Merkmale Nominale Merkmale Gemischte Datenmatrizen Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 24 316
Schematische Vorgehensweise Objekte Merkmale Interpretation Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 25 316
2.1 Objekte und Merkmale Einige grundlegende Definitionen (Wiederholung): G = {1, 2, 3,...} Grundgesamtheit von Objekten N = {1,...,n} Falls G = N Falls N G M = {1,...,m} Objektmenge Vollerhebung Stichprobe aus der Grundgesamtheit Merkmalsmenge Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 26 316
Die Datenmatrix A = (a ik ) n m = a 11.... a 1m.... Datenmatrix a n1... a nm mit a ik als Ausprägung des Merkmals k bei Objekt i Zeilen von A (Objektvektoren): a T i = (a i1,...,a im ), i N Spalten von A (Merkmalsvektoren): a k = a 1k. a nk, k M A k Menge der möglichen Ausprägungen bei Merkmal k Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 27 316
Beispiel: Hörer einer Vorlesung Merkmale Alter Geschlecht Wohnort Semester Studiengang Prüfungen Objekte 1 22 männlich Augsburg 5 BWL mit VD 2 25 männlich Karlsruhe 10 Mathe mit HD 3 21 weiblich München 4 VWL mit VD 4 28 männlich Augsburg 13 BWL mit VD 5 24 männlich Augsburg 8 BWL ohne VD = A Merkmal k Ausprägungsmenge A k Alter Menge der natürlichen Zahlen Geschlecht {männlich, weiblich} Wohnort Menge aller Orte Semester Menge der natürlichen Zahlen Studiengang {BWL, VWL, Mathematik, Informatik,...} Prüfungen {ohne Vordiplom, mit Vordiplom, mit Hauptdiplom} Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 28 316
Ähnlichkeit contra Verschiedenheit Man benötigt ein Maß, das die Ähnlichkeit zweier Objekte quantifiziert. Ähnlichkeitsmaß (AM): Je größer ein Wert, desto ähnlicher sind sich zwei Objekte. Folgen: Was bedeutet ein Wert AM = 0? Wie groß ist die Ähnlichkeit zweier identischer Objekte? Übergang zu einem Verschiedenheitsmaß Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 29 316
Definition: Distanzindex Sei N = 1,...,n eine Menge von n Objekten. Die Abbildung heißt Distanzindex, wenn gilt: d : N N R + d(i, i) = 0 d(i, j) = d(j, i) d(i,j) 0 [Reflexivität] [Symmetrie] [Nichtnegativität] Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 30 316
Distanzindex: Mögliche Eigenschaften Dreiecksungleichung ( ): d(i, j) d(i, h) + d(h, j) i, j, h N Ist beispielsweise erfüllt bei räumlichem Abstandsbegriff j i h Aber: Ist nicht immer haltbar bzw. sinnvoll (Beispiel: Hoher Distanzindex entspricht schwachem Bedarfsverbund bei Supermarkteinkauf) Tee Zucker Kaffee Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 31 316
Distanzindex: Mögliche Eigenschaften Ultrametrische Ungleichung (U): d(i, j) max { d(i, h), d(j, h) } i, j, h N Es gilt: (U) ( ) ( ) (U) D.h. (U) ist stärker als ( ) Identitätseigenschaft (I): i, j N mit d(i, j) = 0 i = j Ist i.a. nicht erfüllt, da verschiedene Objekte häufig gleiche Merkmalsausprägungen besitzen. Beispiel: Patienten mit identischen Krankheitssymptomen * Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 32 316
Distanzindex: Mögliche Eigenschaften Äquivalenzeigenschaft (A): i, j N mit d(i, j) = 0 d(i, h) = d(j, h) h N D.h. i und j sind äquivalente Objekte. Bemerkung: (A) ist Abschwächung von (I). Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 33 316
Definition: Metriken Ein Distanzindex, der die Eigenschaft ( ) (U) ( ), (I) (U), (I) erfüllt, heißt Quasimetrik, erfüllt, heißt Quasiultrametrik, erfüllt, heißt Metrik, erfüllt, heißt Ultrametrik. Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 34 316
Definition: Distanzmatrix Zusammenfassung aller paarweisen zu einer Matrix: D = (d(i,j)) n n = d(1, 1) d(1,n)..... d(n, 1) d(n,n) bzw. D = (d ij ) n n = d 11 d 1n..... d n1 d nn Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 35 316
Eigenschaften der Distanzmatrix Eine Distanzmatrix D besitzt folgende Eigenschaften: ist quadratisch ist symmetrisch enthält in der Hauptdiagonalen ausschließlich Nullen Somit müssen nur 1 2 zwar n (n 1) berechnet werden und d 12 d 1n.... d n 1n Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 36 316
Gewinnung von Bestimmung der je Merkmal und anschließende Aggregation zur Gesamtdistanzmatrix (siehe Abschnitte 2.2, 2.3) Direkte Beurteilung von Objektpaaren (ohne Berücksichtigung von Merkmalen) Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 37 316
Gewinnung von, direkte Beurteilung: Bei der direkten Beurteilung von Objektpaaren (ohne Vorgabe von Merkmalen) werden jeder Versuchsperson die möglichen Objektpaare vorgelegt, wobei die Ähnlichkeit durch einen Wert aus einem vorher festgelegten Bereich quantifiziert werden soll. Beispiel zur direkten Beurteilung: Die Parteien SPD, CDU und FDP sollten bezüglich ihrer Verschiedenheit auf einer Skala von Null (Parteien sind identisch) bis zehn (Parteien sind maximal verschieden) beurteilt werden. Folgendes Ergebnis sei festgehalten worden: CDU - FDP 4 CDU - SPD 7 SPD - FDP 5 D = FDP SPD CDU 4 7 FDP 5 Vor- und Nachteile dieser Methodik: Vorteile: + implizite Berücksichtigung mehrerer, nicht weiter spezifizierter Merkmale + einfache, schnelle Datenerhebung Nachteile: - Interpretationsschwierigkeiten, da Merkmale unbekannt - nur bei kleiner Objektmenge zweckmäßig (bei n = 10 bereits 1 2 10 9 = 45 Paarvergleiche) Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 38 316
2.2 Merkmalstypen und ihre Grundsätzlich lassen sich folgende Merkmalstypen unterscheiden: Quantitative Merkmale: Alle Ausprägungen des Merkmals werden intuitiv durch reelle Zahlen benannt. Qualitative Merkmale: Die Ausprägungen des Merkmals werden intuitiv durch Worte oder Begriffe, nicht aber durch Zahlen, wiedergegeben (nominale oder ordinale Merkmale). Da es häufig von Vorteil ist, daß die Ausprägungen eines Merkmals durch Zahlen wiedergegeben werden, quantifiziert man i.d.r. die qualitativen Merkmale. Dies geschieht mit Hilfe einer Abbildung, die man Skala nennt. Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 39 316
Definition: Skala Sei k ein Merkmal mit der Ausprägungsmenge A k. Dann heißt die Abbildung f : A k Reine Skala. Bemerkung: Die Abbildung f sollte so gewählt werden, dass die Informationen und Relationen, die für bzw. zwischen den einzelnen Merkmalsausprägungen a ik gelten, auch für die Bildwerte f(a ik ) korrekt sind. Messungen erfordern oft schon eine Skala. Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 40 316
Nominale Merkmale Definition: Ein Merkmal k heißt nominal oder klassifikatorisch, wenn für die Ausprägungen nur nach Gleichheit (=) oder Ungleichheit ( ) unterschieden werden kann. Bezüglich der Äquivalenz ( ) zweier Objekte gilt: Die Abbildung f : A k R mit i k j a ik = a jk bzw. i k j a ik a jk a ik a jk f(a ik ) f(a jk ) heißt Nominalskala. Jeder Distanzindex hat dann die Form: d k (i, j) = 0 für f(a ik ) = f(a jk ) c für f(a ik ) f(a jk ), mit c > 0 Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 41 316
Distanzindex nominaler Daten Beispiel: Geschlecht der Hörer Objekte Alter Geschlecht Wohnort Semester Studiengang Prüfungen 1 22 männlich 1 5 1 mit VD 2 25 männlich 2 10 2 mit HD 3 21 weiblich 3 4 3 mit VD 4 28 männlich 1 13 1 mit VD 5 24 männlich 1 8 1 ohne VD 2 3 4 5 f Geschlecht (weiblich) = 0 f Geschlecht (männlich) = 1 c = 1 D Geschl. = 1 0 1 0 0 2 1 0 0 3 1 1 4 0 Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 42 316
Eigenschaften von Nominalskalen Satz: Jede injektive, reelle Abbildung ist eine Nominalskala. Jeder Distanzindex einer Nominalskala ist eine Quasi-Ultrametrik mit der Eigenschaft (A) (Äquivalenzeigenschaft). Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 43 316
Ordinale Merkmale Definition: Ein Merkmal k heißt ordinal (komparativ), wenn die Ausprägungen vollständig geordnet werden können. Bezüglich der Ordnung zweier Objekte gilt: i j k a ik < a jk niedrigerer Rang i j k a ik = a jk gleicher Rang i k j a ik > a jk höherer Rang Die Abbildung f : A k R mit heißt Ordinalskala. a ik < a jk f(a ik ) < f(a jk ) Ein Distanzindex hat im einfachsten Fall die Form: d k (i, j) = f(a ik ) f(a jk ) Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 44 316
Distanzindex ordinaler Daten Beispiel: Prüfungen der Hörer Objekte Alter Geschlecht Wohnort Semester Studiengang Prüfungen 1 22 männlich 1 5 1 mit VD 2 25 männlich 2 10 2 mit HD 3 21 weiblich 3 4 3 mit VD 4 28 männlich 1 13 1 mit VD 5 24 männlich 1 8 1 ohne VD 2 3 4 5 f Prüfg. (ohne VD) = 1 f Prüfg. (mit VD) = 2 f Prüfg. (mit HD) = 3 c = 1 D Prüfg. = 1 1 0 0 1 2 1 1 2 3 0 1 4 1 Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 45 316
Eigenschaften von Ordinalskalen Satz: Jede streng monotone, reelle Abbildung ist eine Ordinalskala. Der o.g. Distanzindex der Ordinalskala ist eine Quasimetrik mit der Eigenschaft (A) (Äquivalenzeigenschaft). Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 46 316
Quantitative Merkmale Definition: Ein Merkmal k heißt quantitativ (kardinal, metrisch), wenn es ordinal ist und die Differenzen von Ausprägungspaaren vollständig geordnet werden können. Dies bedeutet insbesondere, dass das Ausmaß der Unterschiedlichkeit zweier Ausprägungen bestimmt werden kann und aussagekräftig ist. Die Abbildung f : Ak R mit f(a ik ) = α a ik + β (α > 0, β R) heißt Intervallskala. Die Abbildung f : Ak R mit f(a ik ) = α a ik (α > 0) heißt Verhältnisskala. Die Abbildung f : Ak N 0 mit f(a ik ) = a ik heißt Absolutskala. Jeder Distanzindex einer quantitativen Skala hat die Form: d k (i, j) = φ k f(a ik ) f(a jk ) p φk ermöglicht eine merkmalspezifische lineare Gewichtung. p ermöglicht eine hohe Gewichtung großer Differenzen in Merkmalsausprägungen. Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 47 316
Distanzindex metrischer Daten Beispiel: Alter der Hörer Objekte Alter Geschlecht... 1 22 männlich 2 25 männlich 3 21 weiblich 4 28 männlich 5 24 männlich f(a ik ) = α a ik + β = a ik (d.h. α = 1, β = 0) φ = 1; p = 1 φ = 1; p = 2 2 3 4 5 2 3 4 5 D Alter = 1 3 1 6 2 2 4 3 1 3 7 3 4 4 D Alter = 1 9 1 36 4 2 16 9 1 3 49 9 4 16 Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 48 316
Eigenschaften von metrischen Skalen Satz: Jede positive lineare Abbildung ist eine Intervallskala. Für eine Intervallskala gilt für beliebige Funktionen f: f(a ik ) f(a jk ) f(a i k) f(a j k) = const. Für eine Verhältnisskala gilt für beliebige Funktionen f: f(a ik ) f(a i k) = const. Der Distanzindex einer quantitativen Skala ist unabhängig von β. Die Wirkung von α kann über die φ k beeinflusst werden. Der Distanzindex ist eine Quasimetrik mit der Äquivalenzeigenschaft (A). Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 49 316
2.3 Aggregation von Aufgabe: Sinnvolle Aggregation der einzelnen, merkmalspezifisch ermittelten. Dabei unterscheidet man zwischen ausschließlich nominalen Merkmalen, ausschließlich quantitativen Merkmalen oder gemischten Datenmatrizen. Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 50 316
Distanzaggregation von nominal skalierten Daten Da nominal polytome Merkmale in mehrere binäre Merkmale überführt werden können, werden im Folgenden zunächst binäre Merkmale betrachtet. Dazu werden die Objekte generell durch den Besitz einer bestimmten Eigenschaft charakterisiert. Distanzaggregation bei binären Merkmalen - Idee Zwei Objekte (i, j) weisen bezüglich mehrerer binärer Merkmale eine große Ähnlichkeit auf, wenn häufig - d.h. bei vielen Merkmalen - die gleiche Ausprägung Ja/Ja bzw. 1/1 Nein/Nein bzw. 0/0 zu beobachten ist. Häufige Kombinationen wie Ja/Nein bzw. Nein/Ja weisen auf eine hohe Verschiedenheit hin. Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 51 316
Distanzaggregation bei binären Merkmalen - Umsetzung Gegeben sei eine Datenmatrix A = (a ik ) n m mit a ik {1,0}. Berechne Kontingenztabelle für binäre Merkmale gemäß 1 (Ja) 0 (Nein) 1 (Ja) α ij β ij 0 (Nein) γ ij δ ij und m := α ij + β ij + γ ij + δ ij mit beispielsweise α ij = { k : a ik = a jk = 1 } Jeder aggregierte Distanzindex d(i, j) ist somit eine Funktion von α ij, β ij, γ ij,δ ij. Es gilt also: d(i, j) = f(α ij, β ij, γ ij,δ ij ) 0 Forderungen an d(i, j): monoton wachsend mit βij und γ ij monoton fallend mit αij und δ ij symmetrisch in βij und γ ij Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 52 316
Distanzaggregation bei binären Merkmalen - Umsetzung (2) Varianten für die Bildung von d(i, j): 1. Anzahl nicht übereinstimmender Merkmale d(i, j) = β ij + γ ij = m (α ij + δ ij ) 2. Anteil nicht übereinstimmender Merkmale d(i, j) = β ij + γ ij m 3. Gewichteter Anteil nicht übereinstimmender Merkmale d(i, j) = λ (β ij + γ ij ) λ (β ij + γ ij ) + (1 λ) (α ij + δ ij ) mit λ (0, 1) (Beispiel siehe Vorlesung) Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 53 316
Direkte Distanzaggregation bei nominal-polytom skalierten Merkmalen Sei d k (i, j) = { 0 für aik = a jk c > 0 für a ik a jk 1. Ungewichtete Aggregation der merkmalspezifischen d(i, j) = m d k (i,j) k=1 2. Gewichtete Aggregation der merkmalspezifischen d(i, j) = 1 m A k m A k d k (i,j) k=1 k=1 Bemerkung: Variante (2.) gewichtet Merkmale mit vielen Merkmalsausprägungen stärker als solche mit wenigen, d.h. Wenige Ausprägungen Beitrag zu d(i, j) ist klein Viele Ausprägungen Beitrag zu d(i, j) ist groß (Beispiel siehe Vorlesung) Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 54 316
Distanzaggregation bei metrischen Merkmalen Vorüberlegung: Jeder Okjektvektor a i kann als Punkt im m-dimensionalen Raum dargestellt werden. Die geometrische Anschauung legt es also nahe, die Distanz zwischen i und j durch die Euklidsche Distanz (oder eine Verallgemeinerung dieser) zu messen. Definition: Distanzindex für metrische Merkmale Sei A = (a ik ) n m eine quantitative Datenmatrix. Dann heißt d(i, j) mit d(i, j) = ( m k=1 φ k a ik a jk p ) 1 p, φ k > 0, p N gewichtete L p -Distanz von i und j. Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 55 316
Spezialfälle der gewichteten L p -Distanz Man spricht von einer City-Block-Distanz für p = 1: d(i, j) = m φ k a ik a jk k=1 Euklidschen Distanz für p = 2: d(i, j) = m φ k a ik a jk 2 k=1 Tschebyscheff-Distanz für p : (Grafik und Beispiel siehe Vorlesung) d(i, j) = max k (φ k a ik a jk ) Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 56 316
Spezialfälle der gewichteten L p -Distanz City-Block-Distanz Merkmal 2 Euklidscher Abstand Tschebyscheff-Abstand Objekt j Objekt i Merkmal 1 Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 57 316
Gewichtete L p -Distanz: Beispiel Objekte Alter Semester 1 22 5 2 25 10 3 21 4 4 28 13 5 24 8 L 1 2 3 4 5 1 8 2 14 5 2 10 6 3 3 16 7 4 9 L 2 2 3 4 5 1 34 2 100 13 2 52 18 5 3 130 25 4 41 L 2 3 4 5 1 5 1 8 3 2 6 3 2 3 9 4 4 5 Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 58 316
L p -Distanzindex: Eigenschaften Satz: Jede L p -Distanz ist eine Quasimetrik Es gilt d L1 d L2... d L i,j Die Rangordnung der d ij kann sich bei Verwendung unterschiedlicher L p - ändern. Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 59 316
L p -Distanzindex: Potentielle Probleme Merkmale mit hoher Varianz werden bei Distanzaggregation hoch gewichtet. Abhilfe: Gewichtung z.b. mit merkmalsspezifischen Varianzen oder Spannweiten, d.h. φ k = Var(a k ) bzw. φ k = max(a k ) min(a k ) Sind zwei Merkmale k 1 und k 2 hoch korreliert, dann liefern beide Merkmale etwa die gleiche Information bzgl. der Ähnlichkeit der Objekte. Also werden ähnliche Informationen im Distanzindex mehrfach berücksichtigt. Abhilfe: die Mahalanobis-Distanz Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 60 316
Die Mahalanobis-Distanz Sei A = (a ik ) n m eine quantitative Datenmatrix. Dann heißt d ij mit d ij = m k=1 m s kl (a ik a jk )(a il a jl ) = (a i a j ) T S 1 (a i a j ) l=1 Mahalanobis-Distanz von i und j, wobei (s kl ) m m = S 1 = (Cov(A)) 1 und s kl = 1 n n (a ik a k )(a il a l ) mit a k = 1 n i=1 n i=1 a ik Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 61 316
Mahalanobis-Distanz: Beispiel Objekte Alter Semester ergibt: 1 22 5 2 25 10 3 21 4 4 28 13 5 24 8 L 2 3 4 5 1 9 1 6 1.5 2 6 9 3.5 3 9 1.5 4 3.5 (Berechnung siehe Vorlesung) Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 62 316
Mahalanobis-Distanz: Beispiel mit R > # Alter, Semester > A = cbind(c(22,25,21,28,24), c(5,10,4,13,8)); > > # Anzahl der Objekte > n = dim(a)[1]; > > # Distanzmatrix > d = matrix(0,n,n) > > # Kovarianzmatrix > S = ((n-1)/n)*cov(a); > > for (i in 1:n) d[i,] = mahalanobis(a,a[i,],s); > > # Kosmetik > d = d[lower.tri(d)]; > attr(d,"class")<-"dist"; > attr(d,"size")<-n; > > d; 1 2 3 4 2 9.0 3 1.0 6.0 4 6.0 9.0 9.0 5 1.5 3.5 1.5 3.5 Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 63 316
Mahalanobis-Distanz: Eigenschaften Sind zwei Merkmale k und l hoch korreliert, dann liefern beide Merkmale etwa die gleiche Information bzgl. der Ähnlichkeit der Objekte. Die Mahalanobis- Distanz versieht in diesem Fall den Beitrag der beiden Merkmale mit einem niedrigeren Gewicht s kl. Sind die Merkmale paarweise unkorreliert, d.h. s kl = 0 für k l, dann werden Merkmale mit großer Varianz bei der Berechnung von d ij weniger stark berücksichtigt, da dann gilt: d ij = m s kk (a ik a jk ) 2 = k=1 m k=1 1 s kk (a ik a jk ) 2 = Beachte: In diesem Fall ist S Diagonalmatrix und damit auch S 1. Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 64 316
Aggregation gemischter Datenmatrizen Ausgangssituation: Für jedes Merkmal k = 1,...,m ist ein Distanzindex d k (i, j) gegeben, der das entsprechende Skalenniveau adäquat berücksichtigt. Gesucht: Eine Aggregationsregel g, die die Distanzindizes d 1,...,d m zu einer gemeinsamen Distanz d zusammenfasst. Forderungen an eine Aggregationsregel: Aggregationsregel g : g(0,..., 0) = 0 Gilt für alle Merkmale k = 1,..., m d k (i, j) = d k (i, j ) so folgt daraus auch d(i, j) = d(i, j ) Gilt für alle Merkmale k = 1,..., m d k (i, j) d k (i, j ) und für mind. ein k d k (i, j) < d k (i, j ) so folgt daraus auch d(i, j) < d(i, j ) Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 65 316
Aggregation gemischter Datenmatrizen (I) Linear homogene Aggregationen Sei A = (a ik ) n m eine gemischte Datenmatrix und d 1,...,d m seien die Distanzindizes der Merkmale. Dann ergeben sich für φ k > 0 folgende Distanzindizes: (a) d(i,j) = (b) d(i,j) = m k=1 m k=1 φ k d k (i,j) φ k d k (i,j) max i,j (d k(i,j)) (c) d(i,j) = max (d k(i,j)) k Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 66 316
Linear homogene Aggregationen: Beispiel Geschlecht (1) Studiengang (2) Prüfungen (3) D 1 2 3 4 5 1 0 1 0 0 2 1 0 0 3 1 1 4 0 D 2 2 3 4 5 1 2 1 0 0 2 2 2 2 3 1 1 4 0 D 3 2 3 4 5 1 1 0 0 1 2 1 1 2 3 0 1 4 1 Mit φ 1 = 1, φ 2 = 1 2, φ 3 = 1 2 D (a) 2 3 4 5 1 1.5 1.5 0 0.5 2 2.5 1.5 2 3 1.5 2 4 0.5 ergibt sich D (b) 2 3 4 5 1 3 4 2 7 4 5 1 4 0 4 3 5 4 3 4 1 6 4 4 1 4 D (c) 2 3 4 5 1 2 1 0 1 2 2 2 2 3 1 1 4 1 Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 67 316
Aggregation gemischter Datenmatrizen (II) Aggregationen mit Entscheidungsregeln Sei A = (a ik ) n m eine gemischte Datenmatrix und d 1,...,d m seien die Distanzindizes der Merkmale. Dann ergibt sich für φ k > 0 folgender aggregierter Distanzindex: d(i,j) = m k=1 φ k {(u,v) : u < v, d k (u,v) < d k (i,j)} (Rangordnungsregel) Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 68 316
Aggregation mit Entscheidungsregeln: Beispiel Geschlecht (1) Studiengang (2) Prüfungen (3) D 1 2 3 4 5 1 0 1 0 0 2 1 0 0 3 1 1 4 0 D 2 2 3 4 5 1 2 1 0 0 2 2 2 2 3 1 1 4 0 D 3 2 3 4 5 1 1 0 0 1 2 1 1 2 3 0 1 4 1 Mit φ 1 = φ 2 = φ 3 = 1 ergibt sich D 2 3 4 5 1 9 9 0 3 2 15 9 15 3 9 12 4 3 Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 69 316
Vergleich der Aggregationen (I) Linear homogene Aggregation (a) d(1, 4) < d(1, 5) = d(4, 5) < d(1, 2) = d(1, 3) = d(2, 4) = d(3, 4) < d(2, 5) = d(3, 5) < d(2, 3) (II) Aggr. mit Rangordnungsregel d(1, 4) < d(1, 5) = d(4, 5) < d(1, 2) = d(1, 3) = d(2, 4) = d(3, 4) < d(3, 5) < d(2, 3) = d(2, 5) Die unterschiedlichen Ansätze kommen zu sehr ähnlichen aber im allgemeinen nicht gleichen Ergebnissen. (Philosophie der Datenanalyse) Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 70 316