13.0 Dimensionsreduktion Dimensionsreduktion. 13 Dimensionsreduktion Hauptkomponentenanalyse Dimensionsreduktion

Ähnliche Dokumente
Eine zweidimensionale Stichprobe

6. Faktorenanalyse (FA) von Tests

Korrelationsmatrix. Statistische Bindungen zwischen den N Zufallsgrößen werden durch die Korrelationsmatrix vollständig beschrieben:

Lage- und Streuungsparameter

Tutorium Mathematik II, M Lösungen

5.1 Determinanten der Ordnung 2 und 3. a 11 a 12 a 21 a 22. det(a) =a 11 a 22 a 12 a 21. a 11 a 21

Mathematik für Wirtschaftswissenschaftler, WS 10/11 Musterlösungen zu Aufgabenblatt 11

Korrelation und Regression

Standardisierte Vorgehensweisen und Regeln zur Gewährleistung von: Eindeutigkeit Schlussfolgerungen aus empirischen Befunden sind nur dann zwingend

Principal Component Analysis (PCA)

4 Lineare Algebra (Teil 2): Quadratische Matrizen

Prof. Dr. Christoph Kleinn Institut für Waldinventur und Waldwachstum Arbeitsbereich Waldinventur und Fernerkundung

9.2 Invertierbare Matrizen

Dr. I. Fahrner WiSe 2016/17 Fakultät Grundlagen Hochschule Esslingen Übungsblatt 2. Statistik

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen

00. Einiges zum Vektorraum R n

Übung zur Empirischen Wirtschaftsforschung V. Das Lineare Regressionsmodell

Multivariate Statistik

TEIL 13: DIE EINFACHE LINEARE REGRESSION

1 Lineare Algebra. 1.1 Matrizen und Vektoren. Slide 3. Matrizen. Eine Matrix ist ein rechteckiges Zahlenschema

Zentralabitur 2011 Physik Schülermaterial Aufgabe I ga Bearbeitungszeit: 220 min

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren)

4.4. Rang und Inversion einer Matrix

2.2 Kern und Bild; Basiswechsel

Definitionen. Merkblatt lineare Algebra. affiner Teilraum Menge, die durch Addition eines Vektors v 0 zu allen Vektoren eines Vektorraumes V entsteht

Corinne Schenka Vorkurs Mathematik WiSe 2012/13

Statistische Verfahren für das Data Mining in einem Industrieprojekt

Lineare Gleichungssysteme (Teschl/Teschl 11.1)

Vektorgeometrie. Inhaltsverzeichnis. Fragen und Antworten. (bitte nur für den Eigengebrauch verwenden)

8. Konfidenzintervalle und Hypothesentests

Hauptkomponentenanalyse PCA

Geometrische Objekte im 3-dimensionalen affinen Raum oder,... wie nützlich ist ein zugehöriger Vektorraum der Verschiebungen

3.2 Streuungsmaße. 3 Lage- und Streuungsmaße 133. mittlere Variabilität. geringe Variabilität. große Variabilität

Kapitel 4. Hauptkomponentenanalyse. 4.1 Einführung. 4.2 Herleitung der Hauptkomponenten

Oberstufe (11, 12, 13)

Bivariate lineare Regression. Statistik für SozialwissenschaftlerInnen II p.154

Faktorenanalysen höherer Ordnung

Bestimmung einer ersten

Das Dialogfeld für die Regressionsanalyse ("Lineare Regression") findet sich im Statistik- Menu unter "Regression"-"Linear":

35 Stetige lineare Abbildungen

Korrelation - Regression. Berghold, IMI

& sind die Vektorkomponenten von und sind die Vektorkoordinaten von. A x. a) Der Betrag eines Vektors

DEUTSCHE SCHULE MONTEVIDEO BIKULTURELLES DEUTSCH-URUGUAYISCHES ABITUR ( AUF SPANISCH )

Faktorenanalyse Beispiel

Wahrscheinlichkeitsrechnung und Statistik

A2.3 Lineare Gleichungssysteme

Exemplar für Prüfer/innen

Brückenkurs Elementarmathematik

10 Kapitel I: Anschauliche Vektorrechnung

Faktorenanalyse. 1. Grundlegende Verfahren. Bacher, SoSe2007

Modulklausur Multivariate Verfahren

Ein Beispiel für eine lineare Abbildung

Anhang B. Regression

MC-Serie 11: Eigenwerte

1 Definition. 2 Besondere Typen. 2.1 Vektoren und transponieren A = 2.2 Quadratische Matrix. 2.3 Diagonalmatrix. 2.

Mathematik II Frühjahrssemester 2013

Statische Versuchsplanung (DoE - Design of Experiments)

Statistik II für Betriebswirte Vorlesung 12

Grundlegende Eigenschaften von Punktschätzern

Lösungen zum 3. Aufgabenblatt

Exemplar für Prüfer/innen

Nichtlineare Gleichungssysteme

Lösung zu Kapitel 11: Beispiel 1

Aufgaben. zu Inhalten der 5. Klasse

Die Korrelation von Merkmalen

klar. Um die zweite Bedingung zu zeigen, betrachte u i U i mit u i = 0. Das mittlere -Zeichen liefert s

Regression ein kleiner Rückblick. Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate

Multivariate Verfahren

Kapitel 5 Kenngrößen empirischer Verteilungen 5.1. Lagemaße. x mod (lies: x-mod) Wofür? Lageparameter. Modus/ Modalwert Zentrum. Median Zentralwert

(geometrische) Anschauung

x 2 2x + = 3 + Es gibt genau ein x R mit ax + b = 0, denn es gilt

Planen mit mathematischen Modellen 00844: Computergestützte Optimierung. Autor: Dr. Heinz Peter Reidmacher

Kapitel 6. Zusammenfassung der wichtigsten Ergebnisse dieser Arbeit

8. Statistik Beispiel Noten. Informationsbestände analysieren Statistik

Lösung Aufgabe 1 (Regression) Es wurden in einer Befragung zwei metrische Merkmale X und Y erhoben. Betrachten Sie dazu die

Projekt Kaffeemaschine Welche Faktoren beeinflussen das Geschmacksurteil?

8. Mehrkomponentensysteme. 8.1 Partielle molare Größen. Experiment 1 unter Umgebungsdruck p:

Kapitel IR:III (Fortsetzung)

Tangentengleichung. Wie lautet die Geradengleichung für die Tangente, y T =? Antwort:

Lineare Gleichungssysteme

Webergänzung zu Kapitel 10

Kapitel 5 Untermannigfaltigkeiten. 5.1 Glatte Flächen in R 3

5.4 Vektorgeometrie. 1 Repetition der Vektorgeometrie I Freie Vektoren, Ortsvektoren Die skalare Multiplikation eines Vektors...

(x 1. Vektoren. g: x = p + r u. p r (u1. x 2. u 2. p 2

Hauptkomponentenanalyse. Principal Component Analysis (PCA)

Lehrskript Mathematik Q12 Analytische Geometrie

Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall )

Regression I. Statistik I. Sommersemester Lineare Regression Zusammenhang und Modell Ein Beispiel: Armut und Gewaltverbrechen Zusammenfassung

Lineare Abhängigkeit

Kapitel 2: Matrizen. 2.1 Matrizen 2.2 Determinanten 2.3 Inverse 2.4 Lineare Gleichungssysteme 2.5 Eigenwerte 2.6 Diagonalisierung

Aufgaben zu Kapitel 14

Eigenwerte und Eigenvektoren

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten.

Das Problem signifikanter Betaschätzungen

Die Gleichung A x = a hat für A 0 die eindeutig bestimmte Lösung. Für A=0 und a 0 existiert keine Lösung.

Lineare Abbildungen. Es seien V und W Vektorräume über einem Körper K. Eine Abbildung f : V W heißt linear oder Homomorphismus, falls. d.h.

Kap 5: Rang, Koordinatentransformationen

Mathematik: LehrerInnenteam Arbeitsblatt Semester ARBEITSBLATT 12. Erwartungswert, Varianz und Standardabweichung

Transkript:

13 Dimensionsreduktion 13.0 Dimensionsreduktion Dimensionsreduktion 13 Dimensionsreduktion (aus: C. Weihs und J. Jessenberger (1998): Statistische Methoden zur Qualitätssicherung und -optimierung in der Industrie; Wiley-VCH, Weinheim, 141 161) Jetzt wenden wir uns stetigen Zielgrößen zu. 13 Dimensionsreduktion 13.0 Dimensionsreduktion Etwas formaler wird durch Dimensionsreduktion versucht, diejenigen Richtungen in einem hochdimensionalen Raum zu bestimmen, in denen die wesentlichen Strukturen in den Daten deutlich werden. Wenn man besonders daran interessiert ist, die verschiedenen Merkmalsträger optimal unterscheiden zu können, liegt es nahe, diejenigen Richtungen zu suchen, in denen die Daten am meisten streuen. Das leistet die Hauptkomponentenanalyse. Wenn viele Merkmale beobachtet werden, besteht oft die Hoffnung, diese so geschickt zusammenfassen zu können, dass Unterschiede zwischen den Merkmalsträgern in wenigen Dimensionen sichtbar werden. Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 436 Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 438 13 Dimensionsreduktion 13.0 Dimensionsreduktion Farbstoffbeispiel: Untersuchungen von 29 Merkmalen (19 analytische Eigenschaften und 11 Qualitätsmerkmale) an 93 Farbstoffpartien. Das Ziel ist, die Unterschiede zwischen den Merkmalsträgern zu entdecken und zu erklären. Mit 29 Merkmalen hat man jedoch 29 Dimensionen, innerhalb derer sich die Partien unterscheiden können, und eine Beschreibung der Unterschiede für jede einzelne dieser Dimensionen wird unanschaulich. Deshalb versucht man, unter den 29 Dimensionen (oder Merkmalen) diejenigen zu bestimmen, deren Kombination am meisten über die Unterschiede in den Partien aussagt. 13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1 Hauptkomponentenanalyse Dimensionsreduktion 13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse Hauptkomponentenanalyse (HKA) = Principal Component Analysis (PCA) Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 437 Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 439

13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.1 Definitionen 13.1.1 Hauptkomponentenanalyse Sei X = (x1... xk ) die Spaltendarstellung einer Datenmatrix mit n Beobachtungen von K Merkmalen, wobei jede Spalte x1j xj x2j xj xj =.. xnj xj dem Vektor der n mittelwertbereinigten Beobachtungswerte des Merkmals Xj, j = 1,..., K, entspricht. Bemerkung: Von jeder Beobachtung eines Merkmals wird zunächst der arithmetische Mittelwert sämtlicher Beobachtungen dieses Merkmals abgezogen. Damit sind die Daten zentriert, ihr Schwerpunkt liegt im Nullpunkt. 13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.1 Definitionen 13.1.1 Hauptkomponentenanalyse Definition 10 (Loadings) Die Gewichte gjk der Originalmerkmale j = 1,..., K in einer HK k = 1,..., K heißen Loadings. Der zur k-ten HK gehörende Loading-Vektor hat Länge 1: g T k gk = 1, gk := (g1k... gkk)t, k = 1,..., K. Definition 11 (Scores) Die Beobachtungen zik, i = 1,..., n,k = 1,..., K, der HKs heißen Scores. Für den Vektor zj der Scores der j-ten HK Zj gilt: zk = Xgk, wobei gk der Vektor der Loadings der k-ten HK ist. Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 440 Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 442 13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.1 Definitionen 13.1.1 Hauptkomponentenanalyse 13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.1 Definitionen 13.1.1 Hauptkomponentenanalyse Definition 9 (Hauptkomponenten) Die Hauptkomponenten (HKs) (Principal Components (PCs)) Z1,..., ZK sind mit dem X von der letzten Folie dann die K Richtungen im R K mit folgenden Eigenschaften: 1 Die HKs sind gewichtete Summen der Originalmerkmale. 2 Die Beobachtungen der HKs sind definiert als die entsprechend gewichteten Summen der Beobachtungen der Originalmerkmale. 3 Die erste HK hat maximale empirische Varianz von allen gewichteten Summen der Länge 1 der Originalmerkmale. 4 Die (p + 1)-te HK hat die maximale empirische Varianz von allen gewichteten Summen der Länge 1 der Originalmerkmale, die unkorreliert sind mit jeder der ersten p HKs. Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 441 Bemerkungen: Für die Scores der k-ten HK gilt: zik = (xi1 x1)g1k +... + (xik xk )gkk. Die Beschränkung der Loading-Vektoren auf Länge 1 ist notwendig, da die empirische Varianz der Score-Vektoren quadratisch mit der Länge der Loading-Vektoren wächst. HKs werden häufig als sog. implizite (latente) Merkmale interpretiert, weil sie selbst nicht beobachtet, sondern aus den Originalmerkmalen abgeleitet werden, so dass die Beobachtungen xi1... xik, i = 1,..., n, der Originalmerkmale zur Berechnung der Beobachtungen zik der HKs verwendet werden. Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 443

13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.1 Definitionen 13.1.1 Hauptkomponentenanalyse Bemerkungen: Diese Beobachtungen zik (die Scores) stellt man nun häufig grafisch dar, um etwaige Strukturen oder Gruppen von Beobachtungen zu entdecken. Dabei interessiert nur die relative Lage der Beobachtungen zueinander. Da die HKs standardisiert sind, sind die Absolutabstände zwischen den Beobachtungen nicht interpretierbar. Bisher ist die Definition der HKs nicht konstruktiv, denn es bleibt unklar, wie die HKs berechnet werden, da die Konstruktion der Loadings offen ist. Es ist lediglich klar, dass die mittelwertbereinigten Merkmale X durch geeignete Wahl der Loadings in unkorrelierte implizite Merkmale, die HKs, transformiert werden. Eine elegante Konstruktionsvorschrift basiert auf einer Eigenschaft von Kovarianzmatrizen. 13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.2 Berechnung 13.1.2 Berechnung der Hauptkomponenten Sämtliche K HKs zusammen spannen denselben K-dimensionalen Raum auf wie die K Originalmerkmale. Eine Hauptkomponentenanalyse soll aber zur Dimensionsreduktion verwendet werden. Um festlegen zu können, wie viele Dimensionen notwendig sind, um die hochdimensionalen Daten zu charakterisieren, wird ein Dimensionsreduktionskriterium benötigt. Dazu bietet sich der Anteil rp der ersten p HKs an der Gesamtvariation der Daten an, d.h. das Verhältnis der Varianz der ersten p HKs zu der Gesamtvarianz der Daten. Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 444 Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 446 13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.2 Berechnung 13.1.2 Berechnung der Hauptkomponenten Die empirische Kovarianzmatrix S := X T X n 1 der mittelwertbereinigten Merkmale in X lässt sich mit Hilfe der sog. Spektralzerlegung in eine Diagonalmatrix transformieren, wobei eine Matrix G konstruiert wird, so dass gilt: G T SG = Λ, wobei G T G = I, und Λ = Diagonalmatrix, deren Elemente alle 0 sind außer den Diagonalelementen λ11... λkk 0. Diese Matrix G := (g1... gk ) erfüllt die Eigenschaften der Loadingsmatrix, da gilt: Λ = G T SG = G T X T XG = Z T Z n 1 n 1. Die Spalten von Z := (Z1... Zk), d.h. die Score-Vektoren der HKs, sind also unkorreliert, und es gilt: ˆ = λ11... λkk = varzk ˆ 0. varz1 13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.2 Berechnung 13.1.2 Berechnung der Hauptkomponenten Da die HKs empirisch unkorreliert sind, addieren sich die empirischen Varianzen sämtlicher K HKs varz1 ˆ + varz2 ˆ +... + varzk ˆ zur Gesamtvariation der Daten, und es gilt: rp := varz1 ˆ + varz2 ˆ +... + varzp ˆ varz1 ˆ + varz2 ˆ +... + varzk ˆ. Die HKA bietet sich nun insofern zur Dimensionsreduktion an, dass die ersten HKs den größten Anteil an der Gesamtvariation repräsentieren. Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 445 Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 447

13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.2 Berechnung 13.1.2 Berechnung der Hauptkomponenten Oft reduziert man die Dimension des Ausgangsproblems (= Anzahl Merkmale in X ) auf diejenige Anzahl HKs, die mindestens 95% der Gesamtvariation repräsentieren: rp 0.95. Dabei hofft man natürlich, dass schon zwei oder drei HKs 95% der Gesamtvariation beschreiben, da so die Zusammenhänge grafisch gut darstellbar sind. Geometrisch gesehen handelt es sich bei einer Dimensionsreduktion auf die größten HKs um eine (Orthogonal-) Projektion, da die weggelassenen HKs unkorreliert mit den repräsentativen HKs sind und damit senkrecht (orthogonal) auf ihnen stehen. Farbstoffbeispiel: Zur Veranschaulichung der Berechnung wird die Hauptkomponentenanalyse der zwei mittelwertbereinigten Merkmale LAMBDAC (charakteristische Wellenlänge) und HUEREMAL (Farbton bei Kunstlicht) vorgeführt. Die empirische Kovarianzmatrix ist gegeben durch: S = 1 92 ( 15.231828 ) 6.335172 6.335172 3.626028 = ( 0.16556335 ) 0.06886057 0.06886057 0.03941325. Dabei hat die empirische Varianz von LAMBDAC den Wert 0.1656 und die empirische Varianz von HUEREMAL den Wert 0.0394. Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 448 Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 450 13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.2 Berechnung 13.1.2 Screeplot Variances 8 6 4 2 Comp.1 Comp.2 Comp.3 Comp.4 Screeplot Varianz erklärt durch HK Kandidat für max. Anzahl an HKs Comp.5 Abb. 6 : Screeplot zur Bestimmung der Anzahl der Hauptkpomponenten Comp.6 Comp.7 Comp.8 Comp.9 Comp.10 Die Spektralzerlegung dieser Kovarianzmatrix mit Hilfe einer geeigneten Software ergibt die Matrix der Loadings ( ) 0.9152732 0.4028337 G =, 0.4028337 0.9152732 so dass sich die HKs bestimmen lassen als PC1 = 0.915 LAMBDAC 0.403 HUEREMAL PC2 = 0.403 LAMBDAC + 0.915 HUEREMAL Die Matrix Z der HKs mit 93 Beobachtungen und zwei Spalten ergibt sich als Z = XG. Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 449 Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 451

Dabei ist die Matrix X gegeben durch die 93 Beobachtungen der Merkmale LAMBDAC und HUEREMAL. Weiter lässt sich aus den Matrizen G und S die Diagonalmatrix Λ bestimmen als: ( ) G T 0.195870536 0 SG = Λ =. 0 0.009106159 Die Diagonalelemente dieser Matrix sind die empirischen Varianzen der HKs, so dass die erste HK eine Varianz von ca. 0.20, die zweite eine von ca. 0.01 aufweist. Der Anteil an der Gesamtvarianz, der durch die erste HK erklärt wird, ist varz1 ˆ r1 = varz1 ˆ + varz2 ˆ = 0.195870536 0.2049767 = 0.96. Natürlich wird durch beide HKs die Gesamtvarianz der Daten erklärt: r2 = 1. Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 452 Bestimmung überflüssiger Merkmale Wenn r < K HKs ausreichen, um 100% der Gesamtvariation zu repräsentieren, dann haben die K r kleinsten HKs Zj Varianz 0, also var(zj) = 0. Für diese K r gewichteten Summen der K (mittelwertbereinigten) Originalmerkmale Xk sind dann alle Beobachtungen konstant = 0, also zik = (xi1 x1)g1k +... + (xik xk )gkk = 0, mit i = 1,..., n; k = r + 1,..., K. Diese K r Gleichungen lassen sich dann nach K r Originalmerkmalen auflösen. Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 454 Häufig sind die Originalmerkmale so sehr voneinander abhängig, dass sie selbst nur in r(< K) Dimensionen variieren. Die n Beobachtungen der K Merkmale liegen dann in einem r-dimensionalen Unterraum des R K. Dann gibt es K r versteckte exakte lineare Zusammenhänge zwischen den K Merkmalen X1,..., XK. In solchen Fällen kann man K r Merkmale aus den anderen ausrechnen. Diese Merkmale sind also überflüssig! Charakteristische Wellenlänge (Lawton, Sylvester, 1971): Für fünf produzierte Partien eines Farbstoffs liegt ein charakteristisches Absorptionsspektrum vor an den Wellenlängen 410-700nm in 10nm Schritten (s. Abbildung). Die Daten bestehen also aus fünf Beobachtungen von 30 Merkmalen. Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 453 Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 455

Abb. 7 : Charakteristische Absorptionsspektren Tab. 9 : Loadings der ersten beiden HKs Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 456 Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 458 Kann man die Unterschiede zwischen den fünf Partien ohne großen Informationsverlust einfacher charakterisieren, z.b. nur durch die Unterschiede bei einer einzelnen (charakteristischen) Wellenlänge? Nach der Durchführung der HKA der Originalmerkmale, d.h. auf Basis der Kovarianzmatrix, stellt sich heraus, dass die erste HK schon 96% der Gesamtvariation repräsentiert. Die zweite HK erklärt noch 3%, so dass die ersten beiden HKs zusammen (nahezu) 100 % der Gesamtvariation in den fünf Beobachtungen erklären. Die Loadings, also die Gewichte, mit denen die Originalmerkmale in die ersten beiden HKs eingehen, werden in einer Tabelle dargestellt. Der Absolutbetrag der Loadings ist maximal für 590 nm bei PC1 und für 550 nm bei PC2, so dass diese Wellenlängen am meisten zur Variation der Daten beitragen. Anders ausgedrückt heißt dies, dass sich die fünf Partien des Farbstoffs am meisten bzgl. dieser Wellenlängen unterscheiden. Der folgende Scores-Plot zeigt die fünf Farbstoffpartien in der Reihenfolge 1 Partie 1, 4, 3, 2, 5 in Richtung der ersten Hauptkomponente, bzw. 2 Partie 5, 1, 4, 3, 2 in Richtung der zweiten Hauptkomponente. Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 457 Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 459

Abb. 8 : Scores der ersten beiden HKs Abb. 9 : Loadings als Pseudospektren Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 460 Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 462 Partie 5 ist im Scores-Plot auffällig. Sie ist am entferntesten von den anderen Partien und ihnen daher am unähnlichsten. Wir hatten anhand der Loadings der HKs festgestellt, dass sich die fünf Partien am meisten bzgl. der Wellenlängen 550 nm und 590 nm unterscheiden. Schon in den Absorptionskurven in Abhängigkeit von der Wellenlänge werden die Unterschiede zwischen den Partien in den Wellenlängen um 600 nm deutlich. Andererseits ist der Zusammenhang zwischen den Wellenlängen und den HKs durch ihre Loadings gegeben. Die Loadings der HKs können also in Abhängigkeit der Wellenlängen quasi als Pseudospektren dargestellt werden: Abb. 10 : Überlagerung von Original- und Pseudospektren Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 461 Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 463

Die Überlagerung von Pseudospektren und Originalspektren in der vorangehenden Abbildung deutet an, dass die erste HK dort ihr größtes Loading hat, wo die Originalspektren am unterschiedlichsten sind, nämlich bei 590 nm. Für dieses Beispiel konnte also gezeigt werden, dass vor allem die Wellenlänge 590 nm und in geringerem Maß die Wellenlänge 550 nm für die Unterschiedlichkeit der Partien verantwortlich ist. 13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.4 Nachteile der HKA 13.1.4 Nachteile der HKA Der Wahl der Skaleneinheiten sollte also größte Aufmerksamkeit geschenkt werden. Meist wird einer von zwei Wegen beschritten: 1 Hauptkomponentenanalyse auf der Basis von Kovarianzen: Man sucht eine natürliche Einheit für jedes der beteiligten Merkmale. 2 Hauptkomponenten auf der Basis von Korrelationen: Man standardisiert sämtliche Merkmale auf Varianz 1. Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 464 Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 466 13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.4 Nachteile der HKA 13.1.4 Nachteile der HKA Nachteile der Hauptkomponentenanalyse Eine wichtige, eher nachteilige, Eigenschaft der HKA ist, dass sie nicht skaleninvariant ist. Falls sich also die Einheiten der Merkmale ändern, ändert sich auch das Ergebnis der HKA. Z.B. werden sich aus HKs von drei Merkmalen gemessen in kg, Meter und Jahren die HKs der entsprechenden Merkmale in g, cm und Monaten im Allg. nicht einfach durch Multiplizieren der Loadings der entsprechenden Merkmale mit 1000, 100 bzw. 1/12 ergeben. 13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.4 Nachteile der HKA 13.1.4 Nachteile der HKA Ein weiterer Nachteil der HKA ist die Tatsache, dass die HKs gewichtete Summen sämtlicher untersuchter Merkmale sind. Solche Summen lassen sich häufig schlecht interpretieren, u.a. weil die Merkmale unterschiedliche Einheiten aufweisen. Nur wenn alle beteiligten Merkmale dieselbe Einheit besitzen, wie in unserem Beispiel nm, ist die Interpretation kein Problem. Wenn die impliziten Merkmale aber nicht interpretierbar sind, sind sie für den Anwender häufig wertlos. Leider hat dieses Problem keine allgemeingültige Lösung. Manchmal wird die Interpretation aber schon dadurch vereinfacht, dass an einer HK nicht sämtliche Merkmale beteiligt sind, sondern nur wenige Originalmerkmale. Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 465 Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 467

13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.4 Nachteile der HKA 13.1.4 Nachteile der HKA Gesucht ist deshalb eine Vereinfachungsmethode für die Loadings, die versucht, einmal gefundene HKs (wenigstens näherungsweise) als gewichtete Summe möglichst weniger Originalmerkmale auszudrücken. Eine solche Vereinfachung hilft dann auch bei der Interpretation von HKs, bei denen alle beteiligten Originalmerkmale die gleiche Einheit besitzen. Angestrebt wird die Identifikation derjenigen Originalmerkmale, die eine HK hauptsächlich beeinflussen. Daraus resultiert dann idealerweise ein Loading-Vektor, in dem viele Komponenten verschwinden, d.h. den Wert 0 annehmen. Die Richtung dieses Vektors wird trotzdem fast mit der Richtung der HK übereinstimmen; und der Vektor wird fast unkorreliert mit den anderen HKs sein. Eine mögliche Methode besteht darin, die Scores der HKs mit Hilfe von schrittweiser Regression auf möglichst wenige Originalmerkmale zurückzuführen. Dieser Beitrag lässt sich also nur dann mit Hilfe des Loadings allein beurteilen, wenn die Werte (xij xj) für alle Originalmerkmale j = 1,..., K ähnlich groß sind. Das gilt z.b. bei einer Hauptkomponentenanalyse auf der Basis von Korrelationen, da dabei alle Originalmerkmale gleich skaliert sind, also in der gleichen Größenordnung schwanken. Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 468 Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 470 Wir haben im letzten Abschnitt bei dem Beispiel zur charakteristischen Wellenlänge die Wichtigkeit der Originalmerkmale für die HKs anhand der Größe der Loadings beurteilt. Diese Vorgehensweise ist streng genommen nur richtig, wenn die beteiligten Werte der Originalmerkmale ähnlich groß sind und wenn die Originalmerkmale nicht korreliert sind. Tatsächlich beeinflusst das Loading eines Originalmerkmals die HK über den sog. Beitrag (xij xj) gjk der i-ten Beobachtung des j-ten Originalmerkmals zur i-ten Beobachtung der k-ten Hauptkomponente. Auch wenn das Loading den Beitrag genügend gut charakterisieren sollte, bedeutet ein großes Loading nicht, dass die HK nicht ohne das dazugehörige Originalmerkmal darstellbar wäre. D.h. es kann möglich sein, die HK nur mit den anderen Originalmerkmalen genügend gut anzunähern. Der Grund dafür ist die im Allg. hohe Korrelation zwischen den Originalmerkmalen (Kollinearität), die bewirkt, dass der Beitrag eines Merkmals u.u. zu wesentlichen Teilen durch andere Merkmale abgedeckt werden kann. Tatsächlich wird sich, wie wir noch sehen werden, bei dem Beispiel zur charakteristischen Wellenlänge die Interpretation der Loadings als voreilig herausstellen. Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 469 Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 471

Zur Identifikation von Einflussfaktoren, die eine Zielgröße hauptsächlich beeinflussen, wird deshalb schrittweise ein lineares Modell für die Zielgröße in Abhängigkeit von den Einflussfaktoren aufgebaut, indem zunächst derjenige Faktor identifiziert wird, der den größten Effekt auf die Zielgröße hat, dann der Faktor mit dem größten zusätzlichen Effekt, usw. bis keine wesentliche Verbesserung der Modellanpassung mehr feststellbar ist. Im Fall der Vereinfachung von Hauptkomponenten tritt eine HK an die Stelle der Zielgröße und die Originalmerkmale an die Stelle der Einflussfaktoren. Ein solches Verfahren heißt Vorwärtsauswahl bzw. bei Verwendung des Kleinste-Quadrate-Kriteriums zur Bewertung der Effektgröße gierige schrittweise Regression durch Vorwärtsauswahl (greedy stepwise regression with forward selection). Der entscheidende Unterschied zwischen R 2 und R 2 adj ist die Tatsache, dass R 2 bei Hinzunahme eines weiteren Faktors in das Modell in jedem Fall größer wird, während dies für das adjustierte Bestimmtheitsmaß nicht zu gelten braucht. Durch die Hinzunahme eines Merkmals wird nämlich einerseits RSS, andererseits aber auch n K 1 kleiner. Je nachdem, was überwiegt, wird R 2 adj fallen oder steigen. Man sagt, dass bei Verwendung von R 2 adj die größere Komplexität des Modells durch die Hinzunahme eines weiteren Merkmals gegen den Nutzen in Form der besseren Erklärung der Zielgröße abgewogen wird. Deshalb wird im Folgenden bei der schrittweisen Regression R 2 adj als Bestimmtheitsmaß verwendet. Wenn n groß ist, spielt eine solche Angleichung natürlich keine wesentliche Rolle. Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 472 Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 474 Wesentlich für die Funktionstüchtigkeit eines solches Verfahrens ist die Wahl eines geeigneten Maßes für die Güte der Modellanpassung. Wir verwenden hier zunächst das adjustierte Bestimmtheitsmaß: wobei Radj 2 := 1 ˆσ2 var(y) ˆ, ˆσ 2 RSS := n K 1, RSS = Summe der quadrierten Residuen (Residual Sum of Squares). Schrittweise Regression Bei der gierigen schrittweisen Regression durch Vorwärtsauswahl wird zunächst ein Faktor aus den möglichen Faktoren so ausgewählt, dass die Summe der quadrierten Residuen RSS für das lineare Modell mit dem Achsenabschnitt und diesem Faktor minimal ist. Danach wird derjenige Faktor gewählt, dessen Hinzunahme in das Modell RSS am meisten verringert, usw. bis das adjustierte Bestimmtheitsmaß R 2 adj nicht mehr steigt. Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 473 Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 475

Wird die schrittweise Regression zur Vereinfachung von Hauptkomponenten angewendet, so führt das bei dem einführenden Beispiel zu überraschenden Ergebnissen. Charakteristische Wellenlänge: Schrittweise Regression ergibt, dass sich die ersten beiden HKs hier schon sehr befriedigend durch jeweils eine Wellenlänge erklären lassen (s. Tabelle). Insbesondere reicht die Wellenlänge 610 nm zur Charakterisierung der ersten HK aus. Die zweite HK wird charakterisiert durch die Wellenlänge 550 nm. Zur Illustration gibt die folgende Tabelle die Werte des adjustierten Bestimmtheitsmaßes bei der schrittweisen Regression der Wellenlängen auf die erste HK an. Schon bei Wellenlänge 610 nm im Modell werden fast 100 % der Variation der ersten HK PC1 erklärt. Die zweitbeste Erklärungsgüte liefert Wellenlänge 590 nm, die schon bei den Loadings auffällig war. Also liefert nicht die Wellenlänge mit dem größten Loading (590 nm) den größten Beitrag zu der ersten HKs, sondern die Wellenlänge 610 nm, die nur das viertgrößte Loading aufweist. Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 476 Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 478 Bei dieser Wellenlänge weisen die Partien eine andere Reihenfolge auf als in der ersten Hauptkomponente, nämlich diejenige Reihenfolge, die bei den Scores der zweiten HK beobachtet wurde (s. Originalspektren und Scores-Plot). Um die verschiedenen Farbstoffpartien zu unterscheiden, reicht in diesem Fall also die Betrachtung der beiden Wellenlängen 610 nm und 550 nm aus. Tab. 10 : Vereinfachung der HKs Tab. 11 : Schrittweise Regression auf PC1 Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 477 Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 479

13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.6 Bi-Plot 13.1.6 Bi-Plot Um eine gefundene Struktur zu verstehen, versucht man, Originalmerkmale zu finden, deren Änderung mit der Struktur in Zusammenhang gebracht werden kann. In unserem Beispiel wäre es z.b. ideal, wenn man die Richtung senkrecht zu den Clustern interpretieren könnte. Dann wäre bekannt, in welchem (evtl. impliziten) Merkmal sich die Cluster unterscheiden. Das kann mit dem sog. Bi-Plot versucht werden, in dem neben den Beobachtungen auch die Richtungen der Originalvariablen bzgl. der Hauptkomponenten eingezeichnet werden. 13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.6 Bi-Plot 13.1.6 Bi-Plot Farbstoffbeispiel: Zur Konstruktion des Loadings-Plots werden die Originalmerkmale durch ihre Gewichte in den HKs dargestellt. Um einen direkten Vergleich mit den Beobachtungen zu ermöglichen, können die Vektoren der Originalmerkmale um denselben Faktor gestreckt oder gestaucht werden. Meist wird dieser Faktor so gewählt, dass der längste Vektor gerade noch im Plot der Beobachtungen liegt. Z.B. hat SUMDYE in x-richtung, also für HK 1, das Loading 0.6829 und in y-richtung, also für HK 2 das Loading -0.7080. Multiplikation beider Loadings mit dem Faktor 87.86 ergibt die Werte 60 und -62.03, die im Plot abgetragen wurden. Die Loadings der anderen Merkmale wurden ebenfalls mit demselben Faktor multipliziert und in die Grafik eingezeichnet. Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 480 Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 482 13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.6 Bi-Plot 13.1.6 Bi-Plot Definition 12 (Bi-Plot) Ein Bi-Plot ist eine Überlagerung von zwei Plots, dem Scores-Plot der ersten beiden Hauptkomponenten und dem Plot der Loadings dieser HKs, wobei die Punkte der beiden Plots unterschiedlich gekennzeichnet sind. Dabei wird der Nullpunkt der Loadings in das arithmetische Mittel der Punkte des Scores-Plots gelegt, und die Loadings werden so skaliert, dass Scores-Plot und Loadings-Plot dieselbe Ausdehnung haben. 13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.6 Bi-Plot 13.1.6 Bi-Plot Die Richtung senkrecht zu den Clustern entspricht offenbar ziemlich genau der Variablen SUMDYE, der Summe der Farbstoffe in der chemischen Verbindung (s. nächste Abbildung). Nachfragen beim Anwender ergab, dass im Laufe der Zeit tatsächlich gefunden wurde, dass auch weniger Farbstoffinput ausreicht, um dieselbe Intensität der Färbung auf der Faser zu erreichen. Deshalb wurde die Produktion zweimal umgestellt! Der Bi-Plot stützt das insofern, dass u.a. die Farbstärke STRREM nahezu senkrecht auf SUMDYE steht, dass Farbstärke und Summe der Farbstoffe also nahezu unkorreliert sind. Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 481 Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 483

13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.6 Bi-Plot 13.1.6 Bi-Plot 13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.6 Bi-Plot 13.1.6 Typische Scores-Strukturen Die nächste Abbildung zeigt typische Strukturen, die in Streudiagrammen nach Projektion auf HKs auftreten können: 1 ein sog. Schrotschuss (uninteressante Struktur) 2 eine andere Variante von drei Clustern 3 nicht-lineare funktionale Abhängigkeit zwischen HKs. Abb. 12 : Typische Scores-Strukturen (PC1 gegen PC2) Abb. 11 : Bi-Plot Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 484 Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 486 13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.6 Bi-Plot 13.1.6 Typische Scores-Strukturen Erinnerung: Hauptkomponentenanalyse hat das Ziel, mittels Dimensionsredktion niedrigdimensionale Strukturen aus hochdimensionalen Daten herauszufiltern. Dabei ist zu beachten, dass Projektionen auf Hauptkomponenten höchstens nicht-lineare Strukturen zeigen können. Lineare Zusammenhänge zwischen den Originalmerkmalen sind deshalb nicht sichtbar, weil die HKs so konstruiert worden sind, dass sie evtl. existierende lineare Zusammenhänge oder Strukturen in sich aufnehmen. Technischer ausgedrückt sind HKs senkrecht aufeinander stehende implizite Merkmale und deshalb unkorreliert. 13 Dimensionsreduktion 13.1 Hauptkomponentenanalyse 13.1.6 Bi-Plot 13.1.6 Typische Scores-Strukturen Bei interessanten nicht-linearen Strukturen stellt sich wiederum das Problem der Interpretation. Was nutzt die einfache Formulierung eines gefundenen Zusammenhangs zwischen den Originalmerkmalen mit Hilfe von impliziten Merkmalen, wenn der Zusammenhang nicht interpretiert werden kann? Hier können wiederum schrittweise Regression und Bi-Plot wertvolle Hilfe leisten. Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 485 Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 487