Singular Value Decomposition

Ähnliche Dokumente
Aufgabensammlung aus Mathematik 2 UMIT, SS 2010, Version vom 7. Mai 2010

DEUTSCHE SCHULE MONTEVIDEO BIKULTURELLES DEUTSCH-URUGUAYISCHES ABITUR ( AUF SPANISCH )

Vektorräume und Rang einer Matrix

Prüfung Lineare Algebra Sei V ein n-dimensionaler euklidischer Raum. Welche der folgenden Aussagen ist wahr?

Korrelationsmatrix. Statistische Bindungen zwischen den N Zufallsgrößen werden durch die Korrelationsmatrix vollständig beschrieben:

Hauptkomponentenanalyse PCA

(x 1. Vektoren. g: x = p + r u. p r (u1. x 2. u 2. p 2

1.9 Eigenwerte und Eigenvektoren

Lineare Algebra und Geometrie für Ingenieure

Anwendungen der Linearen Algebra

9.2 Invertierbare Matrizen

Principal Component Analysis (PCA)

Serie 10: Inverse Matrix und Determinante

5.1 Determinanten der Ordnung 2 und 3. a 11 a 12 a 21 a 22. det(a) =a 11 a 22 a 12 a 21. a 11 a 21

entspricht der Länge des Vektorpfeils. Im R 2 : x =

4.4. Rang und Inversion einer Matrix

Die Lineare Algebra-Methode. Mahir Kilic

Vektorgeometrie - Teil 1

1 Lineare Algebra. 1.1 Matrizen und Vektoren. Slide 3. Matrizen. Eine Matrix ist ein rechteckiges Zahlenschema

6 Symmetrische Matrizen und quadratische Formen

MC-Serie 11: Eigenwerte

2 Euklidische Vektorräume

Mathematik für Informatiker II. Beispiellösungen zur Probeklausur. Aufgabe 1. Aufgabe 2 (5+5 Punkte) Christoph Eisinger Sommersemester 2011

Vektoralgebra Anwendungen der Vektorrechnung VEKTORRECHNUNG. Prof. Dr. Dan Eugen Ulmet. Hochschule Esslingen 1/64

Tutorium Mathematik II, M Lösungen

Corinne Schenka Vorkurs Mathematik WiSe 2012/13

Gliederung. Links-Rechts-Zerlegung Elimination faktorisiert A = L R. Determinante Inverse. Kleinste Quadrate. Lösung durch. Links-Rechts- Zerlegung

4.5 Überbestimmte Gleichungssysteme, Gauß sche Ausgleichrechnung

WS 2010/ Januar Mathematisches Institut der Universität München Prof. Dr. Rudolf Fritsch

Brückenkurs Mathematik

Homogenität Assoziativgesetz A (B 1 + B 2 ) = A B 1 + A B 2 Distributivgesetz 1 (A 1 + A 2 ) B = A 1 B + A 2 B Distributivgesetz 2

Spezialfall: Die Gleichung ax = b mit einer Unbekannten x kann mit Hilfe des Kehrwerts 1 a = a 1 gelöst werden:

Kapitel 2: Matrizen. 2.1 Matrizen 2.2 Determinanten 2.3 Inverse 2.4 Lineare Gleichungssysteme 2.5 Eigenwerte 2.6 Diagonalisierung

Jürgen Hausen Lineare Algebra I

Vorbereitungskurs Mathematik zum Sommersemester 2011 Tag 7

Jürgen Roth Didaktik der Linearen Algebra und Analytischen Geometrie

Faktorenanalyse. 1. Grundlegende Verfahren. Bacher, SoSe2007

Eigenwerte und Eigenvektoren von Matrizen

8 Lineare Abbildungen

Clustering Seminar für Statistik

Statistik. Jan Müller

Definitionen. Merkblatt lineare Algebra. affiner Teilraum Menge, die durch Addition eines Vektors v 0 zu allen Vektoren eines Vektorraumes V entsteht

4 Vorlesung: Matrix und Determinante

Multivariate Statistik

Geometrische Objekte im 3-dimensionalen affinen Raum oder,... wie nützlich ist ein zugehöriger Vektorraum der Verschiebungen

Mathematik 1, Teil B. Inhalt:

Eine lineare Abbildung ist bijektiv, d.h. ihre Matrix ist invertierbar, falls und nur falls

1 Zahlentheorie. 1.1 Kongruenzen

6. Faktorenanalyse (FA) von Tests

2 Die Darstellung linearer Abbildungen durch Matrizen

Eine zweidimensionale Stichprobe

Mathematik für Wirtschaftswissenschaftler, WS 10/11 Musterlösungen zu Aufgabenblatt 11

Matrizen, Determinanten, lineare Gleichungssysteme

Vektoren und Matrizen

geschlossene Schachtel mit einem kleinen Loch

Lernmaterialblatt Mathematik. Vektorrechnung eine Einführung. Anwendung Mathematik I. Einleitung:

Matrizen. Aufgabe 1. Sei f R 2 R 3 definiert durch. x y x Berechnen Sie die Matrix Darstellung von f. Lösung von Aufgabe 1.

& sind die Vektorkomponenten von und sind die Vektorkoordinaten von. A x. a) Der Betrag eines Vektors

Kapitel IR:III (Fortsetzung)

Kapitel VI. Euklidische Geometrie

Oktaeder. Bernhard Möller. 22. Dezember 2010

00. Einiges zum Vektorraum R n

KAPITEL 4. Lineare Ausgleichsrechnung Beispiel 4.1. Das Ohmsche Gesetz: U = RI. Eine Meßreihe von Daten:

Computer Vision: 3D-Geometrie. D. Schlesinger () Computer Vision: 3D-Geometrie 1 / 17

Bildverarbeitung Herbstsemester Kanten und Ecken

Grundlagen der Computer-Tomographie

Lineare Gleichungssysteme (Teschl/Teschl 11.1)

Vektoren. 2.1 Darstellung. Kapitel Subtraktion und Addition

Erinnerung/Zusammenfassung zu Abbildungsmatrizen

3.3 Klassifikation quadratischer Formen auf R n

Determinanten. a e b f a c b d. b) x = , y = c) zu einem Spaltenvektor das Vielfache des anderen Spaltenvektors addiert wird,

Bestimmung einer ersten

klar. Um die zweite Bedingung zu zeigen, betrachte u i U i mit u i = 0. Das mittlere -Zeichen liefert s

Kapitel 12. Lineare Abbildungen und Matrizen

OPERATIONS-RESEARCH (OR)

Lineare Algebra II 5. Übungsblatt

KLAUSUR ZUR LINEAREN ALGEBRA I 22. Februar 2008

Einführung in die Vektor- und Matrizenrechnung. Matrizen

Statistische Methoden

Computer Vision SS Skript

Kapitel 17. Determinanten

Hans Walser, [ a] Wurzeln aus Matrizen

4.4 Orthogonalisierungsverfahren und die QR-Zerlegung

Kartographische Visualisierung

Einführung. Vorlesungen zur Komplexitätstheorie: Reduktion und Vollständigkeit (3) Vorlesungen zur Komplexitätstheorie. K-Vollständigkeit (1/5)

Seminar zum Thema Künstliche Intelligenz:

Eigenwerte und Eigenvektoren

KLAUSUR ZUR LINEAREN ALGEBRA I MUSTERLÖSUNG

Formelsammlung Analytische Geometrie

x 2 2x + = 3 + Es gibt genau ein x R mit ax + b = 0, denn es gilt

Engineering Design via Surrogate Modelling Sampling Plans

Seminararbeit für das SE Reine Mathematik- Graphentheorie

Jürgen Roth Didaktik der Linearen Algebra & Analytischen Geometrie

Lehrskript Mathematik Q12 Analytische Geometrie

Lineare Abbildungen. Es seien V und W Vektorräume über einem Körper K. Eine Abbildung f : V W heißt linear oder Homomorphismus, falls. d.h.

Schulinternes Curriculum Mathematik Sekundarstufe II/Lk. Stand: November 2011

Zusammenhänge zwischen metrischen Merkmalen

2 Geradengleichungen in Parameterform. Länge und Skalarprodukt

Transkript:

Singular Value Decomposition (Singulärwertzerlegung) Seminar Robust Design Vitali Müller

2 Inhalt Was ist die SVD? Interpretationen Anwendungsmöglichkeiten Berechnung

3 Datenmatrix Experiment mit n Objekten und m Attributen ergibt n m-matrix Beispiel: Umfrage, 40 Teilnehmer beurteilen 10 Weine geben jeweils Note von 1 (schlecht) bis 10 (gut) W1 W2 W10 T1 10 9 9 T2 9 8 7 T3 6 7 6 T4 4 4 3 meist n>>m oft n 1.000.000, m 100 T39 4 3 4 T40 2 3 4

4 Definition Zerlegung der n m-matrix A: A = USV T A = U S V T mit S n m-matrix mit absteigend geordneten Singulärwerten von A auf fder Diagonale, sonst 0 Spalten von U (n n) und V (m m) enthalten die Singulärvektoren von A und bilden Orthonormalbasen U und V sind also orthogonal (UU T = I, VV T = I)

5 Singulärwerte und -vektoren Singulärwerte: Wurzeln der Eigenwerte von A T A Singulärvektoren: Eigenvektoren von A T A (hier Spalten von U) Eigenvektoren von AA T (hier Spalten von V)

6 Thin SVD m+1-te bis n-te Spalte von U nicht von Bedeutung, da sie mit 0 multipliziert werden (U S) wenn Rang(A)=r, bleiben nur r Spalten von U und V übrig, da es dann nur r Singulärwerte ungleich 0 gibt diese verkürzte Schreibweise wird thin SVD genannt A = U S V T In der Praxis meistens m=r, da durch Messfehler Attribute fast nie ganz linear abhängig sind

7 Normalisierung Messwerte sollten realistische bzw. vergleichbare Größen aufweisen Beispiel: Gewicht und Größe bei Menschen korreliert aber: wenn das Gewicht in Gramm und die Größe in Kilometern angegeben wird, erscheint das Gewicht viel wichtiger ohne Vorkenntnisse

8 Normalisierung meist weiß man aber nicht, was realistisch ist Vorgehen deswegen: Annahme: alle Attribute sind gleich wichtig man skaliert alle Einträge (spaltenweise) auf eine ähnliche Größe z.b. indem man jeden Wert einer Spalte durch die Standardabweichung der Spalte dividiert außerdem Zentrierung der Werte vorteilhaft: durch Subtraktion des Mittelwerts einer Spalte von allen Einträgen dieser

9 Interpretationen der SVD Aufschlüsselung der Einflussfaktoren oder Prozesse hinter den Daten geometrische Interpretation: Objekte als geometrische Interpretation: Objekte als Elemente eines neuen Vektorraums

10 Einflussfaktoren Zeilen von V T (Spalten von V) können als Einflussfaktoren aufgefasst werden, die den Daten zugrunde liegen m (sie definieren neue Achsen im R ) Zeilen von U als Koordinaten der Objekte bzgl. dieser Achsen

11 Einflussfaktoren: Beispiel Betrachtung der ersten zwei neuen Dimensionen beim Weintest ergibt folgendes Bild Punkte entsprechen den Testpersonen (Objekten)

12 Einflussfaktoren: Beispiel Aber was bedeuten diese Dimensionen? füge künstliche Objekte mit extremen Werten hinzu: (10 10 10) (jemand, der jeden Wein sehr gut findet)

13 Einflussfaktoren: Beispiel Aber was bedeuten diese Dimensionen? füge künstliche Objekte mit extremen Werten hinzu: (1 1 1) (jemand, der jeden Wein sehr schlecht findet)

14 Einflussfaktoren: Beispiel Weitere Möglichkeit für künstliche Objekte: jemand, der Rotwein sehr mag, aber Weißwein gar nicht: (10 10 1 1)

15 Einflussfaktoren: Beispiel Weitere Möglichkeit für künstliche Objekte: jemand, der Rotwein sehr mag, aber Weißwein gar nicht: (10 10 1 1) und umgekehrt: (1 1 10 10)

16 Einflussfaktoren: Beispiel offensichtliche Ergebnisse: erste neue Dimension U1: Mögen von Wein überhaupt (links: mag Wein, rechts: mag keinen Wein) U2: Präferenz für Rotwein (oben) oder für Weißwein Folgerung aus der Dreiecksgestalt: je weniger jemand Wein mag, desto eher hat er eine Vorliebe für Rot- oder Weißwein so kann man bis zu 3 Dimensionen auf einmal graphisch untersuchen aber es ist oft nicht so leicht, Faktoren zu deuten

17 geometrische Interpretation Spalten von V T m bilden eine Orthonormalbasis des (da V orthogonal) Zeilen von U als Koordinaten bzgl. dieser Basis Einträge von S als Streckungsfaktoren für die einzelnen Achsen da die Singulärwerte in S absteigend: meiste Variation in der 1. Dimension

18 Drehung / Skalierung m-dimensionale Einheitskugel wird durch V T gedreht und durch S skaliert) passt dann über die Daten Vorteil der Normalisierung: Daten bilden schon in etwa eine Einheitskugel um 0 Drehung/Skalierung konzentriert sich nur auf die Verteilung der Objekte in die jeweiligen Richtungen

19 Drehung / Skalierung: Spezialfall Daten scheinen m-dimensional zu sein, sind aber nur eine r-dimensionale Mannigfaltigkeit erkennbar, da weniger neue Koordinaten gebraucht werden, um die Objekte zu beschreiben Beispiel: Datenpunkte liegen auf einer Geraden, es werden aber beide Koordinaten genutzt nach SVD: nur noch Ausbreitung entlang der ersten Dimensioni

20 Skalarprodukte, Korrelation man betrachtet die Datenpunkte als Vektoren relative Richtung zweier Vektoren und damit ihr Skalarprodukt geben Auskunft über ihre Korrelation: ungefähr die selbe Richtung bedeutet starke Korrelation und großes positives Skalarprodukt ungefähr entgegengesetzte Richtung: starke negative Korrelation und großes negatives Skalarprodukt Richtungen ungefähr orthogonal: schwache Korrelation und Skalarprodukt nahe bei 0

21 Skalarprodukte, Korrelation Objekte, die mit vielen anderen unkorreliert sind, haben kleine Skalarprodukte mit diesen aber: wegen n>>m gibt es nicht genug orthogonale Richtungen einzige Möglichkeit für ein kleines Skalarprodukt: eine Lage nah beim Ursprung, Objekte, die mit vielen anderen korreliert sind, zeigen in viele Richtungen, sind also kurz sie liegen also auch nah hbeim Ursprung Objekte, die nur mit einigen anderen korreliert sind: liegen meist weit vom Ursprung entfernt

22 Skalarprodukte, Korrelation Objekte, die mit fast keinen oder mit sehr vielen anderen korreliert sind, sind weniger interessant Sortierung nach Abstand vom Ursprung entspricht also der Sortierung nach Interesse für weitere Untersuchungen Im Beispiel würde man also zunächst die Objekte in der Nähe der Ecken des Dreiecks untersuchen

23 A als Summe überlagernder Prozesse A = USV T a i,j = u i,1 s 1,1 v j,1 + u i,2 s 2,2 v j,2 + + u i,m s m,m v j,m Einträge von A jeweils Summe von m Produkten A ergibt sich durch Überlagerung g einzelner Prozesse

24 Anwendungen der SVD Auswahl von Daten zur weiteren Analyse Datenkompression Untersuchung von Korrelationen zwischen Objekten und zwischen Attributen Clustering

25 Auswahl von Daten Im Wesentlichen 2 Gründe, Daten wegzulassen: man hält sie für Störungen (noise) man will die Prozesse dahinter nicht modellieren (z.b. weil sie vernachlässigbar sind)

26 Denoising: Beispiel 2 perfekt korrelierte Attribute SVD würde wirkliche Dimension der Daten erkennen durch Störungen auch noch nach SVD 2-dimensional Streuung in dieser Dimension aber nicht so groß, da keine wirkliche Struktur vorhanden

27 Denoising durch Störungen kann die Dimension eines Datensatzes deutlich höher erscheinen als sie in Wirklichkeit ist Größe der Singulärwerte gibt Auskunft über Streuung in der jeweiligen Dimension (Streckungsfaktoren) Singulärwerte absteigend geordnet, also beinhalten die letzten Dimensionen am ehesten Störungen man behält nur die ersten k Dimensionen und lässt den Rest weg

28 Denoising: Wahl von k eine der Möglichkeiten: Singulärwerte plotten (hier logarithmisch) nach einer Abflachung oder einem Knick suchen mögliche Entscheidung hier: k=2 (mit Abstand die größten Singulärwerte) k=4 (danach Absenkung) k=7 (so wie bei 4) subjektive Entscheidung!

29 Datenkompression man kann aber auch bewusst Daten weglassen, die keine Störungen sind, um Speicherplatz zu sparen da die ersten Dimensionen den größten Informationsgehalt haben, behält man diese

30 Datenkompression k Dimensionen behalten bedeutet dabei konkret: (k+1)-te bis m-te Spalte von U gleich 0 setzen U k Diagonaleinträge von S ab dem (k+1)-ten 0 setzen S k (man speichert nur die k ersten Singulärwerte) (k+1)-te bis m-te Zeile von V T gleich 0 setzen V k T A =U T k k S k V kt Approximation für A Rang von A k ist k A k ist sogar die beste Approximation für A mit Rang k bzgl. der Spektral- und der Frobeniusnorm

31 Datenkompression Speicherung von U k, V k und der ersten k Singulärwerte statt A nutzbar zum Sparen von Speicherplatz bei n n-matrix: U k und V k sind n k-matrizen 2nk Einträge gegenüber n² bei A Ersparnis bei k<n/2 um den Faktor n/2k Anwendung z.b. bei der Speicherung von Bildern: Bild als Matrix Einträge entsprechen Farben der einzelnen Pixel (als Zahlen kodiert)

32 Datenkompression bei Bildern Original (400x400) Approximation durch SVD mit k=200

33 Datenkompression bei Bildern Original (400x400) Approximation durch SVD mit k=150

34 Datenkompression bei Bildern Original (400x400) Approximation durch SVD mit k=100

35 Datenkompression bei Bildern Original (400x400) Approximation durch SVD mit k=50

36 Datenkompression bei Bildern Original (400x400) Approximation durch SVD mit k=5

37 Datenkompression bei Bildern Bilder wurden bearbeitet mit einer Matlab-Routine von utenti.lycos.it/matlab it/matlab Aufruf: out=imcompr( Input.bmp,Rang, Output.bmp'); mit Rang = Anzahl der zu benutzenden Singulärwerte

38 Korrelationsmatrizen Untersuchung von Beziehungen zwischen Objekten: Korrelationsmatrix i AA T zwischen Attributen: Korrelationsmatrix A T A

39 Korrelationsmatrizen Beispiel: 1 2 5 15-10 0,2 15 45-30 06 0,6-10 -30 20-0,4 3 6 A = AA T = -2-4 -2 11 1,1 02 0,2 06 0,6-0,4 521 5,21 Objekte 1 und 2 korreliert, 1 und 3 negativ korreliert, 4 itk ist kaum mit itden anderen Objkt Objekten korreliert Vergleich von A k A kt mit AA T hilft bei der Unterscheidung zwischen Beziehungen, die durch die ersten k Prozesse bedingt werden und denen, die durch die weggelassenen Prozesse verursacht werden

40 Clustering Ziel: Zusammenfassung von ähnlichen Objekten in Gruppen Möglichkeiten der Auffassung von Ähnlichkeit: Euklidische Distanz Kosinus-Ähnlichkeit: misst die Korrelation (Winkel) Untersuchung der Ähnlichkeit der Objekte nach Anwendung der SVD und Denoising (Zeilen von U) leichter als davor (Zeilen von A), da Dimension deutlich hkleiner im Folgenden zwei von vielen Clustering-Verfahren

41 Clustering k-means-algorithmus zufällige Auswahl von k Clusterzentren Zuordnung der Objekte zum jeweils nächsten in euklidischer Distanz Neuberechnung der Clusterzentren (z.b. Mittelwerte der Koordinaten in jeder Dimension) neue Zuordnung der Objekte usw. bis sich nichts mehr ändert

42 Clustering Anderer Ansatz : 45 -Kegel um Achsen bilden Cluster (1 oder 2 pro Achse) jedes Cluster enthält Vektoren, die mit einer bestimmten Achse am stärksten korrelieren Kosinus-Ähnlichkeit gegeben

43 Berechnung der SVD direkte Berechnung der Eigenwerte und vektoren von A T A numerisch nicht sinnvoll viele andere Algorithmen Komplexität der SVD im Allgemeinen: n²m+nm² da m meist viel kleiner als n kann man annehmen: O(n²m) in viele Softwarepakete integriert in Matlab: [U,S,V]=svd(A)

44 SVD Aktualisieren A bleibt gleich groß, aber einige Werte ändern sich: lässt sich proportional zu n neu berechnen, wenn die Änderungen klein sind A bekommt eine zusätzliche Zeile oder Spalte: (z.b. künstliches Objekt oder neues Experiment) man benutzt die Gleichung U=AVS -1,um die neue Zeile von U zu berechnen (Umformung von A = USV T mit V -1 =V T ) analog für V schnell zu berechnen, aber Orthogonalität geht verloren

45 Zusammenfassung wichtige Anwendungen der SVD: Analyse von großen Datenmengen direkt ( Interpretation als Einflussfaktoren) indirekt durch Verbesserung/Erleichterung anderer Verfahren: Clustering Korrelationsmatrizen Filterung von Störungen in den Daten (Denoising) Datenkompression (z.b. bei Bildern)